From b8eae609a3e27ee6a1748183d7cf4785dae55b40 Mon Sep 17 00:00:00 2001
From: William Ayd <william.ayd@icloud.com>
Date: Wed, 2 Oct 2024 14:29:35 -0400
Subject: [PATCH 01/38] GH-41891: [C++] Clean up implicit fallthrough warnings
 (#41892)

### Rationale for this change

Helps clean up warnings, and at least one of these looks like a subtle bug that may confuse developers

### What changes are included in this PR?

Added break statements where case statements were previously falling through

### Are these changes tested?

Builds cleanly

### Are there any user-facing changes?

No

* GitHub Issue: #41891

Authored-by: Will Ayd <william.ayd@icloud.com>
Signed-off-by: Will Ayd <william.ayd@icloud.com>
---
 cpp/cmake_modules/SetupCxxFlags.cmake |  1 +
 cpp/src/arrow/c/bridge.cc             |  1 +
 cpp/src/arrow/util/utf8_internal.h    |  7 +++++++
 cpp/src/gandiva/precompiled/hash.cc   | 16 ++++++++++++++++
 python/pyarrow/tests/test_cffi.py     |  2 +-
 5 files changed, 26 insertions(+), 1 deletion(-)

diff --git a/cpp/cmake_modules/SetupCxxFlags.cmake b/cpp/cmake_modules/SetupCxxFlags.cmake
index e2e1c4412abd0..fd26dc7dd9c79 100644
--- a/cpp/cmake_modules/SetupCxxFlags.cmake
+++ b/cpp/cmake_modules/SetupCxxFlags.cmake
@@ -331,6 +331,7 @@ if("${BUILD_WARNING_LEVEL}" STREQUAL "CHECKIN")
     set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wno-conversion")
     set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wno-sign-conversion")
     set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wdate-time")
+    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wimplicit-fallthrough")
     string(APPEND CXX_ONLY_FLAGS " -Wredundant-move")
     set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wunused-result")
   elseif(CMAKE_CXX_COMPILER_ID STREQUAL "Intel" OR CMAKE_CXX_COMPILER_ID STREQUAL
diff --git a/cpp/src/arrow/c/bridge.cc b/cpp/src/arrow/c/bridge.cc
index 4f9095182f90c..0976a5cb615f4 100644
--- a/cpp/src/arrow/c/bridge.cc
+++ b/cpp/src/arrow/c/bridge.cc
@@ -2333,6 +2333,7 @@ class ArrayStreamReader {
         break;
       case ENOSYS:
         code = StatusCode::NotImplemented;
+        break;
       default:
         code = StatusCode::IOError;
         break;
diff --git a/cpp/src/arrow/util/utf8_internal.h b/cpp/src/arrow/util/utf8_internal.h
index 335e875f7ae20..eb62f349ac568 100644
--- a/cpp/src/arrow/util/utf8_internal.h
+++ b/cpp/src/arrow/util/utf8_internal.h
@@ -183,18 +183,25 @@ static inline bool ValidateUTF8Inline(const uint8_t* data, int64_t size) {
   switch (size) {
     case 7:
       state = internal::ValidateOneUTF8Byte(data[size - 7], state);
+      [[fallthrough]];
     case 6:
       state = internal::ValidateOneUTF8Byte(data[size - 6], state);
+      [[fallthrough]];
     case 5:
       state = internal::ValidateOneUTF8Byte(data[size - 5], state);
+      [[fallthrough]];
     case 4:
       state = internal::ValidateOneUTF8Byte(data[size - 4], state);
+      [[fallthrough]];
     case 3:
       state = internal::ValidateOneUTF8Byte(data[size - 3], state);
+      [[fallthrough]];
     case 2:
       state = internal::ValidateOneUTF8Byte(data[size - 2], state);
+      [[fallthrough]];
     case 1:
       state = internal::ValidateOneUTF8Byte(data[size - 1], state);
+      [[fallthrough]];
     default:
       break;
   }
diff --git a/cpp/src/gandiva/precompiled/hash.cc b/cpp/src/gandiva/precompiled/hash.cc
index eacf3623087a0..e312c9e634306 100644
--- a/cpp/src/gandiva/precompiled/hash.cc
+++ b/cpp/src/gandiva/precompiled/hash.cc
@@ -223,36 +223,50 @@ static inline gdv_uint64 murmur3_64_buf(const gdv_uint8* key, gdv_int32 len,
   switch (len & 15) {
     case 15:
       k2 = static_cast<gdv_uint64>(tail[14]) << 48;
+      [[fallthrough]];
     case 14:
       k2 ^= static_cast<gdv_uint64>(tail[13]) << 40;
+      [[fallthrough]];
     case 13:
       k2 ^= static_cast<gdv_uint64>(tail[12]) << 32;
+      [[fallthrough]];
     case 12:
       k2 ^= static_cast<gdv_uint64>(tail[11]) << 24;
+      [[fallthrough]];
     case 11:
       k2 ^= static_cast<gdv_uint64>(tail[10]) << 16;
+      [[fallthrough]];
     case 10:
       k2 ^= static_cast<gdv_uint64>(tail[9]) << 8;
+      [[fallthrough]];
     case 9:
       k2 ^= static_cast<gdv_uint64>(tail[8]);
       k2 *= c2;
       k2 = rotate_left(k2, 33);
       k2 *= c1;
       h2 ^= k2;
+      [[fallthrough]];
     case 8:
       k1 ^= static_cast<gdv_uint64>(tail[7]) << 56;
+      [[fallthrough]];
     case 7:
       k1 ^= static_cast<gdv_uint64>(tail[6]) << 48;
+      [[fallthrough]];
     case 6:
       k1 ^= static_cast<gdv_uint64>(tail[5]) << 40;
+      [[fallthrough]];
     case 5:
       k1 ^= static_cast<gdv_uint64>(tail[4]) << 32;
+      [[fallthrough]];
     case 4:
       k1 ^= static_cast<gdv_uint64>(tail[3]) << 24;
+      [[fallthrough]];
     case 3:
       k1 ^= static_cast<gdv_uint64>(tail[2]) << 16;
+      [[fallthrough]];
     case 2:
       k1 ^= static_cast<gdv_uint64>(tail[1]) << 8;
+      [[fallthrough]];
     case 1:
       k1 ^= static_cast<gdv_uint64>(tail[0]) << 0;
       k1 *= c1;
@@ -308,8 +322,10 @@ static gdv_uint32 murmur3_32_buf(const gdv_uint8* key, gdv_int32 len, gdv_int32
   switch (len & 3) {
     case 3:
       lk1 = (tail[2] & 0xff) << 16;
+      [[fallthrough]];
     case 2:
       lk1 |= (tail[1] & 0xff) << 8;
+      [[fallthrough]];
     case 1:
       lk1 |= (tail[0] & 0xff);
       lk1 *= c1;
diff --git a/python/pyarrow/tests/test_cffi.py b/python/pyarrow/tests/test_cffi.py
index e994a09f92ed2..84290a6b880ef 100644
--- a/python/pyarrow/tests/test_cffi.py
+++ b/python/pyarrow/tests/test_cffi.py
@@ -492,7 +492,7 @@ def gen():
     original._export_to_c(ptr_stream)
 
     reader = pa.RecordBatchReader._import_from_c(ptr_stream)
-    with pytest.raises(OSError) as exc_info:
+    with pytest.raises(NotImplementedError) as exc_info:
         reader.read_next_batch()
 
     # inner *and* outer exception should be present

From b754d5a4ef1c169771c17f88fca6558bfe6b8440 Mon Sep 17 00:00:00 2001
From: Sylvain Wallez <sylvain@bluxte.net>
Date: Thu, 3 Oct 2024 03:49:19 +0200
Subject: [PATCH 02/38] GH-30863: [JS] Use a singleton StructRow proxy handler
 (#44289)

### Rationale for this change

Fixes #30863 by using a singleton proxy handler in `StructRow`'s
constructor. Since the handler is stateless, there is no need to create
a new instance for each row.

### What changes are included in this PR?

Refactoring `StructRow`'s constructor to extract the proxy handler.

### Are these changes tested?

No additional tests since this is an internal refactoring, but `yarn
test` runs successfully.

### Are there any user-facing changes?

No.

* GitHub Issue: #30863
---
 js/src/row/struct.ts | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/js/src/row/struct.ts b/js/src/row/struct.ts
index bc3869cb8d08f..074ec91fd64b3 100644
--- a/js/src/row/struct.ts
+++ b/js/src/row/struct.ts
@@ -39,7 +39,7 @@ export class StructRow<T extends TypeMap = any> {
     constructor(parent: Data<Struct<T>>, rowIndex: number) {
         this[kParent] = parent;
         this[kRowIndex] = rowIndex;
-        return new Proxy(this, new StructRowProxyHandler());
+        return new Proxy(this, structRowProxyHandler);
     }
 
     public toArray() { return Object.values(this.toJSON()); }
@@ -157,3 +157,5 @@ class StructRowProxyHandler<T extends TypeMap = any> implements ProxyHandler<Str
         return false;
     }
 }
+
+const structRowProxyHandler = new StructRowProxyHandler();

From aee3078c8da910a71fcf4b9496e14dcc8c6dfb2c Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Ra=C3=BAl=20Cumplido?= <raulcumplido@gmail.com>
Date: Thu, 3 Oct 2024 11:56:29 +0200
Subject: [PATCH 03/38] GH-43878: [Go][Release] Remove Go related codes from
 our release scripts (#44172)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

### Rationale for this change

The Go implementation is moving to apache/arrow-go from go/ in apache/arrow.

### What changes are included in this PR?

Remove go related release scripts from apache/arrow

### Are these changes tested?

The source verification is tested via archery

### Are there any user-facing changes?

Yes, Go will not be releases as part of Apache Arrow anymore.
* GitHub Issue: #43878

Authored-by: Raúl Cumplido <raulcumplido@gmail.com>
Signed-off-by: Raúl Cumplido <raulcumplido@gmail.com>
---
 dev/release/01-prepare-test.rb                | 14 ---
 dev/release/post-12-bump-versions-test.rb     | 75 --------------
 dev/release/post-13-go.sh                     | 34 -------
 .../{post-14-msys2.sh => post-13-msys2.sh}    |  0
 ...ost-15-homebrew.sh => post-14-homebrew.sh} |  0
 .../{post-16-vcpkg.sh => post-15-vcpkg.sh}    |  0
 .../{post-17-conan.sh => post-16-conan.sh}    |  0
 dev/release/utils-prepare.sh                  | 15 ---
 dev/release/verify-release-candidate.sh       | 97 +------------------
 docs/source/developers/release.rst            | 22 ++---
 docs/source/index.rst                         |  2 +-
 r/_pkgdown.yml                                |  2 +-
 12 files changed, 9 insertions(+), 252 deletions(-)
 delete mode 100755 dev/release/post-13-go.sh
 rename dev/release/{post-14-msys2.sh => post-13-msys2.sh} (100%)
 rename dev/release/{post-15-homebrew.sh => post-14-homebrew.sh} (100%)
 rename dev/release/{post-16-vcpkg.sh => post-15-vcpkg.sh} (100%)
 rename dev/release/{post-17-conan.sh => post-16-conan.sh} (100%)

diff --git a/dev/release/01-prepare-test.rb b/dev/release/01-prepare-test.rb
index fec99ef058c5b..ca53b7f8fdee5 100644
--- a/dev/release/01-prepare-test.rb
+++ b/dev/release/01-prepare-test.rb
@@ -218,20 +218,6 @@ def test_version_pre_tag
       ]
     end
     expected_changes += [
-      {
-        path: "go/arrow/doc.go",
-        hunks: [
-          ["-const PkgVersion = \"#{@snapshot_version}\"",
-           "+const PkgVersion = \"#{@release_version}\""],
-        ],
-      },
-      {
-        path: "go/parquet/writer_properties.go",
-        hunks: [
-          ["-\tDefaultCreatedBy          = \"parquet-go version #{@snapshot_version}\"",
-           "+\tDefaultCreatedBy          = \"parquet-go version #{@release_version}\""],
-        ],
-      },
       {
         path: "js/package.json",
         hunks: [
diff --git a/dev/release/post-12-bump-versions-test.rb b/dev/release/post-12-bump-versions-test.rb
index f31e1a3122814..9af334c496fe6 100644
--- a/dev/release/post-12-bump-versions-test.rb
+++ b/dev/release/post-12-bump-versions-test.rb
@@ -210,15 +210,6 @@ def test_version_post_tag
             ["+        (#{@next_major_version}, 0),"],
           ],
         },
-        {
-          path: "docs/source/index.rst",
-          hunks: [
-            [
-              "-   Go <https://pkg.go.dev/github.com/apache/arrow/go/v#{@snapshot_major_version}>",
-              "+   Go <https://pkg.go.dev/github.com/apache/arrow/go/v#{@next_major_version}>",
-            ],
-          ],
-        },
         {
           path: "r/pkgdown/assets/versions.json",
           hunks: [
@@ -234,15 +225,6 @@ def test_version_post_tag
             ],
           ],
         },
-        {
-          path: "r/_pkgdown.yml",
-          hunks: [
-            [
-              "-          [Go](https://pkg.go.dev/github.com/apache/arrow/go/v#{@snapshot_major_version}) <br>",
-              "+          [Go](https://pkg.go.dev/github.com/apache/arrow/go/v#{@next_major_version}) <br>",
-            ],
-          ],
-        },
       ]
     else
       expected_changes += [
@@ -260,63 +242,6 @@ def test_version_post_tag
       ]
     end
 
-    Dir.glob("go/**/{go.mod,*.go,*.go.*,README.md}") do |path|
-      if path == "go/arrow/doc.go"
-        expected_changes << {
-          path: path,
-          hunks: [
-            [
-              "-const PkgVersion = \"#{@snapshot_version}\"",
-              "+const PkgVersion = \"#{@next_snapshot_version}\"",
-            ],
-          ]
-        }
-        next
-      end
-
-      import_path = "github.com/apache/arrow/go/v#{@snapshot_major_version}"
-      hunks = []
-      if next_release_type == :major
-        lines = File.readlines(path, chomp: true)
-        target_lines = lines.each_with_index.select do |line, i|
-          line.include?(import_path)
-        end
-        next if target_lines.empty?
-        n_context_lines = 3 # The default of Git's diff.context
-        target_hunks = [[target_lines.first[0]]]
-        previous_i = target_lines.first[1]
-        target_lines[1..-1].each do |line, i|
-          if i - previous_i < n_context_lines
-            target_hunks.last << line
-          else
-            target_hunks << [line]
-          end
-          previous_i = i
-        end
-        target_hunks.each do |lines|
-          hunk = []
-          lines.each do |line,|
-            hunk << "-#{line}"
-          end
-          lines.each do |line|
-            new_line = line.gsub("v#{@snapshot_major_version}") do
-              "v#{@next_major_version}"
-            end
-            hunk << "+#{new_line}"
-          end
-          hunks << hunk
-        end
-      end
-      if path == "go/parquet/writer_properties.go"
-        hunks << [
-          "-\tDefaultCreatedBy          = \"parquet-go version #{@snapshot_version}\"",
-          "+\tDefaultCreatedBy          = \"parquet-go version #{@next_snapshot_version}\"",
-        ]
-      end
-      next if hunks.empty?
-      expected_changes << {hunks: hunks, path: path}
-    end
-
     Dir.glob("java/**/pom.xml") do |path|
       version = "<version>#{@snapshot_version}</version>"
       lines = File.readlines(path, chomp: true)
diff --git a/dev/release/post-13-go.sh b/dev/release/post-13-go.sh
deleted file mode 100755
index 7c60348379564..0000000000000
--- a/dev/release/post-13-go.sh
+++ /dev/null
@@ -1,34 +0,0 @@
-#!/usr/bin/env bash
-#
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-set -ue
-
-SOURCE_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
-
-if [ "$#" -ne 1 ]; then
-    echo "Usage: $0 <version>"
-    exit
-fi
-
-version=$1
-version_tag="apache-arrow-${version}"
-go_arrow_tag="go/v${version}"
-
-git tag "${go_arrow_tag}" "${version_tag}"
-git push apache "${go_arrow_tag}"
diff --git a/dev/release/post-14-msys2.sh b/dev/release/post-13-msys2.sh
similarity index 100%
rename from dev/release/post-14-msys2.sh
rename to dev/release/post-13-msys2.sh
diff --git a/dev/release/post-15-homebrew.sh b/dev/release/post-14-homebrew.sh
similarity index 100%
rename from dev/release/post-15-homebrew.sh
rename to dev/release/post-14-homebrew.sh
diff --git a/dev/release/post-16-vcpkg.sh b/dev/release/post-15-vcpkg.sh
similarity index 100%
rename from dev/release/post-16-vcpkg.sh
rename to dev/release/post-15-vcpkg.sh
diff --git a/dev/release/post-17-conan.sh b/dev/release/post-16-conan.sh
similarity index 100%
rename from dev/release/post-17-conan.sh
rename to dev/release/post-16-conan.sh
diff --git a/dev/release/utils-prepare.sh b/dev/release/utils-prepare.sh
index 6ba8b22a06e89..ecdd0a26dcb7a 100644
--- a/dev/release/utils-prepare.sh
+++ b/dev/release/utils-prepare.sh
@@ -179,21 +179,6 @@ update_versions() {
   git add */*/*/version.rb
   popd
 
-  pushd "${ARROW_DIR}/go"
-  find . "(" -name "*.go*" -o -name "go.mod" -o -name README.md ")" -exec sed -i.bak -E -e \
-    "s|(github\\.com/apache/arrow/go)/v[0-9]+|\1/v${major_version}|g" {} \;
-  # update parquet writer version
-  sed -i.bak -E -e \
-    "s/\"parquet-go version .+\"/\"parquet-go version ${version}\"/" \
-    parquet/writer_properties.go
-  sed -i.bak -E -e \
-    "s/const PkgVersion = \".*/const PkgVersion = \"${version}\"/" \
-    arrow/doc.go
-
-  find . -name "*.bak" -exec rm {} \;
-  git add .
-  popd
-
   pushd "${ARROW_DIR}/docs/source"
   # godoc link must reference current version, will reference v0.0.0 (2018) otherwise
   sed -i.bak -E -e \
diff --git a/dev/release/verify-release-candidate.sh b/dev/release/verify-release-candidate.sh
index c1419b30d8de7..4e5593525477e 100755
--- a/dev/release/verify-release-candidate.sh
+++ b/dev/release/verify-release-candidate.sh
@@ -389,55 +389,6 @@ install_csharp() {
   CSHARP_ALREADY_INSTALLED=1
 }
 
-install_go() {
-  # Install go
-  if [ "${GO_ALREADY_INSTALLED:-0}" -gt 0 ]; then
-    show_info "$(go version) already installed at $(which go)"
-    return 0
-  fi
-
-  if command -v go > /dev/null; then
-    show_info "Found $(go version) at $(command -v go)"
-    export GOPATH=${ARROW_TMPDIR}/gopath
-    mkdir -p $GOPATH
-    return 0
-  fi
-
-  local version=1.22.6
-  show_info "Installing go version ${version}..."
-
-  local arch="$(uname -m)"
-  if [ "$arch" == "x86_64" ]; then
-    arch=amd64
-  elif [ "$arch" == "aarch64" ]; then
-    arch=arm64
-  fi
-
-  if [ "$(uname)" == "Darwin" ]; then
-    local os=darwin
-  else
-    local os=linux
-  fi
-
-  local archive="go${version}.${os}-${arch}.tar.gz"
-  curl -sLO https://go.dev/dl/$archive
-
-  ls -l
-  local prefix=${ARROW_TMPDIR}/go
-  mkdir -p $prefix
-  tar -xzf $archive -C $prefix
-  rm -f $archive
-
-  export GOROOT=${prefix}/go
-  export GOPATH=${prefix}/gopath
-  export PATH=$GOROOT/bin:$GOPATH/bin:$PATH
-
-  mkdir -p $GOPATH
-  show_info "$(go version) installed at $(which go)"
-
-  GO_ALREADY_INSTALLED=1
-}
-
 install_conda() {
   # Setup short-lived miniconda for Python and integration tests
   show_info "Ensuring that Conda is installed..."
@@ -586,13 +537,6 @@ maybe_setup_virtualenv() {
   fi
 }
 
-maybe_setup_go() {
-  show_info "Ensuring that Go is installed..."
-  if [ "${USE_CONDA}" -eq 0 ]; then
-    install_go
-  fi
-}
-
 maybe_setup_nodejs() {
   show_info "Ensuring that NodeJS is installed..."
   if [ "${USE_CONDA}" -eq 0 ]; then
@@ -951,38 +895,6 @@ test_js() {
   popd
 }
 
-test_go() {
-  show_header "Build and test Go libraries"
-
-  maybe_setup_go
-  maybe_setup_conda compilers go=1.22
-
-  pushd go
-  go get -v ./...
-  if [ ${TEST_GO} -gt 0 ]; then
-    go test ./...
-  fi
-  go install -buildvcs=false ./...
-  if [ ${TEST_INTEGRATION_GO} -gt 0 ]; then
-    pushd arrow/internal/cdata_integration
-    case "$(uname)" in
-      Linux)
-        go_lib="arrow_go_integration.so"
-        ;;
-      Darwin)
-        go_lib="arrow_go_integration.dylib"
-        ;;
-      MINGW*)
-        go_lib="arrow_go_integration.dll"
-        ;;
-    esac
-    CGO_ENABLED=1 go build -buildvcs=false -tags cdata_integration,assert -buildmode=c-shared -o ${go_lib} .
-    popd
-  fi
-  go clean -modcache
-  popd
-}
-
 # Run integration tests
 test_integration() {
   show_header "Build and execute integration tests"
@@ -1011,7 +923,6 @@ test_integration() {
     --with-cpp=${TEST_INTEGRATION_CPP} \
     --with-java=${TEST_INTEGRATION_JAVA} \
     --with-js=${TEST_INTEGRATION_JS} \
-    --with-go=${TEST_INTEGRATION_GO} \
     $INTEGRATION_TEST_ARGS
 }
 
@@ -1090,9 +1001,6 @@ test_source_distribution() {
 
   pushd $ARROW_SOURCE_DIR
 
-  if [ ${BUILD_GO} -gt 0 ]; then
-    test_go
-  fi
   if [ ${TEST_CSHARP} -gt 0 ]; then
     test_csharp
   fi
@@ -1289,22 +1197,19 @@ test_jars() {
 : ${TEST_RUBY:=${TEST_SOURCE}}
 : ${TEST_PYTHON:=${TEST_SOURCE}}
 : ${TEST_JS:=${TEST_SOURCE}}
-: ${TEST_GO:=${TEST_SOURCE}}
 : ${TEST_INTEGRATION:=${TEST_SOURCE}}
 
 # For selective Integration testing, set TEST_DEFAULT=0 TEST_INTEGRATION_X=1 TEST_INTEGRATION_Y=1
 : ${TEST_INTEGRATION_CPP:=${TEST_INTEGRATION}}
 : ${TEST_INTEGRATION_JAVA:=${TEST_INTEGRATION}}
 : ${TEST_INTEGRATION_JS:=${TEST_INTEGRATION}}
-: ${TEST_INTEGRATION_GO:=${TEST_INTEGRATION}}
 
 # Automatically build/test if its activated by a dependent
 TEST_GLIB=$((${TEST_GLIB} + ${TEST_RUBY}))
 BUILD_CPP=$((${TEST_CPP} + ${TEST_GLIB} + ${TEST_PYTHON} + ${TEST_INTEGRATION_CPP}))
 BUILD_JAVA=$((${TEST_JAVA} + ${TEST_INTEGRATION_JAVA}))
 BUILD_JS=$((${TEST_JS} + ${TEST_INTEGRATION_JS}))
-BUILD_GO=$((${TEST_GO} + ${TEST_INTEGRATION_GO}))
-TEST_INTEGRATION=$((${TEST_INTEGRATION} + ${TEST_INTEGRATION_CPP} + ${TEST_INTEGRATION_JAVA} + ${TEST_INTEGRATION_JS} + ${TEST_INTEGRATION_GO}))
+TEST_INTEGRATION=$((${TEST_INTEGRATION} + ${TEST_INTEGRATION_CPP} + ${TEST_INTEGRATION_JAVA} + ${TEST_INTEGRATION_JS}))
 
 # Execute tests in a conda environment
 : ${USE_CONDA:=0}
diff --git a/docs/source/developers/release.rst b/docs/source/developers/release.rst
index 0d9af1f543cac..55f3d5603ed05 100644
--- a/docs/source/developers/release.rst
+++ b/docs/source/developers/release.rst
@@ -429,8 +429,8 @@ Be sure to go through on the following checklist:
       git remote add <YOUR_GITHUB_ID> git@github.com:<YOUR_GITHUB_ID>/homebrew-core.git
       cd -
 
-      # dev/release/post-15-homebrew.sh 10.0.0 kou
-      dev/release/post-15-homebrew.sh X.Y.Z <YOUR_GITHUB_ID>
+      # dev/release/post-14-homebrew.sh 10.0.0 kou
+      dev/release/post-14-homebrew.sh X.Y.Z <YOUR_GITHUB_ID>
 
    This script pushes a ``apache-arrow-X.Y.Z`` branch to your ``Homebrew/homebrew-core`` fork. You need to create a pull request from the ``apache-arrow-X.Y.Z`` branch with ``apache-arrow, apache-arrow-glib: X.Y.Z`` title on your Web browser.
 
@@ -455,8 +455,8 @@ Be sure to go through on the following checklist:
       git remote add upstream https://github.com/msys2/MINGW-packages.git
       cd -
 
-      # dev/release/post-14-msys2.sh 10.0.0 ../MINGW-packages
-      dev/release/post-14-msys2.sh X.Y.Z <YOUR_MINGW_PACKAGES_FORK>
+      # dev/release/post-13-msys2.sh 10.0.0 ../MINGW-packages
+      dev/release/post-13-msys2.sh X.Y.Z <YOUR_MINGW_PACKAGES_FORK>
 
    This script pushes a ``arrow-X.Y.Z`` branch to your ``msys2/MINGW-packages`` fork. You need to create a pull request from the ``arrow-X.Y.Z`` branch with ``arrow: Update to X.Y.Z`` title on your Web browser.
 
@@ -602,8 +602,8 @@ Be sure to go through on the following checklist:
       git remote add upstream https://github.com/microsoft/vcpkg.git
       cd -
 
-      # dev/release/post-16-vcpkg.sh 10.0.0 ../vcpkg
-      dev/release/post-16-vcpkg.sh X.Y.Z <YOUR_VCPKG_FORK>
+      # dev/release/post-15-vcpkg.sh 10.0.0 ../vcpkg
+      dev/release/post-15-vcpkg.sh X.Y.Z <YOUR_VCPKG_FORK>
 
    This script pushes a ``arrow-X.Y.Z`` branch to your ``microsoft/vcpkg`` fork. You need to create a pull request from the ``arrow-X.Y.Z`` branch with ``[arrow] Update to X.Y.Z`` title on your Web browser.
 
@@ -646,16 +646,6 @@ Be sure to go through on the following checklist:
       # dev/release/post-12-bump-versions.sh 10.0.0 11.0.0
       dev/release/post-12-bump-versions.sh X.Y.Z NEXT_X.NEXT_Y.NEXT_Z
 
-.. dropdown:: Update tags for Go modules
-   :animate: fade-in-slide-down
-   :class-title: sd-fs-5
-   :class-container: sd-shadow-md
-
-   .. code-block:: Bash
-
-      # dev/release/post-13-go.sh 10.0.0
-      dev/release/post-13-go.sh X.Y.Z
-
 .. dropdown:: Update docs
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
diff --git a/docs/source/index.rst b/docs/source/index.rst
index 6f38ab668d883..3e678c78b6963 100644
--- a/docs/source/index.rst
+++ b/docs/source/index.rst
@@ -104,7 +104,7 @@ Implementations
    C/GLib <c_glib/index>
    C++ <cpp/index>
    C# <https://github.com/apache/arrow/blob/main/csharp/README.md>
-   Go <https://pkg.go.dev/github.com/apache/arrow/go/v18>
+   Go <https://arrow.apache.org/go/>
    Java <java/index>
    JavaScript <js/index>
    Julia <https://arrow.apache.org/julia/>
diff --git a/r/_pkgdown.yml b/r/_pkgdown.yml
index 10a233356b684..00bbafb55c5e3 100644
--- a/r/_pkgdown.yml
+++ b/r/_pkgdown.yml
@@ -76,7 +76,7 @@ home:
           [C GLib](https://arrow.apache.org/docs/c_glib) <br>
           [C++](https://arrow.apache.org/docs/cpp) <br>
           [C#](https://github.com/apache/arrow/blob/main/csharp/README.md) <br>
-          [Go](https://pkg.go.dev/github.com/apache/arrow/go/v18) <br>
+          [Go](https://arrow.apache.org/go/) <br>
           [Java](https://arrow.apache.org/docs/java) <br>
           [JavaScript](https://arrow.apache.org/docs/js) <br>
           [Julia](https://github.com/apache/arrow-julia/blob/main/README.md) <br>

From ac2a93d90f3b9af72163d609f339664a8dd697e8 Mon Sep 17 00:00:00 2001
From: Dewey Dunnington <dewey@voltrondata.com>
Date: Thu, 3 Oct 2024 19:32:01 -0500
Subject: [PATCH 04/38] GH-44297: [Integration][CI] Skip nanoarrow IPC
 integration tests for compressed/dictionary-encoded files (#44298)

### Rationale for this change

There are a few remaining failures when testing nanoarrow against itself: https://github.com/apache/arrow-nanoarrow/pull/643 . Our IPC reader doesn't support dictionaries or compression, so we can't run those tests.

### What changes are included in this PR?

Skips were added to the archery code that runs the tests.

### Are these changes tested?

Yes (integration tests run on every commit)

### Are there any user-facing changes?

No!
* GitHub Issue: #44297

Authored-by: Dewey Dunnington <dewey@voltrondata.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 dev/archery/archery/integration/runner.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/dev/archery/archery/integration/runner.py b/dev/archery/archery/integration/runner.py
index 97854b87b24bd..e72baaf878532 100644
--- a/dev/archery/archery/integration/runner.py
+++ b/dev/archery/archery/integration/runner.py
@@ -193,12 +193,16 @@ def _gold_tests(self, gold_dir):
                 skip_testers.add("Rust")
             if prefix == '2.0.0-compression':
                 skip_testers.add("JS")
+                # https://github.com/apache/arrow-nanoarrow/issues/621
+                skip_testers.add("nanoarrow")
 
             # See https://github.com/apache/arrow/pull/9822 for how to
             # disable specific compression type tests.
 
             if prefix == '4.0.0-shareddict':
                 skip_testers.add("C#")
+                # https://github.com/apache/arrow-nanoarrow/issues/622
+                skip_testers.add("nanoarrow")
 
             quirks = set()
             if prefix in {'0.14.1', '0.17.1',

From ad136d8988fa4560511b0d50cf8ee10f5c612024 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Fri, 4 Oct 2024 19:27:56 +0900
Subject: [PATCH 05/38] GH-44300: [Integration][Archery] Don't import unused
 testers (#44301)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

### Rationale for this change

Some testers such as `JavaTester` may raise an exception on import when the target implementation isn't built. It stops integration test unexpectedly.

### What changes are included in this PR?

Import testers only for enabled implementations.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

No.
* GitHub Issue: #44300

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Raúl Cumplido <raulcumplido@gmail.com>
---
 dev/archery/archery/integration/runner.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/dev/archery/archery/integration/runner.py b/dev/archery/archery/integration/runner.py
index e72baaf878532..e276738846371 100644
--- a/dev/archery/archery/integration/runner.py
+++ b/dev/archery/archery/integration/runner.py
@@ -31,13 +31,6 @@
 from . import cdata
 from .scenario import Scenario
 from .tester import Tester, CDataExporter, CDataImporter
-from .tester_cpp import CppTester
-from .tester_go import GoTester
-from .tester_rust import RustTester
-from .tester_java import JavaTester
-from .tester_js import JSTester
-from .tester_csharp import CSharpTester
-from .tester_nanoarrow import NanoarrowTester
 from .util import guid, printer
 from .util import SKIP_C_ARRAY, SKIP_C_SCHEMA, SKIP_FLIGHT, SKIP_IPC
 from ..utils.logger import group as group_raw
@@ -603,24 +596,31 @@ def append_tester(implementation, tester):
             other_testers.append(tester)
 
     if with_cpp:
+        from .tester_cpp import CppTester
         append_tester("cpp", CppTester(**kwargs))
 
     if with_java:
+        from .tester_java import JavaTester
         append_tester("java", JavaTester(**kwargs))
 
     if with_js:
+        from .tester_js import JSTester
         append_tester("js", JSTester(**kwargs))
 
     if with_csharp:
+        from .tester_csharp import CSharpTester
         append_tester("csharp", CSharpTester(**kwargs))
 
     if with_go:
+        from .tester_go import GoTester
         append_tester("go", GoTester(**kwargs))
 
     if with_nanoarrow:
+        from .tester_nanoarrow import NanoarrowTester
         append_tester("nanoarrow", NanoarrowTester(**kwargs))
 
     if with_rust:
+        from .tester_rust import RustTester
         append_tester("rust", RustTester(**kwargs))
 
     static_json_files = get_static_json_files()

From 7cc07681189e71ef986653129a6804a81d32ce8f Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Fri, 4 Oct 2024 17:54:20 +0200
Subject: [PATCH 06/38] MINOR: [JS] Bump rollup from 4.19.2 to 4.22.4 in /js
 (#44207)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [rollup](https://github.com/rollup/rollup) from 4.19.2 to 4.22.4.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/rollup/rollup/releases">rollup's releases</a>.</em></p>
<blockquote>
<h2>v4.22.4</h2>
<h2>4.22.4</h2>
<p><em>2024-09-21</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Fix a vulnerability in generated code that affects IIFE, UMD and CJS bundles when run in a browser context (<a href="https://redirect.github.com/rollup/rollup/issues/5671">#5671</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5670">#5670</a>: refactor: Use object.prototype to check for reserved properties (<a href="https://github.com/YuHyeonWook"><code>@​YuHyeonWook</code></a>)</li>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5671">#5671</a>: Fix DOM Clobbering CVE (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>v4.22.3</h2>
<h2>4.22.3</h2>
<p><em>2024-09-21</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Ensure that mutations in modules without side effects are observed while properly handling transitive dependencies (<a href="https://redirect.github.com/rollup/rollup/issues/5669">#5669</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5669">#5669</a>: Ensure impure dependencies of pure modules are added (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>v4.22.2</h2>
<h2>4.22.2</h2>
<p><em>2024-09-20</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Revert fix for side effect free modules until other issues are investigated (<a href="https://redirect.github.com/rollup/rollup/issues/5667">#5667</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5667">#5667</a>: Partially revert <a href="https://redirect.github.com/rollup/rollup/issues/5658">#5658</a> and re-apply <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a> (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>v4.22.1</h2>
<h2>4.22.1</h2>
<p><em>2024-09-20</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Revert <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a> &quot;stable chunk hashes&quot; while issues are being investigated</li>
</ul>
<h3>Pull Requests</h3>

</blockquote>
<p>... (truncated)</p>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a href="https://github.com/rollup/rollup/blob/master/CHANGELOG.md">rollup's changelog</a>.</em></p>
<blockquote>
<h2>4.22.4</h2>
<p><em>2024-09-21</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Fix a vulnerability in generated code that affects IIFE, UMD and CJS bundles when run in a browser context (<a href="https://redirect.github.com/rollup/rollup/issues/5671">#5671</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5670">#5670</a>: refactor: Use object.prototype to check for reserved properties (<a href="https://github.com/YuHyeonWook"><code>@​YuHyeonWook</code></a>)</li>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5671">#5671</a>: Fix DOM Clobbering CVE (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>4.22.3</h2>
<p><em>2024-09-21</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Ensure that mutations in modules without side effects are observed while properly handling transitive dependencies (<a href="https://redirect.github.com/rollup/rollup/issues/5669">#5669</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5669">#5669</a>: Ensure impure dependencies of pure modules are added (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>4.22.2</h2>
<p><em>2024-09-20</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Revert fix for side effect free modules until other issues are investigated (<a href="https://redirect.github.com/rollup/rollup/issues/5667">#5667</a>)</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5667">#5667</a>: Partially revert <a href="https://redirect.github.com/rollup/rollup/issues/5658">#5658</a> and re-apply <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a> (<a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
</ul>
<h2>4.22.1</h2>
<p><em>2024-09-20</em></p>
<h3>Bug Fixes</h3>
<ul>
<li>Revert <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a> &quot;stable chunk hashes&quot; while issues are being investigated</li>
</ul>
<h3>Pull Requests</h3>
<ul>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5663">#5663</a>: chore(deps): update dependency inquirer to v11 (<a href="https://github.com/renovate"><code>@​renovate</code></a>[bot], <a href="https://github.com/lukastaegert"><code>@​lukastaegert</code></a>)</li>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5664">#5664</a>: chore(deps): lock file maintenance minor/patch updates (<a href="https://github.com/renovate"><code>@​renovate</code></a>[bot])</li>
<li><a href="https://redirect.github.com/rollup/rollup/pull/5665">#5665</a>: fix: type in CI file (<a href="https://github.com/YuHyeonWook"><code>@​YuHyeonWook</code></a>)</li>
</ul>

</blockquote>
<p>... (truncated)</p>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/rollup/rollup/commit/79c0aba353ca84c0e22c3cfe9eee433ba83f3670"><code>79c0aba</code></a> 4.22.4</li>
<li><a href="https://github.com/rollup/rollup/commit/e2552c9e955e0a61f70f508200ee9f752f85a541"><code>e2552c9</code></a> Fix DOM Clobbering CVE (<a href="https://redirect.github.com/rollup/rollup/issues/5671">#5671</a>)</li>
<li><a href="https://github.com/rollup/rollup/commit/10ab90ea612f80de21c6c433c2d792eaf7b45f1c"><code>10ab90e</code></a> refactor: Use object.prototype to check for reserved properties (<a href="https://redirect.github.com/rollup/rollup/issues/5670">#5670</a>)</li>
<li><a href="https://github.com/rollup/rollup/commit/e1cba8e84a0c01dd16580ba7a2536a988dfb4e18"><code>e1cba8e</code></a> 4.22.3</li>
<li><a href="https://github.com/rollup/rollup/commit/59cec3e86748369ce887f8fdb4ef7351335ab281"><code>59cec3e</code></a> Ensure impure dependencies of pure modules are added (<a href="https://redirect.github.com/rollup/rollup/issues/5669">#5669</a>)</li>
<li><a href="https://github.com/rollup/rollup/commit/b86ffd776cfa906573d36c3f019316d02445d9ef"><code>b86ffd7</code></a> 4.22.2</li>
<li><a href="https://github.com/rollup/rollup/commit/d5ff63de9e317283f059bde06320bca11cf90488"><code>d5ff63d</code></a> Partially revert <a href="https://redirect.github.com/rollup/rollup/issues/5658">#5658</a> and re-apply <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a> (<a href="https://redirect.github.com/rollup/rollup/issues/5667">#5667</a>)</li>
<li><a href="https://github.com/rollup/rollup/commit/0a821d931894f7f6f4ee33285b6f0925e10c8348"><code>0a821d9</code></a> Create SECURITY.md</li>
<li><a href="https://github.com/rollup/rollup/commit/76e962daca5b7352bf199c28fa0a10ad4745c5e7"><code>76e962d</code></a> 4.22.1</li>
<li><a href="https://github.com/rollup/rollup/commit/68c23da8824e05e84460a9a5bf18c4e91912a52a"><code>68c23da</code></a> Partially revert <a href="https://redirect.github.com/rollup/rollup/issues/5644">#5644</a></li>
<li>Additional commits viewable in <a href="https://github.com/rollup/rollup/compare/v4.19.2...v4.22.4">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=rollup&package-manager=npm_and_yarn&previous-version=4.19.2&new-version=4.22.4)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)
You can disable automated security fix PRs for this repo from the [Security Alerts page](https://github.com/apache/arrow/network/alerts).

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: Raúl Cumplido <raulcumplido@gmail.com>
---
 js/package.json |   2 +-
 js/yarn.lock    | 198 ++++++++++++++++++++++++------------------------
 2 files changed, 100 insertions(+), 100 deletions(-)

diff --git a/js/package.json b/js/package.json
index d8a784b784d3c..643f049b6bfaf 100644
--- a/js/package.json
+++ b/js/package.json
@@ -102,7 +102,7 @@
     "mkdirp": "3.0.1",
     "multistream": "4.1.0",
     "regenerator-runtime": "0.14.1",
-    "rollup": "4.19.2",
+    "rollup": "4.22.4",
     "rxjs": "7.8.1",
     "ts-jest": "29.1.4",
     "ts-node": "10.9.2",
diff --git a/js/yarn.lock b/js/yarn.lock
index e8223fba9aad2..e237d09469f4d 100644
--- a/js/yarn.lock
+++ b/js/yarn.lock
@@ -1017,85 +1017,85 @@
     estree-walker "^2.0.2"
     picomatch "^2.3.1"
 
-"@rollup/rollup-android-arm-eabi@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-android-arm-eabi/-/rollup-android-arm-eabi-4.19.2.tgz#6b991cb44bf69e50163528ea85bed545330ba821"
-  integrity sha512-OHflWINKtoCFSpm/WmuQaWW4jeX+3Qt3XQDepkkiFTsoxFc5BpF3Z5aDxFZgBqRjO6ATP5+b1iilp4kGIZVWlA==
-
-"@rollup/rollup-android-arm64@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-android-arm64/-/rollup-android-arm64-4.19.2.tgz#5d3c8c2f9742d62ba258cc378bd2d4720f0c431c"
-  integrity sha512-k0OC/b14rNzMLDOE6QMBCjDRm3fQOHAL8Ldc9bxEWvMo4Ty9RY6rWmGetNTWhPo+/+FNd1lsQYRd0/1OSix36A==
-
-"@rollup/rollup-darwin-arm64@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-darwin-arm64/-/rollup-darwin-arm64-4.19.2.tgz#8eac8682a34a705bb6a57eb3e739fd6bbedfabed"
-  integrity sha512-IIARRgWCNWMTeQH+kr/gFTHJccKzwEaI0YSvtqkEBPj7AshElFq89TyreKNFAGh5frLfDCbodnq+Ye3dqGKPBw==
-
-"@rollup/rollup-darwin-x64@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-darwin-x64/-/rollup-darwin-x64-4.19.2.tgz#70a9953fc624bd7f645901f4250f6b5807ac7e92"
-  integrity sha512-52udDMFDv54BTAdnw+KXNF45QCvcJOcYGl3vQkp4vARyrcdI/cXH8VXTEv/8QWfd6Fru8QQuw1b2uNersXOL0g==
-
-"@rollup/rollup-linux-arm-gnueabihf@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm-gnueabihf/-/rollup-linux-arm-gnueabihf-4.19.2.tgz#8f6c4ff4c4972413ff94345080380d4e3caa3c69"
-  integrity sha512-r+SI2t8srMPYZeoa1w0o/AfoVt9akI1ihgazGYPQGRilVAkuzMGiTtexNZkrPkQsyFrvqq/ni8f3zOnHw4hUbA==
-
-"@rollup/rollup-linux-arm-musleabihf@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm-musleabihf/-/rollup-linux-arm-musleabihf-4.19.2.tgz#5d3c0fe5ea5ddf2feb511b3cb031df17eaa7e33d"
-  integrity sha512-+tYiL4QVjtI3KliKBGtUU7yhw0GMcJJuB9mLTCEauHEsqfk49gtUBXGtGP3h1LW8MbaTY6rSFIQV1XOBps1gBA==
-
-"@rollup/rollup-linux-arm64-gnu@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm64-gnu/-/rollup-linux-arm64-gnu-4.19.2.tgz#b7f104388b2f5624d9f8adfff10ba59af8ab8ed1"
-  integrity sha512-OR5DcvZiYN75mXDNQQxlQPTv4D+uNCUsmSCSY2FolLf9W5I4DSoJyg7z9Ea3TjKfhPSGgMJiey1aWvlWuBzMtg==
-
-"@rollup/rollup-linux-arm64-musl@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm64-musl/-/rollup-linux-arm64-musl-4.19.2.tgz#6d5ca6d3904309bec285ea5202d589cebb93dee4"
-  integrity sha512-Hw3jSfWdUSauEYFBSFIte6I8m6jOj+3vifLg8EU3lreWulAUpch4JBjDMtlKosrBzkr0kwKgL9iCfjA8L3geoA==
-
-"@rollup/rollup-linux-powerpc64le-gnu@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-powerpc64le-gnu/-/rollup-linux-powerpc64le-gnu-4.19.2.tgz#4df9be1396ea9eb0ca99fd0f2e858008d7f063e3"
-  integrity sha512-rhjvoPBhBwVnJRq/+hi2Q3EMiVF538/o9dBuj9TVLclo9DuONqt5xfWSaE6MYiFKpo/lFPJ/iSI72rYWw5Hc7w==
-
-"@rollup/rollup-linux-riscv64-gnu@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-riscv64-gnu/-/rollup-linux-riscv64-gnu-4.19.2.tgz#80d63c5562915a2f8616a04251fcaee0218112b0"
-  integrity sha512-EAz6vjPwHHs2qOCnpQkw4xs14XJq84I81sDRGPEjKPFVPBw7fwvtwhVjcZR6SLydCv8zNK8YGFblKWd/vRmP8g==
-
-"@rollup/rollup-linux-s390x-gnu@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-s390x-gnu/-/rollup-linux-s390x-gnu-4.19.2.tgz#ef62e9bc5cc3b84fcfe96ec0a42d1989691217b3"
-  integrity sha512-IJSUX1xb8k/zN9j2I7B5Re6B0NNJDJ1+soezjNojhT8DEVeDNptq2jgycCOpRhyGj0+xBn7Cq+PK7Q+nd2hxLA==
-
-"@rollup/rollup-linux-x64-gnu@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-x64-gnu/-/rollup-linux-x64-gnu-4.19.2.tgz#6a275282a0080fee98ddd9fda0de23c4c6bafd48"
-  integrity sha512-OgaToJ8jSxTpgGkZSkwKE+JQGihdcaqnyHEFOSAU45utQ+yLruE1dkonB2SDI8t375wOKgNn8pQvaWY9kPzxDQ==
-
-"@rollup/rollup-linux-x64-musl@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-x64-musl/-/rollup-linux-x64-musl-4.19.2.tgz#64f0c704107e6b45b26dd8c2e1ff64246e4a1251"
-  integrity sha512-5V3mPpWkB066XZZBgSd1lwozBk7tmOkKtquyCJ6T4LN3mzKENXyBwWNQn8d0Ci81hvlBw5RoFgleVpL6aScLYg==
-
-"@rollup/rollup-win32-arm64-msvc@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-arm64-msvc/-/rollup-win32-arm64-msvc-4.19.2.tgz#bada17b0c5017ff58d0feba401c43ff5a646c693"
-  integrity sha512-ayVstadfLeeXI9zUPiKRVT8qF55hm7hKa+0N1V6Vj+OTNFfKSoUxyZvzVvgtBxqSb5URQ8sK6fhwxr9/MLmxdA==
-
-"@rollup/rollup-win32-ia32-msvc@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-ia32-msvc/-/rollup-win32-ia32-msvc-4.19.2.tgz#a716d862f6ac39d88bdb825e27f63aeb0387cd66"
-  integrity sha512-Mda7iG4fOLHNsPqjWSjANvNZYoW034yxgrndof0DwCy0D3FvTjeNo+HGE6oGWgvcLZNLlcp0hLEFcRs+UGsMLg==
-
-"@rollup/rollup-win32-x64-msvc@4.19.2":
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-x64-msvc/-/rollup-win32-x64-msvc-4.19.2.tgz#d67206c5f2e4b2832ce360bbbde194e96d16dc51"
-  integrity sha512-DPi0ubYhSow/00YqmG1jWm3qt1F8aXziHc/UNy8bo9cpCacqhuWu+iSq/fp2SyEQK7iYTZ60fBU9cat3MXTjIQ==
+"@rollup/rollup-android-arm-eabi@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-android-arm-eabi/-/rollup-android-arm-eabi-4.22.4.tgz#8b613b9725e8f9479d142970b106b6ae878610d5"
+  integrity sha512-Fxamp4aEZnfPOcGA8KSNEohV8hX7zVHOemC8jVBoBUHu5zpJK/Eu3uJwt6BMgy9fkvzxDaurgj96F/NiLukF2w==
+
+"@rollup/rollup-android-arm64@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-android-arm64/-/rollup-android-arm64-4.22.4.tgz#654ca1049189132ff602bfcf8df14c18da1f15fb"
+  integrity sha512-VXoK5UMrgECLYaMuGuVTOx5kcuap1Jm8g/M83RnCHBKOqvPPmROFJGQaZhGccnsFtfXQ3XYa4/jMCJvZnbJBdA==
+
+"@rollup/rollup-darwin-arm64@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-darwin-arm64/-/rollup-darwin-arm64-4.22.4.tgz#6d241d099d1518ef0c2205d96b3fa52e0fe1954b"
+  integrity sha512-xMM9ORBqu81jyMKCDP+SZDhnX2QEVQzTcC6G18KlTQEzWK8r/oNZtKuZaCcHhnsa6fEeOBionoyl5JsAbE/36Q==
+
+"@rollup/rollup-darwin-x64@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-darwin-x64/-/rollup-darwin-x64-4.22.4.tgz#42bd19d292a57ee11734c980c4650de26b457791"
+  integrity sha512-aJJyYKQwbHuhTUrjWjxEvGnNNBCnmpHDvrb8JFDbeSH3m2XdHcxDd3jthAzvmoI8w/kSjd2y0udT+4okADsZIw==
+
+"@rollup/rollup-linux-arm-gnueabihf@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm-gnueabihf/-/rollup-linux-arm-gnueabihf-4.22.4.tgz#f23555ee3d8fe941c5c5fd458cd22b65eb1c2232"
+  integrity sha512-j63YtCIRAzbO+gC2L9dWXRh5BFetsv0j0va0Wi9epXDgU/XUi5dJKo4USTttVyK7fGw2nPWK0PbAvyliz50SCQ==
+
+"@rollup/rollup-linux-arm-musleabihf@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm-musleabihf/-/rollup-linux-arm-musleabihf-4.22.4.tgz#f3bbd1ae2420f5539d40ac1fde2b38da67779baa"
+  integrity sha512-dJnWUgwWBX1YBRsuKKMOlXCzh2Wu1mlHzv20TpqEsfdZLb3WoJW2kIEsGwLkroYf24IrPAvOT/ZQ2OYMV6vlrg==
+
+"@rollup/rollup-linux-arm64-gnu@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm64-gnu/-/rollup-linux-arm64-gnu-4.22.4.tgz#7abe900120113e08a1f90afb84c7c28774054d15"
+  integrity sha512-AdPRoNi3NKVLolCN/Sp4F4N1d98c4SBnHMKoLuiG6RXgoZ4sllseuGioszumnPGmPM2O7qaAX/IJdeDU8f26Aw==
+
+"@rollup/rollup-linux-arm64-musl@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-arm64-musl/-/rollup-linux-arm64-musl-4.22.4.tgz#9e655285c8175cd44f57d6a1e8e5dedfbba1d820"
+  integrity sha512-Gl0AxBtDg8uoAn5CCqQDMqAx22Wx22pjDOjBdmG0VIWX3qUBHzYmOKh8KXHL4UpogfJ14G4wk16EQogF+v8hmA==
+
+"@rollup/rollup-linux-powerpc64le-gnu@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-powerpc64le-gnu/-/rollup-linux-powerpc64le-gnu-4.22.4.tgz#9a79ae6c9e9d8fe83d49e2712ecf4302db5bef5e"
+  integrity sha512-3aVCK9xfWW1oGQpTsYJJPF6bfpWfhbRnhdlyhak2ZiyFLDaayz0EP5j9V1RVLAAxlmWKTDfS9wyRyY3hvhPoOg==
+
+"@rollup/rollup-linux-riscv64-gnu@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-riscv64-gnu/-/rollup-linux-riscv64-gnu-4.22.4.tgz#67ac70eca4ace8e2942fabca95164e8874ab8128"
+  integrity sha512-ePYIir6VYnhgv2C5Xe9u+ico4t8sZWXschR6fMgoPUK31yQu7hTEJb7bCqivHECwIClJfKgE7zYsh1qTP3WHUA==
+
+"@rollup/rollup-linux-s390x-gnu@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-s390x-gnu/-/rollup-linux-s390x-gnu-4.22.4.tgz#9f883a7440f51a22ed7f99e1d070bd84ea5005fc"
+  integrity sha512-GqFJ9wLlbB9daxhVlrTe61vJtEY99/xB3C8e4ULVsVfflcpmR6c8UZXjtkMA6FhNONhj2eA5Tk9uAVw5orEs4Q==
+
+"@rollup/rollup-linux-x64-gnu@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-x64-gnu/-/rollup-linux-x64-gnu-4.22.4.tgz#70116ae6c577fe367f58559e2cffb5641a1dd9d0"
+  integrity sha512-87v0ol2sH9GE3cLQLNEy0K/R0pz1nvg76o8M5nhMR0+Q+BBGLnb35P0fVz4CQxHYXaAOhE8HhlkaZfsdUOlHwg==
+
+"@rollup/rollup-linux-x64-musl@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-linux-x64-musl/-/rollup-linux-x64-musl-4.22.4.tgz#f473f88219feb07b0b98b53a7923be716d1d182f"
+  integrity sha512-UV6FZMUgePDZrFjrNGIWzDo/vABebuXBhJEqrHxrGiU6HikPy0Z3LfdtciIttEUQfuDdCn8fqh7wiFJjCNwO+g==
+
+"@rollup/rollup-win32-arm64-msvc@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-arm64-msvc/-/rollup-win32-arm64-msvc-4.22.4.tgz#4349482d17f5d1c58604d1c8900540d676f420e0"
+  integrity sha512-BjI+NVVEGAXjGWYHz/vv0pBqfGoUH0IGZ0cICTn7kB9PyjrATSkX+8WkguNjWoj2qSr1im/+tTGRaY+4/PdcQw==
+
+"@rollup/rollup-win32-ia32-msvc@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-ia32-msvc/-/rollup-win32-ia32-msvc-4.22.4.tgz#a6fc39a15db618040ec3c2a24c1e26cb5f4d7422"
+  integrity sha512-SiWG/1TuUdPvYmzmYnmd3IEifzR61Tragkbx9D3+R8mzQqDBz8v+BvZNDlkiTtI9T15KYZhP0ehn3Dld4n9J5g==
+
+"@rollup/rollup-win32-x64-msvc@4.22.4":
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/@rollup/rollup-win32-x64-msvc/-/rollup-win32-x64-msvc-4.22.4.tgz#3dd5d53e900df2a40841882c02e56f866c04d202"
+  integrity sha512-j8pPKp53/lq9lMXN57S8cFz0MynJk8OWNuUnXct/9KCpKU7DgU3bYMJhwWmcqC0UU29p8Lr0/7KEVcaM6bf47Q==
 
 "@rollup/stream@3.0.1":
   version "3.0.1"
@@ -6179,29 +6179,29 @@ rimraf@^3.0.2:
   dependencies:
     glob "^7.1.3"
 
-rollup@4.19.2:
-  version "4.19.2"
-  resolved "https://registry.yarnpkg.com/rollup/-/rollup-4.19.2.tgz#4985cd2028965157e8d674a70e49f33aca9038eb"
-  integrity sha512-6/jgnN1svF9PjNYJ4ya3l+cqutg49vOZ4rVgsDKxdl+5gpGPnByFXWGyfH9YGx9i3nfBwSu1Iyu6vGwFFA0BdQ==
+rollup@4.22.4:
+  version "4.22.4"
+  resolved "https://registry.yarnpkg.com/rollup/-/rollup-4.22.4.tgz#4135a6446671cd2a2453e1ad42a45d5973ec3a0f"
+  integrity sha512-vD8HJ5raRcWOyymsR6Z3o6+RzfEPCnVLMFJ6vRslO1jt4LO6dUo5Qnpg7y4RkZFM2DMe3WUirkI5c16onjrc6A==
   dependencies:
     "@types/estree" "1.0.5"
   optionalDependencies:
-    "@rollup/rollup-android-arm-eabi" "4.19.2"
-    "@rollup/rollup-android-arm64" "4.19.2"
-    "@rollup/rollup-darwin-arm64" "4.19.2"
-    "@rollup/rollup-darwin-x64" "4.19.2"
-    "@rollup/rollup-linux-arm-gnueabihf" "4.19.2"
-    "@rollup/rollup-linux-arm-musleabihf" "4.19.2"
-    "@rollup/rollup-linux-arm64-gnu" "4.19.2"
-    "@rollup/rollup-linux-arm64-musl" "4.19.2"
-    "@rollup/rollup-linux-powerpc64le-gnu" "4.19.2"
-    "@rollup/rollup-linux-riscv64-gnu" "4.19.2"
-    "@rollup/rollup-linux-s390x-gnu" "4.19.2"
-    "@rollup/rollup-linux-x64-gnu" "4.19.2"
-    "@rollup/rollup-linux-x64-musl" "4.19.2"
-    "@rollup/rollup-win32-arm64-msvc" "4.19.2"
-    "@rollup/rollup-win32-ia32-msvc" "4.19.2"
-    "@rollup/rollup-win32-x64-msvc" "4.19.2"
+    "@rollup/rollup-android-arm-eabi" "4.22.4"
+    "@rollup/rollup-android-arm64" "4.22.4"
+    "@rollup/rollup-darwin-arm64" "4.22.4"
+    "@rollup/rollup-darwin-x64" "4.22.4"
+    "@rollup/rollup-linux-arm-gnueabihf" "4.22.4"
+    "@rollup/rollup-linux-arm-musleabihf" "4.22.4"
+    "@rollup/rollup-linux-arm64-gnu" "4.22.4"
+    "@rollup/rollup-linux-arm64-musl" "4.22.4"
+    "@rollup/rollup-linux-powerpc64le-gnu" "4.22.4"
+    "@rollup/rollup-linux-riscv64-gnu" "4.22.4"
+    "@rollup/rollup-linux-s390x-gnu" "4.22.4"
+    "@rollup/rollup-linux-x64-gnu" "4.22.4"
+    "@rollup/rollup-linux-x64-musl" "4.22.4"
+    "@rollup/rollup-win32-arm64-msvc" "4.22.4"
+    "@rollup/rollup-win32-ia32-msvc" "4.22.4"
+    "@rollup/rollup-win32-x64-msvc" "4.22.4"
     fsevents "~2.3.2"
 
 run-parallel@^1.1.9:

From 7817e3c8fb624ee5479827a25497bd61cc96d63b Mon Sep 17 00:00:00 2001
From: Rossi Sun <zanmato1984@gmail.com>
Date: Sat, 5 Oct 2024 05:31:46 +0800
Subject: [PATCH 07/38] MINOR: [Docs] Refine docs for some compute functions
 (#44305)

### Rationale for this change

Some trivial inaccurate and missing part in compute functions.

### What changes are included in this PR?

Refined the inaccurate and missing part.

### Are these changes tested?

No need.

### Are there any user-facing changes?

None.

Authored-by: Ruoxi Sun <zanmato1984@gmail.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 docs/source/cpp/compute.rst | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/docs/source/cpp/compute.rst b/docs/source/cpp/compute.rst
index 4131bbdf6f912..093b160d8e9a0 100644
--- a/docs/source/cpp/compute.rst
+++ b/docs/source/cpp/compute.rst
@@ -1707,7 +1707,7 @@ These functions select and return a subset of their input.
 +---------------+--------+--------------+--------------+--------------+-------------------------+-----------+
 | array_take    | Binary | Any          | Integer      | Input type 1 | :struct:`TakeOptions`   | \(3)      |
 +---------------+--------+--------------+--------------+--------------+-------------------------+-----------+
-| drop_null     | Unary  | Any          | -            | Input type 1 |                         | \(1)      |
+| drop_null     | Unary  | Any          |              | Input type 1 |                         | \(1)      |
 +---------------+--------+--------------+--------------+--------------+-------------------------+-----------+
 | filter        | Binary | Any          | Boolean      | Input type 1 | :struct:`FilterOptions` | \(2)      |
 +---------------+--------+--------------+--------------+--------------+-------------------------+-----------+
@@ -1851,15 +1851,18 @@ Structural transforms
     index *n* and the type code at index *n* is 2.
   * The indices ``2`` and ``7`` are invalid.
 
+Replace functions
+~~~~~~~~~~~~~~~~~
+
 These functions create a copy of the first input with some elements
 replaced, based on the remaining inputs.
 
 +--------------------------+------------+-----------------------+--------------+--------------+--------------+-------+
 | Function name            | Arity      | Input type 1          | Input type 2 | Input type 3 | Output type  | Notes |
 +==========================+============+=======================+==============+==============+==============+=======+
-| fill_null_backward       | Unary      | Fixed-width or binary | N/A          | N/A          | N/A          | \(1)  |
+| fill_null_backward       | Unary      | Fixed-width or binary |              |              | Input type 1 | \(1)  |
 +--------------------------+------------+-----------------------+--------------+--------------+--------------+-------+
-| fill_null_forward        | Unary      | Fixed-width or binary | N/A          | N/A          | N/A          | \(1)  |
+| fill_null_forward        | Unary      | Fixed-width or binary |              |              | Input type 1 | \(1)  |
 +--------------------------+------------+-----------------------+--------------+--------------+--------------+-------+
 | replace_with_mask        | Ternary    | Fixed-width or binary | Boolean      | Input type 1 | Input type 1 | \(2)  |
 +--------------------------+------------+-----------------------+--------------+--------------+--------------+-------+
@@ -1872,7 +1875,7 @@ replaced, based on the remaining inputs.
   Also see: :ref:`if_else <cpp-compute-scalar-selections>`.
 
 Pairwise functions
-~~~~~~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~~~
 Pairwise functions are unary vector functions that perform a binary operation on
 a pair of elements in the input array, typically on adjacent elements. The n-th
 output is computed by applying the binary operation to the n-th and (n-p)-th inputs,

From 3fb7777a9a656e8bcc6f59396c4a5f6024a5f78e Mon Sep 17 00:00:00 2001
From: Thomas Newton <thomas.w.newton@gmail.com>
Date: Fri, 4 Oct 2024 22:41:23 +0100
Subject: [PATCH 08/38] GH-44256: [C++][FS][Azure] Fix edgecase where
 GetFileInfo incorrectly returns NotFound on flat namespace and Azurite
 (#44302)

### Rationale for this change
Fix a bug where `GetFileInfo` incorrectly returns `FileType::NotFound` on flat namespace and Azurite.

### What changes are included in this PR?
Fix by detecting the exact edgecase and doing an extra listing operation to disambiguate.

### Are these changes tested?
Yes, updated automated test

### Are there any user-facing changes?
Only a bug fix.

* GitHub Issue: #44256

Authored-by: Thomas Newton <thomas.w.newton@gmail.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 cpp/src/arrow/filesystem/azurefs.cc      | 21 +++++++++++++++++++++
 cpp/src/arrow/filesystem/azurefs_test.cc | 14 ++++++++++++++
 2 files changed, 35 insertions(+)

diff --git a/cpp/src/arrow/filesystem/azurefs.cc b/cpp/src/arrow/filesystem/azurefs.cc
index a9f58c4e00c31..d9a69800bb87e 100644
--- a/cpp/src/arrow/filesystem/azurefs.cc
+++ b/cpp/src/arrow/filesystem/azurefs.cc
@@ -1793,6 +1793,8 @@ class AzureFileSystem::Impl {
       // BlobPrefixes. A BlobPrefix always ends with kDelimiter ("/"), so we can
       // distinguish between a directory and a file by checking if we received a
       // prefix or a blob.
+      // This strategy allows us to implement GetFileInfo with just 1 blob storage
+      // operation in almost every case.
       if (!list_response.BlobPrefixes.empty()) {
         // Ensure the returned BlobPrefixes[0] string doesn't contain more characters than
         // the requested Prefix. For instance, if we request with Prefix="dir/abra" and
@@ -1814,6 +1816,25 @@ class AzureFileSystem::Impl {
           info.set_mtime(
               std::chrono::system_clock::time_point{blob.Details.LastModified});
           return info;
+        } else if (blob.Name[options.Prefix.Value().length()] < internal::kSep) {
+          // First list result did not indicate a directory and there is definitely no
+          // exactly matching blob. However, there may still be a directory that we
+          // initially missed because the first list result came before
+          // `options.Prefix + internal::kSep` lexigraphically.
+          // For example the flat namespace storage account has the following blobs:
+          // - container/dir.txt
+          // - container/dir/file.txt
+          // GetFileInfo(container/dir) should return FileType::Directory but in this
+          // edge case `blob = "dir.txt"`, so without further checks we would incorrectly
+          // return FileType::NotFound.
+          // Therefore we make an extra list operation with the trailing slash to confirm
+          // whether the path is a directory.
+          options.Prefix = internal::EnsureTrailingSlash(location.path);
+          auto list_with_trailing_slash_response = container_client.ListBlobs(options);
+          if (!list_with_trailing_slash_response.Blobs.empty()) {
+            info.set_type(FileType::Directory);
+            return info;
+          }
         }
       }
       info.set_type(FileType::NotFound);
diff --git a/cpp/src/arrow/filesystem/azurefs_test.cc b/cpp/src/arrow/filesystem/azurefs_test.cc
index 494c2f7e0c9e4..3697c3bcc319d 100644
--- a/cpp/src/arrow/filesystem/azurefs_test.cc
+++ b/cpp/src/arrow/filesystem/azurefs_test.cc
@@ -2065,6 +2065,20 @@ void TestAzureFileSystem::TestGetFileInfoObjectWithNestedStructure() {
   ASSERT_OK(output->Write(lorem_ipsum));
   ASSERT_OK(output->Close());
 
+  // . is immediately before "/" lexicographically, ensure that this doesn't
+  // cause unexpected issues. NOTE: Its seems real Azure blob storage doesn't
+  // allow blob names to end in `.`
+  ASSERT_OK_AND_ASSIGN(output, fs()->OpenOutputStream(
+                                   data.ContainerPath("test-object-dir/some_other_dir.a"),
+                                   /*metadata=*/{}));
+  ASSERT_OK(output->Write(lorem_ipsum));
+  ASSERT_OK(output->Close());
+  ASSERT_OK_AND_ASSIGN(output,
+                       fs()->OpenOutputStream(data.ContainerPath(kObjectName + ".a"),
+                                              /*metadata=*/{}));
+  ASSERT_OK(output->Write(lorem_ipsum));
+  ASSERT_OK(output->Close());
+
   AssertFileInfo(fs(), data.ContainerPath(kObjectName), FileType::File);
   AssertFileInfo(fs(), data.ContainerPath(kObjectName) + "/", FileType::NotFound);
   AssertFileInfo(fs(), data.ContainerPath("test-object-dir"), FileType::Directory);

From 993a27c67cf95c6b6fe4b09aec62b00fe4c9988a Mon Sep 17 00:00:00 2001
From: Thomas Newton <thomas.w.newton@gmail.com>
Date: Sat, 5 Oct 2024 22:31:12 +0100
Subject: [PATCH 09/38] GH-44303: [C++][FS][Azure] Fix minor hierarchical
 namespace bugs (#44307)

### Rationale for this change
There are a couple of minor bugs in the `AzureFileSystem` for hierarchical namespaces accounts. These cause failures in `TestAzureHierarchicalNSGeneric.GetFileInfoSelectorWithRecursion` and `TestAzureHierarchicalNSGeneric.Empty` which do not run automatically in CI.

### What changes are included in this PR?
- Fix incorrectly returning Not found on recursive get file info on container root.
- Implement `selector.max_recursion` for hierarchical namespace. This is implemented completely artificially after `directory_client.ListPaths(/*recursive=*/true)`.
- Enable a couple of features on the generic tests that were disabled but are actually supported.

### Are these changes tested?
There already failing tests for these but they don't run on CI because they require connect to a real Azure blob storage account. I made sure to run all the tests locally including the ones that connect to real Azure storage, both flat and hierarchical and all the tests passed.

### Are there any user-facing changes?

* GitHub Issue: #44303

Lead-authored-by: Thomas Newton <thomas.w.newton@gmail.com>
Co-authored-by: Sutou Kouhei <kou@cozmixng.org>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 cpp/src/arrow/filesystem/azurefs.cc      | 18 +++++++++++++++---
 cpp/src/arrow/filesystem/azurefs_test.cc | 18 +++++++++++++-----
 2 files changed, 28 insertions(+), 8 deletions(-)

diff --git a/cpp/src/arrow/filesystem/azurefs.cc b/cpp/src/arrow/filesystem/azurefs.cc
index d9a69800bb87e..78f4ad1edd9a9 100644
--- a/cpp/src/arrow/filesystem/azurefs.cc
+++ b/cpp/src/arrow/filesystem/azurefs.cc
@@ -1916,18 +1916,22 @@ class AzureFileSystem::Impl {
   /// \brief List the paths at the root of a filesystem or some dir in a filesystem.
   ///
   /// \pre adlfs_client is the client for the filesystem named like the first
-  /// segment of select.base_dir.
+  /// segment of select.base_dir. The filesystem is know to exist.
   Status GetFileInfoWithSelectorFromFileSystem(
       const DataLake::DataLakeFileSystemClient& adlfs_client,
       const Core::Context& context, Azure::Nullable<int32_t> page_size_hint,
       const FileSelector& select, FileInfoVector* acc_results) {
     ARROW_ASSIGN_OR_RAISE(auto base_location, AzureLocation::FromString(select.base_dir));
 
+    // The filesystem a.k.a. the container is known to exist so if the path is empty then
+    // we have already found the base_location, so initialize found to true.
+    bool found = base_location.path.empty();
+
     auto directory_client = adlfs_client.GetDirectoryClient(base_location.path);
-    bool found = false;
     DataLake::ListPathsOptions options;
     options.PageSizeHint = page_size_hint;
 
+    auto base_path_depth = internal::GetAbstractPathDepth(base_location.path);
     try {
       auto list_response = directory_client.ListPaths(select.recursive, options, context);
       for (; list_response.HasPage(); list_response.MoveToNextPage(context)) {
@@ -1939,7 +1943,15 @@ class AzureFileSystem::Impl {
           if (path.Name == base_location.path && !path.IsDirectory) {
             return NotADir(base_location);
           }
-          acc_results->push_back(FileInfoFromPath(base_location.container, path));
+          // Subtract 1 because with `max_recursion=0` we want to list the base path,
+          // which will produce results with depth 1 greater that the base path's depth.
+          // NOTE: `select.max_recursion` + anything will cause integer overflows because
+          // `select.max_recursion` defaults to `INT32_MAX`. Therefore, options to
+          // rewrite this condition in a more readable way are limited.
+          if (internal::GetAbstractPathDepth(path.Name) - base_path_depth - 1 <=
+              select.max_recursion) {
+            acc_results->push_back(FileInfoFromPath(base_location.container, path));
+          }
         }
       }
     } catch (const Storage::StorageException& exception) {
diff --git a/cpp/src/arrow/filesystem/azurefs_test.cc b/cpp/src/arrow/filesystem/azurefs_test.cc
index 3697c3bcc319d..242c2c29505ac 100644
--- a/cpp/src/arrow/filesystem/azurefs_test.cc
+++ b/cpp/src/arrow/filesystem/azurefs_test.cc
@@ -364,9 +364,9 @@ class TestGeneric : public ::testing::Test, public GenericFileSystemTest {
   std::shared_ptr<FileSystem> GetEmptyFileSystem() override { return fs_; }
 
   bool have_implicit_directories() const override { return true; }
-  bool allow_write_file_over_dir() const override { return true; }
-  bool allow_read_dir_as_file() const override { return true; }
-  bool allow_move_dir() const override { return false; }
+  bool allow_write_file_over_dir() const override { return false; }
+  bool allow_read_dir_as_file() const override { return false; }
+  bool allow_move_dir() const override { return true; }
   bool allow_move_file() const override { return true; }
   bool allow_append_to_file() const override { return true; }
   bool have_directory_mtimes() const override { return true; }
@@ -404,7 +404,11 @@ class TestAzuriteGeneric : public TestGeneric {
   }
 
  protected:
-  // Azurite doesn't support moving files over containers.
+  // Azurite doesn't block writing files over directories.
+  bool allow_write_file_over_dir() const override { return true; }
+  // Azurite doesn't support moving directories.
+  bool allow_move_dir() const override { return false; }
+  // Azurite doesn't support moving files.
   bool allow_move_file() const override { return false; }
   // Azurite doesn't support directory mtime.
   bool have_directory_mtimes() const override { return false; }
@@ -426,7 +430,11 @@ class TestAzureFlatNSGeneric : public TestGeneric {
   }
 
  protected:
-  // Flat namespace account doesn't support moving files over containers.
+  // Flat namespace account doesn't block writing files over directories.
+  bool allow_write_file_over_dir() const override { return true; }
+  // Flat namespace account doesn't support moving directories.
+  bool allow_move_dir() const override { return false; }
+  // Flat namespace account doesn't support moving files.
   bool allow_move_file() const override { return false; }
   // Flat namespace account doesn't support directory mtime.
   bool have_directory_mtimes() const override { return false; }

From 596c3cfc251d1d0905d1e25c50c991b8469edeee Mon Sep 17 00:00:00 2001
From: Devin Smith <devinsmith@deephaven.io>
Date: Sun, 6 Oct 2024 17:23:43 -0700
Subject: [PATCH 10/38] GH-44290: [Java][Flight] Add ActionType description
 getter (#44291)

* GitHub Issue: #44290

Authored-by: Devin Smith <devinsmith@deephaven.io>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 .../org/apache/arrow/flight/ActionType.java   |  4 +++
 .../apache/arrow/flight/TestActionType.java   | 32 +++++++++++++++++++
 2 files changed, 36 insertions(+)
 create mode 100644 java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestActionType.java

diff --git a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/ActionType.java b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/ActionType.java
index 669bf00adbd92..46ef3ae5ca104 100644
--- a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/ActionType.java
+++ b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/ActionType.java
@@ -45,6 +45,10 @@ public String getType() {
     return type;
   }
 
+  public String getDescription() {
+    return description;
+  }
+
   /** Converts the POJO to the corresponding protocol buffer type. */
   Flight.ActionType toProtocol() {
     return Flight.ActionType.newBuilder().setType(type).setDescription(description).build();
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestActionType.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestActionType.java
new file mode 100644
index 0000000000000..03a7835d55ce9
--- /dev/null
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestActionType.java
@@ -0,0 +1,32 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.arrow.flight;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+import org.junit.jupiter.api.Test;
+
+public class TestActionType {
+  @Test
+  void testActionType() {
+    final String type = "MyType";
+    final String description = "My Description";
+    final ActionType actionType = new ActionType(type, description);
+    assertEquals(type, actionType.getType());
+    assertEquals(description, actionType.getDescription());
+  }
+}

From 81bb362657896c668d9f9d7e6150ba60507238dc Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Mon, 7 Oct 2024 10:18:53 +0900
Subject: [PATCH 11/38] MINOR: [Java] Bump com.fasterxml.jackson:jackson-bom
 from 2.17.2 to 2.18.0 in /java (#44262)

Bumps [com.fasterxml.jackson:jackson-bom](https://github.com/FasterXML/jackson-bom) from 2.17.2 to 2.18.0.
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/72365502093e31baceb326ae412e8ec99034c3dd"><code>7236550</code></a> [maven-release-plugin] prepare release jackson-bom-2.18.0</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/58c2791c4ba76a1cf6251fa11d30f4bf9fe3edb1"><code>58c2791</code></a> Prepare for 2.18.0 release</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/37753184bdc45112a3e32543ff35c4606dbe87b2"><code>3775318</code></a> Merge pull request <a href="https://redirect.github.com/FasterXML/jackson-bom/issues/73">#73</a> from FasterXML/dependabot/github_actions/github-action...</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/540b7e70fd2e019e69fe31e75006a894425bc5ce"><code>540b7e7</code></a> Bump actions/setup-java from 4.2.1 to 4.2.2 in the github-actions group</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/6cc8c645cc5e8e67f0013f88913fbe3d36dd8121"><code>6cc8c64</code></a> Back to snapshot deps</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/3c90e0ecaa5c5919b86c7df642463ffddf52ed04"><code>3c90e0e</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/7b9cf201aff8b9da93eafaa4d39e3f0dbadceae1"><code>7b9cf20</code></a> [maven-release-plugin] prepare release jackson-bom-2.18.0-rc1</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/f2d90ac5ed479447a64af10f4d0658c54a95ac0f"><code>f2d90ac</code></a> Prepare for 2.18.0-rc1 release</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/e910a1ef7558440c84be85ee59491818a824f656"><code>e910a1e</code></a> Update deps to 2.18.0-rc1-SNAPSHOT</li>
<li><a href="https://github.com/FasterXML/jackson-bom/commit/b35d27ca603ffe4e390d1bc2da1cc1c67b02957d"><code>b35d27c</code></a> Merge branch '2.17' into 2.18</li>
<li>Additional commits viewable in <a href="https://github.com/FasterXML/jackson-bom/compare/jackson-bom-2.17.2...jackson-bom-2.18.0">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=com.fasterxml.jackson:jackson-bom&package-manager=maven&previous-version=2.17.2&new-version=2.18.0)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index 1d67476bfa709..a95c399192e67 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -99,7 +99,7 @@ under the License.
     <dep.netty-bom.version>4.1.113.Final</dep.netty-bom.version>
     <dep.grpc-bom.version>1.65.0</dep.grpc-bom.version>
     <dep.protobuf-bom.version>3.25.4</dep.protobuf-bom.version>
-    <dep.jackson-bom.version>2.17.2</dep.jackson-bom.version>
+    <dep.jackson-bom.version>2.18.0</dep.jackson-bom.version>
     <dep.hadoop.version>3.4.0</dep.hadoop.version>
     <dep.fbs.version>24.3.25</dep.fbs.version>
     <dep.avro.version>1.12.0</dep.avro.version>

From f5663dc32ee863d0f15970ad328f7c7aa39c6f43 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Mon, 7 Oct 2024 10:20:10 +0900
Subject: [PATCH 12/38] MINOR: [Java] Bump dep.junit.jupiter.version from
 5.11.0 to 5.11.1 in /java (#44261)

Bumps `dep.junit.jupiter.version` from 5.11.0 to 5.11.1.
Updates `org.junit.jupiter:junit-jupiter-engine` from 5.11.0 to 5.11.1
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-engine's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.1 = Platform 1.11.1 + Jupiter 5.11.1 + Vintage 5.11.1</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.1/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/e4b2c0c1384dd980abbd61c11322c419cf7cd1eb"><code>e4b2c0c</code></a> Release 5.11.1</li>
<li><a href="https://github.com/junit-team/junit5/commit/c37b179f74e06ddaa7a86d82ff4ea2a8d04a0ea9"><code>c37b179</code></a> Finalize 5.11.1 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/a7b1c49702ddf8113a7e74da2cfe6ca9e3e35521"><code>a7b1c49</code></a> Include 5.10.4 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/3646b7d37e3401d9cda0106290bbf9cb36a735b2"><code>3646b7d</code></a> Document benefits of <code>messageSupplier</code> in <code>Assertions</code> (<a href="https://redirect.github.com/junit-team/junit5/issues/3938">#3938</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/6b9f15d9d53ceef1db1a0fa1fd3e7f38f757e88e"><code>6b9f15d</code></a> Delete unnecessary (and potentially misleading) comment in User Guide</li>
<li><a href="https://github.com/junit-team/junit5/commit/98dafd3746dcf141ac8b5906f26e69e9a140ff5d"><code>98dafd3</code></a> Reduce flakiness</li>
<li><a href="https://github.com/junit-team/junit5/commit/6529d8d4b14e0ab2b9134a9d9b0d9260ba2f6410"><code>6529d8d</code></a> Allow for work stealing when only holding read locks (<a href="https://redirect.github.com/junit-team/junit5/issues/4012">#4012</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/0d25a5a0ddab609df3d7382264b050dc61f54d2f"><code>0d25a5a</code></a> Fix YAML syntax</li>
<li><a href="https://github.com/junit-team/junit5/commit/28dd375d31995365ed36c40270be619b4d64be99"><code>28dd375</code></a> Fix step label</li>
<li><a href="https://github.com/junit-team/junit5/commit/348ef61d6b2f945cb0bf315b97eef80a41686a88"><code>348ef61</code></a> Switch to Temurin for JDK 23 (<a href="https://redirect.github.com/junit-team/junit5/issues/4005">#4005</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">compare view</a></li>
</ul>
</details>
<br />

Updates `org.junit.jupiter:junit-jupiter-api` from 5.11.0 to 5.11.1
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-api's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.1 = Platform 1.11.1 + Jupiter 5.11.1 + Vintage 5.11.1</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.1/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/e4b2c0c1384dd980abbd61c11322c419cf7cd1eb"><code>e4b2c0c</code></a> Release 5.11.1</li>
<li><a href="https://github.com/junit-team/junit5/commit/c37b179f74e06ddaa7a86d82ff4ea2a8d04a0ea9"><code>c37b179</code></a> Finalize 5.11.1 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/a7b1c49702ddf8113a7e74da2cfe6ca9e3e35521"><code>a7b1c49</code></a> Include 5.10.4 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/3646b7d37e3401d9cda0106290bbf9cb36a735b2"><code>3646b7d</code></a> Document benefits of <code>messageSupplier</code> in <code>Assertions</code> (<a href="https://redirect.github.com/junit-team/junit5/issues/3938">#3938</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/6b9f15d9d53ceef1db1a0fa1fd3e7f38f757e88e"><code>6b9f15d</code></a> Delete unnecessary (and potentially misleading) comment in User Guide</li>
<li><a href="https://github.com/junit-team/junit5/commit/98dafd3746dcf141ac8b5906f26e69e9a140ff5d"><code>98dafd3</code></a> Reduce flakiness</li>
<li><a href="https://github.com/junit-team/junit5/commit/6529d8d4b14e0ab2b9134a9d9b0d9260ba2f6410"><code>6529d8d</code></a> Allow for work stealing when only holding read locks (<a href="https://redirect.github.com/junit-team/junit5/issues/4012">#4012</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/0d25a5a0ddab609df3d7382264b050dc61f54d2f"><code>0d25a5a</code></a> Fix YAML syntax</li>
<li><a href="https://github.com/junit-team/junit5/commit/28dd375d31995365ed36c40270be619b4d64be99"><code>28dd375</code></a> Fix step label</li>
<li><a href="https://github.com/junit-team/junit5/commit/348ef61d6b2f945cb0bf315b97eef80a41686a88"><code>348ef61</code></a> Switch to Temurin for JDK 23 (<a href="https://redirect.github.com/junit-team/junit5/issues/4005">#4005</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">compare view</a></li>
</ul>
</details>
<br />

Updates `org.junit.jupiter:junit-jupiter-params` from 5.11.0 to 5.11.1
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-params's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.1 = Platform 1.11.1 + Jupiter 5.11.1 + Vintage 5.11.1</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.1/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/e4b2c0c1384dd980abbd61c11322c419cf7cd1eb"><code>e4b2c0c</code></a> Release 5.11.1</li>
<li><a href="https://github.com/junit-team/junit5/commit/c37b179f74e06ddaa7a86d82ff4ea2a8d04a0ea9"><code>c37b179</code></a> Finalize 5.11.1 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/a7b1c49702ddf8113a7e74da2cfe6ca9e3e35521"><code>a7b1c49</code></a> Include 5.10.4 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/3646b7d37e3401d9cda0106290bbf9cb36a735b2"><code>3646b7d</code></a> Document benefits of <code>messageSupplier</code> in <code>Assertions</code> (<a href="https://redirect.github.com/junit-team/junit5/issues/3938">#3938</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/6b9f15d9d53ceef1db1a0fa1fd3e7f38f757e88e"><code>6b9f15d</code></a> Delete unnecessary (and potentially misleading) comment in User Guide</li>
<li><a href="https://github.com/junit-team/junit5/commit/98dafd3746dcf141ac8b5906f26e69e9a140ff5d"><code>98dafd3</code></a> Reduce flakiness</li>
<li><a href="https://github.com/junit-team/junit5/commit/6529d8d4b14e0ab2b9134a9d9b0d9260ba2f6410"><code>6529d8d</code></a> Allow for work stealing when only holding read locks (<a href="https://redirect.github.com/junit-team/junit5/issues/4012">#4012</a>)</li>
<li><a href="https://github.com/junit-team/junit5/commit/0d25a5a0ddab609df3d7382264b050dc61f54d2f"><code>0d25a5a</code></a> Fix YAML syntax</li>
<li><a href="https://github.com/junit-team/junit5/commit/28dd375d31995365ed36c40270be619b4d64be99"><code>28dd375</code></a> Fix step label</li>
<li><a href="https://github.com/junit-team/junit5/commit/348ef61d6b2f945cb0bf315b97eef80a41686a88"><code>348ef61</code></a> Switch to Temurin for JDK 23 (<a href="https://redirect.github.com/junit-team/junit5/issues/4005">#4005</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/junit-team/junit5/compare/r5.11.0...r5.11.1">compare view</a></li>
</ul>
</details>
<br />

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index a95c399192e67..e71ae2f6b98db 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -93,7 +93,7 @@ under the License.
   <properties>
     <target.gen.source.path>${project.build.directory}/generated-sources</target.gen.source.path>
     <dep.junit.platform.version>1.9.0</dep.junit.platform.version>
-    <dep.junit.jupiter.version>5.11.0</dep.junit.jupiter.version>
+    <dep.junit.jupiter.version>5.11.1</dep.junit.jupiter.version>
     <dep.slf4j.version>2.0.16</dep.slf4j.version>
     <dep.guava-bom.version>33.3.0-jre</dep.guava-bom.version>
     <dep.netty-bom.version>4.1.113.Final</dep.netty-bom.version>

From f8333cfa5fc56c105443ecb1a722bb318089a6d4 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Mon, 7 Oct 2024 10:28:10 +0900
Subject: [PATCH 13/38] MINOR: [Java] Bump com.google.guava:guava-bom from
 33.3.0-jre to 33.3.1-jre in /java (#44264)

Bumps [com.google.guava:guava-bom](https://github.com/google/guava) from 33.3.0-jre to 33.3.1-jre.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/google/guava/releases">com.google.guava:guava-bom's releases</a>.</em></p>
<blockquote>
<h2>33.3.1</h2>
<h3>Maven</h3>
<pre lang="xml"><code>&lt;dependency&gt;
  &lt;groupId&gt;com.google.guava&lt;/groupId&gt;
  &lt;artifactId&gt;guava&lt;/artifactId&gt;
  &lt;version&gt;33.3.1-jre&lt;/version&gt;
  &lt;!-- or, for Android: --&gt;
  &lt;version&gt;33.3.1-android&lt;/version&gt;
&lt;/dependency&gt;
</code></pre>
<h3>Jar files</h3>
<ul>
<li><a href="https://repo1.maven.org/maven2/com/google/guava/guava/33.3.1-jre/guava-33.3.1-jre.jar">33.3.1-jre.jar</a></li>
<li><a href="https://repo1.maven.org/maven2/com/google/guava/guava/33.3.1-android/guava-33.3.1-android.jar">33.3.1-android.jar</a></li>
</ul>
<p>Guava requires <a href="https://github.com/google/guava/wiki/UseGuavaInYourBuild#what-about-guavas-own-dependencies">one runtime dependency</a>, which you can download here:</p>
<ul>
<li><a href="https://repo1.maven.org/maven2/com/google/guava/failureaccess/1.0.1/failureaccess-1.0.1.jar">failureaccess-1.0.1.jar</a></li>
</ul>
<h3>Javadoc</h3>
<ul>
<li><a href="https://guava.dev/releases/33.3.1-jre/api/docs/">33.3.1-jre</a></li>
<li><a href="https://guava.dev/releases/33.3.1-android/api/docs/">33.3.1-android</a></li>
</ul>
<h3>JDiff</h3>
<ul>
<li><a href="https://guava.dev/releases/33.3.1-jre/api/diffs/">33.3.1-jre vs. 33.3.0-jre</a></li>
<li><a href="https://guava.dev/releases/33.3.1-android/api/diffs/">33.3.1-android vs. 33.3.0-android</a></li>
<li><a href="https://guava.dev/releases/33.3.1-android/api/androiddiffs/">33.3.1-android vs. 33.3.1-jre</a></li>
</ul>
<h3>Changelog</h3>
<ul>
<li>Added <code>j2objc-annotations</code> to the Gradle runtime classpath to stop producing <a href="https://redirect.github.com/google/guava/issues/7397">an Android Gradle Plugin error</a>. (a3b51888c2)</li>
</ul>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li>See full diff in <a href="https://github.com/google/guava/commits">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=com.google.guava:guava-bom&package-manager=maven&previous-version=33.3.0-jre&new-version=33.3.1-jre)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index e71ae2f6b98db..43a737d1c1bad 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -95,7 +95,7 @@ under the License.
     <dep.junit.platform.version>1.9.0</dep.junit.platform.version>
     <dep.junit.jupiter.version>5.11.1</dep.junit.jupiter.version>
     <dep.slf4j.version>2.0.16</dep.slf4j.version>
-    <dep.guava-bom.version>33.3.0-jre</dep.guava-bom.version>
+    <dep.guava-bom.version>33.3.1-jre</dep.guava-bom.version>
     <dep.netty-bom.version>4.1.113.Final</dep.netty-bom.version>
     <dep.grpc-bom.version>1.65.0</dep.grpc-bom.version>
     <dep.protobuf-bom.version>3.25.4</dep.protobuf-bom.version>

From 36e0d11739f5c1cc0ec3023957c103574094ca85 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Mon, 7 Oct 2024 10:29:59 +0900
Subject: [PATCH 14/38] MINOR: [Java] Bump
 com.google.api.grpc:proto-google-common-protos from 2.44.0 to 2.45.1 in /java
 (#44263)

Bumps [com.google.api.grpc:proto-google-common-protos](https://github.com/googleapis/sdk-platform-java) from 2.44.0 to 2.45.1.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/googleapis/sdk-platform-java/releases">com.google.api.grpc:proto-google-common-protos's releases</a>.</em></p>
<blockquote>
<h2>v2.45.0</h2>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.44.0...v2.45.0">2.45.0</a> (2024-09-09)</h2>
<h3>Features</h3>
<ul>
<li>add Batcher#close(timeout) and Batcher#cancelOutstanding (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3141">#3141</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b5a92e4495b33ad797f9a071a97828460dacd80f">b5a92e4</a>)</li>
<li>add full RetrySettings sample code to Settings classes (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3056">#3056</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/8fe3a2d4cfac5d038bcf12afe849c9182073920e">8fe3a2d</a>)</li>
<li>add toString to futures returned by operations (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3140">#3140</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/afecb8c43c48067931b3fed78cf2eec55d983f9c">afecb8c</a>)</li>
<li>bake gapic-generator-java into the hermetic build docker image (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3067">#3067</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a372e82ad322e409cd49196e96abee62cbc567ea">a372e82</a>)</li>
</ul>
<h3>Bug Fixes</h3>
<ul>
<li><strong>gax:</strong> prevent truncation/overflow when converting time values (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3095">#3095</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/699074e2db06c4d6d7ebfa235cc2aaeee695fdb4">699074e</a>)</li>
</ul>
<h3>Dependencies</h3>
<ul>
<li>add opentelemetry exporter-metrics and shared-resoucemapping to shared dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3078">#3078</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/fc8d80d11182259c0c15d36c6427db5ba316735d">fc8d80d</a>)</li>
<li>update dependency certifi to v2024.8.30 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3150">#3150</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/c18b705149d32ecfbfd298c0a414dba067b6a7a9">c18b705</a>)</li>
<li>update dependency com.google.api-client:google-api-client-bom to v2.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3151">#3151</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/5f43e43351ee26ee3729218c0dfe282f20c9053b">5f43e43</a>)</li>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.31.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3153">#3153</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/307150935e3b9e1000570f869e5ad14901fd0513">3071509</a>)</li>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.31.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3154">#3154</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/335ee63577616eecdbd1d3ccd0526393eb0e50be">335ee63</a>)</li>
<li>update dependency com.google.guava:guava to v33.3.0-jre (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3119">#3119</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/41174b04a5d4e5cff02dab95d5249e21b8d80496">41174b0</a>)</li>
<li>update dependency dev.cel:cel to v0.7.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3155">#3155</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b1ddd16158d30aa7716caa4ec408bf45bb3a7a69">b1ddd16</a>)</li>
<li>update dependency filelock to v3.16.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3175">#3175</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/6681113f1e71c9d0aa4fe0e9d641bf06ccc93f88">6681113</a>)</li>
<li>update dependency idna to v3.8 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3156">#3156</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/82f5326b3f6b94a87009f58f8599780ebfdf77c2">82f5326</a>)</li>
<li>update dependency io.netty:netty-tcnative-boringssl-static to v2.0.66.final (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3148">#3148</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a7efaa8a06c016878ba8083ddbf4588506f7653e">a7efaa8</a>)</li>
<li>update dependency net.bytebuddy:byte-buddy to v1.15.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3115">#3115</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/0e06c5f51f13b5de6dab18391d9738ed7c9452ff">0e06c5f</a>)</li>
<li>update dependency org.apache.commons:commons-lang3 to v3.17.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3157">#3157</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/8d3b9fd1f1872a10635a3e82a2be75c5b964d582">8d3b9fd</a>)</li>
<li>update dependency org.checkerframework:checker-qual to v3.47.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3166">#3166</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/365674d51bee846aeb0aab2491659d59e48b7512">365674d</a>)</li>
<li>update dependency org.yaml:snakeyaml to v2.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3158">#3158</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/e67ea9af7d2334d225f75eef2dd24490ee90a442">e67ea9a</a>)</li>
<li>update dependency platformdirs to v4.3.2 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3176">#3176</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/4f2f9e027d1413e1beca1092c20e2e542227ca28">4f2f9e0</a>)</li>
<li>update dependency virtualenv to v20.26.4 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3177">#3177</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/080e07879d9493a0f1ad53b1c44c181805ef1d25">080e078</a>)</li>
<li>update google api dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3118">#3118</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/67342ea9f11643f02bf215193f7c760d7a05ca2e">67342ea</a>)</li>
<li>update google auth library dependencies to v1.25.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3168">#3168</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/715884ab21c0b3bb526f280ffb100d3f621a5c6c">715884a</a>)</li>
<li>update google http client dependencies to v1.45.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3159">#3159</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a3fe612476904f34afdf0009fbd53d58aac5ad85">a3fe612</a>)</li>
<li>update googleapis/java-cloud-bom digest to 6626f91 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3147">#3147</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/658e40e7b7f1673b8f82c537a255aa0c294ee4aa">658e40e</a>)</li>
<li>update junit5 monorepo to v5.11.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3111">#3111</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/6bf84c86ffa3cbc74691ab8de82d69fb0eb75bf9">6bf84c8</a>)</li>
<li>update netty dependencies to v4.1.113.final (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3165">#3165</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/9b5957da2e584569dea523ebcb1af47d49e7a749">9b5957d</a>)</li>
<li>update opentelemetry-java monorepo to v1.42.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3172">#3172</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/413c44e1dbe466b68eb8a5a62b707c2e9544ffaf">413c44e</a>)</li>
</ul>
<h3>Documentation</h3>
<ul>
<li>Update DEVELOPMENT.md (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3126">#3126</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/92bdf4e19a8c3df365c067142a7aa112a004be20">92bdf4e</a>)</li>
</ul>
</blockquote>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a href="https://github.com/googleapis/sdk-platform-java/blob/main/CHANGELOG.md">com.google.api.grpc:proto-google-common-protos's changelog</a>.</em></p>
<blockquote>
<h1>Changelog</h1>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.46.0...v2.46.1">2.46.1</a> (2024-09-25)</h2>
<h3>Dependencies</h3>
<ul>
<li>update dependency black to v24.8.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3234">#3234</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/73d803b0dddca82a32c1789a9f92bc48431850aa">73d803b</a>)</li>
<li>update dependency lxml to v5.3.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3237">#3237</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ee2d05a1d7cb03615ba190802e4e720be2955345">ee2d05a</a>)</li>
<li>update dependency net.bytebuddy:byte-buddy to v1.15.2 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3235">#3235</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a7781a6ab3a052f60a51b4d1d06464553dcd6b5c">a7781a6</a>)</li>
<li>update dependency pyyaml to v6.0.2 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3231">#3231</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ce60bdf2c95ce3e9e549f1a9a2eb788424e3d454">ce60bdf</a>)</li>
<li>update dependency watchdog to v4.0.2 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3232">#3232</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ab0976b196afb3ff67aca17f121d01bb511375c3">ab0976b</a>)</li>
<li>update google api dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3224">#3224</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/4803738938bf7f602baca025b4bdfbef13f6202e">4803738</a>)</li>
<li>update google.cloud.opentelemetry.version to v0.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3225">#3225</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/69e3e38a680cfb5fc9dbcb1fea67d39c89945bdd">69e3e38</a>)</li>
<li>update grpc dependencies to v1.68.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3220">#3220</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/f6e30a57816affeb1802d3266b6166ec174a06ee">f6e30a5</a>)</li>
<li>update junit5 monorepo to v5.11.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3236">#3236</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/8b42993767c6bba36f396156a5e84217d83c7c57">8b42993</a>)</li>
</ul>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.45.0...v2.46.0">2.46.0</a> (2024-09-23)</h2>
<h3>Features</h3>
<ul>
<li>expose property in GrpcTransportChannel if it uses direct path. (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3170">#3170</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/9a432f7ce042fb2470ca99817200e0ff82a83c39">9a432f7</a>)</li>
<li>generate a GAPIC library from api definition (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3208">#3208</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b6b5d7bbe2743034def0859105da146134d9b1b0">b6b5d7b</a>)</li>
<li>Metrics tracer addAttribute map overload (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3202">#3202</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/1a988df22f7e3d15ce6b121bf26897c59ab468e4">1a988df</a>)</li>
</ul>
<h3>Bug Fixes</h3>
<ul>
<li>generate pr description with repo level change (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3182">#3182</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/edd2168fdc7ba7ea9ae328736cb5d39adf950929">edd2168</a>)</li>
</ul>
<h3>Dependencies</h3>
<ul>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3192">#3192</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b28070686ed1360084cd95beb622b78966f4960c">b280706</a>)</li>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3193">#3193</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ed0cd1729b6b964d730a8c5f38589939aab3fd8a">ed0cd17</a>)</li>
<li>update dependency filelock to v3.16.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3210">#3210</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/703ac3d0b73d5388d60b910bcd26bcde6327a0a3">703ac3d</a>)</li>
<li>update dependency idna to v3.10 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3201">#3201</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/211c3ecdec1a088267dc3c2765f5eb3835496c9b">211c3ec</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3205">#3205</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/c88a722c09080b18ecbb9ba94dec56f152de5eb9">c88a722</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3206">#3206</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/3e9fbacf65411521c87e67f3dd33f392276e8200">3e9fbac</a>)</li>
<li>update dependency platformdirs to v4.3.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3200">#3200</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b62b05de5295484b48b36fcbf9b94887184d05d4">b62b05d</a>)</li>
<li>update dependency platformdirs to v4.3.6 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3209">#3209</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/227ffa5a841c29b91f848453e8be2accf44041f3">227ffa5</a>)</li>
<li>update dependency urllib3 to v2.2.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3194">#3194</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/f69d511d89a50d88bb45fd113611e4f94886696b">f69d511</a>)</li>
<li>update dependency virtualenv to v20.26.5 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3212">#3212</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/d3ef97a5b9f5252a1e503b638261746a7cf4dc77">d3ef97a</a>)</li>
<li>update google api dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3183">#3183</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/02eea8d62e5e2d019a97545429346810e00bcaa6">02eea8d</a>)</li>
<li>update google auth library dependencies to v1.26.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3216">#3216</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/0b369e9ba6551eae6d2041ce430912b56ae9b394">0b369e9</a>)</li>
<li>update google auth library dependencies to v1.27.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3221">#3221</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a3cb9e75839ceb811f9e264073758691068e4a95">a3cb9e7</a>)</li>
<li>update googleapis/java-cloud-bom digest to 06f632d (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3198">#3198</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/49dcd3535fc2836df3a5d7b1665051cd54d09f29">49dcd35</a>)</li>
<li>update googleapis/java-cloud-bom digest to e7d8909 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3207">#3207</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/de497ee716a4fd0ab3bc64d66c1dc24af11c0368">de497ee</a>)</li>
<li>update opentelemetry-java monorepo to v1.42.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3189">#3189</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/38117d8b92930abc6e6922a4c46654d02e823f67">38117d8</a>)</li>
</ul>

</blockquote>
<p>... (truncated)</p>
</details>
<details>
<summary>Commits</summary>
<ul>
<li>See full diff in <a href="https://github.com/googleapis/sdk-platform-java/commits">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=com.google.api.grpc:proto-google-common-protos&package-manager=maven&previous-version=2.44.0&new-version=2.45.1)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/flight/flight-core/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/flight/flight-core/pom.xml b/java/flight/flight-core/pom.xml
index a9724289c2252..c2427272eaa89 100644
--- a/java/flight/flight-core/pom.xml
+++ b/java/flight/flight-core/pom.xml
@@ -134,7 +134,7 @@ under the License.
     <dependency>
       <groupId>com.google.api.grpc</groupId>
       <artifactId>proto-google-common-protos</artifactId>
-      <version>2.44.0</version>
+      <version>2.45.1</version>
       <scope>test</scope>
     </dependency>
     <dependency>

From ab95a4d25142ff5723117c9d3a1c6453a6640cf6 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Mon, 7 Oct 2024 10:30:41 +0900
Subject: [PATCH 15/38] MINOR: [Java] Bump org.cyclonedx:cyclonedx-maven-plugin
 from 2.8.1 to 2.8.2 in /java (#44267)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [org.cyclonedx:cyclonedx-maven-plugin](https://github.com/CycloneDX/cyclonedx-maven-plugin) from 2.8.1 to 2.8.2.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/releases">org.cyclonedx:cyclonedx-maven-plugin's releases</a>.</em></p>
<blockquote>
<h2>2.8.2</h2>

<h2>🐛 Bug Fixes</h2>
<ul>
<li>display configured classifier from <a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/issues/506">#506</a> (<a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/pull/550">#550</a>) <a href="https://github.com/hboutemy"><code>@​hboutemy</code></a></li>
</ul>
<h2>📦 Dependency updates</h2>
<ul>
<li>Bump plugin-tools.version from 3.13.1 to 3.15.0 (<a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/pull/551">#551</a>) <a href="https://github.com/dependabot"><code>@​dependabot</code></a></li>
<li>Bump org.apache.maven.plugins:maven-project-info-reports-plugin from 3.6.1 to 3.7.0 (<a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/pull/552">#552</a>) <a href="https://github.com/dependabot"><code>@​dependabot</code></a></li>
<li>Bump org.apache.commons:commons-lang3 from 3.14.0 to 3.17.0 (<a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/pull/546">#546</a>) <a href="https://github.com/dependabot"><code>@​dependabot</code></a></li>
<li>Bump commons-codec:commons-codec from 1.17.0 to 1.17.1 (<a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/pull/537">#537</a>) <a href="https://github.com/dependabot"><code>@​dependabot</code></a></li>
</ul>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/a3f468f316c62d480007054773a8e4278b07f365"><code>a3f468f</code></a> [maven-release-plugin] prepare release cyclonedx-maven-plugin-2.8.2</li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/85e3bd81c7019fa26daa805c5d78a9e826ef0d21"><code>85e3bd8</code></a> Bump plugin-tools.version from 3.13.1 to 3.15.0</li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/314424d95f07d4383973d95dbe9ce4d6e63e1959"><code>314424d</code></a> Bump org.apache.maven.plugins:maven-project-info-reports-plugin</li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/41808a091377a836bfceabd0bebf938b10e550fb"><code>41808a0</code></a> display configured classifier from <a href="https://redirect.github.com/CycloneDX/cyclonedx-maven-plugin/issues/506">#506</a></li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/be1b73a1c636a4fc33ec49af5dedc2fca2f3b872"><code>be1b73a</code></a> Bump org.apache.commons:commons-lang3 from 3.14.0 to 3.17.0</li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/bb865c4faa7761961417ac9e36523fe15e09e1f5"><code>bb865c4</code></a> Bump commons-codec:commons-codec from 1.17.0 to 1.17.1</li>
<li><a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/commit/cb74626471281f0d708b1034be183db9cdeebe78"><code>cb74626</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li>See full diff in <a href="https://github.com/CycloneDX/cyclonedx-maven-plugin/compare/cyclonedx-maven-plugin-2.8.1...cyclonedx-maven-plugin-2.8.2">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=org.cyclonedx:cyclonedx-maven-plugin&package-manager=maven&previous-version=2.8.1&new-version=2.8.2)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index 43a737d1c1bad..4fb81c722c116 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -530,7 +530,7 @@ under the License.
         <plugin>
           <groupId>org.cyclonedx</groupId>
           <artifactId>cyclonedx-maven-plugin</artifactId>
-          <version>2.8.1</version>
+          <version>2.8.2</version>
         </plugin>
         <plugin>
           <groupId>org.apache.drill.tools</groupId>

From e62fbaafd129931b1c217fcaa1b4c254087ab289 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Ra=C3=BAl=20Cumplido?= <raulcumplido@gmail.com>
Date: Mon, 7 Oct 2024 11:13:49 +0200
Subject: [PATCH 16/38] GH-43879: [Go] Remove go related code (#44293)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

### Rationale for this change

Go code has been mode to its own repository at https://github.com/apache/arrow-go

### What changes are included in this PR?

Removing the folder `go/` from the https://github.com/apache/arrow repository

### Are these changes tested?

I'll validate on CI there's no failures

### Are there any user-facing changes?

The Go code is no longer present on the Arrow repository.
* GitHub Issue: #43879

Authored-by: Raúl Cumplido <raulcumplido@gmail.com>
Signed-off-by: Raúl Cumplido <raulcumplido@gmail.com>
---
 go/LICENSE.txt                                |  1791 -
 go/README.md                                  |   147 -
 go/arrow/.editorconfig                        |    21 -
 go/arrow/.gitignore                           |    35 -
 go/arrow/Gopkg.lock                           |    44 -
 go/arrow/Gopkg.toml                           |    23 -
 go/arrow/Makefile                             |    54 -
 go/arrow/_examples/helloworld/main.go         |    52 -
 go/arrow/_tools/tmpl/main.go                  |   268 -
 go/arrow/_tools/tmpl/main_test.go             |    73 -
 go/arrow/_tools/tools.go                      |    25 -
 go/arrow/array.go                             |   129 -
 go/arrow/array/array.go                       |   186 -
 go/arrow/array/array_test.go                  |   346 -
 go/arrow/array/binary.go                      |   453 -
 go/arrow/array/binary_test.go                 |   726 -
 go/arrow/array/binarybuilder.go               |   704 -
 go/arrow/array/binarybuilder_test.go          |   151 -
 go/arrow/array/boolean.go                     |   126 -
 go/arrow/array/boolean_test.go                |   322 -
 go/arrow/array/booleanbuilder.go              |   263 -
 go/arrow/array/booleanbuilder_test.go         |   103 -
 go/arrow/array/bufferbuilder.go               |   261 -
 go/arrow/array/bufferbuilder_byte.go          |    30 -
 go/arrow/array/bufferbuilder_numeric.gen.go   |   124 -
 .../array/bufferbuilder_numeric.gen.go.tmpl   |    61 -
 go/arrow/array/bufferbuilder_numeric_test.go  |   106 -
 go/arrow/array/builder.go                     |   374 -
 go/arrow/array/builder_test.go                |   123 -
 go/arrow/array/compare.go                     |   854 -
 go/arrow/array/compare_test.go                |   728 -
 go/arrow/array/concat.go                      |   933 -
 go/arrow/array/concat_test.go                 |   789 -
 go/arrow/array/data.go                        |   277 -
 go/arrow/array/data_test.go                   |   138 -
 go/arrow/array/decimal128.go                  |   368 -
 go/arrow/array/decimal128_test.go             |   283 -
 go/arrow/array/decimal256.go                  |   368 -
 go/arrow/array/decimal256_test.go             |   293 -
 go/arrow/array/decimal_test.go                |   222 -
 go/arrow/array/dictionary.go                  |  1958 -
 go/arrow/array/dictionary_test.go             |  1918 -
 go/arrow/array/diff.go                        |   315 -
 go/arrow/array/diff_test.go                   |   878 -
 go/arrow/array/doc.go                         |    20 -
 go/arrow/array/encoded.go                     |   520 -
 go/arrow/array/encoded_test.go                |   459 -
 go/arrow/array/extension.go                   |   244 -
 go/arrow/array/extension_builder.go           |    25 -
 go/arrow/array/extension_test.go              |    86 -
 go/arrow/array/fixed_size_list.go             |   385 -
 go/arrow/array/fixed_size_list_test.go        |   257 -
 go/arrow/array/fixedsize_binary.go            |   123 -
 go/arrow/array/fixedsize_binary_test.go       |   189 -
 go/arrow/array/fixedsize_binarybuilder.go     |   261 -
 .../array/fixedsize_binarybuilder_test.go     |   107 -
 go/arrow/array/float16.go                     |   123 -
 go/arrow/array/float16_builder.go             |   263 -
 go/arrow/array/float16_builder_test.go        |   156 -
 go/arrow/array/interval.go                    |   953 -
 go/arrow/array/interval_test.go               |   524 -
 go/arrow/array/json_reader.go                 |   205 -
 go/arrow/array/json_reader_test.go            |   141 -
 go/arrow/array/list.go                        |  1574 -
 go/arrow/array/list_test.go                   |   864 -
 go/arrow/array/map.go                         |   361 -
 go/arrow/array/map_test.go                    |   254 -
 go/arrow/array/null.go                        |   218 -
 go/arrow/array/null_test.go                   |   110 -
 go/arrow/array/numeric.gen.go                 |  1452 -
 go/arrow/array/numeric.gen.go.tmpl            |   192 -
 go/arrow/array/numeric_test.go                |   779 -
 go/arrow/array/numericbuilder.gen.go          |  3664 -
 go/arrow/array/numericbuilder.gen.go.tmpl     |   447 -
 go/arrow/array/numericbuilder.gen_test.go     |  3125 -
 .../array/numericbuilder.gen_test.go.tmpl     |   299 -
 go/arrow/array/record.go                      |   411 -
 go/arrow/array/record_test.go                 |   787 -
 go/arrow/array/string.go                      |   718 -
 go/arrow/array/string_test.go                 |   794 -
 go/arrow/array/struct.go                      |   491 -
 go/arrow/array/struct_test.go                 |   532 -
 go/arrow/array/table.go                       |   421 -
 go/arrow/array/table_test.go                  |   833 -
 go/arrow/array/timestamp.go                   |   380 -
 go/arrow/array/timestamp_test.go              |   300 -
 go/arrow/array/union.go                       |  1370 -
 go/arrow/array/union_test.go                  |  1117 -
 go/arrow/array/util.go                        |   523 -
 go/arrow/array/util_test.go                   |   545 -
 go/arrow/arrio/arrio.go                       |    92 -
 go/arrow/arrio/arrio_test.go                  |   197 -
 go/arrow/avro/avro2parquet/main.go            |   119 -
 go/arrow/avro/loader.go                       |    85 -
 go/arrow/avro/reader.go                       |   337 -
 go/arrow/avro/reader_test.go                  |   364 -
 go/arrow/avro/reader_types.go                 |   875 -
 go/arrow/avro/schema.go                       |   423 -
 go/arrow/avro/schema_test.go                  |   362 -
 go/arrow/avro/testdata/arrayrecordmap.avro    |   Bin 582 -> 0 bytes
 .../avro/testdata/githubsamplecommits.avro    |   Bin 95131 -> 0 bytes
 go/arrow/bitutil/Makefile                     |    62 -
 go/arrow/bitutil/_lib/bitmap_ops.c            |    46 -
 go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s |   410 -
 go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s |   530 -
 go/arrow/bitutil/bitmap_ops.go                |   109 -
 go/arrow/bitutil/bitmap_ops_amd64.go          |    41 -
 go/arrow/bitutil/bitmap_ops_arm64.go          |    27 -
 go/arrow/bitutil/bitmap_ops_avx2_amd64.go     |    52 -
 go/arrow/bitutil/bitmap_ops_avx2_amd64.s      |   373 -
 go/arrow/bitutil/bitmap_ops_noasm.go          |    27 -
 go/arrow/bitutil/bitmap_ops_ppc64le.go        |    27 -
 go/arrow/bitutil/bitmap_ops_s390x.go          |    27 -
 go/arrow/bitutil/bitmap_ops_sse4_amd64.go     |    52 -
 go/arrow/bitutil/bitmap_ops_sse4_amd64.s      |   501 -
 go/arrow/bitutil/bitmaps.go                   |   747 -
 go/arrow/bitutil/bitmaps_test.go              |   580 -
 go/arrow/bitutil/bitutil.go                   |   186 -
 go/arrow/bitutil/bitutil_bytes.go             |    37 -
 go/arrow/bitutil/bitutil_test.go              |   320 -
 go/arrow/bitutil/endian_default.go            |    34 -
 go/arrow/bitutil/endian_s390x.go              |    32 -
 go/arrow/cdata/arrow/c/abi.h                  |   111 -
 go/arrow/cdata/arrow/c/helpers.h              |   117 -
 go/arrow/cdata/cdata.go                       |  1028 -
 go/arrow/cdata/cdata_allocate.go              |    57 -
 go/arrow/cdata/cdata_exports.go               |   480 -
 go/arrow/cdata/cdata_fulltest.c               |   494 -
 go/arrow/cdata/cdata_test.go                  |  1027 -
 go/arrow/cdata/cdata_test_framework.go        |   451 -
 go/arrow/cdata/exports.go                     |   157 -
 go/arrow/cdata/import_allocator.go            |    58 -
 go/arrow/cdata/interface.go                   |   284 -
 go/arrow/cdata/test/test_cimport.go           |   178 -
 go/arrow/cdata/test/test_export_to_cgo.py     |   230 -
 go/arrow/cdata/trampoline.c                   |    34 -
 go/arrow/cdata/utils.h                        |    45 -
 go/arrow/compare.go                           |   153 -
 go/arrow/compare_test.go                      |   397 -
 go/arrow/compute/arithmetic.go                |  1229 -
 go/arrow/compute/arithmetic_test.go           |  3504 -
 go/arrow/compute/cast.go                      |   587 -
 go/arrow/compute/cast_test.go                 |  2867 -
 go/arrow/compute/datum.go                     |   305 -
 go/arrow/compute/datumkind_string.go          |    30 -
 go/arrow/compute/doc.go                       |    34 -
 go/arrow/compute/example_test.go              |    91 -
 go/arrow/compute/exec.go                      |   199 -
 go/arrow/compute/exec/hash_util.go            |    24 -
 go/arrow/compute/exec/kernel.go               |   695 -
 go/arrow/compute/exec/kernel_test.go          |   588 -
 go/arrow/compute/exec/span.go                 |   634 -
 go/arrow/compute/exec/span_offsets.go         |    36 -
 go/arrow/compute/exec/span_test.go            |   835 -
 go/arrow/compute/exec/utils.go                |   276 -
 go/arrow/compute/exec/utils_test.go           |   111 -
 go/arrow/compute/exec_internals_test.go       |   585 -
 go/arrow/compute/exec_test.go                 |   379 -
 go/arrow/compute/executor.go                  |  1122 -
 go/arrow/compute/expression.go                |   904 -
 go/arrow/compute/expression_test.go           |   259 -
 go/arrow/compute/exprs/builders.go            |   445 -
 go/arrow/compute/exprs/builders_test.go       |    92 -
 go/arrow/compute/exprs/exec.go                |   620 -
 go/arrow/compute/exprs/exec_internal_test.go  |   114 -
 go/arrow/compute/exprs/exec_test.go           |   461 -
 go/arrow/compute/exprs/extension_types.go     |   149 -
 go/arrow/compute/exprs/field_refs.go          |   254 -
 go/arrow/compute/exprs/types.go               |   745 -
 go/arrow/compute/fieldref.go                  |   587 -
 go/arrow/compute/fieldref_hash.go             |    39 -
 go/arrow/compute/fieldref_test.go             |   316 -
 go/arrow/compute/funckind_string.go           |    29 -
 go/arrow/compute/functions.go                 |   430 -
 go/arrow/compute/functions_test.go            |    69 -
 go/arrow/compute/internal/kernels/Makefile    |   110 -
 .../internal/kernels/_lib/base_arithmetic.cc  |   484 -
 .../kernels/_lib/base_arithmetic_avx2_amd64.s | 34899 --------
 .../kernels/_lib/base_arithmetic_sse4_amd64.s | 38194 ---------
 .../internal/kernels/_lib/cast_numeric.cc     |   104 -
 .../kernels/_lib/cast_numeric_avx2_amd64.s    | 11337 ---
 .../internal/kernels/_lib/cast_numeric_neon.s |  6088 --
 .../kernels/_lib/cast_numeric_sse4_amd64.s    |  8837 --
 .../internal/kernels/_lib/constant_factor.c   |    35 -
 .../kernels/_lib/constant_factor_avx2_amd64.s |   837 -
 .../kernels/_lib/constant_factor_sse4_amd64.s |   654 -
 .../kernels/_lib/scalar_comparison.cc         |   241 -
 .../_lib/scalar_comparison_avx2_amd64.s       | 67763 ----------------
 .../_lib/scalar_comparison_sse4_amd64.s       | 59819 --------------
 .../compute/internal/kernels/_lib/types.h     |   708 -
 .../kernels/_lib/vendored/safe-math.h         |  1072 -
 .../internal/kernels/base_arithmetic.go       |   897 -
 .../internal/kernels/base_arithmetic_amd64.go |   152 -
 .../kernels/base_arithmetic_avx2_amd64.go     |    60 -
 .../kernels/base_arithmetic_avx2_amd64.s      | 35529 --------
 .../kernels/base_arithmetic_sse4_amd64.go     |    60 -
 .../kernels/base_arithmetic_sse4_amd64.s      | 39139 ---------
 .../kernels/basic_arithmetic_noasm.go         |    33 -
 .../compute/internal/kernels/boolean_cast.go  |   107 -
 go/arrow/compute/internal/kernels/cast.go     |   116 -
 .../compute/internal/kernels/cast_numeric.go  |    87 -
 .../internal/kernels/cast_numeric_amd64.go    |    33 -
 .../kernels/cast_numeric_avx2_amd64.go        |    32 -
 .../kernels/cast_numeric_avx2_amd64.s         | 11545 ---
 .../kernels/cast_numeric_neon_arm64.go        |    41 -
 .../kernels/cast_numeric_neon_arm64.s         |  6087 --
 .../kernels/cast_numeric_sse4_amd64.go        |    32 -
 .../kernels/cast_numeric_sse4_amd64.s         |  9045 ---
 .../compute/internal/kernels/cast_temporal.go |   463 -
 .../kernels/compareoperator_string.go         |    30 -
 .../internal/kernels/constant_factor.go       |    81 -
 .../internal/kernels/constant_factor_amd64.go |    57 -
 .../kernels/constant_factor_avx2_amd64.go     |    77 -
 .../kernels/constant_factor_avx2_amd64.s      |   781 -
 .../kernels/constant_factor_sse4_amd64.go     |    77 -
 .../kernels/constant_factor_sse4_amd64.s      |   597 -
 go/arrow/compute/internal/kernels/doc.go      |    19 -
 go/arrow/compute/internal/kernels/helpers.go  |   989 -
 .../compute/internal/kernels/numeric_cast.go  |   866 -
 go/arrow/compute/internal/kernels/rounding.go |   809 -
 .../internal/kernels/roundmode_string.go      |    34 -
 .../internal/kernels/scalar_arithmetic.go     |   412 -
 .../internal/kernels/scalar_boolean.go        |   334 -
 .../kernels/scalar_comparison_amd64.go        |   109 -
 .../kernels/scalar_comparison_avx2_amd64.go   |   109 -
 .../kernels/scalar_comparison_avx2_amd64.s    | 67310 ---------------
 .../kernels/scalar_comparison_noasm.go        |    25 -
 .../kernels/scalar_comparison_sse4_amd64.go   |   109 -
 .../kernels/scalar_comparison_sse4_amd64.s    | 58288 -------------
 .../internal/kernels/scalar_comparisons.go    |   701 -
 .../compute/internal/kernels/string_casts.go  |   409 -
 go/arrow/compute/internal/kernels/types.go    |   109 -
 .../compute/internal/kernels/vector_hash.go   |   565 -
 .../internal/kernels/vector_run_end_encode.go |   957 -
 .../internal/kernels/vector_selection.go      |  1789 -
 go/arrow/compute/registry.go                  |   209 -
 go/arrow/compute/registry_test.go             |   182 -
 go/arrow/compute/scalar_bool.go               |   133 -
 go/arrow/compute/scalar_bool_test.go          |   154 -
 go/arrow/compute/scalar_compare.go            |   137 -
 go/arrow/compute/scalar_compare_test.go       |  1484 -
 go/arrow/compute/selection.go                 |   729 -
 go/arrow/compute/utils.go                     |   400 -
 go/arrow/compute/vector_hash.go               |    59 -
 go/arrow/compute/vector_hash_test.go          |   517 -
 go/arrow/compute/vector_run_end_test.go       |   423 -
 go/arrow/compute/vector_run_ends.go           |    90 -
 go/arrow/compute/vector_selection_test.go     |  1652 -
 go/arrow/csv/common.go                        |   269 -
 go/arrow/csv/reader.go                        |  1030 -
 go/arrow/csv/reader_test.go                   |   956 -
 go/arrow/csv/testdata/header.csv              |    21 -
 go/arrow/csv/testdata/simple.csv              |    28 -
 go/arrow/csv/testdata/types.csv               |    21 -
 go/arrow/csv/transformer.go                   |   282 -
 go/arrow/csv/writer.go                        |   116 -
 go/arrow/csv/writer_test.go                   |   430 -
 go/arrow/datatype.go                          |   411 -
 go/arrow/datatype_binary.go                   |   139 -
 go/arrow/datatype_binary_test.go              |   113 -
 go/arrow/datatype_encoded.go                  |    69 -
 go/arrow/datatype_extension.go                |   180 -
 go/arrow/datatype_extension_test.go           |    76 -
 go/arrow/datatype_fixedwidth.go               |   816 -
 go/arrow/datatype_fixedwidth_test.go          |   440 -
 go/arrow/datatype_nested.go                   |   993 -
 go/arrow/datatype_nested_test.go              |   633 -
 go/arrow/datatype_null.go                     |    31 -
 go/arrow/datatype_null_test.go                |    38 -
 go/arrow/datatype_numeric.gen.go              |   206 -
 go/arrow/datatype_numeric.gen.go.tmpl         |    45 -
 go/arrow/datatype_numeric.gen.go.tmpldata     |    66 -
 go/arrow/datatype_viewheader.go               |   141 -
 go/arrow/datatype_viewheader_inline.go        |    31 -
 go/arrow/datatype_viewheader_inline_go1.19.go |    35 -
 go/arrow/datatype_viewheader_inline_tinygo.go |    35 -
 go/arrow/decimal128/decimal128.go             |   627 -
 go/arrow/decimal128/decimal128_test.go        |   709 -
 go/arrow/decimal256/decimal256.go             |   708 -
 go/arrow/decimal256/decimal256_test.go        |   623 -
 go/arrow/doc.go                               |    46 -
 go/arrow/encoded/ree_utils.go                 |   219 -
 go/arrow/encoded/ree_utils_test.go            |   156 -
 go/arrow/endian/big.go                        |    30 -
 go/arrow/endian/endian.go                     |    41 -
 go/arrow/endian/little.go                     |    30 -
 go/arrow/errors.go                            |    28 -
 go/arrow/example_test.go                      |   832 -
 go/arrow/extensions/bool8.go                  |   216 -
 go/arrow/extensions/bool8_test.go             |   316 -
 go/arrow/extensions/doc.go                    |    20 -
 go/arrow/extensions/extensions.go             |    36 -
 go/arrow/extensions/extensions_test.go        |   105 -
 go/arrow/extensions/json.go                   |   148 -
 go/arrow/extensions/json_test.go              |   268 -
 go/arrow/extensions/opaque.go                 |   106 -
 go/arrow/extensions/opaque_test.go            |   197 -
 go/arrow/extensions/uuid.go                   |   265 -
 go/arrow/extensions/uuid_test.go              |   257 -
 go/arrow/flight/basic_auth_flight_test.go     |   202 -
 go/arrow/flight/client.go                     |   453 -
 go/arrow/flight/client_auth.go                |    91 -
 go/arrow/flight/cookie_middleware.go          |   146 -
 go/arrow/flight/cookie_middleware_test.go     |   301 -
 go/arrow/flight/doc.go                        |    77 -
 go/arrow/flight/example_flight_server_test.go |    90 -
 go/arrow/flight/flight_middleware_test.go     |   361 -
 go/arrow/flight/flight_test.go                |   486 -
 go/arrow/flight/flightsql/client.go           |  1436 -
 go/arrow/flight/flightsql/client_test.go      |   741 -
 go/arrow/flight/flightsql/column_metadata.go  |   217 -
 go/arrow/flight/flightsql/driver/README.md    |   226 -
 go/arrow/flight/flightsql/driver/config.go    |   209 -
 .../flight/flightsql/driver/config_test.go    |   427 -
 go/arrow/flight/flightsql/driver/driver.go    |   615 -
 .../flight/flightsql/driver/driver_test.go    |  1858 -
 go/arrow/flight/flightsql/driver/errors.go    |    26 -
 go/arrow/flight/flightsql/driver/utils.go     |   287 -
 .../flight/flightsql/driver/utils_test.go     |   138 -
 .../cmd/sqlite_flightsql_server/main.go       |    64 -
 .../flightsql/example/sql_batch_reader.go     |   341 -
 .../flight/flightsql/example/sqlite_info.go   |   201 -
 .../flight/flightsql/example/sqlite_server.go |   800 -
 .../sqlite_tables_schema_batch_reader.go      |   203 -
 .../flight/flightsql/example/type_info.go     |   118 -
 .../flightsql/schema_ref/reference_schemas.go |   106 -
 go/arrow/flight/flightsql/server.go           |  1400 -
 go/arrow/flight/flightsql/server_test.go      |  1046 -
 go/arrow/flight/flightsql/sql_info.go         |    93 -
 .../flight/flightsql/sqlite_server_test.go    |   910 -
 go/arrow/flight/flightsql/types.go            |   899 -
 go/arrow/flight/gen.go                        |    20 -
 go/arrow/flight/gen/flight/Flight.pb.go       |  2832 -
 go/arrow/flight/gen/flight/FlightSql.pb.go    |  6082 --
 go/arrow/flight/gen/flight/Flight_grpc.pb.go  |   775 -
 go/arrow/flight/record_batch_reader.go        |   264 -
 go/arrow/flight/record_batch_writer.go        |   119 -
 go/arrow/flight/server.go                     |   405 -
 go/arrow/flight/server_auth.go                |   245 -
 go/arrow/flight/server_example_test.go        |    80 -
 go/arrow/flight/session/cookies.go            |    80 -
 .../flight/session/example_session_test.go    |    77 -
 go/arrow/flight/session/session.go            |   240 -
 go/arrow/flight/session/stateful_session.go   |   197 -
 go/arrow/flight/session/stateless_session.go  |   122 -
 go/arrow/float16/float16.go                   |   203 -
 go/arrow/float16/float16_test.go              |   293 -
 go/arrow/gen-flatbuffers.go                   |   123 -
 go/arrow/internal/arrdata/arrdata.go          |  1835 -
 go/arrow/internal/arrdata/ioutil.go           |   275 -
 go/arrow/internal/arrjson/arrjson.go          |  2462 -
 go/arrow/internal/arrjson/arrjson_test.go     |  6388 --
 go/arrow/internal/arrjson/option.go           |    57 -
 go/arrow/internal/arrjson/reader.go           |   111 -
 go/arrow/internal/arrjson/writer.go           |   101 -
 .../internal/cdata_integration/entrypoints.go |   193 -
 go/arrow/internal/debug/assert_off.go         |    25 -
 go/arrow/internal/debug/assert_on.go          |    29 -
 go/arrow/internal/debug/doc.go                |    30 -
 go/arrow/internal/debug/log_off.go            |    22 -
 go/arrow/internal/debug/log_on.go             |    33 -
 go/arrow/internal/debug/util.go               |    38 -
 go/arrow/internal/dictutils/dict.go           |   411 -
 go/arrow/internal/dictutils/dict_test.go      |   181 -
 go/arrow/internal/flatbuf/Binary.go           |    51 -
 go/arrow/internal/flatbuf/BinaryView.go       |    57 -
 go/arrow/internal/flatbuf/Block.go            |    77 -
 go/arrow/internal/flatbuf/BodyCompression.go  |    89 -
 .../internal/flatbuf/BodyCompressionMethod.go |    52 -
 go/arrow/internal/flatbuf/Bool.go             |    50 -
 go/arrow/internal/flatbuf/Buffer.go           |    75 -
 go/arrow/internal/flatbuf/CompressionType.go  |    45 -
 go/arrow/internal/flatbuf/Date.go             |    71 -
 go/arrow/internal/flatbuf/DateUnit.go         |    45 -
 go/arrow/internal/flatbuf/Decimal.go          |   107 -
 go/arrow/internal/flatbuf/DictionaryBatch.go  |   108 -
 .../internal/flatbuf/DictionaryEncoding.go    |   135 -
 go/arrow/internal/flatbuf/DictionaryKind.go   |    47 -
 go/arrow/internal/flatbuf/Duration.go         |    65 -
 go/arrow/internal/flatbuf/Endianness.go       |    47 -
 go/arrow/internal/flatbuf/Feature.go          |    71 -
 go/arrow/internal/flatbuf/Field.go            |   188 -
 go/arrow/internal/flatbuf/FieldNode.go        |    78 -
 go/arrow/internal/flatbuf/FixedSizeBinary.go  |    67 -
 go/arrow/internal/flatbuf/FixedSizeList.go    |    67 -
 go/arrow/internal/flatbuf/FloatingPoint.go    |    65 -
 go/arrow/internal/flatbuf/Footer.go           |   162 -
 go/arrow/internal/flatbuf/Int.go              |    80 -
 go/arrow/internal/flatbuf/Interval.go         |    65 -
 go/arrow/internal/flatbuf/IntervalUnit.go     |    48 -
 go/arrow/internal/flatbuf/KeyValue.go         |    75 -
 go/arrow/internal/flatbuf/LargeBinary.go      |    52 -
 go/arrow/internal/flatbuf/LargeList.go        |    52 -
 go/arrow/internal/flatbuf/LargeListView.go    |    52 -
 go/arrow/internal/flatbuf/LargeUtf8.go        |    52 -
 go/arrow/internal/flatbuf/List.go             |    50 -
 go/arrow/internal/flatbuf/ListView.go         |    53 -
 go/arrow/internal/flatbuf/Map.go              |    92 -
 go/arrow/internal/flatbuf/Message.go          |   133 -
 go/arrow/internal/flatbuf/MessageHeader.go    |    65 -
 go/arrow/internal/flatbuf/MetadataVersion.go  |    65 -
 go/arrow/internal/flatbuf/Null.go             |    51 -
 go/arrow/internal/flatbuf/Precision.go        |    48 -
 go/arrow/internal/flatbuf/RecordBatch.go      |   214 -
 go/arrow/internal/flatbuf/RunEndEncoded.go    |    55 -
 go/arrow/internal/flatbuf/RunLengthEncoded.go |    50 -
 go/arrow/internal/flatbuf/Schema.go           |   159 -
 .../flatbuf/SparseMatrixCompressedAxis.go     |    45 -
 .../internal/flatbuf/SparseMatrixIndexCSR.go  |   181 -
 .../internal/flatbuf/SparseMatrixIndexCSX.go  |   200 -
 go/arrow/internal/flatbuf/SparseTensor.go     |   175 -
 .../internal/flatbuf/SparseTensorIndex.go     |    51 -
 .../internal/flatbuf/SparseTensorIndexCOO.go  |   179 -
 .../internal/flatbuf/SparseTensorIndexCSF.go  |   291 -
 go/arrow/internal/flatbuf/Struct_.go          |    53 -
 go/arrow/internal/flatbuf/Tensor.go           |   163 -
 go/arrow/internal/flatbuf/TensorDim.go        |    83 -
 go/arrow/internal/flatbuf/Time.go             |    94 -
 go/arrow/internal/flatbuf/TimeUnit.go         |    51 -
 go/arrow/internal/flatbuf/Timestamp.go        |   201 -
 go/arrow/internal/flatbuf/Type.go             |   123 -
 go/arrow/internal/flatbuf/Union.go            |   101 -
 go/arrow/internal/flatbuf/UnionMode.go        |    45 -
 go/arrow/internal/flatbuf/Utf8.go             |    51 -
 go/arrow/internal/flatbuf/Utf8View.go         |    57 -
 .../arrow-flight-integration-client/main.go   |    54 -
 .../arrow-flight-integration-server/main.go   |    43 -
 .../internal/flight_integration/middleware.go |    58 -
 .../internal/flight_integration/scenario.go   |  3082 -
 .../internal/testing/gen/random_array_gen.go  |   594 -
 go/arrow/internal/testing/tools/bits.go       |    40 -
 go/arrow/internal/testing/tools/bits_test.go  |    42 -
 go/arrow/internal/testing/tools/bool.go       |    25 -
 go/arrow/internal/testing/tools/data_types.go |    52 -
 go/arrow/internal/utils.go                    |    59 -
 go/arrow/ipc/cmd/arrow-cat/main.go            |   215 -
 go/arrow/ipc/cmd/arrow-cat/main_test.go       |   573 -
 go/arrow/ipc/cmd/arrow-file-to-stream/main.go |    84 -
 .../ipc/cmd/arrow-file-to-stream/main_test.go |    68 -
 .../cmd/arrow-json-integration-test/main.go   |   224 -
 .../arrow-json-integration-test/main_test.go  |    89 -
 go/arrow/ipc/cmd/arrow-ls/main.go             |   201 -
 go/arrow/ipc/cmd/arrow-ls/main_test.go        |   332 -
 go/arrow/ipc/cmd/arrow-stream-to-file/main.go |    72 -
 .../ipc/cmd/arrow-stream-to-file/main_test.go |    78 -
 go/arrow/ipc/compression.go                   |   137 -
 go/arrow/ipc/endian_swap.go                   |   166 -
 go/arrow/ipc/endian_swap_test.go              |   300 -
 go/arrow/ipc/file_reader.go                   |   770 -
 go/arrow/ipc/file_test.go                     |   117 -
 go/arrow/ipc/file_writer.go                   |   354 -
 go/arrow/ipc/ipc.go                           |   203 -
 go/arrow/ipc/ipc_test.go                      |   690 -
 go/arrow/ipc/message.go                       |   242 -
 go/arrow/ipc/message_test.go                  |   103 -
 go/arrow/ipc/metadata.go                      |  1317 -
 go/arrow/ipc/metadata_test.go                 |   227 -
 go/arrow/ipc/reader.go                        |   286 -
 go/arrow/ipc/reader_test.go                   |   185 -
 go/arrow/ipc/stream_test.go                   |   102 -
 go/arrow/ipc/writer.go                        |  1095 -
 go/arrow/ipc/writer_test.go                   |   256 -
 go/arrow/math/Makefile                        |   110 -
 go/arrow/math/_lib/.gitignore                 |    18 -
 go/arrow/math/_lib/CMakeLists.txt             |    22 -
 go/arrow/math/_lib/arch.h                     |    29 -
 go/arrow/math/_lib/float64.c                  |    26 -
 go/arrow/math/_lib/float64_avx2.s             |   176 -
 go/arrow/math/_lib/float64_neon.s             |    60 -
 go/arrow/math/_lib/float64_sse4.s             |   103 -
 go/arrow/math/_lib/int64.c                    |    27 -
 go/arrow/math/_lib/int64_avx2.s               |   181 -
 go/arrow/math/_lib/int64_neon.s               |    60 -
 go/arrow/math/_lib/int64_sse4.s               |   108 -
 go/arrow/math/_lib/uint64.c                   |    27 -
 go/arrow/math/_lib/uint64_avx2.s              |   181 -
 go/arrow/math/_lib/uint64_neon.s              |    60 -
 go/arrow/math/_lib/uint64_sse4.s              |   108 -
 go/arrow/math/doc.go                          |    30 -
 go/arrow/math/float64.go                      |    47 -
 go/arrow/math/float64.tmpldata                |     4 -
 go/arrow/math/float64_amd64.go                |    34 -
 go/arrow/math/float64_arm64.go                |    30 -
 go/arrow/math/float64_avx2_amd64.go           |    42 -
 go/arrow/math/float64_avx2_amd64.s            |   167 -
 go/arrow/math/float64_neon_arm64.go           |    42 -
 go/arrow/math/float64_neon_arm64.s            |    43 -
 go/arrow/math/float64_noasm.go                |    26 -
 go/arrow/math/float64_ppc64le.go              |    26 -
 go/arrow/math/float64_s390x.go                |    26 -
 go/arrow/math/float64_sse4_amd64.go           |    42 -
 go/arrow/math/float64_sse4_amd64.s            |    94 -
 go/arrow/math/float64_test.go                 |    86 -
 go/arrow/math/int64.go                        |    47 -
 go/arrow/math/int64.tmpldata                  |     4 -
 go/arrow/math/int64_amd64.go                  |    34 -
 go/arrow/math/int64_arm64.go                  |    30 -
 go/arrow/math/int64_avx2_amd64.go             |    42 -
 go/arrow/math/int64_avx2_amd64.s              |   173 -
 go/arrow/math/int64_neon_arm64.go             |    42 -
 go/arrow/math/int64_neon_arm64.s              |    58 -
 go/arrow/math/int64_noasm.go                  |    26 -
 go/arrow/math/int64_ppc64le.go                |    26 -
 go/arrow/math/int64_s390x.go                  |    26 -
 go/arrow/math/int64_sse4_amd64.go             |    42 -
 go/arrow/math/int64_sse4_amd64.s              |   100 -
 go/arrow/math/int64_test.go                   |    86 -
 go/arrow/math/math_amd64.go                   |    52 -
 go/arrow/math/math_arm64.go                   |    44 -
 go/arrow/math/math_noasm.go                   |    30 -
 go/arrow/math/math_ppc64le.go                 |    30 -
 go/arrow/math/math_s390x.go                   |    30 -
 go/arrow/math/type.go.tmpl                    |    48 -
 go/arrow/math/type_amd64.go.tmpl              |    33 -
 go/arrow/math/type_arm64.go.tmpl              |    29 -
 go/arrow/math/type_noasm.go.tmpl              |    25 -
 go/arrow/math/type_ppc64le.go.tmpl            |    25 -
 go/arrow/math/type_s390x.go.tmpl              |    25 -
 go/arrow/math/type_simd_amd64.go.tmpl         |    42 -
 go/arrow/math/type_simd_arm64.go.tmpl         |    42 -
 go/arrow/math/type_test.go.tmpl               |    87 -
 go/arrow/math/uint64.go                       |    47 -
 go/arrow/math/uint64.tmpldata                 |     4 -
 go/arrow/math/uint64_amd64.go                 |    34 -
 go/arrow/math/uint64_arm64.go                 |    30 -
 go/arrow/math/uint64_avx2_amd64.go            |    42 -
 go/arrow/math/uint64_avx2_amd64.s             |   173 -
 go/arrow/math/uint64_neon_arm64.go            |    42 -
 go/arrow/math/uint64_neon_arm64.s             |    58 -
 go/arrow/math/uint64_noasm.go                 |    26 -
 go/arrow/math/uint64_ppc64le.go               |    26 -
 go/arrow/math/uint64_s390x.go                 |    26 -
 go/arrow/math/uint64_sse4_amd64.go            |    42 -
 go/arrow/math/uint64_sse4_amd64.s             |   100 -
 go/arrow/math/uint64_test.go                  |    86 -
 go/arrow/memory/Makefile                      |    66 -
 go/arrow/memory/_lib/.gitignore               |    18 -
 go/arrow/memory/_lib/CMakeLists.txt           |    22 -
 go/arrow/memory/_lib/arch.h                   |    29 -
 go/arrow/memory/_lib/memory.c                 |    27 -
 go/arrow/memory/_lib/memory_avx2.s            |    97 -
 go/arrow/memory/_lib/memory_neon.s            |    46 -
 go/arrow/memory/_lib/memory_sse4.s            |    96 -
 go/arrow/memory/allocator.go                  |    27 -
 go/arrow/memory/buffer.go                     |   157 -
 go/arrow/memory/buffer_test.go                |    71 -
 go/arrow/memory/cgo_allocator.go              |   108 -
 go/arrow/memory/cgo_allocator_defaults.go     |    22 -
 go/arrow/memory/cgo_allocator_logging.go      |    22 -
 go/arrow/memory/cgo_allocator_test.go         |    82 -
 go/arrow/memory/checked_allocator.go          |   221 -
 go/arrow/memory/default_allocator.go          |    25 -
 go/arrow/memory/default_mallocator.go         |    29 -
 go/arrow/memory/default_mallocator_test.go    |    31 -
 go/arrow/memory/doc.go                        |    22 -
 go/arrow/memory/go_allocator.go               |    47 -
 go/arrow/memory/go_allocator_test.go          |    76 -
 .../memory/internal/cgoalloc/allocator.cc     |    71 -
 .../memory/internal/cgoalloc/allocator.go     |   108 -
 go/arrow/memory/internal/cgoalloc/allocator.h |    39 -
 go/arrow/memory/internal/cgoalloc/helpers.h   |    52 -
 go/arrow/memory/mallocator/doc.go             |    21 -
 go/arrow/memory/mallocator/mallocator.go      |   123 -
 go/arrow/memory/mallocator/mallocator_test.go |   127 -
 go/arrow/memory/mallocator/mallocator_util.go |    26 -
 go/arrow/memory/memory.go                     |    33 -
 go/arrow/memory/memory_amd64.go               |    34 -
 go/arrow/memory/memory_arm64.go               |    32 -
 go/arrow/memory/memory_avx2_amd64.go          |    42 -
 go/arrow/memory/memory_avx2_amd64.s           |    85 -
 go/arrow/memory/memory_js_wasm.go             |    24 -
 go/arrow/memory/memory_neon_arm64.go          |    32 -
 go/arrow/memory/memory_neon_arm64.s           |    43 -
 go/arrow/memory/memory_noasm.go               |    24 -
 go/arrow/memory/memory_sse4_amd64.go          |    32 -
 go/arrow/memory/memory_sse4_amd64.s           |    84 -
 go/arrow/memory/memory_test.go                |   125 -
 go/arrow/memory/util.go                       |    45 -
 go/arrow/memory/util_test.go                  |    61 -
 go/arrow/numeric.schema.json                  |    15 -
 go/arrow/numeric.tmpldata                     |   135 -
 go/arrow/record.go                            |    49 -
 go/arrow/scalar/append.go                     |   263 -
 go/arrow/scalar/append_test.go                |   244 -
 go/arrow/scalar/binary.go                     |   203 -
 go/arrow/scalar/compare.go                    |    97 -
 go/arrow/scalar/nested.go                     |   808 -
 go/arrow/scalar/numeric.gen.go                |   797 -
 go/arrow/scalar/numeric.gen.go.tmpl           |   149 -
 go/arrow/scalar/numeric.gen.go.tmpldata       |    52 -
 go/arrow/scalar/numeric.gen_test.go           |   377 -
 go/arrow/scalar/numeric.gen_test.go.tmpl      |    63 -
 go/arrow/scalar/parse.go                      |   777 -
 go/arrow/scalar/scalar.go                     |  1064 -
 go/arrow/scalar/scalar_test.go                |  1490 -
 go/arrow/scalar/temporal.go                   |   481 -
 go/arrow/schema.go                            |   301 -
 go/arrow/schema_test.go                       |   480 -
 go/arrow/table.go                             |   195 -
 go/arrow/tensor/numeric.gen.go                |   326 -
 go/arrow/tensor/numeric.gen.go.tmpl           |    55 -
 go/arrow/tensor/numeric.gen_test.go           |  1170 -
 go/arrow/tensor/numeric.gen_test.go.tmpl      |   126 -
 go/arrow/tensor/tensor.go                     |   246 -
 go/arrow/tensor/tensor_test.go                |   166 -
 go/arrow/tools.go                             |    25 -
 go/arrow/type_string.go                       |    65 -
 go/arrow/type_traits.go                       |   162 -
 go/arrow/type_traits_boolean.go               |    28 -
 go/arrow/type_traits_decimal128.go            |    58 -
 go/arrow/type_traits_decimal256.go            |    53 -
 go/arrow/type_traits_float16.go               |    57 -
 go/arrow/type_traits_interval.go              |   135 -
 go/arrow/type_traits_numeric.gen.go           |   524 -
 go/arrow/type_traits_numeric.gen.go.tmpl      |    78 -
 go/arrow/type_traits_numeric.gen_test.go      |   536 -
 go/arrow/type_traits_numeric.gen_test.go.tmpl |    61 -
 go/arrow/type_traits_test.go                  |   315 -
 go/arrow/type_traits_timestamp.go             |    54 -
 go/arrow/type_traits_view.go                  |    48 -
 go/arrow/unionmode_string.go                  |    25 -
 go/arrow/util/byte_size.go                    |    79 -
 go/arrow/util/byte_size_test.go               |   110 -
 go/arrow/util/messages/README.md              |    25 -
 go/arrow/util/messages/types.proto            |   102 -
 go/arrow/util/protobuf_reflect.go             |   876 -
 go/arrow/util/protobuf_reflect_test.go        |   498 -
 go/arrow/util/util_message/types.pb.go        |  1135 -
 go/go.mod                                     |    89 -
 go/go.sum                                     |   165 -
 go/internal/bitutils/bit_block_counter.go     |   452 -
 .../bitutils/bit_block_counter_test.go        |   201 -
 go/internal/bitutils/bit_run_reader.go        |   151 -
 go/internal/bitutils/bit_run_reader_test.go   |   158 -
 go/internal/bitutils/bit_set_run_reader.go    |   361 -
 .../bitutils/bit_set_run_reader_test.go       |   274 -
 go/internal/bitutils/bitmap_generate.go       |   109 -
 go/internal/bitutils/bitmap_generate_test.go  |    68 -
 go/internal/hashing/hash_funcs.go             |    90 -
 go/internal/hashing/hash_string.go            |    30 -
 go/internal/hashing/hashing_test.go           |   114 -
 go/internal/hashing/types.tmpldata            |    42 -
 go/internal/hashing/xxh3_memo_table.gen.go    |  2833 -
 .../hashing/xxh3_memo_table.gen.go.tmpl       |   349 -
 go/internal/hashing/xxh3_memo_table.go        |   436 -
 go/internal/json/json.go                      |    51 -
 go/internal/json/json_tinygo.go               |    51 -
 go/internal/types/extension_types.go          |   325 -
 go/internal/utils/Makefile                    |    80 -
 go/internal/utils/_lib/arch.h                 |    29 -
 go/internal/utils/_lib/min_max.c              |   125 -
 go/internal/utils/_lib/min_max_avx2_amd64.s   |  1009 -
 go/internal/utils/_lib/min_max_neon.s         |   318 -
 go/internal/utils/_lib/min_max_sse4_amd64.s   |  1091 -
 go/internal/utils/_lib/transpose_ints.c       |    57 -
 .../utils/_lib/transpose_ints_avx2_amd64.s    |  3334 -
 .../utils/_lib/transpose_ints_sse4_amd64.s    |  3334 -
 go/internal/utils/buf_reader.go               |   212 -
 go/internal/utils/endians_default.go          |    30 -
 go/internal/utils/endians_s390x.go            |    33 -
 go/internal/utils/math.go                     |    33 -
 go/internal/utils/min_max.go                  |   212 -
 go/internal/utils/min_max_amd64.go            |    55 -
 go/internal/utils/min_max_arm64.go            |    66 -
 go/internal/utils/min_max_avx2_amd64.go       |    90 -
 go/internal/utils/min_max_avx2_amd64.s        |   927 -
 go/internal/utils/min_max_neon_arm64.go       |    56 -
 go/internal/utils/min_max_neon_arm64.s        |   324 -
 go/internal/utils/min_max_noasm.go            |    31 -
 go/internal/utils/min_max_ppc64le.go          |    30 -
 go/internal/utils/min_max_s390x.go            |    30 -
 go/internal/utils/min_max_sse4_amd64.go       |    88 -
 go/internal/utils/min_max_sse4_amd64.s        |  1044 -
 go/internal/utils/recovery.go                 |    31 -
 go/internal/utils/recovery_test.go            |    62 -
 go/internal/utils/ref_count.go                |    26 -
 go/internal/utils/transpose_ints.go           |   407 -
 go/internal/utils/transpose_ints.go.tmpl      |    34 -
 go/internal/utils/transpose_ints.tmpldata     |    34 -
 go/internal/utils/transpose_ints_amd64.go     |   325 -
 .../utils/transpose_ints_amd64.go.tmpl        |    75 -
 go/internal/utils/transpose_ints_arm64.go     |    96 -
 .../utils/transpose_ints_avx2_amd64.go        |   473 -
 go/internal/utils/transpose_ints_avx2_amd64.s |  3074 -
 go/internal/utils/transpose_ints_def.go       |   227 -
 go/internal/utils/transpose_ints_noasm.go     |    96 -
 .../utils/transpose_ints_noasm.go.tmpl        |    34 -
 go/internal/utils/transpose_ints_ppc64le.go   |    96 -
 go/internal/utils/transpose_ints_s390x.go     |    96 -
 .../utils/transpose_ints_s390x.go.tmpl        |    34 -
 go/internal/utils/transpose_ints_simd.go.tmpl |    42 -
 .../utils/transpose_ints_sse4_amd64.go        |   473 -
 go/internal/utils/transpose_ints_sse4_amd64.s |  3074 -
 go/internal/utils/transpose_ints_test.go      |    49 -
 go/parquet/.gitignore                         |    31 -
 go/parquet/cmd/parquet_reader/README.md       |   106 -
 go/parquet/cmd/parquet_reader/dumper.go       |   182 -
 go/parquet/cmd/parquet_reader/main.go         |   382 -
 go/parquet/cmd/parquet_reader/v0.7.1.parquet  |   Bin 4372 -> 0 bytes
 go/parquet/cmd/parquet_schema/main.go         |    44 -
 go/parquet/compress/brotli.go                 |   114 -
 go/parquet/compress/compress.go               |   181 -
 go/parquet/compress/compress_test.go          |   140 -
 go/parquet/compress/gzip.go                   |    97 -
 go/parquet/compress/lz4_raw.go                |    66 -
 go/parquet/compress/snappy.go                 |    61 -
 go/parquet/compress/zstd.go                   |   112 -
 go/parquet/doc.go                             |    81 -
 go/parquet/encryption_properties.go           |   711 -
 go/parquet/encryption_properties_test.go      |   217 -
 go/parquet/encryption_read_config_test.go     |   473 -
 go/parquet/encryption_write_config_test.go    |   321 -
 go/parquet/file/column_reader.go              |   526 -
 go/parquet/file/column_reader_test.go         |   644 -
 go/parquet/file/column_reader_types.gen.go    |   299 -
 .../file/column_reader_types.gen.go.tmpl      |    64 -
 go/parquet/file/column_writer.go              |   677 -
 go/parquet/file/column_writer_test.go         |   791 -
 go/parquet/file/column_writer_types.gen.go    |  1594 -
 .../file/column_writer_types.gen.go.tmpl      |   263 -
 go/parquet/file/file_reader.go                |   317 -
 go/parquet/file/file_reader_mmap.go           |    77 -
 go/parquet/file/file_reader_mmap_windows.go   |    30 -
 go/parquet/file/file_reader_test.go           |   822 -
 go/parquet/file/file_writer.go                |   304 -
 go/parquet/file/file_writer_test.go           |   598 -
 go/parquet/file/level_conversion.go           |   267 -
 go/parquet/file/level_conversion_test.go      |   194 -
 go/parquet/file/page_reader.go                |   617 -
 go/parquet/file/page_writer.go                |   468 -
 go/parquet/file/record_reader.go              |   986 -
 go/parquet/file/row_group_reader.go           |   144 -
 go/parquet/file/row_group_writer.go           |   255 -
 go/parquet/file/row_group_writer_test.go      |    97 -
 go/parquet/internal/bmi/Makefile              |    47 -
 go/parquet/internal/bmi/_lib/arch.h           |    26 -
 go/parquet/internal/bmi/_lib/bitmap_bmi2.c    |    47 -
 go/parquet/internal/bmi/_lib/bitmap_bmi2.s    |   140 -
 go/parquet/internal/bmi/_lib/bitmap_neon.s    |    95 -
 go/parquet/internal/bmi/bitmap_bmi2_386.go    |    25 -
 go/parquet/internal/bmi/bitmap_bmi2_amd64.go  |    51 -
 go/parquet/internal/bmi/bitmap_bmi2_amd64.s   |   117 -
 go/parquet/internal/bmi/bitmap_bmi2_noasm.go  |    25 -
 .../internal/bmi/bitmap_bmi2_ppc64le.go       |    25 -
 go/parquet/internal/bmi/bitmap_bmi2_s390x.go  |    25 -
 go/parquet/internal/bmi/bitmap_neon_arm64.go  |    41 -
 go/parquet/internal/bmi/bitmap_neon_arm64.s   |    84 -
 go/parquet/internal/bmi/bmi.go                |   275 -
 go/parquet/internal/bmi/bmi_amd64.go          |    37 -
 go/parquet/internal/bmi/bmi_arm64.go          |    64 -
 go/parquet/internal/bmi/bmi_test.go           |    47 -
 go/parquet/internal/debug/assert_off.go       |    25 -
 go/parquet/internal/debug/assert_on.go        |    29 -
 go/parquet/internal/debug/doc.go              |    23 -
 go/parquet/internal/debug/log_off.go          |    25 -
 go/parquet/internal/debug/log_on.go           |    33 -
 .../internal/encoding/boolean_decoder.go      |   189 -
 .../internal/encoding/boolean_encoder.go      |   144 -
 .../internal/encoding/byte_array_decoder.go   |   130 -
 .../internal/encoding/byte_array_encoder.go   |   158 -
 .../internal/encoding/byte_stream_split.go    |   389 -
 go/parquet/internal/encoding/decoder.go       |   238 -
 .../internal/encoding/delta_bit_packing.go    |   421 -
 .../internal/encoding/delta_byte_array.go     |   238 -
 .../encoding/delta_byte_array_test.go         |    48 -
 .../encoding/delta_length_byte_array.go       |   148 -
 go/parquet/internal/encoding/encoder.go       |   412 -
 .../encoding/encoding_benchmarks_test.go      |   681 -
 go/parquet/internal/encoding/encoding_test.go |   873 -
 .../encoding/fixed_len_byte_array_decoder.go  |   137 -
 .../encoding/fixed_len_byte_array_encoder.go  |   176 -
 go/parquet/internal/encoding/levels.go        |   289 -
 go/parquet/internal/encoding/levels_test.go   |   293 -
 go/parquet/internal/encoding/memo_table.go    |   411 -
 .../internal/encoding/memo_table_test.go      |   293 -
 .../internal/encoding/memo_table_types.gen.go |   398 -
 .../encoding/memo_table_types.gen.go.tmpl     |   123 -
 .../internal/encoding/physical_types.tmpldata |    52 -
 .../encoding/plain_encoder_types.gen.go       |   641 -
 .../encoding/plain_encoder_types.gen.go.tmpl  |   184 -
 .../internal/encoding/typed_encoder.gen.go    |  1735 -
 .../encoding/typed_encoder.gen.go.tmpl        |   419 -
 go/parquet/internal/encoding/types.go         |   467 -
 go/parquet/internal/encryption/aes.go         |   310 -
 go/parquet/internal/encryption/decryptor.go   |   268 -
 go/parquet/internal/encryption/encryptor.go   |   237 -
 .../internal/encryption/key_handling.go       |    61 -
 .../gen-go/parquet/GoUnusedProtection__.go    |     5 -
 .../internal/gen-go/parquet/parquet-consts.go |    30 -
 go/parquet/internal/gen-go/parquet/parquet.go | 12796 ---
 .../internal/gen-go/parquet/staticcheck.conf  |    17 -
 go/parquet/internal/testutils/pagebuilder.go  |   305 -
 .../internal/testutils/primitive_typed.go     |   305 -
 go/parquet/internal/testutils/random.go       |   538 -
 go/parquet/internal/testutils/random_arrow.go |   518 -
 go/parquet/internal/testutils/utils.go        |    42 -
 go/parquet/internal/thrift/helpers.go         |    87 -
 go/parquet/internal/utils/Makefile            |    78 -
 go/parquet/internal/utils/_lib/README.md      |   154 -
 go/parquet/internal/utils/_lib/arch.h         |    29 -
 .../internal/utils/_lib/bit_packing_avx2.c    |  1879 -
 .../internal/utils/_lib/bit_packing_avx2.s    |  4012 -
 .../internal/utils/_lib/bit_packing_neon.c    |  3196 -
 go/parquet/internal/utils/_lib/script.sed     |    22 -
 go/parquet/internal/utils/_lib/unpack_bool.c  |    30 -
 .../internal/utils/_lib/unpack_bool_avx2.s    |   104 -
 .../internal/utils/_lib/unpack_bool_neon.s    |    89 -
 .../internal/utils/_lib/unpack_bool_sse4.s    |   104 -
 .../internal/utils/bit_benchmark_test.go      |   132 -
 .../internal/utils/bit_packing_amd64.go       |    32 -
 .../internal/utils/bit_packing_arm64.go       |    35 -
 .../internal/utils/bit_packing_avx2_amd64.go  |    54 -
 .../internal/utils/bit_packing_avx2_amd64.s   |  3439 -
 .../internal/utils/bit_packing_default.go     |  1943 -
 .../internal/utils/bit_packing_neon_arm64.go  |    54 -
 .../internal/utils/bit_packing_neon_arm64.s   |  6926 --
 go/parquet/internal/utils/bit_reader.go       |   349 -
 go/parquet/internal/utils/bit_reader_test.go  |   654 -
 go/parquet/internal/utils/bit_writer.go       |   188 -
 go/parquet/internal/utils/bitmap_writer.go    |   173 -
 .../internal/utils/bitmap_writer_test.go      |   304 -
 go/parquet/internal/utils/clib_amd64.s        |   105 -
 go/parquet/internal/utils/dictionary.go       |    87 -
 .../internal/utils/physical_types.tmpldata    |    52 -
 go/parquet/internal/utils/rle.go              |   594 -
 .../internal/utils/typed_rle_dict.gen.go      |  1377 -
 .../internal/utils/typed_rle_dict.gen.go.tmpl |   220 -
 go/parquet/internal/utils/unpack_bool.go      |    26 -
 .../internal/utils/unpack_bool_amd64.go       |    42 -
 .../internal/utils/unpack_bool_arm64.go       |    66 -
 .../internal/utils/unpack_bool_avx2_amd64.go  |    30 -
 .../internal/utils/unpack_bool_avx2_amd64.s   |    88 -
 .../internal/utils/unpack_bool_default.go     |    26 -
 .../internal/utils/unpack_bool_neon_arm64.go  |    30 -
 .../internal/utils/unpack_bool_neon_arm64.s   |    81 -
 .../internal/utils/unpack_bool_noasm.go       |    26 -
 .../internal/utils/unpack_bool_sse4_amd64.go  |    30 -
 .../internal/utils/unpack_bool_sse4_amd64.s   |    88 -
 go/parquet/internal/utils/write_utils.go      |    57 -
 go/parquet/metadata/app_version.go            |   185 -
 go/parquet/metadata/column_chunk.go           |   423 -
 go/parquet/metadata/file.go                   |   527 -
 go/parquet/metadata/metadata_test.go          |   381 -
 go/parquet/metadata/row_group.go              |   177 -
 go/parquet/metadata/stat_compare_test.go      |   268 -
 go/parquet/metadata/statistics.go             |   617 -
 go/parquet/metadata/statistics_test.go        |   262 -
 go/parquet/metadata/statistics_types.gen.go   |  2742 -
 .../metadata/statistics_types.gen.go.tmpl     |   530 -
 go/parquet/metadata/statistics_types.tmpldata |    60 -
 go/parquet/pqarrow/column_readers.go          |   969 -
 go/parquet/pqarrow/doc.go                     |    21 -
 go/parquet/pqarrow/encode_arrow.go            |   715 -
 go/parquet/pqarrow/encode_arrow_test.go       |  2266 -
 go/parquet/pqarrow/encode_dict_compute.go     |   160 -
 go/parquet/pqarrow/encode_dict_nocompute.go   |    30 -
 go/parquet/pqarrow/encode_dictionary_test.go  |   748 -
 go/parquet/pqarrow/file_reader.go             |   775 -
 go/parquet/pqarrow/file_reader_test.go        |   375 -
 go/parquet/pqarrow/file_writer.go             |   340 -
 go/parquet/pqarrow/file_writer_test.go        |   135 -
 go/parquet/pqarrow/helpers.go                 |    45 -
 go/parquet/pqarrow/path_builder.go            |   751 -
 go/parquet/pqarrow/path_builder_test.go       |   676 -
 go/parquet/pqarrow/properties.go              |   193 -
 go/parquet/pqarrow/reader_writer_test.go      |   388 -
 go/parquet/pqarrow/schema.go                  |  1160 -
 go/parquet/pqarrow/schema_test.go             |   450 -
 go/parquet/reader_properties.go               |    88 -
 go/parquet/reader_writer_properties_test.go   |    73 -
 go/parquet/schema/column.go                   |   108 -
 go/parquet/schema/converted_types.go          |   187 -
 go/parquet/schema/converted_types_test.go     |    50 -
 go/parquet/schema/helpers.go                  |   129 -
 go/parquet/schema/helpers_test.go             |   122 -
 go/parquet/schema/logical_types.go            |  1192 -
 go/parquet/schema/logical_types_test.go       |   572 -
 go/parquet/schema/node.go                     |   629 -
 go/parquet/schema/reflection.go               |   829 -
 go/parquet/schema/reflection_test.go          |   411 -
 go/parquet/schema/schema.go                   |   334 -
 go/parquet/schema/schema_element_test.go      |   521 -
 go/parquet/schema/schema_flatten_test.go      |   157 -
 go/parquet/schema/schema_test.go              |   670 -
 go/parquet/tools.go                           |    27 -
 go/parquet/types.go                           |   373 -
 go/parquet/version_string.go                  |    25 -
 go/parquet/writer_properties.go               |   552 -
 888 files changed, 764039 deletions(-)
 delete mode 100644 go/LICENSE.txt
 delete mode 100644 go/README.md
 delete mode 100644 go/arrow/.editorconfig
 delete mode 100644 go/arrow/.gitignore
 delete mode 100644 go/arrow/Gopkg.lock
 delete mode 100644 go/arrow/Gopkg.toml
 delete mode 100644 go/arrow/Makefile
 delete mode 100644 go/arrow/_examples/helloworld/main.go
 delete mode 100644 go/arrow/_tools/tmpl/main.go
 delete mode 100644 go/arrow/_tools/tmpl/main_test.go
 delete mode 100644 go/arrow/_tools/tools.go
 delete mode 100644 go/arrow/array.go
 delete mode 100644 go/arrow/array/array.go
 delete mode 100644 go/arrow/array/array_test.go
 delete mode 100644 go/arrow/array/binary.go
 delete mode 100644 go/arrow/array/binary_test.go
 delete mode 100644 go/arrow/array/binarybuilder.go
 delete mode 100644 go/arrow/array/binarybuilder_test.go
 delete mode 100644 go/arrow/array/boolean.go
 delete mode 100644 go/arrow/array/boolean_test.go
 delete mode 100644 go/arrow/array/booleanbuilder.go
 delete mode 100644 go/arrow/array/booleanbuilder_test.go
 delete mode 100644 go/arrow/array/bufferbuilder.go
 delete mode 100644 go/arrow/array/bufferbuilder_byte.go
 delete mode 100644 go/arrow/array/bufferbuilder_numeric.gen.go
 delete mode 100644 go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
 delete mode 100644 go/arrow/array/bufferbuilder_numeric_test.go
 delete mode 100644 go/arrow/array/builder.go
 delete mode 100644 go/arrow/array/builder_test.go
 delete mode 100644 go/arrow/array/compare.go
 delete mode 100644 go/arrow/array/compare_test.go
 delete mode 100644 go/arrow/array/concat.go
 delete mode 100644 go/arrow/array/concat_test.go
 delete mode 100644 go/arrow/array/data.go
 delete mode 100644 go/arrow/array/data_test.go
 delete mode 100644 go/arrow/array/decimal128.go
 delete mode 100644 go/arrow/array/decimal128_test.go
 delete mode 100644 go/arrow/array/decimal256.go
 delete mode 100644 go/arrow/array/decimal256_test.go
 delete mode 100644 go/arrow/array/decimal_test.go
 delete mode 100644 go/arrow/array/dictionary.go
 delete mode 100644 go/arrow/array/dictionary_test.go
 delete mode 100644 go/arrow/array/diff.go
 delete mode 100644 go/arrow/array/diff_test.go
 delete mode 100644 go/arrow/array/doc.go
 delete mode 100644 go/arrow/array/encoded.go
 delete mode 100644 go/arrow/array/encoded_test.go
 delete mode 100644 go/arrow/array/extension.go
 delete mode 100644 go/arrow/array/extension_builder.go
 delete mode 100644 go/arrow/array/extension_test.go
 delete mode 100644 go/arrow/array/fixed_size_list.go
 delete mode 100644 go/arrow/array/fixed_size_list_test.go
 delete mode 100644 go/arrow/array/fixedsize_binary.go
 delete mode 100644 go/arrow/array/fixedsize_binary_test.go
 delete mode 100644 go/arrow/array/fixedsize_binarybuilder.go
 delete mode 100644 go/arrow/array/fixedsize_binarybuilder_test.go
 delete mode 100644 go/arrow/array/float16.go
 delete mode 100644 go/arrow/array/float16_builder.go
 delete mode 100644 go/arrow/array/float16_builder_test.go
 delete mode 100644 go/arrow/array/interval.go
 delete mode 100644 go/arrow/array/interval_test.go
 delete mode 100644 go/arrow/array/json_reader.go
 delete mode 100644 go/arrow/array/json_reader_test.go
 delete mode 100644 go/arrow/array/list.go
 delete mode 100644 go/arrow/array/list_test.go
 delete mode 100644 go/arrow/array/map.go
 delete mode 100644 go/arrow/array/map_test.go
 delete mode 100644 go/arrow/array/null.go
 delete mode 100644 go/arrow/array/null_test.go
 delete mode 100644 go/arrow/array/numeric.gen.go
 delete mode 100644 go/arrow/array/numeric.gen.go.tmpl
 delete mode 100644 go/arrow/array/numeric_test.go
 delete mode 100644 go/arrow/array/numericbuilder.gen.go
 delete mode 100644 go/arrow/array/numericbuilder.gen.go.tmpl
 delete mode 100644 go/arrow/array/numericbuilder.gen_test.go
 delete mode 100644 go/arrow/array/numericbuilder.gen_test.go.tmpl
 delete mode 100644 go/arrow/array/record.go
 delete mode 100644 go/arrow/array/record_test.go
 delete mode 100644 go/arrow/array/string.go
 delete mode 100644 go/arrow/array/string_test.go
 delete mode 100644 go/arrow/array/struct.go
 delete mode 100644 go/arrow/array/struct_test.go
 delete mode 100644 go/arrow/array/table.go
 delete mode 100644 go/arrow/array/table_test.go
 delete mode 100644 go/arrow/array/timestamp.go
 delete mode 100644 go/arrow/array/timestamp_test.go
 delete mode 100644 go/arrow/array/union.go
 delete mode 100644 go/arrow/array/union_test.go
 delete mode 100644 go/arrow/array/util.go
 delete mode 100644 go/arrow/array/util_test.go
 delete mode 100644 go/arrow/arrio/arrio.go
 delete mode 100644 go/arrow/arrio/arrio_test.go
 delete mode 100644 go/arrow/avro/avro2parquet/main.go
 delete mode 100644 go/arrow/avro/loader.go
 delete mode 100644 go/arrow/avro/reader.go
 delete mode 100644 go/arrow/avro/reader_test.go
 delete mode 100644 go/arrow/avro/reader_types.go
 delete mode 100644 go/arrow/avro/schema.go
 delete mode 100644 go/arrow/avro/schema_test.go
 delete mode 100644 go/arrow/avro/testdata/arrayrecordmap.avro
 delete mode 100644 go/arrow/avro/testdata/githubsamplecommits.avro
 delete mode 100644 go/arrow/bitutil/Makefile
 delete mode 100644 go/arrow/bitutil/_lib/bitmap_ops.c
 delete mode 100644 go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
 delete mode 100644 go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
 delete mode 100644 go/arrow/bitutil/bitmap_ops.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_amd64.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_arm64.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_avx2_amd64.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_avx2_amd64.s
 delete mode 100644 go/arrow/bitutil/bitmap_ops_noasm.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_ppc64le.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_s390x.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_sse4_amd64.go
 delete mode 100644 go/arrow/bitutil/bitmap_ops_sse4_amd64.s
 delete mode 100644 go/arrow/bitutil/bitmaps.go
 delete mode 100644 go/arrow/bitutil/bitmaps_test.go
 delete mode 100644 go/arrow/bitutil/bitutil.go
 delete mode 100644 go/arrow/bitutil/bitutil_bytes.go
 delete mode 100644 go/arrow/bitutil/bitutil_test.go
 delete mode 100644 go/arrow/bitutil/endian_default.go
 delete mode 100644 go/arrow/bitutil/endian_s390x.go
 delete mode 100644 go/arrow/cdata/arrow/c/abi.h
 delete mode 100644 go/arrow/cdata/arrow/c/helpers.h
 delete mode 100644 go/arrow/cdata/cdata.go
 delete mode 100644 go/arrow/cdata/cdata_allocate.go
 delete mode 100644 go/arrow/cdata/cdata_exports.go
 delete mode 100644 go/arrow/cdata/cdata_fulltest.c
 delete mode 100644 go/arrow/cdata/cdata_test.go
 delete mode 100644 go/arrow/cdata/cdata_test_framework.go
 delete mode 100644 go/arrow/cdata/exports.go
 delete mode 100644 go/arrow/cdata/import_allocator.go
 delete mode 100644 go/arrow/cdata/interface.go
 delete mode 100644 go/arrow/cdata/test/test_cimport.go
 delete mode 100644 go/arrow/cdata/test/test_export_to_cgo.py
 delete mode 100644 go/arrow/cdata/trampoline.c
 delete mode 100644 go/arrow/cdata/utils.h
 delete mode 100644 go/arrow/compare.go
 delete mode 100644 go/arrow/compare_test.go
 delete mode 100644 go/arrow/compute/arithmetic.go
 delete mode 100644 go/arrow/compute/arithmetic_test.go
 delete mode 100644 go/arrow/compute/cast.go
 delete mode 100644 go/arrow/compute/cast_test.go
 delete mode 100644 go/arrow/compute/datum.go
 delete mode 100644 go/arrow/compute/datumkind_string.go
 delete mode 100644 go/arrow/compute/doc.go
 delete mode 100644 go/arrow/compute/example_test.go
 delete mode 100644 go/arrow/compute/exec.go
 delete mode 100644 go/arrow/compute/exec/hash_util.go
 delete mode 100644 go/arrow/compute/exec/kernel.go
 delete mode 100644 go/arrow/compute/exec/kernel_test.go
 delete mode 100644 go/arrow/compute/exec/span.go
 delete mode 100644 go/arrow/compute/exec/span_offsets.go
 delete mode 100644 go/arrow/compute/exec/span_test.go
 delete mode 100644 go/arrow/compute/exec/utils.go
 delete mode 100644 go/arrow/compute/exec/utils_test.go
 delete mode 100644 go/arrow/compute/exec_internals_test.go
 delete mode 100644 go/arrow/compute/exec_test.go
 delete mode 100644 go/arrow/compute/executor.go
 delete mode 100644 go/arrow/compute/expression.go
 delete mode 100644 go/arrow/compute/expression_test.go
 delete mode 100644 go/arrow/compute/exprs/builders.go
 delete mode 100644 go/arrow/compute/exprs/builders_test.go
 delete mode 100644 go/arrow/compute/exprs/exec.go
 delete mode 100644 go/arrow/compute/exprs/exec_internal_test.go
 delete mode 100644 go/arrow/compute/exprs/exec_test.go
 delete mode 100644 go/arrow/compute/exprs/extension_types.go
 delete mode 100644 go/arrow/compute/exprs/field_refs.go
 delete mode 100644 go/arrow/compute/exprs/types.go
 delete mode 100644 go/arrow/compute/fieldref.go
 delete mode 100644 go/arrow/compute/fieldref_hash.go
 delete mode 100644 go/arrow/compute/fieldref_test.go
 delete mode 100644 go/arrow/compute/funckind_string.go
 delete mode 100644 go/arrow/compute/functions.go
 delete mode 100644 go/arrow/compute/functions_test.go
 delete mode 100644 go/arrow/compute/internal/kernels/Makefile
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/constant_factor.c
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/types.h
 delete mode 100644 go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic.go
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
 delete mode 100644 go/arrow/compute/internal/kernels/boolean_cast.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/cast_temporal.go
 delete mode 100644 go/arrow/compute/internal/kernels/compareoperator_string.go
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor.go
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/doc.go
 delete mode 100644 go/arrow/compute/internal/kernels/helpers.go
 delete mode 100644 go/arrow/compute/internal/kernels/numeric_cast.go
 delete mode 100644 go/arrow/compute/internal/kernels/rounding.go
 delete mode 100644 go/arrow/compute/internal/kernels/roundmode_string.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_arithmetic.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_boolean.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
 delete mode 100644 go/arrow/compute/internal/kernels/scalar_comparisons.go
 delete mode 100644 go/arrow/compute/internal/kernels/string_casts.go
 delete mode 100644 go/arrow/compute/internal/kernels/types.go
 delete mode 100644 go/arrow/compute/internal/kernels/vector_hash.go
 delete mode 100644 go/arrow/compute/internal/kernels/vector_run_end_encode.go
 delete mode 100644 go/arrow/compute/internal/kernels/vector_selection.go
 delete mode 100644 go/arrow/compute/registry.go
 delete mode 100644 go/arrow/compute/registry_test.go
 delete mode 100644 go/arrow/compute/scalar_bool.go
 delete mode 100644 go/arrow/compute/scalar_bool_test.go
 delete mode 100644 go/arrow/compute/scalar_compare.go
 delete mode 100644 go/arrow/compute/scalar_compare_test.go
 delete mode 100644 go/arrow/compute/selection.go
 delete mode 100644 go/arrow/compute/utils.go
 delete mode 100644 go/arrow/compute/vector_hash.go
 delete mode 100644 go/arrow/compute/vector_hash_test.go
 delete mode 100644 go/arrow/compute/vector_run_end_test.go
 delete mode 100644 go/arrow/compute/vector_run_ends.go
 delete mode 100644 go/arrow/compute/vector_selection_test.go
 delete mode 100644 go/arrow/csv/common.go
 delete mode 100644 go/arrow/csv/reader.go
 delete mode 100644 go/arrow/csv/reader_test.go
 delete mode 100644 go/arrow/csv/testdata/header.csv
 delete mode 100644 go/arrow/csv/testdata/simple.csv
 delete mode 100644 go/arrow/csv/testdata/types.csv
 delete mode 100644 go/arrow/csv/transformer.go
 delete mode 100644 go/arrow/csv/writer.go
 delete mode 100644 go/arrow/csv/writer_test.go
 delete mode 100644 go/arrow/datatype.go
 delete mode 100644 go/arrow/datatype_binary.go
 delete mode 100644 go/arrow/datatype_binary_test.go
 delete mode 100644 go/arrow/datatype_encoded.go
 delete mode 100644 go/arrow/datatype_extension.go
 delete mode 100644 go/arrow/datatype_extension_test.go
 delete mode 100644 go/arrow/datatype_fixedwidth.go
 delete mode 100644 go/arrow/datatype_fixedwidth_test.go
 delete mode 100644 go/arrow/datatype_nested.go
 delete mode 100644 go/arrow/datatype_nested_test.go
 delete mode 100644 go/arrow/datatype_null.go
 delete mode 100644 go/arrow/datatype_null_test.go
 delete mode 100644 go/arrow/datatype_numeric.gen.go
 delete mode 100644 go/arrow/datatype_numeric.gen.go.tmpl
 delete mode 100644 go/arrow/datatype_numeric.gen.go.tmpldata
 delete mode 100644 go/arrow/datatype_viewheader.go
 delete mode 100644 go/arrow/datatype_viewheader_inline.go
 delete mode 100644 go/arrow/datatype_viewheader_inline_go1.19.go
 delete mode 100644 go/arrow/datatype_viewheader_inline_tinygo.go
 delete mode 100644 go/arrow/decimal128/decimal128.go
 delete mode 100644 go/arrow/decimal128/decimal128_test.go
 delete mode 100644 go/arrow/decimal256/decimal256.go
 delete mode 100644 go/arrow/decimal256/decimal256_test.go
 delete mode 100644 go/arrow/doc.go
 delete mode 100644 go/arrow/encoded/ree_utils.go
 delete mode 100644 go/arrow/encoded/ree_utils_test.go
 delete mode 100644 go/arrow/endian/big.go
 delete mode 100644 go/arrow/endian/endian.go
 delete mode 100644 go/arrow/endian/little.go
 delete mode 100644 go/arrow/errors.go
 delete mode 100644 go/arrow/example_test.go
 delete mode 100644 go/arrow/extensions/bool8.go
 delete mode 100644 go/arrow/extensions/bool8_test.go
 delete mode 100644 go/arrow/extensions/doc.go
 delete mode 100644 go/arrow/extensions/extensions.go
 delete mode 100644 go/arrow/extensions/extensions_test.go
 delete mode 100644 go/arrow/extensions/json.go
 delete mode 100644 go/arrow/extensions/json_test.go
 delete mode 100644 go/arrow/extensions/opaque.go
 delete mode 100644 go/arrow/extensions/opaque_test.go
 delete mode 100644 go/arrow/extensions/uuid.go
 delete mode 100644 go/arrow/extensions/uuid_test.go
 delete mode 100755 go/arrow/flight/basic_auth_flight_test.go
 delete mode 100644 go/arrow/flight/client.go
 delete mode 100644 go/arrow/flight/client_auth.go
 delete mode 100644 go/arrow/flight/cookie_middleware.go
 delete mode 100644 go/arrow/flight/cookie_middleware_test.go
 delete mode 100644 go/arrow/flight/doc.go
 delete mode 100755 go/arrow/flight/example_flight_server_test.go
 delete mode 100755 go/arrow/flight/flight_middleware_test.go
 delete mode 100755 go/arrow/flight/flight_test.go
 delete mode 100644 go/arrow/flight/flightsql/client.go
 delete mode 100644 go/arrow/flight/flightsql/client_test.go
 delete mode 100644 go/arrow/flight/flightsql/column_metadata.go
 delete mode 100644 go/arrow/flight/flightsql/driver/README.md
 delete mode 100644 go/arrow/flight/flightsql/driver/config.go
 delete mode 100644 go/arrow/flight/flightsql/driver/config_test.go
 delete mode 100644 go/arrow/flight/flightsql/driver/driver.go
 delete mode 100644 go/arrow/flight/flightsql/driver/driver_test.go
 delete mode 100644 go/arrow/flight/flightsql/driver/errors.go
 delete mode 100644 go/arrow/flight/flightsql/driver/utils.go
 delete mode 100644 go/arrow/flight/flightsql/driver/utils_test.go
 delete mode 100644 go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go
 delete mode 100644 go/arrow/flight/flightsql/example/sql_batch_reader.go
 delete mode 100644 go/arrow/flight/flightsql/example/sqlite_info.go
 delete mode 100644 go/arrow/flight/flightsql/example/sqlite_server.go
 delete mode 100644 go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
 delete mode 100644 go/arrow/flight/flightsql/example/type_info.go
 delete mode 100644 go/arrow/flight/flightsql/schema_ref/reference_schemas.go
 delete mode 100644 go/arrow/flight/flightsql/server.go
 delete mode 100644 go/arrow/flight/flightsql/server_test.go
 delete mode 100644 go/arrow/flight/flightsql/sql_info.go
 delete mode 100644 go/arrow/flight/flightsql/sqlite_server_test.go
 delete mode 100644 go/arrow/flight/flightsql/types.go
 delete mode 100644 go/arrow/flight/gen.go
 delete mode 100644 go/arrow/flight/gen/flight/Flight.pb.go
 delete mode 100644 go/arrow/flight/gen/flight/FlightSql.pb.go
 delete mode 100644 go/arrow/flight/gen/flight/Flight_grpc.pb.go
 delete mode 100644 go/arrow/flight/record_batch_reader.go
 delete mode 100644 go/arrow/flight/record_batch_writer.go
 delete mode 100644 go/arrow/flight/server.go
 delete mode 100644 go/arrow/flight/server_auth.go
 delete mode 100644 go/arrow/flight/server_example_test.go
 delete mode 100644 go/arrow/flight/session/cookies.go
 delete mode 100644 go/arrow/flight/session/example_session_test.go
 delete mode 100644 go/arrow/flight/session/session.go
 delete mode 100644 go/arrow/flight/session/stateful_session.go
 delete mode 100644 go/arrow/flight/session/stateless_session.go
 delete mode 100644 go/arrow/float16/float16.go
 delete mode 100644 go/arrow/float16/float16_test.go
 delete mode 100644 go/arrow/gen-flatbuffers.go
 delete mode 100644 go/arrow/internal/arrdata/arrdata.go
 delete mode 100644 go/arrow/internal/arrdata/ioutil.go
 delete mode 100644 go/arrow/internal/arrjson/arrjson.go
 delete mode 100644 go/arrow/internal/arrjson/arrjson_test.go
 delete mode 100644 go/arrow/internal/arrjson/option.go
 delete mode 100644 go/arrow/internal/arrjson/reader.go
 delete mode 100644 go/arrow/internal/arrjson/writer.go
 delete mode 100644 go/arrow/internal/cdata_integration/entrypoints.go
 delete mode 100644 go/arrow/internal/debug/assert_off.go
 delete mode 100644 go/arrow/internal/debug/assert_on.go
 delete mode 100644 go/arrow/internal/debug/doc.go
 delete mode 100644 go/arrow/internal/debug/log_off.go
 delete mode 100644 go/arrow/internal/debug/log_on.go
 delete mode 100644 go/arrow/internal/debug/util.go
 delete mode 100644 go/arrow/internal/dictutils/dict.go
 delete mode 100644 go/arrow/internal/dictutils/dict_test.go
 delete mode 100644 go/arrow/internal/flatbuf/Binary.go
 delete mode 100644 go/arrow/internal/flatbuf/BinaryView.go
 delete mode 100644 go/arrow/internal/flatbuf/Block.go
 delete mode 100644 go/arrow/internal/flatbuf/BodyCompression.go
 delete mode 100644 go/arrow/internal/flatbuf/BodyCompressionMethod.go
 delete mode 100644 go/arrow/internal/flatbuf/Bool.go
 delete mode 100644 go/arrow/internal/flatbuf/Buffer.go
 delete mode 100644 go/arrow/internal/flatbuf/CompressionType.go
 delete mode 100644 go/arrow/internal/flatbuf/Date.go
 delete mode 100644 go/arrow/internal/flatbuf/DateUnit.go
 delete mode 100644 go/arrow/internal/flatbuf/Decimal.go
 delete mode 100644 go/arrow/internal/flatbuf/DictionaryBatch.go
 delete mode 100644 go/arrow/internal/flatbuf/DictionaryEncoding.go
 delete mode 100644 go/arrow/internal/flatbuf/DictionaryKind.go
 delete mode 100644 go/arrow/internal/flatbuf/Duration.go
 delete mode 100644 go/arrow/internal/flatbuf/Endianness.go
 delete mode 100644 go/arrow/internal/flatbuf/Feature.go
 delete mode 100644 go/arrow/internal/flatbuf/Field.go
 delete mode 100644 go/arrow/internal/flatbuf/FieldNode.go
 delete mode 100644 go/arrow/internal/flatbuf/FixedSizeBinary.go
 delete mode 100644 go/arrow/internal/flatbuf/FixedSizeList.go
 delete mode 100644 go/arrow/internal/flatbuf/FloatingPoint.go
 delete mode 100644 go/arrow/internal/flatbuf/Footer.go
 delete mode 100644 go/arrow/internal/flatbuf/Int.go
 delete mode 100644 go/arrow/internal/flatbuf/Interval.go
 delete mode 100644 go/arrow/internal/flatbuf/IntervalUnit.go
 delete mode 100644 go/arrow/internal/flatbuf/KeyValue.go
 delete mode 100644 go/arrow/internal/flatbuf/LargeBinary.go
 delete mode 100644 go/arrow/internal/flatbuf/LargeList.go
 delete mode 100644 go/arrow/internal/flatbuf/LargeListView.go
 delete mode 100644 go/arrow/internal/flatbuf/LargeUtf8.go
 delete mode 100644 go/arrow/internal/flatbuf/List.go
 delete mode 100644 go/arrow/internal/flatbuf/ListView.go
 delete mode 100644 go/arrow/internal/flatbuf/Map.go
 delete mode 100644 go/arrow/internal/flatbuf/Message.go
 delete mode 100644 go/arrow/internal/flatbuf/MessageHeader.go
 delete mode 100644 go/arrow/internal/flatbuf/MetadataVersion.go
 delete mode 100644 go/arrow/internal/flatbuf/Null.go
 delete mode 100644 go/arrow/internal/flatbuf/Precision.go
 delete mode 100644 go/arrow/internal/flatbuf/RecordBatch.go
 delete mode 100644 go/arrow/internal/flatbuf/RunEndEncoded.go
 delete mode 100644 go/arrow/internal/flatbuf/RunLengthEncoded.go
 delete mode 100644 go/arrow/internal/flatbuf/Schema.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseTensor.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseTensorIndex.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseTensorIndexCOO.go
 delete mode 100644 go/arrow/internal/flatbuf/SparseTensorIndexCSF.go
 delete mode 100644 go/arrow/internal/flatbuf/Struct_.go
 delete mode 100644 go/arrow/internal/flatbuf/Tensor.go
 delete mode 100644 go/arrow/internal/flatbuf/TensorDim.go
 delete mode 100644 go/arrow/internal/flatbuf/Time.go
 delete mode 100644 go/arrow/internal/flatbuf/TimeUnit.go
 delete mode 100644 go/arrow/internal/flatbuf/Timestamp.go
 delete mode 100644 go/arrow/internal/flatbuf/Type.go
 delete mode 100644 go/arrow/internal/flatbuf/Union.go
 delete mode 100644 go/arrow/internal/flatbuf/UnionMode.go
 delete mode 100644 go/arrow/internal/flatbuf/Utf8.go
 delete mode 100644 go/arrow/internal/flatbuf/Utf8View.go
 delete mode 100755 go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
 delete mode 100644 go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
 delete mode 100644 go/arrow/internal/flight_integration/middleware.go
 delete mode 100644 go/arrow/internal/flight_integration/scenario.go
 delete mode 100644 go/arrow/internal/testing/gen/random_array_gen.go
 delete mode 100644 go/arrow/internal/testing/tools/bits.go
 delete mode 100644 go/arrow/internal/testing/tools/bits_test.go
 delete mode 100644 go/arrow/internal/testing/tools/bool.go
 delete mode 100644 go/arrow/internal/testing/tools/data_types.go
 delete mode 100644 go/arrow/internal/utils.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-cat/main.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-cat/main_test.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-file-to-stream/main.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-json-integration-test/main.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-ls/main.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-ls/main_test.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-stream-to-file/main.go
 delete mode 100644 go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
 delete mode 100644 go/arrow/ipc/compression.go
 delete mode 100644 go/arrow/ipc/endian_swap.go
 delete mode 100644 go/arrow/ipc/endian_swap_test.go
 delete mode 100644 go/arrow/ipc/file_reader.go
 delete mode 100644 go/arrow/ipc/file_test.go
 delete mode 100644 go/arrow/ipc/file_writer.go
 delete mode 100644 go/arrow/ipc/ipc.go
 delete mode 100644 go/arrow/ipc/ipc_test.go
 delete mode 100644 go/arrow/ipc/message.go
 delete mode 100644 go/arrow/ipc/message_test.go
 delete mode 100644 go/arrow/ipc/metadata.go
 delete mode 100644 go/arrow/ipc/metadata_test.go
 delete mode 100644 go/arrow/ipc/reader.go
 delete mode 100644 go/arrow/ipc/reader_test.go
 delete mode 100644 go/arrow/ipc/stream_test.go
 delete mode 100644 go/arrow/ipc/writer.go
 delete mode 100644 go/arrow/ipc/writer_test.go
 delete mode 100644 go/arrow/math/Makefile
 delete mode 100644 go/arrow/math/_lib/.gitignore
 delete mode 100644 go/arrow/math/_lib/CMakeLists.txt
 delete mode 100644 go/arrow/math/_lib/arch.h
 delete mode 100644 go/arrow/math/_lib/float64.c
 delete mode 100644 go/arrow/math/_lib/float64_avx2.s
 delete mode 100644 go/arrow/math/_lib/float64_neon.s
 delete mode 100644 go/arrow/math/_lib/float64_sse4.s
 delete mode 100644 go/arrow/math/_lib/int64.c
 delete mode 100644 go/arrow/math/_lib/int64_avx2.s
 delete mode 100644 go/arrow/math/_lib/int64_neon.s
 delete mode 100644 go/arrow/math/_lib/int64_sse4.s
 delete mode 100644 go/arrow/math/_lib/uint64.c
 delete mode 100644 go/arrow/math/_lib/uint64_avx2.s
 delete mode 100644 go/arrow/math/_lib/uint64_neon.s
 delete mode 100644 go/arrow/math/_lib/uint64_sse4.s
 delete mode 100644 go/arrow/math/doc.go
 delete mode 100644 go/arrow/math/float64.go
 delete mode 100644 go/arrow/math/float64.tmpldata
 delete mode 100644 go/arrow/math/float64_amd64.go
 delete mode 100644 go/arrow/math/float64_arm64.go
 delete mode 100644 go/arrow/math/float64_avx2_amd64.go
 delete mode 100644 go/arrow/math/float64_avx2_amd64.s
 delete mode 100755 go/arrow/math/float64_neon_arm64.go
 delete mode 100755 go/arrow/math/float64_neon_arm64.s
 delete mode 100644 go/arrow/math/float64_noasm.go
 delete mode 100644 go/arrow/math/float64_ppc64le.go
 delete mode 100644 go/arrow/math/float64_s390x.go
 delete mode 100644 go/arrow/math/float64_sse4_amd64.go
 delete mode 100644 go/arrow/math/float64_sse4_amd64.s
 delete mode 100644 go/arrow/math/float64_test.go
 delete mode 100644 go/arrow/math/int64.go
 delete mode 100644 go/arrow/math/int64.tmpldata
 delete mode 100644 go/arrow/math/int64_amd64.go
 delete mode 100644 go/arrow/math/int64_arm64.go
 delete mode 100644 go/arrow/math/int64_avx2_amd64.go
 delete mode 100644 go/arrow/math/int64_avx2_amd64.s
 delete mode 100755 go/arrow/math/int64_neon_arm64.go
 delete mode 100755 go/arrow/math/int64_neon_arm64.s
 delete mode 100644 go/arrow/math/int64_noasm.go
 delete mode 100644 go/arrow/math/int64_ppc64le.go
 delete mode 100644 go/arrow/math/int64_s390x.go
 delete mode 100644 go/arrow/math/int64_sse4_amd64.go
 delete mode 100644 go/arrow/math/int64_sse4_amd64.s
 delete mode 100644 go/arrow/math/int64_test.go
 delete mode 100644 go/arrow/math/math_amd64.go
 delete mode 100644 go/arrow/math/math_arm64.go
 delete mode 100644 go/arrow/math/math_noasm.go
 delete mode 100644 go/arrow/math/math_ppc64le.go
 delete mode 100644 go/arrow/math/math_s390x.go
 delete mode 100644 go/arrow/math/type.go.tmpl
 delete mode 100644 go/arrow/math/type_amd64.go.tmpl
 delete mode 100755 go/arrow/math/type_arm64.go.tmpl
 delete mode 100644 go/arrow/math/type_noasm.go.tmpl
 delete mode 100644 go/arrow/math/type_ppc64le.go.tmpl
 delete mode 100644 go/arrow/math/type_s390x.go.tmpl
 delete mode 100644 go/arrow/math/type_simd_amd64.go.tmpl
 delete mode 100755 go/arrow/math/type_simd_arm64.go.tmpl
 delete mode 100644 go/arrow/math/type_test.go.tmpl
 delete mode 100644 go/arrow/math/uint64.go
 delete mode 100644 go/arrow/math/uint64.tmpldata
 delete mode 100644 go/arrow/math/uint64_amd64.go
 delete mode 100644 go/arrow/math/uint64_arm64.go
 delete mode 100644 go/arrow/math/uint64_avx2_amd64.go
 delete mode 100644 go/arrow/math/uint64_avx2_amd64.s
 delete mode 100755 go/arrow/math/uint64_neon_arm64.go
 delete mode 100755 go/arrow/math/uint64_neon_arm64.s
 delete mode 100644 go/arrow/math/uint64_noasm.go
 delete mode 100644 go/arrow/math/uint64_ppc64le.go
 delete mode 100644 go/arrow/math/uint64_s390x.go
 delete mode 100644 go/arrow/math/uint64_sse4_amd64.go
 delete mode 100644 go/arrow/math/uint64_sse4_amd64.s
 delete mode 100644 go/arrow/math/uint64_test.go
 delete mode 100644 go/arrow/memory/Makefile
 delete mode 100644 go/arrow/memory/_lib/.gitignore
 delete mode 100644 go/arrow/memory/_lib/CMakeLists.txt
 delete mode 100644 go/arrow/memory/_lib/arch.h
 delete mode 100644 go/arrow/memory/_lib/memory.c
 delete mode 100644 go/arrow/memory/_lib/memory_avx2.s
 delete mode 100644 go/arrow/memory/_lib/memory_neon.s
 delete mode 100644 go/arrow/memory/_lib/memory_sse4.s
 delete mode 100644 go/arrow/memory/allocator.go
 delete mode 100644 go/arrow/memory/buffer.go
 delete mode 100644 go/arrow/memory/buffer_test.go
 delete mode 100644 go/arrow/memory/cgo_allocator.go
 delete mode 100644 go/arrow/memory/cgo_allocator_defaults.go
 delete mode 100644 go/arrow/memory/cgo_allocator_logging.go
 delete mode 100644 go/arrow/memory/cgo_allocator_test.go
 delete mode 100644 go/arrow/memory/checked_allocator.go
 delete mode 100644 go/arrow/memory/default_allocator.go
 delete mode 100644 go/arrow/memory/default_mallocator.go
 delete mode 100644 go/arrow/memory/default_mallocator_test.go
 delete mode 100644 go/arrow/memory/doc.go
 delete mode 100644 go/arrow/memory/go_allocator.go
 delete mode 100644 go/arrow/memory/go_allocator_test.go
 delete mode 100644 go/arrow/memory/internal/cgoalloc/allocator.cc
 delete mode 100644 go/arrow/memory/internal/cgoalloc/allocator.go
 delete mode 100644 go/arrow/memory/internal/cgoalloc/allocator.h
 delete mode 100644 go/arrow/memory/internal/cgoalloc/helpers.h
 delete mode 100644 go/arrow/memory/mallocator/doc.go
 delete mode 100644 go/arrow/memory/mallocator/mallocator.go
 delete mode 100644 go/arrow/memory/mallocator/mallocator_test.go
 delete mode 100644 go/arrow/memory/mallocator/mallocator_util.go
 delete mode 100644 go/arrow/memory/memory.go
 delete mode 100644 go/arrow/memory/memory_amd64.go
 delete mode 100755 go/arrow/memory/memory_arm64.go
 delete mode 100644 go/arrow/memory/memory_avx2_amd64.go
 delete mode 100644 go/arrow/memory/memory_avx2_amd64.s
 delete mode 100644 go/arrow/memory/memory_js_wasm.go
 delete mode 100755 go/arrow/memory/memory_neon_arm64.go
 delete mode 100755 go/arrow/memory/memory_neon_arm64.s
 delete mode 100644 go/arrow/memory/memory_noasm.go
 delete mode 100644 go/arrow/memory/memory_sse4_amd64.go
 delete mode 100644 go/arrow/memory/memory_sse4_amd64.s
 delete mode 100644 go/arrow/memory/memory_test.go
 delete mode 100644 go/arrow/memory/util.go
 delete mode 100644 go/arrow/memory/util_test.go
 delete mode 100644 go/arrow/numeric.schema.json
 delete mode 100644 go/arrow/numeric.tmpldata
 delete mode 100644 go/arrow/record.go
 delete mode 100644 go/arrow/scalar/append.go
 delete mode 100644 go/arrow/scalar/append_test.go
 delete mode 100644 go/arrow/scalar/binary.go
 delete mode 100644 go/arrow/scalar/compare.go
 delete mode 100644 go/arrow/scalar/nested.go
 delete mode 100644 go/arrow/scalar/numeric.gen.go
 delete mode 100644 go/arrow/scalar/numeric.gen.go.tmpl
 delete mode 100644 go/arrow/scalar/numeric.gen.go.tmpldata
 delete mode 100644 go/arrow/scalar/numeric.gen_test.go
 delete mode 100644 go/arrow/scalar/numeric.gen_test.go.tmpl
 delete mode 100644 go/arrow/scalar/parse.go
 delete mode 100644 go/arrow/scalar/scalar.go
 delete mode 100644 go/arrow/scalar/scalar_test.go
 delete mode 100644 go/arrow/scalar/temporal.go
 delete mode 100644 go/arrow/schema.go
 delete mode 100644 go/arrow/schema_test.go
 delete mode 100644 go/arrow/table.go
 delete mode 100644 go/arrow/tensor/numeric.gen.go
 delete mode 100644 go/arrow/tensor/numeric.gen.go.tmpl
 delete mode 100644 go/arrow/tensor/numeric.gen_test.go
 delete mode 100644 go/arrow/tensor/numeric.gen_test.go.tmpl
 delete mode 100644 go/arrow/tensor/tensor.go
 delete mode 100644 go/arrow/tensor/tensor_test.go
 delete mode 100644 go/arrow/tools.go
 delete mode 100644 go/arrow/type_string.go
 delete mode 100644 go/arrow/type_traits.go
 delete mode 100644 go/arrow/type_traits_boolean.go
 delete mode 100644 go/arrow/type_traits_decimal128.go
 delete mode 100644 go/arrow/type_traits_decimal256.go
 delete mode 100644 go/arrow/type_traits_float16.go
 delete mode 100644 go/arrow/type_traits_interval.go
 delete mode 100644 go/arrow/type_traits_numeric.gen.go
 delete mode 100644 go/arrow/type_traits_numeric.gen.go.tmpl
 delete mode 100644 go/arrow/type_traits_numeric.gen_test.go
 delete mode 100644 go/arrow/type_traits_numeric.gen_test.go.tmpl
 delete mode 100644 go/arrow/type_traits_test.go
 delete mode 100644 go/arrow/type_traits_timestamp.go
 delete mode 100644 go/arrow/type_traits_view.go
 delete mode 100644 go/arrow/unionmode_string.go
 delete mode 100644 go/arrow/util/byte_size.go
 delete mode 100644 go/arrow/util/byte_size_test.go
 delete mode 100644 go/arrow/util/messages/README.md
 delete mode 100644 go/arrow/util/messages/types.proto
 delete mode 100644 go/arrow/util/protobuf_reflect.go
 delete mode 100644 go/arrow/util/protobuf_reflect_test.go
 delete mode 100644 go/arrow/util/util_message/types.pb.go
 delete mode 100644 go/go.mod
 delete mode 100644 go/go.sum
 delete mode 100644 go/internal/bitutils/bit_block_counter.go
 delete mode 100644 go/internal/bitutils/bit_block_counter_test.go
 delete mode 100644 go/internal/bitutils/bit_run_reader.go
 delete mode 100644 go/internal/bitutils/bit_run_reader_test.go
 delete mode 100644 go/internal/bitutils/bit_set_run_reader.go
 delete mode 100644 go/internal/bitutils/bit_set_run_reader_test.go
 delete mode 100644 go/internal/bitutils/bitmap_generate.go
 delete mode 100644 go/internal/bitutils/bitmap_generate_test.go
 delete mode 100644 go/internal/hashing/hash_funcs.go
 delete mode 100644 go/internal/hashing/hash_string.go
 delete mode 100644 go/internal/hashing/hashing_test.go
 delete mode 100644 go/internal/hashing/types.tmpldata
 delete mode 100644 go/internal/hashing/xxh3_memo_table.gen.go
 delete mode 100644 go/internal/hashing/xxh3_memo_table.gen.go.tmpl
 delete mode 100644 go/internal/hashing/xxh3_memo_table.go
 delete mode 100644 go/internal/json/json.go
 delete mode 100644 go/internal/json/json_tinygo.go
 delete mode 100644 go/internal/types/extension_types.go
 delete mode 100644 go/internal/utils/Makefile
 delete mode 100644 go/internal/utils/_lib/arch.h
 delete mode 100644 go/internal/utils/_lib/min_max.c
 delete mode 100644 go/internal/utils/_lib/min_max_avx2_amd64.s
 delete mode 100644 go/internal/utils/_lib/min_max_neon.s
 delete mode 100644 go/internal/utils/_lib/min_max_sse4_amd64.s
 delete mode 100644 go/internal/utils/_lib/transpose_ints.c
 delete mode 100644 go/internal/utils/_lib/transpose_ints_avx2_amd64.s
 delete mode 100644 go/internal/utils/_lib/transpose_ints_sse4_amd64.s
 delete mode 100644 go/internal/utils/buf_reader.go
 delete mode 100644 go/internal/utils/endians_default.go
 delete mode 100644 go/internal/utils/endians_s390x.go
 delete mode 100644 go/internal/utils/math.go
 delete mode 100644 go/internal/utils/min_max.go
 delete mode 100644 go/internal/utils/min_max_amd64.go
 delete mode 100644 go/internal/utils/min_max_arm64.go
 delete mode 100644 go/internal/utils/min_max_avx2_amd64.go
 delete mode 100644 go/internal/utils/min_max_avx2_amd64.s
 delete mode 100755 go/internal/utils/min_max_neon_arm64.go
 delete mode 100755 go/internal/utils/min_max_neon_arm64.s
 delete mode 100644 go/internal/utils/min_max_noasm.go
 delete mode 100644 go/internal/utils/min_max_ppc64le.go
 delete mode 100644 go/internal/utils/min_max_s390x.go
 delete mode 100644 go/internal/utils/min_max_sse4_amd64.go
 delete mode 100644 go/internal/utils/min_max_sse4_amd64.s
 delete mode 100644 go/internal/utils/recovery.go
 delete mode 100644 go/internal/utils/recovery_test.go
 delete mode 100644 go/internal/utils/ref_count.go
 delete mode 100644 go/internal/utils/transpose_ints.go
 delete mode 100644 go/internal/utils/transpose_ints.go.tmpl
 delete mode 100644 go/internal/utils/transpose_ints.tmpldata
 delete mode 100644 go/internal/utils/transpose_ints_amd64.go
 delete mode 100644 go/internal/utils/transpose_ints_amd64.go.tmpl
 delete mode 100644 go/internal/utils/transpose_ints_arm64.go
 delete mode 100644 go/internal/utils/transpose_ints_avx2_amd64.go
 delete mode 100644 go/internal/utils/transpose_ints_avx2_amd64.s
 delete mode 100644 go/internal/utils/transpose_ints_def.go
 delete mode 100644 go/internal/utils/transpose_ints_noasm.go
 delete mode 100644 go/internal/utils/transpose_ints_noasm.go.tmpl
 delete mode 100644 go/internal/utils/transpose_ints_ppc64le.go
 delete mode 100644 go/internal/utils/transpose_ints_s390x.go
 delete mode 100644 go/internal/utils/transpose_ints_s390x.go.tmpl
 delete mode 100644 go/internal/utils/transpose_ints_simd.go.tmpl
 delete mode 100644 go/internal/utils/transpose_ints_sse4_amd64.go
 delete mode 100644 go/internal/utils/transpose_ints_sse4_amd64.s
 delete mode 100644 go/internal/utils/transpose_ints_test.go
 delete mode 100644 go/parquet/.gitignore
 delete mode 100644 go/parquet/cmd/parquet_reader/README.md
 delete mode 100644 go/parquet/cmd/parquet_reader/dumper.go
 delete mode 100644 go/parquet/cmd/parquet_reader/main.go
 delete mode 100644 go/parquet/cmd/parquet_reader/v0.7.1.parquet
 delete mode 100644 go/parquet/cmd/parquet_schema/main.go
 delete mode 100644 go/parquet/compress/brotli.go
 delete mode 100644 go/parquet/compress/compress.go
 delete mode 100644 go/parquet/compress/compress_test.go
 delete mode 100644 go/parquet/compress/gzip.go
 delete mode 100644 go/parquet/compress/lz4_raw.go
 delete mode 100644 go/parquet/compress/snappy.go
 delete mode 100644 go/parquet/compress/zstd.go
 delete mode 100644 go/parquet/doc.go
 delete mode 100644 go/parquet/encryption_properties.go
 delete mode 100644 go/parquet/encryption_properties_test.go
 delete mode 100644 go/parquet/encryption_read_config_test.go
 delete mode 100644 go/parquet/encryption_write_config_test.go
 delete mode 100644 go/parquet/file/column_reader.go
 delete mode 100755 go/parquet/file/column_reader_test.go
 delete mode 100644 go/parquet/file/column_reader_types.gen.go
 delete mode 100644 go/parquet/file/column_reader_types.gen.go.tmpl
 delete mode 100755 go/parquet/file/column_writer.go
 delete mode 100755 go/parquet/file/column_writer_test.go
 delete mode 100644 go/parquet/file/column_writer_types.gen.go
 delete mode 100644 go/parquet/file/column_writer_types.gen.go.tmpl
 delete mode 100644 go/parquet/file/file_reader.go
 delete mode 100644 go/parquet/file/file_reader_mmap.go
 delete mode 100644 go/parquet/file/file_reader_mmap_windows.go
 delete mode 100644 go/parquet/file/file_reader_test.go
 delete mode 100644 go/parquet/file/file_writer.go
 delete mode 100644 go/parquet/file/file_writer_test.go
 delete mode 100755 go/parquet/file/level_conversion.go
 delete mode 100644 go/parquet/file/level_conversion_test.go
 delete mode 100644 go/parquet/file/page_reader.go
 delete mode 100644 go/parquet/file/page_writer.go
 delete mode 100755 go/parquet/file/record_reader.go
 delete mode 100644 go/parquet/file/row_group_reader.go
 delete mode 100644 go/parquet/file/row_group_writer.go
 delete mode 100644 go/parquet/file/row_group_writer_test.go
 delete mode 100644 go/parquet/internal/bmi/Makefile
 delete mode 100755 go/parquet/internal/bmi/_lib/arch.h
 delete mode 100644 go/parquet/internal/bmi/_lib/bitmap_bmi2.c
 delete mode 100644 go/parquet/internal/bmi/_lib/bitmap_bmi2.s
 delete mode 100644 go/parquet/internal/bmi/_lib/bitmap_neon.s
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_386.go
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_amd64.go
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_amd64.s
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_noasm.go
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
 delete mode 100644 go/parquet/internal/bmi/bitmap_bmi2_s390x.go
 delete mode 100755 go/parquet/internal/bmi/bitmap_neon_arm64.go
 delete mode 100755 go/parquet/internal/bmi/bitmap_neon_arm64.s
 delete mode 100644 go/parquet/internal/bmi/bmi.go
 delete mode 100644 go/parquet/internal/bmi/bmi_amd64.go
 delete mode 100755 go/parquet/internal/bmi/bmi_arm64.go
 delete mode 100644 go/parquet/internal/bmi/bmi_test.go
 delete mode 100644 go/parquet/internal/debug/assert_off.go
 delete mode 100644 go/parquet/internal/debug/assert_on.go
 delete mode 100644 go/parquet/internal/debug/doc.go
 delete mode 100644 go/parquet/internal/debug/log_off.go
 delete mode 100644 go/parquet/internal/debug/log_on.go
 delete mode 100644 go/parquet/internal/encoding/boolean_decoder.go
 delete mode 100644 go/parquet/internal/encoding/boolean_encoder.go
 delete mode 100644 go/parquet/internal/encoding/byte_array_decoder.go
 delete mode 100644 go/parquet/internal/encoding/byte_array_encoder.go
 delete mode 100644 go/parquet/internal/encoding/byte_stream_split.go
 delete mode 100644 go/parquet/internal/encoding/decoder.go
 delete mode 100644 go/parquet/internal/encoding/delta_bit_packing.go
 delete mode 100644 go/parquet/internal/encoding/delta_byte_array.go
 delete mode 100644 go/parquet/internal/encoding/delta_byte_array_test.go
 delete mode 100644 go/parquet/internal/encoding/delta_length_byte_array.go
 delete mode 100644 go/parquet/internal/encoding/encoder.go
 delete mode 100644 go/parquet/internal/encoding/encoding_benchmarks_test.go
 delete mode 100644 go/parquet/internal/encoding/encoding_test.go
 delete mode 100644 go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
 delete mode 100644 go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
 delete mode 100644 go/parquet/internal/encoding/levels.go
 delete mode 100644 go/parquet/internal/encoding/levels_test.go
 delete mode 100644 go/parquet/internal/encoding/memo_table.go
 delete mode 100644 go/parquet/internal/encoding/memo_table_test.go
 delete mode 100644 go/parquet/internal/encoding/memo_table_types.gen.go
 delete mode 100644 go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
 delete mode 100644 go/parquet/internal/encoding/physical_types.tmpldata
 delete mode 100644 go/parquet/internal/encoding/plain_encoder_types.gen.go
 delete mode 100644 go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
 delete mode 100644 go/parquet/internal/encoding/typed_encoder.gen.go
 delete mode 100644 go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
 delete mode 100644 go/parquet/internal/encoding/types.go
 delete mode 100644 go/parquet/internal/encryption/aes.go
 delete mode 100644 go/parquet/internal/encryption/decryptor.go
 delete mode 100644 go/parquet/internal/encryption/encryptor.go
 delete mode 100644 go/parquet/internal/encryption/key_handling.go
 delete mode 100644 go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
 delete mode 100644 go/parquet/internal/gen-go/parquet/parquet-consts.go
 delete mode 100644 go/parquet/internal/gen-go/parquet/parquet.go
 delete mode 100644 go/parquet/internal/gen-go/parquet/staticcheck.conf
 delete mode 100644 go/parquet/internal/testutils/pagebuilder.go
 delete mode 100644 go/parquet/internal/testutils/primitive_typed.go
 delete mode 100644 go/parquet/internal/testutils/random.go
 delete mode 100644 go/parquet/internal/testutils/random_arrow.go
 delete mode 100644 go/parquet/internal/testutils/utils.go
 delete mode 100644 go/parquet/internal/thrift/helpers.go
 delete mode 100644 go/parquet/internal/utils/Makefile
 delete mode 100644 go/parquet/internal/utils/_lib/README.md
 delete mode 100644 go/parquet/internal/utils/_lib/arch.h
 delete mode 100644 go/parquet/internal/utils/_lib/bit_packing_avx2.c
 delete mode 100644 go/parquet/internal/utils/_lib/bit_packing_avx2.s
 delete mode 100755 go/parquet/internal/utils/_lib/bit_packing_neon.c
 delete mode 100644 go/parquet/internal/utils/_lib/script.sed
 delete mode 100644 go/parquet/internal/utils/_lib/unpack_bool.c
 delete mode 100644 go/parquet/internal/utils/_lib/unpack_bool_avx2.s
 delete mode 100644 go/parquet/internal/utils/_lib/unpack_bool_neon.s
 delete mode 100644 go/parquet/internal/utils/_lib/unpack_bool_sse4.s
 delete mode 100644 go/parquet/internal/utils/bit_benchmark_test.go
 delete mode 100644 go/parquet/internal/utils/bit_packing_amd64.go
 delete mode 100644 go/parquet/internal/utils/bit_packing_arm64.go
 delete mode 100644 go/parquet/internal/utils/bit_packing_avx2_amd64.go
 delete mode 100644 go/parquet/internal/utils/bit_packing_avx2_amd64.s
 delete mode 100644 go/parquet/internal/utils/bit_packing_default.go
 delete mode 100755 go/parquet/internal/utils/bit_packing_neon_arm64.go
 delete mode 100644 go/parquet/internal/utils/bit_packing_neon_arm64.s
 delete mode 100644 go/parquet/internal/utils/bit_reader.go
 delete mode 100644 go/parquet/internal/utils/bit_reader_test.go
 delete mode 100644 go/parquet/internal/utils/bit_writer.go
 delete mode 100644 go/parquet/internal/utils/bitmap_writer.go
 delete mode 100644 go/parquet/internal/utils/bitmap_writer_test.go
 delete mode 100644 go/parquet/internal/utils/clib_amd64.s
 delete mode 100644 go/parquet/internal/utils/dictionary.go
 delete mode 100644 go/parquet/internal/utils/physical_types.tmpldata
 delete mode 100644 go/parquet/internal/utils/rle.go
 delete mode 100644 go/parquet/internal/utils/typed_rle_dict.gen.go
 delete mode 100644 go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
 delete mode 100644 go/parquet/internal/utils/unpack_bool.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_amd64.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_arm64.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_avx2_amd64.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_avx2_amd64.s
 delete mode 100644 go/parquet/internal/utils/unpack_bool_default.go
 delete mode 100755 go/parquet/internal/utils/unpack_bool_neon_arm64.go
 delete mode 100755 go/parquet/internal/utils/unpack_bool_neon_arm64.s
 delete mode 100644 go/parquet/internal/utils/unpack_bool_noasm.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_sse4_amd64.go
 delete mode 100644 go/parquet/internal/utils/unpack_bool_sse4_amd64.s
 delete mode 100644 go/parquet/internal/utils/write_utils.go
 delete mode 100644 go/parquet/metadata/app_version.go
 delete mode 100644 go/parquet/metadata/column_chunk.go
 delete mode 100644 go/parquet/metadata/file.go
 delete mode 100644 go/parquet/metadata/metadata_test.go
 delete mode 100644 go/parquet/metadata/row_group.go
 delete mode 100644 go/parquet/metadata/stat_compare_test.go
 delete mode 100644 go/parquet/metadata/statistics.go
 delete mode 100644 go/parquet/metadata/statistics_test.go
 delete mode 100644 go/parquet/metadata/statistics_types.gen.go
 delete mode 100644 go/parquet/metadata/statistics_types.gen.go.tmpl
 delete mode 100644 go/parquet/metadata/statistics_types.tmpldata
 delete mode 100644 go/parquet/pqarrow/column_readers.go
 delete mode 100644 go/parquet/pqarrow/doc.go
 delete mode 100644 go/parquet/pqarrow/encode_arrow.go
 delete mode 100644 go/parquet/pqarrow/encode_arrow_test.go
 delete mode 100644 go/parquet/pqarrow/encode_dict_compute.go
 delete mode 100644 go/parquet/pqarrow/encode_dict_nocompute.go
 delete mode 100644 go/parquet/pqarrow/encode_dictionary_test.go
 delete mode 100755 go/parquet/pqarrow/file_reader.go
 delete mode 100644 go/parquet/pqarrow/file_reader_test.go
 delete mode 100644 go/parquet/pqarrow/file_writer.go
 delete mode 100644 go/parquet/pqarrow/file_writer_test.go
 delete mode 100644 go/parquet/pqarrow/helpers.go
 delete mode 100644 go/parquet/pqarrow/path_builder.go
 delete mode 100644 go/parquet/pqarrow/path_builder_test.go
 delete mode 100755 go/parquet/pqarrow/properties.go
 delete mode 100644 go/parquet/pqarrow/reader_writer_test.go
 delete mode 100644 go/parquet/pqarrow/schema.go
 delete mode 100644 go/parquet/pqarrow/schema_test.go
 delete mode 100644 go/parquet/reader_properties.go
 delete mode 100644 go/parquet/reader_writer_properties_test.go
 delete mode 100644 go/parquet/schema/column.go
 delete mode 100644 go/parquet/schema/converted_types.go
 delete mode 100644 go/parquet/schema/converted_types_test.go
 delete mode 100644 go/parquet/schema/helpers.go
 delete mode 100644 go/parquet/schema/helpers_test.go
 delete mode 100644 go/parquet/schema/logical_types.go
 delete mode 100644 go/parquet/schema/logical_types_test.go
 delete mode 100644 go/parquet/schema/node.go
 delete mode 100644 go/parquet/schema/reflection.go
 delete mode 100644 go/parquet/schema/reflection_test.go
 delete mode 100644 go/parquet/schema/schema.go
 delete mode 100644 go/parquet/schema/schema_element_test.go
 delete mode 100644 go/parquet/schema/schema_flatten_test.go
 delete mode 100644 go/parquet/schema/schema_test.go
 delete mode 100644 go/parquet/tools.go
 delete mode 100644 go/parquet/types.go
 delete mode 100644 go/parquet/version_string.go
 delete mode 100644 go/parquet/writer_properties.go

diff --git a/go/LICENSE.txt b/go/LICENSE.txt
deleted file mode 100644
index 57310329835da..0000000000000
--- a/go/LICENSE.txt
+++ /dev/null
@@ -1,1791 +0,0 @@
-
-                                 Apache License
-                           Version 2.0, January 2004
-                        http://www.apache.org/licenses/
-
-   TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION
-
-   1. Definitions.
-
-      "License" shall mean the terms and conditions for use, reproduction,
-      and distribution as defined by Sections 1 through 9 of this document.
-
-      "Licensor" shall mean the copyright owner or entity authorized by
-      the copyright owner that is granting the License.
-
-      "Legal Entity" shall mean the union of the acting entity and all
-      other entities that control, are controlled by, or are under common
-      control with that entity. For the purposes of this definition,
-      "control" means (i) the power, direct or indirect, to cause the
-      direction or management of such entity, whether by contract or
-      otherwise, or (ii) ownership of fifty percent (50%) or more of the
-      outstanding shares, or (iii) beneficial ownership of such entity.
-
-      "You" (or "Your") shall mean an individual or Legal Entity
-      exercising permissions granted by this License.
-
-      "Source" form shall mean the preferred form for making modifications,
-      including but not limited to software source code, documentation
-      source, and configuration files.
-
-      "Object" form shall mean any form resulting from mechanical
-      transformation or translation of a Source form, including but
-      not limited to compiled object code, generated documentation,
-      and conversions to other media types.
-
-      "Work" shall mean the work of authorship, whether in Source or
-      Object form, made available under the License, as indicated by a
-      copyright notice that is included in or attached to the work
-      (an example is provided in the Appendix below).
-
-      "Derivative Works" shall mean any work, whether in Source or Object
-      form, that is based on (or derived from) the Work and for which the
-      editorial revisions, annotations, elaborations, or other modifications
-      represent, as a whole, an original work of authorship. For the purposes
-      of this License, Derivative Works shall not include works that remain
-      separable from, or merely link (or bind by name) to the interfaces of,
-      the Work and Derivative Works thereof.
-
-      "Contribution" shall mean any work of authorship, including
-      the original version of the Work and any modifications or additions
-      to that Work or Derivative Works thereof, that is intentionally
-      submitted to Licensor for inclusion in the Work by the copyright owner
-      or by an individual or Legal Entity authorized to submit on behalf of
-      the copyright owner. For the purposes of this definition, "submitted"
-      means any form of electronic, verbal, or written communication sent
-      to the Licensor or its representatives, including but not limited to
-      communication on electronic mailing lists, source code control systems,
-      and issue tracking systems that are managed by, or on behalf of, the
-      Licensor for the purpose of discussing and improving the Work, but
-      excluding communication that is conspicuously marked or otherwise
-      designated in writing by the copyright owner as "Not a Contribution."
-
-      "Contributor" shall mean Licensor and any individual or Legal Entity
-      on behalf of whom a Contribution has been received by Licensor and
-      subsequently incorporated within the Work.
-
-   2. Grant of Copyright License. Subject to the terms and conditions of
-      this License, each Contributor hereby grants to You a perpetual,
-      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
-      copyright license to reproduce, prepare Derivative Works of,
-      publicly display, publicly perform, sublicense, and distribute the
-      Work and such Derivative Works in Source or Object form.
-
-   3. Grant of Patent License. Subject to the terms and conditions of
-      this License, each Contributor hereby grants to You a perpetual,
-      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
-      (except as stated in this section) patent license to make, have made,
-      use, offer to sell, sell, import, and otherwise transfer the Work,
-      where such license applies only to those patent claims licensable
-      by such Contributor that are necessarily infringed by their
-      Contribution(s) alone or by combination of their Contribution(s)
-      with the Work to which such Contribution(s) was submitted. If You
-      institute patent litigation against any entity (including a
-      cross-claim or counterclaim in a lawsuit) alleging that the Work
-      or a Contribution incorporated within the Work constitutes direct
-      or contributory patent infringement, then any patent licenses
-      granted to You under this License for that Work shall terminate
-      as of the date such litigation is filed.
-
-   4. Redistribution. You may reproduce and distribute copies of the
-      Work or Derivative Works thereof in any medium, with or without
-      modifications, and in Source or Object form, provided that You
-      meet the following conditions:
-
-      (a) You must give any other recipients of the Work or
-          Derivative Works a copy of this License; and
-
-      (b) You must cause any modified files to carry prominent notices
-          stating that You changed the files; and
-
-      (c) You must retain, in the Source form of any Derivative Works
-          that You distribute, all copyright, patent, trademark, and
-          attribution notices from the Source form of the Work,
-          excluding those notices that do not pertain to any part of
-          the Derivative Works; and
-
-      (d) If the Work includes a "NOTICE" text file as part of its
-          distribution, then any Derivative Works that You distribute must
-          include a readable copy of the attribution notices contained
-          within such NOTICE file, excluding those notices that do not
-          pertain to any part of the Derivative Works, in at least one
-          of the following places: within a NOTICE text file distributed
-          as part of the Derivative Works; within the Source form or
-          documentation, if provided along with the Derivative Works; or,
-          within a display generated by the Derivative Works, if and
-          wherever such third-party notices normally appear. The contents
-          of the NOTICE file are for informational purposes only and
-          do not modify the License. You may add Your own attribution
-          notices within Derivative Works that You distribute, alongside
-          or as an addendum to the NOTICE text from the Work, provided
-          that such additional attribution notices cannot be construed
-          as modifying the License.
-
-      You may add Your own copyright statement to Your modifications and
-      may provide additional or different license terms and conditions
-      for use, reproduction, or distribution of Your modifications, or
-      for any such Derivative Works as a whole, provided Your use,
-      reproduction, and distribution of the Work otherwise complies with
-      the conditions stated in this License.
-
-   5. Submission of Contributions. Unless You explicitly state otherwise,
-      any Contribution intentionally submitted for inclusion in the Work
-      by You to the Licensor shall be under the terms and conditions of
-      this License, without any additional terms or conditions.
-      Notwithstanding the above, nothing herein shall supersede or modify
-      the terms of any separate license agreement you may have executed
-      with Licensor regarding such Contributions.
-
-   6. Trademarks. This License does not grant permission to use the trade
-      names, trademarks, service marks, or product names of the Licensor,
-      except as required for reasonable and customary use in describing the
-      origin of the Work and reproducing the content of the NOTICE file.
-
-   7. Disclaimer of Warranty. Unless required by applicable law or
-      agreed to in writing, Licensor provides the Work (and each
-      Contributor provides its Contributions) on an "AS IS" BASIS,
-      WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-      implied, including, without limitation, any warranties or conditions
-      of TITLE, NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A
-      PARTICULAR PURPOSE. You are solely responsible for determining the
-      appropriateness of using or redistributing the Work and assume any
-      risks associated with Your exercise of permissions under this License.
-
-   8. Limitation of Liability. In no event and under no legal theory,
-      whether in tort (including negligence), contract, or otherwise,
-      unless required by applicable law (such as deliberate and grossly
-      negligent acts) or agreed to in writing, shall any Contributor be
-      liable to You for damages, including any direct, indirect, special,
-      incidental, or consequential damages of any character arising as a
-      result of this License or out of the use or inability to use the
-      Work (including but not limited to damages for loss of goodwill,
-      work stoppage, computer failure or malfunction, or any and all
-      other commercial damages or losses), even if such Contributor
-      has been advised of the possibility of such damages.
-
-   9. Accepting Warranty or Additional Liability. While redistributing
-      the Work or Derivative Works thereof, You may choose to offer,
-      and charge a fee for, acceptance of support, warranty, indemnity,
-      or other liability obligations and/or rights consistent with this
-      License. However, in accepting such obligations, You may act only
-      on Your own behalf and on Your sole responsibility, not on behalf
-      of any other Contributor, and only if You agree to indemnify,
-      defend, and hold each Contributor harmless for any liability
-      incurred by, or claims asserted against, such Contributor by reason
-      of your accepting any such warranty or additional liability.
-
-   END OF TERMS AND CONDITIONS
-
-   APPENDIX: How to apply the Apache License to your work.
-
-      To apply the Apache License to your work, attach the following
-      boilerplate notice, with the fields enclosed by brackets "[]"
-      replaced with your own identifying information. (Don't include
-      the brackets!)  The text should be enclosed in the appropriate
-      comment syntax for the file format. We also recommend that a
-      file or class name and description of purpose be included on the
-      same "printed page" as the copyright notice for easier
-      identification within third-party archives.
-
-   Copyright [yyyy] [name of copyright owner]
-
-   Licensed under the Apache License, Version 2.0 (the "License");
-   you may not use this file except in compliance with the License.
-   You may obtain a copy of the License at
-
-       http://www.apache.org/licenses/LICENSE-2.0
-
-   Unless required by applicable law or agreed to in writing, software
-   distributed under the License is distributed on an "AS IS" BASIS,
-   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-   See the License for the specific language governing permissions and
-   limitations under the License.
-
---------------------------------------------------------------------------------
-
-src/arrow/util (some portions): Apache 2.0, and 3-clause BSD
-
-Some portions of this module are derived from code in the Chromium project,
-copyright (c) Google inc and (c) The Chromium Authors and licensed under the
-Apache 2.0 License or the under the 3-clause BSD license:
-
-  Copyright (c) 2013 The Chromium Authors. All rights reserved.
-
-  Redistribution and use in source and binary forms, with or without
-  modification, are permitted provided that the following conditions are
-  met:
-
-     * Redistributions of source code must retain the above copyright
-  notice, this list of conditions and the following disclaimer.
-     * Redistributions in binary form must reproduce the above
-  copyright notice, this list of conditions and the following disclaimer
-  in the documentation and/or other materials provided with the
-  distribution.
-     * Neither the name of Google Inc. nor the names of its
-  contributors may be used to endorse or promote products derived from
-  this software without specific prior written permission.
-
-  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-  "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-  LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-  A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-  OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-  SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-  LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-  DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-  THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-  (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-  OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from Daniel Lemire's FrameOfReference project.
-
-https://github.com/lemire/FrameOfReference/blob/6ccaf9e97160f9a3b299e23a8ef739e711ef0c71/src/bpacking.cpp
-
-Copyright: 2013 Daniel Lemire
-Home page: http://lemire.me/en/
-Project page: https://github.com/lemire/FrameOfReference
-License: Apache License Version 2.0 http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from the TensorFlow project
-
-Copyright 2015 The TensorFlow Authors. All Rights Reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the NumPy project.
-
-https://github.com/numpy/numpy/blob/e1f191c46f2eebd6cb892a4bfe14d9dd43a06c4e/numpy/core/src/multiarray/multiarraymodule.c#L2910
-
-https://github.com/numpy/numpy/blob/68fd82271b9ea5a9e50d4e761061dfcca851382a/numpy/core/src/multiarray/datetime.c
-
-Copyright (c) 2005-2017, NumPy Developers.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-       notice, this list of conditions and the following disclaimer.
-
-    * Redistributions in binary form must reproduce the above
-       copyright notice, this list of conditions and the following
-       disclaimer in the documentation and/or other materials provided
-       with the distribution.
-
-    * Neither the name of the NumPy Developers nor the names of any
-       contributors may be used to endorse or promote products derived
-       from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the Boost project
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the FlatBuffers project
-
-Copyright 2014 Google Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the tslib project
-
-Copyright 2015 Microsoft Corporation. All rights reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the jemalloc project
-
-https://github.com/jemalloc/jemalloc
-
-Copyright (C) 2002-2017 Jason Evans <jasone@canonware.com>.
-All rights reserved.
-Copyright (C) 2007-2012 Mozilla Foundation.  All rights reserved.
-Copyright (C) 2009-2017 Facebook, Inc.  All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-1. Redistributions of source code must retain the above copyright notice(s),
-   this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright notice(s),
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER(S) ``AS IS'' AND ANY EXPRESS
-OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF
-MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO
-EVENT SHALL THE COPYRIGHT HOLDER(S) BE LIABLE FOR ANY DIRECT, INDIRECT,
-INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
-PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
-LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE
-OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
-ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
---------------------------------------------------------------------------------
-
-This project includes code from the Go project, BSD 3-clause license + PATENTS
-weak patent termination clause
-(https://github.com/golang/go/blob/master/PATENTS).
-
-Copyright (c) 2009 The Go Authors. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-   * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-   * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-   * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the hs2client
-
-https://github.com/cloudera/hs2client
-
-Copyright 2016 Cloudera Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-The script ci/scripts/util_wait_for_it.sh has the following license
-
-Copyright (c) 2016 Giles Hall
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal in
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The script r/configure has the following license (MIT)
-
-Copyright (c) 2017, Jeroen Ooms and Jim Hester
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal in
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-cpp/src/arrow/util/logging.cc, cpp/src/arrow/util/logging.h and
-cpp/src/arrow/util/logging-test.cc are adapted from
-Ray Project (https://github.com/ray-project/ray) (Apache 2.0).
-
-Copyright (c) 2016 Ray Project (https://github.com/ray-project/ray)
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-The files cpp/src/arrow/vendored/datetime/date.h, cpp/src/arrow/vendored/datetime/tz.h,
-cpp/src/arrow/vendored/datetime/tz_private.h, cpp/src/arrow/vendored/datetime/ios.h,
-cpp/src/arrow/vendored/datetime/ios.mm,
-cpp/src/arrow/vendored/datetime/tz.cpp are adapted from
-Howard Hinnant's date library (https://github.com/HowardHinnant/date)
-It is licensed under MIT license.
-
-The MIT License (MIT)
-Copyright (c) 2015, 2016, 2017 Howard Hinnant
-Copyright (c) 2016 Adrian Colomitchi
-Copyright (c) 2017 Florian Dang
-Copyright (c) 2017 Paul Thompson
-Copyright (c) 2018 Tomasz Kamiński
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/util/utf8.h includes code adapted from the page
-  https://bjoern.hoehrmann.de/utf-8/decoder/dfa/
-with the following license (MIT)
-
-Copyright (c) 2008-2009 Bjoern Hoehrmann <bjoern@hoehrmann.de>
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/string_view.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/xxhash/ have the following license
-(BSD 2-Clause License)
-
-xxHash Library
-Copyright (c) 2012-2014, Yann Collet
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice, this
-  list of conditions and the following disclaimer in the documentation and/or
-  other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-You can contact the author at :
-- xxHash homepage: http://www.xxhash.com
-- xxHash source repository : https://github.com/Cyan4973/xxHash
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/double-conversion/ have the following license
-(BSD 3-Clause License)
-
-Copyright 2006-2011, the V8 project authors. All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-      notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-      copyright notice, this list of conditions and the following
-      disclaimer in the documentation and/or other materials provided
-      with the distribution.
-    * Neither the name of Google Inc. nor the names of its
-      contributors may be used to endorse or promote products derived
-      from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/uriparser/ have the following license
-(BSD 3-Clause License)
-
-uriparser - RFC 3986 URI parsing library
-
-Copyright (C) 2007, Weijia Song <songweijia@gmail.com>
-Copyright (C) 2007, Sebastian Pipping <sebastian@pipping.org>
-All rights reserved.
-
-Redistribution  and use in source and binary forms, with or without
-modification,  are permitted provided that the following conditions
-are met:
-
-    * Redistributions   of  source  code  must  retain  the   above
-      copyright  notice, this list of conditions and the  following
-      disclaimer.
-
-    * Redistributions  in  binary  form must  reproduce  the  above
-      copyright  notice, this list of conditions and the  following
-      disclaimer   in  the  documentation  and/or  other  materials
-      provided with the distribution.
-
-    * Neither  the name of the <ORGANIZATION> nor the names of  its
-      contributors  may  be  used to endorse  or  promote  products
-      derived  from  this software without specific  prior  written
-      permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS  IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT  NOT
-LIMITED  TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND  FITNESS
-FOR  A  PARTICULAR  PURPOSE ARE DISCLAIMED. IN NO EVENT  SHALL  THE
-COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
-INCIDENTAL,    SPECIAL,   EXEMPLARY,   OR   CONSEQUENTIAL   DAMAGES
-(INCLUDING,  BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES;  LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
-HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
-STRICT  LIABILITY,  OR  TORT (INCLUDING  NEGLIGENCE  OR  OTHERWISE)
-ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
-OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files under dev/tasks/conda-recipes have the following license
-
-BSD 3-clause license
-Copyright (c) 2015-2018, conda-forge
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-1. Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-3. Neither the name of the copyright holder nor the names of its contributors
-   may be used to endorse or promote products derived from this software without
-   specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR
-TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF
-THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/utf8cpp/ have the following license
-
-Copyright 2006 Nemanja Trifunovic
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Kudu.
-
- * cpp/cmake_modules/CompilerInfo.cmake is based on Kudu's cmake_modules/CompilerInfo.cmake
-
-Copyright: 2016 The Apache Software Foundation.
-Home page: https://kudu.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Impala (incubating), formerly
-Impala. The Impala code and rights were donated to the ASF as part of the
-Incubator process after the initial code imports into Apache Parquet.
-
-Copyright: 2012 Cloudera, Inc.
-Copyright: 2016 The Apache Software Foundation.
-Home page: http://impala.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Aurora.
-
-* dev/release/{release,changelog,release-candidate} are based on the scripts from
-  Apache Aurora
-
-Copyright: 2016 The Apache Software Foundation.
-Home page: https://aurora.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from the Google styleguide.
-
-* cpp/build-support/cpplint.py is based on the scripts from the Google styleguide.
-
-Copyright: 2009 Google Inc. All rights reserved.
-Homepage: https://github.com/google/styleguide
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project includes code from Snappy.
-
-* cpp/cmake_modules/{SnappyCMakeLists.txt,SnappyConfig.h} are based on code
-  from Google's Snappy project.
-
-Copyright: 2009 Google Inc. All rights reserved.
-Homepage: https://github.com/google/snappy
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project includes code from the manylinux project.
-
-* python/manylinux1/scripts/{build_python.sh,python-tag-abi-tag.py,
-  requirements.txt} are based on code from the manylinux project.
-
-Copyright: 2016 manylinux
-Homepage: https://github.com/pypa/manylinux
-License: The MIT License (MIT)
-
---------------------------------------------------------------------------------
-
-This project includes code from the cymove project:
-
-* python/pyarrow/includes/common.pxd includes code from the cymove project
-
-The MIT License (MIT)
-Copyright (c) 2019 Omer Ozarslan
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
-EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
-MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
-IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
-DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
-OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE
-OR OTHER DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The projects includes code from the Ursabot project under the dev/archery
-directory.
-
-License: BSD 2-Clause
-
-Copyright 2019 RStudio, Inc.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-1. Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project include code from CMake.
-
-* cpp/cmake_modules/FindGTest.cmake is based on code from CMake.
-
-Copyright: Copyright 2000-2019 Kitware, Inc. and Contributors
-Homepage: https://gitlab.kitware.com/cmake/cmake
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project include code from mingw-w64.
-
-* cpp/src/arrow/util/cpu-info.cc has a polyfill for mingw-w64 < 5
-
-Copyright (c) 2009 - 2013 by the mingw-w64 project
-Homepage: https://mingw-w64.org
-License: Zope Public License (ZPL) Version 2.1.
-
----------------------------------------------------------------------------------
-
-This project include code from Google's Asylo project.
-
-* cpp/src/arrow/result.h is based on status_or.h
-
-Copyright (c)  Copyright 2017 Asylo authors
-Homepage: https://asylo.dev/
-License: Apache 2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Google's protobuf project
-
-* cpp/src/arrow/result.h ARROW_ASSIGN_OR_RAISE is based off ASSIGN_OR_RETURN
-
-Copyright 2008 Google Inc.  All rights reserved.
-Homepage: https://developers.google.com/protocol-buffers/
-License:
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-Code generated by the Protocol Buffer compiler is owned by the owner
-of the input file used when generating it.  This code is not
-standalone and requires a support library to be linked with it.  This
-support library is itself covered by the above license.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency LLVM is statically linked in certain binary distributions.
-Additionally some sections of source code have been derived from sources in LLVM
-and have been clearly labeled as such. LLVM has the following license:
-
-==============================================================================
-LLVM Release License
-==============================================================================
-University of Illinois/NCSA
-Open Source License
-
-Copyright (c) 2003-2018 University of Illinois at Urbana-Champaign.
-All rights reserved.
-
-Developed by:
-
-    LLVM Team
-
-    University of Illinois at Urbana-Champaign
-
-    http://llvm.org
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal with
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-    * Redistributions of source code must retain the above copyright notice,
-      this list of conditions and the following disclaimers.
-
-    * Redistributions in binary form must reproduce the above copyright notice,
-      this list of conditions and the following disclaimers in the
-      documentation and/or other materials provided with the distribution.
-
-    * Neither the names of the LLVM Team, University of Illinois at
-      Urbana-Champaign, nor the names of its contributors may be used to
-      endorse or promote products derived from this Software without specific
-      prior written permission.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
-FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
-CONTRIBUTORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS WITH THE
-SOFTWARE.
-
-==============================================================================
-Copyrights and Licenses for Third Party Software Distributed with LLVM:
-==============================================================================
-The LLVM software contains code written by third parties.  Such software will
-have its own individual LICENSE.TXT file in the directory in which it appears.
-This file will describe the copyrights, license, and restrictions which apply
-to that code.
-
-The disclaimer of warranty in the University of Illinois Open Source License
-applies to all code in the LLVM Distribution, and nothing in any of the
-other licenses gives permission to use the names of the LLVM Team or the
-University of Illinois to endorse or promote products derived from this
-Software.
-
-The following pieces of software have additional or alternate copyrights,
-licenses, and/or restrictions:
-
-Program             Directory
--------             ---------
-Google Test         llvm/utils/unittest/googletest
-OpenBSD regex       llvm/lib/Support/{reg*, COPYRIGHT.regex}
-pyyaml tests        llvm/test/YAMLParser/{*.data, LICENSE.TXT}
-ARM contributions   llvm/lib/Target/ARM/LICENSE.TXT
-md5 contributions   llvm/lib/Support/MD5.cpp llvm/include/llvm/Support/MD5.h
-
---------------------------------------------------------------------------------
-
-3rdparty dependency gRPC is statically linked in certain binary
-distributions, like the python wheels. gRPC has the following license:
-
-Copyright 2014 gRPC authors.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Apache Thrift is statically linked in certain binary
-distributions, like the python wheels. Apache Thrift has the following license:
-
-Apache Thrift
-Copyright (C) 2006 - 2019, The Apache Software Foundation
-
-This product includes software developed at
-The Apache Software Foundation (http://www.apache.org/).
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-     http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Apache ORC is statically linked in certain binary
-distributions, like the python wheels. Apache ORC has the following license:
-
-Apache ORC
-Copyright 2013-2019 The Apache Software Foundation
-
-This product includes software developed by The Apache Software
-Foundation (http://www.apache.org/).
-
-This product includes software developed by Hewlett-Packard:
-(c) Copyright [2014-2015] Hewlett-Packard Development Company, L.P
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-     http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency zstd is statically linked in certain binary
-distributions, like the python wheels. ZSTD has the following license:
-
-BSD License
-
-For Zstandard software
-
-Copyright (c) 2016-present, Facebook, Inc. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
- * Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
- * Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
- * Neither the name Facebook nor the names of its contributors may be used to
-   endorse or promote products derived from this software without specific
-   prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency lz4 is statically linked in certain binary
-distributions, like the python wheels. lz4 has the following license:
-
-LZ4 Library
-Copyright (c) 2011-2016, Yann Collet
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice, this
-  list of conditions and the following disclaimer in the documentation and/or
-  other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Brotli is statically linked in certain binary
-distributions, like the python wheels. Brotli has the following license:
-
-Copyright (c) 2009, 2010, 2013-2016 by the Brotli Authors.
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in
-all copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
-THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency snappy is statically linked in certain binary
-distributions, like the python wheels. snappy has the following license:
-
-Copyright 2011, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright notice,
-      this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above copyright notice,
-      this list of conditions and the following disclaimer in the documentation
-      and/or other materials provided with the distribution.
-    * Neither the name of Google Inc. nor the names of its contributors may be
-      used to endorse or promote products derived from this software without
-      specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-===
-
-Some of the benchmark data in testdata/ is licensed differently:
-
- - fireworks.jpeg is Copyright 2013 Steinar H. Gunderson, and
-   is licensed under the Creative Commons Attribution 3.0 license
-   (CC-BY-3.0). See https://creativecommons.org/licenses/by/3.0/
-   for more information.
-
- - kppkn.gtb is taken from the Gaviota chess tablebase set, and
-   is licensed under the MIT License. See
-   https://sites.google.com/site/gaviotachessengine/Home/endgame-tablebases-1
-   for more information.
-
- - paper-100k.pdf is an excerpt (bytes 92160 to 194560) from the paper
-   “Combinatorial Modeling of Chromatin Features Quantitatively Predicts DNA
-   Replication Timing in _Drosophila_” by Federico Comoglio and Renato Paro,
-   which is licensed under the CC-BY license. See
-   http://www.ploscompbiol.org/static/license for more ifnormation.
-
- - alice29.txt, asyoulik.txt, plrabn12.txt and lcet10.txt are from Project
-   Gutenberg. The first three have expired copyrights and are in the public
-   domain; the latter does not have expired copyright, but is still in the
-   public domain according to the license information
-   (http://www.gutenberg.org/ebooks/53).
-
---------------------------------------------------------------------------------
-
-3rdparty dependency gflags is statically linked in certain binary
-distributions, like the python wheels. gflags has the following license:
-
-Copyright (c) 2006, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency glog is statically linked in certain binary
-distributions, like the python wheels. glog has the following license:
-
-Copyright (c) 2008, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-
-A function gettimeofday in utilities.cc is based on
-
-http://www.google.com/codesearch/p?hl=en#dR3YEbitojA/COPYING&q=GetSystemTimeAsFileTime%20license:bsd
-
-The license of this code is:
-
-Copyright (c) 2003-2008, Jouni Malinen <j@w1.fi> and contributors
-All Rights Reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-1. Redistributions of source code must retain the above copyright
-   notice, this list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright
-   notice, this list of conditions and the following disclaimer in the
-   documentation and/or other materials provided with the distribution.
-
-3. Neither the name(s) of the above-listed copyright holder(s) nor the
-   names of its contributors may be used to endorse or promote products
-   derived from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency re2 is statically linked in certain binary
-distributions, like the python wheels. re2 has the following license:
-
-Copyright (c) 2009 The RE2 Authors. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-      notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-      copyright notice, this list of conditions and the following
-      disclaimer in the documentation and/or other materials provided
-      with the distribution.
-    * Neither the name of Google Inc. nor the names of its contributors
-      may be used to endorse or promote products derived from this
-      software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency c-ares is statically linked in certain binary
-distributions, like the python wheels. c-ares has the following license:
-
-# c-ares license
-
-Copyright (c) 2007 - 2018, Daniel Stenberg with many contributors, see AUTHORS
-file.
-
-Copyright 1998 by the Massachusetts Institute of Technology.
-
-Permission to use, copy, modify, and distribute this software and its
-documentation for any purpose and without fee is hereby granted, provided that
-the above copyright notice appear in all copies and that both that copyright
-notice and this permission notice appear in supporting documentation, and that
-the name of M.I.T. not be used in advertising or publicity pertaining to
-distribution of the software without specific, written prior permission.
-M.I.T. makes no representations about the suitability of this software for any
-purpose.  It is provided "as is" without express or implied warranty.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency zlib is redistributed as a dynamically linked shared
-library in certain binary distributions, like the python wheels. In the future
-this will likely change to static linkage. zlib has the following license:
-
-zlib.h -- interface of the 'zlib' general purpose compression library
-  version 1.2.11, January 15th, 2017
-
-  Copyright (C) 1995-2017 Jean-loup Gailly and Mark Adler
-
-  This software is provided 'as-is', without any express or implied
-  warranty.  In no event will the authors be held liable for any damages
-  arising from the use of this software.
-
-  Permission is granted to anyone to use this software for any purpose,
-  including commercial applications, and to alter it and redistribute it
-  freely, subject to the following restrictions:
-
-  1. The origin of this software must not be misrepresented; you must not
-     claim that you wrote the original software. If you use this software
-     in a product, an acknowledgment in the product documentation would be
-     appreciated but is not required.
-  2. Altered source versions must be plainly marked as such, and must not be
-     misrepresented as being the original software.
-  3. This notice may not be removed or altered from any source distribution.
-
-  Jean-loup Gailly        Mark Adler
-  jloup@gzip.org          madler@alumni.caltech.edu
-
---------------------------------------------------------------------------------
-
-3rdparty dependency openssl is redistributed as a dynamically linked shared
-library in certain binary distributions, like the python wheels. openssl
-preceding version 3 has the following license:
-
-  LICENSE ISSUES
-  ==============
-
-  The OpenSSL toolkit stays under a double license, i.e. both the conditions of
-  the OpenSSL License and the original SSLeay license apply to the toolkit.
-  See below for the actual license texts.
-
-  OpenSSL License
-  ---------------
-
-/* ====================================================================
- * Copyright (c) 1998-2019 The OpenSSL Project.  All rights reserved.
- *
- * Redistribution and use in source and binary forms, with or without
- * modification, are permitted provided that the following conditions
- * are met:
- *
- * 1. Redistributions of source code must retain the above copyright
- *    notice, this list of conditions and the following disclaimer.
- *
- * 2. Redistributions in binary form must reproduce the above copyright
- *    notice, this list of conditions and the following disclaimer in
- *    the documentation and/or other materials provided with the
- *    distribution.
- *
- * 3. All advertising materials mentioning features or use of this
- *    software must display the following acknowledgment:
- *    "This product includes software developed by the OpenSSL Project
- *    for use in the OpenSSL Toolkit. (http://www.openssl.org/)"
- *
- * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to
- *    endorse or promote products derived from this software without
- *    prior written permission. For written permission, please contact
- *    openssl-core@openssl.org.
- *
- * 5. Products derived from this software may not be called "OpenSSL"
- *    nor may "OpenSSL" appear in their names without prior written
- *    permission of the OpenSSL Project.
- *
- * 6. Redistributions of any form whatsoever must retain the following
- *    acknowledgment:
- *    "This product includes software developed by the OpenSSL Project
- *    for use in the OpenSSL Toolkit (http://www.openssl.org/)"
- *
- * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY
- * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
- * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
- * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE OpenSSL PROJECT OR
- * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
- * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
- * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
- * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
- * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
- * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
- * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
- * OF THE POSSIBILITY OF SUCH DAMAGE.
- * ====================================================================
- *
- * This product includes cryptographic software written by Eric Young
- * (eay@cryptsoft.com).  This product includes software written by Tim
- * Hudson (tjh@cryptsoft.com).
- *
- */
-
- Original SSLeay License
- -----------------------
-
-/* Copyright (C) 1995-1998 Eric Young (eay@cryptsoft.com)
- * All rights reserved.
- *
- * This package is an SSL implementation written
- * by Eric Young (eay@cryptsoft.com).
- * The implementation was written so as to conform with Netscapes SSL.
- *
- * This library is free for commercial and non-commercial use as long as
- * the following conditions are aheared to.  The following conditions
- * apply to all code found in this distribution, be it the RC4, RSA,
- * lhash, DES, etc., code; not just the SSL code.  The SSL documentation
- * included with this distribution is covered by the same copyright terms
- * except that the holder is Tim Hudson (tjh@cryptsoft.com).
- *
- * Copyright remains Eric Young's, and as such any Copyright notices in
- * the code are not to be removed.
- * If this package is used in a product, Eric Young should be given attribution
- * as the author of the parts of the library used.
- * This can be in the form of a textual message at program startup or
- * in documentation (online or textual) provided with the package.
- *
- * Redistribution and use in source and binary forms, with or without
- * modification, are permitted provided that the following conditions
- * are met:
- * 1. Redistributions of source code must retain the copyright
- *    notice, this list of conditions and the following disclaimer.
- * 2. Redistributions in binary form must reproduce the above copyright
- *    notice, this list of conditions and the following disclaimer in the
- *    documentation and/or other materials provided with the distribution.
- * 3. All advertising materials mentioning features or use of this software
- *    must display the following acknowledgement:
- *    "This product includes cryptographic software written by
- *     Eric Young (eay@cryptsoft.com)"
- *    The word 'cryptographic' can be left out if the rouines from the library
- *    being used are not cryptographic related :-).
- * 4. If you include any Windows specific code (or a derivative thereof) from
- *    the apps directory (application code) you must include an acknowledgement:
- *    "This product includes software written by Tim Hudson (tjh@cryptsoft.com)"
- *
- * THIS SOFTWARE IS PROVIDED BY ERIC YOUNG ``AS IS'' AND
- * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
- * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
- * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
- * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
- * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
- * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
- * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
- * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
- * SUCH DAMAGE.
- *
- * The licence and distribution terms for any publically available version or
- * derivative of this code cannot be changed.  i.e. this code cannot simply be
- * copied and put under another distribution licence
- * [including the GNU Public Licence.]
- */
-
---------------------------------------------------------------------------------
-
-This project includes code from the rtools-backports project.
-
-* ci/scripts/PKGBUILD and ci/scripts/r_windows_build.sh are based on code
-  from the rtools-backports project.
-
-Copyright: Copyright (c) 2013 - 2019, Алексей and Jeroen Ooms.
-All rights reserved.
-Homepage: https://github.com/r-windows/rtools-backports
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-Some code from pandas has been adapted for the pyarrow codebase. pandas is
-available under the 3-clause BSD license, which follows:
-
-pandas license
-==============
-
-Copyright (c) 2011-2012, Lambda Foundry, Inc. and PyData Development Team
-All rights reserved.
-
-Copyright (c) 2008-2011 AQR Capital Management, LLC
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-       notice, this list of conditions and the following disclaimer.
-
-    * Redistributions in binary form must reproduce the above
-       copyright notice, this list of conditions and the following
-       disclaimer in the documentation and/or other materials provided
-       with the distribution.
-
-    * Neither the name of the copyright holder nor the names of any
-       contributors may be used to endorse or promote products derived
-       from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-Some bits from DyND, in particular aspects of the build system, have been
-adapted from libdynd and dynd-python under the terms of the BSD 2-clause
-license
-
-The BSD 2-Clause License
-
-    Copyright (C) 2011-12, Dynamic NDArray Developers
-    All rights reserved.
-
-    Redistribution and use in source and binary forms, with or without
-    modification, are permitted provided that the following conditions are
-    met:
-
-        * Redistributions of source code must retain the above copyright
-           notice, this list of conditions and the following disclaimer.
-
-        * Redistributions in binary form must reproduce the above
-           copyright notice, this list of conditions and the following
-           disclaimer in the documentation and/or other materials provided
-           with the distribution.
-
-    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-    A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-    OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-    SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-    LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-    DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-    THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-    (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-    OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-Dynamic NDArray Developers list:
-
- * Mark Wiebe
- * Continuum Analytics
-
---------------------------------------------------------------------------------
-
-Some source code from Ibis (https://github.com/cloudera/ibis) has been adapted
-for PyArrow. Ibis is released under the Apache License, Version 2.0.
-
---------------------------------------------------------------------------------
-
-dev/tasks/homebrew-formulae/apache-arrow.rb has the following license:
-
-BSD 2-Clause License
-
-Copyright (c) 2009-present, Homebrew contributors
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice,
-  this list of conditions and the following disclaimer in the documentation
-  and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-----------------------------------------------------------------------
-
-cpp/src/arrow/vendored/base64.cpp has the following license
-
-ZLIB License
-
-Copyright (C) 2004-2017 René Nyffenegger
-
-This source code is provided 'as-is', without any express or implied
-warranty. In no event will the author be held liable for any damages arising
-from the use of this software.
-
-Permission is granted to anyone to use this software for any purpose, including
-commercial applications, and to alter it and redistribute it freely, subject to
-the following restrictions:
-
-1. The origin of this source code must not be misrepresented; you must not
-   claim that you wrote the original source code. If you use this source code
-   in a product, an acknowledgment in the product documentation would be
-   appreciated but is not required.
-
-2. Altered source versions must be plainly marked as such, and must not be
-   misrepresented as being the original source code.
-
-3. This notice may not be removed or altered from any source distribution.
-
-René Nyffenegger rene.nyffenegger@adp-gmbh.ch
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/optional.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/musl/strptime.c has the following license
-
-Copyright © 2005-2020 Rich Felker, et al.
-
-Permission is hereby granted, free of charge, to any person obtaining
-a copy of this software and associated documentation files (the
-"Software"), to deal in the Software without restriction, including
-without limitation the rights to use, copy, modify, merge, publish,
-distribute, sublicense, and/or sell copies of the Software, and to
-permit persons to whom the Software is furnished to do so, subject to
-the following conditions:
-
-The above copyright notice and this permission notice shall be
-included in all copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
-EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
-MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
-IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY
-CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
-TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
-SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
diff --git a/go/README.md b/go/README.md
deleted file mode 100644
index ec824229729a0..0000000000000
--- a/go/README.md
+++ /dev/null
@@ -1,147 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-Apache Arrow for Go
-===================
-
-[![Go Reference](https://pkg.go.dev/badge/github.com/apache/arrow/go/v18.svg)](https://pkg.go.dev/github.com/apache/arrow/go/v18)
-
-[Apache Arrow][arrow] is a cross-language development platform for in-memory
-data. It specifies a standardized language-independent columnar memory format
-for flat and hierarchical data, organized for efficient analytic operations on
-modern hardware. It also provides computational libraries and zero-copy
-streaming messaging and inter-process communication.
-
-### A note about FlightSQL drivers
-
-Go FlightSQL drivers live in the
-[ADBC repository](https://github.com/apache/arrow-adbc/tree/main/go/adbc).
-In particular, to use the Golang `database/sql` interface:
-```golang
-import (
-    "database/sql"
-    _ "github.com/apache/arrow-adbc/go/adbc/sqldriver/flightsql"
-)
-
-func main() {
-    dsn := "uri=grpc://localhost:12345;username=mickeymouse;password=p@55w0RD"
-    db, err := sql.Open("flightsql", dsn)
-    ...
-}
-```
-
-DSN option keys are expressed as `k=v`, delimited with `;`. 
-Some options keys are defined in ADBC, others are defined in the FlightSQL ADBC driver.
-- Arrow ADBC [developer doc](https://arrow.apache.org/adbc/main/driver/flight_sql.html#client-options)
-- ADBC [source code](https://github.com/apache/arrow-adbc/blob/3d12fad1bae21029a8ff25604d6e65760c3f65bd/go/adbc/adbc.go#L149-L158)
-- FlightSQL driver option keys [source code](https://github.com/apache/arrow-adbc/blob/3d12fad1bae21029a8ff25604d6e65760c3f65bd/go/adbc/driver/flightsql/flightsql_adbc.go#L70-L81)
-
-Reference Counting
-------------------
-
-The library makes use of reference counting so that it can track when memory
-buffers are no longer used. This allows Arrow to update resource accounting,
-pool memory such and track overall memory usage as objects are created and
-released. Types expose two methods to deal with this pattern. The `Retain`
-method will increase the reference count by 1 and `Release` method will reduce
-the count by 1. Once the reference count of an object is zero, any associated
-object will be freed. `Retain` and `Release` are safe to call from multiple
-goroutines.
-
-### When to call `Retain` / `Release`?
-
-* If you are passed an object and wish to take ownership of it, you must call
-  `Retain`. You must later pair this with a call to `Release` when you no
-  longer need the object.  "Taking ownership" typically means you wish to
-  access the object outside the scope of the current function call.
-
-* You own any object you create via functions whose name begins with `New` or
-  `Copy` or when receiving an object over a channel. Therefore you must call
-  `Release` once you no longer need the object.
-
-* If you send an object over a channel, you must call `Retain` before sending
-  it as the receiver is assumed to own the object and will later call `Release`
-  when it no longer needs the object.
-
-Performance
------------
-
-The arrow package makes extensive use of [c2goasm][] to leverage LLVM's
-advanced optimizer and generate PLAN9 assembly functions from C/C++ code. The
-arrow package can be compiled without these optimizations using the `noasm`
-build tag. Alternatively, by configuring an environment variable, it is
-possible to dynamically configure which architecture optimizations are used at
-runtime. We use the (cpu)[https://pkg.go.dev/golang.org/x/sys/cpu] package to
-check dynamically for these features.
-
-### Example Usage
-
-The following benchmarks demonstrate summing an array of 8192 values using
-various optimizations.
-
-Disable no architecture optimizations (thus using AVX2):
-
-```sh
-$ INTEL_DISABLE_EXT=NONE go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	 2000000	       687 ns/op	95375.41 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	 2000000	       719 ns/op	91061.06 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	 2000000	       691 ns/op	94797.29 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	6.444s
-```
-
-**NOTE:** `NONE` is simply ignored, thus enabling optimizations for AVX2 and SSE4
-
-----
-
-Disable AVX2 architecture optimizations:
-
-```sh
-$ INTEL_DISABLE_EXT=AVX2 go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	 1000000	      1912 ns/op	34263.63 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	 1000000	      1392 ns/op	47065.57 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	 1000000	      1405 ns/op	46636.41 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	4.786s
-```
-
-----
-
-Disable ALL architecture optimizations, thus using pure Go implementation:
-
-```sh
-$ INTEL_DISABLE_EXT=ALL go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	  200000	     10285 ns/op	6371.41 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	  500000	      3892 ns/op	16837.37 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	  500000	      3929 ns/op	16680.00 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	6.179s
-```
-
-[arrow]:    https://arrow.apache.org
-[c2goasm]:  https://github.com/minio/c2goasm
diff --git a/go/arrow/.editorconfig b/go/arrow/.editorconfig
deleted file mode 100644
index a7ceaf938f92c..0000000000000
--- a/go/arrow/.editorconfig
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-root = true
-
-[*.tmpl]
-indent_style = tab
-indent_size = 4
\ No newline at end of file
diff --git a/go/arrow/.gitignore b/go/arrow/.gitignore
deleted file mode 100644
index d4b831ae811da..0000000000000
--- a/go/arrow/.gitignore
+++ /dev/null
@@ -1,35 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-### Go template
-# Binaries for programs and plugins
-*.exe
-*.dll
-*.so
-*.dylib
-*.o
-
-# Test binary, build with `go test -c`
-*.test
-
-# Output of the go coverage tool, specifically when used with LiteIDE
-*.out
-
-# Project-local glide cache, RE: https://github.com/Masterminds/glide/issues/736
-.glide/
-
-bin/
-vendor/
\ No newline at end of file
diff --git a/go/arrow/Gopkg.lock b/go/arrow/Gopkg.lock
deleted file mode 100644
index 143e4f93b5eea..0000000000000
--- a/go/arrow/Gopkg.lock
+++ /dev/null
@@ -1,44 +0,0 @@
-# This file is autogenerated, do not edit; changes may be undone by the next 'dep ensure'.
-
-
-[[projects]]
-  digest = "1:56c130d885a4aacae1dd9c7b71cfe39912c7ebc1ff7d2b46083c8812996dc43b"
-  name = "github.com/davecgh/go-spew"
-  packages = ["spew"]
-  pruneopts = ""
-  revision = "346938d642f2ec3594ed81d874461961cd0faa76"
-  version = "v1.1.0"
-
-[[projects]]
-  digest = "1:1d7e1867c49a6dd9856598ef7c3123604ea3daabf5b83f303ff457bcbc410b1d"
-  name = "github.com/pkg/errors"
-  packages = ["."]
-  pruneopts = ""
-  revision = "ba968bfe8b2f7e042a574c888954fccecfa385b4"
-  version = "v0.8.1"
-
-[[projects]]
-  digest = "1:256484dbbcd271f9ecebc6795b2df8cad4c458dd0f5fd82a8c2fa0c29f233411"
-  name = "github.com/pmezard/go-difflib"
-  packages = ["difflib"]
-  pruneopts = ""
-  revision = "792786c7400a136282c1664665ae0a8db921c6c2"
-  version = "v1.0.0"
-
-[[projects]]
-  digest = "1:2d0dc026c4aef5e2f3a0e06a4dabe268b840d8f63190cf6894e02134a03f52c5"
-  name = "github.com/stretchr/testify"
-  packages = ["assert"]
-  pruneopts = ""
-  revision = "b91bfb9ebec76498946beb6af7c0230c7cc7ba6c"
-  version = "v1.2.0"
-
-[solve-meta]
-  analyzer-name = "dep"
-  analyzer-version = 1
-  input-imports = [
-    "github.com/pkg/errors",
-    "github.com/stretchr/testify/assert",
-  ]
-  solver-name = "gps-cdcl"
-  solver-version = 1
diff --git a/go/arrow/Gopkg.toml b/go/arrow/Gopkg.toml
deleted file mode 100644
index b27807d69f951..0000000000000
--- a/go/arrow/Gopkg.toml
+++ /dev/null
@@ -1,23 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-[[constraint]]
-  name = "github.com/stretchr/testify"
-  version = "1.2.0"
-
-[[constraint]]
-  name = "github.com/pkg/errors"
-  version = "0.8.1"
\ No newline at end of file
diff --git a/go/arrow/Makefile b/go/arrow/Makefile
deleted file mode 100644
index 9c4a23262d0bd..0000000000000
--- a/go/arrow/Makefile
+++ /dev/null
@@ -1,54 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST?=go test
-GOPATH=$(realpath ../../../../../..)
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-SOURCES_NO_VENDOR := $(shell find . -path ./vendor -prune -o -name "*.go" -not -name '*_test.go' -print)
-
-.PHONEY: test bench assembly generate
-
-assembly:
-	@$(MAKE) -C memory assembly
-	@$(MAKE) -C math assembly
-
-generate: bin/tmpl
-	bin/tmpl -i -data=numeric.tmpldata type_traits_numeric.gen.go.tmpl type_traits_numeric.gen_test.go.tmpl array/numeric.gen.go.tmpl array/numericbuilder.gen_test.go.tmpl  array/numericbuilder.gen.go.tmpl array/bufferbuilder_numeric.gen.go.tmpl
-	bin/tmpl -i -data=datatype_numeric.gen.go.tmpldata datatype_numeric.gen.go.tmpl
-	@$(MAKE) -C math generate
-
-fmt: $(SOURCES_NO_VENDOR)
-	goimports -w $^
-
-bench: $(GO_SOURCES) | assembly
-	$(GO_TEST) $(GO_TEST_ARGS) -bench=. -run=- ./...
-
-bench-noasm: $(GO_SOURCES)
-	$(GO_TEST) $(GO_TEST_ARGS) -tags='noasm' -bench=. -run=- ./...
-
-test: $(GO_SOURCES) | assembly
-	$(GO_TEST) $(GO_TEST_ARGS) ./...
-
-test-noasm: $(GO_SOURCES)
-	$(GO_TEST) $(GO_TEST_ARGS) -tags='noasm' ./...
-
-bin/tmpl: _tools/tmpl/main.go
-	$(GO_BUILD) -o $@ ./_tools/tmpl
-
diff --git a/go/arrow/_examples/helloworld/main.go b/go/arrow/_examples/helloworld/main.go
deleted file mode 100644
index 7f932801917a4..0000000000000
--- a/go/arrow/_examples/helloworld/main.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "intField", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		{Name: "stringField", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "floatField", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	builder.Field(0).(*array.Int64Builder).AppendValues([]int64{1, 2, 3, 4, 5}, nil)
-	builder.Field(1).(*array.StringBuilder).AppendValues([]string{"a", "b", "c", "d", "e"}, nil)
-	builder.Field(2).(*array.Float64Builder).AppendValues([]float64{1, 0, 3, 0, 5}, []bool{true, false, true, false, true})
-
-	rec := builder.NewRecord()
-	defer rec.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec})
-	defer tbl.Release()
-
-	sum := math.Float64.Sum(tbl.Column(2).Data().Chunk(0).(*array.Float64))
-	if sum != 9 {
-		defer os.Exit(1)
-	}
-}
diff --git a/go/arrow/_tools/tmpl/main.go b/go/arrow/_tools/tmpl/main.go
deleted file mode 100644
index 33cb1686981f4..0000000000000
--- a/go/arrow/_tools/tmpl/main.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"flag"
-	"fmt"
-	"go/format"
-	"io/ioutil"
-	"os"
-	"os/exec"
-	"path/filepath"
-	"strings"
-	"text/template"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const Ext = ".tmpl"
-
-type pathSpec struct {
-	in, out string
-}
-
-func (p *pathSpec) String() string { return p.in + " → " + p.out }
-func (p *pathSpec) IsGoFile() bool { return filepath.Ext(p.out) == ".go" }
-
-func parsePath(path string) (string, string) {
-	p := strings.IndexByte(path, '=')
-	if p == -1 {
-		if filepath.Ext(path) != Ext {
-			errExit("template file '%s' must have .tmpl extension", path)
-		}
-		return path, path[:len(path)-len(Ext)]
-	}
-
-	return path[:p], path[p+1:]
-}
-
-type data struct {
-	In interface{}
-	D  listValue
-}
-
-func errExit(format string, a ...interface{}) {
-	fmt.Fprintf(os.Stderr, format, a...)
-	fmt.Fprintln(os.Stderr)
-	os.Exit(1)
-}
-
-type listValue map[string]string
-
-func (l listValue) String() string {
-	res := make([]string, 0, len(l))
-	for k, v := range l {
-		res = append(res, fmt.Sprintf("%s=%s", k, v))
-	}
-	return strings.Join(res, ", ")
-}
-
-func (l listValue) Set(v string) error {
-	nv := strings.Split(v, "=")
-	if len(nv) != 2 {
-		return fmt.Errorf("expected NAME=VALUE, got %s", v)
-	}
-	l[nv[0]] = nv[1]
-	return nil
-}
-
-func main() {
-	var (
-		dataArg = flag.String("data", "", "input JSON data")
-		gi      = flag.Bool("i", false, "run goimports")
-		in      = &data{D: make(listValue)}
-	)
-
-	flag.Var(&in.D, "d", "-d NAME=VALUE")
-
-	flag.Parse()
-	if *dataArg == "" {
-		errExit("data option is required")
-	}
-
-	if *gi {
-		if _, err := exec.LookPath("goimports"); err != nil {
-			errExit("failed to find goimports: %s", err.Error())
-		}
-		formatter = formatSource
-	} else {
-		formatter = format.Source
-	}
-
-	paths := flag.Args()
-	if len(paths) == 0 {
-		errExit("no tmpl files specified")
-	}
-
-	specs := make([]pathSpec, len(paths))
-	for i, p := range paths {
-		in, out := parsePath(p)
-		specs[i] = pathSpec{in: in, out: out}
-	}
-
-	in.In = readData(*dataArg)
-	process(in, specs)
-}
-
-func mustReadAll(path string) []byte {
-	data, err := ioutil.ReadFile(path)
-	if err != nil {
-		errExit(err.Error())
-	}
-
-	return data
-}
-
-func readData(path string) interface{} {
-	data := mustReadAll(path)
-	var v interface{}
-	if err := json.Unmarshal(StripComments(data), &v); err != nil {
-		errExit("invalid JSON data: %s", err.Error())
-	}
-	return v
-}
-
-func fileMode(path string) os.FileMode {
-	stat, err := os.Stat(path)
-	if err != nil {
-		errExit(err.Error())
-	}
-	return stat.Mode()
-}
-
-var funcs = template.FuncMap{
-	"lower": strings.ToLower,
-	"upper": strings.ToUpper,
-}
-
-func process(data interface{}, specs []pathSpec) {
-	for _, spec := range specs {
-		var (
-			t   *template.Template
-			err error
-		)
-		t, err = template.New("gen").Funcs(funcs).Parse(string(mustReadAll(spec.in)))
-		if err != nil {
-			errExit("error processing template '%s': %s", spec.in, err.Error())
-		}
-
-		var buf bytes.Buffer
-		if spec.IsGoFile() {
-			// preamble
-			fmt.Fprintf(&buf, "// Code generated by %s. DO NOT EDIT.\n", spec.in)
-			fmt.Fprintln(&buf)
-		}
-		err = t.Execute(&buf, data)
-		if err != nil {
-			errExit("error executing template '%s': %s", spec.in, err.Error())
-		}
-
-		generated := buf.Bytes()
-		if spec.IsGoFile() {
-			generated, err = formatter(generated)
-			if err != nil {
-				errExit("error formatting '%s': %s", spec.in, err.Error())
-			}
-		}
-
-		os.WriteFile(spec.out, generated, fileMode(spec.in))
-	}
-}
-
-var (
-	formatter func([]byte) ([]byte, error)
-)
-
-func formatSource(in []byte) ([]byte, error) {
-	r := bytes.NewReader(in)
-	cmd := exec.Command("goimports")
-	cmd.Stdin = r
-	out, err := cmd.Output()
-	if err != nil {
-		if ee, ok := err.(*exec.ExitError); ok {
-			return nil, fmt.Errorf("error running goimports: %s", string(ee.Stderr))
-		}
-		return nil, fmt.Errorf("error running goimports: %s", string(out))
-	}
-
-	return out, nil
-}
-
-func StripComments(raw []byte) []byte {
-	var (
-		quoted, esc bool
-		comment     bool
-	)
-
-	buf := bytes.Buffer{}
-
-	for i := 0; i < len(raw); i++ {
-		b := raw[i]
-
-		if comment {
-			switch b {
-			case '/':
-				comment = false
-				j := bytes.IndexByte(raw[i+1:], '\n')
-				if j == -1 {
-					i = len(raw)
-				} else {
-					i += j // keep new line
-				}
-			case '*':
-				j := bytes.Index(raw[i+1:], []byte("*/"))
-				if j == -1 {
-					i = len(raw)
-				} else {
-					i += j + 2
-					comment = false
-				}
-			}
-			continue
-		}
-
-		if esc {
-			esc = false
-			continue
-		}
-
-		if b == '\\' && quoted {
-			esc = true
-			continue
-		}
-
-		if b == '"' || b == '\'' {
-			quoted = !quoted
-		}
-
-		if b == '/' && !quoted {
-			comment = true
-			continue
-		}
-
-		buf.WriteByte(b)
-	}
-
-	if quoted || esc || comment {
-		// unexpected state, so return raw bytes
-		return raw
-	}
-
-	return buf.Bytes()
-}
diff --git a/go/arrow/_tools/tmpl/main_test.go b/go/arrow/_tools/tmpl/main_test.go
deleted file mode 100644
index 831cf791e3a0b..0000000000000
--- a/go/arrow/_tools/tmpl/main_test.go
+++ /dev/null
@@ -1,73 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"testing"
-)
-
-func TestStripComments(t *testing.T) {
-	tests := []struct {
-		name string
-		in   string
-		exp  string
-	}{
-		{name: "none", in: `[1,2,3]`, exp: `[1,2,3]`},
-		{name: "single-line, line comment at end", in: `[1,2,3] // foo bar`, exp: `[1,2,3] `},
-		{name: "single-line, block comment at end", in: `[1,2,3] /* foo bar */  `, exp: `[1,2,3]   `},
-		{name: "single-line, block comment at end", in: `[1,2,3] /* /* // */`, exp: `[1,2,3] `},
-		{name: "single-line, block comment in middle", in: `[1,/* foo bar */2,3]`, exp: `[1,2,3]`},
-		{name: "single-line, block comment in string", in: `[1,"/* foo bar */"]`, exp: `[1,"/* foo bar */"]`},
-		{name: "single-line, malformed block comment", in: `[1,2,/*]`, exp: `[1,2,/*]`},
-		{name: "single-line, malformed JSON", in: `[1,2,/]`, exp: `[1,2,/]`},
-
-		{
-			name: "multi-line",
-			in: `[
-  1,
-  2,
-  3
-]`,
-			exp: `[
-  1,
-  2,
-  3
-]`,
-		},
-		{
-			name: "multi-line, multiple line comments",
-			in: `[ // foo
-  1, // bar
-  2,
-  3
-] // fit`,
-			exp: `[ 
-  1, 
-  2,
-  3
-] `,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := string(StripComments([]byte(test.in)))
-			if got != test.exp {
-				t.Errorf("got:\n%s\nexp:\n%s", got, test.exp)
-			}
-		})
-	}
-}
diff --git a/go/arrow/_tools/tools.go b/go/arrow/_tools/tools.go
deleted file mode 100644
index 262880bca8fe4..0000000000000
--- a/go/arrow/_tools/tools.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package _tools
-
-import (
-	_ "golang.org/x/tools/cmd/goimports"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/arrow/array.go b/go/arrow/array.go
deleted file mode 100644
index 768b30f8e0690..0000000000000
--- a/go/arrow/array.go
+++ /dev/null
@@ -1,129 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// ArrayData is the underlying memory and metadata of an Arrow array, corresponding
-// to the same-named object in the C++ implementation.
-//
-// The Array interface and subsequent typed objects provide strongly typed
-// accessors which support marshalling and other patterns to the data.
-// This interface allows direct access to the underlying raw byte buffers
-// which allows for manipulating the internal data and casting. For example,
-// one could cast the raw bytes from int64 to float64 like so:
-//
-//	arrdata := GetMyInt64Data().Data()
-//	newdata := array.NewData(arrow.PrimitiveTypes.Float64, arrdata.Len(),
-//			arrdata.Buffers(), nil, arrdata.NullN(), arrdata.Offset())
-//	defer newdata.Release()
-//	float64arr := array.NewFloat64Data(newdata)
-//	defer float64arr.Release()
-//
-// This is also useful in an analytics setting where memory may be reused. For
-// example, if we had a group of operations all returning float64 such as:
-//
-//	Log(Sqrt(Expr(arr)))
-//
-// The low-level implementations could have signatures such as:
-//
-//	func Log(values arrow.ArrayData) arrow.ArrayData
-//
-// Another example would be a function that consumes one or more memory buffers
-// in an input array and replaces them with newly-allocated data, changing the
-// output data type as well.
-type ArrayData interface {
-	// Retain increases the reference count by 1, it is safe to call
-	// in multiple goroutines simultaneously.
-	Retain()
-	// Release decreases the reference count by 1, it is safe to call
-	// in multiple goroutines simultaneously. Data is removed when reference
-	// count is 0.
-	Release()
-	// DataType returns the current datatype stored in the object.
-	DataType() DataType
-	// NullN returns the number of nulls for this data instance.
-	NullN() int
-	// Len returns the length of this data instance
-	Len() int
-	// Offset returns the offset into the raw buffers where this data begins
-	Offset() int
-	// Buffers returns the slice of raw data buffers for this data instance. Their
-	// meaning depends on the context of the data type.
-	Buffers() []*memory.Buffer
-	// Children returns the slice of children data instances, only relevant for
-	// nested data types. For instance, List data will have a single child containing
-	// elements of all the rows and Struct data will contain numfields children which
-	// are the arrays for each field of the struct.
-	Children() []ArrayData
-	// Reset allows reusing this ArrayData object by replacing the data in this ArrayData
-	// object without changing the reference count.
-	Reset(newtype DataType, newlength int, newbuffers []*memory.Buffer, newchildren []ArrayData, newnulls int, newoffset int)
-	// Dictionary returns the ArrayData object for the dictionary if this is a
-	// dictionary array, otherwise it will be nil.
-	Dictionary() ArrayData
-	// SizeInBytes returns the size of the ArrayData buffers and any children and/or dictionary in bytes.
-	SizeInBytes() uint64
-}
-
-// Array represents an immutable sequence of values using the Arrow in-memory format.
-type Array interface {
-	json.Marshaler
-
-	fmt.Stringer
-
-	// DataType returns the type metadata for this instance.
-	DataType() DataType
-
-	// NullN returns the number of null values in the array.
-	NullN() int
-
-	// NullBitmapBytes returns a byte slice of the validity bitmap.
-	NullBitmapBytes() []byte
-
-	// IsNull returns true if value at index is null.
-	// NOTE: IsNull will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-	IsNull(i int) bool
-
-	// IsValid returns true if value at index is not null.
-	// NOTE: IsValid will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-	IsValid(i int) bool
-	// ValueStr returns the value at index as a string.
-	ValueStr(i int) string
-
-	// Get single value to be marshalled with `json.Marshal`
-	GetOneForMarshal(i int) interface{}
-
-	Data() ArrayData
-
-	// Len returns the number of elements in the array.
-	Len() int
-
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	// Release may be called simultaneously from multiple goroutines.
-	// When the reference count goes to zero, the memory is freed.
-	Release()
-}
diff --git a/go/arrow/array/array.go b/go/arrow/array/array.go
deleted file mode 100644
index ae33ca5417db0..0000000000000
--- a/go/arrow/array/array.go
+++ /dev/null
@@ -1,186 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	// UnknownNullCount specifies the NullN should be calculated from the null bitmap buffer.
-	UnknownNullCount = -1
-
-	// NullValueStr represents a null value in arrow.Array.ValueStr and in Builder.AppendValueFromString.
-	// It should be returned from the arrow.Array.ValueStr implementations.
-	// Using it as the value in Builder.AppendValueFromString should be equivalent to Builder.AppendNull.
-	NullValueStr = "(null)"
-)
-
-type array struct {
-	refCount        int64
-	data            *Data
-	nullBitmapBytes []byte
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *array) Retain() {
-	atomic.AddInt64(&a.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (a *array) Release() {
-	debug.Assert(atomic.LoadInt64(&a.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&a.refCount, -1) == 0 {
-		a.data.Release()
-		a.data, a.nullBitmapBytes = nil, nil
-	}
-}
-
-// DataType returns the type metadata for this instance.
-func (a *array) DataType() arrow.DataType { return a.data.dtype }
-
-// NullN returns the number of null values in the array.
-func (a *array) NullN() int {
-	if a.data.nulls < 0 {
-		a.data.nulls = a.data.length - bitutil.CountSetBits(a.nullBitmapBytes, a.data.offset, a.data.length)
-	}
-	return a.data.nulls
-}
-
-// NullBitmapBytes returns a byte slice of the validity bitmap.
-func (a *array) NullBitmapBytes() []byte { return a.nullBitmapBytes }
-
-func (a *array) Data() arrow.ArrayData { return a.data }
-
-// Len returns the number of elements in the array.
-func (a *array) Len() int { return a.data.length }
-
-// IsNull returns true if value at index is null.
-// NOTE: IsNull will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-func (a *array) IsNull(i int) bool {
-	return len(a.nullBitmapBytes) != 0 && bitutil.BitIsNotSet(a.nullBitmapBytes, a.data.offset+i)
-}
-
-// IsValid returns true if value at index is not null.
-// NOTE: IsValid will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-func (a *array) IsValid(i int) bool {
-	return len(a.nullBitmapBytes) == 0 || bitutil.BitIsSet(a.nullBitmapBytes, a.data.offset+i)
-}
-
-func (a *array) setData(data *Data) {
-	// Retain before releasing in case a.data is the same as data.
-	data.Retain()
-
-	if a.data != nil {
-		a.data.Release()
-	}
-
-	if len(data.buffers) > 0 && data.buffers[0] != nil {
-		a.nullBitmapBytes = data.buffers[0].Bytes()
-	}
-	a.data = data
-}
-
-func (a *array) Offset() int {
-	return a.data.Offset()
-}
-
-type arrayConstructorFn func(arrow.ArrayData) arrow.Array
-
-var (
-	makeArrayFn [64]arrayConstructorFn
-)
-
-func invalidDataType(data arrow.ArrayData) arrow.Array {
-	panic("invalid data type: " + data.DataType().ID().String())
-}
-
-// MakeFromData constructs a strongly-typed array instance from generic Data.
-func MakeFromData(data arrow.ArrayData) arrow.Array {
-	return makeArrayFn[byte(data.DataType().ID()&0x3f)](data)
-}
-
-// NewSlice constructs a zero-copy slice of the array with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned array must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the input array.
-// NewSlice panics if j < i.
-func NewSlice(arr arrow.Array, i, j int64) arrow.Array {
-	data := NewSliceData(arr.Data(), i, j)
-	slice := MakeFromData(data)
-	data.Release()
-	return slice
-}
-
-func init() {
-	makeArrayFn = [...]arrayConstructorFn{
-		arrow.NULL:                    func(data arrow.ArrayData) arrow.Array { return NewNullData(data) },
-		arrow.BOOL:                    func(data arrow.ArrayData) arrow.Array { return NewBooleanData(data) },
-		arrow.UINT8:                   func(data arrow.ArrayData) arrow.Array { return NewUint8Data(data) },
-		arrow.INT8:                    func(data arrow.ArrayData) arrow.Array { return NewInt8Data(data) },
-		arrow.UINT16:                  func(data arrow.ArrayData) arrow.Array { return NewUint16Data(data) },
-		arrow.INT16:                   func(data arrow.ArrayData) arrow.Array { return NewInt16Data(data) },
-		arrow.UINT32:                  func(data arrow.ArrayData) arrow.Array { return NewUint32Data(data) },
-		arrow.INT32:                   func(data arrow.ArrayData) arrow.Array { return NewInt32Data(data) },
-		arrow.UINT64:                  func(data arrow.ArrayData) arrow.Array { return NewUint64Data(data) },
-		arrow.INT64:                   func(data arrow.ArrayData) arrow.Array { return NewInt64Data(data) },
-		arrow.FLOAT16:                 func(data arrow.ArrayData) arrow.Array { return NewFloat16Data(data) },
-		arrow.FLOAT32:                 func(data arrow.ArrayData) arrow.Array { return NewFloat32Data(data) },
-		arrow.FLOAT64:                 func(data arrow.ArrayData) arrow.Array { return NewFloat64Data(data) },
-		arrow.STRING:                  func(data arrow.ArrayData) arrow.Array { return NewStringData(data) },
-		arrow.BINARY:                  func(data arrow.ArrayData) arrow.Array { return NewBinaryData(data) },
-		arrow.FIXED_SIZE_BINARY:       func(data arrow.ArrayData) arrow.Array { return NewFixedSizeBinaryData(data) },
-		arrow.DATE32:                  func(data arrow.ArrayData) arrow.Array { return NewDate32Data(data) },
-		arrow.DATE64:                  func(data arrow.ArrayData) arrow.Array { return NewDate64Data(data) },
-		arrow.TIMESTAMP:               func(data arrow.ArrayData) arrow.Array { return NewTimestampData(data) },
-		arrow.TIME32:                  func(data arrow.ArrayData) arrow.Array { return NewTime32Data(data) },
-		arrow.TIME64:                  func(data arrow.ArrayData) arrow.Array { return NewTime64Data(data) },
-		arrow.INTERVAL_MONTHS:         func(data arrow.ArrayData) arrow.Array { return NewMonthIntervalData(data) },
-		arrow.INTERVAL_DAY_TIME:       func(data arrow.ArrayData) arrow.Array { return NewDayTimeIntervalData(data) },
-		arrow.DECIMAL128:              func(data arrow.ArrayData) arrow.Array { return NewDecimal128Data(data) },
-		arrow.DECIMAL256:              func(data arrow.ArrayData) arrow.Array { return NewDecimal256Data(data) },
-		arrow.LIST:                    func(data arrow.ArrayData) arrow.Array { return NewListData(data) },
-		arrow.STRUCT:                  func(data arrow.ArrayData) arrow.Array { return NewStructData(data) },
-		arrow.SPARSE_UNION:            func(data arrow.ArrayData) arrow.Array { return NewSparseUnionData(data) },
-		arrow.DENSE_UNION:             func(data arrow.ArrayData) arrow.Array { return NewDenseUnionData(data) },
-		arrow.DICTIONARY:              func(data arrow.ArrayData) arrow.Array { return NewDictionaryData(data) },
-		arrow.MAP:                     func(data arrow.ArrayData) arrow.Array { return NewMapData(data) },
-		arrow.EXTENSION:               func(data arrow.ArrayData) arrow.Array { return NewExtensionData(data) },
-		arrow.FIXED_SIZE_LIST:         func(data arrow.ArrayData) arrow.Array { return NewFixedSizeListData(data) },
-		arrow.DURATION:                func(data arrow.ArrayData) arrow.Array { return NewDurationData(data) },
-		arrow.LARGE_STRING:            func(data arrow.ArrayData) arrow.Array { return NewLargeStringData(data) },
-		arrow.LARGE_BINARY:            func(data arrow.ArrayData) arrow.Array { return NewLargeBinaryData(data) },
-		arrow.LARGE_LIST:              func(data arrow.ArrayData) arrow.Array { return NewLargeListData(data) },
-		arrow.INTERVAL_MONTH_DAY_NANO: func(data arrow.ArrayData) arrow.Array { return NewMonthDayNanoIntervalData(data) },
-		arrow.RUN_END_ENCODED:         func(data arrow.ArrayData) arrow.Array { return NewRunEndEncodedData(data) },
-		arrow.LIST_VIEW:               func(data arrow.ArrayData) arrow.Array { return NewListViewData(data) },
-		arrow.LARGE_LIST_VIEW:         func(data arrow.ArrayData) arrow.Array { return NewLargeListViewData(data) },
-		arrow.BINARY_VIEW:             func(data arrow.ArrayData) arrow.Array { return NewBinaryViewData(data) },
-		arrow.STRING_VIEW:             func(data arrow.ArrayData) arrow.Array { return NewStringViewData(data) },
-		// invalid data types to fill out array to size 2^6 - 1
-		63: invalidDataType,
-	}
-}
diff --git a/go/arrow/array/array_test.go b/go/arrow/array/array_test.go
deleted file mode 100644
index 4f0627c600078..0000000000000
--- a/go/arrow/array/array_test.go
+++ /dev/null
@@ -1,346 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-type testDataType struct {
-	id arrow.Type
-}
-
-func (d *testDataType) ID() arrow.Type            { return d.id }
-func (d *testDataType) Name() string              { panic("implement me") }
-func (d *testDataType) BitWidth() int             { return 8 }
-func (d *testDataType) Bytes() int                { return 1 }
-func (d *testDataType) Fingerprint() string       { return "" }
-func (testDataType) Layout() arrow.DataTypeLayout { return arrow.DataTypeLayout{} }
-func (testDataType) String() string               { return "" }
-
-func TestMakeFromData(t *testing.T) {
-	tests := []struct {
-		name     string
-		d        arrow.DataType
-		size     int
-		child    []arrow.ArrayData
-		dict     *array.Data
-		expPanic bool
-		expError string
-	}{
-		// supported types
-		{name: "null", d: &testDataType{arrow.NULL}},
-		{name: "bool", d: &testDataType{arrow.BOOL}},
-		{name: "uint8", d: &testDataType{arrow.UINT8}},
-		{name: "uint16", d: &testDataType{arrow.UINT16}},
-		{name: "uint32", d: &testDataType{arrow.UINT32}},
-		{name: "uint64", d: &testDataType{arrow.UINT64}},
-		{name: "int8", d: &testDataType{arrow.INT8}},
-		{name: "int16", d: &testDataType{arrow.INT16}},
-		{name: "int32", d: &testDataType{arrow.INT32}},
-		{name: "int64", d: &testDataType{arrow.INT64}},
-		{name: "float16", d: &testDataType{arrow.FLOAT16}},
-		{name: "float32", d: &testDataType{arrow.FLOAT32}},
-		{name: "float64", d: &testDataType{arrow.FLOAT64}},
-		{name: "string", d: &testDataType{arrow.STRING}, size: 3},
-		{name: "binary", d: &testDataType{arrow.BINARY}, size: 3},
-		{name: "large_string", d: &testDataType{arrow.LARGE_STRING}, size: 3},
-		{name: "large_binary", d: &testDataType{arrow.LARGE_BINARY}, size: 3},
-		{name: "fixed_size_binary", d: &testDataType{arrow.FIXED_SIZE_BINARY}},
-		{name: "date32", d: &testDataType{arrow.DATE32}},
-		{name: "date64", d: &testDataType{arrow.DATE64}},
-		{name: "timestamp", d: &testDataType{arrow.TIMESTAMP}},
-		{name: "time32", d: &testDataType{arrow.TIME32}},
-		{name: "time64", d: &testDataType{arrow.TIME64}},
-		{name: "month_interval", d: arrow.FixedWidthTypes.MonthInterval},
-		{name: "day_time_interval", d: arrow.FixedWidthTypes.DayTimeInterval},
-		{name: "decimal128", d: &testDataType{arrow.DECIMAL128}},
-		{name: "decimal256", d: &testDataType{arrow.DECIMAL256}},
-		{name: "month_day_nano_interval", d: arrow.FixedWidthTypes.MonthDayNanoInterval},
-
-		{name: "list", d: &testDataType{arrow.LIST}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "large list", d: &testDataType{arrow.LARGE_LIST}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "struct", d: &testDataType{arrow.STRUCT}},
-		{name: "struct", d: &testDataType{arrow.STRUCT}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "fixed_size_list", d: arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int64), child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-		{name: "duration", d: &testDataType{arrow.DURATION}},
-
-		{name: "map", d: &testDataType{arrow.MAP}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.STRUCT}, 0 /* length */, make([]*memory.Buffer, 3 /*null bitmap, values, offsets*/), []arrow.ArrayData{
-				array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-				array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			}, 0 /* nulls */, 0 /* offset */)},
-		},
-
-		{name: "sparse union", d: arrow.SparseUnionOf(nil, nil), child: []arrow.ArrayData{}, size: 2},
-		{name: "dense union", d: arrow.DenseUnionOf(nil, nil), child: []arrow.ArrayData{}, size: 3},
-
-		// various dictionary index types and value types
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: &testDataType{arrow.INT64}}, dict: array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: &testDataType{arrow.INT32}}, dict: array.NewData(&testDataType{arrow.INT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: &testDataType{arrow.UINT16}}, dict: array.NewData(&testDataType{arrow.UINT16}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: &testDataType{arrow.INT64}}, dict: array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: &testDataType{arrow.UINT32}}, dict: array.NewData(&testDataType{arrow.UINT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: &testDataType{arrow.TIMESTAMP}}, dict: array.NewData(&testDataType{arrow.TIMESTAMP}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int64, ValueType: &testDataType{arrow.UINT32}}, dict: array.NewData(&testDataType{arrow.UINT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: &testDataType{arrow.TIMESTAMP}}, dict: array.NewData(&testDataType{arrow.TIMESTAMP}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-
-		{name: "extension", d: &testDataType{arrow.EXTENSION}, expPanic: true, expError: "arrow/array: DataType for ExtensionArray must implement arrow.ExtensionType"},
-		{name: "extension", d: extensions.NewUUIDType()},
-
-		{name: "run end encoded", d: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64), child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		// invalid types
-		{name: "invalid(-1)", d: &testDataType{arrow.Type(-1)}, expPanic: true, expError: "invalid data type: Type(-1)"},
-		{name: "invalid(63)", d: &testDataType{arrow.Type(63)}, expPanic: true, expError: "invalid data type: Type(63)"},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			var (
-				b    [4]*memory.Buffer
-				n    = 4
-				data arrow.ArrayData
-			)
-			if test.size != 0 {
-				n = test.size
-			}
-			if test.dict != nil {
-				data = array.NewDataWithDictionary(test.d, 0, b[:n], 0, 0, test.dict)
-			} else {
-				data = array.NewData(test.d, 0, b[:n], test.child, 0, 0)
-			}
-
-			if test.expPanic {
-				assert.PanicsWithValue(t, test.expError, func() {
-					array.MakeFromData(data)
-				})
-			} else {
-				assert.NotNil(t, array.MakeFromData(data))
-			}
-		})
-	}
-}
-
-func bbits(v ...int32) []byte {
-	return tools.IntsToBitsLSB(v...)
-}
-
-func TestArray_NullN(t *testing.T) {
-	tests := []struct {
-		name string
-		l    int
-		bm   []byte
-		n    int
-		exp  int
-	}{
-		{name: "unknown,l16", l: 16, bm: bbits(0x11001010, 0x00110011), n: array.UnknownNullCount, exp: 8},
-		{name: "unknown,l12,ignores last nibble", l: 12, bm: bbits(0x11001010, 0x00111111), n: array.UnknownNullCount, exp: 6},
-		{name: "unknown,l12,12 nulls", l: 12, bm: bbits(0x00000000, 0x00000000), n: array.UnknownNullCount, exp: 12},
-		{name: "unknown,l12,00 nulls", l: 12, bm: bbits(0x11111111, 0x11111111), n: array.UnknownNullCount, exp: 0},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			buf := memory.NewBufferBytes(test.bm)
-			data := array.NewData(arrow.FixedWidthTypes.Boolean, test.l, []*memory.Buffer{buf, nil}, nil, test.n, 0)
-			buf.Release()
-			ar := array.MakeFromData(data)
-			data.Release()
-			got := ar.NullN()
-			ar.Release()
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []float64{1, 2, 3, 0, 4, 5}
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	for _, tc := range []struct {
-		i, j   int
-		panics bool
-		len    int
-	}{
-		{i: 0, j: len(valids), panics: false, len: len(valids)},
-		{i: len(valids), j: len(valids), panics: false, len: 0},
-		{i: 0, j: 1, panics: false, len: 1},
-		{i: 1, j: 1, panics: false, len: 0},
-		{i: 0, j: len(valids) + 1, panics: true},
-		{i: 2, j: 1, panics: true},
-		{i: len(valids) + 1, j: len(valids) + 1, panics: true},
-	} {
-		t.Run("", func(t *testing.T) {
-			b.AppendValues(vs, valids)
-
-			arr := b.NewFloat64Array()
-			defer arr.Release()
-
-			if got, want := arr.Len(), len(valids); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if tc.panics {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not")
-					}
-				}()
-			}
-
-			slice := array.NewSlice(arr, int64(tc.i), int64(tc.j)).(*array.Float64)
-			defer slice.Release()
-
-			if got, want := slice.Len(), tc.len; got != want {
-				t.Fatalf("invalid slice length: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestArraySliceTypes(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	valids := []bool{true, true, true, false, true, true}
-
-	for _, tc := range []struct {
-		values  interface{}
-		builder array.Builder
-		append  func(b array.Builder, vs interface{})
-	}{
-		{
-			values:  []bool{true, false, true, false, true, false},
-			builder: array.NewBooleanBuilder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.BooleanBuilder).AppendValues(vs.([]bool), valids) },
-		},
-		{
-			values:  []uint8{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint8Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint8Builder).AppendValues(vs.([]uint8), valids) },
-		},
-		{
-			values:  []uint16{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint16Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint16Builder).AppendValues(vs.([]uint16), valids) },
-		},
-		{
-			values:  []uint32{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint32Builder).AppendValues(vs.([]uint32), valids) },
-		},
-		{
-			values:  []uint64{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint64Builder).AppendValues(vs.([]uint64), valids) },
-		},
-		{
-			values:  []int8{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt8Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int8Builder).AppendValues(vs.([]int8), valids) },
-		},
-		{
-			values:  []int16{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt16Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int16Builder).AppendValues(vs.([]int16), valids) },
-		},
-		{
-			values:  []int32{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int32Builder).AppendValues(vs.([]int32), valids) },
-		},
-		{
-			values:  []int64{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int64Builder).AppendValues(vs.([]int64), valids) },
-		},
-		{
-			values:  []float32{1, 2, 3, 0, 4, 5},
-			builder: array.NewFloat32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Float32Builder).AppendValues(vs.([]float32), valids) },
-		},
-		{
-			values:  []float64{1, 2, 3, 0, 4, 5},
-			builder: array.NewFloat64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Float64Builder).AppendValues(vs.([]float64), valids) },
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer tc.builder.Release()
-
-			b := tc.builder
-			tc.append(b, tc.values)
-
-			arr := b.NewArray()
-			defer arr.Release()
-
-			if got, want := arr.Len(), len(valids); got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-
-			slice := array.NewSlice(arr, 2, 5)
-			defer slice.Release()
-
-			if got, want := slice.Len(), 3; got != want {
-				t.Fatalf("invalid slice length: got=%d, want=%d", got, want)
-			}
-
-			shortSlice := array.NewSlice(arr, 2, 3)
-			defer shortSlice.Release()
-
-			sliceOfShortSlice := array.NewSlice(shortSlice, 0, 1)
-			defer sliceOfShortSlice.Release()
-
-			if got, want := sliceOfShortSlice.Len(), 1; got != want {
-				t.Fatalf("invalid short slice length: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/binary.go b/go/arrow/array/binary.go
deleted file mode 100644
index 99764270bf39d..0000000000000
--- a/go/arrow/array/binary.go
+++ /dev/null
@@ -1,453 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type BinaryLike interface {
-	arrow.Array
-	ValueLen(int) int
-	ValueBytes() []byte
-	ValueOffset64(int) int64
-}
-
-// A type which represents an immutable sequence of variable-length binary strings.
-type Binary struct {
-	array
-	valueOffsets []int32
-	valueBytes   []byte
-}
-
-// NewBinaryData constructs a new Binary array from data.
-func NewBinaryData(data arrow.ArrayData) *Binary {
-	a := &Binary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *Binary) Value(i int) []byte {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	idx := a.array.data.offset + i
-	return a.valueBytes[a.valueOffsets[idx]:a.valueOffsets[idx+1]]
-}
-
-// ValueStr returns a copy of the base64-encoded string value or NullValueStr
-func (a *Binary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-// ValueString returns the string at index i without performing additional allocations.
-// The string is only valid for the lifetime of the Binary array.
-func (a *Binary) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *Binary) ValueOffset(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return int(a.valueOffsets[a.array.data.offset+i])
-}
-
-func (a *Binary) ValueOffset64(i int) int64 {
-	return int64(a.ValueOffset(i))
-}
-
-func (a *Binary) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.valueOffsets[beg+1] - a.valueOffsets[beg])
-}
-
-func (a *Binary) ValueOffsets() []int32 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.valueOffsets[beg:end]
-}
-
-func (a *Binary) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	return a.valueBytes[a.valueOffsets[beg]:a.valueOffsets[end]]
-}
-
-func (a *Binary) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Binary) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if valueData := data.buffers[2]; valueData != nil {
-		a.valueBytes = valueData.Bytes()
-	}
-
-	if valueOffsets := data.buffers[1]; valueOffsets != nil {
-		a.valueOffsets = arrow.Int32Traits.CastFromBytes(valueOffsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.valueOffsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: binary offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.valueOffsets[expNumOffsets-1]) > len(a.valueBytes) {
-		panic("arrow/array: binary offsets out of bounds of data buffer")
-	}
-}
-
-func (a *Binary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *Binary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualBinary(left, right *Binary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-type LargeBinary struct {
-	array
-	valueOffsets []int64
-	valueBytes   []byte
-}
-
-func NewLargeBinaryData(data arrow.ArrayData) *LargeBinary {
-	a := &LargeBinary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeBinary) Value(i int) []byte {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	idx := a.array.data.offset + i
-	return a.valueBytes[a.valueOffsets[idx]:a.valueOffsets[idx+1]]
-}
-
-func (a *LargeBinary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-func (a *LargeBinary) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *LargeBinary) ValueOffset(i int) int64 {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return a.valueOffsets[a.array.data.offset+i]
-}
-
-func (a *LargeBinary) ValueOffset64(i int) int64 {
-	return a.ValueOffset(i)
-}
-
-func (a *LargeBinary) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.valueOffsets[beg+1] - a.valueOffsets[beg])
-}
-
-func (a *LargeBinary) ValueOffsets() []int64 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.valueOffsets[beg:end]
-}
-
-func (a *LargeBinary) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	return a.valueBytes[a.valueOffsets[beg]:a.valueOffsets[end]]
-}
-
-func (a *LargeBinary) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeBinary) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if valueData := data.buffers[2]; valueData != nil {
-		a.valueBytes = valueData.Bytes()
-	}
-
-	if valueOffsets := data.buffers[1]; valueOffsets != nil {
-		a.valueOffsets = arrow.Int64Traits.CastFromBytes(valueOffsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.valueOffsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: large binary offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.valueOffsets[expNumOffsets-1]) > len(a.valueBytes) {
-		panic("arrow/array: large binary offsets out of bounds of data buffer")
-	}
-}
-
-func (a *LargeBinary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *LargeBinary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualLargeBinary(left, right *LargeBinary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-type ViewLike interface {
-	arrow.Array
-	ValueHeader(int) *arrow.ViewHeader
-}
-
-type BinaryView struct {
-	array
-	values      []arrow.ViewHeader
-	dataBuffers []*memory.Buffer
-}
-
-func NewBinaryViewData(data arrow.ArrayData) *BinaryView {
-	a := &BinaryView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *BinaryView) setData(data *Data) {
-	if len(data.buffers) < 2 {
-		panic("len(data.buffers) < 2")
-	}
-	a.array.setData(data)
-
-	if valueData := data.buffers[1]; valueData != nil {
-		a.values = arrow.ViewHeaderTraits.CastFromBytes(valueData.Bytes())
-	}
-
-	a.dataBuffers = data.buffers[2:]
-}
-
-func (a *BinaryView) ValueHeader(i int) *arrow.ViewHeader {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return &a.values[a.array.data.offset+i]
-}
-
-func (a *BinaryView) Value(i int) []byte {
-	s := a.ValueHeader(i)
-	if s.IsInline() {
-		return s.InlineBytes()
-	}
-	start := s.BufferOffset()
-	buf := a.dataBuffers[s.BufferIndex()]
-	return buf.Bytes()[start : start+int32(s.Len())]
-}
-
-func (a *BinaryView) ValueLen(i int) int {
-	s := a.ValueHeader(i)
-	return s.Len()
-}
-
-// ValueString returns the value at index i as a string instead of
-// a byte slice, without copying the underlying data.
-func (a *BinaryView) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *BinaryView) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-// ValueStr is paired with AppendValueFromString in that it returns
-// the value at index i as a string: Semantically this means that for
-// a null value it will return the string "(null)", otherwise it will
-// return the value as a base64 encoded string suitable for CSV/JSON.
-//
-// This is always going to be less performant than just using ValueString
-// and exists to fulfill the Array interface to provide a method which
-// can produce a human readable string for a given index.
-func (a *BinaryView) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-func (a *BinaryView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *BinaryView) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualBinaryView(left, right *BinaryView) bool {
-	leftBufs, rightBufs := left.dataBuffers, right.dataBuffers
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !left.ValueHeader(i).Equals(leftBufs, right.ValueHeader(i), rightBufs) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Binary)(nil)
-	_ arrow.Array = (*LargeBinary)(nil)
-	_ arrow.Array = (*BinaryView)(nil)
-
-	_ BinaryLike = (*Binary)(nil)
-	_ BinaryLike = (*LargeBinary)(nil)
-)
diff --git a/go/arrow/array/binary_test.go b/go/arrow/array/binary_test.go
deleted file mode 100644
index 919fff7b5e5e8..0000000000000
--- a/go/arrow/array/binary_test.go
+++ /dev/null
@@ -1,726 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	values := [][]byte{
-		[]byte("AAA"),
-		nil,
-		[]byte("BBBB"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-
-	b.Retain()
-	b.Release()
-
-	a := b.NewBinaryArray()
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*Binary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	b.Release()
-}
-
-func TestLargeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	values := [][]byte{
-		[]byte("AAA"),
-		nil,
-		[]byte("BBBB"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-
-	b.Retain()
-	b.Release()
-
-	assert.Panics(t, func() {
-		b.NewBinaryArray()
-	})
-
-	a := b.NewLargeBinaryArray()
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*LargeBinary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	b.Release()
-}
-
-func TestBinarySliceData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	for _, v := range values {
-		b.AppendString(v)
-	}
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]string, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.ValueString(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		want     []string
-	}{
-		{
-			interval: [2]int64{0, 0},
-			want:     []string{},
-		},
-		{
-			interval: [2]int64{0, 5},
-			want:     []string{"a", "bc", "def", "g", "hijk"},
-		},
-		{
-			interval: [2]int64{0, 10},
-			want:     []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"},
-		},
-		{
-			interval: [2]int64{5, 10},
-			want:     []string{"lm", "n", "opq", "rs", "tu"},
-		},
-		{
-			interval: [2]int64{10, 10},
-			want:     []string{},
-		},
-		{
-			interval: [2]int64{2, 7},
-			want:     []string{"def", "g", "hijk", "lm", "n"},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := NewSlice(arr, tc.interval[0], tc.interval[1]).(*Binary)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]string, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.ValueString(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBinarySliceDataWithNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 3; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]string, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.ValueString(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		nulls    int
-		want     []string
-	}{
-		{
-			interval: [2]int64{0, 2},
-			nulls:    0,
-			want:     []string{"a", "bc"},
-		},
-		{
-			interval: [2]int64{0, 3},
-			nulls:    1,
-			want:     []string{"a", "bc", ""},
-		},
-		{
-			interval: [2]int64{0, 4},
-			nulls:    2,
-			want:     []string{"a", "bc", "", ""},
-		},
-		{
-			interval: [2]int64{4, 8},
-			nulls:    0,
-			want:     []string{"hijk", "lm", "", "opq"},
-		},
-		{
-			interval: [2]int64{2, 9},
-			nulls:    3,
-			want:     []string{"", "", "hijk", "lm", "", "opq", ""},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := NewSlice(arr, tc.interval[0], tc.interval[1]).(*Binary)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := slice.NullN(), tc.nulls; got != want {
-				t.Errorf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]string, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.ValueString(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBinarySliceOutOfBounds(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	for _, v := range values {
-		b.AppendString(v)
-	}
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 3, 8).(*Binary)
-	defer slice.Release()
-
-	tests := []struct {
-		index int
-		panic bool
-	}{
-		{
-			index: -1,
-			panic: true,
-		},
-		{
-			index: 5,
-			panic: true,
-		},
-		{
-			index: 0,
-			panic: false,
-		},
-		{
-			index: 4,
-			panic: false,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			var val string
-
-			if tc.panic {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not; slice value %q", val)
-					}
-					if got, want := e.(string), "arrow/array: index out of range"; got != want {
-						t.Fatalf("invalid error. got=%q, want=%q", got, want)
-					}
-				}()
-			} else {
-				defer func() {
-					if e := recover(); e != nil {
-						t.Fatalf("unexpected panic: %v", e)
-					}
-				}()
-			}
-
-			val = slice.ValueString(tc.index)
-		})
-	}
-}
-
-func TestBinaryValueOffset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	offset := 3
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, offset, slice.ValueOffset(i))
-		offset += len(v)
-	}
-}
-
-func TestLargeBinaryValueOffset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	offset := 3
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.EqualValues(t, offset, slice.ValueOffset(i))
-		offset += len(v)
-	}
-}
-
-func TestBinaryValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-
-func TestLargeBinaryValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-
-func TestBinaryValueOffsets(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	assert.Equal(t, []int32{0, 1, 3, 3, 3, 7, 9, 9, 12, 12, 14}, arr.ValueOffsets())
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	assert.Equal(t, []int32{3, 3, 3, 7, 9, 9, 12, 12}, slice.ValueOffsets())
-}
-
-func TestLargeBinaryValueOffsets(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	assert.Equal(t, []int64{0, 1, 3, 3, 3, 7, 9, 9, 12, 12, 14}, arr.ValueOffsets())
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	assert.Equal(t, []int64{3, 3, 3, 7, 9, 9, 12, 12}, slice.ValueOffsets())
-}
-
-func TestBinaryValueBytes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	assert.Equal(t, []byte{'a', 'b', 'c', 'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q', 't', 'u'}, arr.ValueBytes())
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	assert.Equal(t, []byte{'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q'}, slice.ValueBytes())
-}
-
-func TestLargeBinaryValueBytes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	assert.Equal(t, []byte{'a', 'b', 'c', 'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q', 't', 'u'}, arr.ValueBytes())
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	assert.Equal(t, []byte{'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q'}, slice.ValueBytes())
-}
-
-func TestBinaryStringer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "é", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, true, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	got := arr.String()
-	want := `["a" "bc" (null) "é" (null) "hijk" "lm" "" "opq" (null) "tu"]`
-
-	if got != want {
-		t.Fatalf("invalid stringer:\ngot= %s\nwant=%s\n", got, want)
-	}
-}
-
-func TestLargeBinaryStringer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "é", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, true, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	got := arr.String()
-	want := `["a" "bc" (null) "é" (null) "hijk" "lm" "" "opq" (null) "tu"]`
-
-	if got != want {
-		t.Fatalf("invalid stringer:\ngot= %s\nwant=%s\n", got, want)
-	}
-}
-
-func TestBinaryInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: binary offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int32, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{}, "")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 4, 9}, "oooabcdef")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 6, 9, 9}, "012345678")
-		arr := NewBinaryData(NewData(arrow.BinaryTypes.Binary, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.EqualValues(t, "012", arr.Value(0))
-			assert.EqualValues(t, "345", arr.Value(1))
-			assert.EqualValues(t, "678", arr.Value(2))
-			assert.EqualValues(t, "", arr.Value(3), "trailing empty binary value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int32{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := NewBinaryData(NewData(arrow.BinaryTypes.Binary, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.EqualValues(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.EqualValues(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "abc")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: binary offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int32{0}, "abc")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 10, 15}, "oooabcdef")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestBinaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valid := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valid)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-
-	b1 := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*Binary)
-	defer arr1.Release()
-
-	assert.True(t, Equal(arr, arr1))
-}
-
-func TestBinaryViewStringRoundTrip(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "supercalifragilistic", "", "expialidocious"}
-	valid := []bool{true, true, false, false, true, true, true}
-
-	b := NewBinaryViewBuilder(mem)
-	defer b.Release()
-
-	b.AppendStringValues(values, valid)
-	arr := b.NewArray().(*BinaryView)
-	defer arr.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b.NewArray().(*BinaryView)
-	defer arr1.Release()
-
-	assert.True(t, Equal(arr, arr1))
-}
diff --git a/go/arrow/array/binarybuilder.go b/go/arrow/array/binarybuilder.go
deleted file mode 100644
index 6fcc4eaf46479..0000000000000
--- a/go/arrow/array/binarybuilder.go
+++ /dev/null
@@ -1,704 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"math"
-	"reflect"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A BinaryBuilder is used to build a Binary array using the Append methods.
-type BinaryBuilder struct {
-	builder
-
-	dtype   arrow.BinaryDataType
-	offsets bufBuilder
-	values  *byteBufferBuilder
-
-	appendOffsetVal func(int)
-	getOffsetVal    func(int) int
-	maxCapacity     uint64
-	offsetByteWidth int
-}
-
-// NewBinaryBuilder can be used for any of the variable length binary types,
-// Binary, LargeBinary, String, LargeString by passing the appropriate data type
-func NewBinaryBuilder(mem memory.Allocator, dtype arrow.BinaryDataType) *BinaryBuilder {
-	var (
-		offsets         bufBuilder
-		offsetValFn     func(int)
-		maxCapacity     uint64
-		offsetByteWidth int
-		getOffsetVal    func(int) int
-	)
-	switch dtype.Layout().Buffers[1].ByteWidth {
-	case 4:
-		b := newInt32BufferBuilder(mem)
-		offsetValFn = func(v int) { b.AppendValue(int32(v)) }
-		getOffsetVal = func(i int) int { return int(b.Value(i)) }
-		offsets = b
-		maxCapacity = math.MaxInt32
-		offsetByteWidth = arrow.Int32SizeBytes
-	case 8:
-		b := newInt64BufferBuilder(mem)
-		offsetValFn = func(v int) { b.AppendValue(int64(v)) }
-		getOffsetVal = func(i int) int { return int(b.Value(i)) }
-		offsets = b
-		maxCapacity = math.MaxInt64
-		offsetByteWidth = arrow.Int64SizeBytes
-	}
-
-	b := &BinaryBuilder{
-		builder:         builder{refCount: 1, mem: mem},
-		dtype:           dtype,
-		offsets:         offsets,
-		values:          newByteBufferBuilder(mem),
-		appendOffsetVal: offsetValFn,
-		maxCapacity:     maxCapacity,
-		offsetByteWidth: offsetByteWidth,
-		getOffsetVal:    getOffsetVal,
-	}
-	return b
-}
-
-func (b *BinaryBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *BinaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.offsets != nil {
-			b.offsets.Release()
-			b.offsets = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *BinaryBuilder) Append(v []byte) {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.values.Append(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) AppendString(v string) {
-	b.Append([]byte(v))
-}
-
-func (b *BinaryBuilder) AppendNull() {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BinaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *BinaryBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *BinaryBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		b.appendNextOffset()
-		b.values.Append(vv)
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-// AppendStringValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *BinaryBuilder) AppendStringValues(v []string, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		b.appendNextOffset()
-		b.values.Append([]byte(vv))
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BinaryBuilder) UnsafeAppend(v []byte) {
-	b.appendNextOffset()
-	b.values.unsafeAppend(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) Value(i int) []byte {
-	start := b.getOffsetVal(i)
-	var end int
-	if i == (b.length - 1) {
-		end = b.values.Len()
-	} else {
-		end = b.getOffsetVal(i + 1)
-	}
-	return b.values.Bytes()[start:end]
-}
-
-func (b *BinaryBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.resize((capacity + 1) * b.offsetByteWidth)
-}
-
-// DataLen returns the number of bytes in the data array.
-func (b *BinaryBuilder) DataLen() int { return b.values.length }
-
-// DataCap returns the total number of bytes that can be stored
-// without allocating additional memory.
-func (b *BinaryBuilder) DataCap() int { return b.values.capacity }
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *BinaryBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// ReserveData ensures there is enough space for appending n bytes
-// by checking the capacity and resizing the data buffer if necessary.
-func (b *BinaryBuilder) ReserveData(n int) {
-	if b.values.capacity < b.values.length+n {
-		b.values.resize(b.values.Len() + n)
-	}
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may be reduced.
-func (b *BinaryBuilder) Resize(n int) {
-	b.offsets.resize((n + 1) * b.offsetByteWidth)
-	if (n * b.offsetByteWidth) < b.offsets.Len() {
-		b.offsets.SetLength(n * b.offsetByteWidth)
-	}
-	b.builder.resize(n, b.init)
-}
-
-func (b *BinaryBuilder) ResizeData(n int) {
-	b.values.length = n
-}
-
-// NewArray creates a Binary array from the memory buffers used by the builder and resets the BinaryBuilder
-// so it can be used to build a new array.
-//
-// Builds the appropriate Binary or LargeBinary array based on the datatype
-// it was initialized with.
-func (b *BinaryBuilder) NewArray() arrow.Array {
-	if b.offsetByteWidth == arrow.Int32SizeBytes {
-		return b.NewBinaryArray()
-	}
-	return b.NewLargeBinaryArray()
-}
-
-// NewBinaryArray creates a Binary array from the memory buffers used by the builder and resets the BinaryBuilder
-// so it can be used to build a new array.
-func (b *BinaryBuilder) NewBinaryArray() (a *Binary) {
-	if b.offsetByteWidth != arrow.Int32SizeBytes {
-		panic("arrow/array: invalid call to NewBinaryArray when building a LargeBinary array")
-	}
-
-	data := b.newData()
-	a = NewBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryBuilder) NewLargeBinaryArray() (a *LargeBinary) {
-	if b.offsetByteWidth != arrow.Int64SizeBytes {
-		panic("arrow/array: invalid call to NewLargeBinaryArray when building a Binary array")
-	}
-
-	data := b.newData()
-	a = NewLargeBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryBuilder) newData() (data *Data) {
-	b.appendNextOffset()
-	offsets, values := b.offsets.Finish(), b.values.Finish()
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, offsets, values}, nil, b.nulls, 0)
-	if offsets != nil {
-		offsets.Release()
-	}
-
-	if values != nil {
-		values.Release()
-	}
-
-	b.builder.reset()
-
-	return
-}
-
-func (b *BinaryBuilder) appendNextOffset() {
-	numBytes := b.values.Len()
-	debug.Assert(uint64(numBytes) <= b.maxCapacity, "exceeded maximum capacity of binary array")
-	b.appendOffsetVal(numBytes)
-}
-
-func (b *BinaryBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.dtype.IsUtf8() {
-		b.Append([]byte(s))
-		return nil
-	}
-
-	decodedVal, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		return fmt.Errorf("could not decode base64 string: %w", err)
-	}
-	b.Append(decodedVal)
-	return nil
-}
-
-func (b *BinaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		b.Append(data)
-	case []byte:
-		b.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BinaryBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BinaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-const (
-	dfltBlockSize            = 32 << 10 // 32 KB
-	viewValueSizeLimit int32 = math.MaxInt32
-)
-
-type BinaryViewBuilder struct {
-	builder
-	dtype arrow.BinaryDataType
-
-	data    *memory.Buffer
-	rawData []arrow.ViewHeader
-
-	blockBuilder multiBufferBuilder
-}
-
-func NewBinaryViewBuilder(mem memory.Allocator) *BinaryViewBuilder {
-	return &BinaryViewBuilder{
-		dtype: arrow.BinaryTypes.BinaryView,
-		builder: builder{
-			refCount: 1,
-			mem:      mem,
-		},
-		blockBuilder: multiBufferBuilder{
-			refCount:  1,
-			blockSize: dfltBlockSize,
-			mem:       mem,
-		},
-	}
-}
-
-func (b *BinaryViewBuilder) SetBlockSize(sz uint) {
-	b.blockBuilder.blockSize = int(sz)
-}
-
-func (b *BinaryViewBuilder) Type() arrow.DataType { return b.dtype }
-
-func (b *BinaryViewBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) != 0 {
-		return
-	}
-
-	if b.nullBitmap != nil {
-		b.nullBitmap.Release()
-		b.nullBitmap = nil
-	}
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-}
-
-func (b *BinaryViewBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.ViewHeaderTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.ViewHeaderTraits.CastFromBytes(b.data.Bytes())
-}
-
-func (b *BinaryViewBuilder) Resize(n int) {
-	nbuild := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-		return
-	}
-
-	b.builder.resize(nbuild, b.init)
-	b.data.Resize(arrow.ViewHeaderTraits.BytesRequired(n))
-	b.rawData = arrow.ViewHeaderTraits.CastFromBytes(b.data.Bytes())
-}
-
-func (b *BinaryViewBuilder) ReserveData(length int) {
-	if int32(length) > viewValueSizeLimit {
-		panic(fmt.Errorf("%w: BinaryView or StringView elements cannot reference strings larger than 2GB",
-			arrow.ErrInvalid))
-	}
-	b.blockBuilder.Reserve(int(length))
-}
-
-func (b *BinaryViewBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-func (b *BinaryViewBuilder) Append(v []byte) {
-	if int32(len(v)) > viewValueSizeLimit {
-		panic(fmt.Errorf("%w: BinaryView or StringView elements cannot reference strings larger than 2GB", arrow.ErrInvalid))
-	}
-
-	if !arrow.IsViewInline(len(v)) {
-		b.ReserveData(len(v))
-	}
-
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-// AppendString is identical to Append, only accepting a string instead
-// of a byte slice, avoiding the extra copy that would occur if you simply
-// did []byte(v).
-//
-// This is different than AppendValueFromString which exists for the
-// Builder interface, in that this expects raw binary data which is
-// appended unmodified. AppendValueFromString expects base64 encoded binary
-// data instead.
-func (b *BinaryViewBuilder) AppendString(v string) {
-	// create a []byte without copying the bytes
-	// in go1.20 this would be unsafe.StringData
-	val := *(*[]byte)(unsafe.Pointer(&struct {
-		string
-		int
-	}{v, len(v)}))
-	b.Append(val)
-}
-
-func (b *BinaryViewBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BinaryViewBuilder) AppendNulls(n int) {
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(false)
-	}
-}
-
-func (b *BinaryViewBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryViewBuilder) AppendEmptyValues(n int) {
-	b.Reserve(n)
-	b.unsafeAppendBoolsToBitmap(nil, n)
-}
-
-func (b *BinaryViewBuilder) UnsafeAppend(v []byte) {
-	hdr := &b.rawData[b.length]
-	hdr.SetBytes(v)
-	if !hdr.IsInline() {
-		b.blockBuilder.UnsafeAppend(hdr, v)
-	}
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryViewBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	outOfLineTotal := 0
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			if !arrow.IsViewInline(len(vv)) {
-				outOfLineTotal += len(vv)
-			}
-		}
-	}
-
-	b.ReserveData(outOfLineTotal)
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			hdr := &b.rawData[b.length+i]
-			hdr.SetBytes(vv)
-			if !hdr.IsInline() {
-				b.blockBuilder.UnsafeAppend(hdr, vv)
-			}
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BinaryViewBuilder) AppendStringValues(v []string, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	outOfLineTotal := 0
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			if !arrow.IsViewInline(len(vv)) {
-				outOfLineTotal += len(vv)
-			}
-		}
-	}
-
-	b.ReserveData(outOfLineTotal)
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			hdr := &b.rawData[b.length+i]
-			hdr.SetString(vv)
-			if !hdr.IsInline() {
-				b.blockBuilder.UnsafeAppendString(hdr, vv)
-			}
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-// AppendValueFromString is paired with ValueStr for fulfilling the
-// base Builder interface. This is intended to read in a human-readable
-// string such as from CSV or JSON and append it to the array.
-//
-// For Binary values are expected to be base64 encoded (and will be
-// decoded as such before being appended).
-func (b *BinaryViewBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.dtype.IsUtf8() {
-		b.Append([]byte(s))
-		return nil
-	}
-
-	decodedVal, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		return fmt.Errorf("could not decode base64 string: %w", err)
-	}
-	b.Append(decodedVal)
-	return nil
-}
-
-func (b *BinaryViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		b.Append(data)
-	case []byte:
-		b.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BinaryViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BinaryViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *BinaryViewBuilder) newData() (data *Data) {
-	bytesRequired := arrow.ViewHeaderTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-
-	dataBuffers := b.blockBuilder.Finish()
-	data = NewData(b.dtype, b.length, append([]*memory.Buffer{
-		b.nullBitmap, b.data}, dataBuffers...), nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-		for _, buf := range dataBuffers {
-			buf.Release()
-		}
-	}
-	return
-}
-
-func (b *BinaryViewBuilder) NewBinaryViewArray() (a *BinaryView) {
-	data := b.newData()
-	a = NewBinaryViewData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryViewBuilder) NewArray() arrow.Array {
-	return b.NewBinaryViewArray()
-}
-
-var (
-	_ Builder = (*BinaryBuilder)(nil)
-	_ Builder = (*BinaryViewBuilder)(nil)
-)
diff --git a/go/arrow/array/binarybuilder_test.go b/go/arrow/array/binarybuilder_test.go
deleted file mode 100644
index 65d5c7385df4c..0000000000000
--- a/go/arrow/array/binarybuilder_test.go
+++ /dev/null
@@ -1,151 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBinaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	exp := [][]byte{[]byte("foo"), []byte("bar"), nil, []byte("sydney"), []byte("cameron")}
-	for _, v := range exp {
-		if v == nil {
-			ab.AppendNull()
-		} else {
-			ab.Append(v)
-		}
-	}
-
-	assert.Equal(t, len(exp), ab.Len(), "unexpected Len()")
-	assert.Equal(t, 1, ab.NullN(), "unexpected NullN()")
-
-	for i, v := range exp {
-		if v == nil {
-			v = []byte{}
-		}
-		assert.Equal(t, v, ab.Value(i), "unexpected BinaryArrayBuilder.Value(%d)", i)
-	}
-	// Zm9v is foo in base64
-	assert.NoError(t, ab.AppendValueFromString("Zm9v"))
-
-	ar := ab.NewBinaryArray()
-	assert.Equal(t, "Zm9v", ar.ValueStr(5))
-
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilder_ReserveData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	// call ReserveData and ensure the capacity doesn't change
-	// when appending entries until that count.
-	ab.ReserveData(256)
-	expCap := ab.DataCap()
-	for i := 0; i < 256/8; i++ {
-		ab.Append(bytes.Repeat([]byte("a"), 8))
-	}
-	assert.Equal(t, expCap, ab.DataCap(), "unexpected BinaryArrayBuilder.DataCap()")
-
-	ar := ab.NewBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilderLarge(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	exp := [][]byte{[]byte("foo"), []byte("bar"), nil, []byte("sydney"), []byte("cameron")}
-	for _, v := range exp {
-		if v == nil {
-			ab.AppendNull()
-		} else {
-			ab.Append(v)
-		}
-	}
-
-	assert.Equal(t, len(exp), ab.Len(), "unexpected Len()")
-	assert.Equal(t, 1, ab.NullN(), "unexpected NullN()")
-
-	for i, v := range exp {
-		if v == nil {
-			v = []byte{}
-		}
-		assert.Equal(t, v, ab.Value(i), "unexpected BinaryArrayBuilder.Value(%d)", i)
-	}
-
-	ar := ab.NewLargeBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilderLarge_ReserveData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	// call ReserveData and ensure the capacity doesn't change
-	// when appending entries until that count.
-	ab.ReserveData(256)
-	expCap := ab.DataCap()
-	for i := 0; i < 256/8; i++ {
-		ab.Append(bytes.Repeat([]byte("a"), 8))
-	}
-	assert.Equal(t, expCap, ab.DataCap(), "unexpected BinaryArrayBuilder.DataCap()")
-
-	ar := ab.NewLargeBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
diff --git a/go/arrow/array/boolean.go b/go/arrow/array/boolean.go
deleted file mode 100644
index eab26d273dd96..0000000000000
--- a/go/arrow/array/boolean.go
+++ /dev/null
@@ -1,126 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of boolean values.
-type Boolean struct {
-	array
-	values []byte
-}
-
-// NewBoolean creates a boolean array from the data memory.Buffer and contains length elements.
-// The nullBitmap buffer can be nil of there are no null values.
-// If nulls is not known, use UnknownNullCount to calculate the value of NullN at runtime from the nullBitmap buffer.
-func NewBoolean(length int, data *memory.Buffer, nullBitmap *memory.Buffer, nulls int) *Boolean {
-	arrdata := NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nullBitmap, data}, nil, nulls, 0)
-	defer arrdata.Release()
-	return NewBooleanData(arrdata)
-}
-
-func NewBooleanData(data arrow.ArrayData) *Boolean {
-	a := &Boolean{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Boolean) Value(i int) bool {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return bitutil.BitIsSet(a.values, a.array.data.offset+i)
-}
-
-func (a *Boolean) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	} else {
-		return strconv.FormatBool(a.Value(i))
-	}
-}
-
-func (a *Boolean) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Boolean) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = vals.Bytes()
-	}
-}
-
-func (a *Boolean) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *Boolean) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualBoolean(left, right *Boolean) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Boolean)(nil)
-)
diff --git a/go/arrow/array/boolean_test.go b/go/arrow/array/boolean_test.go
deleted file mode 100644
index f980497d54521..0000000000000
--- a/go/arrow/array/boolean_test.go
+++ /dev/null
@@ -1,322 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBooleanSliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, true, true, true, true, false, true, false}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	for _, v := range values {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]bool, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.Value(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		want     []bool
-	}{
-		{
-			interval: [2]int64{0, 0},
-			want:     []bool{},
-		},
-		{
-			interval: [2]int64{10, 10},
-			want:     []bool{},
-		},
-		{
-			interval: [2]int64{0, 5},
-			want:     []bool{true, false, true, true, true},
-		},
-		{
-			interval: [2]int64{5, 10},
-			want:     []bool{true, true, false, true, false},
-		},
-		{
-			interval: [2]int64{2, 7},
-			want:     []bool{true, true, true, true, true},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := array.NewSlice(arr, tc.interval[0], tc.interval[1]).(*array.Boolean)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]bool, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.Value(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanSliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, false, false, false, true, false, true, false}
-	valids := []bool{true, false, true, true, true, true, true, false, true, true}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	b.AppendValues(values, valids)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]bool, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.Value(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		nulls    int
-		want     []bool
-	}{
-		{
-			interval: [2]int64{2, 9},
-			nulls:    1,
-			want:     []bool{true, false, false, false, true, false, true},
-		},
-		{
-			interval: [2]int64{0, 7},
-			nulls:    1,
-			want:     []bool{true, false, true, false, false, false, true},
-		},
-		{
-			interval: [2]int64{1, 8},
-			nulls:    2,
-			want:     []bool{false, true, false, false, false, true, false},
-		},
-		{
-			interval: [2]int64{2, 7},
-			nulls:    0,
-			want:     []bool{true, false, false, false, true},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := array.NewSlice(arr, tc.interval[0], tc.interval[1]).(*array.Boolean)
-			defer slice.Release()
-
-			if got, want := slice.NullN(), tc.nulls; got != want {
-				t.Errorf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]bool, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.Value(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanSliceOutOfBounds(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, false, true, false, true, false, true, false}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	for _, v := range values {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	slice := array.NewSlice(arr, 3, 8).(*array.Boolean)
-	defer slice.Release()
-
-	tests := []struct {
-		index int
-		panic bool
-	}{
-		{
-			index: -1,
-			panic: true,
-		},
-		{
-			index: 5,
-			panic: true,
-		},
-		{
-			index: 0,
-			panic: false,
-		},
-		{
-			index: 4,
-			panic: false,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			var val bool
-
-			if tc.panic {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not; slice value %v", val)
-					}
-					if got, want := e.(string), "arrow/array: index out of range"; got != want {
-						t.Fatalf("invalid error. got=%q, want=%q", got, want)
-					}
-				}()
-			} else {
-				defer func() {
-					if e := recover(); e != nil {
-						t.Fatalf("unexpected panic: %v", e)
-					}
-				}()
-			}
-
-			val = slice.Value(tc.index)
-		})
-	}
-}
-
-func TestBooleanStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		values = []bool{true, false, true, false, true, false, true, false, true, false}
-		valids = []bool{true, true, false, true, true, true, false, true, true, true}
-	)
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	b.AppendValues(values, valids)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	out := new(strings.Builder)
-	fmt.Fprintf(out, "%v", arr)
-
-	const want = "[true false (null) false true false (null) false true false]"
-	if got := out.String(); got != want {
-		t.Fatalf("invalid stringer:\ngot= %q\nwant=%q", got, want)
-	}
-	assert.Equal(t, "true", arr.ValueStr(0))
-	assert.Equal(t, "false", arr.ValueStr(1))
-	assert.Equal(t, array.NullValueStr, arr.ValueStr(2))
-}
-
-func TestBooleanStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []bool{true, false, true, true, true, true, true, false, true, false}
-	valid := []bool{true, false, false, true, false, true, true, false, true, false}
-
-	b := array.NewBooleanBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewBooleanBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Boolean)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/booleanbuilder.go b/go/arrow/array/booleanbuilder.go
deleted file mode 100644
index 44d33018f94ea..0000000000000
--- a/go/arrow/array/booleanbuilder.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type BooleanBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []byte
-}
-
-func NewBooleanBuilder(mem memory.Allocator) *BooleanBuilder {
-	return &BooleanBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *BooleanBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.Boolean }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *BooleanBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *BooleanBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *BooleanBuilder) AppendByte(v byte) {
-	b.Reserve(1)
-	b.UnsafeAppend(v != 0)
-}
-
-func (b *BooleanBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BooleanBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *BooleanBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppend(false)
-}
-
-func (b *BooleanBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *BooleanBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := strconv.ParseBool(s)
-	if err != nil {
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *BooleanBuilder) UnsafeAppend(v bool) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	if v {
-		bitutil.SetBit(b.rawData, b.length)
-	} else {
-		bitutil.ClearBit(b.rawData, b.length)
-	}
-	b.length++
-}
-
-func (b *BooleanBuilder) AppendValues(v []bool, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for i, vv := range v {
-		bitutil.SetBitTo(b.rawData, b.length+i, vv)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BooleanBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.BooleanTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = b.data.Bytes()
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *BooleanBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *BooleanBuilder) Resize(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.init)
-		b.data.Resize(arrow.BooleanTraits.BytesRequired(n))
-		b.rawData = b.data.Bytes()
-	}
-}
-
-// NewArray creates a Boolean array from the memory buffers used by the builder and resets the BooleanBuilder
-// so it can be used to build a new array.
-func (b *BooleanBuilder) NewArray() arrow.Array {
-	return b.NewBooleanArray()
-}
-
-// NewBooleanArray creates a Boolean array from the memory buffers used by the builder and resets the BooleanBuilder
-// so it can be used to build a new array.
-func (b *BooleanBuilder) NewBooleanArray() (a *Boolean) {
-	data := b.newData()
-	a = NewBooleanData(data)
-	data.Release()
-	return
-}
-
-func (b *BooleanBuilder) newData() *Data {
-	bytesRequired := arrow.BooleanTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	res := NewData(arrow.FixedWidthTypes.Boolean, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return res
-}
-
-func (b *BooleanBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case bool:
-		b.Append(v)
-	case string:
-		val, err := strconv.ParseBool(v)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case json.Number:
-		val, err := strconv.ParseBool(v.String())
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(true),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BooleanBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BooleanBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	dec.UseNumber()
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("boolean builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *BooleanBuilder) Value(i int) bool {
-	return bitutil.BitIsSet(b.rawData, i)
-}
-
-var (
-	_ Builder = (*BooleanBuilder)(nil)
-)
diff --git a/go/arrow/array/booleanbuilder_test.go b/go/arrow/array/booleanbuilder_test.go
deleted file mode 100644
index 42e49f95a2f3e..0000000000000
--- a/go/arrow/array/booleanbuilder_test.go
+++ /dev/null
@@ -1,103 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBooleanBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewBooleanBuilder(mem)
-
-	exp := tools.Bools(1, 1, 0, 1, 1, 0)
-
-	b.AppendValues(exp, nil)
-	assert.NoError(t, b.AppendValueFromString("true"))
-	assert.NoError(t, b.AppendValueFromString("false"))
-	exp = tools.Bools(1, 1, 0, 1, 1, 0, 1, 0)
-
-	got := make([]bool, len(exp))
-	// make sure we can read the values directly from the builder.
-	for i := 0; i < b.Len(); i++ {
-		got[i] = b.Value(i)
-	}
-	assert.Equal(t, exp, got)
-
-	got = make([]bool, len(exp)) // reset
-
-	a := b.NewBooleanArray()
-	b.Release()
-	for i := 0; i < a.Len(); i++ {
-		got[i] = a.Value(i)
-	}
-	assert.Equal(t, exp, got)
-
-	a.Release()
-}
-
-func TestBooleanBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBooleanBuilder(mem)
-	defer ab.Release()
-
-	want := tools.Bools(1, 1, 0, 1, 1, 0, 1, 0)
-
-	boolValues := func(a *array.Boolean) []bool {
-		vs := make([]bool, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]bool{}, nil)
-	a := ab.NewBooleanArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewBooleanArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-
-	ab.AppendValues([]bool{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]bool{}, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-}
diff --git a/go/arrow/array/bufferbuilder.go b/go/arrow/array/bufferbuilder.go
deleted file mode 100644
index 037d220f0b141..0000000000000
--- a/go/arrow/array/bufferbuilder.go
+++ /dev/null
@@ -1,261 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type bufBuilder interface {
-	Retain()
-	Release()
-	Len() int
-	Cap() int
-	Bytes() []byte
-	resize(int)
-	Advance(int)
-	SetLength(int)
-	Append([]byte)
-	Reset()
-	Finish() *memory.Buffer
-}
-
-// A bufferBuilder provides common functionality for populating memory with a sequence of type-specific values.
-// Specialized implementations provide type-safe APIs for appending and accessing the memory.
-type bufferBuilder struct {
-	refCount int64
-	mem      memory.Allocator
-	buffer   *memory.Buffer
-	length   int
-	capacity int
-
-	bytes []byte
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *bufferBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *bufferBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.buffer != nil {
-			b.buffer.Release()
-			b.buffer, b.bytes = nil, nil
-		}
-	}
-}
-
-// Len returns the length of the memory buffer in bytes.
-func (b *bufferBuilder) Len() int { return b.length }
-
-// Cap returns the total number of bytes that can be stored without allocating additional memory.
-func (b *bufferBuilder) Cap() int { return b.capacity }
-
-// Bytes returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *bufferBuilder) Bytes() []byte { return b.bytes[:b.length] }
-
-func (b *bufferBuilder) resize(elements int) {
-	if b.buffer == nil {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-
-	b.buffer.ResizeNoShrink(elements)
-	oldCapacity := b.capacity
-	b.capacity = b.buffer.Cap()
-	b.bytes = b.buffer.Buf()
-
-	if b.capacity > oldCapacity {
-		memory.Set(b.bytes[oldCapacity:], 0)
-	}
-}
-
-func (b *bufferBuilder) SetLength(length int) {
-	if length > b.length {
-		b.Advance(length)
-		return
-	}
-
-	b.length = length
-}
-
-// Advance increases the buffer by length and initializes the skipped bytes to zero.
-func (b *bufferBuilder) Advance(length int) {
-	if b.capacity < b.length+length {
-		newCapacity := bitutil.NextPowerOf2(b.length + length)
-		b.resize(newCapacity)
-	}
-	b.length += length
-}
-
-// Append appends the contents of v to the buffer, resizing it if necessary.
-func (b *bufferBuilder) Append(v []byte) {
-	if b.capacity < b.length+len(v) {
-		newCapacity := bitutil.NextPowerOf2(b.length + len(v))
-		b.resize(newCapacity)
-	}
-	b.unsafeAppend(v)
-}
-
-// Reset returns the buffer to an empty state. Reset releases the memory and sets the length and capacity to zero.
-func (b *bufferBuilder) Reset() {
-	if b.buffer != nil {
-		b.buffer.Release()
-	}
-	b.buffer, b.bytes = nil, nil
-	b.capacity, b.length = 0, 0
-}
-
-// Finish TODO(sgc)
-func (b *bufferBuilder) Finish() (buffer *memory.Buffer) {
-	if b.length > 0 {
-		b.buffer.ResizeNoShrink(b.length)
-	}
-	buffer = b.buffer
-	b.buffer = nil
-	b.Reset()
-	if buffer == nil {
-		buffer = memory.NewBufferBytes(nil)
-	}
-	return
-}
-
-func (b *bufferBuilder) unsafeAppend(data []byte) {
-	copy(b.bytes[b.length:], data)
-	b.length += len(data)
-}
-
-type multiBufferBuilder struct {
-	refCount  int64
-	blockSize int
-
-	mem              memory.Allocator
-	blocks           []*memory.Buffer
-	currentOutBuffer int
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *multiBufferBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *multiBufferBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.Reset()
-	}
-}
-
-func (b *multiBufferBuilder) Reserve(nbytes int) {
-	if len(b.blocks) == 0 {
-		out := memory.NewResizableBuffer(b.mem)
-		if nbytes < b.blockSize {
-			nbytes = b.blockSize
-		}
-		out.Reserve(nbytes)
-		b.currentOutBuffer = 0
-		b.blocks = []*memory.Buffer{out}
-		return
-	}
-
-	curBuf := b.blocks[b.currentOutBuffer]
-	remain := curBuf.Cap() - curBuf.Len()
-	if nbytes <= remain {
-		return
-	}
-
-	// search for underfull block that has enough bytes
-	for i, block := range b.blocks {
-		remaining := block.Cap() - block.Len()
-		if nbytes <= remaining {
-			b.currentOutBuffer = i
-			return
-		}
-	}
-
-	// current buffer doesn't have enough space, no underfull buffers
-	// make new buffer and set that as our current.
-	newBuf := memory.NewResizableBuffer(b.mem)
-	if nbytes < b.blockSize {
-		nbytes = b.blockSize
-	}
-
-	newBuf.Reserve(nbytes)
-	b.currentOutBuffer = len(b.blocks)
-	b.blocks = append(b.blocks, newBuf)
-}
-
-func (b *multiBufferBuilder) RemainingBytes() int {
-	if len(b.blocks) == 0 {
-		return 0
-	}
-
-	buf := b.blocks[b.currentOutBuffer]
-	return buf.Cap() - buf.Len()
-}
-
-func (b *multiBufferBuilder) Reset() {
-	b.currentOutBuffer = 0
-	for _, block := range b.Finish() {
-		block.Release()
-	}
-}
-
-func (b *multiBufferBuilder) UnsafeAppend(hdr *arrow.ViewHeader, val []byte) {
-	buf := b.blocks[b.currentOutBuffer]
-	idx, offset := b.currentOutBuffer, buf.Len()
-	hdr.SetIndexOffset(int32(idx), int32(offset))
-
-	n := copy(buf.Buf()[offset:], val)
-	buf.ResizeNoShrink(offset + n)
-}
-
-func (b *multiBufferBuilder) UnsafeAppendString(hdr *arrow.ViewHeader, val string) {
-	// create a byte slice with zero-copies
-	// in go1.20 this would be equivalent to unsafe.StringData
-	v := *(*[]byte)(unsafe.Pointer(&struct {
-		string
-		int
-	}{val, len(val)}))
-	b.UnsafeAppend(hdr, v)
-}
-
-func (b *multiBufferBuilder) Finish() (out []*memory.Buffer) {
-	b.currentOutBuffer = 0
-	out, b.blocks = b.blocks, nil
-	return
-}
diff --git a/go/arrow/array/bufferbuilder_byte.go b/go/arrow/array/bufferbuilder_byte.go
deleted file mode 100644
index 2ac7ec703b579..0000000000000
--- a/go/arrow/array/bufferbuilder_byte.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import "github.com/apache/arrow/go/v18/arrow/memory"
-
-type byteBufferBuilder struct {
-	bufferBuilder
-}
-
-func newByteBufferBuilder(mem memory.Allocator) *byteBufferBuilder {
-	return &byteBufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-func (b *byteBufferBuilder) Values() []byte   { return b.Bytes() }
-func (b *byteBufferBuilder) Value(i int) byte { return b.bytes[i] }
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go b/go/arrow/array/bufferbuilder_numeric.gen.go
deleted file mode 100644
index 5215ecf65a312..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric.gen.go
+++ /dev/null
@@ -1,124 +0,0 @@
-// Code generated by array/bufferbuilder_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type int64BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt64BufferBuilder(mem memory.Allocator) *int64BufferBuilder {
-	return &int64BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int64BufferBuilder) AppendValues(v []int64) { b.Append(arrow.Int64Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int64BufferBuilder) Values() []int64 { return arrow.Int64Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int64 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int64BufferBuilder) Value(i int) int64 { return b.Values()[i] }
-
-// Len returns the number of int64 elements in the buffer.
-func (b *int64BufferBuilder) Len() int { return b.length / arrow.Int64SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int64BufferBuilder) AppendValue(v int64) {
-	if b.capacity < b.length+arrow.Int64SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int64SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int64Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int64SizeBytes
-}
-
-type int32BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt32BufferBuilder(mem memory.Allocator) *int32BufferBuilder {
-	return &int32BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int32BufferBuilder) AppendValues(v []int32) { b.Append(arrow.Int32Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int32BufferBuilder) Values() []int32 { return arrow.Int32Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int32 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int32BufferBuilder) Value(i int) int32 { return b.Values()[i] }
-
-// Len returns the number of int32 elements in the buffer.
-func (b *int32BufferBuilder) Len() int { return b.length / arrow.Int32SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int32BufferBuilder) AppendValue(v int32) {
-	if b.capacity < b.length+arrow.Int32SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int32SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int32Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int32SizeBytes
-}
-
-type int8BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt8BufferBuilder(mem memory.Allocator) *int8BufferBuilder {
-	return &int8BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int8BufferBuilder) AppendValues(v []int8) { b.Append(arrow.Int8Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int8BufferBuilder) Values() []int8 { return arrow.Int8Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int8 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int8BufferBuilder) Value(i int) int8 { return b.Values()[i] }
-
-// Len returns the number of int8 elements in the buffer.
-func (b *int8BufferBuilder) Len() int { return b.length / arrow.Int8SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int8BufferBuilder) AppendValue(v int8) {
-	if b.capacity < b.length+arrow.Int8SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int8SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int8Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int8SizeBytes
-}
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl b/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
deleted file mode 100644
index 2b7fcaefcdeb2..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-{{range .In}}
-{{$TypeNamePrefix := .name}}
-{{if .Opt.BufferBuilder}}
-type {{$TypeNamePrefix}}BufferBuilder struct {
-	bufferBuilder
-}
-
-func new{{.Name}}BufferBuilder(mem memory.Allocator) *{{$TypeNamePrefix}}BufferBuilder {
-	return &{{$TypeNamePrefix}}BufferBuilder{bufferBuilder:bufferBuilder{refCount: 1, mem:mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *{{$TypeNamePrefix}}BufferBuilder) AppendValues(v []{{.Type}}) { b.Append(arrow.{{.Name}}Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Values() []{{.Type}}           { return arrow.{{.Name}}Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the {{.Type}} element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Value(i int) {{.Type}}         { return b.Values()[i] }
-
-// Len returns the number of {{.Type}} elements in the buffer.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Len() int                      { return b.length/arrow.{{.Name}}SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *{{$TypeNamePrefix}}BufferBuilder) AppendValue(v {{.Type}}) {
-	if b.capacity < b.length+arrow.{{.Name}}SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.{{.Name}}SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.{{.Name}}Traits.PutValue(b.bytes[b.length:], v)
-	b.length+=arrow.{{.Name}}SizeBytes
-}
-{{end}}
-{{end}}
diff --git a/go/arrow/array/bufferbuilder_numeric_test.go b/go/arrow/array/bufferbuilder_numeric_test.go
deleted file mode 100644
index 3c947c87eeaac..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric_test.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt32BufferBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bb := newInt32BufferBuilder(mem)
-	exp := []int32{0x01020304, 0x05060708, 0x090a0b0c, 0x0d0e0f01, 0x02030405, 0x06070809}
-	bb.AppendValues(exp[:3])
-	bb.AppendValues(exp[3:])
-
-	var expBuf []byte
-	if endian.IsBigEndian {
-		expBuf = []byte{
-			0x01, 0x02, 0x03, 0x04,
-			0x05, 0x06, 0x07, 0x08,
-			0x09, 0x0a, 0x0b, 0x0c,
-			0x0d, 0x0e, 0x0f, 0x01,
-			0x02, 0x03, 0x04, 0x05,
-			0x06, 0x07, 0x08, 0x09,
-		}
-	} else {
-		expBuf = []byte{
-			0x04, 0x03, 0x02, 0x01,
-			0x08, 0x07, 0x06, 0x05,
-			0x0c, 0x0b, 0x0a, 0x09,
-			0x01, 0x0f, 0x0e, 0x0d,
-			0x05, 0x04, 0x03, 0x02,
-			0x09, 0x08, 0x07, 0x06,
-		}
-	}
-	assert.Equal(t, expBuf, bb.Bytes(), "unexpected byte values")
-	assert.Equal(t, exp, bb.Values(), "unexpected int32 values")
-	assert.Equal(t, len(exp), bb.Len(), "unexpected Len()")
-
-	buflen := bb.Len()
-	bfr := bb.Finish()
-	assert.Equal(t, buflen*int(unsafe.Sizeof(int32(0))), bfr.Len(), "Buffer was not resized")
-	assert.Len(t, bfr.Bytes(), bfr.Len(), "Buffer.Bytes() != Buffer.Len()")
-	bfr.Release()
-
-	assert.Len(t, bb.Bytes(), 0, "BufferBuilder was not reset after Finish")
-	assert.Zero(t, bb.Len(), "BufferBuilder was not reset after Finish")
-	bb.Release()
-}
-
-func TestInt32BufferBuilder_AppendValue(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bb := newInt32BufferBuilder(mem)
-	exp := []int32{0x01020304, 0x05060708, 0x090a0b0c, 0x0d0e0f01, 0x02030405, 0x06070809}
-	for _, v := range exp {
-		bb.AppendValue(v)
-	}
-
-	var expBuf []byte
-	if endian.IsBigEndian {
-		expBuf = []byte{
-			0x01, 0x02, 0x03, 0x04,
-			0x05, 0x06, 0x07, 0x08,
-			0x09, 0x0a, 0x0b, 0x0c,
-			0x0d, 0x0e, 0x0f, 0x01,
-			0x02, 0x03, 0x04, 0x05,
-			0x06, 0x07, 0x08, 0x09,
-		}
-	} else {
-		expBuf = []byte{
-			0x04, 0x03, 0x02, 0x01,
-			0x08, 0x07, 0x06, 0x05,
-			0x0c, 0x0b, 0x0a, 0x09,
-			0x01, 0x0f, 0x0e, 0x0d,
-			0x05, 0x04, 0x03, 0x02,
-			0x09, 0x08, 0x07, 0x06,
-		}
-	}
-	assert.Equal(t, expBuf, bb.Bytes(), "unexpected byte values")
-	assert.Equal(t, exp, bb.Values(), "unexpected int32 values")
-	assert.Equal(t, len(exp), bb.Len(), "unexpected Len()")
-	bb.Release()
-}
diff --git a/go/arrow/array/builder.go b/go/arrow/array/builder.go
deleted file mode 100644
index 1f4d0ea963509..0000000000000
--- a/go/arrow/array/builder.go
+++ /dev/null
@@ -1,374 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const (
-	minBuilderCapacity = 1 << 5
-)
-
-// Builder provides an interface to build arrow arrays.
-type Builder interface {
-	// you can unmarshal a json array to add the values to a builder
-	json.Unmarshaler
-
-	// Type returns the datatype that this is building
-	Type() arrow.DataType
-
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	Release()
-
-	// Len returns the number of elements in the array builder.
-	Len() int
-
-	// Cap returns the total number of elements that can be stored
-	// without allocating additional memory.
-	Cap() int
-
-	// NullN returns the number of null values in the array builder.
-	NullN() int
-
-	// AppendNull adds a new null value to the array being built.
-	AppendNull()
-
-	// AppendNulls adds new n null values to the array being built.
-	AppendNulls(n int)
-
-	// AppendEmptyValue adds a new zero value of the appropriate type
-	AppendEmptyValue()
-
-	// AppendEmptyValues adds new n zero values of the appropriate type
-	AppendEmptyValues(n int)
-
-	// AppendValueFromString adds a new value from a string. Inverse of array.ValueStr(i int) string
-	AppendValueFromString(string) error
-
-	// Reserve ensures there is enough space for appending n elements
-	// by checking the capacity and calling Resize if necessary.
-	Reserve(n int)
-
-	// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-	// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-	Resize(n int)
-
-	// NewArray creates a new array from the memory buffers used
-	// by the builder and resets the Builder so it can be used to build
-	// a new array.
-	NewArray() arrow.Array
-
-	// IsNull returns if a previously appended value at a given index is null or not.
-	IsNull(i int) bool
-
-	// SetNull sets the value at index i to null.
-	SetNull(i int)
-
-	UnsafeAppendBoolToBitmap(bool)
-
-	init(capacity int)
-	resize(newBits int, init func(int))
-
-	UnmarshalOne(*json.Decoder) error
-	Unmarshal(*json.Decoder) error
-
-	newData() *Data
-}
-
-// builder provides common functionality for managing the validity bitmap (nulls) when building arrays.
-type builder struct {
-	refCount   int64
-	mem        memory.Allocator
-	nullBitmap *memory.Buffer
-	nulls      int
-	length     int
-	capacity   int
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *builder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Len returns the number of elements in the array builder.
-func (b *builder) Len() int { return b.length }
-
-// Cap returns the total number of elements that can be stored without allocating additional memory.
-func (b *builder) Cap() int { return b.capacity }
-
-// NullN returns the number of null values in the array builder.
-func (b *builder) NullN() int { return b.nulls }
-
-func (b *builder) IsNull(i int) bool {
-	return b.nullBitmap.Len() != 0 && bitutil.BitIsNotSet(b.nullBitmap.Bytes(), i)
-}
-
-func (b *builder) SetNull(i int) {
-	if i < 0 || i >= b.length {
-		panic("arrow/array: index out of range")
-	}
-	bitutil.ClearBit(b.nullBitmap.Bytes(), i)
-}
-
-func (b *builder) init(capacity int) {
-	toAlloc := bitutil.CeilByte(capacity) / 8
-	b.nullBitmap = memory.NewResizableBuffer(b.mem)
-	b.nullBitmap.Resize(toAlloc)
-	b.capacity = capacity
-	memory.Set(b.nullBitmap.Buf(), 0)
-}
-
-func (b *builder) reset() {
-	if b.nullBitmap != nil {
-		b.nullBitmap.Release()
-		b.nullBitmap = nil
-	}
-
-	b.nulls = 0
-	b.length = 0
-	b.capacity = 0
-}
-
-func (b *builder) resize(newBits int, init func(int)) {
-	if b.nullBitmap == nil {
-		init(newBits)
-		return
-	}
-
-	newBytesN := bitutil.CeilByte(newBits) / 8
-	oldBytesN := b.nullBitmap.Len()
-	b.nullBitmap.Resize(newBytesN)
-	b.capacity = newBits
-	if oldBytesN < newBytesN {
-		// TODO(sgc): necessary?
-		memory.Set(b.nullBitmap.Buf()[oldBytesN:], 0)
-	}
-	if newBits < b.length {
-		b.length = newBits
-		b.nulls = newBits - bitutil.CountSetBits(b.nullBitmap.Buf(), 0, newBits)
-	}
-}
-
-func (b *builder) reserve(elements int, resize func(int)) {
-	if b.nullBitmap == nil {
-		b.nullBitmap = memory.NewResizableBuffer(b.mem)
-	}
-	if b.length+elements > b.capacity {
-		newCap := bitutil.NextPowerOf2(b.length + elements)
-		resize(newCap)
-	}
-}
-
-// unsafeAppendBoolsToBitmap appends the contents of valid to the validity bitmap.
-// As an optimization, if the valid slice is empty, the next length bits will be set to valid (not null).
-func (b *builder) unsafeAppendBoolsToBitmap(valid []bool, length int) {
-	if len(valid) == 0 {
-		b.unsafeSetValid(length)
-		return
-	}
-
-	byteOffset := b.length / 8
-	bitOffset := byte(b.length % 8)
-	nullBitmap := b.nullBitmap.Bytes()
-	bitSet := nullBitmap[byteOffset]
-
-	for _, v := range valid {
-		if bitOffset == 8 {
-			bitOffset = 0
-			nullBitmap[byteOffset] = bitSet
-			byteOffset++
-			bitSet = nullBitmap[byteOffset]
-		}
-
-		if v {
-			bitSet |= bitutil.BitMask[bitOffset]
-		} else {
-			bitSet &= bitutil.FlippedBitMask[bitOffset]
-			b.nulls++
-		}
-		bitOffset++
-	}
-
-	if bitOffset != 0 {
-		nullBitmap[byteOffset] = bitSet
-	}
-	b.length += len(valid)
-}
-
-// unsafeSetValid sets the next length bits to valid in the validity bitmap.
-func (b *builder) unsafeSetValid(length int) {
-	padToByte := min(8-(b.length%8), length)
-	if padToByte == 8 {
-		padToByte = 0
-	}
-	bits := b.nullBitmap.Bytes()
-	for i := b.length; i < b.length+padToByte; i++ {
-		bitutil.SetBit(bits, i)
-	}
-
-	start := (b.length + padToByte) / 8
-	fastLength := (length - padToByte) / 8
-	memory.Set(bits[start:start+fastLength], 0xff)
-
-	newLength := b.length + length
-	// trailing bytes
-	for i := b.length + padToByte + (fastLength * 8); i < newLength; i++ {
-		bitutil.SetBit(bits, i)
-	}
-
-	b.length = newLength
-}
-
-func (b *builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func NewBuilder(mem memory.Allocator, dtype arrow.DataType) Builder {
-	// FIXME(sbinet): use a type switch on dtype instead?
-	switch dtype.ID() {
-	case arrow.NULL:
-		return NewNullBuilder(mem)
-	case arrow.BOOL:
-		return NewBooleanBuilder(mem)
-	case arrow.UINT8:
-		return NewUint8Builder(mem)
-	case arrow.INT8:
-		return NewInt8Builder(mem)
-	case arrow.UINT16:
-		return NewUint16Builder(mem)
-	case arrow.INT16:
-		return NewInt16Builder(mem)
-	case arrow.UINT32:
-		return NewUint32Builder(mem)
-	case arrow.INT32:
-		return NewInt32Builder(mem)
-	case arrow.UINT64:
-		return NewUint64Builder(mem)
-	case arrow.INT64:
-		return NewInt64Builder(mem)
-	case arrow.FLOAT16:
-		return NewFloat16Builder(mem)
-	case arrow.FLOAT32:
-		return NewFloat32Builder(mem)
-	case arrow.FLOAT64:
-		return NewFloat64Builder(mem)
-	case arrow.STRING:
-		return NewStringBuilder(mem)
-	case arrow.LARGE_STRING:
-		return NewLargeStringBuilder(mem)
-	case arrow.BINARY:
-		return NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	case arrow.LARGE_BINARY:
-		return NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	case arrow.FIXED_SIZE_BINARY:
-		typ := dtype.(*arrow.FixedSizeBinaryType)
-		return NewFixedSizeBinaryBuilder(mem, typ)
-	case arrow.DATE32:
-		return NewDate32Builder(mem)
-	case arrow.DATE64:
-		return NewDate64Builder(mem)
-	case arrow.TIMESTAMP:
-		typ := dtype.(*arrow.TimestampType)
-		return NewTimestampBuilder(mem, typ)
-	case arrow.TIME32:
-		typ := dtype.(*arrow.Time32Type)
-		return NewTime32Builder(mem, typ)
-	case arrow.TIME64:
-		typ := dtype.(*arrow.Time64Type)
-		return NewTime64Builder(mem, typ)
-	case arrow.INTERVAL_MONTHS:
-		return NewMonthIntervalBuilder(mem)
-	case arrow.INTERVAL_DAY_TIME:
-		return NewDayTimeIntervalBuilder(mem)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return NewMonthDayNanoIntervalBuilder(mem)
-	case arrow.DECIMAL128:
-		if typ, ok := dtype.(*arrow.Decimal128Type); ok {
-			return NewDecimal128Builder(mem, typ)
-		}
-	case arrow.DECIMAL256:
-		if typ, ok := dtype.(*arrow.Decimal256Type); ok {
-			return NewDecimal256Builder(mem, typ)
-		}
-	case arrow.LIST:
-		typ := dtype.(*arrow.ListType)
-		return NewListBuilderWithField(mem, typ.ElemField())
-	case arrow.STRUCT:
-		typ := dtype.(*arrow.StructType)
-		return NewStructBuilder(mem, typ)
-	case arrow.SPARSE_UNION:
-		typ := dtype.(*arrow.SparseUnionType)
-		return NewSparseUnionBuilder(mem, typ)
-	case arrow.DENSE_UNION:
-		typ := dtype.(*arrow.DenseUnionType)
-		return NewDenseUnionBuilder(mem, typ)
-	case arrow.DICTIONARY:
-		typ := dtype.(*arrow.DictionaryType)
-		return NewDictionaryBuilder(mem, typ)
-	case arrow.LARGE_LIST:
-		typ := dtype.(*arrow.LargeListType)
-		return NewLargeListBuilderWithField(mem, typ.ElemField())
-	case arrow.MAP:
-		typ := dtype.(*arrow.MapType)
-		return NewMapBuilderWithType(mem, typ)
-	case arrow.LIST_VIEW:
-		typ := dtype.(*arrow.ListViewType)
-		return NewListViewBuilderWithField(mem, typ.ElemField())
-	case arrow.LARGE_LIST_VIEW:
-		typ := dtype.(*arrow.LargeListViewType)
-		return NewLargeListViewBuilderWithField(mem, typ.ElemField())
-	case arrow.EXTENSION:
-		if custom, ok := dtype.(CustomExtensionBuilder); ok {
-			return custom.NewBuilder(mem)
-		}
-		if typ, ok := dtype.(arrow.ExtensionType); ok {
-			return NewExtensionBuilder(mem, typ)
-		}
-		panic(fmt.Errorf("arrow/array: invalid extension type: %T", dtype))
-	case arrow.FIXED_SIZE_LIST:
-		typ := dtype.(*arrow.FixedSizeListType)
-		return NewFixedSizeListBuilderWithField(mem, typ.Len(), typ.ElemField())
-	case arrow.DURATION:
-		typ := dtype.(*arrow.DurationType)
-		return NewDurationBuilder(mem, typ)
-	case arrow.RUN_END_ENCODED:
-		typ := dtype.(*arrow.RunEndEncodedType)
-		return NewRunEndEncodedBuilder(mem, typ.RunEnds(), typ.Encoded())
-	case arrow.BINARY_VIEW:
-		return NewBinaryViewBuilder(mem)
-	case arrow.STRING_VIEW:
-		return NewStringViewBuilder(mem)
-	}
-	panic(fmt.Errorf("arrow/array: unsupported builder for %T", dtype))
-}
diff --git a/go/arrow/array/builder_test.go b/go/arrow/array/builder_test.go
deleted file mode 100644
index 7eb2b3f7cf9e3..0000000000000
--- a/go/arrow/array/builder_test.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBuilder_Init(t *testing.T) {
-	type exp struct{ size int }
-	tests := []struct {
-		name string
-		cap  int
-
-		exp exp
-	}{
-		{"07 bits", 07, exp{size: 1}},
-		{"19 bits", 19, exp{size: 3}},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			ab := &builder{mem: memory.NewGoAllocator()}
-			ab.init(test.cap)
-			assert.Equal(t, test.cap, ab.Cap(), "invalid capacity")
-			assert.Equal(t, test.exp.size, ab.nullBitmap.Len(), "invalid length")
-		})
-	}
-}
-
-func TestBuilder_UnsafeSetValid(t *testing.T) {
-	ab := &builder{mem: memory.NewGoAllocator()}
-	ab.init(32)
-	ab.unsafeAppendBoolsToBitmap(tools.Bools(0, 0, 0, 0, 0), 5)
-	assert.Equal(t, 5, ab.Len())
-	assert.Equal(t, []byte{0, 0, 0, 0}, ab.nullBitmap.Bytes())
-
-	ab.unsafeSetValid(17)
-	assert.Equal(t, []byte{0xe0, 0xff, 0x3f, 0}, ab.nullBitmap.Bytes())
-}
-
-func TestBuilder_resize(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 64
-
-	b.init(n)
-	assert.Equal(t, n, b.Cap())
-	assert.Equal(t, 0, b.Len())
-
-	b.UnsafeAppendBoolToBitmap(true)
-	for i := 1; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(false)
-	}
-	assert.Equal(t, n, b.Cap())
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-
-	n = 5
-	b.resize(n, b.init)
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-
-	b.resize(32, b.init)
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-}
-
-func TestBuilder_IsNull(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 32
-	b.init(n)
-
-	assert.True(t, b.IsNull(0))
-	assert.True(t, b.IsNull(1))
-
-	for i := 0; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(i%2 == 0)
-	}
-	for i := 0; i < n; i++ {
-		assert.Equal(t, i%2 != 0, b.IsNull(i))
-	}
-}
-
-func TestBuilder_SetNull(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 32
-	b.init(n)
-
-	for i := 0; i < n; i++ {
-		// Set everything to true
-		b.UnsafeAppendBoolToBitmap(true)
-	}
-	for i := 0; i < n; i++ {
-		if i%2 == 0 { // Set all even numbers to null
-			b.SetNull(i)
-		}
-	}
-
-	for i := 0; i < n; i++ {
-		if i%2 == 0 {
-			assert.True(t, b.IsNull(i))
-		} else {
-			assert.False(t, b.IsNull(i))
-		}
-	}
-}
diff --git a/go/arrow/array/compare.go b/go/arrow/array/compare.go
deleted file mode 100644
index a54c1e23c1e1c..0000000000000
--- a/go/arrow/array/compare.go
+++ /dev/null
@@ -1,854 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-// RecordEqual reports whether the two provided records are equal.
-func RecordEqual(left, right arrow.Record) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := range left.Columns() {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !Equal(lc, rc) {
-			return false
-		}
-	}
-	return true
-}
-
-// RecordApproxEqual reports whether the two provided records are approximately equal.
-// For non-floating point columns, it is equivalent to RecordEqual.
-func RecordApproxEqual(left, right arrow.Record, opts ...EqualOption) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	opt := newEqualOption(opts...)
-
-	for i := range left.Columns() {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !arrayApproxEqual(lc, rc, opt) {
-			return false
-		}
-	}
-	return true
-}
-
-// helper function to evaluate a function on two chunked object having possibly different
-// chunk layouts. the function passed in will be called for each corresponding slice of the
-// two chunked arrays and if the function returns false it will end the loop early.
-func chunkedBinaryApply(left, right *arrow.Chunked, fn func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool) {
-	var (
-		pos               int64
-		length            int64 = int64(left.Len())
-		leftIdx, rightIdx int
-		leftPos, rightPos int64
-	)
-
-	for pos < length {
-		var cleft, cright arrow.Array
-		for {
-			cleft, cright = left.Chunk(leftIdx), right.Chunk(rightIdx)
-			if leftPos == int64(cleft.Len()) {
-				leftPos = 0
-				leftIdx++
-				continue
-			}
-			if rightPos == int64(cright.Len()) {
-				rightPos = 0
-				rightIdx++
-				continue
-			}
-			break
-		}
-
-		sz := int64(min(cleft.Len()-int(leftPos), cright.Len()-int(rightPos)))
-		pos += sz
-		if !fn(cleft, leftPos, leftPos+sz, cright, rightPos, rightPos+sz) {
-			return
-		}
-
-		leftPos += sz
-		rightPos += sz
-	}
-}
-
-// ChunkedEqual reports whether two chunked arrays are equal regardless of their chunkings
-func ChunkedEqual(left, right *arrow.Chunked) bool {
-	switch {
-	case left == right:
-		return true
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	}
-
-	var isequal bool = true
-	chunkedBinaryApply(left, right, func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-		isequal = SliceEqual(left, lbeg, lend, right, rbeg, rend)
-		return isequal
-	})
-
-	return isequal
-}
-
-// ChunkedApproxEqual reports whether two chunked arrays are approximately equal regardless of their chunkings
-// for non-floating point arrays, this is equivalent to ChunkedEqual
-func ChunkedApproxEqual(left, right *arrow.Chunked, opts ...EqualOption) bool {
-	switch {
-	case left == right:
-		return true
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	}
-
-	var isequal bool
-	chunkedBinaryApply(left, right, func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-		isequal = SliceApproxEqual(left, lbeg, lend, right, rbeg, rend, opts...)
-		return isequal
-	})
-
-	return isequal
-}
-
-// TableEqual returns if the two tables have the same data in the same schema
-func TableEqual(left, right arrow.Table) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := 0; int64(i) < left.NumCols(); i++ {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !lc.Field().Equal(rc.Field()) {
-			return false
-		}
-
-		if !ChunkedEqual(lc.Data(), rc.Data()) {
-			return false
-		}
-	}
-	return true
-}
-
-// TableEqual returns if the two tables have the approximately equal data in the same schema
-func TableApproxEqual(left, right arrow.Table, opts ...EqualOption) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := 0; int64(i) < left.NumCols(); i++ {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !lc.Field().Equal(rc.Field()) {
-			return false
-		}
-
-		if !ChunkedApproxEqual(lc.Data(), rc.Data(), opts...) {
-			return false
-		}
-	}
-	return true
-}
-
-// Equal reports whether the two provided arrays are equal.
-func Equal(left, right arrow.Array) bool {
-	switch {
-	case !baseArrayEqual(left, right):
-		return false
-	case left.Len() == 0:
-		return true
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	// at this point, we know both arrays have same type, same length, same number of nulls
-	// and nulls at the same place.
-	// compare the values.
-
-	switch l := left.(type) {
-	case *Null:
-		return true
-	case *Boolean:
-		r := right.(*Boolean)
-		return arrayEqualBoolean(l, r)
-	case *FixedSizeBinary:
-		r := right.(*FixedSizeBinary)
-		return arrayEqualFixedSizeBinary(l, r)
-	case *Binary:
-		r := right.(*Binary)
-		return arrayEqualBinary(l, r)
-	case *String:
-		r := right.(*String)
-		return arrayEqualString(l, r)
-	case *LargeBinary:
-		r := right.(*LargeBinary)
-		return arrayEqualLargeBinary(l, r)
-	case *LargeString:
-		r := right.(*LargeString)
-		return arrayEqualLargeString(l, r)
-	case *BinaryView:
-		r := right.(*BinaryView)
-		return arrayEqualBinaryView(l, r)
-	case *StringView:
-		r := right.(*StringView)
-		return arrayEqualStringView(l, r)
-	case *Int8:
-		r := right.(*Int8)
-		return arrayEqualInt8(l, r)
-	case *Int16:
-		r := right.(*Int16)
-		return arrayEqualInt16(l, r)
-	case *Int32:
-		r := right.(*Int32)
-		return arrayEqualInt32(l, r)
-	case *Int64:
-		r := right.(*Int64)
-		return arrayEqualInt64(l, r)
-	case *Uint8:
-		r := right.(*Uint8)
-		return arrayEqualUint8(l, r)
-	case *Uint16:
-		r := right.(*Uint16)
-		return arrayEqualUint16(l, r)
-	case *Uint32:
-		r := right.(*Uint32)
-		return arrayEqualUint32(l, r)
-	case *Uint64:
-		r := right.(*Uint64)
-		return arrayEqualUint64(l, r)
-	case *Float16:
-		r := right.(*Float16)
-		return arrayEqualFloat16(l, r)
-	case *Float32:
-		r := right.(*Float32)
-		return arrayEqualFloat32(l, r)
-	case *Float64:
-		r := right.(*Float64)
-		return arrayEqualFloat64(l, r)
-	case *Decimal128:
-		r := right.(*Decimal128)
-		return arrayEqualDecimal128(l, r)
-	case *Decimal256:
-		r := right.(*Decimal256)
-		return arrayEqualDecimal256(l, r)
-	case *Date32:
-		r := right.(*Date32)
-		return arrayEqualDate32(l, r)
-	case *Date64:
-		r := right.(*Date64)
-		return arrayEqualDate64(l, r)
-	case *Time32:
-		r := right.(*Time32)
-		return arrayEqualTime32(l, r)
-	case *Time64:
-		r := right.(*Time64)
-		return arrayEqualTime64(l, r)
-	case *Timestamp:
-		r := right.(*Timestamp)
-		return arrayEqualTimestamp(l, r)
-	case *List:
-		r := right.(*List)
-		return arrayEqualList(l, r)
-	case *LargeList:
-		r := right.(*LargeList)
-		return arrayEqualLargeList(l, r)
-	case *ListView:
-		r := right.(*ListView)
-		return arrayEqualListView(l, r)
-	case *LargeListView:
-		r := right.(*LargeListView)
-		return arrayEqualLargeListView(l, r)
-	case *FixedSizeList:
-		r := right.(*FixedSizeList)
-		return arrayEqualFixedSizeList(l, r)
-	case *Struct:
-		r := right.(*Struct)
-		return arrayEqualStruct(l, r)
-	case *MonthInterval:
-		r := right.(*MonthInterval)
-		return arrayEqualMonthInterval(l, r)
-	case *DayTimeInterval:
-		r := right.(*DayTimeInterval)
-		return arrayEqualDayTimeInterval(l, r)
-	case *MonthDayNanoInterval:
-		r := right.(*MonthDayNanoInterval)
-		return arrayEqualMonthDayNanoInterval(l, r)
-	case *Duration:
-		r := right.(*Duration)
-		return arrayEqualDuration(l, r)
-	case *Map:
-		r := right.(*Map)
-		return arrayEqualMap(l, r)
-	case ExtensionArray:
-		r := right.(ExtensionArray)
-		return arrayEqualExtension(l, r)
-	case *Dictionary:
-		r := right.(*Dictionary)
-		return arrayEqualDict(l, r)
-	case *SparseUnion:
-		r := right.(*SparseUnion)
-		return arraySparseUnionEqual(l, r)
-	case *DenseUnion:
-		r := right.(*DenseUnion)
-		return arrayDenseUnionEqual(l, r)
-	case *RunEndEncoded:
-		r := right.(*RunEndEncoded)
-		return arrayRunEndEncodedEqual(l, r)
-	default:
-		panic(fmt.Errorf("arrow/array: unknown array type %T", l))
-	}
-}
-
-// SliceEqual reports whether slices left[lbeg:lend] and right[rbeg:rend] are equal.
-func SliceEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-	l := NewSlice(left, lbeg, lend)
-	defer l.Release()
-	r := NewSlice(right, rbeg, rend)
-	defer r.Release()
-
-	return Equal(l, r)
-}
-
-// SliceApproxEqual reports whether slices left[lbeg:lend] and right[rbeg:rend] are approximately equal.
-func SliceApproxEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64, opts ...EqualOption) bool {
-	opt := newEqualOption(opts...)
-	return sliceApproxEqual(left, lbeg, lend, right, rbeg, rend, opt)
-}
-
-func sliceApproxEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64, opt equalOption) bool {
-	l := NewSlice(left, lbeg, lend)
-	defer l.Release()
-	r := NewSlice(right, rbeg, rend)
-	defer r.Release()
-
-	return arrayApproxEqual(l, r, opt)
-}
-
-const defaultAbsoluteTolerance = 1e-5
-
-type equalOption struct {
-	atol             float64 // absolute tolerance
-	nansEq           bool    // whether NaNs are considered equal.
-	unorderedMapKeys bool    // whether maps are allowed to have different entries order
-}
-
-func (eq equalOption) f16(f1, f2 float16.Num) bool {
-	v1 := float64(f1.Float32())
-	v2 := float64(f2.Float32())
-	switch {
-	case eq.nansEq:
-		return math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (eq equalOption) f32(f1, f2 float32) bool {
-	v1 := float64(f1)
-	v2 := float64(f2)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (eq equalOption) f64(v1, v2 float64) bool {
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func newEqualOption(opts ...EqualOption) equalOption {
-	eq := equalOption{
-		atol:   defaultAbsoluteTolerance,
-		nansEq: false,
-	}
-	for _, opt := range opts {
-		opt(&eq)
-	}
-
-	return eq
-}
-
-// EqualOption is a functional option type used to configure how Records and Arrays are compared.
-type EqualOption func(*equalOption)
-
-// WithNaNsEqual configures the comparison functions so that NaNs are considered equal.
-func WithNaNsEqual(v bool) EqualOption {
-	return func(o *equalOption) {
-		o.nansEq = v
-	}
-}
-
-// WithAbsTolerance configures the comparison functions so that 2 floating point values
-// v1 and v2 are considered equal if |v1-v2| <= atol.
-func WithAbsTolerance(atol float64) EqualOption {
-	return func(o *equalOption) {
-		o.atol = atol
-	}
-}
-
-// WithUnorderedMapKeys configures the comparison functions so that Map with different entries order are considered equal.
-func WithUnorderedMapKeys(v bool) EqualOption {
-	return func(o *equalOption) {
-		o.unorderedMapKeys = v
-	}
-}
-
-// ApproxEqual reports whether the two provided arrays are approximately equal.
-// For non-floating point arrays, it is equivalent to Equal.
-func ApproxEqual(left, right arrow.Array, opts ...EqualOption) bool {
-	opt := newEqualOption(opts...)
-	return arrayApproxEqual(left, right, opt)
-}
-
-func arrayApproxEqual(left, right arrow.Array, opt equalOption) bool {
-	switch {
-	case !baseArrayEqual(left, right):
-		return false
-	case left.Len() == 0:
-		return true
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	// at this point, we know both arrays have same type, same length, same number of nulls
-	// and nulls at the same place.
-	// compare the values.
-
-	switch l := left.(type) {
-	case *Null:
-		return true
-	case *Boolean:
-		r := right.(*Boolean)
-		return arrayEqualBoolean(l, r)
-	case *FixedSizeBinary:
-		r := right.(*FixedSizeBinary)
-		return arrayEqualFixedSizeBinary(l, r)
-	case *Binary:
-		r := right.(*Binary)
-		return arrayEqualBinary(l, r)
-	case *String:
-		r := right.(*String)
-		return arrayEqualString(l, r)
-	case *LargeBinary:
-		r := right.(*LargeBinary)
-		return arrayEqualLargeBinary(l, r)
-	case *LargeString:
-		r := right.(*LargeString)
-		return arrayEqualLargeString(l, r)
-	case *BinaryView:
-		r := right.(*BinaryView)
-		return arrayEqualBinaryView(l, r)
-	case *StringView:
-		r := right.(*StringView)
-		return arrayEqualStringView(l, r)
-	case *Int8:
-		r := right.(*Int8)
-		return arrayEqualInt8(l, r)
-	case *Int16:
-		r := right.(*Int16)
-		return arrayEqualInt16(l, r)
-	case *Int32:
-		r := right.(*Int32)
-		return arrayEqualInt32(l, r)
-	case *Int64:
-		r := right.(*Int64)
-		return arrayEqualInt64(l, r)
-	case *Uint8:
-		r := right.(*Uint8)
-		return arrayEqualUint8(l, r)
-	case *Uint16:
-		r := right.(*Uint16)
-		return arrayEqualUint16(l, r)
-	case *Uint32:
-		r := right.(*Uint32)
-		return arrayEqualUint32(l, r)
-	case *Uint64:
-		r := right.(*Uint64)
-		return arrayEqualUint64(l, r)
-	case *Float16:
-		r := right.(*Float16)
-		return arrayApproxEqualFloat16(l, r, opt)
-	case *Float32:
-		r := right.(*Float32)
-		return arrayApproxEqualFloat32(l, r, opt)
-	case *Float64:
-		r := right.(*Float64)
-		return arrayApproxEqualFloat64(l, r, opt)
-	case *Decimal128:
-		r := right.(*Decimal128)
-		return arrayEqualDecimal128(l, r)
-	case *Decimal256:
-		r := right.(*Decimal256)
-		return arrayEqualDecimal256(l, r)
-	case *Date32:
-		r := right.(*Date32)
-		return arrayEqualDate32(l, r)
-	case *Date64:
-		r := right.(*Date64)
-		return arrayEqualDate64(l, r)
-	case *Time32:
-		r := right.(*Time32)
-		return arrayEqualTime32(l, r)
-	case *Time64:
-		r := right.(*Time64)
-		return arrayEqualTime64(l, r)
-	case *Timestamp:
-		r := right.(*Timestamp)
-		return arrayEqualTimestamp(l, r)
-	case *List:
-		r := right.(*List)
-		return arrayApproxEqualList(l, r, opt)
-	case *LargeList:
-		r := right.(*LargeList)
-		return arrayApproxEqualLargeList(l, r, opt)
-	case *ListView:
-		r := right.(*ListView)
-		return arrayApproxEqualListView(l, r, opt)
-	case *LargeListView:
-		r := right.(*LargeListView)
-		return arrayApproxEqualLargeListView(l, r, opt)
-	case *FixedSizeList:
-		r := right.(*FixedSizeList)
-		return arrayApproxEqualFixedSizeList(l, r, opt)
-	case *Struct:
-		r := right.(*Struct)
-		return arrayApproxEqualStruct(l, r, opt)
-	case *MonthInterval:
-		r := right.(*MonthInterval)
-		return arrayEqualMonthInterval(l, r)
-	case *DayTimeInterval:
-		r := right.(*DayTimeInterval)
-		return arrayEqualDayTimeInterval(l, r)
-	case *MonthDayNanoInterval:
-		r := right.(*MonthDayNanoInterval)
-		return arrayEqualMonthDayNanoInterval(l, r)
-	case *Duration:
-		r := right.(*Duration)
-		return arrayEqualDuration(l, r)
-	case *Map:
-		r := right.(*Map)
-		if opt.unorderedMapKeys {
-			return arrayApproxEqualMap(l, r, opt)
-		}
-		return arrayApproxEqualList(l.List, r.List, opt)
-	case *Dictionary:
-		r := right.(*Dictionary)
-		return arrayApproxEqualDict(l, r, opt)
-	case ExtensionArray:
-		r := right.(ExtensionArray)
-		return arrayApproxEqualExtension(l, r, opt)
-	case *SparseUnion:
-		r := right.(*SparseUnion)
-		return arraySparseUnionApproxEqual(l, r, opt)
-	case *DenseUnion:
-		r := right.(*DenseUnion)
-		return arrayDenseUnionApproxEqual(l, r, opt)
-	case *RunEndEncoded:
-		r := right.(*RunEndEncoded)
-		return arrayRunEndEncodedApproxEqual(l, r, opt)
-	default:
-		panic(fmt.Errorf("arrow/array: unknown array type %T", l))
-	}
-}
-
-func baseArrayEqual(left, right arrow.Array) bool {
-	switch {
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()): // We do not check for metadata as in the C++ implementation.
-		return false
-	case !validityBitmapEqual(left, right):
-		return false
-	}
-	return true
-}
-
-func validityBitmapEqual(left, right arrow.Array) bool {
-	// TODO(alexandreyc): make it faster by comparing byte slices of the validity bitmap?
-	n := left.Len()
-	if n != right.Len() {
-		return false
-	}
-	for i := 0; i < n; i++ {
-		if left.IsNull(i) != right.IsNull(i) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat16(left, right *Float16, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f16(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat32(left, right *Float32, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f32(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat64(left, right *Float64, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f64(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualList(left, right *List, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualLargeList(left, right *LargeList, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualListView(left, right *ListView, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualLargeListView(left, right *LargeListView, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFixedSizeList(left, right *FixedSizeList, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualStruct(left, right *Struct, opt equalOption) bool {
-	return bitutils.VisitSetBitRuns(
-		left.NullBitmapBytes(),
-		int64(left.Offset()), int64(left.Len()),
-		approxEqualStructRun(left, right, opt),
-	) == nil
-}
-
-func approxEqualStructRun(left, right *Struct, opt equalOption) bitutils.VisitFn {
-	return func(pos int64, length int64) error {
-		for i := range left.fields {
-			if !sliceApproxEqual(left.fields[i], pos, pos+length, right.fields[i], pos, pos+length, opt) {
-				return arrow.ErrInvalid
-			}
-		}
-		return nil
-	}
-}
-
-// arrayApproxEqualMap doesn't care about the order of keys (in Go map traversal order is undefined)
-func arrayApproxEqualMap(left, right *Map, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !arrayApproxEqualSingleMapEntry(left.newListValue(i).(*Struct), right.newListValue(i).(*Struct), opt) {
-			return false
-		}
-	}
-	return true
-}
-
-// arrayApproxEqualSingleMapEntry is a helper function that checks if a single entry pair is approx equal.
-// Basically, it doesn't care about key order.
-// structs passed will be released
-func arrayApproxEqualSingleMapEntry(left, right *Struct, opt equalOption) bool {
-	defer left.Release()
-	defer right.Release()
-
-	// we don't compare the validity bitmap, but we want other checks from baseArrayEqual
-	switch {
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()): // We do not check for metadata as in the C++ implementation.
-		return false
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	used := make(map[int]bool, right.Len())
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-
-		found := false
-		lBeg, lEnd := int64(i), int64(i+1)
-		for j := 0; j < right.Len(); j++ {
-			if used[j] {
-				continue
-			}
-			if right.IsNull(j) {
-				used[j] = true
-				continue
-			}
-
-			rBeg, rEnd := int64(j), int64(j+1)
-
-			// check keys (field 0)
-			if !sliceApproxEqual(left.Field(0), lBeg, lEnd, right.Field(0), rBeg, rEnd, opt) {
-				continue
-			}
-
-			// only now check the values
-			if sliceApproxEqual(left.Field(1), lBeg, lEnd, right.Field(1), rBeg, rEnd, opt) {
-				found = true
-				used[j] = true
-				break
-			}
-		}
-		if !found {
-			return false
-		}
-	}
-
-	return len(used) == right.Len()
-}
diff --git a/go/arrow/array/compare_test.go b/go/arrow/array/compare_test.go
deleted file mode 100644
index f757ab9f25f07..0000000000000
--- a/go/arrow/array/compare_test.go
+++ /dev/null
@@ -1,728 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"sort"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestArrayEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.Equal(arr, arr) {
-						t.Fatalf("identical arrays should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.Equal(sub1, sub2) && name != "nulls" {
-						t.Fatalf("non-identical arrays should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArraySliceEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.SliceEqual(
-						arr, 0, int64(arr.Len()),
-						arr, 0, int64(arr.Len()),
-					) {
-						t.Fatalf("identical slices should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.SliceEqual(sub1, 0, int64(sub1.Len()), sub2, 0, int64(sub2.Len())) && name != "nulls" {
-						t.Fatalf("non-identical slices should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArrayApproxEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.ApproxEqual(arr, arr) {
-						t.Fatalf("identical arrays should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.ApproxEqual(sub1, sub2) && name != "nulls" {
-						t.Fatalf("non-identical arrays should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArrayApproxEqualFloats(t *testing.T) {
-	f16sFrom := func(vs []float64) []float16.Num {
-		o := make([]float16.Num, len(vs))
-		for i, v := range vs {
-			o[i] = float16.New(float32(v))
-		}
-		return o
-	}
-
-	for _, tc := range []struct {
-		name string
-		a1   interface{}
-		a2   interface{}
-		opts []array.EqualOption
-		want bool
-	}{
-		{
-			name: "f16",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			want: true,
-		},
-		{
-			name: "f16-no-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 7}),
-			want: false,
-		},
-		{
-			name: "f16-tol-ok",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 7}),
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f16-nan",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			want: false,
-		},
-		{
-			name: "f16-nan-not",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f16-nan-ok",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f16-nan-no-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 6, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f16-nan-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 6, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f32",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 6},
-			want: true,
-		},
-		{
-			name: "f32-no-tol",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 7},
-			want: false,
-		},
-		{
-			name: "f32-tol-ok",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 7},
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f32-nan",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			want: false,
-		},
-		{
-			name: "f32-nan-not",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f32-nan-ok",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f32-nan-no-tol",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 6, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f32-nan-tol",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 6, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f64",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 6},
-			want: true,
-		},
-		{
-			name: "f64-no-tol",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 7},
-			want: false,
-		},
-		{
-			name: "f64-tol-ok",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 7},
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f64-nan",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			want: false,
-		},
-		{
-			name: "f64-nan-not",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f64-nan-ok",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f64-nan-no-tol",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 6, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f64-nan-tol",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 6, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			a1 := arrayOf(mem, tc.a1, nil)
-			defer a1.Release()
-			a2 := arrayOf(mem, tc.a2, nil)
-			defer a2.Release()
-
-			if got, want := array.ApproxEqual(a1, a2, tc.opts...), tc.want; got != want {
-				t.Fatalf("invalid comparison: got=%v, want=%v\na1: %v\na2: %v\n", got, want, a1, a2)
-			}
-		})
-	}
-}
-
-func testStringMap(mem memory.Allocator, m map[string]string, keys []string) *array.Map {
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	builder := array.NewMapBuilderWithType(mem, dt)
-	defer builder.Release()
-	key, item := builder.KeyBuilder().(*array.StringBuilder), builder.ItemBuilder().(*array.StringBuilder)
-
-	builder.AppendNull()
-	builder.Append(true)
-
-	for _, k := range keys {
-		key.Append(k)
-
-		v, ok := m[k]
-		if !ok {
-			item.AppendNull()
-			continue
-		}
-
-		item.Append(v)
-	}
-
-	return builder.NewMapArray()
-}
-
-func TestArrayApproxEqualMaps(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	t.Run("different order", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z"}
-
-		keys := []string{"z", "y", "x", "null"}
-		a := testStringMap(mem, m, keys)
-		defer a.Release()
-
-		asc := make([]string, len(keys))
-		copy(asc, keys)
-		sort.Strings(asc)
-		assert.NotEqual(t, keys, asc)
-
-		b := testStringMap(mem, m, asc)
-		defer b.Release()
-
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.True(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("extra left value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		aKeys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("extra right value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		aKeys := []string{"z", "y", "x"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x", "extra"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("unmatched value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra", "extra2": "extra"}
-
-		aKeys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x", "extra2"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("different value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		keys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, keys)
-		defer a.Release()
-
-		m["extra"] = "different"
-		b := testStringMap(mem, m, keys)
-		defer b.Release()
-
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-}
-
-func arrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []float16.Num:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat16Array()
-
-	case []float32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat32Array()
-
-	case []float64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat64Array()
-
-	default:
-		panic(fmt.Errorf("arrdata: invalid data slice type %T", a))
-	}
-}
-
-func TestArrayEqualBaseArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b1 := array.NewBooleanBuilder(mem)
-	defer b1.Release()
-	b1.Append(true)
-	a1 := b1.NewBooleanArray()
-	defer a1.Release()
-
-	b2 := array.NewBooleanBuilder(mem)
-	defer b2.Release()
-	a2 := b2.NewBooleanArray()
-	defer a2.Release()
-
-	if array.Equal(a1, a2) {
-		t.Errorf("two arrays with different lengths must not be equal")
-	}
-
-	b3 := array.NewBooleanBuilder(mem)
-	defer b3.Release()
-	b3.AppendNull()
-	a3 := b3.NewBooleanArray()
-	defer a3.Release()
-
-	if array.Equal(a1, a3) {
-		t.Errorf("two arrays with different number of null values must not be equal")
-	}
-
-	b4 := array.NewInt32Builder(mem)
-	defer b4.Release()
-	b4.Append(0)
-	a4 := b4.NewInt32Array()
-	defer a4.Release()
-
-	if array.Equal(a1, a4) {
-		t.Errorf("two arrays with different types must not be equal")
-	}
-
-	b5 := array.NewBooleanBuilder(mem)
-	defer b5.Release()
-	b5.AppendNull()
-	b5.Append(true)
-	a5 := b5.NewBooleanArray()
-	defer a5.Release()
-	b1.AppendNull()
-
-	if array.Equal(a1, a5) {
-		t.Errorf("two arrays with different validity bitmaps must not be equal")
-	}
-}
-
-func TestArrayEqualNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	null := array.NewNull(0)
-	defer null.Release()
-
-	if !array.Equal(null, null) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-
-	n0 := array.NewNull(10)
-	defer n0.Release()
-
-	n1 := array.NewNull(10)
-	defer n1.Release()
-
-	if !array.Equal(n0, n0) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-	if !array.Equal(n1, n1) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-	if !array.Equal(n0, n1) || !array.Equal(n1, n0) {
-		t.Fatalf("n0 and n1 should compare equal")
-	}
-
-	sub07 := array.NewSlice(n0, 0, 7)
-	defer sub07.Release()
-	sub08 := array.NewSlice(n0, 0, 8)
-	defer sub08.Release()
-	sub19 := array.NewSlice(n0, 1, 9)
-	defer sub19.Release()
-
-	if !array.Equal(sub08, sub19) {
-		t.Fatalf("sub08 and sub19 should compare equal")
-	}
-
-	if array.Equal(sub08, sub07) {
-		t.Fatalf("sub08 and sub07 should not compare equal")
-	}
-}
-
-func TestArrayEqualMaskedArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	valids := []bool{false, false, false, false}
-	ab.AppendValues([]int32{1, 2, 0, 4}, valids)
-
-	a1 := ab.NewInt32Array()
-	defer a1.Release()
-
-	ab.AppendValues([]int32{1, 2, 3, 4}, valids)
-	a2 := ab.NewInt32Array()
-	defer a2.Release()
-
-	if !array.Equal(a1, a1) || !array.Equal(a2, a2) {
-		t.Errorf("an array must be equal to itself")
-	}
-
-	if !array.Equal(a1, a2) {
-		t.Errorf("%v must be equal to %v", a1, a2)
-	}
-}
-
-func TestArrayEqualDifferentMaskedValues(t *testing.T) {
-	// test 2 int32 arrays, with same nulls (but different masked values) compare equal.
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	valids := []bool{true, true, false, true}
-	ab.AppendValues([]int32{1, 2, 0, 4}, valids)
-
-	a1 := ab.NewInt32Array()
-	defer a1.Release()
-
-	ab.AppendValues([]int32{1, 2, 3, 4}, valids)
-	a2 := ab.NewInt32Array()
-	defer a2.Release()
-
-	if !array.Equal(a1, a1) || !array.Equal(a2, a2) {
-		t.Errorf("an array must be equal to itself")
-	}
-
-	if !array.Equal(a1, a2) {
-		t.Errorf("%v must be equal to %v", a1, a2)
-	}
-}
-
-func TestRecordEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec0 := recs[0]
-			rec1 := recs[1]
-			if !array.RecordEqual(rec0, rec0) {
-				t.Fatalf("identical records should compare equal:\nrecord:\n%v", rec0)
-			}
-
-			if array.RecordEqual(rec0, rec1) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nrec0:\n%v\nrec1:\n%v", rec0, rec1)
-			}
-
-			sub00 := rec0.NewSlice(0, recs[0].NumRows()-1)
-			defer sub00.Release()
-			sub01 := rec0.NewSlice(1, recs[0].NumRows())
-			defer sub01.Release()
-
-			if array.RecordEqual(sub00, sub01) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nsub0:\n%v\nsub1:\n%v", sub00, sub01)
-			}
-		})
-	}
-}
-
-func TestRecordApproxEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec0 := recs[0]
-			rec1 := recs[1]
-			if !array.RecordApproxEqual(rec0, rec0) {
-				t.Fatalf("identical records should compare equal:\nrecord:\n%v", rec0)
-			}
-
-			if array.RecordApproxEqual(rec0, rec1) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nrec0:\n%v\nrec1:\n%v", rec0, rec1)
-			}
-
-			sub00 := rec0.NewSlice(0, recs[0].NumRows()-1)
-			defer sub00.Release()
-			sub01 := rec0.NewSlice(1, recs[0].NumRows())
-			defer sub01.Release()
-
-			if array.RecordApproxEqual(sub00, sub01) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nsub0:\n%v\nsub1:\n%v", sub00, sub01)
-			}
-		})
-	}
-}
-
-func TestChunkedEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			tbl := array.NewTableFromRecords(recs[0].Schema(), recs)
-			defer tbl.Release()
-
-			for i := 0; i < int(tbl.NumCols()); i++ {
-				if !array.ChunkedEqual(tbl.Column(i).Data(), tbl.Column(i).Data()) && name != "nulls" {
-					t.Fatalf("identical chunked arrays should compare as equal:\narr:%v\n", tbl.Column(i).Data())
-				}
-			}
-		})
-	}
-}
-
-func TestChunkedApproxEqual(t *testing.T) {
-	fb := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c1 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c1.Release()
-
-	fb.AppendValues([]float64{1, 2, 3}, nil)
-	f4 := fb.NewFloat64Array()
-	defer f4.Release()
-
-	fb.AppendValues([]float64{4, 5}, nil)
-	f5 := fb.NewFloat64Array()
-	defer f5.Release()
-
-	fb.AppendValues([]float64{6, 7, 8, 9}, nil)
-	f6 := fb.NewFloat64Array()
-	defer f6.Release()
-
-	fb.AppendValues([]float64{10}, nil)
-	f7 := fb.NewFloat64Array()
-	defer f7.Release()
-
-	c2 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f4, f5, f6, f7},
-	)
-	defer c2.Release()
-
-	assert.True(t, array.ChunkedEqual(c1, c2))
-	assert.True(t, array.ChunkedApproxEqual(c1, c2))
-}
-
-func TestTableEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			tbl := array.NewTableFromRecords(recs[0].Schema(), recs)
-			defer tbl.Release()
-
-			if !array.TableEqual(tbl, tbl) {
-				t.Fatalf("identical tables should compare as equal:\tbl:%v\n", tbl)
-			}
-			if !array.TableApproxEqual(tbl, tbl) {
-				t.Fatalf("identical tables should compare as approx equal:\tbl:%v\n", tbl)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/concat.go b/go/arrow/array/concat.go
deleted file mode 100644
index 3d2b4b4b83167..0000000000000
--- a/go/arrow/array/concat.go
+++ /dev/null
@@ -1,933 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Concatenate creates a new arrow.Array which is the concatenation of the
-// passed in arrays. Returns nil if an error is encountered.
-//
-// The passed in arrays still need to be released manually, and will not be
-// released by this function.
-func Concatenate(arrs []arrow.Array, mem memory.Allocator) (result arrow.Array, err error) {
-	if len(arrs) == 0 {
-		return nil, errors.New("array/concat: must pass at least one array")
-	}
-
-	// gather Data of inputs
-	data := make([]arrow.ArrayData, len(arrs))
-	for i, ar := range arrs {
-		if !arrow.TypeEqual(ar.DataType(), arrs[0].DataType()) {
-			return nil, fmt.Errorf("arrays to be concatenated must be identically typed, but %s and %s were encountered",
-				arrs[0].DataType(), ar.DataType())
-		}
-		data[i] = ar.Data()
-	}
-
-	out, err := concat(data, mem)
-	if err != nil {
-		return nil, err
-	}
-
-	defer out.Release()
-	return MakeFromData(out), nil
-}
-
-// simple struct to hold ranges
-type rng struct {
-	offset, len int
-}
-
-// simple bitmap struct to reference a specific slice of a bitmap where the range
-// offset and length are in bits
-type bitmap struct {
-	data []byte
-	rng  rng
-}
-
-// gather up the bitmaps from the passed in data objects
-func gatherBitmaps(data []arrow.ArrayData, idx int) []bitmap {
-	out := make([]bitmap, len(data))
-	for i, d := range data {
-		if d.Buffers()[idx] != nil {
-			out[i].data = d.Buffers()[idx].Bytes()
-		}
-		out[i].rng.offset = d.Offset()
-		out[i].rng.len = d.Len()
-	}
-	return out
-}
-
-// gatherFixedBuffers gathers up the buffer objects of the given index, specifically
-// returning only the slices of the buffers which are relevant to the passed in arrays
-// in case they are themselves slices of other arrays. nil buffers are ignored and not
-// in the output slice.
-func gatherFixedBuffers(data []arrow.ArrayData, idx, byteWidth int) []*memory.Buffer {
-	out := make([]*memory.Buffer, 0, len(data))
-	for _, d := range data {
-		buf := d.Buffers()[idx]
-		if buf == nil {
-			continue
-		}
-
-		out = append(out, memory.NewBufferBytes(buf.Bytes()[d.Offset()*byteWidth:(d.Offset()+d.Len())*byteWidth]))
-	}
-	return out
-}
-
-// gatherBuffersFixedWidthType is like gatherFixedBuffers, but uses a datatype to determine the size
-// to use for determining the byte slice rather than a passed in bytewidth.
-func gatherBuffersFixedWidthType(data []arrow.ArrayData, idx int, fixed arrow.FixedWidthDataType) []*memory.Buffer {
-	return gatherFixedBuffers(data, idx, fixed.BitWidth()/8)
-}
-
-// gatherBufferRanges requires that len(ranges) == len(data) and returns a list of buffers
-// which represent the corresponding range of each buffer in the specified index of each
-// data object.
-func gatherBufferRanges(data []arrow.ArrayData, idx int, ranges []rng) []*memory.Buffer {
-	out := make([]*memory.Buffer, 0, len(data))
-	for i, d := range data {
-		buf := d.Buffers()[idx]
-		if buf == nil {
-			debug.Assert(ranges[i].len == 0, "misaligned buffer value ranges")
-			continue
-		}
-
-		out = append(out, memory.NewBufferBytes(buf.Bytes()[ranges[i].offset:ranges[i].offset+ranges[i].len]))
-	}
-	return out
-}
-
-// gatherChildren gathers the children data objects for child of index idx for all of the data objects.
-func gatherChildren(data []arrow.ArrayData, idx int) []arrow.ArrayData {
-	return gatherChildrenMultiplier(data, idx, 1)
-}
-
-// gatherChildrenMultiplier gathers the full data slice of the underlying values from the children data objects
-// such as the values data for a list array so that it can return a slice of the buffer for a given
-// index into the children.
-func gatherChildrenMultiplier(data []arrow.ArrayData, idx, multiplier int) []arrow.ArrayData {
-	out := make([]arrow.ArrayData, len(data))
-	for i, d := range data {
-		out[i] = NewSliceData(d.Children()[idx], int64(d.Offset()*multiplier), int64(d.Offset()+d.Len())*int64(multiplier))
-	}
-	return out
-}
-
-// gatherChildrenRanges returns a slice of Data objects which each represent slices of the given ranges from the
-// child in the specified index from each data object.
-func gatherChildrenRanges(data []arrow.ArrayData, idx int, ranges []rng) []arrow.ArrayData {
-	debug.Assert(len(data) == len(ranges), "mismatched children ranges for concat")
-	out := make([]arrow.ArrayData, len(data))
-	for i, d := range data {
-		out[i] = NewSliceData(d.Children()[idx], int64(ranges[i].offset), int64(ranges[i].offset+ranges[i].len))
-	}
-	return out
-}
-
-// creates a single contiguous buffer which contains the concatenation of all of the passed
-// in buffer objects.
-func concatBuffers(bufs []*memory.Buffer, mem memory.Allocator) *memory.Buffer {
-	outLen := 0
-	for _, b := range bufs {
-		outLen += b.Len()
-	}
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(outLen)
-
-	data := out.Bytes()
-	for _, b := range bufs {
-		copy(data, b.Bytes())
-		data = data[b.Len():]
-	}
-	return out
-}
-
-func handle32BitOffsets(outLen int, buffers []*memory.Buffer, out *memory.Buffer) (*memory.Buffer, []rng, error) {
-	dst := arrow.Int32Traits.CastFromBytes(out.Bytes())
-	valuesRanges := make([]rng, len(buffers))
-	nextOffset := int32(0)
-	nextElem := int(0)
-	for i, b := range buffers {
-		if b.Len() == 0 {
-			valuesRanges[i].offset = 0
-			valuesRanges[i].len = 0
-			continue
-		}
-
-		// when we gather our buffers, we sliced off the last offset from the buffer
-		// so that we could count the lengths accurately
-		src := arrow.Int32Traits.CastFromBytes(b.Bytes())
-		valuesRanges[i].offset = int(src[0])
-		// expand our slice to see that final offset
-		expand := src[:len(src)+1]
-		// compute the length of this range by taking the final offset and subtracting where we started.
-		valuesRanges[i].len = int(expand[len(src)]) - valuesRanges[i].offset
-
-		if nextOffset > math.MaxInt32-int32(valuesRanges[i].len) {
-			return nil, nil, errors.New("offset overflow while concatenating arrays")
-		}
-
-		// adjust each offset by the difference between our last ending point and our starting point
-		adj := nextOffset - src[0]
-		for j, o := range src {
-			dst[nextElem+j] = adj + o
-		}
-
-		// the next index for an element in the output buffer
-		nextElem += b.Len() / arrow.Int32SizeBytes
-		// update our offset counter to be the total current length of our output
-		nextOffset += int32(valuesRanges[i].len)
-	}
-
-	// final offset should point to the end of the data
-	dst[outLen] = nextOffset
-	return out, valuesRanges, nil
-}
-
-func unifyDictionaries(mem memory.Allocator, data []arrow.ArrayData, dt *arrow.DictionaryType) ([]*memory.Buffer, arrow.Array, error) {
-	unifier, err := NewDictionaryUnifier(mem, dt.ValueType)
-	if err != nil {
-		return nil, nil, err
-	}
-	defer unifier.Release()
-
-	newLookup := make([]*memory.Buffer, len(data))
-	for i, d := range data {
-		dictArr := MakeFromData(d.Dictionary())
-		defer dictArr.Release()
-		newLookup[i], err = unifier.UnifyAndTranspose(dictArr)
-		if err != nil {
-			return nil, nil, err
-		}
-	}
-
-	unified, err := unifier.GetResultWithIndexType(dt.IndexType)
-	if err != nil {
-		for _, b := range newLookup {
-			b.Release()
-		}
-		return nil, nil, err
-	}
-	return newLookup, unified, nil
-}
-
-func concatDictIndices(mem memory.Allocator, data []arrow.ArrayData, idxType arrow.FixedWidthDataType, transpositions []*memory.Buffer) (out *memory.Buffer, err error) {
-	defer func() {
-		if err != nil && out != nil {
-			out.Release()
-			out = nil
-		}
-	}()
-
-	idxWidth := idxType.BitWidth() / 8
-	outLen := 0
-	for i, d := range data {
-		outLen += d.Len()
-		defer transpositions[i].Release()
-	}
-
-	out = memory.NewResizableBuffer(mem)
-	out.Resize(outLen * idxWidth)
-
-	outData := out.Bytes()
-	for i, d := range data {
-		transposeMap := arrow.Int32Traits.CastFromBytes(transpositions[i].Bytes())
-		src := d.Buffers()[1].Bytes()
-		if d.Buffers()[0] == nil {
-			if err = utils.TransposeIntsBuffers(idxType, idxType, src, outData, d.Offset(), 0, d.Len(), transposeMap); err != nil {
-				return
-			}
-		} else {
-			rdr := bitutils.NewBitRunReader(d.Buffers()[0].Bytes(), int64(d.Offset()), int64(d.Len()))
-			pos := 0
-			for {
-				run := rdr.NextRun()
-				if run.Len == 0 {
-					break
-				}
-
-				if run.Set {
-					err = utils.TransposeIntsBuffers(idxType, idxType, src, outData, d.Offset()+pos, pos, int(run.Len), transposeMap)
-					if err != nil {
-						return
-					}
-				} else {
-					memory.Set(outData[pos:pos+(int(run.Len)*idxWidth)], 0x00)
-				}
-
-				pos += int(run.Len)
-			}
-		}
-		outData = outData[d.Len()*idxWidth:]
-	}
-	return
-}
-
-func handle64BitOffsets(outLen int, buffers []*memory.Buffer, out *memory.Buffer) (*memory.Buffer, []rng, error) {
-	dst := arrow.Int64Traits.CastFromBytes(out.Bytes())
-	valuesRanges := make([]rng, len(buffers))
-	nextOffset := int64(0)
-	nextElem := int(0)
-	for i, b := range buffers {
-		if b.Len() == 0 {
-			valuesRanges[i].offset = 0
-			valuesRanges[i].len = 0
-			continue
-		}
-
-		// when we gather our buffers, we sliced off the last offset from the buffer
-		// so that we could count the lengths accurately
-		src := arrow.Int64Traits.CastFromBytes(b.Bytes())
-		valuesRanges[i].offset = int(src[0])
-		// expand our slice to see that final offset
-		expand := src[:len(src)+1]
-		// compute the length of this range by taking the final offset and subtracting where we started.
-		valuesRanges[i].len = int(expand[len(src)]) - valuesRanges[i].offset
-
-		if nextOffset > math.MaxInt64-int64(valuesRanges[i].len) {
-			return nil, nil, errors.New("offset overflow while concatenating arrays")
-		}
-
-		// adjust each offset by the difference between our last ending point and our starting point
-		adj := nextOffset - src[0]
-		for j, o := range src {
-			dst[nextElem+j] = adj + o
-		}
-
-		// the next index for an element in the output buffer
-		nextElem += b.Len() / arrow.Int64SizeBytes
-		// update our offset counter to be the total current length of our output
-		nextOffset += int64(valuesRanges[i].len)
-	}
-
-	// final offset should point to the end of the data
-	dst[outLen] = nextOffset
-	return out, valuesRanges, nil
-}
-
-// concatOffsets creates a single offset buffer which represents the concatenation of all of the
-// offsets buffers, adjusting the offsets appropriately to their new relative locations.
-//
-// It also returns the list of ranges that need to be fetched for the corresponding value buffers
-// to construct the final concatenated value buffer.
-func concatOffsets(buffers []*memory.Buffer, byteWidth int, mem memory.Allocator) (*memory.Buffer, []rng, error) {
-	outLen := 0
-	for _, b := range buffers {
-		outLen += b.Len() / byteWidth
-	}
-
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(byteWidth * (outLen + 1))
-
-	switch byteWidth {
-	case arrow.Int64SizeBytes:
-		return handle64BitOffsets(outLen, buffers, out)
-	default:
-		return handle32BitOffsets(outLen, buffers, out)
-	}
-}
-
-func sumArraySizes(data []arrow.ArrayData) int {
-	outSize := 0
-	for _, arr := range data {
-		outSize += arr.Len()
-	}
-	return outSize
-}
-
-func getListViewBufferValues[T int32 | int64](data arrow.ArrayData, i int) []T {
-	bytes := data.Buffers()[i].Bytes()
-	base := (*T)(unsafe.Pointer(&bytes[0]))
-	ret := unsafe.Slice(base, data.Offset()+data.Len())
-	return ret[data.Offset():]
-}
-
-func putListViewOffsets32(in arrow.ArrayData, displacement int32, out *memory.Buffer, outOff int) {
-	debug.Assert(in.DataType().ID() == arrow.LIST_VIEW, "putListViewOffsets32: expected LIST_VIEW data")
-	inOff, inLen := in.Offset(), in.Len()
-	if inLen == 0 {
-		return
-	}
-	bitmap := in.Buffers()[0]
-	srcOffsets := getListViewBufferValues[int32](in, 1)
-	srcSizes := getListViewBufferValues[int32](in, 2)
-	isValidAndNonEmpty := func(i int) bool {
-		return (bitmap == nil || bitutil.BitIsSet(bitmap.Bytes(), inOff+i)) && srcSizes[i] > 0
-	}
-
-	dstOffsets := arrow.Int32Traits.CastFromBytes(out.Bytes())
-	for i, offset := range srcOffsets {
-		if isValidAndNonEmpty(i) {
-			// This is guaranteed by RangeOfValuesUsed returning the smallest offset
-			// of valid and non-empty list-views.
-			debug.Assert(offset+displacement >= 0, "putListViewOffsets32: offset underflow while concatenating arrays")
-			dstOffsets[outOff+i] = offset + displacement
-		} else {
-			dstOffsets[outOff+i] = 0
-		}
-	}
-}
-
-func putListViewOffsets64(in arrow.ArrayData, displacement int64, out *memory.Buffer, outOff int) {
-	debug.Assert(in.DataType().ID() == arrow.LARGE_LIST_VIEW, "putListViewOffsets64: expected LARGE_LIST_VIEW data")
-	inOff, inLen := in.Offset(), in.Len()
-	if inLen == 0 {
-		return
-	}
-	bitmap := in.Buffers()[0]
-	srcOffsets := getListViewBufferValues[int64](in, 1)
-	srcSizes := getListViewBufferValues[int64](in, 2)
-	isValidAndNonEmpty := func(i int) bool {
-		return (bitmap == nil || bitutil.BitIsSet(bitmap.Bytes(), inOff+i)) && srcSizes[i] > 0
-	}
-
-	dstOffsets := arrow.Int64Traits.CastFromBytes(out.Bytes())
-	for i, offset := range srcOffsets {
-		if isValidAndNonEmpty(i) {
-			// This is guaranteed by RangeOfValuesUsed returning the smallest offset
-			// of valid and non-empty list-views.
-			debug.Assert(offset+displacement >= 0, "putListViewOffsets64: offset underflow while concatenating arrays")
-			dstOffsets[outOff+i] = offset + displacement
-		} else {
-			dstOffsets[outOff+i] = 0
-		}
-	}
-}
-
-// Concatenate buffers holding list-view offsets into a single buffer of offsets
-//
-// valueRanges contains the relevant ranges of values in the child array actually
-// referenced to by the views. Most commonly, these ranges will start from 0,
-// but when that is not the case, we need to adjust the displacement of offsets.
-// The concatenated child array does not contain values from the beginning
-// if they are not referenced to by any view.
-func concatListViewOffsets(data []arrow.ArrayData, byteWidth int, valueRanges []rng, mem memory.Allocator) (*memory.Buffer, error) {
-	outSize := sumArraySizes(data)
-	if byteWidth == 4 && outSize > math.MaxInt32 {
-		return nil, fmt.Errorf("%w: offset overflow while concatenating arrays", arrow.ErrInvalid)
-	}
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(byteWidth * outSize)
-
-	numChildValues, elementsLength := 0, 0
-	for i, arr := range data {
-		displacement := numChildValues - valueRanges[i].offset
-		if byteWidth == 4 {
-			putListViewOffsets32(arr, int32(displacement), out, elementsLength)
-		} else {
-			putListViewOffsets64(arr, int64(displacement), out, elementsLength)
-		}
-		elementsLength += arr.Len()
-		numChildValues += valueRanges[i].len
-	}
-	debug.Assert(elementsLength == outSize, "implementation error")
-
-	return out, nil
-}
-
-func zeroNullListViewSizes[T int32 | int64](data arrow.ArrayData) {
-	if data.Len() == 0 || data.Buffers()[0] == nil {
-		return
-	}
-	validity := data.Buffers()[0].Bytes()
-	sizes := getListViewBufferValues[T](data, 2)
-
-	for i := 0; i < data.Len(); i++ {
-		if !bitutil.BitIsSet(validity, data.Offset()+i) {
-			sizes[i] = 0
-		}
-	}
-}
-
-func concatListView(data []arrow.ArrayData, offsetType arrow.FixedWidthDataType, out *Data, mem memory.Allocator) (err error) {
-	// Calculate the ranges of values that each list-view array uses
-	valueRanges := make([]rng, len(data))
-	for i, input := range data {
-		offset, len := rangeOfValuesUsed(input)
-		valueRanges[i].offset = offset
-		valueRanges[i].len = len
-	}
-
-	// Gather the children ranges of each input array
-	childData := gatherChildrenRanges(data, 0, valueRanges)
-	for _, c := range childData {
-		defer c.Release()
-	}
-
-	// Concatenate the values
-	values, err := concat(childData, mem)
-	if err != nil {
-		return err
-	}
-
-	// Concatenate the offsets
-	offsetBuffer, err := concatListViewOffsets(data, offsetType.Bytes(), valueRanges, mem)
-	if err != nil {
-		return err
-	}
-
-	// Concatenate the sizes
-	sizeBuffers := gatherBuffersFixedWidthType(data, 2, offsetType)
-	sizeBuffer := concatBuffers(sizeBuffers, mem)
-
-	out.childData = []arrow.ArrayData{values}
-	out.buffers[1] = offsetBuffer
-	out.buffers[2] = sizeBuffer
-
-	// To make sure the sizes don't reference values that are not in the new
-	// concatenated values array, we zero the sizes of null list-view values.
-	if offsetType.ID() == arrow.INT32 {
-		zeroNullListViewSizes[int32](out)
-	} else {
-		zeroNullListViewSizes[int64](out)
-	}
-
-	return nil
-}
-
-// concat is the implementation for actually performing the concatenation of the arrow.ArrayData
-// objects that we can call internally for nested types.
-func concat(data []arrow.ArrayData, mem memory.Allocator) (arr arrow.ArrayData, err error) {
-	out := &Data{refCount: 1, dtype: data[0].DataType(), nulls: 0}
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/concat", pErr)
-		}
-		if err != nil {
-			out.Release()
-		}
-	}()
-	for _, d := range data {
-		out.length += d.Len()
-		if out.nulls == UnknownNullCount || d.NullN() == UnknownNullCount {
-			out.nulls = UnknownNullCount
-			continue
-		}
-		out.nulls += d.NullN()
-	}
-
-	out.buffers = make([]*memory.Buffer, len(data[0].Buffers()))
-	if out.nulls != 0 && out.dtype.ID() != arrow.NULL {
-		bm, err := concatBitmaps(gatherBitmaps(data, 0), mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[0] = bm
-	}
-
-	dt := out.dtype
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-	case *arrow.BooleanType:
-		bm, err := concatBitmaps(gatherBitmaps(data, 1), mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[1] = bm
-	case *arrow.DictionaryType:
-		idxType := dt.IndexType.(arrow.FixedWidthDataType)
-		// two cases: all dictionaries are the same or we need to unify them
-		dictsSame := true
-		dict0 := MakeFromData(data[0].Dictionary())
-		defer dict0.Release()
-		for _, d := range data {
-			dict := MakeFromData(d.Dictionary())
-			if !Equal(dict0, dict) {
-				dict.Release()
-				dictsSame = false
-				break
-			}
-			dict.Release()
-		}
-
-		indexBuffers := gatherBuffersFixedWidthType(data, 1, idxType)
-		if dictsSame {
-			out.dictionary = dict0.Data().(*Data)
-			out.dictionary.Retain()
-			out.buffers[1] = concatBuffers(indexBuffers, mem)
-			break
-		}
-
-		indexLookup, unifiedDict, err := unifyDictionaries(mem, data, dt)
-		if err != nil {
-			return nil, err
-		}
-		defer unifiedDict.Release()
-		out.dictionary = unifiedDict.Data().(*Data)
-		out.dictionary.Retain()
-
-		out.buffers[1], err = concatDictIndices(mem, data, idxType, indexLookup)
-		if err != nil {
-			return nil, err
-		}
-	case arrow.FixedWidthDataType:
-		out.buffers[1] = concatBuffers(gatherBuffersFixedWidthType(data, 1, dt), mem)
-	case arrow.BinaryViewDataType:
-		out.buffers = out.buffers[:2]
-		for _, d := range data {
-			for _, buf := range d.Buffers()[2:] {
-				buf.Retain()
-				out.buffers = append(out.buffers, buf)
-			}
-		}
-
-		out.buffers[1] = concatBuffers(gatherFixedBuffers(data, 1, arrow.ViewHeaderSizeBytes), mem)
-
-		var (
-			s                  = arrow.ViewHeaderTraits.CastFromBytes(out.buffers[1].Bytes())
-			i                  = data[0].Len()
-			precedingBufsCount int
-		)
-
-		for idx := 1; idx < len(data); idx++ {
-			precedingBufsCount += len(data[idx-1].Buffers()) - 2
-
-			for end := i + data[idx].Len(); i < end; i++ {
-				if s[i].IsInline() {
-					continue
-				}
-
-				bufIndex := s[i].BufferIndex() + int32(precedingBufsCount)
-				s[i].SetIndexOffset(bufIndex, s[i].BufferOffset())
-			}
-		}
-	case arrow.BinaryDataType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[1] = offsetBuffer
-		out.buffers[2] = concatBuffers(gatherBufferRanges(data, 2, valueRanges), mem)
-	case *arrow.ListType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.LargeListType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.ListViewType:
-		offsetType := arrow.PrimitiveTypes.Int32.(arrow.FixedWidthDataType)
-		err := concatListView(data, offsetType, out, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.LargeListViewType:
-		offsetType := arrow.PrimitiveTypes.Int64.(arrow.FixedWidthDataType)
-		err := concatListView(data, offsetType, out, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.FixedSizeListType:
-		childData := gatherChildrenMultiplier(data, 0, int(dt.Len()))
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		children, err := concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-		out.childData = []arrow.ArrayData{children}
-	case *arrow.StructType:
-		out.childData = make([]arrow.ArrayData, dt.NumFields())
-		for i := range dt.Fields() {
-			children := gatherChildren(data, i)
-			for _, c := range children {
-				defer c.Release()
-			}
-
-			childData, err := concat(children, mem)
-			if err != nil {
-				return nil, err
-			}
-			out.childData[i] = childData
-		}
-	case *arrow.MapType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.RunEndEncodedType:
-		physicalLength, overflow := int(0), false
-		// we can't use gatherChildren because the Offset and Len of
-		// data doesn't correspond to the physical length or offset
-		runs := make([]arrow.ArrayData, len(data))
-		values := make([]arrow.ArrayData, len(data))
-		for i, d := range data {
-			plen := encoded.GetPhysicalLength(d)
-			off := encoded.FindPhysicalOffset(d)
-
-			runs[i] = NewSliceData(d.Children()[0], int64(off), int64(off+plen))
-			defer runs[i].Release()
-			values[i] = NewSliceData(d.Children()[1], int64(off), int64(off+plen))
-			defer values[i].Release()
-
-			physicalLength, overflow = addOvf(physicalLength, plen)
-			if overflow {
-				return nil, fmt.Errorf("%w: run end encoded array length must fit into a 32-bit signed integer",
-					arrow.ErrInvalid)
-			}
-		}
-
-		runEndsByteWidth := runs[0].DataType().(arrow.FixedWidthDataType).Bytes()
-		runEndsBuffers := gatherFixedBuffers(runs, 1, runEndsByteWidth)
-		outRunEndsLen := physicalLength * runEndsByteWidth
-		outRunEndsBuf := memory.NewResizableBuffer(mem)
-		outRunEndsBuf.Resize(outRunEndsLen)
-		defer outRunEndsBuf.Release()
-
-		if err := updateRunEnds(runEndsByteWidth, data, runEndsBuffers, outRunEndsBuf); err != nil {
-			return nil, err
-		}
-
-		out.childData = make([]arrow.ArrayData, 2)
-		out.childData[0] = NewData(data[0].Children()[0].DataType(), int(physicalLength),
-			[]*memory.Buffer{nil, outRunEndsBuf}, nil, 0, 0)
-
-		var err error
-		out.childData[1], err = concat(values, mem)
-		if err != nil {
-			out.childData[0].Release()
-			return nil, err
-		}
-	default:
-		return nil, fmt.Errorf("concatenate not implemented for type %s", dt)
-	}
-
-	return out, nil
-}
-
-// check overflow in the addition, taken from bits.Add but adapted for signed integers
-// rather than unsigned integers. bits.UintSize will be either 32 or 64 based on
-// whether our architecture is 32 bit or 64. The operation is the same for both cases,
-// the only difference is how much we need to shift by 30 for 32 bit and 62 for 64 bit.
-// Thus, bits.UintSize - 2 is how much we shift right by to check if we had an overflow
-// in the signed addition.
-//
-// First return is the result of the sum, the second return is true if there was an overflow
-func addOvf(x, y int) (int, bool) {
-	sum := x + y
-	return sum, ((x&y)|((x|y)&^sum))>>(bits.UintSize-2) == 1
-}
-
-// concatenate bitmaps together and return a buffer with the combined bitmaps
-func concatBitmaps(bitmaps []bitmap, mem memory.Allocator) (*memory.Buffer, error) {
-	var (
-		outlen   int
-		overflow bool
-	)
-
-	for _, bm := range bitmaps {
-		if outlen, overflow = addOvf(outlen, bm.rng.len); overflow {
-			return nil, errors.New("length overflow when concatenating arrays")
-		}
-	}
-
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(int(bitutil.BytesForBits(int64(outlen))))
-	dst := out.Bytes()
-
-	offset := 0
-	for _, bm := range bitmaps {
-		if bm.data == nil { // if the bitmap is nil, that implies that the value is true for all elements
-			bitutil.SetBitsTo(out.Bytes(), int64(offset), int64(bm.rng.len), true)
-		} else {
-			bitutil.CopyBitmap(bm.data, bm.rng.offset, bm.rng.len, dst, offset)
-		}
-		offset += bm.rng.len
-	}
-	return out, nil
-}
-
-func updateRunEnds(byteWidth int, inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, outputBuffer *memory.Buffer) error {
-	switch byteWidth {
-	case 2:
-		out := arrow.Int16Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt16(inputData, inputBuffers, out)
-	case 4:
-		out := arrow.Int32Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt32(inputData, inputBuffers, out)
-	case 8:
-		out := arrow.Int64Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt64(inputData, inputBuffers, out)
-	}
-	return fmt.Errorf("%w: invalid dataType for RLE runEnds", arrow.ErrInvalid)
-}
-
-func updateRunsInt16(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int16) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int16Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if int64(lastEnd)+int64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt16 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + int16(int(e)-inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
-
-func updateRunsInt32(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int32) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int32Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if int64(lastEnd)+int64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt32 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + int32(int(e)-inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
-
-func updateRunsInt64(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int64) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int64Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if uint64(lastEnd)+uint64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt64 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + e - int64(inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
diff --git a/go/arrow/array/concat_test.go b/go/arrow/array/concat_test.go
deleted file mode 100644
index 7e6a3c08efd5c..0000000000000
--- a/go/arrow/array/concat_test.go
+++ /dev/null
@@ -1,789 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"sort"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/rand"
-)
-
-func TestConcatenateValueBuffersNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	inputs := make([]arrow.Array, 0)
-
-	bldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	inputs = append(inputs, arr)
-
-	bldr.AppendNull()
-	arr = bldr.NewArray()
-	defer arr.Release()
-	inputs = append(inputs, arr)
-
-	actual, err := array.Concatenate(inputs, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.True(t, array.Equal(actual, inputs[1]))
-}
-
-func TestConcatenate(t *testing.T) {
-	tests := []struct {
-		dt arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Boolean},
-		{arrow.PrimitiveTypes.Int8},
-		{arrow.PrimitiveTypes.Uint8},
-		{arrow.PrimitiveTypes.Int16},
-		{arrow.PrimitiveTypes.Uint16},
-		{arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Uint32},
-		{arrow.PrimitiveTypes.Int64},
-		{arrow.PrimitiveTypes.Uint64},
-		{arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float64},
-		{arrow.BinaryTypes.String},
-		{arrow.BinaryTypes.LargeString},
-		{arrow.ListOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.LargeListOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.ListViewOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.LargeListViewOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int8)},
-		{arrow.StructOf()},
-		{arrow.MapOf(arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int8)},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Float64}},
-		{arrow.BinaryTypes.StringView},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dt.Name(), func(t *testing.T) {
-			suite.Run(t, &ConcatTestSuite{
-				seed:      0xdeadbeef,
-				dt:        tt.dt,
-				nullProbs: []float64{0.0, 0.1, 0.5, 0.9, 1.0},
-				sizes:     []int32{0, 1, 2, 4, 16, 31, 1234},
-			})
-		})
-	}
-}
-
-type ConcatTestSuite struct {
-	suite.Suite
-
-	seed uint64
-	rng  gen.RandomArrayGenerator
-	dt   arrow.DataType
-
-	nullProbs []float64
-	sizes     []int32
-
-	mem *memory.CheckedAllocator
-}
-
-func (cts *ConcatTestSuite) SetupSuite() {
-	cts.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	cts.rng = gen.NewRandomArrayGenerator(cts.seed, cts.mem)
-}
-
-func (cts *ConcatTestSuite) TearDownSuite() {
-	cts.mem.AssertSize(cts.T(), 0)
-}
-
-func (cts *ConcatTestSuite) generateArr(size int64, nullprob float64) arrow.Array {
-	switch cts.dt.ID() {
-	case arrow.BOOL:
-		return cts.rng.Boolean(size, 0.5, nullprob)
-	case arrow.INT8:
-		return cts.rng.Int8(size, 0, 127, nullprob)
-	case arrow.UINT8:
-		return cts.rng.Uint8(size, 0, 127, nullprob)
-	case arrow.INT16:
-		return cts.rng.Int16(size, 0, 127, nullprob)
-	case arrow.UINT16:
-		return cts.rng.Uint16(size, 0, 127, nullprob)
-	case arrow.INT32:
-		return cts.rng.Int32(size, 0, 127, nullprob)
-	case arrow.UINT32:
-		return cts.rng.Uint32(size, 0, 127, nullprob)
-	case arrow.INT64:
-		return cts.rng.Int64(size, 0, 127, nullprob)
-	case arrow.UINT64:
-		return cts.rng.Uint64(size, 0, 127, nullprob)
-	case arrow.FLOAT32:
-		return cts.rng.Float32(size, 0, 127, nullprob)
-	case arrow.FLOAT64:
-		return cts.rng.Float64(size, 0, 127, nullprob)
-	case arrow.NULL:
-		return array.NewNull(int(size))
-	case arrow.STRING:
-		return cts.rng.String(size, 0, 15, nullprob)
-	case arrow.LARGE_STRING:
-		return cts.rng.LargeString(size, 0, 15, nullprob)
-	case arrow.STRING_VIEW:
-		return cts.rng.StringView(size, 0, 20, nullprob)
-	case arrow.LIST:
-		valuesSize := size * 4
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-		offsetsVector := cts.offsets(int32(valuesSize), int32(size))
-		// ensure the first and last offsets encompass the whole values
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int32(valuesSize)
-
-		bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-		defer bldr.Release()
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		vb := bldr.ValueBuilder().(*array.Int8Builder)
-		for i := 0; i < values.Len(); i++ {
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.LARGE_LIST:
-		valuesSize := size * 8
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-		offsetsVector := cts.largeoffsets(int64(valuesSize), int32(size))
-		// ensure the first and last offsets encompass the whole values
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int64(valuesSize)
-
-		bldr := array.NewLargeListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-		defer bldr.Release()
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		vb := bldr.ValueBuilder().(*array.Int8Builder)
-		for i := 0; i < values.Len(); i++ {
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.LIST_VIEW:
-		arr := cts.rng.ListView(cts.dt.(arrow.VarLenListLikeType), size, 0, 20, nullprob)
-		err := arr.ValidateFull()
-		cts.NoError(err)
-		return arr
-	case arrow.LARGE_LIST_VIEW:
-		arr := cts.rng.LargeListView(cts.dt.(arrow.VarLenListLikeType), size, 0, 20, nullprob)
-		err := arr.ValidateFull()
-		cts.NoError(err)
-		return arr
-	case arrow.FIXED_SIZE_LIST:
-		const listsize = 3
-		valuesSize := size * listsize
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob)
-		defer values.Release()
-
-		data := array.NewData(arrow.FixedSizeListOf(listsize, arrow.PrimitiveTypes.Int8), int(size), []*memory.Buffer{nil}, []arrow.ArrayData{values.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data)
-	case arrow.STRUCT:
-		foo := cts.rng.Int8(size, 0, 127, nullprob)
-		defer foo.Release()
-		bar := cts.rng.Float64(size, 0, 127, nullprob)
-		defer bar.Release()
-		baz := cts.rng.Boolean(size, 0.5, nullprob)
-		defer baz.Release()
-
-		data := array.NewData(arrow.StructOf(
-			arrow.Field{Name: "foo", Type: foo.DataType(), Nullable: true},
-			arrow.Field{Name: "bar", Type: bar.DataType(), Nullable: true},
-			arrow.Field{Name: "baz", Type: baz.DataType(), Nullable: true}),
-			int(size), []*memory.Buffer{nil}, []arrow.ArrayData{foo.Data(), bar.Data(), baz.Data()}, 0, 0)
-		defer data.Release()
-		return array.NewStructData(data)
-	case arrow.MAP:
-		valuesSize := size * 4
-		keys := cts.rng.Uint16(valuesSize, 0, 127, 0).(*array.Uint16)
-		defer keys.Release()
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-
-		offsetsVector := cts.offsets(int32(valuesSize), int32(size))
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int32(valuesSize)
-
-		bldr := array.NewMapBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int8, false)
-		defer bldr.Release()
-
-		kb := bldr.KeyBuilder().(*array.Uint16Builder)
-		vb := bldr.ItemBuilder().(*array.Int8Builder)
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		for i := 0; i < int(valuesSize); i++ {
-			kb.Append(keys.Value(i))
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.DICTIONARY:
-		indices := cts.rng.Int32(size, 0, 127, nullprob)
-		defer indices.Release()
-		dict := cts.rng.Float64(128, 0.0, 127.0, nullprob)
-		defer dict.Release()
-		return array.NewDictionaryArray(cts.dt, indices, dict)
-	default:
-		return nil
-	}
-}
-
-func (cts *ConcatTestSuite) slices(arr arrow.Array, offsets []int32) []arrow.Array {
-	slices := make([]arrow.Array, len(offsets)-1)
-	for i := 0; i != len(slices); i++ {
-		slices[i] = array.NewSlice(arr, int64(offsets[i]), int64(offsets[i+1]))
-	}
-	return slices
-}
-
-func (cts *ConcatTestSuite) checkTrailingBitsZeroed(bitmap *memory.Buffer, length int64) {
-	if preceding := bitutil.PrecedingBitmask[length%8]; preceding != 0 {
-		lastByte := bitmap.Bytes()[length/8]
-		cts.Equal(lastByte&preceding, lastByte, length, preceding)
-	}
-}
-
-func (cts *ConcatTestSuite) offsets(length, slicecount int32) []int32 {
-	offsets := make([]int32, slicecount+1)
-	dist := rand.New(rand.NewSource(cts.seed))
-	for i := range offsets {
-		offsets[i] = dist.Int31n(length + 1)
-	}
-	sort.Slice(offsets, func(i, j int) bool { return offsets[i] < offsets[j] })
-	return offsets
-}
-
-func (cts *ConcatTestSuite) largeoffsets(length int64, slicecount int32) []int64 {
-	offsets := make([]int64, slicecount+1)
-	dist := rand.New(rand.NewSource(cts.seed))
-	for i := range offsets {
-		offsets[i] = dist.Int63n(length + 1)
-	}
-	sort.Slice(offsets, func(i, j int) bool { return offsets[i] < offsets[j] })
-	return offsets
-}
-
-func (cts *ConcatTestSuite) TestCheckConcat() {
-	for _, sz := range cts.sizes {
-		cts.Run(fmt.Sprintf("size %d", sz), func() {
-			offsets := cts.offsets(sz, 3)
-			for _, np := range cts.nullProbs {
-				cts.Run(fmt.Sprintf("nullprob %0.2f", np), func() {
-					scopedMem := memory.NewCheckedAllocatorScope(cts.mem)
-					defer scopedMem.CheckSize(cts.T())
-
-					arr := cts.generateArr(int64(sz), np)
-					defer arr.Release()
-					expected := array.NewSlice(arr, int64(offsets[0]), int64(offsets[len(offsets)-1]))
-					defer expected.Release()
-
-					slices := cts.slices(arr, offsets)
-					for _, s := range slices {
-						if s.DataType().ID() == arrow.LIST_VIEW {
-							err := s.(*array.ListView).ValidateFull()
-							cts.NoError(err)
-						}
-						defer s.Release()
-					}
-
-					actual, err := array.Concatenate(slices, cts.mem)
-					cts.NoError(err)
-					if arr.DataType().ID() == arrow.LIST_VIEW {
-						lv := actual.(*array.ListView)
-						err := lv.ValidateFull()
-						cts.NoError(err)
-					}
-					defer actual.Release()
-
-					cts.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s\n", expected, actual)
-					if len(actual.Data().Buffers()) > 0 {
-						if actual.Data().Buffers()[0] != nil {
-							cts.checkTrailingBitsZeroed(actual.Data().Buffers()[0], int64(actual.Len()))
-						}
-						if actual.DataType().ID() == arrow.BOOL {
-							cts.checkTrailingBitsZeroed(actual.Data().Buffers()[1], int64(actual.Len()))
-						}
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestConcatDifferentDicts(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("simple dicts", func(t *testing.T) {
-		scopedMem := memory.NewCheckedAllocatorScope(mem)
-		defer scopedMem.CheckSize(t)
-
-		dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-		dict1, err := array.DictArrayFromJSON(mem, dictType, `[1, 2, null, 3, 0]`, `["A0", "A1", "A2", "A3"]`)
-		require.NoError(t, err)
-		defer dict1.Release()
-		dict2, err := array.DictArrayFromJSON(mem, dictType, `[null, 4, 2, 1]`, `["B0", "B1", "B2", "B3", "B4"]`)
-		require.NoError(t, err)
-		defer dict2.Release()
-
-		expected, err := array.DictArrayFromJSON(mem, dictType, `[1, 2, null, 3, 0, null, 8, 6, 5]`, `["A0", "A1", "A2", "A3", "B0", "B1", "B2", "B3", "B4"]`)
-		require.NoError(t, err)
-		defer expected.Release()
-
-		concat, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-		assert.NoError(t, err)
-		defer concat.Release()
-		assert.Truef(t, array.Equal(concat, expected), "got: %s, expected: %s", concat, expected)
-	})
-
-	t.Run("larger", func(t *testing.T) {
-		scopedMem := memory.NewCheckedAllocatorScope(mem)
-		defer scopedMem.CheckSize(t)
-
-		const size = 500
-		dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}
-
-		idxBuilder, exIdxBldr := array.NewUint16Builder(mem), array.NewUint16Builder(mem)
-		defer idxBuilder.Release()
-		defer exIdxBldr.Release()
-		idxBuilder.Reserve(size)
-		exIdxBldr.Reserve(size * 2)
-
-		for i := uint16(0); i < size; i++ {
-			idxBuilder.UnsafeAppend(i)
-			exIdxBldr.UnsafeAppend(i)
-		}
-		for i := uint16(size); i < 2*size; i++ {
-			exIdxBldr.UnsafeAppend(i)
-		}
-
-		indices, expIndices := idxBuilder.NewArray(), exIdxBldr.NewArray()
-		defer indices.Release()
-		defer expIndices.Release()
-
-		// create three dictionaries. First maps i -> "{i}", second maps i->"{500+i}",
-		// each for 500 values and the third maps i -> "{i}" but for 1000 values.
-		// first and second concatenated should end up equaling the third. All strings
-		// padded to length 8 so we can know the size ahead of time.
-		valuesOneBldr, valuesTwoBldr := array.NewStringBuilder(mem), array.NewStringBuilder(mem)
-		defer valuesOneBldr.Release()
-		defer valuesTwoBldr.Release()
-
-		valuesOneBldr.Reserve(size)
-		valuesTwoBldr.Reserve(size)
-		valuesOneBldr.ReserveData(size * 8)
-		valuesTwoBldr.ReserveData(size * 8)
-
-		for i := 0; i < size; i++ {
-			valuesOneBldr.Append(fmt.Sprintf("%-8d", i))
-			valuesTwoBldr.Append(fmt.Sprintf("%-8d", i+size))
-		}
-
-		dict1, dict2 := valuesOneBldr.NewArray(), valuesTwoBldr.NewArray()
-		defer dict1.Release()
-		defer dict2.Release()
-		expectedDict, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-		require.NoError(t, err)
-		defer expectedDict.Release()
-
-		one, two := array.NewDictionaryArray(dictType, indices, dict1), array.NewDictionaryArray(dictType, indices, dict2)
-		defer one.Release()
-		defer two.Release()
-		expected := array.NewDictionaryArray(dictType, expIndices, expectedDict)
-		defer expected.Release()
-
-		combined, err := array.Concatenate([]arrow.Array{one, two}, mem)
-		assert.NoError(t, err)
-		defer combined.Release()
-		assert.Truef(t, array.Equal(combined, expected), "got: %s, expected: %s", combined, expected)
-	})
-}
-
-func TestConcatDictionaryPartialOverlap(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[1, 2, null, 3, 0]`, `["A0", "A1", "C2", "C3"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, dt, `[null, 4, 2, 1]`, `["B0", "B1", "C2", "C3", "B4"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[1, 2, null, 3, 0, null, 6, 2, 5]`, `["A0", "A1", "C2", "C3", "B0", "B1", "B4"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatDictionaryDifferentSizeIndex(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	biggerDt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[0]`, `["A0"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, biggerDt, `[0]`, `["B0"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	arr, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.Nil(t, arr)
-	assert.Error(t, err)
-}
-
-func TestConcatDictionaryUnifyNullInDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[0, 1]`, `[null, "A"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, dt, `[0, 1]`, `[null, "B"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[0, 1, 0, 2]`, `[null, "A", "B"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatDictionaryEnlargedIndices(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const size = math.MaxUint8 + 1
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.PrimitiveTypes.Uint16}
-
-	idxBuilder := array.NewUint8Builder(mem)
-	defer idxBuilder.Release()
-	idxBuilder.Reserve(size)
-	for i := 0; i < size; i++ {
-		idxBuilder.UnsafeAppend(uint8(i))
-	}
-	indices := idxBuilder.NewUint8Array()
-	defer indices.Release()
-
-	valuesBuilder := array.NewUint16Builder(mem)
-	defer valuesBuilder.Release()
-	valuesBuilder.Reserve(size)
-	valuesBuilderTwo := array.NewUint16Builder(mem)
-	defer valuesBuilderTwo.Release()
-	valuesBuilderTwo.Reserve(size)
-
-	for i := uint16(0); i < size; i++ {
-		valuesBuilder.UnsafeAppend(i)
-		valuesBuilderTwo.UnsafeAppend(i + size)
-	}
-
-	dict1, dict2 := valuesBuilder.NewUint16Array(), valuesBuilderTwo.NewUint16Array()
-	defer dict1.Release()
-	defer dict2.Release()
-
-	d1, d2 := array.NewDictionaryArray(dt, indices, dict1), array.NewDictionaryArray(dt, indices, dict2)
-	defer d1.Release()
-	defer d2.Release()
-
-	_, err := array.Concatenate([]arrow.Array{d1, d2}, mem)
-	assert.Error(t, err)
-
-	biggerDt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.PrimitiveTypes.Uint16}
-	bigger1, bigger2 := array.NewDictionaryArray(biggerDt, dict1, dict1), array.NewDictionaryArray(biggerDt, dict1, dict2)
-	defer bigger1.Release()
-	defer bigger2.Release()
-
-	combined, err := array.Concatenate([]arrow.Array{bigger1, bigger2}, mem)
-	assert.NoError(t, err)
-	defer combined.Release()
-
-	assert.EqualValues(t, size*2, combined.Len())
-}
-
-func TestConcatDictionaryNullSlots(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: arrow.BinaryTypes.String}
-	dict1, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null]`, `[]`)
-	require.NoError(t, err)
-	defer dict1.Release()
-
-	dict2, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null, 0, 1]`, `["a", "b"]`)
-	require.NoError(t, err)
-	defer dict2.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null, null, null, null, null, 0, 1]`, `["a", "b"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatRunEndEncoded(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tests := []struct {
-		offsetType arrow.DataType
-		expected   interface{}
-	}{
-		{arrow.PrimitiveTypes.Int16, []int16{1, 11, 111, 211, 311, 411, 500, 600}},
-		{arrow.PrimitiveTypes.Int32, []int32{1, 11, 111, 211, 311, 411, 500, 600}},
-		{arrow.PrimitiveTypes.Int64, []int64{1, 11, 111, 211, 311, 411, 500, 600}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			bldr.Append(1)
-			valBldr.Append("Hello")
-			bldr.AppendNull()
-			bldr.ContinueRun(9)
-
-			bldr.Append(100)
-			valBldr.Append("World")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append(100)
-			valBldr.Append("Goku")
-			bldr.Append(100)
-			valBldr.Append("Gohan")
-			bldr.Append(100)
-			valBldr.Append("Goten")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.AppendNull()
-			bldr.ContinueRun(99)
-			bldr.Append(100)
-			valBldr.Append("Vegeta")
-			bldr.Append(100)
-			valBldr.Append("Trunks")
-			next := bldr.NewArray()
-			defer next.Release()
-			// remove the initial null with an offset and dig into the next run
-			arrs = append(arrs, array.NewSlice(next, 111, int64(next.Len())))
-
-			for _, a := range arrs {
-				defer a.Release()
-			}
-
-			result, err := array.Concatenate(arrs, mem)
-			assert.NoError(t, err)
-			defer result.Release()
-
-			rle := result.(*array.RunEndEncoded)
-			assert.EqualValues(t, 8, rle.GetPhysicalLength())
-			assert.EqualValues(t, 0, rle.GetPhysicalOffset())
-
-			var values interface{}
-			switch endsArr := rle.RunEndsArr().(type) {
-			case *array.Int16:
-				values = endsArr.Int16Values()
-			case *array.Int32:
-				values = endsArr.Int32Values()
-			case *array.Int64:
-				values = endsArr.Int64Values()
-			}
-			assert.Equal(t, tt.expected, values)
-
-			expectedValues, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-				strings.NewReader(`["Hello", null, "World", "Goku", "Gohan", "Goten", "Vegeta", "Trunks"]`))
-			defer expectedValues.Release()
-			assert.Truef(t, array.Equal(expectedValues, rle.Values()), "expected: %s\ngot: %s", expectedValues, rle.Values())
-		})
-	}
-}
-
-func TestConcatAlmostOverflowRunEndEncoding(t *testing.T) {
-	tests := []struct {
-		offsetType arrow.DataType
-		max        uint64
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			// max is not evenly divisible by 4, so we add one to each
-			// to account for that so our final concatenate will overflow
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("foo")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bar")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("baz")
-			bldr.Append((tt.max / 4))
-			valBldr.Append("bop")
-			arrs = append(arrs, bldr.NewArray())
-
-			defer func() {
-				for _, a := range arrs {
-					a.Release()
-				}
-			}()
-
-			arr, err := array.Concatenate(arrs, mem)
-			assert.NoError(t, err)
-			defer arr.Release()
-		})
-	}
-}
-
-func TestConcatOverflowRunEndEncoding(t *testing.T) {
-	tests := []struct {
-		offsetType arrow.DataType
-		max        uint64
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			// max is not evenly divisible by 4, so we add one to each
-			// to account for that so our final concatenate will overflow
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("foo")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bar")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("baz")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bop")
-			arrs = append(arrs, bldr.NewArray())
-
-			defer func() {
-				for _, a := range arrs {
-					a.Release()
-				}
-			}()
-
-			arr, err := array.Concatenate(arrs, mem)
-			assert.Nil(t, arr)
-			assert.ErrorIs(t, err, arrow.ErrInvalid)
-		})
-	}
-}
-
-func TestConcatPanic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	allocator := &panicAllocator{
-		n:         400,
-		Allocator: mem,
-	}
-
-	g := gen.NewRandomArrayGenerator(0, memory.DefaultAllocator)
-	ar1 := g.ArrayOf(arrow.STRING, 32, 0)
-	defer ar1.Release()
-	ar2 := g.ArrayOf(arrow.STRING, 32, 0)
-	defer ar2.Release()
-
-	concat, err := array.Concatenate([]arrow.Array{ar1, ar2}, allocator)
-	assert.Error(t, err)
-	assert.Nil(t, concat)
-}
diff --git a/go/arrow/array/data.go b/go/arrow/array/data.go
deleted file mode 100644
index 19513ebaacf50..0000000000000
--- a/go/arrow/array/data.go
+++ /dev/null
@@ -1,277 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"hash/maphash"
-	"math/bits"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// Data represents the memory and metadata of an Arrow array.
-type Data struct {
-	refCount int64
-	dtype    arrow.DataType
-	nulls    int
-	offset   int
-	length   int
-
-	// for dictionary arrays: buffers will be the null validity bitmap and the indexes that reference
-	// values in the dictionary member. childData would be empty in a dictionary array
-	buffers    []*memory.Buffer  // TODO(sgc): should this be an interface?
-	childData  []arrow.ArrayData // TODO(sgc): managed by ListArray, StructArray and UnionArray types
-	dictionary *Data             // only populated for dictionary arrays
-}
-
-// NewData creates a new Data.
-func NewData(dtype arrow.DataType, length int, buffers []*memory.Buffer, childData []arrow.ArrayData, nulls, offset int) *Data {
-	for _, b := range buffers {
-		if b != nil {
-			b.Retain()
-		}
-	}
-
-	for _, child := range childData {
-		if child != nil {
-			child.Retain()
-		}
-	}
-
-	return &Data{
-		refCount:  1,
-		dtype:     dtype,
-		nulls:     nulls,
-		length:    length,
-		offset:    offset,
-		buffers:   buffers,
-		childData: childData,
-	}
-}
-
-// NewDataWithDictionary creates a new data object, but also sets the provided dictionary into the data if it's not nil
-func NewDataWithDictionary(dtype arrow.DataType, length int, buffers []*memory.Buffer, nulls, offset int, dict *Data) *Data {
-	data := NewData(dtype, length, buffers, nil, nulls, offset)
-	if dict != nil {
-		dict.Retain()
-	}
-	data.dictionary = dict
-	return data
-}
-
-func (d *Data) Copy() *Data {
-	// don't pass the slices directly, otherwise it retains the connection
-	// we need to make new slices and populate them with the same pointers
-	bufs := make([]*memory.Buffer, len(d.buffers))
-	copy(bufs, d.buffers)
-	children := make([]arrow.ArrayData, len(d.childData))
-	copy(children, d.childData)
-
-	data := NewData(d.dtype, d.length, bufs, children, d.nulls, d.offset)
-	data.SetDictionary(d.dictionary)
-	return data
-}
-
-// Reset sets the Data for re-use.
-func (d *Data) Reset(dtype arrow.DataType, length int, buffers []*memory.Buffer, childData []arrow.ArrayData, nulls, offset int) {
-	// Retain new buffers before releasing existing buffers in-case they're the same ones to prevent accidental premature
-	// release.
-	for _, b := range buffers {
-		if b != nil {
-			b.Retain()
-		}
-	}
-	for _, b := range d.buffers {
-		if b != nil {
-			b.Release()
-		}
-	}
-	d.buffers = buffers
-
-	// Retain new children data before releasing existing children data in-case they're the same ones to prevent accidental
-	// premature release.
-	for _, d := range childData {
-		if d != nil {
-			d.Retain()
-		}
-	}
-	for _, d := range d.childData {
-		if d != nil {
-			d.Release()
-		}
-	}
-	d.childData = childData
-
-	d.dtype = dtype
-	d.length = length
-	d.nulls = nulls
-	d.offset = offset
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (d *Data) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (d *Data) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		for _, b := range d.buffers {
-			if b != nil {
-				b.Release()
-			}
-		}
-
-		for _, b := range d.childData {
-			b.Release()
-		}
-
-		if d.dictionary != nil {
-			d.dictionary.Release()
-		}
-		d.dictionary, d.buffers, d.childData = nil, nil, nil
-	}
-}
-
-// DataType returns the DataType of the data.
-func (d *Data) DataType() arrow.DataType { return d.dtype }
-
-func (d *Data) SetNullN(n int) { d.nulls = n }
-
-// NullN returns the number of nulls.
-func (d *Data) NullN() int { return d.nulls }
-
-// Len returns the length.
-func (d *Data) Len() int { return d.length }
-
-// Offset returns the offset.
-func (d *Data) Offset() int { return d.offset }
-
-// Buffers returns the buffers.
-func (d *Data) Buffers() []*memory.Buffer { return d.buffers }
-
-func (d *Data) Children() []arrow.ArrayData { return d.childData }
-
-// Dictionary returns the ArrayData object for the dictionary member, or nil
-func (d *Data) Dictionary() arrow.ArrayData { return d.dictionary }
-
-// SetDictionary allows replacing the dictionary for this particular Data object
-func (d *Data) SetDictionary(dict arrow.ArrayData) {
-	if d.dictionary != nil {
-		d.dictionary.Release()
-		d.dictionary = nil
-	}
-	if dict.(*Data) != nil {
-		dict.Retain()
-		d.dictionary = dict.(*Data)
-	}
-}
-
-// SizeInBytes returns the size of the Data and any children and/or dictionary in bytes by
-// recursively examining the nested structures of children and/or dictionary.
-// The value returned is an upper-bound since offset is not taken into account.
-func (d *Data) SizeInBytes() uint64 {
-	var size uint64
-
-	if d == nil {
-		return 0
-	}
-
-	for _, b := range d.Buffers() {
-		if b != nil {
-			size += uint64(b.Len())
-		}
-	}
-	for _, c := range d.Children() {
-		size += c.SizeInBytes()
-	}
-	if d.dictionary != nil {
-		size += d.dictionary.SizeInBytes()
-	}
-
-	return size
-}
-
-// NewSliceData returns a new slice that shares backing data with the input.
-// The returned Data slice starts at i and extends j-i elements, such as:
-//
-//	slice := data[i:j]
-//
-// The returned value must be Release'd after use.
-//
-// NewSliceData panics if the slice is outside the valid range of the input Data.
-// NewSliceData panics if j < i.
-func NewSliceData(data arrow.ArrayData, i, j int64) arrow.ArrayData {
-	if j > int64(data.Len()) || i > j || data.Offset()+int(i) > data.Offset()+data.Len() {
-		panic("arrow/array: index out of range")
-	}
-
-	for _, b := range data.Buffers() {
-		if b != nil {
-			b.Retain()
-		}
-	}
-
-	for _, child := range data.Children() {
-		if child != nil {
-			child.Retain()
-		}
-	}
-
-	if data.(*Data).dictionary != nil {
-		data.(*Data).dictionary.Retain()
-	}
-
-	o := &Data{
-		refCount:   1,
-		dtype:      data.DataType(),
-		nulls:      UnknownNullCount,
-		length:     int(j - i),
-		offset:     data.Offset() + int(i),
-		buffers:    data.Buffers(),
-		childData:  data.Children(),
-		dictionary: data.(*Data).dictionary,
-	}
-
-	if data.NullN() == 0 {
-		o.nulls = 0
-	}
-
-	return o
-}
-
-func Hash(h *maphash.Hash, data arrow.ArrayData) {
-	a := data.(*Data)
-
-	h.Write((*[bits.UintSize / 8]byte)(unsafe.Pointer(&a.length))[:])
-	h.Write((*[bits.UintSize / 8]byte)(unsafe.Pointer(&a.length))[:])
-	if len(a.buffers) > 0 && a.buffers[0] != nil {
-		h.Write(a.buffers[0].Bytes())
-	}
-	for _, c := range a.childData {
-		Hash(h, c)
-	}
-}
diff --git a/go/arrow/array/data_test.go b/go/arrow/array/data_test.go
deleted file mode 100644
index 2cfc64fbe2d7e..0000000000000
--- a/go/arrow/array/data_test.go
+++ /dev/null
@@ -1,138 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"slices"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDataReset(t *testing.T) {
-	var (
-		buffers1 = make([]*memory.Buffer, 0, 3)
-		buffers2 = make([]*memory.Buffer, 0, 3)
-	)
-	for i := 0; i < cap(buffers1); i++ {
-		buffers1 = append(buffers1, memory.NewBufferBytes([]byte("some-bytes1")))
-		buffers2 = append(buffers2, memory.NewBufferBytes([]byte("some-bytes2")))
-	}
-
-	data := NewData(&arrow.StringType{}, 10, buffers1, nil, 0, 0)
-	data.Reset(&arrow.Int64Type{}, 5, buffers2, nil, 1, 2)
-
-	for i := 0; i < 2; i++ {
-		assert.Equal(t, buffers2, data.Buffers())
-		assert.Equal(t, &arrow.Int64Type{}, data.DataType())
-		assert.Equal(t, 1, data.NullN())
-		assert.Equal(t, 2, data.Offset())
-		assert.Equal(t, 5, data.Len())
-
-		// Make sure it works when resetting the data with its own buffers (new buffers are retained
-		// before old ones are released.)
-		data.Reset(&arrow.Int64Type{}, 5, data.Buffers(), nil, 1, 2)
-	}
-}
-
-func TestSizeInBytes(t *testing.T) {
-	var buffers1 = make([]*memory.Buffer, 0, 3)
-
-	for i := 0; i < cap(buffers1); i++ {
-		buffers1 = append(buffers1, memory.NewBufferBytes([]byte("15-bytes-buffer")))
-	}
-	data := NewData(&arrow.StringType{}, 10, buffers1, nil, 0, 0)
-	var arrayData arrow.ArrayData = data
-	dataWithChild := NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{arrayData}, 0, 0)
-
-	buffers2 := slices.Clone(buffers1)
-	buffers2[0] = nil
-	dataWithNilBuffer := NewData(&arrow.StringType{}, 10, buffers2, nil, 0, 0)
-
-	t.Run("nil buffers", func(t *testing.T) {
-		expectedSize := uint64(30)
-		if actualSize := dataWithNilBuffer.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers only", func(t *testing.T) {
-		expectedSize := uint64(45)
-		if actualSize := data.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and child data", func(t *testing.T) {
-		// 45 bytes in buffers, 45 bytes in child data
-		expectedSize := uint64(90)
-		if actualSize := dataWithChild.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and nested child data", func(t *testing.T) {
-		var dataWithChildArrayData arrow.ArrayData = dataWithChild
-		var dataWithNestedChild arrow.ArrayData = NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{dataWithChildArrayData}, 0, 0)
-		// 45 bytes in buffers, 90 bytes in nested child data
-		expectedSize := uint64(135)
-		if actualSize := dataWithNestedChild.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and dictionary", func(t *testing.T) {
-		dictData := data
-		dataWithDict := NewDataWithDictionary(&arrow.StringType{}, 10, buffers1, 0, 0, dictData)
-		// 45 bytes in buffers, 45 bytes in dictionary
-		expectedSize := uint64(90)
-		if actualSize := dataWithDict.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("sliced data", func(t *testing.T) {
-		sliceData := NewSliceData(arrayData, 3, 5)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(45)
-		if actualSize := sliceData.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("sliced data with children", func(t *testing.T) {
-		var dataWithChildArrayData arrow.ArrayData = dataWithChild
-		sliceData := NewSliceData(dataWithChildArrayData, 3, 5)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(90)
-		if actualSize := sliceData.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers with children which are sliced data", func(t *testing.T) {
-		sliceData := NewSliceData(arrayData, 3, 5)
-		dataWithSlicedChildren := NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{sliceData}, 0, 0)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(90)
-		if actualSize := dataWithSlicedChildren.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-}
diff --git a/go/arrow/array/decimal128.go b/go/arrow/array/decimal128.go
deleted file mode 100644
index fd9e53f7f4c06..0000000000000
--- a/go/arrow/array/decimal128.go
+++ /dev/null
@@ -1,368 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math/big"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of 128-bit decimal values.
-type Decimal128 struct {
-	array
-
-	values []decimal128.Num
-}
-
-func NewDecimal128Data(data arrow.ArrayData) *Decimal128 {
-	a := &Decimal128{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Decimal128) Value(i int) decimal128.Num { return a.values[i] }
-
-func (a *Decimal128) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.GetOneForMarshal(i).(string)
-}
-
-func (a *Decimal128) Values() []decimal128.Num { return a.values }
-
-func (a *Decimal128) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Decimal128) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Decimal128Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-func (a *Decimal128) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	typ := a.DataType().(*arrow.Decimal128Type)
-	n := a.Value(i)
-	scale := typ.Scale
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(128).Mul(f, (&big.Float{}).SetInt(decimal128.GetScaleMultiplier(int(-scale)).BigInt()))
-	} else {
-		f.SetPrec(128).Quo(f, (&big.Float{}).SetInt(decimal128.GetScaleMultiplier(int(scale)).BigInt()))
-	}
-	return f.Text('g', int(typ.Precision))
-}
-
-// ["1.23", ]
-func (a *Decimal128) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDecimal128(left, right *Decimal128) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type Decimal128Builder struct {
-	builder
-
-	dtype   *arrow.Decimal128Type
-	data    *memory.Buffer
-	rawData []decimal128.Num
-}
-
-func NewDecimal128Builder(mem memory.Allocator, dtype *arrow.Decimal128Type) *Decimal128Builder {
-	return &Decimal128Builder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-	}
-}
-
-func (b *Decimal128Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Decimal128Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Decimal128Builder) Append(v decimal128.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Decimal128Builder) UnsafeAppend(v decimal128.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Decimal128Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Decimal128Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Decimal128Builder) AppendEmptyValue() {
-	b.Append(decimal128.Num{})
-}
-
-func (b *Decimal128Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Decimal128Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Decimal128Builder) AppendValues(v []decimal128.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Decimal128Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Decimal128Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Decimal128Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Decimal128Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Decimal128Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Decimal128Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Decimal128Traits.BytesRequired(n))
-		b.rawData = arrow.Decimal128Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Decimal128 array from the memory buffers used by the builder and resets the Decimal128Builder
-// so it can be used to build a new array.
-func (b *Decimal128Builder) NewArray() arrow.Array {
-	return b.NewDecimal128Array()
-}
-
-// NewDecimal128Array creates a Decimal128 array from the memory buffers used by the builder and resets the Decimal128Builder
-// so it can be used to build a new array.
-func (b *Decimal128Builder) NewDecimal128Array() (a *Decimal128) {
-	data := b.newData()
-	a = NewDecimal128Data(data)
-	data.Release()
-	return
-}
-
-func (b *Decimal128Builder) newData() (data *Data) {
-	bytesRequired := arrow.Decimal128Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Decimal128Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := decimal128.FromString(s, b.dtype.Precision, b.dtype.Scale)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Decimal128Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		val, err := decimal128.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case string:
-		val, err := decimal128.FromString(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case json.Number:
-		val, err := decimal128.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(decimal128.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Decimal128Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values to this builder.
-//
-// If the values are strings, they will get parsed with big.ParseFloat using
-// a rounding mode of big.ToNearestAway currently.
-func (b *Decimal128Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("decimal128 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Decimal128)(nil)
-	_ Builder     = (*Decimal128Builder)(nil)
-)
diff --git a/go/arrow/array/decimal128_test.go b/go/arrow/array/decimal128_test.go
deleted file mode 100644
index 707a4f1a6c8d5..0000000000000
--- a/go/arrow/array/decimal128_test.go
+++ /dev/null
@@ -1,283 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewDecimal128Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	want := []decimal128.Num{
-		decimal128.New(1, 1),
-		decimal128.New(2, 2),
-		decimal128.New(3, 3),
-		{},
-		decimal128.FromI64(-5),
-		decimal128.FromI64(-6),
-		{},
-		decimal128.FromI64(8),
-		decimal128.FromI64(9),
-		decimal128.FromI64(10),
-	}
-	valids := []bool{true, true, true, false, true, true, false, true, true, true}
-
-	for i, valid := range valids {
-		switch {
-		case valid:
-			ab.Append(want[i])
-		default:
-			ab.AppendNull()
-		}
-	}
-
-	// check state of builder before NewDecimal128Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewArray().(*array.Decimal128)
-	a.Retain()
-	a.Release()
-
-	// check state of builder after NewDecimal128Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDecimal128Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDecimal128Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDecimal128Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, want, a.Values(), "unexpected Decimal128Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Len(t, a.Values(), 10, "unexpected length of Decimal128Values")
-	assert.Equal(t, 10*arrow.Decimal128SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-	ab.Append(decimal128.FromI64(7))
-	ab.Append(decimal128.FromI64(8))
-
-	a = ab.NewDecimal128Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []decimal128.Num{decimal128.FromI64(7), decimal128.FromI64(8)}, a.Values())
-	assert.Len(t, a.Values(), 2)
-	assert.Equal(t, 2*arrow.Decimal128SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-}
-
-func TestDecimal128Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	want := []decimal128.Num{decimal128.FromI64(3), decimal128.FromI64(4)}
-
-	ab.AppendValues([]decimal128.Num{}, nil)
-	a := ab.NewDecimal128Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDecimal128Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]decimal128.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]decimal128.Num{}, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestDecimal128Slice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal128Type{Precision: 10, Scale: 1}
-	b := array.NewDecimal128Builder(mem, dtype)
-	defer b.Release()
-
-	var data = []decimal128.Num{
-		decimal128.FromI64(-1),
-		decimal128.FromI64(+0),
-		decimal128.FromI64(+1),
-		decimal128.New(-4, 4),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewDecimal128Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(data); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Decimal128)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) {4 -4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, array.NullValueStr, v.ValueStr(0))
-	assert.Equal(t, "-7.378697629e+18", v.ValueStr(1))
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.Data().Offset(), 2; got != want {
-		t.Fatalf("invalid offset: got=%d, want=%d", got, want)
-	}
-}
-
-func TestDecimal128StringRoundTrip(t *testing.T) {
-	dt := &arrow.Decimal128Type{Precision: 20, Scale: 5}
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDecimal128Builder(mem, dt)
-	defer b.Release()
-
-	values := []decimal128.Num{
-		decimal128.New(1, 1),
-		decimal128.New(1, 2),
-		decimal128.New(1, 3),
-		{},
-		decimal128.FromI64(-5),
-		decimal128.FromI64(-6),
-		{},
-		decimal128.FromI64(8),
-		decimal128.FromI64(9),
-		decimal128.FromI64(10),
-	}
-	val1, err := decimal128.FromString("0.99", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	val2, err := decimal128.FromString("1234567890.12345", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	values = append(values, val1, val2)
-
-	valid := []bool{true, true, true, false, true, true, false, true, true, true, true, true}
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Decimal128)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDecimal128Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Decimal128)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal128GetOneForMarshal(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal128Type{Precision: 38, Scale: 20}
-
-	b := array.NewDecimal128Builder(mem, dtype)
-	defer b.Release()
-
-	cases := []struct {
-		give any
-		want any
-	}{
-		{"1", "1"},
-		{"1.25", "1.25"},
-		{"0.99", "0.99"},
-		{"1234567890.123456789", "1234567890.123456789"},
-		{nil, nil},
-		{"-0.99", "-0.99"},
-		{"-1234567890.123456789", "-1234567890.123456789"},
-		{"0.0000000000000000001", "1e-19"},
-	}
-	for _, v := range cases {
-		if v.give == nil {
-			b.AppendNull()
-			continue
-		}
-
-		dt, err := decimal128.FromString(v.give.(string), dtype.Precision, dtype.Scale)
-		if err != nil {
-			t.Fatal(err)
-		}
-		b.Append(dt)
-	}
-
-	arr := b.NewDecimal128Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(cases); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	for i := range cases {
-		assert.Equalf(t, cases[i].want, arr.GetOneForMarshal(i), "unexpected value at index %d", i)
-	}
-}
diff --git a/go/arrow/array/decimal256.go b/go/arrow/array/decimal256.go
deleted file mode 100644
index 6431306f969c3..0000000000000
--- a/go/arrow/array/decimal256.go
+++ /dev/null
@@ -1,368 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math/big"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Decimal256 is a type that represents an immutable sequence of 256-bit decimal values.
-type Decimal256 struct {
-	array
-
-	values []decimal256.Num
-}
-
-func NewDecimal256Data(data arrow.ArrayData) *Decimal256 {
-	a := &Decimal256{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Decimal256) Value(i int) decimal256.Num { return a.values[i] }
-
-func (a *Decimal256) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.GetOneForMarshal(i).(string)
-}
-
-func (a *Decimal256) Values() []decimal256.Num { return a.values }
-
-func (a *Decimal256) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Decimal256) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Decimal256Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Decimal256) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	typ := a.DataType().(*arrow.Decimal256Type)
-	n := a.Value(i)
-	scale := typ.Scale
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(256).Mul(f, (&big.Float{}).SetInt(decimal256.GetScaleMultiplier(int(-scale)).BigInt()))
-	} else {
-		f.SetPrec(256).Quo(f, (&big.Float{}).SetInt(decimal256.GetScaleMultiplier(int(scale)).BigInt()))
-	}
-	return f.Text('g', int(typ.Precision))
-}
-
-func (a *Decimal256) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDecimal256(left, right *Decimal256) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type Decimal256Builder struct {
-	builder
-
-	dtype   *arrow.Decimal256Type
-	data    *memory.Buffer
-	rawData []decimal256.Num
-}
-
-func NewDecimal256Builder(mem memory.Allocator, dtype *arrow.Decimal256Type) *Decimal256Builder {
-	return &Decimal256Builder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Decimal256Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Decimal256Builder) Append(v decimal256.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Decimal256Builder) UnsafeAppend(v decimal256.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Decimal256Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Decimal256Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Decimal256Builder) AppendEmptyValue() {
-	b.Append(decimal256.Num{})
-}
-
-func (b *Decimal256Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Decimal256Builder) Type() arrow.DataType { return b.dtype }
-
-func (b *Decimal256Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Decimal256Builder) AppendValues(v []decimal256.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("arrow/array: len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Decimal256Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Decimal256Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Decimal256Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Decimal256Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Decimal256Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Decimal256Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Decimal256Traits.BytesRequired(n))
-		b.rawData = arrow.Decimal256Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Decimal256 array from the memory buffers used by the builder and resets the Decimal256Builder
-// so it can be used to build a new array.
-func (b *Decimal256Builder) NewArray() arrow.Array {
-	return b.NewDecimal256Array()
-}
-
-// NewDecimal256Array creates a Decimal256 array from the memory buffers used by the builder and resets the Decimal256Builder
-// so it can be used to build a new array.
-func (b *Decimal256Builder) NewDecimal256Array() (a *Decimal256) {
-	data := b.newData()
-	a = NewDecimal256Data(data)
-	data.Release()
-	return
-}
-
-func (b *Decimal256Builder) newData() (data *Data) {
-	bytesRequired := arrow.Decimal256Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Decimal256Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := decimal256.FromString(s, b.dtype.Precision, b.dtype.Scale)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Decimal256Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		val, err := decimal256.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case string:
-		out, err := decimal256.FromString(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(out)
-	case json.Number:
-		out, err := decimal256.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(out)
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(decimal256.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Decimal256Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values to this builder.
-//
-// If the values are strings, they will get parsed with big.ParseFloat using
-// a rounding mode of big.ToNearestAway currently.
-func (b *Decimal256Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("arrow/array: decimal256 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Decimal256)(nil)
-	_ Builder     = (*Decimal256Builder)(nil)
-)
diff --git a/go/arrow/array/decimal256_test.go b/go/arrow/array/decimal256_test.go
deleted file mode 100644
index 8adb810165430..0000000000000
--- a/go/arrow/array/decimal256_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewDecimal256Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	want := []decimal256.Num{
-		decimal256.New(1, 1, 1, 1),
-		decimal256.New(2, 2, 2, 2),
-		decimal256.New(3, 3, 3, 3),
-		{},
-		decimal256.FromI64(-5),
-		decimal256.FromI64(-6),
-		{},
-		decimal256.FromI64(8),
-		decimal256.FromI64(9),
-		decimal256.FromI64(10),
-	}
-	valids := []bool{true, true, true, false, true, true, false, true, true, true}
-
-	for i, valid := range valids {
-		switch {
-		case valid:
-			ab.Append(want[i])
-		default:
-			ab.AppendNull()
-		}
-	}
-
-	// check state of builder before NewDecimal256Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewArray().(*array.Decimal256)
-	a.Retain()
-	a.Release()
-
-	// check state of builder after NewDecimal256Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDecimal256Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDecimal256Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDecimal256Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, want, a.Values(), "unexpected Decimal256Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Len(t, a.Values(), 10, "unexpected length of Decimal256Values")
-	assert.Equal(t, 10*arrow.Decimal256SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-	ab.Append(decimal256.FromI64(7))
-	ab.Append(decimal256.FromI64(8))
-
-	a = ab.NewDecimal256Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Equal(t, []decimal256.Num{decimal256.FromI64(7), decimal256.FromI64(8)}, a.Values())
-	assert.Len(t, a.Values(), 2)
-	assert.Equal(t, 2*arrow.Decimal256SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-}
-
-func TestDecimal256Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	want := []decimal256.Num{decimal256.FromI64(3), decimal256.FromI64(4)}
-
-	ab.AppendValues([]decimal256.Num{}, nil)
-	a := ab.NewDecimal256Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDecimal256Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]decimal256.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]decimal256.Num{}, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestDecimal256Slice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal256Type{Precision: 10, Scale: 1}
-	b := array.NewDecimal256Builder(mem, dtype)
-	defer b.Release()
-
-	var data = []decimal256.Num{
-		decimal256.FromI64(-1),
-		decimal256.FromI64(+0),
-		decimal256.FromI64(+1),
-		decimal256.New(4, 4, 4, 4),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewDecimal256Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(data); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Decimal256)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) {[4 4 4 4]}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, array.NullValueStr, v.ValueStr(0))
-	assert.Equal(t, "2.510840694e+57", v.ValueStr(1))
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.Data().Offset(), 2; got != want {
-		t.Fatalf("invalid offset: got=%d, want=%d", got, want)
-	}
-}
-
-func TestDecimal256StringRoundTrip(t *testing.T) {
-	dt := &arrow.Decimal256Type{Precision: 70, Scale: 10}
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDecimal256Builder(mem, dt)
-	defer b.Release()
-
-	values := []decimal256.Num{
-		decimal256.New(1, 1, 1, 1),
-		decimal256.New(2, 2, 2, 2),
-		decimal256.New(3, 3, 3, 3),
-		{},
-		decimal256.FromI64(-5),
-		decimal256.FromI64(-6),
-		{},
-		decimal256.FromI64(8),
-		decimal256.FromI64(9),
-		decimal256.FromI64(10),
-	}
-	val1, err := decimal256.FromString("0.99", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	val2, err := decimal256.FromString("1234567890.123456789", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	values = append(values, val1, val2)
-
-	valid := []bool{true, true, true, false, true, true, false, true, true, true, true, true}
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Decimal256)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDecimal256Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		v := arr.ValueStr(i)
-		assert.NoError(t, b1.AppendValueFromString(v))
-	}
-
-	arr1 := b1.NewArray().(*array.Decimal256)
-	defer arr1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) && arr1.IsNull(i) {
-			continue
-		}
-		if arr.Value(i) != arr1.Value(i) {
-			t.Fatalf("unexpected value at index %d: got=%v, want=%v", i, arr1.Value(i), arr.Value(i))
-		}
-	}
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal256GetOneForMarshal(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal256Type{Precision: 38, Scale: 20}
-
-	b := array.NewDecimal256Builder(mem, dtype)
-	defer b.Release()
-
-	cases := []struct {
-		give any
-		want any
-	}{
-		{"1", "1"},
-		{"1.25", "1.25"},
-		{"0.99", "0.99"},
-		{"1234567890.123456789", "1234567890.123456789"},
-		{nil, nil},
-		{"-0.99", "-0.99"},
-		{"-1234567890.123456789", "-1234567890.123456789"},
-		{"0.0000000000000000001", "1e-19"},
-	}
-	for _, v := range cases {
-		if v.give == nil {
-			b.AppendNull()
-			continue
-		}
-
-		dt, err := decimal256.FromString(v.give.(string), dtype.Precision, dtype.Scale)
-		if err != nil {
-			t.Fatal(err)
-		}
-		b.Append(dt)
-	}
-
-	arr := b.NewDecimal256Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(cases); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	for i := range cases {
-		assert.Equalf(t, cases[i].want, arr.GetOneForMarshal(i), "unexpected value at index %d", i)
-	}
-}
diff --git a/go/arrow/array/decimal_test.go b/go/arrow/array/decimal_test.go
deleted file mode 100644
index b321bd7fbbe7b..0000000000000
--- a/go/arrow/array/decimal_test.go
+++ /dev/null
@@ -1,222 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math/big"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/suite"
-)
-
-type decimalValue interface{}
-
-func bitmapFromSlice(vals []bool) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals)))))
-	writer := bitutil.NewBitmapWriter(out, 0, len(vals))
-	for _, val := range vals {
-		if val {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-	return out
-}
-
-type DecimalTestSuite struct {
-	suite.Suite
-
-	dt  arrow.DataType
-	mem *memory.CheckedAllocator
-}
-
-func (d *DecimalTestSuite) SetupTest() {
-	d.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (d *DecimalTestSuite) TearDownTest() {
-	d.mem.AssertSize(d.T(), 0)
-}
-
-func (d *DecimalTestSuite) makeData(input []decimalValue, out []byte) {
-	switch d.dt.ID() {
-	case arrow.DECIMAL128:
-		for _, v := range input {
-			arrow.Decimal128Traits.PutValue(out, v.(decimal128.Num))
-			out = out[arrow.Decimal128SizeBytes:]
-		}
-	case arrow.DECIMAL256:
-		for _, v := range input {
-			arrow.Decimal256Traits.PutValue(out, v.(decimal256.Num))
-			out = out[arrow.Decimal256SizeBytes:]
-		}
-	}
-}
-
-func (d *DecimalTestSuite) testCreate(bitWidth int, prec int32, draw []decimalValue, valids []bool, offset int64) arrow.Array {
-	switch bitWidth {
-	case 128:
-		d.dt = &arrow.Decimal128Type{Precision: prec, Scale: 4}
-	case 256:
-		d.dt = &arrow.Decimal256Type{Precision: prec, Scale: 4}
-	}
-
-	bldr := array.NewBuilder(d.mem, d.dt)
-	defer bldr.Release()
-	bldr.Reserve(len(draw))
-
-	nullCount := 0
-	for i, b := range valids {
-		if b {
-			switch v := draw[i].(type) {
-			case decimal128.Num:
-				bldr.(*array.Decimal128Builder).Append(v)
-			case decimal256.Num:
-				bldr.(*array.Decimal256Builder).Append(v)
-			}
-		} else {
-			bldr.AppendNull()
-			nullCount++
-		}
-	}
-
-	arr := bldr.NewArray()
-	d.EqualValues(0, bldr.Len())
-
-	rawBytes := make([]byte, len(draw)*(d.dt.(arrow.FixedWidthDataType).BitWidth()/8))
-	d.makeData(draw, rawBytes)
-
-	expectedData := memory.NewBufferBytes(rawBytes)
-	expectedNullBitmap := bitmapFromSlice(valids)
-	expectedNullCount := len(draw) - bitutil.CountSetBits(expectedNullBitmap, 0, len(valids))
-
-	expected := array.NewData(d.dt, len(valids), []*memory.Buffer{memory.NewBufferBytes(expectedNullBitmap), expectedData}, nil, expectedNullCount, 0)
-	defer expected.Release()
-
-	expectedArr := array.MakeFromData(expected)
-	defer expectedArr.Release()
-
-	lhs := array.NewSlice(arr, offset, int64(arr.Len())-offset)
-	rhs := array.NewSlice(expectedArr, offset, int64(expectedArr.Len())-offset)
-	defer func() {
-		lhs.Release()
-		rhs.Release()
-	}()
-
-	d.Truef(array.Equal(lhs, rhs), "expected: %s, got: %s\n", rhs, lhs)
-	return arr
-}
-
-type Decimal128TestSuite struct {
-	DecimalTestSuite
-}
-
-func (d *Decimal128TestSuite) runTest(f func(prec int32)) {
-	for prec := int32(1); prec <= 38; prec++ {
-		d.Run(fmt.Sprintf("prec=%d", prec), func() { f(prec) })
-	}
-}
-
-func (d *Decimal128TestSuite) TestNoNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal128.FromU64(1), decimal128.FromI64(-2),
-			decimal128.FromU64(2389), decimal128.FromU64(4),
-			decimal128.FromI64(-12348)}
-		valids := []bool{true, true, true, true, true}
-		arr := d.testCreate(128, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(128, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func (d *Decimal128TestSuite) TestWithNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal128.FromU64(1), decimal128.FromU64(2),
-			decimal128.FromI64(-1), decimal128.FromI64(4), decimal128.FromI64(-1),
-			decimal128.FromI64(1), decimal128.FromI64(2)}
-		bigVal, _ := (&big.Int{}).SetString("230342903942234234", 10)
-		draw = append(draw, decimal128.FromBigInt(bigVal))
-
-		bigNeg, _ := (&big.Int{}).SetString("-23049302932235234", 10)
-		draw = append(draw, decimal128.FromBigInt(bigNeg))
-
-		valids := []bool{true, true, false, true, false, true, true, true, true}
-		arr := d.testCreate(128, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(128, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-type Decimal256TestSuite struct {
-	DecimalTestSuite
-}
-
-func (d *Decimal256TestSuite) runTest(f func(prec int32)) {
-	for _, prec := range []int32{1, 2, 5, 10, 38, 39, 40, 75, 76} {
-		d.Run(fmt.Sprintf("prec=%d", prec), func() { f(prec) })
-	}
-}
-
-func (d *Decimal256TestSuite) TestNoNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal256.FromU64(1), decimal256.FromI64(-2),
-			decimal256.FromU64(2389), decimal256.FromU64(4),
-			decimal256.FromI64(-12348)}
-		valids := []bool{true, true, true, true, true}
-		arr := d.testCreate(256, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(256, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func (d *Decimal256TestSuite) TestWithNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal256.FromU64(1), decimal256.FromU64(2),
-			decimal256.FromI64(-1), decimal256.FromI64(4), decimal256.FromI64(-1),
-			decimal256.FromI64(1), decimal256.FromI64(2)}
-
-		// (pow(2, 255) - 1)
-		bigVal, _ := (&big.Int{}).SetString("57896044618658097711785492504343953926634992332820282019728792003956564819967", 10)
-		draw = append(draw, decimal256.FromBigInt(bigVal))
-
-		draw = append(draw, decimal256.FromBigInt(bigVal.Neg(bigVal)))
-
-		valids := []bool{true, true, false, true, false, true, true, true, true}
-		arr := d.testCreate(256, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(256, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func TestDecimal(t *testing.T) {
-	suite.Run(t, new(Decimal128TestSuite))
-	suite.Run(t, new(Decimal256TestSuite))
-}
diff --git a/go/arrow/array/dictionary.go b/go/arrow/array/dictionary.go
deleted file mode 100644
index ca7fed5257085..0000000000000
--- a/go/arrow/array/dictionary.go
+++ /dev/null
@@ -1,1958 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Dictionary represents the type for dictionary-encoded data with a data
-// dependent dictionary.
-//
-// A dictionary array contains an array of non-negative integers (the "dictionary"
-// indices") along with a data type containing a "dictionary" corresponding to
-// the distinct values represented in the data.
-//
-// For example, the array:
-//
-//	["foo", "bar", "foo", "bar", "foo", "bar"]
-//
-// with dictionary ["bar", "foo"], would have the representation of:
-//
-//	indices: [1, 0, 1, 0, 1, 0]
-//	dictionary: ["bar", "foo"]
-//
-// The indices in principle may be any integer type.
-type Dictionary struct {
-	array
-
-	indices arrow.Array
-	dict    arrow.Array
-}
-
-// NewDictionaryArray constructs a dictionary array with the provided indices
-// and dictionary using the given type.
-func NewDictionaryArray(typ arrow.DataType, indices, dict arrow.Array) *Dictionary {
-	a := &Dictionary{}
-	a.array.refCount = 1
-	dictdata := NewData(typ, indices.Len(), indices.Data().Buffers(), indices.Data().Children(), indices.NullN(), indices.Data().Offset())
-	dictdata.dictionary = dict.Data().(*Data)
-	dict.Data().Retain()
-
-	defer dictdata.Release()
-	a.setData(dictdata)
-	return a
-}
-
-// checkIndexBounds returns an error if any value in the provided integer
-// arraydata is >= the passed upperlimit or < 0. otherwise nil
-func checkIndexBounds(indices *Data, upperlimit uint64) error {
-	if indices.length == 0 {
-		return nil
-	}
-
-	var maxval uint64
-	switch indices.dtype.ID() {
-	case arrow.UINT8:
-		maxval = math.MaxUint8
-	case arrow.UINT16:
-		maxval = math.MaxUint16
-	case arrow.UINT32:
-		maxval = math.MaxUint32
-	case arrow.UINT64:
-		maxval = math.MaxUint64
-	}
-	// for unsigned integers, if the values array is larger than the maximum
-	// index value (especially for UINT8/UINT16), then there's no need to
-	// boundscheck. for signed integers we still need to bounds check
-	// because a value could be < 0.
-	isSigned := maxval == 0
-	if !isSigned && upperlimit > maxval {
-		return nil
-	}
-
-	start := indices.offset
-	end := indices.offset + indices.length
-
-	// TODO(ARROW-15950): lift BitSetRunReader from parquet to utils
-	// and use it here for performance improvement.
-
-	switch indices.dtype.ID() {
-	case arrow.INT8:
-		data := arrow.Int8Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt8(data[start:end])
-		if min < 0 || max >= int8(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT8:
-		data := arrow.Uint8Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint8(data[start:end])
-		if max >= uint8(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT16:
-		data := arrow.Int16Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt16(data[start:end])
-		if min < 0 || max >= int16(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT16:
-		data := arrow.Uint16Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint16(data[start:end])
-		if max >= uint16(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT32:
-		data := arrow.Int32Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt32(data[start:end])
-		if min < 0 || max >= int32(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT32:
-		data := arrow.Uint32Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint32(data[start:end])
-		if max >= uint32(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT64:
-		data := arrow.Int64Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt64(data[start:end])
-		if min < 0 || max >= int64(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT64:
-		data := arrow.Uint64Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint64(data[indices.offset : indices.offset+indices.length])
-		if max >= upperlimit {
-			return fmt.Errorf("contains out of bounds value: max: %d", max)
-		}
-	default:
-		return fmt.Errorf("invalid type for bounds checking: %T", indices.dtype)
-	}
-
-	return nil
-}
-
-// NewValidatedDictionaryArray constructs a dictionary array from the provided indices
-// and dictionary arrays, while also performing validation checks to ensure correctness
-// such as bounds checking at are usually skipped for performance.
-func NewValidatedDictionaryArray(typ *arrow.DictionaryType, indices, dict arrow.Array) (*Dictionary, error) {
-	if indices.DataType().ID() != typ.IndexType.ID() {
-		return nil, fmt.Errorf("dictionary type index (%T) does not match indices array type (%T)", typ.IndexType, indices.DataType())
-	}
-
-	if !arrow.TypeEqual(typ.ValueType, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary value type (%T) does not match dict array type (%T)", typ.ValueType, dict.DataType())
-	}
-
-	if err := checkIndexBounds(indices.Data().(*Data), uint64(dict.Len())); err != nil {
-		return nil, err
-	}
-
-	return NewDictionaryArray(typ, indices, dict), nil
-}
-
-// NewDictionaryData creates a strongly typed Dictionary array from
-// an ArrayData object with a datatype of arrow.Dictionary and a dictionary
-func NewDictionaryData(data arrow.ArrayData) *Dictionary {
-	a := &Dictionary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (d *Dictionary) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-func (d *Dictionary) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		d.data.Release()
-		d.data, d.nullBitmapBytes = nil, nil
-		d.indices.Release()
-		d.indices = nil
-		if d.dict != nil {
-			d.dict.Release()
-			d.dict = nil
-		}
-	}
-}
-
-func (d *Dictionary) setData(data *Data) {
-	d.array.setData(data)
-
-	dictType := data.dtype.(*arrow.DictionaryType)
-	if data.dictionary == nil {
-		if data.length > 0 {
-			panic("arrow/array: no dictionary set in Data for Dictionary array")
-		}
-	} else {
-		debug.Assert(arrow.TypeEqual(dictType.ValueType, data.dictionary.DataType()), "mismatched dictionary value types")
-	}
-
-	indexData := NewData(dictType.IndexType, data.length, data.buffers, data.childData, data.nulls, data.offset)
-	defer indexData.Release()
-	d.indices = MakeFromData(indexData)
-}
-
-// Dictionary returns the values array that makes up the dictionary for this
-// array.
-func (d *Dictionary) Dictionary() arrow.Array {
-	if d.dict == nil {
-		d.dict = MakeFromData(d.data.dictionary)
-	}
-	return d.dict
-}
-
-// Indices returns the underlying array of indices as it's own array
-func (d *Dictionary) Indices() arrow.Array {
-	return d.indices
-}
-
-// CanCompareIndices returns true if the dictionary arrays can be compared
-// without having to unify the dictionaries themselves first.
-// This means that the index types are equal too.
-func (d *Dictionary) CanCompareIndices(other *Dictionary) bool {
-	if !arrow.TypeEqual(d.indices.DataType(), other.indices.DataType()) {
-		return false
-	}
-
-	minlen := int64(min(d.data.dictionary.length, other.data.dictionary.length))
-	return SliceEqual(d.Dictionary(), 0, minlen, other.Dictionary(), 0, minlen)
-}
-
-func (d *Dictionary) ValueStr(i int) string {
-	if d.IsNull(i) {
-		return NullValueStr
-	}
-	return d.Dictionary().ValueStr(d.GetValueIndex(i))
-}
-
-func (d *Dictionary) String() string {
-	return fmt.Sprintf("{ dictionary: %v\n  indices: %v }", d.Dictionary(), d.Indices())
-}
-
-// GetValueIndex returns the dictionary index for the value at index i of the array.
-// The actual value can be retrieved by using d.Dictionary().(valuetype).Value(d.GetValueIndex(i))
-func (d *Dictionary) GetValueIndex(i int) int {
-	indiceData := d.data.buffers[1].Bytes()
-	// we know the value is non-negative per the spec, so
-	// we can use the unsigned value regardless.
-	switch d.indices.DataType().ID() {
-	case arrow.UINT8, arrow.INT8:
-		return int(uint8(indiceData[d.data.offset+i]))
-	case arrow.UINT16, arrow.INT16:
-		return int(arrow.Uint16Traits.CastFromBytes(indiceData)[d.data.offset+i])
-	case arrow.UINT32, arrow.INT32:
-		idx := arrow.Uint32Traits.CastFromBytes(indiceData)[d.data.offset+i]
-		debug.Assert(bits.UintSize == 64 || idx <= math.MaxInt32, "arrow/dictionary: truncation of index value")
-		return int(idx)
-	case arrow.UINT64, arrow.INT64:
-		idx := arrow.Uint64Traits.CastFromBytes(indiceData)[d.data.offset+i]
-		debug.Assert((bits.UintSize == 32 && idx <= math.MaxInt32) || (bits.UintSize == 64 && idx <= math.MaxInt64), "arrow/dictionary: truncation of index value")
-		return int(idx)
-	}
-	debug.Assert(false, "unreachable dictionary index")
-	return -1
-}
-
-func (d *Dictionary) GetOneForMarshal(i int) interface{} {
-	if d.IsNull(i) {
-		return nil
-	}
-	vidx := d.GetValueIndex(i)
-	return d.Dictionary().GetOneForMarshal(vidx)
-}
-
-func (d *Dictionary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, d.Len())
-	for i := 0; i < d.Len(); i++ {
-		vals[i] = d.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDict(l, r *Dictionary) bool {
-	return Equal(l.Dictionary(), r.Dictionary()) && Equal(l.indices, r.indices)
-}
-
-func arrayApproxEqualDict(l, r *Dictionary, opt equalOption) bool {
-	return arrayApproxEqual(l.Dictionary(), r.Dictionary(), opt) && arrayApproxEqual(l.indices, r.indices, opt)
-}
-
-// helper for building the properly typed indices of the dictionary builder
-type IndexBuilder struct {
-	Builder
-	Append func(int)
-}
-
-func createIndexBuilder(mem memory.Allocator, dt arrow.FixedWidthDataType) (ret IndexBuilder, err error) {
-	ret = IndexBuilder{Builder: NewBuilder(mem, dt)}
-	switch dt.ID() {
-	case arrow.INT8:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int8Builder).Append(int8(idx))
-		}
-	case arrow.UINT8:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint8Builder).Append(uint8(idx))
-		}
-	case arrow.INT16:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int16Builder).Append(int16(idx))
-		}
-	case arrow.UINT16:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint16Builder).Append(uint16(idx))
-		}
-	case arrow.INT32:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int32Builder).Append(int32(idx))
-		}
-	case arrow.UINT32:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint32Builder).Append(uint32(idx))
-		}
-	case arrow.INT64:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int64Builder).Append(int64(idx))
-		}
-	case arrow.UINT64:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint64Builder).Append(uint64(idx))
-		}
-	default:
-		debug.Assert(false, "dictionary index type must be integral")
-		err = fmt.Errorf("dictionary index type must be integral, not %s", dt)
-	}
-
-	return
-}
-
-// helper function to construct an appropriately typed memo table based on
-// the value type for the dictionary
-func createMemoTable(mem memory.Allocator, dt arrow.DataType) (ret hashing.MemoTable, err error) {
-	switch dt.ID() {
-	case arrow.INT8:
-		ret = hashing.NewInt8MemoTable(0)
-	case arrow.UINT8:
-		ret = hashing.NewUint8MemoTable(0)
-	case arrow.INT16:
-		ret = hashing.NewInt16MemoTable(0)
-	case arrow.UINT16:
-		ret = hashing.NewUint16MemoTable(0)
-	case arrow.INT32:
-		ret = hashing.NewInt32MemoTable(0)
-	case arrow.UINT32:
-		ret = hashing.NewUint32MemoTable(0)
-	case arrow.INT64:
-		ret = hashing.NewInt64MemoTable(0)
-	case arrow.UINT64:
-		ret = hashing.NewUint64MemoTable(0)
-	case arrow.DURATION, arrow.TIMESTAMP, arrow.DATE64, arrow.TIME64:
-		ret = hashing.NewInt64MemoTable(0)
-	case arrow.TIME32, arrow.DATE32, arrow.INTERVAL_MONTHS:
-		ret = hashing.NewInt32MemoTable(0)
-	case arrow.FLOAT16:
-		ret = hashing.NewUint16MemoTable(0)
-	case arrow.FLOAT32:
-		ret = hashing.NewFloat32MemoTable(0)
-	case arrow.FLOAT64:
-		ret = hashing.NewFloat64MemoTable(0)
-	case arrow.BINARY, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256, arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTH_DAY_NANO:
-		ret = hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(mem, arrow.BinaryTypes.Binary))
-	case arrow.STRING:
-		ret = hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(mem, arrow.BinaryTypes.String))
-	case arrow.NULL:
-	default:
-		err = fmt.Errorf("unimplemented dictionary value type, %s", dt)
-	}
-
-	return
-}
-
-type DictionaryBuilder interface {
-	Builder
-
-	NewDictionaryArray() *Dictionary
-	NewDelta() (indices, delta arrow.Array, err error)
-	AppendArray(arrow.Array) error
-	AppendIndices([]int, []bool)
-	ResetFull()
-	DictionarySize() int
-}
-
-type dictionaryBuilder struct {
-	builder
-
-	dt          *arrow.DictionaryType
-	deltaOffset int
-	memoTable   hashing.MemoTable
-	idxBuilder  IndexBuilder
-}
-
-// NewDictionaryBuilderWithDict initializes a dictionary builder and inserts the values from `init` as the first
-// values in the dictionary, but does not insert them as values into the array.
-func NewDictionaryBuilderWithDict(mem memory.Allocator, dt *arrow.DictionaryType, init arrow.Array) DictionaryBuilder {
-	if init != nil && !arrow.TypeEqual(dt.ValueType, init.DataType()) {
-		panic(fmt.Errorf("arrow/array: cannot initialize dictionary type %T with array of type %T", dt.ValueType, init.DataType()))
-	}
-
-	idxbldr, err := createIndexBuilder(mem, dt.IndexType.(arrow.FixedWidthDataType))
-	if err != nil {
-		panic(fmt.Errorf("arrow/array: unsupported builder for index type of %T", dt))
-	}
-
-	memo, err := createMemoTable(mem, dt.ValueType)
-	if err != nil {
-		panic(fmt.Errorf("arrow/array: unsupported builder for value type of %T", dt))
-	}
-
-	bldr := dictionaryBuilder{
-		builder:    builder{refCount: 1, mem: mem},
-		idxBuilder: idxbldr,
-		memoTable:  memo,
-		dt:         dt,
-	}
-
-	switch dt.ValueType.ID() {
-	case arrow.NULL:
-		ret := &NullDictionaryBuilder{bldr}
-		debug.Assert(init == nil, "arrow/array: doesn't make sense to init a null dictionary")
-		return ret
-	case arrow.UINT8:
-		ret := &Uint8DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint8)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT8:
-		ret := &Int8DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int8)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT16:
-		ret := &Uint16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT16:
-		ret := &Int16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT32:
-		ret := &Uint32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT32:
-		ret := &Int32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT64:
-		ret := &Uint64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT64:
-		ret := &Int64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT16:
-		ret := &Float16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT32:
-		ret := &Float32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT64:
-		ret := &Float64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.STRING:
-		ret := &BinaryDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertStringDictValues(init.(*String)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.BINARY:
-		ret := &BinaryDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Binary)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FIXED_SIZE_BINARY:
-		ret := &FixedSizeBinaryDictionaryBuilder{
-			bldr, dt.ValueType.(*arrow.FixedSizeBinaryType).ByteWidth,
-		}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*FixedSizeBinary)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DATE32:
-		ret := &Date32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Date32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DATE64:
-		ret := &Date64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Date64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIMESTAMP:
-		ret := &TimestampDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Timestamp)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIME32:
-		ret := &Time32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Time32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIME64:
-		ret := &Time64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Time64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INTERVAL_MONTHS:
-		ret := &MonthIntervalDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*MonthInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INTERVAL_DAY_TIME:
-		ret := &DayTimeDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*DayTimeInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DECIMAL128:
-		ret := &Decimal128DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Decimal128)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DECIMAL256:
-		ret := &Decimal256DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Decimal256)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.LIST:
-	case arrow.STRUCT:
-	case arrow.SPARSE_UNION:
-	case arrow.DENSE_UNION:
-	case arrow.DICTIONARY:
-	case arrow.MAP:
-	case arrow.EXTENSION:
-	case arrow.FIXED_SIZE_LIST:
-	case arrow.DURATION:
-		ret := &DurationDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Duration)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.LARGE_STRING:
-	case arrow.LARGE_BINARY:
-	case arrow.LARGE_LIST:
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		ret := &MonthDayNanoDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*MonthDayNanoInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	}
-
-	panic("arrow/array: unimplemented dictionary key type")
-}
-
-func NewDictionaryBuilder(mem memory.Allocator, dt *arrow.DictionaryType) DictionaryBuilder {
-	return NewDictionaryBuilderWithDict(mem, dt, nil)
-}
-
-func (b *dictionaryBuilder) Type() arrow.DataType { return b.dt }
-
-func (b *dictionaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.idxBuilder.Release()
-		b.idxBuilder.Builder = nil
-		if binmemo, ok := b.memoTable.(*hashing.BinaryMemoTable); ok {
-			binmemo.Release()
-		}
-		b.memoTable = nil
-	}
-}
-
-func (b *dictionaryBuilder) AppendNull() {
-	b.length += 1
-	b.nulls += 1
-	b.idxBuilder.AppendNull()
-}
-
-func (b *dictionaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *dictionaryBuilder) AppendEmptyValue() {
-	b.length += 1
-	b.idxBuilder.AppendEmptyValue()
-}
-
-func (b *dictionaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *dictionaryBuilder) Reserve(n int) {
-	b.idxBuilder.Reserve(n)
-}
-
-func (b *dictionaryBuilder) Resize(n int) {
-	b.idxBuilder.Resize(n)
-	b.length = b.idxBuilder.Len()
-}
-
-func (b *dictionaryBuilder) ResetFull() {
-	b.builder.reset()
-	b.idxBuilder.NewArray().Release()
-	b.memoTable.Reset()
-}
-
-func (b *dictionaryBuilder) Cap() int { return b.idxBuilder.Cap() }
-
-func (b *dictionaryBuilder) IsNull(i int) bool { return b.idxBuilder.IsNull(i) }
-
-func (b *dictionaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("dictionary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *dictionaryBuilder) Unmarshal(dec *json.Decoder) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.Unmarshal(dec); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) AppendValueFromString(s string) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.AppendValueFromString(s); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.UnmarshalOne(dec); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) NewArray() arrow.Array {
-	return b.NewDictionaryArray()
-}
-
-func (b *dictionaryBuilder) newData() *Data {
-	indices, dict, err := b.newWithDictOffset(0)
-	if err != nil {
-		panic(err)
-	}
-
-	indices.dtype = b.dt
-	indices.dictionary = dict
-	return indices
-}
-
-func (b *dictionaryBuilder) NewDictionaryArray() *Dictionary {
-	a := &Dictionary{}
-	a.refCount = 1
-
-	indices := b.newData()
-	a.setData(indices)
-	indices.Release()
-	return a
-}
-
-func (b *dictionaryBuilder) newWithDictOffset(offset int) (indices, dict *Data, err error) {
-	idxarr := b.idxBuilder.NewArray()
-	defer idxarr.Release()
-
-	indices = idxarr.Data().(*Data)
-
-	b.deltaOffset = b.memoTable.Size()
-	dict, err = GetDictArrayData(b.mem, b.dt.ValueType, b.memoTable, offset)
-	b.reset()
-	indices.Retain()
-	return
-}
-
-// NewDelta returns the dictionary indices and a delta dictionary since the
-// last time NewArray or NewDictionaryArray were called, and resets the state
-// of the builder (except for the dictionary / memotable)
-func (b *dictionaryBuilder) NewDelta() (indices, delta arrow.Array, err error) {
-	indicesData, deltaData, err := b.newWithDictOffset(b.deltaOffset)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	defer indicesData.Release()
-	defer deltaData.Release()
-	indices, delta = MakeFromData(indicesData), MakeFromData(deltaData)
-	return
-}
-
-func (b *dictionaryBuilder) insertDictValue(val interface{}) error {
-	_, _, err := b.memoTable.GetOrInsert(val)
-	return err
-}
-
-func (b *dictionaryBuilder) insertDictBytes(val []byte) error {
-	_, _, err := b.memoTable.GetOrInsertBytes(val)
-	return err
-}
-
-func (b *dictionaryBuilder) appendValue(val interface{}) error {
-	idx, _, err := b.memoTable.GetOrInsert(val)
-	b.idxBuilder.Append(idx)
-	b.length += 1
-	return err
-}
-
-func (b *dictionaryBuilder) appendBytes(val []byte) error {
-	idx, _, err := b.memoTable.GetOrInsertBytes(val)
-	b.idxBuilder.Append(idx)
-	b.length += 1
-	return err
-}
-
-func getvalFn(arr arrow.Array) func(i int) interface{} {
-	switch typedarr := arr.(type) {
-	case *Int8:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint8:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int16:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint16:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Float16:
-		return func(i int) interface{} { return typedarr.Value(i).Uint16() }
-	case *Float32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Float64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Duration:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Timestamp:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Date64:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Time64:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Time32:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *Date32:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *MonthInterval:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *Binary:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *FixedSizeBinary:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *String:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Decimal128:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *Decimal256:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *DayTimeInterval:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *MonthDayNanoInterval:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	}
-
-	panic("arrow/array: invalid dictionary value type")
-}
-
-func (b *dictionaryBuilder) AppendArray(arr arrow.Array) error {
-	debug.Assert(arrow.TypeEqual(b.dt.ValueType, arr.DataType()), "wrong value type of array to append to dict")
-
-	valfn := getvalFn(arr)
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) {
-			b.AppendNull()
-		} else {
-			if err := b.appendValue(valfn(i)); err != nil {
-				return err
-			}
-		}
-	}
-	return nil
-}
-
-func (b *dictionaryBuilder) IndexBuilder() IndexBuilder {
-	return b.idxBuilder
-}
-
-func (b *dictionaryBuilder) AppendIndices(indices []int, valid []bool) {
-	b.length += len(indices)
-	switch idxbldr := b.idxBuilder.Builder.(type) {
-	case *Int8Builder:
-		vals := make([]int8, len(indices))
-		for i, v := range indices {
-			vals[i] = int8(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int16Builder:
-		vals := make([]int16, len(indices))
-		for i, v := range indices {
-			vals[i] = int16(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int32Builder:
-		vals := make([]int32, len(indices))
-		for i, v := range indices {
-			vals[i] = int32(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int64Builder:
-		vals := make([]int64, len(indices))
-		for i, v := range indices {
-			vals[i] = int64(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint8Builder:
-		vals := make([]uint8, len(indices))
-		for i, v := range indices {
-			vals[i] = uint8(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint16Builder:
-		vals := make([]uint16, len(indices))
-		for i, v := range indices {
-			vals[i] = uint16(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint32Builder:
-		vals := make([]uint32, len(indices))
-		for i, v := range indices {
-			vals[i] = uint32(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint64Builder:
-		vals := make([]uint64, len(indices))
-		for i, v := range indices {
-			vals[i] = uint64(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	}
-}
-
-func (b *dictionaryBuilder) DictionarySize() int {
-	return b.memoTable.Size()
-}
-
-type NullDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *NullDictionaryBuilder) NewArray() arrow.Array {
-	return b.NewDictionaryArray()
-}
-
-func (b *NullDictionaryBuilder) NewDictionaryArray() *Dictionary {
-	idxarr := b.idxBuilder.NewArray()
-	defer idxarr.Release()
-
-	out := idxarr.Data().(*Data)
-	dictarr := NewNull(0)
-	defer dictarr.Release()
-
-	dictarr.data.Retain()
-	out.dtype = b.dt
-	out.dictionary = dictarr.data
-
-	return NewDictionaryData(out)
-}
-
-func (b *NullDictionaryBuilder) AppendArray(arr arrow.Array) error {
-	if arr.DataType().ID() != arrow.NULL {
-		return fmt.Errorf("cannot append non-null array to null dictionary")
-	}
-
-	for i := 0; i < arr.(*Null).Len(); i++ {
-		b.AppendNull()
-	}
-	return nil
-}
-
-type Int8DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int8DictionaryBuilder) Append(v int8) error { return b.appendValue(v) }
-func (b *Int8DictionaryBuilder) InsertDictValues(arr *Int8) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint8DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint8DictionaryBuilder) Append(v uint8) error { return b.appendValue(v) }
-func (b *Uint8DictionaryBuilder) InsertDictValues(arr *Uint8) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int16DictionaryBuilder) Append(v int16) error { return b.appendValue(v) }
-func (b *Int16DictionaryBuilder) InsertDictValues(arr *Int16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint16DictionaryBuilder) Append(v uint16) error { return b.appendValue(v) }
-func (b *Uint16DictionaryBuilder) InsertDictValues(arr *Uint16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int32DictionaryBuilder) Append(v int32) error { return b.appendValue(v) }
-func (b *Int32DictionaryBuilder) InsertDictValues(arr *Int32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint32DictionaryBuilder) Append(v uint32) error { return b.appendValue(v) }
-func (b *Uint32DictionaryBuilder) InsertDictValues(arr *Uint32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int64DictionaryBuilder) Append(v int64) error { return b.appendValue(v) }
-func (b *Int64DictionaryBuilder) InsertDictValues(arr *Int64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint64DictionaryBuilder) Append(v uint64) error { return b.appendValue(v) }
-func (b *Uint64DictionaryBuilder) InsertDictValues(arr *Uint64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type DurationDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *DurationDictionaryBuilder) Append(v arrow.Duration) error { return b.appendValue(int64(v)) }
-func (b *DurationDictionaryBuilder) InsertDictValues(arr *Duration) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type TimestampDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *TimestampDictionaryBuilder) Append(v arrow.Timestamp) error { return b.appendValue(int64(v)) }
-func (b *TimestampDictionaryBuilder) InsertDictValues(arr *Timestamp) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Time32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Time32DictionaryBuilder) Append(v arrow.Time32) error { return b.appendValue(int32(v)) }
-func (b *Time32DictionaryBuilder) InsertDictValues(arr *Time32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Time64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Time64DictionaryBuilder) Append(v arrow.Time64) error { return b.appendValue(int64(v)) }
-func (b *Time64DictionaryBuilder) InsertDictValues(arr *Time64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Date32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Date32DictionaryBuilder) Append(v arrow.Date32) error { return b.appendValue(int32(v)) }
-func (b *Date32DictionaryBuilder) InsertDictValues(arr *Date32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Date64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Date64DictionaryBuilder) Append(v arrow.Date64) error { return b.appendValue(int64(v)) }
-func (b *Date64DictionaryBuilder) InsertDictValues(arr *Date64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type MonthIntervalDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *MonthIntervalDictionaryBuilder) Append(v arrow.MonthInterval) error {
-	return b.appendValue(int32(v))
-}
-func (b *MonthIntervalDictionaryBuilder) InsertDictValues(arr *MonthInterval) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float16DictionaryBuilder) Append(v float16.Num) error { return b.appendValue(v.Uint16()) }
-func (b *Float16DictionaryBuilder) InsertDictValues(arr *Float16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v.Uint16()); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float32DictionaryBuilder) Append(v float32) error { return b.appendValue(v) }
-func (b *Float32DictionaryBuilder) InsertDictValues(arr *Float32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float64DictionaryBuilder) Append(v float64) error { return b.appendValue(v) }
-func (b *Float64DictionaryBuilder) InsertDictValues(arr *Float64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type BinaryDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *BinaryDictionaryBuilder) Append(v []byte) error {
-	if v == nil {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.appendBytes(v)
-}
-
-func (b *BinaryDictionaryBuilder) AppendString(v string) error { return b.appendBytes([]byte(v)) }
-func (b *BinaryDictionaryBuilder) InsertDictValues(arr *Binary) (err error) {
-	if !arrow.TypeEqual(arr.DataType(), b.dt.ValueType) {
-		return fmt.Errorf("dictionary insert type mismatch: cannot insert values of type %T to dictionary type %T", arr.DataType(), b.dt.ValueType)
-	}
-
-	for i := 0; i < arr.Len(); i++ {
-		if err = b.insertDictBytes(arr.Value(i)); err != nil {
-			break
-		}
-	}
-	return
-}
-func (b *BinaryDictionaryBuilder) InsertStringDictValues(arr *String) (err error) {
-	if !arrow.TypeEqual(arr.DataType(), b.dt.ValueType) {
-		return fmt.Errorf("dictionary insert type mismatch: cannot insert values of type %T to dictionary type %T", arr.DataType(), b.dt.ValueType)
-	}
-
-	for i := 0; i < arr.Len(); i++ {
-		if err = b.insertDictValue(arr.Value(i)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-func (b *BinaryDictionaryBuilder) GetValueIndex(i int) int {
-	switch b := b.idxBuilder.Builder.(type) {
-	case *Uint8Builder:
-		return int(b.Value(i))
-	case *Int8Builder:
-		return int(b.Value(i))
-	case *Uint16Builder:
-		return int(b.Value(i))
-	case *Int16Builder:
-		return int(b.Value(i))
-	case *Uint32Builder:
-		return int(b.Value(i))
-	case *Int32Builder:
-		return int(b.Value(i))
-	case *Uint64Builder:
-		return int(b.Value(i))
-	case *Int64Builder:
-		return int(b.Value(i))
-	default:
-		return -1
-	}
-}
-
-func (b *BinaryDictionaryBuilder) Value(i int) []byte {
-	switch mt := b.memoTable.(type) {
-	case *hashing.BinaryMemoTable:
-		return mt.Value(i)
-	}
-	return nil
-}
-
-func (b *BinaryDictionaryBuilder) ValueStr(i int) string {
-	return string(b.Value(i))
-}
-
-type FixedSizeBinaryDictionaryBuilder struct {
-	dictionaryBuilder
-	byteWidth int
-}
-
-func (b *FixedSizeBinaryDictionaryBuilder) Append(v []byte) error {
-	return b.appendValue(v[:b.byteWidth])
-}
-func (b *FixedSizeBinaryDictionaryBuilder) InsertDictValues(arr *FixedSizeBinary) (err error) {
-	var (
-		beg = arr.array.data.offset * b.byteWidth
-		end = (arr.array.data.offset + arr.data.length) * b.byteWidth
-	)
-	data := arr.valueBytes[beg:end]
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:b.byteWidth]); err != nil {
-			break
-		}
-		data = data[b.byteWidth:]
-	}
-	return
-}
-
-type Decimal128DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Decimal128DictionaryBuilder) Append(v decimal128.Num) error {
-	return b.appendValue((*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *Decimal128DictionaryBuilder) InsertDictValues(arr *Decimal128) (err error) {
-	data := arrow.Decimal128Traits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.Decimal128SizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.Decimal128SizeBytes:]
-	}
-	return
-}
-
-type Decimal256DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Decimal256DictionaryBuilder) Append(v decimal256.Num) error {
-	return b.appendValue((*(*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *Decimal256DictionaryBuilder) InsertDictValues(arr *Decimal256) (err error) {
-	data := arrow.Decimal256Traits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.Decimal256SizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.Decimal256SizeBytes:]
-	}
-	return
-}
-
-type MonthDayNanoDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *MonthDayNanoDictionaryBuilder) Append(v arrow.MonthDayNanoInterval) error {
-	return b.appendValue((*(*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *MonthDayNanoDictionaryBuilder) InsertDictValues(arr *MonthDayNanoInterval) (err error) {
-	data := arrow.MonthDayNanoIntervalTraits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.MonthDayNanoIntervalSizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.MonthDayNanoIntervalSizeBytes:]
-	}
-	return
-}
-
-type DayTimeDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *DayTimeDictionaryBuilder) Append(v arrow.DayTimeInterval) error {
-	return b.appendValue((*(*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *DayTimeDictionaryBuilder) InsertDictValues(arr *DayTimeInterval) (err error) {
-	data := arrow.DayTimeIntervalTraits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.DayTimeIntervalSizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.DayTimeIntervalSizeBytes:]
-	}
-	return
-}
-
-func IsTrivialTransposition(transposeMap []int32) bool {
-	for i, t := range transposeMap {
-		if t != int32(i) {
-			return false
-		}
-	}
-	return true
-}
-
-func TransposeDictIndices(mem memory.Allocator, data arrow.ArrayData, inType, outType arrow.DataType, dict arrow.ArrayData, transposeMap []int32) (arrow.ArrayData, error) {
-	// inType may be different from data->dtype if data is ExtensionType
-	if inType.ID() != arrow.DICTIONARY || outType.ID() != arrow.DICTIONARY {
-		return nil, errors.New("arrow/array: expected dictionary type")
-	}
-
-	var (
-		inDictType   = inType.(*arrow.DictionaryType)
-		outDictType  = outType.(*arrow.DictionaryType)
-		inIndexType  = inDictType.IndexType
-		outIndexType = outDictType.IndexType.(arrow.FixedWidthDataType)
-	)
-
-	if inIndexType.ID() == outIndexType.ID() && IsTrivialTransposition(transposeMap) {
-		// index type and values will be identical, we can reuse the existing buffers
-		return NewDataWithDictionary(outType, data.Len(), []*memory.Buffer{data.Buffers()[0], data.Buffers()[1]},
-			data.NullN(), data.Offset(), dict.(*Data)), nil
-	}
-
-	// default path: compute the transposed indices as a new buffer
-	outBuf := memory.NewResizableBuffer(mem)
-	outBuf.Resize(data.Len() * int(bitutil.BytesForBits(int64(outIndexType.BitWidth()))))
-	defer outBuf.Release()
-
-	// shift null buffer if original offset is non-zero
-	var nullBitmap *memory.Buffer
-	if data.Offset() != 0 && data.NullN() != 0 {
-		nullBitmap = memory.NewResizableBuffer(mem)
-		nullBitmap.Resize(int(bitutil.BytesForBits(int64(data.Len()))))
-		bitutil.CopyBitmap(data.Buffers()[0].Bytes(), data.Offset(), data.Len(), nullBitmap.Bytes(), 0)
-		defer nullBitmap.Release()
-	} else {
-		nullBitmap = data.Buffers()[0]
-	}
-
-	outData := NewDataWithDictionary(outType, data.Len(),
-		[]*memory.Buffer{nullBitmap, outBuf}, data.NullN(), 0, dict.(*Data))
-	err := utils.TransposeIntsBuffers(inIndexType, outIndexType,
-		data.Buffers()[1].Bytes(), outBuf.Bytes(), data.Offset(), outData.offset, data.Len(), transposeMap)
-	return outData, err
-}
-
-// DictionaryUnifier defines the interface used for unifying, and optionally producing
-// transposition maps for, multiple dictionary arrays incrementally.
-type DictionaryUnifier interface {
-	// Unify adds the provided array of dictionary values to be unified.
-	Unify(arrow.Array) error
-	// UnifyAndTranspose adds the provided array of dictionary values,
-	// just like Unify but returns an allocated buffer containing a mapping
-	// to transpose dictionary indices.
-	UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error)
-	// GetResult returns the dictionary type (choosing the smallest index type
-	// that can represent all the values) and the new unified dictionary.
-	//
-	// Calling GetResult clears the existing dictionary from the unifier so it
-	// can be reused by calling Unify/UnifyAndTranspose again with new arrays.
-	GetResult() (outType arrow.DataType, outDict arrow.Array, err error)
-	// GetResultWithIndexType is like GetResult, but allows specifying the type
-	// of the dictionary indexes rather than letting the unifier pick. If the
-	// passed in index type isn't large enough to represent all of the dictionary
-	// values, an error will be returned instead. The new unified dictionary
-	// is returned.
-	GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error)
-	// Release should be called to clean up any allocated scratch memo-table used
-	// for building the unified dictionary.
-	Release()
-}
-
-type unifier struct {
-	mem       memory.Allocator
-	valueType arrow.DataType
-	memoTable hashing.MemoTable
-}
-
-// NewDictionaryUnifier constructs and returns a new dictionary unifier for dictionaries
-// of valueType, using the provided allocator for allocating the unified dictionary
-// and the memotable used for building it.
-//
-// This will only work for non-nested types currently. a nested valueType or dictionary type
-// will result in an error.
-func NewDictionaryUnifier(alloc memory.Allocator, valueType arrow.DataType) (DictionaryUnifier, error) {
-	memoTable, err := createMemoTable(alloc, valueType)
-	if err != nil {
-		return nil, err
-	}
-	return &unifier{
-		mem:       alloc,
-		valueType: valueType,
-		memoTable: memoTable,
-	}, nil
-}
-
-func (u *unifier) Release() {
-	if bin, ok := u.memoTable.(*hashing.BinaryMemoTable); ok {
-		bin.Release()
-	}
-}
-
-func (u *unifier) Unify(dict arrow.Array) (err error) {
-	if !arrow.TypeEqual(u.valueType, dict.DataType()) {
-		return fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), u.valueType)
-	}
-
-	valFn := getvalFn(dict)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			u.memoTable.GetOrInsertNull()
-			continue
-		}
-
-		if _, _, err = u.memoTable.GetOrInsert(valFn(i)); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (u *unifier) UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error) {
-	if !arrow.TypeEqual(u.valueType, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), u.valueType)
-	}
-
-	transposed = memory.NewResizableBuffer(u.mem)
-	transposed.Resize(arrow.Int32Traits.BytesRequired(dict.Len()))
-
-	newIdxes := arrow.Int32Traits.CastFromBytes(transposed.Bytes())
-	valFn := getvalFn(dict)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			idx, _ := u.memoTable.GetOrInsertNull()
-			newIdxes[i] = int32(idx)
-			continue
-		}
-
-		idx, _, err := u.memoTable.GetOrInsert(valFn(i))
-		if err != nil {
-			transposed.Release()
-			return nil, err
-		}
-		newIdxes[i] = int32(idx)
-	}
-	return
-}
-
-func (u *unifier) GetResult() (outType arrow.DataType, outDict arrow.Array, err error) {
-	dictLen := u.memoTable.Size()
-	var indexType arrow.DataType
-	switch {
-	case dictLen <= math.MaxInt8:
-		indexType = arrow.PrimitiveTypes.Int8
-	case dictLen <= math.MaxInt16:
-		indexType = arrow.PrimitiveTypes.Int16
-	case dictLen <= math.MaxInt32:
-		indexType = arrow.PrimitiveTypes.Int32
-	default:
-		indexType = arrow.PrimitiveTypes.Int64
-	}
-	outType = &arrow.DictionaryType{IndexType: indexType, ValueType: u.valueType}
-
-	dictData, err := GetDictArrayData(u.mem, u.valueType, u.memoTable, 0)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	outDict = MakeFromData(dictData)
-	return
-}
-
-func (u *unifier) GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error) {
-	dictLen := u.memoTable.Size()
-	var toobig bool
-	switch indexType.ID() {
-	case arrow.UINT8:
-		toobig = dictLen > math.MaxUint8
-	case arrow.INT8:
-		toobig = dictLen > math.MaxInt8
-	case arrow.UINT16:
-		toobig = dictLen > math.MaxUint16
-	case arrow.INT16:
-		toobig = dictLen > math.MaxInt16
-	case arrow.UINT32:
-		toobig = uint(dictLen) > math.MaxUint32
-	case arrow.INT32:
-		toobig = dictLen > math.MaxInt32
-	case arrow.UINT64:
-		toobig = uint64(dictLen) > uint64(math.MaxUint64)
-	case arrow.INT64:
-	default:
-		return nil, fmt.Errorf("arrow/array: invalid dictionary index type: %s, must be integral", indexType)
-	}
-	if toobig {
-		return nil, errors.New("arrow/array: cannot combine dictionaries. unified dictionary requires a larger index type")
-	}
-
-	dictData, err := GetDictArrayData(u.mem, u.valueType, u.memoTable, 0)
-	if err != nil {
-		return nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	return MakeFromData(dictData), nil
-}
-
-type binaryUnifier struct {
-	mem       memory.Allocator
-	memoTable *hashing.BinaryMemoTable
-}
-
-// NewBinaryDictionaryUnifier constructs and returns a new dictionary unifier for dictionaries
-// of binary values, using the provided allocator for allocating the unified dictionary
-// and the memotable used for building it.
-func NewBinaryDictionaryUnifier(alloc memory.Allocator) DictionaryUnifier {
-	return &binaryUnifier{
-		mem:       alloc,
-		memoTable: hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(alloc, arrow.BinaryTypes.Binary)),
-	}
-}
-
-func (u *binaryUnifier) Release() {
-	u.memoTable.Release()
-}
-
-func (u *binaryUnifier) Unify(dict arrow.Array) (err error) {
-	if !arrow.TypeEqual(arrow.BinaryTypes.Binary, dict.DataType()) {
-		return fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), arrow.BinaryTypes.Binary)
-	}
-
-	typedDict := dict.(*Binary)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			u.memoTable.GetOrInsertNull()
-			continue
-		}
-
-		if _, _, err = u.memoTable.GetOrInsertBytes(typedDict.Value(i)); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (u *binaryUnifier) UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error) {
-	if !arrow.TypeEqual(arrow.BinaryTypes.Binary, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), arrow.BinaryTypes.Binary)
-	}
-
-	transposed = memory.NewResizableBuffer(u.mem)
-	transposed.Resize(arrow.Int32Traits.BytesRequired(dict.Len()))
-
-	newIdxes := arrow.Int32Traits.CastFromBytes(transposed.Bytes())
-	typedDict := dict.(*Binary)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			idx, _ := u.memoTable.GetOrInsertNull()
-			newIdxes[i] = int32(idx)
-			continue
-		}
-
-		idx, _, err := u.memoTable.GetOrInsertBytes(typedDict.Value(i))
-		if err != nil {
-			transposed.Release()
-			return nil, err
-		}
-		newIdxes[i] = int32(idx)
-	}
-	return
-}
-
-func (u *binaryUnifier) GetResult() (outType arrow.DataType, outDict arrow.Array, err error) {
-	dictLen := u.memoTable.Size()
-	var indexType arrow.DataType
-	switch {
-	case dictLen <= math.MaxInt8:
-		indexType = arrow.PrimitiveTypes.Int8
-	case dictLen <= math.MaxInt16:
-		indexType = arrow.PrimitiveTypes.Int16
-	case dictLen <= math.MaxInt32:
-		indexType = arrow.PrimitiveTypes.Int32
-	default:
-		indexType = arrow.PrimitiveTypes.Int64
-	}
-	outType = &arrow.DictionaryType{IndexType: indexType, ValueType: arrow.BinaryTypes.Binary}
-
-	dictData, err := GetDictArrayData(u.mem, arrow.BinaryTypes.Binary, u.memoTable, 0)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	outDict = MakeFromData(dictData)
-	return
-}
-
-func (u *binaryUnifier) GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error) {
-	dictLen := u.memoTable.Size()
-	var toobig bool
-	switch indexType.ID() {
-	case arrow.UINT8:
-		toobig = dictLen > math.MaxUint8
-	case arrow.INT8:
-		toobig = dictLen > math.MaxInt8
-	case arrow.UINT16:
-		toobig = dictLen > math.MaxUint16
-	case arrow.INT16:
-		toobig = dictLen > math.MaxInt16
-	case arrow.UINT32:
-		toobig = uint(dictLen) > math.MaxUint32
-	case arrow.INT32:
-		toobig = dictLen > math.MaxInt32
-	case arrow.UINT64:
-		toobig = uint64(dictLen) > uint64(math.MaxUint64)
-	case arrow.INT64:
-	default:
-		return nil, fmt.Errorf("arrow/array: invalid dictionary index type: %s, must be integral", indexType)
-	}
-	if toobig {
-		return nil, errors.New("arrow/array: cannot combine dictionaries. unified dictionary requires a larger index type")
-	}
-
-	dictData, err := GetDictArrayData(u.mem, arrow.BinaryTypes.Binary, u.memoTable, 0)
-	if err != nil {
-		return nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	return MakeFromData(dictData), nil
-}
-
-func unifyRecursive(mem memory.Allocator, typ arrow.DataType, chunks []*Data) (changed bool, err error) {
-	debug.Assert(len(chunks) != 0, "must provide non-zero length chunk slice")
-	var extType arrow.DataType
-
-	if typ.ID() == arrow.EXTENSION {
-		extType = typ
-		typ = typ.(arrow.ExtensionType).StorageType()
-	}
-
-	if nestedTyp, ok := typ.(arrow.NestedType); ok {
-		children := make([]*Data, len(chunks))
-		for i, f := range nestedTyp.Fields() {
-			for j, c := range chunks {
-				children[j] = c.childData[i].(*Data)
-			}
-
-			childChanged, err := unifyRecursive(mem, f.Type, children)
-			if err != nil {
-				return false, err
-			}
-			if childChanged {
-				// only when unification actually occurs
-				for j := range chunks {
-					chunks[j].childData[i] = children[j]
-				}
-				changed = true
-			}
-		}
-	}
-
-	if typ.ID() == arrow.DICTIONARY {
-		dictType := typ.(*arrow.DictionaryType)
-		var (
-			uni     DictionaryUnifier
-			newDict arrow.Array
-		)
-		// unify any nested dictionaries first, but the unifier doesn't support
-		// nested dictionaries yet so this would fail.
-		uni, err = NewDictionaryUnifier(mem, dictType.ValueType)
-		if err != nil {
-			return changed, err
-		}
-		defer uni.Release()
-		transposeMaps := make([]*memory.Buffer, len(chunks))
-		for i, c := range chunks {
-			debug.Assert(c.dictionary != nil, "missing dictionary data for dictionary array")
-			arr := MakeFromData(c.dictionary)
-			defer arr.Release()
-			if transposeMaps[i], err = uni.UnifyAndTranspose(arr); err != nil {
-				return
-			}
-			defer transposeMaps[i].Release()
-		}
-
-		if newDict, err = uni.GetResultWithIndexType(dictType.IndexType); err != nil {
-			return
-		}
-		defer newDict.Release()
-
-		for j := range chunks {
-			chnk, err := TransposeDictIndices(mem, chunks[j], typ, typ, newDict.Data(), arrow.Int32Traits.CastFromBytes(transposeMaps[j].Bytes()))
-			if err != nil {
-				return changed, err
-			}
-			chunks[j].Release()
-			chunks[j] = chnk.(*Data)
-			if extType != nil {
-				chunks[j].dtype = extType
-			}
-		}
-		changed = true
-	}
-
-	return
-}
-
-// UnifyChunkedDicts takes a chunked array of dictionary type and will unify
-// the dictionary across all of the chunks with the returned chunked array
-// having all chunks share the same dictionary.
-//
-// The return from this *must* have Release called on it unless an error is returned
-// in which case the *arrow.Chunked will be nil.
-//
-// If there is 1 or fewer chunks, then nothing is modified and this function will just
-// call Retain on the passed in Chunked array (so Release can safely be called on it).
-// The same is true if the type of the array is not a dictionary or if no changes are
-// needed for all of the chunks to be using the same dictionary.
-func UnifyChunkedDicts(alloc memory.Allocator, chnkd *arrow.Chunked) (*arrow.Chunked, error) {
-	if len(chnkd.Chunks()) <= 1 {
-		chnkd.Retain()
-		return chnkd, nil
-	}
-
-	chunksData := make([]*Data, len(chnkd.Chunks()))
-	for i, c := range chnkd.Chunks() {
-		c.Data().Retain()
-		chunksData[i] = c.Data().(*Data)
-	}
-	changed, err := unifyRecursive(alloc, chnkd.DataType(), chunksData)
-	if err != nil || !changed {
-		for _, c := range chunksData {
-			c.Release()
-		}
-		if err == nil {
-			chnkd.Retain()
-		} else {
-			chnkd = nil
-		}
-		return chnkd, err
-	}
-
-	chunks := make([]arrow.Array, len(chunksData))
-	for i, c := range chunksData {
-		chunks[i] = MakeFromData(c)
-		defer chunks[i].Release()
-		c.Release()
-	}
-
-	return arrow.NewChunked(chnkd.DataType(), chunks), nil
-}
-
-// UnifyTableDicts performs UnifyChunkedDicts on each column of the table so that
-// any dictionary column will have the dictionaries of its chunks unified.
-//
-// The returned Table should always be Release'd unless a non-nil error was returned,
-// in which case the table returned will be nil.
-func UnifyTableDicts(alloc memory.Allocator, table arrow.Table) (arrow.Table, error) {
-	cols := make([]arrow.Column, table.NumCols())
-	for i := 0; i < int(table.NumCols()); i++ {
-		chnkd, err := UnifyChunkedDicts(alloc, table.Column(i).Data())
-		if err != nil {
-			return nil, err
-		}
-		defer chnkd.Release()
-		cols[i] = *arrow.NewColumn(table.Schema().Field(i), chnkd)
-		defer cols[i].Release()
-	}
-	return NewTable(table.Schema(), cols, table.NumRows()), nil
-}
-
-var (
-	_ arrow.Array = (*Dictionary)(nil)
-	_ Builder     = (*dictionaryBuilder)(nil)
-)
diff --git a/go/arrow/array/dictionary_test.go b/go/arrow/array/dictionary_test.go
deleted file mode 100644
index ea9587d8dcdf9..0000000000000
--- a/go/arrow/array/dictionary_test.go
+++ /dev/null
@@ -1,1918 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"math/rand"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type PrimitiveDictionaryTestSuite struct {
-	suite.Suite
-
-	mem    *memory.CheckedAllocator
-	typ    arrow.DataType
-	reftyp reflect.Type
-}
-
-func (p *PrimitiveDictionaryTestSuite) SetupTest() {
-	p.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (p *PrimitiveDictionaryTestSuite) TearDownTest() {
-	p.mem.AssertSize(p.T(), 0)
-}
-
-func TestPrimitiveDictionaryBuilders(t *testing.T) {
-	tests := []struct {
-		name   string
-		typ    arrow.DataType
-		reftyp reflect.Type
-	}{
-		{"int8", arrow.PrimitiveTypes.Int8, reflect.TypeOf(int8(0))},
-		{"uint8", arrow.PrimitiveTypes.Uint8, reflect.TypeOf(uint8(0))},
-		{"int16", arrow.PrimitiveTypes.Int16, reflect.TypeOf(int16(0))},
-		{"uint16", arrow.PrimitiveTypes.Uint16, reflect.TypeOf(uint16(0))},
-		{"int32", arrow.PrimitiveTypes.Int32, reflect.TypeOf(int32(0))},
-		{"uint32", arrow.PrimitiveTypes.Uint32, reflect.TypeOf(uint32(0))},
-		{"int64", arrow.PrimitiveTypes.Int64, reflect.TypeOf(int64(0))},
-		{"uint64", arrow.PrimitiveTypes.Uint64, reflect.TypeOf(uint64(0))},
-		{"float32", arrow.PrimitiveTypes.Float32, reflect.TypeOf(float32(0))},
-		{"float64", arrow.PrimitiveTypes.Float64, reflect.TypeOf(float64(0))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &PrimitiveDictionaryTestSuite{typ: tt.typ, reftyp: tt.reftyp})
-		})
-	}
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderBasic() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	p.EqualValues(2, bldr.DictionarySize())
-
-	arr := bldr.NewArray().(*array.Dictionary)
-	defer arr.Release()
-
-	p.True(arrow.TypeEqual(expectedType, arr.DataType()))
-	expectedDict, _, err := array.FromJSON(p.mem, expectedType.ValueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer expectedDict.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, expectedType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(expectedType, expectedIndices, expectedDict)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderInit() {
-	valueType := p.typ
-	dictArr, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: valueType}
-	bldr := array.NewDictionaryBuilderWithDict(p.mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	arr := bldr.NewDictionaryArray()
-	defer arr.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, dictType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(dictType, expectedIndices, dictArr)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryNewBuilder() {
-	valueType := p.typ
-	dictArr, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: valueType}
-	bldr := array.NewBuilder(p.mem, dictType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	arr := bldr.NewArray().(*array.Dictionary)
-	defer arr.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, dictType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(dictType, expectedIndices, dictArr)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderAppendArr() {
-	valueType := p.typ
-	intermediate, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2, 1]"))
-	p.NoError(err)
-	defer intermediate.Release()
-
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	bldr.AppendArray(intermediate)
-	result := bldr.NewArray()
-	defer result.Release()
-
-	expectedDict, _, err := array.FromJSON(p.mem, expectedType.ValueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer expectedDict.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, expectedType.IndexType, strings.NewReader("[0, 1, 0]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(expectedType, expectedIndices, expectedDict)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, result))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderDeltaDictionary() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	exdict, _, err := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer exdict.Release()
-	exindices, _, err := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0, 1]"))
-	p.NoError(err)
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(result.DataType().(*arrow.DictionaryType), exindices, exdict)
-	defer expected.Release()
-	p.True(array.Equal(expected, result))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err := bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 2, 0, 2]"))
-	defer exindices.Release()
-	exdelta, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[3]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderDoubleDeltaDictionary() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	exdict, _, err := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer exdict.Release()
-	exindices, _, err := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0, 1]"))
-	p.NoError(err)
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(result.DataType().(*arrow.DictionaryType), exindices, exdict)
-	defer expected.Release()
-	p.True(array.Equal(expected, result))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err := bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 2, 0, 2]"))
-	defer exindices.Release()
-	exdelta, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[3]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(5).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err = bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 2, 3, 4]"))
-	defer exindices.Release()
-	exdelta, _, _ = array.FromJSON(p.mem, p.typ, strings.NewReader("[4, 5]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestNewResetBehavior() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	p.Less(0, bldr.Cap())
-	p.Less(0, bldr.NullN())
-	p.Equal(4, bldr.Len())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Zero(bldr.Cap())
-	p.Zero(bldr.Len())
-	p.Zero(bldr.NullN())
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Equal(4, result.Dictionary().Len())
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestResetFull() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int32Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[2]"))
-	exdict, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2, 3]"))
-	defer exindices.Release()
-	defer exdict.Release()
-
-	p.True(array.Equal(exindices, result.Indices()))
-	p.True(array.Equal(exdict, result.Dictionary()))
-
-	bldr.ResetFull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[0]"))
-	exdict, _, _ = array.FromJSON(p.mem, p.typ, strings.NewReader("[4]"))
-	defer exindices.Release()
-	defer exdict.Release()
-
-	p.True(array.Equal(exindices, result.Indices()))
-	p.True(array.Equal(exdict, result.Dictionary()))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestStringRoundTrip() {
-	dt := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	b := array.NewDictionaryBuilder(p.mem, dt)
-	defer b.Release()
-
-	builder := reflect.ValueOf(b)
-	fn := builder.MethodByName("Append")
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	b.AppendNull()
-
-	p.EqualValues(4, b.Len())
-	p.EqualValues(1, b.NullN())
-
-	arr := b.NewArray().(*array.Dictionary)
-	defer arr.Release()
-	p.True(arrow.TypeEqual(dt, arr.DataType()))
-
-	b1 := array.NewDictionaryBuilder(p.mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		p.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Dictionary)
-	defer arr1.Release()
-
-	p.Equal(arr.Len(), arr1.Len())
-	p.True(array.Equal(arr, arr1))
-}
-
-func TestBasicStringDictionaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append([]byte("test")))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	assert.Equal(t, "test", builder.ValueStr(builder.GetValueIndex(0)))
-	assert.Equal(t, "test2", builder.ValueStr(builder.GetValueIndex(1)))
-	assert.Equal(t, "test", builder.ValueStr(builder.GetValueIndex(2)))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer exdict.Release()
-	exint, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer exint.Release()
-
-	assert.True(t, arrow.TypeEqual(dictType, result.DataType()))
-	expected := array.NewDictionaryArray(dictType, exint, exdict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryInsertValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["c", "a", "b", "d"]`))
-	defer exdict.Release()
-
-	invalidDict, _, err := array.FromJSON(mem, arrow.BinaryTypes.Binary, strings.NewReader(`["ZQ==", "Zg=="]`))
-	assert.NoError(t, err)
-	defer invalidDict.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int16Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.InsertStringDictValues(exdict.(*array.String)))
-	// inserting again should have no effect
-	assert.NoError(t, builder.InsertStringDictValues(exdict.(*array.String)))
-
-	assert.Error(t, builder.InsertDictValues(invalidDict.(*array.Binary)))
-
-	for i := 0; i < 2; i++ {
-		builder.AppendString("c")
-		builder.AppendString("a")
-		builder.AppendString("b")
-		builder.AppendNull()
-		builder.AppendString("d")
-	}
-
-	assert.Equal(t, 10, bldr.Len())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader("[0, 1, 2, null, 3, 0, 1, 2, null, 3]"))
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(dictType, exindices, exdict)
-	defer expected.Release()
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderInit(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictArr, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer dictArr.Release()
-	intarr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer intarr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: intarr.DataType().(arrow.FixedWidthDataType), ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderOnlyNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader("[]"))
-	defer dict.Release()
-	intarr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[null]"))
-	defer intarr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, dict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderDelta(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer exdict.Release()
-	exint, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer exint.Release()
-
-	assert.True(t, arrow.TypeEqual(dictType, result.DataType()))
-	expected := array.NewDictionaryArray(dictType, exint, exdict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test3"))
-	assert.NoError(t, builder.AppendString("test2"))
-
-	indices, delta, err := builder.NewDelta()
-	assert.NoError(t, err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exdelta, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test3"]`))
-	defer exdelta.Release()
-	exint, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 1]"))
-	defer exint.Release()
-
-	assert.True(t, array.Equal(exdelta, delta))
-	assert.True(t, array.Equal(exint, indices))
-}
-
-func TestStringDictionaryBuilderBigDelta(t *testing.T) {
-	const testlen = 2048
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int16Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-
-	strbldr := array.NewStringBuilder(mem)
-	defer strbldr.Release()
-
-	intbldr := array.NewInt16Builder(mem)
-	defer intbldr.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		var b strings.Builder
-		b.WriteString("test")
-		fmt.Fprint(&b, idx)
-
-		val := b.String()
-		assert.NoError(t, builder.AppendString(val))
-		strbldr.Append(val)
-		intbldr.Append(idx)
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-	strarr := strbldr.NewStringArray()
-	defer strarr.Release()
-	intarr := intbldr.NewInt16Array()
-	defer intarr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, strarr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-
-	strbldr2 := array.NewStringBuilder(mem)
-	defer strbldr2.Release()
-	intbldr2 := array.NewInt16Builder(mem)
-	defer intbldr2.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		builder.AppendString("test1")
-		intbldr2.Append(1)
-	}
-	for idx := int16(0); idx < testlen; idx++ {
-		builder.AppendString("test_new_value1")
-		intbldr2.Append(testlen)
-	}
-	strbldr2.Append("test_new_value1")
-
-	indices2, delta2, err := bldr.NewDelta()
-	assert.NoError(t, err)
-	defer indices2.Release()
-	defer delta2.Release()
-	strarr2 := strbldr2.NewStringArray()
-	defer strarr2.Release()
-	intarr2 := intbldr2.NewInt16Array()
-	defer intarr2.Release()
-
-	assert.True(t, array.Equal(intarr2, indices2))
-	assert.True(t, array.Equal(strarr2, delta2))
-
-	strbldr3 := array.NewStringBuilder(mem)
-	defer strbldr3.Release()
-	intbldr3 := array.NewInt16Builder(mem)
-	defer intbldr3.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		assert.NoError(t, builder.AppendString("test2"))
-		intbldr3.Append(2)
-	}
-	for idx := int16(0); idx < testlen; idx++ {
-		assert.NoError(t, builder.AppendString("test_new_value2"))
-		intbldr3.Append(testlen + 1)
-	}
-	strbldr3.Append("test_new_value2")
-
-	indices3, delta3, err := bldr.NewDelta()
-	assert.NoError(t, err)
-	defer indices3.Release()
-	defer delta3.Release()
-	strarr3 := strbldr3.NewStringArray()
-	defer strarr3.Release()
-	intarr3 := intbldr3.NewInt16Array()
-	defer intarr3.Release()
-
-	assert.True(t, array.Equal(intarr3, indices3))
-	assert.True(t, array.Equal(strarr3, delta3))
-}
-
-func TestStringDictionaryBuilderIsNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	builder.AppendNull()
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	assert.False(t, bldr.IsNull(0))
-	assert.True(t, bldr.IsNull(1))
-	assert.False(t, bldr.IsNull(2))
-	assert.False(t, bldr.IsNull(3))
-}
-
-func TestFixedSizeBinaryDictionaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, dictType.ValueType.(*arrow.FixedSizeBinaryType))
-	defer fsbBldr.Release()
-
-	fsbBldr.Append(test)
-	fsbBldr.Append(test2)
-	fsbArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer fsbArr.Release()
-
-	intbldr := array.NewInt8Builder(mem)
-	defer intbldr.Release()
-
-	intbldr.AppendValues([]int8{0, 1, 0}, nil)
-	intArr := intbldr.NewInt8Array()
-	defer intArr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intArr, fsbArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderInit(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 4})
-	defer fsbBldr.Release()
-
-	test, test2 := []byte("abcd"), []byte("wxyz")
-	fsbBldr.AppendValues([][]byte{test, test2}, nil)
-	dictArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: dictArr.DataType()}
-	bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer indices.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderMakeBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 4})
-	defer fsbBldr.Release()
-
-	test, test2 := []byte("abcd"), []byte("wxyz")
-	fsbBldr.AppendValues([][]byte{test, test2}, nil)
-	dictArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: dictArr.DataType()}
-	bldr := array.NewBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer indices.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderDeltaDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	test3 := []byte{12, 12, 11, 10}
-
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result1 := bldr.NewDictionaryArray()
-	defer result1.Release()
-
-	fsbBuilder := array.NewFixedSizeBinaryBuilder(mem, dictType.ValueType.(*arrow.FixedSizeBinaryType))
-	defer fsbBuilder.Release()
-
-	fsbBuilder.AppendValues([][]byte{test, test2}, nil)
-	fsbArr1 := fsbBuilder.NewFixedSizeBinaryArray()
-	defer fsbArr1.Release()
-
-	intBuilder := array.NewInt8Builder(mem)
-	defer intBuilder.Release()
-	intBuilder.AppendValues([]int8{0, 1, 0}, nil)
-	intArr1 := intBuilder.NewInt8Array()
-	defer intArr1.Release()
-
-	expected := array.NewDictionaryArray(dictType, intArr1, fsbArr1)
-	defer expected.Release()
-	assert.True(t, array.Equal(expected, result1))
-
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test3))
-
-	indices2, delta2, err := builder.NewDelta()
-	assert.NoError(t, err)
-	defer indices2.Release()
-	defer delta2.Release()
-
-	fsbBuilder.Append(test3)
-	fsbArr2 := fsbBuilder.NewFixedSizeBinaryArray()
-	defer fsbArr2.Release()
-
-	intBuilder.AppendValues([]int8{0, 1, 2}, nil)
-	intArr2 := intBuilder.NewInt8Array()
-	defer intArr2.Release()
-
-	assert.True(t, array.Equal(intArr2, indices2))
-	assert.True(t, array.Equal(fsbArr2, delta2))
-}
-
-func TestFixedSizeBinaryDictionaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	b := array.NewDictionaryBuilder(mem, dictType)
-	defer b.Release()
-
-	builder := b.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	arr := builder.NewDictionaryArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDictionaryBuilder(mem, dictType)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Dictionary)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal128DictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	test := []decimal128.Num{decimal128.FromI64(12), decimal128.FromI64(12), decimal128.FromI64(11), decimal128.FromI64(12)}
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.Decimal128Type{Precision: 2, Scale: 0}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.Decimal128DictionaryBuilder)
-	for _, v := range test {
-		assert.NoError(t, builder.Append(v))
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader("[0, 0, 1, 0]"))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader("[12, 11]"))
-	defer dict.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dict)
-	defer expected.Release()
-
-	assert.True(t, array.ApproxEqual(expected, result))
-}
-
-func TestDecimal256DictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	test := []decimal256.Num{decimal256.FromI64(12), decimal256.FromI64(12), decimal256.FromI64(11), decimal256.FromI64(12)}
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.Decimal256Type{Precision: 2, Scale: 0}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.Decimal256DictionaryBuilder)
-	for _, v := range test {
-		assert.NoError(t, builder.Append(v))
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader("[0, 0, 1, 0]"))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader("[12, 11]"))
-	defer dict.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dict)
-	defer expected.Release()
-
-	assert.True(t, array.ApproxEqual(expected, result))
-}
-
-func TestNullDictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.Null}
-	bldr := array.NewBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.NullDictionaryBuilder)
-	builder.AppendNulls(3)
-	assert.Equal(t, 3, builder.Len())
-	assert.Equal(t, 3, builder.NullN())
-
-	nullarr, _, _ := array.FromJSON(mem, arrow.Null, strings.NewReader("[null, null, null]"))
-	defer nullarr.Release()
-
-	assert.NoError(t, builder.AppendArray(nullarr))
-	assert.Equal(t, 6, bldr.Len())
-	assert.Equal(t, 6, bldr.NullN())
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-	assert.Equal(t, 6, result.Len())
-	assert.Equal(t, 6, result.NullN())
-}
-
-func TestDictionaryEquals(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		isValid                     = []bool{true, true, false, true, true, true}
-		dict, dict2                 arrow.Array
-		indices, indices2, indices3 arrow.Array
-	)
-
-	dict, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz"]`))
-	defer dict.Release()
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Uint16Type{}, ValueType: arrow.BinaryTypes.String}
-
-	dict2, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz", "qux"]`))
-	defer dict2.Release()
-	dictType2 := &arrow.DictionaryType{IndexType: &arrow.Uint16Type{}, ValueType: arrow.BinaryTypes.String}
-
-	idxbuilder := array.NewUint16Builder(mem)
-	defer idxbuilder.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 2, math.MaxUint16, 0, 2, 0}, isValid)
-	indices = idxbuilder.NewArray()
-	defer indices.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 2, 0, 0, 2, 0}, isValid)
-	indices2 = idxbuilder.NewArray()
-	defer indices2.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 1, 0, 0, 2, 0}, isValid)
-	indices3 = idxbuilder.NewArray()
-	defer indices3.Release()
-
-	var (
-		arr  = array.NewDictionaryArray(dictType, indices, dict)
-		arr2 = array.NewDictionaryArray(dictType, indices2, dict)
-		arr3 = array.NewDictionaryArray(dictType2, indices, dict2)
-		arr4 = array.NewDictionaryArray(dictType, indices3, dict)
-	)
-	defer func() {
-		arr.Release()
-		arr2.Release()
-		arr3.Release()
-		arr4.Release()
-	}()
-
-	assert.True(t, array.Equal(arr, arr))
-	// equal because the unequal index is masked by null
-	assert.True(t, array.Equal(arr, arr2))
-	// unequal dictionaries
-	assert.False(t, array.Equal(arr, arr3))
-	// unequal indices
-	assert.False(t, array.Equal(arr, arr4))
-	assert.True(t, array.SliceEqual(arr, 3, 6, arr4, 3, 6))
-	assert.False(t, array.SliceEqual(arr, 1, 3, arr4, 1, 3))
-
-	sz := arr.Len()
-	slice := array.NewSlice(arr, 2, int64(sz))
-	defer slice.Release()
-	slice2 := array.NewSlice(arr, 2, int64(sz))
-	defer slice2.Release()
-
-	assert.Equal(t, sz-2, slice.Len())
-	assert.True(t, array.Equal(slice, slice2))
-	assert.True(t, array.SliceEqual(arr, 2, int64(arr.Len()), slice, 0, int64(slice.Len())))
-
-	// chained slice
-	slice2 = array.NewSlice(arr, 1, int64(arr.Len()))
-	defer slice2.Release()
-	slice2 = array.NewSlice(slice2, 1, int64(slice2.Len()))
-	defer slice2.Release()
-
-	assert.True(t, array.Equal(slice, slice2))
-	slice = array.NewSlice(arr, 1, 4)
-	defer slice.Release()
-	slice2 = array.NewSlice(arr, 1, 4)
-	defer slice2.Release()
-
-	assert.Equal(t, 3, slice.Len())
-	assert.True(t, array.Equal(slice, slice2))
-	assert.True(t, array.SliceEqual(arr, 1, 4, slice, 0, int64(slice.Len())))
-}
-
-func TestDictionaryIndexTypes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, indextyp := range dictIndexTypes {
-		t.Run(indextyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{IndexType: indextyp, ValueType: arrow.BinaryTypes.String}
-			bldr := array.NewDictionaryBuilder(mem, dictType)
-			defer bldr.Release()
-
-			builder := bldr.(*array.BinaryDictionaryBuilder)
-			builder.AppendString("foo")
-			builder.AppendString("bar")
-			builder.AppendString("foo")
-			builder.AppendString("baz")
-			builder.Append(nil)
-
-			assert.Equal(t, 5, builder.Len())
-			assert.Equal(t, 1, builder.NullN())
-
-			result := builder.NewDictionaryArray()
-			defer result.Release()
-
-			expectedIndices, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[0, 1, 0, 2, null]"))
-			defer expectedIndices.Release()
-
-			assert.True(t, array.Equal(expectedIndices, result.Indices()))
-		})
-	}
-}
-
-func TestDictionaryFromArrays(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz"]`))
-	defer dict.Release()
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, indextyp := range dictIndexTypes {
-		t.Run(indextyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{IndexType: indextyp, ValueType: arrow.BinaryTypes.String}
-			indices1, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, 0, 2, 0]"))
-			defer indices1.Release()
-
-			indices2, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, 3, 2, 0]"))
-			defer indices2.Release()
-
-			arr1, err := array.NewValidatedDictionaryArray(dictType, indices1, dict)
-			assert.NoError(t, err)
-			defer arr1.Release()
-
-			_, err = array.NewValidatedDictionaryArray(dictType, indices2, dict)
-			assert.Error(t, err)
-
-			switch indextyp.ID() {
-			case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-				indices3, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, null, 2, 0]"))
-				defer indices3.Release()
-				bitutil.ClearBit(indices3.Data().Buffers()[0].Bytes(), 2)
-				arr3, err := array.NewValidatedDictionaryArray(dictType, indices3, dict)
-				assert.NoError(t, err)
-				defer arr3.Release()
-			}
-
-			indices4, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, null, 3, 2, 0]"))
-			defer indices4.Release()
-			_, err = array.NewValidatedDictionaryArray(dictType, indices4, dict)
-			assert.Error(t, err)
-
-			diffIndexType := arrow.PrimitiveTypes.Int8
-			if indextyp.ID() == arrow.INT8 {
-				diffIndexType = arrow.PrimitiveTypes.Uint8
-			}
-			_, err = array.NewValidatedDictionaryArray(&arrow.DictionaryType{IndexType: diffIndexType, ValueType: arrow.BinaryTypes.String}, indices4, dict)
-			assert.Error(t, err)
-		})
-	}
-}
-
-func TestListOfDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	rootBuilder := array.NewBuilder(mem, arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.BinaryTypes.String}))
-	defer rootBuilder.Release()
-
-	listBldr := rootBuilder.(*array.ListBuilder)
-	dictBldr := listBldr.ValueBuilder().(*array.BinaryDictionaryBuilder)
-
-	listBldr.Append(true)
-	expected := []string{}
-	for _, a := range []byte("abc") {
-		for _, d := range []byte("def") {
-			for _, g := range []byte("ghi") {
-				for _, j := range []byte("jkl") {
-					for _, m := range []byte("mno") {
-						for _, p := range []byte("pqr") {
-							if a+d+g+j+m+p%16 == 0 {
-								listBldr.Append(true)
-							}
-
-							str := string([]byte{a, d, g, j, m, p})
-							dictBldr.AppendString(str)
-							expected = append(expected, str)
-						}
-					}
-				}
-			}
-		}
-	}
-
-	strbldr := array.NewStringBuilder(mem)
-	defer strbldr.Release()
-	strbldr.AppendValues(expected, nil)
-
-	expectedDict := strbldr.NewStringArray()
-	defer expectedDict.Release()
-
-	arr := rootBuilder.NewArray()
-	defer arr.Release()
-
-	actualDict := arr.(*array.List).ListValues().(*array.Dictionary)
-	assert.True(t, array.Equal(expectedDict, actualDict.Dictionary()))
-}
-
-func TestDictionaryCanCompareIndices(t *testing.T) {
-	makeDict := func(mem memory.Allocator, idxType, valueType arrow.DataType, dictJSON string) *array.Dictionary {
-		indices, _, _ := array.FromJSON(mem, idxType, strings.NewReader("[]"))
-		defer indices.Release()
-		dict, _, _ := array.FromJSON(mem, valueType, strings.NewReader(dictJSON))
-		defer dict.Release()
-
-		out, _ := array.NewValidatedDictionaryArray(&arrow.DictionaryType{IndexType: idxType, ValueType: valueType}, indices, dict)
-		return out
-	}
-
-	compareSwap := func(t *testing.T, l, r *array.Dictionary, expected bool) {
-		assert.Equalf(t, expected, l.CanCompareIndices(r), "left: %s\nright: %s\n", l, r)
-		assert.Equalf(t, expected, r.CanCompareIndices(l), "left: %s\nright: %s\n", r, l)
-	}
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("same", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer arr.Release()
-		same := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer same.Release()
-		compareSwap(t, arr, same, true)
-	})
-
-	t.Run("prefix dict", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar", "quux"]`)
-		defer arr.Release()
-		prefixDict := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer prefixDict.Release()
-		compareSwap(t, arr, prefixDict, true)
-	})
-
-	t.Run("indices need cast", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer arr.Release()
-		needcast := makeDict(mem, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer needcast.Release()
-		compareSwap(t, arr, needcast, false)
-	})
-
-	t.Run("non prefix", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar", "quux"]`)
-		defer arr.Release()
-		nonPrefix := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "blink"]`)
-		defer nonPrefix.Release()
-		compareSwap(t, arr, nonPrefix, false)
-	})
-}
-
-func TestDictionaryGetValueIndex(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	indicesJson := "[5, 0, 1, 3, 2, 4]"
-	indices64, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(indicesJson))
-	defer indices64.Release()
-	dict, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[10, 20, 30, 40, 50, 60]"))
-	defer dict.Release()
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-	i64Index := indices64.(*array.Int64)
-	for _, idxt := range dictIndexTypes {
-		t.Run(idxt.Name(), func(t *testing.T) {
-			indices, _, _ := array.FromJSON(mem, idxt, strings.NewReader(indicesJson))
-			defer indices.Release()
-			dictType := &arrow.DictionaryType{IndexType: idxt, ValueType: arrow.PrimitiveTypes.Int32}
-
-			dictArr := array.NewDictionaryArray(dictType, indices, dict)
-			defer dictArr.Release()
-
-			const offset = 1
-			slicedDictArr := array.NewSlice(dictArr, offset, int64(dictArr.Len()))
-			defer slicedDictArr.Release()
-			assert.EqualValues(t, "10", slicedDictArr.(*array.Dictionary).ValueStr(0))
-			for i := 0; i < indices.Len(); i++ {
-				assert.EqualValues(t, i64Index.Value(i), dictArr.GetValueIndex(i))
-				if i < slicedDictArr.Len() {
-					assert.EqualValues(t, i64Index.Value(i+offset), slicedDictArr.(*array.Dictionary).GetValueIndex(i))
-				}
-			}
-		})
-	}
-}
-
-func checkTransposeMap(t *testing.T, b *memory.Buffer, exp []int32) bool {
-	got := arrow.Int32Traits.CastFromBytes(b.Bytes())
-	return assert.Equal(t, exp, got)
-}
-
-func TestDictionaryUnifierNumeric(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.PrimitiveTypes.Int64
-
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[3, 4, 7]`))
-	require.NoError(t, err)
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[1, 7, 4, 8]`))
-	require.NoError(t, err)
-	d3, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[1, -200]`))
-	require.NoError(t, err)
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[3, 4, 7, 1, 8, -200]`))
-	require.NoError(t, err)
-	defer func() {
-		d1.Release()
-		d2.Release()
-		d3.Release()
-		expectedDict.Release()
-	}()
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	assert.NoError(t, unifier.Unify(d3))
-
-	invalid, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, -200]`))
-	defer invalid.Release()
-	assert.EqualError(t, unifier.Unify(invalid), "dictionary type different from unifier: int32, expected: int64")
-
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-	b3, err := unifier.UnifyAndTranspose(d3)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-		b3.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1, 2})
-	checkTransposeMap(t, b2, []int32{3, 2, 1, 4})
-	checkTransposeMap(t, b3, []int32{3, 5})
-}
-
-func TestDictionaryUnifierString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.BinaryTypes.String
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["foo", "bar"]`))
-	require.NoError(t, err)
-	defer d1.Release()
-
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["quux", "foo"]`))
-	require.NoError(t, err)
-	defer d2.Release()
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["foo", "bar", "quux"]`))
-	defer expectedDict.Release()
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{2, 0})
-}
-
-func TestDictionaryUnifierBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.BinaryTypes.Binary
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["Zm9vCg==", "YmFyCg=="]`)) // base64("foo\n"), base64("bar\n")
-	require.NoError(t, err)
-	defer d1.Release()
-
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["cXV1eAo=", "Zm9vCg=="]`)) // base64("quux\n"), base64("foo\n")
-	require.NoError(t, err)
-	defer d2.Release()
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["Zm9vCg==", "YmFyCg==", "cXV1eAo="]`))
-	defer expectedDict.Release()
-
-	unifier := array.NewBinaryDictionaryUnifier(mem)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{2, 0})
-}
-
-func TestDictionaryUnifierFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	data := memory.NewBufferBytes([]byte(`foobarbazqux`))
-
-	fsbData := array.NewData(dictType, 2, []*memory.Buffer{nil, memory.SliceBuffer(data, 0, 6)}, nil, 0, 0)
-	defer fsbData.Release()
-	d1 := array.NewFixedSizeBinaryData(fsbData)
-	fsbData = array.NewData(dictType, 3, []*memory.Buffer{nil, memory.SliceBuffer(data, 3, 9)}, nil, 0, 0)
-	defer fsbData.Release()
-	d2 := array.NewFixedSizeBinaryData(fsbData)
-
-	fsbData = array.NewData(dictType, 4, []*memory.Buffer{nil, data}, nil, 0, 0)
-	defer fsbData.Release()
-	expectedDict := array.NewFixedSizeBinaryData(fsbData)
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-
-	defer func() {
-		d1.Release()
-		d2.Release()
-		expectedDict.Release()
-		unifier.Release()
-	}()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{1, 2, 3})
-}
-
-func TestDictionaryUnifierLarge(t *testing.T) {
-	// unifying larger dictionaries should choose the right index type
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewInt32Builder(mem)
-	defer bldr.Release()
-	bldr.Reserve(120)
-	for i := int32(0); i < 120; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	d1 := bldr.NewInt32Array()
-	defer d1.Release()
-	assert.EqualValues(t, 120, d1.Len())
-
-	bldr.Reserve(30)
-	for i := int32(110); i < 140; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	d2 := bldr.NewInt32Array()
-	defer d2.Release()
-	assert.EqualValues(t, 30, d2.Len())
-
-	bldr.Reserve(140)
-	for i := int32(0); i < 140; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	expectedDict := bldr.NewInt32Array()
-	defer expectedDict.Release()
-	assert.EqualValues(t, 140, expectedDict.Len())
-
-	// int8 would be too narrow to hold all the values
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.PrimitiveTypes.Int32}
-
-	unifier, err := array.NewDictionaryUnifier(mem, arrow.PrimitiveTypes.Int32)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-}
-
-func checkDictionaryArray(t *testing.T, arr, expectedVals, expectedIndices arrow.Array) bool {
-	require.IsType(t, (*array.Dictionary)(nil), arr)
-	dictArr := arr.(*array.Dictionary)
-	ret := true
-	ret = ret && assert.Truef(t, array.Equal(expectedVals, dictArr.Dictionary()), "got: %s, expected: %s", dictArr.Dictionary(), expectedVals)
-	return ret && assert.Truef(t, array.Equal(expectedIndices, dictArr.Indices()), "got: %s, expected: %s", dictArr.Indices(), expectedIndices)
-}
-
-func TestDictionaryUnifierSimpleChunkedArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunk1, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ab", "cd", null, "cd"]`))
-	chunk2, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ef", "cd", "ef"]`))
-	chunk3, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ef", "ab", null, "ab"]`))
-	chunk4, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`[]`))
-	chunked := arrow.NewChunked(dictType, []arrow.Array{chunk1, chunk2, chunk3, chunk4})
-	defer func() {
-		chunk1.Release()
-		chunk2.Release()
-		chunk3.Release()
-		chunk4.Release()
-		chunked.Release()
-	}()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.Len(t, unified.Chunks(), 4)
-	expectedDict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader(`["ab", "cd", "ef"]`))
-	defer expectedDict.Release()
-
-	c1Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[0, 1, null, 1]`))
-	defer c1Indices.Release()
-	c2Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[2, 1, 2]`))
-	defer c2Indices.Release()
-	c3Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[2, 0, null, 0]`))
-	defer c3Indices.Release()
-	c4Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[]`))
-	defer c4Indices.Release()
-	checkDictionaryArray(t, unified.Chunk(0), expectedDict, c1Indices)
-	checkDictionaryArray(t, unified.Chunk(1), expectedDict, c2Indices)
-	checkDictionaryArray(t, unified.Chunk(2), expectedDict, c3Indices)
-	checkDictionaryArray(t, unified.Chunk(3), expectedDict, c4Indices)
-}
-
-func TestDictionaryUnifierChunkedArrayZeroChunks(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunked := arrow.NewChunked(dictType, []arrow.Array{})
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-}
-
-func TestDictionaryUnifierChunkedArrayOneChunk(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunk1, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ab", "cd", null, "cd"]`))
-	defer chunk1.Release()
-
-	chunked := arrow.NewChunked(dictType, []arrow.Array{chunk1})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-	assert.Same(t, unified, chunked)
-}
-
-func TestDictionaryUnifierChunkedArrayNoDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	typ := arrow.PrimitiveTypes.Int8
-	chunk1, _, _ := array.FromJSON(mem, typ, strings.NewReader(`[1, 1, 2, 3]`))
-	defer chunk1.Release()
-
-	chunk2, _, _ := array.FromJSON(mem, typ, strings.NewReader(`[5, 8, 13]`))
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(typ, []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-	assert.Same(t, unified, chunked)
-}
-
-func TestDictionaryUnifierChunkedArrayNested(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	typ := arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.BinaryTypes.String})
-	chunk1, _, err := array.FromJSON(mem, typ, strings.NewReader(`[["ab", "cd"], ["cd"]]`))
-	assert.NoError(t, err)
-	// defer chunk1.Release()
-	chunk2, _, err := array.FromJSON(mem, typ, strings.NewReader(`[[], ["ef", "cd", "ef"]]`))
-	assert.NoError(t, err)
-	// defer chunk2.Release()
-	chunked := arrow.NewChunked(typ, []arrow.Array{chunk1, chunk2})
-	// defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	// defer unified.Release()
-	assert.Len(t, unified.Chunks(), 2)
-
-	expectedDict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ab", "cd", "ef"]`))
-	// defer expectedDict.Release()
-
-	unified1 := unified.Chunk(0).(*array.List)
-	assert.Equal(t, []int32{0, 2, 3}, unified1.Offsets())
-	expectedIndices1, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[0, 1, 1]`))
-	// defer expectedIndices1.Release()
-	checkDictionaryArray(t, unified1.ListValues(), expectedDict, expectedIndices1)
-
-	unified2 := unified.Chunk(1).(*array.List)
-	assert.Equal(t, []int32{0, 0, 3}, unified2.Offsets())
-	expectedIndices2, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[2, 1, 2]`))
-	// defer expectedIndices2.Release()
-	checkDictionaryArray(t, unified2.ListValues(), expectedDict, expectedIndices2)
-	defer func() {
-		expectedIndices1.Release()
-		expectedIndices2.Release()
-		expectedDict.Release()
-		unified.Release()
-		chunked.Release()
-		chunk2.Release()
-		chunk1.Release()
-	}()
-}
-
-func TestDictionaryUnifierChunkedArrayExtension(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := types.NewDictExtensionType()
-	chunk1, _, err := array.FromJSON(mem, dt, strings.NewReader(`["ab", null, "cd", "ab"]`))
-	assert.NoError(t, err)
-	defer chunk1.Release()
-
-	chunk2, _, err := array.FromJSON(mem, dt, strings.NewReader(`["ef", "ab", "ab"]`))
-	assert.NoError(t, err)
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(dt, []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-	assert.Len(t, unified.Chunks(), 2)
-
-	expectedDict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ab", "cd", "ef"]`))
-	defer expectedDict.Release()
-
-	unified1 := unified.Chunk(0).(array.ExtensionArray)
-	assert.Truef(t, arrow.TypeEqual(dt, unified1.DataType()), "expected: %s, got: %s", dt, unified1.DataType())
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[0, null, 1, 0]`))
-	defer indices.Release()
-	checkDictionaryArray(t, unified1.Storage(), expectedDict, indices)
-
-	unified2 := unified.Chunk(1).(array.ExtensionArray)
-	assert.Truef(t, arrow.TypeEqual(dt, unified2.DataType()), "expected: %s, got: %s", dt, unified1.DataType())
-	indices, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[2, 0, 0]`))
-	defer indices.Release()
-	checkDictionaryArray(t, unified2.Storage(), expectedDict, indices)
-}
-
-func TestDictionaryUnifierChunkedArrayNestedDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	innerType := arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: arrow.BinaryTypes.String})
-	innerDict1, _, err := array.FromJSON(mem, innerType, strings.NewReader(`[["ab", "cd"], [], ["cd", null]]`))
-	assert.NoError(t, err)
-	defer innerDict1.Release()
-	indices1, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[2, 1, 0, 1, 2]`))
-	defer indices1.Release()
-
-	chunk1 := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: innerType}, indices1, innerDict1)
-	defer chunk1.Release()
-
-	innerDict2, _, err := array.FromJSON(mem, innerType, strings.NewReader(`[["cd", "ef"], ["cd", null], []]`))
-	assert.NoError(t, err)
-	defer innerDict2.Release()
-	indices2, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 2, 0]`))
-	defer indices2.Release()
-
-	chunk2 := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: indices2.DataType(), ValueType: innerType}, indices2, innerDict2)
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(chunk1.DataType(), []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.Nil(t, unified)
-	assert.EqualError(t, err, "unimplemented dictionary value type, list<item: dictionary<values=utf8, indices=uint32, ordered=false>, nullable>")
-}
-
-func TestDictionaryUnifierTableZeroColumns(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{}, nil)
-	table := array.NewTable(schema, []arrow.Column{}, 42)
-	defer table.Release()
-
-	unified, err := array.UnifyTableDicts(mem, table)
-	assert.NoError(t, err)
-	assert.True(t, schema.Equal(unified.Schema()))
-	assert.EqualValues(t, 42, unified.NumRows())
-	assert.True(t, array.TableEqual(table, unified))
-}
-
-func TestDictionaryAppendIndices(t *testing.T) {
-	indexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint64,
-	}
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dict, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["a", "b", "c", "d", "e", "f"]`))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	indices := []int{3, 4, 0, 3, 1, 4, 4, 5}
-
-	for _, typ := range indexTypes {
-		t.Run(typ.String(), func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{
-				IndexType: typ, ValueType: dict.DataType()}
-			bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dict)
-			defer bldr.Release()
-
-			bldr.AppendIndices(indices, nil)
-
-			arr := bldr.NewDictionaryArray()
-			defer arr.Release()
-
-			arrIndices := arr.Indices()
-			assert.EqualValues(t, len(indices), arr.Len())
-			assert.EqualValues(t, len(indices), arrIndices.Len())
-
-			assert.Equal(t, fmt.Sprint(indices), arrIndices.String())
-		})
-	}
-}
-
-type panicAllocator struct {
-	n       int
-	paniced bool
-	memory.Allocator
-}
-
-func (p *panicAllocator) Allocate(size int) []byte {
-	if size > p.n {
-		p.paniced = true
-		panic("panic allocator")
-	}
-	return p.Allocator.Allocate(size)
-}
-
-func (p *panicAllocator) Reallocate(size int, b []byte) []byte {
-	return p.Allocator.Reallocate(size, b)
-}
-
-func (p *panicAllocator) Free(b []byte) {
-	p.Allocator.Free(b)
-}
-
-func TestBinaryDictionaryPanic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	allocator := &panicAllocator{
-		n:         400,
-		Allocator: mem,
-	}
-
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(allocator, expectedType)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	allocator.n = 0 // force panic
-	func() {
-		defer func() {
-			recover()
-		}()
-		bldr.NewArray()
-	}()
-	assert.True(t, allocator.paniced)
-}
-
-func BenchmarkBinaryDictionaryBuilder(b *testing.B) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(b, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int32Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	randString := func() string {
-		return fmt.Sprintf("test-%d", rand.Intn(30))
-	}
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	for i := 0; i < b.N; i++ {
-		assert.NoError(b, builder.AppendString(randString()))
-	}
-}
diff --git a/go/arrow/array/diff.go b/go/arrow/array/diff.go
deleted file mode 100644
index e5c1ce1521d95..0000000000000
--- a/go/arrow/array/diff.go
+++ /dev/null
@@ -1,315 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Edit represents one entry in the edit script to compare two arrays.
-type Edit struct {
-	Insert    bool
-	RunLength int64
-}
-
-// Edits is a slice of Edit structs that represents an edit script to compare two arrays.
-// When applied to the base array, it produces the target array.
-// Each element of "insert" determines whether an element was inserted into (true)
-// or deleted from (false) base. Each insertion or deletion is followed by a run of
-// elements which are unchanged from base to target; the length of this run is stored
-// in RunLength. (Note that the edit script begins and ends with a run of shared
-// elements but both fields of the struct must have the same length. To accommodate this
-// the first element of "insert" should be ignored.)
-//
-// For example for base "hlloo" and target "hello", the edit script would be
-// [
-//
-//	{"insert": false, "run_length": 1}, // leading run of length 1 ("h")
-//	{"insert": true, "run_length": 3}, // insert("e") then a run of length 3 ("llo")
-//	{"insert": false, "run_length": 0} // delete("o") then an empty run
-//
-// ]
-type Edits []Edit
-
-// String returns a simple string representation of the edit script.
-func (e Edits) String() string {
-	return fmt.Sprintf("%v", []Edit(e))
-}
-
-// UnifiedDiff returns a string representation of the diff of base and target in Unified Diff format.
-func (e Edits) UnifiedDiff(base, target arrow.Array) string {
-	var s strings.Builder
-	baseIndex := int64(0)
-	targetIndex := int64(0)
-	wrotePosition := false
-	for i := 0; i < len(e); i++ {
-		if i > 0 {
-			if !wrotePosition {
-				s.WriteString(fmt.Sprintf("@@ -%d, +%d @@\n", baseIndex, targetIndex))
-				wrotePosition = true
-			}
-			if e[i].Insert {
-				s.WriteString(fmt.Sprintf("+%v\n", stringAt(target, targetIndex)))
-				targetIndex++
-			} else {
-				s.WriteString(fmt.Sprintf("-%v\n", stringAt(base, baseIndex)))
-				baseIndex++
-			}
-		}
-		for j := int64(0); j < e[i].RunLength; j++ {
-			baseIndex++
-			targetIndex++
-			wrotePosition = false
-		}
-	}
-	return s.String()
-}
-
-func stringAt(arr arrow.Array, i int64) string {
-	if arr.IsNull(int(i)) {
-		return "null"
-	}
-	dt := arr.DataType()
-	switch {
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Float32):
-		return fmt.Sprintf("%f", arr.(*Float32).Value(int(i)))
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Float64):
-		return fmt.Sprintf("%f", arr.(*Float64).Value(int(i)))
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Date32):
-		return arr.(*Date32).Value(int(i)).FormattedString()
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Date64):
-		return arr.(*Date64).Value(int(i)).FormattedString()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_s):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Second).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_ms):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Millisecond).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_us):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Microsecond).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_ns):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Nanosecond).String()
-	}
-	s := NewSlice(arr, i, i+1)
-	defer s.Release()
-	st, _ := s.MarshalJSON()
-	return strings.Trim(string(st[1:len(st)-1]), "\n")
-}
-
-// Diff compares two arrays, returning an edit script which expresses the difference
-// between them. The edit script can be applied to the base array to produce the target.
-// 'base' is a baseline for comparison.
-// 'target' is an array of identical type to base whose elements differ from base's.
-func Diff(base, target arrow.Array) (edits Edits, err error) {
-	if !arrow.TypeEqual(base.DataType(), target.DataType()) {
-		return nil, fmt.Errorf("%w: only taking the diff of like-typed arrays is supported", arrow.ErrNotImplemented)
-	}
-	switch base.DataType().ID() {
-	case arrow.EXTENSION:
-		return Diff(base.(ExtensionArray).Storage(), target.(ExtensionArray).Storage())
-	case arrow.DICTIONARY:
-		return nil, fmt.Errorf("%w: diffing arrays of type %s is not implemented", arrow.ErrNotImplemented, base.DataType())
-	case arrow.RUN_END_ENCODED:
-		return nil, fmt.Errorf("%w: diffing arrays of type %s is not implemented", arrow.ErrNotImplemented, base.DataType())
-	}
-	d := newQuadraticSpaceMyersDiff(base, target)
-	return d.Diff()
-}
-
-// editPoint represents an intermediate state in the comparison of two arrays
-type editPoint struct {
-	base   int
-	target int
-}
-
-type quadraticSpaceMyersDiff struct {
-	base         arrow.Array
-	target       arrow.Array
-	finishIndex  int
-	editCount    int
-	endpointBase []int
-	insert       []bool
-	baseBegin    int
-	targetBegin  int
-	baseEnd      int
-	targetEnd    int
-}
-
-func newQuadraticSpaceMyersDiff(base, target arrow.Array) *quadraticSpaceMyersDiff {
-	d := &quadraticSpaceMyersDiff{
-		base:         base,
-		target:       target,
-		finishIndex:  -1,
-		editCount:    0,
-		endpointBase: []int{},
-		insert:       []bool{},
-		baseBegin:    0,
-		targetBegin:  0,
-		baseEnd:      base.Len(),
-		targetEnd:    target.Len(),
-	}
-	d.endpointBase = []int{d.extendFrom(editPoint{d.baseBegin, d.targetBegin}).base}
-	if d.baseEnd-d.baseBegin == d.targetEnd-d.targetBegin && d.endpointBase[0] == d.baseEnd {
-		// trivial case: base == target
-		d.finishIndex = 0
-	}
-	return d
-}
-
-func (d *quadraticSpaceMyersDiff) valuesEqual(baseIndex, targetIndex int) bool {
-	baseNull := d.base.IsNull(baseIndex)
-	targetNull := d.target.IsNull(targetIndex)
-	if baseNull || targetNull {
-		return baseNull && targetNull
-	}
-	return SliceEqual(d.base, int64(baseIndex), int64(baseIndex+1), d.target, int64(targetIndex), int64(targetIndex+1))
-}
-
-// increment the position within base and target (the elements skipped in this way were
-// present in both sequences)
-func (d *quadraticSpaceMyersDiff) extendFrom(p editPoint) editPoint {
-	for p.base != d.baseEnd && p.target != d.targetEnd {
-		if !d.valuesEqual(p.base, p.target) {
-			break
-		}
-		p.base++
-		p.target++
-	}
-	return p
-}
-
-// increment the position within base (the element pointed to was deleted)
-// then extend maximally
-func (d *quadraticSpaceMyersDiff) deleteOne(p editPoint) editPoint {
-	if p.base != d.baseEnd {
-		p.base++
-	}
-	return d.extendFrom(p)
-}
-
-// increment the position within target (the element pointed to was inserted)
-// then extend maximally
-func (d *quadraticSpaceMyersDiff) insertOne(p editPoint) editPoint {
-	if p.target != d.targetEnd {
-		p.target++
-	}
-	return d.extendFrom(p)
-}
-
-// beginning of a range for storing per-edit state in endpointBase and insert
-func storageOffset(editCount int) int {
-	return editCount * (editCount + 1) / 2
-}
-
-// given edit_count and index, augment endpointBase[index] with the corresponding
-// position in target (which is only implicitly represented in editCount, index)
-func (d *quadraticSpaceMyersDiff) getEditPoint(editCount, index int) editPoint {
-	insertionsMinusDeletions := 2*(index-storageOffset(editCount)) - editCount
-	maximalBase := d.endpointBase[index]
-	maximalTarget := min(d.targetBegin+((maximalBase-d.baseBegin)+insertionsMinusDeletions), d.targetEnd)
-	return editPoint{maximalBase, maximalTarget}
-}
-
-func (d *quadraticSpaceMyersDiff) Next() {
-	d.editCount++
-	if len(d.endpointBase) < storageOffset(d.editCount+1) {
-		d.endpointBase = append(d.endpointBase, make([]int, storageOffset(d.editCount+1)-len(d.endpointBase))...)
-	}
-	if len(d.insert) < storageOffset(d.editCount+1) {
-		d.insert = append(d.insert, make([]bool, storageOffset(d.editCount+1)-len(d.insert))...)
-	}
-	previousOffset := storageOffset(d.editCount - 1)
-	currentOffset := storageOffset(d.editCount)
-
-	// try deleting from base first
-	for i, iOut := 0, 0; i < d.editCount; i, iOut = i+1, iOut+1 {
-		previousEndpoint := d.getEditPoint(d.editCount-1, i+previousOffset)
-		d.endpointBase[iOut+currentOffset] = d.deleteOne(previousEndpoint).base
-	}
-
-	// check if inserting from target could do better
-	for i, iOut := 0, 1; i < d.editCount; i, iOut = i+1, iOut+1 {
-		// retrieve the previously computed best endpoint for (editCount, iOut)
-		// for comparison with the best endpoint achievable with an insertion
-		endpointAfterDeletion := d.getEditPoint(d.editCount, iOut+currentOffset)
-
-		previousEndpoint := d.getEditPoint(d.editCount-1, i+previousOffset)
-		endpointAfterInsertion := d.insertOne(previousEndpoint)
-
-		if endpointAfterInsertion.base-endpointAfterDeletion.base >= 0 {
-			// insertion was more efficient; keep it and mark the insertion in insert
-			d.insert[iOut+currentOffset] = true
-			d.endpointBase[iOut+currentOffset] = endpointAfterInsertion.base
-		}
-	}
-
-	finish := editPoint{d.baseEnd, d.targetEnd}
-	for iOut := 0; iOut < d.editCount+1; iOut++ {
-		if d.getEditPoint(d.editCount, iOut+currentOffset) == finish {
-			d.finishIndex = iOut + currentOffset
-			return
-		}
-	}
-}
-
-func (d *quadraticSpaceMyersDiff) Done() bool {
-	return d.finishIndex != -1
-}
-
-func (d *quadraticSpaceMyersDiff) GetEdits() (Edits, error) {
-	if !d.Done() {
-		panic("GetEdits called but Done() = false")
-	}
-
-	length := d.editCount + 1
-	edits := make(Edits, length)
-	index := d.finishIndex
-	endpoint := d.getEditPoint(d.editCount, d.finishIndex)
-
-	for i := d.editCount; i > 0; i-- {
-		insert := d.insert[index]
-		edits[i].Insert = insert
-		insertionsMinusDeletions := (endpoint.base - d.baseBegin) - (endpoint.target - d.targetBegin)
-		if insert {
-			insertionsMinusDeletions++
-		} else {
-			insertionsMinusDeletions--
-		}
-		index = (i-1-insertionsMinusDeletions)/2 + storageOffset(i-1)
-
-		// endpoint of previous edit
-		previous := d.getEditPoint(i-1, index)
-		in := 0
-		if insert {
-			in = 1
-		}
-		edits[i].RunLength = int64(endpoint.base - previous.base - (1 - in))
-		endpoint = previous
-	}
-	edits[0].Insert = false
-	edits[0].RunLength = int64(endpoint.base - d.baseBegin)
-
-	return edits, nil
-}
-
-func (d *quadraticSpaceMyersDiff) Diff() (edits Edits, err error) {
-	for !d.Done() {
-		d.Next()
-	}
-	return d.GetEdits()
-}
diff --git a/go/arrow/array/diff_test.go b/go/arrow/array/diff_test.go
deleted file mode 100644
index 9c9ce6a53aed0..0000000000000
--- a/go/arrow/array/diff_test.go
+++ /dev/null
@@ -1,878 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math/rand"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type diffTestCase struct {
-	dataType arrow.DataType
-
-	baseJSON      string
-	targetJSON    string
-	wantInsert    []bool
-	wantRunLength []int64
-}
-
-func (s *diffTestCase) check(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	base, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.baseJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.targetJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-
-	gotInserts := make([]bool, len(edits))
-	gotRunLengths := make([]int64, len(edits))
-	for i, edit := range edits {
-		gotInserts[i] = edit.Insert
-		gotRunLengths[i] = edit.RunLength
-	}
-	if !reflect.DeepEqual(gotInserts, s.wantInsert) {
-		t.Errorf("Diff(\n  base=%v, \ntarget=%v\n) got insert %v, want %v", base, target, gotInserts, s.wantInsert)
-	}
-	if !reflect.DeepEqual(gotRunLengths, s.wantRunLength) {
-		t.Errorf("Diff(\n  base=%v, \ntarget=%v\n) got run length %v, want %v", base, target, gotRunLengths, s.wantRunLength)
-	}
-}
-
-func TestDiff_Trivial(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "empty",
-			base:          `[]`,
-			target:        `[]`,
-			wantInsert:    []bool{false},
-			wantRunLength: []int64{0},
-		},
-		{
-			name:          "nulls",
-			base:          `[null, null]`,
-			target:        `[null, null, null, null]`,
-			wantInsert:    []bool{false, true, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-		{
-			name:          "equal",
-			base:          `[1, 2, 3]`,
-			target:        `[1, 2, 3]`,
-			wantInsert:    []bool{false},
-			wantRunLength: []int64{3},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.PrimitiveTypes.Int32,
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_Basics(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[1, 2, null, 5]`,
-			target:        `[1, 2, 3, null, 5]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{2, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, null, 5]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{2, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, 23, null, 5]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, null, null, 5]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 1, 1},
-		},
-		{
-			name:          "append some",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, 3, null, 5, 6, 7, 8, 9]`,
-			wantInsert:    []bool{false, true, true, true, true},
-			wantRunLength: []int64{5, 0, 0, 0, 0},
-		},
-		{
-			name:          "prepend some",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[6, 4, 2, 0, 1, 2, 3, null, 5]`,
-			wantInsert:    []bool{false, true, true, true, true},
-			wantRunLength: []int64{0, 0, 0, 0, 5},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.PrimitiveTypes.Int32,
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithBooleans(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[true, true, true]`,
-			target:        `[true, false, true, true]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[true, false, true, true]`,
-			target:        `[true, true, true]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[false, false, true]`,
-			target:        `[true, false, true]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[true, false, true]`,
-			target:        `[true, false, null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      &arrow.BooleanType{},
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithStrings(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `["give", "a", "break"]`,
-			target:        `["give", "me", "a", "break"]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `["give", "me", "a", "break"]`,
-			target:        `["give", "a", "break"]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `["give", "a", "break"]`,
-			target:        `["gimme", "a", "break"]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `["give", "a", "break"]`,
-			target:        `["give", "a", null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      &arrow.StringType{},
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithLists(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[2, 3, 1], [5, 9], [], [13]]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[[2, 3, 1], [5, 9], [], [13]]`,
-			target:        `[[2, 3, 1], [], [13]]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[3, 3, 3], [], [13]]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[2, 3, 1], [], null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.ListOf(arrow.PrimitiveTypes.Int32),
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithStructs(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {"foo": "?"}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[{"foo": "!", "bar": 3}, {"foo": "?"}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 2}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {}, null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		f1 := arrow.Field{Name: "foo", Type: arrow.BinaryTypes.String, Nullable: true}
-		f2 := arrow.Field{Name: "bar", Type: arrow.PrimitiveTypes.Int32, Nullable: true}
-		d := diffTestCase{
-			dataType:      arrow.StructOf(f1, f2),
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_Random(t *testing.T) {
-	rng := rand.New(rand.NewSource(0xdeadbeef))
-	for i := 0; i < 100; i++ {
-		t.Run(fmt.Sprintf("case-%d", i), func(t *testing.T) {
-			testRandomCase(t, rng)
-		})
-	}
-}
-
-func testRandomCase(t *testing.T, rng *rand.Rand) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dataType := arrow.PrimitiveTypes.Int32
-
-	baseValues := make([]int32, rng.Intn(10))
-	for i := range baseValues {
-		baseValues[i] = rng.Int31()
-	}
-	baseJSON, err := json.Marshal(baseValues)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	targetValues := make([]int32, rng.Intn(10))
-	for i := range targetValues {
-		// create runs with some probability
-		if rng.Intn(2) == 0 && len(baseValues) > 0 {
-			targetValues[i] = baseValues[rng.Intn(len(baseValues))]
-		} else {
-			targetValues[i] = rng.Int31()
-		}
-	}
-	targetJSON, err := json.Marshal(targetValues)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	base, _, err := array.FromJSON(mem, dataType, strings.NewReader(string(baseJSON)))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, dataType, strings.NewReader(string(targetJSON)))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-
-	validateEditScript(t, edits, base, target)
-}
-
-// validateEditScript checks that the edit script produces target when applied to base.
-func validateEditScript(t *testing.T, edits array.Edits, base, target arrow.Array) {
-	if len(edits) == 0 {
-		t.Fatalf("edit script has run length of zero")
-	}
-
-	baseIndex := int64(0)
-	targetIndex := int64(0)
-	for i := 0; i < len(edits); i++ {
-		if i > 0 {
-			if edits[i].Insert {
-				targetIndex++
-			} else {
-				baseIndex++
-			}
-		}
-		for j := int64(0); j < edits[i].RunLength; j++ {
-			if !array.SliceEqual(base, baseIndex, baseIndex+1, target, targetIndex, targetIndex+1) {
-				t.Fatalf("edit script (%v) when applied to base %v does not produce target %v", edits, base, target)
-			}
-			baseIndex += 1
-			targetIndex += 1
-		}
-	}
-	if baseIndex != int64(base.Len()) || targetIndex != int64(target.Len()) {
-		t.Fatalf("edit script (%v) when applied to base %v does not produce target %v", edits, base, target)
-	}
-}
-
-type diffStringTestCase struct {
-	dataType arrow.DataType
-
-	name       string
-	baseJSON   string
-	targetJSON string
-	want       string
-}
-
-func (s *diffStringTestCase) check(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	base, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.baseJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.targetJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-	got := edits.UnifiedDiff(base, target)
-	if got != s.want {
-		t.Errorf("got:\n%v\n, want:\n%v", got, s.want)
-	}
-}
-
-func TestEdits_UnifiedDiff(t *testing.T) {
-	msPerDay := 24 * 60 * 60 * 1000
-	cases := []diffStringTestCase{
-		{
-			name:       "no changes",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "me", "a", "break"]`,
-			targetJSON: `["give", "me", "a", "break"]`,
-			want:       ``,
-		},
-		{
-			name:       "insert one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["give", "me", "a", "break"]`,
-			want: `@@ -1, +1 @@
-+"me"
-`,
-		},
-		{
-			name:       "delete one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "me", "a", "break"]`,
-			targetJSON: `["give", "a", "break"]`,
-			want: `@@ -1, +1 @@
--"me"
-`,
-		},
-		{
-			name:       "change one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["gimme", "a", "break"]`,
-			want: `@@ -0, +0 @@
--"give"
-+"gimme"
-`,
-		},
-		{
-			name:       "null out one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["give", "a", null]`,
-			want: `@@ -2, +2 @@
--"break"
-+null
-`,
-		},
-		{
-			name:       "strings with escaped chars",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["newline:\\n", "quote:'", "backslash:\\\\"]`,
-			targetJSON: `["newline:\\n", "tab:\\t", "quote:\\\"", "backslash:\\\\"]`,
-			want: `@@ -1, +1 @@
--"quote:'"
-+"tab:\\t"
-+"quote:\\\""
-`,
-		},
-		{
-			name:       "date32",
-			dataType:   arrow.PrimitiveTypes.Date32,
-			baseJSON:   `[0, 1, 2, 31, 4]`,
-			targetJSON: `[0, 1, 31, 2, 4]`,
-			want: `@@ -2, +2 @@
--1970-01-03
-@@ -4, +3 @@
-+1970-01-03
-`,
-		},
-		{
-			name:       "date64",
-			dataType:   arrow.PrimitiveTypes.Date64,
-			baseJSON:   fmt.Sprintf(`[%d, %d, %d, %d, %d]`, 0*msPerDay, 1*msPerDay, 2*msPerDay, 31*msPerDay, 4*msPerDay),
-			targetJSON: fmt.Sprintf(`[%d, %d, %d, %d, %d]`, 0*msPerDay, 1*msPerDay, 31*msPerDay, 2*msPerDay, 4*msPerDay),
-			want: `@@ -2, +2 @@
--1970-01-03
-@@ -4, +3 @@
-+1970-01-03
-`,
-		},
-		{
-			name:       "timestamp_s",
-			dataType:   arrow.FixedWidthTypes.Timestamp_s,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:15:23 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:15:23 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_ms",
-			dataType:   arrow.FixedWidthTypes.Timestamp_ms,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.678 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_us",
-			dataType:   arrow.FixedWidthTypes.Timestamp_us,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.000678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.000678 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_ns",
-			dataType:   arrow.FixedWidthTypes.Timestamp_ns,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000000000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000000000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.000000678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.000000678 +0000 UTC
-`,
-		},
-		{
-			name:       "lists",
-			dataType:   arrow.ListOf(arrow.PrimitiveTypes.Int32),
-			baseJSON:   `[[2, 3, 1], [], [13], []]`,
-			targetJSON: `[[2, 3, 1], [5, 9], [], [13]]`,
-			want: `@@ -1, +1 @@
-+[5,9]
-@@ -3, +4 @@
--[]
-`,
-		},
-		{
-			name:     "maps",
-			dataType: arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32),
-			baseJSON: `[
-			[{"key": "foo", "value": 2}, {"key": "bar", "value": 3}, {"key": "baz", "value": 1}],
-			[{"key": "quux", "value": 13}],
-			[]
-		]`,
-			targetJSON: `[
-			[{"key": "foo", "value": 2}, {"key": "bar", "value": 3}, {"key": "baz", "value": 1}],
-			[{"key": "ytho", "value": 11}],
-			[{"key": "quux", "value": 13}],
-			[]
-		]`,
-			want: `@@ -1, +1 @@
-+[{"key":"ytho","value":11}]
-`,
-		},
-		{
-			name: "structs",
-			dataType: arrow.StructOf(
-				[]arrow.Field{
-					{Name: "foo", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "bar", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-				}...,
-			),
-			baseJSON:   `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			targetJSON: `[{"foo": null, "bar": 2}, {}, {"bar": 13}]`,
-			want: `@@ -0, +0 @@
--{"bar":3,"foo":"!"}
-+{"bar":2,"foo":null}
-`,
-		},
-		{
-			name: "unions",
-			dataType: arrow.UnionOf(arrow.SparseMode,
-				[]arrow.Field{
-					{Name: "foo", Type: arrow.BinaryTypes.String},
-					{Name: "bar", Type: arrow.PrimitiveTypes.Int32},
-				},
-				[]arrow.UnionTypeCode{2, 5},
-			),
-			baseJSON:   `[[2, "!"], [5, 3], [5, 13]]`,
-			targetJSON: `[[2, "!"], [2, "3"], [5, 13]]`,
-			want: `@@ -1, +1 @@
--[5,3]
-+[2,"3"]
-`,
-		},
-		{
-			name:       "string",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["h", "l", "l", "o", "o"]`,
-			targetJSON: `["h", "e", "l", "l", "o", "0"]`,
-			want: `@@ -1, +1 @@
-+"e"
-@@ -4, +5 @@
--"o"
-+"0"
-`,
-		},
-		{
-			name:       "int8",
-			dataType:   arrow.PrimitiveTypes.Int8,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int16",
-			dataType:   arrow.PrimitiveTypes.Int16,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int32",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int64",
-			dataType:   arrow.PrimitiveTypes.Int64,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint8",
-			dataType:   arrow.PrimitiveTypes.Uint8,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint16",
-			dataType:   arrow.PrimitiveTypes.Uint16,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint32",
-			dataType:   arrow.PrimitiveTypes.Uint32,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint64",
-			dataType:   arrow.PrimitiveTypes.Uint64,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "float32",
-			dataType:   arrow.PrimitiveTypes.Float32,
-			baseJSON:   `[0.1, 0.3, -0.5]`,
-			targetJSON: `[0.1, -0.5, 0.3]`,
-			want: `@@ -1, +1 @@
--0.300000
-@@ -3, +2 @@
-+0.300000
-`,
-		},
-		{
-			name:       "float64",
-			dataType:   arrow.PrimitiveTypes.Float64,
-			baseJSON:   `[0.1, 0.3, -0.5]`,
-			targetJSON: `[0.1, -0.5, 0.3]`,
-			want: `@@ -1, +1 @@
--0.300000
-@@ -3, +2 @@
-+0.300000
-`,
-		},
-		{
-			name:       "equal nulls",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[null, null]`,
-			targetJSON: `[null, null]`,
-			want:       ``,
-		},
-		{
-			name:       "nulls",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[1, null, null, null]`,
-			targetJSON: `[null, 1, null, 2]`,
-			want: `@@ -0, +0 @@
--1
-@@ -2, +1 @@
--null
-+1
-@@ -4, +3 @@
-+2
-`,
-		},
-		{
-			name:       "extensions",
-			dataType:   extensions.NewUUIDType(),
-			baseJSON:   `["00000000-0000-0000-0000-000000000000", "00000000-0000-0000-0000-000000000001"]`,
-			targetJSON: `["00000000-0000-0000-0000-000000000001", "00000000-0000-0000-0000-000000000002"]`,
-			want: `@@ -0, +0 @@
--"00000000-0000-0000-0000-000000000000"
-@@ -2, +1 @@
-+"00000000-0000-0000-0000-000000000002"
-`,
-		},
-	}
-
-	for _, tc := range cases {
-		t.Run(tc.name, tc.check)
-	}
-}
diff --git a/go/arrow/array/doc.go b/go/arrow/array/doc.go
deleted file mode 100644
index 5cf85408626ac..0000000000000
--- a/go/arrow/array/doc.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package array provides implementations of various Arrow array types.
-*/
-package array
diff --git a/go/arrow/array/encoded.go b/go/arrow/array/encoded.go
deleted file mode 100644
index 748c4c1fec641..0000000000000
--- a/go/arrow/array/encoded.go
+++ /dev/null
@@ -1,520 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math"
-	"reflect"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// RunEndEncoded represents an array containing two children:
-// an array of int32 values defining the ends of each run of values
-// and an array of values
-type RunEndEncoded struct {
-	array
-
-	ends   arrow.Array
-	values arrow.Array
-}
-
-func NewRunEndEncodedArray(runEnds, values arrow.Array, logicalLength, offset int) *RunEndEncoded {
-	data := NewData(arrow.RunEndEncodedOf(runEnds.DataType(), values.DataType()), logicalLength,
-		[]*memory.Buffer{nil}, []arrow.ArrayData{runEnds.Data(), values.Data()}, 0, offset)
-	defer data.Release()
-	return NewRunEndEncodedData(data)
-}
-
-func NewRunEndEncodedData(data arrow.ArrayData) *RunEndEncoded {
-	r := &RunEndEncoded{}
-	r.refCount = 1
-	r.setData(data.(*Data))
-	return r
-}
-
-func (r *RunEndEncoded) Values() arrow.Array     { return r.values }
-func (r *RunEndEncoded) RunEndsArr() arrow.Array { return r.ends }
-
-func (r *RunEndEncoded) Retain() {
-	r.array.Retain()
-	r.values.Retain()
-	r.ends.Retain()
-}
-
-func (r *RunEndEncoded) Release() {
-	r.array.Release()
-	r.values.Release()
-	r.ends.Release()
-}
-
-// LogicalValuesArray returns an array holding the values of each
-// run, only over the range of run values inside the logical offset/length
-// range of the parent array.
-//
-// # Example
-//
-// For this array:
-//
-//	RunEndEncoded: { Offset: 150, Length: 1500 }
-//	    RunEnds: [ 1, 2, 4, 6, 10, 1000, 1750, 2000 ]
-//	    Values:  [ "a", "b", "c", "d", "e", "f", "g", "h" ]
-//
-// LogicalValuesArray will return the following array:
-//
-//	[ "f", "g" ]
-//
-// This is because the offset of 150 tells it to skip the values until
-// "f" which corresponds with the logical offset (the run from 10 - 1000),
-// and stops after "g" because the length + offset goes to 1650 which is
-// within the run from 1000 - 1750, corresponding to the "g" value.
-//
-// # Note
-//
-// The return from this needs to be Released.
-func (r *RunEndEncoded) LogicalValuesArray() arrow.Array {
-	physOffset := r.GetPhysicalOffset()
-	physLength := r.GetPhysicalLength()
-	data := NewSliceData(r.data.Children()[1], int64(physOffset), int64(physOffset+physLength))
-	defer data.Release()
-	return MakeFromData(data)
-}
-
-// LogicalRunEndsArray returns an array holding the logical indexes
-// of each run end, only over the range of run end values relative
-// to the logical offset/length range of the parent array.
-//
-// For arrays with an offset, this is not a slice of the existing
-// internal run ends array. Instead a new array is created with run-ends
-// that are adjusted so the new array can have an offset of 0. As a result
-// this method can be expensive to call for an array with a non-zero offset.
-//
-// # Example
-//
-// For this array:
-//
-//	RunEndEncoded: { Offset: 150, Length: 1500 }
-//	    RunEnds: [ 1, 2, 4, 6, 10, 1000, 1750, 2000 ]
-//	    Values:  [ "a", "b", "c", "d", "e", "f", "g", "h" ]
-//
-// LogicalRunEndsArray will return the following array:
-//
-//	[ 850, 1500 ]
-//
-// This is because the offset of 150 tells us to skip all run-ends less
-// than 150 (by finding the physical offset), and we adjust the run-ends
-// accordingly (1000 - 150 = 850). The logical length of the array is 1500,
-// so we know we don't want to go past the 1750 run end. Thus the last
-// run-end is determined by doing: min(1750 - 150, 1500) = 1500.
-//
-// # Note
-//
-// The return from this needs to be Released
-func (r *RunEndEncoded) LogicalRunEndsArray(mem memory.Allocator) arrow.Array {
-	physOffset := r.GetPhysicalOffset()
-	physLength := r.GetPhysicalLength()
-
-	if r.data.offset == 0 {
-		data := NewSliceData(r.data.childData[0], 0, int64(physLength))
-		defer data.Release()
-		return MakeFromData(data)
-	}
-
-	bldr := NewBuilder(mem, r.data.childData[0].DataType())
-	defer bldr.Release()
-	bldr.Resize(physLength)
-
-	switch e := r.ends.(type) {
-	case *Int16:
-		for _, v := range e.Int16Values()[physOffset : physOffset+physLength] {
-			v -= int16(r.data.offset)
-			v = int16(utils.Min(int(v), r.data.length))
-			bldr.(*Int16Builder).Append(v)
-		}
-	case *Int32:
-		for _, v := range e.Int32Values()[physOffset : physOffset+physLength] {
-			v -= int32(r.data.offset)
-			v = int32(utils.Min(int(v), r.data.length))
-			bldr.(*Int32Builder).Append(v)
-		}
-	case *Int64:
-		for _, v := range e.Int64Values()[physOffset : physOffset+physLength] {
-			v -= int64(r.data.offset)
-			v = int64(utils.Min(int(v), r.data.length))
-			bldr.(*Int64Builder).Append(v)
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RunEndEncoded) setData(data *Data) {
-	if len(data.childData) != 2 {
-		panic(fmt.Errorf("%w: arrow/array: RLE array must have exactly 2 children", arrow.ErrInvalid))
-	}
-	debug.Assert(data.dtype.ID() == arrow.RUN_END_ENCODED, "invalid type for RunLengthEncoded")
-	if !data.dtype.(*arrow.RunEndEncodedType).ValidRunEndsType(data.childData[0].DataType()) {
-		panic(fmt.Errorf("%w: arrow/array: run ends array must be int16, int32, or int64", arrow.ErrInvalid))
-	}
-	if data.childData[0].NullN() > 0 {
-		panic(fmt.Errorf("%w: arrow/array: run ends array cannot contain nulls", arrow.ErrInvalid))
-	}
-
-	r.array.setData(data)
-
-	r.ends = MakeFromData(r.data.childData[0])
-	r.values = MakeFromData(r.data.childData[1])
-}
-
-func (r *RunEndEncoded) GetPhysicalOffset() int {
-	return encoded.FindPhysicalOffset(r.data)
-}
-
-func (r *RunEndEncoded) GetPhysicalLength() int {
-	return encoded.GetPhysicalLength(r.data)
-}
-
-// GetPhysicalIndex can be used to get the run-encoded value instead of costly LogicalValuesArray
-// in the following way:
-//
-//	r.Values().(valuetype).Value(r.GetPhysicalIndex(i))
-func (r *RunEndEncoded) GetPhysicalIndex(i int) int {
-	return encoded.FindPhysicalIndex(r.data, i+r.data.offset)
-}
-
-// ValueStr will return the str representation of the value at the logical offset i.
-func (r *RunEndEncoded) ValueStr(i int) string {
-	return r.values.ValueStr(r.GetPhysicalIndex(i))
-}
-
-func (r *RunEndEncoded) String() string {
-	var buf bytes.Buffer
-	buf.WriteByte('[')
-	for i := 0; i < r.ends.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-
-		value := r.values.GetOneForMarshal(i)
-		if byts, ok := value.(json.RawMessage); ok {
-			value = string(byts)
-		}
-		fmt.Fprintf(&buf, "{%d -> %v}", r.ends.GetOneForMarshal(i), value)
-	}
-
-	buf.WriteByte(']')
-	return buf.String()
-}
-
-func (r *RunEndEncoded) GetOneForMarshal(i int) interface{} {
-	return r.values.GetOneForMarshal(r.GetPhysicalIndex(i))
-}
-
-func (r *RunEndEncoded) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	buf.WriteByte('[')
-	for i := 0; i < r.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(r.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayRunEndEncodedEqual(l, r *RunEndEncoded) bool {
-	// types were already checked before getting here, so we know
-	// the encoded types are equal
-	mr := encoded.NewMergedRuns([2]arrow.Array{l, r})
-	for mr.Next() {
-		lIndex := mr.IndexIntoArray(0)
-		rIndex := mr.IndexIntoArray(1)
-		if !SliceEqual(l.values, lIndex, lIndex+1, r.values, rIndex, rIndex+1) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayRunEndEncodedApproxEqual(l, r *RunEndEncoded, opt equalOption) bool {
-	// types were already checked before getting here, so we know
-	// the encoded types are equal
-	mr := encoded.NewMergedRuns([2]arrow.Array{l, r})
-	for mr.Next() {
-		lIndex := mr.IndexIntoArray(0)
-		rIndex := mr.IndexIntoArray(1)
-		if !sliceApproxEqual(l.values, lIndex, lIndex+1, r.values, rIndex, rIndex+1, opt) {
-			return false
-		}
-	}
-	return true
-}
-
-type RunEndEncodedBuilder struct {
-	builder
-
-	dt        arrow.DataType
-	runEnds   Builder
-	values    Builder
-	maxRunEnd uint64
-
-	// currently, mixing AppendValueFromString & UnmarshalOne is unsupported
-	lastUnmarshalled interface{}
-	unmarshalled     bool // tracks if Unmarshal was called (in case lastUnmarshalled is nil)
-	lastStr          *string
-}
-
-func NewRunEndEncodedBuilder(mem memory.Allocator, runEnds, encoded arrow.DataType) *RunEndEncodedBuilder {
-	dt := arrow.RunEndEncodedOf(runEnds, encoded)
-	if !dt.ValidRunEndsType(runEnds) {
-		panic("arrow/ree: invalid runEnds type for run length encoded array")
-	}
-
-	var maxEnd uint64
-	switch runEnds.ID() {
-	case arrow.INT16:
-		maxEnd = math.MaxInt16
-	case arrow.INT32:
-		maxEnd = math.MaxInt32
-	case arrow.INT64:
-		maxEnd = math.MaxInt64
-	}
-	return &RunEndEncodedBuilder{
-		builder:          builder{refCount: 1, mem: mem},
-		dt:               dt,
-		runEnds:          NewBuilder(mem, runEnds),
-		values:           NewBuilder(mem, encoded),
-		maxRunEnd:        maxEnd,
-		lastUnmarshalled: nil,
-	}
-}
-
-func (b *RunEndEncodedBuilder) Type() arrow.DataType {
-	return b.dt
-}
-
-func (b *RunEndEncodedBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.values.Release()
-		b.runEnds.Release()
-	}
-}
-
-func (b *RunEndEncodedBuilder) addLength(n uint64) {
-	if uint64(b.length)+n > b.maxRunEnd {
-		panic(fmt.Errorf("%w: %s array length must fit be less than %d", arrow.ErrInvalid, b.dt, b.maxRunEnd))
-	}
-
-	b.length += int(n)
-}
-
-func (b *RunEndEncodedBuilder) finishRun() {
-	b.lastUnmarshalled = nil
-	b.lastStr = nil
-	b.unmarshalled = false
-	if b.length == 0 {
-		return
-	}
-
-	switch bldr := b.runEnds.(type) {
-	case *Int16Builder:
-		bldr.Append(int16(b.length))
-	case *Int32Builder:
-		bldr.Append(int32(b.length))
-	case *Int64Builder:
-		bldr.Append(int64(b.length))
-	}
-}
-
-func (b *RunEndEncodedBuilder) ValueBuilder() Builder { return b.values }
-
-func (b *RunEndEncodedBuilder) Append(n uint64) {
-	b.finishRun()
-	b.addLength(n)
-}
-
-func (b *RunEndEncodedBuilder) AppendRuns(runs []uint64) {
-	for _, r := range runs {
-		b.finishRun()
-		b.addLength(r)
-	}
-}
-
-func (b *RunEndEncodedBuilder) ContinueRun(n uint64) {
-	b.addLength(n)
-}
-
-func (b *RunEndEncodedBuilder) AppendNull() {
-	b.finishRun()
-	b.values.AppendNull()
-	b.addLength(1)
-}
-
-func (b *RunEndEncodedBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *RunEndEncodedBuilder) NullN() int {
-	return UnknownNullCount
-}
-
-func (b *RunEndEncodedBuilder) AppendEmptyValue() {
-	b.AppendNull()
-}
-
-func (b *RunEndEncodedBuilder) AppendEmptyValues(n int) {
-	b.AppendNulls(n)
-}
-
-func (b *RunEndEncodedBuilder) Reserve(n int) {
-	b.values.Reserve(n)
-	b.runEnds.Reserve(n)
-}
-
-func (b *RunEndEncodedBuilder) Resize(n int) {
-	b.values.Resize(n)
-	b.runEnds.Resize(n)
-}
-
-func (b *RunEndEncodedBuilder) NewRunEndEncodedArray() *RunEndEncoded {
-	data := b.newData()
-	defer data.Release()
-	return NewRunEndEncodedData(data)
-}
-
-func (b *RunEndEncodedBuilder) NewArray() arrow.Array {
-	return b.NewRunEndEncodedArray()
-}
-
-func (b *RunEndEncodedBuilder) newData() (data *Data) {
-	b.finishRun()
-	values := b.values.NewArray()
-	defer values.Release()
-	runEnds := b.runEnds.NewArray()
-	defer runEnds.Release()
-
-	data = NewData(
-		b.dt, b.length, []*memory.Buffer{},
-		[]arrow.ArrayData{runEnds.Data(), values.Data()}, 0, 0)
-	b.reset()
-	return
-}
-
-// AppendValueFromString can't be used in conjunction with UnmarshalOne
-func (b *RunEndEncodedBuilder) AppendValueFromString(s string) error {
-	// we don't support mixing AppendValueFromString & UnmarshalOne
-	if b.unmarshalled {
-		return fmt.Errorf("%w: mixing AppendValueFromString & UnmarshalOne not yet implemented", arrow.ErrNotImplemented)
-	}
-
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.lastStr != nil && s == *b.lastStr {
-		b.ContinueRun(1)
-		return nil
-	}
-
-	b.Append(1)
-	lastStr := s
-	b.lastStr = &lastStr
-	return b.ValueBuilder().AppendValueFromString(s)
-}
-
-// UnmarshalOne can't be used in conjunction with AppendValueFromString
-func (b *RunEndEncodedBuilder) UnmarshalOne(dec *json.Decoder) error {
-	// we don't support mixing AppendValueFromString & UnmarshalOne
-	if b.lastStr != nil {
-		return fmt.Errorf("%w: mixing AppendValueFromString & UnmarshalOne not yet implemented", arrow.ErrNotImplemented)
-	}
-
-	var value interface{}
-	if err := dec.Decode(&value); err != nil {
-		return err
-	}
-
-	// if we unmarshalled the same value as the previous one, we want to
-	// continue the run. However, there's an edge case. At the start of
-	// unmarshalling, lastUnmarshalled will be nil, but we might get
-	// nil as the first value we unmarshal. In that case we want to
-	// make sure we add a new run instead. We can detect that case by
-	// checking that the number of runEnds matches the number of values
-	// we have, which means no matter what we have to start a new run
-	if reflect.DeepEqual(value, b.lastUnmarshalled) && (value != nil || b.runEnds.Len() != b.values.Len()) {
-		b.ContinueRun(1)
-		return nil
-	}
-
-	data, err := json.Marshal(value)
-	if err != nil {
-		return err
-	}
-
-	b.Append(1)
-	b.lastUnmarshalled = value
-	b.unmarshalled = true
-	return b.ValueBuilder().UnmarshalOne(json.NewDecoder(bytes.NewReader(data)))
-}
-
-// Unmarshal can't be used in conjunction with AppendValueFromString (as it calls UnmarshalOne)
-func (b *RunEndEncodedBuilder) Unmarshal(dec *json.Decoder) error {
-	b.finishRun()
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON can't be used in conjunction with AppendValueFromString (as it calls UnmarshalOne)
-func (b *RunEndEncodedBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*RunEndEncoded)(nil)
-	_ Builder     = (*RunEndEncodedBuilder)(nil)
-)
diff --git a/go/arrow/array/encoded_test.go b/go/arrow/array/encoded_test.go
deleted file mode 100644
index 03352ec44177c..0000000000000
--- a/go/arrow/array/encoded_test.go
+++ /dev/null
@@ -1,459 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var (
-	stringValues, _, _ = array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World", null]`))
-	int32Values, _, _  = array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int32, strings.NewReader(`[10, 20, 30]`))
-	int32OnlyNull      = array.MakeArrayOfNull(memory.DefaultAllocator, arrow.PrimitiveTypes.Int32, 3)
-)
-
-func TestMakeRLEArray(t *testing.T) {
-	rleArr := array.NewRunEndEncodedArray(int32Values, stringValues, 3, 0)
-	defer rleArr.Release()
-
-	arrData := rleArr.Data()
-	newArr := array.MakeFromData(arrData)
-	defer newArr.Release()
-
-	assert.Same(t, newArr.Data(), arrData)
-	assert.IsType(t, (*array.RunEndEncoded)(nil), newArr)
-}
-
-func TestRLEFromRunEndsAndValues(t *testing.T) {
-	rleArray := array.NewRunEndEncodedArray(int32Values, int32Values, 3, 0)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 3, rleArray.Len())
-	assert.Truef(t, array.Equal(int32Values, rleArray.Values()), "expected: %s\ngot: %s", int32Values, rleArray.Values())
-	assert.Truef(t, array.Equal(int32Values, rleArray.RunEndsArr()), "expected: %s\ngot: %s", int32Values, rleArray.RunEndsArr())
-	assert.Zero(t, rleArray.Offset())
-	assert.Zero(t, rleArray.Data().NullN())
-	// one dummy buffer, since code may assume there's at least one nil buffer
-	assert.Len(t, rleArray.Data().Buffers(), 1)
-
-	// explicit offset
-	rleArray = array.NewRunEndEncodedArray(int32Values, stringValues, 2, 1)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 2, rleArray.Len())
-	assert.Truef(t, array.Equal(stringValues, rleArray.Values()), "expected: %s\ngot: %s", stringValues, rleArray.Values())
-	assert.Truef(t, array.Equal(int32Values, rleArray.RunEndsArr()), "expected: %s\ngot: %s", int32Values, rleArray.RunEndsArr())
-	assert.EqualValues(t, 1, rleArray.Offset())
-	assert.Zero(t, rleArray.Data().NullN())
-
-	assert.PanicsWithError(t, "invalid: arrow/array: run ends array must be int16, int32, or int64", func() {
-		array.NewRunEndEncodedArray(stringValues, int32Values, 3, 0)
-	})
-	assert.PanicsWithError(t, "invalid: arrow/array: run ends array cannot contain nulls", func() {
-		array.NewRunEndEncodedArray(int32OnlyNull, int32Values, 3, 0)
-	})
-}
-
-func TestRunLengthEncodedOffsetLength(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	runEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[100, 200, 300, 400, 500]`))
-	defer runEnds.Release()
-
-	values, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "beautiful", "world", "of", "RLE"]`))
-	defer values.Release()
-
-	rleArray := array.NewRunEndEncodedArray(runEnds, values, 500, 0)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 5, rleArray.GetPhysicalLength())
-	assert.EqualValues(t, 0, rleArray.GetPhysicalOffset())
-
-	slice := array.NewSlice(rleArray, 199, 204).(*array.RunEndEncoded)
-	defer slice.Release()
-
-	assert.EqualValues(t, 2, slice.GetPhysicalLength())
-	assert.EqualValues(t, 1, slice.GetPhysicalOffset())
-
-	slice2 := array.NewSlice(rleArray, 199, 300).(*array.RunEndEncoded)
-	defer slice2.Release()
-
-	assert.EqualValues(t, 2, slice2.GetPhysicalLength())
-	assert.EqualValues(t, 1, slice2.GetPhysicalOffset())
-
-	slice3 := array.NewSlice(rleArray, 400, 500).(*array.RunEndEncoded)
-	defer slice3.Release()
-
-	assert.EqualValues(t, 1, slice3.GetPhysicalLength())
-	assert.EqualValues(t, 4, slice3.GetPhysicalOffset())
-
-	slice4 := array.NewSlice(rleArray, 0, 150).(*array.RunEndEncoded)
-	defer slice4.Release()
-
-	assert.EqualValues(t, 2, slice4.GetPhysicalLength())
-	assert.EqualValues(t, 0, slice4.GetPhysicalOffset())
-
-	zeroLengthAtEnd := array.NewSlice(rleArray, 500, 500).(*array.RunEndEncoded)
-	defer zeroLengthAtEnd.Release()
-
-	assert.EqualValues(t, 0, zeroLengthAtEnd.GetPhysicalLength())
-	assert.EqualValues(t, 5, zeroLengthAtEnd.GetPhysicalOffset())
-}
-
-func TestRLECompare(t *testing.T) {
-	rleArray := array.NewRunEndEncodedArray(int32Values, stringValues, 30, 0)
-	// second that is a copy of the first
-	standardEquals := array.MakeFromData(rleArray.Data().(*array.Data).Copy())
-
-	defer rleArray.Release()
-	defer standardEquals.Release()
-
-	assert.Truef(t, array.Equal(rleArray, standardEquals), "left: %s\nright: %s", rleArray, standardEquals)
-	assert.False(t, array.Equal(array.NewSlice(rleArray, 0, 29), array.NewSlice(rleArray, 1, 30)))
-
-	// array that is logically the same as our rleArray, but has 2 small
-	// runs for the first value instead of one large run
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("logical duplicate", func(t *testing.T) {
-		dupRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[5, 10, 20, 30]`))
-		defer dupRunEnds.Release()
-		strValues, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-			strings.NewReader(`["Hello", "Hello", "World", null]`))
-		defer strValues.Release()
-
-		dupArr := array.NewRunEndEncodedArray(dupRunEnds, strValues, 30, 0)
-		defer dupArr.Release()
-
-		assert.Truef(t, array.Equal(rleArray, dupArr), "expected: %sgot: %s", rleArray, dupArr)
-	})
-
-	t.Run("emptyArr", func(t *testing.T) {
-		emptyRuns, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[]`))
-		emptyVals, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[]`))
-		defer emptyRuns.Release()
-		defer emptyVals.Release()
-
-		emptyArr := array.NewRunEndEncodedArray(emptyRuns, emptyVals, 0, 0)
-		defer emptyArr.Release()
-
-		dataCopy := emptyArr.Data().(*array.Data).Copy()
-		defer dataCopy.Release()
-		emptyArr2 := array.MakeFromData(dataCopy)
-		defer emptyArr2.Release()
-
-		assert.Truef(t, array.Equal(emptyArr, emptyArr2), "expected: %sgot: %s", emptyArr, emptyArr2)
-	})
-
-	t.Run("different offsets", func(t *testing.T) {
-		// three different slices that have the value [3, 3, 3, 4, 4, 4, 4]
-		offsetsa, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[2, 5, 12, 58, 60]`))
-		offsetsb, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[81, 86, 99, 100]`))
-		offsetsc, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[3, 7]`))
-		valsa, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[1, 2, 3, 4, 5]`))
-		valsb, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[2, 3, 4, 5]`))
-		valsc, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[3, 4]`))
-		defer func() {
-			offsetsa.Release()
-			offsetsb.Release()
-			offsetsc.Release()
-			valsa.Release()
-			valsb.Release()
-			valsc.Release()
-		}()
-
-		differentOffsetsA := array.NewRunEndEncodedArray(offsetsa, valsa, 60, 0)
-		defer differentOffsetsA.Release()
-		differentOffsetsB := array.NewRunEndEncodedArray(offsetsb, valsb, 100, 0)
-		defer differentOffsetsB.Release()
-		differentOffsetsC := array.NewRunEndEncodedArray(offsetsc, valsc, 7, 0)
-		defer differentOffsetsC.Release()
-
-		sliceA := array.NewSlice(differentOffsetsA, 9, 16)
-		defer sliceA.Release()
-		sliceB := array.NewSlice(differentOffsetsB, 83, 90)
-		defer sliceB.Release()
-
-		assert.True(t, array.Equal(sliceA, sliceB))
-		assert.True(t, array.Equal(sliceA, differentOffsetsC))
-		assert.True(t, array.Equal(sliceB, differentOffsetsC))
-	})
-}
-
-func TestRunEndEncodedBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewBuilder(mem, arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String))
-	defer bldr.Release()
-
-	assert.IsType(t, (*array.RunEndEncodedBuilder)(nil), bldr)
-	reeBldr := bldr.(*array.RunEndEncodedBuilder)
-
-	valBldr := reeBldr.ValueBuilder().(*array.StringBuilder)
-
-	reeBldr.Append(100)
-	valBldr.Append("Hello")
-	reeBldr.Append(100)
-	valBldr.Append("beautiful")
-	reeBldr.Append(50)
-	valBldr.Append("world")
-	reeBldr.ContinueRun(50)
-	reeBldr.Append(100)
-	valBldr.Append("of")
-	reeBldr.Append(100)
-	valBldr.Append("RLE")
-	reeBldr.AppendNull()
-
-	rleArray := reeBldr.NewRunEndEncodedArray()
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 501, rleArray.Len())
-	assert.EqualValues(t, 6, rleArray.GetPhysicalLength())
-	assert.Equal(t, arrow.INT16, rleArray.RunEndsArr().DataType().ID())
-	assert.Equal(t, []int16{100, 200, 300, 400, 500, 501}, rleArray.RunEndsArr().(*array.Int16).Int16Values())
-
-	strValues := rleArray.Values().(*array.String)
-	assert.Equal(t, "Hello", strValues.Value(0))
-	assert.Equal(t, "beautiful", strValues.Value(1))
-	assert.Equal(t, "world", strValues.Value(2))
-	assert.Equal(t, "of", strValues.Value(3))
-	assert.Equal(t, "RLE", strValues.Value(4))
-	assert.True(t, strValues.IsNull(5))
-	assert.Equal(t, "Hello", strValues.ValueStr(0))
-}
-
-func TestRunEndEncodedStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer b.Release()
-
-	valBldr := b.ValueBuilder().(*array.StringBuilder)
-
-	b.Append(100)
-	valBldr.Append("Hello")
-	b.Append(100)
-	valBldr.Append("beautiful")
-	b.Append(50)
-	valBldr.Append("world")
-	b.ContinueRun(50)
-	b.Append(100)
-	valBldr.Append("of")
-	b.Append(100)
-	valBldr.Append("RLE")
-	b.AppendNull()
-
-	arr := b.NewArray().(*array.RunEndEncoded)
-	defer arr.Release()
-	logical := arr.LogicalValuesArray()
-	defer logical.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.RunEndEncoded)
-	defer arr1.Release()
-	logical1 := arr1.LogicalValuesArray()
-	defer logical1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-	assert.True(t, array.Equal(logical, logical1))
-}
-
-func TestREEBuilderOverflow(t *testing.T) {
-	for _, typ := range []arrow.DataType{arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64} {
-		t.Run("run_ends="+typ.String(), func(t *testing.T) {
-
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			bldr := array.NewRunEndEncodedBuilder(mem, typ, arrow.BinaryTypes.String)
-			defer bldr.Release()
-
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-			assert.Panics(t, func() {
-				valBldr.Append("Foo")
-
-				maxVal := uint64(1<<typ.(arrow.FixedWidthDataType).BitWidth()) - 1
-
-				bldr.Append(uint64(maxVal))
-			})
-		})
-	}
-}
-
-func TestLogicalRunEndsValuesArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-	// produces run-ends 1, 2, 4, 6, 10, 1000, 1750, 2000
-	bldr.AppendRuns([]uint64{1, 1, 2, 2, 4, 990, 750, 250})
-	valBldr.AppendValues([]string{"a", "b", "c", "d", "e", "f", "g", "h"}, nil)
-
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	sl := array.NewSlice(arr, 150, 1650)
-	defer sl.Release()
-
-	assert.EqualValues(t, 150, sl.Data().Offset())
-	assert.EqualValues(t, 1500, sl.Len())
-
-	logicalValues := sl.(*array.RunEndEncoded).LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds := sl.(*array.RunEndEncoded).LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["f", "g"]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-	expectedRunEnds := []int16{850, 1500}
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-	assert.Equal(t, expectedRunEnds, logicalRunEnds.(*array.Int16).Int16Values())
-}
-
-func TestLogicalRunEndsValuesArrayEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-	// produces run-ends 1, 2, 4, 6, 10, 1000, 1750, 2000
-	bldr.AppendRuns([]uint64{1, 1, 2, 2, 4, 990, 750, 250})
-	valBldr.AppendValues([]string{"a", "b", "c", "d", "e", "f", "g", "h"}, nil)
-
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	emptySlice := array.NewSlice(arr, 2000, 2000)
-	defer emptySlice.Release()
-
-	assert.EqualValues(t, 2000, emptySlice.Data().Offset())
-	assert.EqualValues(t, 0, emptySlice.Len())
-
-	logicalValues := emptySlice.(*array.RunEndEncoded).LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds := emptySlice.(*array.RunEndEncoded).LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	assert.Zero(t, logicalValues.Len())
-	assert.Zero(t, logicalRunEnds.Len())
-
-	empty := bldr.NewRunEndEncodedArray()
-	defer empty.Release()
-
-	assert.EqualValues(t, 0, empty.Data().Offset())
-	assert.EqualValues(t, 0, empty.Len())
-
-	logicalValues = empty.LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds = empty.LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	assert.Zero(t, logicalValues.Len())
-	assert.Zero(t, logicalRunEnds.Len())
-}
-
-func TestRunEndEncodedUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	const testJSON = `
-		[ null, "a", "a", "a", "b", "b", "b", null, null, "c", "d", "d", "d", null, null, null, "e", "e"]`
-
-	require.NoError(t, json.Unmarshal([]byte(testJSON), bldr))
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, "a", "b", null, "c", "d", null, "e"]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-
-	assert.EqualValues(t, 18, arr.Len())
-	assert.Equal(t, []int16{1, 4, 7, 9, 10, 13, 16, 18}, arr.RunEndsArr().(*array.Int16).Int16Values())
-	logicalValues := arr.LogicalValuesArray()
-	defer logicalValues.Release()
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-}
-
-func TestRunEndEncodedUnmarshalNestedJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16,
-		arrow.ListOf(arrow.PrimitiveTypes.Int32))
-	defer bldr.Release()
-
-	const testJSON = `
-		[null, [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, null, 3], [4, 5, null], null, null,
-		[4, 5, null], [4, 5, null], [4, 5, null]]
-	`
-
-	require.NoError(t, json.Unmarshal([]byte(testJSON), bldr))
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	assert.EqualValues(t, 11, arr.Len())
-	assert.Equal(t, []int16{1, 4, 5, 6, 8, 11}, arr.RunEndsArr().(*array.Int16).Int16Values())
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.ListOf(arrow.PrimitiveTypes.Int32),
-		strings.NewReader(`[null, [1, 2, 3], [1, null, 3], [4, 5, null], null, [4, 5, null]]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-
-	logicalValues := arr.LogicalValuesArray()
-	defer logicalValues.Release()
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-}
diff --git a/go/arrow/array/extension.go b/go/arrow/array/extension.go
deleted file mode 100644
index 8c4ef840cb72c..0000000000000
--- a/go/arrow/array/extension.go
+++ /dev/null
@@ -1,244 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// ExtensionArray is the interface that needs to be implemented to handle
-// user-defined extension type arrays. In order to ensure consistency and
-// proper behavior, all ExtensionArray types must embed ExtensionArrayBase
-// in order to meet the interface which provides the default implementation
-// and handling for the array while allowing custom behavior to be built
-// on top of it.
-type ExtensionArray interface {
-	arrow.Array
-	// ExtensionType returns the datatype as per calling DataType(), but
-	// already cast to ExtensionType
-	ExtensionType() arrow.ExtensionType
-	// Storage returns the underlying storage array for this array.
-	Storage() arrow.Array
-	// by having a non-exported function in the interface, it means that
-	// consumers must embed ExtensionArrayBase in their structs in order
-	// to fulfill this interface.
-	mustEmbedExtensionArrayBase()
-}
-
-// two extension arrays are equal if their data types are equal and
-// their underlying storage arrays are equal.
-func arrayEqualExtension(l, r ExtensionArray) bool {
-	if !arrow.TypeEqual(l.DataType(), r.DataType()) {
-		return false
-	}
-
-	return Equal(l.Storage(), r.Storage())
-}
-
-// two extension arrays are approximately equal if their data types are
-// equal and their underlying storage arrays are approximately equal.
-func arrayApproxEqualExtension(l, r ExtensionArray, opt equalOption) bool {
-	if !arrow.TypeEqual(l.DataType(), r.DataType()) {
-		return false
-	}
-
-	return arrayApproxEqual(l.Storage(), r.Storage(), opt)
-}
-
-// NewExtensionArrayWithStorage constructs a new ExtensionArray from the provided
-// ExtensionType and uses the provided storage interface as the underlying storage.
-// This will not release the storage array passed in so consumers should call Release
-// on it manually while the new Extension array will share references to the underlying
-// Data buffers.
-func NewExtensionArrayWithStorage(dt arrow.ExtensionType, storage arrow.Array) arrow.Array {
-	if !arrow.TypeEqual(dt.StorageType(), storage.DataType()) {
-		panic(fmt.Errorf("arrow/array: storage type %s for extension type %s, does not match expected type %s", storage.DataType(), dt.ExtensionName(), dt.StorageType()))
-	}
-
-	storageData := storage.Data().(*Data)
-	// create a new data instance with the ExtensionType as the datatype but referencing the
-	// same underlying buffers to share them with the storage array.
-	data := NewData(dt, storageData.length, storageData.buffers, storageData.childData, storageData.nulls, storageData.offset)
-	defer data.Release()
-	return NewExtensionData(data)
-}
-
-// NewExtensionData expects a data with a datatype of arrow.ExtensionType and
-// underlying data built for the storage array.
-func NewExtensionData(data arrow.ArrayData) ExtensionArray {
-	base := ExtensionArrayBase{}
-	base.refCount = 1
-	base.setData(data.(*Data))
-
-	// use the ExtensionType's ArrayType to construct the correctly typed object
-	// to use as the ExtensionArray interface. reflect.New returns a pointer to
-	// the newly created object.
-	arr := reflect.New(base.ExtensionType().ArrayType())
-	// set the embedded ExtensionArrayBase to the value we created above. We know
-	// that this field will exist because the interface requires embedding ExtensionArrayBase
-	// so we don't have to separately check, this will panic if called on an ArrayType
-	// that doesn't embed ExtensionArrayBase which is what we want.
-	arr.Elem().FieldByName("ExtensionArrayBase").Set(reflect.ValueOf(base))
-	return arr.Interface().(ExtensionArray)
-}
-
-// ExtensionArrayBase is the base struct for user-defined Extension Array types
-// and must be embedded in any user-defined extension arrays like so:
-//
-//	type UserDefinedArray struct {
-//	    array.ExtensionArrayBase
-//	}
-type ExtensionArrayBase struct {
-	array
-	storage arrow.Array
-}
-
-func (e *ExtensionArrayBase) String() string {
-	return fmt.Sprintf("(%s)%s", e.data.dtype, e.storage)
-}
-
-func (e *ExtensionArrayBase) GetOneForMarshal(i int) interface{} {
-	return e.storage.GetOneForMarshal(i)
-}
-
-func (e *ExtensionArrayBase) MarshalJSON() ([]byte, error) {
-	return json.Marshal(e.storage)
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (e *ExtensionArrayBase) Retain() {
-	e.array.Retain()
-	e.storage.Retain()
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (e *ExtensionArrayBase) Release() {
-	e.array.Release()
-	e.storage.Release()
-}
-
-// Storage returns the underlying storage array
-func (e *ExtensionArrayBase) Storage() arrow.Array { return e.storage }
-
-// ExtensionType returns the same thing as DataType, just already casted
-// to an ExtensionType interface for convenience.
-func (e *ExtensionArrayBase) ExtensionType() arrow.ExtensionType {
-	return e.DataType().(arrow.ExtensionType)
-}
-
-func (e *ExtensionArrayBase) setData(data *Data) {
-	if data.DataType().ID() != arrow.EXTENSION {
-		panic("arrow/array: must use extension type to construct an extension array")
-	}
-	extType, ok := data.dtype.(arrow.ExtensionType)
-	if !ok {
-		panic("arrow/array: DataType for ExtensionArray must implement arrow.ExtensionType")
-	}
-
-	e.array.setData(data)
-	// our underlying storage needs to reference the same data buffers (no copying)
-	// but should have the storage type's datatype, so we create a Data for it.
-	storageData := NewData(extType.StorageType(), data.length, data.buffers, data.childData, data.nulls, data.offset)
-	storageData.SetDictionary(data.dictionary)
-	defer storageData.Release()
-	e.storage = MakeFromData(storageData)
-}
-
-// ValueStr returns the value at index i as a string.
-// This needs to be implemented by the extension array type.
-func (e *ExtensionArrayBase) ValueStr(i int) string {
-	panic("arrow/array: ValueStr wasn't implemented by this extension array type")
-}
-
-// no-op function that exists simply to force embedding this in any extension array types.
-func (ExtensionArrayBase) mustEmbedExtensionArrayBase() {}
-
-// ExtensionBuilder is a convenience builder so that NewBuilder and such will still work
-// with extension types properly. Depending on preference it may be cleaner or easier to just use
-// NewExtensionArrayWithStorage and pass a storage array.
-//
-// That said, this allows easily building an extension array by providing the extension
-// type and retrieving the storage builder.
-type ExtensionBuilder struct {
-	Builder
-	dt arrow.ExtensionType
-}
-
-// NewExtensionBuilder returns a builder using the provided memory allocator for the desired
-// extension type. It will internally construct a builder of the storage type for the extension
-// type and keep a copy of the extension type. The underlying type builder can then be retrieved
-// by calling `StorageBuilder` on this and then type asserting it to the desired builder type.
-//
-// After using the storage builder, calling NewArray or NewExtensionArray will construct
-// the appropriate extension array type and set the storage correctly, resetting the builder for
-// reuse.
-//
-// # Example
-//
-// Simple example assuming an extension type of a UUID defined as a FixedSizeBinary(16) was registered
-// using the type name "uuid":
-//
-//	uuidType := arrow.GetExtensionType("uuid")
-//	bldr := array.NewExtensionBuilder(memory.DefaultAllocator, uuidType)
-//	defer bldr.Release()
-//	uuidBldr := bldr.StorageBuilder().(*array.FixedSizeBinaryBuilder)
-//	/* build up the fixed size binary array as usual via Append/AppendValues */
-//	uuidArr := bldr.NewExtensionArray()
-//	defer uuidArr.Release()
-//
-// Because the storage builder is embedded in the Extension builder it also means
-// that any of the functions available on the Builder interface can be called on
-// an instance of ExtensionBuilder and will respond appropriately as the storage
-// builder would for generically grabbing the Lenth, Cap, Nulls, reserving, etc.
-func NewExtensionBuilder(mem memory.Allocator, dt arrow.ExtensionType) *ExtensionBuilder {
-	return &ExtensionBuilder{Builder: NewBuilder(mem, dt.StorageType()), dt: dt}
-}
-
-func (b *ExtensionBuilder) Type() arrow.DataType { return b.dt }
-
-// StorageBuilder returns the builder for the underlying storage type.
-func (b *ExtensionBuilder) StorageBuilder() Builder { return b.Builder }
-
-// NewArray creates a new array from the memory buffers used by the builder
-// and resets the builder so it can be used to build a new array.
-func (b *ExtensionBuilder) NewArray() arrow.Array {
-	return b.NewExtensionArray()
-}
-
-// NewExtensionArray creates an Extension array from the memory buffers used
-// by the builder and resets the ExtensionBuilder so it can be used to build
-// a new ExtensionArray of the same type.
-func (b *ExtensionBuilder) NewExtensionArray() ExtensionArray {
-	storage := b.Builder.NewArray()
-	defer storage.Release()
-
-	storage.Data().(*Data).dtype = b.dt
-	return NewExtensionData(storage.Data())
-}
-
-var (
-	_ arrow.Array = (ExtensionArray)(nil)
-	_ Builder     = (*ExtensionBuilder)(nil)
-)
diff --git a/go/arrow/array/extension_builder.go b/go/arrow/array/extension_builder.go
deleted file mode 100644
index 9c2ee88056438..0000000000000
--- a/go/arrow/array/extension_builder.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import "github.com/apache/arrow/go/v18/arrow/memory"
-
-// CustomExtensionBuilder is an interface that custom extension types may implement to provide a custom builder
-// instead of the underlying storage type's builder when array.NewBuilder is called with that type.
-type CustomExtensionBuilder interface {
-	NewBuilder(memory.Allocator) Builder
-}
diff --git a/go/arrow/array/extension_test.go b/go/arrow/array/extension_test.go
deleted file mode 100644
index 26245cf015dec..0000000000000
--- a/go/arrow/array/extension_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/suite"
-)
-
-type ExtensionTypeTestSuite struct {
-	suite.Suite
-}
-
-func (e *ExtensionTypeTestSuite) TestParametricEquals() {
-	p1Type := types.NewParametric1Type(6)
-	p2Type := types.NewParametric1Type(6)
-	p3Type := types.NewParametric1Type(3)
-
-	e.True(arrow.TypeEqual(p1Type, p2Type))
-	e.False(arrow.TypeEqual(p1Type, p3Type))
-}
-
-func exampleParametric(mem memory.Allocator, dt arrow.DataType, vals []int32, valid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	exb := bldr.(*array.ExtensionBuilder)
-	sb := exb.StorageBuilder().(*array.Int32Builder)
-	sb.AppendValues(vals, valid)
-
-	return bldr.NewArray()
-}
-
-func (e *ExtensionTypeTestSuite) TestParametricArrays() {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(e.T(), 0)
-
-	p1Type := types.NewParametric1Type(6)
-	p1 := exampleParametric(pool, p1Type, []int32{-1, 1, 2, 3}, []bool{false, true, true, true})
-	defer p1.Release()
-
-	p2Type := types.NewParametric1Type(12)
-	p2 := exampleParametric(pool, p2Type, []int32{2, -1, 3, 4}, []bool{true, false, true, true})
-	defer p2.Release()
-
-	p3Type := types.NewParametric2Type(2)
-	p3 := exampleParametric(pool, p3Type, []int32{5, 6, 7, 8}, nil)
-	defer p3.Release()
-
-	p4Type := types.NewParametric2Type(3)
-	p4 := exampleParametric(pool, p4Type, []int32{5, 6, 7, 9}, nil)
-	defer p4.Release()
-
-	rb := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "f0", Type: p1Type, Nullable: true},
-		{Name: "f1", Type: p2Type, Nullable: true},
-		{Name: "f2", Type: p3Type, Nullable: true},
-		{Name: "f3", Type: p4Type, Nullable: true},
-	}, nil), []arrow.Array{p1, p2, p3, p4}, -1)
-	defer rb.Release()
-
-	e.True(array.RecordEqual(rb, rb))
-}
-
-func TestExtensionTypes(t *testing.T) {
-	suite.Run(t, new(ExtensionTypeTestSuite))
-}
diff --git a/go/arrow/array/fixed_size_list.go b/go/arrow/array/fixed_size_list.go
deleted file mode 100644
index a0eefd460c2bf..0000000000000
--- a/go/arrow/array/fixed_size_list.go
+++ /dev/null
@@ -1,385 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// FixedSizeList represents an immutable sequence of N array values.
-type FixedSizeList struct {
-	array
-	n      int32
-	values arrow.Array
-}
-
-var _ ListLike = (*FixedSizeList)(nil)
-
-// NewFixedSizeListData returns a new List array value, from data.
-func NewFixedSizeListData(data arrow.ArrayData) *FixedSizeList {
-	a := &FixedSizeList{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *FixedSizeList) ListValues() arrow.Array { return a.values }
-
-func (a *FixedSizeList) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-func (a *FixedSizeList) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if !a.IsValid(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *FixedSizeList) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *FixedSizeList) setData(data *Data) {
-	a.array.setData(data)
-	a.n = a.DataType().(*arrow.FixedSizeListType).Len()
-	a.values = MakeFromData(data.childData[0])
-}
-
-func arrayEqualFixedSizeList(left, right *FixedSizeList) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *FixedSizeList) Len() int { return a.array.Len() }
-
-func (a *FixedSizeList) ValueOffsets(i int) (start, end int64) {
-	n := int64(a.n)
-	off := int64(a.array.data.offset)
-	start, end = (off+int64(i))*n, (off+int64(i+1))*n
-	return
-}
-
-func (a *FixedSizeList) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *FixedSizeList) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *FixedSizeList) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-
-	return json.RawMessage(v)
-}
-
-func (a *FixedSizeList) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if a.IsNull(i) {
-			enc.Encode(nil)
-			continue
-		}
-
-		slice := a.newListValue(i)
-		if err := enc.Encode(slice); err != nil {
-			return nil, err
-		}
-		slice.Release()
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-type FixedSizeListBuilder struct {
-	baseListBuilder
-	n int32 // number of elements in the fixed-size list.
-}
-
-// NewFixedSizeListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewFixedSizeListBuilder(mem memory.Allocator, n int32, etype arrow.DataType) *FixedSizeListBuilder {
-	return &FixedSizeListBuilder{
-		baseListBuilder{
-			builder: builder{refCount: 1, mem: mem},
-			values:  NewBuilder(mem, etype),
-			dt:      arrow.FixedSizeListOf(n, etype),
-		},
-		n,
-	}
-}
-
-// NewFixedSizeListBuilderWithField returns a builder similarly to
-// NewFixedSizeListBuilder, but it accepts a child rather than just a datatype
-// to ensure nullability context is preserved.
-func NewFixedSizeListBuilderWithField(mem memory.Allocator, n int32, field arrow.Field) *FixedSizeListBuilder {
-	return &FixedSizeListBuilder{
-		baseListBuilder{
-			builder: builder{refCount: 1, mem: mem},
-			values:  NewBuilder(mem, field.Type),
-			dt:      arrow.FixedSizeListOfField(n, field),
-		},
-		n,
-	}
-}
-
-func (b *FixedSizeListBuilder) Type() arrow.DataType { return b.dt }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *FixedSizeListBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *FixedSizeListBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-}
-
-// AppendNull will append null values to the underlying values by itself
-func (b *FixedSizeListBuilder) AppendNull() {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(false)
-	// require to append this due to value indexes
-	for i := int32(0); i < b.n; i++ {
-		b.values.AppendNull()
-	}
-}
-
-// AppendNulls will append n null values to the underlying values by itself
-func (b *FixedSizeListBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendEmptyValue() {
-	b.Append(true)
-	for i := int32(0); i < b.n; i++ {
-		b.values.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendValues(valid []bool) {
-	b.Reserve(len(valid))
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *FixedSizeListBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *FixedSizeListBuilder) init(capacity int) {
-	b.builder.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *FixedSizeListBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *FixedSizeListBuilder) Resize(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *FixedSizeListBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a List array from the memory buffers used by the builder and resets the FixedSizeListBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeListBuilder) NewArray() arrow.Array {
-	return b.NewListArray()
-}
-
-// NewListArray creates a List array from the memory buffers used by the builder and resets the FixedSizeListBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeListBuilder) NewListArray() (a *FixedSizeList) {
-	data := b.newData()
-	a = NewFixedSizeListData(data)
-	data.Release()
-	return
-}
-
-func (b *FixedSizeListBuilder) newData() (data *Data) {
-	values := b.values.NewArray()
-	defer values.Release()
-
-	data = NewData(
-		b.dt, b.length,
-		[]*memory.Buffer{b.nullBitmap},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *FixedSizeListBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *FixedSizeListBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		b.Append(true)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *FixedSizeListBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *FixedSizeListBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("fixed size list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*FixedSizeList)(nil)
-	_ Builder     = (*FixedSizeListBuilder)(nil)
-)
diff --git a/go/arrow/array/fixed_size_list_test.go b/go/arrow/array/fixed_size_list_test.go
deleted file mode 100644
index e0edb9868cffd..0000000000000
--- a/go/arrow/array/fixed_size_list_test.go
+++ /dev/null
@@ -1,257 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFixedSizeListArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-		lengths = []int{3, 0, 4}
-		isValid = []bool{true, false, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, int32(len(vs)), arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	for i := 0; i < 10; i++ {
-		vb := lb.ValueBuilder().(*array.Int32Builder)
-		vb.Reserve(len(vs))
-
-		pos := 0
-		for i, length := range lengths {
-			lb.Append(isValid[i])
-			for j := 0; j < length; j++ {
-				vb.Append(vs[pos])
-				pos++
-			}
-		}
-
-		arr := lb.NewArray().(*array.FixedSizeList)
-		defer arr.Release()
-
-		arr.Retain()
-		arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.FIXED_SIZE_LIST; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		for i := range lengths {
-			if got, want := arr.IsValid(i), isValid[i]; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-			if got, want := arr.IsNull(i), lengths[i] == 0; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		varr := arr.ListValues().(*array.Int32)
-		if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-	}
-}
-
-func TestFixedSizeListArrayEmpty(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	lb := array.NewFixedSizeListBuilder(pool, 3, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-	if got, want := arr.Len(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-}
-
-func TestFixedSizeListArrayBulkAppend(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-		lengths = []int{3, 0, 4}
-		isValid = []bool{true, false, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, int32(len(vs)), arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	lb.AppendValues(isValid)
-	for _, v := range vs {
-		vb.Append(v)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	if got, want := arr.DataType().ID(), arrow.FIXED_SIZE_LIST; got != want {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	if got, want := arr.Len(), len(isValid); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range lengths {
-		if got, want := arr.IsValid(i), isValid[i]; got != want {
-			t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-		}
-		if got, want := arr.IsNull(i), lengths[i] == 0; got != want {
-			t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-		}
-	}
-
-	varr := arr.ListValues().(*array.Int32)
-	if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFixedSizeListArrayStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		vs      = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		isValid = []bool{true, false, true, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	for i, v := range vs {
-		lb.Append(isValid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	want := `[[0 1 2] (null) [6 7 8] [9 -9 -8]]`
-	if got, want := arr.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-	assert.Equal(t, array.NullValueStr, arr.ValueStr(1))
-}
-
-func TestFixedSizeListArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		vs      = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		isValid = []bool{true, false, true, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	for i, v := range vs {
-		lb.Append(isValid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	want := `[[0 1 2] (null) [6 7 8] [9 -9 -8]]`
-	if got, want := arr.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	sub := array.NewSlice(arr, 1, 3).(*array.FixedSizeList)
-	defer sub.Release()
-
-	want = `[(null) [6 7 8]]`
-	if got, want := sub.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestFixedSizeListStringRoundTrip(t *testing.T) {
-	// 1. create array
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		values = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		valid  = []bool{true, false, true, true}
-	)
-
-	b := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer b.Release()
-
-	vb := b.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(values))
-
-	for i, v := range values {
-		b.Append(valid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := b.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.FixedSizeList)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/fixedsize_binary.go b/go/arrow/array/fixedsize_binary.go
deleted file mode 100644
index f4d16c6386d60..0000000000000
--- a/go/arrow/array/fixedsize_binary.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of fixed-length binary strings.
-type FixedSizeBinary struct {
-	array
-
-	valueBytes []byte
-	bytewidth  int32
-}
-
-// NewFixedSizeBinaryData constructs a new fixed-size binary array from data.
-func NewFixedSizeBinaryData(data arrow.ArrayData) *FixedSizeBinary {
-	a := &FixedSizeBinary{bytewidth: int32(data.DataType().(arrow.FixedWidthDataType).BitWidth() / 8)}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Value returns the fixed-size slice at index i. This value should not be mutated.
-func (a *FixedSizeBinary) Value(i int) []byte {
-	i += a.array.data.offset
-	var (
-		bw  = int(a.bytewidth)
-		beg = i * bw
-		end = (i + 1) * bw
-	)
-	return a.valueBytes[beg:end]
-}
-func (a *FixedSizeBinary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-func (a *FixedSizeBinary) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *FixedSizeBinary) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.valueBytes = vals.Bytes()
-	}
-
-}
-
-func (a *FixedSizeBinary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.Value(i)
-}
-
-func (a *FixedSizeBinary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualFixedSizeBinary(left, right *FixedSizeBinary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*FixedSizeBinary)(nil)
-)
diff --git a/go/arrow/array/fixedsize_binary_test.go b/go/arrow/array/fixedsize_binary_test.go
deleted file mode 100644
index 4a32cb9692a06..0000000000000
--- a/go/arrow/array/fixedsize_binary_test.go
+++ /dev/null
@@ -1,189 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := array.NewFixedSizeBinaryBuilder(mem, &dtype)
-
-	zero := make([]byte, dtype.ByteWidth)
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-	// encoded abcdefg base64
-	assert.NoError(t, b.AppendValueFromString("YWJjZGVmZw=="))
-
-	b.Retain()
-	b.Release()
-
-	a := b.NewFixedSizeBinaryArray()
-	assert.Equal(t, 4, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("7654321"), a.Value(0))
-	assert.Equal(t, "YWJjZGVmZw==", a.ValueStr(3))
-	assert.Equal(t, zero, a.Value(1))
-	assert.Equal(t, true, a.IsNull(1))
-	assert.Equal(t, false, a.IsValid(1))
-	assert.Equal(t, []byte("AZERTYU"), a.Value(2))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*array.FixedSizeBinary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("7654321"), a.Value(0))
-	assert.Equal(t, zero, a.Value(1))
-	assert.Equal(t, []byte("AZERTYU"), a.Value(2))
-	a.Release()
-
-	b.Release()
-}
-
-func TestFixedSizeBinarySlice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.FixedSizeBinaryType{ByteWidth: 4}
-	b := array.NewFixedSizeBinaryBuilder(mem, dtype)
-	defer b.Release()
-
-	var data = [][]byte{
-		[]byte("ABCD"),
-		[]byte("1234"),
-		nil,
-		[]byte("AZER"),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewFixedSizeBinaryArray()
-	defer arr.Release()
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.FixedSizeBinary)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) "AZER"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestFixedSizeBinary_MarshalUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.FixedSizeBinaryType{ByteWidth: 4}
-	b := array.NewFixedSizeBinaryBuilder(mem, dtype)
-	defer b.Release()
-
-	var data = [][]byte{
-		[]byte("ABCD"),
-		[]byte("1234"),
-		nil,
-		[]byte("AZER"),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewFixedSizeBinaryArray()
-	defer arr.Release()
-
-	jsonBytes, err := arr.MarshalJSON()
-	if err != nil {
-		t.Fatalf("failed to marshal json: %v", err)
-	}
-
-	err = b.UnmarshalJSON(jsonBytes)
-	if err != nil {
-		t.Fatalf("failed to unmarshal json: %v", err)
-	}
-	gotArr := b.NewFixedSizeBinaryArray()
-	defer gotArr.Release()
-
-	gotString := gotArr.String()
-	wantString := arr.String()
-	if gotString != wantString {
-		t.Fatalf("got=%q, want=%q", gotString, wantString)
-	}
-}
-
-func TestFixedSizeBinaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := array.NewFixedSizeBinaryBuilder(mem, dt)
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-	// encoded abcdefg base64
-	assert.NoError(t, b.AppendValueFromString("YWJjZGVmZw=="))
-
-	arr := b.NewArray().(*array.FixedSizeBinary)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFixedSizeBinaryBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.FixedSizeBinary)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/fixedsize_binarybuilder.go b/go/arrow/array/fixedsize_binarybuilder.go
deleted file mode 100644
index 96d58632ab8c8..0000000000000
--- a/go/arrow/array/fixedsize_binarybuilder.go
+++ /dev/null
@@ -1,261 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"reflect"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A FixedSizeBinaryBuilder is used to build a FixedSizeBinary array using the Append methods.
-type FixedSizeBinaryBuilder struct {
-	builder
-
-	dtype  *arrow.FixedSizeBinaryType
-	values *byteBufferBuilder
-}
-
-func NewFixedSizeBinaryBuilder(mem memory.Allocator, dtype *arrow.FixedSizeBinaryType) *FixedSizeBinaryBuilder {
-	b := &FixedSizeBinaryBuilder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-		values:  newByteBufferBuilder(mem),
-	}
-	return b
-}
-
-func (b *FixedSizeBinaryBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *FixedSizeBinaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) Append(v []byte) {
-	if len(v) != b.dtype.ByteWidth {
-		// TODO(alexandre): should we return an error instead?
-		panic("len(v) != b.dtype.ByteWidth")
-	}
-
-	b.Reserve(1)
-	b.values.Append(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendNull() {
-	b.Reserve(1)
-	b.values.Advance(b.dtype.ByteWidth)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.values.Advance(b.dtype.ByteWidth)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) UnsafeAppend(v []byte) {
-	b.values.unsafeAppend(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *FixedSizeBinaryBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		switch len(vv) {
-		case 0:
-			b.values.Advance(b.dtype.ByteWidth)
-		case b.dtype.ByteWidth:
-			b.values.Append(vv)
-		default:
-			panic(fmt.Errorf("array: invalid binary length (got=%d, want=%d)", len(vv), b.dtype.ByteWidth))
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *FixedSizeBinaryBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.values.resize(capacity * b.dtype.ByteWidth)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *FixedSizeBinaryBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *FixedSizeBinaryBuilder) Resize(n int) {
-	b.builder.resize(n, b.init)
-}
-
-// NewArray creates a FixedSizeBinary array from the memory buffers used by the
-// builder and resets the FixedSizeBinaryBuilder so it can be used to build a new array.
-func (b *FixedSizeBinaryBuilder) NewArray() arrow.Array {
-	return b.NewFixedSizeBinaryArray()
-}
-
-// NewFixedSizeBinaryArray creates a FixedSizeBinary array from the memory buffers used by the builder and resets the FixedSizeBinaryBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeBinaryBuilder) NewFixedSizeBinaryArray() (a *FixedSizeBinary) {
-	data := b.newData()
-	a = NewFixedSizeBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *FixedSizeBinaryBuilder) newData() (data *Data) {
-	values := b.values.Finish()
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, values}, nil, b.nulls, 0)
-
-	if values != nil {
-		values.Release()
-	}
-
-	b.builder.reset()
-
-	return
-}
-
-func (b *FixedSizeBinaryBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	data, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(data)
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	var val []byte
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		val = data
-	case []byte:
-		val = v
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", b.dtype.ByteWidth),
-		}
-	}
-
-	if len(val) != b.dtype.ByteWidth {
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(val),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", b.dtype.ByteWidth),
-		}
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("fixed size binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ Builder = (*FixedSizeBinaryBuilder)(nil)
-)
diff --git a/go/arrow/array/fixedsize_binarybuilder_test.go b/go/arrow/array/fixedsize_binarybuilder_test.go
deleted file mode 100644
index 0c58c65ecb02e..0000000000000
--- a/go/arrow/array/fixedsize_binarybuilder_test.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFixedSizeBinaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := NewFixedSizeBinaryBuilder(mem, &dtype)
-
-	b.Append([]byte("1234567"))
-	b.AppendNull()
-	b.Append([]byte("ABCDEFG"))
-	b.AppendNull()
-
-	assert.Equal(t, 4, b.Len(), "unexpected Len()")
-	assert.Equal(t, 2, b.NullN(), "unexpected NullN()")
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	b.AppendValues(values, []bool{true, false, true})
-
-	assert.Equal(t, 7, b.Len(), "unexpected Len()")
-	assert.Equal(t, 3, b.NullN(), "unexpected NullN()")
-
-	a := b.NewFixedSizeBinaryArray()
-
-	// check state of builder after NewFixedSizeBinaryArray
-	assert.Zero(t, b.Len(), "unexpected ArrayBuilder.Len(), NewFixedSizeBinaryArray did not reset state")
-	assert.Zero(t, b.Cap(), "unexpected ArrayBuilder.Cap(), NewFixedSizeBinaryArray did not reset state")
-	assert.Zero(t, b.NullN(), "unexpected ArrayBuilder.NullN(), NewFixedSizeBinaryArray did not reset state")
-	assert.Equal(t, a.String(), `["1234567" (null) "ABCDEFG" (null) "7654321" (null) "AZERTYU"]`)
-
-	b.Release()
-	a.Release()
-}
-
-func TestFixedSizeBinaryBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	ab := NewFixedSizeBinaryBuilder(mem, &dtype)
-	defer ab.Release()
-
-	want := [][]byte{
-		[]byte("1234567"),
-		[]byte("AZERTYU"),
-		[]byte("7654321"),
-	}
-
-	fixedSizeValues := func(a *FixedSizeBinary) [][]byte {
-		vs := make([][]byte, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([][]byte{}, nil)
-	a := ab.NewFixedSizeBinaryArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([][]byte{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Equal(t, want, fixedSizeValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([][]byte{}, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Equal(t, want, fixedSizeValues(a))
-	a.Release()
-}
diff --git a/go/arrow/array/float16.go b/go/arrow/array/float16.go
deleted file mode 100644
index 757b658a9150d..0000000000000
--- a/go/arrow/array/float16.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of Float16 values.
-type Float16 struct {
-	array
-	values []float16.Num
-}
-
-func NewFloat16Data(data arrow.ArrayData) *Float16 {
-	a := &Float16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Float16) Value(i int) float16.Num { return a.values[i] }
-func (a *Float16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i).String()
-}
-
-func (a *Float16) Values() []float16.Num { return a.values }
-
-func (a *Float16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.values[i].Float32())
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float16) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i].Float32()
-	}
-	return nil
-}
-
-func (a *Float16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		switch {
-		case v.IsNaN():
-			vals[i] = "NaN"
-		case v.IsInf() && !v.Signbit():
-			vals[i] = "+Inf"
-		case v.IsInf() && v.Signbit():
-			vals[i] = "-Inf"
-		default:
-			vals[i] = v.Float32()
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat16(left, right *Float16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Float16)(nil)
-)
diff --git a/go/arrow/array/float16_builder.go b/go/arrow/array/float16_builder.go
deleted file mode 100644
index 7543f2b6f96dd..0000000000000
--- a/go/arrow/array/float16_builder.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Float16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float16.Num
-}
-
-func NewFloat16Builder(mem memory.Allocator) *Float16Builder {
-	return &Float16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float16Builder) Type() arrow.DataType { return arrow.FixedWidthTypes.Float16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float16Builder) Append(v float16.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float16Builder) UnsafeAppend(v float16.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float16Builder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppend(float16.Num{})
-}
-
-func (b *Float16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float16Builder) AppendValues(v []float16.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Float16Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float16Traits.BytesRequired(n))
-		b.rawData = arrow.Float16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Float16 array from the memory buffers used by the builder and resets the Float16Builder
-// so it can be used to build a new array.
-func (b *Float16Builder) NewArray() arrow.Array {
-	return b.NewFloat16Array()
-}
-
-// NewFloat16Array creates a Float16 array from the memory buffers used by the builder and resets the Float16Builder
-// so it can be used to build a new array.
-func (b *Float16Builder) NewFloat16Array() (a *Float16) {
-	data := b.newData()
-	a = NewFloat16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.Float16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 32)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float16.New(float32(v)))
-	return nil
-}
-
-func (b *Float16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		b.Append(float16.New(float32(v)))
-	case string:
-		f, err := strconv.ParseFloat(v, 32)
-		if err != nil {
-			return err
-		}
-		// this will currently silently truncate if it is too large
-		b.Append(float16.New(float32(f)))
-	case json.Number:
-		f, err := v.Float64()
-		if err != nil {
-			return err
-		}
-		b.Append(float16.New(float32(f)))
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float16.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *Float16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add values to this builder from unmarshalling the
-// array of values. Currently values that are larger than a float16 will
-// be silently truncated.
-func (b *Float16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("float16 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
diff --git a/go/arrow/array/float16_builder_test.go b/go/arrow/array/float16_builder_test.go
deleted file mode 100644
index ab25e544ed833..0000000000000
--- a/go/arrow/array/float16_builder_test.go
+++ /dev/null
@@ -1,156 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func float32Values(a *array.Float16) []float32 {
-	values := make([]float32, a.Len())
-	for i, v := range a.Values() {
-		values[i] = v.Float32()
-	}
-	return values
-}
-
-func TestNewFloat16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat16Builder(mem)
-
-	ab.Append(float16.New(1))
-	ab.Append(float16.New(2))
-	ab.Append(float16.New(3))
-	ab.AppendNull()
-	ab.Append(float16.New(5))
-	ab.Append(float16.New(6))
-	ab.AppendNull()
-	ab.Append(float16.New(8))
-	ab.Append(float16.New(9))
-	ab.Append(float16.New(10))
-	assert.NoError(t, ab.AppendValueFromString("11.0"))
-
-	// check state of builder before NewFloat16Array
-	assert.Equal(t, 11, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat16Array()
-	assert.Equal(t, "1", a.ValueStr(0))
-	// check state of builder after NewFloat16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, []float32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10, 11}, float32Values(a), "unexpected Float16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Values(), 11, "unexpected length of Float16Values")
-
-	a.Release()
-	ab.Append(float16.New(7))
-	ab.Append(float16.New(8))
-
-	a = ab.NewFloat16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float32{7, 8}, float32Values(a))
-	assert.Len(t, a.Values(), 2)
-
-	a.Release()
-}
-
-func TestFloat16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat16Builder(mem)
-	defer ab.Release()
-
-	want := []float16.Num{float16.New(3), float16.New(4)}
-
-	ab.AppendValues([]float16.Num{}, nil)
-	a := ab.NewFloat16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]float16.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]float16.Num{}, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestFloat16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat16Builder(mem)
-	defer b.Release()
-
-	b.Append(float16.New(1))
-	b.Append(float16.New(2))
-	b.Append(float16.New(3))
-	b.AppendNull()
-	b.Append(float16.New(5))
-	b.Append(float16.New(6))
-	b.AppendNull()
-	b.Append(float16.New(8))
-	b.Append(float16.New(9))
-	b.Append(float16.New(10))
-
-	arr := b.NewArray().(*array.Float16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/interval.go b/go/arrow/array/interval.go
deleted file mode 100644
index 66c6eca21bca5..0000000000000
--- a/go/arrow/array/interval.go
+++ /dev/null
@@ -1,953 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strconv"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-func NewIntervalData(data arrow.ArrayData) arrow.Array {
-	switch data.DataType().(type) {
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalData(data.(*Data))
-	case *arrow.DayTimeIntervalType:
-		return NewDayTimeIntervalData(data.(*Data))
-	case *arrow.MonthDayNanoIntervalType:
-		return NewMonthDayNanoIntervalData(data.(*Data))
-	default:
-		panic(fmt.Errorf("arrow/array: unknown interval data type %T", data.DataType()))
-	}
-}
-
-// A type which represents an immutable sequence of arrow.MonthInterval values.
-type MonthInterval struct {
-	array
-	values []arrow.MonthInterval
-}
-
-func NewMonthIntervalData(data arrow.ArrayData) *MonthInterval {
-	a := &MonthInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *MonthInterval) Value(i int) arrow.MonthInterval { return a.values[i] }
-func (a *MonthInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return fmt.Sprintf("%v", a.Value(i))
-}
-func (a *MonthInterval) MonthIntervalValues() []arrow.MonthInterval { return a.values }
-
-func (a *MonthInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *MonthInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.MonthIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *MonthInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will create a json array out of a MonthInterval array,
-// each value will be an object of the form {"months": #} where
-// # is the numeric value of that index
-func (a *MonthInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualMonthInterval(left, right *MonthInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type MonthIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.MonthInterval
-}
-
-func NewMonthIntervalBuilder(mem memory.Allocator) *MonthIntervalBuilder {
-	return &MonthIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *MonthIntervalBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.MonthInterval }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *MonthIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *MonthIntervalBuilder) Append(v arrow.MonthInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *MonthIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *MonthIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MonthIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.MonthInterval(0))
-}
-
-func (b *MonthIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *MonthIntervalBuilder) UnsafeAppend(v arrow.MonthInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *MonthIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *MonthIntervalBuilder) AppendValues(v []arrow.MonthInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.MonthIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *MonthIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.MonthIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.MonthIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *MonthIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *MonthIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.MonthIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.MonthIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a MonthInterval array from the memory buffers used by the builder and resets the MonthIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthIntervalBuilder) NewArray() arrow.Array {
-	return b.NewMonthIntervalArray()
-}
-
-// NewMonthIntervalArray creates a MonthInterval array from the memory buffers used by the builder and resets the MonthIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthIntervalBuilder) NewMonthIntervalArray() (a *MonthInterval) {
-	data := b.newData()
-	a = NewMonthIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *MonthIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.MonthIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.MonthInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *MonthIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 32)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.MonthInterval(v))
-	return nil
-}
-
-func (b *MonthIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.MonthInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *MonthIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values of an array to the builder,
-// values are expected to be strings of the form "#months" where # is the int32
-// value that will be added to the builder.
-func (b *MonthIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("month interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A type which represents an immutable sequence of arrow.DayTimeInterval values.
-type DayTimeInterval struct {
-	array
-	values []arrow.DayTimeInterval
-}
-
-func NewDayTimeIntervalData(data arrow.ArrayData) *DayTimeInterval {
-	a := &DayTimeInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *DayTimeInterval) Value(i int) arrow.DayTimeInterval { return a.values[i] }
-func (a *DayTimeInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *DayTimeInterval) DayTimeIntervalValues() []arrow.DayTimeInterval { return a.values }
-
-func (a *DayTimeInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *DayTimeInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.DayTimeIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *DayTimeInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will marshal this array to JSON as an array of objects,
-// consisting of the form {"days": #, "milliseconds": #} for each element.
-func (a *DayTimeInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if a.IsValid(i) {
-			vals[i] = v
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDayTimeInterval(left, right *DayTimeInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type DayTimeIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.DayTimeInterval
-}
-
-func NewDayTimeIntervalBuilder(mem memory.Allocator) *DayTimeIntervalBuilder {
-	return &DayTimeIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *DayTimeIntervalBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.DayTimeInterval }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *DayTimeIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *DayTimeIntervalBuilder) Append(v arrow.DayTimeInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *DayTimeIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *DayTimeIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *DayTimeIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.DayTimeInterval{})
-}
-
-func (b *DayTimeIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *DayTimeIntervalBuilder) UnsafeAppend(v arrow.DayTimeInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *DayTimeIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *DayTimeIntervalBuilder) AppendValues(v []arrow.DayTimeInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.DayTimeIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *DayTimeIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.DayTimeIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.DayTimeIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *DayTimeIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *DayTimeIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.DayTimeIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.DayTimeIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a DayTimeInterval array from the memory buffers used by the builder and resets the DayTimeIntervalBuilder
-// so it can be used to build a new array.
-func (b *DayTimeIntervalBuilder) NewArray() arrow.Array {
-	return b.NewDayTimeIntervalArray()
-}
-
-// NewDayTimeIntervalArray creates a DayTimeInterval array from the memory buffers used by the builder and resets the DayTimeIntervalBuilder
-// so it can be used to build a new array.
-func (b *DayTimeIntervalBuilder) NewDayTimeIntervalArray() (a *DayTimeInterval) {
-	data := b.newData()
-	a = NewDayTimeIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *DayTimeIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.DayTimeIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.DayTimeInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *DayTimeIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	var v arrow.DayTimeInterval
-	if err := json.Unmarshal([]byte(s), &v); err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *DayTimeIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.DayTimeInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *DayTimeIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the values unmarshalled from an array to the builder,
-// with the values expected to be objects of the form {"days": #, "milliseconds": #}
-func (b *DayTimeIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("day_time interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A type which represents an immutable sequence of arrow.DayTimeInterval values.
-type MonthDayNanoInterval struct {
-	array
-	values []arrow.MonthDayNanoInterval
-}
-
-func NewMonthDayNanoIntervalData(data arrow.ArrayData) *MonthDayNanoInterval {
-	a := &MonthDayNanoInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *MonthDayNanoInterval) Value(i int) arrow.MonthDayNanoInterval { return a.values[i] }
-func (a *MonthDayNanoInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *MonthDayNanoInterval) MonthDayNanoIntervalValues() []arrow.MonthDayNanoInterval {
-	return a.values
-}
-
-func (a *MonthDayNanoInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *MonthDayNanoInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.MonthDayNanoIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *MonthDayNanoInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will marshal this array to a JSON array with elements
-// marshalled to the form {"months": #, "days": #, "nanoseconds": #}
-func (a *MonthDayNanoInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if a.IsValid(i) {
-			vals[i] = v
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualMonthDayNanoInterval(left, right *MonthDayNanoInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type MonthDayNanoIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.MonthDayNanoInterval
-}
-
-func NewMonthDayNanoIntervalBuilder(mem memory.Allocator) *MonthDayNanoIntervalBuilder {
-	return &MonthDayNanoIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *MonthDayNanoIntervalBuilder) Type() arrow.DataType {
-	return arrow.FixedWidthTypes.MonthDayNanoInterval
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *MonthDayNanoIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) Append(v arrow.MonthDayNanoInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.MonthDayNanoInterval{})
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnsafeAppend(v arrow.MonthDayNanoInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *MonthDayNanoIntervalBuilder) AppendValues(v []arrow.MonthDayNanoInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.MonthDayNanoIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *MonthDayNanoIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.MonthDayNanoIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.MonthDayNanoIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *MonthDayNanoIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *MonthDayNanoIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.MonthDayNanoIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.MonthDayNanoIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a MonthDayNanoInterval array from the memory buffers used by the builder and resets the MonthDayNanoIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthDayNanoIntervalBuilder) NewArray() arrow.Array {
-	return b.NewMonthDayNanoIntervalArray()
-}
-
-// NewMonthDayNanoIntervalArray creates a MonthDayNanoInterval array from the memory buffers used by the builder and resets the MonthDayNanoIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthDayNanoIntervalBuilder) NewMonthDayNanoIntervalArray() (a *MonthDayNanoInterval) {
-	data := b.newData()
-	a = NewMonthDayNanoIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *MonthDayNanoIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.MonthDayNanoIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.MonthDayNanoInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	var v arrow.MonthDayNanoInterval
-	if err := json.Unmarshal([]byte(s), &v); err != nil {
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.MonthDayNanoInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *MonthDayNanoIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON unmarshals a JSON array of objects and adds them to this builder,
-// each element of the array is expected to be an object of the form
-// {"months": #, "days": #, "nanoseconds": #}
-func (b *MonthDayNanoIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("month_day_nano interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*MonthInterval)(nil)
-	_ arrow.Array = (*DayTimeInterval)(nil)
-	_ arrow.Array = (*MonthDayNanoInterval)(nil)
-
-	_ Builder = (*MonthIntervalBuilder)(nil)
-	_ Builder = (*DayTimeIntervalBuilder)(nil)
-	_ Builder = (*MonthDayNanoIntervalBuilder)(nil)
-)
diff --git a/go/arrow/array/interval_test.go b/go/arrow/array/interval_test.go
deleted file mode 100644
index 6d36885a627d9..0000000000000
--- a/go/arrow/array/interval_test.go
+++ /dev/null
@@ -1,524 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMonthIntervalArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want   = []arrow.MonthInterval{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewMonthIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_MONTHS {
-		t.Fatalf("invalid type: got=%q, want=interval_months", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.MonthInterval); !ok {
-		t.Fatalf("could not type-assert to array.MonthInterval")
-	}
-
-	if got, want := arr.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.MonthInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.MonthInterval")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.MonthInterval{1, 2, 3, 4}
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	miValues := func(a *array.MonthInterval) []arrow.MonthInterval {
-		vs := make([]arrow.MonthInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	arr := b.NewMonthIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Equal(t, want, miValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Equal(t, want, miValues(arr))
-	arr.Release()
-}
-
-func TestMonthIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.MonthInterval{1, 2, 3, 4}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.MonthInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMonthIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.MonthInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDayTimeArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want = []arrow.DayTimeInterval{
-			{Days: 1, Milliseconds: 1}, {Days: 2, Milliseconds: 2},
-			{Days: 3, Milliseconds: 3}, {Days: 4, Milliseconds: 4}}
-		valids = []bool{true, true, false, true}
-	)
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewDayTimeIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_DAY_TIME {
-		t.Fatalf("invalid type: got=%q, want=interval_day_time", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.DayTimeInterval); !ok {
-		t.Fatalf("could not type-assert to array.DayTimeInterval")
-	}
-
-	if got, want := arr.String(), `[{1 1} {2 2} (null) {4 4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.DayTimeInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.DayInterval")
-	}
-
-	if got, want := v.String(), `[(null) {4 4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestDayTimeIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.DayTimeInterval{
-		{Days: 1, Milliseconds: 1}, {Days: 2, Milliseconds: 2},
-		{Days: 3, Milliseconds: 3}, {Days: 4, Milliseconds: 4}}
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	dtValues := func(a *array.DayTimeInterval) []arrow.DayTimeInterval {
-		vs := make([]arrow.DayTimeInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	arr := b.NewDayTimeIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-}
-
-func TestDayTimeIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.DayTimeInterval{
-			{Days: 1, Milliseconds: 1},
-			{Days: 2, Milliseconds: 2},
-			{Days: 3, Milliseconds: 3},
-			{Days: 4, Milliseconds: 4},
-		}
-		valid = []bool{true, true, false, true}
-	)
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.DayTimeInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDayTimeIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.DayTimeInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestMonthDayNanoArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want = []arrow.MonthDayNanoInterval{
-			{Months: 1, Days: 1, Nanoseconds: 1000}, {Months: 2, Days: 2, Nanoseconds: 2000},
-			{Months: 3, Days: 3, Nanoseconds: 3000}, {Months: 4, Days: 4, Nanoseconds: 4000},
-			{Months: 0, Days: 0, Nanoseconds: 0}, {Months: -1, Days: -2, Nanoseconds: -300},
-			{Months: math.MaxInt32, Days: math.MinInt32, Nanoseconds: math.MaxInt64},
-			{Months: math.MinInt32, Days: math.MaxInt32, Nanoseconds: math.MinInt64},
-		}
-		valids = []bool{true, true, false, true, true, true, false, true}
-	)
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-	b.AppendValues(want[4:], valids[4:])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 2; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewMonthDayNanoIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 2; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_MONTH_DAY_NANO {
-		t.Fatalf("invalid type: got=%q, want=interval", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.MonthDayNanoInterval); !ok {
-		t.Fatalf("could not type-assert to array.MonthDayNanoInterval")
-	}
-
-	if got, want := arr.String(), `[{1 1 1000} {2 2 2000} (null) {4 4 4000} {0 0 0} {-1 -2 -300} (null) {-2147483648 2147483647 -9223372036854775808}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.MonthDayNanoInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.MonthDayNanoInterval")
-	}
-
-	if got, want := v.String(), `[(null) {4 4 4000}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthDayNanoIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.MonthDayNanoInterval{
-		{Months: 1, Days: 1, Nanoseconds: 1000},
-		{Months: 2, Days: 2, Nanoseconds: 2000},
-		{Months: 3, Days: 3, Nanoseconds: 3000},
-		{Months: 4, Days: 4, Nanoseconds: 4000}}
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	dtValues := func(a *array.MonthDayNanoInterval) []arrow.MonthDayNanoInterval {
-		vs := make([]arrow.MonthDayNanoInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	arr := b.NewMonthDayNanoIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-}
-
-func TestMonthDayNanoIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.MonthDayNanoInterval{
-			{Months: 1, Days: 1, Nanoseconds: 1000}, {Months: 2, Days: 2, Nanoseconds: 2000},
-			{Months: 3, Days: 3, Nanoseconds: 3000}, {Months: 4, Days: 4, Nanoseconds: 4000},
-			{Months: 0, Days: 0, Nanoseconds: 0}, {Months: -1, Days: -2, Nanoseconds: -300},
-			{Months: math.MaxInt32, Days: math.MinInt32, Nanoseconds: math.MaxInt64},
-			{Months: math.MinInt32, Days: math.MaxInt32, Nanoseconds: math.MinInt64},
-		}
-		valid = []bool{true, true, false, true, true, true, false, true}
-	)
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.MonthDayNanoInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.MonthDayNanoInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/json_reader.go b/go/arrow/array/json_reader.go
deleted file mode 100644
index 2944151a5f63c..0000000000000
--- a/go/arrow/array/json_reader.go
+++ /dev/null
@@ -1,205 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Option func(config)
-type config interface{}
-
-// WithChunk sets the chunk size for reading in json records. The default is to
-// read in one row per record batch as a single object. If chunk size is set to
-// a negative value, then the entire file is read as a single record batch.
-// Otherwise a record batch is read in with chunk size rows per record batch until
-// it reaches EOF.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *JSONReader:
-			cfg.chunk = n
-		default:
-			panic(fmt.Errorf("arrow/json): unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithAllocator specifies the allocator to use for creating the record batches,
-// if it is not called, then memory.DefaultAllocator will be used.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *JSONReader:
-			cfg.mem = mem
-		default:
-			panic(fmt.Errorf("arrow/json): unknown config type %T", cfg))
-		}
-	}
-}
-
-// JSONReader is a json reader that meets the RecordReader interface definition.
-//
-// To read in an array of objects as a record, you can use RecordFromJSON
-// which is equivalent to reading the json as a struct array whose fields are
-// the columns of the record. This primarily exists to fit the RecordReader
-// interface as a matching reader for the csv reader.
-type JSONReader struct {
-	r      *json.Decoder
-	schema *arrow.Schema
-
-	bldr *RecordBuilder
-
-	refs int64
-	cur  arrow.Record
-	err  error
-
-	chunk int
-	done  bool
-
-	mem  memory.Allocator
-	next func() bool
-}
-
-// NewJSONReader returns a json RecordReader which expects to find one json object
-// per row of dataset. Using WithChunk can control how many rows are processed
-// per record, which is how many objects become a single record from the file.
-//
-// If it is desired to write out an array of rows, then simply use RecordToStructArray
-// and json.Marshal the struct array for the same effect.
-func NewJSONReader(r io.Reader, schema *arrow.Schema, opts ...Option) *JSONReader {
-	rr := &JSONReader{
-		r:      json.NewDecoder(r),
-		schema: schema,
-		refs:   1,
-		chunk:  1,
-	}
-	for _, o := range opts {
-		o(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	rr.bldr = NewRecordBuilder(rr.mem, schema)
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-	return rr
-}
-
-// Err returns the last encountered error
-func (r *JSONReader) Err() error { return r.err }
-
-func (r *JSONReader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the last read in record. The returned record is only valid
-// until the next call to Next unless Retain is called on the record itself.
-func (r *JSONReader) Record() arrow.Record { return r.cur }
-
-func (r *JSONReader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-func (r *JSONReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-			r.bldr.Release()
-			r.r = nil
-		}
-	}
-}
-
-// Next returns true if it read in a record, which will be available via Record
-// and false if there is either an error or the end of the reader.
-func (r *JSONReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *JSONReader) readNext() bool {
-	r.err = r.r.Decode(r.bldr)
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-	return true
-}
-
-func (r *JSONReader) nextall() bool {
-	for r.readNext() {
-	}
-
-	r.cur = r.bldr.NewRecord()
-	return r.cur.NumRows() > 0
-}
-
-func (r *JSONReader) next1() bool {
-	if !r.readNext() {
-		return false
-	}
-
-	r.cur = r.bldr.NewRecord()
-	return true
-}
-
-func (r *JSONReader) nextn() bool {
-	var n = 0
-
-	for i := 0; i < r.chunk && !r.done; i, n = i+1, n+1 {
-		if !r.readNext() {
-			break
-		}
-	}
-
-	if n > 0 {
-		r.cur = r.bldr.NewRecord()
-	}
-	return n > 0
-}
-
-var (
-	_ RecordReader = (*JSONReader)(nil)
-)
diff --git a/go/arrow/array/json_reader_test.go b/go/arrow/array/json_reader_test.go
deleted file mode 100644
index 5e258dfdc07b1..0000000000000
--- a/go/arrow/array/json_reader_test.go
+++ /dev/null
@@ -1,141 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-const jsondata = `
-	{"region": "NY", "model": "3", "sales": 742.0}
-	{"region": "NY", "model": "S", "sales": 304.125}
-	{"region": "NY", "model": "X", "sales": 136.25}
-	{"region": "NY", "model": "Y", "sales": 27.5}
-	{"region": "CA", "model": "3", "sales": 512}
-	{"region": "CA", "model": "S", "sales": 978}
-	{"region": "CA", "model": "X", "sales": 1.0}
-	{"region": "CA", "model": "Y", "sales": 69}
-	{"region": "QC", "model": "3", "sales": 273.5}
-	{"region": "QC", "model": "S", "sales": 13}
-	{"region": "QC", "model": "X", "sales": 54}
-	{"region": "QC", "model": "Y", "sales": 21}
-	{"region": "QC", "model": "3", "sales": 152.25}
-	{"region": "QC", "model": "S", "sales": 10}
-	{"region": "QC", "model": "X", "sales": 42}
-	{"region": "QC", "model": "Y", "sales": 37}`
-
-func TestJSONReader(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema)
-	defer rdr.Release()
-
-	n := 0
-	for rdr.Next() {
-		n++
-		rec := rdr.Record()
-		assert.NotNil(t, rec)
-		assert.EqualValues(t, 1, rec.NumRows())
-		assert.EqualValues(t, 3, rec.NumCols())
-	}
-
-	assert.NoError(t, rdr.Err())
-	assert.Equal(t, 16, n)
-}
-
-func TestJSONReaderAll(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema, array.WithAllocator(mem), array.WithChunk(-1))
-	defer rdr.Release()
-
-	assert.True(t, rdr.Next())
-	rec := rdr.Record()
-	assert.NotNil(t, rec)
-	assert.NoError(t, rdr.Err())
-
-	assert.EqualValues(t, 16, rec.NumRows())
-	assert.EqualValues(t, 3, rec.NumCols())
-	assert.False(t, rdr.Next())
-}
-
-func TestJSONReaderChunked(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema, array.WithAllocator(mem), array.WithChunk(4))
-	defer rdr.Release()
-
-	n := 0
-	for rdr.Next() {
-		n++
-		rec := rdr.Record()
-		assert.NotNil(t, rec)
-		assert.NoError(t, rdr.Err())
-		assert.EqualValues(t, 4, rec.NumRows())
-	}
-
-	assert.Equal(t, 4, n)
-	assert.NoError(t, rdr.Err())
-}
-
-func TestUnmarshalJSON(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-	defer recordBuilder.Release()
-
-	jsondata := `{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234}`
-
-	err := recordBuilder.UnmarshalJSON([]byte(jsondata))
-	assert.NoError(t, err)
-
-	record := recordBuilder.NewRecord()
-	defer record.Release()
-
-	assert.NotNil(t, record)
-}
diff --git a/go/arrow/array/list.go b/go/arrow/array/list.go
deleted file mode 100644
index 1e2191f2cfc3a..0000000000000
--- a/go/arrow/array/list.go
+++ /dev/null
@@ -1,1574 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type ListLike interface {
-	arrow.Array
-	ListValues() arrow.Array
-	ValueOffsets(i int) (start, end int64)
-}
-
-type VarLenListLike interface {
-	ListLike
-}
-
-// List represents an immutable sequence of array values.
-type List struct {
-	array
-	values  arrow.Array
-	offsets []int32
-}
-
-var _ ListLike = (*List)(nil)
-
-// NewListData returns a new List array value, from data.
-func NewListData(data arrow.ArrayData) *List {
-	a := &List{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *List) ListValues() arrow.Array { return a.values }
-
-func (a *List) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *List) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *List) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *List) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 2, "list data should have 2 buffers")
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *List) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *List) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualList(left, right *List) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *List) Len() int { return a.array.Len() }
-
-func (a *List) Offsets() []int32 { return a.offsets }
-
-func (a *List) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *List) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *List) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	start, end = int64(a.offsets[j]), int64(a.offsets[j+1])
-	return
-}
-
-// LargeList represents an immutable sequence of array values.
-type LargeList struct {
-	array
-	values  arrow.Array
-	offsets []int64
-}
-
-var _ ListLike = (*LargeList)(nil)
-
-// NewLargeListData returns a new LargeList array value, from data.
-func NewLargeListData(data arrow.ArrayData) *LargeList {
-	a := new(LargeList)
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeList) ListValues() arrow.Array { return a.values }
-
-func (a *LargeList) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *LargeList) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeList) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *LargeList) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 2, "list data should have 2 buffers")
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *LargeList) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *LargeList) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualLargeList(left, right *LargeList) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *LargeList) Len() int { return a.array.Len() }
-
-func (a *LargeList) Offsets() []int64 { return a.offsets }
-
-func (a *LargeList) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	start, end = a.offsets[j], a.offsets[j+1]
-	return
-}
-
-func (a *LargeList) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *LargeList) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-type baseListBuilder struct {
-	builder
-
-	values  Builder // value builder for the list's elements.
-	offsets Builder
-
-	// actual list type
-	dt              arrow.DataType
-	appendOffsetVal func(int)
-}
-
-type ListLikeBuilder interface {
-	Builder
-	ValueBuilder() Builder
-	Append(bool)
-}
-
-type VarLenListLikeBuilder interface {
-	ListLikeBuilder
-	AppendWithSize(bool, int)
-}
-
-type ListBuilder struct {
-	baseListBuilder
-}
-
-type LargeListBuilder struct {
-	baseListBuilder
-}
-
-// NewListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewListBuilder(mem memory.Allocator, etype arrow.DataType) *ListBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	return &ListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			dt:              arrow.ListOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-		},
-	}
-}
-
-// NewListBuilderWithField takes a field to use for the child rather than just
-// a datatype to allow for more customization.
-func NewListBuilderWithField(mem memory.Allocator, field arrow.Field) *ListBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	return &ListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			dt:              arrow.ListOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-		},
-	}
-}
-
-func (b *baseListBuilder) Type() arrow.DataType {
-	switch dt := b.dt.(type) {
-	case *arrow.ListType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.ListOfField(f)
-	case *arrow.LargeListType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.LargeListOfField(f)
-	}
-	return nil
-}
-
-// NewLargeListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewLargeListBuilder(mem memory.Allocator, etype arrow.DataType) *LargeListBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	return &LargeListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			dt:              arrow.LargeListOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// NewLargeListBuilderWithField takes a field rather than just an element type
-// to allow for more customization of the final type of the LargeList Array
-func NewLargeListBuilderWithField(mem memory.Allocator, field arrow.Field) *LargeListBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	return &LargeListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			dt:              arrow.LargeListOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *baseListBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		b.values.Release()
-		b.offsets.Release()
-	}
-
-}
-
-func (b *baseListBuilder) appendNextOffset() {
-	b.appendOffsetVal(b.values.Len())
-}
-
-func (b *baseListBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-	b.appendNextOffset()
-}
-
-func (b *baseListBuilder) AppendWithSize(v bool, _ int) {
-	b.Append(v)
-}
-
-func (b *baseListBuilder) AppendNull() {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(false)
-	b.appendNextOffset()
-}
-
-func (b *baseListBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *baseListBuilder) AppendEmptyValue() {
-	b.Append(true)
-}
-
-func (b *baseListBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *ListBuilder) AppendValues(offsets []int32, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int32Builder).AppendValues(offsets, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *LargeListBuilder) AppendValues(offsets []int64, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int64Builder).AppendValues(offsets, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *baseListBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *baseListBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.init(capacity + 1)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *baseListBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	b.offsets.Reserve(n)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *baseListBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	b.offsets.Resize(n)
-}
-
-func (b *baseListBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *baseListBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a List array from the memory buffers used by the builder and resets the ListBuilder
-// so it can be used to build a new array.
-func (b *ListBuilder) NewArray() arrow.Array {
-	return b.NewListArray()
-}
-
-// NewArray creates a LargeList array from the memory buffers used by the builder and resets the LargeListBuilder
-// so it can be used to build a new array.
-func (b *LargeListBuilder) NewArray() arrow.Array {
-	return b.NewLargeListArray()
-}
-
-// NewListArray creates a List array from the memory buffers used by the builder and resets the ListBuilder
-// so it can be used to build a new array.
-func (b *ListBuilder) NewListArray() (a *List) {
-	data := b.newData()
-	a = NewListData(data)
-	data.Release()
-	return
-}
-
-// NewLargeListArray creates a List array from the memory buffers used by the builder and resets the LargeListBuilder
-// so it can be used to build a new array.
-func (b *LargeListBuilder) NewLargeListArray() (a *LargeList) {
-	data := b.newData()
-	a = NewLargeListData(data)
-	data.Release()
-	return
-}
-
-func (b *baseListBuilder) newData() (data *Data) {
-	if b.offsets.Len() != b.length+1 {
-		b.appendNextOffset()
-	}
-	values := b.values.NewArray()
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if b.offsets != nil {
-		arr := b.offsets.NewArray()
-		defer arr.Release()
-		offsets = arr.Data().Buffers()[1]
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-			offsets,
-		},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *baseListBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.UnmarshalOne(json.NewDecoder(strings.NewReader(s)))
-}
-
-func (b *baseListBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		b.Append(true)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *baseListBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *baseListBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// ListView represents an immutable sequence of array values defined by an
-// offset into a child array and a length.
-type ListView struct {
-	array
-	values  arrow.Array
-	offsets []int32
-	sizes   []int32
-}
-
-var _ VarLenListLike = (*ListView)(nil)
-
-func NewListViewData(data arrow.ArrayData) *ListView {
-	a := &ListView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *ListView) ListValues() arrow.Array { return a.values }
-
-func (a *ListView) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *ListView) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *ListView) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *ListView) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 3, "list-view data should have 3 buffers")
-	a.array.setData(data)
-	offsets := data.buffers[1]
-	if offsets != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-	}
-	sizes := data.buffers[2]
-	if sizes != nil {
-		a.sizes = arrow.Int32Traits.CastFromBytes(sizes.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *ListView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *ListView) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualListView(left, right *ListView) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *ListView) Len() int { return a.array.Len() }
-
-func (a *ListView) Offsets() []int32 { return a.offsets }
-
-func (a *ListView) Sizes() []int32 { return a.sizes }
-
-func (a *ListView) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *ListView) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *ListView) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	size := int64(a.sizes[j])
-	// If size is 0, skip accessing offsets.
-	if size == 0 {
-		start, end = 0, 0
-		return
-	}
-	start = int64(a.offsets[j])
-	end = start + size
-	return
-}
-
-// LargeListView represents an immutable sequence of array values defined by an
-// offset into a child array and a length.
-type LargeListView struct {
-	array
-	values  arrow.Array
-	offsets []int64
-	sizes   []int64
-}
-
-var _ VarLenListLike = (*LargeListView)(nil)
-
-// NewLargeListViewData returns a new LargeListView array value, from data.
-func NewLargeListViewData(data arrow.ArrayData) *LargeListView {
-	a := new(LargeListView)
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeListView) ListValues() arrow.Array { return a.values }
-
-func (a *LargeListView) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *LargeListView) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeListView) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *LargeListView) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 3, "list-view data should have 3 buffers")
-	a.array.setData(data)
-	offsets := data.buffers[1]
-	if offsets != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-	}
-	sizes := data.buffers[2]
-	if sizes != nil {
-		a.sizes = arrow.Int64Traits.CastFromBytes(sizes.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *LargeListView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *LargeListView) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualLargeListView(left, right *LargeListView) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *LargeListView) Len() int { return a.array.Len() }
-
-func (a *LargeListView) Offsets() []int64 { return a.offsets }
-
-func (a *LargeListView) Sizes() []int64 { return a.sizes }
-
-func (a *LargeListView) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	size := a.sizes[j]
-	// If size is 0, skip accessing offsets.
-	if size == 0 {
-		return 0, 0
-	}
-	start = a.offsets[j]
-	end = start + size
-	return
-}
-
-func (a *LargeListView) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *LargeListView) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-// Accessors for offsets and sizes to make ListView and LargeListView validation generic.
-type offsetsAndSizes interface {
-	offsetAt(slot int64) int64
-	sizeAt(slot int64) int64
-}
-
-var _ offsetsAndSizes = (*ListView)(nil)
-var _ offsetsAndSizes = (*LargeListView)(nil)
-
-func (a *ListView) offsetAt(slot int64) int64 { return int64(a.offsets[int64(a.data.offset)+slot]) }
-
-func (a *ListView) sizeAt(slot int64) int64 { return int64(a.sizes[int64(a.data.offset)+slot]) }
-
-func (a *LargeListView) offsetAt(slot int64) int64 { return a.offsets[int64(a.data.offset)+slot] }
-
-func (a *LargeListView) sizeAt(slot int64) int64 { return a.sizes[int64(a.data.offset)+slot] }
-
-func outOfBoundsListViewOffset(l offsetsAndSizes, slot int64, offsetLimit int64) error {
-	offset := l.offsetAt(slot)
-	return fmt.Errorf("%w: Offset invariant failure: offset for slot %d out of bounds. Expected %d to be at least 0 and less than %d", arrow.ErrInvalid, slot, offset, offsetLimit)
-}
-
-func outOfBoundsListViewSize(l offsetsAndSizes, slot int64, offsetLimit int64) error {
-	size := l.sizeAt(slot)
-	if size < 0 {
-		return fmt.Errorf("%w: Offset invariant failure: size for slot %d out of bounds: %d < 0", arrow.ErrInvalid, slot, size)
-	}
-	offset := l.offsetAt(slot)
-	return fmt.Errorf("%w: Offset invariant failure: size for slot %d out of bounds: %d + %d > %d", arrow.ErrInvalid, slot, offset, size, offsetLimit)
-}
-
-// Pre-condition: Basic validation has already been performed
-func (a *array) fullyValidateOffsetsAndSizes(l offsetsAndSizes, offsetLimit int64) error {
-	for slot := int64(0); slot < int64(a.Len()); slot += 1 {
-		size := l.sizeAt(slot)
-		if size > 0 {
-			offset := l.offsetAt(slot)
-			if offset < 0 || offset > offsetLimit {
-				return outOfBoundsListViewOffset(l, slot, offsetLimit)
-			}
-			if size > offsetLimit-int64(offset) {
-				return outOfBoundsListViewSize(l, slot, offsetLimit)
-			}
-		} else if size < 0 {
-			return outOfBoundsListViewSize(l, slot, offsetLimit)
-		}
-	}
-
-	return nil
-}
-
-func (a *array) validateOffsetsAndMaybeSizes(l offsetsAndSizes, offsetByteWidth int, isListView bool, offsetLimit int64, fullValidation bool) error {
-	nonEmpty := a.Len() > 0
-	if a.data.buffers[1] == nil {
-		// For length 0, an empty offsets buffer is accepted (ARROW-544).
-		if nonEmpty {
-			return fmt.Errorf("non-empty array but offsets are null")
-		}
-		return nil
-	}
-	if isListView && a.data.buffers[2] == nil {
-		if nonEmpty {
-			return fmt.Errorf("non-empty array but sizes are null")
-		}
-		return nil
-	}
-
-	var requiredOffsets int
-	if nonEmpty {
-		requiredOffsets = a.Len() + a.Offset()
-		if !isListView {
-			requiredOffsets += 1
-		}
-	} else {
-		requiredOffsets = 0
-	}
-	offsetsByteSize := a.data.buffers[1].Len()
-	if offsetsByteSize/offsetByteWidth < requiredOffsets {
-		return fmt.Errorf("offsets buffer size (bytes): %d isn't large enough for length: %d and offset: %d",
-			offsetsByteSize, a.Len(), a.Offset())
-	}
-	if isListView {
-		requiredSizes := a.Len() + a.Offset()
-		sizesBytesSize := a.data.buffers[2].Len()
-		if sizesBytesSize/offsetByteWidth < requiredSizes {
-			return fmt.Errorf("sizes buffer size (bytes): %d isn't large enough for length: %d and offset: %d",
-				sizesBytesSize, a.Len(), a.Offset())
-		}
-	}
-
-	if fullValidation && requiredOffsets > 0 {
-		if isListView {
-			return a.fullyValidateOffsetsAndSizes(l, offsetLimit)
-		}
-		// TODO: implement validation of List and LargeList
-		// return fullyValidateOffsets(offset_limit)
-		return nil
-	}
-	return nil
-}
-
-func (a *ListView) validate(fullValidation bool) error {
-	values := a.array.data.childData[0]
-	offsetLimit := values.Len()
-	return a.array.validateOffsetsAndMaybeSizes(a, 4, true, int64(offsetLimit), fullValidation)
-}
-
-func (a *ListView) Validate() error {
-	return a.validate(false)
-}
-
-func (a *ListView) ValidateFull() error {
-	return a.validate(true)
-}
-
-func (a *LargeListView) validate(fullValidation bool) error {
-	values := a.array.data.childData[0]
-	offsetLimit := values.Len()
-	return a.array.validateOffsetsAndMaybeSizes(a, 8, true, int64(offsetLimit), fullValidation)
-}
-
-func (a *LargeListView) Validate() error {
-	return a.validate(false)
-}
-
-func (a *LargeListView) ValidateFull() error {
-	return a.validate(true)
-}
-
-type baseListViewBuilder struct {
-	builder
-
-	values  Builder // value builder for the list-view's elements.
-	offsets Builder
-	sizes   Builder
-
-	// actual list-view type
-	dt              arrow.DataType
-	appendOffsetVal func(int)
-	appendSizeVal   func(int)
-}
-
-type ListViewBuilder struct {
-	baseListViewBuilder
-}
-
-type LargeListViewBuilder struct {
-	baseListViewBuilder
-}
-
-// NewListViewBuilder returns a builder, using the provided memory allocator.
-// The created list-view builder will create a list whose elements will be
-// of type etype.
-func NewListViewBuilder(mem memory.Allocator, etype arrow.DataType) *ListViewBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	sizeBldr := NewInt32Builder(mem)
-	return &ListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.ListViewOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int32(s)) },
-		},
-	}
-}
-
-// NewListViewBuilderWithField takes a field to use for the child rather than just
-// a datatype to allow for more customization.
-func NewListViewBuilderWithField(mem memory.Allocator, field arrow.Field) *ListViewBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	sizeBldr := NewInt32Builder(mem)
-	return &ListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.ListViewOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int32(s)) },
-		},
-	}
-}
-
-func (b *baseListViewBuilder) Type() arrow.DataType {
-	switch dt := b.dt.(type) {
-	case *arrow.ListViewType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.ListViewOfField(f)
-	case *arrow.LargeListViewType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.LargeListViewOfField(f)
-	}
-	return nil
-}
-
-// NewLargeListViewBuilder returns a builder, using the provided memory allocator.
-// The created list-view builder will create a list whose elements will be of type etype.
-func NewLargeListViewBuilder(mem memory.Allocator, etype arrow.DataType) *LargeListViewBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	sizeBldr := NewInt64Builder(mem)
-	return &LargeListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.LargeListViewOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int64(s)) },
-		},
-	}
-}
-
-// NewLargeListViewBuilderWithField takes a field rather than just an element type
-// to allow for more customization of the final type of the LargeListView Array
-func NewLargeListViewBuilderWithField(mem memory.Allocator, field arrow.Field) *LargeListViewBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	sizeBldr := NewInt64Builder(mem)
-	return &LargeListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.LargeListViewOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-			appendSizeVal:   func(o int) { sizeBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *baseListViewBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		b.values.Release()
-		b.offsets.Release()
-		b.sizes.Release()
-	}
-}
-
-func (b *baseListViewBuilder) AppendDimensions(offset int, listSize int) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(true)
-	b.appendOffsetVal(offset)
-	b.appendSizeVal(listSize)
-}
-
-func (b *baseListViewBuilder) Append(v bool) {
-	debug.Assert(false, "baseListViewBuilder.Append should never be called -- use AppendWithSize instead")
-}
-
-func (b *baseListViewBuilder) AppendWithSize(v bool, listSize int) {
-	debug.Assert(v || listSize == 0, "invalid list-view should have size 0")
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-	b.appendOffsetVal(b.values.Len())
-	b.appendSizeVal(listSize)
-}
-
-func (b *baseListViewBuilder) AppendNull() {
-	b.AppendWithSize(false, 0)
-}
-
-func (b *baseListViewBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *baseListViewBuilder) AppendEmptyValue() {
-	b.AppendWithSize(true, 0)
-}
-
-func (b *baseListViewBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *ListViewBuilder) AppendValuesWithSizes(offsets []int32, sizes []int32, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int32Builder).AppendValues(offsets, nil)
-	b.sizes.(*Int32Builder).AppendValues(sizes, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *LargeListViewBuilder) AppendValuesWithSizes(offsets []int64, sizes []int64, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int64Builder).AppendValues(offsets, nil)
-	b.sizes.(*Int64Builder).AppendValues(sizes, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *baseListViewBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *baseListViewBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.init(capacity)
-	b.sizes.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *baseListViewBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	b.offsets.Reserve(n)
-	b.sizes.Reserve(n)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *baseListViewBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	b.offsets.Resize(n)
-	b.sizes.Resize(n)
-}
-
-func (b *baseListViewBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *baseListViewBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a ListView array from the memory buffers used by the builder and
-// resets the ListViewBuilder so it can be used to build a new array.
-func (b *ListViewBuilder) NewArray() arrow.Array {
-	return b.NewListViewArray()
-}
-
-// NewArray creates a LargeListView array from the memory buffers used by the builder
-// and resets the LargeListViewBuilder so it can be used to build a new array.
-func (b *LargeListViewBuilder) NewArray() arrow.Array {
-	return b.NewLargeListViewArray()
-}
-
-// NewListViewArray creates a ListView array from the memory buffers used by the builder
-// and resets the ListViewBuilder so it can be used to build a new array.
-func (b *ListViewBuilder) NewListViewArray() (a *ListView) {
-	data := b.newData()
-	a = NewListViewData(data)
-	data.Release()
-	return
-}
-
-// NewLargeListViewArray creates a ListView array from the memory buffers used by the
-// builder and resets the LargeListViewBuilder so it can be used to build a new array.
-func (b *LargeListViewBuilder) NewLargeListViewArray() (a *LargeListView) {
-	data := b.newData()
-	a = NewLargeListViewData(data)
-	data.Release()
-	return
-}
-
-func (b *baseListViewBuilder) newData() (data *Data) {
-	values := b.values.NewArray()
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if b.offsets != nil {
-		arr := b.offsets.NewArray()
-		defer arr.Release()
-		offsets = arr.Data().Buffers()[1]
-	}
-
-	var sizes *memory.Buffer
-	if b.sizes != nil {
-		arr := b.sizes.NewArray()
-		defer arr.Release()
-		sizes = arr.Data().Buffers()[1]
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-			offsets,
-			sizes,
-		},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *baseListViewBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.UnmarshalOne(json.NewDecoder(strings.NewReader(s)))
-}
-
-func (b *baseListViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		offset := b.values.Len()
-		// 0 is a placeholder size as we don't know the actual size yet
-		b.AppendWithSize(true, 0)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		// replace the last size with the actual size
-		switch b.sizes.(type) {
-		case *Int32Builder:
-			b.sizes.(*Int32Builder).rawData[b.sizes.Len()-1] = int32(b.values.Len() - offset)
-		case *Int64Builder:
-			b.sizes.(*Int64Builder).rawData[b.sizes.Len()-1] = int64(b.values.Len() - offset)
-		}
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *baseListViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *baseListViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list-view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// Find the minimum offset+size in a LIST_VIEW/LARGE_LIST_VIEW array.
-//
-// Pre-conditions:
-//
-//	input.DataType() is ListViewType if Offset=int32 or LargeListViewType if Offset=int64
-//	input.Len() > 0 && input.NullN() != input.Len()
-func minListViewOffset[Offset int32 | int64](input arrow.ArrayData) Offset {
-	var bitmap []byte
-	if input.Buffers()[0] != nil {
-		bitmap = input.Buffers()[0].Bytes()
-	}
-	offsets := arrow.GetData[Offset](input.Buffers()[1].Bytes())[input.Offset():]
-	sizes := arrow.GetData[Offset](input.Buffers()[2].Bytes())[input.Offset():]
-
-	isNull := func(i int) bool {
-		return bitmap != nil && bitutil.BitIsNotSet(bitmap, input.Offset()+i)
-	}
-
-	// It's very likely that the first non-null non-empty list-view starts at
-	// offset 0 of the child array.
-	i := 0
-	for i < input.Len() && (isNull(i) || sizes[i] == 0) {
-		i += 1
-	}
-	if i >= input.Len() {
-		return 0
-	}
-	minOffset := offsets[i]
-	if minOffset == 0 {
-		// early exit: offset 0 found already
-		return 0
-	}
-
-	// Slow path: scan the buffers entirely.
-	i += 1
-	for ; i < input.Len(); i += 1 {
-		if isNull(i) {
-			continue
-		}
-		offset := offsets[i]
-		if offset < minOffset && sizes[i] > 0 {
-			minOffset = offset
-		}
-	}
-	return minOffset
-}
-
-// Find the maximum offset+size in a LIST_VIEW/LARGE_LIST_VIEW array.
-//
-// Pre-conditions:
-//
-//	input.DataType() is ListViewType if Offset=int32 or LargeListViewType if Offset=int64
-//	input.Len() > 0 && input.NullN() != input.Len()
-func maxListViewEnd[Offset int32 | int64](input arrow.ArrayData) Offset {
-	inputOffset := input.Offset()
-	var bitmap []byte
-	if input.Buffers()[0] != nil {
-		bitmap = input.Buffers()[0].Bytes()
-	}
-	offsets := arrow.GetData[Offset](input.Buffers()[1].Bytes())[inputOffset:]
-	sizes := arrow.GetData[Offset](input.Buffers()[2].Bytes())[inputOffset:]
-
-	isNull := func(i int) bool {
-		return bitmap != nil && bitutil.BitIsNotSet(bitmap, inputOffset+i)
-	}
-
-	i := input.Len() - 1 // safe because input.Len() > 0
-	for i != 0 && (isNull(i) || sizes[i] == 0) {
-		i -= 1
-	}
-	offset := offsets[i]
-	size := sizes[i]
-	if i == 0 {
-		if isNull(i) || sizes[i] == 0 {
-			return 0
-		} else {
-			return offset + size
-		}
-	}
-
-	values := input.Children()[0]
-	maxEnd := offsets[i] + sizes[i]
-	if maxEnd == Offset(values.Len()) {
-		// Early-exit: maximum possible view-end found already.
-		return maxEnd
-	}
-
-	// Slow path: scan the buffers entirely.
-	for ; i >= 0; i -= 1 {
-		offset := offsets[i]
-		size := sizes[i]
-		if size > 0 && !isNull(i) {
-			if offset+size > maxEnd {
-				maxEnd = offset + size
-				if maxEnd == Offset(values.Len()) {
-					return maxEnd
-				}
-			}
-		}
-	}
-	return maxEnd
-}
-
-func rangeOfValuesUsed(input arrow.ArrayData) (int, int) {
-	if input.Len() == 0 || input.NullN() == input.Len() {
-		return 0, 0
-	}
-	var minOffset, maxEnd int
-	switch input.DataType().(type) {
-	case *arrow.ListViewType:
-		minOffset = int(minListViewOffset[int32](input))
-		maxEnd = int(maxListViewEnd[int32](input))
-	case *arrow.LargeListViewType:
-		minOffset = int(minListViewOffset[int64](input))
-		maxEnd = int(maxListViewEnd[int64](input))
-	case *arrow.ListType:
-		offsets := arrow.Int32Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	case *arrow.LargeListType:
-		offsets := arrow.Int64Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	case *arrow.MapType:
-		offsets := arrow.Int32Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	}
-	return minOffset, maxEnd - minOffset
-}
-
-// Returns the smallest contiguous range of values of the child array that are
-// referenced by all the list values in the input array.
-func RangeOfValuesUsed(input VarLenListLike) (int, int) {
-	return rangeOfValuesUsed(input.Data())
-}
-
-var (
-	_ arrow.Array = (*List)(nil)
-	_ arrow.Array = (*LargeList)(nil)
-	_ arrow.Array = (*ListView)(nil)
-	_ arrow.Array = (*LargeListView)(nil)
-
-	_ Builder = (*ListBuilder)(nil)
-	_ Builder = (*LargeListBuilder)(nil)
-	_ Builder = (*ListViewBuilder)(nil)
-	_ Builder = (*LargeListViewBuilder)(nil)
-
-	_ VarLenListLike = (*List)(nil)
-	_ VarLenListLike = (*LargeList)(nil)
-	_ VarLenListLike = (*Map)(nil)
-	_ VarLenListLike = (*ListView)(nil)
-	_ VarLenListLike = (*LargeListView)(nil)
-	_ ListLike       = (*FixedSizeList)(nil)
-
-	_ VarLenListLikeBuilder = (*ListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*LargeListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*ListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*LargeListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*MapBuilder)(nil)
-	_ ListLikeBuilder       = (*FixedSizeListBuilder)(nil)
-)
diff --git a/go/arrow/array/list_test.go b/go/arrow/array/list_test.go
deleted file mode 100644
index f6f42a31299e4..0000000000000
--- a/go/arrow/array/list_test.go
+++ /dev/null
@@ -1,864 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListArray(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-
-			for i := 0; i < 10; i++ {
-				vb := lb.ValueBuilder().(*array.Int32Builder)
-				vb.Reserve(len(vs))
-
-				pos := 0
-				for i, length := range lengths {
-					lb.AppendWithSize(isValid[i], length)
-					for j := 0; j < length; j++ {
-						vb.Append(vs[pos])
-						pos++
-					}
-				}
-
-				arr := lb.NewArray().(array.ListLike)
-				defer arr.Release()
-
-				arr.Retain()
-				arr.Release()
-
-				if got, want := arr.DataType().ID(), tt.typeID; got != want {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-
-				if got, want := arr.Len(), len(isValid); got != want {
-					t.Fatalf("got=%d, want=%d", got, want)
-				}
-
-				for i := range lengths {
-					if got, want := arr.IsValid(i), isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-					if got, want := arr.IsNull(i), !isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-				}
-
-				var gotOffsets, gotSizes interface{}
-				switch tt.typeID {
-				case arrow.LIST:
-					arr := arr.(*array.List)
-					gotOffsets = arr.Offsets()
-				case arrow.LARGE_LIST:
-					arr := arr.(*array.LargeList)
-					gotOffsets = arr.Offsets()
-				case arrow.LIST_VIEW:
-					arr := arr.(*array.ListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				case arrow.LARGE_LIST_VIEW:
-					arr := arr.(*array.LargeListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				}
-
-				if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-					t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-				}
-
-				if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-					if !reflect.DeepEqual(gotSizes, tt.sizes) {
-						t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-					}
-				}
-
-				varr := arr.ListValues().(*array.Int32)
-				if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-			}
-		})
-	}
-}
-
-// Like the list-view tests in TestListArray, but with out-of-order offsets.
-func TestListViewArray(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-
-			for i := 0; i < 10; i++ {
-				switch lvb := lb.(type) {
-				case *array.ListViewBuilder:
-					lvb.AppendDimensions(5, 3)
-					lb.AppendNull()
-					lvb.AppendDimensions(0, 0)
-					lvb.AppendDimensions(1, 4)
-				case *array.LargeListViewBuilder:
-					lvb.AppendDimensions(5, 3)
-					lb.AppendNull()
-					lvb.AppendDimensions(0, 0)
-					lvb.AppendDimensions(1, 4)
-				}
-
-				vb := lb.ValueBuilder().(*array.Int32Builder)
-				vb.Reserve(len(vs))
-				vb.AppendValues(vs, []bool{false, true, true, true, true, true, true, true})
-
-				arr := lb.NewArray().(array.ListLike)
-				defer arr.Release()
-
-				arr.Retain()
-				arr.Release()
-
-				if got, want := arr.DataType().ID(), tt.typeID; got != want {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-
-				if got, want := arr.Len(), len(isValid); got != want {
-					t.Fatalf("got=%d, want=%d", got, want)
-				}
-
-				for i := range lengths {
-					if got, want := arr.IsValid(i), isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-					if got, want := arr.IsNull(i), !isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-				}
-
-				var gotOffsets, gotSizes interface{}
-				switch tt.typeID {
-				case arrow.LIST_VIEW:
-					arr := arr.(*array.ListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				case arrow.LARGE_LIST_VIEW:
-					arr := arr.(*array.LargeListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				}
-
-				if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-					t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-				}
-
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-
-				varr := arr.ListValues().(*array.Int32)
-				if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-			}
-		})
-	}
-}
-
-func TestListArrayEmpty(t *testing.T) {
-	typ := []arrow.DataType{
-		arrow.ListOf(arrow.PrimitiveTypes.Int32),
-		arrow.LargeListOf(arrow.PrimitiveTypes.Int32),
-		arrow.ListViewOf(arrow.PrimitiveTypes.Int32),
-		arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32),
-	}
-
-	for _, dt := range typ {
-		t.Run(dt.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			lb := array.NewBuilder(pool, dt)
-			defer lb.Release()
-			arr := lb.NewArray()
-			defer arr.Release()
-			if got, want := arr.Len(), 0; got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestListArrayBulkAppend(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST:
-				lb.(*array.ListBuilder).AppendValues(tt.offsets.([]int32), isValid)
-			case arrow.LARGE_LIST:
-				lb.(*array.LargeListBuilder).AppendValues(tt.offsets.([]int64), isValid)
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST:
-				arr := arr.(*array.List)
-				gotOffsets = arr.Offsets()
-			case arrow.LARGE_LIST:
-				arr := arr.(*array.LargeList)
-				gotOffsets = arr.Offsets()
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-			if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestListViewArrayBulkAppend(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-			if !reflect.DeepEqual(gotSizes, tt.sizes) {
-				t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestListArraySlice(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3, 7}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3, 7}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST:
-				lb.(*array.ListBuilder).AppendValues(tt.offsets.([]int32), isValid)
-			case arrow.LARGE_LIST:
-				lb.(*array.LargeListBuilder).AppendValues(tt.offsets.([]int64), isValid)
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST:
-				arr := arr.(*array.List)
-				gotOffsets = arr.Offsets()
-			case arrow.LARGE_LIST:
-				arr := arr.(*array.LargeList)
-				gotOffsets = arr.Offsets()
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-
-			if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.String(), `[[0 1 2] (null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-			assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-
-			sub := array.NewSlice(arr, 1, 4).(array.ListLike)
-			defer sub.Release()
-
-			if got, want := sub.String(), `[(null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestListViewArraySlice(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-
-			if !reflect.DeepEqual(gotSizes, tt.sizes) {
-				t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.String(), `[[0 1 2] (null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-			assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-
-			sub := array.NewSlice(arr, 1, 4).(array.ListLike)
-			defer sub.Release()
-
-			if got, want := sub.String(), `[(null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestVarLenListLikeStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	builders := []array.VarLenListLikeBuilder{
-		array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	builders1 := []array.VarLenListLikeBuilder{
-		array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	for i, b := range builders {
-		defer b.Release()
-
-		vb := b.ValueBuilder().(*array.Int32Builder)
-
-		var values = [][]int32{
-			{0, 1, 2, 3, 4, 5, 6},
-			{1, 2, 3, 4, 5, 6, 7},
-			{2, 3, 4, 5, 6, 7, 8},
-			{3, 4, 5, 6, 7, 8, 9},
-		}
-		for _, value := range values {
-			b.AppendNull()
-			b.AppendWithSize(true, 2*len(value))
-			for _, el := range value {
-				vb.Append(el)
-				vb.AppendNull()
-			}
-			b.AppendWithSize(false, 0)
-		}
-
-		arr := b.NewArray()
-		defer arr.Release()
-
-		// 2. create array via AppendValueFromString
-		b1 := builders1[i]
-		defer b1.Release()
-
-		for i := 0; i < arr.Len(); i++ {
-			assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-		}
-
-		arr1 := b1.NewArray()
-		defer arr1.Release()
-
-		assert.True(t, array.Equal(arr, arr1))
-	}
-}
-
-// Test the string roun-trip for a list-view containing out-of-order offsets.
-func TestListViewStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	builders := []array.VarLenListLikeBuilder{
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	builders1 := []array.VarLenListLikeBuilder{
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	for i, b := range builders {
-		defer b.Release()
-
-		switch lvb := b.(type) {
-		case *array.ListViewBuilder:
-			lvb.AppendDimensions(5, 3)
-			b.AppendNull()
-			lvb.AppendDimensions(0, 0)
-			lvb.AppendDimensions(1, 4)
-		case *array.LargeListViewBuilder:
-			lvb.AppendDimensions(5, 3)
-			b.AppendNull()
-			lvb.AppendDimensions(0, 0)
-			lvb.AppendDimensions(1, 4)
-		}
-
-		vb := b.ValueBuilder().(*array.Int32Builder)
-
-		vs := []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-		isValid := []bool{false, true, true, true, true, true, true, true}
-		vb.Reserve(len(vs))
-		vb.AppendValues(vs, isValid)
-
-		arr := b.NewArray()
-		defer arr.Release()
-
-		// 2. create array via AppendValueFromString
-		b1 := builders1[i]
-		defer b1.Release()
-
-		for i := 0; i < arr.Len(); i++ {
-			assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-		}
-
-		arr1 := b1.NewArray()
-		defer arr1.Release()
-
-		assert.True(t, array.Equal(arr, arr1))
-	}
-}
-
-func TestRangeOfValuesUsed(t *testing.T) {
-	tests := []struct {
-		typeID arrow.Type
-		dt     arrow.DataType
-	}{
-		{arrow.LIST, arrow.ListOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LARGE_LIST, arrow.LargeListOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LIST_VIEW, arrow.ListViewOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LARGE_LIST_VIEW, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int16)},
-	}
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			isListView := tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW
-
-			bldr := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer bldr.Release()
-
-			var arr array.VarLenListLike
-
-			// Empty array
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len := array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 0, offset)
-			assert.Equal(t, 0, len)
-
-			// List-like array with only nulls
-			bldr.AppendNulls(3)
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 0, offset)
-			assert.Equal(t, 0, len)
-
-			// Array with nulls and non-nulls (starting at a non-zero offset)
-			vb := bldr.ValueBuilder().(*array.Int16Builder)
-			vb.Append(-2)
-			vb.Append(-1)
-			bldr.AppendWithSize(false, 0)
-			bldr.AppendWithSize(true, 2)
-			vb.Append(0)
-			vb.Append(1)
-			bldr.AppendWithSize(true, 3)
-			vb.Append(2)
-			vb.Append(3)
-			vb.Append(4)
-			if isListView {
-				vb.Append(10)
-				vb.Append(11)
-			}
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 2, offset)
-			assert.Equal(t, 5, len)
-
-			// Overlapping list-views
-			// [null, [0, 1, 2, 3, 4, 5], [1, 2], null, [4], null, null]
-			vb = bldr.ValueBuilder().(*array.Int16Builder)
-			vb.Append(-2)
-			vb.Append(-1)
-			bldr.AppendWithSize(false, 0)
-			if isListView {
-				bldr.AppendWithSize(true, 6)
-				vb.Append(0)
-				bldr.AppendWithSize(true, 2)
-				vb.Append(1)
-				vb.Append(2)
-				vb.Append(3)
-				bldr.AppendWithSize(false, 0)
-				bldr.AppendWithSize(true, 1)
-				vb.Append(4)
-				vb.Append(5)
-				// -- used range ends here --
-				vb.Append(10)
-				vb.Append(11)
-			} else {
-				bldr.AppendWithSize(true, 6)
-				vb.Append(0)
-				vb.Append(1)
-				vb.Append(2)
-				vb.Append(3)
-				vb.Append(4)
-				vb.Append(5)
-				bldr.AppendWithSize(true, 2)
-				vb.Append(1)
-				vb.Append(2)
-				bldr.AppendWithSize(false, 0)
-				bldr.AppendWithSize(true, 1)
-				vb.Append(4)
-			}
-			bldr.AppendNulls(2)
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			// Check the range
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 2, offset)
-			if isListView {
-				assert.Equal(t, 6, len)
-			} else {
-				assert.Equal(t, 9, len)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/map.go b/go/arrow/array/map.go
deleted file mode 100644
index a692c2cd6d71a..0000000000000
--- a/go/arrow/array/map.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Map represents an immutable sequence of Key/Value structs. It is a
-// logical type that is implemented as a List<Struct: key, value>.
-type Map struct {
-	*List
-	keys, items arrow.Array
-}
-
-var _ ListLike = (*Map)(nil)
-
-// NewMapData returns a new Map array value, from data
-func NewMapData(data arrow.ArrayData) *Map {
-	a := &Map{List: &List{}}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// KeysSorted checks the datatype that was used to construct this array and
-// returns the KeysSorted boolean value used to denote if the key array is
-// sorted for each list element.
-//
-// Important note: Nothing is enforced regarding the KeysSorted value, it is
-// solely a metadata field that should be set if keys within each value are sorted.
-// This value is not used at all in regards to comparisons / equality.
-func (a *Map) KeysSorted() bool { return a.DataType().(*arrow.MapType).KeysSorted }
-
-func (a *Map) validateData(data *Data) {
-	if len(data.childData) != 1 || data.childData[0] == nil {
-		panic("arrow/array: expected one child array for map array")
-	}
-
-	if data.childData[0].DataType().ID() != arrow.STRUCT {
-		panic("arrow/array: map array child should be struct type")
-	}
-
-	if data.childData[0].NullN() != 0 {
-		panic("arrow/array: map array child array should have no nulls")
-	}
-
-	if len(data.childData[0].Children()) != 2 {
-		panic("arrow/array: map array child array should have two fields")
-	}
-
-	if data.childData[0].Children()[0].NullN() != 0 {
-		panic("arrow/array: map array keys array should have no nulls")
-	}
-}
-
-func (a *Map) setData(data *Data) {
-	a.validateData(data)
-
-	a.List.setData(data)
-	a.keys = MakeFromData(data.childData[0].Children()[0])
-	a.items = MakeFromData(data.childData[0].Children()[1])
-}
-
-// Keys returns the full Array of Key values, equivalent to grabbing
-// the key field of the child struct.
-func (a *Map) Keys() arrow.Array { return a.keys }
-
-// Items returns the full Array of Item values, equivalent to grabbing
-// the Value field (the second field) of the child struct.
-func (a *Map) Items() arrow.Array { return a.items }
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *Map) Retain() {
-	a.List.Retain()
-	a.keys.Retain()
-	a.items.Retain()
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (a *Map) Release() {
-	a.List.Release()
-	a.keys.Release()
-	a.items.Release()
-}
-
-func arrayEqualMap(left, right *Map) bool {
-	// since Map is implemented using a list, we can just use arrayEqualList
-	return arrayEqualList(left.List, right.List)
-}
-
-type MapBuilder struct {
-	listBuilder *ListBuilder
-
-	etype                   *arrow.MapType
-	keytype, itemtype       arrow.DataType
-	keyBuilder, itemBuilder Builder
-	keysSorted              bool
-}
-
-// NewMapBuilder returns a builder, using the provided memory allocator.
-// The created Map builder will create a map array whose keys will be a non-nullable
-// array of type `keytype` and whose mapped items will be a nullable array of itemtype.
-//
-// KeysSorted is not enforced at all by the builder, it should only be set to true
-// building using keys in sorted order for each value. The KeysSorted value will just be
-// used when creating the DataType for the map.
-//
-// # Example
-//
-// Simple example provided of converting a []map[string]int32 to an array.Map
-// by using a MapBuilder:
-//
-//	/* assume maplist == []map[string]int32 */
-//	bldr := array.NewMapBuilder(memory.DefaultAllocator, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-//	defer bldr.Release()
-//	kb := bldr.KeyBuilder().(*array.StringBuilder)
-//	ib := bldr.ItemBuilder().(*array.Int32Builder)
-//	for _, m := range maplist {
-//	    bldr.Append(true)
-//	    for k, v := range m {
-//	         kb.Append(k)
-//	         ib.Append(v)
-//	    }
-//	}
-//	maparr := bldr.NewMapArray()
-//	defer maparr.Release()
-func NewMapBuilder(mem memory.Allocator, keytype, itemtype arrow.DataType, keysSorted bool) *MapBuilder {
-	etype := arrow.MapOf(keytype, itemtype)
-	etype.KeysSorted = keysSorted
-	listBldr := NewListBuilder(mem, etype.Elem())
-	keyBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(0)
-	keyBldr.Retain()
-	itemBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(1)
-	itemBldr.Retain()
-	return &MapBuilder{
-		listBuilder: listBldr,
-		keyBuilder:  keyBldr,
-		itemBuilder: itemBldr,
-		etype:       etype,
-		keytype:     keytype,
-		itemtype:    itemtype,
-		keysSorted:  keysSorted,
-	}
-}
-
-func NewMapBuilderWithType(mem memory.Allocator, dt *arrow.MapType) *MapBuilder {
-	listBldr := NewListBuilder(mem, dt.Elem())
-	keyBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(0)
-	keyBldr.Retain()
-	itemBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(1)
-	itemBldr.Retain()
-	return &MapBuilder{
-		listBuilder: listBldr,
-		keyBuilder:  keyBldr,
-		itemBuilder: itemBldr,
-		etype:       dt,
-		keytype:     dt.KeyType(),
-		itemtype:    dt.ItemType(),
-		keysSorted:  dt.KeysSorted,
-	}
-}
-
-func (b *MapBuilder) Type() arrow.DataType { return b.etype }
-
-// Retain increases the reference count by 1 for the sub-builders (list, key, item).
-// Retain may be called simultaneously from multiple goroutines.
-func (b *MapBuilder) Retain() {
-	b.listBuilder.Retain()
-	b.keyBuilder.Retain()
-	b.itemBuilder.Retain()
-}
-
-// Release decreases the reference count by 1 for the sub builders (list, key, item).
-func (b *MapBuilder) Release() {
-	b.listBuilder.Release()
-	b.keyBuilder.Release()
-	b.itemBuilder.Release()
-}
-
-// Len returns the current number of Maps that are in the builder
-func (b *MapBuilder) Len() int { return b.listBuilder.Len() }
-
-// Cap returns the total number of elements that can be stored
-// without allocating additional memory.
-func (b *MapBuilder) Cap() int { return b.listBuilder.Cap() }
-
-// NullN returns the number of null values in the array builder.
-func (b *MapBuilder) NullN() int { return b.listBuilder.NullN() }
-
-// IsNull returns if a previously appended value at a given index is null or not.
-func (b *MapBuilder) IsNull(i int) bool {
-	return b.listBuilder.IsNull(i)
-}
-
-// Append adds a new Map element to the array, calling Append(false) is
-// equivalent to calling AppendNull.
-func (b *MapBuilder) Append(v bool) {
-	b.adjustStructBuilderLen()
-	b.listBuilder.Append(v)
-}
-
-func (b *MapBuilder) AppendWithSize(v bool, _ int) {
-	b.Append(v)
-}
-
-// AppendNull adds a null map entry to the array.
-func (b *MapBuilder) AppendNull() {
-	b.Append(false)
-}
-
-// AppendNulls adds null map entry to the array.
-func (b *MapBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MapBuilder) SetNull(i int) {
-	b.listBuilder.SetNull(i)
-}
-
-func (b *MapBuilder) AppendEmptyValue() {
-	b.Append(true)
-}
-
-func (b *MapBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-// Reserve enough space for n maps
-func (b *MapBuilder) Reserve(n int) { b.listBuilder.Reserve(n) }
-
-// Resize adjust the space allocated by b to n map elements. If n is greater than
-// b.Cap(), additional memory will be allocated. If n is smaller, the allocated memory may be reduced.
-func (b *MapBuilder) Resize(n int) { b.listBuilder.Resize(n) }
-
-// AppendValues is for bulk appending a group of elements with offsets provided
-// and validity booleans provided.
-func (b *MapBuilder) AppendValues(offsets []int32, valid []bool) {
-	b.adjustStructBuilderLen()
-	b.listBuilder.AppendValues(offsets, valid)
-}
-
-func (b *MapBuilder) UnsafeAppendBoolToBitmap(v bool) {
-	b.listBuilder.UnsafeAppendBoolToBitmap(v)
-}
-
-func (b *MapBuilder) init(capacity int)                  { b.listBuilder.init(capacity) }
-func (b *MapBuilder) resize(newBits int, init func(int)) { b.listBuilder.resize(newBits, init) }
-
-func (b *MapBuilder) adjustStructBuilderLen() {
-	sb := b.listBuilder.ValueBuilder().(*StructBuilder)
-	if sb.Len() < b.keyBuilder.Len() {
-		valids := make([]bool, b.keyBuilder.Len()-sb.Len())
-		for i := range valids {
-			valids[i] = true
-		}
-		sb.AppendValues(valids)
-	}
-}
-
-// NewArray creates a new Map array from the memory buffers used by the builder, and
-// resets the builder so it can be used again to build a new Map array.
-func (b *MapBuilder) NewArray() arrow.Array {
-	return b.NewMapArray()
-}
-
-// NewMapArray creates a new Map array from the memory buffers used by the builder, and
-// resets the builder so it can be used again to build a new Map array.
-func (b *MapBuilder) NewMapArray() (a *Map) {
-	if !b.etype.ItemField().Nullable && b.ItemBuilder().NullN() > 0 {
-		panic("arrow/array: item not nullable")
-	}
-
-	data := b.newData()
-	defer data.Release()
-	a = NewMapData(data)
-	return
-}
-
-func (b *MapBuilder) newData() (data *Data) {
-	b.adjustStructBuilderLen()
-	values := b.listBuilder.NewListArray()
-	defer values.Release()
-
-	data = NewData(b.etype,
-		values.Len(), values.data.buffers,
-		values.data.childData, values.NullN(), 0)
-	return
-}
-
-// KeyBuilder returns a builder that can be used to populate the keys of the maps.
-func (b *MapBuilder) KeyBuilder() Builder { return b.keyBuilder }
-
-// ItemBuilder returns a builder that can be used to populate the values that the
-// keys point to.
-func (b *MapBuilder) ItemBuilder() Builder { return b.itemBuilder }
-
-// ValueBuilder can be used instead of separately using the Key/Item builders
-// to build the list as a List of Structs rather than building the keys/items
-// separately.
-func (b *MapBuilder) ValueBuilder() Builder {
-	return b.listBuilder.ValueBuilder()
-}
-
-func (b *MapBuilder) AppendValueFromString(s string) error {
-	return b.listBuilder.AppendValueFromString(s)
-}
-
-func (b *MapBuilder) UnmarshalOne(dec *json.Decoder) error {
-	return b.listBuilder.UnmarshalOne(dec)
-}
-
-func (b *MapBuilder) Unmarshal(dec *json.Decoder) error {
-	return b.listBuilder.Unmarshal(dec)
-}
-
-func (b *MapBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("map builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array     = (*Map)(nil)
-	_ Builder         = (*MapBuilder)(nil)
-	_ ListLikeBuilder = (*MapBuilder)(nil)
-)
diff --git a/go/arrow/array/map_test.go b/go/arrow/array/map_test.go
deleted file mode 100644
index e73508e6afe11..0000000000000
--- a/go/arrow/array/map_test.go
+++ /dev/null
@@ -1,254 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMapArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		arr, equalArr, unequalArr *array.Map
-
-		equalValid     = []bool{true, true, true, true, true, true, true}
-		equalOffsets   = []int32{0, 1, 2, 5, 6, 7, 8, 10}
-		equalKeys      = []string{"a", "a", "a", "b", "c", "a", "a", "a", "a", "b"}
-		equalValues    = []int32{1, 2, 3, 4, 5, 2, 2, 2, 5, 6}
-		unequalValid   = []bool{true, true, true}
-		unequalOffsets = []int32{0, 1, 4, 7}
-		unequalKeys    = []string{"a", "a", "b", "c", "a", "b", "c"}
-		unequalValues  = []int32{1, 2, 2, 2, 3, 4, 5}
-	)
-
-	bldr := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	assert.Equal(t, len(equalValid), bldr.Len())
-	assert.Zero(t, bldr.NullN())
-
-	arr = bldr.NewMapArray()
-	defer arr.Release()
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	equalArr = bldr.NewMapArray()
-	defer equalArr.Release()
-
-	bldr.AppendValues(unequalOffsets, unequalValid)
-	for _, k := range unequalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(unequalValues, nil)
-
-	unequalArr = bldr.NewMapArray()
-	defer unequalArr.Release()
-
-	assert.True(t, array.Equal(arr, arr))
-	assert.True(t, array.Equal(arr, equalArr))
-	assert.True(t, array.Equal(equalArr, arr))
-	assert.False(t, array.Equal(equalArr, unequalArr))
-	assert.False(t, array.Equal(unequalArr, equalArr))
-
-	assert.True(t, array.SliceEqual(arr, 0, 1, unequalArr, 0, 1))
-	assert.False(t, array.SliceEqual(arr, 0, 2, unequalArr, 0, 2))
-	assert.False(t, array.SliceEqual(arr, 1, 2, unequalArr, 1, 2))
-	assert.True(t, array.SliceEqual(arr, 2, 3, unequalArr, 2, 3))
-
-	t.Run("items non nullable", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-		defer mem.AssertSize(t, 0)
-
-		dt := arrow.MapOf(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int16)
-		dt.KeysSorted = true
-		dt.SetItemNullable(false)
-
-		bldr := array.NewBuilder(pool, dt).(*array.MapBuilder)
-		defer bldr.Release()
-
-		kb := bldr.KeyBuilder().(*array.Int16Builder)
-		ib := bldr.ItemBuilder().(*array.Int16Builder)
-
-		bldr.Append(true)
-		kb.Append(1)
-		ib.AppendNull()
-
-		assert.Panics(t, func() {
-			_ = bldr.NewArray()
-		})
-	})
-}
-
-func TestMapArrayBuildIntToInt(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		dtype      = arrow.MapOf(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int16)
-		keys       = []int16{0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5}
-		items      = []int16{1, 1, 2, 3, 5, 8, -1, -1, 0, 1, -1, 2}
-		validItems = []bool{true, true, true, true, true, true, false, false, true, true, false, true}
-		offsets    = []int32{0, 6, 6, 12, 12}
-		validMaps  = []bool{true, false, true, true}
-	)
-
-	bldr := array.NewBuilder(pool, dtype).(*array.MapBuilder)
-	defer bldr.Release()
-
-	bldr.Reserve(len(validMaps))
-
-	kb := bldr.KeyBuilder().(*array.Int16Builder)
-	ib := bldr.ItemBuilder().(*array.Int16Builder)
-
-	bldr.Append(true)
-	kb.AppendValues(keys[:6], nil)
-	ib.AppendValues(items[:6], nil)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	kb.AppendValues(keys[6:], nil)
-	ib.AppendValues(items[6:], []bool{false, false, true, true, false, true})
-
-	bldr.Append(true)
-	arr := bldr.NewArray().(*array.Map)
-	defer arr.Release()
-
-	assert.Equal(t, arrow.MAP, arr.DataType().ID())
-	assert.EqualValues(t, len(validMaps), arr.Len())
-
-	for i, ex := range validMaps {
-		assert.Equal(t, ex, arr.IsValid(i))
-		assert.Equal(t, !ex, arr.IsNull(i))
-	}
-
-	assert.Equal(t, offsets, arr.Offsets())
-	assert.Equal(t, keys, arr.Keys().(*array.Int16).Int16Values())
-
-	itemArr := arr.Items().(*array.Int16)
-	for i, ex := range validItems {
-		if ex {
-			assert.True(t, itemArr.IsValid(i))
-			assert.False(t, itemArr.IsNull(i))
-			assert.Equal(t, items[i], itemArr.Value(i))
-		} else {
-			assert.False(t, itemArr.IsValid(i))
-			assert.True(t, itemArr.IsNull(i))
-		}
-	}
-
-	assert.Equal(t, "[{[0 1 2 3 4 5] [1 1 2 3 5 8]} (null) {[0 1 2 3 4 5] [(null) (null) 0 1 (null) 2]} {[] []}]", arr.String())
-}
-
-func TestMapStringRoundTrip(t *testing.T) {
-	// 1. create array
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewMapBuilderWithType(mem, dt)
-	defer b.Release()
-
-	kb := b.KeyBuilder().(*array.StringBuilder)
-	ib := b.ItemBuilder().(*array.Int32Builder)
-
-	for n := 0; n < 10; n++ {
-		b.AppendNull()
-		b.Append(true)
-
-		for r := 'a'; r <= 'z'; r++ {
-			kb.Append(string(r) + strconv.Itoa(n))
-			if (n+int(r))%2 == 0 {
-				ib.AppendNull()
-			} else {
-				ib.Append(int32(n + int(r)))
-			}
-		}
-	}
-
-	arr := b.NewArray().(*array.Map)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMapBuilderWithType(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Map)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestMapBuilder_SetNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		arr          *array.Map
-		equalValid   = []bool{true, true, true, true, true, true, true}
-		equalOffsets = []int32{0, 1, 2, 5, 6, 7, 8, 10}
-		equalKeys    = []string{"a", "a", "a", "b", "c", "a", "a", "a", "a", "b"}
-		equalValues  = []int32{1, 2, 3, 4, 5, 2, 2, 2, 5, 6}
-	)
-
-	bldr := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	bldr.SetNull(0)
-	bldr.SetNull(3)
-
-	arr = bldr.NewMapArray()
-	defer arr.Release()
-
-	assert.True(t, arr.IsNull(0))
-	assert.True(t, arr.IsValid(1))
-	assert.True(t, arr.IsNull(3))
-}
diff --git a/go/arrow/array/null.go b/go/arrow/array/null.go
deleted file mode 100644
index 6dccd3af59f2a..0000000000000
--- a/go/arrow/array/null.go
+++ /dev/null
@@ -1,218 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Null represents an immutable, degenerate array with no physical storage.
-type Null struct {
-	array
-}
-
-// NewNull returns a new Null array value of size n.
-func NewNull(n int) *Null {
-	a := &Null{}
-	a.refCount = 1
-	data := NewData(
-		arrow.Null, n,
-		[]*memory.Buffer{nil},
-		nil,
-		n,
-		0,
-	)
-	a.setData(data)
-	data.Release()
-	return a
-}
-
-// NewNullData returns a new Null array value, from data.
-func NewNullData(data arrow.ArrayData) *Null {
-	a := &Null{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Null) ValueStr(int) string { return NullValueStr }
-
-func (a *Null) Value(int) interface{} { return nil }
-
-func (a *Null) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		o.WriteString(NullValueStr)
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Null) setData(data *Data) {
-	a.array.setData(data)
-	a.array.nullBitmapBytes = nil
-	a.array.data.nulls = a.array.data.length
-}
-
-func (a *Null) GetOneForMarshal(i int) interface{} {
-	return nil
-}
-
-func (a *Null) MarshalJSON() ([]byte, error) {
-	return json.Marshal(make([]interface{}, a.Len()))
-}
-
-type NullBuilder struct {
-	builder
-}
-
-// NewNullBuilder returns a builder, using the provided memory allocator.
-func NewNullBuilder(mem memory.Allocator) *NullBuilder {
-	return &NullBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *NullBuilder) Type() arrow.DataType { return arrow.Null }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *NullBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-	}
-}
-
-func (b *NullBuilder) AppendNull() {
-	b.builder.length++
-	b.builder.nulls++
-}
-
-func (b *NullBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *NullBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	return fmt.Errorf("cannot convert %q to null", s)
-}
-
-func (b *NullBuilder) AppendEmptyValue() { b.AppendNull() }
-
-func (b *NullBuilder) AppendEmptyValues(n int) { b.AppendNulls(n) }
-
-func (*NullBuilder) Reserve(size int) {}
-func (*NullBuilder) Resize(size int)  {}
-
-func (*NullBuilder) init(cap int)                       {}
-func (*NullBuilder) resize(newBits int, init func(int)) {}
-
-// NewArray creates a Null array from the memory buffers used by the builder and resets the NullBuilder
-// so it can be used to build a new array.
-func (b *NullBuilder) NewArray() arrow.Array {
-	return b.NewNullArray()
-}
-
-// NewNullArray creates a Null array from the memory buffers used by the builder and resets the NullBuilder
-// so it can be used to build a new array.
-func (b *NullBuilder) NewNullArray() (a *Null) {
-	data := b.newData()
-	a = NewNullData(data)
-	data.Release()
-	return
-}
-
-func (b *NullBuilder) newData() (data *Data) {
-	data = NewData(
-		arrow.Null, b.length,
-		[]*memory.Buffer{nil},
-		nil,
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *NullBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t.(type) {
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(nil),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *NullBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *NullBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("null builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Null)(nil)
-	_ Builder     = (*NullBuilder)(nil)
-)
diff --git a/go/arrow/array/null_test.go b/go/arrow/array/null_test.go
deleted file mode 100644
index 61ccb472b1f7b..0000000000000
--- a/go/arrow/array/null_test.go
+++ /dev/null
@@ -1,110 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNullArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	b := array.NewNullBuilder(pool)
-	defer b.Release()
-
-	b.AppendNull()
-	b.AppendNulls(2)
-	b.AppendEmptyValue()
-	b.AppendEmptyValues(2)
-
-	arr1 := b.NewArray().(*array.Null)
-	defer arr1.Release()
-
-	if got, want := arr1.Len(), 6; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr1.NullN(), 6; got != want {
-		t.Fatalf("invalid number of nulls: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr1.DataType(), arrow.Null; got != want {
-		t.Fatalf("invalid null data type: got=%v, want=%v", got, want)
-	}
-
-	arr1.Retain()
-	arr1.Release()
-
-	if arr1.Data() == nil {
-		t.Fatalf("invalid null data")
-	}
-
-	arr2 := b.NewNullArray()
-	defer arr2.Release()
-
-	if got, want := arr2.Len(), 0; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	arr3 := array.NewNull(10)
-	defer arr3.Release()
-
-	if got, want := arr3.Len(), 10; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr3.NullN(), 10; got != want {
-		t.Fatalf("invalid number of nulls: got=%d, want=%d", got, want)
-	}
-
-}
-
-func TestNullStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewNullBuilder(mem)
-	defer b.Release()
-
-	b.AppendNull()
-	b.AppendNulls(2)
-	b.AppendEmptyValue()
-	b.AppendEmptyValues(2)
-
-	arr := b.NewArray().(*array.Null)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewNullBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Null)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/numeric.gen.go b/go/arrow/array/numeric.gen.go
deleted file mode 100644
index 413a356c2a8ab..0000000000000
--- a/go/arrow/array/numeric.gen.go
+++ /dev/null
@@ -1,1452 +0,0 @@
-// Code generated by array/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of int64 values.
-type Int64 struct {
-	array
-	values []int64
-}
-
-// NewInt64Data creates a new Int64.
-func NewInt64Data(data arrow.ArrayData) *Int64 {
-	a := &Int64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int64) Value(i int) int64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int64) Int64Values() []int64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt64(left, right *Int64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint64 values.
-type Uint64 struct {
-	array
-	values []uint64
-}
-
-// NewUint64Data creates a new Uint64.
-func NewUint64Data(data arrow.ArrayData) *Uint64 {
-	a := &Uint64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint64) Value(i int) uint64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint64) Uint64Values() []uint64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint64(left, right *Uint64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of float64 values.
-type Float64 struct {
-	array
-	values []float64
-}
-
-// NewFloat64Data creates a new Float64.
-func NewFloat64Data(data arrow.ArrayData) *Float64 {
-	a := &Float64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Float64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Float64) Value(i int) float64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Float64) Float64Values() []float64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Float64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 64)
-}
-
-func (a *Float64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Float64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		switch {
-		case math.IsNaN(f):
-			vals[i] = "NaN"
-		case math.IsInf(f, 1):
-			vals[i] = "+Inf"
-		case math.IsInf(f, -1):
-			vals[i] = "-Inf"
-		default:
-			vals[i] = f
-		}
-
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat64(left, right *Float64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int32 values.
-type Int32 struct {
-	array
-	values []int32
-}
-
-// NewInt32Data creates a new Int32.
-func NewInt32Data(data arrow.ArrayData) *Int32 {
-	a := &Int32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int32) Value(i int) int32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int32) Int32Values() []int32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt32(left, right *Int32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint32 values.
-type Uint32 struct {
-	array
-	values []uint32
-}
-
-// NewUint32Data creates a new Uint32.
-func NewUint32Data(data arrow.ArrayData) *Uint32 {
-	a := &Uint32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint32) Value(i int) uint32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint32) Uint32Values() []uint32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint32(left, right *Uint32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of float32 values.
-type Float32 struct {
-	array
-	values []float32
-}
-
-// NewFloat32Data creates a new Float32.
-func NewFloat32Data(data arrow.ArrayData) *Float32 {
-	a := &Float32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Float32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Float32) Value(i int) float32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Float32) Float32Values() []float32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Float32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 32)
-}
-
-func (a *Float32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Float32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		v := strconv.FormatFloat(float64(f), 'g', -1, 32)
-
-		switch v {
-		case "NaN", "+Inf", "-Inf":
-			vals[i] = v
-		default:
-			vals[i] = f
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat32(left, right *Float32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int16 values.
-type Int16 struct {
-	array
-	values []int16
-}
-
-// NewInt16Data creates a new Int16.
-func NewInt16Data(data arrow.ArrayData) *Int16 {
-	a := &Int16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int16) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int16) Value(i int) int16 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int16) Int16Values() []int16 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int16) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt16(left, right *Int16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint16 values.
-type Uint16 struct {
-	array
-	values []uint16
-}
-
-// NewUint16Data creates a new Uint16.
-func NewUint16Data(data arrow.ArrayData) *Uint16 {
-	a := &Uint16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint16) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint16) Value(i int) uint16 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint16) Uint16Values() []uint16 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint16) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint16(left, right *Uint16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int8 values.
-type Int8 struct {
-	array
-	values []int8
-}
-
-// NewInt8Data creates a new Int8.
-func NewInt8Data(data arrow.ArrayData) *Int8 {
-	a := &Int8{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int8) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int8) Value(i int) int8 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int8) Int8Values() []int8 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int8) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int8) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int8Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int8) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int8) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-}
-
-func (a *Int8) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt8(left, right *Int8) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint8 values.
-type Uint8 struct {
-	array
-	values []uint8
-}
-
-// NewUint8Data creates a new Uint8.
-func NewUint8Data(data arrow.ArrayData) *Uint8 {
-	a := &Uint8{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint8) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint8) Value(i int) uint8 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint8) Uint8Values() []uint8 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint8) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint8) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint8Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint8) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint8) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-}
-
-func (a *Uint8) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint8(left, right *Uint8) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Time32 values.
-type Time32 struct {
-	array
-	values []arrow.Time32
-}
-
-// NewTime32Data creates a new Time32.
-func NewTime32Data(data arrow.ArrayData) *Time32 {
-	a := &Time32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Time32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Time32) Value(i int) arrow.Time32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Time32) Time32Values() []arrow.Time32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Time32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Time32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Time32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Time32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString(a.DataType().(*arrow.Time32Type).Unit)
-}
-
-func (a *Time32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime(a.DataType().(*arrow.Time32Type).Unit).Format("15:04:05.999999999")
-}
-
-func (a *Time32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTime32(left, right *Time32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Time64 values.
-type Time64 struct {
-	array
-	values []arrow.Time64
-}
-
-// NewTime64Data creates a new Time64.
-func NewTime64Data(data arrow.ArrayData) *Time64 {
-	a := &Time64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Time64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Time64) Value(i int) arrow.Time64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Time64) Time64Values() []arrow.Time64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Time64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Time64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Time64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Time64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString(a.DataType().(*arrow.Time64Type).Unit)
-}
-
-func (a *Time64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime(a.DataType().(*arrow.Time64Type).Unit).Format("15:04:05.999999999")
-}
-
-func (a *Time64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTime64(left, right *Time64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Date32 values.
-type Date32 struct {
-	array
-	values []arrow.Date32
-}
-
-// NewDate32Data creates a new Date32.
-func NewDate32Data(data arrow.ArrayData) *Date32 {
-	a := &Date32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Date32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Date32) Value(i int) arrow.Date32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Date32) Date32Values() []arrow.Date32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Date32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Date32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Date32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Date32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString()
-}
-
-func (a *Date32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime().Format("2006-01-02")
-}
-
-func (a *Date32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDate32(left, right *Date32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Date64 values.
-type Date64 struct {
-	array
-	values []arrow.Date64
-}
-
-// NewDate64Data creates a new Date64.
-func NewDate64Data(data arrow.ArrayData) *Date64 {
-	a := &Date64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Date64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Date64) Value(i int) arrow.Date64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Date64) Date64Values() []arrow.Date64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Date64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Date64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Date64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Date64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString()
-}
-
-func (a *Date64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime().Format("2006-01-02")
-}
-
-func (a *Date64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDate64(left, right *Date64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Duration values.
-type Duration struct {
-	array
-	values []arrow.Duration
-}
-
-// NewDurationData creates a new Duration.
-func NewDurationData(data arrow.ArrayData) *Duration {
-	a := &Duration{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Duration) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Duration) Value(i int) arrow.Duration { return a.values[i] }
-
-// Values returns the values.
-func (a *Duration) DurationValues() []arrow.Duration { return a.values }
-
-// String returns a string representation of the array.
-func (a *Duration) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Duration) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.DurationTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Duration) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*arrow.DurationType).Unit)
-}
-
-func (a *Duration) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*arrow.DurationType).Unit.String())
-}
-
-func (a *Duration) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDuration(left, right *Duration) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
diff --git a/go/arrow/array/numeric.gen.go.tmpl b/go/arrow/array/numeric.gen.go.tmpl
deleted file mode 100644
index 1f4b56609f464..0000000000000
--- a/go/arrow/array/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,192 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-{{range .In}}
-
-// A type which represents an immutable sequence of {{or .QualifiedType .Type}} values.
-type {{.Name}} struct {
-	array
-	values []{{or .QualifiedType .Type}}
-}
-
-// New{{.Name}}Data creates a new {{.Name}}.
-func New{{.Name}}Data(data arrow.ArrayData) *{{.Name}} {
-	a := &{{.Name}}{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *{{.Name}}) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *{{.Name}}) Value(i int)      {{or .QualifiedType .Type}} { return a.values[i] }
-
-// Values returns the values.
-func (a *{{.Name}}) {{.Name}}Values() []{{or .QualifiedType .Type}} { return a.values }
-
-// String returns a string representation of the array.
-func (a *{{.Name}}) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *{{.Name}}) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.{{.Name}}Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *{{.Name}}) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-  return a.values[i].FormattedString()
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-  return a.values[i].FormattedString(a.DataType().(*{{.QualifiedType}}Type).Unit)
-{{else if (eq .Name "Duration") -}}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*{{.QualifiedType}}Type).Unit)
-{{else if or (eq .Name "Int8") (eq .Name "Int16") (eq .Name "Int32") (eq .Name "Int64") -}}
-  return strconv.FormatInt(int64(a.Value(i)), 10)
-{{else if or (eq .Name "Uint8") (eq .Name "Uint16") (eq .Name "Uint32") (eq .Name "Uint64") -}}
-  return strconv.FormatUint(uint64(a.Value(i)), 10)
-{{else if or (eq .Name "Float32") -}}
-  return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 32)
-{{else if or (eq .Name "Float64") -}}
-  return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 64)
-{{else}}
-	return fmt.Sprintf("%v", a.values[i])
-{{end -}}
-}
-
-func (a *{{.Name}}) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-	return a.values[i].ToTime().Format("2006-01-02")
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-	return a.values[i].ToTime(a.DataType().(*{{.QualifiedType}}Type).Unit).Format("15:04:05.999999999")
-{{else if (eq .Name "Duration") -}}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*{{.QualifiedType}}Type).Unit.String())
-{{else if (eq .Size "1")}}
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-{{else}}
-	return a.values[i]
-{{end -}}
-}
-
-func (a *{{.Name}}) MarshalJSON() ([]byte, error) {
-{{if .QualifiedType -}}
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-{{else -}}
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-	{{if (eq .Name "Float32") -}}
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		v := strconv.FormatFloat(float64(f), 'g', -1, 32)
-
-		switch v {
-		case "NaN", "+Inf", "-Inf":
-			vals[i] = v
-		default:
-			vals[i] = f
-		}
-	{{else if (eq .Name "Float64") -}}
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		switch {
-		case math.IsNaN(f):
-			vals[i] = "NaN"
-		case math.IsInf(f, 1):
-			vals[i] = "+Inf"
-		case math.IsInf(f, -1):
-			vals[i] = "-Inf"
-		default:
-			vals[i] = f
-		}
-	{{else}}
-		if a.IsValid(i) {
-			{{ if (eq .Size "1") }}vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data{{ else }}vals[i] = a.values[i]{{ end }}
-		} else {
-			vals[i] = nil
-		}
-	{{end}}
-	}
-{{end}}
-	return json.Marshal(vals)
-}
-
-func arrayEqual{{.Name}}(left, right *{{.Name}}) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-{{end}}
diff --git a/go/arrow/array/numeric_test.go b/go/arrow/array/numeric_test.go
deleted file mode 100644
index bb8acc3f41519..0000000000000
--- a/go/arrow/array/numeric_test.go
+++ /dev/null
@@ -1,779 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewFloat64Data(t *testing.T) {
-	exp := []float64{1.0, 2.0, 4.0, 8.0, 16.0}
-
-	ad := array.NewData(
-		arrow.PrimitiveTypes.Float64, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Float64Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewFloat64Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Float64Values(), "unexpected Float64Values()")
-}
-
-func TestFloat64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []float64{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Float64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Float64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Float64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFloat64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []float64{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Float64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Float64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Float64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFloat16MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat16Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, 2, 3, "NaN", "NaN", 4, 5, "+Inf", "-Inf"]`
-
-	bldr.Append(float16.New(0))
-	bldr.Append(float16.New(1))
-	bldr.Append(float16.New(2))
-	bldr.Append(float16.New(3))
-	bldr.Append(float16.NaN())
-	bldr.Append(float16.NaN())
-	bldr.Append(float16.New(4))
-	bldr.Append(float16.New(5))
-	bldr.Append(float16.Inf())
-	bldr.Append(float16.Inf().Negate())
-
-	expected := bldr.NewFloat16Array()
-	defer expected.Release()
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonstr, string(expected_json))
-}
-
-func TestFloat32MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	bldr.Append(0)
-	bldr.Append(1)
-	bldr.Append(float32(math.Inf(1)))
-	bldr.Append(2)
-	bldr.Append(3)
-	bldr.Append(float32(math.NaN()))
-	bldr.Append(float32(math.NaN()))
-	bldr.Append(4)
-	bldr.Append(5)
-	bldr.Append(float32(math.Inf(-1)))
-
-	expected := bldr.NewFloat32Array()
-	defer expected.Release()
-
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-
-	assert.JSONEq(t, jsonstr, string(expected_json))
-}
-
-func TestFloat64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	bldr.Append(0)
-	bldr.Append(1)
-	bldr.Append(math.Inf(1))
-	bldr.Append(2)
-	bldr.Append(3)
-	bldr.Append(math.NaN())
-	bldr.Append(math.NaN())
-	bldr.Append(4)
-	bldr.Append(5)
-	bldr.Append(math.Inf(-1))
-
-	expected := bldr.NewFloat64Array()
-	defer expected.Release()
-
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-
-	assert.JSONEq(t, jsonstr, string(expected_json))
-
-}
-
-func TestUnmarshalSpecialFloat(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(pool)
-	defer bldr.Release()
-
-	assert.NoError(t, json.Unmarshal([]byte(`[3.4, "Inf", "-Inf"]`), bldr))
-	arr := bldr.NewFloat32Array()
-	defer arr.Release()
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(1)), 1), arr.Value(1))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), -1), arr.Value(2))
-}
-
-func TestNewTime32Data(t *testing.T) {
-	data := []arrow.Time32{
-		arrow.Time32(1),
-		arrow.Time32(2),
-		arrow.Time32(4),
-		arrow.Time32(8),
-		arrow.Time32(16),
-	}
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	ad := array.NewData(dtype, len(data),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Time32Traits.CastToBytes(data))},
-		nil, 0, 0,
-	)
-	t32a := array.NewTime32Data(ad)
-
-	assert.Equal(t, len(data), t32a.Len(), "unexpected Len()")
-	assert.Equal(t, data, t32a.Time32Values(), "unexpected Float64Values()")
-}
-
-func TestTime32SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs = []arrow.Time32{
-			arrow.Time32(1),
-			arrow.Time32(2),
-			arrow.Time32(4),
-			arrow.Time32(8),
-			arrow.Time32(16),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	b := array.NewTime32Builder(pool, dtype.(*arrow.Time32Type))
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time32)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestTime32SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Time32{
-			arrow.Time32(1),
-			arrow.Time32(2),
-			arrow.Time32(3),
-			arrow.Time32(0),
-			arrow.Time32(4),
-			arrow.Time32(5),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	b := array.NewTime32Builder(pool, dtype.(*arrow.Time32Type))
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time32)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewTime64Data(t *testing.T) {
-	data := []arrow.Time64{
-		arrow.Time64(1),
-		arrow.Time64(2),
-		arrow.Time64(4),
-		arrow.Time64(8),
-		arrow.Time64(16),
-	}
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	ad := array.NewData(dtype, len(data),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Time64Traits.CastToBytes(data))},
-		nil, 0, 0,
-	)
-	t64a := array.NewTime64Data(ad)
-
-	assert.Equal(t, len(data), t64a.Len(), "unexpected Len()")
-	assert.Equal(t, data, t64a.Time64Values(), "unexpected Float64Values()")
-}
-
-func TestTime64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs = []arrow.Time64{
-			arrow.Time64(1),
-			arrow.Time64(2),
-			arrow.Time64(4),
-			arrow.Time64(8),
-			arrow.Time64(16),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	b := array.NewTime64Builder(pool, dtype.(*arrow.Time64Type))
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestTime64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Time64{
-			arrow.Time64(1),
-			arrow.Time64(2),
-			arrow.Time64(3),
-			arrow.Time64(0),
-			arrow.Time64(4),
-			arrow.Time64(5),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	b := array.NewTime64Builder(pool, dtype.(*arrow.Time64Type))
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewDate32Data(t *testing.T) {
-	exp := []arrow.Date32{1, 2, 4, 8, 16}
-
-	dtype := &arrow.Date32Type{}
-	ad := array.NewData(
-		dtype, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Date32Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewDate32Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Date32Values(), "unexpected Date32Values()")
-}
-
-func TestDate32SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []arrow.Date32{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewDate32Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date32)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestDate32SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Date32{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewDate32Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date32)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewDate64Data(t *testing.T) {
-	exp := []arrow.Date64{1, 2, 4, 8, 16}
-
-	dtype := &arrow.Date64Type{}
-	ad := array.NewData(
-		dtype, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Date64Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewDate64Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Date64Values(), "unexpected Date64Values()")
-}
-
-func TestDate64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []arrow.Date64{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewDate64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestDate64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Date64{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewDate64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestInt64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs = []int64{-5474557666971701248}
-	)
-
-	b := array.NewInt64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Int64)
-	defer arr.Release()
-
-	jsonBytes, err := json.Marshal(arr)
-	if err != nil {
-		t.Fatal(err)
-	}
-	got := string(jsonBytes)
-	want := `[-5474557666971701248]`
-	if got != want {
-		t.Fatalf("got=%s, want=%s", got, want)
-	}
-}
-
-func TestUInt64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs = []uint64{14697929703826477056}
-	)
-
-	b := array.NewUint64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Uint64)
-	defer arr.Release()
-
-	jsonBytes, err := json.Marshal(arr)
-	if err != nil {
-		t.Fatal(err)
-	}
-	got := string(jsonBytes)
-	want := `[14697929703826477056]`
-	if got != want {
-		t.Fatalf("got=%s, want=%s", got, want)
-	}
-}
diff --git a/go/arrow/array/numericbuilder.gen.go b/go/arrow/array/numericbuilder.gen.go
deleted file mode 100644
index c80f0c7c9578e..0000000000000
--- a/go/arrow/array/numericbuilder.gen.go
+++ /dev/null
@@ -1,3664 +0,0 @@
-// Code generated by array/numericbuilder.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-	"sync/atomic"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Int64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int64
-}
-
-func NewInt64Builder(mem memory.Allocator) *Int64Builder {
-	return &Int64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int64Builder) Append(v int64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int64Builder) UnsafeAppend(v int64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int64Builder) AppendValues(v []int64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int64Traits.BytesRequired(n))
-		b.rawData = arrow.Int64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int64Builder) Value(i int) int64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int64 array from the memory buffers used by the builder and resets the Int64Builder
-// so it can be used to build a new array.
-func (b *Int64Builder) NewArray() arrow.Array {
-	return b.NewInt64Array()
-}
-
-// NewInt64Array creates a Int64 array from the memory buffers used by the builder and resets the Int64Builder
-// so it can be used to build a new array.
-func (b *Int64Builder) NewInt64Array() (a *Int64) {
-	data := b.newData()
-	a = NewInt64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int64(v))
-	return nil
-}
-
-func (b *Int64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int64(f))
-	case float64:
-		b.Append(int64(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint64
-}
-
-func NewUint64Builder(mem memory.Allocator) *Uint64Builder {
-	return &Uint64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint64Builder) Append(v uint64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint64Builder) UnsafeAppend(v uint64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint64Builder) AppendValues(v []uint64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint64Traits.BytesRequired(n))
-		b.rawData = arrow.Uint64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint64Builder) Value(i int) uint64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint64 array from the memory buffers used by the builder and resets the Uint64Builder
-// so it can be used to build a new array.
-func (b *Uint64Builder) NewArray() arrow.Array {
-	return b.NewUint64Array()
-}
-
-// NewUint64Array creates a Uint64 array from the memory buffers used by the builder and resets the Uint64Builder
-// so it can be used to build a new array.
-func (b *Uint64Builder) NewUint64Array() (a *Uint64) {
-	data := b.newData()
-	a = NewUint64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint64(v))
-	return nil
-}
-
-func (b *Uint64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint64(f))
-	case float64:
-		b.Append(uint64(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Float64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float64
-}
-
-func NewFloat64Builder(mem memory.Allocator) *Float64Builder {
-	return &Float64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Float64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float64Builder) Append(v float64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Float64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float64Builder) UnsafeAppend(v float64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float64Builder) AppendValues(v []float64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Float64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Float64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float64Traits.BytesRequired(n))
-		b.rawData = arrow.Float64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Float64Builder) Value(i int) float64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Float64 array from the memory buffers used by the builder and resets the Float64Builder
-// so it can be used to build a new array.
-func (b *Float64Builder) NewArray() arrow.Array {
-	return b.NewFloat64Array()
-}
-
-// NewFloat64Array creates a Float64 array from the memory buffers used by the builder and resets the Float64Builder
-// so it can be used to build a new array.
-func (b *Float64Builder) NewFloat64Array() (a *Float64) {
-	data := b.newData()
-	a = NewFloat64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Float64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float64(v))
-	return nil
-}
-
-func (b *Float64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseFloat(v, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(float64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float64(f))
-	case float64:
-		b.Append(float64(v))
-	case json.Number:
-		f, err := strconv.ParseFloat(v.String(), 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(float64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Float64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Float64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int32
-}
-
-func NewInt32Builder(mem memory.Allocator) *Int32Builder {
-	return &Int32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int32Builder) Append(v int32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int32Builder) UnsafeAppend(v int32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int32Builder) AppendValues(v []int32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int32Traits.BytesRequired(n))
-		b.rawData = arrow.Int32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int32Builder) Value(i int) int32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int32 array from the memory buffers used by the builder and resets the Int32Builder
-// so it can be used to build a new array.
-func (b *Int32Builder) NewArray() arrow.Array {
-	return b.NewInt32Array()
-}
-
-// NewInt32Array creates a Int32 array from the memory buffers used by the builder and resets the Int32Builder
-// so it can be used to build a new array.
-func (b *Int32Builder) NewInt32Array() (a *Int32) {
-	data := b.newData()
-	a = NewInt32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int32(v))
-	return nil
-}
-
-func (b *Int32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int32(f))
-	case float64:
-		b.Append(int32(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint32
-}
-
-func NewUint32Builder(mem memory.Allocator) *Uint32Builder {
-	return &Uint32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint32Builder) Append(v uint32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint32Builder) UnsafeAppend(v uint32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint32Builder) AppendValues(v []uint32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint32Traits.BytesRequired(n))
-		b.rawData = arrow.Uint32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint32Builder) Value(i int) uint32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint32 array from the memory buffers used by the builder and resets the Uint32Builder
-// so it can be used to build a new array.
-func (b *Uint32Builder) NewArray() arrow.Array {
-	return b.NewUint32Array()
-}
-
-// NewUint32Array creates a Uint32 array from the memory buffers used by the builder and resets the Uint32Builder
-// so it can be used to build a new array.
-func (b *Uint32Builder) NewUint32Array() (a *Uint32) {
-	data := b.newData()
-	a = NewUint32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint32(v))
-	return nil
-}
-
-func (b *Uint32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint32(f))
-	case float64:
-		b.Append(uint32(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Float32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float32
-}
-
-func NewFloat32Builder(mem memory.Allocator) *Float32Builder {
-	return &Float32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Float32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float32Builder) Append(v float32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Float32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float32Builder) UnsafeAppend(v float32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float32Builder) AppendValues(v []float32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Float32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Float32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float32Traits.BytesRequired(n))
-		b.rawData = arrow.Float32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Float32Builder) Value(i int) float32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Float32 array from the memory buffers used by the builder and resets the Float32Builder
-// so it can be used to build a new array.
-func (b *Float32Builder) NewArray() arrow.Array {
-	return b.NewFloat32Array()
-}
-
-// NewFloat32Array creates a Float32 array from the memory buffers used by the builder and resets the Float32Builder
-// so it can be used to build a new array.
-func (b *Float32Builder) NewFloat32Array() (a *Float32) {
-	data := b.newData()
-	a = NewFloat32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Float32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float32(v))
-	return nil
-}
-
-func (b *Float32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseFloat(v, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(float32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float32(f))
-	case float64:
-		b.Append(float32(v))
-	case json.Number:
-		f, err := strconv.ParseFloat(v.String(), 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(float32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Float32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Float32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int16
-}
-
-func NewInt16Builder(mem memory.Allocator) *Int16Builder {
-	return &Int16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int16Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int16Builder) Append(v int16) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int16Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int16Builder) UnsafeAppend(v int16) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int16Builder) AppendValues(v []int16, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int16Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int16Traits.BytesRequired(n))
-		b.rawData = arrow.Int16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int16Builder) Value(i int) int16 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int16 array from the memory buffers used by the builder and resets the Int16Builder
-// so it can be used to build a new array.
-func (b *Int16Builder) NewArray() arrow.Array {
-	return b.NewInt16Array()
-}
-
-// NewInt16Array creates a Int16 array from the memory buffers used by the builder and resets the Int16Builder
-// so it can be used to build a new array.
-func (b *Int16Builder) NewInt16Array() (a *Int16) {
-	data := b.newData()
-	a = NewInt16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 2*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int16(v))
-	return nil
-}
-
-func (b *Int16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int16(f))
-	case float64:
-		b.Append(int16(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int16(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int16(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint16
-}
-
-func NewUint16Builder(mem memory.Allocator) *Uint16Builder {
-	return &Uint16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint16Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint16Builder) Append(v uint16) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint16Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint16Builder) UnsafeAppend(v uint16) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint16Builder) AppendValues(v []uint16, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint16Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint16Traits.BytesRequired(n))
-		b.rawData = arrow.Uint16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint16Builder) Value(i int) uint16 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint16 array from the memory buffers used by the builder and resets the Uint16Builder
-// so it can be used to build a new array.
-func (b *Uint16Builder) NewArray() arrow.Array {
-	return b.NewUint16Array()
-}
-
-// NewUint16Array creates a Uint16 array from the memory buffers used by the builder and resets the Uint16Builder
-// so it can be used to build a new array.
-func (b *Uint16Builder) NewUint16Array() (a *Uint16) {
-	data := b.newData()
-	a = NewUint16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 2*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint16(v))
-	return nil
-}
-
-func (b *Uint16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint16(f))
-	case float64:
-		b.Append(uint16(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint16(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint16(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int8Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int8
-}
-
-func NewInt8Builder(mem memory.Allocator) *Int8Builder {
-	return &Int8Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int8Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int8 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int8Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int8Builder) Append(v int8) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int8Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int8Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int8Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int8Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int8Builder) UnsafeAppend(v int8) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int8Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int8Builder) AppendValues(v []int8, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int8Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int8Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int8Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int8Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int8Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int8Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int8Traits.BytesRequired(n))
-		b.rawData = arrow.Int8Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int8Builder) Value(i int) int8 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int8 array from the memory buffers used by the builder and resets the Int8Builder
-// so it can be used to build a new array.
-func (b *Int8Builder) NewArray() arrow.Array {
-	return b.NewInt8Array()
-}
-
-// NewInt8Array creates a Int8 array from the memory buffers used by the builder and resets the Int8Builder
-// so it can be used to build a new array.
-func (b *Int8Builder) NewInt8Array() (a *Int8) {
-	data := b.newData()
-	a = NewInt8Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int8Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int8Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int8, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int8Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 1*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int8(v))
-	return nil
-}
-
-func (b *Int8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int8(f))
-	case float64:
-		b.Append(int8(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int8(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int8(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int8Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint8Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint8
-}
-
-func NewUint8Builder(mem memory.Allocator) *Uint8Builder {
-	return &Uint8Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint8Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint8 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint8Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint8Builder) Append(v uint8) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint8Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint8Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint8Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint8Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint8Builder) UnsafeAppend(v uint8) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint8Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint8Builder) AppendValues(v []uint8, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint8Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint8Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint8Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint8Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint8Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint8Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint8Traits.BytesRequired(n))
-		b.rawData = arrow.Uint8Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint8Builder) Value(i int) uint8 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint8 array from the memory buffers used by the builder and resets the Uint8Builder
-// so it can be used to build a new array.
-func (b *Uint8Builder) NewArray() arrow.Array {
-	return b.NewUint8Array()
-}
-
-// NewUint8Array creates a Uint8 array from the memory buffers used by the builder and resets the Uint8Builder
-// so it can be used to build a new array.
-func (b *Uint8Builder) NewUint8Array() (a *Uint8) {
-	data := b.newData()
-	a = NewUint8Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint8Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint8Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint8, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint8Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 1*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint8(v))
-	return nil
-}
-
-func (b *Uint8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint8(f))
-	case float64:
-		b.Append(uint8(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint8(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint8(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint8Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Time32Builder struct {
-	builder
-
-	dtype   *arrow.Time32Type
-	data    *memory.Buffer
-	rawData []arrow.Time32
-}
-
-func NewTime32Builder(mem memory.Allocator, dtype *arrow.Time32Type) *Time32Builder {
-	return &Time32Builder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *Time32Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Time32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Time32Builder) Append(v arrow.Time32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Time32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Time32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Time32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Time32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Time32Builder) UnsafeAppend(v arrow.Time32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Time32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Time32Builder) AppendValues(v []arrow.Time32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Time32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Time32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Time32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Time32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Time32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Time32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Time32Traits.BytesRequired(n))
-		b.rawData = arrow.Time32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Time32Builder) Value(i int) arrow.Time32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Time32 array from the memory buffers used by the builder and resets the Time32Builder
-// so it can be used to build a new array.
-func (b *Time32Builder) NewArray() arrow.Array {
-	return b.NewTime32Array()
-}
-
-// NewTime32Array creates a Time32 array from the memory buffers used by the builder and resets the Time32Builder
-// so it can be used to build a new array.
-func (b *Time32Builder) NewTime32Array() (a *Time32) {
-	data := b.newData()
-	a = NewTime32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Time32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Time32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Time32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := arrow.Time32FromString(s, b.dtype.Unit)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Time32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := arrow.Time32FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Time32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Time32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Time32(n))
-	case float64:
-		b.Append(arrow.Time32(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Time32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Time32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Time32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Time64Builder struct {
-	builder
-
-	dtype   *arrow.Time64Type
-	data    *memory.Buffer
-	rawData []arrow.Time64
-}
-
-func NewTime64Builder(mem memory.Allocator, dtype *arrow.Time64Type) *Time64Builder {
-	return &Time64Builder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *Time64Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Time64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Time64Builder) Append(v arrow.Time64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Time64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Time64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Time64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Time64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Time64Builder) UnsafeAppend(v arrow.Time64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Time64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Time64Builder) AppendValues(v []arrow.Time64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Time64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Time64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Time64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Time64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Time64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Time64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Time64Traits.BytesRequired(n))
-		b.rawData = arrow.Time64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Time64Builder) Value(i int) arrow.Time64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Time64 array from the memory buffers used by the builder and resets the Time64Builder
-// so it can be used to build a new array.
-func (b *Time64Builder) NewArray() arrow.Array {
-	return b.NewTime64Array()
-}
-
-// NewTime64Array creates a Time64 array from the memory buffers used by the builder and resets the Time64Builder
-// so it can be used to build a new array.
-func (b *Time64Builder) NewTime64Array() (a *Time64) {
-	data := b.newData()
-	a = NewTime64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Time64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Time64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Time64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := arrow.Time64FromString(s, b.dtype.Unit)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Time64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := arrow.Time64FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Time64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Time64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Time64(n))
-	case float64:
-		b.Append(arrow.Time64(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Time64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Time64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Time64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Date32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.Date32
-}
-
-func NewDate32Builder(mem memory.Allocator) *Date32Builder {
-	return &Date32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Date32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Date32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Date32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Date32Builder) Append(v arrow.Date32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Date32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Date32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Date32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Date32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Date32Builder) UnsafeAppend(v arrow.Date32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Date32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Date32Builder) AppendValues(v []arrow.Date32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Date32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Date32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Date32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Date32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Date32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Date32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Date32Traits.BytesRequired(n))
-		b.rawData = arrow.Date32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Date32Builder) Value(i int) arrow.Date32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Date32 array from the memory buffers used by the builder and resets the Date32Builder
-// so it can be used to build a new array.
-func (b *Date32Builder) NewArray() arrow.Array {
-	return b.NewDate32Array()
-}
-
-// NewDate32Array creates a Date32 array from the memory buffers used by the builder and resets the Date32Builder
-// so it can be used to build a new array.
-func (b *Date32Builder) NewDate32Array() (a *Date32) {
-	data := b.newData()
-	a = NewDate32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Date32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Date32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Date32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Date32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	tm, err := time.Parse("2006-01-02", s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.Date32FromTime(tm))
-	return nil
-}
-
-func (b *Date32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Date32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(arrow.Date32FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Date32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Date32(n))
-	case float64:
-		b.Append(arrow.Date32(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Date32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Date32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Date32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Date64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.Date64
-}
-
-func NewDate64Builder(mem memory.Allocator) *Date64Builder {
-	return &Date64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Date64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Date64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Date64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Date64Builder) Append(v arrow.Date64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Date64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Date64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Date64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Date64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Date64Builder) UnsafeAppend(v arrow.Date64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Date64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Date64Builder) AppendValues(v []arrow.Date64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Date64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Date64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Date64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Date64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Date64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Date64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Date64Traits.BytesRequired(n))
-		b.rawData = arrow.Date64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Date64Builder) Value(i int) arrow.Date64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Date64 array from the memory buffers used by the builder and resets the Date64Builder
-// so it can be used to build a new array.
-func (b *Date64Builder) NewArray() arrow.Array {
-	return b.NewDate64Array()
-}
-
-// NewDate64Array creates a Date64 array from the memory buffers used by the builder and resets the Date64Builder
-// so it can be used to build a new array.
-func (b *Date64Builder) NewDate64Array() (a *Date64) {
-	data := b.newData()
-	a = NewDate64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Date64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Date64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Date64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Date64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	tm, err := time.Parse("2006-01-02", s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.Date64FromTime(tm))
-	return nil
-}
-
-func (b *Date64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Date64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(arrow.Date64FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Date64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Date64(n))
-	case float64:
-		b.Append(arrow.Date64(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Date64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Date64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Date64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type DurationBuilder struct {
-	builder
-
-	dtype   *arrow.DurationType
-	data    *memory.Buffer
-	rawData []arrow.Duration
-}
-
-func NewDurationBuilder(mem memory.Allocator, dtype *arrow.DurationType) *DurationBuilder {
-	return &DurationBuilder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *DurationBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *DurationBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *DurationBuilder) Append(v arrow.Duration) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *DurationBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *DurationBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *DurationBuilder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *DurationBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *DurationBuilder) UnsafeAppend(v arrow.Duration) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *DurationBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *DurationBuilder) AppendValues(v []arrow.Duration, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.DurationTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *DurationBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.DurationTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.DurationTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *DurationBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *DurationBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.DurationTraits.BytesRequired(n))
-		b.rawData = arrow.DurationTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *DurationBuilder) Value(i int) arrow.Duration {
-	return b.rawData[i]
-}
-
-// NewArray creates a Duration array from the memory buffers used by the builder and resets the DurationBuilder
-// so it can be used to build a new array.
-func (b *DurationBuilder) NewArray() arrow.Array {
-	return b.NewDurationArray()
-}
-
-// NewDurationArray creates a Duration array from the memory buffers used by the builder and resets the DurationBuilder
-// so it can be used to build a new array.
-func (b *DurationBuilder) NewDurationArray() (a *Duration) {
-	data := b.newData()
-	a = NewDurationData(data)
-	data.Release()
-	return
-}
-
-func (b *DurationBuilder) newData() (data *Data) {
-	bytesRequired := arrow.DurationTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *DurationBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dur, err := time.ParseDuration(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(arrow.Duration(dur / b.dtype.Unit.Multiplier()))
-	return nil
-}
-
-func (b *DurationBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Duration(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Duration(n))
-	case float64:
-		b.Append(arrow.Duration(v))
-	case string:
-		// be flexible for specifying durations by accepting forms like
-		// 3h2m0.5s regardless of the unit and converting it to the proper
-		// precision.
-		val, err := time.ParseDuration(v)
-		if err != nil {
-			// if we got an error, maybe it was because the attempt to create
-			// a time.Duration (int64) in nanoseconds would overflow. check if
-			// the string is just a large number followed by the unit suffix
-			if strings.HasSuffix(v, b.dtype.Unit.String()) {
-				value, err := strconv.ParseInt(v[:len(v)-len(b.dtype.Unit.String())], 10, 64)
-				if err == nil {
-					b.Append(arrow.Duration(value))
-					break
-				}
-			}
-
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Duration(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		switch b.dtype.Unit {
-		case arrow.Nanosecond:
-			b.Append(arrow.Duration(val.Nanoseconds()))
-		case arrow.Microsecond:
-			b.Append(arrow.Duration(val.Microseconds()))
-		case arrow.Millisecond:
-			b.Append(arrow.Duration(val.Milliseconds()))
-		case arrow.Second:
-			b.Append(arrow.Duration(val.Seconds()))
-		}
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Duration(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *DurationBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *DurationBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ Builder = (*Int64Builder)(nil)
-	_ Builder = (*Uint64Builder)(nil)
-	_ Builder = (*Float64Builder)(nil)
-	_ Builder = (*Int32Builder)(nil)
-	_ Builder = (*Uint32Builder)(nil)
-	_ Builder = (*Float32Builder)(nil)
-	_ Builder = (*Int16Builder)(nil)
-	_ Builder = (*Uint16Builder)(nil)
-	_ Builder = (*Int8Builder)(nil)
-	_ Builder = (*Uint8Builder)(nil)
-	_ Builder = (*Time32Builder)(nil)
-	_ Builder = (*Time64Builder)(nil)
-	_ Builder = (*Date32Builder)(nil)
-	_ Builder = (*Date64Builder)(nil)
-	_ Builder = (*DurationBuilder)(nil)
-)
diff --git a/go/arrow/array/numericbuilder.gen.go.tmpl b/go/arrow/array/numericbuilder.gen.go.tmpl
deleted file mode 100644
index d8b92cf60cc39..0000000000000
--- a/go/arrow/array/numericbuilder.gen.go.tmpl
+++ /dev/null
@@ -1,447 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-{{range .In}}
-
-type {{.Name}}Builder struct {
-	builder
-
-{{if .Opt.Parametric -}}
-	dtype    *arrow.{{.Name}}Type
-{{end -}}
-	data    *memory.Buffer
-	rawData []{{or .QualifiedType .Type}}
-}
-
-{{if .Opt.Parametric}}
-func New{{.Name}}Builder(mem memory.Allocator, dtype *arrow.{{.Name}}Type) *{{.Name}}Builder {
-	return &{{.Name}}Builder{builder: builder{refCount:1, mem: mem}, dtype: dtype}
-}
-
-func (b *{{.Name}}Builder) Type() arrow.DataType { return b.dtype }
-
-{{else}}
-func New{{.Name}}Builder(mem memory.Allocator) *{{.Name}}Builder {
-	return &{{.Name}}Builder{builder: builder{refCount:1, mem: mem}}
-}
-
-func (b *{{.Name}}Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.{{.Name}} }
-{{end}}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *{{.Name}}Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *{{.Name}}Builder) Append(v {{or .QualifiedType .Type}}) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *{{.Name}}Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *{{.Name}}Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *{{.Name}}Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *{{.Name}}Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i ++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *{{.Name}}Builder) UnsafeAppend(v {{or .QualifiedType .Type}}) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *{{.Name}}Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *{{.Name}}Builder) AppendValues(v []{{or .QualifiedType .Type}}, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.{{.Name}}Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *{{.Name}}Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.{{.Name}}Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.{{.Name}}Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *{{.Name}}Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *{{.Name}}Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.{{.Name}}Traits.BytesRequired(n))
-		b.rawData = arrow.{{.Name}}Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *{{.Name}}Builder) Value(i int) {{or .QualifiedType .Type}} {
-	return b.rawData[i]
-}
-
-// NewArray creates a {{.Name}} array from the memory buffers used by the builder and resets the {{.Name}}Builder
-// so it can be used to build a new array.
-func (b *{{.Name}}Builder) NewArray() arrow.Array {
-	return b.New{{.Name}}Array()
-}
-
-// New{{.Name}}Array creates a {{.Name}} array from the memory buffers used by the builder and resets the {{.Name}}Builder
-// so it can be used to build a new array.
-func (b *{{.Name}}Builder) New{{.Name}}Array() (a *{{.Name}}) {
-	data := b.newData()
-	a = New{{.Name}}Data(data)
-	data.Release()
-	return
-}
-
-func (b *{{.Name}}Builder) newData() (data *Data) {
-	bytesRequired := arrow.{{.Name}}Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-{{if .Opt.Parametric -}}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-{{else -}}
-	data = NewData(arrow.PrimitiveTypes.{{.Name}}, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-{{end -}}
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *{{.Name}}Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-  {{if or (eq .Name "Date32") -}}
-  	tm, err := time.Parse("2006-01-02", s)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(arrow.Date32FromTime(tm))
-  {{else if or (eq .Name "Date64") -}}
-  	tm, err := time.Parse("2006-01-02", s)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(arrow.Date64FromTime(tm))
-  {{else if or (eq .Name "Time32") -}}
-  	val, err := arrow.Time32FromString(s, b.dtype.Unit)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(val)
-  {{else if or (eq .Name "Time64") -}}
-    val, err := arrow.Time64FromString(s, b.dtype.Unit)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(val)
-  {{else if (eq .Name "Duration") -}}
-	dur, err := time.ParseDuration(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(arrow.Duration(dur / b.dtype.Unit.Multiplier()))
-  {{else if or (eq .Name "Int8") (eq .Name "Int16") (eq .Name "Int32") (eq .Name "Int64") -}}
-    v, err := strconv.ParseInt(s, 10, {{.Size}} * 8)
-    if err != nil {
-        b.AppendNull()
-        return err
-    }
-    b.Append({{.name}}(v))
-  {{else if or (eq .Name "Uint8") (eq .Name "Uint16") (eq .Name "Uint32") (eq .Name "Uint64") -}}
-    v, err := strconv.ParseUint(s, 10, {{.Size}} * 8)
-    if err != nil {
-        b.AppendNull()
-        return err
-    }
-    b.Append({{.name}}(v))
-  {{else if or (eq .Name "Float32") (eq .Name "Float64") -}}
-    v, err := strconv.ParseFloat(s, {{.Size}} * 8)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append({{.name}}(v))
-  {{end -}}
-	return nil
-}
-
-func (b *{{.Name}}Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append({{.QualifiedType}}FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-	case string:
-		tm, err := {{.QualifiedType}}FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-{{else if eq .Name "Duration" -}}
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-	case string:
-		// be flexible for specifying durations by accepting forms like
-		// 3h2m0.5s regardless of the unit and converting it to the proper
-		// precision.
-		val, err := time.ParseDuration(v)
-		if err != nil {
-			// if we got an error, maybe it was because the attempt to create
-			// a time.Duration (int64) in nanoseconds would overflow. check if
-			// the string is just a large number followed by the unit suffix
-			if strings.HasSuffix(v, b.dtype.Unit.String()) {
-				value, err := strconv.ParseInt(v[:len(v)-len(b.dtype.Unit.String())], 10, 64)
-				if err == nil {
-					b.Append(arrow.Duration(value))
-					break
-				}
-			}
-
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		switch b.dtype.Unit {
-		case arrow.Nanosecond:
-			b.Append({{.QualifiedType}}(val.Nanoseconds()))
-		case arrow.Microsecond:
-			b.Append({{.QualifiedType}}(val.Microseconds()))
-		case arrow.Millisecond:
-			b.Append({{.QualifiedType}}(val.Milliseconds()))
-		case arrow.Second:
-			b.Append({{.QualifiedType}}(val.Seconds()))
-		}
-{{else}}
-	case string:
-{{if or (eq .Name "Float32") (eq .Name "Float64") -}}
-		f, err := strconv.ParseFloat(v, {{.Size}}*8)
-{{else if eq (printf "%.1s" .Name) "U" -}}
-		f, err := strconv.ParseUint(v, 10, {{.Size}}*8)
-{{else -}}
-		f, err := strconv.ParseInt(v, 10, {{.Size}}*8)
-{{end -}}
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.name}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.name}}(f))
-	case float64:
-		b.Append({{.name}}(v))
-	case json.Number:
-{{if or (eq .Name "Float32") (eq .Name "Float64") -}}
-		f, err := strconv.ParseFloat(v.String(), {{.Size}}*8)
-{{else if eq (printf "%.1s" .Name) "U" -}}
-		f, err := strconv.ParseUint(v.String(), 10, {{.Size}}*8)
-{{else -}}
-		f, err := strconv.ParseInt(v.String(), 10, {{.Size}}*8)
-{{end -}}
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.name}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.name}}(f))
-{{end}}
-	default:
-		return &json.UnmarshalTypeError{
-			Value: fmt.Sprint(t),
-			Type: reflect.TypeOf({{or .QualifiedType .Type}}(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *{{.Name}}Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *{{.Name}}Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-{{end}}
-
-var (
-{{- range .In}}
-	_ Builder = (*{{.Name}}Builder)(nil)
-{{- end}}
-)
diff --git a/go/arrow/array/numericbuilder.gen_test.go b/go/arrow/array/numericbuilder.gen_test.go
deleted file mode 100644
index 8adf86853b7c7..0000000000000
--- a/go/arrow/array/numericbuilder.gen_test.go
+++ /dev/null
@@ -1,3125 +0,0 @@
-// Code generated by array/numericbuilder.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt64Array()
-
-	// check state of builder after NewInt64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int64Values(), "unexpected Int64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int64Values(), 10, "unexpected length of Int64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int64{7, 8}, a.Int64Values())
-	assert.Len(t, a.Int64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int64); !ok {
-		t.Fatalf("could not type-assert to array.Int64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	exp := []int64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-
-	a.Release()
-}
-
-func TestInt64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	exp := []int64{0, 1, 2, 3}
-
-	ab.AppendValues([]int64{}, nil)
-	a := ab.NewInt64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int64{}, nil)
-	a = ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-	a.Release()
-}
-
-func TestInt64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint64Array()
-
-	// check state of builder after NewUint64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint64Values(), "unexpected Uint64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint64Values(), 10, "unexpected length of Uint64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint64{7, 8}, a.Uint64Values())
-	assert.Len(t, a.Uint64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint64); !ok {
-		t.Fatalf("could not type-assert to array.Uint64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	exp := []uint64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-
-	a.Release()
-}
-
-func TestUint64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	exp := []uint64{0, 1, 2, 3}
-
-	ab.AppendValues([]uint64{}, nil)
-	a := ab.NewUint64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint64{}, nil)
-	a = ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-	a.Release()
-}
-
-func TestUint64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewFloat64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewFloat64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat64Array()
-
-	// check state of builder after NewFloat64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []float64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Float64Values(), "unexpected Float64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Float64Values(), 10, "unexpected length of Float64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewFloat64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float64{7, 8}, a.Float64Values())
-	assert.Len(t, a.Float64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []float64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewFloat64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Float64); !ok {
-		t.Fatalf("could not type-assert to array.Float64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Float64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Float64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestFloat64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	exp := []float64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-
-	a.Release()
-}
-
-func TestFloat64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	exp := []float64{0, 1, 2, 3}
-
-	ab.AppendValues([]float64{}, nil)
-	a := ab.NewFloat64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]float64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]float64{}, nil)
-	a = ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-	a.Release()
-}
-
-func TestFloat64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat64BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.NewFloat64Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-func TestInt32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt32Array()
-
-	// check state of builder after NewInt32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int32Values(), "unexpected Int32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int32Values(), 10, "unexpected length of Int32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int32{7, 8}, a.Int32Values())
-	assert.Len(t, a.Int32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int32); !ok {
-		t.Fatalf("could not type-assert to array.Int32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	exp := []int32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-
-	a.Release()
-}
-
-func TestInt32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	exp := []int32{0, 1, 2, 3}
-
-	ab.AppendValues([]int32{}, nil)
-	a := ab.NewInt32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int32{}, nil)
-	a = ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-	a.Release()
-}
-
-func TestInt32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint32Array()
-
-	// check state of builder after NewUint32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint32Values(), "unexpected Uint32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint32Values(), 10, "unexpected length of Uint32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint32{7, 8}, a.Uint32Values())
-	assert.Len(t, a.Uint32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint32); !ok {
-		t.Fatalf("could not type-assert to array.Uint32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	exp := []uint32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-
-	a.Release()
-}
-
-func TestUint32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	exp := []uint32{0, 1, 2, 3}
-
-	ab.AppendValues([]uint32{}, nil)
-	a := ab.NewUint32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint32{}, nil)
-	a = ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-	a.Release()
-}
-
-func TestUint32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Float32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewFloat32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewFloat32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat32Array()
-
-	// check state of builder after NewFloat32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []float32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Float32Values(), "unexpected Float32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Float32Values(), 10, "unexpected length of Float32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewFloat32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float32{7, 8}, a.Float32Values())
-	assert.Len(t, a.Float32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []float32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewFloat32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Float32); !ok {
-		t.Fatalf("could not type-assert to array.Float32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Float32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Float32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestFloat32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	exp := []float32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-
-	a.Release()
-}
-
-func TestFloat32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	exp := []float32{0, 1, 2, 3}
-
-	ab.AppendValues([]float32{}, nil)
-	a := ab.NewFloat32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]float32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]float32{}, nil)
-	a = ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-	a.Release()
-}
-
-func TestFloat32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat32BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.NewFloat32Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-func TestInt16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt16Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt16Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt16Array()
-
-	// check state of builder after NewInt16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int16{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int16Values(), "unexpected Int16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int16Values(), 10, "unexpected length of Int16Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int16{7, 8}, a.Int16Values())
-	assert.Len(t, a.Int16Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int16{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt16Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int16); !ok {
-		t.Fatalf("could not type-assert to array.Int16")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int16)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int16")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt16Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	exp := []int16{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-
-	a.Release()
-}
-
-func TestInt16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	exp := []int16{0, 1, 2, 3}
-
-	ab.AppendValues([]int16{}, nil)
-	a := ab.NewInt16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int16{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int16{}, nil)
-	a = ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-	a.Release()
-}
-
-func TestInt16Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint16Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint16Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint16Array()
-
-	// check state of builder after NewUint16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint16{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint16Values(), "unexpected Uint16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint16Values(), 10, "unexpected length of Uint16Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint16{7, 8}, a.Uint16Values())
-	assert.Len(t, a.Uint16Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint16{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint16Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint16); !ok {
-		t.Fatalf("could not type-assert to array.Uint16")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint16)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint16")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint16Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	exp := []uint16{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-
-	a.Release()
-}
-
-func TestUint16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	exp := []uint16{0, 1, 2, 3}
-
-	ab.AppendValues([]uint16{}, nil)
-	a := ab.NewUint16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint16{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint16{}, nil)
-	a = ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-	a.Release()
-}
-
-func TestUint16Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestInt8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt8Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int8)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int8)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt8Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt8Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt8Array()
-
-	// check state of builder after NewInt8Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt8Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt8Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt8Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int8{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int8Values(), "unexpected Int8Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int8Values(), 10, "unexpected length of Int8Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt8Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int8{7, 8}, a.Int8Values())
-	assert.Len(t, a.Int8Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int8{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt8Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int8); !ok {
-		t.Fatalf("could not type-assert to array.Int8")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int8)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int8")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt8Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	exp := []int8{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-
-	a.Release()
-}
-
-func TestInt8Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	exp := []int8{0, 1, 2, 3}
-
-	ab.AppendValues([]int8{}, nil)
-	a := ab.NewInt8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int8{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int8{}, nil)
-	a = ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-	a.Release()
-}
-
-func TestInt8Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint8Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint8)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint8)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint8Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint8Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint8Array()
-
-	// check state of builder after NewUint8Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint8Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint8Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint8Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint8{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint8Values(), "unexpected Uint8Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint8Values(), 10, "unexpected length of Uint8Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint8Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint8{7, 8}, a.Uint8Values())
-	assert.Len(t, a.Uint8Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint8{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint8Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint8); !ok {
-		t.Fatalf("could not type-assert to array.Uint8")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint8)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint8")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint8Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	exp := []uint8{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-
-	a.Release()
-}
-
-func TestUint8Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	exp := []uint8{0, 1, 2, 3}
-
-	ab.AppendValues([]uint8{}, nil)
-	a := ab.NewUint8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint8{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint8{}, nil)
-	a = ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-	a.Release()
-}
-
-func TestUint8Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTime32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.Time32Type{Unit: arrow.Second}
-	b := array.NewTime32Builder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTime32Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Time32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTime32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewTime32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTime32Array()
-
-	// check state of builder after NewTime32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTime32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTime32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTime32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Time32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Time32Values(), "unexpected Time32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Time32Values(), 10, "unexpected length of Time32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTime32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Time32{7, 8}, a.Time32Values())
-	assert.Len(t, a.Time32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Time32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTime32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Time32); !ok {
-		t.Fatalf("could not type-assert to array.Time32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Time32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Time32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTime32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-
-	a.Release()
-}
-
-func TestTime32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time32{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Time32{}, nil)
-	a := ab.NewTime32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTime32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Time32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Time32{}, nil)
-	a = ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-	a.Release()
-}
-
-func TestTime32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTime64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.Time64Type{Unit: arrow.Microsecond}
-	b := array.NewTime64Builder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTime64Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Time64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTime64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewTime64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTime64Array()
-
-	// check state of builder after NewTime64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTime64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTime64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTime64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Time64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Time64Values(), "unexpected Time64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Time64Values(), 10, "unexpected length of Time64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTime64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Time64{7, 8}, a.Time64Values())
-	assert.Len(t, a.Time64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Time64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTime64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Time64); !ok {
-		t.Fatalf("could not type-assert to array.Time64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Time64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Time64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTime64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-
-	a.Release()
-}
-
-func TestTime64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time64{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Time64{}, nil)
-	a := ab.NewTime64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTime64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Time64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Time64{}, nil)
-	a = ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-	a.Release()
-}
-
-func TestTime64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDate32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDate32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDate32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Date32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewDate32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDate32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDate32Array()
-
-	// check state of builder after NewDate32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDate32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDate32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDate32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Date32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Date32Values(), "unexpected Date32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Date32Values(), 10, "unexpected length of Date32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDate32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Date32{7, 8}, a.Date32Values())
-	assert.Len(t, a.Date32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Date32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDate32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Date32); !ok {
-		t.Fatalf("could not type-assert to array.Date32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Date32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Date32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDate32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-
-	a.Release()
-}
-
-func TestDate32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date32{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Date32{}, nil)
-	a := ab.NewDate32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDate32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Date32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Date32{}, nil)
-	a = ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-	a.Release()
-}
-
-func TestDate32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDate64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDate64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDate64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Date64)
-	defer arr1.Release()
-
-	assert.Exactly(t, arr.Len(), arr1.Len())
-	for i := 0; i < arr.Len(); i++ {
-		assert.Exactly(t, arr.IsValid(i), arr1.IsValid(i))
-		assert.Exactly(t, arr.ValueStr(i), arr1.ValueStr(i))
-		if arr.IsValid(i) {
-			assert.Exactly(t, arr.Value(i).ToTime(), arr1.Value(i).ToTime())
-		}
-	}
-}
-
-func TestNewDate64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDate64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDate64Array()
-
-	// check state of builder after NewDate64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDate64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDate64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDate64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Date64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Date64Values(), "unexpected Date64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Date64Values(), 10, "unexpected length of Date64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDate64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Date64{7, 8}, a.Date64Values())
-	assert.Len(t, a.Date64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Date64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDate64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Date64); !ok {
-		t.Fatalf("could not type-assert to array.Date64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Date64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Date64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDate64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-
-	a.Release()
-}
-
-func TestDate64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date64{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Date64{}, nil)
-	a := ab.NewDate64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDate64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Date64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Date64{}, nil)
-	a = ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-	a.Release()
-}
-
-func TestDate64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDurationStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DurationType{Unit: arrow.Second}
-	b := array.NewDurationBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Duration)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDurationBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Duration)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewDurationBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDurationArray
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDurationArray()
-
-	// check state of builder after NewDurationArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDurationArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDurationArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDurationArray did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Duration{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.DurationValues(), "unexpected DurationValues")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.DurationValues(), 10, "unexpected length of DurationValues")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDurationArray()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Duration{7, 8}, a.DurationValues())
-	assert.Len(t, a.DurationValues(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Duration{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDurationArray()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Duration); !ok {
-		t.Fatalf("could not type-assert to array.Duration")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Duration)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Duration")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDurationBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Duration{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-
-	a.Release()
-}
-
-func TestDurationBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Duration{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Duration{}, nil)
-	a := ab.NewDurationArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDurationArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Duration{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Duration{}, nil)
-	a = ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-	a.Release()
-}
-
-func TestDurationBuilder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
diff --git a/go/arrow/array/numericbuilder.gen_test.go.tmpl b/go/arrow/array/numericbuilder.gen_test.go.tmpl
deleted file mode 100644
index f3cd08a63745d..0000000000000
--- a/go/arrow/array/numericbuilder.gen_test.go.tmpl
+++ /dev/null
@@ -1,299 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-{{range .In}}
-func Test{{.Name}}StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-{{ if or (eq .Name "Time64") -}}
-	dt := &arrow.{{.Name}}Type{Unit: arrow.Microsecond}
-{{else -}}
-	dt := &arrow.{{.Name}}Type{Unit: arrow.Second}
-{{end -}}
-	b := array.New{{.Name}}Builder(mem, dt)
-{{else -}}
-	b := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.{{.Name}})
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-{{if .Opt.Parametric -}}
-	b1 := array.New{{.Name}}Builder(mem, dt)
-{{else -}}
-	b1 := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.{{.Name}})
-	defer arr1.Release()
-
-{{ if or (eq .Name "Date64") -}}
-	assert.Exactly(t, arr.Len(), arr1.Len())
-	for i := 0; i < arr.Len(); i++ {
-		assert.Exactly(t, arr.IsValid(i), arr1.IsValid(i))
-		assert.Exactly(t, arr.ValueStr(i), arr1.ValueStr(i))
-		if arr.IsValid(i) {
-			assert.Exactly(t, arr.Value(i).ToTime(), arr1.Value(i).ToTime())
-		}
-	}
-{{else -}}
-	assert.True(t, array.Equal(arr, arr1))
-{{end -}}
-}
-
-func TestNew{{.Name}}Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before New{{.Name}}Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.New{{.Name}}Array()
-
-	// check state of builder after New{{.Name}}Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), New{{.Name}}Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), New{{.Name}}Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), New{{.Name}}Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []{{or .QualifiedType .Type}}{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.{{.Name}}Values(), "unexpected {{.Name}}Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.{{.Name}}Values(), 10, "unexpected length of {{.Name}}Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.New{{.Name}}Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []{{or .QualifiedType .Type}}{7, 8}, a.{{.Name}}Values())
-	assert.Len(t, a.{{.Name}}Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []{{or .QualifiedType .Type}}{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.New{{.Name}}Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.{{.Name}}); !ok {
-		t.Fatalf("could not type-assert to array.{{.Name}}")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.{{.Name}})
-	if !ok {
-		t.Fatalf("could not type-assert to array.{{.Name}}")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func Test{{.Name}}Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	exp := []{{or .QualifiedType .Type}}{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-
-	a.Release()
-}
-
-func Test{{.Name}}Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	exp := []{{or .QualifiedType .Type}}{0, 1, 2, 3}
-
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	a := ab.New{{.Name}}Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-	a.Release()
-}
-
-func Test{{.Name}}Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func Test{{.Name}}BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.New{{.Name}}Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.New{{.Name}}Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-{{end}}
-
-
diff --git a/go/arrow/array/record.go b/go/arrow/array/record.go
deleted file mode 100644
index 2735f1baa9a30..0000000000000
--- a/go/arrow/array/record.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// RecordReader reads a stream of records.
-type RecordReader interface {
-	Retain()
-	Release()
-
-	Schema() *arrow.Schema
-
-	Next() bool
-	Record() arrow.Record
-	Err() error
-}
-
-// simpleRecords is a simple iterator over a collection of records.
-type simpleRecords struct {
-	refCount int64
-
-	schema *arrow.Schema
-	recs   []arrow.Record
-	cur    arrow.Record
-}
-
-// NewRecordReader returns a simple iterator over the given slice of records.
-func NewRecordReader(schema *arrow.Schema, recs []arrow.Record) (RecordReader, error) {
-	rs := &simpleRecords{
-		refCount: 1,
-		schema:   schema,
-		recs:     recs,
-		cur:      nil,
-	}
-
-	for _, rec := range rs.recs {
-		rec.Retain()
-	}
-
-	for _, rec := range recs {
-		if !rec.Schema().Equal(rs.schema) {
-			rs.Release()
-			return nil, fmt.Errorf("arrow/array: mismatch schema")
-		}
-	}
-
-	return rs, nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (rs *simpleRecords) Retain() {
-	atomic.AddInt64(&rs.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (rs *simpleRecords) Release() {
-	debug.Assert(atomic.LoadInt64(&rs.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&rs.refCount, -1) == 0 {
-		if rs.cur != nil {
-			rs.cur.Release()
-		}
-		for _, rec := range rs.recs {
-			rec.Release()
-		}
-		rs.recs = nil
-	}
-}
-
-func (rs *simpleRecords) Schema() *arrow.Schema { return rs.schema }
-func (rs *simpleRecords) Record() arrow.Record  { return rs.cur }
-func (rs *simpleRecords) Next() bool {
-	if len(rs.recs) == 0 {
-		return false
-	}
-	if rs.cur != nil {
-		rs.cur.Release()
-	}
-	rs.cur = rs.recs[0]
-	rs.recs = rs.recs[1:]
-	return true
-}
-func (rs *simpleRecords) Err() error { return nil }
-
-// simpleRecord is a basic, non-lazy in-memory record batch.
-type simpleRecord struct {
-	refCount int64
-
-	schema *arrow.Schema
-
-	rows int64
-	arrs []arrow.Array
-}
-
-// NewRecord returns a basic, non-lazy in-memory record batch.
-//
-// NewRecord panics if the columns and schema are inconsistent.
-// NewRecord panics if rows is larger than the height of the columns.
-func NewRecord(schema *arrow.Schema, cols []arrow.Array, nrows int64) arrow.Record {
-	rec := &simpleRecord{
-		refCount: 1,
-		schema:   schema,
-		rows:     nrows,
-		arrs:     make([]arrow.Array, len(cols)),
-	}
-	copy(rec.arrs, cols)
-	for _, arr := range rec.arrs {
-		arr.Retain()
-	}
-
-	if rec.rows < 0 {
-		switch len(rec.arrs) {
-		case 0:
-			rec.rows = 0
-		default:
-			rec.rows = int64(rec.arrs[0].Len())
-		}
-	}
-
-	err := rec.validate()
-	if err != nil {
-		rec.Release()
-		panic(err)
-	}
-
-	return rec
-}
-
-func (rec *simpleRecord) SetColumn(i int, arr arrow.Array) (arrow.Record, error) {
-	if i < 0 || i >= len(rec.arrs) {
-		return nil, fmt.Errorf("arrow/array: column index out of range [0, %d): got=%d", len(rec.arrs), i)
-	}
-
-	if arr.Len() != int(rec.rows) {
-		return nil, fmt.Errorf("arrow/array: mismatch number of rows in column %q: got=%d, want=%d",
-			rec.schema.Field(i).Name,
-			arr.Len(), rec.rows,
-		)
-	}
-
-	f := rec.schema.Field(i)
-	if !arrow.TypeEqual(f.Type, arr.DataType()) {
-		return nil, fmt.Errorf("arrow/array: column %q type mismatch: got=%v, want=%v",
-			f.Name,
-			arr.DataType(), f.Type,
-		)
-	}
-	arrs := make([]arrow.Array, len(rec.arrs))
-	copy(arrs, rec.arrs)
-	arrs[i] = arr
-
-	return NewRecord(rec.schema, arrs, rec.rows), nil
-}
-
-func (rec *simpleRecord) validate() error {
-	if rec.rows == 0 && len(rec.arrs) == 0 {
-		return nil
-	}
-
-	if len(rec.arrs) != rec.schema.NumFields() {
-		return fmt.Errorf("arrow/array: number of columns/fields mismatch")
-	}
-
-	for i, arr := range rec.arrs {
-		f := rec.schema.Field(i)
-		if int64(arr.Len()) < rec.rows {
-			return fmt.Errorf("arrow/array: mismatch number of rows in column %q: got=%d, want=%d",
-				f.Name,
-				arr.Len(), rec.rows,
-			)
-		}
-		if !arrow.TypeEqual(f.Type, arr.DataType()) {
-			return fmt.Errorf("arrow/array: column %q type mismatch: got=%v, want=%v",
-				f.Name,
-				arr.DataType(), f.Type,
-			)
-		}
-	}
-	return nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (rec *simpleRecord) Retain() {
-	atomic.AddInt64(&rec.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (rec *simpleRecord) Release() {
-	debug.Assert(atomic.LoadInt64(&rec.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&rec.refCount, -1) == 0 {
-		for _, arr := range rec.arrs {
-			arr.Release()
-		}
-		rec.arrs = nil
-	}
-}
-
-func (rec *simpleRecord) Schema() *arrow.Schema    { return rec.schema }
-func (rec *simpleRecord) NumRows() int64           { return rec.rows }
-func (rec *simpleRecord) NumCols() int64           { return int64(len(rec.arrs)) }
-func (rec *simpleRecord) Columns() []arrow.Array   { return rec.arrs }
-func (rec *simpleRecord) Column(i int) arrow.Array { return rec.arrs[i] }
-func (rec *simpleRecord) ColumnName(i int) string  { return rec.schema.Field(i).Name }
-
-// NewSlice constructs a zero-copy slice of the record with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned record must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the record array.
-// NewSlice panics if j < i.
-func (rec *simpleRecord) NewSlice(i, j int64) arrow.Record {
-	arrs := make([]arrow.Array, len(rec.arrs))
-	for ii, arr := range rec.arrs {
-		arrs[ii] = NewSlice(arr, i, j)
-	}
-	defer func() {
-		for _, arr := range arrs {
-			arr.Release()
-		}
-	}()
-	return NewRecord(rec.schema, arrs, j-i)
-}
-
-func (rec *simpleRecord) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "record:\n  %v\n", rec.schema)
-	fmt.Fprintf(o, "  rows: %d\n", rec.rows)
-	for i, col := range rec.arrs {
-		fmt.Fprintf(o, "  col[%d][%s]: %v\n", i, rec.schema.Field(i).Name, col)
-	}
-
-	return o.String()
-}
-
-func (rec *simpleRecord) MarshalJSON() ([]byte, error) {
-	arr := RecordToStructArray(rec)
-	defer arr.Release()
-	return arr.MarshalJSON()
-}
-
-// RecordBuilder eases the process of building a Record, iteratively, from
-// a known Schema.
-type RecordBuilder struct {
-	refCount int64
-	mem      memory.Allocator
-	schema   *arrow.Schema
-	fields   []Builder
-}
-
-// NewRecordBuilder returns a builder, using the provided memory allocator and a schema.
-func NewRecordBuilder(mem memory.Allocator, schema *arrow.Schema) *RecordBuilder {
-	b := &RecordBuilder{
-		refCount: 1,
-		mem:      mem,
-		schema:   schema,
-		fields:   make([]Builder, schema.NumFields()),
-	}
-
-	for i := 0; i < schema.NumFields(); i++ {
-		b.fields[i] = NewBuilder(b.mem, schema.Field(i).Type)
-	}
-
-	return b
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *RecordBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-func (b *RecordBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, f := range b.fields {
-			f.Release()
-		}
-		b.fields = nil
-	}
-}
-
-func (b *RecordBuilder) Schema() *arrow.Schema { return b.schema }
-func (b *RecordBuilder) Fields() []Builder     { return b.fields }
-func (b *RecordBuilder) Field(i int) Builder   { return b.fields[i] }
-
-func (b *RecordBuilder) Reserve(size int) {
-	for _, f := range b.fields {
-		f.Reserve(size)
-	}
-}
-
-// NewRecord creates a new record from the memory buffers and resets the
-// RecordBuilder so it can be used to build a new record.
-//
-// The returned Record must be Release()'d after use.
-//
-// NewRecord panics if the fields' builder do not have the same length.
-func (b *RecordBuilder) NewRecord() arrow.Record {
-	cols := make([]arrow.Array, len(b.fields))
-	rows := int64(0)
-
-	defer func(cols []arrow.Array) {
-		for _, col := range cols {
-			if col == nil {
-				continue
-			}
-			col.Release()
-		}
-	}(cols)
-
-	for i, f := range b.fields {
-		cols[i] = f.NewArray()
-		irow := int64(cols[i].Len())
-		if i > 0 && irow != rows {
-			panic(fmt.Errorf("arrow/array: field %d has %d rows. want=%d", i, irow, rows))
-		}
-		rows = irow
-	}
-
-	return NewRecord(b.schema, cols, rows)
-}
-
-// UnmarshalJSON for record builder will read in a single object and add the values
-// to each field in the recordbuilder, missing fields will get a null and unexpected
-// keys will be ignored. If reading in an array of records as a single batch, then use
-// a structbuilder and use RecordFromStruct.
-func (b *RecordBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	// should start with a '{'
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '{' {
-		return fmt.Errorf("record should start with '{', not %s", t)
-	}
-
-	keylist := make(map[string]bool)
-	for dec.More() {
-		keyTok, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		key := keyTok.(string)
-		if keylist[key] {
-			return fmt.Errorf("key %s shows up twice in row to be decoded", key)
-		}
-		keylist[key] = true
-
-		indices := b.schema.FieldIndices(key)
-		if len(indices) == 0 {
-			var extra interface{}
-			if err := dec.Decode(&extra); err != nil {
-				return err
-			}
-			continue
-		}
-
-		if err := b.fields[indices[0]].UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-
-	for i := 0; i < b.schema.NumFields(); i++ {
-		if !keylist[b.schema.Field(i).Name] {
-			b.fields[i].AppendNull()
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.Record = (*simpleRecord)(nil)
-	_ RecordReader = (*simpleRecords)(nil)
-)
diff --git a/go/arrow/array/record_test.go b/go/arrow/array/record_test.go
deleted file mode 100644
index 8e6dc3b06d25e..0000000000000
--- a/go/arrow/array/record_test.go
+++ /dev/null
@@ -1,787 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() arrow.Array {
-		ib := array.NewInt32Builder(mem)
-		defer ib.Release()
-
-		ib.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return ib.NewInt32Array()
-	}()
-	defer col1.Release()
-
-	col2 := func() arrow.Array {
-		b := array.NewFloat64Builder(mem)
-		defer b.Release()
-
-		b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return b.NewFloat64Array()
-	}()
-	defer col2.Release()
-
-	col2_1 := func() arrow.Array {
-		b := array.NewFloat64Builder(mem)
-		defer b.Release()
-
-		b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return b.NewFloat64Array()
-	}()
-	defer col2_1.Release()
-
-	cols := []arrow.Array{col1, col2}
-	rec := array.NewRecord(schema, cols, -1)
-	defer rec.Release()
-
-	rec.Retain()
-	rec.Release()
-
-	if got, want := rec.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := rec.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.Columns()[0], cols[0]; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.Column(0), cols[0]; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.ColumnName(0), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-	if _, err := rec.SetColumn(0, col2_1); err == nil {
-		t.Fatalf("expected an error")
-	}
-	newRec, err := rec.SetColumn(1, col2_1)
-	if err != nil {
-		t.Fatalf("unexpected error: %v", err)
-	}
-	defer newRec.Release()
-	if !reflect.DeepEqual(newRec.Column(1), col2_1) {
-		t.Fatalf("invalid column: got=%q, want=%q", rec.Column(1), col2_1)
-	}
-
-	for _, tc := range []struct {
-		i, j int64
-		err  error
-	}{
-		{i: 0, j: 10, err: nil},
-		{i: 1, j: 10, err: nil},
-		{i: 1, j: 9, err: nil},
-		{i: 0, j: 0, err: nil},
-		{i: 1, j: 1, err: nil},
-		{i: 10, j: 10, err: nil},
-		{i: 1, j: 0, err: fmt.Errorf("arrow/array: index out of range")},
-		{i: 1, j: 11, err: fmt.Errorf("arrow/array: index out of range")},
-	} {
-		t.Run(fmt.Sprintf("slice-%02d-%02d", tc.i, tc.j), func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			sub := rec.NewSlice(tc.i, tc.j)
-			defer sub.Release()
-
-			if got, want := sub.NumRows(), tc.j-tc.i; got != want {
-				t.Fatalf("invalid rec-slice number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		cols   []arrow.Array
-		rows   int64
-		err    error
-	}{
-		{
-			schema: schema,
-			cols:   nil,
-			rows:   0,
-		},
-		{
-			schema: schema,
-			cols:   cols[:1],
-			rows:   0,
-			err:    fmt.Errorf("arrow/array: number of columns/fields mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf("arrow/array: number of columns/fields mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column "f2-f64" type mismatch: got=float64, want=int32`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   11,
-			err:    fmt.Errorf(`arrow/array: mismatch number of rows in column "f1-i32": got=10, want=11`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   10,
-			err:    nil,
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   3,
-			err:    nil,
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   0,
-			err:    nil,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			rec := array.NewRecord(tc.schema, tc.cols, tc.rows)
-			defer rec.Release()
-			if got, want := rec.NumRows(), tc.rows; got != want {
-				t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestRecordReader(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	rec1 := func() arrow.Record {
-		col1 := func() arrow.Array {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-			return ib.NewInt32Array()
-		}()
-		defer col1.Release()
-
-		col2 := func() arrow.Array {
-			b := array.NewFloat64Builder(mem)
-			defer b.Release()
-
-			b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-			return b.NewFloat64Array()
-		}()
-		defer col2.Release()
-
-		cols := []arrow.Array{col1, col2}
-		return array.NewRecord(schema, cols, -1)
-	}()
-	defer rec1.Release()
-
-	rec2 := func() arrow.Record {
-		col1 := func() arrow.Array {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-			return ib.NewInt32Array()
-		}()
-		defer col1.Release()
-
-		col2 := func() arrow.Array {
-			b := array.NewFloat64Builder(mem)
-			defer b.Release()
-
-			b.AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-			return b.NewFloat64Array()
-		}()
-		defer col2.Release()
-
-		cols := []arrow.Array{col1, col2}
-		return array.NewRecord(schema, cols, -1)
-	}()
-	defer rec2.Release()
-
-	recs := []arrow.Record{rec1, rec2}
-	itr, err := array.NewRecordReader(schema, recs)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer itr.Release()
-
-	itr.Retain()
-	itr.Release()
-
-	if got, want := itr.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema. got=%#v, want=%#v", got, want)
-	}
-
-	n := 0
-	for itr.Next() {
-		n++
-		if got, want := itr.Record(), recs[n-1]; !reflect.DeepEqual(got, want) {
-			t.Fatalf("itr[%d], invalid record. got=%#v, want=%#v", n-1, got, want)
-		}
-	}
-	if err := itr.Err(); err != nil {
-		t.Fatalf("itr error: %#v", err)
-	}
-
-	if n != len(recs) {
-		t.Fatalf("invalid number of iterations. got=%d, want=%d", n, len(recs))
-	}
-
-	for _, tc := range []struct {
-		name   string
-		schema *arrow.Schema
-		err    error
-	}{
-		{
-			name: "mismatch-name",
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-XXX", Type: arrow.PrimitiveTypes.Float64},
-				},
-				nil,
-			),
-			err: fmt.Errorf("arrow/array: mismatch schema"),
-		},
-		{
-			name: "mismatch-type",
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int64},
-				},
-				nil,
-			),
-			err: fmt.Errorf("arrow/array: mismatch schema"),
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			itr, err := array.NewRecordReader(tc.schema, recs)
-			if itr != nil {
-				itr.Release()
-			}
-			if err == nil {
-				t.Fatalf("expected an error: %v", tc.err)
-			}
-			if !assert.Equal(t, tc.err, err) {
-				t.Fatalf("invalid error: got=%v, want=%v", err, tc.err)
-			}
-		})
-	}
-}
-
-func TestRecordBuilderRespectsFixedSizeArrayNullability(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	cases := []struct {
-		assertion string
-		fields    []arrow.Field
-	}{
-		{
-			"nullable",
-			[]arrow.Field{{Name: "data", Type: arrow.FixedSizeListOf(1, arrow.PrimitiveTypes.Int32)}},
-		},
-		{
-			"not nullable",
-			[]arrow.Field{{Name: "data", Type: arrow.FixedSizeListOfNonNullable(1, arrow.PrimitiveTypes.Int32)}},
-		},
-	}
-	for _, c := range cases {
-		t.Run(c.assertion, func(t *testing.T) {
-			schema := arrow.NewSchema(c.fields, nil)
-			b := array.NewRecordBuilder(mem, schema)
-			defer b.Release()
-
-			lb := b.Field(0).(*array.FixedSizeListBuilder)
-			lb.Append(true)
-
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Append(10)
-
-			rec := b.NewRecord()
-			defer rec.Release()
-
-			if got, want := rec.Column(0).String(), "[[10]]"; got != want {
-				t.Fatalf("invalid record: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestRecordBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	mapDt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	mapDt.KeysSorted = true
-	mapDt.SetItemNullable(false)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "map", Type: mapDt},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{4, 5}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	mb := b.Field(2).(*array.MapBuilder)
-	for i := 0; i < 5; i++ {
-		mb.Append(true)
-
-		if i%3 == 0 {
-			mb.KeyBuilder().(*array.StringBuilder).AppendValues([]string{fmt.Sprint(i), "2", "3"}, nil)
-			mb.ItemBuilder().(*array.StringBuilder).AppendValues([]string{"a", "b", "c"}, nil)
-		}
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	if got, want := rec.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := rec.NumRows(), int64(5); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.NumCols(), int64(3); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.ColumnName(0), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.Column(2).String(), `[{["0" "2" "3"] ["a" "b" "c"]} {[] []} {[] []} {["3" "2" "3"] ["a" "b" "c"]} {[] []}]`; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-}
-
-type testMessage struct {
-	Foo  *testMessageFoo
-	Bars []*testMessageBar
-}
-
-func (m *testMessage) Reset() { *m = testMessage{} }
-
-func (m *testMessage) GetFoo() *testMessageFoo {
-	if m != nil {
-		return m.Foo
-	}
-	return nil
-}
-
-func (m *testMessage) GetBars() []*testMessageBar {
-	if m != nil {
-		return m.Bars
-	}
-	return nil
-}
-
-type testMessageFoo struct {
-	A int32
-	B []uint32
-}
-
-func (m *testMessageFoo) Reset() { *m = testMessageFoo{} }
-
-func (m *testMessageFoo) GetA() int32 {
-	if m != nil {
-		return m.A
-	}
-	return 0
-}
-
-func (m *testMessageFoo) GetB() []uint32 {
-	if m != nil {
-		return m.B
-	}
-	return nil
-}
-
-type testMessageBar struct {
-	C int64
-	D []uint64
-}
-
-func (m *testMessageBar) Reset() { *m = testMessageBar{} }
-
-func (m *testMessageBar) GetC() int64 {
-	if m != nil {
-		return m.C
-	}
-	return 0
-}
-
-func (m *testMessageBar) GetD() []uint64 {
-	if m != nil {
-		return m.D
-	}
-	return nil
-}
-
-var testMessageSchema = arrow.NewSchema(
-	[]arrow.Field{
-		{Name: "foo", Type: arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-			arrow.Field{Name: "b", Type: arrow.ListOf(
-				arrow.PrimitiveTypes.Uint32,
-			)},
-		)},
-		{Name: "bars", Type: arrow.ListOf(
-			arrow.StructOf(
-				arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int64},
-				arrow.Field{Name: "d", Type: arrow.ListOf(
-					arrow.PrimitiveTypes.Uint64,
-				)},
-			),
-		)},
-	},
-	nil,
-)
-
-func (m *testMessage) Fill(rec arrow.Record, row int) error {
-	m.Reset()
-
-	// foo
-	if 0 < rec.NumCols() {
-		src0 := rec.Column(0).Data()
-		typedSrc0 := array.NewStructData(src0)
-		defer typedSrc0.Release()
-		if typedSrc0.IsValid(row) {
-			m0 := &testMessageFoo{}
-			{
-
-				// a
-				if 0 < typedSrc0.NumField() {
-					src0_0 := typedSrc0.Field(0).Data()
-					typedSrc0_0 := array.NewInt32Data(src0_0)
-					defer typedSrc0_0.Release()
-					m0.A = typedSrc0_0.Value(row)
-				}
-
-				// b
-				if 1 < typedSrc0.NumField() {
-					src0_1 := typedSrc0.Field(1).Data()
-					listSrc0_1 := array.NewListData(src0_1)
-					defer listSrc0_1.Release()
-					if listSrc0_1.IsValid(row) {
-						typedSrc0_1 := array.NewUint32Data(listSrc0_1.ListValues().Data())
-						typedSrc0_1.Release()
-						start0_1 := int(listSrc0_1.Offsets()[row])
-						end0_1 := int(listSrc0_1.Offsets()[row+1])
-						for row := start0_1; row < end0_1; row++ {
-							m0.B = append(m0.B, typedSrc0_1.Value(row))
-						}
-					}
-				}
-			}
-			m.Foo = m0
-		}
-	}
-
-	// bars
-	if 1 < rec.NumCols() {
-		src1 := rec.Column(1).Data()
-		listSrc1 := array.NewListData(src1)
-		defer listSrc1.Release()
-		if listSrc1.IsValid(row) {
-			typedSrc1 := array.NewStructData(listSrc1.ListValues().Data())
-			defer typedSrc1.Release()
-			start1 := int(listSrc1.Offsets()[row])
-			end1 := int(listSrc1.Offsets()[row+1])
-			for row := start1; row < end1; row++ {
-				if typedSrc1.IsValid(row) {
-					m1 := &testMessageBar{}
-					{
-
-						// c
-						if 0 < typedSrc1.NumField() {
-							src1_0 := typedSrc1.Field(0).Data()
-							typedSrc1_0 := array.NewInt64Data(src1_0)
-							defer typedSrc1_0.Release()
-							m1.C = typedSrc1_0.Value(row)
-						}
-
-						// d
-						if 1 < typedSrc1.NumField() {
-							src1_1 := typedSrc1.Field(1).Data()
-							listSrc1_1 := array.NewListData(src1_1)
-							defer listSrc1_1.Release()
-							if listSrc1_1.IsValid(row) {
-								typedSrc1_1 := array.NewUint64Data(listSrc1_1.ListValues().Data())
-								defer typedSrc1_1.Release()
-								start1_1 := int(listSrc1_1.Offsets()[row])
-								end1_1 := int(listSrc1_1.Offsets()[row+1])
-								for row := start1_1; row < end1_1; row++ {
-									m1.D = append(m1.D, typedSrc1_1.Value(row))
-								}
-							}
-						}
-					}
-					m.Bars = append(m.Bars, m1)
-				} else {
-					m.Bars = append(m.Bars, nil)
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func newTestMessageArrowRecordBuilder(mem memory.Allocator) *testMessageArrowRecordBuilder {
-	return &testMessageArrowRecordBuilder{
-		rb: array.NewRecordBuilder(mem, testMessageSchema),
-	}
-}
-
-type testMessageArrowRecordBuilder struct {
-	rb *array.RecordBuilder
-}
-
-func (b *testMessageArrowRecordBuilder) Build() arrow.Record {
-	return b.rb.NewRecord()
-}
-
-func (b *testMessageArrowRecordBuilder) Release() {
-	b.rb.Release()
-}
-
-func (b *testMessageArrowRecordBuilder) Append(m *testMessage) {
-
-	// foo
-	{
-		builder0 := b.rb.Field(0)
-		v0 := m.GetFoo()
-		valueBuilder0 := builder0.(*array.StructBuilder)
-		if v0 == nil {
-			valueBuilder0.AppendNull()
-		} else {
-			valueBuilder0.Append(true)
-
-			// a
-			{
-				v0_0 := v0.GetA()
-				builder0_0 := valueBuilder0.FieldBuilder(0)
-				valueBuilder0_0 := builder0_0.(*array.Int32Builder)
-				valueBuilder0_0.Append(v0_0)
-			}
-
-			// b
-			{
-				v0_1 := v0.GetB()
-				builder0_1 := valueBuilder0.FieldBuilder(1)
-				listBuilder0_1 := builder0_1.(*array.ListBuilder)
-				if len(v0_1) == 0 {
-					listBuilder0_1.AppendNull()
-				} else {
-					listBuilder0_1.Append(true)
-					valueBuilder0_1 := listBuilder0_1.ValueBuilder().(*array.Uint32Builder)
-					for _, item := range v0_1 {
-						valueBuilder0_1.Append(item)
-					}
-				}
-			}
-		}
-	}
-
-	// bars
-	{
-		builder1 := b.rb.Field(1)
-		v1 := m.GetBars()
-		listBuilder1 := builder1.(*array.ListBuilder)
-		if len(v1) == 0 {
-			listBuilder1.AppendNull()
-		} else {
-			listBuilder1.Append(true)
-			valueBuilder1 := listBuilder1.ValueBuilder().(*array.StructBuilder)
-			for _, item := range v1 {
-				if item == nil {
-					valueBuilder1.AppendNull()
-				} else {
-					valueBuilder1.Append(true)
-
-					// c
-					{
-						v1_0 := item.GetC()
-						builder1_0 := valueBuilder1.FieldBuilder(0)
-						valueBuilder1_0 := builder1_0.(*array.Int64Builder)
-						valueBuilder1_0.Append(v1_0)
-					}
-
-					// d
-					{
-						v1_1 := item.GetD()
-						builder1_1 := valueBuilder1.FieldBuilder(1)
-						listBuilder1_1 := builder1_1.(*array.ListBuilder)
-						if len(v1_1) == 0 {
-							listBuilder1_1.AppendNull()
-						} else {
-							listBuilder1_1.Append(true)
-							valueBuilder1_1 := listBuilder1_1.ValueBuilder().(*array.Uint64Builder)
-							for _, item := range v1_1 {
-								valueBuilder1_1.Append(item)
-							}
-						}
-					}
-				}
-			}
-		}
-	}
-}
-
-func TestRecordBuilderMessages(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := newTestMessageArrowRecordBuilder(mem)
-	defer b.Release()
-
-	var msgs []*testMessage
-	for i := 0; i < 1000; i++ {
-		msg := &testMessage{
-			Foo: &testMessageFoo{
-				A: int32(i),
-				B: []uint32{2, 3, 4, 5, 6, 7, 8, 9},
-			},
-			Bars: []*testMessageBar{
-				{
-					C: 11,
-					D: []uint64{12, 13, 14},
-				},
-				{
-					C: 15,
-					D: []uint64{16, 17, 18, 19},
-				},
-				nil,
-				{
-					C: 20,
-					D: []uint64{21},
-				},
-			},
-		}
-		msgs = append(msgs, msg)
-		b.Append(msg)
-	}
-
-	rec := b.Build()
-	defer rec.Release()
-
-	var got testMessage
-	for i := 0; i < 1000; i++ {
-		got.Fill(rec, i)
-		if !reflect.DeepEqual(&got, msgs[i]) {
-			t.Fatalf("row[%d], invalid record. got=%#v, want=%#v", i, &got, msgs[i])
-		}
-	}
-}
diff --git a/go/arrow/array/string.go b/go/arrow/array/string.go
deleted file mode 100644
index 88b4568ad5e84..0000000000000
--- a/go/arrow/array/string.go
+++ /dev/null
@@ -1,718 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type StringLike interface {
-	arrow.Array
-	Value(int) string
-	ValueLen(int) int
-}
-
-// String represents an immutable sequence of variable-length UTF-8 strings.
-type String struct {
-	array
-	offsets []int32
-	values  string
-}
-
-// NewStringData constructs a new String array from data.
-func NewStringData(data arrow.ArrayData) *String {
-	a := &String{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *String) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *String) Value(i int) string {
-	i = i + a.array.data.offset
-	return a.values[a.offsets[i]:a.offsets[i+1]]
-}
-
-func (a *String) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-// ValueOffset returns the offset of the value at index i.
-func (a *String) ValueOffset(i int) int {
-	if i < 0 || i > a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return int(a.offsets[i+a.array.data.offset])
-}
-
-func (a *String) ValueOffset64(i int) int64 {
-	return int64(a.ValueOffset(i))
-}
-
-func (a *String) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.offsets[beg+1] - a.offsets[beg])
-}
-
-func (a *String) ValueOffsets() []int32 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.offsets[beg:end]
-}
-
-func (a *String) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	if a.array.data.buffers[2] != nil {
-		return a.array.data.buffers[2].Bytes()[a.offsets[beg]:a.offsets[end]]
-	}
-	return nil
-}
-
-func (a *String) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *String) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("arrow/array: len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if vdata := data.buffers[2]; vdata != nil {
-		b := vdata.Bytes()
-		a.values = *(*string)(unsafe.Pointer(&b))
-	}
-
-	if offsets := data.buffers[1]; offsets != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.offsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: string offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.offsets[expNumOffsets-1]) > len(a.values) {
-		panic("arrow/array: string offsets out of bounds of data buffer")
-	}
-}
-
-func (a *String) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *String) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualString(left, right *String) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// String represents an immutable sequence of variable-length UTF-8 strings.
-type LargeString struct {
-	array
-	offsets []int64
-	values  string
-}
-
-// NewStringData constructs a new String array from data.
-func NewLargeStringData(data arrow.ArrayData) *LargeString {
-	a := &LargeString{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *LargeString) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *LargeString) Value(i int) string {
-	i = i + a.array.data.offset
-	return a.values[a.offsets[i]:a.offsets[i+1]]
-}
-
-func (a *LargeString) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-// ValueOffset returns the offset of the value at index i.
-func (a *LargeString) ValueOffset(i int) int64 {
-	if i < 0 || i > a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return a.offsets[i+a.array.data.offset]
-}
-
-func (a *LargeString) ValueOffset64(i int) int64 {
-	return a.ValueOffset(i)
-}
-
-func (a *LargeString) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.offsets[beg+1] - a.offsets[beg])
-}
-
-func (a *LargeString) ValueOffsets() []int64 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.offsets[beg:end]
-}
-
-func (a *LargeString) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	if a.array.data.buffers[2] != nil {
-		return a.array.data.buffers[2].Bytes()[a.offsets[beg]:a.offsets[end]]
-	}
-	return nil
-}
-
-func (a *LargeString) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeString) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("arrow/array: len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if vdata := data.buffers[2]; vdata != nil {
-		b := vdata.Bytes()
-		a.values = *(*string)(unsafe.Pointer(&b))
-	}
-
-	if offsets := data.buffers[1]; offsets != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.offsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: string offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.offsets[expNumOffsets-1]) > len(a.values) {
-		panic("arrow/array: string offsets out of bounds of data buffer")
-	}
-}
-
-func (a *LargeString) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *LargeString) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualLargeString(left, right *LargeString) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type StringView struct {
-	array
-	values      []arrow.ViewHeader
-	dataBuffers []*memory.Buffer
-}
-
-func NewStringViewData(data arrow.ArrayData) *StringView {
-	a := &StringView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *StringView) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-func (a *StringView) setData(data *Data) {
-	if len(data.buffers) < 2 {
-		panic("len(data.buffers) < 2")
-	}
-	a.array.setData(data)
-
-	if valueData := data.buffers[1]; valueData != nil {
-		a.values = arrow.ViewHeaderTraits.CastFromBytes(valueData.Bytes())
-	}
-
-	a.dataBuffers = data.buffers[2:]
-}
-
-func (a *StringView) ValueHeader(i int) *arrow.ViewHeader {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return &a.values[a.array.data.offset+i]
-}
-
-func (a *StringView) Value(i int) string {
-	s := a.ValueHeader(i)
-	if s.IsInline() {
-		return s.InlineString()
-	}
-	start := s.BufferOffset()
-	buf := a.dataBuffers[s.BufferIndex()]
-	value := buf.Bytes()[start : start+int32(s.Len())]
-	return *(*string)(unsafe.Pointer(&value))
-}
-
-func (a *StringView) ValueLen(i int) int {
-	s := a.ValueHeader(i)
-	return s.Len()
-}
-
-func (a *StringView) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *StringView) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-func (a *StringView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *StringView) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualStringView(left, right *StringView) bool {
-	leftBufs, rightBufs := left.dataBuffers, right.dataBuffers
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !left.ValueHeader(i).Equals(leftBufs, right.ValueHeader(i), rightBufs) {
-			return false
-		}
-	}
-	return true
-}
-
-// A StringBuilder is used to build a String array using the Append methods.
-type StringBuilder struct {
-	*BinaryBuilder
-}
-
-// NewStringBuilder creates a new StringBuilder.
-func NewStringBuilder(mem memory.Allocator) *StringBuilder {
-	b := &StringBuilder{
-		BinaryBuilder: NewBinaryBuilder(mem, arrow.BinaryTypes.String),
-	}
-	return b
-}
-
-func (b *StringBuilder) Type() arrow.DataType {
-	return arrow.BinaryTypes.String
-}
-
-// Append appends a string to the builder.
-func (b *StringBuilder) Append(v string) {
-	b.BinaryBuilder.Append([]byte(v))
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *StringBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryBuilder.AppendStringValues(v, valid)
-}
-
-// Value returns the string at index i.
-func (b *StringBuilder) Value(i int) string {
-	return string(b.BinaryBuilder.Value(i))
-}
-
-// NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *StringBuilder) NewArray() arrow.Array {
-	return b.NewStringArray()
-}
-
-// NewStringArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *StringBuilder) NewStringArray() (a *String) {
-	data := b.newData()
-	a = NewStringData(data)
-	data.Release()
-	return
-}
-
-func (b *StringBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(v)
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(v),
-			Type:   reflect.TypeOf(string("")),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *StringBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StringBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("string builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A LargeStringBuilder is used to build a LargeString array using the Append methods.
-// LargeString is for when you need the offset buffer to be 64-bit integers
-// instead of 32-bit integers.
-type LargeStringBuilder struct {
-	*BinaryBuilder
-}
-
-// NewStringBuilder creates a new StringBuilder.
-func NewLargeStringBuilder(mem memory.Allocator) *LargeStringBuilder {
-	b := &LargeStringBuilder{
-		BinaryBuilder: NewBinaryBuilder(mem, arrow.BinaryTypes.LargeString),
-	}
-	return b
-}
-
-func (b *LargeStringBuilder) Type() arrow.DataType { return arrow.BinaryTypes.LargeString }
-
-// Append appends a string to the builder.
-func (b *LargeStringBuilder) Append(v string) {
-	b.BinaryBuilder.Append([]byte(v))
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *LargeStringBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryBuilder.AppendStringValues(v, valid)
-}
-
-// Value returns the string at index i.
-func (b *LargeStringBuilder) Value(i int) string {
-	return string(b.BinaryBuilder.Value(i))
-}
-
-// NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *LargeStringBuilder) NewArray() arrow.Array {
-	return b.NewLargeStringArray()
-}
-
-// NewStringArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *LargeStringBuilder) NewLargeStringArray() (a *LargeString) {
-	data := b.newData()
-	a = NewLargeStringData(data)
-	data.Release()
-	return
-}
-
-func (b *LargeStringBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(v)
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(v),
-			Type:   reflect.TypeOf(string("")),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *LargeStringBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *LargeStringBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("string builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type StringViewBuilder struct {
-	*BinaryViewBuilder
-}
-
-func NewStringViewBuilder(mem memory.Allocator) *StringViewBuilder {
-	bldr := &StringViewBuilder{
-		BinaryViewBuilder: NewBinaryViewBuilder(mem),
-	}
-	bldr.dtype = arrow.BinaryTypes.StringView
-	return bldr
-}
-
-func (b *StringViewBuilder) Append(v string) {
-	b.BinaryViewBuilder.AppendString(v)
-}
-
-func (b *StringViewBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryViewBuilder.AppendStringValues(v, valid)
-}
-
-func (b *StringViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		b.Append(v)
-	case []byte:
-		b.BinaryViewBuilder.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *StringViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StringViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *StringViewBuilder) NewArray() arrow.Array {
-	return b.NewStringViewArray()
-}
-
-func (b *StringViewBuilder) NewStringViewArray() (a *StringView) {
-	data := b.newData()
-	a = NewStringViewData(data)
-	data.Release()
-	return
-}
-
-type StringLikeBuilder interface {
-	Builder
-	Append(string)
-	AppendValues([]string, []bool)
-	UnsafeAppend([]byte)
-	ReserveData(int)
-}
-
-var (
-	_ arrow.Array       = (*String)(nil)
-	_ arrow.Array       = (*LargeString)(nil)
-	_ arrow.Array       = (*StringView)(nil)
-	_ Builder           = (*StringBuilder)(nil)
-	_ Builder           = (*LargeStringBuilder)(nil)
-	_ Builder           = (*StringViewBuilder)(nil)
-	_ StringLikeBuilder = (*StringBuilder)(nil)
-	_ StringLikeBuilder = (*LargeStringBuilder)(nil)
-	_ StringLikeBuilder = (*StringViewBuilder)(nil)
-	_ StringLike        = (*String)(nil)
-	_ StringLike        = (*LargeString)(nil)
-	_ StringLike        = (*StringView)(nil)
-)
diff --git a/go/arrow/array/string_test.go b/go/arrow/array/string_test.go
deleted file mode 100644
index efbe51edd1a03..0000000000000
--- a/go/arrow/array/string_test.go
+++ /dev/null
@@ -1,794 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bytes"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestStringArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want    = []string{"hello", "世界", "", "bye"}
-		valids  = []bool{true, true, false, true}
-		offsets = []int32{0, 5, 11, 11, 14}
-	)
-
-	sb := array.NewStringBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	assert.NoError(t, sb.AppendValueFromString(want[0]))
-	sb.AppendValues(want[1:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewStringArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	assert.Equal(t, "hello", arr.ValueStr(0))
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-
-		if got, want := arr.ValueOffset(i), int(offsets[i]); got != want {
-			t.Fatalf("arr-offset-beg[%d]: got=%d, want=%d", i, got, want)
-		}
-		if got, want := arr.ValueOffset(i+1), int(offsets[i+1]); got != want {
-			t.Fatalf("arr-offset-end[%d]: got=%d, want=%d", i+1, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets, arr.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", arr.ValueOffsets(), offsets)
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.STRING {
-		t.Fatalf("invalid type: got=%q, want=string", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.String); !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`hello世界bye`), arr.ValueBytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.ValueBytes()), `hello世界bye`)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.String)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal(v.ValueBytes(), []byte("bye")) {
-		t.Fatalf("got=%q, want=%q", string(v.ValueBytes()), "bye")
-	}
-
-	for i := 0; i < v.Len(); i++ {
-		if got, want := v.ValueOffset(0), int(offsets[i+slice.Offset()]); got != want {
-			t.Fatalf("val-offset-with-offset[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets[2:5], v.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", v.ValueOffsets(), offsets[2:5])
-	}
-}
-
-func TestStringBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "bye"}
-
-	ab := array.NewStringBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.String) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestStringReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewStringBuilder(mem)
-	sb2 := array.NewStringBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewStringArray()
-		string2 = sb2.NewStringArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
-
-func TestStringInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: string offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int32, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{}, "")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 4, 9}, "oooabcdef")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 6, 9, 9}, "012345678")
-		arr := array.NewStringData(array.NewData(arrow.BinaryTypes.String, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.Equal(t, "012", arr.Value(0))
-			assert.Equal(t, "345", arr.Value(1))
-			assert.Equal(t, "678", arr.Value(2))
-			assert.Equal(t, "", arr.Value(3), "trailing empty string value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int32{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := array.NewStringData(array.NewData(arrow.BinaryTypes.String, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.Equal(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.Equal(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "abc")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: string offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int32{0}, "abc")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 10, 15}, "oooabcdef")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestStringStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []string{"hello", "世界", "", "bye"}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.String)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewStringBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.String)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestLargeStringArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want    = []string{"hello", "世界", "", "bye"}
-		valids  = []bool{true, true, false, true}
-		offsets = []int64{0, 5, 11, 11, 14}
-	)
-
-	sb := array.NewLargeStringBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	sb.AppendValues(want[:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewLargeStringArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-
-		if got, want := arr.ValueOffset(i), offsets[i]; got != want {
-			t.Fatalf("arr-offset-beg[%d]: got=%d, want=%d", i, got, want)
-		}
-		if got, want := arr.ValueOffset(i+1), offsets[i+1]; got != want {
-			t.Fatalf("arr-offset-end[%d]: got=%d, want=%d", i+1, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets, arr.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", arr.ValueOffsets(), offsets)
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.LARGE_STRING {
-		t.Fatalf("invalid type: got=%q, want=large_string", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.LargeString); !ok {
-		t.Fatalf("could not type-assert to array.LargeString")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`hello世界bye`), arr.ValueBytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.ValueBytes()), `hello世界bye`)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.LargeString)
-	if !ok {
-		t.Fatalf("could not type-assert to array.LargeString")
-	}
-
-	if got, want := v.String(), `[(null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal(v.ValueBytes(), []byte("bye")) {
-		t.Fatalf("got=%q, want=%q", string(v.ValueBytes()), "bye")
-	}
-
-	for i := 0; i < v.Len(); i++ {
-		if got, want := v.ValueOffset(0), offsets[i+slice.Offset()]; got != want {
-			t.Fatalf("val-offset-with-offset[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets[2:5], v.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", v.ValueOffsets(), offsets[2:5])
-	}
-}
-
-func TestLargeStringBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "bye"}
-
-	ab := array.NewLargeStringBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.LargeString) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewLargeStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewLargeStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewLargeStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewLargeStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestLargeStringReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewLargeStringBuilder(mem)
-	sb2 := array.NewLargeStringBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewLargeStringArray()
-		string2 = sb2.NewLargeStringArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
-
-func TestLargeStringInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: string offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int64, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{}, "")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 5}, "")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 4, 9}, "oooabcdef")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 6, 9, 9}, "012345678")
-		arr := array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.Equal(t, "012", arr.Value(0))
-			assert.Equal(t, "345", arr.Value(1))
-			assert.Equal(t, "678", arr.Value(2))
-			assert.Equal(t, "", arr.Value(3), "trailing empty string value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int64{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.Equal(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.Equal(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int64{0, 5}, "abc")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: string offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int64{0}, "abc")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 10, 15}, "oooabcdef")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestLargeStringStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []string{"hello", "世界", "", "bye"}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewLargeStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.LargeString)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewLargeStringBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.LargeString)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestStringValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := array.NewStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*array.String)
-	defer arr.Release()
-
-	slice := array.NewSlice(arr, 2, 9).(*array.String)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-func TestStringViewArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		// only the last string is long enough to not get inlined
-		want   = []string{"hello", "世界", "", "say goodbye daffy"}
-		valids = []bool{true, true, false, true}
-	)
-
-	sb := array.NewStringViewBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	assert.NoError(t, sb.AppendValueFromString(want[0]))
-	sb.AppendValues(want[1:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewStringViewArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	assert.Equal(t, "hello", arr.ValueStr(0))
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.STRING_VIEW {
-		t.Fatalf("invalid type: got=%q, want=string view", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.StringView); !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "say goodbye daffy"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	// only the last string gets stuck into a buffer the rest are inlined
-	// in the headers.
-	if !bytes.Equal([]byte(`say goodbye daffy`), arr.Data().Buffers()[2].Bytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.Data().Buffers()[2].Bytes()), `say goodbye daffy`)
-	}
-
-	// check the prefix for the non-inlined value
-	if [4]byte{'s', 'a', 'y', ' '} != arr.ValueHeader(3).Prefix() {
-		t.Fatalf("got=%q, want=%q", arr.ValueHeader(3).Prefix(), `say `)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.StringView)
-	if !ok {
-		t.Fatalf("could not type-assert to array.StringView")
-	}
-
-	if got, want := v.String(), `[(null) "say goodbye daffy"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`say goodbye daffy`), v.Data().Buffers()[2].Bytes()) {
-		t.Fatalf("got=%q, want=%q", string(v.Data().Buffers()[2].Bytes()), `say goodbye daffy`)
-	}
-
-	// check the prefix for the non-inlined value
-	if [4]byte{'s', 'a', 'y', ' '} != v.ValueHeader(1).Prefix() {
-		t.Fatalf("got=%q, want=%q", v.ValueHeader(1).Prefix(), `say `)
-	}
-}
-
-func TestStringViewBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "say goodbye daffy"}
-
-	ab := array.NewStringViewBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.StringView) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewStringViewArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewStringViewArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewStringViewArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewStringViewArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestStringViewReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewStringViewBuilder(mem)
-	sb2 := array.NewStringViewBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewStringViewArray()
-		string2 = sb2.NewStringViewArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
diff --git a/go/arrow/array/struct.go b/go/arrow/array/struct.go
deleted file mode 100644
index 279ac1d87b25b..0000000000000
--- a/go/arrow/array/struct.go
+++ /dev/null
@@ -1,491 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Struct represents an ordered sequence of relative types.
-type Struct struct {
-	array
-	fields []arrow.Array
-}
-
-// NewStructArray constructs a new Struct Array out of the columns passed
-// in and the field names. The length of all cols must be the same and
-// there should be the same number of columns as names.
-func NewStructArray(cols []arrow.Array, names []string) (*Struct, error) {
-	return NewStructArrayWithNulls(cols, names, nil, 0, 0)
-}
-
-// NewStructArrayWithNulls is like NewStructArray as a convenience function,
-// but also takes in a null bitmap, the number of nulls, and an optional offset
-// to use for creating the Struct Array.
-func NewStructArrayWithNulls(cols []arrow.Array, names []string, nullBitmap *memory.Buffer, nullCount int, offset int) (*Struct, error) {
-	if len(cols) != len(names) {
-		return nil, fmt.Errorf("%w: mismatching number of fields and child arrays", arrow.ErrInvalid)
-	}
-	if len(cols) == 0 {
-		return nil, fmt.Errorf("%w: can't infer struct array length with 0 child arrays", arrow.ErrInvalid)
-	}
-	length := cols[0].Len()
-	children := make([]arrow.ArrayData, len(cols))
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		if length != c.Len() {
-			return nil, fmt.Errorf("%w: mismatching child array lengths", arrow.ErrInvalid)
-		}
-		children[i] = c.Data()
-		fields[i].Name = names[i]
-		fields[i].Type = c.DataType()
-		fields[i].Nullable = true
-	}
-	data := NewData(arrow.StructOf(fields...), length, []*memory.Buffer{nullBitmap}, children, nullCount, offset)
-	defer data.Release()
-	return NewStructData(data), nil
-}
-
-// NewStructData returns a new Struct array value from data.
-func NewStructData(data arrow.ArrayData) *Struct {
-	a := &Struct{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Struct) NumField() int           { return len(a.fields) }
-func (a *Struct) Field(i int) arrow.Array { return a.fields[i] }
-
-// ValueStr returns the string representation (as json) of the value at index i.
-func (a *Struct) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *Struct) String() string {
-	o := new(strings.Builder)
-	o.WriteString("{")
-
-	structBitmap := a.NullBitmapBytes()
-	for i, v := range a.fields {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if arrow.IsUnion(v.DataType().ID()) {
-			fmt.Fprintf(o, "%v", v)
-			continue
-		} else if !bytes.Equal(structBitmap, v.NullBitmapBytes()) {
-			masked := a.newStructFieldWithParentValidityMask(i)
-			fmt.Fprintf(o, "%v", masked)
-			masked.Release()
-			continue
-		}
-		fmt.Fprintf(o, "%v", v)
-	}
-	o.WriteString("}")
-	return o.String()
-}
-
-// newStructFieldWithParentValidityMask returns the Interface at fieldIndex
-// with a nullBitmapBytes adjusted according on the parent struct nullBitmapBytes.
-// From the docs:
-//
-//	"When reading the struct array the parent validity bitmap takes priority."
-func (a *Struct) newStructFieldWithParentValidityMask(fieldIndex int) arrow.Array {
-	field := a.Field(fieldIndex)
-	nullBitmapBytes := field.NullBitmapBytes()
-	maskedNullBitmapBytes := make([]byte, len(nullBitmapBytes))
-	copy(maskedNullBitmapBytes, nullBitmapBytes)
-	for i := 0; i < field.Len(); i++ {
-		if a.IsNull(i) {
-			bitutil.ClearBit(maskedNullBitmapBytes, i)
-		}
-	}
-	data := NewSliceData(field.Data(), 0, int64(field.Len())).(*Data)
-	defer data.Release()
-	bufs := make([]*memory.Buffer, len(data.Buffers()))
-	copy(bufs, data.buffers)
-	bufs[0].Release()
-	bufs[0] = memory.NewBufferBytes(maskedNullBitmapBytes)
-	data.buffers = bufs
-	maskedField := MakeFromData(data)
-	return maskedField
-}
-
-func (a *Struct) setData(data *Data) {
-	a.array.setData(data)
-	a.fields = make([]arrow.Array, len(data.childData))
-	for i, child := range data.childData {
-		if data.offset != 0 || child.Len() != data.length {
-			sub := NewSliceData(child, int64(data.offset), int64(data.offset+data.length))
-			a.fields[i] = MakeFromData(sub)
-			sub.Release()
-		} else {
-			a.fields[i] = MakeFromData(child)
-		}
-	}
-}
-
-func (a *Struct) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	tmp := make(map[string]interface{})
-	fieldList := a.data.dtype.(*arrow.StructType).Fields()
-	for j, d := range a.fields {
-		tmp[fieldList[j].Name] = d.GetOneForMarshal(i)
-	}
-	return tmp
-}
-
-func (a *Struct) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualStruct(left, right *Struct) bool {
-	for i, lf := range left.fields {
-		rf := right.fields[i]
-		if !Equal(lf, rf) {
-			return false
-		}
-	}
-	return true
-}
-
-func (a *Struct) Retain() {
-	a.array.Retain()
-	for _, f := range a.fields {
-		f.Retain()
-	}
-}
-
-func (a *Struct) Release() {
-	a.array.Release()
-	for _, f := range a.fields {
-		f.Release()
-	}
-}
-
-type StructBuilder struct {
-	builder
-
-	dtype  arrow.DataType
-	fields []Builder
-}
-
-// NewStructBuilder returns a builder, using the provided memory allocator.
-func NewStructBuilder(mem memory.Allocator, dtype *arrow.StructType) *StructBuilder {
-	b := &StructBuilder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-		fields:  make([]Builder, dtype.NumFields()),
-	}
-	for i, f := range dtype.Fields() {
-		b.fields[i] = NewBuilder(b.mem, f.Type)
-	}
-	return b
-}
-
-func (b *StructBuilder) Type() arrow.DataType {
-	fields := make([]arrow.Field, len(b.fields))
-	copy(fields, b.dtype.(*arrow.StructType).Fields())
-	for i, b := range b.fields {
-		fields[i].Type = b.Type()
-	}
-	return arrow.StructOf(fields...)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *StructBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-
-		for _, f := range b.fields {
-			f.Release()
-		}
-	}
-}
-
-func (b *StructBuilder) Append(v bool) {
-	// Intentionally not calling `Reserve` as it will recursively call
-	// `Reserve` on the child builders, which during profiling has shown to be
-	// very expensive due to iterating over children, dynamic dispatch and all
-	// other code that gets executed even if previously `Reserve` was called to
-	// preallocate. Not calling `Reserve` has no downsides as when appending to
-	// the underlying children they already ensure they have enough space
-	// reserved. The only thing we must do is ensure we have enough space in
-	// the validity bitmap of the struct builder itself.
-	b.builder.reserve(1, b.resizeHelper)
-	b.unsafeAppendBoolToBitmap(v)
-	if !v {
-		for _, f := range b.fields {
-			f.AppendNull()
-		}
-	}
-}
-
-func (b *StructBuilder) AppendValues(valids []bool) {
-	b.Reserve(len(valids))
-	b.builder.unsafeAppendBoolsToBitmap(valids, len(valids))
-}
-
-func (b *StructBuilder) AppendNull() { b.Append(false) }
-
-func (b *StructBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *StructBuilder) AppendEmptyValue() {
-	b.Append(true)
-	for _, f := range b.fields {
-		f.AppendEmptyValue()
-	}
-}
-
-func (b *StructBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *StructBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *StructBuilder) init(capacity int) {
-	b.builder.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *StructBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	for _, f := range b.fields {
-		f.Reserve(n)
-	}
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *StructBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	for _, f := range b.fields {
-		f.Resize(n)
-	}
-}
-
-func (b *StructBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *StructBuilder) NumField() int              { return len(b.fields) }
-func (b *StructBuilder) FieldBuilder(i int) Builder { return b.fields[i] }
-
-// NewArray creates a Struct array from the memory buffers used by the builder and resets the StructBuilder
-// so it can be used to build a new array.
-func (b *StructBuilder) NewArray() arrow.Array {
-	return b.NewStructArray()
-}
-
-// NewStructArray creates a Struct array from the memory buffers used by the builder and resets the StructBuilder
-// so it can be used to build a new array.
-func (b *StructBuilder) NewStructArray() (a *Struct) {
-	data := b.newData()
-	a = NewStructData(data)
-	data.Release()
-	return
-}
-
-func (b *StructBuilder) newData() (data *Data) {
-	fields := make([]arrow.ArrayData, len(b.fields))
-	for i, f := range b.fields {
-		arr := f.NewArray()
-		defer arr.Release()
-		fields[i] = arr.Data()
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-		},
-		fields,
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *StructBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if !strings.HasPrefix(s, "{") && !strings.HasSuffix(s, "}") {
-		return fmt.Errorf("%w: invalid string for struct should be be of form: {*}", arrow.ErrInvalid)
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *StructBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('{'):
-		b.Append(true)
-		keylist := make(map[string]bool)
-		for dec.More() {
-			keyTok, err := dec.Token()
-			if err != nil {
-				return err
-			}
-
-			key, ok := keyTok.(string)
-			if !ok {
-				return errors.New("missing key")
-			}
-
-			if keylist[key] {
-				return fmt.Errorf("key %s is specified twice", key)
-			}
-
-			keylist[key] = true
-
-			idx, ok := b.dtype.(*arrow.StructType).FieldIdx(key)
-			if !ok {
-				var extra interface{}
-				dec.Decode(&extra)
-				continue
-			}
-
-			if err := b.fields[idx].UnmarshalOne(dec); err != nil {
-				return err
-			}
-		}
-
-		// Append null values to all optional fields that were not presented in the json input
-		for _, field := range b.dtype.(*arrow.StructType).Fields() {
-			if !field.Nullable {
-				continue
-			}
-			idx, _ := b.dtype.(*arrow.StructType).FieldIdx(field.Name)
-			if _, hasKey := keylist[field.Name]; !hasKey {
-				b.fields[idx].AppendNull()
-			}
-		}
-
-		// consume '}'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprint(b.dtype),
-		}
-	}
-	return nil
-}
-
-func (b *StructBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StructBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("struct builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Struct)(nil)
-	_ Builder     = (*StructBuilder)(nil)
-)
diff --git a/go/arrow/array/struct_test.go b/go/arrow/array/struct_test.go
deleted file mode 100644
index 4338bbd0b136e..0000000000000
--- a/go/arrow/array/struct_test.go
+++ /dev/null
@@ -1,532 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestStructArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []byte{'j', 'o', 'e', 'b', 'o', 'b', 'm', 'a', 'r', 'k'}
-		f2s = []int32{1, 2, 3, 4}
-
-		f1Lengths = []int{3, 0, 3, 4}
-		f1Offsets = []int32{0, 3, 3, 6, 10}
-		f1Valids  = []bool{true, false, true, true}
-
-		isValid = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	for i := 0; i < 10; i++ {
-		f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-		f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-		f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-		if got, want := sb.NumField(), 2; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		sb.Resize(len(f1Lengths))
-		f1vb.Resize(len(f1s))
-		f2b.Resize(len(f2s))
-
-		pos := 0
-		for i, length := range f1Lengths {
-			f1b.Append(f1Valids[i])
-			for j := 0; j < length; j++ {
-				f1vb.Append(f1s[pos])
-				pos++
-			}
-			f2b.Append(f2s[i])
-		}
-
-		for _, valid := range isValid {
-			sb.Append(valid)
-		}
-
-		arr := sb.NewArray().(*array.Struct)
-		defer arr.Release()
-
-		arr.Retain()
-		arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.STRUCT; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		for i, valid := range isValid {
-			if got, want := arr.IsValid(i), valid; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		{
-			f1arr := arr.Field(0).(*array.List)
-			if got, want := f1arr.Len(), len(f1Lengths); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range f1Lengths {
-				if got, want := f1arr.IsValid(i), f1Valids[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := f1arr.IsNull(i), f1Lengths[i] == 0; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-
-			}
-
-			if got, want := f1arr.Offsets(), f1Offsets; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			varr := f1arr.ListValues().(*array.Uint8)
-			if got, want := varr.Uint8Values(), f1s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		}
-
-		{
-			f2arr := arr.Field(1).(*array.Int32)
-			if got, want := f2arr.Len(), len(f2s); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := f2arr.Int32Values(), f2s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		}
-	}
-}
-
-func TestStructStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.StructOf(
-		arrow.Field{Name: "nullable_bool", Type: new(arrow.BooleanType), Nullable: true},
-		arrow.Field{Name: "non_nullable_bool", Type: new(arrow.BooleanType)},
-	)
-
-	builder := array.NewStructBuilder(memory.DefaultAllocator, dt)
-	nullableBld := builder.FieldBuilder(0).(*array.BooleanBuilder)
-	nonNullableBld := builder.FieldBuilder(1).(*array.BooleanBuilder)
-
-	builder.Append(true)
-	nullableBld.Append(true)
-	nonNullableBld.Append(true)
-
-	builder.Append(true)
-	nullableBld.AppendNull()
-	nonNullableBld.Append(true)
-
-	builder.AppendNull()
-
-	arr := builder.NewArray().(*array.Struct)
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewStructBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Struct)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestStructArrayEmpty(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	sb := array.NewStructBuilder(pool, arrow.StructOf())
-	defer sb.Release()
-
-	if got, want := sb.NumField(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-
-	if got, want := arr.Len(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NumField(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-}
-
-func TestStructArrayBulkAppend(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []byte{'j', 'o', 'e', 'b', 'o', 'b', 'm', 'a', 'r', 'k'}
-		f2s = []int32{1, 2, 3, 4}
-
-		f1Lengths = []int{3, 0, 3, 4}
-		f1Offsets = []int32{0, 3, 3, 6, 10}
-		f1Valids  = []bool{true, false, true, true}
-
-		isValid = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	for i := 0; i < 10; i++ {
-		f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-		f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-		f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-		if got, want := sb.NumField(), 2; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		sb.Resize(len(f1Lengths))
-		f1vb.Resize(len(f1s))
-		f2b.Resize(len(f2s))
-
-		sb.AppendValues(isValid)
-		f1b.AppendValues(f1Offsets, f1Valids)
-		f1vb.AppendValues(f1s, nil)
-		f2b.AppendValues(f2s, nil)
-
-		arr := sb.NewArray().(*array.Struct)
-		defer arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.STRUCT; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		for i, valid := range isValid {
-			if got, want := arr.IsValid(i), valid; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		{
-			f1arr := arr.Field(0).(*array.List)
-			if got, want := f1arr.Len(), len(f1Lengths); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range f1Lengths {
-				if got, want := f1arr.IsValid(i), f1Valids[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := f1arr.IsNull(i), f1Lengths[i] == 0; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-
-			}
-
-			if got, want := f1arr.Offsets(), f1Offsets; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			varr := f1arr.ListValues().(*array.Uint8)
-			if got, want := varr.Uint8Values(), f1s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		}
-
-		{
-			f2arr := arr.Field(1).(*array.Int32)
-			if got, want := f2arr.Len(), len(f2s); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := f2arr.Int32Values(), f2s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		}
-	}
-}
-
-func TestStructArrayStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s = []int32{1, 2, 3, 4}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range f1s {
-		sb.Append(true)
-		switch i {
-		case 1:
-			f1b.AppendNull()
-			f2b.Append(f2s[i])
-		case 2:
-			f1b.Append(f1s[i])
-			f2b.AppendNull()
-		default:
-			f1b.Append(f1s[i])
-			f2b.Append(f2s[i])
-		}
-	}
-	assert.NoError(t, sb.AppendValueFromString(`{"f1": 1.1, "f2": 1}`))
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	assert.Equal(t, `{"f1":1.1,"f2":1}`, arr.ValueStr(4))
-	want := "{[1.1 (null) 1.3 1.4 1.1] [1 2 (null) 4 1]}"
-	got := arr.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s    = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s    = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range f1s {
-		sb.Append(valids[i])
-		switch i {
-		case 1:
-			f1b.AppendNull()
-			f2b.Append(f2s[i])
-		case 2:
-			f1b.Append(f1s[i])
-			f2b.AppendNull()
-		default:
-			f1b.Append(f1s[i])
-			f2b.Append(f2s[i])
-		}
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	// Slice
-	arrSlice := array.NewSlice(arr, 2, 4).(*array.Struct)
-	defer arrSlice.Release()
-
-	want := "{[1.3 1.4] [(null) 4]}"
-	got := arrSlice.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArrayNullBitmap(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s    = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s    = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, true, false}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	sb.AppendValues(valids)
-	for i := range f1s {
-		f1b.Append(f1s[i])
-		switch i {
-		case 1:
-			f2b.AppendNull()
-		default:
-			f2b.Append(f2s[i])
-		}
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	want := "{[1.1 1.2 1.3 (null)] [1 (null) 3 (null)]}"
-	got := arr.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArrayUnmarshalJSONMissingFields(t *testing.T) {
-	pool := memory.NewGoAllocator()
-
-	var (
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-			{
-				Name: "f3", Type: arrow.StructOf(
-					[]arrow.Field{
-						{Name: "f3_1", Type: arrow.BinaryTypes.String, Nullable: true},
-						{Name: "f3_2", Type: arrow.BinaryTypes.String, Nullable: true},
-						{Name: "f3_3", Type: arrow.BinaryTypes.String, Nullable: false},
-					}...,
-				),
-			},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	tests := []struct {
-		name      string
-		jsonInput string
-		want      string
-		panic     bool
-	}{
-		{
-			name:      "missing required field",
-			jsonInput: `[{"f2": 3, "f3": {"f3_1": "test"}}]`,
-			panic:     true,
-			want:      "",
-		},
-		{
-			name:      "missing optional fields",
-			jsonInput: `[{"f2": 3, "f3": {"f3_3": "test"}}]`,
-			panic:     false,
-			want:      `{[(null)] [3] {[(null)] [(null)] ["test"]}}`,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run(
-			tc.name, func(t *testing.T) {
-
-				var val bool
-
-				sb := array.NewStructBuilder(pool, dtype)
-				defer sb.Release()
-
-				if tc.panic {
-					defer func() {
-						e := recover()
-						if e == nil {
-							t.Fatalf("this should have panicked, but did not; slice value %v", val)
-						}
-						if got, want := e.(string), "arrow/array: index out of range"; got != want {
-							t.Fatalf("invalid error. got=%q, want=%q", got, want)
-						}
-					}()
-				} else {
-					defer func() {
-						if e := recover(); e != nil {
-							t.Fatalf("unexpected panic: %v", e)
-						}
-					}()
-				}
-
-				err := sb.UnmarshalJSON([]byte(tc.jsonInput))
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				arr := sb.NewArray().(*array.Struct)
-				defer arr.Release()
-
-				got := arr.String()
-				if got != tc.want {
-					t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, tc.want)
-				}
-			},
-		)
-	}
-}
diff --git a/go/arrow/array/table.go b/go/arrow/array/table.go
deleted file mode 100644
index 3b742ae78803d..0000000000000
--- a/go/arrow/array/table.go
+++ /dev/null
@@ -1,421 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// NewColumnSlice returns a new zero-copy slice of the column with the indicated
-// indices i and j, corresponding to the column's array[i:j].
-// The returned column must be Release()'d after use.
-//
-// NewColSlice panics if the slice is outside the valid range of the column's array.
-// NewColSlice panics if j < i.
-func NewColumnSlice(col *arrow.Column, i, j int64) *arrow.Column {
-	slice := NewChunkedSlice(col.Data(), i, j)
-	defer slice.Release()
-	return arrow.NewColumn(col.Field(), slice)
-}
-
-// NewChunkedSlice constructs a zero-copy slice of the chunked array with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned chunked array must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the input array.
-// NewSlice panics if j < i.
-func NewChunkedSlice(a *arrow.Chunked, i, j int64) *arrow.Chunked {
-	if j > int64(a.Len()) || i > j || i > int64(a.Len()) {
-		panic("arrow/array: index out of range")
-	}
-
-	var (
-		cur    = 0
-		beg    = i
-		sz     = j - i
-		chunks = make([]arrow.Array, 0, len(a.Chunks()))
-	)
-
-	for cur < len(a.Chunks()) && beg >= int64(a.Chunks()[cur].Len()) {
-		beg -= int64(a.Chunks()[cur].Len())
-		cur++
-	}
-
-	for cur < len(a.Chunks()) && sz > 0 {
-		arr := a.Chunks()[cur]
-		end := beg + sz
-		if end > int64(arr.Len()) {
-			end = int64(arr.Len())
-		}
-		chunks = append(chunks, NewSlice(arr, beg, end))
-		sz -= int64(arr.Len()) - beg
-		beg = 0
-		cur++
-	}
-	chunks = chunks[:len(chunks):len(chunks)]
-	defer func() {
-		for _, chunk := range chunks {
-			chunk.Release()
-		}
-	}()
-
-	return arrow.NewChunked(a.DataType(), chunks)
-}
-
-// simpleTable is a basic, non-lazy in-memory table.
-type simpleTable struct {
-	refCount int64
-
-	rows int64
-	cols []arrow.Column
-
-	schema *arrow.Schema
-}
-
-// NewTable returns a new basic, non-lazy in-memory table.
-// If rows is negative, the number of rows will be inferred from the height
-// of the columns.
-//
-// NewTable panics if the columns and schema are inconsistent.
-// NewTable panics if rows is larger than the height of the columns.
-func NewTable(schema *arrow.Schema, cols []arrow.Column, rows int64) arrow.Table {
-	tbl := simpleTable{
-		refCount: 1,
-		rows:     rows,
-		cols:     cols,
-		schema:   schema,
-	}
-
-	if tbl.rows < 0 {
-		switch len(tbl.cols) {
-		case 0:
-			tbl.rows = 0
-		default:
-			tbl.rows = int64(tbl.cols[0].Len())
-		}
-	}
-
-	// validate the table and its constituents.
-	// note we retain the columns after having validated the table
-	// in case the validation fails and panics (and would otherwise leak
-	// a ref-count on the columns.)
-	tbl.validate()
-
-	for i := range tbl.cols {
-		tbl.cols[i].Retain()
-	}
-
-	return &tbl
-}
-
-// NewTableFromSlice is a convenience function to create a table from a slice
-// of slices of arrow.Array.
-//
-// Like other NewTable functions this can panic if:
-//   - len(schema.Fields) != len(data)
-//   - the total length of each column's array slice (ie: number of rows
-//     in the column) aren't the same for all columns.
-func NewTableFromSlice(schema *arrow.Schema, data [][]arrow.Array) arrow.Table {
-	if len(data) != schema.NumFields() {
-		panic("array/table: mismatch in number of columns and data for creating a table")
-	}
-
-	cols := make([]arrow.Column, schema.NumFields())
-	for i, arrs := range data {
-		field := schema.Field(i)
-		chunked := arrow.NewChunked(field.Type, arrs)
-		cols[i] = *arrow.NewColumn(field, chunked)
-		chunked.Release()
-	}
-
-	tbl := simpleTable{
-		refCount: 1,
-		schema:   schema,
-		cols:     cols,
-		rows:     int64(cols[0].Len()),
-	}
-
-	defer func() {
-		if r := recover(); r != nil {
-			// if validate panics, let's release the columns
-			// so that we don't leak them, then propagate the panic
-			for _, c := range cols {
-				c.Release()
-			}
-			panic(r)
-		}
-	}()
-	// validate the table and its constituents.
-	tbl.validate()
-
-	return &tbl
-}
-
-// NewTableFromRecords returns a new basic, non-lazy in-memory table.
-//
-// NewTableFromRecords panics if the records and schema are inconsistent.
-func NewTableFromRecords(schema *arrow.Schema, recs []arrow.Record) arrow.Table {
-	arrs := make([]arrow.Array, len(recs))
-	cols := make([]arrow.Column, schema.NumFields())
-
-	defer func(cols []arrow.Column) {
-		for i := range cols {
-			cols[i].Release()
-		}
-	}(cols)
-
-	for i := range cols {
-		field := schema.Field(i)
-		for j, rec := range recs {
-			arrs[j] = rec.Column(i)
-		}
-		chunk := arrow.NewChunked(field.Type, arrs)
-		cols[i] = *arrow.NewColumn(field, chunk)
-		chunk.Release()
-	}
-
-	return NewTable(schema, cols, -1)
-}
-
-func (tbl *simpleTable) Schema() *arrow.Schema { return tbl.schema }
-
-func (tbl *simpleTable) AddColumn(i int, field arrow.Field, column arrow.Column) (arrow.Table, error) {
-	if int64(column.Len()) != tbl.rows {
-		return nil, fmt.Errorf("arrow/array: column length mismatch: %d != %d", column.Len(), tbl.rows)
-	}
-	if field.Type != column.DataType() {
-		return nil, fmt.Errorf("arrow/array: column type mismatch: %v != %v", field.Type, column.DataType())
-	}
-	newSchema, err := tbl.schema.AddField(i, field)
-	if err != nil {
-		return nil, err
-	}
-	cols := make([]arrow.Column, len(tbl.cols)+1)
-	copy(cols[:i], tbl.cols[:i])
-	cols[i] = column
-	copy(cols[i+1:], tbl.cols[i:])
-	newTable := NewTable(newSchema, cols, tbl.rows)
-	return newTable, nil
-}
-
-func (tbl *simpleTable) NumRows() int64             { return tbl.rows }
-func (tbl *simpleTable) NumCols() int64             { return int64(len(tbl.cols)) }
-func (tbl *simpleTable) Column(i int) *arrow.Column { return &tbl.cols[i] }
-
-func (tbl *simpleTable) validate() {
-	if len(tbl.cols) != tbl.schema.NumFields() {
-		panic(errors.New("arrow/array: table schema mismatch"))
-	}
-	for i, col := range tbl.cols {
-		if !col.Field().Equal(tbl.schema.Field(i)) {
-			panic(fmt.Errorf("arrow/array: column field %q is inconsistent with schema", col.Name()))
-		}
-
-		if int64(col.Len()) < tbl.rows {
-			panic(fmt.Errorf("arrow/array: column %q expected length >= %d but got length %d", col.Name(), tbl.rows, col.Len()))
-		}
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tbl *simpleTable) Retain() {
-	atomic.AddInt64(&tbl.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (tbl *simpleTable) Release() {
-	debug.Assert(atomic.LoadInt64(&tbl.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tbl.refCount, -1) == 0 {
-		for i := range tbl.cols {
-			tbl.cols[i].Release()
-		}
-		tbl.cols = nil
-	}
-}
-
-func (tbl *simpleTable) String() string {
-	o := new(strings.Builder)
-	o.WriteString(tbl.Schema().String())
-	o.WriteString("\n")
-
-	for i := 0; i < int(tbl.NumCols()); i++ {
-		col := tbl.Column(i)
-		o.WriteString(col.Field().Name + ": [")
-		for j, chunk := range col.Data().Chunks() {
-			if j != 0 {
-				o.WriteString(", ")
-			}
-			o.WriteString(chunk.String())
-		}
-		o.WriteString("]\n")
-	}
-	return o.String()
-}
-
-// TableReader is a Record iterator over a (possibly chunked) Table
-type TableReader struct {
-	refCount int64
-
-	tbl   arrow.Table
-	cur   int64        // current row
-	max   int64        // total number of rows
-	rec   arrow.Record // current Record
-	chksz int64        // chunk size
-
-	chunks  []*arrow.Chunked
-	slots   []int   // chunk indices
-	offsets []int64 // chunk offsets
-}
-
-// NewTableReader returns a new TableReader to iterate over the (possibly chunked) Table.
-// if chunkSize is <= 0, the biggest possible chunk will be selected.
-func NewTableReader(tbl arrow.Table, chunkSize int64) *TableReader {
-	ncols := tbl.NumCols()
-	tr := &TableReader{
-		refCount: 1,
-		tbl:      tbl,
-		cur:      0,
-		max:      int64(tbl.NumRows()),
-		chksz:    chunkSize,
-		chunks:   make([]*arrow.Chunked, ncols),
-		slots:    make([]int, ncols),
-		offsets:  make([]int64, ncols),
-	}
-	tr.tbl.Retain()
-
-	if tr.chksz <= 0 {
-		tr.chksz = math.MaxInt64
-	}
-
-	for i := range tr.chunks {
-		col := tr.tbl.Column(i)
-		tr.chunks[i] = col.Data()
-		tr.chunks[i].Retain()
-	}
-	return tr
-}
-
-func (tr *TableReader) Schema() *arrow.Schema { return tr.tbl.Schema() }
-func (tr *TableReader) Record() arrow.Record  { return tr.rec }
-
-func (tr *TableReader) Next() bool {
-	if tr.cur >= tr.max {
-		return false
-	}
-
-	if tr.rec != nil {
-		tr.rec.Release()
-	}
-
-	// determine the minimum contiguous slice across all columns
-	chunksz := imin64(tr.max, tr.chksz)
-	chunks := make([]arrow.Array, len(tr.chunks))
-	for i := range chunks {
-		j := tr.slots[i]
-		chunk := tr.chunks[i].Chunk(j)
-		remain := int64(chunk.Len()) - tr.offsets[i]
-		if remain < chunksz {
-			chunksz = remain
-		}
-
-		chunks[i] = chunk
-	}
-
-	// slice the chunks, advance each chunk slot as appropriate.
-	batch := make([]arrow.Array, len(tr.chunks))
-	for i, chunk := range chunks {
-		var slice arrow.Array
-		offset := tr.offsets[i]
-		switch int64(chunk.Len()) - offset {
-		case chunksz:
-			tr.slots[i]++
-			tr.offsets[i] = 0
-			if offset > 0 {
-				// need to slice
-				slice = NewSlice(chunk, offset, offset+chunksz)
-			} else {
-				// no need to slice
-				slice = chunk
-				slice.Retain()
-			}
-		default:
-			tr.offsets[i] += chunksz
-			slice = NewSlice(chunk, offset, offset+chunksz)
-		}
-		batch[i] = slice
-	}
-
-	tr.cur += chunksz
-	tr.rec = NewRecord(tr.tbl.Schema(), batch, chunksz)
-
-	for _, arr := range batch {
-		arr.Release()
-	}
-
-	return true
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tr *TableReader) Retain() {
-	atomic.AddInt64(&tr.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (tr *TableReader) Release() {
-	debug.Assert(atomic.LoadInt64(&tr.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tr.refCount, -1) == 0 {
-		tr.tbl.Release()
-		for _, chk := range tr.chunks {
-			chk.Release()
-		}
-		if tr.rec != nil {
-			tr.rec.Release()
-		}
-		tr.tbl = nil
-		tr.chunks = nil
-		tr.slots = nil
-		tr.offsets = nil
-	}
-}
-func (tr *TableReader) Err() error { return nil }
-
-func imin64(a, b int64) int64 {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-var (
-	_ arrow.Table  = (*simpleTable)(nil)
-	_ RecordReader = (*TableReader)(nil)
-)
diff --git a/go/arrow/array/table_test.go b/go/arrow/array/table_test.go
deleted file mode 100644
index e8357ac3dfb69..0000000000000
--- a/go/arrow/array/table_test.go
+++ /dev/null
@@ -1,833 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"errors"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestChunked(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	c1 := arrow.NewChunked(arrow.PrimitiveTypes.Int32, nil)
-	c1.Retain()
-	c1.Release()
-	if got, want := c1.Len(), 0; got != want {
-		t.Fatalf("len differ. got=%d, want=%d", got, want)
-	}
-	if got, want := c1.NullN(), 0; got != want {
-		t.Fatalf("nulls: got=%d, want=%d", got, want)
-	}
-	if got, want := c1.DataType(), arrow.PrimitiveTypes.Int32; got != want {
-		t.Fatalf("dtype: got=%v, want=%v", got, want)
-	}
-	c1.Release()
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c2 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c2.Release()
-
-	if got, want := c2.Len(), 10; got != want {
-		t.Fatalf("len: got=%d, want=%d", got, want)
-	}
-	if got, want := c2.NullN(), 0; got != want {
-		t.Fatalf("nulls: got=%d, want=%d", got, want)
-	}
-	if got, want := c2.DataType(), arrow.PrimitiveTypes.Float64; got != want {
-		t.Fatalf("dtype: got=%v, want=%v", got, want)
-	}
-	if got, want := c2.Chunk(0), c2.Chunks()[0]; !reflect.DeepEqual(got, want) {
-		t.Fatalf("chunk: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i, j   int64
-		len    int
-		nulls  int
-		chunks int
-	}{
-		{i: 0, j: 10, len: 10, nulls: 0, chunks: 3},
-		{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-		{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-		{i: 0, j: 5, len: 5, nulls: 0, chunks: 1},
-		{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-		{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-		{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-	} {
-		t.Run("", func(t *testing.T) {
-			sub := array.NewChunkedSlice(c2, tc.i, tc.j)
-			defer sub.Release()
-
-			if got, want := sub.Len(), tc.len; got != want {
-				t.Fatalf("len: got=%d, want=%d", got, want)
-			}
-			if got, want := sub.NullN(), tc.nulls; got != want {
-				t.Fatalf("nulls: got=%d, want=%d", got, want)
-			}
-			if got, want := sub.DataType(), arrow.PrimitiveTypes.Float64; got != want {
-				t.Fatalf("dtype: got=%v, want=%v", got, want)
-			}
-			if got, want := len(sub.Chunks()), tc.chunks; got != want {
-				t.Fatalf("chunks: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestChunkedEqualDataType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	lb1 := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer lb1.Release()
-
-	v1 := lb1.NewArray()
-	defer v1.Release()
-
-	lb2 := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer lb2.Release()
-
-	v2 := lb2.NewArray()
-	defer v2.Release()
-
-	c1 := arrow.NewChunked(arrow.ListOf(arrow.PrimitiveTypes.Int32), []arrow.Array{
-		v1, v2,
-	})
-	defer c1.Release()
-}
-
-func TestChunkedInvalid(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	ib := array.NewInt32Builder(mem)
-	defer ib.Release()
-
-	ib.AppendValues([]int32{6, 7}, nil)
-	f2 := ib.NewInt32Array()
-	defer f2.Release()
-
-	defer func() {
-		e := recover()
-		if e == nil {
-			t.Fatalf("expected a panic")
-		}
-
-		err, ok := e.(error)
-		if !ok {
-			t.Fatalf("expected an error")
-		}
-
-		if !errors.Is(err, arrow.ErrInvalid) {
-			t.Fatalf("should be an ErrInvalid")
-		}
-
-		if got, want := err.Error(), fmt.Sprintf("%s: arrow/array: mismatch data type float64 vs int32", arrow.ErrInvalid); got != want {
-			t.Fatalf("invalid error. got=%q, want=%q", got, want)
-		}
-	}()
-
-	c1 := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{
-		f1, f2,
-	})
-	defer c1.Release()
-}
-
-func TestChunkedSliceInvalid(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c.Release()
-
-	for _, tc := range []struct {
-		i, j int64
-	}{
-		{i: 2, j: 1},
-		{i: 10, j: 11},
-		{i: 11, j: 11},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("expected a panic")
-				}
-				if got, want := e.(string), "arrow/array: index out of range"; got != want {
-					t.Fatalf("invalid error. got=%q, want=%q", got, want)
-				}
-			}()
-			sub := array.NewChunkedSlice(c, tc.i, tc.j)
-			defer sub.Release()
-		})
-	}
-}
-
-func TestColumn(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	type slice struct {
-		i, j   int64
-		len    int
-		nulls  int
-		chunks int
-	}
-
-	for _, tc := range []struct {
-		chunk  *arrow.Chunked
-		field  arrow.Field
-		err    error
-		slices []slice
-	}{
-		{
-			chunk: func() *arrow.Chunked {
-				ib := array.NewInt32Builder(mem)
-				defer ib.Release()
-
-				ib.AppendValues([]int32{1, 2, 3}, nil)
-				i1 := ib.NewInt32Array()
-				defer i1.Release()
-
-				ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-				i2 := ib.NewInt32Array()
-				defer i2.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Int32,
-					[]arrow.Array{i1, i2},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			slices: []slice{
-				{i: 0, j: 10, len: 10, nulls: 0, chunks: 2},
-				{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-				{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-				{i: 0, j: 5, len: 5, nulls: 0, chunks: 2},
-				{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-				{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-				{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-			},
-		},
-		{
-			chunk: func() *arrow.Chunked {
-				fb := array.NewFloat64Builder(mem)
-				defer fb.Release()
-
-				fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-				f1 := fb.NewFloat64Array()
-				defer f1.Release()
-
-				fb.AppendValues([]float64{6, 7}, nil)
-				f2 := fb.NewFloat64Array()
-				defer f2.Release()
-
-				fb.AppendValues([]float64{8, 9, 10}, nil)
-				f3 := fb.NewFloat64Array()
-				defer f3.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Float64,
-					[]arrow.Array{f1, f2, f3},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			slices: []slice{
-				{i: 0, j: 10, len: 10, nulls: 0, chunks: 3},
-				{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-				{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-				{i: 0, j: 5, len: 5, nulls: 0, chunks: 1},
-				{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-				{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-				{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-			},
-		},
-		{
-			chunk: func() *arrow.Chunked {
-				fb := array.NewFloat64Builder(mem)
-				defer fb.Release()
-
-				fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-				f1 := fb.NewFloat64Array()
-				defer f1.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Float64,
-					[]arrow.Array{f1},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			err:   fmt.Errorf("%w: arrow/array: inconsistent data type float64 vs float32", arrow.ErrInvalid),
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer tc.chunk.Release()
-
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-
-			col := arrow.NewColumn(tc.field, tc.chunk)
-			defer col.Release()
-
-			if got, want := col.Len(), tc.chunk.Len(); got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-			if got, want := col.NullN(), tc.chunk.NullN(); got != want {
-				t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-			}
-			if got, want := col.Data(), tc.chunk; got != want {
-				t.Fatalf("invalid chunked: got=%#v, want=%#v", got, want)
-			}
-			if got, want := col.Field(), tc.field; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-			if got, want := col.Name(), tc.field.Name; got != want {
-				t.Fatalf("invalid name: got=%q, want=%q", got, want)
-			}
-			if got, want := col.DataType(), tc.field.Type; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid data type: got=%#v, want=%#v", got, want)
-			}
-
-			col.Retain()
-			col.Release()
-
-			for _, slice := range tc.slices {
-				t.Run("", func(t *testing.T) {
-					sub := array.NewColumnSlice(col, slice.i, slice.j)
-					defer sub.Release()
-
-					if got, want := sub.Len(), slice.len; got != want {
-						t.Fatalf("len: got=%d, want=%d", got, want)
-					}
-					if got, want := sub.NullN(), slice.nulls; got != want {
-						t.Fatalf("nulls: got=%d, want=%d", got, want)
-					}
-					if got, want := sub.DataType(), col.DataType(); got != want {
-						t.Fatalf("dtype: got=%v, want=%v", got, want)
-					}
-					if got, want := len(sub.Data().Chunks()), slice.chunks; got != want {
-						t.Fatalf("chunks: got=%d, want=%d", got, want)
-					}
-				})
-			}
-		})
-	}
-
-}
-
-func TestTable(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	preSchema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3}, nil)
-			i1 := ib.NewInt32Array()
-			defer i1.Release()
-
-			ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-			i2 := ib.NewInt32Array()
-			defer i2.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Int32,
-				[]arrow.Array{i1, i2},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(0), chunk)
-	}()
-	defer col1.Release()
-
-	col2 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			fb := array.NewFloat64Builder(mem)
-			defer fb.Release()
-
-			fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-			f1 := fb.NewFloat64Array()
-			defer f1.Release()
-
-			fb.AppendValues([]float64{6, 7}, nil)
-			f2 := fb.NewFloat64Array()
-			defer f2.Release()
-
-			fb.AppendValues([]float64{8, 9, 10}, nil)
-			f3 := fb.NewFloat64Array()
-			defer f3.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Float64,
-				[]arrow.Array{f1, f2, f3},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(1), chunk)
-	}()
-	defer col2.Release()
-
-	cols := []arrow.Column{*col1, *col2}
-
-	slices := [][]arrow.Array{col1.Data().Chunks(), col2.Data().Chunks()}
-
-	preTbl := array.NewTable(preSchema, []arrow.Column{*col1}, -1)
-	defer preTbl.Release()
-	tbl, err := preTbl.AddColumn(
-		1,
-		arrow.Field{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		*col2,
-	)
-	defer tbl.Release()
-	if err != nil {
-		t.Fatalf("could not add column: %+v", err)
-	}
-
-	tbl2 := array.NewTableFromSlice(schema, slices)
-	defer tbl2.Release()
-
-	tbl.Retain()
-	tbl.Release()
-
-	if got, want := tbl.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := tbl.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.Column(0).Name(), col1.Name(); got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-
-	if got, want := tbl2.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl2.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl2.Column(0).Name(), col1.Name(); got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		cols   []arrow.Column
-		rows   int64
-		err    error
-	}{
-		{
-			schema: schema,
-			cols:   nil,
-			rows:   -1,
-			err:    fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: schema,
-			cols:   cols[:1],
-			rows:   0,
-			err:    fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column field "f2-f64" is inconsistent with schema`),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f32", Type: arrow.PrimitiveTypes.Float64},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column field "f2-f64" is inconsistent with schema`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   11,
-			err:    fmt.Errorf(`arrow/array: column "f1-i32" expected length >= 11 but got length 10`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   3,
-			err:    nil,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			tbl := array.NewTable(tc.schema, tc.cols, tc.rows)
-			defer tbl.Release()
-			if got, want := tbl.NumRows(), tc.rows; got != want {
-				t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestTableFromRecords(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	if got, want := tbl.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := tbl.NumRows(), int64(20); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.Column(0).Name(), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-}
-
-func TestTableReader(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3}, nil)
-			i1 := ib.NewInt32Array()
-			defer i1.Release()
-
-			ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-			i2 := ib.NewInt32Array()
-			defer i2.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Int32,
-				[]arrow.Array{i1, i2},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(0), chunk)
-	}()
-	defer col1.Release()
-
-	col2 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			fb := array.NewFloat64Builder(mem)
-			defer fb.Release()
-
-			fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-			f1 := fb.NewFloat64Array()
-			defer f1.Release()
-
-			fb.AppendValues([]float64{6, 7}, nil)
-			f2 := fb.NewFloat64Array()
-			defer f2.Release()
-
-			fb.AppendValues([]float64{8, 9, 10}, nil)
-			f3 := fb.NewFloat64Array()
-			defer f3.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Float64,
-				[]arrow.Array{f1, f2, f3},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(1), chunk)
-	}()
-	defer col2.Release()
-
-	cols := []arrow.Column{*col1, *col2}
-	tbl := array.NewTable(schema, cols, -1)
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 1)
-	defer tr.Release()
-
-	tr.Retain()
-	tr.Release()
-
-	for tr.Next() {
-	}
-	if err := tr.Err(); err != nil {
-		t.Fatalf("tr err: %#v", err)
-	}
-
-	for _, tc := range []struct {
-		sz   int64
-		n    int64
-		rows []int64
-	}{
-		{sz: -1, n: 4, rows: []int64{3, 2, 2, 3}},
-		{sz: +0, n: 4, rows: []int64{3, 2, 2, 3}},
-		{sz: +1, n: 10, rows: []int64{1, 1, 1, 1, 1, 1, 1, 1, 1, 1}},
-		{sz: +2, n: 6, rows: []int64{2, 1, 2, 2, 2, 1}},
-	} {
-		t.Run(fmt.Sprintf("chunksz=%d", tc.sz), func(t *testing.T) {
-			tr := array.NewTableReader(tbl, tc.sz)
-			defer tr.Release()
-
-			if got, want := tr.Schema(), tbl.Schema(); !got.Equal(want) {
-				t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-			}
-
-			var (
-				n   int64
-				sum int64
-			)
-			for tr.Next() {
-				rec := tr.Record()
-				if got, want := rec.Schema(), tbl.Schema(); !got.Equal(want) {
-					t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-				}
-				if got, want := rec.NumRows(), tc.rows[n]; got != want {
-					t.Fatalf("invalid number of rows[%d]: got=%d, want=%d", n, got, want)
-				}
-				n++
-				sum += rec.NumRows()
-			}
-			if err := tr.Err(); err != nil {
-				t.Fatalf("tr err: %#v", err)
-			}
-
-			if got, want := n, tc.n; got != want {
-				t.Fatalf("invalid number of iterations: got=%d, want=%d", got, want)
-			}
-			if sum != tbl.NumRows() {
-				t.Fatalf("invalid number of rows iterated over: got=%d, want=%d", sum, tbl.NumRows())
-			}
-		})
-	}
-}
-
-func TestTableToString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{111, 112, 113, 114, 115, 116, 117, 118, 119, 120}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{211, 212, 213, 214, 215, 216, 217, 218, 219, 220}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	table_str := tbl.String()
-	expected_str :=
-		`schema:
-  fields: 2
-    - f1-i32: type=int32
-    - f2-f64: type=float64
-f1-i32: [[1 2 3 4 5 6 7 8 (null) 10], [111 112 113 114 115 116 117 118 119 120]]
-f2-f64: [[11 12 13 14 15 16 17 18 19 20], [211 212 213 214 215 216 217 218 219 220]]
-`
-	if got, want := table_str, expected_str; table_str != expected_str {
-		t.Fatalf("invalid String: got=%#v, want=%#v", got, want)
-	}
-}
diff --git a/go/arrow/array/timestamp.go b/go/arrow/array/timestamp.go
deleted file mode 100644
index 679d9a5a8a4cc..0000000000000
--- a/go/arrow/array/timestamp.go
+++ /dev/null
@@ -1,380 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"sync/atomic"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Timestamp represents an immutable sequence of arrow.Timestamp values.
-type Timestamp struct {
-	array
-	values []arrow.Timestamp
-}
-
-// NewTimestampData creates a new Timestamp from Data.
-func NewTimestampData(data arrow.ArrayData) *Timestamp {
-	a := &Timestamp{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Timestamp) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Timestamp) Value(i int) arrow.Timestamp { return a.values[i] }
-
-// TimestampValues returns the values.
-func (a *Timestamp) TimestampValues() []arrow.Timestamp { return a.values }
-
-// String returns a string representation of the array.
-func (a *Timestamp) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Timestamp) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.TimestampTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Timestamp) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	toTime, _ := a.DataType().(*arrow.TimestampType).GetToTimeFunc()
-	return toTime(a.values[i]).Format("2006-01-02 15:04:05.999999999Z0700")
-}
-
-func (a *Timestamp) GetOneForMarshal(i int) interface{} {
-	if val := a.ValueStr(i); val != NullValueStr {
-		return val
-	}
-	return nil
-}
-
-func (a *Timestamp) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTimestamp(left, right *Timestamp) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type TimestampBuilder struct {
-	builder
-
-	dtype   *arrow.TimestampType
-	data    *memory.Buffer
-	rawData []arrow.Timestamp
-}
-
-func NewTimestampBuilder(mem memory.Allocator, dtype *arrow.TimestampType) *TimestampBuilder {
-	return &TimestampBuilder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *TimestampBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *TimestampBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *TimestampBuilder) AppendTime(t time.Time) {
-	ts, err := arrow.TimestampFromTime(t, b.dtype.Unit)
-	if err != nil {
-		panic(err)
-	}
-	b.Append(ts)
-}
-
-func (b *TimestampBuilder) Append(v arrow.Timestamp) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *TimestampBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *TimestampBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *TimestampBuilder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *TimestampBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *TimestampBuilder) UnsafeAppend(v arrow.Timestamp) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *TimestampBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *TimestampBuilder) AppendValues(v []arrow.Timestamp, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.TimestampTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *TimestampBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.TimestampTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.TimestampTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *TimestampBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *TimestampBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.TimestampTraits.BytesRequired(n))
-		b.rawData = arrow.TimestampTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Timestamp array from the memory buffers used by the builder and resets the TimestampBuilder
-// so it can be used to build a new array.
-func (b *TimestampBuilder) NewArray() arrow.Array {
-	return b.NewTimestampArray()
-}
-
-// NewTimestampArray creates a Timestamp array from the memory buffers used by the builder and resets the TimestampBuilder
-// so it can be used to build a new array.
-func (b *TimestampBuilder) NewTimestampArray() (a *Timestamp) {
-	data := b.newData()
-	a = NewTimestampData(data)
-	data.Release()
-	return
-}
-
-func (b *TimestampBuilder) newData() (data *Data) {
-	bytesRequired := arrow.TimestampTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *TimestampBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	loc, err := b.dtype.GetZone()
-	if err != nil {
-		return err
-	}
-
-	v, _, err := arrow.TimestampFromStringInLocation(s, b.dtype.Unit, loc)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *TimestampBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		loc, _ := b.dtype.GetZone()
-		tm, _, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Timestamp(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Timestamp(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Timestamp(n))
-	case float64:
-		b.Append(arrow.Timestamp(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Timestamp(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *TimestampBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *TimestampBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Timestamp)(nil)
-	_ Builder     = (*TimestampBuilder)(nil)
-)
diff --git a/go/arrow/array/timestamp_test.go b/go/arrow/array/timestamp_test.go
deleted file mode 100644
index cb9f957d3f255..0000000000000
--- a/go/arrow/array/timestamp_test.go
+++ /dev/null
@@ -1,300 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTimestampStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.TimestampType{Unit: arrow.Second}
-	b := array.NewTimestampBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Timestamp)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTimestampBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Timestamp)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTimestampBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	timestamp := time.Now()
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-	ab.AppendTime(timestamp)
-
-	// check state of builder before NewTimestampArray
-	assert.Equal(t, 11, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTimestampArray()
-
-	// check state of builder after NewTimestampArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTimestampArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTimestampArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTimestampArray did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Timestamp{1, 2, 3, 0, 5, 6, 0, 8, 9, 10, arrow.Timestamp(timestamp.Unix())}, a.TimestampValues(), "unexpected TimestampValues")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.TimestampValues(), 11, "unexpected length of TimestampValues")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTimestampArray()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Timestamp{7, 8}, a.TimestampValues())
-	assert.Len(t, a.TimestampValues(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Timestamp{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTimestampArray()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Timestamp); !ok {
-		t.Fatalf("could not type-assert to array.Timestamp")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Timestamp)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Timestamp")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTimestampBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Timestamp{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-
-	a.Release()
-}
-
-func TestTimestampBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Timestamp{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	a := ab.NewTimestampArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTimestampArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	a = ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-	a.Release()
-}
-
-func TestTimestampBuilder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTimestampValueStr(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}
-	b := array.NewTimestampBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(-34226955)
-	b.Append(1456767743)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, "1968-11-30 13:30:45-0700", arr.ValueStr(0))
-	assert.Equal(t, "2016-02-29 10:42:23-0700", arr.ValueStr(1))
-}
-
-func TestTimestampEquality(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	tsDatatypes := []*arrow.TimestampType{
-		{Unit: arrow.Second},
-		{Unit: arrow.Second, TimeZone: "UTC"},
-		{Unit: arrow.Second, TimeZone: "America/Phoenix"},
-	}
-
-	arrs := make([]*array.Timestamp, 0, len(tsDatatypes))
-	for _, dt := range tsDatatypes {
-		bldr := array.NewTimestampBuilder(mem, dt)
-		defer bldr.Release()
-
-		bldr.Append(-34226955)
-		bldr.Append(1456767743)
-
-		arr := bldr.NewTimestampArray()
-		defer arr.Release()
-
-		arrs = append(arrs, arr)
-	}
-
-	// No timezone, "wall clock" semantics
-	// These timestamps have no actual timezone, but we still represent as UTC per Go conventions
-	assert.Equal(t, "1968-11-30 20:30:45Z", arrs[0].ValueStr(0))
-	assert.Equal(t, "2016-02-29 17:42:23Z", arrs[0].ValueStr(1))
-
-	// UTC timezone, "instant" semantics
-	assert.Equal(t, "1968-11-30 20:30:45Z", arrs[1].ValueStr(0))
-	assert.Equal(t, "2016-02-29 17:42:23Z", arrs[1].ValueStr(1))
-
-	// America/Phoenix timezone, "instant" semantics
-	assert.Equal(t, "1968-11-30 13:30:45-0700", arrs[2].ValueStr(0))
-	assert.Equal(t, "2016-02-29 10:42:23-0700", arrs[2].ValueStr(1))
-
-	// Despite timezone and semantics, the physical values are equivalent
-	assert.Equal(t, arrs[0].Value(0), arrs[1].Value(0))
-	assert.Equal(t, arrs[0].Value(0), arrs[2].Value(0))
-	assert.Equal(t, arrs[1].Value(0), arrs[2].Value(0))
-
-	assert.Equal(t, arrs[0].Value(1), arrs[1].Value(1))
-	assert.Equal(t, arrs[0].Value(1), arrs[2].Value(1))
-	assert.Equal(t, arrs[1].Value(1), arrs[2].Value(1))
-}
diff --git a/go/arrow/array/union.go b/go/arrow/array/union.go
deleted file mode 100644
index 5d2a8b8ecb2f0..0000000000000
--- a/go/arrow/array/union.go
+++ /dev/null
@@ -1,1370 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Union is a convenience interface to encompass both Sparse and Dense
-// union array types.
-type Union interface {
-	arrow.Array
-	// NumFields returns the number of child fields in this union.
-	// Equivalent to len(UnionType().Fields())
-	NumFields() int
-	// Validate returns an error if there are any issues with the lengths
-	// or types of the children arrays mismatching with the Type of the
-	// Union Array. nil is returned if there are no problems.
-	Validate() error
-	// ValidateFull runs the same checks that Validate() does, but additionally
-	// checks that all childIDs are valid (>= 0 || ==InvalidID) and for
-	// dense unions validates that all offsets are within the bounds of their
-	// respective child.
-	ValidateFull() error
-	// TypeCodes returns the type id buffer for the union Array, equivalent to
-	// Data().Buffers()[1]. Note: This will not account for any slice offset.
-	TypeCodes() *memory.Buffer
-	// RawTypeCodes returns a slice of UnionTypeCodes properly accounting for
-	// any slice offset.
-	RawTypeCodes() []arrow.UnionTypeCode
-	// TypeCode returns the logical type code of the value at the requested index
-	TypeCode(i int) arrow.UnionTypeCode
-	// ChildID returns the index of the physical child containing the value
-	// at the requested index. Equivalent to:
-	//
-	// 	arr.UnionType().ChildIDs()[arr.RawTypeCodes()[i+arr.Data().Offset()]]
-	ChildID(i int) int
-	// UnionType is a convenience function to retrieve the properly typed UnionType
-	// instead of having to call DataType() and manually assert the type.
-	UnionType() arrow.UnionType
-	// Mode returns the union mode of the underlying Array, either arrow.SparseMode
-	// or arrow.DenseMode.
-	Mode() arrow.UnionMode
-	// Field returns the requested child array for this union. Returns nil if a
-	// nonexistent position is passed in.
-	//
-	// The appropriate child for an index can be retrieved with Field(ChildID(index))
-	Field(pos int) arrow.Array
-}
-
-const kMaxElems = math.MaxInt32
-
-type union struct {
-	array
-
-	unionType arrow.UnionType
-	typecodes []arrow.UnionTypeCode
-
-	children []arrow.Array
-}
-
-func (a *union) Retain() {
-	a.array.Retain()
-	for _, c := range a.children {
-		c.Retain()
-	}
-}
-
-func (a *union) Release() {
-	a.array.Release()
-	for _, c := range a.children {
-		c.Release()
-	}
-}
-
-func (a *union) NumFields() int { return len(a.unionType.Fields()) }
-
-func (a *union) Mode() arrow.UnionMode { return a.unionType.Mode() }
-
-func (a *union) UnionType() arrow.UnionType { return a.unionType }
-
-func (a *union) TypeCodes() *memory.Buffer {
-	return a.data.buffers[1]
-}
-
-func (a *union) RawTypeCodes() []arrow.UnionTypeCode {
-	if a.data.length > 0 {
-		return a.typecodes[a.data.offset:]
-	}
-	return []arrow.UnionTypeCode{}
-}
-
-func (a *union) TypeCode(i int) arrow.UnionTypeCode {
-	return a.typecodes[i+a.data.offset]
-}
-
-func (a *union) ChildID(i int) int {
-	return a.unionType.ChildIDs()[a.typecodes[i+a.data.offset]]
-}
-
-func (a *union) setData(data *Data) {
-	a.unionType = data.dtype.(arrow.UnionType)
-	debug.Assert(len(data.buffers) >= 2, "arrow/array: invalid number of union array buffers")
-
-	if data.length > 0 {
-		a.typecodes = arrow.Int8Traits.CastFromBytes(data.buffers[1].Bytes())
-	} else {
-		a.typecodes = []int8{}
-	}
-	a.children = make([]arrow.Array, len(data.childData))
-	for i, child := range data.childData {
-		if a.unionType.Mode() == arrow.SparseMode && (data.offset != 0 || child.Len() != data.length) {
-			child = NewSliceData(child, int64(data.offset), int64(data.offset+data.length))
-			defer child.Release()
-		}
-		a.children[i] = MakeFromData(child)
-	}
-	a.array.setData(data)
-}
-
-func (a *union) Field(pos int) (result arrow.Array) {
-	if pos < 0 || pos >= len(a.children) {
-		return nil
-	}
-
-	return a.children[pos]
-}
-
-func (a *union) Validate() error {
-	fields := a.unionType.Fields()
-	for i, f := range fields {
-		fieldData := a.data.childData[i]
-		if a.unionType.Mode() == arrow.SparseMode && fieldData.Len() < a.data.length+a.data.offset {
-			return fmt.Errorf("arrow/array: sparse union child array #%d has length smaller than expected for union array (%d < %d)",
-				i, fieldData.Len(), a.data.length+a.data.offset)
-		}
-
-		if !arrow.TypeEqual(f.Type, fieldData.DataType()) {
-			return fmt.Errorf("arrow/array: union child array #%d does not match type field %s vs %s",
-				i, fieldData.DataType(), f.Type)
-		}
-	}
-	return nil
-}
-
-func (a *union) ValidateFull() error {
-	if err := a.Validate(); err != nil {
-		return err
-	}
-
-	childIDs := a.unionType.ChildIDs()
-	codesMap := a.unionType.TypeCodes()
-	codes := a.RawTypeCodes()
-
-	for i := 0; i < a.data.length; i++ {
-		code := codes[i]
-		if code < 0 || childIDs[code] == arrow.InvalidUnionChildID {
-			return fmt.Errorf("arrow/array: union value at position %d has invalid type id %d", i, code)
-		}
-	}
-
-	if a.unionType.Mode() == arrow.DenseMode {
-		// validate offsets
-
-		// map logical typeid to child length
-		var childLengths [256]int64
-		for i := range a.unionType.Fields() {
-			childLengths[codesMap[i]] = int64(a.data.childData[i].Len())
-		}
-
-		// check offsets are in bounds
-		var lastOffsets [256]int64
-		offsets := arrow.Int32Traits.CastFromBytes(a.data.buffers[2].Bytes())[a.data.offset:]
-		for i := int64(0); i < int64(a.data.length); i++ {
-			code := codes[i]
-			offset := offsets[i]
-			switch {
-			case offset < 0:
-				return fmt.Errorf("arrow/array: union value at position %d has negative offset %d", i, offset)
-			case offset >= int32(childLengths[code]):
-				return fmt.Errorf("arrow/array: union value at position %d has offset larger than child length (%d >= %d)",
-					i, offset, childLengths[code])
-			case offset < int32(lastOffsets[code]):
-				return fmt.Errorf("arrow/array: union value at position %d has non-monotonic offset %d", i, offset)
-			}
-			lastOffsets[code] = int64(offset)
-		}
-	}
-
-	return nil
-}
-
-// SparseUnion represents an array where each logical value is taken from
-// a single child. A buffer of 8-bit type ids indicates which child a given
-// logical value is to be taken from. This is represented as the ChildID,
-// which is the index into the list of children.
-//
-// In a sparse union, each child array will have the same length as the
-// union array itself, regardless of how many values in the union actually
-// refer to it.
-//
-// Unlike most other arrays, unions do not have a top-level validity bitmap.
-type SparseUnion struct {
-	union
-}
-
-// NewSparseUnion constructs a union array using the given type, length, list of
-// children and buffer of typeIDs with the given offset.
-func NewSparseUnion(dt *arrow.SparseUnionType, length int, children []arrow.Array, typeIDs *memory.Buffer, offset int) *SparseUnion {
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-	data := NewData(dt, length, []*memory.Buffer{nil, typeIDs}, childData, 0, offset)
-	defer data.Release()
-	return NewSparseUnionData(data)
-}
-
-// NewSparseUnionData constructs a SparseUnion array from the given ArrayData object.
-func NewSparseUnionData(data arrow.ArrayData) *SparseUnion {
-	a := &SparseUnion{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// NewSparseUnionFromArrays constructs a new SparseUnion array with the provided
-// values.
-//
-// typeIDs *must* be an INT8 array with no nulls
-// len(codes) *must* be either 0 or equal to len(children). If len(codes) is 0,
-// the type codes used will be sequentially numeric starting at 0.
-func NewSparseUnionFromArrays(typeIDs arrow.Array, children []arrow.Array, codes ...arrow.UnionTypeCode) (*SparseUnion, error) {
-	return NewSparseUnionFromArraysWithFieldCodes(typeIDs, children, []string{}, codes)
-}
-
-// NewSparseUnionFromArrayWithFields constructs a new SparseUnion array like
-// NewSparseUnionFromArrays, but allows specifying the field names. Type codes
-// will be auto-generated sequentially starting at 0.
-//
-// typeIDs *must* be an INT8 array with no nulls.
-// len(fields) *must* either be 0 or equal to len(children). If len(fields) is 0,
-// then the fields will be named sequentially starting at "0".
-func NewSparseUnionFromArraysWithFields(typeIDs arrow.Array, children []arrow.Array, fields []string) (*SparseUnion, error) {
-	return NewSparseUnionFromArraysWithFieldCodes(typeIDs, children, fields, []arrow.UnionTypeCode{})
-}
-
-// NewSparseUnionFromArraysWithFieldCodes combines the other constructors
-// for constructing a new SparseUnion array with the provided field names
-// and type codes, along with children and type ids.
-//
-// All the requirements mentioned in NewSparseUnionFromArrays and
-// NewSparseUnionFromArraysWithFields apply.
-func NewSparseUnionFromArraysWithFieldCodes(typeIDs arrow.Array, children []arrow.Array, fields []string, codes []arrow.UnionTypeCode) (*SparseUnion, error) {
-	switch {
-	case typeIDs.DataType().ID() != arrow.INT8:
-		return nil, errors.New("arrow/array: union array type ids must be signed int8")
-	case typeIDs.NullN() != 0:
-		return nil, errors.New("arrow/array: union type ids may not have nulls")
-	case len(fields) > 0 && len(fields) != len(children):
-		return nil, errors.New("arrow/array: field names must have the same length as children")
-	case len(codes) > 0 && len(codes) != len(children):
-		return nil, errors.New("arrow/array: type codes must have same length as children")
-	}
-
-	buffers := []*memory.Buffer{nil, typeIDs.Data().Buffers()[1]}
-	ty := arrow.SparseUnionFromArrays(children, fields, codes)
-
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-		if c.Len() != typeIDs.Len() {
-			return nil, errors.New("arrow/array: sparse union array must have len(child) == len(typeids) for all children")
-		}
-	}
-
-	data := NewData(ty, typeIDs.Len(), buffers, childData, 0, typeIDs.Data().Offset())
-	defer data.Release()
-	return NewSparseUnionData(data), nil
-}
-
-func (a *SparseUnion) setData(data *Data) {
-	a.union.setData(data)
-	debug.Assert(a.data.dtype.ID() == arrow.SPARSE_UNION, "arrow/array: invalid data type for SparseUnion")
-	debug.Assert(len(a.data.buffers) == 2, "arrow/array: sparse unions should have exactly 2 buffers")
-	debug.Assert(a.data.buffers[0] == nil, "arrow/array: validity bitmap for sparse unions should be nil")
-}
-
-func (a *SparseUnion) GetOneForMarshal(i int) interface{} {
-	typeID := a.RawTypeCodes()[i]
-
-	childID := a.ChildID(i)
-	data := a.Field(childID)
-
-	if data.IsNull(i) {
-		return nil
-	}
-
-	return []interface{}{typeID, data.GetOneForMarshal(i)}
-}
-
-func (a *SparseUnion) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func (a *SparseUnion) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	val := a.GetOneForMarshal(i)
-	if val == nil {
-		// child is nil
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(val)
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *SparseUnion) String() string {
-	var b strings.Builder
-	b.WriteByte('[')
-
-	fieldList := a.unionType.Fields()
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			b.WriteString(" ")
-		}
-
-		field := fieldList[a.ChildID(i)]
-		f := a.Field(a.ChildID(i))
-		fmt.Fprintf(&b, "{%s=%v}", field.Name, f.GetOneForMarshal(i))
-	}
-	b.WriteByte(']')
-	return b.String()
-}
-
-// GetFlattenedField returns a child array, adjusting its validity bitmap
-// where the union array type codes don't match.
-//
-// ie: the returned array will have a null in every index that it is
-// not referenced by union.
-func (a *SparseUnion) GetFlattenedField(mem memory.Allocator, index int) (arrow.Array, error) {
-	if index < 0 || index >= a.NumFields() {
-		return nil, fmt.Errorf("arrow/array: index out of range: %d", index)
-	}
-
-	childData := a.data.childData[index]
-	if a.data.offset != 0 || a.data.length != childData.Len() {
-		childData = NewSliceData(childData, int64(a.data.offset), int64(a.data.offset+a.data.length))
-		// NewSliceData doesn't break the slice reference for buffers
-		// since we're going to replace the null bitmap buffer we need to break the
-		// slice reference so that we don't affect a.children's references
-		newBufs := make([]*memory.Buffer, len(childData.Buffers()))
-		copy(newBufs, childData.(*Data).buffers)
-		childData.(*Data).buffers = newBufs
-	} else {
-		childData = childData.(*Data).Copy()
-	}
-	defer childData.Release()
-
-	// synthesize a null bitmap based on the union discriminant
-	// make sure the bitmap has extra bits corresponding to the child's offset
-	flattenedNullBitmap := memory.NewResizableBuffer(mem)
-	flattenedNullBitmap.Resize(childData.Len() + childData.Offset())
-
-	var (
-		childNullBitmap       = childData.Buffers()[0]
-		childOffset           = childData.Offset()
-		typeCode              = a.unionType.TypeCodes()[index]
-		codes                 = a.RawTypeCodes()
-		offset          int64 = 0
-	)
-	bitutils.GenerateBitsUnrolled(flattenedNullBitmap.Bytes(), int64(childOffset), int64(a.data.length),
-		func() bool {
-			b := codes[offset] == typeCode
-			offset++
-			return b
-		})
-
-	if childNullBitmap != nil {
-		defer childNullBitmap.Release()
-		bitutil.BitmapAnd(flattenedNullBitmap.Bytes(), childNullBitmap.Bytes(),
-			int64(childOffset), int64(childOffset), flattenedNullBitmap.Bytes(),
-			int64(childOffset), int64(childData.Len()))
-	}
-	childData.(*Data).buffers[0] = flattenedNullBitmap
-	childData.(*Data).nulls = childData.Len() - bitutil.CountSetBits(flattenedNullBitmap.Bytes(), childOffset, childData.Len())
-	return MakeFromData(childData), nil
-}
-
-func arraySparseUnionEqual(l, r *SparseUnion) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := SliceEqual(l.children[childNum], int64(i), int64(i+1),
-			r.children[childNum], int64(i), int64(i+1))
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-func arraySparseUnionApproxEqual(l, r *SparseUnion, opt equalOption) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := sliceApproxEqual(l.children[childNum], int64(i+l.data.offset), int64(i+l.data.offset+1),
-			r.children[childNum], int64(i+r.data.offset), int64(i+r.data.offset+1), opt)
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-// DenseUnion represents an array where each logical value is taken from
-// a single child, at a specific offset. A buffer of 8-bit type ids
-// indicates which child a given logical value is to be taken from and
-// a buffer of 32-bit offsets indicating which physical position in the
-// given child array has the logical value for that index.
-//
-// Unlike a sparse union, a dense union allows encoding only the child values
-// which are actually referred to by the union array. This is counterbalanced
-// by the additional footprint of the offsets buffer, and the additional
-// indirection cost when looking up values.
-//
-// Unlike most other arrays, unions do not have a top-level validity bitmap.
-type DenseUnion struct {
-	union
-	offsets []int32
-}
-
-// NewDenseUnion constructs a union array using the given type, length, list of
-// children and buffers of typeIDs and offsets, with the given array offset.
-func NewDenseUnion(dt *arrow.DenseUnionType, length int, children []arrow.Array, typeIDs, valueOffsets *memory.Buffer, offset int) *DenseUnion {
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-
-	data := NewData(dt, length, []*memory.Buffer{nil, typeIDs, valueOffsets}, childData, 0, offset)
-	defer data.Release()
-	return NewDenseUnionData(data)
-}
-
-// NewDenseUnionData constructs a DenseUnion array from the given ArrayData object.
-func NewDenseUnionData(data arrow.ArrayData) *DenseUnion {
-	a := &DenseUnion{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// NewDenseUnionFromArrays constructs a new DenseUnion array with the provided
-// values.
-//
-// typeIDs *must* be an INT8 array with no nulls
-// offsets *must* be an INT32 array with no nulls
-// len(codes) *must* be either 0 or equal to len(children). If len(codes) is 0,
-// the type codes used will be sequentially numeric starting at 0.
-func NewDenseUnionFromArrays(typeIDs, offsets arrow.Array, children []arrow.Array, codes ...arrow.UnionTypeCode) (*DenseUnion, error) {
-	return NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets, children, []string{}, codes)
-}
-
-// NewDenseUnionFromArrayWithFields constructs a new DenseUnion array like
-// NewDenseUnionFromArrays, but allows specifying the field names. Type codes
-// will be auto-generated sequentially starting at 0.
-//
-// typeIDs *must* be an INT8 array with no nulls.
-// offsets *must* be an INT32 array with no nulls.
-// len(fields) *must* either be 0 or equal to len(children). If len(fields) is 0,
-// then the fields will be named sequentially starting at "0".
-func NewDenseUnionFromArraysWithFields(typeIDs, offsets arrow.Array, children []arrow.Array, fields []string) (*DenseUnion, error) {
-	return NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets, children, fields, []arrow.UnionTypeCode{})
-}
-
-// NewDenseUnionFromArraysWithFieldCodes combines the other constructors
-// for constructing a new DenseUnion array with the provided field names
-// and type codes, along with children and type ids.
-//
-// All the requirements mentioned in NewDenseUnionFromArrays and
-// NewDenseUnionFromArraysWithFields apply.
-func NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets arrow.Array, children []arrow.Array, fields []string, codes []arrow.UnionTypeCode) (*DenseUnion, error) {
-	switch {
-	case offsets.DataType().ID() != arrow.INT32:
-		return nil, errors.New("arrow/array: union offsets must be signed int32")
-	case typeIDs.DataType().ID() != arrow.INT8:
-		return nil, errors.New("arrow/array: union type_ids must be signed int8")
-	case typeIDs.NullN() != 0:
-		return nil, errors.New("arrow/array: union typeIDs may not have nulls")
-	case offsets.NullN() != 0:
-		return nil, errors.New("arrow/array: nulls are not allowed in offsets for NewDenseUnionFromArrays*")
-	case len(fields) > 0 && len(fields) != len(children):
-		return nil, errors.New("arrow/array: fields must be the same length as children")
-	case len(codes) > 0 && len(codes) != len(children):
-		return nil, errors.New("arrow/array: typecodes must have the same length as children")
-	}
-
-	ty := arrow.DenseUnionFromArrays(children, fields, codes)
-	buffers := []*memory.Buffer{nil, typeIDs.Data().Buffers()[1], offsets.Data().Buffers()[1]}
-
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-
-	data := NewData(ty, typeIDs.Len(), buffers, childData, 0, typeIDs.Data().Offset())
-	defer data.Release()
-	return NewDenseUnionData(data), nil
-}
-
-func (a *DenseUnion) ValueOffsets() *memory.Buffer { return a.data.buffers[2] }
-
-func (a *DenseUnion) ValueOffset(i int) int32 { return a.offsets[i+a.data.offset] }
-
-func (a *DenseUnion) RawValueOffsets() []int32 { return a.offsets[a.data.offset:] }
-
-func (a *DenseUnion) setData(data *Data) {
-	a.union.setData(data)
-	debug.Assert(a.data.dtype.ID() == arrow.DENSE_UNION, "arrow/array: invalid data type for DenseUnion")
-	debug.Assert(len(a.data.buffers) == 3, "arrow/array: dense unions should have exactly 3 buffers")
-	debug.Assert(a.data.buffers[0] == nil, "arrow/array: validity bitmap for dense unions should be nil")
-
-	if data.length > 0 {
-		a.offsets = arrow.Int32Traits.CastFromBytes(a.data.buffers[2].Bytes())
-	} else {
-		a.offsets = []int32{}
-	}
-}
-
-func (a *DenseUnion) GetOneForMarshal(i int) interface{} {
-	typeID := a.RawTypeCodes()[i]
-
-	childID := a.ChildID(i)
-	data := a.Field(childID)
-
-	offset := int(a.RawValueOffsets()[i])
-	if data.IsNull(offset) {
-		return nil
-	}
-
-	return []interface{}{typeID, data.GetOneForMarshal(offset)}
-}
-
-func (a *DenseUnion) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func (a *DenseUnion) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	val := a.GetOneForMarshal(i)
-	if val == nil {
-		// child in nil
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(val)
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *DenseUnion) String() string {
-	var b strings.Builder
-	b.WriteByte('[')
-
-	offsets := a.RawValueOffsets()
-
-	fieldList := a.unionType.Fields()
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			b.WriteString(" ")
-		}
-
-		field := fieldList[a.ChildID(i)]
-		f := a.Field(a.ChildID(i))
-		fmt.Fprintf(&b, "{%s=%v}", field.Name, f.GetOneForMarshal(int(offsets[i])))
-	}
-	b.WriteByte(']')
-	return b.String()
-}
-
-func arrayDenseUnionEqual(l, r *DenseUnion) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-	leftOffsets, rightOffsets := l.RawValueOffsets(), r.RawValueOffsets()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := SliceEqual(l.children[childNum], int64(leftOffsets[i]), int64(leftOffsets[i]+1),
-			r.children[childNum], int64(rightOffsets[i]), int64(rightOffsets[i]+1))
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayDenseUnionApproxEqual(l, r *DenseUnion, opt equalOption) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-	leftOffsets, rightOffsets := l.RawValueOffsets(), r.RawValueOffsets()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := sliceApproxEqual(l.children[childNum], int64(leftOffsets[i]), int64(leftOffsets[i]+1),
-			r.children[childNum], int64(rightOffsets[i]), int64(rightOffsets[i]+1), opt)
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-// UnionBuilder is a convenience interface for building Union arrays of
-// either Dense or Sparse mode.
-type UnionBuilder interface {
-	Builder
-	// AppendChild allows constructing the union type on the fly by making new
-	// new array builder available to the union builder. The type code (index)
-	// of the new child is returned, which should be passed to the Append method
-	// when adding a new element to the union array.
-	AppendChild(newChild Builder, fieldName string) (newCode arrow.UnionTypeCode)
-	// Append adds an element to the UnionArray indicating which typecode the
-	// new element should use. This *must* be followed up by an append to the
-	// appropriate child builder.
-	Append(arrow.UnionTypeCode)
-	// Mode returns what kind of Union is being built, either arrow.SparseMode
-	// or arrow.DenseMode
-	Mode() arrow.UnionMode
-	// Child returns the builder for the requested child index.
-	// If an invalid index is requested (e.g. <0 or >len(children))
-	// then this will panic.
-	Child(idx int) Builder
-}
-
-type unionBuilder struct {
-	builder
-
-	childFields []arrow.Field
-	codes       []arrow.UnionTypeCode
-	mode        arrow.UnionMode
-
-	children        []Builder
-	typeIDtoBuilder []Builder
-	typeIDtoChildID []int
-	// for all typeID < denseTypeID, typeIDtoBuilder[typeID] != nil
-	denseTypeID  arrow.UnionTypeCode
-	typesBuilder *int8BufferBuilder
-}
-
-func newUnionBuilder(mem memory.Allocator, children []Builder, typ arrow.UnionType) unionBuilder {
-	if children == nil {
-		children = make([]Builder, 0)
-	}
-	b := unionBuilder{
-		builder:         builder{refCount: 1, mem: mem},
-		mode:            typ.Mode(),
-		codes:           typ.TypeCodes(),
-		children:        children,
-		typeIDtoChildID: make([]int, int(typ.MaxTypeCode())+1),     // convert to int as int8(127) +1 panics
-		typeIDtoBuilder: make([]Builder, int(typ.MaxTypeCode())+1), // convert to int as int8(127) +1 panics
-		childFields:     make([]arrow.Field, len(children)),
-		typesBuilder:    newInt8BufferBuilder(mem),
-	}
-
-	b.typeIDtoChildID[0] = arrow.InvalidUnionChildID
-	for i := 1; i < len(b.typeIDtoChildID); i *= 2 {
-		copy(b.typeIDtoChildID[i:], b.typeIDtoChildID[:i])
-	}
-
-	debug.Assert(len(children) == len(typ.TypeCodes()), "mismatched typecodes and children")
-	debug.Assert(len(b.typeIDtoBuilder)-1 <= int(arrow.MaxUnionTypeCode), "too many typeids")
-
-	copy(b.childFields, typ.Fields())
-	for i, c := range children {
-		c.Retain()
-		typeID := typ.TypeCodes()[i]
-		b.typeIDtoChildID[typeID] = i
-		b.typeIDtoBuilder[typeID] = c
-	}
-
-	return b
-}
-
-func (b *unionBuilder) NumChildren() int {
-	return len(b.children)
-}
-
-func (b *unionBuilder) Child(idx int) Builder {
-	if idx < 0 || idx > len(b.children) {
-		panic("arrow/array: invalid child index for union builder")
-	}
-	return b.children[idx]
-}
-
-// Len returns the current number of elements in the builder.
-func (b *unionBuilder) Len() int { return b.typesBuilder.Len() }
-
-func (b *unionBuilder) Mode() arrow.UnionMode { return b.mode }
-
-func (b *unionBuilder) reserve(elements int, resize func(int)) {
-	// union has no null bitmap, ever so we can skip that handling
-	if b.length+elements > b.capacity {
-		b.capacity = bitutil.NextPowerOf2(b.length + elements)
-		resize(b.capacity)
-	}
-}
-
-func (b *unionBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, c := range b.children {
-			c.Release()
-		}
-		b.typesBuilder.Release()
-	}
-}
-
-func (b *unionBuilder) Type() arrow.DataType {
-	fields := make([]arrow.Field, len(b.childFields))
-	for i, f := range b.childFields {
-		fields[i] = f
-		fields[i].Type = b.children[i].Type()
-	}
-
-	switch b.mode {
-	case arrow.SparseMode:
-		return arrow.SparseUnionOf(fields, b.codes)
-	case arrow.DenseMode:
-		return arrow.DenseUnionOf(fields, b.codes)
-	default:
-		panic("invalid union builder mode")
-	}
-}
-
-func (b *unionBuilder) AppendChild(newChild Builder, fieldName string) arrow.UnionTypeCode {
-	newChild.Retain()
-	b.children = append(b.children, newChild)
-	newType := b.nextTypeID()
-
-	b.typeIDtoChildID[newType] = len(b.children) - 1
-	b.typeIDtoBuilder[newType] = newChild
-	b.childFields = append(b.childFields, arrow.Field{Name: fieldName, Nullable: true})
-	b.codes = append(b.codes, newType)
-
-	return newType
-}
-
-func (b *unionBuilder) nextTypeID() arrow.UnionTypeCode {
-	// find typeID such that typeIDtoBuilder[typeID] == nil
-	// use that for the new child. Start searching at denseTypeID
-	// since typeIDtoBuilder is densely packed up at least to denseTypeID
-	for ; int(b.denseTypeID) < len(b.typeIDtoBuilder); b.denseTypeID++ {
-		if b.typeIDtoBuilder[b.denseTypeID] == nil {
-			id := b.denseTypeID
-			b.denseTypeID++
-			return id
-		}
-	}
-
-	debug.Assert(len(b.typeIDtoBuilder) < int(arrow.MaxUnionTypeCode), "too many children typeids")
-	// typeIDtoBuilder is already densely packed, so just append the new child
-	b.typeIDtoBuilder = append(b.typeIDtoBuilder, nil)
-	b.typeIDtoChildID = append(b.typeIDtoChildID, arrow.InvalidUnionChildID)
-	id := b.denseTypeID
-	b.denseTypeID++
-	return id
-
-}
-
-func (b *unionBuilder) newData() *Data {
-	length := b.typesBuilder.Len()
-	typesBuffer := b.typesBuilder.Finish()
-	defer typesBuffer.Release()
-	childData := make([]arrow.ArrayData, len(b.children))
-	for i, b := range b.children {
-		childData[i] = b.newData()
-		defer childData[i].Release()
-	}
-
-	return NewData(b.Type(), length, []*memory.Buffer{nil, typesBuffer}, childData, 0, 0)
-}
-
-// SparseUnionBuilder is used to build a Sparse Union array using the Append
-// methods. You can also add new types to the union on the fly by using
-// AppendChild.
-//
-// Keep in mind: All children of a SparseUnion should be the same length
-// as the union itself. If you add new children with AppendChild, ensure
-// that they have the correct number of preceding elements that have been
-// added to the builder beforehand.
-type SparseUnionBuilder struct {
-	unionBuilder
-}
-
-// NewEmptySparseUnionBuilder is a helper to construct a SparseUnionBuilder
-// without having to predefine the union types. It creates a builder with no
-// children and AppendChild will have to be called before appending any
-// elements to this builder.
-func NewEmptySparseUnionBuilder(mem memory.Allocator) *SparseUnionBuilder {
-	return &SparseUnionBuilder{
-		unionBuilder: newUnionBuilder(mem, nil, arrow.SparseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{})),
-	}
-}
-
-// NewSparseUnionBuilder constructs a new SparseUnionBuilder with the provided
-// children and type codes. Builders will be constructed for each child
-// using the fields in typ
-func NewSparseUnionBuilder(mem memory.Allocator, typ *arrow.SparseUnionType) *SparseUnionBuilder {
-	children := make([]Builder, typ.NumFields())
-	for i, f := range typ.Fields() {
-		children[i] = NewBuilder(mem, f.Type)
-		defer children[i].Release()
-	}
-	return NewSparseUnionBuilderWithBuilders(mem, typ, children)
-}
-
-// NewSparseUnionWithBuilders returns a new SparseUnionBuilder using the
-// provided type and builders.
-func NewSparseUnionBuilderWithBuilders(mem memory.Allocator, typ *arrow.SparseUnionType, children []Builder) *SparseUnionBuilder {
-	return &SparseUnionBuilder{
-		unionBuilder: newUnionBuilder(mem, children, typ),
-	}
-}
-
-func (b *SparseUnionBuilder) Reserve(n int) {
-	b.reserve(n, b.Resize)
-}
-
-func (b *SparseUnionBuilder) Resize(n int) {
-	b.typesBuilder.resize(n)
-}
-
-// AppendNull will append a null to the first child and an empty value
-// (implementation-defined) to the rest of the children.
-func (b *SparseUnionBuilder) AppendNull() {
-	firstChildCode := b.codes[0]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.typeIDtoBuilder[firstChildCode].AppendNull()
-	for _, c := range b.codes[1:] {
-		b.typeIDtoBuilder[c].AppendEmptyValue()
-	}
-}
-
-// AppendNulls is identical to calling AppendNull() n times, except
-// it will pre-allocate with reserve for all the nulls beforehand.
-func (b *SparseUnionBuilder) AppendNulls(n int) {
-	firstChildCode := b.codes[0]
-	b.Reserve(n)
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].Reserve(n)
-	}
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.typeIDtoBuilder[firstChildCode].AppendNull()
-		for _, c := range b.codes[1:] {
-			b.typeIDtoBuilder[c].AppendEmptyValue()
-		}
-	}
-}
-
-// AppendEmptyValue appends an empty value (implementation defined)
-// to each child, and appends the type of the first typecode to the typeid
-// buffer.
-func (b *SparseUnionBuilder) AppendEmptyValue() {
-	b.typesBuilder.AppendValue(b.codes[0])
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].AppendEmptyValue()
-	}
-}
-
-// AppendEmptyValues is identical to calling AppendEmptyValue() n times,
-// except it pre-allocates first so it is more efficient.
-func (b *SparseUnionBuilder) AppendEmptyValues(n int) {
-	b.Reserve(n)
-	firstChildCode := b.codes[0]
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].Reserve(n)
-	}
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		for _, c := range b.codes {
-			b.typeIDtoBuilder[c].AppendEmptyValue()
-		}
-	}
-}
-
-// Append appends an element to the UnionArray and must be followed up
-// by an append to the appropriate child builder. The parameter should
-// be the type id of the child to which the next value will be appended.
-//
-// After appending to the corresponding child builder, all other child
-// builders should have a null or empty value appended to them (although
-// this is not enforced and any value is theoretically allowed and will be
-// ignored).
-func (b *SparseUnionBuilder) Append(nextType arrow.UnionTypeCode) {
-	b.typesBuilder.AppendValue(nextType)
-}
-
-func (b *SparseUnionBuilder) NewArray() arrow.Array {
-	return b.NewSparseUnionArray()
-}
-
-func (b *SparseUnionBuilder) NewSparseUnionArray() (a *SparseUnion) {
-	data := b.newData()
-	a = NewSparseUnionData(data)
-	data.Release()
-	return
-}
-
-func (b *SparseUnionBuilder) UnmarshalJSON(data []byte) (err error) {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("sparse union builder must unpack from json array, found %s", t)
-	}
-	return b.Unmarshal(dec)
-}
-
-func (b *SparseUnionBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *SparseUnionBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *SparseUnionBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		// should be [type_id, Value]
-		typeID, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		var typeCode int8
-
-		switch tid := typeID.(type) {
-		case json.Number:
-			id, err := tid.Int64()
-			if err != nil {
-				return err
-			}
-			typeCode = int8(id)
-		case float64:
-			if tid != float64(int64(tid)) {
-				return &json.UnmarshalTypeError{
-					Offset: dec.InputOffset(),
-					Type:   reflect.TypeOf(int8(0)),
-					Struct: fmt.Sprint(b.Type()),
-					Value:  "float",
-				}
-			}
-			typeCode = int8(tid)
-		}
-
-		childNum := b.typeIDtoChildID[typeCode]
-		if childNum == arrow.InvalidUnionChildID {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "invalid type code",
-			}
-		}
-
-		for i, c := range b.children {
-			if i != childNum {
-				c.AppendNull()
-			}
-		}
-
-		b.Append(typeCode)
-		if err := b.children[childNum].UnmarshalOne(dec); err != nil {
-			return err
-		}
-
-		endArr, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		if endArr != json.Delim(']') {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "union value array should have exactly 2 elements",
-			}
-		}
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Value:  fmt.Sprint(t),
-			Struct: fmt.Sprint(b.Type()),
-		}
-	}
-	return nil
-}
-
-// DenseUnionBuilder is used to build a Dense Union array using the Append
-// methods. You can also add new types to the union on the fly by using
-// AppendChild.
-type DenseUnionBuilder struct {
-	unionBuilder
-
-	offsetsBuilder *int32BufferBuilder
-}
-
-// NewEmptyDenseUnionBuilder is a helper to construct a DenseUnionBuilder
-// without having to predefine the union types. It creates a builder with no
-// children and AppendChild will have to be called before appending any
-// elements to this builder.
-func NewEmptyDenseUnionBuilder(mem memory.Allocator) *DenseUnionBuilder {
-	return &DenseUnionBuilder{
-		unionBuilder:   newUnionBuilder(mem, nil, arrow.DenseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{})),
-		offsetsBuilder: newInt32BufferBuilder(mem),
-	}
-}
-
-// NewDenseUnionBuilder constructs a new DenseUnionBuilder with the provided
-// children and type codes. Builders will be constructed for each child
-// using the fields in typ
-func NewDenseUnionBuilder(mem memory.Allocator, typ *arrow.DenseUnionType) *DenseUnionBuilder {
-	children := make([]Builder, 0, typ.NumFields())
-	defer func() {
-		for _, child := range children {
-			child.Release()
-		}
-	}()
-
-	for _, f := range typ.Fields() {
-		children = append(children, NewBuilder(mem, f.Type))
-	}
-	return NewDenseUnionBuilderWithBuilders(mem, typ, children)
-}
-
-// NewDenseUnionWithBuilders returns a new DenseUnionBuilder using the
-// provided type and builders.
-func NewDenseUnionBuilderWithBuilders(mem memory.Allocator, typ *arrow.DenseUnionType, children []Builder) *DenseUnionBuilder {
-	return &DenseUnionBuilder{
-		unionBuilder:   newUnionBuilder(mem, children, typ),
-		offsetsBuilder: newInt32BufferBuilder(mem),
-	}
-}
-
-func (b *DenseUnionBuilder) Reserve(n int) {
-	b.reserve(n, b.Resize)
-}
-
-func (b *DenseUnionBuilder) Resize(n int) {
-	b.typesBuilder.resize(n)
-	b.offsetsBuilder.resize(n * arrow.Int32SizeBytes)
-}
-
-// AppendNull will only append a null value arbitrarily to the first child
-// and use that offset for this element of the array.
-func (b *DenseUnionBuilder) AppendNull() {
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	childBuilder.AppendNull()
-}
-
-// AppendNulls will only append a single null arbitrarily to the first child
-// and use the same offset multiple times to point to it. The result is that
-// for a DenseUnion this is more efficient than calling AppendNull multiple
-// times in a loop
-func (b *DenseUnionBuilder) AppendNulls(n int) {
-	// only append 1 null to the child builder, use the same offset twice
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	}
-	// only append a single null to the child builder, the offsets all refer to the same value
-	childBuilder.AppendNull()
-}
-
-// AppendEmptyValue only appends an empty value arbitrarily to the first child,
-// and then uses that offset to identify the value.
-func (b *DenseUnionBuilder) AppendEmptyValue() {
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	childBuilder.AppendEmptyValue()
-}
-
-// AppendEmptyValues, like AppendNulls, will only append a single empty value
-// (implementation defined) to the first child arbitrarily, and then point
-// at that value using the offsets n times. That makes this more efficient
-// than calling AppendEmptyValue multiple times.
-func (b *DenseUnionBuilder) AppendEmptyValues(n int) {
-	// only append 1 null to the child builder, use the same offset twice
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	}
-	// only append a single empty value to the child builder, the offsets all
-	// refer to the same value
-	childBuilder.AppendEmptyValue()
-}
-
-// Append appends the necessary offset and type code to the builder
-// and must be followed up with an append to the appropriate child builder
-func (b *DenseUnionBuilder) Append(nextType arrow.UnionTypeCode) {
-	b.typesBuilder.AppendValue(nextType)
-	bldr := b.typeIDtoBuilder[nextType]
-	if bldr.Len() == kMaxElems {
-		panic("a dense UnionArray cannot contain more than 2^31 - 1 elements from a single child")
-	}
-
-	b.offsetsBuilder.AppendValue(int32(bldr.Len()))
-}
-
-func (b *DenseUnionBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, c := range b.children {
-			c.Release()
-		}
-		b.typesBuilder.Release()
-		b.offsetsBuilder.Release()
-	}
-}
-
-func (b *DenseUnionBuilder) newData() *Data {
-	data := b.unionBuilder.newData()
-	data.buffers = append(data.buffers, b.offsetsBuilder.Finish())
-	return data
-}
-
-func (b *DenseUnionBuilder) NewArray() arrow.Array {
-	return b.NewDenseUnionArray()
-}
-
-func (b *DenseUnionBuilder) NewDenseUnionArray() (a *DenseUnion) {
-	data := b.newData()
-	a = NewDenseUnionData(data)
-	data.Release()
-	return
-}
-
-func (b *DenseUnionBuilder) UnmarshalJSON(data []byte) (err error) {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("dense union builder must unpack from json array, found %s", t)
-	}
-	return b.Unmarshal(dec)
-}
-
-func (b *DenseUnionBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (d *DenseUnionBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		d.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return d.UnmarshalOne(dec)
-}
-
-func (b *DenseUnionBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		// should be [type_id, Value]
-		typeID, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		var typeCode int8
-
-		switch tid := typeID.(type) {
-		case json.Number:
-			id, err := tid.Int64()
-			if err != nil {
-				return err
-			}
-			typeCode = int8(id)
-		case float64:
-			if tid != float64(int64(tid)) {
-				return &json.UnmarshalTypeError{
-					Offset: dec.InputOffset(),
-					Type:   reflect.TypeOf(int8(0)),
-					Struct: fmt.Sprint(b.Type()),
-					Value:  "float",
-				}
-			}
-			typeCode = int8(tid)
-		}
-
-		childNum := b.typeIDtoChildID[typeCode]
-		if childNum == arrow.InvalidUnionChildID {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "invalid type code",
-			}
-		}
-
-		b.Append(typeCode)
-		if err := b.children[childNum].UnmarshalOne(dec); err != nil {
-			return err
-		}
-
-		endArr, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		if endArr != json.Delim(']') {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "union value array should have exactly 2 elements",
-			}
-		}
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Value:  fmt.Sprint(t),
-			Struct: fmt.Sprint(b.Type()),
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.Array  = (*SparseUnion)(nil)
-	_ arrow.Array  = (*DenseUnion)(nil)
-	_ Union        = (*SparseUnion)(nil)
-	_ Union        = (*DenseUnion)(nil)
-	_ Builder      = (*SparseUnionBuilder)(nil)
-	_ Builder      = (*DenseUnionBuilder)(nil)
-	_ UnionBuilder = (*SparseUnionBuilder)(nil)
-	_ UnionBuilder = (*DenseUnionBuilder)(nil)
-)
diff --git a/go/arrow/array/union_test.go b/go/arrow/array/union_test.go
deleted file mode 100644
index 43e7afd693b6c..0000000000000
--- a/go/arrow/array/union_test.go
+++ /dev/null
@@ -1,1117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func uint8ArrFromSlice(ids ...uint8) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Uint8, len(ids),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes(ids))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func int32ArrFromSlice(offsets ...int32) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int32, len(offsets),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func TestUnionSliceEquals(t *testing.T) {
-	unionFields := []arrow.Field{
-		{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	sparseType := arrow.SparseUnionOf(unionFields, typeCodes)
-	denseType := arrow.DenseUnionOf(unionFields, typeCodes)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "sparse", Type: sparseType, Nullable: true},
-		{Name: "dense", Type: denseType, Nullable: true},
-	}, nil)
-
-	sparseChildren := make([]arrow.Array, 2)
-	denseChildren := make([]arrow.Array, 2)
-
-	const length = 7
-
-	typeIDsBuffer := memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes([]uint8{5, 10, 5, 5, 10, 10, 5}))
-	sparseChildren[0] = int32ArrFromSlice(0, 1, 2, 3, 4, 5, 6)
-	defer sparseChildren[0].Release()
-	sparseChildren[1] = uint8ArrFromSlice(10, 11, 12, 13, 14, 15, 16)
-	defer sparseChildren[1].Release()
-
-	denseChildren[0] = int32ArrFromSlice(0, 2, 3, 7)
-	defer denseChildren[0].Release()
-	denseChildren[1] = uint8ArrFromSlice(11, 14, 15)
-	defer denseChildren[1].Release()
-
-	offsetsBuffer := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes([]int32{0, 0, 1, 2, 1, 2, 3}))
-	sparse := array.NewSparseUnion(sparseType, length, sparseChildren, typeIDsBuffer, 0)
-	dense := array.NewDenseUnion(denseType, length, denseChildren, typeIDsBuffer, offsetsBuffer, 0)
-
-	defer sparse.Release()
-	defer dense.Release()
-
-	batch := array.NewRecord(schema, []arrow.Array{sparse, dense}, -1)
-	defer batch.Release()
-
-	checkUnion := func(arr arrow.Array) {
-		size := arr.Len()
-		slice := array.NewSlice(arr, 2, int64(size))
-		defer slice.Release()
-		assert.EqualValues(t, size-2, slice.Len())
-
-		slice2 := array.NewSlice(arr, 2, int64(arr.Len()))
-		defer slice2.Release()
-		assert.EqualValues(t, size-2, slice2.Len())
-
-		assert.True(t, array.Equal(slice, slice2))
-		assert.True(t, array.SliceEqual(arr, 2, int64(arr.Len()), slice, 0, int64(slice.Len())))
-
-		// chain slices
-		slice2 = array.NewSlice(arr, 1, int64(arr.Len()))
-		defer slice2.Release()
-		slice2 = array.NewSlice(slice2, 1, int64(slice2.Len()))
-		defer slice2.Release()
-		assert.True(t, array.Equal(slice, slice2))
-
-		slice, slice2 = array.NewSlice(arr, 1, 6), array.NewSlice(arr, 1, 6)
-		defer slice.Release()
-		defer slice2.Release()
-		assert.EqualValues(t, 5, slice.Len())
-
-		assert.True(t, array.Equal(slice, slice2))
-		assert.True(t, array.SliceEqual(arr, 1, 6, slice, 0, 5))
-	}
-
-	checkUnion(batch.Column(0))
-	checkUnion(batch.Column(1))
-}
-
-func TestSparseUnionGetFlattenedField(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	ty := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "ints", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "strs", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 7})
-	ints, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[0, 1, 2, 3]`))
-	defer ints.Release()
-	strs, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["a", null, "c", "d"]`))
-	defer strs.Release()
-	idsArr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[2, 7, 2, 7]`))
-	defer idsArr.Release()
-	ids := idsArr.Data().Buffers()[1]
-
-	const length = 4
-
-	t.Run("flattened", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		arr := array.NewSparseUnion(ty, length, []arrow.Array{ints, strs}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[0, null, 2, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, null, null, "d"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		sliced := array.NewSlice(arr, 1, 3).(*array.SparseUnion)
-		defer sliced.Release()
-
-		flattened, err = sliced.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[null, 2]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = sliced.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		_, err = arr.GetFlattenedField(mem, -1)
-		assert.Error(t, err)
-		_, err = arr.GetFlattenedField(mem, 2)
-		assert.Error(t, err)
-	})
-
-	t.Run("offset children", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		strSlice, intSlice := array.NewSlice(strs, 1, 3), array.NewSlice(ints, 1, 3)
-		defer strSlice.Release()
-		defer intSlice.Release()
-
-		arr := array.NewSparseUnion(ty, length-2, []arrow.Array{intSlice, strSlice}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[1, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, "c"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		sliced := array.NewSlice(arr, 1, 2).(*array.SparseUnion)
-		defer sliced.Release()
-
-		flattened, err = sliced.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = sliced.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["c"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-	})
-
-	t.Run("empty flattened", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		strSlice, intSlice := array.NewSlice(strs, length, length), array.NewSlice(ints, length, length)
-		defer strSlice.Release()
-		defer intSlice.Release()
-
-		arr := array.NewSparseUnion(ty, 0, []arrow.Array{intSlice, strSlice}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-	})
-}
-
-func TestSparseUnionValidate(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[4, 5]`))
-	defer a.Release()
-	dt := arrow.SparseUnionOf([]arrow.Field{{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true}}, []arrow.UnionTypeCode{0})
-	children := []arrow.Array{a}
-
-	typeIDsArr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[0, 0, 0]`))
-	defer typeIDsArr.Release()
-	typeIDs := typeIDsArr.Data().Buffers()[1]
-
-	arr := array.NewSparseUnion(dt, 2, children, typeIDs, 0)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	arr = array.NewSparseUnion(dt, 1, children, typeIDs, 1)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	arr = array.NewSparseUnion(dt, 0, children, typeIDs, 2)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	// length + offset < child length but that's ok!
-	arr = array.NewSparseUnion(dt, 1, children, typeIDs, 0)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	// length + offset > child length! BAD!
-	assert.Panics(t, func() {
-		arr = array.NewSparseUnion(dt, 1, children, typeIDs, 2)
-	})
-
-	// offset > child length
-	assert.Panics(t, func() {
-		arr = array.NewSparseUnion(dt, 0, children, typeIDs, 3)
-	})
-}
-
-type UnionFactorySuite struct {
-	suite.Suite
-
-	mem             *memory.CheckedAllocator
-	codes           []arrow.UnionTypeCode
-	typeIDs         arrow.Array
-	logicalTypeIDs  arrow.Array
-	invalidTypeIDs  arrow.Array
-	invalidTypeIDs2 arrow.Array
-}
-
-func (s *UnionFactorySuite) typeidsFromSlice(ids ...int8) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int8, len(ids),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(ids))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func (s *UnionFactorySuite) offsetsFromSlice(offsets ...int32) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int32, len(offsets),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func (s *UnionFactorySuite) SetupTest() {
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.codes = []arrow.UnionTypeCode{1, 2, 4, 127}
-	s.typeIDs = s.typeidsFromSlice(0, 1, 2, 0, 1, 3, 2, 0, 2, 1)
-	s.logicalTypeIDs = s.typeidsFromSlice(1, 2, 4, 1, 2, 127, 4, 1, 4, 2)
-	s.invalidTypeIDs = s.typeidsFromSlice(1, 2, 4, 1, -2, 127, 4, 1, 4, 2)
-	s.invalidTypeIDs2 = s.typeidsFromSlice(1, 2, 4, 1, 3, 127, 4, 1, 4, 2)
-}
-
-func (s *UnionFactorySuite) TearDownTest() {
-	s.typeIDs.Release()
-	s.logicalTypeIDs.Release()
-	s.invalidTypeIDs.Release()
-	s.invalidTypeIDs2.Release()
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *UnionFactorySuite) checkFields(arr array.Union, fields []string) {
-	ty := arr.DataType().(arrow.UnionType)
-	s.Len(ty.Fields(), len(fields))
-	for i, f := range ty.Fields() {
-		s.Equal(fields[i], f.Name)
-	}
-}
-
-func (s *UnionFactorySuite) checkCodes(arr array.Union, codes []arrow.UnionTypeCode) {
-	ty := arr.DataType().(arrow.UnionType)
-	s.Equal(codes, ty.TypeCodes())
-}
-
-func (s *UnionFactorySuite) checkUnion(arr array.Union, mode arrow.UnionMode, fields []string, codes []arrow.UnionTypeCode) {
-	s.Equal(mode, arr.Mode())
-	s.checkFields(arr, fields)
-	s.checkCodes(arr, codes)
-	typeIDs := s.typeIDs.(*array.Int8)
-	for i := 0; i < typeIDs.Len(); i++ {
-		s.EqualValues(typeIDs.Value(i), arr.ChildID(i))
-	}
-	s.Nil(arr.Field(-1))
-	s.Nil(arr.Field(typeIDs.Len()))
-}
-
-func (s *UnionFactorySuite) TestMakeDenseUnions() {
-	// typeIDs:                  {0, 1, 2, 0, 1, 3, 2, 0, 2, 1}
-	offsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 0, 1, 2, 1, 2)
-	defer offsets.Release()
-
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "def", "xyz"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8, strings.NewReader(`[10, 20, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.618, 2.718, 3.142]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[-12]`))
-	defer children[3].Release()
-
-	fieldNames := []string{"str", "int1", "real", "int2"}
-
-	s.Run("without fields and codes", func() {
-		result, err := array.NewDenseUnionFromArrays(s.typeIDs, offsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, []string{"0", "1", "2", "3"}, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with fields", func() {
-		_, err := array.NewDenseUnionFromArraysWithFields(s.typeIDs, offsets, children, []string{"one"})
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArraysWithFields(s.typeIDs, offsets, children, fieldNames)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, fieldNames, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with codes", func() {
-		_, err := array.NewDenseUnionFromArrays(s.logicalTypeIDs, offsets, children, 0)
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArrays(s.logicalTypeIDs, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, []string{"0", "1", "2", "3"}, s.codes)
-	})
-
-	s.Run("with fields and codes", func() {
-		_, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, []string{"one"}, s.codes)
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, fieldNames, s.codes)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, fieldNames, s.codes)
-	})
-
-	s.Run("invalid type codes", func() {
-		result, err := array.NewDenseUnionFromArrays(s.invalidTypeIDs, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-		result, err = array.NewDenseUnionFromArrays(s.invalidTypeIDs2, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-
-	s.Run("invalid offsets", func() {
-		// offset out of bounds at index 5
-		invalidOffsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 1, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err := array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-
-		// negative offset at index 5
-		invalidOffsets = s.offsetsFromSlice(0, 0, 0, 1, 1, -1, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err = array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-
-		// non-monotonic offset at index 3
-		invalidOffsets = s.offsetsFromSlice(1, 0, 0, 0, 1, 0, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err = array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-}
-
-func (s *UnionFactorySuite) TestDenseUnionStringRoundTrip() {
-	// typeIDs:                  {0, 1, 2, 0, 1, 3, 2, 0, 2, 1}
-	offsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 0, 1, 2, 1, 2)
-	defer offsets.Release()
-
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "def", "xyz"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8, strings.NewReader(`[10, 20, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.618, 2.718, 3.142]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[-12]`))
-	defer children[3].Release()
-
-	fields := []string{"str", "int1", "real", "int2"}
-
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(s.T(), 0)
-
-	dt := arrow.DenseUnionFromArrays(children, fields, s.codes)
-	arr, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, fields, s.codes)
-	s.NoError(err)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDenseUnionBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		s.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.DenseUnion)
-	defer arr1.Release()
-
-	s.True(array.Equal(arr, arr1))
-}
-
-func (s *UnionFactorySuite) TestMakeSparse() {
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "def", "", "", "", "xyz", "", ""]`))
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8,
-		strings.NewReader(`[0, 10, 0, 0, 20, 0, 0, 0, 0, 30]`))
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0.0, 0.0, 1.618, 0.0, 0.0, 0.0, 2.718, 0.0, 3.142, 0.0]`))
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0, 0]`))
-	for _, c := range children {
-		defer c.Release()
-	}
-
-	fieldNames := []string{"str", "int1", "real", "int2"}
-
-	s.Run("without fields and codes", func() {
-		result, err := array.NewSparseUnionFromArrays(s.typeIDs, children)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, []string{"0", "1", "2", "3"}, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with fields", func() {
-		_, err := array.NewSparseUnionFromArraysWithFields(s.typeIDs, children, []string{"one"})
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArraysWithFields(s.typeIDs, children, fieldNames)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, fieldNames, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with codes", func() {
-		_, err := array.NewSparseUnionFromArrays(s.logicalTypeIDs, children, 0)
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArrays(s.logicalTypeIDs, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, []string{"0", "1", "2", "3"}, s.codes)
-	})
-
-	s.Run("with fields and codes", func() {
-		_, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, []string{"one"}, s.codes)
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, fieldNames, s.codes)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, fieldNames, s.codes)
-	})
-
-	s.Run("invalid type codes", func() {
-		result, err := array.NewSparseUnionFromArrays(s.invalidTypeIDs, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-		result, err = array.NewSparseUnionFromArrays(s.invalidTypeIDs2, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-
-	s.Run("invalid child length", func() {
-		children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-			strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0]`))
-		defer children[3].Release()
-
-		_, err := array.NewSparseUnionFromArrays(s.typeIDs, children)
-		s.Error(err)
-	})
-}
-
-func (s *UnionFactorySuite) TestSparseUnionStringRoundTrip() {
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "def", "", "", "", "xyz", "", ""]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8,
-		strings.NewReader(`[0, 10, 0, 0, 20, 0, 0, 0, 0, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0.0, 0.0, 1.618, 0.0, 0.0, 0.0, 2.718, 0.0, 3.142, 0.0]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0, 0]`))
-	defer children[3].Release()
-
-	fields := []string{"str", "int1", "real", "int2"}
-
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(s.T(), 0)
-
-	dt := arrow.SparseUnionFromArrays(children, fields, s.codes)
-
-	arr, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, fields, s.codes)
-	s.NoError(err)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewSparseUnionBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		s.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.SparseUnion)
-	defer arr1.Release()
-
-	s.True(array.Equal(arr, arr1))
-}
-
-type UnionBuilderSuite struct {
-	suite.Suite
-
-	I8  arrow.UnionTypeCode
-	STR arrow.UnionTypeCode
-	DBL arrow.UnionTypeCode
-
-	mem              *memory.CheckedAllocator
-	expectedTypes    []arrow.UnionTypeCode
-	expectedTypesArr arrow.Array
-	i8Bldr           *array.Int8Builder
-	strBldr          *array.StringBuilder
-	dblBldr          *array.Float64Builder
-	unionBldr        array.UnionBuilder
-	actual           array.Union
-}
-
-func (s *UnionBuilderSuite) SetupTest() {
-	s.I8, s.STR, s.DBL = 8, 13, 7
-
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.expectedTypes = make([]arrow.UnionTypeCode, 0)
-
-	s.i8Bldr = array.NewInt8Builder(s.mem)
-	s.strBldr = array.NewStringBuilder(s.mem)
-	s.dblBldr = array.NewFloat64Builder(s.mem)
-}
-
-func (s *UnionBuilderSuite) TearDownTest() {
-	if s.expectedTypesArr != nil {
-		s.expectedTypesArr.Release()
-		s.expectedTypesArr = nil
-	}
-	s.i8Bldr.Release()
-	s.strBldr.Release()
-	s.dblBldr.Release()
-	if s.actual != nil {
-		s.actual.Release()
-		s.actual = nil
-	}
-
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *UnionBuilderSuite) createExpectedTypesArr() {
-	data := array.NewData(arrow.PrimitiveTypes.Int8, len(s.expectedTypes),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(s.expectedTypes))}, nil, 0, 0)
-	defer data.Release()
-	s.expectedTypesArr = array.MakeFromData(data)
-}
-
-func (s *UnionBuilderSuite) appendInt(i int8) {
-	s.expectedTypes = append(s.expectedTypes, s.I8)
-	s.unionBldr.Append(s.I8)
-	s.i8Bldr.Append(i)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.strBldr.AppendEmptyValue()
-		s.dblBldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendString(str string) {
-	s.expectedTypes = append(s.expectedTypes, s.STR)
-	s.unionBldr.Append(s.STR)
-	s.strBldr.Append(str)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.i8Bldr.AppendEmptyValue()
-		s.dblBldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendDbl(dbl float64) {
-	s.expectedTypes = append(s.expectedTypes, s.DBL)
-	s.unionBldr.Append(s.DBL)
-	s.dblBldr.Append(dbl)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.strBldr.AppendEmptyValue()
-		s.i8Bldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendBasics() {
-	s.appendInt(33)
-	s.appendString("abc")
-	s.appendDbl(1.0)
-	s.appendDbl(-1.0)
-	s.appendString("")
-	s.appendInt(10)
-	s.appendString("def")
-	s.appendInt(-10)
-	s.appendDbl(0.5)
-
-	s.Equal(9, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-}
-
-func (s *UnionBuilderSuite) appendNullsAndEmptyValues() {
-	s.appendString("abc")
-	s.unionBldr.AppendNull()
-	s.unionBldr.AppendEmptyValue()
-	s.expectedTypes = append(s.expectedTypes, s.I8, s.I8, s.I8)
-	s.appendInt(42)
-	s.unionBldr.AppendNulls(2)
-	s.unionBldr.AppendEmptyValues(2)
-	s.expectedTypes = append(s.expectedTypes, s.I8, s.I8, s.I8)
-
-	s.Equal(8, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-}
-
-func (s *UnionBuilderSuite) appendInferred() {
-	s.I8 = s.unionBldr.AppendChild(s.i8Bldr, "i8")
-	s.EqualValues(0, s.I8)
-	s.appendInt(33)
-	s.appendInt(10)
-
-	s.STR = s.unionBldr.AppendChild(s.strBldr, "str")
-	s.EqualValues(1, s.STR)
-	s.appendString("abc")
-	s.appendString("")
-	s.appendString("def")
-	s.appendInt(-10)
-
-	s.DBL = s.unionBldr.AppendChild(s.dblBldr, "dbl")
-	s.EqualValues(2, s.DBL)
-	s.appendDbl(1.0)
-	s.appendDbl(-1.0)
-	s.appendDbl(0.5)
-
-	s.Equal(9, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-
-	s.EqualValues(0, s.I8)
-	s.EqualValues(1, s.STR)
-	s.EqualValues(2, s.DBL)
-}
-
-func (s *UnionBuilderSuite) appendListOfInferred(utyp arrow.UnionType) *array.List {
-	listBldr := array.NewListBuilder(s.mem, utyp)
-	defer listBldr.Release()
-
-	s.unionBldr = listBldr.ValueBuilder().(array.UnionBuilder)
-
-	listBldr.Append(true)
-	s.I8 = s.unionBldr.AppendChild(s.i8Bldr, "i8")
-	s.EqualValues(0, s.I8)
-	s.appendInt(10)
-
-	listBldr.Append(true)
-	s.STR = s.unionBldr.AppendChild(s.strBldr, "str")
-	s.EqualValues(1, s.STR)
-	s.appendString("abc")
-	s.appendInt(-10)
-
-	listBldr.Append(true)
-	s.DBL = s.unionBldr.AppendChild(s.dblBldr, "dbl")
-	s.EqualValues(2, s.DBL)
-	s.appendDbl(0.5)
-
-	s.Equal(4, s.unionBldr.Len())
-
-	s.createExpectedTypesArr()
-	return listBldr.NewListArray()
-}
-
-func (s *UnionBuilderSuite) assertArraysEqual(expected, actual arrow.Array) {
-	s.Truef(array.Equal(expected, actual), "expected: %s, got: %s", expected, actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionBasics() {
-	s.unionBldr = array.NewDenseUnionBuilderWithBuilders(s.mem,
-		arrow.DenseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendBasics()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[33, 10, -10]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "", "def"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.0, -1.0, 0.5]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 0, 1, 1, 1, 2, 2, 2]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseBuilderNullsAndEmpty() {
-	s.unionBldr = array.NewDenseUnionBuilderWithBuilders(s.mem,
-		arrow.DenseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendNullsAndEmptyValues()
-
-	// four null / empty values (the latter implementation-defined) appended to I8
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[null, 0, 42, null, 0]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 1, 2, 3, 3, 4, 4]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-
-	// physical arrays must be as expected
-	s.assertArraysEqual(expectedI8, s.actual.Field(0))
-	s.assertArraysEqual(expectedStr, s.actual.Field(1))
-	s.assertArraysEqual(expectedDbl, s.actual.Field(2))
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionInferredTyped() {
-	s.unionBldr = array.NewEmptyDenseUnionBuilder(s.mem)
-	defer s.unionBldr.Release()
-
-	s.appendInferred()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[33, 10, -10]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "", "def"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.0, -1.0, 0.5]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 1, 0, 1, 2, 2, 0, 1, 2]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionListOfInferredType() {
-	actual := s.appendListOfInferred(arrow.DenseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{}))
-	defer actual.Release()
-
-	expectedType := arrow.ListOf(arrow.DenseUnionOf(
-		[]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true}},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL}))
-	s.Equal(expectedType.String(), actual.DataType().String())
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionBasics() {
-	s.unionBldr = array.NewSparseUnionBuilderWithBuilders(s.mem,
-		arrow.SparseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendBasics()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[33, null, null, null, null, 10, null, -10, null]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, "abc", null, null, "", null, "def", null, null]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[null, null, 1.0, -1.0, null, null, null, null, 0.5]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestSparseBuilderNullsAndEmpty() {
-	s.unionBldr = array.NewSparseUnionBuilderWithBuilders(s.mem,
-		arrow.SparseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendNullsAndEmptyValues()
-
-	// "abc", null, 0, 42, null, null, 0, 0
-	// getting 0 for empty values is implementation-defined
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, null, 0, 42, null, null, 0, 0]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "", "", "", "", ""]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-
-	// physical arrays must be as expected
-	s.assertArraysEqual(expectedI8, s.actual.Field(0))
-	s.assertArraysEqual(expectedStr, s.actual.Field(1))
-	s.assertArraysEqual(expectedDbl, s.actual.Field(2))
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionInferredType() {
-	s.unionBldr = array.NewEmptySparseUnionBuilder(s.mem)
-	defer s.unionBldr.Release()
-
-	s.appendInferred()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[33, 10, null, null, null, -10, null, null, null]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, "abc", "", "def", null, null, null, null]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[null, null, null, null, null, null,1.0, -1.0, 0.5]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionStructWithUnion() {
-	bldr := array.NewStructBuilder(s.mem, arrow.StructOf(arrow.Field{Name: "u", Type: arrow.SparseUnionFromArrays(nil, nil, nil)}))
-	defer bldr.Release()
-
-	unionBldr := bldr.FieldBuilder(0).(array.UnionBuilder)
-	int32Bldr := array.NewInt32Builder(s.mem)
-	defer int32Bldr.Release()
-
-	s.EqualValues(0, unionBldr.AppendChild(int32Bldr, "i"))
-	expectedType := arrow.StructOf(arrow.Field{Name: "u",
-		Type: arrow.SparseUnionOf([]arrow.Field{{Name: "i", Type: arrow.PrimitiveTypes.Int32, Nullable: true}}, []arrow.UnionTypeCode{0})})
-	s.Truef(arrow.TypeEqual(expectedType, bldr.Type()), "expected: %s, got: %s", expectedType, bldr.Type())
-}
-
-func ExampleSparseUnionBuilder() {
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.StructOf(arrow.Field{Name: "a", Type: dt1})
-
-	pool := memory.DefaultAllocator
-	bldr := array.NewStructBuilder(pool, dt2)
-	defer bldr.Release()
-
-	bldrDt1 := bldr.FieldBuilder(0).(*array.SparseUnionBuilder)
-	binDictBldr := bldrDt1.Child(0).(*array.BinaryDictionaryBuilder)
-
-	bldr.Append(true)
-	bldrDt1.Append(0)
-	binDictBldr.AppendString("foo")
-
-	bldr.Append(true)
-	bldrDt1.Append(0)
-	binDictBldr.AppendString("bar")
-
-	out := bldr.NewArray().(*array.Struct)
-	defer out.Release()
-
-	fmt.Println(out)
-
-	// Output:
-	// {[{c=foo} {c=bar}]}
-}
-
-func TestUnions(t *testing.T) {
-	suite.Run(t, new(UnionFactorySuite))
-	suite.Run(t, new(UnionBuilderSuite))
-}
-
-func TestNestedUnionStructDict(t *testing.T) {
-	// ARROW-18274
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{
-			IndexType: arrow.PrimitiveTypes.Uint16,
-			ValueType: arrow.BinaryTypes.String,
-			Ordered:   false,
-		}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.StructOf(
-		arrow.Field{Name: "b", Type: dt1},
-	)
-	dt3 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "a", Type: dt2},
-	}, []arrow.UnionTypeCode{0})
-	pool := memory.NewGoAllocator()
-
-	builder := array.NewSparseUnionBuilder(pool, dt3)
-	defer builder.Release()
-	arr := builder.NewArray()
-	defer arr.Release()
-	assert.Equal(t, 0, arr.Len())
-}
-
-func TestNestedUnionDictUnion(t *testing.T) {
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{
-			IndexType: arrow.PrimitiveTypes.Uint16,
-			ValueType: arrow.BinaryTypes.String,
-			Ordered:   false,
-		}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "a", Type: dt1},
-	}, []arrow.UnionTypeCode{0})
-	pool := memory.NewGoAllocator()
-
-	builder := array.NewSparseUnionBuilder(pool, dt2)
-	defer builder.Release()
-	arr := builder.NewArray()
-	defer arr.Release()
-	assert.Equal(t, 0, arr.Len())
-}
diff --git a/go/arrow/array/util.go b/go/arrow/array/util.go
deleted file mode 100644
index 2b41dadaf4bfc..0000000000000
--- a/go/arrow/array/util.go
+++ /dev/null
@@ -1,523 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-func min(a, b int) int {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-type fromJSONCfg struct {
-	multiDocument bool
-	startOffset   int64
-	useNumber     bool
-}
-
-type FromJSONOption func(*fromJSONCfg)
-
-func WithMultipleDocs() FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.multiDocument = true
-	}
-}
-
-// WithStartOffset attempts to start decoding from the reader at the offset
-// passed in. If using this option the reader must fulfill the io.ReadSeeker
-// interface, or else an error will be returned.
-//
-// It will call Seek(off, io.SeekStart) on the reader
-func WithStartOffset(off int64) FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.startOffset = off
-	}
-}
-
-// WithUseNumber enables the 'UseNumber' option on the json decoder, using
-// the json.Number type instead of assuming float64 for numbers. This is critical
-// if you have numbers that are larger than what can fit into the 53 bits of
-// an IEEE float64 mantissa and want to preserve its value.
-func WithUseNumber() FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.useNumber = true
-	}
-}
-
-// FromJSON creates an arrow.Array from a corresponding JSON stream and defined data type. If the types in the
-// json do not match the type provided, it will return errors. This is *not* the integration test format
-// and should not be used as such. This intended to be used by consumers more similarly to the current exposing of
-// the csv reader/writer. It also returns the input offset in the reader where it finished decoding since buffering
-// by the decoder could leave the reader's cursor past where the parsing finished if attempting to parse multiple json
-// arrays from one stream.
-//
-// All the Array types implement json.Marshaller and thus can be written to json
-// using the json.Marshal function
-//
-// The JSON provided must be formatted in one of two ways:
-//
-//	Default: the top level of the json must be a list which matches the type specified exactly
-//	Example: `[1, 2, 3, 4, 5]` for any integer type or `[[...], null, [], .....]` for a List type
-//				Struct arrays are represented a list of objects: `[{"foo": 1, "bar": "moo"}, {"foo": 5, "bar": "baz"}]`
-//
-//	Using WithMultipleDocs:
-//		If the JSON provided is multiple newline separated json documents, then use this option
-//		and each json document will be treated as a single row of the array. This is most useful for record batches
-//		and interacting with other processes that use json. For example:
-//			`{"col1": 1, "col2": "row1", "col3": ...}\n{"col1": 2, "col2": "row2", "col3": ...}\n.....`
-//
-// Duration values get formated upon marshalling as a string consisting of their numeric
-// value followed by the unit suffix such as "10s" for a value of 10 and unit of Seconds.
-// with "ms" for millisecond, "us" for microsecond, and "ns" for nanosecond as the suffixes.
-// Unmarshalling duration values is more permissive since it first tries to use Go's
-// time.ParseDuration function which means it allows values in the form 3h25m0.3s in addition
-// to the same values which are output.
-//
-// Interval types are marshalled / unmarshalled as follows:
-//
-//	 MonthInterval is marshalled as an object with the format:
-//		 { "months": #}
-//	 DayTimeInterval is marshalled using Go's regular marshalling of structs:
-//		 { "days": #, "milliseconds": # }
-//	 MonthDayNanoInterval values are marshalled the same as DayTime using Go's struct marshalling:
-//	  { "months": #, "days": #, "nanoseconds": # }
-//
-// Times use a format of HH:MM or HH:MM:SS[.zzz] where the fractions of a second cannot
-// exceed the precision allowed by the time unit, otherwise unmarshalling will error.
-//
-// # Dates use YYYY-MM-DD format
-//
-// Timestamps use RFC3339Nano format except without a timezone, all of the following are valid:
-//
-//		YYYY-MM-DD
-//		YYYY-MM-DD[T]HH
-//		YYYY-MM-DD[T]HH:MM
-//	 YYYY-MM-DD[T]HH:MM:SS[.zzzzzzzzzz]
-//
-// The fractions of a second cannot exceed the precision allowed by the timeunit of the datatype.
-//
-// When processing structs as objects order of keys does not matter, but keys cannot be repeated.
-func FromJSON(mem memory.Allocator, dt arrow.DataType, r io.Reader, opts ...FromJSONOption) (arr arrow.Array, offset int64, err error) {
-	var cfg fromJSONCfg
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	if cfg.startOffset != 0 {
-		seeker, ok := r.(io.ReadSeeker)
-		if !ok {
-			return nil, 0, errors.New("using StartOffset option requires reader to be a ReadSeeker, cannot seek")
-		}
-
-		seeker.Seek(cfg.startOffset, io.SeekStart)
-	}
-
-	bldr := NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	dec := json.NewDecoder(r)
-	defer func() {
-		if errors.Is(err, io.EOF) {
-			err = fmt.Errorf("failed parsing json: %w", io.ErrUnexpectedEOF)
-		}
-	}()
-
-	if cfg.useNumber {
-		dec.UseNumber()
-	}
-
-	if !cfg.multiDocument {
-		t, err := dec.Token()
-		if err != nil {
-			return nil, dec.InputOffset(), err
-		}
-
-		if delim, ok := t.(json.Delim); !ok || delim != '[' {
-			return nil, dec.InputOffset(), fmt.Errorf("json doc must be an array, found %s", delim)
-		}
-	}
-
-	if err = bldr.Unmarshal(dec); err != nil {
-		return nil, dec.InputOffset(), err
-	}
-
-	if !cfg.multiDocument {
-		// consume the last ']'
-		if _, err = dec.Token(); err != nil {
-			return nil, dec.InputOffset(), err
-		}
-	}
-
-	return bldr.NewArray(), dec.InputOffset(), nil
-}
-
-// RecordToStructArray constructs a struct array from the columns of the record batch
-// by referencing them, zero-copy.
-func RecordToStructArray(rec arrow.Record) *Struct {
-	cols := make([]arrow.ArrayData, rec.NumCols())
-	for i, c := range rec.Columns() {
-		cols[i] = c.Data()
-	}
-
-	data := NewData(arrow.StructOf(rec.Schema().Fields()...), int(rec.NumRows()), []*memory.Buffer{nil}, cols, 0, 0)
-	defer data.Release()
-
-	return NewStructData(data)
-}
-
-// RecordFromStructArray is a convenience function for converting a struct array into
-// a record batch without copying the data. If the passed in schema is nil, the fields
-// of the struct will be used to define the record batch. Otherwise the passed in
-// schema will be used to create the record batch. If passed in, the schema must match
-// the fields of the struct column.
-func RecordFromStructArray(in *Struct, schema *arrow.Schema) arrow.Record {
-	if schema == nil {
-		schema = arrow.NewSchema(in.DataType().(*arrow.StructType).Fields(), nil)
-	}
-
-	return NewRecord(schema, in.fields, int64(in.Len()))
-}
-
-// RecordFromJSON creates a record batch from JSON data. See array.FromJSON for the details
-// of formatting and logic.
-//
-// A record batch from JSON is equivalent to reading a struct array in from json and then
-// converting it to a record batch.
-func RecordFromJSON(mem memory.Allocator, schema *arrow.Schema, r io.Reader, opts ...FromJSONOption) (arrow.Record, int64, error) {
-	st := arrow.StructOf(schema.Fields()...)
-	arr, off, err := FromJSON(mem, st, r, opts...)
-	if err != nil {
-		return nil, off, err
-	}
-	defer arr.Release()
-
-	return RecordFromStructArray(arr.(*Struct), schema), off, nil
-}
-
-// RecordToJSON writes out the given record following the format of each row is a single object
-// on a single line of the output.
-func RecordToJSON(rec arrow.Record, w io.Writer) error {
-	enc := json.NewEncoder(w)
-
-	fields := rec.Schema().Fields()
-
-	cols := make(map[string]interface{})
-	for i := 0; int64(i) < rec.NumRows(); i++ {
-		for j, c := range rec.Columns() {
-			cols[fields[j].Name] = c.GetOneForMarshal(i)
-		}
-		if err := enc.Encode(cols); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func TableFromJSON(mem memory.Allocator, sc *arrow.Schema, recJSON []string, opt ...FromJSONOption) (arrow.Table, error) {
-	batches := make([]arrow.Record, len(recJSON))
-	for i, batchJSON := range recJSON {
-		batch, _, err := RecordFromJSON(mem, sc, strings.NewReader(batchJSON), opt...)
-		if err != nil {
-			return nil, err
-		}
-		defer batch.Release()
-		batches[i] = batch
-	}
-	return NewTableFromRecords(sc, batches), nil
-}
-
-func GetDictArrayData(mem memory.Allocator, valueType arrow.DataType, memoTable hashing.MemoTable, startOffset int) (*Data, error) {
-	dictLen := memoTable.Size() - startOffset
-	buffers := []*memory.Buffer{nil, nil}
-
-	buffers[1] = memory.NewResizableBuffer(mem)
-	defer buffers[1].Release()
-
-	switch tbl := memoTable.(type) {
-	case hashing.NumericMemoTable:
-		nbytes := tbl.TypeTraits().BytesRequired(dictLen)
-		buffers[1].Resize(nbytes)
-		tbl.WriteOutSubset(startOffset, buffers[1].Bytes())
-	case *hashing.BinaryMemoTable:
-		switch valueType.ID() {
-		case arrow.BINARY, arrow.STRING:
-			buffers = append(buffers, memory.NewResizableBuffer(mem))
-			defer buffers[2].Release()
-
-			buffers[1].Resize(arrow.Int32Traits.BytesRequired(dictLen + 1))
-			offsets := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-			tbl.CopyOffsetsSubset(startOffset, offsets)
-
-			valuesz := offsets[len(offsets)-1] - offsets[0]
-			buffers[2].Resize(int(valuesz))
-			tbl.CopyValuesSubset(startOffset, buffers[2].Bytes())
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			buffers = append(buffers, memory.NewResizableBuffer(mem))
-			defer buffers[2].Release()
-
-			buffers[1].Resize(arrow.Int64Traits.BytesRequired(dictLen + 1))
-			offsets := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-			tbl.CopyLargeOffsetsSubset(startOffset, offsets)
-
-			valuesz := offsets[len(offsets)-1] - offsets[0]
-			buffers[2].Resize(int(valuesz))
-			tbl.CopyValuesSubset(startOffset, buffers[2].Bytes())
-		default: // fixed size
-			bw := int(bitutil.BytesForBits(int64(valueType.(arrow.FixedWidthDataType).BitWidth())))
-			buffers[1].Resize(dictLen * bw)
-			tbl.CopyFixedWidthValues(startOffset, bw, buffers[1].Bytes())
-		}
-	default:
-		return nil, fmt.Errorf("arrow/array: dictionary unifier unimplemented type: %s", valueType)
-	}
-
-	var nullcount int
-	if idx, ok := memoTable.GetNull(); ok && idx >= startOffset {
-		buffers[0] = memory.NewResizableBuffer(mem)
-		defer buffers[0].Release()
-		nullcount = 1
-		buffers[0].Resize(int(bitutil.BytesForBits(int64(dictLen))))
-		memory.Set(buffers[0].Bytes(), 0xFF)
-		bitutil.ClearBit(buffers[0].Bytes(), idx)
-	}
-
-	return NewData(valueType, dictLen, buffers, nil, nullcount, 0), nil
-}
-
-func DictArrayFromJSON(mem memory.Allocator, dt *arrow.DictionaryType, indicesJSON, dictJSON string) (arrow.Array, error) {
-	indices, _, err := FromJSON(mem, dt.IndexType, strings.NewReader(indicesJSON))
-	if err != nil {
-		return nil, err
-	}
-	defer indices.Release()
-
-	dict, _, err := FromJSON(mem, dt.ValueType, strings.NewReader(dictJSON))
-	if err != nil {
-		return nil, err
-	}
-	defer dict.Release()
-
-	return NewDictionaryArray(dt, indices, dict), nil
-}
-
-func ChunkedFromJSON(mem memory.Allocator, dt arrow.DataType, chunkStrs []string, opts ...FromJSONOption) (*arrow.Chunked, error) {
-	chunks := make([]arrow.Array, len(chunkStrs))
-	defer func() {
-		for _, c := range chunks {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-
-	var err error
-	for i, c := range chunkStrs {
-		chunks[i], _, err = FromJSON(mem, dt, strings.NewReader(c), opts...)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	return arrow.NewChunked(dt, chunks), nil
-}
-
-func getMaxBufferLen(dt arrow.DataType, length int) int {
-	bufferLen := int(bitutil.BytesForBits(int64(length)))
-
-	maxOf := func(bl int) int {
-		if bl > bufferLen {
-			return bl
-		}
-		return bufferLen
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.DictionaryType:
-		bufferLen = maxOf(getMaxBufferLen(dt.ValueType, length))
-		return maxOf(getMaxBufferLen(dt.IndexType, length))
-	case *arrow.FixedSizeBinaryType:
-		return maxOf(dt.ByteWidth * length)
-	case arrow.FixedWidthDataType:
-		return maxOf(int(bitutil.BytesForBits(int64(dt.BitWidth()))) * length)
-	case *arrow.StructType:
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
-		}
-		return bufferLen
-	case *arrow.SparseUnionType:
-		// type codes
-		bufferLen = maxOf(length)
-		// creates children of the same length of the union
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
-		}
-		return bufferLen
-	case *arrow.DenseUnionType:
-		// type codes
-		bufferLen = maxOf(length)
-		// offsets
-		bufferLen = maxOf(arrow.Int32SizeBytes * length)
-		// create children of length 1
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, 1))
-		}
-		return bufferLen
-	case arrow.OffsetsDataType:
-		return maxOf(dt.OffsetTypeTraits().BytesRequired(length + 1))
-	case *arrow.FixedSizeListType:
-		return maxOf(getMaxBufferLen(dt.Elem(), int(dt.Len())*length))
-	case arrow.ExtensionType:
-		return maxOf(getMaxBufferLen(dt.StorageType(), length))
-	default:
-		panic(fmt.Errorf("arrow/array: arrayofnull not implemented for type %s", dt))
-	}
-}
-
-type nullArrayFactory struct {
-	mem memory.Allocator
-	dt  arrow.DataType
-	len int
-	buf *memory.Buffer
-}
-
-func (n *nullArrayFactory) create() *Data {
-	if n.buf == nil {
-		bufLen := getMaxBufferLen(n.dt, n.len)
-		n.buf = memory.NewResizableBuffer(n.mem)
-		n.buf.Resize(bufLen)
-		defer n.buf.Release()
-	}
-
-	var (
-		dt        = n.dt
-		bufs      = []*memory.Buffer{memory.SliceBuffer(n.buf, 0, int(bitutil.BytesForBits(int64(n.len))))}
-		childData []arrow.ArrayData
-		dictData  arrow.ArrayData
-	)
-	defer bufs[0].Release()
-
-	if ex, ok := dt.(arrow.ExtensionType); ok {
-		dt = ex.StorageType()
-	}
-
-	if nf, ok := dt.(arrow.NestedType); ok {
-		childData = make([]arrow.ArrayData, nf.NumFields())
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-	case *arrow.DictionaryType:
-		bufs = append(bufs, n.buf)
-		arr := MakeArrayOfNull(n.mem, dt.ValueType, 0)
-		defer arr.Release()
-		dictData = arr.Data()
-	case arrow.FixedWidthDataType:
-		bufs = append(bufs, n.buf)
-	case arrow.BinaryDataType:
-		bufs = append(bufs, n.buf, n.buf)
-	case arrow.OffsetsDataType:
-		bufs = append(bufs, n.buf)
-		childData[0] = n.createChild(dt, 0, 0)
-		defer childData[0].Release()
-	case *arrow.FixedSizeListType:
-		childData[0] = n.createChild(dt, 0, n.len*int(dt.Len()))
-		defer childData[0].Release()
-	case *arrow.StructType:
-		for i := range dt.Fields() {
-			childData[i] = n.createChild(dt, i, n.len)
-			defer childData[i].Release()
-		}
-	case *arrow.RunEndEncodedType:
-		bldr := NewBuilder(n.mem, dt.RunEnds())
-		defer bldr.Release()
-
-		switch b := bldr.(type) {
-		case *Int16Builder:
-			b.Append(int16(n.len))
-		case *Int32Builder:
-			b.Append(int32(n.len))
-		case *Int64Builder:
-			b.Append(int64(n.len))
-		}
-
-		childData[0] = bldr.newData()
-		defer childData[0].Release()
-		childData[1] = n.createChild(dt.Encoded(), 1, 1)
-		defer childData[1].Release()
-	case arrow.UnionType:
-		bufs[0].Release()
-		bufs[0] = nil
-		bufs = append(bufs, n.buf)
-		// buffer is zeroed, but 0 may not be a valid type code
-		if dt.TypeCodes()[0] != 0 {
-			bufs[1] = memory.NewResizableBuffer(n.mem)
-			bufs[1].Resize(n.len)
-			defer bufs[1].Release()
-			memory.Set(bufs[1].Bytes(), byte(dt.TypeCodes()[0]))
-		}
-
-		// for sparse unions we create children with the same length
-		childLen := n.len
-		if dt.Mode() == arrow.DenseMode {
-			// for dense unions, offsets are all 0 and make children
-			// with length 1
-			bufs = append(bufs, n.buf)
-			childLen = 1
-		}
-		for i := range dt.Fields() {
-			childData[i] = n.createChild(dt, i, childLen)
-			defer childData[i].Release()
-		}
-	}
-
-	out := NewData(n.dt, n.len, bufs, childData, n.len, 0)
-	if dictData != nil {
-		out.SetDictionary(dictData)
-	}
-	return out
-}
-
-func (n *nullArrayFactory) createChild(dt arrow.DataType, i, length int) *Data {
-	childFactory := &nullArrayFactory{
-		mem: n.mem, dt: n.dt.(arrow.NestedType).Fields()[i].Type,
-		len: length, buf: n.buf}
-	return childFactory.create()
-}
-
-// MakeArrayOfNull creates an array of size length which is all null of the given data type.
-func MakeArrayOfNull(mem memory.Allocator, dt arrow.DataType, length int) arrow.Array {
-	if dt.ID() == arrow.NULL {
-		return NewNull(length)
-	}
-
-	data := (&nullArrayFactory{mem: mem, dt: dt, len: length}).create()
-	defer data.Release()
-	return MakeFromData(data)
-}
diff --git a/go/arrow/array/util_test.go b/go/arrow/array/util_test.go
deleted file mode 100644
index 114ea6e546649..0000000000000
--- a/go/arrow/array/util_test.go
+++ /dev/null
@@ -1,545 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bufio"
-	"bytes"
-	"fmt"
-	"io"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var typemap = map[arrow.DataType]reflect.Type{
-	arrow.PrimitiveTypes.Int8:   reflect.TypeOf(int8(0)),
-	arrow.PrimitiveTypes.Uint8:  reflect.TypeOf(uint8(0)),
-	arrow.PrimitiveTypes.Int16:  reflect.TypeOf(int16(0)),
-	arrow.PrimitiveTypes.Uint16: reflect.TypeOf(uint16(0)),
-	arrow.PrimitiveTypes.Int32:  reflect.TypeOf(int32(0)),
-	arrow.PrimitiveTypes.Uint32: reflect.TypeOf(uint32(0)),
-	arrow.PrimitiveTypes.Int64:  reflect.TypeOf(int64(0)),
-	arrow.PrimitiveTypes.Uint64: reflect.TypeOf(uint64(0)),
-}
-
-func TestIntegerArrsJSON(t *testing.T) {
-	const N = 10
-	types := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, tt := range types {
-		t.Run(fmt.Sprint(tt), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			jsontest := make([]int, N)
-			vals := reflect.MakeSlice(reflect.SliceOf(typemap[tt]), N, N)
-			for i := 0; i < N; i++ {
-				vals.Index(i).Set(reflect.ValueOf(i).Convert(typemap[tt]))
-				jsontest[i] = i
-			}
-
-			data, _ := json.Marshal(jsontest)
-			arr, _, err := array.FromJSON(mem, tt, bytes.NewReader(data))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.EqualValues(t, N, arr.Len())
-			assert.Zero(t, arr.NullN())
-
-			output, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, string(data), string(output))
-		})
-		t.Run(fmt.Sprint(tt)+" errors", func(t *testing.T) {
-			_, _, err := array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader(""))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("["))
-			assert.ErrorIs(t, err, io.ErrUnexpectedEOF)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("0"))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("{}"))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("[[0]]"))
-			assert.EqualError(t, err, "json: cannot unmarshal [ into Go value of type "+tt.Name())
-		})
-	}
-}
-
-func TestStringsJSON(t *testing.T) {
-	tests := []struct {
-		jsonstring string
-		values     []string
-		valids     []bool
-	}{
-		{"[]", []string{}, []bool{}},
-		{`["", "foo"]`, []string{"", "foo"}, nil},
-		{`["", null]`, []string{"", ""}, []bool{true, false}},
-		// NUL character in string
-		{`["", "some\u0000char"]`, []string{"", "some\x00char"}, nil},
-		// utf8 sequence in string
-		{"[\"\xc3\xa9\"]", []string{"\xc3\xa9"}, nil},
-		// bytes < 0x20 can be represented as JSON unicode escapes
-		{`["\u0000\u001f"]`, []string{"\x00\x1f"}, nil},
-	}
-
-	for _, tt := range tests {
-		t.Run("json "+tt.jsonstring, func(t *testing.T) {
-			bldr := array.NewStringBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValues(tt.values, tt.valids)
-			expected := bldr.NewStringArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(tt.jsonstring))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonstring, string(data))
-		})
-	}
-
-	for _, tt := range tests {
-		t.Run("large json "+tt.jsonstring, func(t *testing.T) {
-			bldr := array.NewLargeStringBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValues(tt.values, tt.valids)
-			expected := bldr.NewLargeStringArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.LargeString, strings.NewReader(tt.jsonstring))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonstring, string(data))
-		})
-	}
-
-	t.Run("errors", func(t *testing.T) {
-		_, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader("[0]"))
-		assert.Error(t, err)
-
-		_, _, err = array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader("[[]]"))
-		assert.Error(t, err)
-	})
-}
-
-func TestStructArrayFromJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[{"hello": 3.5, "world": true, "yo": "foo"},{"hello": 3.25, "world": false, "yo": "bar"}]`
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.FixedWidthTypes.Boolean},
-		arrow.Field{Name: "yo", Type: arrow.BinaryTypes.String},
-	), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	output, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(output))
-}
-
-func TestArrayFromJSONMulti(t *testing.T) {
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.FixedWidthTypes.Boolean},
-		arrow.Field{Name: "yo", Type: arrow.BinaryTypes.String},
-	), strings.NewReader("{\"hello\": 3.5, \"world\": true, \"yo\": \"foo\"}\n{\"hello\": 3.25, \"world\": false, \"yo\": \"bar\"}\n"),
-		array.WithMultipleDocs())
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.EqualValues(t, 2, arr.Len())
-	assert.Zero(t, arr.NullN())
-}
-
-func TestNestedJSONArrs(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[{"hello": 1.5, "world": [1, 2, 3, 4], "yo": [{"foo": "2005-05-06", "bar": "15:02:04.123"},{"foo": "1956-01-02", "bar": "02:10:00"}]}]`
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		arrow.Field{Name: "yo", Type: arrow.FixedSizeListOf(2, arrow.StructOf(
-			arrow.Field{Name: "foo", Type: arrow.FixedWidthTypes.Date32},
-			arrow.Field{Name: "bar", Type: arrow.FixedWidthTypes.Time32ms},
-		))},
-	), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	v, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(v))
-}
-
-func TestGetNullsFromJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[
-		{"yo": "thing", "arr": null, "nuf": {"ps": "今日は"}},
-		{"yo": null, "nuf": {"ps": null}, "arr": []},
-		{ "nuf": null, "yo": "今日は", "arr": [1,2,3]}
-	]`
-
-	rec, _, err := array.RecordFromJSON(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "yo", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "arr", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true},
-		{Name: "nuf", Type: arrow.StructOf(arrow.Field{Name: "ps", Type: arrow.BinaryTypes.String, Nullable: true}), Nullable: true},
-	}, nil), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer rec.Release()
-
-	assert.EqualValues(t, 3, rec.NumCols())
-	assert.EqualValues(t, 3, rec.NumRows())
-
-	data, err := json.Marshal(rec)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(data))
-}
-
-func TestDurationsJSON(t *testing.T) {
-	tests := []struct {
-		unit    arrow.TimeUnit
-		jsonstr string
-		values  []arrow.Duration
-	}{
-		{arrow.Second, `["1s", "2s", "3s", "4s", "5s"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Millisecond, `["1ms", "2ms", "3ms", "4ms", "5ms"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Microsecond, `["1us", "2us", "3us", "4us", "5us"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Nanosecond, `["1ns", "2ns", "3ns", "4ns", "5ns"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-	}
-	for _, tt := range tests {
-		dtype := &arrow.DurationType{Unit: tt.unit}
-		bldr := array.NewDurationBuilder(memory.DefaultAllocator, dtype)
-		defer bldr.Release()
-
-		bldr.AppendValues(tt.values, nil)
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, dtype, strings.NewReader(tt.jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-	}
-}
-
-func TestTimestampsJSON(t *testing.T) {
-	tests := []struct {
-		unit    arrow.TimeUnit
-		jsonstr string
-		values  []arrow.Timestamp
-	}{
-		{arrow.Second, `["1970-01-01", "2000-02-29", "3989-07-14", "1900-02-28"]`, []arrow.Timestamp{0, 951782400, 63730281600, -2203977600}},
-		{arrow.Nanosecond, `["1970-01-01", "2000-02-29", "1900-02-28"]`, []arrow.Timestamp{0, 951782400000000000, -2203977600000000000}},
-	}
-
-	for _, tt := range tests {
-		dtype := &arrow.TimestampType{Unit: tt.unit}
-		bldr := array.NewTimestampBuilder(memory.DefaultAllocator, dtype)
-		defer bldr.Release()
-
-		bldr.AppendValues(tt.values, nil)
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, dtype, strings.NewReader(tt.jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-	}
-}
-
-func TestDateJSON(t *testing.T) {
-	t.Run("date32", func(t *testing.T) {
-		bldr := array.NewDate32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		jsonstr := `["1970-01-06", null, "1970-02-12", 0]`
-		jsonExp := `["1970-01-06", null, "1970-02-12", "1970-01-01"]`
-
-		bldr.AppendValues([]arrow.Date32{5, 0, 42, 0}, []bool{true, false, true, true})
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.FixedWidthTypes.Date32, strings.NewReader(jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-		data, err := json.Marshal(arr)
-		assert.NoError(t, err)
-		assert.JSONEq(t, jsonExp, string(data))
-	})
-	t.Run("date64", func(t *testing.T) {
-		bldr := array.NewDate64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		jsonstr := `["1970-01-02", null, "2286-11-20", 86400000]`
-		jsonExp := `["1970-01-02", null, "2286-11-20", "1970-01-02"]`
-
-		bldr.AppendValues([]arrow.Date64{86400000, 0, 9999936000000, 86400000}, []bool{true, false, true, true})
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.FixedWidthTypes.Date64, strings.NewReader(jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-		data, err := json.Marshal(arr)
-		assert.NoError(t, err)
-		assert.JSONEq(t, jsonExp, string(data))
-	})
-}
-
-func TestTimeJSON(t *testing.T) {
-	tententen := 60*(60*(10)+10) + 10
-	tests := []struct {
-		dt       arrow.DataType
-		jsonstr  string
-		jsonexp  string
-		valueadd int
-	}{
-		{arrow.FixedWidthTypes.Time32s, `[null, "10:10:10", 36610]`, `[null, "10:10:10", "10:10:10"]`, 123},
-		{arrow.FixedWidthTypes.Time32ms, `[null, "10:10:10.123", 36610123]`, `[null, "10:10:10.123", "10:10:10.123"]`, 456},
-		{arrow.FixedWidthTypes.Time64us, `[null, "10:10:10.123456", 36610123456]`, `[null, "10:10:10.123456", "10:10:10.123456"]`, 789},
-		{arrow.FixedWidthTypes.Time64ns, `[null, "10:10:10.123456789", 36610123456789]`, `[null, "10:10:10.123456789", "10:10:10.123456789"]`, 0},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprint(tt.dt), func(t *testing.T) {
-			defer func() {
-				tententen = 1000*tententen + tt.valueadd
-			}()
-
-			bldr := array.NewBuilder(memory.DefaultAllocator, tt.dt)
-			defer bldr.Release()
-
-			switch tt.dt.ID() {
-			case arrow.TIME32:
-				bldr.(*array.Time32Builder).AppendValues([]arrow.Time32{0, arrow.Time32(tententen), arrow.Time32(tententen)}, []bool{false, true, true})
-			case arrow.TIME64:
-				bldr.(*array.Time64Builder).AppendValues([]arrow.Time64{0, arrow.Time64(tententen), arrow.Time64(tententen)}, []bool{false, true, true})
-			}
-
-			expected := bldr.NewArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, tt.dt, strings.NewReader(tt.jsonstr))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonexp, string(data))
-		})
-	}
-}
-
-func TestDecimal128JSON(t *testing.T) {
-	dt := &arrow.Decimal128Type{Precision: 10, Scale: 4}
-	bldr := array.NewDecimal128Builder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	bldr.AppendValues([]decimal128.Num{decimal128.FromU64(1234567), {}, decimal128.FromI64(-789000)}, []bool{true, false, true})
-	expected := bldr.NewArray()
-	defer expected.Release()
-
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, dt, strings.NewReader(`["123.4567", null, "-78.9000"]`))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-	data, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, `["123.4567", null, "-78.9"]`, string(data))
-}
-
-func TestDecimal256JSON(t *testing.T) {
-	dt := &arrow.Decimal256Type{Precision: 10, Scale: 4}
-	bldr := array.NewDecimal256Builder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	bldr.AppendValues([]decimal256.Num{decimal256.FromU64(1234567), {}, decimal256.FromI64(-789000)}, []bool{true, false, true})
-	expected := bldr.NewArray()
-	defer expected.Release()
-
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, dt, strings.NewReader(`["123.4567", null, "-78.9000"]`))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-	data, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, `["123.4567", null, "-78.9"]`, string(data))
-}
-
-func TestArrRecordsJSONRoundTrip(t *testing.T) {
-	for k, v := range arrdata.Records {
-		if k == "decimal128" || k == "decimal256" || k == "fixed_width_types" {
-			// test these separately since the sample data in the arrdata
-			// records doesn't lend itself to exactness when going to/from
-			// json. The fixed_width_types one uses negative values for
-			// time32 and time64 which correctly get interpreted into times,
-			// but re-encoding them in json produces the normalized positive
-			// values instead of re-creating negative ones.
-			// the decimal128/decimal256 values don't get parsed *exactly* due to fun
-			// float weirdness due to their size, so smaller tests will work fine.
-			continue
-		}
-		t.Run(k, func(t *testing.T) {
-			var buf bytes.Buffer
-			assert.NotPanics(t, func() {
-				enc := json.NewEncoder(&buf)
-				for _, r := range v {
-					if err := enc.Encode(r); err != nil {
-						panic(err)
-					}
-				}
-			})
-
-			rdr := bytes.NewReader(buf.Bytes())
-			var cur int64
-
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			for _, r := range v {
-				rec, off, err := array.RecordFromJSON(mem, r.Schema(), rdr, array.WithStartOffset(cur))
-				assert.NoError(t, err)
-				defer rec.Release()
-
-				assert.Truef(t, array.RecordApproxEqual(r, rec), "expected: %s\ngot: %s\n", r, rec)
-				cur += off
-			}
-		})
-	}
-}
-
-func TestStructBuilderJSONUnknownNested(t *testing.T) {
-	dt := arrow.StructOf(
-		arrow.Field{Name: "region", Type: arrow.BinaryTypes.String},
-		arrow.Field{Name: "model", Type: arrow.PrimitiveTypes.Int32},
-		arrow.Field{Name: "sales", Type: arrow.PrimitiveTypes.Float32})
-
-	const data = `[
-		{"region": "NY", "model": "3", "sales": 742.0},
-		{"region": "CT", "model": "5", "sales": 742.0}
-	]`
-
-	const dataWithExtra = `[
-		{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234},
-		{"region": "CT", "model": "5", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}
-	]`
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(data))
-	require.NoError(t, err)
-	require.NotNil(t, arr)
-	defer arr.Release()
-
-	arr2, _, err := array.FromJSON(mem, dt, strings.NewReader(dataWithExtra))
-	require.NoError(t, err)
-	require.NotNil(t, arr2)
-	defer arr2.Release()
-
-	assert.Truef(t, array.Equal(arr, arr2), "expected: %s\n actual: %s", arr, arr2)
-}
-
-func TestRecordBuilderUnmarshalJSONExtraFields(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String},
-		{Name: "model", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float32},
-	}, nil)
-
-	bldr := array.NewRecordBuilder(mem, schema)
-	defer bldr.Release()
-
-	const data = `{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234}
-	{"region": "NY", "model": "3", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}`
-
-	s := bufio.NewScanner(strings.NewReader(data))
-	require.True(t, s.Scan())
-	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
-
-	rec1 := bldr.NewRecord()
-	defer rec1.Release()
-
-	require.True(t, s.Scan())
-	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
-
-	rec2 := bldr.NewRecord()
-	defer rec2.Release()
-
-	assert.Truef(t, array.RecordEqual(rec1, rec2), "expected: %s\nactual: %s", rec1, rec2)
-}
diff --git a/go/arrow/arrio/arrio.go b/go/arrow/arrio/arrio.go
deleted file mode 100644
index 53215c81f75eb..0000000000000
--- a/go/arrow/arrio/arrio.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrio exposes functions to manipulate records, exposing and using
-// interfaces not unlike the ones defined in the stdlib io package.
-package arrio
-
-import (
-	"errors"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Reader is the interface that wraps the Read method.
-type Reader interface {
-	// Read reads the current record from the underlying stream and an error, if any.
-	// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-	Read() (arrow.Record, error)
-}
-
-// ReaderAt is the interface that wraps the ReadAt method.
-type ReaderAt interface {
-	// ReadAt reads the i-th record from the underlying stream and an error, if any.
-	ReadAt(i int64) (arrow.Record, error)
-}
-
-// Writer is the interface that wraps the Write method.
-type Writer interface {
-	Write(rec arrow.Record) error
-}
-
-// Copy copies all the records available from src to dst.
-// Copy returns the number of records copied and the first error
-// encountered while copying, if any.
-//
-// A successful Copy returns err == nil, not err == EOF. Because Copy is
-// defined to read from src until EOF, it does not treat an EOF from Read as an
-// error to be reported.
-func Copy(dst Writer, src Reader) (n int64, err error) {
-	for {
-		rec, err := src.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				return n, nil
-			}
-			return n, err
-		}
-		err = dst.Write(rec)
-		if err != nil {
-			return n, err
-		}
-		n++
-	}
-}
-
-// CopyN copies n records (or until an error) from src to dst. It returns the
-// number of records copied and the earliest error encountered while copying. On
-// return, written == n if and only if err == nil.
-func CopyN(dst Writer, src Reader, n int64) (written int64, err error) {
-	for ; written < n; written++ {
-		rec, err := src.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) && written == n {
-				return written, nil
-			}
-			return written, err
-		}
-		err = dst.Write(rec)
-		if err != nil {
-			return written, err
-		}
-	}
-
-	if written != n && err == nil {
-		err = io.EOF
-	}
-	return written, err
-}
diff --git a/go/arrow/arrio/arrio_test.go b/go/arrow/arrio/arrio_test.go
deleted file mode 100644
index 26863ec252bf7..0000000000000
--- a/go/arrow/arrio/arrio_test.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrio_test
-
-import (
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type copyKind int
-
-const (
-	fileKind copyKind = iota
-	streamKind
-)
-
-func (k copyKind) write(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	switch k {
-	case fileKind:
-		arrdata.WriteFile(t, f, mem, schema, recs)
-	case streamKind:
-		arrdata.WriteStream(t, f, mem, schema, recs)
-	default:
-		panic("invalid copyKind")
-	}
-}
-
-func (k copyKind) check(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	switch k {
-	case fileKind:
-		arrdata.CheckArrowFile(t, f, mem, schema, recs)
-	case streamKind:
-		arrdata.CheckArrowStream(t, f, mem, schema, recs)
-	default:
-		panic("invalid copyKind")
-	}
-}
-
-func TestCopy(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name     string
-		src, dst copyKind
-	}{
-		{name: "file2file", src: fileKind, dst: fileKind},
-		{name: "file2stream", src: fileKind, dst: streamKind},
-		{name: "stream2file", src: streamKind, dst: fileKind},
-		{name: "stream2stream", src: streamKind, dst: streamKind},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			for name, recs := range arrdata.Records {
-				t.Run(name, func(t *testing.T) {
-					for _, tcopy := range []struct {
-						n    int
-						want int
-						err  error
-					}{
-						{-1, len(recs), nil},
-						{1, 1, nil},
-						{0, 0, nil},
-						{len(recs), len(recs), nil},
-						{len(recs) + 1, len(recs), io.EOF},
-					} {
-						t.Run(fmt.Sprintf("-copy-n=%d", tcopy.n), func(t *testing.T) {
-							mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-							defer mem.AssertSize(t, 0)
-
-							f, err := os.CreateTemp(tempDir, "go-arrow-copy-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer f.Close()
-
-							o, err := os.CreateTemp(tempDir, "go-arrow-copy-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer o.Close()
-
-							tc.src.write(t, f, mem, recs[0].Schema(), recs)
-							tc.src.check(t, f, mem, recs[0].Schema(), recs)
-
-							_, err = f.Seek(0, io.SeekStart)
-							if err != nil {
-								t.Fatal(err)
-							}
-
-							var r arrio.Reader
-							switch tc.src {
-							case fileKind:
-								rr, err := ipc.NewFileReader(f, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-								defer rr.Close()
-								r = rr
-							case streamKind:
-								rr, err := ipc.NewReader(f, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-								defer rr.Release()
-								r = rr
-							default:
-								t.Fatalf("invalid src type %v", tc.src)
-							}
-
-							var w interface {
-								arrio.Writer
-								io.Closer
-							}
-
-							switch tc.dst {
-							case fileKind:
-								w, err = ipc.NewFileWriter(o, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-							case streamKind:
-								w = ipc.NewWriter(o, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-							default:
-								t.Fatalf("invalid dst type %v", tc.dst)
-							}
-							defer w.Close()
-
-							var (
-								n int64
-							)
-							switch tcopy.n {
-							case -1:
-								n, err = arrio.Copy(w, r)
-							case len(recs) + 1:
-								n, err = arrio.CopyN(w, r, int64(tcopy.n))
-							default:
-								n, err = arrio.CopyN(w, r, int64(tcopy.n))
-							}
-
-							switch err {
-							case nil:
-								if tcopy.err != nil {
-									t.Fatalf("got a nil error, want=%v", tcopy.err)
-								}
-							default:
-								switch tcopy.err {
-								case nil:
-									t.Fatalf("invalid error: got=%v, want=%v", err, tcopy.err)
-								default:
-									if tcopy.err.Error() != err.Error() {
-										t.Fatalf("invalid error: got=%v, want=%v", err, tcopy.err)
-									}
-								}
-							}
-
-							if got, want := n, int64(tcopy.want); got != want {
-								t.Fatalf("invalid number of records copied: got=%d, want=%d", got, want)
-							}
-
-							err = w.Close()
-							if err != nil {
-								t.Fatal(err)
-							}
-
-							tc.dst.check(t, o, mem, recs[0].Schema(), recs[:tcopy.want])
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/avro2parquet/main.go b/go/arrow/avro/avro2parquet/main.go
deleted file mode 100644
index ae514c5ed1fda..0000000000000
--- a/go/arrow/avro/avro2parquet/main.go
+++ /dev/null
@@ -1,119 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bufio"
-	"bytes"
-	"flag"
-	"fmt"
-	"log"
-	"os"
-	"runtime/pprof"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/avro"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	pq "github.com/apache/arrow/go/v18/parquet/pqarrow"
-)
-
-var (
-	cpuprofile = flag.String("cpuprofile", "", "write cpu profile to `file`")
-	filepath   = flag.String("file", "", "avro ocf to convert")
-)
-
-func main() {
-	flag.Parse()
-	if *cpuprofile != "" {
-		f, err := os.Create(*cpuprofile)
-		if err != nil {
-			log.Fatal("could not create CPU profile: ", err)
-		}
-		defer f.Close() // error handling omitted for example
-		if err := pprof.StartCPUProfile(f); err != nil {
-			log.Fatal("could not start CPU profile: ", err)
-		}
-		defer pprof.StopCPUProfile()
-	}
-	if *filepath == "" {
-		fmt.Println("no file specified")
-	}
-	chunk := 1024 * 8
-	ts := time.Now()
-	log.Println("starting:")
-	info, err := os.Stat(*filepath)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(1)
-	}
-	filesize := info.Size()
-	data, err := os.ReadFile(*filepath)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(2)
-	}
-	fmt.Printf("file : %v\nsize: %v MB\n", filepath, float64(filesize)/1024/1024)
-
-	r := bytes.NewReader(data)
-	ior := bufio.NewReaderSize(r, 4096*8)
-	av2arReader, err := avro.NewOCFReader(ior, avro.WithChunk(chunk))
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(3)
-	}
-	fp, err := os.OpenFile(*filepath+".parquet", os.O_CREATE|os.O_WRONLY|os.O_TRUNC, 0o644)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(4)
-	}
-	defer fp.Close()
-	pwProperties := parquet.NewWriterProperties(parquet.WithDictionaryDefault(true),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithCompression(compress.Codecs.Snappy),
-		parquet.WithBatchSize(1024*32),
-		parquet.WithDataPageSize(1024*1024),
-		parquet.WithMaxRowGroupLength(64*1024*1024),
-	)
-	awProperties := pq.NewArrowWriterProperties(pq.WithStoreSchema())
-	pr, err := pq.NewFileWriter(av2arReader.Schema(), fp, pwProperties, awProperties)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(5)
-	}
-	defer pr.Close()
-	fmt.Printf("parquet version: %v\n", pwProperties.Version())
-	for av2arReader.Next() {
-		if av2arReader.Err() != nil {
-			fmt.Println(err)
-			os.Exit(6)
-		}
-		recs := av2arReader.Record()
-		err = pr.WriteBuffered(recs)
-		if err != nil {
-			fmt.Println(err)
-			os.Exit(7)
-		}
-		recs.Release()
-	}
-	if av2arReader.Err() != nil {
-		fmt.Println(av2arReader.Err())
-	}
-
-	pr.Close()
-	log.Printf("time to convert: %v\n", time.Since(ts))
-}
diff --git a/go/arrow/avro/loader.go b/go/arrow/avro/loader.go
deleted file mode 100644
index 26d8678e8e2be..0000000000000
--- a/go/arrow/avro/loader.go
+++ /dev/null
@@ -1,85 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"errors"
-	"fmt"
-	"io"
-)
-
-func (r *OCFReader) decodeOCFToChan() {
-	defer close(r.avroChan)
-	for r.r.HasNext() {
-		select {
-		case <-r.readerCtx.Done():
-			r.err = fmt.Errorf("avro decoding cancelled, %d records read", r.avroDatumCount)
-			return
-		default:
-			var datum any
-			err := r.r.Decode(&datum)
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					r.err = nil
-					return
-				}
-				r.err = err
-				return
-			}
-			r.avroChan <- datum
-			r.avroDatumCount++
-		}
-	}
-}
-
-func (r *OCFReader) recordFactory() {
-	defer close(r.recChan)
-	r.primed = true
-	recChunk := 0
-	switch {
-	case r.chunk < 1:
-		for data := range r.avroChan {
-			err := r.ldr.loadDatum(data)
-			if err != nil {
-				r.err = err
-				return
-			}
-		}
-		r.recChan <- r.bld.NewRecord()
-		r.bldDone <- struct{}{}
-	case r.chunk >= 1:
-		for data := range r.avroChan {
-			if recChunk == 0 {
-				r.bld.Reserve(r.chunk)
-			}
-			err := r.ldr.loadDatum(data)
-			if err != nil {
-				r.err = err
-				return
-			}
-			recChunk++
-			if recChunk >= r.chunk {
-				r.recChan <- r.bld.NewRecord()
-				recChunk = 0
-			}
-		}
-		if recChunk != 0 {
-			r.recChan <- r.bld.NewRecord()
-		}
-		r.bldDone <- struct{}{}
-	}
-}
diff --git a/go/arrow/avro/reader.go b/go/arrow/avro/reader.go
deleted file mode 100644
index 1463041499de2..0000000000000
--- a/go/arrow/avro/reader.go
+++ /dev/null
@@ -1,337 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/hamba/avro/v2/ocf"
-	"github.com/tidwall/sjson"
-
-	avro "github.com/hamba/avro/v2"
-)
-
-var ErrMismatchFields = errors.New("arrow/avro: number of records mismatch")
-
-// Option configures an Avro reader/writer.
-type (
-	Option func(config)
-	config *OCFReader
-)
-
-type schemaEdit struct {
-	method string
-	path   string
-	value  any
-}
-
-// Reader wraps goavro/OCFReader and creates array.Records from a schema.
-type OCFReader struct {
-	r               *ocf.Decoder
-	avroSchema      string
-	avroSchemaEdits []schemaEdit
-	schema          *arrow.Schema
-
-	refs   int64
-	bld    *array.RecordBuilder
-	bldMap *fieldPos
-	ldr    *dataLoader
-	cur    arrow.Record
-	err    error
-
-	primed     bool
-	readerCtx  context.Context
-	readCancel func()
-	maxOCF     int
-	maxRec     int
-
-	avroChan       chan any
-	avroDatumCount int64
-	avroChanSize   int
-	recChan        chan arrow.Record
-
-	bldDone chan struct{}
-
-	recChanSize int
-	chunk       int
-	mem         memory.Allocator
-}
-
-// NewReader returns a reader that reads from an Avro OCF file and creates
-// arrow.Records from the converted avro data.
-func NewOCFReader(r io.Reader, opts ...Option) (*OCFReader, error) {
-	ocfr, err := ocf.NewDecoder(r)
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not create avro ocfreader", arrow.ErrInvalid)
-	}
-
-	rr := &OCFReader{
-		r:            ocfr,
-		refs:         1,
-		chunk:        1,
-		avroChanSize: 500,
-		recChanSize:  10,
-	}
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	rr.avroChan = make(chan any, rr.avroChanSize)
-	rr.recChan = make(chan arrow.Record, rr.recChanSize)
-	rr.bldDone = make(chan struct{})
-	schema, err := avro.Parse(string(ocfr.Metadata()["avro.schema"]))
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not parse avro header", arrow.ErrInvalid)
-	}
-	rr.avroSchema = schema.String()
-	if len(rr.avroSchemaEdits) > 0 {
-		// execute schema edits
-		for _, e := range rr.avroSchemaEdits {
-			err := rr.editAvroSchema(e)
-			if err != nil {
-				return nil, fmt.Errorf("%w: could not edit avro schema", arrow.ErrInvalid)
-			}
-		}
-		// validate edited schema
-		schema, err = avro.Parse(rr.avroSchema)
-		if err != nil {
-			return nil, fmt.Errorf("%w: could not parse modified avro schema", arrow.ErrInvalid)
-		}
-	}
-	rr.schema, err = ArrowSchemaFromAvro(schema)
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not convert avro schema", arrow.ErrInvalid)
-	}
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-	rr.readerCtx, rr.readCancel = context.WithCancel(context.Background())
-	go rr.decodeOCFToChan()
-
-	rr.bld = array.NewRecordBuilder(rr.mem, rr.schema)
-	rr.bldMap = newFieldPos()
-	rr.ldr = newDataLoader()
-	for idx, fb := range rr.bld.Fields() {
-		mapFieldBuilders(fb, rr.schema.Field(idx), rr.bldMap)
-	}
-	rr.ldr.drawTree(rr.bldMap)
-	go rr.recordFactory()
-	return rr, nil
-}
-
-// Reuse allows the OCFReader to be reused to read another Avro file provided the
-// new Avro file has an identical schema.
-func (rr *OCFReader) Reuse(r io.Reader, opts ...Option) error {
-	rr.Close()
-	rr.err = nil
-	ocfr, err := ocf.NewDecoder(r)
-	if err != nil {
-		return fmt.Errorf("%w: could not create avro ocfreader", arrow.ErrInvalid)
-	}
-	schema, err := avro.Parse(string(ocfr.Metadata()["avro.schema"]))
-	if err != nil {
-		return fmt.Errorf("%w: could not parse avro header", arrow.ErrInvalid)
-	}
-	if rr.avroSchema != schema.String() {
-		return fmt.Errorf("%w: avro schema mismatch", arrow.ErrInvalid)
-	}
-
-	rr.r = ocfr
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	rr.maxOCF = 0
-	rr.maxRec = 0
-	rr.avroDatumCount = 0
-	rr.primed = false
-
-	rr.avroChan = make(chan any, rr.avroChanSize)
-	rr.recChan = make(chan arrow.Record, rr.recChanSize)
-	rr.bldDone = make(chan struct{})
-
-	rr.readerCtx, rr.readCancel = context.WithCancel(context.Background())
-	go rr.decodeOCFToChan()
-	go rr.recordFactory()
-	return nil
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying Avro file.
-func (r *OCFReader) Err() error { return r.err }
-
-// AvroSchema returns the Avro schema of the Avro OCF
-func (r *OCFReader) AvroSchema() string { return r.avroSchema }
-
-// Schema returns the converted Arrow schema of the Avro OCF
-func (r *OCFReader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the current record that has been extracted from the
-// underlying Avro OCF file.
-// It is valid until the next call to Next.
-func (r *OCFReader) Record() arrow.Record { return r.cur }
-
-// Metrics returns the maximum queue depth of the Avro record read cache and of the
-// converted Arrow record cache.
-func (r *OCFReader) Metrics() string {
-	return fmt.Sprintf("Max. OCF queue depth: %d/%d  Max. record queue depth: %d/%d", r.maxOCF, r.avroChanSize, r.maxRec, r.recChanSize)
-}
-
-// OCFRecordsReadCount returns the number of Avro datum that were read from the Avro file.
-func (r *OCFReader) OCFRecordsReadCount() int64 { return r.avroDatumCount }
-
-// Close closes the OCFReader's Avro record read cache and converted Arrow record cache. OCFReader must
-// be closed if the Avro OCF's records have not been read to completion.
-func (r *OCFReader) Close() {
-	r.readCancel()
-	r.err = r.readerCtx.Err()
-}
-
-func (r *OCFReader) editAvroSchema(e schemaEdit) error {
-	var err error
-	switch e.method {
-	case "set":
-		r.avroSchema, err = sjson.Set(r.avroSchema, e.path, e.value)
-		if err != nil {
-			return fmt.Errorf("%w: schema edit 'set %s = %v' failure - %v", arrow.ErrInvalid, e.path, e.value, err)
-		}
-	case "delete":
-		r.avroSchema, err = sjson.Delete(r.avroSchema, e.path)
-		if err != nil {
-			return fmt.Errorf("%w: schema edit 'delete' failure - %v", arrow.ErrInvalid, err)
-		}
-	default:
-		return fmt.Errorf("%w: schema edit method must be 'set' or 'delete'", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-// Next returns whether a Record can be received from the converted record queue.
-// The user should check Err() after call to Next that return false to check
-// if an error took place.
-func (r *OCFReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-	if r.maxOCF < len(r.avroChan) {
-		r.maxOCF = len(r.avroChan)
-	}
-	if r.maxRec < len(r.recChan) {
-		r.maxRec = len(r.recChan)
-	}
-	select {
-	case r.cur = <-r.recChan:
-	case <-r.bldDone:
-		if len(r.recChan) > 0 {
-			r.cur = <-r.recChan
-		}
-	}
-	if r.err != nil {
-		return false
-	}
-
-	return r.cur != nil
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		cfg.mem = mem
-	}
-}
-
-// WithReadCacheSize specifies the size of the OCF record decode queue, default value
-// is 500.
-func WithReadCacheSize(n int) Option {
-	return func(cfg config) {
-		if n < 1 {
-			cfg.avroChanSize = 500
-		} else {
-			cfg.avroChanSize = n
-		}
-	}
-}
-
-// WithRecordCacheSize specifies the size of the converted Arrow record queue, default
-// value is 1.
-func WithRecordCacheSize(n int) Option {
-	return func(cfg config) {
-		if n < 1 {
-			cfg.recChanSize = 1
-		} else {
-			cfg.recChanSize = n
-		}
-	}
-}
-
-// WithSchemaEdit specifies modifications to the Avro schema. Supported methods are 'set' and
-// 'delete'. Set sets the value for the specified path. Delete deletes the value for the specified path.
-// A path is in dot syntax, such as "fields.1" or "fields.0.type". The modified Avro schema is
-// validated before conversion to Arrow schema - NewOCFReader will return an error if the modified schema
-// cannot be parsed.
-func WithSchemaEdit(method, path string, value any) Option {
-	return func(cfg config) {
-		var e schemaEdit
-		e.method = method
-		e.path = path
-		e.value = value
-		cfg.avroSchemaEdits = append(cfg.avroSchemaEdits, e)
-	}
-}
-
-// WithChunk specifies the chunk size used while reading Avro OCF files.
-//
-// If n is zero or 1, no chunking will take place and the reader will create
-// one record per row.
-// If n is greater than 1, chunks of n rows will be read.
-// If n is negative, the reader will load the whole Avro OCF file into memory and
-// create one big record with all the rows.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		cfg.chunk = n
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *OCFReader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *OCFReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-	}
-}
-
-var _ array.RecordReader = (*OCFReader)(nil)
diff --git a/go/arrow/avro/reader_test.go b/go/arrow/avro/reader_test.go
deleted file mode 100644
index 2cb1a7caa801c..0000000000000
--- a/go/arrow/avro/reader_test.go
+++ /dev/null
@@ -1,364 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	hamba "github.com/hamba/avro/v2"
-)
-
-func TestEditSchemaStringEqual(t *testing.T) {
-	tests := []struct {
-		avroSchema  string
-		arrowSchema []arrow.Field
-	}{
-		{
-			avroSchema: `{
-				"fields": [
-					{
-						"name": "inheritNull",
-						"type": {
-							"name": "Simple",
-							"symbols": [
-								"a",
-								"b"
-							],
-							"type": "enum"
-						}
-					},
-					{
-						"name": "explicitNamespace",
-						"type": {
-							"name": "test",
-							"namespace": "org.hamba.avro",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "fullName",
-						"type": {
-							"type": "record",
-							"name": "fullName_data",
-							"namespace": "ignored",
-							"doc": "A name attribute with a fullname, so the namespace attribute is ignored. The fullname is 'a.full.Name', and the namespace is 'a.full'.",
-							"fields": [{
-									"name": "inheritNamespace",
-									"type": {
-										"type": "enum",
-										"name": "Understanding",
-										"doc": "A simple name (attribute) and no namespace attribute: inherit the namespace of the enclosing type 'a.full.Name'. The fullname is 'a.full.Understanding'.",
-										"symbols": ["d", "e"]
-									}
-								}, {
-									"name": "md5",
-									"type": {
-                                            "name": "md5_data",
-                                            "type": "fixed",
-									        "size": 16,
-									        "namespace": "ignored"
-                                    }
-								}
-							]
-						}
-					},
-					{
-						"name": "id",
-						"type": "int"
-					},
-					{
-						"name": "bigId",
-						"type": "long"
-					},
-					{
-						"name": "temperature",
-						"type": [
-							"null",
-							"float"
-						]
-					},
-					{
-						"name": "fraction",
-						"type": [
-							"null",
-							"double"
-						]
-					},
-					{
-						"name": "is_emergency",
-						"type": "boolean"
-					},
-					{
-						"name": "remote_ip",
-						"type": [
-							"null",
-							"bytes"
-						]
-					},
-					{
-						"name": "person",
-						"type": {
-							"fields": [
-								{
-									"name": "lastname",
-									"type": "string"
-								},
-								{
-									"name": "address",
-									"type": {
-										"fields": [
-											{
-												"name": "streetaddress",
-												"type": "string"
-											},
-											{
-												"name": "city",
-												"type": "string"
-											}
-										],
-										"name": "AddressUSRecord",
-										"type": "record"
-									}
-								},
-								{
-									"name": "mapfield",
-									"type": {
-										"default": {
-										},
-										"type": "map",
-										"values": "long"
-									}
-								},
-								{
-									"name": "arrayField",
-									"type": {
-										"default": [
-										],
-										"items": "string",
-										"type": "array"
-									}
-								}
-							],
-							"name": "person_data",
-							"type": "record"
-						}
-					},
-					{
-						"name": "decimalField",
-						"type": {
-							"logicalType": "decimal",
-							"precision": 4,
-							"scale": 2,
-							"type": "bytes"
-						}
-					},
-					{
-						"logicalType": "uuid",
-						"name": "uuidField",
-						"type": "string"
-					},
-					{
-						"name": "timemillis",
-						"type": {
-							"type": "int",
-							"logicalType": "time-millis"
-						}
-					},
-					{
-						"name": "timemicros",
-						"type": {
-								"type": "long",
-								"logicalType": "time-micros"
-						}
-					},
-					{
-						"name": "timestampmillis",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-millis"
-						}
-					},
-					{
-						"name": "timestampmicros",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-micros"
-						}
-					},
-					{
-						"name": "duration",
-						"type": {
-							"name": "duration",
-							"namespace": "whyowhy",
-							"logicalType": "duration",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "date",
-						"type": {
-							"logicalType": "date",
-							"type": "int"
-						}
-					}
-				],
-				"name": "Example",
-				"type": "record"
-			}`,
-			arrowSchema: []arrow.Field{
-				{
-					Name: "explicitNamespace",
-					Type: &arrow.FixedSizeBinaryType{ByteWidth: 12},
-				},
-				{
-					Name: "fullName",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "inheritNamespace",
-							Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-						},
-						arrow.Field{
-							Name: "md5",
-							Type: &arrow.FixedSizeBinaryType{ByteWidth: 16},
-						},
-					),
-				},
-				{
-					Name: "id",
-					Type: arrow.PrimitiveTypes.Int32,
-				},
-				{
-					Name: "bigId",
-					Type: arrow.PrimitiveTypes.Int64,
-				},
-				{
-					Name:     "temperature",
-					Type:     arrow.PrimitiveTypes.Float32,
-					Nullable: true,
-				},
-				{
-					Name:     "fraction",
-					Type:     arrow.PrimitiveTypes.Float64,
-					Nullable: true,
-				},
-				{
-					Name: "is_emergency",
-					Type: arrow.FixedWidthTypes.Boolean,
-				},
-				{
-					Name:     "remote_ip",
-					Type:     arrow.BinaryTypes.Binary,
-					Nullable: true,
-				},
-				{
-					Name: "person",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "lastname",
-							Type: arrow.BinaryTypes.String,
-						},
-						arrow.Field{
-							Name: "address",
-							Type: arrow.StructOf(
-								arrow.Field{
-									Name: "streetaddress",
-									Type: arrow.BinaryTypes.String,
-								},
-								arrow.Field{
-									Name: "city",
-									Type: arrow.BinaryTypes.String,
-								},
-							),
-						},
-						arrow.Field{
-							Name:     "mapfield",
-							Type:     arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int64),
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "arrayField",
-							Type: arrow.ListOfNonNullable(arrow.BinaryTypes.String),
-						},
-					),
-				},
-				{
-					Name: "decimalField",
-					Type: &arrow.Decimal128Type{Precision: 4, Scale: 2},
-				},
-				{
-					Name: "uuidField",
-					Type: arrow.BinaryTypes.String,
-				},
-				{
-					Name: "timemillis",
-					Type: arrow.FixedWidthTypes.Time32ms,
-				},
-				{
-					Name: "timemicros",
-					Type: arrow.FixedWidthTypes.Time64us,
-				},
-				{
-					Name: "timestampmillis",
-					Type: arrow.FixedWidthTypes.Timestamp_ms,
-				},
-				{
-					Name: "timestampmicros",
-					Type: arrow.FixedWidthTypes.Timestamp_us,
-				},
-				{
-					Name: "duration",
-					Type: arrow.FixedWidthTypes.MonthDayNanoInterval,
-				},
-				{
-					Name: "date",
-					Type: arrow.FixedWidthTypes.Date32,
-				},
-			},
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			want := arrow.NewSchema(test.arrowSchema, nil)
-
-			schema, err := hamba.ParseBytes([]byte(test.avroSchema))
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			r := new(OCFReader)
-			r.avroSchema = schema.String()
-			r.editAvroSchema(schemaEdit{method: "delete", path: "fields.0"})
-			schema, err = hamba.Parse(r.avroSchema)
-			if err != nil {
-				t.Fatalf("%v: could not parse modified avro schema", arrow.ErrInvalid)
-			}
-			got, err := ArrowSchemaFromAvro(schema)
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			if !(fmt.Sprintf("%+v", want.String()) == fmt.Sprintf("%+v", got.String())) {
-				t.Fatalf("got=%v,\n want=%v", got.String(), want.String())
-			} else {
-				t.Logf("schema.String() comparison passed")
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/reader_types.go b/go/arrow/avro/reader_types.go
deleted file mode 100644
index dab2b33dce601..0000000000000
--- a/go/arrow/avro/reader_types.go
+++ /dev/null
@@ -1,875 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math/big"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type dataLoader struct {
-	idx, depth int32
-	list       *fieldPos
-	item       *fieldPos
-	mapField   *fieldPos
-	mapKey     *fieldPos
-	mapValue   *fieldPos
-	fields     []*fieldPos
-	children   []*dataLoader
-}
-
-var (
-	ErrNullStructData = errors.New("null struct data")
-)
-
-func newDataLoader() *dataLoader { return &dataLoader{idx: 0, depth: 0} }
-
-// drawTree takes the tree of field builders produced by mapFieldBuilders()
-// and produces another tree structure and aggregates fields whose values can
-// be retrieved from a `map[string]any` into a slice of builders, and creates a hierarchy to
-// deal with nested types (lists and maps).
-func (d *dataLoader) drawTree(field *fieldPos) {
-	for _, f := range field.children() {
-		if f.isList || f.isMap {
-			if f.isList {
-				c := d.newListChild(f)
-				if !f.childrens[0].isList {
-					c.item = f.childrens[0]
-					c.drawTree(f.childrens[0])
-				} else {
-					c.drawTree(f.childrens[0].childrens[0])
-				}
-			}
-			if f.isMap {
-				c := d.newMapChild(f)
-				if !arrow.IsNested(f.childrens[1].builder.Type().ID()) {
-					c.mapKey = f.childrens[0]
-					c.mapValue = f.childrens[1]
-				} else {
-					c.mapKey = f.childrens[0]
-					m := c.newChild()
-					m.mapValue = f.childrens[1]
-					m.drawTree(f.childrens[1])
-				}
-			}
-		} else {
-			d.fields = append(d.fields, f)
-			if len(f.children()) > 0 {
-				d.drawTree(f)
-			}
-		}
-	}
-}
-
-// loadDatum loads decoded Avro data to the schema fields' builder functions.
-// Since array.StructBuilder.AppendNull() will recursively append null to all of the
-// struct's fields, in the case of nil being passed to a struct's builderFunc it will
-// return a ErrNullStructData error to signal that all its sub-fields can be skipped.
-func (d *dataLoader) loadDatum(data any) error {
-	if d.list == nil && d.mapField == nil {
-		if d.mapValue != nil {
-			d.mapValue.appendFunc(data)
-		}
-		var NullParent *fieldPos
-		for _, f := range d.fields {
-			if f.parent == NullParent {
-				continue
-			}
-			if d.mapValue == nil {
-				err := f.appendFunc(f.getValue(data))
-				if err != nil {
-					if err == ErrNullStructData {
-						NullParent = f
-						continue
-					}
-					return err
-				}
-			} else {
-				switch dt := data.(type) {
-				case nil:
-					err := f.appendFunc(dt)
-					if err != nil {
-						if err == ErrNullStructData {
-							NullParent = f
-							continue
-						}
-						return err
-					}
-				case []any:
-					if len(d.children) < 1 {
-						for _, e := range dt {
-							err := f.appendFunc(e)
-							if err != nil {
-								if err == ErrNullStructData {
-									NullParent = f
-									continue
-								}
-								return err
-							}
-						}
-					} else {
-						for _, e := range dt {
-							d.children[0].loadDatum(e)
-						}
-					}
-				case map[string]any:
-					err := f.appendFunc(f.getValue(dt))
-					if err != nil {
-						if err == ErrNullStructData {
-							NullParent = f
-							continue
-						}
-						return err
-					}
-				}
-
-			}
-		}
-		for _, c := range d.children {
-			if c.list != nil {
-				c.loadDatum(c.list.getValue(data))
-			}
-			if c.mapField != nil {
-				switch dt := data.(type) {
-				case nil:
-					c.loadDatum(dt)
-				case map[string]any:
-					c.loadDatum(c.mapField.getValue(dt))
-				default:
-					c.loadDatum(c.mapField.getValue(data))
-				}
-			}
-		}
-	} else {
-		if d.list != nil {
-			switch dt := data.(type) {
-			case nil:
-				d.list.appendFunc(dt)
-			case []any:
-				d.list.appendFunc(dt)
-				for _, e := range dt {
-					if d.item != nil {
-						d.item.appendFunc(e)
-					}
-					var NullParent *fieldPos
-					for _, f := range d.fields {
-						if f.parent == NullParent {
-							continue
-						}
-						err := f.appendFunc(f.getValue(e))
-						if err != nil {
-							if err == ErrNullStructData {
-								NullParent = f
-								continue
-							}
-							return err
-						}
-					}
-					for _, c := range d.children {
-						if c.list != nil {
-							c.loadDatum(c.list.getValue(e))
-						}
-						if c.mapField != nil {
-							c.loadDatum(c.mapField.getValue(e))
-						}
-					}
-				}
-			case map[string]any:
-				d.list.appendFunc(dt["array"])
-				for _, e := range dt["array"].([]any) {
-					if d.item != nil {
-						d.item.appendFunc(e)
-					}
-					var NullParent *fieldPos
-					for _, f := range d.fields {
-						if f.parent == NullParent {
-							continue
-						}
-						err := f.appendFunc(f.getValue(e))
-						if err != nil {
-							if err == ErrNullStructData {
-								NullParent = f
-								continue
-							}
-							return err
-						}
-					}
-					for _, c := range d.children {
-						c.loadDatum(c.list.getValue(e))
-					}
-				}
-			default:
-				d.list.appendFunc(data)
-				d.item.appendFunc(dt)
-			}
-		}
-		if d.mapField != nil {
-			switch dt := data.(type) {
-			case nil:
-				d.mapField.appendFunc(dt)
-			case map[string]any:
-
-				d.mapField.appendFunc(dt)
-				for k, v := range dt {
-					d.mapKey.appendFunc(k)
-					if d.mapValue != nil {
-						d.mapValue.appendFunc(v)
-					} else {
-						d.children[0].loadDatum(v)
-					}
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func (d *dataLoader) newChild() *dataLoader {
-	var child *dataLoader = &dataLoader{
-		depth: d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-func (d *dataLoader) newListChild(list *fieldPos) *dataLoader {
-	var child *dataLoader = &dataLoader{
-		list:  list,
-		item:  list.childrens[0],
-		depth: d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-func (d *dataLoader) newMapChild(mapField *fieldPos) *dataLoader {
-	var child *dataLoader = &dataLoader{
-		mapField: mapField,
-		depth:    d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-type fieldPos struct {
-	parent       *fieldPos
-	fieldName    string
-	builder      array.Builder
-	path         []string
-	isList       bool
-	isItem       bool
-	isStruct     bool
-	isMap        bool
-	typeName     string
-	appendFunc   func(val interface{}) error
-	metadatas    arrow.Metadata
-	childrens    []*fieldPos
-	index, depth int32
-}
-
-func newFieldPos() *fieldPos { return &fieldPos{index: -1} }
-
-func (f *fieldPos) children() []*fieldPos { return f.childrens }
-
-func (f *fieldPos) newChild(childName string, childBuilder array.Builder, meta arrow.Metadata) *fieldPos {
-	var child fieldPos = fieldPos{
-		parent:    f,
-		fieldName: childName,
-		builder:   childBuilder,
-		metadatas: meta,
-		index:     int32(len(f.childrens)),
-		depth:     f.depth + 1,
-	}
-	if f.isList {
-		child.isItem = true
-	}
-	child.path = child.buildNamePath()
-	f.childrens = append(f.childrens, &child)
-	return &child
-}
-
-func (f *fieldPos) buildNamePath() []string {
-	var path []string
-	var listPath []string
-	cur := f
-	for i := f.depth - 1; i >= 0; i-- {
-		if cur.typeName == "" {
-			path = append([]string{cur.fieldName}, path...)
-		} else {
-			path = append([]string{cur.fieldName, cur.typeName}, path...)
-		}
-		if !cur.parent.isMap {
-			cur = cur.parent
-		}
-	}
-	if f.parent.parent != nil && f.parent.parent.isList {
-		for i := len(path) - 1; i >= 0; i-- {
-			if path[i] != "item" {
-				listPath = append([]string{path[i]}, listPath...)
-			} else {
-				return listPath
-			}
-		}
-	}
-	if f.parent != nil && f.parent.fieldName == "value" {
-		for i := len(path) - 1; i >= 0; i-- {
-			if path[i] != "value" {
-				listPath = append([]string{path[i]}, listPath...)
-			} else {
-				return listPath
-			}
-		}
-	}
-	return path
-}
-
-// NamePath returns a slice of keys making up the path to the field
-func (f *fieldPos) namePath() []string { return f.path }
-
-// GetValue retrieves the value from the map[string]any
-// by following the field's key path
-func (f *fieldPos) getValue(m any) any {
-	if _, ok := m.(map[string]any); !ok {
-		return m
-	}
-	for _, key := range f.namePath() {
-		valueMap, ok := m.(map[string]any)
-		if !ok {
-			if key == "item" {
-				return m
-			}
-			return nil
-		}
-		m, ok = valueMap[key]
-		if !ok {
-			return nil
-		}
-	}
-	return m
-}
-
-// Avro data is loaded to Arrow arrays using the following type mapping:
-//
-//	Avro					Go    			Arrow
-//	null					nil				Null
-//	boolean					bool			Boolean
-//	bytes					[]byte			Binary
-//	float					float32			Float32
-//	double					float64			Float64
-//	long					int64			Int64
-//	int						int32  			Int32
-//	string					string			String
-//	array					[]interface{}	List
-//	enum					string			Dictionary
-//	fixed					[]byte			FixedSizeBinary
-//	map and record	map[string]any	Struct
-//
-// mapFieldBuilders builds a tree of field builders matching the Arrow schema
-func mapFieldBuilders(b array.Builder, field arrow.Field, parent *fieldPos) {
-	f := parent.newChild(field.Name, b, field.Metadata)
-	switch bt := b.(type) {
-	case *array.BinaryBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendBinaryData(bt, data)
-			return nil
-		}
-	case *array.BinaryDictionaryBuilder:
-		// has metadata for Avro enum symbols
-		f.appendFunc = func(data interface{}) error {
-			appendBinaryDictData(bt, data)
-			return nil
-		}
-		// add Avro enum symbols to builder
-		sb := array.NewStringBuilder(memory.DefaultAllocator)
-		for _, v := range field.Metadata.Values() {
-			sb.Append(v)
-		}
-		sa := sb.NewStringArray()
-		bt.InsertStringDictValues(sa)
-	case *array.BooleanBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendBoolData(bt, data)
-			return nil
-		}
-	case *array.Date32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendDate32Data(bt, data)
-			return nil
-		}
-	case *array.Decimal128Builder:
-		f.appendFunc = func(data interface{}) error {
-			err := appendDecimal128Data(bt, data)
-			if err != nil {
-				return err
-			}
-			return nil
-		}
-	case *array.Decimal256Builder:
-		f.appendFunc = func(data interface{}) error {
-			err := appendDecimal256Data(bt, data)
-			if err != nil {
-				return err
-			}
-			return nil
-		}
-	case *extensions.UUIDBuilder:
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case string:
-				err := bt.AppendValueFromString(dt)
-				if err != nil {
-					return err
-				}
-			case []byte:
-				err := bt.AppendValueFromString(string(dt))
-				if err != nil {
-					return err
-				}
-			}
-			return nil
-		}
-	case *array.FixedSizeBinaryBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendFixedSizeBinaryData(bt, data)
-			return nil
-		}
-	case *array.Float32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendFloat32Data(bt, data)
-			return nil
-		}
-	case *array.Float64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendFloat64Data(bt, data)
-			return nil
-		}
-	case *array.Int32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendInt32Data(bt, data)
-			return nil
-		}
-	case *array.Int64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendInt64Data(bt, data)
-			return nil
-		}
-	case *array.LargeListBuilder:
-		vb := bt.ValueBuilder()
-		f.isList = true
-		mapFieldBuilders(vb, field.Type.(*arrow.LargeListType).ElemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case []interface{}:
-				if len(dt) == 0 {
-					bt.AppendEmptyValue()
-				} else {
-					bt.Append(true)
-				}
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.ListBuilder:
-		vb := bt.ValueBuilder()
-		f.isList = true
-		mapFieldBuilders(vb, field.Type.(*arrow.ListType).ElemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case []interface{}:
-				if len(dt) == 0 {
-					bt.AppendEmptyValue()
-				} else {
-					bt.Append(true)
-				}
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.MapBuilder:
-		// has metadata for objects in values
-		f.isMap = true
-		kb := bt.KeyBuilder()
-		ib := bt.ItemBuilder()
-		mapFieldBuilders(kb, field.Type.(*arrow.MapType).KeyField(), f)
-		mapFieldBuilders(ib, field.Type.(*arrow.MapType).ItemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch data.(type) {
-			case nil:
-				bt.AppendNull()
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.MonthDayNanoIntervalBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendDurationData(bt, data)
-			return nil
-		}
-	case *array.StringBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendStringData(bt, data)
-			return nil
-		}
-	case *array.StructBuilder:
-		// has metadata for Avro Union named types
-		f.typeName, _ = field.Metadata.GetValue("typeName")
-		f.isStruct = true
-		// create children
-		for i, p := range field.Type.(*arrow.StructType).Fields() {
-			mapFieldBuilders(bt.FieldBuilder(i), p, f)
-		}
-		f.appendFunc = func(data interface{}) error {
-			switch data.(type) {
-			case nil:
-				bt.AppendNull()
-				return ErrNullStructData
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.Time32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendTime32Data(bt, data)
-			return nil
-		}
-	case *array.Time64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendTime64Data(bt, data)
-			return nil
-		}
-	case *array.TimestampBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendTimestampData(bt, data)
-			return nil
-		}
-	}
-}
-
-func appendBinaryData(b *array.BinaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case map[string]any:
-		switch ct := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		default:
-			b.Append(ct.([]byte))
-		}
-	default:
-		b.Append(fmt.Append([]byte{}, data))
-	}
-}
-
-func appendBinaryDictData(b *array.BinaryDictionaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.AppendString(dt)
-	case map[string]any:
-		switch v := dt["string"].(type) {
-		case nil:
-			b.AppendNull()
-		case string:
-			b.AppendString(v)
-		}
-	}
-}
-
-func appendBoolData(b *array.BooleanBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case bool:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["boolean"].(type) {
-		case nil:
-			b.AppendNull()
-		case bool:
-			b.Append(v)
-		}
-	}
-}
-
-func appendDate32Data(b *array.Date32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int32:
-		b.Append(arrow.Date32(dt))
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int32:
-			b.Append(arrow.Date32(v))
-		}
-	}
-}
-
-func appendDecimal128Data(b *array.Decimal128Builder, data interface{}) error {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		buf := bytes.NewBuffer(dt)
-		if len(dt) <= 38 {
-			var intData int64
-			err := binary.Read(buf, binary.BigEndian, &intData)
-			if err != nil {
-				return err
-			}
-			b.Append(decimal128.FromI64(intData))
-		} else {
-			var bigIntData big.Int
-			b.Append(decimal128.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-		}
-	case map[string]any:
-		buf := bytes.NewBuffer(dt["bytes"].([]byte))
-		if len(dt["bytes"].([]byte)) <= 38 {
-			var intData int64
-			err := binary.Read(buf, binary.BigEndian, &intData)
-			if err != nil {
-				return err
-			}
-			b.Append(decimal128.FromI64(intData))
-		} else {
-			var bigIntData big.Int
-			b.Append(decimal128.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-		}
-	}
-	return nil
-}
-
-func appendDecimal256Data(b *array.Decimal256Builder, data interface{}) error {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		var bigIntData big.Int
-		buf := bytes.NewBuffer(dt)
-		b.Append(decimal256.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-	case map[string]any:
-		var bigIntData big.Int
-		buf := bytes.NewBuffer(dt["bytes"].([]byte))
-		b.Append(decimal256.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-	}
-	return nil
-}
-
-// Avro duration logical type annotates Avro fixed type of size 12, which stores three little-endian
-// unsigned integers that represent durations at different granularities of time. The first stores
-// a number in months, the second stores a number in days, and the third stores a number in milliseconds.
-func appendDurationData(b *array.MonthDayNanoIntervalBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		dur := new(arrow.MonthDayNanoInterval)
-		dur.Months = int32(binary.LittleEndian.Uint16(dt[:3]))
-		dur.Days = int32(binary.LittleEndian.Uint16(dt[4:7]))
-		dur.Nanoseconds = int64(binary.LittleEndian.Uint32(dt[8:]) * 1000000)
-		b.Append(*dur)
-	case map[string]any:
-		switch dtb := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		case []byte:
-			dur := new(arrow.MonthDayNanoInterval)
-			dur.Months = int32(binary.LittleEndian.Uint16(dtb[:3]))
-			dur.Days = int32(binary.LittleEndian.Uint16(dtb[4:7]))
-			dur.Nanoseconds = int64(binary.LittleEndian.Uint32(dtb[8:]) * 1000000)
-			b.Append(*dur)
-		}
-	}
-}
-
-func appendFixedSizeBinaryData(b *array.FixedSizeBinaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		case []byte:
-			b.Append(v)
-		}
-	}
-}
-
-func appendFloat32Data(b *array.Float32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case float32:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["float"].(type) {
-		case nil:
-			b.AppendNull()
-		case float32:
-			b.Append(v)
-		}
-	}
-}
-
-func appendFloat64Data(b *array.Float64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case float64:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["double"].(type) {
-		case nil:
-			b.AppendNull()
-		case float64:
-			b.Append(v)
-		}
-	}
-}
-
-func appendInt32Data(b *array.Int32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int:
-		b.Append(int32(dt))
-	case int32:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int:
-			b.Append(int32(v))
-		case int32:
-			b.Append(v)
-		}
-	}
-}
-
-func appendInt64Data(b *array.Int64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int:
-		b.Append(int64(dt))
-	case int64:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int:
-			b.Append(int64(v))
-		case int64:
-			b.Append(v)
-		}
-	}
-}
-
-func appendStringData(b *array.StringBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["string"].(type) {
-		case nil:
-			b.AppendNull()
-		case string:
-			b.Append(v)
-		}
-	default:
-		b.Append(fmt.Sprint(data))
-	}
-}
-
-func appendTime32Data(b *array.Time32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int32:
-		b.Append(arrow.Time32(dt))
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int32:
-			b.Append(arrow.Time32(v))
-		}
-	}
-}
-
-func appendTime64Data(b *array.Time64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int64:
-		b.Append(arrow.Time64(dt))
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int64:
-			b.Append(arrow.Time64(v))
-		}
-	}
-}
-
-func appendTimestampData(b *array.TimestampBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int64:
-		b.Append(arrow.Timestamp(dt))
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int64:
-			b.Append(arrow.Timestamp(v))
-		}
-	}
-}
diff --git a/go/arrow/avro/schema.go b/go/arrow/avro/schema.go
deleted file mode 100644
index a6de3718d3ccf..0000000000000
--- a/go/arrow/avro/schema.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package avro reads Avro OCF files and presents the extracted data as records
-package avro
-
-import (
-	"fmt"
-	"math"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	avro "github.com/hamba/avro/v2"
-)
-
-type schemaNode struct {
-	name         string
-	parent       *schemaNode
-	schema       avro.Schema
-	union        bool
-	nullable     bool
-	childrens    []*schemaNode
-	arrowField   arrow.Field
-	schemaCache  *avro.SchemaCache
-	index, depth int32
-}
-
-func newSchemaNode() *schemaNode {
-	var schemaCache avro.SchemaCache
-	return &schemaNode{name: "", index: -1, schemaCache: &schemaCache}
-}
-
-func (node *schemaNode) schemaPath() string {
-	var path string
-	n := node
-	for n.parent != nil {
-		path = "." + n.name + path
-		n = n.parent
-	}
-	return path
-}
-
-func (node *schemaNode) newChild(n string, s avro.Schema) *schemaNode {
-	child := &schemaNode{
-		name:        n,
-		parent:      node,
-		schema:      s,
-		schemaCache: node.schemaCache,
-		index:       int32(len(node.childrens)),
-		depth:       node.depth + 1,
-	}
-	node.childrens = append(node.childrens, child)
-	return child
-}
-func (node *schemaNode) children() []*schemaNode { return node.childrens }
-
-// func (node *schemaNode) nodeName() string { return node.name }
-
-// ArrowSchemaFromAvro returns a new Arrow schema from an Avro schema
-func ArrowSchemaFromAvro(schema avro.Schema) (s *arrow.Schema, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			s = nil
-			err = utils.FormatRecoveredError("invalid avro schema", r)
-		}
-	}()
-	n := newSchemaNode()
-	n.schema = schema
-	c := n.newChild(n.schema.(avro.NamedSchema).Name(), n.schema)
-	arrowSchemafromAvro(c)
-	var fields []arrow.Field
-	for _, g := range c.children() {
-		fields = append(fields, g.arrowField)
-	}
-	s = arrow.NewSchema(fields, nil)
-	return s, nil
-}
-
-func arrowSchemafromAvro(n *schemaNode) {
-	if ns, ok := n.schema.(avro.NamedSchema); ok {
-		n.schemaCache.Add(ns.Name(), ns)
-	}
-	switch st := n.schema.Type(); st {
-	case "record":
-		iterateFields(n)
-	case "enum":
-		n.schemaCache.Add(n.schema.(avro.NamedSchema).Name(), n.schema.(*avro.EnumSchema))
-		symbols := make(map[string]string)
-		for index, symbol := range n.schema.(avro.PropertySchema).(*avro.EnumSchema).Symbols() {
-			k := strconv.FormatInt(int64(index), 10)
-			symbols[k] = symbol
-		}
-		var dt arrow.DictionaryType = arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: arrow.BinaryTypes.String, Ordered: false}
-		sl := int64(len(symbols))
-		switch {
-		case sl <= math.MaxUint8:
-			dt.IndexType = arrow.PrimitiveTypes.Uint8
-		case sl > math.MaxUint8 && sl <= math.MaxUint16:
-			dt.IndexType = arrow.PrimitiveTypes.Uint16
-		case sl > math.MaxUint16 && sl <= math.MaxUint32:
-			dt.IndexType = arrow.PrimitiveTypes.Uint32
-		}
-		n.arrowField = buildArrowField(n, &dt, arrow.MetadataFrom(symbols))
-	case "array":
-		// logical items type
-		c := n.newChild(n.name, n.schema.(*avro.ArraySchema).Items())
-		if isLogicalSchemaType(n.schema.(*avro.ArraySchema).Items()) {
-			avroLogicalToArrowField(c)
-		} else {
-			arrowSchemafromAvro(c)
-		}
-		switch c.arrowField.Nullable {
-		case true:
-			n.arrowField = arrow.Field{Name: n.name, Type: arrow.ListOfField(c.arrowField), Metadata: c.arrowField.Metadata}
-		case false:
-			n.arrowField = arrow.Field{Name: n.name, Type: arrow.ListOfNonNullable(c.arrowField.Type), Metadata: c.arrowField.Metadata}
-		}
-	case "map":
-		n.schemaCache.Add(n.schema.(*avro.MapSchema).Values().(avro.NamedSchema).Name(), n.schema.(*avro.MapSchema).Values())
-		c := n.newChild(n.name, n.schema.(*avro.MapSchema).Values())
-		arrowSchemafromAvro(c)
-		n.arrowField = buildArrowField(n, arrow.MapOf(arrow.BinaryTypes.String, c.arrowField.Type), c.arrowField.Metadata)
-	case "union":
-		if n.schema.(*avro.UnionSchema).Nullable() {
-			if len(n.schema.(*avro.UnionSchema).Types()) > 1 {
-				n.schema = n.schema.(*avro.UnionSchema).Types()[1]
-				n.union = true
-				n.nullable = true
-				arrowSchemafromAvro(n)
-			}
-		}
-	// Avro "fixed" field type = Arrow FixedSize Primitive BinaryType
-	case "fixed":
-		n.schemaCache.Add(n.schema.(avro.NamedSchema).Name(), n.schema.(*avro.FixedSchema))
-		if isLogicalSchemaType(n.schema) {
-			avroLogicalToArrowField(n)
-		} else {
-			n.arrowField = buildArrowField(n, &arrow.FixedSizeBinaryType{ByteWidth: n.schema.(*avro.FixedSchema).Size()}, arrow.Metadata{})
-		}
-	case "string", "bytes", "int", "long":
-		if isLogicalSchemaType(n.schema) {
-			avroLogicalToArrowField(n)
-		} else {
-			n.arrowField = buildArrowField(n, avroPrimitiveToArrowType(string(st)), arrow.Metadata{})
-		}
-	case "float", "double", "boolean":
-		n.arrowField = arrow.Field{Name: n.name, Type: avroPrimitiveToArrowType(string(st)), Nullable: n.nullable}
-	case "<ref>":
-		refSchema := n.schemaCache.Get(string(n.schema.(*avro.RefSchema).Schema().Name()))
-		if refSchema == nil {
-			panic(fmt.Errorf("could not find schema for '%v' in schema cache - %v", n.schemaPath(), n.schema.(*avro.RefSchema).Schema().Name()))
-		}
-		n.schema = refSchema
-		arrowSchemafromAvro(n)
-	case "null":
-		n.schemaCache.Add(n.schema.(*avro.MapSchema).Values().(avro.NamedSchema).Name(), &avro.NullSchema{})
-		n.nullable = true
-		n.arrowField = buildArrowField(n, arrow.Null, arrow.Metadata{})
-	}
-}
-
-// iterate record Fields()
-func iterateFields(n *schemaNode) {
-	for _, f := range n.schema.(*avro.RecordSchema).Fields() {
-		switch ft := f.Type().(type) {
-		// Avro "array" field type
-		case *avro.ArraySchema:
-			n.schemaCache.Add(f.Name(), ft.Items())
-			// logical items type
-			c := n.newChild(f.Name(), ft.Items())
-			if isLogicalSchemaType(ft.Items()) {
-				avroLogicalToArrowField(c)
-			} else {
-				arrowSchemafromAvro(c)
-			}
-			switch c.arrowField.Nullable {
-			case true:
-				c.arrowField = arrow.Field{Name: c.name, Type: arrow.ListOfField(c.arrowField), Metadata: c.arrowField.Metadata}
-			case false:
-				c.arrowField = arrow.Field{Name: c.name, Type: arrow.ListOfNonNullable(c.arrowField.Type), Metadata: c.arrowField.Metadata}
-			}
-		// Avro "enum" field type = Arrow dictionary type
-		case *avro.EnumSchema:
-			n.schemaCache.Add(f.Type().(*avro.EnumSchema).Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			symbols := make(map[string]string)
-			for index, symbol := range ft.Symbols() {
-				k := strconv.FormatInt(int64(index), 10)
-				symbols[k] = symbol
-			}
-			var dt arrow.DictionaryType = arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: arrow.BinaryTypes.String, Ordered: false}
-			sl := len(symbols)
-			switch {
-			case sl <= math.MaxUint8:
-				dt.IndexType = arrow.PrimitiveTypes.Uint8
-			case sl > math.MaxUint8 && sl <= math.MaxUint16:
-				dt.IndexType = arrow.PrimitiveTypes.Uint16
-			case sl > math.MaxUint16 && sl <= math.MaxInt:
-				dt.IndexType = arrow.PrimitiveTypes.Uint32
-			}
-			c.arrowField = buildArrowField(c, &dt, arrow.MetadataFrom(symbols))
-		// Avro "fixed" field type = Arrow FixedSize Primitive BinaryType
-		case *avro.FixedSchema:
-			n.schemaCache.Add(f.Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			if isLogicalSchemaType(f.Type()) {
-				avroLogicalToArrowField(c)
-			} else {
-				arrowSchemafromAvro(c)
-			}
-		case *avro.RecordSchema:
-			n.schemaCache.Add(f.Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			iterateFields(c)
-			// Avro "map" field type - KVP with value of one type - keys are strings
-		case *avro.MapSchema:
-			n.schemaCache.Add(f.Name(), ft.Values())
-			c := n.newChild(f.Name(), ft.Values())
-			arrowSchemafromAvro(c)
-			c.arrowField = buildArrowField(c, arrow.MapOf(arrow.BinaryTypes.String, c.arrowField.Type), c.arrowField.Metadata)
-		case *avro.UnionSchema:
-			if ft.Nullable() {
-				if len(ft.Types()) > 1 {
-					n.schemaCache.Add(f.Name(), ft.Types()[1])
-					c := n.newChild(f.Name(), ft.Types()[1])
-					c.union = true
-					c.nullable = true
-					arrowSchemafromAvro(c)
-				}
-			}
-		default:
-			n.schemaCache.Add(f.Name(), f.Type())
-			if isLogicalSchemaType(f.Type()) {
-				c := n.newChild(f.Name(), f.Type())
-				avroLogicalToArrowField(c)
-			} else {
-				c := n.newChild(f.Name(), f.Type())
-				arrowSchemafromAvro(c)
-			}
-
-		}
-	}
-	var fields []arrow.Field
-	for _, child := range n.children() {
-		fields = append(fields, child.arrowField)
-	}
-
-	namedSchema, ok := isNamedSchema(n.schema)
-
-	var md arrow.Metadata
-	if ok && namedSchema != n.name+"_data" && n.union {
-		md = arrow.NewMetadata([]string{"typeName"}, []string{namedSchema})
-	}
-	n.arrowField = buildArrowField(n, arrow.StructOf(fields...), md)
-}
-
-func isLogicalSchemaType(s avro.Schema) bool {
-	lts, ok := s.(avro.LogicalTypeSchema)
-	if !ok {
-		return false
-	}
-	if lts.Logical() != nil {
-		return true
-	}
-	return false
-}
-
-func isNamedSchema(s avro.Schema) (string, bool) {
-	if ns, ok := s.(avro.NamedSchema); ok {
-		return ns.FullName(), ok
-	}
-	return "", false
-}
-
-func buildArrowField(n *schemaNode, t arrow.DataType, m arrow.Metadata) arrow.Field {
-	return arrow.Field{
-		Name:     n.name,
-		Type:     t,
-		Metadata: m,
-		Nullable: n.nullable,
-	}
-}
-
-// Avro primitive type.
-//
-// NOTE: Arrow Binary type is used as a catchall to avoid potential data loss.
-func avroPrimitiveToArrowType(avroFieldType string) arrow.DataType {
-	switch avroFieldType {
-	// int: 32-bit signed integer
-	case "int":
-		return arrow.PrimitiveTypes.Int32
-	// long: 64-bit signed integer
-	case "long":
-		return arrow.PrimitiveTypes.Int64
-	// float: single precision (32-bit) IEEE 754 floating-point number
-	case "float":
-		return arrow.PrimitiveTypes.Float32
-	// double: double precision (64-bit) IEEE 754 floating-point number
-	case "double":
-		return arrow.PrimitiveTypes.Float64
-	// bytes: sequence of 8-bit unsigned bytes
-	case "bytes":
-		return arrow.BinaryTypes.Binary
-	// boolean: a binary value
-	case "boolean":
-		return arrow.FixedWidthTypes.Boolean
-	// string: unicode character sequence
-	case "string":
-		return arrow.BinaryTypes.String
-	}
-	return nil
-}
-
-func avroLogicalToArrowField(n *schemaNode) {
-	var dt arrow.DataType
-	// Avro logical types
-	switch lt := n.schema.(avro.LogicalTypeSchema).Logical(); lt.Type() {
-	// The decimal logical type represents an arbitrary-precision signed decimal number of the form unscaled × 10-scale.
-	// A decimal logical type annotates Avro bytes or fixed types. The byte array must contain the two’s-complement
-	// representation of the unscaled integer value in big-endian byte order. The scale is fixed, and is specified
-	// using an attribute.
-	//
-	// The following attributes are supported:
-	// scale, a JSON integer representing the scale (optional). If not specified the scale is 0.
-	// precision, a JSON integer representing the (maximum) precision of decimals stored in this type (required).
-	case "decimal":
-		id := arrow.DECIMAL128
-		if lt.(*avro.DecimalLogicalSchema).Precision() > decimal128.MaxPrecision {
-			id = arrow.DECIMAL256
-		}
-		dt, _ = arrow.NewDecimalType(id, int32(lt.(*avro.DecimalLogicalSchema).Precision()), int32(lt.(*avro.DecimalLogicalSchema).Scale()))
-
-		// The uuid logical type represents a random generated universally unique identifier (UUID).
-		// A uuid logical type annotates an Avro string. The string has to conform with RFC-4122
-	case "uuid":
-		dt = extensions.NewUUIDType()
-
-	// The date logical type represents a date within the calendar, with no reference to a particular
-	// time zone or time of day.
-	// A date logical type annotates an Avro int, where the int stores the number of days from the unix epoch,
-	// 1 January 1970 (ISO calendar).
-	case "date":
-		dt = arrow.FixedWidthTypes.Date32
-
-	// The time-millis logical type represents a time of day, with no reference to a particular calendar,
-	// time zone or date, with a precision of one millisecond.
-	// A time-millis logical type annotates an Avro int, where the int stores the number of milliseconds
-	// after midnight, 00:00:00.000.
-	case "time-millis":
-		dt = arrow.FixedWidthTypes.Time32ms
-
-	// The time-micros logical type represents a time of day, with no reference to a particular calendar,
-	// time zone or date, with a precision of one microsecond.
-	// A time-micros logical type annotates an Avro long, where the long stores the number of microseconds
-	// after midnight, 00:00:00.000000.
-	case "time-micros":
-		dt = arrow.FixedWidthTypes.Time64us
-
-	// The timestamp-millis logical type represents an instant on the global timeline, independent of a
-	// particular time zone or calendar, with a precision of one millisecond. Please note that time zone
-	// information gets lost in this process. Upon reading a value back, we can only reconstruct the instant,
-	// but not the original representation. In practice, such timestamps are typically displayed to users in
-	// their local time zones, therefore they may be displayed differently depending on the execution environment.
-	// A timestamp-millis logical type annotates an Avro long, where the long stores the number of milliseconds
-	// from the unix epoch, 1 January 1970 00:00:00.000 UTC.
-	case "timestamp-millis":
-		dt = arrow.FixedWidthTypes.Timestamp_ms
-
-	// The timestamp-micros logical type represents an instant on the global timeline, independent of a
-	// particular time zone or calendar, with a precision of one microsecond. Please note that time zone
-	// information gets lost in this process. Upon reading a value back, we can only reconstruct the instant,
-	// but not the original representation. In practice, such timestamps are typically displayed to users
-	// in their local time zones, therefore they may be displayed differently depending on the execution environment.
-	// A timestamp-micros logical type annotates an Avro long, where the long stores the number of microseconds
-	// from the unix epoch, 1 January 1970 00:00:00.000000 UTC.
-	case "timestamp-micros":
-		dt = arrow.FixedWidthTypes.Timestamp_us
-
-	// The local-timestamp-millis logical type represents a timestamp in a local timezone, regardless of
-	// what specific time zone is considered local, with a precision of one millisecond.
-	// A local-timestamp-millis logical type annotates an Avro long, where the long stores the number of
-	// milliseconds, from 1 January 1970 00:00:00.000.
-	// Note: not implemented in hamba/avro
-	// case "local-timestamp-millis":
-	// 	dt = &arrow.TimestampType{Unit: arrow.Millisecond}
-
-	// The local-timestamp-micros logical type represents a timestamp in a local timezone, regardless of
-	// what specific time zone is considered local, with a precision of one microsecond.
-	// A local-timestamp-micros logical type annotates an Avro long, where the long stores the number of
-	// microseconds, from 1 January 1970 00:00:00.000000.
-	// case "local-timestamp-micros":
-	// Note: not implemented in hamba/avro
-	// 	dt = &arrow.TimestampType{Unit: arrow.Microsecond}
-
-	// The duration logical type represents an amount of time defined by a number of months, days and milliseconds.
-	// This is not equivalent to a number of milliseconds, because, depending on the moment in time from which the
-	// duration is measured, the number of days in the month and number of milliseconds in a day may differ. Other
-	// standard periods such as years, quarters, hours and minutes can be expressed through these basic periods.
-
-	// A duration logical type annotates Avro fixed type of size 12, which stores three little-endian unsigned integers
-	// that represent durations at different granularities of time. The first stores a number in months, the second
-	// stores a number in days, and the third stores a number in milliseconds.
-	case "duration":
-		dt = arrow.FixedWidthTypes.MonthDayNanoInterval
-	}
-	n.arrowField = buildArrowField(n, dt, arrow.Metadata{})
-}
diff --git a/go/arrow/avro/schema_test.go b/go/arrow/avro/schema_test.go
deleted file mode 100644
index 395abcb694d84..0000000000000
--- a/go/arrow/avro/schema_test.go
+++ /dev/null
@@ -1,362 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	hamba "github.com/hamba/avro/v2"
-)
-
-func TestSchemaStringEqual(t *testing.T) {
-	tests := []struct {
-		avroSchema  string
-		arrowSchema []arrow.Field
-	}{
-		{
-			avroSchema: `{
-				"fields": [
-					{
-						"name": "inheritNull",
-						"type": {
-							"name": "Simple",
-							"symbols": [
-								"a",
-								"b"
-							],
-							"type": "enum"
-						}
-					},
-					{
-						"name": "explicitNamespace",
-						"type": {
-							"name": "test",
-							"namespace": "org.hamba.avro",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "fullName",
-						"type": {
-							"type": "record",
-							"name": "fullName_data",
-							"namespace": "ignored",
-							"doc": "A name attribute with a fullname, so the namespace attribute is ignored. The fullname is 'a.full.Name', and the namespace is 'a.full'.",
-							"fields": [{
-									"name": "inheritNamespace",
-									"type": {
-										"type": "enum",
-										"name": "Understanding",
-										"doc": "A simple name (attribute) and no namespace attribute: inherit the namespace of the enclosing type 'a.full.Name'. The fullname is 'a.full.Understanding'.",
-										"symbols": ["d", "e"]
-									}
-								}, {
-									"name": "md5",
-									"type": {
-                                            "name": "md5_data",
-                                            "type": "fixed",
-									        "size": 16,
-									        "namespace": "ignored"
-                                    }
-								}
-							]
-						}
-					},
-					{
-						"name": "id",
-						"type": "int"
-					},
-					{
-						"name": "bigId",
-						"type": "long"
-					},
-					{
-						"name": "temperature",
-						"type": [
-							"null",
-							"float"
-						]
-					},
-					{
-						"name": "fraction",
-						"type": [
-							"null",
-							"double"
-						]
-					},
-					{
-						"name": "is_emergency",
-						"type": "boolean"
-					},
-					{
-						"name": "remote_ip",
-						"type": [
-							"null",
-							"bytes"
-						]
-					},
-					{
-						"name": "person",
-						"type": {
-							"fields": [
-								{
-									"name": "lastname",
-									"type": "string"
-								},
-								{
-									"name": "address",
-									"type": {
-										"fields": [
-											{
-												"name": "streetaddress",
-												"type": "string"
-											},
-											{
-												"name": "city",
-												"type": "string"
-											}
-										],
-										"name": "AddressUSRecord",
-										"type": "record"
-									}
-								},
-								{
-									"name": "mapfield",
-									"type": {
-										"default": {
-										},
-										"type": "map",
-										"values": "long"
-									}
-								},
-								{
-									"name": "arrayField",
-									"type": {
-										"default": [
-										],
-										"items": "string",
-										"type": "array"
-									}
-								}
-							],
-							"name": "person_data",
-							"type": "record"
-						}
-					},
-					{
-						"name": "decimalField",
-						"type": {
-							"logicalType": "decimal",
-							"precision": 4,
-							"scale": 2,
-							"type": "bytes"
-						}
-					},
-					{
-						"logicalType": "uuid",
-						"name": "uuidField",
-						"type": "string"
-					},
-					{
-						"name": "timemillis",
-						"type": {
-							"type": "int",
-							"logicalType": "time-millis"
-						}
-					},
-					{
-						"name": "timemicros",
-						"type": {
-								"type": "long",
-								"logicalType": "time-micros"
-						}
-					},
-					{
-						"name": "timestampmillis",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-millis"
-						}
-					},
-					{
-						"name": "timestampmicros",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-micros"
-						}
-					},
-					{
-						"name": "duration",
-						"type": {
-							"name": "duration",
-							"namespace": "whyowhy",
-							"logicalType": "duration",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "date",
-						"type": {
-							"logicalType": "date",
-							"type": "int"
-						}
-					}
-				],
-				"name": "Example",
-				"type": "record"
-			}`,
-			arrowSchema: []arrow.Field{
-				{
-					Name:     "inheritNull",
-					Type:     &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-					Metadata: arrow.MetadataFrom(map[string]string{"0": "a", "1": "b"}),
-				},
-				{
-					Name: "explicitNamespace",
-					Type: &arrow.FixedSizeBinaryType{ByteWidth: 12},
-				},
-				{
-					Name: "fullName",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "inheritNamespace",
-							Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-						},
-						arrow.Field{
-							Name: "md5",
-							Type: &arrow.FixedSizeBinaryType{ByteWidth: 16},
-						},
-					),
-				},
-				{
-					Name: "id",
-					Type: arrow.PrimitiveTypes.Int32,
-				},
-				{
-					Name: "bigId",
-					Type: arrow.PrimitiveTypes.Int64,
-				},
-				{
-					Name:     "temperature",
-					Type:     arrow.PrimitiveTypes.Float32,
-					Nullable: true,
-				},
-				{
-					Name:     "fraction",
-					Type:     arrow.PrimitiveTypes.Float64,
-					Nullable: true,
-				},
-				{
-					Name: "is_emergency",
-					Type: arrow.FixedWidthTypes.Boolean,
-				},
-				{
-					Name:     "remote_ip",
-					Type:     arrow.BinaryTypes.Binary,
-					Nullable: true,
-				},
-				{
-					Name: "person",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name:     "lastname",
-							Type:     arrow.BinaryTypes.String,
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "address",
-							Type: arrow.StructOf(
-								arrow.Field{
-									Name: "streetaddress",
-									Type: arrow.BinaryTypes.String,
-								},
-								arrow.Field{
-									Name: "city",
-									Type: arrow.BinaryTypes.String,
-								},
-							),
-						},
-						arrow.Field{
-							Name:     "mapfield",
-							Type:     arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int64),
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "arrayField",
-							Type: arrow.ListOfNonNullable(arrow.BinaryTypes.String),
-						},
-					),
-				},
-				{
-					Name: "decimalField",
-					Type: &arrow.Decimal128Type{Precision: 4, Scale: 2},
-				},
-				{
-					Name: "uuidField",
-					Type: arrow.BinaryTypes.String,
-				},
-				{
-					Name: "timemillis",
-					Type: arrow.FixedWidthTypes.Time32ms,
-				},
-				{
-					Name: "timemicros",
-					Type: arrow.FixedWidthTypes.Time64us,
-				},
-				{
-					Name: "timestampmillis",
-					Type: arrow.FixedWidthTypes.Timestamp_ms,
-				},
-				{
-					Name: "timestampmicros",
-					Type: arrow.FixedWidthTypes.Timestamp_us,
-				},
-				{
-					Name: "duration",
-					Type: arrow.FixedWidthTypes.MonthDayNanoInterval,
-				},
-				{
-					Name: "date",
-					Type: arrow.FixedWidthTypes.Date32,
-				},
-			},
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			want := arrow.NewSchema(test.arrowSchema, nil)
-			schema, err := hamba.ParseBytes([]byte(test.avroSchema))
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			got, err := ArrowSchemaFromAvro(schema)
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			if !(fmt.Sprintf("%+v", want.String()) == fmt.Sprintf("%+v", got.String())) {
-				t.Fatalf("got=%v,\n want=%v", got.String(), want.String())
-			} else {
-				t.Logf("schema.String() comparison passed")
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/testdata/arrayrecordmap.avro b/go/arrow/avro/testdata/arrayrecordmap.avro
deleted file mode 100644
index 84a8b59b427b5597866fb1df8dd2e805df722386..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 582
zcmeZI%3@?b#V(duR+O(-oSc!Go7l%*t(2FTo2q1`lwXvtmywv8l&A-h&&(~zNmbHO
zDyb|0Nf)Ii=NF{_`DvM{IVr_TR?%>siA6<;m2j2SFdZ=A%#zexpnAA+G>gE>;HDE{
z8{8(P%)An%S{=B-NpKllZcr*NDay=CSE@zQm77?AsShGpmY7qTN}SV?O~Dsdd8N5Y
zsYP%L(Y*kU3s{&F_C;)MZ7l?gfFmtAKP5GpBd;_khao>y>(M5Q>$5qRCvShebea!S
w9%Dubvlv%WVsd^SM@fEKDFdU63{v0&eQ@jlA`WH=uB_C&yh;ekz<^;80Ap0g=>Px#

diff --git a/go/arrow/avro/testdata/githubsamplecommits.avro b/go/arrow/avro/testdata/githubsamplecommits.avro
deleted file mode 100644
index f16d17d29e991f540ad18946375e5ed19c70f8c0..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 95131
zcmeFadwg7Fx%R(iI#VXo$!ao9Lt4_X(xyj}$vVxNS+UlpCtB<wv<12gw5($@G?@uA
zleR&s6ev)(0-{vTQciLb5fKqZC}&ZQD!AForkn)C8r;~e=#KCANddRA_q$*9^ZV~7
z6`RA%thJu!x$o<~uIs*C<(?dgH8@+!rHohd120u6Is*ekjicYGc)dZt^Y*k)O|1?M
z1XH`FmIJR;_NTT_Ejs<;>(!-Fm9N4=(C1gCb{+qz4}Rd4`uhvwM+aYc{M6!LUmssq
zs^vm))6^5&r}{zY4E9y0c8Q;CZ~yR>)p8L0J+B*Z%0cnZpZMV=JLR%7#2Xf>K|h!H
z!4+)(FCXa)R(nh3k9_EdZ}As*T^Vq^(MNIc*57{+-5<QgM<2!LZ~Pq(f+t@PkL+)M
zf`$HIV<qrD`r5wI|MKil-B=34O7Q2$_~F9+Z!h(o>PMID!zVcU>h`I9rA-CT>05hn
zGgZ0HO4aEf=;$wa<x*wp_K$3f6F>T`Kkt--d#oD#V=K3Cbf+GCm;Zn9*x4T}`Tw_z
zR~d9q4!r+nqy6s@f?ZQ_HhpxreQ>ltvWxz_WvXS))PLD9AKv3%MTrl;|Nn6G*M9h(
zAKgBi0}*=u<`cZd=^OmJ?(c7m87FT4uVK(HgkeAsCA@ub%^yC8f8hBn`mb;M(MMG3
z^EdXBc|QEi5B49?;{P74iow>u^OfQ=2b^l}M?dp_-+kg!|K8V%&#m-2+TZ)RfA4F>
z=az$k(%<{Jf7@&Sr(LzNS{^KV<Ou;F{_0G)rBYwu6#s9)KwQMezdM;0K{o<<eB_h=
zrxibOyA=6W!?c|fpIehW*4gy#KYil5<{#e_IsNmI;iscLs_yuf<-3Mw2CCzQj%HYX
zkPCDxm*rokV{4(WW!-3xZ(2D&4`#6Koa$I+KJ-*Q%xZyY+FI6D^M>PEx^G8&tgNnD
zx}yhPmalWFYvyx->YG{34}9OuX?fLhtZY__M$>Bs1dgg4GZ5XN+qUVbLEZ{2!_Y0)
zHocHH)lAC|eO+_Ze9p?-x<9`^0OIvWf4KkQ-zKBOk?85qJ@MnazHwQcw|i@q)bQ-c
zvwT0YYIxl{55D~TxB33=$noxAq0jHAc;&)C^+aV^kpQ7|bT~!7Tq^j=K%Y|$OXYqg
z>~l6L?vOH24k{vmD5X$wluFg_E4Uq1r@SesMlXpRKeAGqv~pH5D)FDO(HG8%#bZrv
zgVjP`r8DD5s~e<qdrZf7-JGuKde-xEzNWjrW&~<J40Bn>%erCM`p{#!Y_!J>^G?p;
z!K+SA)pX17@>)*M@vL>z4?|D$JlzcatRzJrJ3AJQ#H4|mvl}W~3t@F*{Iks)D}w_A
zrE--Im8#Pxr7D?$p|`rE;bVFNS9R>bwDXSXS+?qCL(exf$21(zaP2UgwRG1p@+_^V
z>4B>Gx@(%cA(kMQHv`kjhG91E`uV)=u?;NW=Mo}MaseB{XQjF-n5PmSD{Y+e{RcE@
zcy*5&gshgGRjnYfoNVA^E#Gro9ekX30?o`?fo|A=8tpNC&$4XSGBwZD?Y!-~s#sY*
zD9oxk&+xbsP0I(}hc!hTLGgXT>}|tOOS~{^X-1YCGjloHaCFa8O(&N%O}2`v1x}#r
zZr*b8(Vm<g=JHxT?;ANyw^cuDxlZ1<oFE?tZr0QDnyK-tVqa^v!vYwV!F}_{eNzu}
zo|n_zTvpd~&&XzZE6-)OHgxv|+mtmF1ijG{9K*?K*-+O*C-96sUwC;}&G}hX3(c&X
z)s0XrbTEI&$&?49*S+xiPm|HR6VcPJx%ruM|K+pn){#|`wMv>hnN&p;qJ%`Zpd4-1
z$4iBirP#99u3i~z16B3~l}^{G6ub_vui$O&@JfS4U|#34q91I_^j7=(qF2q9ZshUs
zFmri7tDCN?WqngMse=seEN7~L?dR1%3$m(V>&td0r09Z)XStu2&YLFPyj5DnK8`kr
z9B$&*=FW29c-==2|7TXSIMRluYn*w{;K18jkat2Ymk)9($C4#8tSl?4I|L3d&koQW
z?w!N#_&RY!^?Xb9L(}zKFUa~{v?tU&PP0vjaa5Hf?-)b`%Og0LwwcpyKc{&n8=l8K
zV_|Q(P^p#%dO55Mdjmgk2BRBPwt#BeY7k@{N3{*Z(DH`LJ~e#RG_s)@`l{hu?)=al
z4HGwf;g3H_Mjss;J^h!jo^#2q|ICB`e|zIc{z<yA=lBI+ePy6jA!@AVu~e0nPPMQl
z;0xk>B~W_GB@Y}IU47LYY1!pcblK%ieSXQSbZ(5Cq*gk0Rm*m$*$!Rrn0|Y#qZr>D
z>nPXouYsD)iA=x$VqQ9(m9w<0!>LpGbv5URXQ(-v%Z-MfX}Wuj23yZ%U1NQBbS}@0
zbK-{q$JfwoqkDLGE{D}1db?I$&pEc5byS^4ZRiG%I3HT7nb&>d5NDGEVTrYLjGU3z
zJxg=+^mU2hvsL1gk>^qJ$-bS<X>K-e=e?X|h5<V&?;0EjUz~vjK~d@M8wko(LbgV5
z3$j^VH}m<xXZ5pM$Uj*_V~IF^mYvtLx%>xf@#O8FefHp5{M+ykU%hV^Yw?%wcTbO$
z`tdieeYU3O{(ElSzwdE=<ESNtZAv95ZwbmBm4Y8A92d?BSwjTpxfRyItImt|E;)au
zWG0jRc2H5KX@;H8EXzr$hhN(J>Wyxt>~*^3(pKK5bFk3qm-;(NAp@l%rFNxrd7-#D
z@Q)Q>^%yxwBr+#go-{;ABMv)ZKASg9E$8Oloacu*OEpAd@&dl^I8N4d0-|`{^bG>J
z?F4>~1V_NjnjAdU(Lxd=QP5xwjC^oYI{uJ!!j^}mV4!)?sujzM1B2Db-tVd6(=1+R
zo1v|V9c^iv9=dvH=kuP&E(jb$_wtTwWHsWTh;D|b1>_4e@Hn5Ul?xryGBnHfRa-YK
zm!BI`z9((i{XMB+)j+jSDn{-jP(R&cn^s^2ggN4ap5;)5Io3$GxkBH|s=BXo0a|Df
z8a*#dm<>J8S=dVgFgdn))v!2X#CKbB)sWlvq+Q#(7hHCM6k8K?fAi-1rAZpu$9DW&
zo|tRpeJ6BX-OA=Q@}Xwsv>b_u%OfP&E&*7}<~XmWqq|vt$2WLdsuMWA7P`LfIXOQd
z%=(@wvd?!Tu~VaCj-J=NHrPfw4xGpXj~mjg9w#)pdooZczmxENi=7v!p2ty8&Ct@-
zz|HZdhAZ!`oo{KXn)OW8bId@*X<yzxZkFwNM1ETjeAQVI^MWZ4NvCaD6pd}%n7%#9
zzb8I9`$VZDa%kk4k@;e+G?#M}c$S{yu^47H>)T{C_P-vgIoI`U+a(6&98RGIzG6*D
z5bPGsH9a%$a2WagkXKn&mgkXE&Gq)!;j{IeZCgf8z$J&JaCs$9-zO~O{hY1Yp5X^p
z&R}g!(jCXo${S|R@f`lg&lx;4-DBfqEmh6yDw|U0`KmlnFAqo~4!gQ%x};y5trLPU
z0+ryP5v?8dzZ~vo?Xjt+FM8_5o8D}A<JuqZ{O$!K_SnSZue?{=bNlCBe);XEFNjAM
zED5S!ufiTyic~#HpL1%VZ-^vTRt5(IiBgH4A3LK>T9i!ol!GmW(qN@;s9o7go{JpY
z5co>9H>g=BmE>Q@kz=0@INd{v*XtBF@gt`SyXFp7gA7Pb>E{QmbTwGq7xZ&p6;a={
zE6bGn&bmTXsg`O^oOHZ2D{{i3*~ErTPT418Rzz?pgpt-%IZ(Dn;x+SA6#!q&$M-eG
z3e}p6Q>9|x(4@`;duU=NR;Wa7Yc48oP$jYcsz!?L9JAvPX}z=X&E7;%uDq6LpkgTp
z{-7x>eCJR{zo%0gUec3u+|c7(dI7k{%7zYD+O%^HyUz~EwE>6HV8?^9!55n0vtd{a
zgTxqyItS1*tbDNN(PqsT$ISNDw~lGzEgg16_Z<V48@Pexx}gg`$%ZazIM7`3sv25m
zq_7+unYS$+gcn+Y5qRYMoO8!Zz5&QGLk<9dD+efWICz%o`1!ylh?_Y#Fm*@euRwE)
z4`xT$o^46*t*=Sl`R0Ys7g`%`{@zXJ{rf+Uw2n#K`1ozLJw10m_sBInfGox1oN`gw
z+Di&>Jo%Jy-E-B<K)EzfX;(6^Z9S2335A%tXhuy<EIROlEj13*NX?7A?oCp$d(+ZF
zrPN<45A+tiPOld{P9(qgx`qm<CRkY8^v!Euwx!`^J%oxdOK2f{<O#o251LOA05;Bf
zdNxq`Zq^T7&VZ561_VaU)Uyux(N{gg1f-bcBv76szgSxblC<=npDKlsr>)$W1`rfG
zXv#D1ES&hmXS34PoMT7Jsi5D`$>ptV02B>C!T>~-qeA3xfp@+Z$cvH}5`;Y0wh5T7
zmj|d4V?$1mspYk7Hfw|0{hXUwa7gT|i2Hr1ZfhCnx}#yqk%!bR7_3%H_H`qRrTF6B
z9wX4n6h!hcN3bJ40vA~|!!YGr>VN73J991pnXHn_l6E|5DA29#Smf_q=;j@RQY#2-
zK93k|utNxq-KPP}&v^C?DgCi=+51KoNs&c$Jtiny{`j~7Zp9~*<ZYV`m?Z&(Ht605
zG>5jD{%ph5gf4=$>T6z(J8@LD8&D$W<nviTIvWNsO9f#{lU{#rSEOrV&FHPX)I%Cn
z4OPqKEDKmd*0C&)Fk_JN2yB7LwsbfMq%5FJ$Q1;-ZJMDjFB{(z=6z6`XR(A70lH1L
z^YWR~#!2Ts`(&i$2g&R+BS%WLM~Ywz>de_eU|2zzbFCaJV%vE$oAYw6%?DC2WG$W#
zIEu}lGeL+sQle*CAQ)HATUriuAKC;waATM?vR9s*9vo+#9Mkt4GV36JzpMz2*D|M;
zbh1vo4G^01VyZb}y5XvZ<_6ujO0Ilds?YZw&Eup4v8)i}=~3vZszG^b`SM_DQK0h(
zERce2WKBvN$IN8n(zYc*toETLC&Z?f64|dDm?!x?p~WE$Y%8y3+2lm*AgifF5^vvd
zo+KR-7YsiKytXa*mc+SMjuj+B=fsk$wx7-UIn%dw%62k_MnNJCm8Ginf>irln;`s(
zo*)UoACLbyRY5k0*T`O-yu4=rT*(AN*nw}TB>S9crZ1R0JkQbC_-tm~61at1SE=O4
z&!HM*4IKy+dc+J1K%WaNk0@jVyB#WjE`s&QG>(-{?>cGBlINwayCV~Sn*HYfg;MQ8
zme1BfueJ*i(rt(2$nG^k55QG6H33sK*cwz%?03KczmjzbohsFYWq{~i(i=BTR^x*-
z-N|~!_I1)lFTW}&%L`$!aLDTmCjM$<xs+Kh<$EZ!bx?}OzRh~hzLDX1whI=~s9k_9
z<UpI$%>Ib>Pzi_B+*yNIsOCA!S(o!@fQvW+`8<Dvt_Yn>;*jTVmh|sL-#Z{3yIgun
z&>LCuXuzq}wa|9S&jbq2m(Mp$@jR%Ez|qvzx)C^e&(4ROyg)YUdiV%EFOq_0bECWm
zckE`=vC?_pdplCM0v)N4{%mq@cH(bFmP++YPXax#;*P27R*>g4zUx^abR)a>oi?I4
z^_?0xrhNVQs-1^l@C<H6Q$r#P<&hv+DEEk)d3i~Fo$GQ@nXw7U-0?;EmAYNq>()}j
zAJg)1L$P@j(hzhZcuWdJ7Fy$802W55vr?opl|2xKsulV?IcfwEZr!Y4YY2&sPBB6>
zGQz;HSz&5Un-jbKtF^=1JtBbtwF48vlH~22k<AAxd`Cc5;@ALNIHMM;PgJKiw{_B)
zmkWHLtqRIwL9!lH5>GtLQ%hz;avIm-5(_-4MoZ_3vZ2U!JZT%;&t~M<*+vjZ(F0G`
zrOx=xo@W}rTHCPeJ7@0r+^&(Y)-LIhV(rJv&o`w`RE`;tzf&hEj@F<Qoh{MKu}xCr
z=Gw*yjq)#(k{Ovdt8-(YGgKO+Oz<096OGp%#?w-INJG?Tc~{<5(?n7Vc~;K$(<qss
zR$u}&)*OmLpfAV_;6I1RQ?-4Et#yo0bGSVqsF%wN#=+KgJ#*$5X-0f^!mCsoR~%NC
zsqmL$CyG^Jd+J0n2Qcfoj!mg$XoPL5W+*n0Bd5YP*afT#-=%WU4fdy{0zYliSzvmE
ziNG~EMU<BwG}`)eqLP1E*QA$tiLU3gAk<YOFmk3%j)f}9c@*%v0p#E`Qj1$YnJ5c*
z_8oD1R0{H&$rEy*5Tb&W3v!S$IZh>L$j(XcnRSU9e*N1O=hXf3f#=Wu=Kgb{i_ekn
zoY<4N`O+8TJ<?GtO7g{%Qi3&=Tk0CmO`6M!)zYGpHz=T8wD+Q!l9X&Ye^QEFqAl2&
zmhy|I#N#PV&6w8@#5x9d-WlunPi>I~dOWU^&1A!v>0|-J15J??ARGK#`UFMt<#Wcx
zJfnM`d~C}}PGFH0Y%|CM_$>l8r&J|%=j2rrC0#a})^|qb@l%I~9FtWefK#}^<)}84
zqi1WR1Ba}i4=AYfgbwyEtC$N6-3iQm;Dx-#@*S8<+qBuZ90-l#1@v$F<j)WS#<Acw
zJl0&JGGH+X0z5+3Bl5VOPGx=Iu2|}gy-&Qn>#l|`-u};be(m!kcf}GTKlu^x>pvd*
z?JakFJ|11$6O_X)FfnCpHQhO}w*vYd=<rKhi%OxWEL*HVXex{SO+ob78``B^FV6V(
zVbb!wKVNo^d_`UQ?!y{~>eHoqX@&eHMLu!dRkOtYa(zFbdWZjot_rCIsk~G;M^Fg$
z1LaLXDW7*l2DiCY+s@`GMlEih;tFiy<RRls1ecIqK<;pyIYBc0z4Yqaq{T0$I;juR
zVWJtNw+hO@ksqi{_cw#{8hVV7ibno;a(J2PvXvklvhY3uB_U8Dt8xK=V;2Srb}5?;
zhy&niG6i9fvzPTODkxx5Xu>LU!JuSYs(t3DKThoU)Wj#6mpi8ptwn)vJ>#y<QEn_B
z!v0x+UuyRpWf->zrXnWUhR-2V2{uqFp;LRo-nXSiOXTR}TT{{^`SL@ha^&3e+oZWY
z@ED*cTkwM#bcdX5hMxtIXC0es<!s5vr>`a+0{2bd4d4I_cogba14PPg2}nY@EtuWV
z&B|``lpBspMrv<Zd}nujzkldjLLA(d4<E?^_e9~Kk|*TnX8aUx7DC-;Z(DF>WMsGm
zAb@GGk)X&)$`(nL%K(^YS@9u)?Qt?%>eI{Xq*dwT>h=32fQ`Z$QU^fQ$!{O#Lkj|M
z2)dNsAUBFl$b5)3&yjDLel=7qXP?Mn_*C*dByhOL_drtIG_lyrfg?3dI`+Y73a^C~
z&^S(CPqrCu9tzKfJeKvQ`~5r*+lMtIPLnz~r@#SL*9-ves>f0XR7Ye(INBV{Q<(0Z
zvXo@N!f?tcb%CTdn^V4I{8BjEkaK8}o3h|OP`<zajMnrSt*PBVedVQ_9&UK$ya(UC
z@4}IX<3#v&cTuT0llrh1-Y5O$<V2~sQ2zDw=8u0Wbowg6_C4QkDijOVg3~uSl}JRd
zi9TRTiDYt_d`^=B%~Y&9eSJgnfyoq*l}dW^VWLP3q-nBI)09zGmbNO@$b|NOhawoh
zX=|@jl`lW6!Rez?_2n}Us|!3RrTDFre|gyC4T%}`<3>I+=G4!ONn}~kE%geeJgSLf
zn)1c9P3${A2=ekP6EDoEeBaa@!Z{I!J;2i=v;uZv5VEWg>WRMhNX6mkL4O)%=Dhj?
ze@ufW=k~yTlln=vehy?{%WK-?uO_ONt%JM*u#+l?Se@f!0~z52DE%$@#zULK(1soG
zLiu0iW`Mf^kz~n{X)#q=fAN@02n%Qeuugf-zYSTD1Azc^$w`15n`27cP(At0`exz-
z@6QcRZ3IM-K+F(DgN>!hhfi9|nT2%Bvj?a;p~|=_svqaYbp#(OVIV|~=V21nL$E^L
zkZ+p(Se=h^$3d%!Zh%xHV31n5dSWlp$$)|O2%?}cgOUnz4lX*|vSQ|<KmOnsmnEZ5
z#iOV1-}ClYKL6`j6v4(?DdpEKEo|!T<G)qK@%@6VBw{T8&!#xD+Ny)qQkl)b<Namq
zx#(@3QY@L&=Se9AsihD!gymAdGMH{_cD6UpYEB5+K~CWMkl$))S{_tqR+Qd}UyfCK
zTdFPc>{Pz5Pz)4JRUGz4(AO9FctgLlIZ&$3{nVg=Q_iHH?3l5uMVgcT)3|uN{!8+I
zj$41IB=yLZaXn;R)uZ}{Akusw7$C_A_uVBqvNCxt;f5Fq;iy4L0xjh0WyPi%VNE<!
zK6N@sld3qM1D#t02YdY$(Yv!SvQ!u3DD)ioJB!i?@a~egK)Ra9gM!E)vOqRlx_nnt
zmDM6u65d5N({vb5KrR4-nu|Coe|v)DcVF79hbCyp3FQBnBxU7)sc*7X7;9ZiA2U5c
zNtZsgb$D*u8cOjB=d7r#aLSuq91qbAFks-{fE}(HVAL$kNC@a-gOG8-e1N0?%FjFc
zhDH0Iz5R#D=zWJoPyhAJm;U<Yv*Xc`b<&1)l4^DPzOoRXPY|r}<ZiV|S=i@5{Kz}g
ziRj&9Pi~QvWU{-WV5q9fzgN0f)FF8*Ui{+?&@U)v^4m&7p#pogRX%!7U8Ugm1>MIb
z2rAuu>7#0-<kWK$Qf0;c38y$T`Ci!!l}$kr-q}-*a<(|NSJs@=Rv98nY|A8*Yxiz$
zE)>1KK|iSIk4mwO5^ru30+|vND}!bE#Z>nXQ&3<2Yi6t*Jp9n&m!;(7s4BIm|2<Vl
zG%6|S=VwV3r;ZO(CO_H!{kwwR_<hbZnYoeri{e|_Lfjt8sOKZ%%L|TZK!;eo#+rUo
zS|5Lc5>n)4lr<$Jq<*J3=<u6c181}R_TjS%m1H?MWv~Es)p&@~L`4YCR*f`AHojv?
zW7EftQ-!2B>twF96UlRO{s^g*UNP?2MoHzAqUMBPA)WR9_~fNf*lqx-2l9jbE#y5-
zK7WErs3u}SxuSK2@|t==yMQ;E3qzsj_h|~)2`)2q+&P~Z*VKgRY_qdTJ|-0_6}x0g
zZNuX;Y!kLzh37z$({*&^eaqzbmP@Fxgb1hmpbsHW0=bcnZIU3UD@0y&Vc&B4J_th8
z2B9y7d#`PcNT<ptq?&{mqg?D<JZs5soBrt+_SvzF7eDm9Pe^iG=jogrkI)*xlR;7t
zc?fN`0g?gYLEqWh-peI5a=RoQb!+Al&E(1uB$1x86f&V|@K7wDQ%a;o5DzuNuA197
zM;>g4%0Mzfh9P@{XXH;ew!y(T1YXjfJbuP&zleFc$Y<r%+5lM$L_zsW84kA&9S-RW
z3#IB-Xv+1|M(&R7ygPN(6IVU4>+Xg}cYOVZFP+1;K7aR;b&}+#-<X<SGF{#^J-94|
zD%JbBsq?y~$#oMF(OV;rWW~l`I9LXBRpqZum#RCSPB@C2uAk9dQn3B?_YW<&FDcFI
zK6mjBIX`VrePd2uT-kTvj8*{%Lo5NLryx|(5#WhDI09%fgf^8$c5HMGGzN#7KqvlF
z6;hd@)kADL{Ep*stf8$z8H5(3EY~x)e>r_zd;F4#SI=u{j(l_HwUMu(cdY9nju;S8
z7AX$-IS(0`V^!o&cC-Z)8k*1n3^^g+NbvzY1WBPb0IK0U@&p;4nuR<OQmg~ILz0H6
zOU|oH{!Jqsk`Da5VWewjC@vHh`9jOW2Euh40f-&|uB)~@%Su6X<>bb3321u)>3ql`
zL}QN{n&oCM=HyRz#_UjDZxY^)HV05V@~W3b6(NM`ra`%B!23WF23cFap<a?kzHrE|
zzL2`&TaP|cFdDx1>YESz>C6#h%qa$|R=4gr7(w}jS+Vj^+M1C*b#@(~-BDgUdz782
zNlHa|W@Bt5LGEcvCNr7LU@@JToq{MInmSzD-0L7aI?C3@E80LH-9(Lc`LJ<K<djV-
zo&NNMMB`Pn>)U?yynfdqV3x4bIAeBmsaQcl4T`V5953XzIzttu4}n+dE0BxQwKF46
zNXdATe^(~UiG)y323wo91n~I11=&c*cPFHR+?17X7{~uwS-I`d^z#!^iXT*8ySJ$n
z5?q|V>E@(038hkyPn@%kI$7}uVZ{=k1C?JUW|C?nUzdNC;93Gg<+5VDkO~K@gX!iu
zF{MA<no4YSis|)pQdltt(zlG$#-z_qOz(>SZWcEYl#@Qu%iD2I`lsWhAbvsXgOQVB
zig)q#vB65~fYM7i8B(}0`O2C)?60Mc=^NyEiCCeSzC}wQ0i+*FG`?gkj<y~VOIBnn
z6?3ZTT{X%kB-|ptj&dX)c|GO^wb$198D&8rUp=QusSIw~6jbClQnU9ok-QNKgReG9
zZLeLn@2d1m6Ju_<aj(`j5Q{BZHKRK7{VED{ge*&p5_>-6NID>Sf(CSm18q$TC3XbV
z29{~)c^FX$F?Km&QHZ1n<v@IBD;seUSmT8Dy=~HxJrC9278@+ww0GX`CR{WfQwc0=
zE&vSMRQNDjSvYITcj_i~EAhq)G<h(s3V4vy@R<-;19`&uCJ+RQa890SDiq8iRS+Tl
z=Q5!vQ>v5lD{qvhu03>13qc=rX(C1hM(C>Yr-X<EAD%@hR#BzoueBsJg4)Hi+n^30
zIALZi`SQm3glOzKoLDMrUSfd&CpGw4gg!m<la|X$TH|H2_HIIa1mB!Kb1nKQAf7rW
zm*XtM8{l!tdy&tz<)M$EDGVdG=O?G*Ap-d!e^DUth!9&G-^f~_hC-6XVPMI(w`3kp
zrgx@KjHbWc)N)|rubyq9++2c>C-OZMnpjU>?$uP-KyY!+zygue<;SuLA(jf3hb5ms
zvj<8t0Bq|VXOIz6s}H)BPnn!DF^9;n$a68^P}=2HYCi}*NeX(MzSr(J`@2#)GdprG
zflTf3La=Tg85}o_+?+`fAzgW9HifR4lVh335Zd5f@(31L^mq$w?7+{!aC&(p9i$p;
zPpAP7&l3rl>&;1%zIRzobbrB|Wm51!6QP3m@-4c&XzmH52k5mBaX+9O_Q-;;kmN`C
zXK8s!%OW@__yisys)UaKspjOimNq9J5Hu}UlODKVYJ6mN>t`-|2c0(6qmsqnXiC{g
zrt)2l4ak%^-<Q9V0J~!JfZh(exkdSf<~~>}WLn5IE*(Y#>j25u(a~GjD*cli$i+cc
z&rF+{9^Z8Kyr^85#`QPlEO<iQkk9Ql0|VC&ytZ$lyy~(-{Du0kLNFwh(jhJFA!-lS
zA(%4smLsxFaD6amjyz*lJ1l5UgU-_ZP_oZT=cc9b?*}*CBP~4T+pQ%Sxdipn4r6$^
zX{tnUL=0q78)Fa{ms%5b*CLyE*i1~3PE6<*4F&-20Mm-;f;TB?xB+Tv_+~0}!**GP
z-O~I$w@upJ^{GQ5SDZanx}?V@1p$CyJm8&7;Vgn>L_Y`g<X~SB0$KA=4y>hc%LXJT
z45iLev2ks;b@5!s!WM>TN0|kGlG8GG#ii8~uj#t>knDn~ho){m0xcVZQ%>lymY$xY
z%l94b`!J%^_N=B4tTK3{y2EWi^~#@UKY{v;41|J&UJ#<=A%*LZG}(PO)lp65jE}!9
z`Q<w$8EeG7(vzk%zlRHkU@<V9p!7qE@A+ms<p2aTtiEpe^2F`|A3#T;=%K26Y7T-D
zvjJWw?u|_+Kh=p>2xA+{j_fr_>Xb*)-7SloSDqTtACc-7m&>Jc_FPDwr+bjp+?)`s
z1N0jWnh3cA2H%B(CxRh^V+}xp6#JKY#HC(zT{-o!wj7nEkL}D<<)7tK@MF33f<(g8
ztSL|L{K?9vrCD%bRR@FKQl}{AvlAa9xWsx?dAZgETEn(w%ZsKgMP!GCfh@>EbKqu!
zW|Ch&Ov=fBs%?Ngg*e)C*Z>r=fudmu4HiNh3sep+pOO?dQ5w26{YP!({gSj|>gHL}
z>K3bg;zQ_$v7S(VcD#H_+cwT3mIYW5R3)?+!jlaJgW>?VK~9i=lSrYLWaWnw4e<3~
zDEY^YODVW5*JEwq$SI-Nb3x_@9Xt2Sdc#dg`KJ@5W70QGi=A94H?!r)9r(JiFgPBi
zJ;WnYG0!hg1y7Zi!_fof7^L09^XP_%IaE$m&mr8}r#qHr$uRJuzQ>Nv302H@GaDj1
z--z!{|KSsZd+HW%8wk8_C(Bb&PS|k(8h91RO4E=lb58Q0-zh6y!6>;Dq=+>HL3|;|
z32pf-4h`0o(*3hg_h4dT4d+xxZy}Fic38cp=|_KT{`_CNPaEF*eB|MCBEv5tkl_77
z)B;cWFx<lO!26LdU6Kb<59O(l9fgAK^WGF97{=J%@JmEa<UQ;m7Ai`X3KnOjnN@M0
zLXo3Vh+=@EgSRA_;6LSggY;FPHaa*5C9h+5_=if<4?In~uYLW=gZ1gPKl|$51Lxpr
zI{3bnsSDOgPoE^p)KM2%4=ysranTZRkBJiQeLus(QQJdBP`GMFGoo)ry6-Wh3zJD!
zr_U)AD+;>#s1+3`sFd-am5NTEFbtNJNP3Z|YPX`x3m>hZH3GkW%Nv=4=G5px)9A?u
z9cjYG_JJi$@6gQ-08rrc!&UIw4*u#@JA%IWBbZ40{TFfvdD9$XH>HY~w*(DD1i<AP
z2$vB&9NY^L5b&S3<JY$R*+3XSL)Z~H0cf*A?IF`6ix9UgPCSkSu#c5zqf*h43L=H!
zyP#6h7P64dp(f0V1RAO+3JfP4RrX2!a9Suo2y=*m@DVPCTH+y?gM7*b3f{|wLB=@)
z1HtMxt_{j1<&&cpLSY-^w_uK-+;KOvJunTTWeBbbSqp<L)=+kbKEGNRwGF;7@^4Qc
zbQfRz_Dhfd>Rgufzj?!(kCrZc>GJ2FNk-p@Mo%BU;<azxfMxCcNcZX$U5a0=bSX~1
zVQkyh)jG0N>E}83Q=a#kiaQ7rcZRyJtZv0js!*6$%cVYrnstzcec#d>ePHa!QBv(u
zw?i=W!c^ea$8mGe3&Tnmd83V6HxCZ5aj>oM9z~pRO80%S?iG={+uBFPfd0~!;Fw=Z
z$?ku-@B{h+9=;$fmGBPAps>;@g)02P5OqSo()D90fuAQ*g{O%3#QbE9Dpez2a%Smg
zNGZWo)SMP6Dr*+5P`tj9w^=h%T$mR;((EUzC1tP@#Ah~9cj9OD<DHTI1O!;Tspexo
zE|D#;s%0vGHHA&Z!0&*#>2Qa-l#h=jl)36%tD<%DlF{g79c?ap>Ti0a2cC(>q~y+p
zJC3Y_$@K<zyt;GO+)f`Wkr#;Gx=y!H^mpu>+v$}1J4^k}Kxdzsscx$Z=iV{EY`m1Z
z4&E}6GlU-mdXfAA4g(_KSI^_5!beJEp@c&Rwp9~K8n%?0oRSj90f7~NpAVi00xzEz
z_Otu(ScEq}B&7z*UVr=%G64lM037IsRfjlZaV9t?pkZ<>#j~I)*^;=CLr^AIgNuUT
z66yfnXzB$xeUI7})s8rYc~YQ*+?2=amO5pxcX~;|k6Z0zBX#Z?Cv_~oprMlCi^63y
z#0L`*A;|*Ll`sc!17rhE0WL$T1lT{~w!q}5Q1JVRjX0HnURdv7->{=Wt(X{k+5C_v
zm;o`SO}Sa>+HkW}bM2{ziw__q8$b&pfMdf8=K{)Y(l@WeeS#*-DMDe)iw^*L;8dk9
z*SIT68r;VMUVybZx2EqnRPIm(tFMsi`r#`&y6=hUou69=DKq7Y)rU*lgg*rR3Dbm$
zPaUf(1v=$Az)A>HVfXF#qw(;ppeVTx0C|YiBvuJ@gm!~eFA_TRA>o}T;@ZBn@0-I;
zGo&s}NPeZ0AUC*;phT5qk+OiX_+q)ttT5JLZ?!_K`P?T^9TTQ-sk0pTbOP24D-3Q=
z7rPN82VU45AOU2FHzxF2e{dt|7po^eA$TG{U7!&hF~3kwXaP@<5CcjiKM|7-qz|ck
z`Sshro_sCc^z9oj*!i2^$3~8pQjb6N&F{RKRzCOGSDt--Bo^K9@T1MER&@6mT}scs
zDSOxM-9L+?DOwVQ-7PYyP4UYVu;u7uWA4$VC-y0vL5JW`4)zR71A8w_R7!o<k8io5
zrcJcMW)y^wK>ln^9TeYy)A;S0NNXExG%-KfvwFq8DSNUFoK1+s+AodF9eeQ4g1KX*
zvDa7kY?JaAkKO*s=7E00+_o*_A-!JR0|AKa4A%oV)Gb(KA1OaaA!pI)fbxV1Tv!FX
z9hpnqye+^3&|3u`Q#67N90xls_7Obc_++poSyJPqagocUuGN=GsdB%uEq?j?8!(IO
zSrC3m%Npn{FNzSrD@G`45ePfn?k1`Oxdy`xdUYP24aL>4@gj2-qBb#D0%QVqFb*Z{
z(^tppuaJ7TTp``qixPpKig!b33lTJ2U=J{w<3L@K5ApTk7ZS2Ue$U(+ks|STpgWL$
zFtO-R>?|wy4K+w@${k^qRz*Wdbjj7R;T;f@a8q1?Ag6>xifafn2)9hz0=*4zeSD%$
zR6xk2ga-*x@Cx^z3lK8FhCu-3iq{Eq8+*?ZHXsqA05%lifFdlR)G^{<g82nB=d4mW
zAq5^xesA3|E_Kaw_uRhg>bgs>+WnJz_Fo;_b#>zW=fC{9tCc@pdEu9yV5b!?F4pN3
zq+N|hQt29HYsv+G$7D$5ZNzB5u;p|A6sr!&+mf;9C70fKSC=#kYEg7Jkvj$&uTLs$
zF!r8XsHQ99ghaM65f1jHm&<7*(X8MDb(BSG<@OY;Qn><d8M!ca@XyH?#-yWG9vCBe
z(`#A_(#F<WV!>52rTekR5wmzi`7Bi|UKI8W-VQJ<l{)ou7S|dKt*B3^fMA)^KS&N>
zLZ^%~kxV(?R7B`Y9Az*+z$LtLtYodeRg%A+;v=?95s?kI9{vL1QA1;6jS#+F=ocJn
z#2!pGl(L5K-4Jeo-4q8Dp76f>wqSEzwg?P3kOn3OCQ|6vyDyQX-r^-v9otINca9xi
zMQo=^1|oal4Qv>ggov>$I%*!s#pcaj%xt*A33F^twg`SsVmeGZE;qzghds!?*PtE5
zwz@2KF6Eg(IHVb1u&%*}!hhrb5LTp7^<H!3b#()TNvI6r-yzdr&o>QD0X7jF2x_or
z@zaDTwwY*}fXG2+70xoYC>|fG9}A=x3V$LF8=u$)(~teZl1AQ4q|Q3~ktcRt)^yPY
zzx>?I=fnwJ(u-4<*QI`O&8y#%k(!rZdYO7e7xHNrG$6vLB99wqZWLw@WwaGEdQoim
zY)PI~gR3^!;WWV$7K6Z-PpyHmbo`y?U=-LS2+MNg?z&kAO~HlYmXfD0s(~~tdh*-p
zSbK7^H$Hw=WNjYEBdS2q%i7+-N_*{B<%h@DPOB57YDL~7w|RUjnjXT=$Rn|Xe-=Cv
zlcMRn6Y_TxlDcwoELHF`-pP~2o}gn5?+9CsMH1ahtTBZ&A~iM;N)ncux`YFVG@HkZ
z%Pt|*U_BDt4u=wwT(rkP{6hu6eR0?uADgh?uGB25Nq&s5i4gizIU#QN*u=YYA^=?+
z+#FphVyGEXIopl;36~qef}KLGgUCmb1T{`+Md8O%05BlWNVymZ@J7)ZfH@O~T!5L7
zUjyi1G@)c9pJ}cgh&rcbA)P8i${MuP!4OAav<x1Hs23(mUPIlFiAa=S)Q|XGPyhhJ
zaN#*?zR+JsU(<n~Ky=-m`{>Uvu8BS$i=O`KFMjm)b6<<m!qLM31Z72u`~%L$WJgOI
zWG6Z?CVQksItAeop#~9Lh{3Qel$!H<2mXim+fo4`Z0=G--Sj>ZR^-_emJSyC5Uu<0
zhZlqD)>3)1(knkY@wG>4)2T}I$CKZhClp)C>&X)u(shaRt5Q!UNtaFmdA>Jrwg`86
zsi^d1)3KSA$d&PX>er`0qYGOmHKZ?^kU%R5Mq)~5{N5CMx3BgW@qArIIj&rgk8Frl
zOSMxIoyDN$uvD_@Y;OGGgkFlT{;p(F;XmD(1(}7JMauH-1&fy_OXbW&Db~5N_Rv^z
z>&~m{+o8^%s_j@ZOVnn<OVF;Yj5kTew9&9gFyxrdw+4{WYKNh>C*?aD;(lbtj#CqB
z`knO08WP-b<W?AJ`S_Y9DC%V)m-xx$C3?{4KUF#no#dZH_8jbwv^KAVny&z_(;X8d
zM>X-7`kl(=$aC?!+KU=8%3_L)*1kH7?8$!FpIFE1-Jy7!)Q{z%xdIVT2n$}lE_KF_
zY#wk5<qYL$JlfQ$Dq9PEeKnuB=~Tbk3u?f{k9!+=+txFhmCtAywCKpqk&L9o`x_LR
z*1YQUS7Jf3`_tkHcTay%sx+QAar*6b%GCK&+vV>i%_2Q)1Wsk@*1(<G-a4ZWgkC5{
zel!35cB-I~Jg6g7TQf1I(i-18yMb`RZ`Z6!A$}C=pIR^tr&vunvbfIW2j$k2q~i4L
zbwgA=Ly@y1y^XI->=9yPP^CWManUX$B>bckFLa!A)KV$3I94e|^1RtGm8oY=ns}9z
zT-+7gQke6f<KspT{Rfm%E4mlb`h`86#s%6Drr$X6V{?%lDoL_V5j=LvU{L9vEcK)A
zkIsO|yw;siihZx0R+yIJ*OXdKe!fof;}7;XG_!P~bHSg!V&~y?Wnn>Bd_!x`DaPU_
zq_VtuQvH4*XjG)qin-k@8XS0nzP?>2)$vJ6HTW84wl^9tPCJjJmi4SzHT!y`;sa<L
z9qYBi;;vczPH(Bm>GRvWi&C-Xo5#FEIacA8`+}OKHPr;w-GT-we%ol%L*!`v%}6Xc
zaP*4C6^X?Y<ckhP6NzUd9a7NU(0WLGiriZpsa^J<)U)DHsUm;#u-3$q)1>(K(W%i{
zT6gI2NNN>}*FC@Wa7ocWCe^=^5Y0vBu6Ru<&;CwbI~TK6{*OfZ7fm(0WBpG2=ab7#
zD<aJ<%sFi!<@!5QPQP1-+*D&E%0Ykn@aEWHagsG}Yg5<A*g9n{q3OAivC_PG$4lRS
zgRcoFx4kzuF)taL_e@i4cVy%iY0529^sUzp=_*W;w(b7~_2PzmCPflbA}T*y6NxG9
zmB1S;7pg;VPO2Fj%k;WU5O#*Vq-FqPFaJ=G(7#C3#X;hcq#+ql1G4gzmUVeh7A9vD
z4|sVO%NP(4lZpIzYCgywGj0|MhL!=?-*C?BwNls0^QFW_$J^tejcpk%ny}4M8o_0N
zCc$&i&UjKO4Pl@Wi?Q;9jX`mwXjD(p21U$9Frw8A6@kKxHf$H3E1(Jy7#o&#$`z8i
zdb?EDSLx4qaDq*AEzoeF$^N9Zh%gYG*okT3rWK3?M%kB_&unP|D5E%7kvkRYBwRbV
zROM?Xm>A&6WiZ1U<_k+cc6<szt54ZYHry>qVQWV?nha?Y5cYRGNEAN!*}%aRv9ygr
z0s`0(g~6GD$6dG(HW)X6^$=|^{4^}kRfcUCuN{dhOMQTNlFzN*J#Ic_I2CIs1ZE?L
zCoX8+f&qZkK&gt)9)1s6-o{`l2d#-P$jQ~i+iBRP6`e;1dXIehTzF6rJJm!Up^0)1
z{~<nCDlQ%Kn;jaMZRMX#;D^X#<S_Ictl5sdyy=am?qZ?ulY{+EnP$@H2HfuO0y%7X
z9^Mm`%nl4gsHdfY-e{f)0s%U=EeIib*SO(TSAXfOvy#y-;wpOj+$%qS?W<(IW||>O
z^dK#yyQxwt@}>xMcsn62>3V1T*ffaHLG0rTfNa1UOqLfbF5Wb<cG0s}{Px^rbX)ZF
zcOHLv_Y<$jqQ|D+meVI4F5lRaTDPuCk*AGoe5ZNep-q9Zs;5V(${XZF^sz&3&Jg<2
zedA(_)=rwA{#8v)m{LL{;G@P#VeMuP?Js1Yc;jUg>c|a#AU`@G{fC;^swLk)&|V5R
z3fJ4l(!jvR_=OF#W|JHH<jb2{mW-Egt4Toc?7gjlh&eE*rY{<oAZN-?wd{RwUjsoD
zLqUa>N%^rUkw5T(g+BR$L`0K1<SD6ot?^?G@tw`QE+j5?MA{}l*c9oJpKq88XNgX{
zX^<9s_{xD&`ZI^e-)`7a>O;3qUpYzsMl${T@x%-L^_B!l|HPRwW$ryQqYLgBYfXzn
z4QY2xiyn2?Sn0F_d!$F+i*{W#Hg<Ys<i`Nw@68@F=c!53f~iAw`e$02vfDabQRu!f
z<@{+<a}R7e(pt{BWNv^#1GLOiSf~$rUOr~VC9vA`ZSZfZD)=3=LCA3gt*l_yT>w8P
zmNr;9n1sm*nFMy_-gBh+?sZZk*wP=r7B#512MY;RDD@dELOzT52^%5QAtx`tI<d_L
zBhsjgcqhLy<r458n~A8xhxk}p(0*y3#@a%cAQ6b38)AYct^CwveMv;xcG+Qv-;dS<
zloG8!uvL(vc?4wq&V;Kx(3A~^Ti&HjpEHQKhKXy(AKU3X39)0a%T!l>>2UNzt^sgI
zvvljc)r%)Cr903B-csjK?21-QqQy&-=5tK(a0B%5=)+z(q5NXw@M_VrW7D8Qp-G=B
zQG{MoT2!E3AY&kFHC;z;qTu0a(!hqXRJT#H5eB$TEL|ZKK6sVrM8Kh`6D+!aU;O%g
zb?3kP=p!}hGg=z%yL$hZ|M192cI@74-910O^2wUL*`+(LzVsVUJsyjm7ZD^#m(oAD
z?fad3vawRRadmynD_N&cPYv`Hs<P6;UQeZ(;Zz4Od0|;d0R=}U(>oDgnu2MpMvjRU
zH_6x4M%Kj4_C32($^a<iy2uw&VPVtY<SSbQd)X(SJ+W~i4#2G?%m!R}S+1rgUD<Me
zs_Q99nYD1$qQx6~x)-H)r&Gs$@|d1TtvWjcAq)RrC`0I{>ke-c+&#U?jo%TMCoeg?
zsk9Yj=a=NCQj(IsqJHvkCN`0jN<}}pBqzbvZw>|rGRcnDzVPsO6lcJ33*64o-t8$M
zq9U&xUsoLLcZ2jNYA4=@+hVZXT9<N5PFbEaJ5i`6<?8r4fZjmx{ogfUaadFGCg};X
zef`Pl^JeecTsJz!LjFQs-Kh1j^<f^IeA$fo@UzYqG3_EiRw#IdYW$Ovk2<U&NuB0x
z&iqM=^$)h5NlI4s{ir^`Y<PX0>`s64=P4e)ntoVmeK3L9JaTpV(nH0!I^&PTI_FM&
zF*Pq)2xr&D2FugG6>-6m{~?^R>6W_I_69&5mBI82(giu?6gO8Q_q4Aq6^CfsDf*kr
z!M?*2s;bG67C2D~RPdnArZnZ)q;<>^5Y5$8u&{rAFrV1b4}C1ZH!C(zk-ydu!H`+%
z>nm+-JvmnBmk*uUxO$G%)$xt`z0yW`W+GywFrHK+9g&Yse6sP~L=z4>G2=sieL|Dc
zM_t*MoP1VIYgXPcUVfxbZkW}O>`>?&k1tG>w`H}CSK>3I>Wl|w0-?7m-95`9nb@Mz
z^oCfa+IpsSsucO+sOf5YclwNaaP@L5H7%c<GVwYo8JWXPyMvp;#V;hPfzx>3c<tDy
z7eUpp7^LrUNSRA!Ku$&Q3v~_#g`&#@31}urB{UTp-9*MjqL|-!ak67&ET~LB45wV-
z0ZEa!H^9m7I8I(VwYxJhIMA2=ayrFFRh(1mPm6UIBkhkJ>G*{q(%W1@nrI2PXxa#Y
zGmP<o?!Y{rMP1?JDIlSoydaogP4|vl{TZpjP);qC`XgthlDuQ>xl1-o8o4APB`I)5
zu84MD5lgO37bXztFPz<RQR|ft?2e?83%#z!Kh-Ti&gtu~^if^Tby!9SIHHLB)l?I7
zFD?>8PPW#;YI`~P@tN&#qBtPt4{WVC#o&nek;C&p37ub5mKOSOE-G^&2Tj|>f93|b
zupmz%vnYPyunDk?A%IH7ex|weAtewLO4Z7cJoX5wGN~uO1{$DL=~dQHnH2grw;re?
zH2QgYXG_d6<eeQSK_X+>qstu%Ni?#EW@+#jCHsN+CGT}bV@Y}BmgN3hl9O*q&O1|z
zof{ch6760Ri}pS_DISZakJ%oJZri^-D!}IASW`5%(2JfGNk5kU&Fy^8f8@1je7iuW
zuSZWLk8j&QeN6nq*x8Z&Gsg7K5U*J`CjKeu)9<YtBffYj9+Oh(l?^geTh>h-S3Bp^
zGt=D(sbgQK)G?>G6PoIt3@Hq!y=P){IXXRnl1Y~X$W6HQ*(^Fl4aP|gC$!~9=A7U=
zx(e@r(*Q0O{6S9uvvv^k`&!#LM0g8P*1|at*Gl@zd&E(fv$IY<j2wpZ9`q!{RFE-H
zl-2?jG6Csa{+X$OT2byvo$@Va9fT7Z@vRwEmYMDWJ_eoD;kqyk=>&Va>u3ZB&i^7z
zSolS09ZVSJUixv7@R%(jdUV)`q5P@CQ>0=?mS*;VAh8z*06CljtUcG9)#YzbZGd%U
zf`t5yiHf1pUk!I)$Zc&>F7ric^;c#k2te`^ZSoBh*B=?FJ-mT#c$1X%TFrbhWrntQ
z$P=8T*Z{-U>zkqPF&4SD{L2Y9BDA1*h^`$n9=VjE33N|D#sUX{ihx`+9E3~YMfa(Z
zSh!u149Md6;eL<kriT+G2l{w6#i$bcNgOezrrRIwW26fl2@#nGt(@U2I4Y<U<jbec
z7j96DItUtAwRG6U)&r7##>i}O8<Q`cv*9~Z?cpcTUxF)1%z1EFT7+-Lp$J=;d}+rl
zcqf}_03I@xd{t(E;W%)4C_OybJWU_CDY$mLh!A>V>+c(c_+Z-`+}XpcfbYy|5|$t?
zo*r1xiRhnUH-LAU?2x4?5P$)Oz$?aJ0-idh2yRYnj=*|^9G4zIcx=Wq1fT_ZZT;0?
z4SHU5Xiy3$(dy2m50!ZYbQe=9;7Wj<gtJzq{r<$s@C@%Bc;?lb^qJ!u&ili|=Y8cT
zBWI46&m5mR{jA~N@=fLRi*7yZ!Jo&XbLG$IDa5U=bY`4nG@dg)v1y<nzdeqCT8X|e
zW=pHoc-2H%PBmD{kv+>+$!1IX?(qrOtn|Mdz<_5u(ps}rXuOCQkNhcl)Sr^Fmwe;M
zGI4=?vsri==MoZadVHv|kc*i{L<fwcQq75q$UujHn1|AJ{Q2bSa=NWGk@1|P?raz_
z8y+_s9{z)f2~SIrr(@BRpG`#ObWWeKGc$Eyf_%O#8FFodR6raVo(J%R9TY}+^le72
zK<J@SVe!K-Ct4GEx;!g(1Y{p$U(moop;%y0G+1FR{qQ6_&KySu2)Ou*@usZbGwC$?
zemK_@s(cIM1@D2IivkmSex5#UZ%6lB&(|<xvs&y7n__0~o1*W?$CxYno_$yDov;*V
zHr{P~UGTo5p9peW-X~5Pn*f%Po(kQSzcy(Wep#$p@ST=FQk)<cC&X@i_mp3z?)=eL
zc8&aUOyQTQH}3e?H+FqO`SII#z4&Fwz+<f+jFFBg{HnQsV6a{BD+9P`Q%YfrQ@AS;
zeSIti%dW9fafhBx)iqY?(ppFQKvS$|MdLr!NwezvrS{0l(rkItB>A+o+&D=-rCuKB
znB10bf<qB~%<>EMvZg?I?DQ#l(x<fwT4{B9iZb!uc+bSG>1sMw2<1oW69c6I`RGZp
zz#rKXJ8DZT)eZmCsEi-Eb&PZC&WB(4!??+j`dD)8yoYN??u$KnUreggnnoUu9e6l)
z{gD(HM@I<G*L<RO_L+p|#)oQR{-PUxXD7Iwv|&Ha01`=lMhrR=GaP7q$DLqBl51&K
zK+efxnIg#&L5Y`4%9(urxZ6T0!6SI!GO3o=%4eFFa7bZ>*&KOn#JCuV5BPXI5Aq!^
z9F4<hP_(f<ewmcuL5{v~9hxOU9-9O*0`@O{T^OKUc}jLJB{!Y$1W;;BI0m)$Qu*`a
zev>$4c(o6dXQMEYN(?bz)&%}ZN&+$1jl!NG0w|h93;I)$PchcxlF3n=i)LXOO_?l0
z)lYf^wX>7(C<dXlY}3h?Ns?K<=8)Q!UVIq19T5kx`8y$vz(N*=-$fabm#Z<|i5!-~
zg_V;B+M95yioSdKi&GPfDUvU>n|VYU3al-!OEox5oyof0z46@$fa=NxwbFoGm<kE8
zwnt2x!4U}$!wicM7n86)$^ET}d=5q+Y+i(5(VcK{$AF8#hp83@fr%*0-^d}h*tkJp
z1n_fqPfKx~?y-lb&TvjD|Ft2h>FJ9i=Uo(e_tq$t6dmA1FQh<WgU^df3*nsZWhx^v
zaDk3p(MARTj@X0}PP4e^AE1YgB8~|Im<<rU@y}C33D2yswqX`zDgj;o1~ffx6%rba
zI6j;SiJWY}<0pIOO{$~j)y~O`H!3@fnHq97M>nw4I-#D%NGdD95V9(*Jz|;%k)IA7
z6f6u3{)e`e=l0+5Zp|o3apv&n&VS`+|0qczDE|j`pL?K2uoO3a`HV-NBvcoL<wAsN
z<$aY}Q1$)&-UmJwg7WB47-3R@W2SQPN2S2%aP04VB`h)@AwF&NbIJi=9{Tv88-&i7
zfZiIRH401A=rv{DZ-5}|g9jOY;G>+w{|gZSuZYpXet;f5cyS*!rTpbGD0BbDWtjKZ
zCYQhDi6Axp2A+r|fc%V3{tMqs^z?{zM6}`HmEC+qG&V2#z=_eeKmQV(I={0Z$gGbF
zLS=n4F%RIWOLfqtkDXl;GZzVm$*6focucx4m_KTw`QX6_o5@9O!byX7Qm9jmh{0$A
zi70Xt5kbR~js1?zi6fNQhb%@*Aio*Ve~m<nQI;Hn@*~`0_zwj)K+eKkV}PydZ;<lq
zZ;&Ei9!;9>9#0(dIIgsug7Z;WImiq;LU}`=hkfKd9bpLs(ZSaMjIc$Ms8LPD97&)Y
zuY^Y7D#1Xb)1@$ojf$opHGnWD1jWpPoS{1op$_SvOB7>YH0&Q(gOL8g1Rx?TF0db%
zUXaDGGx~^SD1i*uqD6_{gdju>#z@1RkGiYzlQ5J6#)VEhG(iSL5EMnF#WXGQD-E=q
z@TqGKw!<MH97$tVA@HIbMEfVDZh*#!v6^U42op9Wtly}PTpFkrbgF&eO&k8%9ngki
z^5yTI+4<eCQg8fYOr$vEuYW*A{@{YQN2$nD|LkECCnnp)s07YfpsZN25J3pn+WUHz
zXenY+ra0=OMzr$aKovnQ_7A=O;DM)ckT*UkoBibnaH?sr9A#YsWznc9OcDLwABKUX
z2m{&ClfC`1hAu@scKtIE2u16z&qSnoBk#n{ekUd>w693DUlB#wzepqR#`v@2T`79;
zyX#lRq-=R*thPlstwzOkHUO&lXiEfL7Z^Xp^e+wsLzPI}aLuGs+A7)m!ubeshlGyX
zozoziw=p84i<0Tl*)@l^AKt+kp#dGfj$O|_q8F0d4gpv2_@cQ9(k;N!0KtZ3TufV_
zs$f&laS269JCx`ErT3fy4k(DlMYxur=kSxzkVncAj0$BH&1o2i=|o{}1O+945CY=h
zR_uBz`pALEqPITWP(Od=jL{9Xe`RdfO6ld#uWbAF<!_Ddhts;(%dt`DJ-Yhk@v%ho
zx!8ej38JmrAL)txw}0O1iM?w^urhF)h#XjPkVWuy@OL`D7^A|>N16r6-4qO{3CwO1
zEp@_vO-7_%6#d848l+h4Ab9!!)D)h%|KV_RhUo~#Q$$}G9%z%t#VjQOW*N}~ET;0q
zBV(~p6mf_z8d?Mm^Mp3YVx}ok)aHO;r~;6zEUFONp=0oCi*Z_T`{Y_`1X4Y|J1ADs
zia{7)_Lk@IMC-b-Gr&R|8{I%HNOUsrr&5rz07MMZIAS;k4&nC8a)&Nod~l}UKJSO`
z98BD=zkSO~_x@`vy8p=7t|L<~ef^oUc3rLv|LL*cKZ@kA<<djeEncx~$>?cV-m_@Y
zYW;&OxTLjKG8?~C3k7<|IMi^O*%z&Jqyz+f&3SbdKt=zYMwu~aG)KKx8#9wru5aiM
zaE%Ss-l~$St5spy5P7nuz4n&jbpm5^u!5}^frL@>AE>2*D$+g0)V!n^IaAy7)8(bj
zqt9uOA1HG%H02loiUR>yO7j!plX(O*f)GLRFk(cYV~G)X^Bbp+Ul6HD@RZ{#kp_9j
zw`HSG&r2RZO7;kc5DSEy_CJz6??3G>WwpGwW)U~*Y!U|Rs$yiUj<R>+yo+m={uPxZ
z__TXAO9+t1-*ZRpEW#i$Y1E0(`k#$I8ZTf42p(O3*~~gI39qu?HfiKUnNtyMJW)$T
zDH`=?w=RmtlcR}fdhO9C$D*elIC+#wx&niC*WKf#>g!jGe*I*0-f5BuN;{(~c8Z|%
zt?0b7rICB;p1h|nmXOkqj+0h1%4bo~H&F1MjSPLm4n${^S8RNG+zm%a%c&Na!h#VL
z3kD-y@Q%<T{`GN7F%^l~WuRh82<QZ!>zpg<qy<a<S&|pjH<=v+#BV2Z7ShQ}Jxo91
zl+ad^bE*9qFer3I@*;0Xbxf|r7s)Vax^ht=pigLLga2oOz>@m4OlE_46LZRlIHLO#
z#mm&ETqn)jfOb;x2jbTp>@yX8Z<NTKXb1$FtGFVxJ;%oth$u=~6EJxfp%MHH!a&0m
zbRD)sES_|`&`=8x!!RA({3sCwiL5{6>h%|K1R__sFV!Cm+n8f$AqKxQgMwHLNyKO#
ztYS3TF+4-eT*X$d<6otJhq;N29}=CdFpWf6y5+fVCRPgXAs`%yP__5~1+gQ~GtOC&
zrM+A(O}rFZ!bye|k5rGRmsriH$yd_DH$%-(fzca*tU_!WZKK7Ph6|T4z|b$+N%>UD
z4hT;oK1heDaLAEjlo*5#Bq-PlZUPC>;*{9Ln6}jgJUJlh<AOrb4H!wybOh|O6cRN3
zF~^Nq3l)nWp3FhmVGtl=tpes~gn4&9J2c}|qgP-1qn{l_5KoW%>~{~IkGq|Ah4{ME
z7r%VQzQ&%KpI-L#UH3kDAtPr7-9i`QVg)P70HbHbIO5SEjPS4ipciaJ?h7^!1n#Wa
z(X$eR*K~+<uq>=UuKj&~1ojI@iLA;iJ&PBN!gB`=u+*1+sHXjx1<QnU6)*fyGA+wZ
zSki@QA<~YXLbH4^Xq-`#68-&=u4ZBW5`7Q*PD*WckS>m%KiW=uTrk>iS`KiYAN8n&
z^nu4C{jHi*u~h7+eXm_PZaGDXA3$qY8_$<xej!q5O{Ro(J#yYKhFW;%YQd`z>)^8$
zG=I(s6P-l{#jeHLQ>X%Tp~-lTE@p61<%jdP@YFM#=`RoZGNtk+Wtw7QgW1+W#1zB0
ziI^Ox4lx0Mzsmb-l%pQJi(mU>nSrI-<_aS=Qwy1g3K7XRQ^klOjAo34g6DM>U~B|0
zTk``%Akoi}VaD+0%7PneVyg@DE{&#?xrTnnrO~!|$+4q6^cj);|0%`)lc9g{MX~nP
zs~1EP(a%Ok7Di?-q*!}ldt~0uLj-yC=}7CRA6OR4teP<Qpn<s3*<bZLS>nzW?=^I6
z?aO#k+CWo1blqLwJ-iIJD)Js8UpBNDPbs{FAYHV5U@%i&fc&5xTH+zN==sMlfWMcv
zY=}loYjhqlc3P!gz=*c~-nc^5fGmkZFaPS$1TT}{m^8ecN;wBqf|25^F+-I%;ceN>
z*wl#zytlA7A_y?uYgDkLRHjW(Own?Mvz^V(P(hA4)-qS#mT1G=EeK0G@a4WH1!y5$
z@qT{f-uTz=P2GR_uYY?}puF^ly%#+y=Ed{f>+el`clSu`I_3PYKYQ(ye6#ENd;Nox
zW89$uF;Ajn9$JzZNy-*~<EGm;C{i1lRdgj+`-Ud(N$q$Ihu77qCiFn@{~lDkRtofE
z5$NS7<UJ=z-p;F3&I%sHelaE{C|-YT(`eU4-%w=531W6bWwi4m>6b976-!kNMq7gT
ztfqtFSv7Nq6jKV%d`5Ei{A+`Nvn54-t(HgPiwUPCw@Utste3ZpkGalGm(+X%E4QQg
z8=)gN#v2l|W+(S_r?!NZjoFD0_tz{%5@b@%PmcddWBX>TlU30IJ?K@x`WF4<%CQCd
zW#-CXoV?tI$nl{X>Ae!|1VlF)Hm4o76q<>_9dP(i`SVW=iiItibY=3Mf3M37Zl0IC
z_|`qIjI5Dr*67zY$GVgeKeogF>dUe7A|uyG@oT^?Zy6E!M{;bS^jd4o9U8ev;!n**
zT^r<)=i@IvAD3e3jkWT&DN<(M^YNz9iTxQboFu%N%*7$LaV!~8&(K_|J>jvTxq~W9
zaH-ImSi(go0us4sqNPa0cnxL4m?;`0odBOL>LTtJP&>2gyg6+tseRssQp09vfQ}zL
zLVOHr1ZSTHKFpCm`3W|dY)OdE!94+~0h9oIn;i<<L`tAq69g|dc(Ni&4eAySc&awh
zy1)>qoV)(`vBMi^q~&<K^fL-;DApN<<`C#<!k`Nn7m#qA>YOi99q9_14&f8WF>RM(
zlsec4c*Ds<6QR!o3@VH-Vt749cfQc%3u{iInFF$kLV_VVxYTikiasX{`Xk4WedhT5
zix+(7sZpcJFW%nu$E(gASwHrf^{HpSeBCqg<MLm><X0D-PuG&(OM4h&1D;OL9biby
z`~MG0Z2BKYT}(%!2`NxEr{7FA-Z)PF&A0}PBeW9DxP6@b`*96bwpF{b=Sr!t#~*n#
zw(?PIw$QHpIptO<8r&G%ng}bMvp-&Y2v+ZQ=hh9Aq!XA0&pab2Ml7q0f}sk>sLb4E
zxxMugS~{>-LzXg=lvRbnMjWK_0on+!G8{H?g&xSCOSMA{V0vKwo@%-4TgD9ci+)^6
zaAE?37s;h!RFRlqC8pO=&J$CyhA?-7I715%_)@34jHZ@6;hlCu_7b*Lia4e&GqaM+
zNf7{#&WI)m0f9}4-VPkFC>ZE~eXX^P&O!qN1ftwX%a~JIQg`k+^SZ{Nnx>m?e&t^t
z{P)<%P|f6_n$&e~Jal7l_$Al8dHxm8|Caf<gZ*8M#9<NxC(+w1=DScvLv4*ZmX(&v
z8e3m%4n~{87}oH10$l&X*cU%0HB)a@lw(#bcdT`SVZ$njVY+y5EWL1l;$A&p+M1Te
z%Y8K|5@S-HQ<K6GSC$`_Yi_F>C{d<67vT!PIqMJh56H*Xz@Nw6wnCL@>LDhGKpvA+
zl{L$bT(kJdV{uoPl*wVT4f7|(16I=@Qbck2Q4JFsXgS0X8x)i2Pu4W|<8Y`lm|Lzn
zbZ%*|%+&TxTL@=G1~QlBSyPpg7{*29+Sqt<jeJQ>`nDP|+@jLDJhD<MwcK12dDyyF
zVvvqf!9ut(-WZ!TTRtM0xqbRbs%CPEnX@teT)ddBu<jj;rIqRF4T}c*JKrC?)9F<D
z8DdkC-KO?Zx#Rz^_9oy>)>;4eeTM{+H2IOHA(YbAyQN@Tx^J`{tYxbdSxSqbj8fAi
zrIl_bDT_J|ML}=@L<QWff&$98EAqI23XZ6_i#njf$fz(fb)Qiuyq}Ze%rnnCbG`5N
zfB$oJyab_3^1FZMobPr{x!v+w?#+rl+2R8!r7uDy$1^N8W^9e1%RIMmozPfJ?7;v8
z3Q8ZCIt0)XWJxt9_zLz6O*V4~dK+#c<laoA+3{Abtm+{xvp*U-zcZZIBIbgrb%G3u
zWDco64IyHEU>z~}QXXmMd<fMfU9*@|1%6C7h&voTB9V^JkMO&&QSgj>FXX8C(6X7!
z0x27{ocN8c_j>Xv7NLvPR_ol@eI=@iF_K0DP0O8J4%h@}4|9VVjr&MkI9L`67<ciC
ziG&@5E;f2HW1~n%EGLQ32+jq0!q^lDq^#DmD;H`W4kP;Pc|)~~I{Z8s;~|t(@$kMH
zzIlwkG~$p7pjPxq1dp;N244iP9X_~no@jn8Nl>8RWbSfd^O6I<5b=iQkGTXd-K2Tr
znzW+$YaN~8+^K3qs+Pa15!$<BxR~r2$eB~{M>Cbvc?s(e{0+T8<Yg&FAMr+zwwHMq
zye_|sceEM90uFMV^9218yh~D`c;f(EXi%C0+UyahVff@aEdtqtxM5WU;|Vk<Wu&xB
z|G->av3p-zGf~D|?L^+;&Ijq|T+sZHu#2_r@Nf@ed|YN~vu%fjaPiYJB(Nq#QsW66
z!1zYuw^-A#gNt1o)fnFhM6(uc82DO)W96#fzq+Tv^Xb|zuRO6L`m!zcW!v~UTH?91
z!Ij2%^@69o(m3V##Yo8wtm+0AG_@^g3|-tv^W7MpuMQ8<B$-UJM|arzKknXPt9r+w
zHKo<59X2jiE1o9A^5!!Bnci2!jZ|J(MxmrfL(<Q|=ba*35V<CU74?mS!pML$4#y0p
z5SjGwQB#E^pO+L>4CN5Hvz-I_egiqlfX*;MGe*uq%(8+jiZBSSP|7nS2)Yu<Cj<}?
zYKu$+u1M5qAhg)GNwI@prmch0p-M6E0h|)R17Sk;A9(;VZv$ixGbW{#=m|<;lVCOh
zObpQv+};n|j_9uCz1|%*&y&aA`SiN4c@0u`*c`vxdf;x`xyG8lKOXz)YqP0FU2ZeF
zn=ql&qIh>7PE5u}&;$w4n6xR;ML|0_;ObG@xpw=MZZTxzWW~>vi;p&DuvM!QF{8A1
zCVlF5ban+h+~+2urj8j&I*=wI+&_`#>W}rZC!A7hXJ-u4Lh(0h5%qOqCVI!P>~lda
z9X)F8|G4}p8&~%HcJ~!p$(vVP?6dOSrRF*%cefe_4s9*<0|<-_K@@M&A34qFXt<qt
zV{lGV>cuWZqz4o+ToQm5npnIQ0P6vD&IsD(3fY^&(_c)#KDWRbp{PPOaixGQ;{_%C
z+fN1pA*nRhs5piuPldq3RKn~l1`U9A0I*UL@%q}u+JtEcjR2hn3JuwF0Vc+y!9Tbd
z$+Ltm<Y_~+2udJ^a1jrJHcI+2Wm<H8-pK?2%_q+v_T3coz7=A;q`yJ-1QdyNsRZDZ
zKdqL#P-$`qML=9VUzSC>#}<#h`uk%$?517BzHR^RiXWf)do(iO;)vtNhd+J+z3tIQ
z-Z}pEGK=X#-}KA?mJm?sZrsmmtKH#akAT`&U<KJqx@d^I*<~2M5Suei$E?p5OYJPo
zGP>K_Qp3*p^Rc3K@SN4SLY>|7TjCSZj*ZMS=T@oXUaiqN`mn{7W2YleYICUQkdzy(
zIYt;0ne%S7Eji^C7tMH4mZjV|t>zug5L*CNj$lX9<<1iERdBAd88dxt+0G%>5S}Hc
zQ-$L_MmCRfj{3sk5E-t1mljT+6i;59x+s2Rp8MLNI6abH7@7exC0v!g6=nP^vIWC_
zjv~GX8KzO;k`tYim#;Glha>77l^DwuC>*JVTN5Ll1XtSI-M<@Ev)HUnKJRkapS_ox
zqPHf`zBSowMn5~mjDB_tG*DpgAx+Sw4DUx7UfiBjdZ%mSAD*6Ctdg#9X7B<w(maIn
zTEK+*CLmV8sD>k$mW{)Qh6Lff<fjp)A_2l+n_{ak5@@wa7N&?KmGlTsG#ocvH;#LC
z)$mNz@#4VcnI4m^JGFxNO-XB<2HLnVUod9H+9+ONbU=_l0I}3I?iNJlfVE&V#42H@
zrK76|>gzl-^r%eLcf&IQ5DD7lJ|nrp?%==z+QQ#}E&~HMU$joMcDFa`o2IPOh9%MH
zld?|N$m!#mfXyLIKsGr+R7sXJMTL!HXllzi@?2wRa(I}KiZl2SIZP-Hkh|ENF%9x$
z7D+&gZ|>58eFqqNsoIPvtVi=ppe2tlY5}tRB>@Eo7-&4A9X>67E+}J!ag4J#zgaGW
zEJ=7?WP#+40gl55@N|QSQ*FWHh%4s7ku@^(_lyzDv={_Lt_89Lm>__@F^&CDz8CIq
zGa7ttz89YEFtzY3GrEX+2(*j@5^iI{FOc$(Llxk1<u}N2XfCM^w9ao`062tc$n@gQ
z4WGxRg-3q+!|^LnyhrQp-g>*^!!_%_U_>+C-EsJiUHtaM-Sx^;;KK0PW~k!$0-6&J
zd|O_N__kDYlGU^?am7f@dscy!3wT^yH9V|8(j5xsA^=6d+7VEJgt8Zsd(XDgyrpi4
zAGXkA=M&%`=}t&W$wqK$_^u^fY>6sJ(G2~z4AJ>=x6<#buZW=BzS9w|v}fz1^mO%p
zva7L!89gPzL6kz98kABrL`!CLZwwMhQ#M-Dz4WVm^^QjIBC5iaVZSzqgK9|J+!Rf(
z<l>m$twv{P;i8K)ea!46%~s;@x6px>rCPB^e>qV7q1?K-yiC30F1lG)GuR^%#@rP?
z>Kk>YHFsB1W1<#z8yS|F5&PtEvnMr<tDi8rv0>7L2{WeEHP+Nloi(W*4Qh8dzTC1p
z*RAC_FH-M#5<9|Ov2@14spZq~L<W{Xb5HGVZazKi{bSsP_RN+@q$^yRpAX)Iqb1Kz
zm~DG&cf0x`#p&_n;{Yux)z7P3?=eqnmHigRSb4*r9Wy|yaxcx8HH9*2Oq8%Uw3TG^
z7C_dPmiKloMn^=73JMTZ3MeEnq%zu&TVGHOGKt0fF>`0TZBn#2)m@yb)X0gmTHpY~
z##wE_*2RQi;>uC=!yOck5|tH~L5#aZx5AF8cZavo_L7M&xGo9U)#AG++oGd&ab6&3
zTTe-z--%bStwTMTy8~5{tTG_jncf@MWh^QHKQkCU=3IJ7QlIca7gh7hFkq^W?Y0`n
z<UFI!SM@$7Fwu^VC9$3b4I(Fj%9R{GWO7h%&}|e$&OUXu0v~a(`jRCW5b{bh7M~4A
zgJpvpJmk1gHv|UpXJLfJRz1e2RwP%mvjIFw{4c~i0(@8J4KdkP-!-lyfO?sjxpt)A
z3tEk_vVktZhz^6x?STWkiOB%twz_->#g_i142d1ka<vanBR~UpGf!CV-`|*nqt2KZ
z3NE5tjTONiqXCPepvB+{NnfPFq5%M@Mq0yL!@UB)HD$e4^hc8cg(-2$<pF&imm)I+
z5WU2%A-+?mjh%&NP?pwFW6`lO76w~zrv%6S)%M3-6LDY#__9mF0SS;9E3c2_F3@Vz
z(h8s<vVIH-TvDheD*`IblSn>q_599G_0rgpp~|8G(O%P}-hO3OZQ+Sm^{iL5q^iR<
z^J+c%-hlS^G}C(%2PKL+cBww)M@7YH*+0o_`AzhQ{lg=6%Vp-ZdUT2T`Xy#l+k20g
zEmxTVFCR58f7EPh-uDH6PRNgA=If40c{<Hvxm^DHtO3DUR?|hL`_HvlersN*N6)i7
zex4wkH&`sI<S*Q4*?yxCEU#KDJ@N%!vpoD71NKMOf&6!XPusxVETn1PcjmyV+bq#r
z%^%%r)?9CfqNfcwcG>`|X4c#%2WwN@O>vb)sYz$XrQVEFyyceDwez7<*h>PPNYXjk
z*~Rd!w8!{6mZy_9Nx~XhWfnCOUYz$~k+&gv`q4N>nDRRQ3psK^8ju>`SLeGj3Cjj8
zAnF!*^p4THpg1M#hMumFG$#fl`e3>^*+&JYKr;ks2!}%%1Cpj6EUTYBc<$)WkN!{X
zQqr}*y?>?tt)avGQVdZTlEsPG7V3v*8yJ)khtG{vO1NgkQRRHiW+p|*2$Vz&htx<^
z(D+C=@0iFXpO91@$+x8Vpf=+XjRkr#z(T8myT(?30(SVQnGija+b+dNok9>zAyIDp
zZwR8OLjDCoY>ss0$^EccFmxb9)4kUm|1_pFI==LVs~>$AUBmwsw&Sr?S0A_ObKcmt
z`u>#<z0W}q<b?zbc)U)~2<gN^0jyAhh_?E3j0N&=o*L_0Eh(<N7Sq!M_LXVX{}x`8
zI|@NT;EqwcD~5&^Wuh#oI!CJ+srQ5QBXv@3(C!pHfIAT&bh~ERE<osUt?I^@#{AEk
z{%7I&QuPaC!W>|;s+ch6zX2OnBTZ0dI|%s3Fd$begE4cNMDVdf2ekm{eY7mHbjMFA
z7vT#MAIoC1DKCDJr=O*md7~DCQjd~%1Jg7HHji}uBA7eLvGq#=Bk61m7zJSVDEVTp
z9yE%iZliRj9Rmg<UP;_b+=?_GkV`%i{ZPvNC!q~TPqKGVvakaMS_%LKydjph1F}qn
z3Y`dXZ@B%)Jm8ikWCse169;Y1)WRngJdhia>j;fA>Q~OA>@7pV1J(<UL~>0N`Fq5E
zl>pySap3%M{b31=E;3)Y$o1BB9H$;5<Ke6BzNY^))ij%)FEP1HdpQx7Io6-ve{}gG
zt$g{o3x!9+xEhW$wgn=Mmtw^(EBOuY`|4E}&OJ?w)|&tQ<N8`{U{5Vd{>j02r7`HK
zyKZtKEfAee{>)UlKuGCf5gyDoo_FX&unVx6QYb$k-5`@2iE%6^0;mw-BxGtV!vqiz
z`8@;(_6<o|r?gPHkx$TF)2q@@^7bzOMw`CkKF!rwTogmN?&6gpu>u0InUpQ?QO*XF
zJCYORO`yWSpFkF9jGML((6n{G*34xkw_K@NvdZgNiNS6o3?m3d$fN(kI*Ugd(WC5w
zlBE9vSq4jQ-}C+SAIyCRh|GeGWs43PB|2qZaipS<pQ028t3jFp22H(XSS&0G5E{<3
zz+d2wq<=;4D3}awJn$^({xVDQ{?q94=>TFRGzTgOzzn@S$gQ*#2pmCWA)tdYR%Xuf
zv3%J$TWC9UKTYEi6#9@!5>toYq>xdUFgdXy0OLY)b73KPW(gFdDTj8<FKUZ7ZaMzv
zeznEtFYSE%)(=RCpQ{lFu>ak^e{Gxl`#TTZ`s6yalT(qPcgA#aaG<QA<gJJq*Zae-
z`k_r2OVg+J`Rjlg$M$37NahzbQhDKg0B*ty5L^UW{S;y$fFN(h+Z_|q@N0BbG%-G-
z$=9KGnHL6!T#2cDybEDMN5Im6gc=vQ$B`e9WR*7NN(4~>l2-^a5Hyy^TEgVOP(wjI
zzpkUx-X4S-?r06Si!4C^<pug_wwdaDduIPGy-qIYke*H$y$rsUBee7Tnbu&yPUFWm
z1WA^Q`Nu4`(udC{?Hucrfcu7Y&it&fPR;q99k%&n`PK+PmyWcf^%A}-{ky65uJ%UW
z9x=l=ve=TYHPWb$gofiM4(E;k^+5A1U(NY3LE`yBU;d&masSoc^1sL~eo=L(cI(Rj
zFRG52+WY^9hNAeXMXdX&WK94<k1cjH?CB&uYm(f|ix7o-&sbzN(Pu2ybGcRL?cAo9
zU8x}$-zI|bod@-*YxL++?b)St5~iactEc0Pf?o*M<v-~bEw`6Uc!?QVTZi|Y=adw2
z{HaI;$&jLXMCZljCzG!10V`A8aa}w=KsaRU`>}%{IigPhs4fRM0eBhrl>zc7tVUV$
z?iXDqQ8||Fj8kU}?ps1XC_9@ZWeo5VsEBMXx^p5b>5-vV`CAZ8NRP00L#2?1M;sq6
z2t-amg>WiJO0a1Y;zVOevq1Qtbb{#AQ4|ne%>6}I9*ey!kc*ur7wuvI^>Vaz;G3-z
z*X{cHlmhw9W3Q~g3b}CqqxIt3&wp>5YkYnG4No59H!n+j;m`{k`<;+HET9_w!7m){
zn97i+qLI9-MtK4oZKn%tw=oX2*`9CC#iB@t1u6HPg0VqBa0J0`Ui*u!t>^}Assu+6
zi2xNapIMP0I(v6`H=*le+2Ji_J}?wcE)0X7oye#u!3=xOHV1>d|7`X}^f$$@409o7
zP0lUsN&TmqBgY6Xw3JwGL`~DNAh#;qO<YDtpwV`les0#Nx_~`qjut*RhcLY`u`_Mm
zUryB`DG%wtv5n1pUn5Ecd*K(WTy}eF=;D!G$&!hanU!0mAJiK4A@T8+REsx*)CrQO
zWwouIRl1n~k<6?iQ}wVu!cwL?lUl60XV?sVn4`NZGb>s%XkE>q@6WbGzZ+Qj9a&vf
z7s<c!@!EIMuPo1gWvLo;>P$v29=H+c0YVcC5*;96aVY<(Jn&wqO@(L!R{&1LE%to8
z*;lCUbT8#?<xFz%qa+az8ejyoB-o22X)^LO&AoUaF9!H+lSCy^%L`v#^a*S+pFft`
z$o6=MP6$*180kgfXYr?y6+pS+tb_5=%%FH>+yDjCllo?${*$e_Fr*l$sfiWv2eROY
zK(zo0A!uj8G8k=&$5058r?=9fbs$5Xh6f+(J);~YgvJK`1e(-eqA!~~hH}6}h$kDu
zhh$bRl%yWJ%k=(p2amoS?|OCpbvJ&YvfNtc^v`U2AGetw_+x6G)3M^G!_TNZCooyh
zqSxBIS36t=Z<?Wgh|Az;@V*Q4t`3nC)7c?DV%8evI(kP7FvoKkG_A|4b-p!07}Eyu
zhOW&&{!<qlfA*W-80;n$9lEc1_eog_(W1_C#@}QP28a>qU)P{J9YK~jx%WASxZ|@e
z&y|oFBgy~*75Mx)D#K~+3hl1Th}gqj1YI!R?P)Ye!n+@Ghz&Z;;_OQ{cqAf7WNY4V
zl>L=VjIlfas*f+XO#fDo8qR-wEHs>&y(+^Zh~Q1JyX++$^JDaP1NnIEchP&C|Knr-
zJx*NVi1PsWnT2G(A+{sgfkz{Q02Y5D%1QW90vm9`fkji(kvl?nA^0Q`kYEk=&fv=+
zsEc>Hh(VWPt*JkIYWUPW3{^gOE3)L+2n;lam=iPs#uh#vCI-#{Ng47gv8%zOfij3E
zgH2roLJ%z>UKHv+jV8Ah%mkJR4wWPs(UY)CkpsllD_h~wowBfq{VF*6K<$7UxWG)w
zb-~_uFFWTVHUxEtTTS!C2Fb!+res-GB9dBW!4g%jn9rcPxVDKG2ac@v&X1pL+V{h|
zkM;+FUib5^Bhep`aIP5i#fqt`Z-4Fydn_{P<i=}P-2bzgQj*j%II&WsPlP-K24^(3
zk@Z&(>#)%4ONd#OC11#}jdlS3hHNRZ@T<d>R@0vc*@k~zBS}Zz3a54YjJhw~unwC&
zE>Z~^vv(g?$|Y$mHJb*S>w<X~#oqag^vaZk6W_-teIM_zV~I+7I-#%XzZ<bZQRw?+
z$>zU0v2pkl8uq_BvAxeER9>7AJ!x_EOFHj*qanBeSsI&>Lf|4yy9}<-6|$&`NH!j3
zmi^I2lB~dC!1ReQ10}<>d$g+Qw+)P5r|-=g5Pc$n5A{TX<|_O;CY=06Py0pygltpQ
zeS@Oe*8SONAkVo#0zxl{=_S{gvR}p0dfggFKCh+Q>M(dE8#_AvF)Go)=CCF;)=BmZ
z2r9er)LBFOs$f=Rot7wk5m5knVAn&#&nW>-g{oq#A=?C90M`~r8ucOS19XgV#F&i=
z=I(d)9pKDL#UwX^=s0{40LGA52*mi4gc=qR?~hNp5RwoEk#QIxSk?e=J~^#iez-gN
zR17kNjiYkHjLnILG-dKeUL~M{nD4-zK%~&30IzYgGU*|96ca(><X{`~3Nlbh^O^^#
z!sHLlhD!q#mH5X+Fe78VWY|D3^9eYxuq%SXnSOU<C;O2!)6&-;`s)uronXxV<r985
zQ(GLp|8@SWxC?%`=97<?vpuP4+PK>3v-tm{`i9D+Z`|r}=!>x5Q0Ju7{Q~Jq9tiU^
z;ccd6%vjp^#qPY9H1adF!rvw8sAo-8Jp;sJr#*kGu4$vHhicw4RGE{O2rL`}8!^?Q
z+``%jGQvbaSs($Bl?ISbWq!5Nwp4%%CI@II<|2~Gai+?8HHI8{S%D_hB_mwiJq5*c
zKQkpF<w2TX;C?2h?_!}LnVGTpN^T5;0n{4PE*`gLuy{7`A#Fu^g2s}sEgUk2a}@n(
z-<YB>u88KN9BlwtA=+a0FCZ}Eje@_zf(6YX%O@F9S&q&oZC+@4q0daNuU~lJKHH@A
z$-DpX_;pwBpbx6oYU(xX!Y<#qcP^|nTA*|T{>Jt;4y%#N@@rxks3GdU<fK0gnM#R~
zy?%|6&=OHA(*CSBA?l9)Z0i5$_}QdYKYTK$RW``y!_zRR<TdG6r<0)Ag!zx+UP{YH
za|hur$>s><@TD=(ql1#^8~l(T9sGwNp<72qh-L<1gt6!KB&Z0}HsS(UeP}ttDd&zF
z(83&utOkmbeQc6y$%~3+mifM@Xir8WvQ_5RF>0b`spzkeoKoo7)+$@jVcdDpxX`%~
zcuR{_ZCbUD6VHgpUxErE!>CjpNHFuQEX|&X><}LhYAt#LuB1|*cH$k=q<0+8Z{Pmy
z)~6G{*t_Y&V>erPHK){T=ILGSqqI4_f3xC3asOy|pmMvr!dxP*ZswqfYRT3<>ULj}
zEpqq?dbO4QQvEzki`ZrX*Uw8xCJtx;<YBjZ$Z!aMp*}xN6(=~t-Ts!E%N*Yywm`NQ
z4df%QXrMOb@OfH()&ea*bu%m?cy3H|QW^j%WFaM6yQoTh@AN9vH}(sH|3P)Ju2@|>
zc%y7T1)hT-Llump5cCajg)sofHz6&oP6GxEjM-i65xy%>;jYV=^2Ol3d2p?SH}E#{
zjsYCVCLSIFA{7{-$s9zMLi{b(6rf6kAH1Qm6BFYV05(q%y&ftFUS>)z(oKNOa*jM)
zG4XsTTv&0lCF6Xa8ITl4Y_j<<eK(QR&p~c3K2bfOz1sEH^#|74)ij&uw&zZ+z3<qG
z;J}xIuDh?_w$85BWo3Nu*@p+OIc_#>(zD)ya%YS*Cd`;#Q+rn9w5c<upEY6J)Ts>y
zzT6iFt3q$m7hVU5-vV{Phzw46OE<UJ!glw=Y+VU1CbcV~-WY+-Y5kxmAlf-vj@>>-
zmW{`>fGU`h;WJ<bAb=MH)y~nrtyYHVX*csm?iz|*SVZ{Hze%^cg3lwr^w>STp@dqi
zBPqjnIVbZ4*@Pn*r(vZs^dnkMk|#rJQD+lJ2S{ctl68R+xTc>-8}6c+>ugJM#V>8b
zLe7^7N4lGsw`ct`h?`_>Lbuz4`l4z^;h4)1-q+6Dv9Q(lw$^b*Crc_&S3PIf7dvlL
z;S7r_F}Gdz;^eNn+?iz#*|YACt}yq1Oj%*}9>`LEP18o@tuSk6dygct|22m&GC-JS
zFyKJ2X9BiC)@OjXfZ0kQdVzW}!wRmew&c2i^3lY+YF`Y4LEddMOIG-U;BNHqqF$$r
z01B5DdY{U&tkg2|R%#B>o{gJ5*Q;%*W0OD`U49eCigJyXha$#dkw{zu12~?XC9+1j
zG1PB8cX3_&DWP0@l9R<*6v!H=3Y3dTRoZN5#h5{-=3S3Nma?ifd1Ddjp(_BS!&OY!
zZiVjXLs*LPS2oUqm&1wj9dN;rOolN}gzKmunFv6w_&d0hAx3fG2C3DwUDN>XYOo=C
zIid@&*K!|$(33&Jibxta<f}3#P}xpYD90PipZds~WA$wL;=rzl*PO_)@(b%-*Z$zF
zH`Z>r;@a2O5bJf*32j`uB~wDLyffpH#Y@`S(dbhbBv}3MfMcy%SI;qzMB0%0b5@pv
z(!24dgC9-M3b<NAzSjB1B#zq>wPCn}jPk%L$t#q|KaQ2{2KxKyH)&R6aVa-zcIVCH
z&<HQrsmij7EQ7CKZsn}>Tx{j>xvt0dod^i%KuKt}{K+}h+!#o@C5vfr{CO5<d0K8-
zs%1=G0eS4?37t`s95d=5J5O!!<o%>+V-M$e7<m8zRBq{IWY$T3n^5V%f?P?mwV7P-
z@``?~Mg3nqKl*K&8K!5*omNPj=v^^sz`LM~2;!;O?`kK8xwM?T56sr~_WY3_gJhtV
zokc!2l3TuCQD5SOC+8WIQaPM;0FLy1VylwPuIPb;)KY7TFT^{ERSocv&>Q4GpbgLz
z7%VE(r-@eFP;+h07IKX_Xrd&7_hX)eF~^O8AdBhr5F;f57fjtHh|LHJxy^Y#8wR-M
zWWfVESyq>$@M9VvcjLYU>L7{S)EU$QwDE;>Z1_FYXRcY8SH#&3J%YfGb!$N&lBR+a
zhs@U<a_!&$7E3r5+dLotaN^i4-=BEd=6%^_UiOA_reoES7mw>RwF^_jHZ>qGsnD9!
z@1K$=|ITjrMWd3o+miFz0(lLlgAUXtmt1Lc$m#~=$VKPz^DuXhQ$26h@>E>8Iy%Zd
z-L5TCZKvZ^h}cJsvzdK<?;otmkPtX=LV@@fQfrdH4W{{8)!<Brk9@i1m#geN^(srv
zP?G}<=GeXem78>*t@kPKYI~iLnb(Cb#K`OH3h>WBTO^CbxX;pDK!N0kuCpmenl%zx
z;yz*P+2sK>=?>fVDPoCOYxW1d@piN${K?k&mdjnhBcVw8=egDy9l`AXvN<F;ilj~M
zIe^IdL{)lohS%?~IV;e_G`YXa%OGeD9VX(=ushrC!dKnep<c9G!>yOtZm&ac+V2(-
z`3jn0nQeUfrpaI^XjhkTerxey0qEx#Nk#VbEA6b^GA=@#HO{RW;}Y~wofppPPv#<}
zwQWhB0gFr#z}P{G4M}+4r<Vu%)3|c5n8fr0PvmDVF+_`+W7Ox*7&(T(uMXeg8Oine
zb7B_Jq?2|eLO!)LedL|v22m{>1$t$?uY@^!5rJb|`0O_bdtb<(6u)P`mh<KnIbcTc
z^5kamJ*3UnLV5;qPZnF&?pMn;=#|5Ve?P|(T{HN^n!!nH2Ac<(lqF6#YejimEUhOT
z`2^7V4v@D~j@m20v7>#IMS}(EoFT9&vYrSf6<Y*|Z;lkV5ZJ&aM{GW1K{;p(tPUaQ
z1bb8jdn4rm7U?j|Ag}|}E-B6)5~o#9xlz0MVrw|Bf&Q<nPCQ=3T(UNZWt=<{^t|X`
z7^In;)itFp_@TzY`$0L-?TOD+sAeurL?OFvlVzP9u?YxXpe1N~d3aLp*0S^N)=2ki
zuhd$1A7WMMxpnl%!1NeASYJplO@JeMm?CvS$tO(Q>_9{^%f#dpNiAMZ#wThDQWqkn
zxz>@eaJM7pE~Uq2Ji^>mG)9~KRGdM%!*B+rst&PPjGJ6maU*U86hcv&w#`Ln>G!M1
zP>)bOO-*_S_yRC0UP?#{7I_6!S)PmMdW=79XE{$l_Xl-`@&yTcbnLlwI)yA}M0QAJ
zVmN|c66^PgqY2)l364(=KJ$e4sW{I=yC2-P?dKDR2EKgAamU^*Pul7;uR8L`-G><7
z=aQixH`EaV(D(joun4R}-V+H{#Ln(5JPuvpcOWnGO>Yc*q(HjP`XO`TCtAUbrua4Y
zM3?tSm4m|@^8Q?`*}bcjxjVGybrdGP&F8vAzwB2_$}{t6#k%L`2N(N;?rHH_uG(GV
zkqqrnt6sQuRHB{dv%4*jezt2YEe<$+%=cu>XVbCz#>GOtC3~)Ph-qu{#k;rcex`(F
zcagB2^)In4r~255vg(8HTXt#m8$TCJSyS?(%X0pIazUx_Bdjt^U*<(6{4Xx3Ra@0f
z)yX)ZirHN=x+dk!=-=(n{@vc6kVQFpSvxU7b53~XV>+9y=1V?zW#BHt%z&90`F`Rq
zS>^~FNlFa~Xi!&R*JNt+n=Alk7z0r%vxpoU4+cPV9cfR2PeWDnt{0(BEGc`YP%ELI
z$$B<9Uu4VSSV-#m^tc3kvSUq5*bqRp%lwjK^;F!2xa~0hGTXzJQAs#&NQ=QIOM6~P
z<h-F#ZBpCLBqNMH0`wQO8M1UYW&QJ;9f{ZvMV6v69hCImpt-!PcjxCkUSxfuS*GMk
z!~w?+tt{Rqs8R%%C>{X{aFYoy#ZQkE63l>E6scJKX2%CPXP^6T#Qp<o^`F-0eFp@<
zLf%}COa|`*uofa~z%vFhSw%p(6cP~zFGyR@@(X4rMmd6KB>{^wkEUC~uh^wlMj9ha
z%kZ)QiUlAXct}~<F47sC<g|_KZzi4uF$;<CvI`Xng6z@x1snK31RGZ0`tg>SnC#@5
zyFdFQzK2tvkns3nGe2*G0%9etkq&YRq(FB3KOBZJS=p(z0fM-4Q_<izb}|d6n^sus
z->MKfXRIL)S<dKVqYf<;DqjQlB_k>+JF(^ANcXYGqME}e#>+3u!I+6zj8Z6d2T(PH
z7g;vfg#MXhKvyGFmu%GNpUdS}6h8rBC9ob#o_&&Rko332r%dEqg9(dC-xwlzE)Cm}
zz6r*u-T)#)>@>zDvW-YgUNU8f_<(|fj2Nzg!by}t1VsX2C1UKNV8=E-g>7^6&mBU%
z!CvG}su_3A)LC{sWPDePg3hoOvZPHmI)(l-MB^5USslYhTEsHsA&EPbI*YZj7DGjM
zJA*Flgj7|whjeyP|M`K0E#!Mki*q)>Awf)Xb;K{9YRGHzFL@)CM&2Eg##;Ks9ltE<
znMt20c#cqDS7;ti3d@8oW)GAs!6LPLOa8@~(Vg`klsHn-NF9}oZ5VW9vMfx7TL9c9
z2?L-p9AmNcJuf@d{9wE&J!Sa^ry3ktmP=ARK%5E5D3){u+E3Kz<YN7YFaRzLl6)x&
zU~Y&H0N=z<$V7}7hK;_I3}7{~f+$cRKh#tv4{$Vw8$t?5=i%!idcnv=sT9#gfk@lY
zY@&K$XD!bTb2T}IAZ^6}Mpz}qoxqdC-jLE0H=9@8T>Ze|CpN}_wiS<T`SIkJKtMN}
zm)`qi^yYqi?f8m&Z~7ScZQ-=K+NrhU*%;LthBfwm<y)Q1fp12g67kI{i5YhOL68MY
zYO#0jw*m(BY&w^d+uq&Q*wxkEj(`P`8HbFw-Faa|j<j%NL1S@y*OG2XFWjy)j@WXL
zxokeu!%2dSUS2*?=vlwy^8y?jVjuL)dqI<_LdfOrWyds6f6j(w+1RO~)?xY<<ExNx
zJ>MApf=&3}9@pggem|79h-ZijmB+EG)p@No&>ieKUH`o~w>@`$a&B{%xQ6VuOc&n@
zfucLa)d)GZstr$I?u}_z>SyGQ)=OxDjc)djG+rF)=m->!O^glSLA!pbxwXl*T8u*-
zX_IwZH3NPBT5bUeA}C8gxN2mX7S_LVNJklc!QB55dcj<f0Rx!N_mnR~xNhb=lD~*V
zLz<-~G6;~|iYFWsA2BdY&p_8i<uMi$-Hkm0r2@NUxL0IngRF8QWt#N{Fcdf-=z>69
zX_`P!3WA)->6^`c^`bh!$c{6Oz-<N;S{~45;5E)OrU)5^2x*h6TcWm@=mBCRV28|8
zcH+e{w6Udgn{&Nmf8;ot^z6QCWWgtLUb5YQd^pYYOwc2YbvV%lJOhd<!!uz@ZHRO(
zfet;(w}g?RbD;_AzTADZUZ^)@Nd@CRrHF40DuygyI!Y`dAVJmLt=;~-V4&M{$2-^D
zXA`jas>3Uu{PD?u+~2>T&(DSjdQ5+P@c#R3%eNT^AN<SSRY09nR&|%eBomyA*ucER
zyTYm_Su@(2e2rcHR@1gY>oT>T%jHsyxh{g11}tS;t=2B&{9WD*gzO?ZXz?9B2o~2C
z(HAD8eC0@WEeS5O;>+z#H~Ld}K}Ul%y<>e3+9o8Thv)Qn`yM19|7F0UU;N#+%N!Em
zZ^@4z%EIFtEahw-LD3LeqK{$dVRYyqLlZHu?bihyvvJ@=q1d8iOGcY4Jb<vH4sk`>
z!$I8d0sb4x2w$7+)x14c{T3@F!Tp%6>Je+DTkgn$XWb@bU=7;$k6Ep#zbY*@5h-rg
zoSQY%zT>9Km0I*V+p+6x4p9lHN=NEiTl;{1fdJZcNj@s1G}AQWIKzYk79v_Ia+Qe@
zLD`Cs9HA+Fi{usoct|D@B0_WoWmwmN0tuLfNaNNL>o$YK-1p3VFLQkOZyX!Bx0-yw
zk7)GJ@uOQM^Z+sg(<3byN0IOdFeDlRBu6CN(8sXFPjp43M*u4W*Z`ArgEKy0P61f}
zOeedVkQ|An7HmfHWeLfIwS|=+b%LXqKBcpz!{`^Fj$<=HYln$BANB)f5GWARWLfpa
z6p!K-=M-`x1_;1YSQB40OE5$?8!>HqX2S-%T4r+{`Rs+IkDXX%OIl`gMEAeC!Mn_s
z@#GiB?thI-cD;W6!;U(RyXvwUjg8&@_O3u{k?#k*hhTav(H8$T?>TQ|Y{hht`g{1H
zM1x%#V2elJ_5{LtrW@^uK~kpojw~0RrKy#th}>jgcJ-LDqLFc57<VC6x;sSe?m}lH
zB|ft_uRO0bw=m1LI+J7H+7`Bpz^7-2l~bwmZ9UsI4_}L5oz>p<X)`9)&1jfq2n=#+
z?_bzHslI+jeWj7!SZFuWjbG!KZHk2A2RiZ=bY4*5(bDRRw2M#6X%FNF+H*OPWJXt&
zYn%To`IqdL?Kk9x)ur~`BQpCP=Q1fr)Ss0rrW;Zfs`scX44P(7e{Jx)TJA2+T+I}l
zc}i#H1`~NIydO_&F!j|`#ljHMr=YYC8<X;;AT#QWAbKX|HyyRIs8aDy@W!J_p(Ag`
zYmKu^Ow*iK*j<vm5E)e0W^1`4Uv-GMGy0gN>M;u{g&d3c!K0cby8q<?9+3%e(xb(C
zO)>0q=t!qtm8wUl419hHiU#-FgVi4f7abVvJ?ePvoaDv@;U#o4esQC)-;di8aTz8L
z;<@;$657u_hNuBqA`w137{tkxFnpHMSwJ`v?oN6T!!y~53<i=AL%fpMhUp5(GGuj^
zNxzGcy&&&WmwGWSS<q48v{3C>VJdcaMu5?9I&x(aFNk6q%^SQMts>NEGt~2NeceQC
zY?!SuM}fhksRgy%y=^R>DYU@A@hkynS3{|4ap`NcqN+7o_qSjIvMQ6O8@fQYIx~$k
zr-R3WWARPH6%zPFa1&@eVz_y;2lagfG|KW|@^N4k=uE_?1z!p5#f-q7Ue*QkU5e=w
zXjn=CyIJ{jGA9IyGNI})hQMdZLQZ(fF+p$uj4vg;U^uR+Yb-}3EnifFLVwZ@AxG!?
zrwGb8@PFq)e&mrK*2X%c!`I&W+!Lt1|2by7m*<%H;|;J25;=JEc=V943mvNtdUG8h
z{oCUbV}8BvuA`;ykVo_Pek+0J-C<P`muzH~<d<Zbp8c*`&3A08)Gh;<?dKxu#?{w0
zOlX`nt!~`Z+Hno2I7FTowk$P=8dcp8S7Qq+Su9tmmj<ipj<TVeyUxKxZ>agMa~V1q
zpIeczq1pJS)q4ES!RF59Jf9YSfo30efu4}V(>AMxB<ui0g8IOrEmW^~v?cCxhgx8@
z20D$S+a1V64gH>xr<=n$srNX{OYExL_3lpvtsTu|pTwdVx<l?GE-h@C$%cjCB6qDz
zPfDgQqbwQq?k9(sTY@SvUX8aVf=%0bC2Cx{6;$qM5b>ZI?j?W~<PKeoe!E^();frI
za-*g*<bKDIjJ8BT#2kGT<c8pQpLp1nW6bxdKe?1Cp70EPV&O(DUq6yI1k+p>SOkGk
z(FX?2dtgw}Geb@&FX61>AnS2N&lz;=oI#aWYth{UpWi)j)J888_-e~*yMv!_rLdx;
znq+5IQ6gxEY^@;X2Je@nuL>mxL^cNtV*?Ac1ej(PWg5l+#WagP6z)-Es)abGap5z(
zvTp#D2F|l0pSC-_=4x*rtqVITnPZvgP>}NZdEQ6_qF(|-hWj8Of}uSoL4{YK6(VL=
zvVRzGks%TNgD#%0FB3nKC`8Nx0U%<9XQ38>7(n|M7WE!?vGgs_w0mFQye7~IjMcCj
zY$!e3*B$9zfPtig#>52ikLrm?K*)cpGS4ZoM))AhQ9FpZ1j2^YWyDVXaC>a$)z0-V
z5~%s{0MpXtPhNZD@k1xpc)e@9=Djy<f70>O>Q6rEeNt=L`lKTtxZV9pd`=!?aUJif
zF=NKGq~8qF!aYuNpmX^fBz%lCo3?F#?1?ckcGEj_`0pvlu-b?S0X-OZ#~?Q(`V|=g
zVrq<ERD50}#vprUI~sWWP@yH8lQaXLg|SFA4RJKlPPv!IlddDfNGz0~Bg{&Ktlm%6
zXG2ua@HhA&i7x|t1MeqPfgx&)Xtf|}iCE&rMjD82JkVs%<gn++S7F#y7dp-JgSNJq
zv|gUPtfU<dYg6aKt+ULnk=^enp8|*jrK26dXPwKx?|r-HOWRq=%%_qbU{?!<$}XWD
zy~Fi1=ey2y+X+3CEJD6Tv<A90eudXiG;l*Y%}8N?YneKgc^7^in5(6efm{@+IfnOv
zq3W#R86=+YG}{B+q23K?hxA!$huhq-FzKuWE0f5`AI*`Lye4API*r;9HQOykhefZt
z_pm8?(ouENF@BrHe5HP3lV;oW*3JRZEfzkW+5$bY#j@m2@FJg!OIMs9#KJ<&;(w&q
zW_1mIKwf-+9L^w^%a|fc6Siv_EmELZG74@vMxE`>flLu|I#U7AX0`*4t8nglaq5V>
z?`6E#(1Ec~JmfTDC?VzpCjcxRhYduFcwxlUVh%>>iGh+b4AhLYo8>s<+A`j9@=Fj*
zQ92lAgfuDgAz$LZ01_k8<Dbm8xHvHb<6dN}03a&h&}ZN*Z1FMkH9&!eTSF`lH8rzW
zozeq9i<}F32LCoyMpSw*KTJFLx6#({R8{x8w_->C>1#jPXE&)o4o_Zv<<=)oF2`F~
zn(Vmp;f?#<7sMHFy>Z)vZ?ZvqZ0i+TWzxgLU5u!ptQm&8B+hEuHjof-k5Iy`ZR)nu
zw9xX)ten%lp{DvdsUWYl$~9DL?fJ;PVW>;+6T7=8nTqj*o#hyY`y;Oh6dw7rdu$x6
zKWi(IE9ou=?{i2kw|jW#ecj>Zn@W~219vhFgN&l<bbr7;smKzvEg@DjR~ojrJj^WZ
zthlJMYd&|!P&GA8^CfK=?gGK-?y9-kj1{ly6$zRw+WU&mvdd*_&EiSgrp0d)57H-E
zbc30X+cy+x@%2kh^fQau0V;wa7M7CPfT@<|0hJn0D@F(`HtO}^yI3m4l0I5)m{``a
zV6;aRM~)jx8RU(4*ib16-pM=3Jxa*x>}mGC8OVO*okYk2;K7RC*xOx#&%czL6XJnq
zmvd3USriQu9yS3+@wL()0K=m6V7&l=Y5WQd74e?BA$}uvb=Uz(=wmEERRUOuP>Ep`
z?l<O`llh^%SPgXbo#Scn(>WS*Iy(cVHV$tELK;L=Agr<)m@A(n&Egz!t%&qYj!aoe
zwPcD3oED57nTIy5WfQk-9DM(VZ(n|iP2ABfX2++GzWKKI*F%kEf4}mh+po5m>aSmE
z9og0F+vkdjE7f<_{)LgZDepl8s3B}xmoyQH_lg`r4bP#rkL*$(3{MV$D@NFTtCB`)
zA@#suDzmpaqh(Pme*#kPbifQ00|@U?eRfCC+SsrAi-)!t_EvplQwgJRQm9%xe9*aO
zRH0l`{)oChdB|4G0%1R!wj-VDS;Kv3q<N9g{U-(47iwoaii1hAqxWpvxBT_I<7W4X
zj5L#KNLG6Xw?yo0I;80^CQcfE&RLBO=hRKAubt6YJH2+6e!2tYez)bEq)4K=&Ze?c
zRPRt1Yx_``++h^GHGC|m8Qo_af_&rbN%hkkE$7w@x13kO4fbAz$@{Z+2l8>;_9)kw
z2Z0d4IRG4>r07~PZg3xgmx6{=oQgPeKbZ!h7@BYQQ-r+bL(_{<(2+U}Vh7@lHxa-B
z5{e5SgqmASrbW&&Dosp@#iiAg*%TY>s6&<tNE2>pm8Fl|nB%ut5Zbd?gSmK&o;&8q
z)&Z(=sMhsSmwv2L^O*g9(_MP>0ln%0=7P(<|5C5IO^<%-I`*xr>ST&J+^u?tYn@Y0
zrVLA3T1UAS>kkH|B1Rho#bRT`QHisL1iuRZ?sKi=D7cr7-pExf`-1VoQI$mk#nxwp
zq7wLm2A@ZbBVAIV&Aw+~-&%Mx955*Bc-Z)NXbD~<6b1}8Wc#AEgM?zx;K>1M;c+ED
zSi%r!oD0$Quuni_G|Wd7M+D47oG~tAsY9I%4aQ#vW&+NH{$f@@n<&>cGAVXf(1}Qw
z{cm;%^+P7@64`;jgj}kQ#Pk2xjV72}_S`e^iN8kgw8xr^Z+?2<_1C@ve4L}<dAjZ1
zlg>Gg=!T6)^*QA&v5?*cL3A?Y=~cQP8mWy)y2{!+H$HA`n579pemk~t-1NkN{bMBf
zjDWi~$tg<zf)+G05b<Xj?w^MYS(K4E0qQH5OV_B@<|KB8AfG$!^{cd+s&vg)d8w|x
z%YNiiead&)@}AGpoO7Nxo3i~L^H`tyDZ4;&!T+)Ayzr5<waW~xueJ_km7oZTN@e#H
zssdmzESIH_6JWPQqaz(*nrjlBC7mF41X@D;vJ@TGcyV7*9l5^%oYhamT!l<~O><vS
zeKXkjOwr`5N{kqdDmN<@Xu?heQ5IK&C@B$cQBBEW=4&ErM@B~kI|CXDRsb_9n<Ur*
zys_z4tsH$9z#-8Wd`-dX2({z*KsNBUQu|p9My3$jI=mO;EevSQ82jnLcUSjslY9R0
z+aG-3i|C~T+Anpid~Mf_wmBJ}K7Vr8T6}>^_248=EXcUhy~XVb#WI-HP^CNxnqPg8
zko37>?O^enH38f#WJ^r!k6Hhub>*=Mq7k;7VLL~k<?bG3g+6zGk%m;bI^UM;g2)I2
zEi1{L@MdLeLEB^Q!!|hZFB4QD6P2n=asfZLMy4#YMQ<O_|51PY0IjV1_Dmq=mRt#h
zF3ML6J=Rccqq4cK$bGf*GP(tBfdK6c?WdnKBY;Vo3hEBI+E9L~bLcDvXHGo71s27{
zfpnZ~;=ti)1R20hf$PJ}0QJw^FhKM_WPW1nX4?s2Z|bX|$%wHTQ41^7EB0N84B>^T
zJuqbOhd2Z2cbSAKnrL$Aae!H&wxk1s3M53+x1nzaxu#@?aREwvKQUq;X3XRq0Q@w3
zCAKpmU59Vv5%ks@4XgpBOYmVY;3fg%XC5y@<Bq{h^2bpKtBt3j`onFFm;~!=S<zPx
z*RCf%`q37=-gDREn?FDParF8D?bkb2_Z&EBn`4~3<(i#0A0eWqx5*J8K>y;Ij&TU)
z(%$ft8vNQ&U!8{hZJULBnpmu|`@MMI?<caow6(pv{g<HM2qMw%v(&~EkE|eV4XJ}!
zgn6~El$N#kQ!NkuPk(H$`}c+C{)gmwrE<(oCF=aq=hKA#uNw-zb=L83#B22x*Nc1L
zdVTyfE&Bcd-}{b%yfVYSib;jOj*&kZdR1ebcFETn`rgk>mDxk1-PRAgt!7-+{&cPC
zrgz7!_6^bUgEmJlB6WAzdU;w5^N>XdyeZtW+?r^KQ1F68vUURHIO1@wUUmkdEmM2q
z)PZ#J;v<^grL_`Jc^8NYw<>L_^sdOt@G?Oj15c7;LsP?Z&OI;bl}+iE9GD$00w5})
zx0I1RmF?lORRuXZcMF<owlWr}H%F<9%fahWC{#$A6m#4d&`gQGfs{ta0OZBz;X5U_
zgKMFj?+_l?R~`!s!_z=3!~O@p8$ejGSW!vow>d`Nr&}DK-ujoHSH0p{cKr=sfB8u?
z-NLt}E%QEV9T%5TG#VR#Y)HsW`a_{s=^mJF?J&C4!)1tQaGkg}S<ObX+L33;-aOuF
zy3OkT!Fpn%jC<46<;lGlxcD=T?QX+uCFMpr#;Etxox`vVcC@NLm6KI;aRRXV2CMqg
z>N1LQitYO8<`UFxS(e-R{fq>xMJoPXW_HWtmf66XVYP3l`<hrRn_WLr)TH%3W4qSU
zlS!;wC`7J10K7UaMKxxq_Z{R8spaX(5HUu>j0s`)E6L{8u=?4p`E<htol9QBo#k4W
z<pArG)!_t7z5a}=6dzT)ZIhV|%u&k~4!h)pJe=;WbslQ1S#JCKJ#*E}^yrV4-XAq{
z)sN)nS^7WTTVf$?yw?moSM#_vd#1f|y=nbOq~kE!kRyNxAOxtz(YnB@0E@FdipQDB
zi)yc`hRy=iW)fkI0UZxUQe?M~!hUsIdM11z1s=kssmcA^&}?tkQxBzVQJaz+6uuS~
z`lu|0<Aw4-$_n@yF*eA;32Y!Km@$|8OO|pYBdLI|M5ZIB76_XyQ#9}NQE>C<O~47M
z>u{Cm&X~%88h@WOy3(7LrMB2oZgKD)=B1`()eqNPbu2?ER+q)~)nX-(08SxgAS78;
zM0_f`8WenBdq{ei-?%67=1a005f0=Vinm45<S1zDOp}F{aI8N68F|{o>F?>i7IR5%
zZi(iXy$<ztpn1~TO9X(#DUtvJgu*f`G53OJa%(e@aIwbX0vPUCj0I01Y3#Inf&p-E
zi&)<e-pHIwt2DRN0eUDL0xvGXt`c>Sm97=2mDzQO<0Z99?7)<VQshl!;HrBPCiCQ=
zGv{aJkt8btVN$c&AE#c)PGkbX9b{6!NlNC{h1x=taq^75dJH#^2BhB5H-T&d<A8k<
zh~eX5OROP2u`6hd_q8?Q-+|}Fxz78|$SnpJ{v=%+Z5qa8hIFPQS_^)Fq^~iB?b>+X
zfiFCsyH4!A^Kbj3o<U!FtlPH!mvfHs_n+?h^Rm~?rbzFGWNbQO)v4|M!o4cp+E$#q
zM^DBEhWHpw=;8wJ!F07a-D?zBO^>KQouPSGj<D65jV|x5LM^-}lNCm4MwQoH00KAP
z7fQdzVeRyH*{(K+?e2Z4nIcUVZfQR4{L5v#Z^(N>v*yieN&33fGHXclo~NyWU_=EA
zE1Ov0=2P2#Wkx=llEp<4VK?NmB)ttS-04<UH|{Ib=Z|!GatyH<9`3dbKH99O@a%?Q
zK=2M*o-+Fa?oX23w`Qx~{wfjMfy6)_Ej)aK^JkTvRN0rQg;TrLzE2(6uXlQ#7?mb<
zwD|n);jpkdz&RIns{7;Je;aN2z@1=ZueEY<TtE_HbjF~=GpuB>Kho!6mFq<JD~K)G
z2034yInE_IgRp8JsoLG+?$Sz>XS5nQe*D8)-aP}PzT7h)7O-BV`FyCOT75-Nj2~Cn
zI?#227?z@igHsC!kB=L!Ej%{e6jh3k50yfodZR+1+NbZ`W6@lNZ${%?`{P~Nn~Um?
zThlE?R0_^HN&=n-qUi9GA>5!Fl!PTlSBNy$a*=Dykz^S(s$$k<$sSWlR)T&b(~eXY
z0vv@OkTuav*C?n<i&BdQd&j0%zGhXk;Fs_lg|XH6uO6YPZG%^G1H=N+SZP3hAQL)E
zi5Zwld}ZvFh0eYbm0ET8VlDNt^owrQ3R<XTY^D&0TY0Ja&Xz;etSp6M*DIju@Z=0~
z9GNEYRQhMX=lTA}2Lu08DdhchoxX0xsSFTWB`83CV%%J@=quE|gtn1-UQEUnYCmEl
z#>A*Qtd)c+;sYR(5j{C~7qbWHg$#ihHgPZ@!wQsf&Cq{?ZsM^+3J6J#9|O%d%cbz{
zp^z$}$)Yzxmd)drepYD7d<<Z%MgvN$aLa;D(>zFT6nw<VA<;%AMFKn0UK}FqqC_gi
zyCarkax8wa=0Eb)+K2kb{oc>t_~_ohK@I%-FeIL*e;J1U-xB{#Pk+OwwanSI|Lxa5
zmQOnGpX*5$6tygn)<p17x@jao;<$<R$jmUvX2Yh9W>)7Q^G2s2&r~M`)>dQ93}>Ox
zneTwH^XsjS^xWJkn|*3H{olni<7WvV)bzwG$p>lBJpI$%8Fi$D@VM0dk`l6&ln|z)
zZJHCP2xGZcvqC#@NOR(sp0{(b{tu1K<gx#<yhnC1<<D$%$fU;H^lgLA;>ALe8JLXa
z!Y0^J`dzMVfE`8>#F|Yw@EECRWdPTaqGDtN3xX#?oPfhpykvCmbmu-=BxGS@{*%ZC
zp%tP%;<vFE38YSpF-8{2&ZGr`CoaZ`hWv~P4Y&%PnjM5}3PukH21W7=jxRh0Sl+0l
zvdRF#ofrX#8^>14+y<B+X&|CvEdtsmHj*G7imeFtf}A+-giferV?qdRqp5|80MyE#
z#B9n}FOM0NP~!nq5<E`r1h1f<E3O7r4zUV1hA*xDVcW+sfy2o!kKFgixBlaKd*lzM
zsisfwKKxmKaK!TuJ-6%Vd#w5l{w)JFKqU#<xXJZ6%}D!vBU~|FldupsqUK^KCU_~<
z(D}hYVgU<b)92O`XKHUCVGCkZkLB1mA!TU>N0b!%m~^MMe&&S9wRMft#x<PXIAc0s
zP($6M=@Sio33#W^@<2J71U^5e6(kWvL+D%dUs?HX^ex1tZLR4xJLL7ry)BWfCwXng
zrF;5cnswkQ5p#XSZ2XeJklUNsH}(H8K7noKh<*CEdz{L?=h}A8>YLEe;#(w}jtCZ)
z-Ex?@0jH5;(J08e1YjpZ0wt%CmV;KDJFB9aHx#jopiZaug`EBVY|P$^$gIHbJ-z`7
zT0FpH*fRFvEiT6MO=>6$DVgh8%0^ZVW=ZCVqAv$gRqRzCngz1INzb~8bgGsC<BwU!
zHxJl5Zs79)i)1^T6o~0$%>G=6t8~;9`RC<7%0HX;&F7zP=QWO|CH$8BV&2Z1O^1$Y
z*}bMc$8tn**x8ZKD;^8WrQCp=qGOQUCFTqgPhnjP$@XMV2H}L*;6Vont{H<sl)IDf
zm<kjW_X=bfHc>y9FufOW5!+B$B2h@IIrsg6-?r)u$Fhf&x+PIx0u2+4imx4vU-}u@
z)d46c>8tdZ5+YpAl`q@rM8sA+hUbTsW3at6qu7CX#VB}$45I=OBP56kNUv<kVNEb8
z5j4?MF4zK`*v&!!B=##e8khr6o?IwdVX}%BfrhZ+A|HwwFSrUw(8hCC&c89BRg;te
zihGIa>*u4tixIj#2e$t0lfUwid8c%SgUxhm{#N$fQLyk+(oz!M%PT;nWEuAm>^v|6
zPy&~b#1^s%x|uyPtgG7fOy9%(=+-Ci9NvCCUhBn3C7Q#PBC5oO7CHq}^}8zj*Hw|T
z!ZQMo#)W}stPz9Y#ofV1x$;f>2L9u(?>kd`XE3=)hGZM~p>@gOj+m;udCzAKp_BG(
z>bq0asY^r>!c`(7C$Tid;`GrA<=D$gj5Cbl#TY}#6+&@&&eW;KX!#9+6Zki(BOooJ
z(hfe2s5D}vF_I+YMv!hIeUc1X0`BI^J<z|S8`3&LSRh{(2Eu2M$;QSlga<hWS~ws%
znZ(95G)$_WMFA?(<ETp$eHDL`ML9+ONB*XdFB;_Of6+&NFFn`y`jork*hze+w(k{F
zW%)ox__tyMy;;Bg{;{e3>J$DcuP8#1_*geZI0M`cARK%VGHCL7Ks}n!(j$B%>lxaS
zC%Fk$7cdj<f-HQ_7Y#n19v~lhDUm@VLc)(M<4S48ygSW(2jGzq9PodE&A6juY!<{S
zMge@gB%k17<AgGc5M?G|>r5=NuZ0m0+yLP+O&%H|LD{f_QLq@%aRSTov;y?fO!+db
z6XxwlG6nrcd69+mJbrSxlWKS~m>Q;W!*uvefKHNwhgJ%~H9WSTA4SkS%t!(Yf=3b7
zhw?=H)Vz(c^SJh@gAc~^3@hLK`OtOJw8YN$v<IHwqSu+8e)gBsy87sCzmwA%7@xLX
ztr@(Q_gM5u|1dA|wquLrioo{Y#4%x`Sva_R737y~Z>cu*lppdRzA}-nt-90^T<r7r
z7`Apj9X=Ftzm0Ii9?-_l5P2lc5dWefZp7L{x`>f>hEbr8&LCWcLnI5%ZMQj)bS_bg
z<8nB|SYLvOmV%+4!!COVb<FE>S$)kBo5$cdbCv;$_1Z*ab`peP$wjBo8geEv+E}W_
z$LUg+Y|m*O`Wp^1j5;kB^`3>C^IY;z&?h$`R<=v1iU?CV#KFx07rDz#LH$ThOywHm
zJ$zyP8dpq6t&h}4*nY_2DX@$F3LDW9eZ+;nHk1qmF|vJ!zse6Osrg+&Uqr7{5l5D)
z>2O$iN5|c;syA_bC-;>xZPJ}Q1-z|0?=(dxTP~k$F;o8@)XE;z-nwEybgqSu$LDG}
zkI#h!!^}ku<9+yLD+DV`@XZQkA`z{?O*E`%ad1F$me9VDox(6&!kLFC3$V=yn=hBB
zEQ&*5N1_GlP?{sgTv%Y)Vo)%*#j=sSO+qgj695-5F9O4H<mlMQIbnGyl@g>9Bc=M-
z)lvqPL2Ll2^$fCfa%^ElIZB1AXjV3R-!;GvY+x=&$0J4wT*8bT5P~dXMEHO>2_6q|
z1>OPd003J6<EL))pfQ092WG~EBAbmC#oXqQkgRlK?Gpeg0xHC!1p)L#WVFFpGzY8y
z8=1Rw@6OlzTlJ;?_1*h-z|5Jvf1j|o)#CWm)i)g4+Pd<UXSY0fgyll#OHh<t%^`?)
zVb(yabHRQnCh8Ust;%VMNP*e^6H!N9R@1?F-F<JNw%z9v32|`wApOje%%ZIR7%4J;
z+7_%zQVWM<iae{|;+vxnaV+65yB~6C_93U6+gf`~89>;AbEDqeY}JgEhrpq>zQC;7
zrcZEYF)Dv)GcO9p&$RLx*<9t~eAdpe+-7bI>K~VL%JYoLor}bskYg;`orEc@Ez-*N
zBfDPYXbd+s+Ad*r@ot0|ThAaj$kJ(f$ssBO=Wf1f;IiK5En78vuh}wApQ692HI58!
zf83d8x!MZL+<SADYC$N?ULwppi^S)Tz6Y5;3KW2Z9K9q_)-`b6D}Sx40=JbF3%eiH
zI(FZ7A=QRmMxl;=Z^DGSbEH^w@Q~|I^**PC4o{gjNDK6C0t)WZlljRy_bj$#kt`Mo
z+BSJ4l{ygUJ*fF=$0RoK6Jd}`Tb{TG(~R90+VkA_U+G#nt&|@p?Rs-(hx>4xOFY@Z
zJ>ShVthF=j<4SXHo}>%akat`^<9p3_xHD~${->m^aUL-U2JBfqBO6`@?+YEhA9IZU
zoY~(w`wU%=YOO`fhiVgl^BQGm-)jS+>jze@ADA5%&qk>!eD`Mq7BUDC@dvjIY9B<}
z434jsJKFrXE&Omb()B|*vN)mqm!6`ktX7*kp#|FrKWvLZBu3jJJh)>kR85kD1pZRp
zvT_W`S4d<f6&9F~3W7*TvSkrmRJVmAgke<W4M;dqs^^wY8JKWlwq~0xP2X-k8Xojx
zcu-l?4dn0*t>J~wjxv??uVy>lH0^Y01J5(%edpG$jG9d!nN4Q&ihmrYjt`rdPQ`2v
z=Pp8>Nrs_+L7snlf+!Zr4aJm$pLGo8IwCy+=){?eNxLDI0&0r{9m-R43>l+jF^gl`
zDd2`EYNqbM_|wk{1P4V$Z-lo<asc(EK%yS?hC2KJAa0REO0=J=0O*`pP6WJEW;D7;
z1XwUrjKCMMBcBjQbuoA)EjRHdOltIp*vA1afg59?|6qC&r7JQOGHFv58X1^W+PVY5
zeD~xe7eC)WrSmMwz{gZx$~8tTIFTIKZ`d2eZgLdKh^Y`T(%DJW1mR5#VqBc)V8pyc
zz8GH{tOacnE-xGx^uK<Q&cB@0*F%X$O$=lzbP$>nzHx-XBp?R4D(L}uFEKMWvqXS1
zA|V{Imw?8ZzzVQZv4;@efy)Gzn-`u%UWg~~mGjl;Zjn<r(;(3JvS<zhkbRo0d&V)3
z+!;KQ>(QtQx}S5@q4J^#gJqZi64Ccd08qf4IvkA-$c`Tn1iYVy!^gA>7zzPYJ?fmn
zeKX#8`@Pp}rq^+mZ&~^13)}a}R5=3+j#2L;J2-d=DZ+Fb^I#$5c%#vxD`He2?VlDM
z92+A$C@l0Q<T9^WwfFNxhv~-8KXA@j`{DbWuY8bCxJ<{$F`wF4iM)v&<xQbhLZiqP
zflTnLuT#q#CQR#hgv4?O+td;@aj~?H<YVwN(e(yQzY{XSGBIGc&*(6U^2+jx$FK&m
zFekPoIhI4DK1;~p9;NTcs~c7e23u~>S`J@v$~hFsvAZW)RjtR`+7{4nKR0HkqR*DC
ziZr3Wgy1>v)ACb}CFg@c2J<7WdRGhLfC6-FMP-$Cga0*SbZP51F;!Zw(ehQbwS*M!
zyp~D=g>WzVTio~B)eVCYrODncc2=slJ<tvMa*vMzJK|H1d0gG|X^oZ3=?TRYJnpJE
z7w+Wli2Dk=L5nWAgl%^H%92KZB-9oQm*Z7yRHdnj*?4Dgv!u>Qc3)>JTVplX1j|Au
zE~~vE)A)7P@g4H-J3CBM7J5X!{D5Y8;H`!Ml_LiWmwiNY9(jJ*fb10>ZSEuMP0!}b
zLkOY)W5oX@mzDRjguDV~HYh~mcz9FERO1v%?2k|tD8yJ0Lz`PzPW6{{;3$73m5+m6
zE}L1H=;n4=rox-j0MI#uCXyA1pO-x!D~${k3ET_Fu*y|e2Gcd22)Un}Pe99}-3MJ#
z$O}~S5audueI$MojU{>=(IlV-E+@`KXKzI**dQCPh}`Fr1hB85xuMaZ@m0@z`f5`r
zT_SuVDzLMFpIUvUg&g^E044xa5=SHlnV+!$(GYv7XoCU)Vz<em7~_j6dUBBy@XCvp
zRlVj3y!F95*V|2>nM_L`zWwItkz+g|OeY=2<nEqjTTJuHc?|hrz?9`)l6O%7JxEJ~
zTmsxk1`CLo;<D=P7ki@XU%v@a+2ezaC%516+&d8GE$)-2`Hr7oRB6obYNzv<CMhqV
zdK@xYrJxQbT3INl?sH_~!i%N;ntrw*aJcSTt;^l&L1hzKp!OtkdL;V;GJIGN?tH1U
zCtz7_1#z+5%yoO+M{2!O^Tl6NqnwpJ618=#N3XoXQE{o9mP_^VZ<@cJsv&wm(`>#)
zkN%(){h)pSgsI4Jnzs1F7uwz<rb;~HmupX4&YkCN9;r^+0mgqA>Ry`4W(sKbpij&9
zUC38LQF|9#Imxt;G$N>O!WFovFwSD_WQu}mhl`>qMdVpd5xNWQI6)eimWVncLWAX5
z?9=2X0bhUy0gXVoRZeiPNnfX%o7Zbv3tu8q2j_|A7C2%IdA-OLsiI^9A|Vr^zPEiB
zyb{J;l;!lZq-F65(Km2iVQ57K!J;6@e1d-E2oQWtgw@>VELxMgbVy$fv_C^V+Eh@e
z5|$gWiUc+enLx~e0;MCKSx!HYFacp)`9OzcX>ob;X4AFG6o-*dB@cJ!$30X?0pOHk
zT@mjqv={?s5kC`Kg7^(^edbco1exu|b*Qi0IcNC-txJ4lWkD*b>xV4mf~6=>iUB%F
z*CFo-b2&*ygwG-&qM{@vjc}RveZ6nL_s)^7*EZkr<EJFuYe_#gXpRr>zW;SwL%~h^
zU;1|4E3^h^S1LC@mWbi0JKR*Mj=S9n_M|)P;_~*Z+_+386l2ol3AOCRCKLhzW3DkS
z5Sp#2BOaHCJ4)h5!^fz{-Gmg(@Aj@6Vp(dfn|z-8Z*JEtaD#R=Y{>YD*+qt~4rV+O
z*3DJ+QRyT5Cj9?QaEl>!HDj{@0D85(H73m!|8^{N?Hx^jM?%-)^z0P7Hg@`ca|S<G
zZm`7<$_Kn$O$-**3Q7W=p@7QYr0P@QLor6k_8{aj#U<{0ZChgM89}=Ma)c*E&VksJ
z?h9~C@{MILvn+k#vYA^=RDwD?l@w0aioHRm0NoDiSzrcMbTFi|PYZUC*{BpCnVUrz
znkEi6LHM#G76C((x+pcmu_6;`3_zj?yf~(e`$V6~HV*nNm1So=Akssj{Ah_d)ZByo
z1nQ(sOCSGR_ugr4$2$+7e8n9Yk-YPsw;p<B1zN+|nq{_Q(=&g6)iS%~$Y=X^U4=fi
zQh+8f99V+pwno}_hVF+M9Mqx|BKpiBL(4q1T}VP+EM?x;Qrty}4q@Zm>(Q^ZxHqJD
zk7bd)p=OUzafy}%?i;dI*<h>PXQ-P~Y>Rpt(3XB?a{vuZ@ct^%+_uEKH_`0(Df4Nr
z7Nq&Xq~9rrpjvKAqB=HI-DOX<b4ztiuW3++6e%<0Tj|$WQ7^g=D%+GqxF;ZhV9l@W
z<Db#@`Mso!Utx{j;Cb%`Pxdudb#+1-DN0FKC&W9())5vXHb;nHo{3=K@b9$>)sWpc
zHs;FZfyYLUR<;bBo}fBnWh=OQ%2~w7xC^sWj0_k(8%}*FcJexjlrQC;QS+_3Ie8Sl
zaYu7Fpj)`;#yG4%gQOf$E@25+S_qL&>42<*Y{n4Gm`gR{bIM|L@;ez|dGmR$>1-Kq
zIdDjcf+dB>Imj1dNG(OU#q~k@P+{}j6mvDVU6I6Cp`oS~g~d|^qpQWa)P(GZgBi<x
zY*x!*__=RTf8iK{IAH?k^I)c-ywI|WNR{!I@2|8uCX@xy#k{}{^D*d?B;%UO%|c+H
zr*gC=fJQ83tMF^lmj<-HH1>hNuOs|X()3n5^yuGi`kB{y{FA1=5wqj!zwUq1HfPrM
z=yNasg;<FxVSkuayC8~fgpBxBAY@-Y+=U}8(3&*zbU3It#4>68BP&H6b6UYe)Xl@y
z`%bM}y_n{HEt!FK`QSuwo$<93Yn>O05X2x^zR`J^*66+MbXQnno_n&AHY)w>l&z|E
z@bW~<6ws5fIN5?>eVRI&te#7Eh{jLPz*lCE3Gm%5=^nQ8;BQg+3GTawYvJX^`nDVl
zmR&*7(&Mt5zDC<@a^HJ8n_PnW>srX2HbV2Ihtsj8SZ?ZBsurcY09y%Udy#|7s207-
zJo_qh(UrrsX}$N>j+)#WWUU2&9y{EE7+!f-D^y15QXocJCOjPow($re(!`fk&B9&;
zx-oz1l&Xa22j=%aFqh3!vg+ZWrW4%VvOhu3Hf&m6`WXohUe|ox;%UVF8`~#JDGd;i
zg47kg9*Z?)n-IoI%)bz1#8D6?0>+NEtWe!I?0kgIr4&J$Gh&X={IK~B0d25MWvC3s
z7VvdSnt$$hW)}{tVxKzQSxwSFfbSP-6BR$6@-mfX>#Ii+fkzE(HItV_vv80JMu#~i
zgqcui=q(U?MB4Bn@T$xj2$m>`9B0<jq4bs=U37)ag|NuD?1<@7PbjTSed{)}d1cX<
z+Qr#BQuf|q9{cRQAN<K~dXC*$8y<b;rmZ(b6KqKdHtXK|K1BKX)5pu+*5_E~){gg1
zqkB=Gc-1?nWq*E}!Q0b~=DjJbN^PpsYBhZ_gaDHyEg_LJ1K`||H${{1$An@R>nEqy
zxl?V4VTo&?=}sy(8@`lPTtZD3(c~Fwt4g_3J)W+<9PS-zt7iMS>;#e>Y%D}J=G0sA
zxh=hM>8|>T)5c-$NHiNQ%cDKd7zV*U5ll%T%OE!3vfQ>U-20%Fu;yN$GkaJF)Mn5y
zhbWQs*Bt>iNhiIZZk;eQueZ-RQ9qwY#=9(0EzHbmZEEyi40I}%Ds`1D`Bd=wMQVm!
zy_IMtQt6=*tW<gawD^PGiJ7)SH8I@*i`Jcl^l!d8kZJqKS))vuxueb9;og^=i5bBV
z3sD8BkLWkK&(7?<Me9`EX}gWw9P^wBy?3K;zzFX?F$@rBVKB|AkH}dRYGm0;Y$<R~
z+7?GET!5aOHd++iOR`>kQ{yvx=Z&xwAj#sf_zaaSPiZLrPM)BM`Y6pj&R8|wIaKdT
zE3a5mIv69v`Eh_pk==(9BZR_Em>IT}x%ZFI%hEb>nC2oueqxEYR=>(f>jaG*x6)k}
zr?0aFUEQpa4yAp~>ojTP+m@P?#o9vmtR#J*I+A3S2)LWoyMxt^IQ?gCkJ^E1iA$g4
z5O1{_I9ku(>%KiC!?%!kLVP=wNt==^IkvCVpR+hS%ag3&W8Tv;%oAo-1x=HPK^%9H
z9>77P){IOH6S#-8N&meqNi8djACmSRKy}1kJ3#+D?bzWJ>Q9x)0Jv=na$7qs<*t|q
zu4<#n_8AJ)HC|rchS7-H+Q&`x{l?MM9hmQ~7^UT?@Ng!+MV+Aqt48X#WdgMkZ2_pg
zs71Xq(%ccTEz#`bURAS(>YHQ9JbIRXx0cs)n%UQp_O6u?z>=5Tz|?G<6>3e}sLi)b
zwz9`oT|bl?tF265slS<Zz#8g|)XvxZ-g2i#I&ZQB>ZZM^j~aG|JK4>GHup;-Jw`k6
zQj1h-c}@_w2uWI4a9Jk)wgg8m2qs!PY1@9Ctbgs{JLDw_=8uJ(X@#5NMizZbq%+7u
zszl&-JMUTafOYl(YjmEIkJNciO}RgHsLvf*$+V}-Nznl0ZzXs<kbgGvyFm%G>P8*A
zCt*DN#fLvimQo7~=TpfNJ;RbRqD!R<FAb<|u5;0(3&cZuEF&2rG!*0n8x*J`m0-Q>
z0OfL#Y|fHwYZ^IH>$ToKSH5^()hn5VNf|^QAZ3T_P`ifYuzN#t+em&YEK_;IDX<cz
zLCXbLg9<lTqMj~U3C#{C37jKA&NzVpdx(*u1Efy}Wg);;^QI}SeBPa!!+$aQ;Z!XX
z5sc^o(47>i^Ty6%iUFfz11cOMb1p=V<O?DSGZ*?+yL4B87u~OJRZT_ukaRY#Vq>L0
z;0qELPVftg6$m4KB~k!D>k9k;vWNr(2q8ZTa@l19fmAH29z<;{No95dk0P{sjH-5P
z<#~_j+Vm+2y3yU%mEQ_A(PSIwYV@<9j&-snV!W?_QvH8eI~TaN>vRAAerZCJkbDUt
z&_IDE2o(_05FiAk2$W)}y<l5wZPl17WaTD-mOAHbt<`#)txlb8+B$XB>E><Tj=IuK
z=Vfl{oOYXT;?`|?W)D;6ylm|MenQ=U=bW9_`Jeymyk4w!1#<c2_x*mK=W}}~CaFEt
z?}{H`922}0+87Bm$DNC729*pIsLU8;iWGW0=9ADQW#(tbm7yGIvY(Fxo|V2m;=5PV
zx;Ngd)ucyxzG#^L_+ls=yO`05Zd_bGV!Fp;*r2W|n{K71K?y-#1@8vGqRd0#xwz_x
zpJ5|J(2M8-uWusAb-{VeM-H9E!3qem_!G@n>MXa7#z|qj(Z=l=RrAWDg)(}TP%=Vb
zQBopshGpk`qf(9`o~2smcEg{;%u}_~ZLF(T)fJaYhD4CttqI;8*Ai-N!NO2{An3&i
z0VS_>eB3JI35djxrx(F_j!$U0pE$1ik18g0^GEu{Khr<(&Vj`sh6Oh{+%$(Etr@Ky
z03NL+#U6o8D8OkVaDakfGRzWXAaMaG6T!*QGX;6Elw>g~QTPt%5R7ONYQTsPiAzHJ
z1?)#;F!P%U9*|ikECVD;lI0D@L(5q9pFm~WMiEm9s4Rc{_o%Yrot={p&X#>|T>t#P
z-uJ2CfBy>)`_|=qpO~e+KfdZ$ZyiLraI9>c-DZgPk(H4M6Nb(HM4*q1DvO2348L*A
zmY4s{&oNqBfP9(he2jXYEepaKMHCM>%cl#|3=2>@`)tQ5hfD&hoRG6wepVqVc?F<>
zvo8V!IXufmdJ>UQss_Lw9ue(J6l>L}2Pz~(&C7#lYLOa9KN#*Lyw0&`SKb~OgM$zw
zl9vQ2$<8mEBgP_#a+saj*GJ}&^|YZ(zNS2wjP>Dl$h(4#$IB%bCkB7XuOA~KkL5DS
zLy-SRl$2b%*((A2o_RI1mw<X&9#Vw&6tm$ZHd%@$ep>#O@TAOtGjJ&;1OA1B3dtlO
zBrlk5Y&I<C*b`uvK_;CL?EwGs+4YtKaqwJTUmVA3CZgxF)F^%^L-Jb}UsH)dfY%Dw
zIux(SYaNr^D0!3ek}1`ymg5b6oCplzXqhT8!l`4G8z3A{EM0V9d`K?AXO9jdoCX;k
zkm#*h@3^Or8fJ*=w$-Co+2k#ioY8A#+{}Lph3f2@gRZUlp{_aqFwMnu>a_U2hG5>-
zB#7DIKt%gSyc#*J#CA)j2x|!ZpTW*ik_^DWC2oXop>v*PcjAebUS{K-o`^<0YsCqe
zM!-a0#mPhGiJz7PS=5!3!O#i(vJ6_2{57UI$J+bFWQH0^BuF<*FIkQd%hNFt9p+Ua
zK|q3x{T#O=6*wKGY;1T^NH#$zNAp%6r_T$u&qf^i;+sE{AWbhJ*J{kOp8L5Yon{#@
zc@UE=ayoH(OAaEa704QM3()Pb3BpdW`w+aHAnSVYn3}0@)%21z!<1uVo}~i=De*?O
zCQ&z|b75Qotp-RNZruPGr!cnUz7bZAP!CacAo2J2Wn-S$PsxA+dwx}~MS^zrV`hX&
z1!qySqjRztdKh+h&XcVM8B%lJd#xGK(vZPyaCEF35@i!`wjuuX*ZCLcx>HZf{L*cP
zp4;S?UNiW1XhvfD4rhMLI>)71XLG&IZ~F|*Cly4-Q!h$#(;|Kv92rYT2<F)36`Bjv
z1N8?88kwx1l%xwmD+3dwd*z%%rYR}Y8Lm1`%sSRBP&cqYA}c_ONv%e(L3VDOhMG1A
ziUtf+Gvw~me7XDf|I+jiT^v!Gep3Cwckt{WP1ScyFQGc2g+~(4CJi-@{Es`0lM#ju
zv>1U2tsGK$tUHtdbnWP+5L_V}BYl9wQUK9sYW-TE`)W<Xz?0r;@;QJf5JnQ8ix?8U
zJ(1@CTEL7v5n;5LfoS_Vnz31P-ZLpj%mSEm>0(hC11O+j;Ws41OeE+)QNs8vF4xL}
z*J|dz3_W;5FU_d5htxj-gj{rdfGE5_)VPF)P(*N7p%>G4I?(?oL%Qxl%7u@``(iIv
zOQgf1?B$(MF5!_2MoM-THymT^D!y(qy?Z%XSCoy@<Gs9SBB}s)0FluRK!7oXfb$l}
z18|L`PViz0f<~YZZ2|JeOX8jc=Z(}c(HlsZD@S~$i0n}Gp+Ez?)-n@_{_%*Xag}5%
zTrkjpb>8!*yNO5RDa8Lv6~r940IV)c2hjq_gb;j9gsbo-nbrcT$08+3h!7MIU5c0h
z-MB<~!p}`6FO;EoTtb9?Tq^R`8N`b=19XsH8u~aGo!OaPv@_fB;E{)?EY6+Tp1c0=
zo5^4Qgd>=5sGZr}r)!tCO=PrUU@c=F{u*WiAW*+_QM2cXVW;!FGO^jLHMOZTEbhK>
zr1`_iHOn<K`=R=^rFfWxGl_*V`P&l{aL}@UXH=ggZ7Q49!LBusHZ3WKLclGT;<VF!
zHd1?sl-tHQ7j!o?9vq@IrsE4A)KB(|!i!j?@HQ3uX(nhMhj1pd5t}xt0c-0l@x`f0
z7Mlc{o&BI@B>(qxt0Qw}IX7m{Hsh&e!7}SP*w^K3jL`6qfD7-RF-2qNG`-^I9U~eW
z$jlzIdP~`S$0BkDZRYImP*YaC2?SfLpU~BFRwm|(JdQ(T*c!Y^H}!~Jeo+6dOQsx+
zr}ftxIFd3kiNjIpgVfKgl^p|&49lq365h_5%#1M9sWP@#f7B+*){2GAo%*KImDy*0
zHZ&W@v!txVB1}V-I7G_|G(WSE5E4q~ZP(voIH&jG5C^}EnBXE1oa7HUk7QTk(U-``
zF?4a>LKiceI5_R67K<x{<1<n5cB^MY_u6nLKzmQPW9=EMmXzFofS@ok7*XV+fEunH
z9^qu`5e4q?oS_*zI2Rg+HV?4Pw8t9?&N0{|_p$0ZBbV?v2hi_Oy2C^IfYs~a(~OR*
z%Q+`$%Qq(yBOYhcjsXfKRn?4^aNck8zFG+)dyFzo>+gUx^hdnsVV<;BoyU|PM@GHd
z@f$7T{YLq$1ZuQze9&7ijz0a?$`momwD&R~qN2L)XT@a9r?zmf=2yBz;NpwT+;6+=
ze%o|w$3S9&gN2X-jurM^Qi$RR^MpR5jz&5Pd(9XVb|TiHc%JD9+tYos>fPX9c?4vh
ze-{N|^ZuWSf(m|=ZO$?j&HN~vukIhsdIIHCIbFxAvBGwAgI={k^c7d3T2SO)tA{Mb
zK`>!f;G!cFwptiyUD?7Z7`k%HXo+mSa0b%P(!v44(%8t5U?v4}N|S=xOh*Y&i*X4~
zit1j%4w&4+X+zwrOsHT_M@q;JNr+y?yTv|VeXCgut+_$734pI|GmA~6yBGcnhZPob
zNLbDTfW{z46PbVrA?QnSZV*inlbIRx(T!v=v%L|-CRdh|2H6TmK&Bz5@`@wy`5asE
zk{h*F`;DNU(9?{SKX*{Aw?6egY#tm6Z;a@1Bp_hju?TesQePYm&=*J>5W$cnTTijX
zsll#C8^yb)I6}f+hbIg)5V-{=D`;enON@rJt|%W$Zq~}|H*ddYe<M$V=!Bt=^twz)
z0z@a+4+U9-K@d^giJUfEIYMcG6XBX;>MiTlyb`JqY4`-mMnNIj%hYQ4CXx2nGg%$8
zv+r!HR$j96%70r!aN-&?9bl+9@QC{13eo?=9Ux)g$Oz(FOGZflAuq0p6PPoQ)0bY1
zh%mP4q?j^ke{mWxF$&NVeFih+BZ<XUEDxIGGP-){uW5G=S*LqAg2)Q0=Z@v&k@-nD
z7UxnU2atdbJUmUGBz?+|0Qy78f(B=h$;MnP4h=*<D4Xf?wS_xuTJ>VGnf8C0+DMEw
zZvtJ82v2y$ToMjHL@<n*2S4C&BG3d5oaGYn^Fff^$a#af8!sF3Jc-4lHD=xhpHo~S
z^+WjOxK10-$)5fKiY3BYVC*@ldGqMLn;<A*wlI~Fvw^Wyy7mZQFa#%B0FFSqSy8>9
zeWrZ{be2L_qWpvfp-KWa=02k&kQiiQ8vw0^#zas+k{^PRAR&AdqI}-WpRr^+E!piq
z+IwKqYWP8x;lf|N{p*LmyWKQ%PIkdL*<C+>@heYf<k(;S+P7YN`y!KJLcO50mZ^{Z
z?4Luxt}t5Qol`HFX_(ZU{DL2#{>)GTY%PC$PhDy;8-8oVzA$sxwd=4;TdBTLP_QBI
z&3}U8i#_PSMe*B$wdSMVyaI3DOs$!(^|fXJ^J{c(jez+vy{*}NG_F_0pT5{teW_Dh
z7x=!T=Wkkg<==`{JBs_m%<GEyV)xf*mA$yOAfoxuf@;&e=_Qn6jIO|VNzWkua@0}4
z0;q%#4nZoDl*FhX3U{Io`GUV>1S8=+TxXUXk!T52MQ=E@HCH{PITC}&{J(WVX7&L!
zJ}8UiWgtCft{LdPdS(8bl3v9+6KatXktzz38a)NoAVe66Kz`<7NyP=V6(NC{C}&~X
z8H85yptk<12Q{}$1={M1Jyffm!{9tBE!GuForFfB+laVmU@qTN@3J`&4?{FApE{Kq
zmIu%vN@47+lYMYt)V;JxD50Y8bL#D48}(JJ<dMB)2J>h<;vM`}jdqwBkYvF%Ql#<L
zx$kLKsKFVdKyi%PnGKF~cBErmD7<K*o@Q4KCe^CKGc$v)nO=hn6P%Ce7Ip{mXqG(m
zmOJlE)L()DiGUUB9F8xV8G^S19R(A7E+W?^8%gpoC=l6n(2a<=mfbd@9&kF~6yu?(
z2h?9&E~fX@*EMW>WbXO!BiJAChJt6I<YtrzdQ{LRrqr+}<Lf>--^CDkmWWzw-2nUs
zV#bFVAXlEH&!r+iAfkRk3|muDjThc422=<abTpVQ@DuT|u;+5DMA)zr^;}#^e)<&g
z3TiWvxo<~o(|14l)RBnmqmOrA`{YG456^w~Ve{R0?t1%S&#s3)eEdz8(3ZC+oIlPD
zk%5r`OX9<{^^v3s<r<eRQ`b0m|BEs0aUOQUe&OGLG1ozy<slm>zMstrw67ONU?8{r
z7y{6<XtmnyU_i}#4g$KqT!T;=EF_YFGo05rAY9a%Tw5QCRLd=vo7Ho<s?urtzTV92
zKu<!wQ{qmeI-sU=E+U+sSh>$ROdk@FrAA65MD9Der1@W$hpMH=S!Gr4<eHYFj}4mi
zvWs$?6;Ie&DFY$~iNzy^m9cW#fc~vspnw!e4T>4&$$D1ve@C~b?9;r%f)b~tLBR1^
zix#y!YPM3gIYME!4?v#`Sc3Zk!>{JC!)2&Mo}0>R2${9|ZElrSOBb$!v+!=bflBPZ
z%Al7KfG9|0mQ-}IqXu|0c`T(S;hZTpOUz`jbbYYYCNM_P+LHE_3EaSd5W~a32i!6B
z`-3%jj7V#s*Q{fp$l7cV_buwB#<~V)&%EMbuzh^Y$7Zmy<h^BD^}%9)Mmj`o?>WWi
z=~eBnF3b=lyrMy3tWy%16w_KSE*vAafEtB<rU{(2o)eSPkEz-1!;}~hT`%Rjtp*9Z
z9QozvCE#YJ$H`Y&kF)V@j4Ma?BQQPlp(2Ct>f)Jg+C$s4z;~Sz8MVT2>Ix~Bb|5b`
zI47NE0=8HEa6W@)2wC~7Lkk4jE&G3(Ki}BfthQHN%FG26ISgM0yrs)y^I*qA;t~=M
zDn|!Vcj{3KRZ^pPt;wIq394!>y$Co_ij(L>Z;n5k^~gKf_?@{oZ!0=T&n0due1i!b
z8zh>r+&OTPaO{X#vA477us5)eatI^EsZ+7y5q^bg4VMz~3f2;$Hb7}K8EhBv<ji1B
z*<g-#ci9U?=3P6dW?m>-_(Bma8QBNlEYdbBtz3QIx$srDo4agu%<z#qxln6~dNj?d
zFKBDjjGmP9&O$9Rd5a&=Yp4%LnCO>BoQH}WfMSU)>TVl1wb={>6LCh1G;8T=^NNRM
zTI<$G>g_E38hV*DQSbP23VuKD$mXf9nVBSOI?<RIRSy?xJqxcZ(#D-9x~E2+ZG~D&
z-85f|7d*evg)=*m94lBk-}zjjt!GWo2DP-1HV4B6j)tMB{iQF?H+7LtjYwnPaW=_W
zH;o3b*BsW$$mU3XL&1(bCcOrY>8gc|^WB-?IuiHJs$kI_xyd-1axR%K(sbve2-pjb
zw-{4lb=YlrC-)NHTCM0$4%J%7grHHicRs0i1F62D!9;0xal1@x$#{(DO_Mk}(w0Ze
zG_X@o23+o$hbxvpT=Cx2ykN`RqxZ}!xM!Zxnl<ydeEsb4vR^EmF%`~!y=5xY%ulsW
zwr^SOmUIm$ABKj3|I5%zrtE>m0F6VENG;xsM~?_>Ao_Upj_cjkdsO#R1shM9*Ts%c
z`6D$Z0%gdaxZfFfw4yo-Vfe#FCbNpsZ)JIJ9G^G3OXF86B~b+(1}IEOH*8?dAU$MK
z2<|Z^27&1jIm`{UpzP-Hc_q8F>W5C5w~wm6k>D0Yz`P(yT;ae)Ce(mL4NaO1dL=KR
zzAj+6b$s5&U(THn>o;N&IC{V()&(~qwg!@ZB)+gNqJEz{y#eaKS&A!&g?bh;QcT2k
zs5BX$2eH7>ONoqj97P=)M<dlHI%83Q;98bZ4(O9`!Qtb8)F;CYtb!OUD$00h=9^_j
z-z;-ncJPD8tj=$ix$oKW(({kZ7-!zeDR?KxcH_g7j}r;=op)aN#*F~^Bg7gTaT34a
zsT>*&kMwU#BT?;pDqs`WnhI7s7nbQYm7oHtF&ZRBr0F?7I+0aTFi>OfamzqsCJ(&*
zuohKmuZ_8oap#aK`@C{0hjX3BjF0Vzvej7A!-WsoZ#Nx}Y_Z8{H0M8a<b@;eqYxRL
z@^B{xc55>R&t(SB%)ac>ec3_t+@t3g6r5i$W1h>`dj5RT_6ZYZ&$7?-*Sy+aQ@zgq
z-1Ak_XQTI#EJ4ZZL8MLm7k3K$3#zODkSqhDNT)!I4gUtp25Lh+Mu|<0i`t_BG*<k6
zC_AF)Pm%5*^8EL1<D%O==fe=9O>AN>1ELaj1ve8-M-=9UQYw&C(Rp2%ZBWlrQ6uA~
z2LqK;U-5_w2EZ9`3%e-X)f@I=K4^NNXbk4=0DpxhgdT&*<8|Y`L>EXW)W{^i7@{Py
zGD$QNmsn|wVb0U16xs||Kl<uD=Q=KZY5)GaX3jO;cdl{ogZG_ld+CF{ckDk`tG<&1
z!37IdD|6~roVF@$c*VTNEzw!)0FBo!S=*z2npd0|@dOT|zL~A1b5Bwy*tJB#&3XFr
zf+AbNo7sNSTo`R_O#p2SZ&SVs%e)ZfM1Kk?I@1*-d|YoL#tCYFe}RK*JUm$R{z8>>
zslP0Ae%pn4W535i6x>MMxwry`+vEItS^n3IvCZmHTkx=!d%AvNFelJ*zkc+|I_Hyh
zjtn*B`+DPD;Q-i5a+K?fB5{YS<xEr8QjE8rm8pRtAa9(b@T%&2t_h^}q^i-fP`hH7
z!~R4B6D<=QCEscH^;NWdq#Zq=*~Dg{9u5%q_8r^ISB<ZJ)fn`cv}@n91%elG?hV|U
zM|_$V+?zq2pWt7T&%Lj=eNESPy;rE$esHLw-mKlNJD1zlDtlQv59T8RjTq%WwcCei
zbcaY#?xo?R#m5(p6%a;G;#jc_AQGd?BK{dx779DsK&`BPoP8;$8Ev%WB*38JP$vZh
zv>NXr0$a*Hs>LSXmx{H@(z&j}Ye7yKk*6Fs2XQXwdp;?jUP6n3lZ#THFbTX~fR1>}
zxc9+m#RZ1_R=8fWWhpR4xdTQ_n~1`Quv!_+31%Cae5RtvTdK9^Ue^7+Ix_*?>WziF
z$~3K4eMx2ykYLB{PB}`<ZIk|2Iz(<q1ZgxZO-)Mkp93zyD~G~_8b%!li^(oaEQ^2Y
z%dq-DwV(x!_@sl?{dTQ2$@HeA`gX|$8SKF?K73XXEhOy@`xO>_D0E3QBJ~kO6|Hp~
za+&Z40(M}4*>qXS!YN}Wll(h+Qek1}L}_RmnnGX?oynWEj)b{C6VdHrJ0<BsUAmx>
z(t`?%mCkg}NdB9wb5IFv&vd<v+oikU+Aus&M1y4I@OYpvyeB+%$O<ru`;p7zg9-RL
z^&Pi?4G@@Vh89-~>x}-8x~>3~JhhgXP3g6w>i&Wk(FxOXF%q+x9fw#jY8%cb8hn~4
zjHukhFaz`)A}ruSXZWZ1;$@vr>*iEo7;Gx+?N&diZ0pxsJX##~0Q_5=FleLk%5bxT
z6Tx0JIyYNhL^8~XMz|kN5HM^R01B*viJG<uoC66xAOW`pItjKwHX9r_+O~ySDE9)J
zM6o*`o>#f(yku-7OyiGJx>W9ftlUc*fb)s+04K-xjJ=S{hiV`1Hcg|1SpgHN)<8M^
z44KN1XieL@&SclY%fh|D$4~nTC;=1&JK<Z~ptWqgQFGyV9`nU6Sil)ikxCRI$UAOU
z$PFlPt~)>vGBcPfZYuDyIxI2j^s=it48f7;uQ>D=A^=k+z8-2#PDbz^v}{1|KA%&o
z&i`tSsO^Yc0H(@V;vKya5>-@hBbzeMhysD>k_bfTB{{|G)T7P~yhRuzZUnx`KEi55
z^viU=H*;MuAgs&|t%fub^59s}Fl1+)qtyhi&|IsQtbu#cuRPmLZW2+%b?WL$2RsTI
zj=#Fw$(kn25!EK)7YNt_G4+KqV^eJZzDjCXBFDJ0Km^@2>p*bm;?ai^8!s~vXx@S2
zd`0?CudOIDUF86(3Pya_W_8a;`5_)oWc9SO#73){vSnZZWJnTJk&NSfu8**URH)>9
zPC8V{5(fsOLFG|TU(Ibz_%6Bbd`c#t8AK~^troQEE(V<W#{=r=<9H`EfOf>FBEG;q
zqK?{dgtAQVQgB;w7DZIo2@VDug_0eIMSqWGl_?=K;Z6RI*FDX!N5tOOH>hVzic#^S
zJ!uXszIWSbN2?of57T*E&GRjNO(0KzujT+%9N{2DuTpj~e22mbB8VM<Pl1;X+Qp1d
zZft@$I8rI*(dlzD(5VxYhl`7kM}!oTY>0E;59Hb6(8+AZrbQwSX~+yASMM*F5GOXY
zAl`2<LBg?-Ucjbt<Iqr0x~ZJww%>@U1LO)IMdk`L)_Yei1OFt?3V;+ZAmA8c;yRyZ
z{EoY-(w&MmO-xKI(#?+Mi3wjnh-w4q9C<YKbu3h>#w?e^j||DL-m9^ZB^RAs`3Tc9
zNCO1+Nz%2@1X1Migp9EV!Xdzb4~E)Jlq(Uil)7f$d0ARlV9Ol+x{{k+;o&smACj{M
z@ILU85Jh3=5da!T7%Pag5LiR)E`A0;6tIE-I`#t=E-DmY7$`rkFjb_ekVRF)2g7S6
zOB)SnaPiAp_vjs(S+X<x%zG>3!$DvKPse})Y!F;7z)?6jre1>@aiux308sg;L`%v*
zFY*+nj;78+`NBeGv>l`Ih?nNbK^g_H6>2CskX)r3Cnk2S(hJMoTrO6wU#%$B>h`}e
zy@Z#D{g)}uVE#<E5d|}+RYQcnj<tjLj=hR)2q>EWiEU77Vlpuy7D&QmhFC*F`?w}q
zrRzI(tkO#=&hHg<D~pngBN#B_NCQ;K5awe4<F%^`s%o$l$2pU+=MxV3<62rtMjNwx
zu_Gjd>J*=uBV_xfF3x2%|Gu-1FFR~awYWxOgXz&lmbvC|e{}!lvu9?9yOQCF#C>6S
zX{htgpKhb5M@kMO$jQv61)EB0CkI*`-WY~8aZy3l#SV&7in|Vp94T(xJ>q{R1b6Xt
z%WsXvq>@HxyN2|816$0um$hW50uX3~N!&h&iRh6yuE<RjmnC2ueGz9EF={v$xpEw6
zlpRtTkS<GxS`_UOClf-k2DR4WrtU;2*5JF@6g-%vpU-UBG~03K!K}c1%}wx9kmKF?
zc*j0QKZvDD=ABc?kgOAB=nuF$sXbylmzgPWxWuBW?{!bUzYd2u$p(l5xl?&PDD>-4
z%o79W4?aD|%zJVcc2PMo*&^O60%dL<wr0*}RD|5VY*VQ0y|+IDg-zCoWcmVrgF{oX
zGk;p95rKAdbbzx_%>zi1zlOsMcWzT)yt?I}?x1x~g^&Efd7iK<<-N%HxO3s;)%~qz
zn0U3np<nC*e5@FHk?Z3>m5d_c&l5n5pReh{`N4t~9fi!`qhJZCtL(*GRwl#*L%s`D
z*`p^dZFNP5CIZQroqHiQ?0fX2v%P?`RC0`EB8G)^kny3xql6d-eSqaaYzoVPH^Bq4
zK&5_xTjJXC0$G`0#LyI^#i{p;B32i43uxft9|phNhA6e$zC2H}QP|Y0m&^yKio}${
zC{1)MSoV>^LA=w?il~5zBWyI}Vl~2c$JKskF}NZ(cPycH+T8F5ezNP-8}&9i*O>1%
zOIgrfF{hZL6RFbhsL4|LWgB^7U8vSrSG3?r86c!6W7ONsM^C_jGj>HL`7xS`9avdQ
z_5oFLtnn6+$st1Fwj<Dm$^eO56qFaDfO@39PSc!^<)|lfg3)XTGP&kPb-5WH<jh_U
zWUPS<Tmvb`xhvt9cna&C-E}ooFPH|I%L~;s^#}F*370~^(0TKI*eEzi#TmgBl?($J
zH4aD@(H{LM=(f1xBXp~Qj#D_<%)K$cGCJG<3%r=P`iXUdEk*`Yb7E6NvxzbUiw9;;
z<CY_LS1od^<0&LSmi!IL_Mom{cZ($SdK<4Zy0}PN7*IxemXxm_D@hF^RNg05IS;6?
z@HYTP@G;c~)rqxkKQ9xpf%+u3oSlHPh;ufgR1?*Aow_XGq8p&ySJzu85nyP@Hm6ke
z73jfBH8Tq9$urjE%VZ0>2_BI7*bu28?CSTGNGgyyP~FM&l{m?)H$ZxTZ&Ugr>}jS-
zV%9Mn9lITcFrO#pIBeKdEDs^UXLjYnN;T=TC5KWmlj+pw&Rc*KlR1uz=z>b%3bPGE
z(?fL;&reB5#ST~@hh0cn>WT^a!i5=ZREHNp5o0GMNsbXRKo)QjoV@UNytroH**U?-
zOj_R)<;fzsP&6SRcO-o!w*RRk<Z9-3FvoRp+td*P0gDGhPZs4&b}>_%k?;b9jCYY`
z0S&-pS7<&8Cl;AHsWaMUF!zt7yC2f+`OA92KsbT13JP4$2kLKDe_Av^e~%rMOjWGz
ztY_W_q#$AsLK#VAb=AOJu{FyOJ(}W^kFP}40Sy+6P<Z-&nH_v~4$KHzfDvC?XHNdS
zhF%F-#z6t|$T6tL)*&vT7y{wJEl8j%`7WG2QT6RWKR^{kDPyLIZ|30PenL}4RfQ>1
z%~;%207#S?eb<_TS7^4>P{6<ZM?8a>lfpab=FPyaG)`W84($xvi3|auY>)};5sHZb
zpR!uEv{;;}%<S>2Z_h7h6Kx`$44IF<gqc$4X8fE9zJpmoRcxbkO?AAc`PzQAw4_k$
z)jt-g3o!vmR#6`VE2(d|xJOy_GPj7+oDNXUt3O|)v;>NfAO*?`BFAAyAwU8-zl}e*
zL0uGNK5MhjZwP*1l{t4vvKH~bMA#Na|ER9WrL53;_g~|}=TGIWmM=bs2q%)@=wmUy
zh#7@4oKyk&70CCgUzc;lP#dC~ZBjW+*i6QXi$T5cOTwDJlxt&IHJ^1j_`5l_fsrJ)
zt?3&9pL2Uf=K>BDssw(N8-*JY<r??C1XY2Vs~zT6G4P`87AZ7aWGLud>@KIc=c$>A
z+^lZQHZmC2mIuBM!i*+FQqoJl8hk~!4JH^?^L|d}D|$)c`MpGfbB+pX4X{InAhAM>
zU!<0$?QW=3or`TUU0!)?>V*9LclWXzf?`t@Ad2AQ;S^zSSC=2>kT~dM@)bRItI1*u
z1Er|EVy(aB6@6m`WhDbuVZ+$FB_2_kU0vK+jESMPB8(MvnIw3ftHssRu3~aX$#JLC
zcv=C&MXf8?Bv`nNZs6_|KR0(m)OSGB)(76n3S6XlI~-v?qj13uJsihSess;8xBiZE
zjEQDdW`RYNTmmdZs2!W@)XoB9BIf;~VC@9PBORw<V&~jHwT#z@x(yN!XaRtMX$AFa
ze~z!$7&Ogg&UIS-*23Op?oEWYhip`oP3pOFV|~P%*F}>8Kng%cvkE1`X`?<k5jh%F
zUB(ehTq<*{K*tzEab1CpQ?F447Pvt4(Np`LsR+iiiicvObbO%+b+U!6B}4)ljR$oF
zvv4?^)u_vr;8bE=H(552f6MiTsAN-O2Vmv{oph{T^(;rCM-mPj25Nkib>MoOEbQNa
zs=mADmX#JIE^!Z~N9qH<7=VnQ+<jzd?5*^q0d-Qry%gnCuaH6%Jg^NU5pt|hpo=nu
zBOQ=LrkP+vMOz+HKh9~Ta_8Fs+QdyW3c&9>(-6GP<{F6&;%U?O7{f8Osh#?z9qYBs
z7-I(^ADVESI(1%NCE5x};K5$dpz`K9$ns#E_?dPai!!OUEON6~(<L^k)688^F#wW)
zDku>+`I~7c-?Rj6x%L}TM-56oq2F)WcU3u;jx=%*0_r?|yaA6{PCMW@LQ*hzabqSx
zN7O>MR;LW}fM6&-*zO6tARs{f#lDP_9&IA$644n<)TT(Q^Znc${EO8%GU$BT)mh^z
zbXWFLxAQ6Th|Ov)g$YVJ>iLN3Uk-?l^Ni0L{D?3NbwR$1#*pekJ*K*t=0s8kNkG)P
zz_}D^&MX3_Db9Q|rr@Euj*)ad{mb?|s)+$0a&BBw4d8#MDDdhctzff3y%XAhxENFn
zQk;``x)4<AU1xg~5e0W3?#~duV5Gv%U6_NAYzDz<)qC@wI2wG!Wjl8OrnkuD=D!G;
zlbw&ax;>i8Uulf{)rgCt2-yTNd$hgepClssIv4`hBlQAJDu)?#0l-P)l#IuLL`ZPA
z6G4iRjuBI+RU%ZviNFtS;8^Cq=)maBn#H4bok00cs=at9FvLcJs;|lju=P1i2wVq%
z3wAT=7|wwgO0*{D;<_66eYDK*ft1cFUS}hfJfPlNqYB+x+}ElHpUm+UgETSe`&X-W
zWC~Wm2V|Z|9l^<fC8!%Ieh%9uuM%wm63`^FTJ>oaUUfi3;5n`mC2pNcuUbKQ!2fBE
zP$Pgjavl(T>HE1U*``Yzx2Yb)&&5d#H>j?jug+^h5W@o^Xr*<fAak$u(71@7*WbMT
z6*KQpUAIn6+r%o-h+YT`6W6t(ev7L{<?ut;Cw+%=k{6Ic9NqsRkFNDjejYE_V>xc%
zM);9{>R;?&v*+a%bh*)MlS>#^mlU>(;DXHzA0rE#9<xF1D7H!Jg_`TA39vg;S}?4c
z!OVw^!CNi9*L7{sdm_b<yEo%oX;v!>wb1rG%kYHqIr9`?dAw}^vFOyI4GnbM@SU7E
zfD4?|U=rXCNp<GJRw@+|-Ix%DSra6MH=rlKplQRCIXrqLVHx!36cq8Ky1J;6&W8H|
z90|u!>q)IiG#V5`u%9$^(Lg}G-8F#E2We203l8nX2hH@oI!<J|h+stBUg&F>+xfmh
zYuMduYY0QoKftHF4_LU7hMq;q=L^Aw@f-*mC%R-)(^}y$rAef$SGQ$jfTk9vCqsaS
zTZ@^4=&`s%qRA$8Y3Zcb%)m6?7DMuj+Sw1z(He3m?cVZUDhArpXdO<iB4Z;mhdc+W
zFc8t{MwcJGNGzZ}Shg-m-Nkl+YKUk>W}MJ~QYV>y+RAfC_BZK%3{e4W_DvW%KQt76
zas7jHKtV(N5|a}kU_b+c(ELx97)dhzQkg>pQq5|Q%~mH>_9M0pY%KKL)G8qvD9A2E
z)5TM5UyZ6vLV37U+~CbazO4KUHfA2YwHE{p?1?I$Jr%W+x}|CbSQDQtY&3FcEKRfq
z^o?hhR&wakf3sUqhTLjfN2>~YL&1f@g?kHS9;ilBpuMQ`V?+K0>)msL3$)^1+_gYE
z_3ArkprqzDfS{A<SB+|QX))$s9-reiXx)ci2fh%TMF!zQK*nL31i?cN#IeOkmzkOb
z#Nc~yPVm%hb*hzvo4&){%b~?isZV>@4v;1jv!Oo8Q*WAUxF<033KAG^R6le(NQVXp
z@3m{O$>Uw@v|JlCny((H_Mm*hNrhK7uqq#J{|=jesf&FsI^NeAaDxcgdb!(`-F_y9
zKBgTo6Ppqq%9Oh#MpNF<q;7ZFz_sG4+~r_%t52#wl~khb0dE1HqIqoXsi6|40-|n^
zp<g#!f^TM<wyBzvVL5;UuI@$TM>a6g(C7v@S161SnNjPD=7zLY5rYR*X_wK^yZ;?d
zA<uE@E;rjdM=o@~#4m`VhHZ>R1~J;;yS8Y}UKX1AVlkD0tCwDm*!_d2*nowS>W$K6
zIP;NCCGgnG&^)lqM!))k-Ao6lwwLxIr(@3rTy28ZCG-l7LQ}Ka)#>5G@B^#+qrOLs
z%O^B*8Zh=0#Z#DjBYx#A-2j@)SO{Fz43?0zdeN{mdr*1uT;$}l>#Or>Te;U+V*C(P
zNsL*2DqU*kfz>PX$}!ks_(ofq417?qe7QkOU$*pgH?9@dQB3`zz=k@qUUf%mXv(?4
zY1Tjz)Gxd$>o_erX)XsH;tpe<h^WrI4HQR|Q5;J|RN@Lp#l+tlLcYfx!Rq3r%boYu
zxkR%PPI?alXBD#{A-}{~c;|dKy@5=eR^7aAdN~+LnU;$+kAt5xje3TiTz%0@Il_I<
z-9pFMlu&<k)i4c?WDM!d6EWZY^MhY-w%n?fw&l?X^a3)|Cdz;TxDqxSO2&r3{vRJk
zxkZOWd5rl^0ygN9nHPwbP85n@h@6nL1j5^pW=oO9iG_SL7_2k~*A})M(2Qy72s6;d
z4ZXZi3V7&MBwE~y;HA_m)N0f<Yyt557%`Fw)oEP^04+0JC^AvephTl^LM$*<NoB+S
zP1^~K+UWPK(1Vv3MeEO~0lnoLK>CpVk=-6>JE(bLBGd;<%O(024uqq@dCEoyIpeH`
z^)B_h?k<rn!25G)ag!lYZH#rWO-6h#mTSRauZcXM`s${6h>rcl&;SJECZOmJsrm)Z
z$U<YNS^c`2XO{F*Hb_4sL%PdrKoP+{A(%in)tZW4DA7hqsV01y#)QFmG-%C%7JJJQ
zgSJiW$#H}xCc**rwHzDA!noQ~!e<d;_^Q}PL`BQ{2&pF*7^%$OZL6UGr*Q<l!WpaD
zb5)T=ZFi~Hs%%uqarLYGb`U$(2NGC1Uc8dr;h$8mF>kp@vk@{K@BC$6+Y6e#g7Xbw
zl4R(yAxtg7>4<QYct=<{Mh@;f$per8TSLy2deH3#Mdc!e)M~Ht2V6XGtS+g3F~0^<
z7sP?r2+-`i*%|C~7{>-9PC}O`4Q##Wkf*LYAGnj{K&j1^Odb&Ksu<b`(H0R(%mgKM
zTmCxyoSbTuf3&$Y?3g@|6UEgXZf<b$FPqfzO~ydIZ<RT?1;VPXp%ym7P{os|FR#6j
z;8&0cnM+813s5R;Cb$)=8<GUcBZW#`J$sY-B%A4}A!rMB71dbag0usuB`d?mQ5{lW
za+{?Gtg-VP?ycNjP#c|R=N7tcz0j!Y;(U*c<71p&FtokM!3G<OQsczb*BuTScTDwX
zsbob^|C4t^MgF;RjLGWu3awH7rl*F@039;B6IHa&n6<DoyJ0q{ZPDmh8tyEln}ZwF
zdP-ME$p92GYZ2;!_W_~@%FY?UW&(^+ua4wSe&0{oL8A+dLOs@`Z21g9;%EXxQ%6oQ
z6T*v4!$n3{BNuJjP-YWJ-(T87V+^?;9^q5iyl5;o7}o8Yulllz&z1980XalI-;271
zfOUz=f&QWMBA1;_^t4hfq4w37L4usG=DBHbpaY_+&~BrQZdB3kR^ogCzM-*Tgs8QF
z*Yeu#&@8*%bk3uR@JPp}%kR)umD4$ciBN=rPQV>Bc5H2jG7}9r$)z+Akj>yeImTF%
zUVQ`Vcbs5sM4aF<5kTgNu+MPwu&dH6LP^pUX$#*eE&IrYuRpp-<$Khp=eW}G_^7|x
zcf)aON_k`O-s*;xU9kC-YmoJj*r5KrMfIyjn<Pf5^7Vw-BvlQ<YZ9NB=ft0?l5z|p
zh!t4RQAAOnRKula1{4M$_=+t)VjmeV>~i7-+rSdXIKj!wxdZ?OP=lW$7*Zc4j16_p
z(n1%U4E%V+P5!0&`1pxNaBRjW!2NLlQC&f?!mkmd1+>Af9B?c&E=;w(5$61*jF3V|
zLUVXQu&=Nd5#0eMQeUUqe8pTLZg*bPdkfT8R+|xDsC8W{5WoOu0aEdyurbjvG{@EZ
z$D8T9yqlhQ@2!<9`FMF}GTn?4AB3vhn5<V0kI`SR=6KYDemA{1<!HS+wA78@2|TP`
zrH`{wA=Im%EKtSgh+`9gk#mL}Di-if<Y+COrTW4ail2VSWC-gky$5L?sZ?oZ=?E!~
zQRgG^p}C^jhWe5So(O<q2w^c9@7(QC;dl7~z_)_y=X<DIsi~7Z=W55A^=<2RYX|<L
zMcjGYCHhS}W(Qp`XOGfWbZYcpfX?FdpwQt|lHv}ufoauPOo15K>rhJzNyB|XiNOFT
z_74%^1IxnZ;<x~b4FcB#ouVGX(N2>Pg;{3*2N<AhfGuXNz~RXpx@1taK>xwtYB=YA
z>TfmN_~;)VnRSSN=Yid?J@(iCC5QM`4^BRAHRz}R{<|0MxkGeiXJ>rB6i7oY*m2Xi
zfyrk{izGKQ)Y>E85d$-A@T^?v@oZ*Yi1V#wwdNOZa>m~!F|+v_ACde>OmEv5Q9z0Y
zQ&BNeiO7kGs3H^|!op3Ais+J1ImbPPw-w{0${4lv)$uU`Tkv&>jksea+Q}^#n+Whg
z!D#o64P~@Zwe=YrGOjYhg~mq5F=L^z93HZqYZINLWwq(%Vi`dr_H?gizpyyX^Nnpy
zBut(a8M`>-d8omIof)ifz-P52T8T%W&G8k-^zhcS>604bjga)tYP9lKH%O3{bx4MK
zNX(^oBKJD|dE}#`%Wu-nyt&R>bj_n*aXzg8BVon47bPBPbH<349EkLJj_+L2vvyrr
z|5|Z9KYlz{)6&_CTpQEeU}PdZFpf(+<I7L$=QW_+BwiZ1W^Hs^i>KwVfn;iKp8F3Q
z{?S6+JKg@Dbyp&O{%>?w|2Lhv&Dye0>nxkY!?WVP#b4U2n6m=wnK6P(_|KZ<&(EPN
zE?8Wh8Rd3DMtK#{+p={DwT$YuQ85-@t2>B<e`c4(=<$E%|J}aRWV-lYW(h<bzntTU
zzhp)SY$!z@pc>37NG#%fvN*^Hkq~#05g;^Rclj?$b98pphEke0<0sACTO2%QU^QK7
zGHKz+Nsgi9u&;khiT1%-y_XFJrbR*>AcruK*HiaFeE|szoQV>XgNZc`qlh^Ra<>7x
z0GW~Sq-=t0Q#7r}P*BLw&@!+((SVEfpV?TM56OGrA&Do>#4U16)78SLQ+d;xAk!g+
zHU^nUESN}JI2$>3;MOT-C8YwP48jJ0X9=PM(Pm2m7DGmai2^!A2t>GN@DQpEj$}9=
zx{_$Uz{_kj#Vc`g_H)afo*IY^PmoOy7)`f?+LZ@EQ^KP|W=k+6l?8Pz)jn89GSn_N
z^K3T#t_N;=U^X=37eBf3n%|K=|4*|h9@}Ve8=krQUUsD^N9FgY|GeX7Hl@+z_+)@+
z!wznKnak@LO!rM*Bbf63MVYVz39GMpYEQ9bHAzzD{+QYDd+S@R5_GsGF`k}`Ymvf{
z=~glwQY@Nnp1}m>Nr^-FEO!9wU4Npse|QW_!8(bB-$ur0oJbu{dXOb6=?VHRU1%Q3
zAClM!_9QZtVu{HQ4=`8dSR4c~6Pa1ywVQ{?<IBv!L{pcrGEybhFL9o^VPk5rB-lVa
z!m<4L5sa?(9`C$j9PIVr@SfCd-ECPmx#DNcb&(g(rG99xq2;8k&?@FY4wHWG=_I-g
zef5I}TgBGJ^lgy}qbH*n<>N;L1YRnI6nL8;wt)UJ&SZR|HnqLSCLsVVn<!L9BU`3^
zHQjv*+135{YjKK<^>4#&DLKuej3e@d4w3Xiyh7-`$VC%dI}J9XvQRQcboH@;D?}V5
z;!hpDdM%&K=Ex9Y_%#UOcqn0kX-W`7b9RF<QBO8c{<a;{3}^}w($se}lcDzfm4O?x
zw3eCatf!_mYxfb;(L43pJ0%|AmwNF1EXghXl^*yNo5RR2iwx-5jeGT(`G(Wxi>-5&
z!A7P)tY=kbM_Fy?SuOv%!_Zx0n8`K2oNLw$W&F{;d$2sc=(E&-J1=6e{m9t%=h;9A
z7((hoVIhtox?`9C6xFCq2xVgrp?_k%z@^dXksSeFkMW-Aj_8AFZCP!=iSQEQ0tYb%
zc|c=?IV2X?xO?vO5&W+*{RAceC>&sd;!|`8Kum}{cs{NRNQF2@8GIt*Q9d(bQW3ZU
z#AOC-Q-VXUaeq@E0;51zLD>S0QO1c568sLTl;mbmAyE;^ibp`o?$gN1Em$J+3A)Bd
z##3nn9|bfeBl)QA!T7M<gHK}DLx#pLNU9qEG_w16`?<`2lW8){IJxcNdk@a8+qbUR
zb@#6Arhm3>4^3I7TMa+F=zGU}e%JlsnOlCykM7iGr4cOzq>%bNL~$<3$sY37Sb-er
zEJSP*9HWyzu+)?@42Az2PWOeUzT~K^GQ4B96dqkFWx%?r$gG)J-Ksj)o0<7Ab)p-k
z5{r>xp7yKL!vjp5Cd(x=v}k2yd^B}lYS^=4crZ#3b;^nddo*D`z?qyDdo}jLG!E`}
zJ7l(dtiR|yd(kz@#?ti^<eM{5sgelCYcUO(-geDS1<=Rc<l__KyIJ+-7zrZWpc$jv
z>>XwTjJ$4B$ZSmw*>_tUdZD+@A(OcixkXhynor$e*0xmNYyW*bjxq7{NXpYnWGP|@
zvEIU-g9!7%!DwRvqSAvi05=9!01j*?$r|8dcyQx=_S5#T8OR6t*dD`-L2WcBt-yD_
z-MB+eQPZD|hR?mcNN*c5nRn<*X8c&4U;gu)7H7`PT=nz0>d_Ciw);L*Pg=A^sU!Be
z4$-MdR0cVlFup89BAi9H7Evk3bejw(L1jTXpCma;SbMmC4h&!~nP!ZHv=N6ZcNyxn
zm@xK@+|KZka59wAiH#qargy=vL9oMtlY0a!fJaUcG}JVx$-ok5*oX+DeWR_U@03Ny
zdf>o8@4&$&GAZFm1;P_=F}<2NUqL`w2XJ$=rVwBN26W!gOYAH7Bw-L_qElTx_kB^O
zZt3zB^yR*q<!HV4(9UO$O>e*P$ZJ2_IrE|Eo)5b&yZvv^W&Ee_KC}0ZtB6@$=lyZb
zEY`_zMMUof2W%ToU(>U0si*U_?rvh!_$b))<Aw*#cht%R_YOo$BV*1xY^zpjx1Z)F
zX^7ghUtMfB^B<r_vo)QtG@ZjOK01tD9>bcaj3}hhVaW%;%Br$m4OqFD$HQR4c$w$4
zj>%H8!`&-RqdaZvp3E($EKZP9gyjB(<qbqAbPbR9c}`9ZP}w@~bp<!)Ij3`tUB0S^
ze_onbTFYp8(}1e7+lQZF_eC6nK9<~Bnh4N4cv)%@R4;Hgn6JQeU>pFVGKcgiEB?;!
z+SXB<7d@V*e|KiBrmq$8e6O{r*J`wyyYDj|U9H!yezkSZ!uzw0SLrkLdMz-==U#r2
zec9Rg<jfV?(JM5|6*FtH_-b2|1$w+D>noesVNu6l+Kcs?xun2Rgs~ASPd+c`7MvEc
zK|B;9hfqsgk0b?71YBVWz*&>Ch1L`8I*M>1e}(77xhXdS7%jEZs_*4ZKMwp1N5@8r
zqz>+bgAf@QLLQKEfoEV~5qnT-!JL4_1<_?O(G+<!l3WxkIN0IT;n2k9%25ZLBVyAi
z?pV-#gn8IB(4vT+h|-4E7HAX67`f%BxB{}ru8)lO@d<jCM1~EhurQla{s?~08)L>R
zy#Nd?((eqmAVUX}SQL)A@_eer*7e{U(uEx)D)X*OzxjLV!e%D(oRfLBUGz}}lX>Qw
zZn)C<Qjz0AJsoe^|J;gHavRmZj0co4F_Jr&7%Ixi_7MIDf=hnIJr6UN+qo{UI4o(u
zhC8xnmS{ymo2ubaZE7-m^08;|h1BzA{J<J`jbki0c{_X>3@K_ru7!?Jl;i-RQ7h^A
zWjwQ~-H~yGSibHcad<ra)E#bU0TL_5olP#^Z}PN}f*Wk*=`!X6QK5~eor~vtb0)9z
z<>~G%sfg#?+BVY~Ev(9lNcmkpUyF1er{mB}noepy-rH!CSruxljl_MfCL8VP^h3kr
zQ-L#6WLHHzl9{n=&FWP>8<%>PbSzo6)auP*Law$|J>x3)k;_HH$2cwZLmQY!>8Pt<
z#9j=sg^n%l(btmJC^;u@UvC_<s_Tl2`C&;$NvH$)y$rca$FYYJ9Fro2BoU6M(wmRG
zR(Kz>2!7q!J3qL2u5o?jwAa~y<<ouabwkUEu9-twlZU{vGYh5jaFJ}pA8V$M*?6;!
z0YVg4*j`;>o4GKHug(jzw6frZS?2ic91iAzN=OVcd;$j1x#1N-IU?8q2%MDEbdRV~
zq39tK30e0;&4H9tHKCf}u0*DU;f$LM%%6Y8oga#Ce8@I^n#>z!&2Vc6WoHz$Q^s9l
z1b{vj@c|k+Y#=}&!bjkBgPuWc&J$sMAWZ<<9CtdqDZ3~)ET$#Oosjbb=l1t%kd4Bg
z^TbpTQ*)=+AUl=-1Q;?37?weq<bJR@azCCtJj%dZs6i5$ac#>uM;T2m&<NCU5G;rx
zC?eeiSc6ju_}gbYMs=UnW_ak+@4T?U^}w^g_}6RyHnSz`g)P00z4rLAyt$`-@r}!V
z3Y?G}7*Y2)DKj&ZtJ359uXYTK6M%W~*Y}@b9*L#4e_8D<EDsN+QxlXCU(I?hs7-D%
zQvyt$>88b&6czpK{g&l1O_j(H`=1o<|3n*6Io`HwG-G0@WN$IUAOIHP*0u|coma`&
z%+S+UF*dV$k4;<7Epd1))%+L-vaqIz;)sA2$sxoNq4glHqJx2gqXQ)^m;<Xl!Q`IA
zgwMI5aOODERmYiR1N}s^f5PqZq+wyJO>Un$y`oN>M}7KCrHQZ3N|V+Ss5C`RGMU^N
z&t1kgQOrq9-$>Z_EAxQu+2PUkh}8&_4iXJoQZ+Z{2BfZFw#Xc52Pr6->PLUa=n~}Y
zp!MWL5(SBNLk-R|vpsEWH%)(mR|{_mMS-1yZ9(Egkj5|}kqizFcgPod4X6|`7jYW^
zQc1#P1P2Z<DLW;FrGyMfKn96Tuw<ljOC+LS;58ZWj^r!j=|O2tnl(ibJuyu!|45g)
zYE!nBytR0NYixW1gW2uvj-UVfuIDUH&jQy^@85B7>Y15#(>?8YbVIHE$@B>OPYW|r
zY2(zMa=WuQoWkX8czKRJXQNj$TCM6{;#NKCPv!RN;_&Qzrm(uZ6p8MT`c|&GBwNo>
zzscS2bfhIcnwh|+YW(IEB+dS~LO>rzlh8A%Us@~4#v|5_D4l+fekEC~pX7G`s`TjX
zmgY2b9Sv>cbF{18OUy6X#L&*_t@*ZcVq|L1(iT1SYfe5QL=K=Y!a{)JmxdY^3r#zJ
zVby{)6MBlxkIO=TBqDe9iwYaSeZ5+iGr*GP2UxV|C$YM4^@$$ATZG9mcy`~M>Fo%=
zQH)`11u>)-pqQkrr?UXpq?v&uqBDRCF%bVLY&kAfVa%E--N+J0h9ZdsXtd$+P(YGw
z08Ekb)IykGCgL^_VHaQseF#S&c1OxC38_PICd(bSUdvyKUhbRYIPk4Up0_xA&8`Oz
zKfV3-XJ`864EFIk8AJW&_GJoxF63s9+Bo0Hp!JiB%!bDuL+B~2)@9vmJ*m>`^RYF{
zycpAxvc95qsiE1FDRyYau?&-EMF>+$H6Q1m9Y~l|-?hW#K5uuW&_xefEk1(jogZRd
zv|J7A@P#V=_?6lDm>sRi_so&Ii$T436^ViTTpLe#Lh29`4r12C<Hj0K!O8R0M2<_c
zq5#)R6pvd}ttIphGx?Q8qg5AYt2-;)L@3ITFZC_OM7d3lw2aI``#XXqc2A`?Wcr<h
zvtvA=jvl9fDgR%0pP{y^+QkI5M#jR<!kpb(G^^#kf+v(MNw}AHz{A<LicrH;QXQE;
zo1^bco?vQn{+sHKYc3iR!W427roF|05Cly|#&Qq%w(9<Ev?qi&a>@}8RkexjYW@kP
z8f_TgtX1zarsBCT+hkyuy0W<B-HIFZg!5p5Eu9+Jrp9y133(hHj*k;+=lw*B6f8Qy
zY~`>tI%rfNX!JFq*|8*jsj*t-4i6=K_Y@QIzLuF*WN{b#i$i~B{Tq74D;0O0iN%+V
z4~UXulj9KwJIP)Q_bc!^Oh0j9@+5!Kw8{lSGKli$2Njy9?Bo+pJvn%sD1n?)^UUKT
zHO?A`Ba`WM=X-^Far{=aX(?xawoQ^F)gm`6WnW3bfQS5N>*?N`yd&ap$5v0tvh<7U
z+-&cf#@iwR(@N(l3tzh6)C*a%cVsVpO~0Vy>e^e)>Hdh*S8FDATi<8KVXvOA;3ImM
zl&o6k9~}Abc+Uw=Ic9Fmn*BN(+`(Knw@j;i<Hp*zSg?rt4xm4v?SZ{PaK)ejl+PH2
zaaaO`WO9vx2%*DK9kXEHpML|KF;x_YIPMOPP0nTxY$Vq3{fJJ*F%<{bGn6{mU`j4y
z+`?2@w^N&L?S+m;Sc?b&I}X^tP;X)d2-2s++F{Y)$VH1JqyTL?!&Rvu>9{!m2}}CA
z-;EZGxwA>-UFb#yB-6R8_f~7Zk{x?caWfn%S*T67_3}8vu>tGhZ$^<#wSZ)i4GC8a
z#yhsAI!uXCY65l+8a|LiigP@h@Oy}0epf(<7ib<;H>4}jPjj^7YG2T-rS|(;g63RT
zM(l9Bd3pt^9Y9RvNHlaD5b!+&1!2`kf{Ab+s~_+rSShY2x<6bR=rz#plYI%c2@=VC
zF18)=0HM5_wDl|JwL`GOe!$;}>p<SQ(rlH87}*y|SByoyU%+xJR(P-#nJJF;kp?jt
zQrnLsquj6VH@iu-M<*W9@85vb3*;n*-v}~U{5Gg>fj>JIwS$>(yy2Gw`IXZu>3qY{
zxuA@bSgr7yLC@5_c@A+u1=OF-xX|iw#NrT=xzKE>T$6Zv^&1YyCo}IpZB^|hj@z&N
z_6K`rt}7|MuEc!v<g{hI=LgSUeAP8OO@?^EISaIwB5#TFZ2!f39C1&2bM)fp_J09=
z+HfK~I^jH}%xt*vgr^&&x9l16q)`FCny;m&_Oz`hb7D{#F<@tck)S$eCjsvNndG*=
zUTsWUi@siPXSr>2)KjT<8q>qhl3WR4DJyx%R#xS+-ac$OP#zu#ghyjrBs_3|ZEAxS
zdG<NyqvmoF1BnP31C-R?EBN(s`X&`T&Rt_29FEH-W!5V9-_K@xXI=5|wsaNCFg;n}
zoH|Y~VyC^(ZDVJN6+Muvclu>eCp1Yya@!MniSyKQ*1TmxOBJN&>Cf}`+A*!h6mpTv
z2lX-ek(SDx;Xqw8PqQl5JR`{xFImiqxX*clbKy<p`sq%WMW<t^u={6o=NOO${Wv`N
zgce^|Y&UL>PJU_wm$v$Tp)X^v*yO=sAM_y};kG!-Q(L0DHhE&>V;<)|r*>A!Jgqj+
zfQj=g&*>d&R`skpxy3W(^K~pjup5R*8cZ<gOXOoW>sq+#=7tme6A*`s__NXP*;IAV
zd{$+ZFQ!#CgwFD;WG^Km@5mBox3t`=S|=)Nt2~2oAgA~si3y_^eQaSSF_wN(?(xKM
zRCvZy!%JVXfeS_TnPnb~H+AQF`XZwv?4l!{!O;;5V>Si`Vg%(BSMq6~G0tdla-9u*
zFlBw7)Vd|B!&~EH7EAdSazutl!;G%fYt#kVaOGDOIXs)U42IRf0upkp?VKC2F+|^~
zWOyVtz^$U^8j*C8>HdME9Yo&4hzq};j*0BU{;;XmIFzz4H%Aibd|u(`R!<*jOh{kl
zKp&C_7wxs$K)pBT+D1lrt+CN<BV%z-|43?pp=b=#91f30$dMe;zlR7v7FGuqIz~p)
z;aEpqS88N16;7u-BeC?zW;ncLyu>{Lc2Bn)AD~f4_m9N-NBDLu92*%2**}+?yga|%
zBlB52k@2zq@aRaaFP+wNZDB%eREO2GnPoFR#6NrQPED(wImU^k_tlyx@0c`Cj)_Rv
zc@l$QV=7qWkMK*RUee!jFMFH#Tzm9vi<Ktyq9P_2c?SC;ePE^tpk*KzqnXg_+9(f*
zK>5CH8ULCZM1#x86Nr)S)i)eg_c!VzH6tm|%=qYFc=KSouGKs?HmK)y%ro=criO|#
z8!nWH>7XM;K+dRcb&n?cKqkZ9`=~f8?Z)_^>D!@AnIX30Lj&M@iFnJ>1KL@>pBc_+
z^q=KnoMwxs-qYLD)#4F>mS+i|Q_mY(^5SO`$J;0!#?&qT5qOojr`}iR_xWo<&U}f1
zCf`IT7-r`4admB*G{-Uus;z3XRn5&l(BfIv>**aGUXcQw_jIiwdeL)oQw{T3R<HFe
z_t$y+O^f_>i%6KO4=mFhfwMdwe~Yda=AH>Cg4Mp!LtlWu2O$NrLd-ILQ?9NT1FlG@
ze<ZL@GuNNxF?kCE#`@5)ZxQ^Do+v-pjjjqORLrujh6h0Y7LzER5Wk}}*w+~oA$_TX
z11A(@R#3nVGD6x)sBnoJWConwpPy@gRBPy5r&TTy7G@p$RH7v?thrdmo=vU#W?j$y
z?S{6qNWdNhIUa)&W#QH}vu;tRwrE<=dn*629IfGJwni90EW=JC^H#oA&d&ww_&L^M
zm!{RXT%b9~2k`s#3xZvmO=e>2yBraIAQ0@-w8lWER?d4tVNloDcGm6dwdB%m#?jd5
zZKl8;O>630trgRh`+1s^a!=)ych(lVc#38}V_&}WZlFhN+n{4HA=x&`&umVZCl|S5
zNgh5C__1b0h;pH(g-lIaz;dCzSqnQKwmTAG?i=-x)jLmX(03b|L9kqFyG5sOBNisc
zqmX1CR)r2*7&glLx~nP1!$pIOway!KW2o`xmvD`bT;|?H2~Buv#~0ZbXwaentC*u;
zEE^I>uIYTeu=7eQv*Mn+(&~G?@aXN;&fBYv*0nPS)xv{ny8GCG(*LJCEKGZxw*NN}
zYjg<m54y=}HniMZE-i19UfcBQC)vKjqN784#n4P%4PWo%)wqrYQ@y7DwneLU&C@yq
zdx{FKvfAgeRz>0wBXGgk+oXQhJU}HvwS^ZEr3O3)!dA@Eu$!XAQbh~y#ZO70fjkY-
z1!f`{{6I|;k)dvAH$fm!KWCiDBIaBZm{+y1;;H|r@^HMjNB`p$IwS9CpFriY<)TPI
z93lgAK)gXcD3fS>N$vpWriQDhE#?PEv!H^4rwLKvfaaixL)<L+iR67Cc5R|R1Bhg7
zJ-ryxabOk(lQlA_0*x{4un3PK#-tLX+!9>Hb?P|Nk>$=GGDs1^H=t#ak}(My-zfR2
zC>bSy1JjWhe<+O_{Qt<{T=wD3hh`a^d;WCKr62us2Iqf1T;Sjx`*>KHDYft2CtjC_
zjf*t`M?4eX6ETDmkqjdvIbov$5+bL_tWQw%(NTuyuqpZszt8&nFWuTGeS7x_+H^Mz
z?qHN*n8eS(8hJ85;`fJBDY%w!GA2jku}75LU`8Q|-a`PyG0^mAV%xCX@BIl&XM=B+
z%w++{$Wc?MQWBDny^O*q+v#!sy%eJPn=+~1A9(VcpgnE9+M8?Pk|JA}4xH}a78wBt
zq7i_mlN>VeV}?_}{mX|d(<VTtp(XeRgPhu%|HiImT+-k2sqW6GACgUXe5xPQKYW7z
zfqe5%wO0WXFVQ4sGN5|{g8uaDZI^4Jen{!HDN#S%q`SBcNL@1-8~z@DE_#|piCmoY
zy7@C~NV3mw>y3l56Q6=A5Xyx=Koi9|#z0RvN&r8AA9jxbJR;2p$U4q7AOutr$nX)s
z0-6F0z)K>)7Z*Hx^M4^qAgBssAcZz1J)vy0G2DN|l;CngpUHDGArwLeiU&Wu$US*>
zF}D(ky8Yj#zs!O~F;2n^LQHCD2@MBqB+!LDRvfs1B{(9b?E!tFnF3d%z$crbp8B5)
zQm}4#5H5UKV(7d91Kc#mV-yd_=?KH3b3pBdC?AC_%6yI-w0-qhRO^o+jTvh5{`=ql
z7pvh~#^X+1@zuMgnW1bb>(mT~exx5X?7RKCW0>QMKiK)}Ltu^#BZC}(b&R$h9^!^R
zHbf%R`5WGwn=BEj0cEeJC(q;Io<fG0_H6&7Hd@lTzr~Tsz}~-lpNuq1fM-L8T4`r#
zYG-FAQ0XT!9Hpm{(ufDw=V=N13Z@s0kMaw8&q$i_v)uDct*@$)8~(Gw5IjUQqFdy?
z78GS<Br(*z+_ZSFO{4>d_Ui7;2!cfX_Ul}0Wx87b{#On&8Fw`DIT(vp2@d1bB0dTG
za{@Uc1RZis97dwXMq$j6jaQ|)odKrlsgr%DYTEKi^WoFss}KxfctmkPjuDFii=<@m
zM!^LAIMm2HfCNXgO0(DAN4YO5keNNE^?OW&Fn!S|cxR_x!R3D0I!ANVO_&W==rh~&
zs%=I?^w2#zQETUacn{1{{OPy!Holde_4DkkXXj4lXzi(wwDhytyDRK-UE%(%h!9}#
zM|!c_lHA@*&Ktcq-U7t0sLs)GO4`NAZWO=p9CegK`%qV6@4_ofBgkop{9FQUL8H+K
zVq+5fu0)b(n(5}zTQ!#01-EKU_*v77QXToR#OW~O2(L^CeMJNL&OoJ*Mz|MI`4Of|
zhzwb?NH<YI254+Ko*IDq#XF1W9sw7d2H8rim*B>4XH7p22|yqu>LiiCi{+a|01?WO
zA|4gAkZ7=hnSmP+@DL+Mz%f8w18QlO6*wvx3xI<OWJ^d4!S^IpmJ5Ka2i}%XAx`TJ
z$sl8s&_)u;!HGuL4v0f6A`59bLn(R_Bzh&%hJFY%uw`IGtQH6pB$^6CFb;b;XE6PP
z+Tyz-RT6|peq;L!4#VMnj~#sW4969hzj)E*GcH@H%XZG=f7b&1=%&ex7NA8Ox-A~{
z*KBoJw&y&N!BO=OPj)zl#tiqH7*`3;f7%P1Z099#@a@cQ6}T*Of*cE*pS(*yBe+3p
z@GKPV06Bw|HU65a&TnKJmk&3#L(a%cf3jUKZbS03C6(CvLS(viIelH)^Z$v~&*WvD
zotM>lTecCc+DDq@BhB#YumQE&A~S=pkNWirzwFpaedc--U-w+EnJ@n1_CIN%!1bnx
z#l)P5Xqwpy#3^y}z;ZV<5ov=WopH5H)qtFZVBy4vcWXr03ZcUa;<MwXfs&*gXavwF
z8j8!$H!>b0pnBmc(c*w3Kk=nZpi)tb4Feeis1SW23gZSOI0H*4aT=HxDLB|lBaA=*
z`6qY~I+MEt<Q)hDBpL{aSP$-aYC;Tv5-Wui3^$N&H%6nEeN}S}Mu#Ov=c}510q;Ug
z280Qd>A^_{(hs&p>?Wxq+_-oUaAXh=kkQ!zfk}Qh&qUD=-jBkbKm`(okitj~7x7A{
zjF}Sg)w5sLjp>1@1TI&e0dqToT1YT}GsqNy#puALEF!KVW6mO(1(l3}%o!$6LH@F3
zg~<Je%wz$G%Z^|$);FWKAeFI=Z2WH4^mYN(kbW~Cmi~h42d_afER$bx$73WGtPP`=
zz+e(AKvpBt=LkoLkjG^B5Y7V*CJ9Q6rGn~c1TH7bl#q8kM(|wpNs@ymaYv9o<YBO6
zfdWD6Bbn1`N&o)mUR*ZL#%cH*YgOEpVm4}!RA|5@lpR28gfmehQvON8S~A*BLrO;5
z6KDFywi@pL{q^6SC5fm0cG<H}Tqr`Eqa*gB5xeowEiWCky?x0a@18t}0xpwG)1v0u
z+dbGj#|APoG>()=oQdYnk;LqT^US~>2%Zrc(I70bXNlp1tluuyY@(R6ge~JP0p1y_
zc&@!%1}%&xnCFoAlild^s5fln`of6B`djWI{ju{dO<(GoRWVqeA0acC0R}QHX;zLC
z-G=UgBdd!+MDgw$?b;IcsJ-e*dJeP$Ep2m;-f45*X=@ASby^HFZ#flTPi3F>@Gn2s
ze)(^PmiD<v1A0Z^)nC|K2J^hmqo=r>r??Kea*bNnk=E|^xv2sBTqNKvL#DP;a#vuk
zB_0YMo5G*%m?alUs^!i%(a58;7WWd!rvxM6-(#FNGg8Ds35S-+a+E_4$G2ojk<I`D
z+7NleOgGX#H*mh@4x`E&&GaH;y>MY-4woP@8ro!#ZdXbTbOVieuQ%Dx=Z-+O0INgn
z1`PqqZ3LgRE23Q?oF$^}vt!?o*d)?M_;g|=w*~W6@HWldAB}Y8t5s#P91x&^jN;=!
zX)Zx4ByCBY8d}m!=n<MSMEbM=JPmbJh?PZi$dV^;h4%tO0>R8l$m`@+xdMUajSpr`
zA7ZhiNR<FOLJJrUPyLD~4<Zpiv8dhPq9x=*m||k@h;+eUio=O*3egU(`Vg%bIXu{3
zMR`hYQ-b9nNq-SPMhg(_XoSjvzsO1fLl;vp`Gx?eQPHK9ijGC3jI&afF~jHn$7&Uy
zs&v`ze(~c+3MTCCr*D7e(}RCC&ODO!>?1E;kx`#ZXY$alt26TR)^uNsN0ifRPY!pl
z=r}oiYPe%vcwI-&3WN-iKEn-;^r%+~xYJQmU^#K{b3LnHxFp1g4%(HG6krQd)?t&U
z@*i{;lV@ty$(yL~78uigMH8-e=8TL-$IyoYypeSZ!%|J^0Fxp65|jPL)k8k4fhf>S
zXKP!XFBR6vkWwBvBPvqY71Hk<n>nU>T&|1^!pe+#-{qRSGUX%cdQ3fA*bXTq`gV!%
zoYiyN7w>;jb>|PP?O4}gUA5%YDxYWVI5H(szzy}apxyA)=Kih9RuYM~$e_z`Vj>Z%
zCc!c+qS?jC$Ur(#WeM>XEGH8Enp?_9it&V{*z2k|y`@BZ#JZN+)B~0Y2h%s~=^T!n
z=K)+A9ZvVlH91BriBi7Lv!%h~eGb4=v=wn{XZPEBIqO~q)QqO$1-InuTXuh?oR^)9
zfL{Bo&bNySLS|!pxG1ln95Vp(L`YK}bG~Z!p3(Syp?{V*Tg}E5!&P20Bi(YpqW@(1
zfI+`hi#b0(zwWzU6N>nGk~LdU`}&$*LuMAW#aFkqBG!GK+1NE4*f&QunSFCwZZz9g
zqR1;+Wp4jZ(*e})N*tN#0ID@x=C>2b@y}-bwye<(A5)e6`ykT)UJzfs**$aAyymEx
z()abbf`go@*Pbfcsoi?;z08n-%XIH$GGt&<4_=n({toH2hordpNN>AUpSi&D^9w8s
zPb<*McArvoT7mNc2PsgQqJjh*_$NG}<jY9XJgc9MNyd~A+rh~%F@~Z*N1i89i3BvE
z_JD9l2SN}fu2anL2vQM#qQwH<tNy;Zxa^qdz2Ijsh<(0(#&}#vj2H@Y21yZ`gBJ?F
z3zZ>)Z)#=`7(@lSI!JCmWED?{nHgG}3<%=r*bpdq5uX#B2$zQ4h)JC|VWT47dZxG>
z`2tk}62!PFv>;*O=x^kdg{(p$Pbehd2F4{wa2i%}mDt!xF(EyT30D*&B4*&&r*uNm
zf=MR96N~JC#v?#uNh(xR1i33SNZrVyMSZXGES0375U5xmLn=6Phq>$yv+d>Euls(%
zYP0LU2VUQCbjQruIYnpZbUpaOu>lo#U3lcDGN9rDbyI2CH_TJFEDNt$x_0Th@T%3}
zrE8aTtmr@^_|y@o%*nF~%L=~4475W9pL7bx-93)1T0NMvjF!!_JTf$nJd3eGb@f8R
zoS4(j%3{Z0X_js3?O3;D*;%W0YyH;QAm!PCNfg>5Hs=7A1bg+c*)hyNMbtwD{xX@W
zw49xWL9i<(|7b>k{_X`0m0Rko7?kG`X?bEu4?0gMF*DKI`A75A#g5FFDD|MZAkQI#
zeOCSrZP(CnIDrF4ecoa$v#Jjl*u)T{mjyzazR5h6_7&7R^jk<F&nh(z4HxA&Om*IP
zIn41^>p)^lVxY)xE>C+ZSFGqtSDoll*3yAEXiJ)JjWXdWW85JQoY6?0F-9z@+)@|C
zJEB^BT3D-c>p4I}Z~-H<#y(Fsy)`-_nWofYoqEH#sM@kuJ!f|D_UR(^$BSvP(-ieJ
z1V@{m(Q}CM|DAVkahmU9C5jdFnr+o^>!#z2-m=&#SDaR5dC%w}%&o-8-0;trx>CqS
zhKEc}<M^oacMj)<T>TP{r`ki=1hH-ps>)mwWA806Xf>7^vkX<*k!$1i)^wL^xjpKh
zTt{a1LD8jFGjG^_mCfg=UZgJ+34mvDaHXL#+_iLl&yuAlvhnIWjh@9-?-W;Z{)Ay{
zoL{gy!pS(M+9nMH(L#Qw>cqO0+UchIUBek$kot=itN?dU?OxSqDLvVW#JFHVcER5)
zHA1x{P#~`!8rY_9xAB@Ibt{%On@*_&^+L-IZ|3Ro4%N-~ZVPcA@b!1qsq<d}c&m#R
z<dNPUcm5>X1!cD-71!I%t9+f_YgG>nS++e<_a>3eyQ*}f=lq~W_l1nVU8)CuUXCz-
zqjmj8YtU$XrWFAs7GLC}xa$BnvAiN-CfSS3H$lKCuMq{KA#6vpfn|c5U0L#5&b0n7
z3}c+xWS#x`(I%@AMBsA0>T;r+U;Vxw3|pl`drGf*O0@qU>9apqw8_e-?w{tNh13GU
zO;(w~9(E??fhMC!CA$e-3z<+5!n}5NFydY5gb?;KR)t14vaufpvjo9W0a3A$st*3k
z`9NA}Frd<wR&)ZWCo$=f89-WaL-l6s@@ustm#n{5%bhRH5?Q|>Zp5b$HbTlIsWvzu
zu$Qvq5s-rV2Jc2Dqz(690%aV1JtlQL79vdr(*|Av|B~=2#8Uz@lw7-fBwMzA>Gr??
z2rwc>CQbzl1Wb{IR*TaW%mXhm6Ki3~h4n@oCd4<hX^|!XRx(Hl3jzp;40ZvWixEJD
z3%z8gR#UXoTy#-(#oZ(*_Y<9pN`c&2uo1LI^%!DNbE7A~e}IUHJ&c|d&n}W%e4t1b
zdC?>oO4tqVUh3Uubw*`7-IeGMW&Sa**I$?Pl@#BYYnxt!f|o=lL;_rUGEz~}Avi^9
zfJ_PVg-osIsNuZg>>@xh<7B2QjuGRG#ElDwR1w^r#*6SaglF*Z+WK4@QbQ_V?ogs~
zkS7wBWj{w|FjEbqMIa3ckW;1<@v#4=v-5$Cvb^K?`@X!_Ud#3IIL}J|xdX4YuyW9A
zdu>lCrR^FDrMa~f(BSZTe{7|+*j{f)aH9rLx|9?&Ou-Q#&_Tl%QBfquS%pc)bS5TK
zNsN?$&VNwdmTe5XeSUW^9l9)=Vq>bbT<>|G=lOkq-|y#FUZ!l*RhFv`H3v`~*$AW^
z8MWmtQ|mps_$u)xl0$tnZwP}HKQ+P@6pa{p0qQYzf;q6T+L>X<L%`PzIe1mI*M(q=
zPFxOn9dO<Of8pHX{K9jM>k%1-_k<Jx6eQqprPaYW_p4YW)b3Hooc1e^?mC_BI9uqv
zc;L!!c5R+;*s>iq+e;S?opv~EvA5qCIkgYRdM6LQm(&nx#AJNP?`mBWR-b08@|&$Z
zfK2;xVG{1Tw-2KZWA(K8`a!GlX3Fm?wX@u==y~=?WU@%w3t_g<o>izTwcQN+##+UM
za3&KzfJ8}(QABh089v*qZn3E!I;~8TQ&+68|NmB)`JpxQ?i^wnQPq@VZER_{>F4#&
zJN$d}HyHuPT0nYcjsj#xq$(_u+z3ih97xOINx{&81i}=NuU@}n{`8r_Y2yw5Hur?#
zdOaLx*UdeV&;l!19xMFe-!}I|q~5Bk$!QaJ<}}}#V=~diq8D3a<EYYo8&l;I^Yr3*
za@Xq9Ck9jb_1U22zOZF%P^<S2rmnts3JSZ#xDvy#a{)5|y^BQ09v!b2HHVc51xe7Q
zRQv3PtU2}+1Ul4gxV(%X6FNI65_}`TZG_vvYG)ymOh&dw)egP4WdI&qJEOKc184zg
zDhx!TfI_Gf7#g?}L_}iu=L_N1@mX?rl$GM$iK_l-ZfF8L>i7vOm0nmKBn&8HFL_c?
zIjIBl4r&W~0=gFJUn`S7ci*Os*9IgXjx$$ARhDx7V}s&hqj3QMkJunjH`r=|U~~z%
z^U+uXUru72SA{$&C^(cBb>Hkl2;Vs6sg^5!d55*S_+brC$b@yPTRR(IH-ZL4IgWzN
z#=y)nx+7wvM|5Q`1DHl98Q(J-2f0Kns(^Xukd><8JbQ@9dbwI(mW$~LAr!u4z^Qqk
z9_FVsFszL)Z|CLn$0wRa|BUM;yBUN;iB%zMkvb!3!tD@wDu`+d9SH&)mr717Ab51=
zgak+1kUxiTFfn_f<P?W6X`RX*D%KYCH0m}%-l$(WcN9RWq;dx}Og0ku&#yiAK&upz
z4(~YK1({C{)Dcb%;q@Z7n@$KWOw9ik>dCwnd~J3%I)C`AB{T=Vl&nK>`P@K!qs9PF
z0oCs;&>B$_c;DgN5TfTilG(0|bicJ4FDO1<{(>q<KAf{4-bn5rt1tR7J}$8CByWJb
z{_eXjniFKYpj@cGq<QujTA*hM3|z62sLL{p@0T+*J4Z`pn|kJ^B?u1S2}KD;2V<SE
zSySjcKFQhuS%t-gI4OQ#4lLphGAdWRpvZ1$>uTX-7Y1aZ>=e(LyP{^;#3Qt~Nw>B&
zS@gWBeC<>KmK(){&@T}uAV#u&8Gyhtz^8>A0IUXS58wz+VuU`iwyF-BQ+i3zGC!ST
zqkw=;WVOQ^X2konLappM7IBlM{-Cypx1PQ)6TIL<V~J-4B1uAv$Bqv207o5j@j%m*
z2In7s94U=c4;GiqIuKg0WM61Dp@-7jU^$XpWkR0k%A}em3oOKFlV#~`aNK3;?_U3S
z1J+lH7g_`;C-j!6D!@kpaxKLP%Uev#7j^^4D$*e!g|K|nHzD~XYm1}_=Y0Yl19aav
zcS+4mi*J**w8^qi5PL}PJaxcxWu5~7)u|?Qiph1ABypjD(c@)o0FO5gLw{jFCea`Y
zb6j(kVC*~!FNCgt*yhifinarTs)8qjA5YD&=H$o2R0Orwvw)RJWyj(G6e;j1B8Pil
zTLQ6`_zGM@y3i6+;VDOPR5mL+5y}-;1e|!ZeZVtu+VUExnev8f_M6^^G~VFm0-`(s
z&SU@p8D|=M!1CE007dZh;_`+&ieFD%m~EE(Mt46>ihwH#+O7ERXgngG;)svZNC2u+
z!6e@b-i>1IzQ0<$8?S!-YEUt7ITJo|q5T1ySe(-+1Y!K;#S*1tWE^{N7-+`^>3?AQ
zf)|E2Q^<H6^T541XP`bp%89D)xIH_q^7d}jdYUZJnVJn=Yq`2(=5k;Z5HZlJVB?|0
zagU+Y1e|%e+>V5e3;Rep_gyF$yu+koh^zte2oyUhB++`+E~}FQn~lmllA<lG(o+17
zXmtMWWoTizBdD6wo}LA&gVZMXC7x=oJ_x*c7nlhd-0NRK$CQ>0WP5I7UJeV&V;JB7
zRi3uiwaG+2ltQS`GUAgRW-Mf9Go2IkgeQ&sgk2C$=i>qPVY*6mIEDL#w}v(@T~(5I
z>`%bVWz!}EtSmRiSkPEWeY8|T1eb6CF+Y-Lp8ti1r#Lv|q}RZ?@`LU9cI*dmhJIYN
zo?b8;G}0w*2N_BuSX}Wv@;3rKE3<yGjnBXkpJJCTuur|O-oa{)E0qoh6s{n*r9{|-
z%OIjY*C56#BYH#G0(`^Wn+3oOQI=2n*cOvH2+vlIx7Kx2Q@Wai@s7CBMW>0Y14|fO
z9UCm&J;X|W2R&;J5OjZbOyDrSYRS{lsK<{ieiLK(tuK$K8-Fm24WFFYdih1B9S!AY
z4&|FW58QIB(t7mWe#f!Ox+Q%weYsJRu3T?gnM#qlH#_^rTQgtBvlk}U*KWL&PR=j8
z#Ema}Fv}iswbr*}Ka=IceTgvv|DDp(rr)2R3vwdCn$YKDtfQoLwC9>s)2Z{)9u^OJ
zt`nq%$2A{YsU15a4sGS8n0_|LF1M+mdU%SxD7|Hw>!UWch_Pzq(Dmi&g&cs)w#L@m
zdeuEeOqC0(qdA#Va>EQ77R?QPO*|EAf^8jgMMEiTQ0@6DHP3OnNN;p}m_H-iO^cYe
ztK`))_A#(b4KUj)>{5plHvAb5^+bWgR$y6M$hW=*xo9qPx7H$=ovAfy%Cf$<eYvZp
zJ<fMv?ma(p5@F(i#-bH$wUZiygZWyaGSXaB0upepDEB{Mc)I+y7D{oY7g+Cf-Ju?v
zIppKu!ZalVX?O<(zXOAdv=M|IN(EFH?!wg*UH;=;ese&7aO($)^bbx=^6x5=DsQts
zW3y>=oq3r^YeDMmbcJ6|bcO${SKYvDPWQzkx1-3-ERKVzR^CwERQXfynhL&*s0(*9
zE=}ns)Y$$h68=N#M?#`#;>J(Jm7{pH1oAGZg1w*BakZzgkwg>%6Ybpc3bm^;7o7-m
za9Nw@N2!{(DULWF3fG*@$~csk19GM)!%1)&n}T|=6tJ?3s~9Z<R;}`65sN~V!>-LS
z*H$w2fQpvI*r2300oRTz8$lsD)>Ivg)}-7l4mRJF`c~hQw_k5YN;&U7cI%&9y6h2c
zGMbkQ8sC&&prGiaca&^efH9U-Cs}YrIGJRLR8Q20HZExn9!hu-A-*jhC;~)q{%A*X
z2vEK7aM7%jQj-=nJv(|Iv<$ia@no{w3T2zLrD3S~ovx)FJ>3TJE@>7rQ~=rqx%n`i
zVE}BULe!CV201mkewBo(qp>xf1baZ9OHbb_<F~&cEMmMr$=I;tqn)Hh{sRXBS_q8@
z`Wo_qG0L#KxwX+dVbTmSGOm0agR~%^5X3y;Nb<{imuaVV=>JLw@h>aeWHz;oQx9Vv
z7RZd`x{45!m@b}}mX5tBt8f8%qK=r@i)oXsqEs^Wr%W_yc}+v<>Et6YMq|o|N-N-+
zbLsX3cH-)UbAA7Ur1OHwe^e+KOHp<@EG6xHaj|R&k)peMwOEwfX_*0_>51vi@di=;
zae=@H2iyy7fzzKO7p64@4Y^(E4uN(cw851U%0RN4#;dyf8@8ocpA%6F@BUo3uZwhb
z#JzviP0%Z?+ML8pEn*z)7-c%AUBVSo>D_rruSkZh617pf36SM33`qm}#8aB(Dbt95
zd{L`<OcSB{l9q8vN~8R*Oh~rrB%BtXm^zyu7K{MIVPT<g6X#Zq<4v{)=+82~5m*=i
z@{rgqWOM-1MmY^7gcjyf5aPw;#-)&{%`zyG9207bTyr@xXm3>lVEI-S3bzi51nyjX
zN19!f@*Fm_s5tP*t#Zs#aqyJz(8;+45{5Jr!AZ%z$pw)+Z!!L^AYLVQG@d~pPYWbf
zp<Zz6<FF{<0|+XF0@}Hh_oy#ivAC&}O4_%e8Gs1hT33r)t;6?&4~iLaz7SO{G+Q2N
zg!r~ZHOM!R@EaU@Tp%2^+)b+`ZAO0ut2kL3*g(B3wIkPTNav2cb0}#;N{&MN#K8Zx
zkAYAu^8PdSed0;lbY{=Hqni?rq=)otmZW<8$cVW}r1V-ijBv^d<Y?183`wC?y{uJi
zLLr&Whqj0;JJ@11wx?dK(=2tEE}HeVX0WrrcVxX*6ESV_0{sKJ3xiMcRlPBwk2hYm
z5hZv*Nh6Us>;6wC(Uw(N-#@z$uP!`<|J_NH*5Ey2YW^=KTN+$M@T^t6rb&;aS+8m4
zkoY27{6zB-exhyqjBVm4I+^qnolKk@m-VXsGT80rlv#g&WwH6*4W-rBph5{(-Ik26
z8;h)glE|o&>4N{&FGQ(~IE8rtCj@ntOpzig%UELS3|cNSAqmVaOSIx!R`%$u@eA-3
zq*%dnjW?Ix1s7+A5@X#%D!>>ZBA^r`T)kxInamC2x-G+&*eq#6kw}6t$TCNEBq0x2
zf;tY?8-O3NLSWBA1!S%zk0b>Y9uMis;+rE1Q!2~^cS|g?hW@8(v4<!-UCZt+BaT+d
z=o2<u0!p-!kQ!m;G38D`w1}4YJ-8`zWK^>)_k_FA7ZCB=*ChOP=guA{*8a9>Y<OYt
zrxW|G!o~bIr@ivNK3;1aetzsKdu;R351u>9f9@3Le3BKCNC=2mldV%eyD|>pV>O28
zXq4k5!cvFH)ukfo_P&U5J{3KS?k#MNh__Lz5cQkZB>(ir=y8sErt*nCkRSNrbA`4*
zx1sywNGu)TN0Qk<GlOlq3!y94!4s75tOBVrdp$J^Qp}cE)d8KYGa5Q~;A{4xg=?45
zk8-teeZ*sQ2cz8ZQ=sNiPf>y*dyI}WBI;7K(TAsK<UQj@UfrHQt}jwQo1C%8UB{oR
zmJmp!Yi#6YpoU1AV5%saDK5!nL+E1zV^$fLUEyS-z`z~wT|);rzD%EJNZHzuV(!r=
zTJ)+GmUsN)ZG6m}%d%gGhgtliuj=}PWv^NdETt#(Stn#SzpV2c`Sp53<`SD)Vbcn{
z4JrLTL<0DK(6op_3D6qm9xzZyc5H%FN7Rhio{>+)1rIDzCX0V_&W4QaMr65e&IVh#
zzEL+dPt7Bmb7g3CI2li?4kU)e_+T^2_y^b@1lia>k!Z*jR4~95x~LZ&Ti^|nH-=mb
mNCKlABU%WlN28+`sNV4W0S%!j<u2F!scpkU;g_zzMEw(A!_z|m

diff --git a/go/arrow/bitutil/Makefile b/go/arrow/bitutil/Makefile
deleted file mode 100644
index 12dd1d3491745..0000000000000
--- a/go/arrow/bitutil/Makefile
+++ /dev/null
@@ -1,62 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	bitmap_ops_avx2_amd64.s bitmap_ops_sse4_amd64.s	
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bitmap_ops_avx2_amd64.s: _lib/bitmap_ops.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/bitmap_ops_sse4_amd64.s: _lib/bitmap_ops.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-bitmap_ops_avx2_amd64.s: _lib/bitmap_ops_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-bitmap_ops_sse4_amd64.s: _lib/bitmap_ops_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/bitutil/_lib/bitmap_ops.c b/go/arrow/bitutil/_lib/bitmap_ops.c
deleted file mode 100644
index f48b4d4d821cb..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops.c
+++ /dev/null
@@ -1,46 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include "../../../internal/utils/_lib/arch.h"
-#include <stdint.h>
-
-// like elsewhere in this repo, this .c file gets compiled into optimized
-// assembly and then converted to go plan9 assembly via c2goasm so we can
-// call these functions. see the Makefile in the parent directory.
-
-void FULL_NAME(bitmap_aligned_and)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] & right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_or)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] | right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_and_not)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] & ~right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_xor)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] ^ right[i];
-    }
-}
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
deleted file mode 100644
index a4010dab55b25..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
+++ /dev/null
@@ -1,410 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_ops.c"
-	.globl	bitmap_aligned_and_avx2         # -- Begin function bitmap_aligned_and_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_avx2,@function
-bitmap_aligned_and_avx2:                # @bitmap_aligned_and_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB0_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB0_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB0_3
-.LBB0_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB0_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB0_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vandps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vandps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vandps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vandps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB0_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB0_12
-.LBB0_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	and	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	and	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	and	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	and	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	and	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB0_6
-.LBB0_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	bitmap_aligned_and_avx2, .Lfunc_end0-bitmap_aligned_and_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_or_avx2          # -- Begin function bitmap_aligned_or_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_or_avx2,@function
-bitmap_aligned_or_avx2:                 # @bitmap_aligned_or_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB1_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB1_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB1_3
-.LBB1_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB1_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB1_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vorps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vorps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vorps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vorps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB1_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB1_12
-.LBB1_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB1_5
-	.p2align	4, 0x90
-.LBB1_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	or	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB1_4
-.LBB1_5:
-	cmp	r8, 3
-	jb	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	or	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	or	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	or	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	or	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB1_6
-.LBB1_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	bitmap_aligned_or_avx2, .Lfunc_end1-bitmap_aligned_or_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_and_not_avx2     # -- Begin function bitmap_aligned_and_not_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_not_avx2,@function
-bitmap_aligned_and_not_avx2:            # @bitmap_aligned_and_not_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB2_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB2_7
-# %bb.2:
-	xor	r8d, r8d
-	jmp	.LBB2_3
-.LBB2_7:
-	lea	r8, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r8, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r10b
-	cmp	r8, rsi
-	seta	r9b
-	xor	r8d, r8d
-	test	r11b, bl
-	jne	.LBB2_3
-# %bb.8:
-	and	r10b, r9b
-	jne	.LBB2_3
-# %bb.9:
-	mov	r8, rcx
-	and	r8, -128
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + rax]
-	vmovups	ymm1, ymmword ptr [rsi + rax + 32]
-	vmovups	ymm2, ymmword ptr [rsi + rax + 64]
-	vmovups	ymm3, ymmword ptr [rsi + rax + 96]
-	vandnps	ymm0, ymm0, ymmword ptr [rdi + rax]
-	vandnps	ymm1, ymm1, ymmword ptr [rdi + rax + 32]
-	vandnps	ymm2, ymm2, ymmword ptr [rdi + rax + 64]
-	vandnps	ymm3, ymm3, ymmword ptr [rdi + rax + 96]
-	vmovups	ymmword ptr [rdx + rax], ymm0
-	vmovups	ymmword ptr [rdx + rax + 32], ymm1
-	vmovups	ymmword ptr [rdx + rax + 64], ymm2
-	vmovups	ymmword ptr [rdx + rax + 96], ymm3
-	sub	rax, -128
-	cmp	r8, rax
-	jne	.LBB2_10
-# %bb.11:
-	cmp	r8, rcx
-	je	.LBB2_12
-.LBB2_3:
-	mov	r9, r8
-	not	r9
-	test	cl, 1
-	je	.LBB2_5
-# %bb.4:
-	mov	al, byte ptr [rsi + r8]
-	not	al
-	and	al, byte ptr [rdi + r8]
-	mov	byte ptr [rdx + r8], al
-	or	r8, 1
-.LBB2_5:
-	add	r9, rcx
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r8]
-	not	al
-	and	al, byte ptr [rdi + r8]
-	mov	byte ptr [rdx + r8], al
-	movzx	eax, byte ptr [rsi + r8 + 1]
-	not	al
-	and	al, byte ptr [rdi + r8 + 1]
-	mov	byte ptr [rdx + r8 + 1], al
-	add	r8, 2
-	cmp	rcx, r8
-	jne	.LBB2_6
-.LBB2_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	bitmap_aligned_and_not_avx2, .Lfunc_end2-bitmap_aligned_and_not_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_xor_avx2         # -- Begin function bitmap_aligned_xor_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_xor_avx2,@function
-bitmap_aligned_xor_avx2:                # @bitmap_aligned_xor_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB3_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB3_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB3_3
-.LBB3_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB3_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB3_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vxorps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vxorps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vxorps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vxorps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB3_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB3_12
-.LBB3_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB3_5
-	.p2align	4, 0x90
-.LBB3_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	xor	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB3_4
-.LBB3_5:
-	cmp	r8, 3
-	jb	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	xor	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	xor	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	xor	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	xor	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB3_6
-.LBB3_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end3:
-	.size	bitmap_aligned_xor_avx2, .Lfunc_end3-bitmap_aligned_xor_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
deleted file mode 100644
index 840c1a623bb1b..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
+++ /dev/null
@@ -1,530 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_ops.c"
-	.globl	bitmap_aligned_and_sse4         # -- Begin function bitmap_aligned_and_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_sse4,@function
-bitmap_aligned_and_sse4:                # @bitmap_aligned_and_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB0_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB0_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	and	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	and	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	and	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB0_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB0_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB0_15
-.LBB0_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB0_15:
-	cmp	r11, rcx
-	jne	.LBB0_3
-.LBB0_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB0_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	bitmap_aligned_and_sse4, .Lfunc_end0-bitmap_aligned_and_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_or_sse4          # -- Begin function bitmap_aligned_or_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_or_sse4,@function
-bitmap_aligned_or_sse4:                 # @bitmap_aligned_or_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB1_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB1_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB1_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB1_5
-	.p2align	4, 0x90
-.LBB1_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	or	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB1_4
-.LBB1_5:
-	cmp	r8, 3
-	jb	.LBB1_16
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	or	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	or	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	or	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	or	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB1_6
-	jmp	.LBB1_16
-.LBB1_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB1_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB1_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB1_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB1_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB1_15
-.LBB1_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB1_15:
-	cmp	r11, rcx
-	jne	.LBB1_3
-.LBB1_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB1_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB1_14
-	jmp	.LBB1_15
-.Lfunc_end1:
-	.size	bitmap_aligned_or_sse4, .Lfunc_end1-bitmap_aligned_or_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_and_not_sse4     # -- Begin function bitmap_aligned_and_not_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_not_sse4,@function
-bitmap_aligned_and_not_sse4:            # @bitmap_aligned_and_not_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB2_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB2_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB2_3:
-	mov	r8, r11
-	not	r8
-	test	cl, 1
-	je	.LBB2_5
-# %bb.4:
-	mov	al, byte ptr [rsi + r11]
-	not	al
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	or	r11, 1
-.LBB2_5:
-	add	r8, rcx
-	je	.LBB2_16
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	not	al
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	not	al
-	and	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	add	r11, 2
-	cmp	rcx, r11
-	jne	.LBB2_6
-	jmp	.LBB2_16
-.LBB2_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB2_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB2_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB2_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB2_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB2_15
-.LBB2_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB2_15:
-	cmp	r11, rcx
-	jne	.LBB2_3
-.LBB2_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB2_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB2_14
-	jmp	.LBB2_15
-.Lfunc_end2:
-	.size	bitmap_aligned_and_not_sse4, .Lfunc_end2-bitmap_aligned_and_not_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_xor_sse4         # -- Begin function bitmap_aligned_xor_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_xor_sse4,@function
-bitmap_aligned_xor_sse4:                # @bitmap_aligned_xor_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB3_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB3_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB3_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB3_5
-	.p2align	4, 0x90
-.LBB3_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	xor	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB3_4
-.LBB3_5:
-	cmp	r8, 3
-	jb	.LBB3_16
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	xor	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	xor	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	xor	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	xor	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB3_6
-	jmp	.LBB3_16
-.LBB3_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB3_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB3_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB3_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB3_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB3_15
-.LBB3_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB3_15:
-	cmp	r11, rcx
-	jne	.LBB3_3
-.LBB3_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB3_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB3_14
-	jmp	.LBB3_15
-.Lfunc_end3:
-	.size	bitmap_aligned_xor_sse4, .Lfunc_end3-bitmap_aligned_xor_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/bitutil/bitmap_ops.go b/go/arrow/bitutil/bitmap_ops.go
deleted file mode 100644
index 7db750a6dd937..0000000000000
--- a/go/arrow/bitutil/bitmap_ops.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-func alignedBitAndGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] & rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] & right[i]
-	}
-}
-
-func alignedBitAndNotGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] &^ rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] &^ right[i]
-	}
-}
-
-func alignedBitOrGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] | rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] | right[i]
-	}
-}
-
-func alignedBitXorGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] ^ rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] ^ right[i]
-	}
-}
diff --git a/go/arrow/bitutil/bitmap_ops_amd64.go b/go/arrow/bitutil/bitmap_ops_amd64.go
deleted file mode 100644
index ad0fd674ab9b7..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_amd64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import "golang.org/x/sys/cpu"
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		bitAndOp.opAligned = bitmapAlignedAndAVX2
-		bitOrOp.opAligned = bitmapAlignedOrAVX2
-		bitAndNotOp.opAligned = bitmapAlignedAndNotAVX2
-		bitXorOp.opAligned = bitmapAlignedXorAVX2
-	} else if cpu.X86.HasSSE42 {
-		bitAndOp.opAligned = bitmapAlignedAndSSE4
-		bitOrOp.opAligned = bitmapAlignedOrSSE4
-		bitAndNotOp.opAligned = bitmapAlignedAndNotSSE4
-		bitXorOp.opAligned = bitmapAlignedXorSSE4
-	} else {
-		bitAndOp.opAligned = alignedBitAndGo
-		bitOrOp.opAligned = alignedBitOrGo
-		bitAndNotOp.opAligned = alignedBitAndNotGo
-		bitXorOp.opAligned = alignedBitXorGo
-	}
-}
diff --git a/go/arrow/bitutil/bitmap_ops_arm64.go b/go/arrow/bitutil/bitmap_ops_arm64.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_arm64.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go b/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
deleted file mode 100644
index 1c01bd0f38015..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _bitmap_aligned_and_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndAVX2(left, right, out []byte) {
-	_bitmap_aligned_and_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_or_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedOrAVX2(left, right, out []byte) {
-	_bitmap_aligned_or_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_and_not_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndNotAVX2(left, right, out []byte) {
-	_bitmap_aligned_and_not_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_xor_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedXorAVX2(left, right, out []byte) {
-	_bitmap_aligned_xor_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
deleted file mode 100644
index 00172e865926d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
+++ /dev/null
@@ -1,373 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bitmap_aligned_and_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB0_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB0_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_3
-
-LBB0_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB0_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB0_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x547ca1c4; WORD $0x0704             // vandps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5474a1c4; WORD $0x074c; BYTE $0x20 // vandps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x546ca1c4; WORD $0x0754; BYTE $0x40 // vandps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5464a1c4; WORD $0x075c; BYTE $0x60 // vandps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB0_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB0_12
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17042242             // and    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_12
-
-LBB0_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17042242               // and    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17442242; BYTE $0x01   // and    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17442242; BYTE $0x02   // and    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17442242; BYTE $0x03   // and    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB0_6
-
-LBB0_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_or_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB1_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB1_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB1_3
-
-LBB1_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB1_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB1_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x567ca1c4; WORD $0x0704             // vorps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5674a1c4; WORD $0x074c; BYTE $0x20 // vorps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x566ca1c4; WORD $0x0754; BYTE $0x40 // vorps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5664a1c4; WORD $0x075c; BYTE $0x60 // vorps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB1_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB1_12
-
-LBB1_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB1_5
-
-LBB1_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17040a42             // or    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB1_4
-
-LBB1_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB1_12
-
-LBB1_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17040a42               // or    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17440a42; BYTE $0x01   // or    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17440a42; BYTE $0x02   // or    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17440a42; BYTE $0x03   // or    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB1_6
-
-LBB1_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_and_not_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB2_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB2_7
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB2_3
-
-LBB2_7:
-	LONG $0x0a048d4c         // lea    r8, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf8 // cmp    r8, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB2_3
-	WORD $0x2045; BYTE $0xca // and    r10b, r9b
-	JNE  LBB2_3
-	WORD $0x8949; BYTE $0xc8 // mov    r8, rcx
-	LONG $0x80e08349         // and    r8, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB2_10:
-	LONG $0x0410fcc5; BYTE $0x06   // vmovups    ymm0, yword [rsi + rax]
-	LONG $0x4c10fcc5; WORD $0x2006 // vmovups    ymm1, yword [rsi + rax + 32]
-	LONG $0x5410fcc5; WORD $0x4006 // vmovups    ymm2, yword [rsi + rax + 64]
-	LONG $0x5c10fcc5; WORD $0x6006 // vmovups    ymm3, yword [rsi + rax + 96]
-	LONG $0x0455fcc5; BYTE $0x07   // vandnps    ymm0, ymm0, yword [rdi + rax]
-	LONG $0x4c55f4c5; WORD $0x2007 // vandnps    ymm1, ymm1, yword [rdi + rax + 32]
-	LONG $0x5455ecc5; WORD $0x4007 // vandnps    ymm2, ymm2, yword [rdi + rax + 64]
-	LONG $0x5c55e4c5; WORD $0x6007 // vandnps    ymm3, ymm3, yword [rdi + rax + 96]
-	LONG $0x0411fcc5; BYTE $0x02   // vmovups    yword [rdx + rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2002 // vmovups    yword [rdx + rax + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4002 // vmovups    yword [rdx + rax + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6002 // vmovups    yword [rdx + rax + 96], ymm3
-	LONG $0x80e88348               // sub    rax, -128
-	WORD $0x3949; BYTE $0xc0       // cmp    r8, rax
-	JNE  LBB2_10
-	WORD $0x3949; BYTE $0xc8       // cmp    r8, rcx
-	JE   LBB2_12
-
-LBB2_3:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
-	JE   LBB2_5
-	LONG $0x06048a42         // mov    al, byte [rsi + r8]
-	WORD $0xd0f6             // not    al
-	LONG $0x07042242         // and    al, byte [rdi + r8]
-	LONG $0x02048842         // mov    byte [rdx + r8], al
-	LONG $0x01c88349         // or    r8, 1
-
-LBB2_5:
-	WORD $0x0149; BYTE $0xc9 // add    r9, rcx
-	JE   LBB2_12
-
-LBB2_6:
-	LONG $0x04b60f42; BYTE $0x06   // movzx    eax, byte [rsi + r8]
-	WORD $0xd0f6                   // not    al
-	LONG $0x07042242               // and    al, byte [rdi + r8]
-	LONG $0x02048842               // mov    byte [rdx + r8], al
-	LONG $0x44b60f42; WORD $0x0106 // movzx    eax, byte [rsi + r8 + 1]
-	WORD $0xd0f6                   // not    al
-	LONG $0x07442242; BYTE $0x01   // and    al, byte [rdi + r8 + 1]
-	LONG $0x02448842; BYTE $0x01   // mov    byte [rdx + r8 + 1], al
-	LONG $0x02c08349               // add    r8, 2
-	WORD $0x394c; BYTE $0xc1       // cmp    rcx, r8
-	JNE  LBB2_6
-
-LBB2_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_xor_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB3_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB3_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB3_3
-
-LBB3_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB3_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB3_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x577ca1c4; WORD $0x0704             // vxorps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5774a1c4; WORD $0x074c; BYTE $0x20 // vxorps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x576ca1c4; WORD $0x0754; BYTE $0x40 // vxorps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5764a1c4; WORD $0x075c; BYTE $0x60 // vxorps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB3_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB3_12
-
-LBB3_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB3_5
-
-LBB3_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17043242             // xor    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB3_4
-
-LBB3_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_12
-
-LBB3_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17043242               // xor    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17443242; BYTE $0x01   // xor    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17443242; BYTE $0x02   // xor    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17443242; BYTE $0x03   // xor    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB3_6
-
-LBB3_12:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/bitutil/bitmap_ops_noasm.go b/go/arrow/bitutil/bitmap_ops_noasm.go
deleted file mode 100644
index e25347791fe45..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_noasm.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_ppc64le.go b/go/arrow/bitutil/bitmap_ops_ppc64le.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_ppc64le.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_s390x.go b/go/arrow/bitutil/bitmap_ops_s390x.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_s390x.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go b/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
deleted file mode 100644
index f16bce12bbfa2..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _bitmap_aligned_and_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndSSE4(left, right, out []byte) {
-	_bitmap_aligned_and_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_or_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedOrSSE4(left, right, out []byte) {
-	_bitmap_aligned_or_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_and_not_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndNotSSE4(left, right, out []byte) {
-	_bitmap_aligned_and_not_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_xor_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedXorSSE4(left, right, out []byte) {
-	_bitmap_aligned_xor_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
deleted file mode 100644
index c15e186253a36..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
+++ /dev/null
@@ -1,501 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bitmap_aligned_and_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB0_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB0_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f042242             // and    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f042242               // and    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f442242; BYTE $0x01   // and    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f442242; BYTE $0x02   // and    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f442242; BYTE $0x03   // and    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB0_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB0_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB0_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB0_3
-
-LBB0_16:
-	RET
-
-LBB0_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_bitmap_aligned_or_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB1_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB1_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB1_5
-
-LBB1_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f040a42             // or    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB1_4
-
-LBB1_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB1_16
-
-LBB1_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f040a42               // or    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f440a42; BYTE $0x01   // or    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f440a42; BYTE $0x02   // or    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f440a42; BYTE $0x03   // or    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB1_6
-	JMP  LBB1_16
-
-LBB1_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB1_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB1_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB1_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_15
-
-LBB1_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB1_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB1_3
-
-LBB1_16:
-	RET
-
-LBB1_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB1_14
-	JMP  LBB1_15
-
-TEXT ·_bitmap_aligned_and_not_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB2_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB2_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB2_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
-	JE   LBB2_5
-	LONG $0x1e048a42         // mov    al, byte [rsi + r11]
-	WORD $0xd0f6             // not    al
-	LONG $0x1f042242         // and    al, byte [rdi + r11]
-	LONG $0x1a048842         // mov    byte [rdx + r11], al
-	LONG $0x01cb8349         // or    r11, 1
-
-LBB2_5:
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	JE   LBB2_16
-
-LBB2_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	WORD $0xd0f6                   // not    al
-	LONG $0x1f042242               // and    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	WORD $0xd0f6                   // not    al
-	LONG $0x1f442242; BYTE $0x01   // and    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB2_6
-	JMP  LBB2_16
-
-LBB2_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB2_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB2_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB2_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_15
-
-LBB2_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB2_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB2_3
-
-LBB2_16:
-	RET
-
-LBB2_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB2_14
-	JMP  LBB2_15
-
-TEXT ·_bitmap_aligned_xor_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB3_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB3_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB3_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB3_5
-
-LBB3_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f043242             // xor    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB3_4
-
-LBB3_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_16
-
-LBB3_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f043242               // xor    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f443242; BYTE $0x01   // xor    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f443242; BYTE $0x02   // xor    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f443242; BYTE $0x03   // xor    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB3_6
-	JMP  LBB3_16
-
-LBB3_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB3_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB3_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB3_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB3_15
-
-LBB3_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB3_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB3_3
-
-LBB3_16:
-	RET
-
-LBB3_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB3_14
-	JMP  LBB3_15
diff --git a/go/arrow/bitutil/bitmaps.go b/go/arrow/bitutil/bitmaps.go
deleted file mode 100644
index fb4fcd597b804..0000000000000
--- a/go/arrow/bitutil/bitmaps.go
+++ /dev/null
@@ -1,747 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"bytes"
-	"errors"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// BitmapReader is a simple bitmap reader for a byte slice.
-type BitmapReader struct {
-	bitmap []byte
-	pos    int
-	len    int
-
-	current    byte
-	byteOffset int
-	bitOffset  int
-}
-
-// NewBitmapReader creates and returns a new bitmap reader for the given bitmap
-func NewBitmapReader(bitmap []byte, offset, length int) *BitmapReader {
-	curbyte := byte(0)
-	if length > 0 && bitmap != nil {
-		curbyte = bitmap[offset/8]
-	}
-	return &BitmapReader{
-		bitmap:     bitmap,
-		byteOffset: offset / 8,
-		bitOffset:  offset % 8,
-		current:    curbyte,
-		len:        length,
-	}
-}
-
-// Set returns true if the current bit is set
-func (b *BitmapReader) Set() bool {
-	return (b.current & (1 << b.bitOffset)) != 0
-}
-
-// NotSet returns true if the current bit is not set
-func (b *BitmapReader) NotSet() bool {
-	return (b.current & (1 << b.bitOffset)) == 0
-}
-
-// Next advances the reader to the next bit in the bitmap.
-func (b *BitmapReader) Next() {
-	b.bitOffset++
-	b.pos++
-	if b.bitOffset == 8 {
-		b.bitOffset = 0
-		b.byteOffset++
-		if b.pos < b.len {
-			b.current = b.bitmap[int(b.byteOffset)]
-		}
-	}
-}
-
-// Pos returns the current bit position in the bitmap that the reader is looking at
-func (b *BitmapReader) Pos() int { return b.pos }
-
-// Len returns the total number of bits in the bitmap
-func (b *BitmapReader) Len() int { return b.len }
-
-// BitmapWriter is a simple writer for writing bitmaps to byte slices
-type BitmapWriter struct {
-	buf    []byte
-	pos    int
-	length int
-
-	curByte    uint8
-	bitMask    uint8
-	byteOffset int
-}
-
-// NewBitmapWriter returns a sequential bitwise writer that preserves surrounding
-// bit values as it writes.
-func NewBitmapWriter(bitmap []byte, start, length int) *BitmapWriter {
-	ret := &BitmapWriter{
-		buf:        bitmap,
-		length:     length,
-		byteOffset: start / 8,
-		bitMask:    BitMask[start%8],
-	}
-	if length > 0 {
-		ret.curByte = bitmap[int(ret.byteOffset)]
-	}
-	return ret
-}
-
-// Reset resets the position and view of the slice to restart writing a bitmap
-// to the same byte slice.
-func (b *BitmapWriter) Reset(start, length int) {
-	b.pos = 0
-	b.byteOffset = start / 8
-	b.bitMask = BitMask[start%8]
-	b.length = length
-	if b.length > 0 {
-		b.curByte = b.buf[int(b.byteOffset)]
-	}
-}
-
-func (b *BitmapWriter) Pos() int { return b.pos }
-func (b *BitmapWriter) Set()     { b.curByte |= b.bitMask }
-func (b *BitmapWriter) Clear()   { b.curByte &= ^b.bitMask }
-
-// Next increments the writer to the next bit for writing.
-func (b *BitmapWriter) Next() {
-	b.bitMask = b.bitMask << 1
-	b.pos++
-	if b.bitMask == 0 {
-		b.bitMask = 0x01
-		b.buf[b.byteOffset] = b.curByte
-		b.byteOffset++
-		if b.pos < b.length {
-			b.curByte = b.buf[int(b.byteOffset)]
-		}
-	}
-}
-
-// AppendBools writes a series of booleans to the bitmapwriter and returns
-// the number of remaining bytes left in the buffer for writing.
-func (b *BitmapWriter) AppendBools(in []bool) int {
-	space := min(b.length-b.pos, len(in))
-	if space == 0 {
-		return 0
-	}
-
-	bitOffset := bits.TrailingZeros32(uint32(b.bitMask))
-	// location that the first byte needs to be written to for appending
-	appslice := b.buf[int(b.byteOffset) : b.byteOffset+int(BytesForBits(int64(bitOffset+space)))]
-	// update everything but curByte
-	appslice[0] = b.curByte
-	for i, b := range in[:space] {
-		if b {
-			SetBit(appslice, i+bitOffset)
-		} else {
-			ClearBit(appslice, i+bitOffset)
-		}
-	}
-
-	b.pos += space
-	b.bitMask = BitMask[(bitOffset+space)%8]
-	b.byteOffset += (bitOffset + space) / 8
-	b.curByte = appslice[len(appslice)-1]
-
-	return space
-}
-
-// Finish flushes the final byte out to the byteslice in case it was not already
-// on a byte aligned boundary.
-func (b *BitmapWriter) Finish() {
-	if b.length > 0 && (b.bitMask != 0x01 || b.pos < b.length) {
-		b.buf[int(b.byteOffset)] = b.curByte
-	}
-}
-
-// BitmapWordReader is a reader for bitmaps that reads a word at a time (a word being an 8 byte uint64)
-// and then provides functions to grab the individual trailing bytes after the last word
-type BitmapWordReader struct {
-	bitmap        []byte
-	offset        int
-	nwords        int
-	trailingBits  int
-	trailingBytes int
-	curword       uint64
-}
-
-// NewBitmapWordReader sets up a word reader, calculates the number of trailing bits and
-// number of trailing bytes, along with the number of words.
-func NewBitmapWordReader(bitmap []byte, offset, length int) *BitmapWordReader {
-	bitoffset := offset % 8
-	byteOffset := offset / 8
-	bm := &BitmapWordReader{
-		offset: bitoffset,
-		bitmap: bitmap[byteOffset : byteOffset+int(BytesForBits(int64(bitoffset+length)))],
-		// decrement wordcount by 1 as we may touch two adjacent words in one iteration
-		nwords: length/int(unsafe.Sizeof(uint64(0))*8) - 1,
-	}
-	if bm.nwords < 0 {
-		bm.nwords = 0
-	}
-	bm.trailingBits = length - bm.nwords*int(unsafe.Sizeof(uint64(0)))*8
-	bm.trailingBytes = int(BytesForBits(int64(bm.trailingBits)))
-
-	if bm.nwords > 0 {
-		bm.curword = toFromLEFunc(endian.Native.Uint64(bm.bitmap))
-	} else if length > 0 {
-		setLSB(&bm.curword, bm.bitmap[0])
-	}
-	return bm
-}
-
-// NextWord returns the next full word read from the bitmap, should not be called
-// if Words() is 0 as it will step outside of the bounds of the bitmap slice and panic.
-//
-// We don't perform the bounds checking in order to improve performance.
-func (bm *BitmapWordReader) NextWord() uint64 {
-	bm.bitmap = bm.bitmap[unsafe.Sizeof(bm.curword):]
-	word := bm.curword
-	nextWord := toFromLEFunc(endian.Native.Uint64(bm.bitmap))
-	if bm.offset != 0 {
-		// combine two adjacent words into one word
-		// |<------ next ----->|<---- current ---->|
-		// +-------------+-----+-------------+-----+
-		// |     ---     |  A  |      B      | --- |
-		// +-------------+-----+-------------+-----+
-		//                  |         |       offset
-		//                  v         v
-		//               +-----+-------------+
-		//               |  A  |      B      |
-		//               +-----+-------------+
-		//               |<------ word ----->|
-		word >>= uint64(bm.offset)
-		word |= nextWord << (int64(unsafe.Sizeof(uint64(0))*8) - int64(bm.offset))
-	}
-	bm.curword = nextWord
-	return word
-}
-
-// NextTrailingByte returns the next trailing byte of the bitmap after the last word
-// along with the number of valid bits in that byte. When validBits < 8, that
-// is the last byte.
-//
-// If the bitmap ends on a byte alignment, then the last byte can also return 8 valid bits.
-// Thus the TrailingBytes function should be used to know how many trailing bytes to read.
-func (bm *BitmapWordReader) NextTrailingByte() (val byte, validBits int) {
-	debug.Assert(bm.trailingBits > 0, "next trailing byte called with no trailing bits")
-
-	if bm.trailingBits <= 8 {
-		// last byte
-		validBits = bm.trailingBits
-		bm.trailingBits = 0
-		rdr := NewBitmapReader(bm.bitmap, bm.offset, validBits)
-		for i := 0; i < validBits; i++ {
-			val >>= 1
-			if rdr.Set() {
-				val |= 0x80
-			}
-			rdr.Next()
-		}
-		val >>= (8 - validBits)
-		return
-	}
-
-	bm.bitmap = bm.bitmap[1:]
-	nextByte := bm.bitmap[0]
-	val = getLSB(bm.curword)
-	if bm.offset != 0 {
-		val >>= byte(bm.offset)
-		val |= nextByte << (8 - bm.offset)
-	}
-	setLSB(&bm.curword, nextByte)
-	bm.trailingBits -= 8
-	bm.trailingBytes--
-	validBits = 8
-	return
-}
-
-func (bm *BitmapWordReader) Words() int         { return bm.nwords }
-func (bm *BitmapWordReader) TrailingBytes() int { return bm.trailingBytes }
-
-// BitmapWordWriter is a bitmap writer for writing a full word at a time (a word being
-// a uint64). After the last full word is written, PutNextTrailingByte can be used to
-// write the remaining trailing bytes.
-type BitmapWordWriter struct {
-	bitmap []byte
-	offset int
-	len    int
-
-	bitMask     uint64
-	currentWord uint64
-}
-
-// NewBitmapWordWriter initializes a new bitmap word writer which will start writing
-// into the byte slice at bit offset start, expecting to write len bits.
-func NewBitmapWordWriter(bitmap []byte, start, len int) *BitmapWordWriter {
-	ret := &BitmapWordWriter{
-		bitmap:  bitmap[start/8:],
-		len:     len,
-		offset:  start % 8,
-		bitMask: (uint64(1) << uint64(start%8)) - 1,
-	}
-
-	if ret.offset != 0 {
-		if ret.len >= int(unsafe.Sizeof(uint64(0))*8) {
-			ret.currentWord = toFromLEFunc(endian.Native.Uint64(ret.bitmap))
-		} else if ret.len > 0 {
-			setLSB(&ret.currentWord, ret.bitmap[0])
-		}
-	}
-	return ret
-}
-
-// PutNextWord writes the given word to the bitmap, potentially splitting across
-// two adjacent words.
-func (bm *BitmapWordWriter) PutNextWord(word uint64) {
-	sz := int(unsafe.Sizeof(word))
-	if bm.offset != 0 {
-		// split one word into two adjacent words, don't touch unused bits
-		//               |<------ word ----->|
-		//               +-----+-------------+
-		//               |  A  |      B      |
-		//               +-----+-------------+
-		//                  |         |
-		//                  v         v       offset
-		// +-------------+-----+-------------+-----+
-		// |     ---     |  A  |      B      | --- |
-		// +-------------+-----+-------------+-----+
-		// |<------ next ----->|<---- current ---->|
-		word = (word << uint64(bm.offset)) | (word >> (int64(sz*8) - int64(bm.offset)))
-		next := toFromLEFunc(endian.Native.Uint64(bm.bitmap[sz:]))
-		bm.currentWord = (bm.currentWord & bm.bitMask) | (word &^ bm.bitMask)
-		next = (next &^ bm.bitMask) | (word & bm.bitMask)
-		endian.Native.PutUint64(bm.bitmap, toFromLEFunc(bm.currentWord))
-		endian.Native.PutUint64(bm.bitmap[sz:], toFromLEFunc(next))
-		bm.currentWord = next
-	} else {
-		endian.Native.PutUint64(bm.bitmap, toFromLEFunc(word))
-	}
-	bm.bitmap = bm.bitmap[sz:]
-}
-
-// PutNextTrailingByte writes the number of bits indicated by validBits from b to
-// the bitmap.
-func (bm *BitmapWordWriter) PutNextTrailingByte(b byte, validBits int) {
-	curbyte := getLSB(bm.currentWord)
-	if validBits == 8 {
-		if bm.offset != 0 {
-			b = (b << bm.offset) | (b >> (8 - bm.offset))
-			next := bm.bitmap[1]
-			curbyte = (curbyte & byte(bm.bitMask)) | (b &^ byte(bm.bitMask))
-			next = (next &^ byte(bm.bitMask)) | (b & byte(bm.bitMask))
-			bm.bitmap[0] = curbyte
-			bm.bitmap[1] = next
-			bm.currentWord = uint64(next)
-		} else {
-			bm.bitmap[0] = b
-		}
-		bm.bitmap = bm.bitmap[1:]
-	} else {
-		debug.Assert(validBits > 0 && validBits < 8, "invalid valid bits in bitmap word writer")
-		debug.Assert(BytesForBits(int64(bm.offset+validBits)) <= int64(len(bm.bitmap)), "writing trailing byte outside of bounds of bitmap")
-		wr := NewBitmapWriter(bm.bitmap, int(bm.offset), validBits)
-		for i := 0; i < validBits; i++ {
-			if b&0x01 != 0 {
-				wr.Set()
-			} else {
-				wr.Clear()
-			}
-			wr.Next()
-			b >>= 1
-		}
-		wr.Finish()
-	}
-}
-
-type transferMode int8
-
-const (
-	transferCopy transferMode = iota
-	transferInvert
-)
-
-func transferBitmap(mode transferMode, src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	if length == 0 {
-		// if there's nothing to write, end early.
-		return
-	}
-
-	bitOffset := srcOffset % 8
-	destBitOffset := dstOffset % 8
-
-	// slow path, one of the bitmaps are not byte aligned.
-	if bitOffset != 0 || destBitOffset != 0 {
-		rdr := NewBitmapWordReader(src, srcOffset, length)
-		wr := NewBitmapWordWriter(dst, dstOffset, length)
-
-		nwords := rdr.Words()
-		for nwords > 0 {
-			nwords--
-			if mode == transferInvert {
-				wr.PutNextWord(^rdr.NextWord())
-			} else {
-				wr.PutNextWord(rdr.NextWord())
-			}
-		}
-		nbytes := rdr.TrailingBytes()
-		for nbytes > 0 {
-			nbytes--
-			bt, validBits := rdr.NextTrailingByte()
-			if mode == transferInvert {
-				bt = ^bt
-			}
-			wr.PutNextTrailingByte(bt, validBits)
-		}
-		return
-	}
-
-	// fast path, both are starting with byte-aligned bitmaps
-	nbytes := int(BytesForBits(int64(length)))
-
-	// shift by its byte offset
-	src = src[srcOffset/8:]
-	dst = dst[dstOffset/8:]
-
-	// Take care of the trailing bits in the last byte
-	// E.g., if trailing_bits = 5, last byte should be
-	// - low  3 bits: new bits from last byte of data buffer
-	// - high 5 bits: old bits from last byte of dest buffer
-	trailingBits := nbytes*8 - length
-	trailMask := byte(uint(1)<<(8-trailingBits)) - 1
-	var lastData byte
-	if mode == transferInvert {
-		for i, b := range src[:nbytes-1] {
-			dst[i] = ^b
-		}
-		lastData = ^src[nbytes-1]
-	} else {
-		copy(dst, src[:nbytes-1])
-		lastData = src[nbytes-1]
-	}
-
-	dst[nbytes-1] &= ^trailMask
-	dst[nbytes-1] |= lastData & trailMask
-}
-
-// CopyBitmap copies the bitmap indicated by src, starting at bit offset srcOffset,
-// and copying length bits into dst, starting at bit offset dstOffset.
-func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	transferBitmap(transferCopy, src, srcOffset, length, dst, dstOffset)
-}
-
-// InvertBitmap copies a bit range of a bitmap, inverting it as it copies
-// over into the destination.
-func InvertBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	transferBitmap(transferInvert, src, srcOffset, length, dst, dstOffset)
-}
-
-type bitOp struct {
-	opWord    func(uint64, uint64) uint64
-	opByte    func(byte, byte) byte
-	opAligned func(l, r, o []byte)
-}
-
-var (
-	bitAndOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l & r },
-		opByte: func(l, r byte) byte { return l & r },
-	}
-	bitOrOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l | r },
-		opByte: func(l, r byte) byte { return l | r },
-	}
-	bitAndNotOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l &^ r },
-		opByte: func(l, r byte) byte { return l &^ r },
-	}
-	bitXorOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l ^ r },
-		opByte: func(l, r byte) byte { return l ^ r },
-	}
-)
-
-func alignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	debug.Assert(lOffset%8 == rOffset%8, "aligned bitmap op called with unaligned offsets")
-	debug.Assert(lOffset%8 == outOffset%8, "aligned bitmap op called with unaligned output offset")
-
-	nbytes := BytesForBits(length + lOffset%8)
-	left = left[lOffset/8:]
-	right = right[rOffset/8:]
-	out = out[outOffset/8:]
-	endMask := (lOffset + length%8)
-	switch nbytes {
-	case 0:
-		return
-	case 1: // everything within a single byte
-		// (length+lOffset%8) <= 8
-		mask := PrecedingBitmask[lOffset%8]
-		if endMask != 0 {
-			mask |= TrailingBitmask[(lOffset+length)%8]
-		}
-		out[0] = (out[0] & mask) | (op.opByte(left[0], right[0]) &^ mask)
-	case 2: // don't send zero length to opAligned
-		firstByteMask := PrecedingBitmask[lOffset%8]
-		out[0] = (out[0] & firstByteMask) | (op.opByte(left[0], right[0]) &^ firstByteMask)
-		lastByteMask := byte(0)
-		if endMask != 0 {
-			lastByteMask = TrailingBitmask[(lOffset+length)%8]
-		}
-		out[1] = (out[1] & lastByteMask) | (op.opByte(left[1], right[1]) &^ lastByteMask)
-	default:
-		firstByteMask := PrecedingBitmask[lOffset%8]
-		out[0] = (out[0] & firstByteMask) | (op.opByte(left[0], right[0]) &^ firstByteMask)
-
-		op.opAligned(left[1:nbytes-1], right[1:nbytes-1], out[1:nbytes-1])
-
-		lastByteMask := byte(0)
-		if endMask != 0 {
-			lastByteMask = TrailingBitmask[(lOffset+length)%8]
-		}
-		out[nbytes-1] = (out[nbytes-1] & lastByteMask) | (op.opByte(left[nbytes-1], right[nbytes-1]) &^ lastByteMask)
-	}
-}
-
-func unalignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	leftRdr := NewBitmapWordReader(left, int(lOffset), int(length))
-	rightRdr := NewBitmapWordReader(right, int(rOffset), int(length))
-	writer := NewBitmapWordWriter(out, int(outOffset), int(length))
-
-	for nwords := leftRdr.Words(); nwords > 0; nwords-- {
-		writer.PutNextWord(op.opWord(leftRdr.NextWord(), rightRdr.NextWord()))
-	}
-	for nbytes := leftRdr.TrailingBytes(); nbytes > 0; nbytes-- {
-		leftByte, leftValid := leftRdr.NextTrailingByte()
-		rightByte, rightValid := rightRdr.NextTrailingByte()
-		debug.Assert(leftValid == rightValid, "unexpected mismatch of valid bits")
-		writer.PutNextTrailingByte(op.opByte(leftByte, rightByte), leftValid)
-	}
-}
-
-func BitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset, length int64) {
-	if (outOffset%8 == lOffset%8) && (outOffset%8 == rOffset%8) {
-		// fastcase!
-		alignedBitmapOp(op, left, right, lOffset, rOffset, out, outOffset, length)
-	} else {
-		unalignedBitmapOp(op, left, right, lOffset, rOffset, out, outOffset, length)
-	}
-}
-
-func BitmapOpAlloc(mem memory.Allocator, op bitOp, left, right []byte, lOffset, rOffset int64, length int64, outOffset int64) *memory.Buffer {
-	bits := length + outOffset
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(int(BytesForBits(bits)))
-	BitmapOp(op, left, right, lOffset, rOffset, buf.Bytes(), outOffset, length)
-	return buf
-}
-
-func BitmapAnd(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitAndOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapOr(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitOrOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapAndAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitAndOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapOrAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitOrOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapAndNot(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitAndNotOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapAndNotAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitAndNotOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapXor(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitXorOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapXorAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitXorOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapEquals(left, right []byte, lOffset, rOffset int64, length int64) bool {
-	if lOffset%8 == 0 && rOffset%8 == 0 {
-		// byte aligned, fast path, can use bytes.Equal (memcmp)
-		byteLen := length / 8
-		lStart := lOffset / 8
-		rStart := rOffset / 8
-		if !bytes.Equal(left[lStart:lStart+byteLen], right[rStart:rStart+byteLen]) {
-			return false
-		}
-
-		// check trailing bits
-		for i := (length / 8) * 8; i < length; i++ {
-			if BitIsSet(left, int(lOffset+i)) != BitIsSet(right, int(rOffset+i)) {
-				return false
-			}
-		}
-		return true
-	}
-
-	lrdr := NewBitmapWordReader(left, int(lOffset), int(length))
-	rrdr := NewBitmapWordReader(right, int(rOffset), int(length))
-
-	nwords := lrdr.Words()
-	for nwords > 0 {
-		nwords--
-		if lrdr.NextWord() != rrdr.NextWord() {
-			return false
-		}
-	}
-
-	nbytes := lrdr.TrailingBytes()
-	for nbytes > 0 {
-		nbytes--
-		lbt, _ := lrdr.NextTrailingByte()
-		rbt, _ := rrdr.NextTrailingByte()
-		if lbt != rbt {
-			return false
-		}
-	}
-	return true
-}
-
-// OptionalBitIndexer is a convenience wrapper for getting bits from
-// a bitmap which may or may not be nil.
-type OptionalBitIndexer struct {
-	Bitmap []byte
-	Offset int
-}
-
-func (b *OptionalBitIndexer) GetBit(i int) bool {
-	return b.Bitmap == nil || BitIsSet(b.Bitmap, b.Offset+i)
-}
-
-type Bitmap struct {
-	Data        []byte
-	Offset, Len int64
-}
-
-func bitLength(bitmaps []Bitmap) (int64, error) {
-	for _, b := range bitmaps[1:] {
-		if b.Len != bitmaps[0].Len {
-			return -1, errors.New("bitmaps must be same length")
-		}
-	}
-	return bitmaps[0].Len, nil
-}
-
-func runVisitWordsAndWriteLoop(bitLen int64, rdrs []*BitmapWordReader, wrs []*BitmapWordWriter, visitor func(in, out []uint64)) {
-	const bitWidth int64 = int64(uint64SizeBits)
-
-	visited := make([]uint64, len(rdrs))
-	output := make([]uint64, len(wrs))
-
-	// every reader will have same number of words, since they are same
-	// length'ed. This will be inefficient in some cases. When there's
-	// offsets beyond the Word boundary, every word would have to be
-	// created from 2 adjoining words
-	nwords := int64(rdrs[0].Words())
-	bitLen -= nwords * bitWidth
-	for nwords > 0 {
-		nwords--
-		for i := range visited {
-			visited[i] = rdrs[i].NextWord()
-		}
-		visitor(visited, output)
-		for i := range output {
-			wrs[i].PutNextWord(output[i])
-		}
-	}
-
-	// every reader will have the same number of trailing bytes, because
-	// we already confirmed they have the same length. Because
-	// offsets beyond the Word boundary can cause adjoining words, the
-	// tailing portion could be more than one word remaining full/partial
-	// words to write.
-	if bitLen == 0 {
-		return
-	}
-
-	// convert the word visitor to a bytevisitor
-	byteVisitor := func(in, out []byte) {
-		for i, w := range in {
-			visited[i] = uint64(w)
-		}
-		visitor(visited, output)
-		for i, w := range output {
-			out[i] = byte(w)
-		}
-	}
-
-	visitedBytes := make([]byte, len(rdrs))
-	outputBytes := make([]byte, len(wrs))
-	nbytes := rdrs[0].trailingBytes
-	for nbytes > 0 {
-		nbytes--
-		memory.Set(visitedBytes, 0)
-		memory.Set(outputBytes, 0)
-
-		var validBits int
-		for i := range rdrs {
-			visitedBytes[i], validBits = rdrs[i].NextTrailingByte()
-		}
-		byteVisitor(visitedBytes, outputBytes)
-		for i, w := range outputBytes {
-			wrs[i].PutNextTrailingByte(w, validBits)
-		}
-	}
-}
-
-// VisitWordsAndWrite visits words of bits from each input bitmap and
-// collects outputs to a slice of output Bitmaps.
-//
-// All bitmaps must have identical lengths. The first bit in a visited
-// bitmap may be offset within the first visited word, but words will
-// otherwise contain densely packed bits loaded from the bitmap. That
-// offset within the first word is returned.
-//
-// NOTE: this function is efficient on 3+ sufficiently large bitmaps.
-// It also has a large prolog/epilog overhead and should be used
-// carefully in other cases. For 2 or fewer bitmaps, and/or smaller
-// bitmaps, try BitmapReader and or other utilities.
-func VisitWordsAndWrite(args []Bitmap, out []Bitmap, visitor func(in, out []uint64)) error {
-	bitLen, err := bitLength(args)
-	if err != nil {
-		return err
-	}
-
-	rdrs, wrs := make([]*BitmapWordReader, len(args)), make([]*BitmapWordWriter, len(out))
-	for i, in := range args {
-		rdrs[i] = NewBitmapWordReader(in.Data, int(in.Offset), int(in.Len))
-	}
-	for i, o := range out {
-		wrs[i] = NewBitmapWordWriter(o.Data, int(o.Offset), int(o.Len))
-	}
-	runVisitWordsAndWriteLoop(bitLen, rdrs, wrs, visitor)
-	return nil
-}
diff --git a/go/arrow/bitutil/bitmaps_test.go b/go/arrow/bitutil/bitmaps_test.go
deleted file mode 100644
index 726bfa050cc4b..0000000000000
--- a/go/arrow/bitutil/bitmaps_test.go
+++ /dev/null
@@ -1,580 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil_test
-
-import (
-	"fmt"
-	"math/rand"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func bitmapFromSlice(vals []int, bitOffset int) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals)+bitOffset))))
-	writer := bitutil.NewBitmapWriter(out, bitOffset, len(vals))
-	for _, val := range vals {
-		if val == 1 {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-
-	return out
-}
-
-func assertReaderVals(t *testing.T, reader *bitutil.BitmapReader, vals []bool) {
-	for _, v := range vals {
-		if v {
-			assert.True(t, reader.Set())
-			assert.False(t, reader.NotSet())
-		} else {
-			assert.True(t, reader.NotSet())
-			assert.False(t, reader.Set())
-		}
-		reader.Next()
-	}
-}
-
-func TestNormalOperation(t *testing.T) {
-	for _, offset := range []int{0, 1, 3, 5, 7, 8, 12, 13, 21, 38, 75, 120} {
-		buf := bitmapFromSlice([]int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}, offset)
-
-		reader := bitutil.NewBitmapReader(buf, offset, 14)
-		assertReaderVals(t, reader, []bool{false, true, true, true, false, false, false, true, false, true, false, true, false, true})
-	}
-}
-
-func TestDoesNotReadOutOfBounds(t *testing.T) {
-	var bitmap [16]byte
-	const length = 128
-
-	reader := bitutil.NewBitmapReader(bitmap[:], 0, length)
-	assert.EqualValues(t, length, reader.Len())
-	assert.NotPanics(t, func() {
-		for i := 0; i < length; i++ {
-			assert.True(t, reader.NotSet())
-			reader.Next()
-		}
-	})
-	assert.EqualValues(t, length, reader.Pos())
-
-	reader = bitutil.NewBitmapReader(bitmap[:], 5, length-5)
-	assert.EqualValues(t, length-5, reader.Len())
-	assert.NotPanics(t, func() {
-		for i := 0; i < length-5; i++ {
-			assert.True(t, reader.NotSet())
-			reader.Next()
-		}
-	})
-	assert.EqualValues(t, length-5, reader.Pos())
-
-	assert.NotPanics(t, func() {
-		reader = bitutil.NewBitmapReader(nil, 0, 0)
-	})
-}
-
-func writeToWriter(vals []int, wr *bitutil.BitmapWriter) {
-	for _, v := range vals {
-		if v != 0 {
-			wr.Set()
-		} else {
-			wr.Clear()
-		}
-		wr.Next()
-	}
-	wr.Finish()
-}
-
-func TestBitmapWriter(t *testing.T) {
-	for _, fillByte := range []byte{0x00, 0xFF} {
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 0, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {0b00110110, 0b....1010, ........, ........}
-			assert.Equal(t, []byte{0x36, (0x0A | (fillByte & 0xF0)), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 0, 12)
-			wr.AppendBools([]bool{false, true, true, false, true, true, false, false, false, true, false, true})
-			assert.Equal(t, []byte{0x36, (0x0A | (fillByte & 0xF0)), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 3, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {0b10110..., 0b.1010001, ........, ........}
-			assert.Equal(t, []byte{0xb0 | (fillByte & 0x07), 0x51 | (fillByte & 0x80), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 3, 12)
-			wr.AppendBools([]bool{false, true, true, false})
-			wr.AppendBools([]bool{true, true, false, false})
-			wr.AppendBools([]bool{false, true, false, true})
-			assert.Equal(t, []byte{0xb0 | (fillByte & 0x07), 0x51 | (fillByte & 0x80), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 20, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {........, ........, 0b0110...., 0b10100011}
-			assert.Equal(t, []byte{fillByte, fillByte, 0x60 | (fillByte & 0x0f), 0xa3}, bitmap)
-		}
-	}
-}
-
-func TestBitmapReader(t *testing.T) {
-	assertReaderVals := func(vals []int, rdr *bitutil.BitmapReader) {
-		for _, v := range vals {
-			if v != 0 {
-				assert.True(t, rdr.Set())
-				assert.False(t, rdr.NotSet())
-			} else {
-				assert.False(t, rdr.Set())
-				assert.True(t, rdr.NotSet())
-			}
-			rdr.Next()
-		}
-	}
-
-	vals := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-
-	for _, offset := range []int{0, 1, 3, 5, 7, 8, 12, 13, 21, 38, 75, 120} {
-		bm := make([]byte, bitutil.BytesForBits(int64(len(vals)+offset)))
-		wr := bitutil.NewBitmapWriter(bm, offset, len(vals))
-		writeToWriter(vals, wr)
-
-		rdr := bitutil.NewBitmapReader(bm, offset, 14)
-		assertReaderVals(vals, rdr)
-	}
-}
-
-func TestCopyBitmap(t *testing.T) {
-	const bufsize = 1000
-	lengths := []int{bufsize*8 - 4, bufsize * 8}
-	offsets := []int{0, 12, 16, 32, 37, 63, 64, 128}
-
-	buffer := make([]byte, bufsize)
-
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	r.Read(buffer)
-
-	// add 16 byte padding
-	otherBuffer := make([]byte, bufsize+32)
-	r.Read(otherBuffer)
-
-	for _, nbits := range lengths {
-		for _, offset := range offsets {
-			for _, destOffset := range offsets {
-				t.Run(fmt.Sprintf("bits %d off %d dst %d", nbits, offset, destOffset), func(t *testing.T) {
-					copyLen := nbits - offset
-
-					bmCopy := make([]byte, len(otherBuffer))
-					copy(bmCopy, otherBuffer)
-
-					bitutil.CopyBitmap(buffer, offset, copyLen, bmCopy, destOffset)
-
-					for i := 0; i < int(destOffset); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(otherBuffer, i), bitutil.BitIsSet(bmCopy, i), "bit index: %d", i)
-					}
-					for i := 0; i < int(copyLen); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(buffer, i+int(offset)), bitutil.BitIsSet(bmCopy, i+int(destOffset)), "bit index: %d", i)
-					}
-					for i := int(destOffset + copyLen); i < len(otherBuffer); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(otherBuffer, i), bitutil.BitIsSet(bmCopy, i), "bit index: %d", i)
-					}
-				})
-			}
-		}
-	}
-}
-
-func benchmarkCopyBitmapN(b *testing.B, offsetSrc, offsetDest, n int) {
-	nbits := n * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	src := make([]byte, n)
-	r.Read(src)
-
-	length := nbits - offsetSrc
-
-	dest := make([]byte, bitutil.BytesForBits(int64(length+offsetDest)))
-
-	b.ResetTimer()
-	b.SetBytes(int64(n))
-	for i := 0; i < b.N; i++ {
-		bitutil.CopyBitmap(src, offsetSrc, length, dest, offsetDest)
-	}
-}
-
-// Fast path which is just a memcopy
-func BenchmarkCopyBitmapWithoutOffset(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 0, 0, sz)
-		})
-	}
-}
-
-// slow path where the source buffer is not byte aligned
-func BenchmarkCopyBitmapWithOffset(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 4, 0, sz)
-		})
-	}
-}
-
-// slow path where both source and dest are not byte aligned
-func BenchmarkCopyBitmapWithOffsetBoth(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 3, 7, sz)
-		})
-	}
-}
-
-const bufferSize = 1024 * 8
-
-// a naive bitmap reader for a baseline
-
-type NaiveBitmapReader struct {
-	bitmap []byte
-	pos    int
-}
-
-func (n *NaiveBitmapReader) IsSet() bool    { return bitutil.BitIsSet(n.bitmap, n.pos) }
-func (n *NaiveBitmapReader) IsNotSet() bool { return !n.IsSet() }
-func (n *NaiveBitmapReader) Next()          { n.pos++ }
-
-// naive bitmap writer for a baseline
-
-type NaiveBitmapWriter struct {
-	bitmap []byte
-	pos    int
-}
-
-func (n *NaiveBitmapWriter) Set() {
-	byteOffset := n.pos / 8
-	bitOffset := n.pos % 8
-	bitSetMask := uint8(1 << bitOffset)
-	n.bitmap[byteOffset] |= bitSetMask
-}
-
-func (n *NaiveBitmapWriter) Clear() {
-	byteOffset := n.pos / 8
-	bitOffset := n.pos % 8
-	bitClearMask := uint8(0xFF ^ (1 << bitOffset))
-	n.bitmap[byteOffset] &= bitClearMask
-}
-
-func (n *NaiveBitmapWriter) Next()   { n.pos++ }
-func (n *NaiveBitmapWriter) Finish() {}
-
-func randomBuffer(nbytes int64) []byte {
-	buf := make([]byte, nbytes)
-	r := rand.New(rand.NewSource(0))
-	r.Read(buf)
-	return buf
-}
-
-func BenchmarkBitmapReader(b *testing.B) {
-	buf := randomBuffer(bufferSize)
-	nbits := bufferSize * 8
-
-	b.Run("naive baseline", func(b *testing.B) {
-		b.SetBytes(2 * bufferSize)
-		for i := 0; i < b.N; i++ {
-			{
-				total := 0
-				rdr := NaiveBitmapReader{buf, 0}
-				for j := 0; j < nbits; j++ {
-					if rdr.IsSet() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-			{
-				total := 0
-				rdr := NaiveBitmapReader{buf, 0}
-				for j := 0; j < nbits; j++ {
-					if rdr.IsSet() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-		}
-	})
-	b.Run("bitmap reader", func(b *testing.B) {
-		b.SetBytes(2 * bufferSize)
-		for i := 0; i < b.N; i++ {
-			{
-				total := 0
-				rdr := bitutil.NewBitmapReader(buf, 0, nbits)
-				for j := 0; j < nbits; j++ {
-					if rdr.Set() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-			{
-				total := 0
-				rdr := bitutil.NewBitmapReader(buf, 0, nbits)
-				for j := 0; j < nbits; j++ {
-					if rdr.Set() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-		}
-	})
-}
-
-type (
-	noAllocFn func(left, right []byte, lOffset, rOffset int64, out []byte, outOffset, length int64)
-	allocFn   func(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer
-	bitmapOp  struct {
-		noAlloc noAllocFn
-		alloc   allocFn
-	}
-)
-
-type BitmapOpSuite struct {
-	suite.Suite
-}
-
-func (s *BitmapOpSuite) testAligned(op bitmapOp, leftBits, rightBits []int, resultBits []bool) {
-	var (
-		left, right []byte
-		out         *memory.Buffer
-		length      int64
-	)
-	for _, lOffset := range []int64{0, 1, 3, 5, 7, 8, 13, 21, 38, 75, 120, 65536} {
-		s.Run(fmt.Sprintf("left offset %d", lOffset), func() {
-			left = bitmapFromSlice(leftBits, int(lOffset))
-			length = int64(len(leftBits))
-			for _, rOffset := range []int64{lOffset, lOffset + 8, lOffset + 40} {
-				s.Run(fmt.Sprintf("right offset %d", rOffset), func() {
-					right = bitmapFromSlice(rightBits, int(rOffset))
-					for _, outOffset := range []int64{lOffset, lOffset + 16, lOffset + 24} {
-						s.Run(fmt.Sprintf("out offset %d", outOffset), func() {
-							s.Run("zero-length", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, 0, outOffset)
-								s.EqualValues(bitutil.BytesForBits(outOffset), out.Len())
-								expected := make([]byte, out.Len())
-								if out.Len() > 0 {
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-
-								memory.Set(out.Bytes(), 0xFF)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, 0)
-								if out.Len() > 0 {
-									memory.Set(expected, 0xFF)
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-								out.Release()
-							})
-
-							out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, length, outOffset)
-							defer out.Release()
-							rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-							assertReaderVals(s.T(), rdr, resultBits)
-
-							memory.Set(out.Bytes(), 0x00)
-							op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, length)
-							rdr = bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-							assertReaderVals(s.T(), rdr, resultBits)
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func (s *BitmapOpSuite) testUnaligned(op bitmapOp, leftBits, rightBits []int, resultBits []bool) {
-	var (
-		left, right []byte
-		out         *memory.Buffer
-		length      int64
-		offsets     = []int64{0, 1, 3, 5, 7, 8, 13, 21, 38, 75, 120, 65536}
-	)
-
-	for _, lOffset := range offsets {
-		s.Run(fmt.Sprintf("left offset %d", lOffset), func() {
-			left = bitmapFromSlice(leftBits, int(lOffset))
-			length = int64(len(leftBits))
-			for _, rOffset := range offsets {
-				s.Run(fmt.Sprintf("right offset %d", rOffset), func() {
-					right = bitmapFromSlice(rightBits, int(rOffset))
-					for _, outOffset := range offsets {
-						s.Run(fmt.Sprintf("out offset %d", outOffset), func() {
-							s.Run("zero-length", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, 0, outOffset)
-								s.EqualValues(bitutil.BytesForBits(outOffset), out.Len())
-								expected := make([]byte, out.Len())
-								if out.Len() > 0 {
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-
-								memory.Set(out.Bytes(), 0xFF)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, 0)
-								if out.Len() > 0 {
-									memory.Set(expected, 0xFF)
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-								out.Release()
-							})
-							s.Run("alloc", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, length, outOffset)
-								rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-								assertReaderVals(s.T(), rdr, resultBits)
-							})
-							s.Run("noalloc", func() {
-								memory.Set(out.Bytes(), 0x00)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, length)
-								rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-								assertReaderVals(s.T(), rdr, resultBits)
-							})
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func (s *BitmapOpSuite) TestBitmapAnd() {
-	op := bitmapOp{
-		noAlloc: bitutil.BitmapAnd,
-		alloc:   bitutil.BitmapAndAlloc,
-	}
-
-	leftBits := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-	rightBits := []int{0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0}
-	resultBits := []bool{false, false, true, false, false, false, false, false, false, true, false, false, false, false}
-
-	s.Run("aligned", func() {
-		s.testAligned(op, leftBits, rightBits, resultBits)
-	})
-	s.Run("unaligned", func() {
-		s.testUnaligned(op, leftBits, rightBits, resultBits)
-	})
-}
-
-func (s *BitmapOpSuite) TestBitmapOr() {
-	op := bitmapOp{
-		noAlloc: bitutil.BitmapOr,
-		alloc:   bitutil.BitmapOrAlloc,
-	}
-
-	leftBits := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-	rightBits := []int{0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0}
-	resultBits := []bool{false, true, true, true, true, true, false, true, true, true, true, true, true, true}
-
-	s.Run("aligned", func() {
-		s.testAligned(op, leftBits, rightBits, resultBits)
-	})
-	s.Run("unaligned", func() {
-		s.testUnaligned(op, leftBits, rightBits, resultBits)
-	})
-}
-
-func TestBitmapOps(t *testing.T) {
-	suite.Run(t, new(BitmapOpSuite))
-}
-
-func TestSmallBitmapOp(t *testing.T) {
-	// 0b01111111 0b11001111
-	left := [2]byte{127, 207}
-	// 0b11111110 0b01111111
-	right := [2]byte{254, 127}
-	// 0b01111110 0b01001111
-	results := [2]byte{126, 79}
-
-	var out [2]byte
-	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 8)
-	assert.Equal(t, results[:1], out[:1])
-
-	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 16)
-	assert.Equal(t, results, out)
-}
-
-func createRandomBuffer(mem memory.Allocator, src *rand.Rand, nbytes int) []byte {
-	buf := mem.Allocate(nbytes)
-	src.Read(buf)
-	return buf
-}
-
-func benchBitOpImpl(b *testing.B, nBytes, offset int, op noAllocFn) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	r := rand.New(rand.NewSource(0))
-
-	buf1 := createRandomBuffer(mem, r, nBytes)
-	buf2 := createRandomBuffer(mem, r, nBytes)
-	buf3 := createRandomBuffer(mem, r, nBytes)
-	b.Cleanup(func() {
-		mem.Free(buf1)
-		mem.Free(buf2)
-		mem.Free(buf3)
-	})
-
-	numBits := nBytes*8 - offset
-	b.ResetTimer()
-	b.SetBytes(bitutil.BytesForBits(int64(numBits)) * 2)
-	for i := 0; i < b.N; i++ {
-		op(buf1, buf2, 0, int64(offset), buf3, 0, int64(numBits))
-	}
-}
-
-func BenchmarkBitmapAnd(b *testing.B) {
-	sizes := []int{bufferSize * 4, bufferSize * 16}
-	offsets := []int{0, 1, 2}
-
-	for _, s := range sizes {
-		b.Run(fmt.Sprintf("nbytes=%d", s), func(b *testing.B) {
-			for _, o := range offsets {
-				b.Run(fmt.Sprintf("%d", o), func(b *testing.B) {
-					benchBitOpImpl(b, s, o, bitutil.BitmapAnd)
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/bitutil/bitutil.go b/go/arrow/bitutil/bitutil.go
deleted file mode 100644
index c4b633c73aa40..0000000000000
--- a/go/arrow/bitutil/bitutil.go
+++ /dev/null
@@ -1,186 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-var (
-	BitMask        = [8]byte{1, 2, 4, 8, 16, 32, 64, 128}
-	FlippedBitMask = [8]byte{254, 253, 251, 247, 239, 223, 191, 127}
-)
-
-// IsMultipleOf8 returns whether v is a multiple of 8.
-func IsMultipleOf8(v int64) bool { return v&7 == 0 }
-
-// IsMultipleOf64 returns whether v is a multiple of 64
-func IsMultipleOf64(v int64) bool { return v&63 == 0 }
-
-func BytesForBits(bits int64) int64 { return (bits + 7) >> 3 }
-
-// NextPowerOf2 rounds x to the next power of two.
-func NextPowerOf2(x int) int { return 1 << uint(bits.Len(uint(x))) }
-
-// CeilByte rounds size to the next multiple of 8.
-func CeilByte(size int) int { return (size + 7) &^ 7 }
-
-// CeilByte64 rounds size to the next multiple of 8.
-func CeilByte64(size int64) int64 { return (size + 7) &^ 7 }
-
-// BitIsSet returns true if the bit at index i in buf is set (1).
-func BitIsSet(buf []byte, i int) bool { return (buf[uint(i)/8] & BitMask[byte(i)%8]) != 0 }
-
-// BitIsNotSet returns true if the bit at index i in buf is not set (0).
-func BitIsNotSet(buf []byte, i int) bool { return (buf[uint(i)/8] & BitMask[byte(i)%8]) == 0 }
-
-// SetBit sets the bit at index i in buf to 1.
-func SetBit(buf []byte, i int) { buf[uint(i)/8] |= BitMask[byte(i)%8] }
-
-// ClearBit sets the bit at index i in buf to 0.
-func ClearBit(buf []byte, i int) { buf[uint(i)/8] &= FlippedBitMask[byte(i)%8] }
-
-// SetBitTo sets the bit at index i in buf to val.
-func SetBitTo(buf []byte, i int, val bool) {
-	if val {
-		SetBit(buf, i)
-	} else {
-		ClearBit(buf, i)
-	}
-}
-
-// CountSetBits counts the number of 1's in buf up to n bits.
-func CountSetBits(buf []byte, offset, n int) int {
-	if offset > 0 {
-		return countSetBitsWithOffset(buf, offset, n)
-	}
-
-	count := 0
-
-	uint64Bytes := n / uint64SizeBits * 8
-	for _, v := range bytesToUint64(buf[:uint64Bytes]) {
-		count += bits.OnesCount64(v)
-	}
-
-	for _, v := range buf[uint64Bytes : n/8] {
-		count += bits.OnesCount8(v)
-	}
-
-	// tail bits
-	for i := n &^ 0x7; i < n; i++ {
-		if BitIsSet(buf, i) {
-			count++
-		}
-	}
-
-	return count
-}
-
-func countSetBitsWithOffset(buf []byte, offset, n int) int {
-	count := 0
-
-	beg := offset
-	begU8 := roundUp(beg, uint64SizeBits)
-
-	init := min(n, begU8-beg)
-	for i := offset; i < beg+init; i++ {
-		if BitIsSet(buf, i) {
-			count++
-		}
-	}
-
-	begU64 := BytesForBits(int64(beg + init))
-	return count + CountSetBits(buf[begU64:], 0, n-init)
-}
-
-func roundUp(v, f int) int {
-	return (v + (f - 1)) / f * f
-}
-
-func min(a, b int) int {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-const (
-	uint64SizeBytes = int(unsafe.Sizeof(uint64(0)))
-	uint64SizeBits  = uint64SizeBytes * 8
-)
-
-var (
-	// PrecedingBitmask is a convenience set of values as bitmasks for checking
-	// prefix bits of a byte
-	PrecedingBitmask = [8]byte{0, 1, 3, 7, 15, 31, 63, 127}
-	// TrailingBitmask is the bitwise complement version of kPrecedingBitmask
-	TrailingBitmask = [8]byte{255, 254, 252, 248, 240, 224, 192, 128}
-)
-
-// SetBitsTo is a convenience function to quickly set or unset all the bits
-// in a bitmap starting at startOffset for length bits.
-func SetBitsTo(bits []byte, startOffset, length int64, areSet bool) {
-	if length == 0 {
-		return
-	}
-
-	beg := startOffset
-	end := startOffset + length
-	var fill uint8 = 0
-	if areSet {
-		fill = math.MaxUint8
-	}
-
-	byteBeg := beg / 8
-	byteEnd := end/8 + 1
-
-	// don't modify bits before the startOffset by using this mask
-	firstByteMask := PrecedingBitmask[beg%8]
-	// don't modify bits past the length by using this mask
-	lastByteMask := TrailingBitmask[end%8]
-
-	if byteEnd == byteBeg+1 {
-		// set bits within a single byte
-		onlyByteMask := firstByteMask
-		if end%8 != 0 {
-			onlyByteMask = firstByteMask | lastByteMask
-		}
-
-		bits[byteBeg] &= onlyByteMask
-		bits[byteBeg] |= fill &^ onlyByteMask
-		return
-	}
-
-	// set/clear trailing bits of first byte
-	bits[byteBeg] &= firstByteMask
-	bits[byteBeg] |= fill &^ firstByteMask
-
-	if byteEnd-byteBeg > 2 {
-		memory.Set(bits[byteBeg+1:byteEnd-1], fill)
-	}
-
-	if end%8 == 0 {
-		return
-	}
-
-	bits[byteEnd-1] &= lastByteMask
-	bits[byteEnd-1] |= fill &^ lastByteMask
-}
diff --git a/go/arrow/bitutil/bitutil_bytes.go b/go/arrow/bitutil/bitutil_bytes.go
deleted file mode 100644
index 09dd5cbc67d39..0000000000000
--- a/go/arrow/bitutil/bitutil_bytes.go
+++ /dev/null
@@ -1,37 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-func bytesToUint64(b []byte) []uint64 {
-	if len(b) < uint64SizeBytes {
-		return nil
-	}
-
-	ptr := unsafe.SliceData(b)
-	if ptr == nil {
-		return nil
-	}
-
-	return unsafe.Slice((*uint64)(unsafe.Pointer(ptr)),
-		len(b)/uint64SizeBytes)
-}
diff --git a/go/arrow/bitutil/bitutil_test.go b/go/arrow/bitutil/bitutil_test.go
deleted file mode 100644
index c03bf5268a5ff..0000000000000
--- a/go/arrow/bitutil/bitutil_test.go
+++ /dev/null
@@ -1,320 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil_test
-
-import (
-	"fmt"
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestIsMultipleOf8(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want bool
-	}{
-		{-16, true},
-		{-9, false},
-		{-8, true},
-		{-7, false},
-		{-4, false},
-		{-1, false},
-		{-0, true},
-		{0, true},
-		{1, false},
-		{4, false},
-		{7, false},
-		{8, true},
-		{9, false},
-		{16, true},
-	} {
-		t.Run(fmt.Sprintf("v=%d", tc.v), func(t *testing.T) {
-			got := bitutil.IsMultipleOf8(tc.v)
-			if got != tc.want {
-				t.Fatalf("IsMultipleOf8(%d): got=%v, want=%v", tc.v, got, tc.want)
-			}
-		})
-	}
-}
-
-func TestCeilByte(t *testing.T) {
-	tests := []struct {
-		name    string
-		in, exp int
-	}{
-		{"zero", 0, 0},
-		{"five", 5, 8},
-		{"sixteen", 16, 16},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := bitutil.CeilByte(test.in)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestBitIsSet(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xa1
-	buf[1] = 0xc2
-	exp := []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true}
-	var got []bool
-	for i := 0; i < 0x10; i++ {
-		got = append(got, bitutil.BitIsSet(buf, i))
-	}
-	assert.Equal(t, exp, got)
-}
-
-func TestBitIsNotSet(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xa1
-	buf[1] = 0xc2
-	exp := []bool{false, true, true, true, true, false, true, false, true, false, true, true, true, true, false, false}
-	var got []bool
-	for i := 0; i < 0x10; i++ {
-		got = append(got, bitutil.BitIsNotSet(buf, i))
-	}
-	assert.Equal(t, exp, got)
-}
-
-func TestClearBit(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xff
-	buf[1] = 0xff
-	for i, v := range []bool{false, true, true, true, true, false, true, false, true, false, true, true, true, true, false, false} {
-		if v {
-			bitutil.ClearBit(buf, i)
-		}
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestSetBit(t *testing.T) {
-	buf := make([]byte, 2)
-	for i, v := range []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true} {
-		if v {
-			bitutil.SetBit(buf, i)
-		}
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestSetBitTo(t *testing.T) {
-	buf := make([]byte, 2)
-	for i, v := range []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true} {
-		bitutil.SetBitTo(buf, i, v)
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestCountSetBits(t *testing.T) {
-	tests := []struct {
-		name string
-		buf  []byte
-		off  int
-		n    int
-		exp  int
-	}{
-		{"some 03 bits", bbits(0x11000000), 0, 3, 2},
-		{"some 11 bits", bbits(0x11000011, 0x01000000), 0, 11, 5},
-		{"some 72 bits", bbits(0x11001010, 0x11110000, 0x00001111, 0x11000011, 0x11001010, 0x11110000, 0x00001111, 0x11000011, 0x10001001), 0, 9 * 8, 35},
-		{"all  08 bits", bbits(0x11111110), 0, 8, 7},
-		{"all  03 bits", bbits(0x11100001), 0, 3, 3},
-		{"all  11 bits", bbits(0x11111111, 0x11111111), 0, 11, 11},
-		{"all  72 bits", bbits(0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111), 0, 9 * 8, 72},
-		{"none 03 bits", bbits(0x00000001), 0, 3, 0},
-		{"none 11 bits", bbits(0x00000000, 0x00000000), 0, 11, 0},
-		{"none 72 bits", bbits(0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000), 0, 9 * 8, 0},
-
-		{"some 03 bits - offset+1", bbits(0x11000000), 1, 3, 1},
-		{"some 03 bits - offset+2", bbits(0x11000000), 2, 3, 0},
-		{"some 11 bits - offset+1", bbits(0x11000011, 0x01000000, 0x00000000), 1, 11, 4},
-		{"some 11 bits - offset+2", bbits(0x11000011, 0x01000000, 0x00000000), 2, 11, 3},
-		{"some 11 bits - offset+3", bbits(0x11000011, 0x01000000, 0x00000000), 3, 11, 3},
-		{"some 11 bits - offset+6", bbits(0x11000011, 0x01000000, 0x00000000), 6, 11, 3},
-		{"some 11 bits - offset+7", bbits(0x11000011, 0x01000000, 0x00000000), 7, 11, 2},
-		{"some 11 bits - offset+8", bbits(0x11000011, 0x01000000, 0x00000000), 8, 11, 1},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := bitutil.CountSetBits(test.buf, test.off, test.n)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestCountSetBitsOffset(t *testing.T) {
-	slowCountSetBits := func(buf []byte, offset, n int) int {
-		count := 0
-		for i := offset; i < offset+n; i++ {
-			if bitutil.BitIsSet(buf, i) {
-				count++
-			}
-		}
-		return count
-	}
-
-	const (
-		bufSize = 1000
-		nbits   = bufSize * 8
-	)
-
-	offsets := []int{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 32, 37, 63, 64, 128, nbits - 30, nbits - 64}
-
-	buf := make([]byte, bufSize)
-
-	rng := rand.New(rand.NewSource(0))
-	_, err := rng.Read(buf)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	for i, offset := range offsets {
-		want := slowCountSetBits(buf, offset, nbits-offset)
-		got := bitutil.CountSetBits(buf, offset, nbits-offset)
-		if got != want {
-			t.Errorf("offset[%2d/%2d]=%5d. got=%5d, want=%5d", i+1, len(offsets), offset, got, want)
-		}
-	}
-}
-
-func TestSetBitsTo(t *testing.T) {
-	for _, fillByte := range []byte{0x00, 0xFF} {
-		{
-			// set within a byte
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 2, 2, true)
-			bitutil.SetBitsTo(bm, 4, 2, false)
-			assert.Equal(t, []byte{(fillByte &^ 0x3C) | 0xC}, bm[:1])
-		}
-		{
-			// test straddling a single byte boundary
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 4, 7, true)
-			bitutil.SetBitsTo(bm, 11, 7, false)
-			assert.Equal(t, []byte{(fillByte & 0xF) | 0xF0, 0x7, fillByte &^ 0x3}, bm[:3])
-		}
-		{
-			// test byte aligned end
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 4, 4, true)
-			bitutil.SetBitsTo(bm, 8, 8, false)
-			assert.Equal(t, []byte{(fillByte & 0xF) | 0xF0, 0x00, fillByte}, bm[:3])
-		}
-		{
-			// test byte aligned end, multiple bytes
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 0, 24, false)
-			falseByte := byte(0)
-			assert.Equal(t, []byte{falseByte, falseByte, falseByte, fillByte}, bm)
-		}
-	}
-}
-
-func bbits(v ...int32) []byte {
-	return tools.IntsToBitsLSB(v...)
-}
-
-func BenchmarkBitIsSet(b *testing.B) {
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.BitIsSet(buf, (i%32)&0x1a)
-	}
-}
-
-func BenchmarkSetBit(b *testing.B) {
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.SetBit(buf, (i%32)&0x1a)
-	}
-}
-
-func BenchmarkSetBitTo(b *testing.B) {
-	vals := []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true}
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.SetBitTo(buf, i%32, vals[i%len(vals)])
-	}
-}
-
-var (
-	intval int
-)
-
-func benchmarkCountSetBitsN(b *testing.B, offset, n int) {
-	nn := n/8 + 1
-	buf := make([]byte, nn)
-	//src := [4]byte{0x1f, 0xaa, 0xba, 0x11}
-	src := [4]byte{0x01, 0x01, 0x01, 0x01}
-	for i := 0; i < nn; i++ {
-		buf[i] = src[i&0x3]
-	}
-	b.ResetTimer()
-	var res int
-	for i := 0; i < b.N; i++ {
-		res = bitutil.CountSetBits(buf, offset, n-offset)
-	}
-	intval = res
-}
-
-func BenchmarkCountSetBits_3(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 3)
-}
-
-func BenchmarkCountSetBits_32(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 32)
-}
-
-func BenchmarkCountSetBits_128(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 128)
-}
-
-func BenchmarkCountSetBits_1000(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 1000)
-}
-
-func BenchmarkCountSetBits_1024(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 1024)
-}
-
-func BenchmarkCountSetBitsOffset_3(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 3)
-}
-
-func BenchmarkCountSetBitsOffset_32(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 32)
-}
-
-func BenchmarkCountSetBitsOffset_128(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 128)
-}
-
-func BenchmarkCountSetBitsOffset_1000(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 1000)
-}
-
-func BenchmarkCountSetBitsOffset_1024(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 1024)
-}
diff --git a/go/arrow/bitutil/endian_default.go b/go/arrow/bitutil/endian_default.go
deleted file mode 100644
index ecbbaa70d04b6..0000000000000
--- a/go/arrow/bitutil/endian_default.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-// +build !s390x
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-var toFromLEFunc = func(in uint64) uint64 { return in }
-
-func getLSB(v uint64) byte {
-	return (*[8]byte)(unsafe.Pointer(&v))[0]
-}
-
-func setLSB(v *uint64, b byte) {
-	(*[8]byte)(unsafe.Pointer(v))[0] = b
-}
diff --git a/go/arrow/bitutil/endian_s390x.go b/go/arrow/bitutil/endian_s390x.go
deleted file mode 100644
index e99605f5848fa..0000000000000
--- a/go/arrow/bitutil/endian_s390x.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"math/bits"
-	"unsafe"
-)
-
-var toFromLEFunc = bits.ReverseBytes64
-
-func getLSB(v uint64) byte {
-	return (*[8]byte)(unsafe.Pointer(&v))[7]
-}
-
-func setLSB(v *uint64, b byte) {
-	(*[8]byte)(unsafe.Pointer(v))[7] = b
-}
diff --git a/go/arrow/cdata/arrow/c/abi.h b/go/arrow/cdata/arrow/c/abi.h
deleted file mode 100644
index d58417e6fbcf2..0000000000000
--- a/go/arrow/cdata/arrow/c/abi.h
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <stdint.h>
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-#ifndef ARROW_C_DATA_INTERFACE
-#define ARROW_C_DATA_INTERFACE
-
-#define ARROW_FLAG_DICTIONARY_ORDERED 1
-#define ARROW_FLAG_NULLABLE 2
-#define ARROW_FLAG_MAP_KEYS_SORTED 4
-
-struct ArrowSchema {
-  // Array type description
-  const char* format;
-  const char* name;
-  const char* metadata;
-  int64_t flags;
-  int64_t n_children;
-  struct ArrowSchema** children;
-  struct ArrowSchema* dictionary;
-
-  // Release callback
-  void (*release)(struct ArrowSchema*);
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-struct ArrowArray {
-  // Array data description
-  int64_t length;
-  int64_t null_count;
-  int64_t offset;
-  int64_t n_buffers;
-  int64_t n_children;
-  const void** buffers;
-  struct ArrowArray** children;
-  struct ArrowArray* dictionary;
-
-  // Release callback
-  void (*release)(struct ArrowArray*);
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-#endif  // ARROW_C_DATA_INTERFACE
-
-#ifndef ARROW_C_STREAM_INTERFACE
-#define ARROW_C_STREAM_INTERFACE
-
-struct ArrowArrayStream {
-  // Callback to get the stream type
-  // (will be the same for all arrays in the stream).
-  //
-  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
-  //
-  // If successful, the ArrowSchema must be released independently from the stream.
-  int (*get_schema)(struct ArrowArrayStream*, struct ArrowSchema* out);
-
-  // Callback to get the next array
-  // (if no error and the array is released, the stream has ended)
-  //
-  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
-  //
-  // If successful, the ArrowArray must be released independently from the stream.
-  int (*get_next)(struct ArrowArrayStream*, struct ArrowArray* out);
-
-  // Callback to get optional detailed error information.
-  // This must only be called if the last stream operation failed
-  // with a non-0 return code.
-  //
-  // Return value: pointer to a null-terminated character array describing
-  // the last error, or NULL if no description is available.
-  //
-  // The returned pointer is only valid until the next operation on this stream
-  // (including release).
-  const char* (*get_last_error)(struct ArrowArrayStream*);
-
-  // Release callback: release the stream's own resources.
-  // Note that arrays returned by `get_next` must be individually released.
-  void (*release)(struct ArrowArrayStream*);
-
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-#endif  // ARROW_C_STREAM_INTERFACE
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/cdata/arrow/c/helpers.h b/go/arrow/cdata/arrow/c/helpers.h
deleted file mode 100644
index 6581403b57c46..0000000000000
--- a/go/arrow/cdata/arrow/c/helpers.h
+++ /dev/null
@@ -1,117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <assert.h>
-#include <string.h>
-
-#include "arrow/c/abi.h"
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-/// Query whether the C schema is released
-static inline int ArrowSchemaIsReleased(const struct ArrowSchema* schema) {
-  return schema->release == NULL;
-}
-
-/// Mark the C schema released (for use in release callbacks)
-static inline void ArrowSchemaMarkReleased(struct ArrowSchema* schema) {
-  schema->release = NULL;
-}
-
-/// Move the C schema from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid schema already, otherwise there
-/// will be a memory leak.
-static inline void ArrowSchemaMove(struct ArrowSchema* src, struct ArrowSchema* dest) {
-  assert(dest != src);
-  assert(!ArrowSchemaIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowSchema));
-  ArrowSchemaMarkReleased(src);
-}
-
-/// Release the C schema, if necessary, by calling its release callback
-static inline void ArrowSchemaRelease(struct ArrowSchema* schema) {
-  if (!ArrowSchemaIsReleased(schema)) {
-    schema->release(schema);
-    assert(ArrowSchemaIsReleased(schema));
-  }
-}
-
-/// Query whether the C array is released
-static inline int ArrowArrayIsReleased(const struct ArrowArray* array) {
-  return array->release == NULL;
-}
-
-/// Mark the C array released (for use in release callbacks)
-static inline void ArrowArrayMarkReleased(struct ArrowArray* array) { array->release = NULL; }
-
-/// Move the C array from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid array already, otherwise there
-/// will be a memory leak.
-static inline void ArrowArrayMove(struct ArrowArray* src, struct ArrowArray* dest) {
-  assert(dest != src);
-  assert(!ArrowArrayIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowArray));
-  ArrowArrayMarkReleased(src);
-}
-
-/// Release the C array, if necessary, by calling its release callback
-static inline void ArrowArrayRelease(struct ArrowArray* array) {
-  if (!ArrowArrayIsReleased(array)) {
-    array->release(array);
-    assert(ArrowArrayIsReleased(array));
-  }
-}
-
-/// Query whether the C array stream is released
-static inline int ArrowArrayStreamIsReleased(const struct ArrowArrayStream* stream) {
-  return stream->release == NULL;
-}
-
-/// Mark the C array stream released (for use in release callbacks)
-static inline void ArrowArrayStreamMarkReleased(struct ArrowArrayStream* stream) {
-  stream->release = NULL;
-}
-
-/// Move the C array stream from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid stream already, otherwise there
-/// will be a memory leak.
-static inline void ArrowArrayStreamMove(struct ArrowArrayStream* src,
-                                 struct ArrowArrayStream* dest) {
-  assert(dest != src);
-  assert(!ArrowArrayStreamIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowArrayStream));
-  ArrowArrayStreamMarkReleased(src);
-}
-
-/// Release the C array stream, if necessary, by calling its release callback
-static inline void ArrowArrayStreamRelease(struct ArrowArrayStream* stream) {
-  if (!ArrowArrayStreamIsReleased(stream)) {
-    stream->release(stream);
-    assert(ArrowArrayStreamIsReleased(stream));
-  }
-}
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/cdata/cdata.go b/go/arrow/cdata/cdata.go
deleted file mode 100644
index 0562eaed0fb7a..0000000000000
--- a/go/arrow/cdata/cdata.go
+++ /dev/null
@@ -1,1028 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo
-// +build cgo
-
-package cdata
-
-// implement handling of the Arrow C Data Interface. At least from a consuming side.
-
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-// #include <stdlib.h>
-// int stream_get_schema(struct ArrowArrayStream* st, struct ArrowSchema* out) { return st->get_schema(st, out); }
-// int stream_get_next(struct ArrowArrayStream* st, struct ArrowArray* out) { return st->get_next(st, out); }
-// const char* stream_get_last_error(struct ArrowArrayStream* st) { return st->get_last_error(st); }
-// struct ArrowArray* get_arr() {
-//	struct ArrowArray* out = (struct ArrowArray*)(malloc(sizeof(struct ArrowArray)));
-//	memset(out, 0, sizeof(struct ArrowArray));
-//	return out;
-// }
-// struct ArrowArrayStream* get_stream() {
-//	struct ArrowArrayStream* out = (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream));
-//	memset(out, 0, sizeof(struct ArrowArrayStream));
-//	return out;
-// }
-//
-import "C"
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"strconv"
-	"strings"
-	"syscall"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-type (
-	// CArrowSchema is the C Data Interface for ArrowSchemas defined in abi.h
-	CArrowSchema = C.struct_ArrowSchema
-	// CArrowArray is the C Data Interface object for Arrow Arrays as defined in abi.h
-	CArrowArray = C.struct_ArrowArray
-	// CArrowArrayStream is the C Stream Interface object for handling streams of record batches.
-	CArrowArrayStream = C.struct_ArrowArrayStream
-)
-
-// Map from the defined strings to their corresponding arrow.DataType interface
-// object instances, for types that don't require params.
-var formatToSimpleType = map[string]arrow.DataType{
-	"n":   arrow.Null,
-	"b":   arrow.FixedWidthTypes.Boolean,
-	"c":   arrow.PrimitiveTypes.Int8,
-	"C":   arrow.PrimitiveTypes.Uint8,
-	"s":   arrow.PrimitiveTypes.Int16,
-	"S":   arrow.PrimitiveTypes.Uint16,
-	"i":   arrow.PrimitiveTypes.Int32,
-	"I":   arrow.PrimitiveTypes.Uint32,
-	"l":   arrow.PrimitiveTypes.Int64,
-	"L":   arrow.PrimitiveTypes.Uint64,
-	"e":   arrow.FixedWidthTypes.Float16,
-	"f":   arrow.PrimitiveTypes.Float32,
-	"g":   arrow.PrimitiveTypes.Float64,
-	"z":   arrow.BinaryTypes.Binary,
-	"Z":   arrow.BinaryTypes.LargeBinary,
-	"u":   arrow.BinaryTypes.String,
-	"U":   arrow.BinaryTypes.LargeString,
-	"vz":  arrow.BinaryTypes.BinaryView,
-	"vu":  arrow.BinaryTypes.StringView,
-	"tdD": arrow.FixedWidthTypes.Date32,
-	"tdm": arrow.FixedWidthTypes.Date64,
-	"tts": arrow.FixedWidthTypes.Time32s,
-	"ttm": arrow.FixedWidthTypes.Time32ms,
-	"ttu": arrow.FixedWidthTypes.Time64us,
-	"ttn": arrow.FixedWidthTypes.Time64ns,
-	"tDs": arrow.FixedWidthTypes.Duration_s,
-	"tDm": arrow.FixedWidthTypes.Duration_ms,
-	"tDu": arrow.FixedWidthTypes.Duration_us,
-	"tDn": arrow.FixedWidthTypes.Duration_ns,
-	"tiM": arrow.FixedWidthTypes.MonthInterval,
-	"tiD": arrow.FixedWidthTypes.DayTimeInterval,
-	"tin": arrow.FixedWidthTypes.MonthDayNanoInterval,
-}
-
-// decode metadata from C which is encoded as
-//
-//	 [int32] -> number of metadata pairs
-//		for 0..n
-//			[int32] -> number of bytes in key
-//			[n bytes] -> key value
-//			[int32] -> number of bytes in value
-//			[n bytes] -> value
-func decodeCMetadata(md *C.char) arrow.Metadata {
-	if md == nil {
-		return arrow.Metadata{}
-	}
-
-	// don't copy the bytes, just reference them directly
-	const maxlen = 0x7fffffff
-	data := (*[maxlen]byte)(unsafe.Pointer(md))[:]
-
-	readint32 := func() int32 {
-		v := *(*int32)(unsafe.Pointer(&data[0]))
-		data = data[arrow.Int32SizeBytes:]
-		return v
-	}
-
-	readstr := func() string {
-		l := readint32()
-		s := string(data[:l])
-		data = data[l:]
-		return s
-	}
-
-	npairs := readint32()
-	if npairs == 0 {
-		return arrow.Metadata{}
-	}
-
-	keys := make([]string, npairs)
-	vals := make([]string, npairs)
-
-	for i := int32(0); i < npairs; i++ {
-		keys[i] = readstr()
-		vals[i] = readstr()
-	}
-
-	return arrow.NewMetadata(keys, vals)
-}
-
-// convert a C.ArrowSchema to an arrow.Field to maintain metadata with the schema
-func importSchema(schema *CArrowSchema) (ret arrow.Field, err error) {
-	// always release, even on error
-	defer C.ArrowSchemaRelease(schema)
-
-	var childFields []arrow.Field
-	if schema.n_children > 0 {
-		// call ourselves recursively if there are children.
-		// set up a slice to reference safely
-		schemaChildren := unsafe.Slice(schema.children, schema.n_children)
-		childFields = make([]arrow.Field, schema.n_children)
-		for i, c := range schemaChildren {
-			childFields[i], err = importSchema((*CArrowSchema)(c))
-			if err != nil {
-				return
-			}
-		}
-	}
-
-	// copy the schema name from the c-string
-	ret.Name = C.GoString(schema.name)
-	ret.Nullable = (schema.flags & C.ARROW_FLAG_NULLABLE) != 0
-	ret.Metadata = decodeCMetadata(schema.metadata)
-
-	// copies the c-string here, but it's very small
-	f := C.GoString(schema.format)
-	// handle our non-parameterized simple types.
-	dt, ok := formatToSimpleType[f]
-	if ok {
-		ret.Type = dt
-
-		if schema.dictionary != nil {
-			valueField, err := importSchema(schema.dictionary)
-			if err != nil {
-				return ret, err
-			}
-
-			ret.Type = &arrow.DictionaryType{
-				IndexType: ret.Type,
-				ValueType: valueField.Type,
-				Ordered:   schema.dictionary.flags&C.ARROW_FLAG_DICTIONARY_ORDERED != 0}
-		}
-
-		return
-	}
-
-	// handle types with params via colon
-	typs := strings.Split(f, ":")
-	defaulttz := ""
-	switch typs[0] {
-	case "tss":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Second, TimeZone: tz}
-	case "tsm":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: tz}
-	case "tsu":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: tz}
-	case "tsn":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: tz}
-	case "w": // fixed size binary is "w:##" where ## is the byteWidth
-		byteWidth, err := strconv.Atoi(typs[1])
-		if err != nil {
-			return ret, err
-		}
-		dt = &arrow.FixedSizeBinaryType{ByteWidth: byteWidth}
-	case "d": // decimal types are d:<precision>,<scale>[,<bitsize>] size is assumed 128 if left out
-		props := typs[1]
-		propList := strings.Split(props, ",")
-		bitwidth := 128
-		var precision, scale int
-
-		if len(propList) < 2 || len(propList) > 3 {
-			return ret, xerrors.Errorf("invalid decimal spec '%s': wrong number of properties", f)
-		} else if len(propList) == 3 {
-			bitwidth, err = strconv.Atoi(propList[2])
-			if err != nil {
-				return ret, xerrors.Errorf("could not parse decimal bitwidth in '%s': %s", f, err.Error())
-			}
-		}
-
-		precision, err = strconv.Atoi(propList[0])
-		if err != nil {
-			return ret, xerrors.Errorf("could not parse decimal precision in '%s': %s", f, err.Error())
-		}
-
-		scale, err = strconv.Atoi(propList[1])
-		if err != nil {
-			return ret, xerrors.Errorf("could not parse decimal scale in '%s': %s", f, err.Error())
-		}
-
-		if bitwidth == 128 {
-			dt = &arrow.Decimal128Type{Precision: int32(precision), Scale: int32(scale)}
-		} else if bitwidth == 256 {
-			dt = &arrow.Decimal256Type{Precision: int32(precision), Scale: int32(scale)}
-		} else {
-			return ret, xerrors.Errorf("only decimal128 and decimal256 are supported, got '%s'", f)
-		}
-	}
-
-	if f[0] == '+' { // types with children
-		switch f[1] {
-		case 'l': // list
-			dt = arrow.ListOfField(childFields[0])
-		case 'L': // large list
-			dt = arrow.LargeListOfField(childFields[0])
-		case 'v': // list view/large list view
-			if f[2] == 'l' {
-				dt = arrow.ListViewOfField(childFields[0])
-			} else if f[2] == 'L' {
-				dt = arrow.LargeListViewOfField(childFields[0])
-			}
-		case 'w': // fixed size list is w:# where # is the list size.
-			listSize, err := strconv.Atoi(strings.Split(f, ":")[1])
-			if err != nil {
-				return ret, err
-			}
-
-			dt = arrow.FixedSizeListOfField(int32(listSize), childFields[0])
-		case 's': // struct
-			dt = arrow.StructOf(childFields...)
-		case 'r': // run-end encoded
-			if len(childFields) != 2 {
-				return ret, fmt.Errorf("%w: run-end encoded arrays must have 2 children", arrow.ErrInvalid)
-			}
-			dt = arrow.RunEndEncodedOf(childFields[0].Type, childFields[1].Type)
-		case 'm': // map type is basically a list of structs.
-			st := childFields[0].Type.(*arrow.StructType)
-			dt = arrow.MapOf(st.Field(0).Type, st.Field(1).Type)
-			dt.(*arrow.MapType).KeysSorted = (schema.flags & C.ARROW_FLAG_MAP_KEYS_SORTED) != 0
-		case 'u': // union
-			var mode arrow.UnionMode
-			switch f[2] {
-			case 'd':
-				mode = arrow.DenseMode
-			case 's':
-				mode = arrow.SparseMode
-			default:
-				err = fmt.Errorf("%w: invalid union type", arrow.ErrInvalid)
-				return
-			}
-
-			codes := strings.Split(strings.Split(f, ":")[1], ",")
-			typeCodes := make([]arrow.UnionTypeCode, 0, len(codes))
-			for _, i := range codes {
-				v, e := strconv.ParseInt(i, 10, 8)
-				if e != nil {
-					err = fmt.Errorf("%w: invalid type code: %s", arrow.ErrInvalid, e)
-					return
-				}
-				if v < 0 {
-					err = fmt.Errorf("%w: negative type code in union: format string %s", arrow.ErrInvalid, f)
-					return
-				}
-				typeCodes = append(typeCodes, arrow.UnionTypeCode(v))
-			}
-
-			if len(childFields) != len(typeCodes) {
-				err = fmt.Errorf("%w: ArrowArray struct number of children incompatible with format string", arrow.ErrInvalid)
-				return
-			}
-
-			dt = arrow.UnionOf(mode, childFields, typeCodes)
-		}
-	}
-
-	if dt == nil {
-		// if we didn't find a type, then it's something we haven't implemented.
-		err = xerrors.New("unimplemented type")
-	} else {
-		ret.Type = dt
-	}
-
-	return
-}
-
-// importer to keep track when importing C ArrowArray objects.
-type cimporter struct {
-	dt       arrow.DataType
-	arr      *CArrowArray
-	data     arrow.ArrayData
-	parent   *cimporter
-	children []cimporter
-	cbuffers []*C.void
-
-	alloc *importAllocator
-}
-
-func (imp *cimporter) importChild(parent *cimporter, src *CArrowArray) error {
-	imp.parent, imp.arr, imp.alloc = parent, src, parent.alloc
-	return imp.doImport()
-}
-
-// import any child arrays for lists, structs, and so on.
-func (imp *cimporter) doImportChildren() error {
-	children := unsafe.Slice(imp.arr.children, imp.arr.n_children)
-
-	if len(children) > 0 {
-		imp.children = make([]cimporter, len(children))
-	}
-
-	// handle the cases
-	switch imp.dt.ID() {
-	case arrow.LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.ListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LARGE_LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.LargeListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LIST_VIEW: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.ListViewType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LARGE_LIST_VIEW: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.LargeListViewType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.FIXED_SIZE_LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.FixedSizeListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.STRUCT: // import all the children
-		st := imp.dt.(*arrow.StructType)
-		for i, c := range children {
-			imp.children[i].dt = st.Field(i).Type
-			imp.children[i].importChild(imp, c)
-		}
-	case arrow.RUN_END_ENCODED: // import run-ends and values
-		st := imp.dt.(*arrow.RunEndEncodedType)
-		imp.children[0].dt = st.RunEnds()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-		imp.children[1].dt = st.Encoded()
-		if err := imp.children[1].importChild(imp, children[1]); err != nil {
-			return err
-		}
-	case arrow.MAP: // only one child to import, it's a struct array
-		imp.children[0].dt = imp.dt.(*arrow.MapType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.DENSE_UNION:
-		dt := imp.dt.(*arrow.DenseUnionType)
-		for i, c := range children {
-			imp.children[i].dt = dt.Fields()[i].Type
-			imp.children[i].importChild(imp, c)
-		}
-	case arrow.SPARSE_UNION:
-		dt := imp.dt.(*arrow.SparseUnionType)
-		for i, c := range children {
-			imp.children[i].dt = dt.Fields()[i].Type
-			imp.children[i].importChild(imp, c)
-		}
-	}
-
-	return nil
-}
-
-func (imp *cimporter) initarr() {
-	imp.arr = C.get_arr()
-	if imp.alloc == nil {
-		imp.alloc = &importAllocator{arr: imp.arr}
-	}
-}
-
-func (imp *cimporter) doImportArr(src *CArrowArray) error {
-	imp.arr = C.get_arr()
-	C.ArrowArrayMove(src, imp.arr)
-	if imp.alloc == nil {
-		imp.alloc = &importAllocator{arr: imp.arr}
-	}
-
-	// we tie the releasing of the array to when the buffers are
-	// cleaned up, so if there are no buffers that we've imported
-	// such as for a null array or a nested array with no bitmap
-	// and only null columns, then we can release the CArrowArray
-	// struct immediately after import, since we have no imported
-	// memory that we have to track the lifetime of.
-	defer func() {
-		if imp.alloc.bufCount == 0 {
-			C.ArrowArrayRelease(imp.arr)
-			C.free(unsafe.Pointer(imp.arr))
-		}
-	}()
-
-	return imp.doImport()
-}
-
-// import is called recursively as needed for importing an array and its children
-// in order to generate array.Data objects
-func (imp *cimporter) doImport() error {
-	// move the array from the src object passed in to the one referenced by
-	// this importer. That way we can set up a finalizer on the created
-	// arrow.ArrayData object so we clean up our Array's memory when garbage collected.
-	defer func(arr *CArrowArray) {
-		// this should only occur in the case of an error happening
-		// during import, at which point we need to clean up the
-		// ArrowArray struct we allocated.
-		if imp.data == nil {
-			C.free(unsafe.Pointer(arr))
-		}
-	}(imp.arr)
-
-	// import any children
-	if err := imp.doImportChildren(); err != nil {
-		return err
-	}
-
-	for _, c := range imp.children {
-		if c.data != nil {
-			defer c.data.Release()
-		}
-	}
-
-	if imp.arr.n_buffers > 0 {
-		// get a view of the buffers, zero-copy. we're just looking at the pointers
-		imp.cbuffers = unsafe.Slice((**C.void)(unsafe.Pointer(imp.arr.buffers)), imp.arr.n_buffers)
-	}
-
-	// handle each of our type cases
-	switch dt := imp.dt.(type) {
-	case *arrow.NullType:
-		if err := imp.checkNoChildren(); err != nil {
-			return err
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), nil, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	case arrow.FixedWidthDataType:
-		return imp.importFixedSizePrimitive()
-	case *arrow.StringType:
-		return imp.importStringLike(int64(arrow.Int32SizeBytes))
-	case *arrow.BinaryType:
-		return imp.importStringLike(int64(arrow.Int32SizeBytes))
-	case *arrow.LargeStringType:
-		return imp.importStringLike(int64(arrow.Int64SizeBytes))
-	case *arrow.LargeBinaryType:
-		return imp.importStringLike(int64(arrow.Int64SizeBytes))
-	case *arrow.StringViewType:
-		return imp.importBinaryViewLike()
-	case *arrow.BinaryViewType:
-		return imp.importBinaryViewLike()
-	case *arrow.ListType:
-		return imp.importListLike()
-	case *arrow.LargeListType:
-		return imp.importListLike()
-	case *arrow.ListViewType:
-		return imp.importListViewLike()
-	case *arrow.LargeListViewType:
-		return imp.importListViewLike()
-	case *arrow.MapType:
-		return imp.importListLike()
-	case *arrow.FixedSizeListType:
-		if err := imp.checkNumChildren(1); err != nil {
-			return err
-		}
-
-		if err := imp.checkNumBuffers(1); err != nil {
-			return err
-		}
-
-		nulls, err := imp.importNullBitmap(0)
-		if err != nil {
-			return err
-		}
-		if nulls != nil {
-			defer nulls.Release()
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nulls}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.StructType:
-		if err := imp.checkNumBuffers(1); err != nil {
-			return err
-		}
-
-		nulls, err := imp.importNullBitmap(0)
-		if err != nil {
-			return err
-		}
-		if nulls != nil {
-			defer nulls.Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nulls}, children, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.RunEndEncodedType:
-		if err := imp.checkNumBuffers(0); err != nil {
-			return err
-		}
-
-		if len(imp.children) != 2 {
-			return fmt.Errorf("%w: run-end encoded array should have 2 children", arrow.ErrInvalid)
-		}
-
-		children := []arrow.ArrayData{imp.children[0].data, imp.children[1].data}
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{}, children, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.DenseUnionType:
-		if err := imp.checkNoNulls(); err != nil {
-			return err
-		}
-
-		bufs := []*memory.Buffer{nil, nil, nil}
-		var err error
-		if imp.arr.n_buffers == 3 {
-			// legacy format exported by older arrow c++ versions
-			if bufs[1], err = imp.importFixedSizeBuffer(1, 1); err != nil {
-				return err
-			}
-			defer bufs[1].Release()
-			if bufs[2], err = imp.importFixedSizeBuffer(2, int64(arrow.Int32SizeBytes)); err != nil {
-				return err
-			}
-			defer bufs[2].Release()
-		} else {
-			if err := imp.checkNumBuffers(2); err != nil {
-				return err
-			}
-
-			if bufs[1], err = imp.importFixedSizeBuffer(0, 1); err != nil {
-				return err
-			}
-			defer bufs[1].Release()
-			if bufs[2], err = imp.importFixedSizeBuffer(1, int64(arrow.Int32SizeBytes)); err != nil {
-				return err
-			}
-			defer bufs[2].Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-		imp.data = array.NewData(dt, int(imp.arr.length), bufs, children, 0, int(imp.arr.offset))
-	case *arrow.SparseUnionType:
-		if err := imp.checkNoNulls(); err != nil {
-			return err
-		}
-
-		var buf *memory.Buffer
-		var err error
-		if imp.arr.n_buffers == 2 {
-			// legacy format exported by older Arrow C++ versions
-			if buf, err = imp.importFixedSizeBuffer(1, 1); err != nil {
-				return err
-			}
-			defer buf.Release()
-		} else {
-			if err := imp.checkNumBuffers(1); err != nil {
-				return err
-			}
-
-			if buf, err = imp.importFixedSizeBuffer(0, 1); err != nil {
-				return err
-			}
-			defer buf.Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nil, buf}, children, 0, int(imp.arr.offset))
-	default:
-		return fmt.Errorf("unimplemented type %s", dt)
-	}
-
-	return nil
-}
-
-func (imp *cimporter) importStringLike(offsetByteWidth int64) (err error) {
-	if err = imp.checkNoChildren(); err != nil {
-		return
-	}
-
-	if err = imp.checkNumBuffers(3); err != nil {
-		return
-	}
-
-	var (
-		nulls, offsets, values *memory.Buffer
-	)
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	if offsets, err = imp.importOffsetsBuffer(1, offsetByteWidth); err != nil {
-		return
-	}
-	defer offsets.Release()
-
-	var nvals int64
-	switch offsetByteWidth {
-	case 4:
-		typedOffsets := arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-		nvals = int64(typedOffsets[imp.arr.offset+imp.arr.length])
-	case 8:
-		typedOffsets := arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-		nvals = typedOffsets[imp.arr.offset+imp.arr.length]
-	}
-	if values, err = imp.importVariableValuesBuffer(2, 1, nvals); err != nil {
-		return
-	}
-	defer values.Release()
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets, values}, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importBinaryViewLike() (err error) {
-	if err = imp.checkNoChildren(); err != nil {
-		return
-	}
-
-	buffers := make([]*memory.Buffer, len(imp.cbuffers)-1)
-	defer memory.ReleaseBuffers(buffers)
-
-	if buffers[0], err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-
-	if buffers[1], err = imp.importFixedSizeBuffer(1, int64(arrow.ViewHeaderSizeBytes)); err != nil {
-		return
-	}
-
-	dataBufferSizes := unsafe.Slice((*int64)(unsafe.Pointer(imp.cbuffers[len(buffers)])), len(buffers)-2)
-	for i, size := range dataBufferSizes {
-		if buffers[i+2], err = imp.importVariableValuesBuffer(i+2, 1, size); err != nil {
-			return
-		}
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), buffers, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importListLike() (err error) {
-	if err = imp.checkNumChildren(1); err != nil {
-		return err
-	}
-
-	if err = imp.checkNumBuffers(2); err != nil {
-		return err
-	}
-
-	var nulls, offsets *memory.Buffer
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	offsetSize := imp.dt.Layout().Buffers[1].ByteWidth
-	if offsets, err = imp.importOffsetsBuffer(1, int64(offsetSize)); err != nil {
-		return
-	}
-	if offsets != nil {
-		defer offsets.Release()
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importListViewLike() (err error) {
-	offsetSize := int64(imp.dt.Layout().Buffers[1].ByteWidth)
-
-	if err = imp.checkNumChildren(1); err != nil {
-		return err
-	}
-
-	if err = imp.checkNumBuffers(3); err != nil {
-		return err
-	}
-
-	var nulls, offsets, sizes *memory.Buffer
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	if offsets, err = imp.importFixedSizeBuffer(1, offsetSize); err != nil {
-		return
-	}
-	if offsets != nil {
-		defer offsets.Release()
-	}
-
-	if sizes, err = imp.importFixedSizeBuffer(2, offsetSize); err != nil {
-		return
-	}
-	if sizes != nil {
-		defer sizes.Release()
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets, sizes}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importFixedSizePrimitive() error {
-	if err := imp.checkNoChildren(); err != nil {
-		return err
-	}
-
-	if err := imp.checkNumBuffers(2); err != nil {
-		return err
-	}
-
-	nulls, err := imp.importNullBitmap(0)
-	if err != nil {
-		return err
-	}
-
-	var values *memory.Buffer
-
-	fw := imp.dt.(arrow.FixedWidthDataType)
-	if bitutil.IsMultipleOf8(int64(fw.BitWidth())) {
-		values, err = imp.importFixedSizeBuffer(1, bitutil.BytesForBits(int64(fw.BitWidth())))
-	} else {
-		if fw.BitWidth() != 1 {
-			return xerrors.New("invalid bitwidth")
-		}
-		values, err = imp.importBitsBuffer(1)
-	}
-
-	if err != nil {
-		return err
-	}
-
-	var dict *array.Data
-	if dt, ok := imp.dt.(*arrow.DictionaryType); ok {
-		dictImp := &cimporter{dt: dt.ValueType}
-		if err := dictImp.importChild(imp, imp.arr.dictionary); err != nil {
-			return err
-		}
-		defer dictImp.data.Release()
-
-		dict = dictImp.data.(*array.Data)
-	}
-
-	if nulls != nil {
-		defer nulls.Release()
-	}
-	if values != nil {
-		defer values.Release()
-	}
-
-	imp.data = array.NewDataWithDictionary(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, values}, int(imp.arr.null_count), int(imp.arr.offset), dict)
-	return nil
-}
-
-func (imp *cimporter) checkNoChildren() error { return imp.checkNumChildren(0) }
-
-func (imp *cimporter) checkNoNulls() error {
-	if imp.arr.null_count != 0 {
-		return fmt.Errorf("%w: unexpected non-zero null count for imported type %s", arrow.ErrInvalid, imp.dt)
-	}
-	return nil
-}
-
-func (imp *cimporter) checkNumChildren(n int64) error {
-	if int64(imp.arr.n_children) != n {
-		return fmt.Errorf("expected %d children, for imported type %s, ArrowArray has %d", n, imp.dt, imp.arr.n_children)
-	}
-	return nil
-}
-
-func (imp *cimporter) checkNumBuffers(n int64) error {
-	if int64(imp.arr.n_buffers) != n {
-		return fmt.Errorf("expected %d buffers for imported type %s, ArrowArray has %d", n, imp.dt, imp.arr.n_buffers)
-	}
-	return nil
-}
-
-func (imp *cimporter) importBuffer(bufferID int, sz int64) (*memory.Buffer, error) {
-	// this is not a copy, we're just having a slice which points at the data
-	// it's still owned by the C.ArrowArray object and its backing C++ object.
-	if imp.cbuffers[bufferID] == nil {
-		if sz != 0 {
-			return nil, errors.New("invalid buffer")
-		}
-		return memory.NewBufferBytes([]byte{}), nil
-	}
-	data := unsafe.Slice((*byte)(unsafe.Pointer(imp.cbuffers[bufferID])), sz)
-	imp.alloc.addBuffer()
-	return memory.NewBufferWithAllocator(data, imp.alloc), nil
-}
-
-func (imp *cimporter) importBitsBuffer(bufferID int) (*memory.Buffer, error) {
-	bufsize := bitutil.BytesForBits(int64(imp.arr.length) + int64(imp.arr.offset))
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importNullBitmap(bufferID int) (*memory.Buffer, error) {
-	if imp.arr.null_count > 0 && imp.cbuffers[bufferID] == nil {
-		return nil, fmt.Errorf("arrowarray struct has null bitmap buffer, but non-zero null_count %d", imp.arr.null_count)
-	}
-
-	if imp.arr.null_count == 0 && imp.cbuffers[bufferID] == nil {
-		return nil, nil
-	}
-
-	return imp.importBitsBuffer(bufferID)
-}
-
-func (imp *cimporter) importFixedSizeBuffer(bufferID int, byteWidth int64) (*memory.Buffer, error) {
-	bufsize := byteWidth * int64(imp.arr.length+imp.arr.offset)
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importOffsetsBuffer(bufferID int, offsetsize int64) (*memory.Buffer, error) {
-	bufsize := offsetsize * int64((imp.arr.length + imp.arr.offset + 1))
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importVariableValuesBuffer(bufferID int, byteWidth, nvals int64) (*memory.Buffer, error) {
-	bufsize := byteWidth * nvals
-	return imp.importBuffer(bufferID, int64(bufsize))
-}
-
-func importCArrayAsType(arr *CArrowArray, dt arrow.DataType) (imp *cimporter, err error) {
-	imp = &cimporter{dt: dt}
-	err = imp.doImportArr(arr)
-	return
-}
-
-func initReader(rdr *nativeCRecordBatchReader, stream *CArrowArrayStream) error {
-	rdr.stream = C.get_stream()
-	C.ArrowArrayStreamMove(stream, rdr.stream)
-	rdr.arr = C.get_arr()
-	runtime.SetFinalizer(rdr, func(r *nativeCRecordBatchReader) {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-		C.ArrowArrayStreamRelease(r.stream)
-		C.ArrowArrayRelease(r.arr)
-		C.free(unsafe.Pointer(r.stream))
-		C.free(unsafe.Pointer(r.arr))
-	})
-
-	var sc CArrowSchema
-	errno := C.stream_get_schema(rdr.stream, &sc)
-	if errno != 0 {
-		return rdr.getError(int(errno))
-	}
-	defer C.ArrowSchemaRelease(&sc)
-	s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
-	if err != nil {
-		return err
-	}
-	rdr.schema = s
-
-	return nil
-}
-
-// Record Batch reader that conforms to arrio.Reader for the ArrowArrayStream interface
-type nativeCRecordBatchReader struct {
-	stream *CArrowArrayStream
-	arr    *CArrowArray
-	schema *arrow.Schema
-
-	cur arrow.Record
-	err error
-}
-
-// No need to implement retain and release here as we used runtime.SetFinalizer when constructing
-// the reader to free up the ArrowArrayStream memory when the garbage collector cleans it up.
-func (n *nativeCRecordBatchReader) Retain()  {}
-func (n *nativeCRecordBatchReader) Release() {}
-
-func (n *nativeCRecordBatchReader) Err() error           { return n.err }
-func (n *nativeCRecordBatchReader) Record() arrow.Record { return n.cur }
-
-func (n *nativeCRecordBatchReader) Next() bool {
-	err := n.next()
-	switch {
-	case err == nil:
-		return true
-	case err == io.EOF:
-		return false
-	}
-	n.err = err
-	return false
-}
-
-func (n *nativeCRecordBatchReader) next() error {
-	if n.schema == nil {
-		var sc CArrowSchema
-		errno := C.stream_get_schema(n.stream, &sc)
-		if errno != 0 {
-			return n.getError(int(errno))
-		}
-		defer C.ArrowSchemaRelease(&sc)
-		s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
-		if err != nil {
-			return err
-		}
-
-		n.schema = s
-	}
-
-	if n.cur != nil {
-		n.cur.Release()
-		n.cur = nil
-	}
-
-	errno := C.stream_get_next(n.stream, n.arr)
-	if errno != 0 {
-		return n.getError(int(errno))
-	}
-
-	if C.ArrowArrayIsReleased(n.arr) == 1 {
-		return io.EOF
-	}
-
-	rec, err := ImportCRecordBatchWithSchema(n.arr, n.schema)
-	if err != nil {
-		return err
-	}
-
-	n.cur = rec
-	return nil
-}
-
-func (n *nativeCRecordBatchReader) Schema() *arrow.Schema {
-	return n.schema
-}
-
-func (n *nativeCRecordBatchReader) getError(errno int) error {
-	return fmt.Errorf("%w: %s", syscall.Errno(errno), C.GoString(C.stream_get_last_error(n.stream)))
-}
-
-func (n *nativeCRecordBatchReader) Read() (arrow.Record, error) {
-	if err := n.next(); err != nil {
-		n.err = err
-		return nil, err
-	}
-	return n.cur, nil
-}
-
-func releaseArr(arr *CArrowArray) {
-	C.ArrowArrayRelease(arr)
-}
-
-func releaseSchema(schema *CArrowSchema) {
-	C.ArrowSchemaRelease(schema)
-}
diff --git a/go/arrow/cdata/cdata_allocate.go b/go/arrow/cdata/cdata_allocate.go
deleted file mode 100644
index da0bd957de1df..0000000000000
--- a/go/arrow/cdata/cdata_allocate.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package cdata
-
-// #include <stdlib.h>
-// #include "arrow/c/abi.h"
-import "C"
-
-import (
-	"unsafe"
-)
-
-func allocateArrowSchemaArr(n int) (out []CArrowSchema) {
-	return unsafe.Slice((*CArrowSchema)(C.calloc(C.size_t(n),
-		C.sizeof_struct_ArrowSchema)), n)
-}
-
-func allocateArrowSchemaPtrArr(n int) (out []*CArrowSchema) {
-	return unsafe.Slice((**CArrowSchema)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*CArrowSchema)(nil))))), n)
-}
-
-func allocateArrowArrayArr(n int) (out []CArrowArray) {
-	return unsafe.Slice((*CArrowArray)(C.calloc(C.size_t(n),
-		C.sizeof_struct_ArrowArray)), n)
-}
-
-func allocateArrowArrayPtrArr(n int) (out []*CArrowArray) {
-	return unsafe.Slice((**CArrowArray)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*CArrowArray)(nil))))), n)
-}
-
-func allocateBufferPtrArr(n int) (out []*C.void) {
-	return unsafe.Slice((**C.void)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*C.void)(nil))))), n)
-}
-
-func allocateBufferSizeArr(n int) (out []C.int64_t) {
-	return unsafe.Slice((*C.int64_t)(C.calloc(C.size_t(n),
-		C.sizeof_int64_t)), n)
-}
diff --git a/go/arrow/cdata/cdata_exports.go b/go/arrow/cdata/cdata_exports.go
deleted file mode 100644
index 59775926d7ef8..0000000000000
--- a/go/arrow/cdata/cdata_exports.go
+++ /dev/null
@@ -1,480 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-// #include <errno.h>
-// #include <stdint.h>
-// #include <stdlib.h>
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-//
-// extern void releaseExportedSchema(struct ArrowSchema* schema);
-// extern void releaseExportedArray(struct ArrowArray* array);
-//
-// const uint8_t kGoCdataZeroRegion[8] = {0};
-//
-// void goReleaseArray(struct ArrowArray* array) {
-//	releaseExportedArray(array);
-// }
-// void goReleaseSchema(struct ArrowSchema* schema) {
-//	 releaseExportedSchema(schema);
-// }
-import "C"
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"runtime/cgo"
-	"strconv"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-)
-
-func encodeCMetadata(keys, values []string) []byte {
-	if len(keys) != len(values) {
-		panic("unequal metadata key/values length")
-	}
-	npairs := int32(len(keys))
-
-	var b bytes.Buffer
-	totalSize := 4
-	for i := range keys {
-		totalSize += 8 + len(keys[i]) + len(values[i])
-	}
-	b.Grow(totalSize)
-
-	b.Write((*[4]byte)(unsafe.Pointer(&npairs))[:])
-	for i := range keys {
-		binary.Write(&b, endian.Native, int32(len(keys[i])))
-		b.WriteString(keys[i])
-		binary.Write(&b, endian.Native, int32(len(values[i])))
-		b.WriteString(values[i])
-	}
-	return b.Bytes()
-}
-
-type schemaExporter struct {
-	format, name string
-
-	extraMeta arrow.Metadata
-	metadata  []byte
-	flags     int64
-	children  []schemaExporter
-	dict      *schemaExporter
-}
-
-func (exp *schemaExporter) handleExtension(dt arrow.DataType) arrow.DataType {
-	if dt.ID() != arrow.EXTENSION {
-		return dt
-	}
-
-	ext := dt.(arrow.ExtensionType)
-	exp.extraMeta = arrow.NewMetadata([]string{ipc.ExtensionTypeKeyName, ipc.ExtensionMetadataKeyName}, []string{ext.ExtensionName(), ext.Serialize()})
-	return ext.StorageType()
-}
-
-func (exp *schemaExporter) exportMeta(m *arrow.Metadata) {
-	var (
-		finalKeys   []string
-		finalValues []string
-	)
-
-	if m == nil {
-		if exp.extraMeta.Len() > 0 {
-			finalKeys = exp.extraMeta.Keys()
-			finalValues = exp.extraMeta.Values()
-		}
-		exp.metadata = encodeCMetadata(finalKeys, finalValues)
-		return
-	}
-
-	finalKeys = m.Keys()
-	finalValues = m.Values()
-
-	if exp.extraMeta.Len() > 0 {
-		for i, k := range exp.extraMeta.Keys() {
-			if m.FindKey(k) != -1 {
-				continue
-			}
-			finalKeys = append(finalKeys, k)
-			finalValues = append(finalValues, exp.extraMeta.Values()[i])
-		}
-	}
-	exp.metadata = encodeCMetadata(finalKeys, finalValues)
-}
-
-func (exp *schemaExporter) exportFormat(dt arrow.DataType) string {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return "n"
-	case *arrow.BooleanType:
-		return "b"
-	case *arrow.Int8Type:
-		return "c"
-	case *arrow.Uint8Type:
-		return "C"
-	case *arrow.Int16Type:
-		return "s"
-	case *arrow.Uint16Type:
-		return "S"
-	case *arrow.Int32Type:
-		return "i"
-	case *arrow.Uint32Type:
-		return "I"
-	case *arrow.Int64Type:
-		return "l"
-	case *arrow.Uint64Type:
-		return "L"
-	case *arrow.Float16Type:
-		return "e"
-	case *arrow.Float32Type:
-		return "f"
-	case *arrow.Float64Type:
-		return "g"
-	case *arrow.FixedSizeBinaryType:
-		return fmt.Sprintf("w:%d", dt.ByteWidth)
-	case *arrow.Decimal128Type:
-		return fmt.Sprintf("d:%d,%d", dt.Precision, dt.Scale)
-	case *arrow.Decimal256Type:
-		return fmt.Sprintf("d:%d,%d,256", dt.Precision, dt.Scale)
-	case *arrow.BinaryType:
-		return "z"
-	case *arrow.LargeBinaryType:
-		return "Z"
-	case *arrow.StringType:
-		return "u"
-	case *arrow.LargeStringType:
-		return "U"
-	case *arrow.BinaryViewType:
-		return "vz"
-	case *arrow.StringViewType:
-		return "vu"
-	case *arrow.Date32Type:
-		return "tdD"
-	case *arrow.Date64Type:
-		return "tdm"
-	case *arrow.Time32Type:
-		switch dt.Unit {
-		case arrow.Second:
-			return "tts"
-		case arrow.Millisecond:
-			return "ttm"
-		default:
-			panic(fmt.Sprintf("invalid time unit for time32: %s", dt.Unit))
-		}
-	case *arrow.Time64Type:
-		switch dt.Unit {
-		case arrow.Microsecond:
-			return "ttu"
-		case arrow.Nanosecond:
-			return "ttn"
-		default:
-			panic(fmt.Sprintf("invalid time unit for time64: %s", dt.Unit))
-		}
-	case *arrow.TimestampType:
-		var b strings.Builder
-		switch dt.Unit {
-		case arrow.Second:
-			b.WriteString("tss:")
-		case arrow.Millisecond:
-			b.WriteString("tsm:")
-		case arrow.Microsecond:
-			b.WriteString("tsu:")
-		case arrow.Nanosecond:
-			b.WriteString("tsn:")
-		default:
-			panic(fmt.Sprintf("invalid time unit for timestamp: %s", dt.Unit))
-		}
-		b.WriteString(dt.TimeZone)
-		return b.String()
-	case *arrow.DurationType:
-		switch dt.Unit {
-		case arrow.Second:
-			return "tDs"
-		case arrow.Millisecond:
-			return "tDm"
-		case arrow.Microsecond:
-			return "tDu"
-		case arrow.Nanosecond:
-			return "tDn"
-		default:
-			panic(fmt.Sprintf("invalid time unit for duration: %s", dt.Unit))
-		}
-	case *arrow.MonthIntervalType:
-		return "tiM"
-	case *arrow.DayTimeIntervalType:
-		return "tiD"
-	case *arrow.MonthDayNanoIntervalType:
-		return "tin"
-	case *arrow.ListType:
-		return "+l"
-	case *arrow.LargeListType:
-		return "+L"
-	case *arrow.ListViewType:
-		return "+vl"
-	case *arrow.LargeListViewType:
-		return "+vL"
-	case *arrow.FixedSizeListType:
-		return fmt.Sprintf("+w:%d", dt.Len())
-	case *arrow.StructType:
-		return "+s"
-	case *arrow.RunEndEncodedType:
-		return "+r"
-	case *arrow.MapType:
-		if dt.KeysSorted {
-			exp.flags |= C.ARROW_FLAG_MAP_KEYS_SORTED
-		}
-		return "+m"
-	case *arrow.DictionaryType:
-		if dt.Ordered {
-			exp.flags |= C.ARROW_FLAG_DICTIONARY_ORDERED
-		}
-		return exp.exportFormat(dt.IndexType)
-	case arrow.UnionType:
-		var b strings.Builder
-		if dt.Mode() == arrow.SparseMode {
-			b.WriteString("+us:")
-		} else {
-			b.WriteString("+ud:")
-		}
-		for i, c := range dt.TypeCodes() {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			b.WriteString(strconv.Itoa(int(c)))
-		}
-		return b.String()
-	}
-	panic("unsupported data type for export")
-}
-
-func (exp *schemaExporter) export(field arrow.Field) {
-	exp.name = field.Name
-	exp.format = exp.exportFormat(exp.handleExtension(field.Type))
-	if field.Nullable {
-		exp.flags |= C.ARROW_FLAG_NULLABLE
-	}
-
-	switch dt := field.Type.(type) {
-	case *arrow.DictionaryType:
-		exp.dict = new(schemaExporter)
-		exp.dict.export(arrow.Field{Type: dt.ValueType})
-	case arrow.NestedType:
-		exp.children = make([]schemaExporter, dt.NumFields())
-		for i, f := range dt.Fields() {
-			exp.children[i].export(f)
-		}
-	}
-
-	exp.exportMeta(&field.Metadata)
-}
-
-func (exp *schemaExporter) finish(out *CArrowSchema) {
-	out.dictionary = nil
-	if exp.dict != nil {
-		out.dictionary = (*CArrowSchema)(C.calloc(C.sizeof_struct_ArrowSchema, C.size_t(1)))
-		exp.dict.finish(out.dictionary)
-	}
-	out.name = C.CString(exp.name)
-	out.format = C.CString(exp.format)
-	out.metadata = (*C.char)(C.CBytes(exp.metadata))
-	out.flags = C.int64_t(exp.flags)
-	out.n_children = C.int64_t(len(exp.children))
-
-	if len(exp.children) > 0 {
-		children := allocateArrowSchemaArr(len(exp.children))
-		childPtrs := allocateArrowSchemaPtrArr(len(exp.children))
-
-		for i, c := range exp.children {
-			c.finish(&children[i])
-			childPtrs[i] = &children[i]
-		}
-
-		out.children = (**CArrowSchema)(unsafe.Pointer(&childPtrs[0]))
-	} else {
-		out.children = nil
-	}
-
-	out.release = (*[0]byte)(C.goReleaseSchema)
-}
-
-func exportField(field arrow.Field, out *CArrowSchema) {
-	var exp schemaExporter
-	exp.export(field)
-	exp.finish(out)
-}
-
-func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
-	if outSchema != nil {
-		exportField(arrow.Field{Type: arr.DataType()}, outSchema)
-	}
-
-	buffers := arr.Data().Buffers()
-	// Some types don't have validity bitmaps, but we keep them shifted
-	// to make processing easier in other contexts. This means that
-	// we have to adjust when exporting.
-	has_validity_bitmap := internal.DefaultHasValidityBitmap(arr.DataType().ID())
-	if len(buffers) > 0 && !has_validity_bitmap {
-		buffers = buffers[1:]
-	}
-	nbuffers := len(buffers)
-
-	has_buffer_sizes_buffer := internal.HasBufferSizesBuffer(arr.DataType().ID())
-	if has_buffer_sizes_buffer {
-		nbuffers++
-	}
-
-	out.dictionary = nil
-	out.null_count = C.int64_t(arr.NullN())
-	out.length = C.int64_t(arr.Len())
-	out.offset = C.int64_t(arr.Data().Offset())
-	out.n_buffers = C.int64_t(nbuffers)
-	out.buffers = nil
-
-	if nbuffers > 0 {
-		cBufs := allocateBufferPtrArr(nbuffers)
-		for i, buf := range buffers {
-			if buf == nil || buf.Len() == 0 {
-				if i > 0 || !has_validity_bitmap {
-					// apache/arrow#33936: export a dummy buffer to be friendly to
-					// implementations that don't import NULL properly
-					cBufs[i] = (*C.void)(unsafe.Pointer(&C.kGoCdataZeroRegion))
-				} else {
-					// null pointer permitted for the validity bitmap
-					// (assuming null count is 0)
-					cBufs[i] = nil
-				}
-				continue
-			}
-
-			cBufs[i] = (*C.void)(unsafe.Pointer(&buf.Bytes()[0]))
-		}
-
-		if has_buffer_sizes_buffer {
-			sizes := allocateBufferSizeArr(len(buffers[2:]))
-			for i, buf := range buffers[2:] {
-				sizes[i] = C.int64_t(buf.Len())
-			}
-			if len(sizes) > 0 {
-				cBufs[nbuffers-1] = (*C.void)(unsafe.Pointer(&sizes[0]))
-			}
-		}
-		out.buffers = (*unsafe.Pointer)(unsafe.Pointer(&cBufs[0]))
-	}
-
-	arr.Data().Retain()
-	h := cgo.NewHandle(arr.Data())
-	out.private_data = createHandle(h)
-	out.release = (*[0]byte)(C.goReleaseArray)
-	switch arr := arr.(type) {
-	case array.ListLike:
-		out.n_children = 1
-		childPtrs := allocateArrowArrayPtrArr(1)
-		children := allocateArrowArrayArr(1)
-		exportArray(arr.ListValues(), &children[0], nil)
-		childPtrs[0] = &children[0]
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.Struct:
-		out.n_children = C.int64_t(arr.NumField())
-		childPtrs := allocateArrowArrayPtrArr(arr.NumField())
-		children := allocateArrowArrayArr(arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			exportArray(arr.Field(i), &children[i], nil)
-			childPtrs[i] = &children[i]
-		}
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.RunEndEncoded:
-		out.n_children = 2
-		childPtrs := allocateArrowArrayPtrArr(2)
-		children := allocateArrowArrayArr(2)
-		exportArray(arr.RunEndsArr(), &children[0], nil)
-		exportArray(arr.Values(), &children[1], nil)
-		childPtrs[0], childPtrs[1] = &children[0], &children[1]
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.Dictionary:
-		out.dictionary = (*CArrowArray)(C.calloc(C.sizeof_struct_ArrowArray, C.size_t(1)))
-		exportArray(arr.Dictionary(), out.dictionary, nil)
-	case array.Union:
-		out.n_children = C.int64_t(arr.NumFields())
-		childPtrs := allocateArrowArrayPtrArr(arr.NumFields())
-		children := allocateArrowArrayArr(arr.NumFields())
-		for i := 0; i < arr.NumFields(); i++ {
-			exportArray(arr.Field(i), &children[i], nil)
-			childPtrs[i] = &children[i]
-		}
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	default:
-		out.n_children = 0
-		out.children = nil
-	}
-}
-
-type cRecordReader struct {
-	rdr array.RecordReader
-	err *C.char
-}
-
-func (rr cRecordReader) getSchema(out *CArrowSchema) int {
-	schema := rr.rdr.Schema()
-	if schema == nil {
-		return rr.maybeError()
-	}
-	ExportArrowSchema(schema, out)
-	return 0
-}
-
-func (rr cRecordReader) next(out *CArrowArray) int {
-	if rr.rdr.Next() {
-		ExportArrowRecordBatch(rr.rdr.Record(), out, nil)
-		return 0
-	}
-	C.ArrowArrayMarkReleased(out)
-	return rr.maybeError()
-}
-
-func (rr cRecordReader) maybeError() int {
-	err := rr.rdr.Err()
-	if err != nil {
-		return C.EIO
-	}
-	return 0
-}
-
-func (rr cRecordReader) getLastError() *C.char {
-	err := rr.rdr.Err()
-	if err != nil {
-		if rr.err != nil {
-			C.free(unsafe.Pointer(rr.err))
-		}
-		rr.err = C.CString(err.Error())
-	}
-	return rr.err
-}
-
-func (rr cRecordReader) release() {
-	if rr.err != nil {
-		C.free(unsafe.Pointer(rr.err))
-	}
-	rr.rdr.Release()
-}
diff --git a/go/arrow/cdata/cdata_fulltest.c b/go/arrow/cdata/cdata_fulltest.c
deleted file mode 100644
index 4291cfff865b5..0000000000000
--- a/go/arrow/cdata/cdata_fulltest.c
+++ /dev/null
@@ -1,494 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build cgo
-// +build test
-
-#include <assert.h>
-#include <errno.h>
-#include <string.h>
-#include <stdlib.h>
-#include <stdbool.h>
-#include <stdint.h>
-#include "arrow/c/abi.h"
-#include "arrow/c/helpers.h"
-#include "utils.h"
-
-int is_little_endian()
-{
-  unsigned int x = 1;
-  char *c = (char*) &x;
-  return (int)*c;
-}
-
-static const int64_t kDefaultFlags = ARROW_FLAG_NULLABLE;
-
-extern void releaseTestArr(struct ArrowArray* array);
-void goReleaseTestArray(struct ArrowArray* array) {
-  releaseTestArr(array);
-}
-
-static void release_int32_type(struct ArrowSchema* schema) {
-    // mark released
-    schema->release = NULL;
-}
-
-void export_int32_type(struct ArrowSchema* schema) {
-    const char* encoded_metadata;
-    if (is_little_endian() == 1) {
-        encoded_metadata = kEncodedMeta1LE;
-    } else {
-        encoded_metadata = kEncodedMeta1BE;
-    }
-    *schema = (struct ArrowSchema) {
-        // Type description
-        .format = "i",
-        .name = "",
-        .metadata = encoded_metadata,
-        .flags = 0,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_int32_type,
-    };
-}
-
-static bool test1_released = false;
-
-int test1_is_released() { return test1_released; }
-
-static void release_int32_array(struct ArrowArray* array) {
-    assert(array->n_buffers == 2);
-    // free the buffers and buffers array
-    free((void *) array->buffers[1]);
-    free(array->buffers);
-    // mark released
-    array->release = NULL;
-    test1_released = true;
-}
-
-void export_int32_array(const int32_t* data, int64_t nitems, struct ArrowArray* array) {
-    // initialize primitive fields
-    *array = (struct ArrowArray) {
-        .length = nitems,
-        .offset = 0,
-        .null_count = 0,
-        .n_buffers = 2,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_int32_array
-    };
-
-    // allocate list of buffers
-    array->buffers = (const void**)malloc(sizeof(void*) * array->n_buffers);
-    assert(array->buffers != NULL);
-    array->buffers[0] = NULL; // no nulls, null bitmap can be omitted
-    array->buffers[1] = data;
-}
-
-
-static void release_primitive(struct ArrowSchema* schema) {
-    free((void *)schema->format);
-    schema->release = NULL;
-}
-
-static void release_nested_internal(struct ArrowSchema* schema,
-                                    int is_dynamic) {
-    assert(!ArrowSchemaIsReleased(schema));
-    for (int i = 0; i < schema->n_children; ++i) {
-        ArrowSchemaRelease(schema->children[i]);
-        free(schema->children[i]);
-    }
-    if (is_dynamic) {
-        free((void*)schema->format);
-        free((void*)schema->name);
-    }
-    ArrowSchemaMarkReleased(schema);
-}
-
-static void release_nested_static(struct ArrowSchema* schema) {
-    release_nested_internal(schema, /*is_dynamic=*/0);
-}
-
-static void release_nested_dynamic(struct ArrowSchema* schema) {
-    release_nested_internal(schema, /*is_dynamic=*/1);
-}
-
-static void release_nested_dynamic_toplevel(struct ArrowSchema* schema) {
-    assert(!ArrowSchemaIsReleased(schema));
-    for (int i = 0; i < schema->n_children; ++i) {
-        ArrowSchemaRelease(schema->children[i]);
-        free(schema->children[i]);
-    }
-    free((void*)schema->format);
-    if (strlen(schema->name) > 0) {
-        free((void*)schema->name);
-    }
-    ArrowSchemaMarkReleased(schema);
-}
-
-void test_primitive(struct ArrowSchema* schema, const char* fmt) {
-    *schema = (struct ArrowSchema) {
-        // Type description
-        .format = fmt,
-        .name = "",
-        .metadata = NULL,
-        .flags = 0,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_primitive,
-    };
-}
-
-// Since test_lists et al. allocate an entirely array of ArrowSchema pointers,
-// need to expose a function to free it.
-void free_malloced_schemas(struct ArrowSchema** schemas) {
-    free(schemas);
-}
-
-struct ArrowSchema** test_lists(const char** fmts, const char** names, const int* nullflags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = 0,
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-        if (i != 0) {
-            schemas[i-1]->n_children = 1;
-            schemas[i-1]->children = &schemas[i];
-            schemas[i]->flags = nullflags[i-1];
-        }
-    }
-    return schemas;
-}
-
-struct ArrowSchema** fill_structs(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->children = &schemas[1];
-    schemas[0]->n_children = n-1;
-    return schemas;
-}
-
-struct ArrowSchema** test_struct(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = fill_structs(fmts, names, flags, n);
-
-    if (is_little_endian() == 1) {
-        schemas[n-1]->metadata = kEncodedMeta2LE;
-    } else {
-        schemas[n-1]->metadata = kEncodedMeta2BE;
-    }
-
-    return schemas;
-}
-
-struct ArrowSchema** test_schema(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = fill_structs(fmts, names, flags, n);
-
-    if (is_little_endian() == 1) {
-        schemas[0]->metadata = kEncodedMeta2LE;
-        schemas[n-1]->metadata = kEncodedMeta1LE;
-    } else {
-        schemas[0]->metadata = kEncodedMeta2BE;
-        schemas[n-1]->metadata = kEncodedMeta1BE;
-    }
-    return schemas;
-}
-
-struct ArrowSchema** test_map(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->n_children = 1;
-    schemas[0]->children = &schemas[1];
-    schemas[1]->n_children = n-2;
-    schemas[1]->children = &schemas[2];
-
-    return schemas;
-}
-
-struct ArrowSchema** test_union(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-     for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->n_children = n-1;
-    schemas[0]->children = &schemas[1];
-    return schemas;
-}
-
-struct streamcounter {
-    int n;
-    int max;
-};
-
-static int stream_schema(struct ArrowArrayStream* st, struct ArrowSchema* out) {
-    out->children = malloc(sizeof(struct ArrowSchema*)*2);
-    out->n_children = 2;
-
-    out->children[0] = malloc(sizeof(struct ArrowSchema));
-    *out->children[0] = (struct ArrowSchema) {
-        .format = "i",
-        .name = "a",
-        .metadata = NULL,
-        .flags = ARROW_FLAG_NULLABLE,
-        .children = NULL,
-        .n_children = 0,
-        .dictionary = NULL,
-        .release = &release_nested_static,
-    };
-
-    out->children[1] = malloc(sizeof(struct ArrowSchema));
-    *out->children[1] = (struct ArrowSchema) {
-        .format = "u",
-        .name = "b",
-        .metadata = NULL,
-        .flags = ARROW_FLAG_NULLABLE,
-        .children = NULL,
-        .n_children = 0,
-        .dictionary = NULL,
-        .release = &release_nested_static,
-    };
-
-    out->format = "+s";
-    out->release = &release_nested_static;
-
-    return 0;
-}
-
-static void release_stream(struct ArrowArrayStream* st) {
-    free(st->private_data);
-    ArrowArrayStreamMarkReleased(st);
-}
-
-static void release_the_array(struct ArrowArray* out) {
-    for (int i = 0; i < out->n_children; ++i) {
-        ArrowArrayRelease(out->children[i]);
-    }
-    free((void*)out->children);
-    free(out->buffers);
-    out->release = NULL;
-}
-
-void export_int32_array(const int32_t*, int64_t, struct ArrowArray*);
-
-static void release_str_array(struct ArrowArray* array) {
-    assert(array->n_buffers == 3);
-    free((void*) array->buffers[1]);
-    free((void*) array->buffers[2]);
-    free(array->buffers);
-    array->release = NULL;
-}
-
-void export_str_array(const char* data, const int32_t* offsets, int64_t nitems, struct ArrowArray* out) {
-    *out = (struct ArrowArray) {
-        .length = nitems,
-        .offset = 0,
-        .null_count = 0,
-        .n_buffers = 3,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_str_array
-    };
-
-    out->buffers = (const void**)malloc(sizeof(void*) * out->n_buffers);
-    assert(out->buffers != NULL);
-    out->buffers[0] = NULL;
-    out->buffers[1] = offsets;
-    out->buffers[2] = data;
-}
-
-static int next_record(struct ArrowArrayStream* st, struct ArrowArray* out) {
-    struct streamcounter* cnter = (struct streamcounter*)(st->private_data);
-    if (cnter->n == cnter->max) {
-        ArrowArrayMarkReleased(out);
-        return 0;
-    }
-
-    cnter->n++;
-
-    *out = (struct ArrowArray) {
-        .offset = 0,
-        .dictionary = NULL,
-        .length = 3,
-        .null_count = 0,
-        .buffers = (const void**)malloc(sizeof(void*)),
-        .n_children = 2,
-        .n_buffers = 1,
-        .release = &release_the_array
-    };
-
-    out->buffers[0] = NULL;
-    out->children = (struct ArrowArray**)malloc(sizeof(struct ArrowArray*)*2);
-    int32_t* intdata = malloc(sizeof(int32_t)*3);
-    for (int i = 0; i < 3; ++i) {
-        intdata[i] = cnter->n * (i+1);
-    }
-
-    out->children[0] = malloc(sizeof(struct ArrowArray));
-    export_int32_array(intdata, 3, out->children[0]);
-    out->children[1] = malloc(sizeof(struct ArrowArray));
-    char* strdata = strdup("foobarbaz");
-    int32_t* offsets = malloc(sizeof(int32_t)*4);
-    offsets[0] = 0;
-    offsets[1] = 3;
-    offsets[2] = 6;
-    offsets[3] = 9;
-    export_str_array(strdata, offsets, 3, out->children[1]);
-
-    return 0;
-}
-
-void setup_array_stream_test(const int n_batches, struct ArrowArrayStream* out) {
-    struct streamcounter* cnt = malloc(sizeof(struct streamcounter));
-    cnt->max = n_batches;
-    cnt->n = 0;
-
-    out->get_next = &next_record;
-    out->get_schema = &stream_schema;
-    out->release = &release_stream;
-    out->private_data = cnt;
-}
-
-int test_exported_stream(struct ArrowArrayStream* stream) {
-  while (1) {
-    struct ArrowArray array;
-    memset(&array, 0, sizeof(array));
-    // Garbage - implementation should not try to call it, though!
-    array.release = (void*)0xDEADBEEF;
-    int rc = stream->get_next(stream, &array);
-    if (rc != 0) return rc;
-
-    if (array.release == NULL) {
-      stream->release(stream);
-      break;
-    }
-  }
-  return 0;
-}
-
-struct FallibleStream {
-  // empty structs are a GNU extension
-  int dummy;
-};
-
-const char* FallibleGetLastError(struct ArrowArrayStream* stream) {
-  return "Expected error message";
-}
-
-int FallibleGetSchema(struct ArrowArrayStream* stream, struct ArrowSchema* schema) {
-  return EINVAL;
-}
-
-int FallibleGetNext(struct ArrowArrayStream* stream, struct ArrowArray* array) {
-  return EINVAL;
-}
-
-void FallibleRelease(struct ArrowArrayStream* stream) {
-  memset(stream, 0, sizeof(*stream));
-}
-
-static struct FallibleStream kFallibleStream;
-
-void test_stream_schema_fallible(struct ArrowArrayStream* stream) {
-  stream->get_last_error = FallibleGetLastError;
-  stream->get_schema = FallibleGetSchema;
-  stream->get_next = FallibleGetNext;
-  stream->private_data = &kFallibleStream;
-  stream->release = FallibleRelease;
-}
-
-int confuse_go_gc(struct ArrowArrayStream* stream, unsigned int seed) {
-  struct ArrowSchema schema;
-  // Try to confuse the Go GC by putting what looks like a Go pointer here.
-#ifdef _WIN32
-  // Thread-safe on Windows with the multithread CRT
-#define DORAND rand()
-#else
-#define DORAND rand_r(&seed)
-#endif
-  schema.name = (char*)(0xc000000000L + (DORAND % 0x2000));
-  schema.format = (char*)(0xc000000000L + (DORAND % 0x2000));
-  int rc = stream->get_schema(stream, &schema);
-  if (rc != 0) return rc;
-  schema.release(&schema);
-
-  while (1) {
-    struct ArrowArray array;
-    array.release = (void*)(0xc000000000L + (DORAND % 0x2000));
-    array.private_data = (void*)(0xc000000000L + (DORAND % 0x2000));
-    int rc = stream->get_next(stream, &array);
-    if (rc != 0) return rc;
-
-    if (array.release == NULL) {
-      stream->release(stream);
-      break;
-    }
-    array.release(&array);
-  }
-  return 0;
-#undef DORAND
-}
diff --git a/go/arrow/cdata/cdata_test.go b/go/arrow/cdata/cdata_test.go
deleted file mode 100644
index 3563aeb5f0f1e..0000000000000
--- a/go/arrow/cdata/cdata_test.go
+++ /dev/null
@@ -1,1027 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && test
-// +build cgo,test
-
-// use test tag so that we only run these tests when the "test" tag is present
-// so that the .c and other framework infrastructure is only compiled in during
-// testing, and the .c files and symbols are not present in release builds.
-
-package cdata
-
-import (
-	"encoding/json"
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"runtime/cgo"
-	"sync"
-	"testing"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestSchemaExport(t *testing.T) {
-	sc := exportInt32TypeSchema()
-	f, err := importSchema(&sc)
-	assert.NoError(t, err)
-
-	keys, _ := getMetadataKeys()
-	vals, _ := getMetadataValues()
-
-	assert.Equal(t, arrow.PrimitiveTypes.Int32, f.Type)
-	assert.Equal(t, keys, f.Metadata.Keys())
-	assert.Equal(t, vals, f.Metadata.Values())
-
-	// schema was released when importing
-	assert.True(t, schemaIsReleased(&sc))
-}
-
-func TestSimpleArrayExport(t *testing.T) {
-	assert.False(t, test1IsReleased())
-
-	testarr := exportInt32Array()
-	arr, err := ImportCArrayWithType(testarr, arrow.PrimitiveTypes.Int32)
-	assert.NoError(t, err)
-
-	assert.False(t, test1IsReleased())
-	assert.True(t, isReleased(testarr))
-
-	arr.Release()
-	runtime.GC()
-	assert.Eventually(t, test1IsReleased, 1*time.Second, 10*time.Millisecond)
-}
-
-func TestSimpleArrayAndSchema(t *testing.T) {
-	sc := exportInt32TypeSchema()
-	testarr := exportInt32Array()
-
-	// grab address of the buffer we stuck into the ArrowArray object
-	buflist := (*[2]unsafe.Pointer)(unsafe.Pointer(testarr.buffers))
-	origvals := (*[10]int32)(unsafe.Pointer(buflist[1]))
-
-	fld, arr, err := ImportCArray(testarr, &sc)
-	assert.NoError(t, err)
-	assert.Equal(t, arrow.PrimitiveTypes.Int32, fld.Type)
-	assert.EqualValues(t, 10, arr.Len())
-
-	// verify that the address is the same of the first integer for the
-	// slice that is being used by the arrow.Array and the original buffer
-	vals := arr.(*array.Int32).Int32Values()
-	assert.Same(t, &vals[0], &origvals[0])
-
-	// and that the values are correct
-	for i, v := range vals {
-		assert.Equal(t, int32(i+1), v)
-	}
-}
-
-func TestPrimitiveSchemas(t *testing.T) {
-	tests := []struct {
-		typ arrow.DataType
-		fmt string
-	}{
-		{arrow.PrimitiveTypes.Int8, "c"},
-		{arrow.PrimitiveTypes.Int16, "s"},
-		{arrow.PrimitiveTypes.Int32, "i"},
-		{arrow.PrimitiveTypes.Int64, "l"},
-		{arrow.PrimitiveTypes.Uint8, "C"},
-		{arrow.PrimitiveTypes.Uint16, "S"},
-		{arrow.PrimitiveTypes.Uint32, "I"},
-		{arrow.PrimitiveTypes.Uint64, "L"},
-		{arrow.FixedWidthTypes.Boolean, "b"},
-		{arrow.Null, "n"},
-		{arrow.FixedWidthTypes.Float16, "e"},
-		{arrow.PrimitiveTypes.Float32, "f"},
-		{arrow.PrimitiveTypes.Float64, "g"},
-		{&arrow.FixedSizeBinaryType{ByteWidth: 3}, "w:3"},
-		{arrow.BinaryTypes.Binary, "z"},
-		{arrow.BinaryTypes.LargeBinary, "Z"},
-		{arrow.BinaryTypes.String, "u"},
-		{arrow.BinaryTypes.LargeString, "U"},
-		{&arrow.Decimal128Type{Precision: 16, Scale: 4}, "d:16,4"},
-		{&arrow.Decimal128Type{Precision: 15, Scale: 0}, "d:15,0"},
-		{&arrow.Decimal128Type{Precision: 15, Scale: -4}, "d:15,-4"},
-		{&arrow.Decimal256Type{Precision: 15, Scale: -4}, "d:15,-4,256"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			f, err := ImportCArrowField(&sc)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(&sc))
-		})
-	}
-}
-
-func TestDecimalSchemaErrors(t *testing.T) {
-	tests := []struct {
-		fmt          string
-		errorMessage string
-	}{
-		{"d:", "invalid decimal spec 'd:': wrong number of properties"},
-		{"d:1", "invalid decimal spec 'd:1': wrong number of properties"},
-		{"d:1,2,3,4", "invalid decimal spec 'd:1,2,3,4': wrong number of properties"},
-		{"d:a,2,3", "could not parse decimal precision in 'd:a,2,3':"},
-		{"d:1,a,3", "could not parse decimal scale in 'd:1,a,3':"},
-		{"d:1,2,a", "could not parse decimal bitwidth in 'd:1,2,a':"},
-		{"d:1,2,384", "only decimal128 and decimal256 are supported, got 'd:1,2,384'"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fmt, func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			_, err := ImportCArrowField(&sc)
-			assert.Error(t, err)
-			assert.Contains(t, err.Error(), tt.errorMessage)
-		})
-	}
-}
-
-func TestImportTemporalSchema(t *testing.T) {
-	tests := []struct {
-		typ arrow.DataType
-		fmt string
-	}{
-		{arrow.FixedWidthTypes.Date32, "tdD"},
-		{arrow.FixedWidthTypes.Date64, "tdm"},
-		{arrow.FixedWidthTypes.Time32s, "tts"},
-		{arrow.FixedWidthTypes.Time32ms, "ttm"},
-		{arrow.FixedWidthTypes.Time64us, "ttu"},
-		{arrow.FixedWidthTypes.Time64ns, "ttn"},
-		{arrow.FixedWidthTypes.Duration_s, "tDs"},
-		{arrow.FixedWidthTypes.Duration_ms, "tDm"},
-		{arrow.FixedWidthTypes.Duration_us, "tDu"},
-		{arrow.FixedWidthTypes.Duration_ns, "tDn"},
-		{arrow.FixedWidthTypes.MonthInterval, "tiM"},
-		{arrow.FixedWidthTypes.DayTimeInterval, "tiD"},
-		{arrow.FixedWidthTypes.MonthDayNanoInterval, "tin"},
-		{arrow.FixedWidthTypes.Timestamp_s, "tss:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Second}, "tss:"},
-		{&arrow.TimestampType{Unit: arrow.Second, TimeZone: "Europe/Paris"}, "tss:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_ms, "tsm:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Millisecond}, "tsm:"},
-		{&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "Europe/Paris"}, "tsm:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_us, "tsu:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Microsecond}, "tsu:"},
-		{&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "Europe/Paris"}, "tsu:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_ns, "tsn:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Nanosecond}, "tsn:"},
-		{&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Europe/Paris"}, "tsn:Europe/Paris"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			f, err := ImportCArrowField(&sc)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(&sc))
-		})
-	}
-}
-
-func TestListSchemas(t *testing.T) {
-	tests := []struct {
-		typ    arrow.DataType
-		fmts   []string
-		names  []string
-		isnull []bool
-	}{
-		{arrow.ListOf(arrow.PrimitiveTypes.Int8), []string{"+l", "c"}, []string{"", "item"}, []bool{true}},
-		{arrow.FixedSizeListOfNonNullable(2, arrow.PrimitiveTypes.Int64), []string{"+w:2", "l"}, []string{"", "item"}, []bool{false}},
-		{arrow.ListOfNonNullable(arrow.ListOf(arrow.PrimitiveTypes.Int32)), []string{"+l", "+l", "i"}, []string{"", "item", "item"}, []bool{false, true}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testNested(tt.fmts, tt.names, tt.isnull)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestStructSchemas(t *testing.T) {
-	tests := []struct {
-		typ   arrow.DataType
-		fmts  []string
-		names []string
-		flags []int64
-	}{
-		{arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: metadata2},
-		), []string{"+s", "c", "u"}, []string{"", "a", "b"}, []int64{flagIsNullable, flagIsNullable, flagIsNullable}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testStruct(tt.fmts, tt.names, tt.flags)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestMapSchemas(t *testing.T) {
-	tests := []struct {
-		typ        *arrow.MapType
-		keysSorted bool
-		fmts       []string
-		names      []string
-		flags      []int64
-	}{
-		{arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String), false, []string{"+m", "+s", "c", "u"}, []string{"", "entries", "key", "value"}, []int64{flagIsNullable, 0, 0, flagIsNullable}},
-		{arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String), true, []string{"+m", "+s", "c", "u"}, []string{"", "entries", "key", "value"}, []int64{flagIsNullable | flagMapKeysSorted, 0, 0, flagIsNullable}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testMap(tt.fmts, tt.names, tt.flags)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			tt.typ.KeysSorted = tt.keysSorted
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestSchema(t *testing.T) {
-	// schema is exported as an equivalent struct type (+ top-level metadata)
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "nulls", Type: arrow.Null, Nullable: false},
-		{Name: "values", Type: arrow.PrimitiveTypes.Int64, Nullable: true, Metadata: metadata1},
-	}, &metadata2)
-
-	cst := testSchema([]string{"+s", "n", "l"}, []string{"", "nulls", "values"}, []int64{0, 0, flagIsNullable})
-	defer freeMallocedSchemas(cst)
-
-	top := (*[1]*CArrowSchema)(unsafe.Pointer(cst))[0]
-	out, err := ImportCArrowSchema(top)
-	assert.NoError(t, err)
-
-	assert.True(t, sc.Equal(out))
-	assert.True(t, sc.Metadata().Equal(out.Metadata()))
-
-	assert.True(t, schemaIsReleased(top))
-}
-
-func createTestInt8Arr() arrow.Array {
-	bld := array.NewInt8Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int8{1, 2, 0, -3}, []bool{true, true, false, true})
-	return bld.NewInt8Array()
-}
-
-func createTestInt16Arr() arrow.Array {
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int16{1, 2, -3}, []bool{true, true, true})
-	return bld.NewInt16Array()
-}
-
-func createTestInt32Arr() arrow.Array {
-	bld := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int32{1, 2, 0, -3}, []bool{true, true, false, true})
-	return bld.NewInt32Array()
-}
-
-func createTestInt64Arr() arrow.Array {
-	bld := array.NewInt64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int64{1, 2, -3}, []bool{true, true, true})
-	return bld.NewInt64Array()
-}
-
-func createTestUint8Arr() arrow.Array {
-	bld := array.NewUint8Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint8{1, 2, 0, 3}, []bool{true, true, false, true})
-	return bld.NewUint8Array()
-}
-
-func createTestUint16Arr() arrow.Array {
-	bld := array.NewUint16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint16{1, 2, 3}, []bool{true, true, true})
-	return bld.NewUint16Array()
-}
-
-func createTestUint32Arr() arrow.Array {
-	bld := array.NewUint32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint32{1, 2, 0, 3}, []bool{true, true, false, true})
-	return bld.NewUint32Array()
-}
-
-func createTestUint64Arr() arrow.Array {
-	bld := array.NewUint64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint64{1, 2, 3}, []bool{true, true, true})
-	return bld.NewUint64Array()
-}
-
-func createTestBoolArr() arrow.Array {
-	bld := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]bool{true, false, false}, []bool{true, true, false})
-	return bld.NewBooleanArray()
-}
-
-func createTestNullArr() arrow.Array {
-	return array.NewNull(2)
-}
-
-func createTestFloat32Arr() arrow.Array {
-	bld := array.NewFloat32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]float32{1.5, 0}, []bool{true, false})
-	return bld.NewFloat32Array()
-}
-
-func createTestFloat64Arr() arrow.Array {
-	bld := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]float64{1.5, 0}, []bool{true, false})
-	return bld.NewFloat64Array()
-}
-
-func createTestFSBArr() arrow.Array {
-	bld := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 3})
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewFixedSizeBinaryArray()
-}
-
-func createTestBinaryArr() arrow.Array {
-	bld := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary)
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewBinaryArray()
-}
-
-func createTestStrArr() arrow.Array {
-	bld := array.NewStringBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]string{"foo", "bar", ""}, []bool{true, true, false})
-	return bld.NewStringArray()
-}
-
-func createTestLargeBinaryArr() arrow.Array {
-	bld := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.LargeBinary)
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewLargeBinaryArray()
-}
-
-func createTestLargeStrArr() arrow.Array {
-	bld := array.NewLargeStringBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]string{"foo", "bar", ""}, []bool{true, true, false})
-	return bld.NewLargeStringArray()
-}
-
-func createTestDecimalArr() arrow.Array {
-	bld := array.NewDecimal128Builder(memory.DefaultAllocator, &arrow.Decimal128Type{Precision: 16, Scale: 4})
-	defer bld.Release()
-
-	bld.AppendValues([]decimal128.Num{decimal128.FromU64(12345670), decimal128.FromU64(0)}, []bool{true, false})
-	return bld.NewDecimal128Array()
-}
-
-func TestPrimitiveArrs(t *testing.T) {
-	tests := []struct {
-		name string
-		fn   func() arrow.Array
-	}{
-		{"int8", createTestInt8Arr},
-		{"uint8", createTestUint8Arr},
-		{"int16", createTestInt16Arr},
-		{"uint16", createTestUint16Arr},
-		{"int32", createTestInt32Arr},
-		{"uint32", createTestUint32Arr},
-		{"int64", createTestInt64Arr},
-		{"uint64", createTestUint64Arr},
-		{"bool", createTestBoolArr},
-		{"null", createTestNullArr},
-		{"float32", createTestFloat32Arr},
-		{"float64", createTestFloat64Arr},
-		{"fixed size binary", createTestFSBArr},
-		{"binary", createTestBinaryArr},
-		{"utf8", createTestStrArr},
-		{"largebinary", createTestLargeBinaryArr},
-		{"largeutf8", createTestLargeStrArr},
-		{"decimal128", createTestDecimalArr},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			arr := tt.fn()
-			defer arr.Release()
-
-			mem := mallocator.NewMallocator()
-			defer mem.AssertSize(t, 0)
-
-			carr := createCArr(arr, mem)
-			defer freeTestMallocatorArr(carr, mem)
-
-			imported, err := ImportCArrayWithType(carr, arr.DataType())
-			assert.NoError(t, err)
-			assert.True(t, array.Equal(arr, imported))
-			assert.True(t, isReleased(carr))
-
-			imported.Release()
-		})
-	}
-}
-
-func TestPrimitiveSliced(t *testing.T) {
-	arr := createTestInt16Arr()
-	defer arr.Release()
-
-	sl := array.NewSlice(arr, 1, 2)
-	defer sl.Release()
-
-	mem := mallocator.NewMallocator()
-	defer mem.AssertSize(t, 0)
-
-	carr := createCArr(sl, mem)
-	defer freeTestMallocatorArr(carr, mem)
-
-	imported, err := ImportCArrayWithType(carr, arr.DataType())
-	assert.NoError(t, err)
-	assert.True(t, array.Equal(sl, imported))
-	assert.True(t, array.SliceEqual(arr, 1, 2, imported, 0, int64(imported.Len())))
-	assert.True(t, isReleased(carr))
-
-	imported.Release()
-}
-
-func createTestListArr() arrow.Array {
-	bld := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int8Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int8{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int8{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestLargeListArr() arrow.Array {
-	bld := array.NewLargeListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int8Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int8{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int8{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestFixedSizeList() arrow.Array {
-	bld := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int64Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int64{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int64{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-	return bld.NewArray()
-}
-
-func createTestStructArr() arrow.Array {
-	bld := array.NewStructBuilder(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	))
-	defer bld.Release()
-
-	f1bld := bld.FieldBuilder(0).(*array.Int8Builder)
-	f2bld := bld.FieldBuilder(1).(*array.StringBuilder)
-
-	bld.Append(true)
-	f1bld.Append(1)
-	f2bld.Append("foo")
-
-	bld.Append(true)
-	f1bld.Append(2)
-	f2bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestRunEndsArr() arrow.Array {
-	bld := array.NewRunEndEncodedBuilder(memory.DefaultAllocator,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	if err := json.Unmarshal([]byte(`[1, 2, 2, 3, null, null, null, 4]`), bld); err != nil {
-		panic(err)
-	}
-
-	return bld.NewArray()
-}
-
-func createTestMapArr() arrow.Array {
-	bld := array.NewMapBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, false)
-	defer bld.Release()
-
-	kb := bld.KeyBuilder().(*array.Int8Builder)
-	vb := bld.ItemBuilder().(*array.StringBuilder)
-
-	bld.Append(true)
-	kb.Append(1)
-	vb.Append("foo")
-	kb.Append(2)
-	vb.AppendNull()
-
-	bld.Append(true)
-	kb.Append(3)
-	vb.Append("bar")
-
-	return bld.NewArray()
-}
-
-func createTestSparseUnion() arrow.Array {
-	return createTestUnionArr(arrow.SparseMode)
-}
-
-func createTestDenseUnion() arrow.Array {
-	return createTestUnionArr(arrow.DenseMode)
-}
-
-func createTestUnionArr(mode arrow.UnionMode) arrow.Array {
-	fields := []arrow.Field{
-		arrow.Field{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	bld := array.NewBuilder(memory.DefaultAllocator, arrow.UnionOf(mode, fields, typeCodes)).(array.UnionBuilder)
-	defer bld.Release()
-
-	u0Bld := bld.Child(0).(*array.Int32Builder)
-	u1Bld := bld.Child(1).(*array.Uint8Builder)
-
-	bld.Append(5)
-	if mode == arrow.SparseMode {
-		u1Bld.AppendNull()
-	}
-	u0Bld.Append(128)
-	bld.Append(5)
-	if mode == arrow.SparseMode {
-		u1Bld.AppendNull()
-	}
-	u0Bld.Append(256)
-	bld.Append(10)
-	if mode == arrow.SparseMode {
-		u0Bld.AppendNull()
-	}
-	u1Bld.Append(127)
-	bld.Append(10)
-	if mode == arrow.SparseMode {
-		u0Bld.AppendNull()
-	}
-	u1Bld.Append(25)
-
-	return bld.NewArray()
-}
-
-func TestNestedArrays(t *testing.T) {
-	tests := []struct {
-		name string
-		fn   func() arrow.Array
-	}{
-		{"list", createTestListArr},
-		{"large list", createTestLargeListArr},
-		{"fixed size list", createTestFixedSizeList},
-		{"struct", createTestStructArr},
-		{"map", createTestMapArr},
-		{"sparse union", createTestSparseUnion},
-		{"dense union", createTestDenseUnion},
-		{"run-end encoded", createTestRunEndsArr},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			arr := tt.fn()
-			defer arr.Release()
-
-			mem := mallocator.NewMallocator()
-			defer mem.AssertSize(t, 0)
-
-			carr := createCArr(arr, mem)
-			defer freeTestMallocatorArr(carr, mem)
-
-			imported, err := ImportCArrayWithType(carr, arr.DataType())
-			assert.NoError(t, err)
-			assert.True(t, array.Equal(arr, imported))
-			assert.True(t, isReleased(carr))
-
-			imported.Release()
-		})
-	}
-}
-
-func TestRecordBatch(t *testing.T) {
-	mem := mallocator.NewMallocator()
-	defer mem.AssertSize(t, 0)
-
-	arr := createTestStructArr()
-	defer arr.Release()
-
-	carr := createCArr(arr, mem)
-	defer freeTestMallocatorArr(carr, mem)
-
-	sc := testStruct([]string{"+s", "c", "u"}, []string{"", "a", "b"}, []int64{0, flagIsNullable, flagIsNullable})
-	defer freeMallocedSchemas(sc)
-
-	top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-	rb, err := ImportCRecordBatch(carr, top)
-	assert.NoError(t, err)
-	defer rb.Release()
-
-	assert.EqualValues(t, 2, rb.NumCols())
-	rbschema := rb.Schema()
-	assert.Equal(t, "a", rbschema.Field(0).Name)
-	assert.Equal(t, "b", rbschema.Field(1).Name)
-
-	rec := array.NewRecord(rbschema, []arrow.Array{arr.(*array.Struct).Field(0), arr.(*array.Struct).Field(1)}, -1)
-	defer rec.Release()
-
-	assert.True(t, array.RecordEqual(rb, rec))
-}
-
-func TestRecordReaderStream(t *testing.T) {
-	stream := arrayStreamTest()
-	defer releaseStream(stream)
-
-	rdr := ImportCArrayStream(stream, nil)
-	i := 0
-	for {
-		rec, err := rdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		assert.EqualValues(t, 2, rec.NumCols())
-		assert.Equal(t, "a", rec.ColumnName(0))
-		assert.Equal(t, "b", rec.ColumnName(1))
-		i++
-		for j := 0; j < int(rec.NumRows()); j++ {
-			assert.Equal(t, int32((j+1)*i), rec.Column(0).(*array.Int32).Value(j))
-		}
-		assert.Equal(t, "foo", rec.Column(1).(*array.String).Value(0))
-		assert.Equal(t, "bar", rec.Column(1).(*array.String).Value(1))
-		assert.Equal(t, "baz", rec.Column(1).(*array.String).Value(2))
-	}
-}
-
-func TestExportRecordReaderStream(t *testing.T) {
-	reclist := arrdata.Records["primitives"]
-	rdr, _ := array.NewRecordReader(reclist[0].Schema(), reclist)
-
-	out := createTestStreamObj()
-	ExportRecordReader(rdr, out)
-
-	assert.NotNil(t, out.get_schema)
-	assert.NotNil(t, out.get_next)
-	assert.NotNil(t, out.get_last_error)
-	assert.NotNil(t, out.release)
-	assert.NotNil(t, out.private_data)
-
-	h := *(*cgo.Handle)(out.private_data)
-	assert.Same(t, rdr, h.Value().(cRecordReader).rdr)
-
-	importedRdr := ImportCArrayStream(out, nil)
-	i := 0
-	for {
-		rec, err := importedRdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		assert.Truef(t, array.RecordEqual(reclist[i], rec), "expected: %s\ngot: %s", reclist[i], rec)
-		i++
-	}
-	assert.EqualValues(t, len(reclist), i)
-}
-
-func TestExportRecordReaderStreamLifetime(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "strings", Type: arrow.BinaryTypes.String, Nullable: false},
-	}, nil)
-
-	bldr := array.NewBuilder(mem, &arrow.StringType{})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, 0)
-	defer rec.Release()
-
-	rdr, _ := array.NewRecordReader(schema, []arrow.Record{rec})
-	defer rdr.Release()
-
-	out := createTestStreamObj()
-	ExportRecordReader(rdr, out)
-
-	// C Stream is holding on to memory
-	assert.NotEqual(t, 0, mem.CurrentAlloc())
-	releaseStream(out)
-}
-
-func TestEmptyListExport(t *testing.T) {
-	bldr := array.NewBuilder(memory.DefaultAllocator, arrow.LargeListOf(arrow.PrimitiveTypes.Int32))
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	ExportArrowArray(arr, &out, nil)
-
-	assert.Zero(t, out.length)
-	assert.Zero(t, out.null_count)
-	assert.Zero(t, out.offset)
-	assert.EqualValues(t, 2, out.n_buffers)
-	assert.NotNil(t, out.buffers)
-	assert.EqualValues(t, 1, out.n_children)
-	assert.NotNil(t, out.children)
-}
-
-func TestEmptyDictExport(t *testing.T) {
-	bldr := array.NewBuilder(memory.DefaultAllocator, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String, Ordered: true})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 'c', *sc.format)
-	assert.NotZero(t, sc.flags&1)
-	assert.Zero(t, sc.n_children)
-	assert.NotNil(t, sc.dictionary)
-	assert.EqualValues(t, 'u', *sc.dictionary.format)
-
-	assert.Zero(t, out.length)
-	assert.Zero(t, out.null_count)
-	assert.Zero(t, out.offset)
-	assert.EqualValues(t, 2, out.n_buffers)
-	assert.Zero(t, out.n_children)
-	assert.Nil(t, out.children)
-	assert.NotNil(t, out.dictionary)
-
-	assert.Zero(t, out.dictionary.length)
-	assert.Zero(t, out.dictionary.null_count)
-	assert.Zero(t, out.dictionary.offset)
-	assert.EqualValues(t, 3, out.dictionary.n_buffers)
-	assert.Zero(t, out.dictionary.n_children)
-	assert.Nil(t, out.dictionary.children)
-	assert.Nil(t, out.dictionary.dictionary)
-}
-
-func TestEmptyStringExport(t *testing.T) {
-	// apache/arrow#33936: regression test
-	bldr := array.NewBuilder(memory.DefaultAllocator, &arrow.StringType{})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 'u', *sc.format)
-	assert.Zero(t, sc.n_children)
-	assert.Nil(t, sc.dictionary)
-
-	assert.EqualValues(t, 3, out.n_buffers)
-	buffers := (*[3]unsafe.Pointer)(unsafe.Pointer(out.buffers))
-	assert.EqualValues(t, unsafe.Pointer(nil), buffers[0])
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[1])
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[2])
-}
-
-func TestEmptyUnionExport(t *testing.T) {
-	// apache/arrow#33936: regression test
-	bldr := array.NewBuilder(memory.DefaultAllocator, arrow.SparseUnionOf([]arrow.Field{
-		{Name: "child", Type: &arrow.Int64Type{}},
-	}, []arrow.UnionTypeCode{0}))
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 1, sc.n_children)
-	assert.Nil(t, sc.dictionary)
-
-	assert.EqualValues(t, 1, out.n_buffers)
-	buffers := (*[1]unsafe.Pointer)(unsafe.Pointer(out.buffers))
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[0])
-}
-
-func TestRecordReaderExport(t *testing.T) {
-	// Regression test for apache/arrow#33767
-	reclist := arrdata.Records["primitives"]
-	rdr, _ := array.NewRecordReader(reclist[0].Schema(), reclist)
-
-	if err := exportedStreamTest(rdr); err != nil {
-		t.Fatalf("Failed to test exported stream: %#v", err)
-	}
-}
-
-type failingReader struct {
-	opCount int
-}
-
-func (r *failingReader) Retain()  {}
-func (r *failingReader) Release() {}
-func (r *failingReader) Schema() *arrow.Schema {
-	r.opCount -= 1
-	if r.opCount == 0 {
-		return nil
-	}
-	return arrdata.Records["primitives"][0].Schema()
-}
-func (r *failingReader) Next() bool {
-	r.opCount -= 1
-	return r.opCount > 0
-}
-func (r *failingReader) Record() arrow.Record {
-	arrdata.Records["primitives"][0].Retain()
-	return arrdata.Records["primitives"][0]
-}
-func (r *failingReader) Err() error {
-	if r.opCount == 0 {
-		return fmt.Errorf("Expected error message")
-	}
-	return nil
-}
-
-func TestRecordReaderError(t *testing.T) {
-	// Regression test for apache/arrow#33789
-	err := roundTripStreamTest(&failingReader{opCount: 1})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = roundTripStreamTest(&failingReader{opCount: 2})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = roundTripStreamTest(&failingReader{opCount: 3})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-}
-
-func TestRecordReaderImportError(t *testing.T) {
-	// Regression test for apache/arrow#35974
-
-	err := fallibleSchemaTestDeprecated()
-	if err == nil {
-		t.Fatalf("Expected error but got nil")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = fallibleSchemaTest()
-	if err == nil {
-		t.Fatalf("Expected error but got nil")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-}
-
-func TestConfuseGoGc(t *testing.T) {
-	// Regression test for https://github.com/apache/arrow-adbc/issues/729
-	reclist := arrdata.Records["primitives"]
-
-	var wg sync.WaitGroup
-	concurrency := 32
-	wg.Add(concurrency)
-
-	// XXX: this test is a bit expensive
-	for i := 0; i < concurrency; i++ {
-		go func() {
-			for i := 0; i < 256; i++ {
-				rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-				assert.NoError(t, err)
-				runtime.GC()
-				assert.NoError(t, confuseGoGc(rdr))
-				runtime.GC()
-			}
-			wg.Done()
-		}()
-	}
-
-	wg.Wait()
-}
diff --git a/go/arrow/cdata/cdata_test_framework.go b/go/arrow/cdata/cdata_test_framework.go
deleted file mode 100644
index 968b28b4e4afb..0000000000000
--- a/go/arrow/cdata/cdata_test_framework.go
+++ /dev/null
@@ -1,451 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build test
-// +build test
-
-package cdata
-
-// #include <stdlib.h>
-// #include <stdint.h>
-// #include <string.h>
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-//
-// void setup_array_stream_test(const int n_batches, struct ArrowArrayStream* out);
-// static struct ArrowArray* get_test_arr() {
-//   struct ArrowArray* array = (struct ArrowArray*)malloc(sizeof(struct ArrowArray));
-//   memset(array, 0, sizeof(*array));
-//   return array;
-// }
-// static struct ArrowArrayStream* get_test_stream() {
-//	struct ArrowArrayStream* out = (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream));
-//	memset(out, 0, sizeof(struct ArrowArrayStream));
-//	return out;
-// }
-//
-// void release_test_arr(struct ArrowArray* arr);
-//
-// static int32_t* get_data() {
-//	int32_t* data = malloc(sizeof(int32_t)*10);
-//  for (int i = 0; i < 10; ++i) { data[i] = i+1; }
-//	return data;
-// }
-// void export_int32_type(struct ArrowSchema* schema);
-// void export_int32_array(const int32_t*, int64_t, struct ArrowArray*);
-// int test1_is_released();
-// void test_primitive(struct ArrowSchema* schema, const char* fmt);
-// void free_malloced_schemas(struct ArrowSchema**);
-// struct ArrowSchema** test_lists(const char** fmts, const char** names, const int* nullflags, const int n);
-// struct ArrowSchema** test_struct(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_map(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_schema(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_union(const char** fmts, const char** names, int64_t* flags, const int n);
-// int test_exported_stream(struct ArrowArrayStream* stream);
-// void test_stream_schema_fallible(struct ArrowArrayStream* stream);
-// int confuse_go_gc(struct ArrowArrayStream* stream, unsigned int seed);
-// extern void releaseTestArr(struct ArrowArray* array);
-// extern void goReleaseTestArray(struct ArrowArray* array);
-import "C"
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"math/rand"
-	"runtime/cgo"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-)
-
-const (
-	flagIsNullable    = C.ARROW_FLAG_NULLABLE
-	flagMapKeysSorted = C.ARROW_FLAG_MAP_KEYS_SORTED
-)
-
-var (
-	metadata1 = arrow.NewMetadata([]string{"key1", "key2"}, []string{"", "bar"})
-	metadata2 = arrow.NewMetadata([]string{"key"}, []string{"abcde"})
-)
-
-func exportInt32TypeSchema() CArrowSchema {
-	var s CArrowSchema
-	C.export_int32_type(&s)
-	return s
-}
-
-func releaseStream(s *CArrowArrayStream) {
-	C.ArrowArrayStreamRelease(s)
-}
-
-func schemaIsReleased(s *CArrowSchema) bool {
-	return C.ArrowSchemaIsReleased(s) == 1
-}
-
-func getMetadataKeys() ([]string, []string) {
-	return []string{"key1", "key2"}, []string{"key"}
-}
-
-func getMetadataValues() ([]string, []string) {
-	return []string{"", "bar"}, []string{"abcde"}
-}
-
-func exportInt32Array() *CArrowArray {
-	arr := C.get_test_arr()
-	C.export_int32_array(C.get_data(), C.int64_t(10), arr)
-	return arr
-}
-
-func isReleased(arr *CArrowArray) bool {
-	return C.ArrowArrayIsReleased(arr) == 1
-}
-
-func test1IsReleased() bool {
-	return C.test1_is_released() == 1
-}
-
-func testPrimitive(fmtstr string) CArrowSchema {
-	var s CArrowSchema
-	fmt := C.CString(fmtstr)
-	C.test_primitive(&s, fmt)
-	return s
-}
-
-func freeMallocedSchemas(schemas **CArrowSchema) {
-	C.free_malloced_schemas(schemas)
-}
-
-func testNested(fmts, names []string, isnull []bool) **CArrowSchema {
-	if len(fmts) != len(names) {
-		panic("testing nested lists must have same size fmts and names")
-	}
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	nulls := make([]C.int, len(isnull))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-	}
-
-	for i, v := range isnull {
-		if v {
-			nulls[i] = C.ARROW_FLAG_NULLABLE
-		} else {
-			nulls[i] = 0
-		}
-	}
-
-	return C.test_lists((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int)(unsafe.Pointer(&nulls[0])), C.int(len(fmts)))
-}
-
-func testStruct(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing structs must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_struct((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testMap(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing maps must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_map((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testUnion(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing unions must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_union((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testSchema(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing structs must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_schema((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func freeAny[T any](alloc *mallocator.Mallocator, p *T, n int) {
-	raw := unsafe.Slice((*byte)(unsafe.Pointer(p)), int(unsafe.Sizeof(*p))*n)
-	alloc.Free(raw)
-}
-
-func freeTestMallocatorArr(carr *CArrowArray, alloc *mallocator.Mallocator) {
-	freeAny(alloc, carr, 1)
-}
-
-func getTestArr(alloc *mallocator.Mallocator) *CArrowArray {
-	raw := alloc.Allocate(C.sizeof_struct_ArrowArray)
-	return (*CArrowArray)(unsafe.Pointer(&raw[0]))
-}
-
-type testReleaser struct {
-	alloc *mallocator.Mallocator
-	bufs  [][]byte
-}
-
-//export releaseTestArr
-func releaseTestArr(arr *CArrowArray) {
-	if C.ArrowArrayIsReleased(arr) == 1 {
-		return
-	}
-	defer C.ArrowArrayMarkReleased(arr)
-
-	h := getHandle(arr.private_data)
-	tr := h.Value().(*testReleaser)
-
-	alloc := tr.alloc
-	for _, b := range tr.bufs {
-		alloc.Free(b)
-	}
-
-	if arr.n_buffers > 0 {
-		freeAny(alloc, arr.buffers, int(arr.n_buffers))
-	}
-
-	if arr.dictionary != nil {
-		C.ArrowArrayRelease(arr.dictionary)
-		freeAny(alloc, arr.dictionary, 1)
-	}
-
-	if arr.n_children > 0 {
-		children := unsafe.Slice(arr.children, arr.n_children)
-		for _, c := range children {
-			C.ArrowArrayRelease(c)
-			freeTestMallocatorArr(c, alloc)
-		}
-
-		freeAny(alloc, arr.children, int(arr.n_children))
-	}
-
-	h.Delete()
-	C.free(unsafe.Pointer(arr.private_data))
-}
-
-func allocateBufferMallocatorPtrArr(alloc *mallocator.Mallocator, n int) []*C.void {
-	raw := alloc.Allocate(int(unsafe.Sizeof((*C.void)(nil))) * n)
-	return unsafe.Slice((**C.void)(unsafe.Pointer(&raw[0])), n)
-}
-
-func allocateChildrenPtrArr(alloc *mallocator.Mallocator, n int) []*CArrowArray {
-	raw := alloc.Allocate(int(unsafe.Sizeof((*CArrowArray)(nil))) * n)
-	return unsafe.Slice((**CArrowArray)(unsafe.Pointer(&raw[0])), n)
-}
-
-func createCArr(arr arrow.Array, alloc *mallocator.Mallocator) *CArrowArray {
-	var (
-		carr      = getTestArr(alloc)
-		children  = (**CArrowArray)(nil)
-		nchildren = C.int64_t(0)
-	)
-
-	switch arr := arr.(type) {
-	case array.ListLike:
-		clist := allocateChildrenPtrArr(alloc, 1)
-		clist[0] = createCArr(arr.ListValues(), alloc)
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-		nchildren += 1
-	case *array.Struct:
-		clist := allocateChildrenPtrArr(alloc, arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			clist[i] = createCArr(arr.Field(i), alloc)
-			nchildren += 1
-		}
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-	case *array.RunEndEncoded:
-		clist := allocateChildrenPtrArr(alloc, 2)
-		clist[0] = createCArr(arr.RunEndsArr(), alloc)
-		clist[1] = createCArr(arr.Values(), alloc)
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-		nchildren += 2
-	case array.Union:
-		clist := allocateChildrenPtrArr(alloc, arr.NumFields())
-		for i := 0; i < arr.NumFields(); i++ {
-			clist[i] = createCArr(arr.Field(i), alloc)
-			nchildren += 1
-		}
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-	}
-
-	carr.children = children
-	carr.n_children = nchildren
-	carr.dictionary = nil
-	carr.length = C.int64_t(arr.Len())
-	carr.null_count = C.int64_t(arr.NullN())
-	carr.offset = C.int64_t(arr.Data().Offset())
-	carr.release = (*[0]byte)(C.goReleaseTestArray)
-	tr := &testReleaser{alloc: alloc}
-	h := cgo.NewHandle(tr)
-	carr.private_data = createHandle(h)
-
-	buffers := arr.Data().Buffers()
-	bufOffset, nbuffers := 0, len(buffers)
-	hasValidityBitmap := internal.DefaultHasValidityBitmap(arr.DataType().ID())
-	if nbuffers > 0 && !hasValidityBitmap {
-		nbuffers--
-		bufOffset++
-	}
-
-	if nbuffers == 0 {
-		return carr
-	}
-
-	tr.bufs = make([][]byte, 0, nbuffers)
-	cbufs := allocateBufferMallocatorPtrArr(alloc, nbuffers)
-	for i, b := range buffers[bufOffset:] {
-		if b != nil {
-			raw := alloc.Allocate(b.Len())
-			copy(raw, b.Bytes())
-			tr.bufs = append(tr.bufs, raw)
-			cbufs[i] = (*C.void)(unsafe.Pointer(&raw[0]))
-		} else {
-			cbufs[i] = nil
-		}
-	}
-
-	carr.n_buffers = C.int64_t(len(cbufs))
-	if len(cbufs) > 0 {
-		carr.buffers = (*unsafe.Pointer)(unsafe.Pointer(&cbufs[0]))
-	}
-
-	return carr
-}
-
-func createTestStreamObj() *CArrowArrayStream {
-	return C.get_test_stream()
-}
-
-func arrayStreamTest() *CArrowArrayStream {
-	st := C.get_test_stream()
-	C.setup_array_stream_test(2, st)
-	return st
-}
-
-func exportedStreamTest(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rc := C.test_exported_stream(out)
-	C.free(unsafe.Pointer(out))
-	if rc == 0 {
-		return nil
-	}
-	return fmt.Errorf("Exported stream test failed with return code %d", int(rc))
-}
-
-func roundTripStreamTest(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rdr, err := ImportCRecordReader(out, nil)
-
-	if err != nil {
-		return err
-	}
-
-	for {
-		_, err = rdr.Read()
-		if errors.Is(err, io.EOF) {
-			break
-		} else if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func fallibleSchemaTestDeprecated() (err error) {
-	stream := CArrowArrayStream{}
-	C.test_stream_schema_fallible(&stream)
-
-	defer func() {
-		if r := recover(); r != nil {
-			err = fmt.Errorf("Panicked: %#v", r)
-		}
-	}()
-	_ = ImportCArrayStream(&stream, nil)
-	return nil
-}
-
-func fallibleSchemaTest() error {
-	stream := CArrowArrayStream{}
-	C.test_stream_schema_fallible(&stream)
-
-	_, err := ImportCRecordReader(&stream, nil)
-	if err != nil {
-		return err
-	}
-	return nil
-}
-
-func confuseGoGc(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rc := C.confuse_go_gc(out, C.uint(rand.Int()))
-	C.free(unsafe.Pointer(out))
-	if rc == 0 {
-		return nil
-	}
-	return fmt.Errorf("Exported stream test failed with return code %d", int(rc))
-}
diff --git a/go/arrow/cdata/exports.go b/go/arrow/cdata/exports.go
deleted file mode 100644
index 6dbcde831d889..0000000000000
--- a/go/arrow/cdata/exports.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-import (
-	"runtime/cgo"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// #include <stdlib.h>
-// #include "arrow/c/helpers.h"
-//
-// typedef const char cchar_t;
-// extern int streamGetSchema(struct ArrowArrayStream*, struct ArrowSchema*);
-// extern int streamGetNext(struct ArrowArrayStream*, struct ArrowArray*);
-// extern const char* streamGetError(struct ArrowArrayStream*);
-// extern void streamRelease(struct ArrowArrayStream*);
-// // XXX(https://github.com/apache/arrow-adbc/issues/729)
-// int streamGetSchemaTrampoline(struct ArrowArrayStream* stream, struct ArrowSchema* out);
-// int streamGetNextTrampoline(struct ArrowArrayStream* stream, struct ArrowArray* out);
-//
-import "C"
-
-//export releaseExportedSchema
-func releaseExportedSchema(schema *CArrowSchema) {
-	if C.ArrowSchemaIsReleased(schema) == 1 {
-		return
-	}
-	defer C.ArrowSchemaMarkReleased(schema)
-
-	C.free(unsafe.Pointer(schema.name))
-	C.free(unsafe.Pointer(schema.format))
-	C.free(unsafe.Pointer(schema.metadata))
-
-	if schema.n_children == 0 {
-		return
-	}
-
-	if schema.dictionary != nil {
-		C.ArrowSchemaRelease(schema.dictionary)
-		C.free(unsafe.Pointer(schema.dictionary))
-	}
-
-	children := unsafe.Slice(schema.children, schema.n_children)
-	for _, c := range children {
-		C.ArrowSchemaRelease(c)
-	}
-
-	C.free(unsafe.Pointer(children[0]))
-	C.free(unsafe.Pointer(schema.children))
-}
-
-// apache/arrow#33864: allocate a new cgo.Handle and store its address
-// in a heap-allocated uintptr_t.
-func createHandle(hndl cgo.Handle) unsafe.Pointer {
-	// uintptr_t* hptr = malloc(sizeof(uintptr_t));
-	hptr := (*C.uintptr_t)(C.malloc(C.sizeof_uintptr_t))
-	// *hptr = (uintptr)hndl;
-	*hptr = C.uintptr_t(uintptr(hndl))
-	return unsafe.Pointer(hptr)
-}
-
-func getHandle(ptr unsafe.Pointer) cgo.Handle {
-	// uintptr_t* hptr = (uintptr_t*)ptr;
-	hptr := (*C.uintptr_t)(ptr)
-	return cgo.Handle((uintptr)(*hptr))
-}
-
-//export releaseExportedArray
-func releaseExportedArray(arr *CArrowArray) {
-	if C.ArrowArrayIsReleased(arr) == 1 {
-		return
-	}
-	defer C.ArrowArrayMarkReleased(arr)
-
-	if arr.n_buffers > 0 {
-		C.free(unsafe.Pointer(arr.buffers))
-	}
-
-	if arr.dictionary != nil {
-		C.ArrowArrayRelease(arr.dictionary)
-		C.free(unsafe.Pointer(arr.dictionary))
-	}
-
-	if arr.n_children > 0 {
-		children := unsafe.Slice(arr.children, arr.n_children)
-
-		for _, c := range children {
-			C.ArrowArrayRelease(c)
-		}
-		C.free(unsafe.Pointer(children[0]))
-		C.free(unsafe.Pointer(arr.children))
-	}
-
-	h := getHandle(arr.private_data)
-	h.Value().(arrow.ArrayData).Release()
-	h.Delete()
-	C.free(unsafe.Pointer(arr.private_data))
-}
-
-//export streamGetSchema
-func streamGetSchema(handle *CArrowArrayStream, out *CArrowSchema) C.int {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return C.int(rdr.getSchema(out))
-}
-
-//export streamGetNext
-func streamGetNext(handle *CArrowArrayStream, out *CArrowArray) C.int {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return C.int(rdr.next(out))
-}
-
-//export streamGetError
-func streamGetError(handle *CArrowArrayStream) *C.cchar_t {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return rdr.getLastError()
-}
-
-//export streamRelease
-func streamRelease(handle *CArrowArrayStream) {
-	h := getHandle(handle.private_data)
-	h.Value().(cRecordReader).release()
-	h.Delete()
-	C.free(unsafe.Pointer(handle.private_data))
-	handle.release = nil
-	handle.private_data = nil
-}
-
-func exportStream(rdr array.RecordReader, out *CArrowArrayStream) {
-	out.get_schema = (*[0]byte)(C.streamGetSchemaTrampoline)
-	out.get_next = (*[0]byte)(C.streamGetNextTrampoline)
-	out.get_last_error = (*[0]byte)(C.streamGetError)
-	out.release = (*[0]byte)(C.streamRelease)
-	rdr.Retain()
-	h := cgo.NewHandle(cRecordReader{rdr: rdr, err: nil})
-	out.private_data = createHandle(h)
-}
diff --git a/go/arrow/cdata/import_allocator.go b/go/arrow/cdata/import_allocator.go
deleted file mode 100644
index 4e5c2a7b38c72..0000000000000
--- a/go/arrow/cdata/import_allocator.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// #include "arrow/c/helpers.h"
-// #include <stdlib.h>
-import "C"
-
-type importAllocator struct {
-	bufCount int64
-
-	arr *CArrowArray
-}
-
-func (i *importAllocator) addBuffer() {
-	atomic.AddInt64(&i.bufCount, 1)
-}
-
-func (*importAllocator) Allocate(int) []byte {
-	panic("cannot allocate from importAllocator")
-}
-
-func (*importAllocator) Reallocate(int, []byte) []byte {
-	panic("cannot reallocate from importAllocator")
-}
-
-func (i *importAllocator) Free([]byte) {
-	debug.Assert(atomic.LoadInt64(&i.bufCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&i.bufCount, -1) == 0 {
-		defer C.free(unsafe.Pointer(i.arr))
-		C.ArrowArrayRelease(i.arr)
-		if C.ArrowArrayIsReleased(i.arr) != 1 {
-			panic("did not release C mem")
-		}
-	}
-}
diff --git a/go/arrow/cdata/interface.go b/go/arrow/cdata/interface.go
deleted file mode 100644
index 005dda73ff0ec..0000000000000
--- a/go/arrow/cdata/interface.go
+++ /dev/null
@@ -1,284 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo
-// +build cgo
-
-package cdata
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-// SchemaFromPtr is a simple helper function to cast a uintptr to a *CArrowSchema
-func SchemaFromPtr(ptr uintptr) *CArrowSchema { return (*CArrowSchema)(unsafe.Pointer(ptr)) }
-
-// ArrayFromPtr is a simple helper function to cast a uintptr to a *CArrowArray
-func ArrayFromPtr(ptr uintptr) *CArrowArray { return (*CArrowArray)(unsafe.Pointer(ptr)) }
-
-// ImportCArrowField takes in an ArrowSchema from the C Data interface, it
-// will copy the metadata and type definitions rather than keep direct references
-// to them. It is safe to call C.ArrowSchemaRelease after receiving the field
-// from this function.
-func ImportCArrowField(out *CArrowSchema) (arrow.Field, error) {
-	return importSchema(out)
-}
-
-// ImportCArrowSchema takes in the ArrowSchema from the C Data Interface, it
-// will copy the metadata and schema definitions over from the C object rather
-// than keep direct references to them. This function will call ArrowSchemaRelease
-// on the passed in schema regardless of whether or not there is an error returned.
-//
-// This version is intended to take in a schema for a record batch, which means
-// that the top level of the schema should be a struct of the schema fields. If
-// importing a single array's schema, then use ImportCArrowField instead.
-func ImportCArrowSchema(out *CArrowSchema) (*arrow.Schema, error) {
-	ret, err := importSchema(out)
-	if err != nil {
-		return nil, err
-	}
-
-	return arrow.NewSchema(ret.Type.(*arrow.StructType).Fields(), &ret.Metadata), nil
-}
-
-// ImportCArrayWithType takes a pointer to a C Data ArrowArray and interprets the values
-// as an array with the given datatype. If err is not nil, then ArrowArrayRelease must still
-// be called on arr to release the memory.
-//
-// The underlying buffers will not be copied, but will instead be referenced directly
-// by the resulting array interface object. The passed in ArrowArray will have it's ownership
-// transferred to the resulting arrow.Array via ArrowArrayMove. The underlying array.Data
-// object that is owned by the Array will now be the owner of the memory pointer and
-// will call ArrowArrayRelease when it is released and garbage collected via runtime.SetFinalizer.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCArrayWithType(arr *CArrowArray, dt arrow.DataType) (arrow.Array, error) {
-	imp, err := importCArrayAsType(arr, dt)
-	if err != nil {
-		return nil, err
-	}
-	defer imp.data.Release()
-	return array.MakeFromData(imp.data), nil
-}
-
-// ImportCArray takes a pointer to both a C Data ArrowArray and C Data ArrowSchema in order
-// to import them into usable Go Objects. If err is not nil, then ArrowArrayRelease must still
-// be called on arr to release the memory. The ArrowSchemaRelease will be called on the passed in
-// schema regardless of whether there is an error or not.
-//
-// The Schema will be copied with the information used to populate the returned Field, complete
-// with metadata. The array will reference the same memory that is referred to by the ArrowArray
-// object and take ownership of it as per ImportCArrayWithType. The returned arrow.Array will
-// own the C memory and call ArrowArrayRelease when the array.Data object is cleaned up.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCArray(arr *CArrowArray, schema *CArrowSchema) (arrow.Field, arrow.Array, error) {
-	field, err := importSchema(schema)
-	if err != nil {
-		return field, nil, err
-	}
-
-	ret, err := ImportCArrayWithType(arr, field.Type)
-	return field, ret, err
-}
-
-// ImportCRecordBatchWithSchema is used for importing a Record Batch array when the schema
-// is already known such as when receiving record batches through a stream.
-//
-// All of the semantics regarding memory ownership are the same as when calling
-// ImportCRecordBatch directly with a schema.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCRecordBatchWithSchema(arr *CArrowArray, sc *arrow.Schema) (arrow.Record, error) {
-	imp, err := importCArrayAsType(arr, arrow.StructOf(sc.Fields()...))
-	if err != nil {
-		return nil, err
-	}
-	defer imp.data.Release()
-
-	st := array.NewStructData(imp.data)
-	defer st.Release()
-
-	// now that we have our fields, we can split them out into the slice of arrays
-	// and construct a record batch from them to return.
-	cols := make([]arrow.Array, st.NumField())
-	for i := 0; i < st.NumField(); i++ {
-		cols[i] = st.Field(i)
-	}
-
-	return array.NewRecord(sc, cols, int64(st.Len())), nil
-}
-
-// ImportCRecordBatch imports an ArrowArray from C as a record batch. If err is not nil,
-// then ArrowArrayRelease must still be called to release the memory.
-//
-// A record batch is represented in the C Data Interface as a Struct Array whose fields
-// are the columns of the record batch. Thus after importing the schema passed in here,
-// if it is not a Struct type, this will return an error. As with ImportCArray, the
-// columns in the record batch will take ownership of the CArrowArray memory if successful.
-// Since ArrowArrayMove is used, it's still safe to call ArrowArrayRelease on the source
-// regardless. But if there is an error, it *MUST* be called to ensure there is no memory leak.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCRecordBatch(arr *CArrowArray, sc *CArrowSchema) (arrow.Record, error) {
-	field, err := importSchema(sc)
-	if err != nil {
-		return nil, err
-	}
-
-	if field.Type.ID() != arrow.STRUCT {
-		return nil, xerrors.New("recordbatch array import must be of struct type")
-	}
-
-	return ImportCRecordBatchWithSchema(arr, arrow.NewSchema(field.Type.(*arrow.StructType).Fields(), &field.Metadata))
-}
-
-// ImportCArrayStream creates an arrio.Reader from an ArrowArrayStream taking ownership
-// of the underlying stream object via ArrowArrayStreamMove.
-//
-// The records returned by this reader must be released manually after they are returned.
-// The reader itself will release the stream via SetFinalizer when it is garbage collected.
-// It will return (nil, io.EOF) from the Read function when there are no more records to return.
-//
-// NOTE: The reader takes ownership of the underlying memory buffers via ArrowArrayStreamMove,
-// it does not take ownership of the actual stream object itself.
-//
-// Deprecated: This will panic if importing the schema fails (which is possible).
-// Prefer ImportCRecordReader instead.
-func ImportCArrayStream(stream *CArrowArrayStream, schema *arrow.Schema) arrio.Reader {
-	reader, err := ImportCRecordReader(stream, schema)
-	if err != nil {
-		panic(err)
-	}
-	return reader
-}
-
-// ImportCStreamReader creates an arrio.Reader from an ArrowArrayStream taking ownership
-// of the underlying stream object via ArrowArrayStreamMove.
-//
-// The records returned by this reader must be released manually after they are returned.
-// The reader itself will release the stream via SetFinalizer when it is garbage collected.
-// It will return (nil, io.EOF) from the Read function when there are no more records to return.
-//
-// NOTE: The reader takes ownership of the underlying memory buffers via ArrowArrayStreamMove,
-// it does not take ownership of the actual stream object itself.
-func ImportCRecordReader(stream *CArrowArrayStream, schema *arrow.Schema) (arrio.Reader, error) {
-	out := &nativeCRecordBatchReader{schema: schema}
-	if err := initReader(out, stream); err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-// ExportArrowSchema populates the passed in CArrowSchema with the schema passed in so
-// that it can be passed to some consumer of the C Data Interface. The `release` function
-// is tied to a callback in order to properly release any memory that was allocated during
-// the populating of the struct. Any memory allocated will be allocated using malloc
-// which means that it is invisible to the Go Garbage Collector and must be freed manually
-// using the callback on the CArrowSchema object.
-//
-// WARNING: the output ArrowSchema MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowSchema(schema *arrow.Schema, out *CArrowSchema) {
-	dummy := arrow.Field{Type: arrow.StructOf(schema.Fields()...), Metadata: schema.Metadata()}
-	exportField(dummy, out)
-}
-
-// ExportArrowRecordBatch populates the passed in CArrowArray (and optionally the schema too)
-// by sharing the memory used for the buffers of each column's arrays. It does not
-// copy the data, and will internally increment the reference counters so that releasing
-// the record will not free the memory prematurely.
-//
-// When using CGO, memory passed to C is pinned so that the Go garbage collector won't
-// move where it is allocated out from under the C pointer locations, ensuring the C pointers
-// stay valid. This is only true until the CGO call returns, at which point the garbage collector
-// is free to move things around again. As a result, if the function you're calling is going to
-// hold onto the pointers or otherwise continue to reference the memory *after* the call returns,
-// you should use the CgoArrowAllocator rather than the GoAllocator (or DefaultAllocator) so that
-// the memory which is allocated for the record batch in the first place is allocated in C,
-// not by the Go runtime and is therefore not subject to the Garbage collection.
-//
-// The release function on the populated CArrowArray will properly decrease the reference counts,
-// and release the memory if the record has already been released. But since this must be explicitly
-// done, make sure it is released so that you do not create a memory leak.
-//
-// WARNING: the output ArrowArray MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowRecordBatch(rb arrow.Record, out *CArrowArray, outSchema *CArrowSchema) {
-	children := make([]arrow.ArrayData, rb.NumCols())
-	for i := range rb.Columns() {
-		children[i] = rb.Column(i).Data()
-	}
-
-	data := array.NewData(arrow.StructOf(rb.Schema().Fields()...), int(rb.NumRows()), []*memory.Buffer{nil},
-		children, 0, 0)
-	defer data.Release()
-	arr := array.NewStructData(data)
-	defer arr.Release()
-
-	if outSchema != nil {
-		ExportArrowSchema(rb.Schema(), outSchema)
-	}
-
-	exportArray(arr, out, nil)
-}
-
-// ExportArrowArray populates the CArrowArray that is passed in with the pointers to the memory
-// being used by the arrow.Array passed in, in order to share with zero-copy across the C
-// Data Interface. See the documentation for ExportArrowRecordBatch for details on how to ensure
-// you do not leak memory and prevent unwanted, undefined or strange behaviors.
-//
-// WARNING: the output ArrowArray MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
-	exportArray(arr, out, outSchema)
-}
-
-// ExportRecordReader populates the CArrowArrayStream that is passed in with the appropriate
-// callbacks to be a working ArrowArrayStream utilizing the passed in RecordReader. The
-// CArrowArrayStream takes ownership of the RecordReader until the consumer calls the release
-// callback, as such it is unnecessary to call Release on the passed in reader unless it has
-// previously been retained.
-//
-// WARNING: the output ArrowArrayStream MUST BE ZERO INITIALIZED, or the Go garbage
-// collector may error at runtime, due to CGO rules ("the current implementation may
-// sometimes cause a runtime error if the contents of the C memory appear to be a Go
-// pointer").  You have been warned!
-func ExportRecordReader(reader array.RecordReader, out *CArrowArrayStream) {
-	exportStream(reader, out)
-}
-
-// ReleaseCArrowArray calls ArrowArrayRelease on the passed in cdata array
-func ReleaseCArrowArray(arr *CArrowArray) { releaseArr(arr) }
-
-// ReleaseCArrowSchema calls ArrowSchemaRelease on the passed in cdata schema
-func ReleaseCArrowSchema(schema *CArrowSchema) { releaseSchema(schema) }
diff --git a/go/arrow/cdata/test/test_cimport.go b/go/arrow/cdata/test/test_cimport.go
deleted file mode 100644
index 5315853fc59ca..0000000000000
--- a/go/arrow/cdata/test/test_cimport.go
+++ /dev/null
@@ -1,178 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cdata_test
-// +build cdata_test
-
-package main
-
-import (
-	"fmt"
-	"runtime"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/cdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// #include <stdint.h>
-import "C"
-
-var alloc = memory.NewCheckedAllocator(memory.NewGoAllocator())
-
-//export totalAllocated
-func totalAllocated() int64 {
-	return int64(alloc.CurrentAlloc())
-}
-
-//export runGC
-func runGC() {
-	runtime.GC()
-}
-
-//export importSchema
-func importSchema(ptr uintptr) {
-	schema, err := cdata.ImportCArrowSchema(cdata.SchemaFromPtr(ptr))
-	if err != nil {
-		panic(err)
-	}
-
-	expectedMetadata := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	expectedSchema := arrow.NewSchema([]arrow.Field{{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true}}, &expectedMetadata)
-	if !schema.Equal(expectedSchema) {
-		panic(fmt.Sprintf("schema didn't match: expected %s, got %s", expectedSchema, schema))
-	}
-	if !schema.Metadata().Equal(expectedMetadata) {
-		panic(fmt.Sprintf("metadata didn't match: expected %s, got %s", expectedMetadata, schema.Metadata()))
-	}
-
-	fmt.Println("schema matches! Huzzah!")
-}
-
-//export importRecordBatch
-func importRecordBatch(scptr, rbptr uintptr) {
-	sc := cdata.SchemaFromPtr(scptr)
-	rb := cdata.ArrayFromPtr(rbptr)
-
-	rec, err := cdata.ImportCRecordBatch(rb, sc)
-	if err != nil {
-		panic(err)
-	}
-	defer rec.Release()
-
-	expectedMetadata := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	expectedSchema := arrow.NewSchema([]arrow.Field{{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true}}, &expectedMetadata)
-
-	bldr := array.NewRecordBuilder(alloc, expectedSchema)
-	defer bldr.Release()
-
-	lb := bldr.Field(0).(*array.ListBuilder)
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-
-	// [[[1], [], None [2, 42]]]
-	lb.Append(true)
-	vb.Append(int32(1))
-
-	lb.Append(true)
-	lb.Append(false)
-
-	lb.Append(true)
-	vb.AppendValues([]int32{2, 42}, nil)
-
-	expectedRec := bldr.NewRecord()
-	defer expectedRec.Release()
-
-	if !array.RecordEqual(expectedRec, rec) {
-		panic(fmt.Sprintf("records didn't match: expected %s\n got %s", expectedRec, rec))
-	}
-
-	fmt.Println("record batch matches huzzah!")
-}
-
-func makeSchema() *arrow.Schema {
-	meta := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true},
-	}, &meta)
-}
-
-func makeBatch() arrow.Record {
-	bldr := array.NewRecordBuilder(alloc, makeSchema())
-	defer bldr.Release()
-
-	fbldr := bldr.Field(0).(*array.ListBuilder)
-	valbldr := fbldr.ValueBuilder().(*array.Int32Builder)
-
-	fbldr.Append(true)
-	valbldr.Append(1)
-
-	fbldr.Append(true)
-	fbldr.AppendNull()
-	fbldr.Append(true)
-	valbldr.Append(2)
-	valbldr.Append(42)
-
-	return bldr.NewRecord()
-}
-
-//export exportSchema
-func exportSchema(schema uintptr) {
-	cdata.ExportArrowSchema(makeSchema(), cdata.SchemaFromPtr(schema))
-}
-
-//export exportRecordBatch
-func exportRecordBatch(schema, record uintptr) {
-	batch := makeBatch()
-	defer batch.Release()
-
-	cdata.ExportArrowRecordBatch(batch, cdata.ArrayFromPtr(record), cdata.SchemaFromPtr(schema))
-}
-
-//export importThenExportSchema
-func importThenExportSchema(input, output uintptr) {
-	schema, err := cdata.ImportCArrowSchema(cdata.SchemaFromPtr(input))
-	if err != nil {
-		panic(err)
-	}
-
-	cdata.ExportArrowSchema(schema, cdata.SchemaFromPtr(output))
-}
-
-//export importThenExportRecord
-func importThenExportRecord(schemaIn, arrIn uintptr, schemaOut, arrOut uintptr) {
-	rec, err := cdata.ImportCRecordBatch(cdata.ArrayFromPtr(arrIn), cdata.SchemaFromPtr(schemaIn))
-	if err != nil {
-		panic(err)
-	}
-
-	defer rec.Release()
-	cdata.ExportArrowRecordBatch(rec, cdata.ArrayFromPtr(arrOut), cdata.SchemaFromPtr(schemaOut))
-}
-
-//export roundtripArray
-func roundtripArray(arrIn, schema, arrOut uintptr) {
-	_, arr, err := cdata.ImportCArray(cdata.ArrayFromPtr(arrIn), cdata.SchemaFromPtr(schema))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	outArr := cdata.ArrayFromPtr(arrOut)
-	cdata.ExportArrowArray(arr, outArr, nil)
-}
-
-func main() {}
diff --git a/go/arrow/cdata/test/test_export_to_cgo.py b/go/arrow/cdata/test/test_export_to_cgo.py
deleted file mode 100644
index 4b669f6424437..0000000000000
--- a/go/arrow/cdata/test/test_export_to_cgo.py
+++ /dev/null
@@ -1,230 +0,0 @@
-#!/usr/bin/env python3
-#
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-import contextlib
-import gc
-import os
-import unittest
-
-import pyarrow as pa
-from pyarrow.cffi import ffi
-
-
-def load_cgotest():
-    # XXX what about Darwin?
-    libext = 'so'
-    if os.name == 'nt':
-        libext = 'dll'
-
-    ffi.cdef(
-        """
-        long long totalAllocated();
-        void importSchema(uintptr_t ptr);
-        void importRecordBatch(uintptr_t scptr, uintptr_t rbptr);
-        void runGC();
-        void exportSchema(uintptr_t ptr);
-        void exportRecordBatch(uintptr_t schema, uintptr_t record);
-        void importThenExportSchema(uintptr_t input, uintptr_t output);
-        void importThenExportRecord(uintptr_t schemaIn, uintptr_t arrIn, 
-                                    uintptr_t schemaOut, uintptr_t arrOut);
-        void roundtripArray(uintptr_t arrIn, uintptr_t schema, uintptr_t arrOut);
-        """)
-    return ffi.dlopen(f'./cgotest.{libext}')
-
-
-cgotest = load_cgotest()
-
-class BaseTestGoPython(unittest.TestCase):
-    def setUp(self):
-        self.c_schema = ffi.new("struct ArrowSchema*")
-        self.ptr_schema = int(ffi.cast("uintptr_t", self.c_schema))
-        self.c_array = ffi.new("struct ArrowArray*")
-        self.ptr_array = int(ffi.cast("uintptr_t", self.c_array))
-
-    def make_schema(self):
-        return pa.schema([('ints', pa.list_(pa.int32()))],
-                         metadata={b'key1': b'value1'})
-
-    def make_batch(self):
-        return pa.record_batch([[[1], [], None, [2, 42]]],
-                               self.make_schema())
-
-    def run_gc(self):
-        # Several Go GC runs can be required to run all finalizers
-        for i in range(5):
-            cgotest.runGC()
-        gc.collect()
-
-    @contextlib.contextmanager
-    def assert_pyarrow_memory_released(self):
-        self.run_gc()
-        old_allocated = pa.total_allocated_bytes()
-        old_go_allocated = cgotest.totalAllocated()
-        yield
-        self.run_gc()
-        diff = pa.total_allocated_bytes() - old_allocated
-        godiff = cgotest.totalAllocated() - old_go_allocated
-        self.assertEqual(
-            pa.total_allocated_bytes(), old_allocated,
-            f"PyArrow memory was not adequately released: {diff} bytes lost")
-        self.assertEqual(
-            cgotest.totalAllocated(), old_go_allocated,
-            f"Go memory was not properly released: {godiff} bytes lost")
-        
-
-class TestPythonToGo(BaseTestGoPython):
-    
-    def test_schema(self):
-        with self.assert_pyarrow_memory_released():
-            self.make_schema()._export_to_c(self.ptr_schema)
-            # Will panic if expectations are not met
-            cgotest.importSchema(self.ptr_schema)
-
-    def test_record_batch(self):
-        with self.assert_pyarrow_memory_released():
-            self.make_schema()._export_to_c(self.ptr_schema)
-            self.make_batch()._export_to_c(self.ptr_array)
-            # Will panic if expectations are not met
-            cgotest.importRecordBatch(self.ptr_schema, self.ptr_array)
-
-
-class TestGoToPython(BaseTestGoPython):
-
-    def test_get_schema(self):
-        with self.assert_pyarrow_memory_released():
-            cgotest.exportSchema(self.ptr_schema)
-
-            sc = pa.Schema._import_from_c(self.ptr_schema)
-            assert sc == self.make_schema()
-    
-    def test_get_batch(self):
-        with self.assert_pyarrow_memory_released():
-            cgotest.exportRecordBatch(self.ptr_schema, self.ptr_array)
-            arrnew = pa.RecordBatch._import_from_c(self.ptr_array, self.ptr_schema)
-            assert arrnew == self.make_batch()
-            del arrnew
-    
-class TestRoundTrip(BaseTestGoPython):
-
-    def test_schema_roundtrip(self):
-        with self.assert_pyarrow_memory_released():
-            # make sure that Python -> Go -> Python ends up with
-            # the same exact schema
-            schema = self.make_schema()
-            schema._export_to_c(self.ptr_schema)
-            del schema
-            
-            c_schema = ffi.new("struct ArrowSchema*")
-            ptr_schema = int(ffi.cast("uintptr_t", c_schema))
-
-            cgotest.importThenExportSchema(self.ptr_schema, ptr_schema)
-            schema_new = pa.Schema._import_from_c(ptr_schema)
-            assert schema_new == self.make_schema()
-            del c_schema
-
-    def test_batch_roundtrip(self):
-        with self.assert_pyarrow_memory_released():
-            # make sure that Python -> Go -> Python for record
-            # batches works correctly and gets the same data in the end
-            schema = self.make_schema()
-            batch = self.make_batch()
-            schema._export_to_c(self.ptr_schema)
-            batch._export_to_c(self.ptr_array)
-            del schema
-            del batch
-
-            c_schema = ffi.new("struct ArrowSchema*")
-            c_batch = ffi.new("struct ArrowArray*")
-            ptr_schema = int(ffi.cast("uintptr_t", c_schema))
-            ptr_batch = int(ffi.cast("uintptr_t", c_batch))
-
-            cgotest.importThenExportRecord(self.ptr_schema, self.ptr_array, 
-                                           ptr_schema, ptr_batch)
-            batch_new = pa.RecordBatch._import_from_c(ptr_batch, ptr_schema)
-            assert batch_new == self.make_batch()
-            del batch_new
-            del c_schema
-            del c_batch
-
-    # commented out types can be uncommented after
-    # GH-14875 is addressed
-    _test_pyarrow_types = [
-        pa.null(),
-        pa.bool_(),
-        pa.int32(),
-        pa.time32("s"),
-        pa.time64("us"),
-        pa.date32(),
-        pa.timestamp("us"),
-        pa.timestamp("us", tz="UTC"),
-        pa.timestamp("us", tz="Europe/Paris"),
-        pa.duration("s"),
-        pa.duration("ms"),
-        pa.duration("us"),
-        pa.duration("ns"),
-        pa.float16(),
-        pa.float32(),
-        pa.float64(),
-        pa.decimal128(19, 4),        
-        pa.string(),
-        pa.binary(),
-        pa.binary(10),
-        pa.large_string(),
-        pa.large_binary(),
-        pa.list_(pa.int32()),
-        pa.list_(pa.int32(), 2),
-        pa.large_list(pa.uint16()),
-        pa.struct([
-            pa.field("a", pa.int32()),
-            pa.field("b", pa.int8()),
-            pa.field("c", pa.string()),
-        ]),
-        pa.struct([
-            pa.field("a", pa.int32(), nullable=False),
-            pa.field("b", pa.int8(), nullable=False),
-            pa.field("c", pa.string()),
-        ]),
-        pa.dictionary(pa.int8(), pa.int64()),
-        pa.dictionary(pa.int8(), pa.string()),
-        pa.map_(pa.string(), pa.int32()),
-        pa.map_(pa.int64(), pa.int32()),
-        # pa.run_end_encoded(pa.int16(), pa.int64()),
-    ]
-
-    def test_empty_roundtrip(self):
-        for typ in self._test_pyarrow_types:
-            with self.subTest(typ=typ):
-                with self.assert_pyarrow_memory_released():
-                    a = pa.array([], typ)
-                    a._export_to_c(self.ptr_array)
-                    typ._export_to_c(self.ptr_schema)
-                    
-                    c_arr = ffi.new("struct ArrowArray*")
-                    ptr_arr = int(ffi.cast("uintptr_t", c_arr))
-
-                    cgotest.roundtripArray(self.ptr_array, self.ptr_schema, ptr_arr)
-                    b = pa.Array._import_from_c(ptr_arr, typ)
-                    b.validate(full=True)
-                    assert a.to_pylist() == b.to_pylist()
-                    assert a.type == b.type
-                    del a
-                    del b
-
-if __name__ == '__main__':
-    unittest.main(verbosity=2)
diff --git a/go/arrow/cdata/trampoline.c b/go/arrow/cdata/trampoline.c
deleted file mode 100644
index 01db13fab4845..0000000000000
--- a/go/arrow/cdata/trampoline.c
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <string.h>
-
-#include "arrow/c/abi.h"
-
-int streamGetSchema(struct ArrowArrayStream*, struct ArrowSchema*);
-int streamGetNext(struct ArrowArrayStream*, struct ArrowArray*);
-
-int streamGetSchemaTrampoline(struct ArrowArrayStream* stream, struct ArrowSchema* out) {
-  // XXX(https://github.com/apache/arrow-adbc/issues/729)
-  memset(out, 0, sizeof(*out));
-  return streamGetSchema(stream, out);
-}
-
-int streamGetNextTrampoline(struct ArrowArrayStream* stream, struct ArrowArray* out) {
-  // XXX(https://github.com/apache/arrow-adbc/issues/729)
-  memset(out, 0, sizeof(*out));
-  return streamGetNext(stream, out);
-}
diff --git a/go/arrow/cdata/utils.h b/go/arrow/cdata/utils.h
deleted file mode 100644
index dda46b72b728b..0000000000000
--- a/go/arrow/cdata/utils.h
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build cgo
-// +build test
-
-// metadata keys 1: {"key1", "key2"}
-// metadata values 1: {"", "bar"}
-static const char kEncodedMeta1LE[] = {
-    2, 0, 0, 0,
-    4, 0, 0, 0, 'k', 'e', 'y', '1', 0, 0, 0, 0,
-    4, 0, 0, 0, 'k', 'e', 'y', '2', 3, 0, 0, 0, 'b', 'a', 'r'};
-
-static const char kEncodedMeta1BE[] = {
-    0, 0, 0, 2,
-    0, 0, 0, 4, 'k', 'e', 'y', '1', 0, 0, 0, 0,
-    0, 0, 0, 4, 'k', 'e', 'y', '2', 0, 0, 0, 3, 'b', 'a', 'r'};
-
-static const char* kMetadataKeys2[] = {"key"};
-static const char* kMetadataValues2[] = {"abcde"};
-
-// metadata keys 2: {"key"}
-// metadata values 2: {"abcde"}
-static const char kEncodedMeta2LE[] = {
-    1, 0, 0, 0,
-    3, 0, 0, 0, 'k', 'e', 'y', 5, 0, 0, 0, 'a', 'b', 'c', 'd', 'e'};
-
-static const char kEncodedMeta2BE[] = {
-    0, 0, 0, 1,
-    0, 0, 0, 3, 'k', 'e', 'y', 0, 0, 0, 5, 'a', 'b', 'c', 'd', 'e'};
-
-
diff --git a/go/arrow/compare.go b/go/arrow/compare.go
deleted file mode 100644
index 58569b332c4f1..0000000000000
--- a/go/arrow/compare.go
+++ /dev/null
@@ -1,153 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-)
-
-type typeEqualsConfig struct {
-	metadata bool
-}
-
-// TypeEqualOption is a functional option type used for configuring type
-// equality checks.
-type TypeEqualOption func(*typeEqualsConfig)
-
-// CheckMetadata is an option for TypeEqual that allows checking for metadata
-// equality besides type equality. It only makes sense for types with metadata.
-func CheckMetadata() TypeEqualOption {
-	return func(cfg *typeEqualsConfig) {
-		cfg.metadata = true
-	}
-}
-
-// TypeEqual checks if two DataType are the same, optionally checking metadata
-// equality for STRUCT types.
-func TypeEqual(left, right DataType, opts ...TypeEqualOption) bool {
-	var cfg typeEqualsConfig
-	for _, opt := range opts {
-		opt(&cfg)
-	}
-
-	switch {
-	case left == nil || right == nil:
-		return left == nil && right == nil
-	case left.ID() != right.ID():
-		return false
-	}
-
-	switch l := left.(type) {
-	case ExtensionType:
-		return l.ExtensionEquals(right.(ExtensionType))
-	case *ListType:
-		if !TypeEqual(l.Elem(), right.(*ListType).Elem(), opts...) {
-			return false
-		}
-		if cfg.metadata && !l.elem.Metadata.Equal(right.(*ListType).elem.Metadata) {
-			return false
-		}
-		return l.elem.Nullable == right.(*ListType).elem.Nullable
-	case *FixedSizeListType:
-		if !TypeEqual(l.Elem(), right.(*FixedSizeListType).Elem(), opts...) {
-			return false
-		}
-		if cfg.metadata && !l.elem.Metadata.Equal(right.(*FixedSizeListType).elem.Metadata) {
-			return false
-		}
-		return l.n == right.(*FixedSizeListType).n && l.elem.Nullable == right.(*FixedSizeListType).elem.Nullable
-	case *MapType:
-		if !TypeEqual(l.KeyType(), right.(*MapType).KeyType(), opts...) {
-			return false
-		}
-		if !TypeEqual(l.ItemType(), right.(*MapType).ItemType(), opts...) {
-			return false
-		}
-		if l.KeyField().Nullable != right.(*MapType).KeyField().Nullable {
-			return false
-		}
-		if l.ItemField().Nullable != right.(*MapType).ItemField().Nullable {
-			return false
-		}
-		if cfg.metadata {
-			if !l.KeyField().Metadata.Equal(right.(*MapType).KeyField().Metadata) {
-				return false
-			}
-			if !l.ItemField().Metadata.Equal(right.(*MapType).ItemField().Metadata) {
-				return false
-			}
-		}
-		return true
-	case *StructType:
-		r := right.(*StructType)
-		switch {
-		case len(l.fields) != len(r.fields):
-			return false
-		case !reflect.DeepEqual(l.index, r.index):
-			return false
-		}
-		for i := range l.fields {
-			leftField, rightField := l.fields[i], r.fields[i]
-			switch {
-			case leftField.Name != rightField.Name:
-				return false
-			case leftField.Nullable != rightField.Nullable:
-				return false
-			case !TypeEqual(leftField.Type, rightField.Type, opts...):
-				return false
-			case cfg.metadata && !leftField.Metadata.Equal(rightField.Metadata):
-				return false
-			}
-		}
-		return true
-	case UnionType:
-		r := right.(UnionType)
-		if l.Mode() != r.Mode() {
-			return false
-		}
-
-		if !reflect.DeepEqual(l.ChildIDs(), r.ChildIDs()) {
-			return false
-		}
-
-		for i := range l.Fields() {
-			leftField, rightField := l.Fields()[i], r.Fields()[i]
-			switch {
-			case leftField.Name != rightField.Name:
-				return false
-			case leftField.Nullable != rightField.Nullable:
-				return false
-			case !TypeEqual(leftField.Type, rightField.Type, opts...):
-				return false
-			case cfg.metadata && !leftField.Metadata.Equal(rightField.Metadata):
-				return false
-			case l.TypeCodes()[i] != r.TypeCodes()[i]:
-				return false
-			}
-		}
-		return true
-	case *TimestampType:
-		r := right.(*TimestampType)
-		return l.Unit == r.Unit && l.TimeZone == r.TimeZone
-	case *RunEndEncodedType:
-		r := right.(*RunEndEncodedType)
-		return TypeEqual(l.Encoded(), r.Encoded(), opts...) &&
-			TypeEqual(l.runEnds, r.runEnds, opts...)
-	default:
-		return reflect.DeepEqual(left, right)
-	}
-}
diff --git a/go/arrow/compare_test.go b/go/arrow/compare_test.go
deleted file mode 100644
index ca87621eadcb9..0000000000000
--- a/go/arrow/compare_test.go
+++ /dev/null
@@ -1,397 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"testing"
-	"time"
-)
-
-func TestTypeEqual(t *testing.T) {
-	tests := []struct {
-		left, right   DataType
-		want          bool
-		checkMetadata bool
-	}{
-		{
-			nil, nil, true, false,
-		},
-		{
-			nil, PrimitiveTypes.Uint8, false, false,
-		},
-		{
-			PrimitiveTypes.Float32, nil, false, false,
-		},
-		{
-			PrimitiveTypes.Float64, PrimitiveTypes.Int32, false, false,
-		},
-		{
-			Null, Null, true, false,
-		},
-		{
-			Null, new(NullType), true, false,
-		},
-		{
-			&BinaryType{}, &StringType{}, false, false,
-		},
-		{
-			&LargeBinaryType{}, &LargeStringType{}, false, false,
-		},
-		{
-			BinaryTypes.LargeBinary, &LargeBinaryType{}, true, false,
-		},
-		{
-			BinaryTypes.LargeString, &LargeStringType{}, true, false,
-		},
-		{
-			&Time32Type{Unit: Second}, &Time32Type{Unit: Second}, true, false,
-		},
-		{
-			&Time32Type{Unit: Millisecond}, &Time32Type{Unit: Second}, false, false,
-		},
-		{
-			&Time64Type{Unit: Nanosecond}, &Time64Type{Unit: Nanosecond}, true, false,
-		},
-		{
-			&Time64Type{Unit: Nanosecond}, &Time64Type{Unit: Microsecond}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Second, TimeZone: "UTC"}, true, false,
-		},
-		{
-			&TimestampType{Unit: Microsecond, TimeZone: "UTC"}, &TimestampType{Unit: Millisecond, TimeZone: "UTC"}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Second, TimeZone: "CET"}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Nanosecond, TimeZone: "CET"}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint32}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, &ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, &ListType{elem: Field{Type: &Time32Type{Unit: Second}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint8}}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint8}}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64, Nullable: true}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, false, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 3, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, false, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, true, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: true}}, false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f0", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f0": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f2": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-				meta:  MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"}),
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-				meta:  MetadataFrom(map[string]string{"k2": "v2", "k1": "v1"}),
-			},
-			true, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-				meta:  MetadataFrom(map[string]string{"k1": "v1"}),
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-				meta:  MetadataFrom(map[string]string{"k1": "v2"}),
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true, Metadata: MetadataFrom(map[string]string{"k1": "v1"})},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true, Metadata: MetadataFrom(map[string]string{"k1": "v2"})},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			true, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			false, true,
-		},
-		{
-			MapOf(BinaryTypes.String, PrimitiveTypes.Int32),
-			MapOf(BinaryTypes.String, PrimitiveTypes.Int32),
-			true, false,
-		},
-		{
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			true, false,
-		},
-		{
-			MapOf(BinaryTypes.String, &TimestampType{
-				Unit:     0,
-				TimeZone: "UTC",
-				loc:      time.UTC,
-			}),
-			MapOf(BinaryTypes.String, &TimestampType{
-				Unit:     0,
-				TimeZone: "UTC",
-			}),
-			true, false,
-		},
-		{
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_us),
-			false, false,
-		},
-		{
-			MapOf(BinaryTypes.String, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			false, false,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			true, true,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v2"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v2"})),
-			true, false,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v2"})),
-			false, true,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v2"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			false, true,
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			var got bool
-			if test.checkMetadata {
-				got = TypeEqual(test.left, test.right, CheckMetadata())
-			} else {
-				got = TypeEqual(test.left, test.right)
-			}
-			if got != test.want {
-				t.Fatalf("TypeEqual(%v, %v, %v): got=%v, want=%v", test.left, test.right, test.checkMetadata, got, test.want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
deleted file mode 100644
index 51ca027d53375..0000000000000
--- a/go/arrow/compute/arithmetic.go
+++ /dev/null
@@ -1,1229 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-type (
-	RoundOptions           = kernels.RoundOptions
-	RoundMode              = kernels.RoundMode
-	RoundToMultipleOptions = kernels.RoundToMultipleOptions
-)
-
-const (
-	// Round to nearest integer less than or equal in magnitude (aka "floor")
-	RoundDown = kernels.RoundDown
-	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
-	RoundUp = kernels.RoundUp
-	// Get integral part without fractional digits (aka "trunc")
-	RoundTowardsZero = kernels.TowardsZero
-	// Round negative values with DOWN and positive values with UP
-	RoundTowardsInfinity = kernels.AwayFromZero
-	// Round ties with DOWN (aka "round half towards negative infinity")
-	RoundHalfDown = kernels.HalfDown
-	// Round ties with UP (aka "round half towards positive infinity")
-	RoundHalfUp = kernels.HalfUp
-	// Round ties with TowardsZero (aka "round half away from infinity")
-	RoundHalfTowardsZero = kernels.HalfTowardsZero
-	// Round ties with AwayFromZero (aka "round half towards infinity")
-	RoundHalfTowardsInfinity = kernels.HalfAwayFromZero
-	// Round ties to nearest even integer
-	RoundHalfToEven = kernels.HalfToEven
-	// Round ties to nearest odd integer
-	RoundHalfToOdd = kernels.HalfToOdd
-)
-
-var (
-	DefaultRoundOptions           = RoundOptions{NDigits: 0, Mode: RoundHalfToEven}
-	DefaultRoundToMultipleOptions = RoundToMultipleOptions{
-		Multiple: scalar.NewFloat64Scalar(1), Mode: RoundHalfToEven}
-)
-
-type arithmeticFunction struct {
-	ScalarFunction
-
-	promote decimalPromotion
-}
-
-func (fn *arithmeticFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
-	if !hasDecimal(vals...) {
-		return nil
-	}
-
-	if len(vals) != 2 {
-		return nil
-	}
-
-	if fn.promote == decPromoteNone {
-		return fmt.Errorf("%w: invalid decimal function: %s", arrow.ErrInvalid, fn.name)
-	}
-
-	return castBinaryDecimalArgs(fn.promote, vals...)
-}
-
-func (fn *arithmeticFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if err := fn.checkDecimals(vals...); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-
-	// only promote types for binary funcs
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-		if unit, istime := commonTemporalResolution(vals...); istime {
-			replaceTemporalTypes(unit, vals...)
-		} else {
-			if dt := commonNumeric(vals...); dt != nil {
-				replaceTypes(dt, vals...)
-			}
-		}
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// an arithmetic function which promotes integers and decimal
-// arguments to doubles.
-type arithmeticFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, v := range vals {
-		if arrow.IsInteger(v.ID()) || arrow.IsDecimal(v.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// function that promotes only decimal arguments to float64
-type arithmeticDecimalToFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticDecimalToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticDecimalToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, t := range vals {
-		if arrow.IsDecimal(t.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// function that promotes only integer arguments to float64
-type arithmeticIntegerToFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticIntegerToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticIntegerToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if err := fn.checkDecimals(vals...); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, t := range vals {
-		if arrow.IsInteger(t.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-var (
-	absoluteValueUncheckedDoc = FunctionDoc{
-		Summary: "Calculate the absolute value of the argument, element-wise",
-		Description: `Results will wrap around on integer overflow
-Use function "abs" if you want overflows to return an error`,
-		ArgNames: []string{"x"},
-	}
-	absoluteValueDoc = FunctionDoc{
-		Summary: "Calculate the absolute value of the argument element-wise",
-		Description: `This function returns an error on overflow. For a variant that
-won't fail on overflow, use function "abs_unchecked"`,
-		ArgNames: []string{"x"},
-	}
-	addUncheckedDoc = FunctionDoc{
-		Summary: "Add the arguments element-wise",
-		Description: `Results will wrap around on integer overflow
-Use the function "add" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	addDoc = FunctionDoc{
-		Summary: "Add the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use function "add_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	subUncheckedDoc = FunctionDoc{
-		Summary: "Subtract the arguments element-wise",
-		Description: `This Results will wrap around on integer overflow.
-Use the function "sub" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	subDoc = FunctionDoc{
-		Summary: "Subtract the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use the function "sub_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	mulUncheckedDoc = FunctionDoc{
-		Summary: "Multiply the arguments element-wise",
-		Description: `Results will wrap around on integer overflow.
-Use function "multiply" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	mulDoc = FunctionDoc{
-		Summary: "Multiply the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use the function
-"multiply_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	divUncheckedDoc = FunctionDoc{
-		Summary: "Divide the arguments element-wise",
-		Description: `Integer division by zero returns an error. However integer
-overflow wraps around, and floating-point division by zero returns Inf.
-Use the function "divide" if you want to get an error in all the 
-aforementioned cases.`,
-		ArgNames: []string{"dividend", "divisor"},
-	}
-	divDoc = FunctionDoc{
-		Summary: "Divide the arguments element-wise",
-		Description: `An error is returned when trying to divide by zero,
-or when integer overflow is encountered.`,
-		ArgNames: []string{"dividend", "divisor"},
-	}
-	negateUncheckedDoc = FunctionDoc{
-		Summary: "Negate the argument element-wise",
-		Description: `Results will wrap around on integer overflow
-Use function "negate" if you want overflow to return an error`,
-		ArgNames: []string{"x"},
-	}
-	negateDoc = FunctionDoc{
-		Summary: "Negate the argument element-wise",
-		Description: `This function returns an error on overflow. For a variant
-that doesn't fail on overflow, use the function "negate_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	powUncheckedDoc = FunctionDoc{
-		Summary: "Raise argument to a power element-wise",
-		Description: `Integers to negative integer powers return an error.
-However, integer overflow wraps around. If either base or exponent is null
-the result will be null.`,
-		ArgNames: []string{"base", "exponent"},
-	}
-	powDoc = FunctionDoc{
-		Summary: "Raise argument to a power element-wise",
-		Description: `An error is returned when an integer is raised to a negative
-power or an integer overflow occurs.`,
-		ArgNames: []string{"base", "exponent"},
-	}
-	sqrtUncheckedDoc = FunctionDoc{
-		Summary: "Takes the square root of arguments element-wise",
-		Description: `A negative argument returns an NaN. For a variant that returns
-an error, use function "sqrt"`,
-		ArgNames: []string{"x"},
-	}
-	sqrtDoc = FunctionDoc{
-		Summary: "Takes the square root of arguments element-wise",
-		Description: `A negative argument returns an error. For a variant that
-instead returns NaN, use function "sqrt_unchecked"`,
-		ArgNames: []string{"x"},
-	}
-	signDoc = FunctionDoc{
-		Summary: "Get the signedness of the arguments element-wise",
-		Description: `Output is -1 if <0, 1 if >0 and 0 for 0.
-NaN values return NaN. Integral values return signedness as Int8,
-and floating-point values return it with the same type as the input values.`,
-		ArgNames: []string{"x"},
-	}
-	bitWiseNotDoc = FunctionDoc{
-		Summary:     "Bit-wise negate the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x"},
-	}
-	bitWiseAndDoc = FunctionDoc{
-		Summary:     "Bit-wise AND the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	bitWiseOrDoc = FunctionDoc{
-		Summary:     "Bit-wise OR the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	bitWiseXorDoc = FunctionDoc{
-		Summary:     "Bit-wise XOR the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	shiftLeftUncheckedDoc = FunctionDoc{
-		Summary: "Left shift `x` by `y`",
-		Description: `The shift operates as if on the two's complement representation
-of the number. In other words, this is equivalent to multiplying "x" by 2
-to the power of "y", even if overflow occurs.
-"x" is returned if "y" (the amount to shift by) is (1) negative or (2)
-greater than or equal to the precision of "x".
-Use function "shift_left" if you want an invalid shift amount to
-return an error.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftLeftDoc = FunctionDoc{
-		Summary: "Left shift `x` by `y`",
-		Description: `The shift operates as if on the two's complement representation
-of the number. In other words, this is equivalent to multiplying "x" by 2 
-to the power of "y", even if overflow occurs.
-An error is raised if "y" (the amount to shift by) is (1) negative or (2)
-greater than or equal to the precision of "x".
-See "shift_left_unchecked" for a variant that doesn't fail for an invalid
-shift amount.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftRightUncheckedDoc = FunctionDoc{
-		Summary: "Right shift `x` by `y`",
-		Description: `This is equivalent to dividing "x" by 2 to the power "y".
-"x" is returned if "y" (the amount to shift by) is: (1) negative or
-(2) greater than or equal to the precision of "x".
-Use function "shift_right" if you want an invalid 
-shift amount to return an error.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftRightDoc = FunctionDoc{
-		Summary: "Right shift `x` by `y`",
-		Description: `This is equivalent to dividing "x" by 2 to the power "y".
-An error is raised if "y" (the amount to shift by) is (1) negative or
-(2) greater than or equal to the precision of "x".
-See "shift_right_unchecked" for a variant that doesn't fail for
-an invalid shift amount.`,
-		ArgNames: []string{"x", "y"},
-	}
-	sinUncheckedDoc = FunctionDoc{
-		Summary: "Compute the sine",
-		Description: `NaN is returned for invalid input values; to raise an error
-instead, see "sin"`,
-		ArgNames: []string{"x"},
-	}
-	sinDoc = FunctionDoc{
-		Summary: "Compute the sine",
-		Description: `Invalid input values raise an error;
-to return NaN instead, see "sin_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	cosUncheckedDoc = FunctionDoc{
-		Summary: "Compute the cosine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "cos".`,
-		ArgNames: []string{"x"},
-	}
-	cosDoc = FunctionDoc{
-		Summary: "Compute the cosine",
-		Description: `Infinite values raise an error;
-to return NaN instead, see "cos_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	tanUncheckedDoc = FunctionDoc{
-		Summary: "Compute the tangent",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead see "tan".`,
-		ArgNames: []string{"x"},
-	}
-	tanDoc = FunctionDoc{
-		Summary: "Compute the tangent",
-		Description: `Infinite values raise an error;
-to return NaN instead, see "tan_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	asinUncheckedDoc = FunctionDoc{
-		Summary: "Compute the inverse sine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "asin"`,
-		ArgNames: []string{"x"},
-	}
-	asinDoc = FunctionDoc{
-		Summary: "Compute the inverse sine",
-		Description: `Invalid input values raise an error;
-to return NaN instead see asin_unchecked.`,
-		ArgNames: []string{"x"},
-	}
-	acosUncheckedDoc = FunctionDoc{
-		Summary: "Compute the inverse cosine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "acos".`,
-		ArgNames: []string{"x"},
-	}
-	acosDoc = FunctionDoc{
-		Summary: "Compute the inverse cosine",
-		Description: `Invalid input values raise an error;
-to return NaN instead, see "acos_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	atanDoc = FunctionDoc{
-		Summary: "Compute the inverse tangent of x",
-		Description: `The return value is in the range [-pi/2, pi/2];
-for a full return range [-pi, pi], see "atan2"`,
-		ArgNames: []string{"x"},
-	}
-	atan2Doc = FunctionDoc{
-		Summary:     "Compute the inverse tangent of y/x",
-		Description: "The return value is in the range [-pi, pi].",
-		ArgNames:    []string{"y", "x"},
-	}
-	lnUncheckedDoc = FunctionDoc{
-		Summary: "Compute natural logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "ln" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	lnDoc = FunctionDoc{
-		Summary: "Compute natural logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "ln_unchecked" if you want non-positive values to return 
--Inf or NaN`,
-		ArgNames: []string{"x"},
-	}
-	log10UncheckedDoc = FunctionDoc{
-		Summary: "Compute base 10 logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "log10" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log10Doc = FunctionDoc{
-		Summary: "Compute base 10 logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "log10_unchecked" if you want non-positive values to return
--Inf or NaN.`,
-		ArgNames: []string{"x"},
-	}
-	log2UncheckedDoc = FunctionDoc{
-		Summary: "Compute base 2 logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "log2" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log2Doc = FunctionDoc{
-		Summary: "Compute base 2 logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "log2_unchecked" if you want non-positive values to 
-return -Inf or NaN`,
-		ArgNames: []string{"x"},
-	}
-	log1pUncheckedDoc = FunctionDoc{
-		Summary: "Compute natural log of (1+x)",
-		Description: `Values <= -1 return -Inf or NaN. Null values return null.
-This function may be more precise than log(1 + x) for x close to zero.
-Use function "log1p" if you want invalid values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log1pDoc = FunctionDoc{
-		Summary: "Compute natural log of (1+x)",
-		Description: `Values <= -1 return -Inf or NaN. Null values return null.
-This function may be more precise than (1 + x) for x close to zero.
-Use function "log1p_unchecked" if you want invalid values to return
--Inf or NaN.`,
-		ArgNames: []string{"x"},
-	}
-	logbUncheckedDoc = FunctionDoc{
-		Summary: "Compute base `b` logarithm",
-		Description: `Values <= 0 return -Inf or NaN. Null values return null.
-Use function "logb" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x", "b"},
-	}
-	logbDoc = FunctionDoc{
-		Summary: "Compute base `b` logarithm",
-		Description: `Values <= 0 returns an error. Null values return null.
-Use function "logb_unchecked" if you want non-positive values to return
--Inf or NaN.`,
-		ArgNames: []string{"x", "b"},
-	}
-	floorDoc = FunctionDoc{
-		Summary:     "Round down to the nearest integer",
-		Description: "Compute the largest integer value not greater than `x`",
-		ArgNames:    []string{"x"},
-	}
-	ceilDoc = FunctionDoc{
-		Summary:     "Round up to the nearest integer",
-		Description: "Compute the smallest integer value not less than `x`",
-		ArgNames:    []string{"x"},
-	}
-	truncDoc = FunctionDoc{
-		Summary:     "Compute the integral part",
-		Description: "Compute the nearest integer not greater than `x`",
-		ArgNames:    []string{"x"},
-	}
-	roundDoc = FunctionDoc{
-		Summary: "Round to a given precision",
-		Description: `Options are used to control the number of digits and rounding mode.
-Default behavior is to round to the nearest integer and
-use half-to-even rule to break ties.`,
-		ArgNames:    []string{"x"},
-		OptionsType: "RoundOptions",
-	}
-	roundToMultipleDoc = FunctionDoc{
-		Summary: "Round to a given multiple",
-		Description: `Options are used to control the rounding multiple and rounding mode.
-Default behavior is to round to the nearest integer and
-use half-to-even rule to break ties.`,
-		ArgNames:    []string{"x"},
-		OptionsType: "RoundToMultipleOptions",
-	}
-)
-
-func RegisterScalarArithmetic(reg FunctionRegistry) {
-	ops := []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"add_unchecked", kernels.OpAdd, decPromoteAdd, addUncheckedDoc},
-		{"add", kernels.OpAddChecked, decPromoteAdd, addDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
-		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-			err = fn.AddNewKernel([]exec.InputType{inDuration, inType}, kernels.OutputLastType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"sub_unchecked", kernels.OpSub, decPromoteAdd, subUncheckedDoc},
-		{"sub", kernels.OpSubChecked, decPromoteAdd, subDoc},
-		{"subtract_unchecked", kernels.OpSub, decPromoteAdd, subUncheckedDoc},
-		{"subtract", kernels.OpSubChecked, decPromoteAdd, subDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
-		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			// timestamp - timestamp => duration
-			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inType}, kernels.OutputResolveTemporal, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			// timestamp - duration => timestamp
-			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			ex = kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err = fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			// duration - duration = duration
-			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		// time32 - time32 = duration
-		for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
-			inType := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
-			internalEx := kernels.ArithmeticExecSameType(arrow.TIME32, o.op)
-			ex := func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-				if err := internalEx(ctx, batch, out); err != nil {
-					return err
-				}
-				// the allocated space is for duration (an int64) but we
-				// wrote the time32 - time32 as if the output was time32
-				// so a quick copy in reverse expands the int32s to int64.
-				rawData := arrow.GetData[int32](out.Buffers[1].Buf)
-				outData := arrow.GetData[int64](out.Buffers[1].Buf)
-
-				for i := out.Len - 1; i >= 0; i-- {
-					outData[i] = int64(rawData[i])
-				}
-				return nil
-			}
-
-			err := fn.AddNewKernel([]exec.InputType{inType, inType},
-				exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		// time64 - time64 = duration
-		for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
-			inType := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
-			ex := kernels.ArithmeticExecSameType(arrow.TIME64, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inType}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		inDate32 := exec.NewExactInput(arrow.FixedWidthTypes.Date32)
-		ex := kernels.SubtractDate32(o.op)
-		err := fn.AddNewKernel([]exec.InputType{inDate32, inDate32}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_s), ex, nil)
-		if err != nil {
-			panic(err)
-		}
-
-		inDate64 := exec.NewExactInput(arrow.FixedWidthTypes.Date64)
-		ex = kernels.ArithmeticExecSameType(arrow.DATE64, o.op)
-		err = fn.AddNewKernel([]exec.InputType{inDate64, inDate64}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_ms), ex, nil)
-		if err != nil {
-			panic(err)
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	oplist := []struct {
-		funcName    string
-		op          kernels.ArithmeticOp
-		decPromote  decimalPromotion
-		doc         FunctionDoc
-		commutative bool
-	}{
-		{"multiply_unchecked", kernels.OpMul, decPromoteMultiply, mulUncheckedDoc, true},
-		{"multiply", kernels.OpMulChecked, decPromoteMultiply, mulDoc, true},
-		{"divide_unchecked", kernels.OpDiv, decPromoteDivide, divUncheckedDoc, false},
-		{"divide", kernels.OpDivChecked, decPromoteDivide, divDoc, false},
-	}
-
-	for _, o := range oplist {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		for _, k := range append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...) {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			durInput := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			i64Input := exec.NewExactInput(arrow.PrimitiveTypes.Int64)
-			durOutput := exec.NewOutputType(&arrow.DurationType{Unit: unit})
-			ex := kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err := fn.AddNewKernel([]exec.InputType{durInput, i64Input}, durOutput, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-			if o.commutative {
-				err = fn.AddNewKernel([]exec.InputType{i64Input, durInput}, durOutput, ex, nil)
-				if err != nil {
-					panic(err)
-				}
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"abs_unchecked", kernels.OpAbsoluteValue, decPromoteNone, absoluteValueUncheckedDoc},
-		{"abs", kernels.OpAbsoluteValueChecked, decPromoteNone, absoluteValueDoc},
-		{"negate_unchecked", kernels.OpNegate, decPromoteNone, negateUncheckedDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}
-		kns := append(kernels.GetArithmeticUnaryKernels(o.op), kernels.GetDecimalUnaryKernels(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	fn := &arithmeticFunction{*NewScalarFunction("negate", Unary(), negateDoc), decPromoteNone}
-	kns := append(kernels.GetArithmeticUnarySignedKernels(kernels.OpNegateChecked), kernels.GetDecimalUnaryKernels(kernels.OpNegateChecked)...)
-	for _, k := range kns {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"sqrt_unchecked", kernels.OpSqrt, decPromoteNone, sqrtUncheckedDoc},
-		{"sqrt", kernels.OpSqrtChecked, decPromoteNone, sqrtDoc},
-		{"sin_unchecked", kernels.OpSin, decPromoteNone, sinUncheckedDoc},
-		{"sin", kernels.OpSinChecked, decPromoteNone, sinDoc},
-		{"cos_unchecked", kernels.OpCos, decPromoteNone, cosUncheckedDoc},
-		{"cos", kernels.OpCosChecked, decPromoteNone, cosDoc},
-		{"tan_unchecked", kernels.OpTan, decPromoteNone, tanUncheckedDoc},
-		{"tan", kernels.OpTanChecked, decPromoteNone, tanDoc},
-		{"asin_unchecked", kernels.OpAsin, decPromoteNone, asinUncheckedDoc},
-		{"asin", kernels.OpAsinChecked, decPromoteNone, asinDoc},
-		{"acos_unchecked", kernels.OpAcos, decPromoteNone, acosUncheckedDoc},
-		{"acos", kernels.OpAcosChecked, decPromoteNone, acosDoc},
-		{"atan", kernels.OpAtan, decPromoteNone, atanDoc},
-		{"ln_unchecked", kernels.OpLn, decPromoteNone, lnUncheckedDoc},
-		{"ln", kernels.OpLnChecked, decPromoteNone, lnDoc},
-		{"log10_unchecked", kernels.OpLog10, decPromoteNone, log10UncheckedDoc},
-		{"log10", kernels.OpLog10Checked, decPromoteNone, log10Doc},
-		{"log2_unchecked", kernels.OpLog2, decPromoteNone, log2UncheckedDoc},
-		{"log2", kernels.OpLog2Checked, decPromoteNone, log2Doc},
-		{"log1p_unchecked", kernels.OpLog1p, decPromoteNone, log1pUncheckedDoc},
-		{"log1p", kernels.OpLog1pChecked, decPromoteNone, log1pDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}}
-		kns := kernels.GetArithmeticUnaryFloatingPointKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"atan2", kernels.OpAtan2, decPromoteNone, atan2Doc},
-		{"logb_unchecked", kernels.OpLogb, decPromoteNone, logbUncheckedDoc},
-		{"logb", kernels.OpLogbChecked, decPromoteNone, logbDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), addDoc), decPromoteNone}}
-		kns := kernels.GetArithmeticFloatingPointKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	fn = &arithmeticFunction{*NewScalarFunction("sign", Unary(), signDoc), decPromoteNone}
-	kns = kernels.GetArithmeticUnaryFixedIntOutKernels(arrow.PrimitiveTypes.Int8, kernels.OpSign)
-	for _, k := range kns {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"power_unchecked", kernels.OpPower, decPromoteNone, powUncheckedDoc},
-		{"power", kernels.OpPowerChecked, decPromoteNone, powDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticDecimalToFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}}
-		kns := kernels.GetArithmeticBinaryKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	bitWiseOps := []struct {
-		funcName string
-		op       kernels.BitwiseOp
-		doc      FunctionDoc
-	}{
-		{"bit_wise_and", kernels.OpBitAnd, bitWiseAndDoc},
-		{"bit_wise_or", kernels.OpBitOr, bitWiseOrDoc},
-		{"bit_wise_xor", kernels.OpBitXor, bitWiseXorDoc},
-	}
-
-	for _, o := range bitWiseOps {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
-		kns := kernels.GetBitwiseBinaryKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	fn = &arithmeticFunction{*NewScalarFunction("bit_wise_not", Unary(), bitWiseNotDoc), decPromoteNone}
-	for _, k := range kernels.GetBitwiseUnaryKernels() {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	shiftOps := []struct {
-		funcName string
-		dir      kernels.ShiftDir
-		checked  bool
-		doc      FunctionDoc
-	}{
-		{"shift_left", kernels.ShiftLeft, true, shiftLeftDoc},
-		{"shift_left_unchecked", kernels.ShiftLeft, false, shiftLeftUncheckedDoc},
-		{"shift_right", kernels.ShiftRight, true, shiftRightDoc},
-		{"shift_right_unchecked", kernels.ShiftRight, false, shiftRightUncheckedDoc},
-	}
-
-	for _, o := range shiftOps {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
-		kns := kernels.GetShiftKernels(o.dir, o.checked)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	floorFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("floor", Unary(), floorDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.RoundDown)
-	for _, k := range kns {
-		if err := floorFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundDown), nil)
-	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundDown), nil)
-	reg.AddFunction(floorFn, false)
-
-	ceilFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("ceil", Unary(), ceilDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.RoundUp)
-	for _, k := range kns {
-		if err := ceilFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundUp), nil)
-	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundUp), nil)
-	reg.AddFunction(ceilFn, false)
-
-	truncFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("trunc", Unary(), truncDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.TowardsZero)
-	for _, k := range kns {
-		if err := truncFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.TowardsZero), nil)
-	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.TowardsZero), nil)
-	reg.AddFunction(truncFn, false)
-
-	roundFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round", Unary(), roundDoc), decPromoteNone}}
-	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundState, kernels.UnaryRoundExec)
-	for _, k := range kns {
-		if err := roundFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	roundFn.defaultOpts = DefaultRoundOptions
-	reg.AddFunction(roundFn, false)
-
-	roundToMultipleFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round_to_multiple", Unary(), roundToMultipleDoc), decPromoteNone}}
-	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundToMultipleState, kernels.UnaryRoundToMultipleExec)
-	for _, k := range kns {
-		if err := roundToMultipleFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	roundToMultipleFn.defaultOpts = DefaultRoundToMultipleOptions
-	reg.AddFunction(roundToMultipleFn, false)
-}
-
-func impl(ctx context.Context, fn string, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, left, right)
-}
-
-// Add performs an addition between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is added to each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "add", opts, left, right)
-}
-
-// Sub performs a subtraction between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is subtracted from each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "sub", opts, left, right)
-}
-
-// Multiply performs a multiplication between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is multiplied against each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Multiply(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "multiply", opts, left, right)
-}
-
-// Divide performs a division between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is used with each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-//
-// Will error on divide by zero regardless of whether or not checking for
-// overflows.
-func Divide(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "divide", opts, left, right)
-}
-
-// AbsoluteValue returns the AbsoluteValue for each element in the input
-// argument. It accepts either a scalar or an array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if CheckOverflow is true.
-func AbsoluteValue(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
-	fn := "abs"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, input)
-}
-
-// Negate returns a result containing the negation of each element in the
-// input argument. It accepts either a scalar or an array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// or to throw an error on unsigned types.
-func Negate(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
-	fn := "negate"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, input)
-}
-
-// Sign returns -1, 0, or 1 depending on the sign of each element in the
-// input. For x in the input:
-//
-//		if x > 0: 1
-//		if x < 0: -1
-//	    if x == 0: 0
-func Sign(ctx context.Context, input Datum) (Datum, error) {
-	return CallFunction(ctx, "sign", nil, input)
-}
-
-// Power returns base**exp for each element in the input arrays. Should work
-// for both Arrays and Scalars
-func Power(ctx context.Context, opts ArithmeticOptions, base, exp Datum) (Datum, error) {
-	fn := "power"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, base, exp)
-}
-
-// ShiftLeft only accepts integral types and shifts each element of the
-// first argument to the left by the value of the corresponding element
-// in the second argument.
-//
-// The value to shift by should be >= 0 and < precision of the type.
-func ShiftLeft(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
-	fn := "shift_left"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, lhs, rhs)
-}
-
-// ShiftRight only accepts integral types and shifts each element of the
-// first argument to the right by the value of the corresponding element
-// in the second argument.
-//
-// The value to shift by should be >= 0 and < precision of the type.
-func ShiftRight(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
-	fn := "shift_right"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, lhs, rhs)
-}
-
-func Sin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "sin"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Cos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "cos"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Tan(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "tan"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Asin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "asin"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Acos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "acos"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Atan(ctx context.Context, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "atan", nil, arg)
-}
-
-func Atan2(ctx context.Context, x, y Datum) (Datum, error) {
-	return CallFunction(ctx, "atan2", nil, x, y)
-}
-
-func Ln(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "ln"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log10(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log10"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log2(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log2"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log1p(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log1p"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Logb(ctx context.Context, opts ArithmeticOptions, x, base Datum) (Datum, error) {
-	fn := "logb"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, x, base)
-}
-
-func Round(ctx context.Context, opts RoundOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "round", &opts, arg)
-}
-
-func RoundToMultiple(ctx context.Context, opts RoundToMultipleOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "round_to_multiple", &opts, arg)
-}
diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
deleted file mode 100644
index 6e693481a322c..0000000000000
--- a/go/arrow/compute/arithmetic_test.go
+++ /dev/null
@@ -1,3504 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/klauspost/cpuid/v2"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-)
-
-var (
-	CpuCacheSizes = [...]int{ // defaults
-		32 * 1024,   // level 1: 32K
-		256 * 1024,  // level 2: 256K
-		3072 * 1024, // level 3: 3M
-	}
-)
-
-func init() {
-	if cpuid.CPU.Cache.L1D != -1 {
-		CpuCacheSizes[0] = cpuid.CPU.Cache.L1D
-	}
-	if cpuid.CPU.Cache.L2 != -1 {
-		CpuCacheSizes[1] = cpuid.CPU.Cache.L2
-	}
-	if cpuid.CPU.Cache.L3 != -1 {
-		CpuCacheSizes[2] = cpuid.CPU.Cache.L3
-	}
-}
-
-func assertNullToNull(t *testing.T, ctx context.Context, fn string, mem memory.Allocator) {
-	f, ok := compute.GetFunctionRegistry().GetFunction(fn)
-	require.True(t, ok)
-	nulls := array.MakeArrayOfNull(mem, arrow.Null, 7)
-	defer nulls.Release()
-	n := f.Arity().NArgs
-
-	t.Run("null to null array", func(t *testing.T) {
-		args := make([]compute.Datum, n)
-		for i := 0; i < n; i++ {
-			args[i] = &compute.ArrayDatum{nulls.Data()}
-		}
-
-		result, err := compute.CallFunction(ctx, fn, nil, args...)
-		assert.NoError(t, err)
-		defer result.Release()
-		out := result.(*compute.ArrayDatum).MakeArray()
-		defer out.Release()
-		assertArraysEqual(t, nulls, out)
-	})
-
-	t.Run("null to null scalar", func(t *testing.T) {
-		args := make([]compute.Datum, n)
-		for i := 0; i < n; i++ {
-			args[i] = compute.NewDatum(scalar.ScalarNull)
-		}
-
-		result, err := compute.CallFunction(ctx, fn, nil, args...)
-		assert.NoError(t, err)
-		assertScalarEquals(t, scalar.ScalarNull, result.(*compute.ScalarDatum).Value)
-	})
-}
-
-type fnOpts interface {
-	compute.ArithmeticOptions | compute.RoundOptions | compute.RoundToMultipleOptions
-}
-
-type unaryArithmeticFunc[O fnOpts] func(context.Context, O, compute.Datum) (compute.Datum, error)
-
-// type unaryFunc = func(compute.Datum) (compute.Datum, error)
-
-type binaryArithmeticFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
-
-type binaryFunc = func(left, right compute.Datum) (compute.Datum, error)
-
-func assertScalarEquals(t *testing.T, expected, actual scalar.Scalar, opt ...scalar.EqualOption) {
-	assert.Truef(t, scalar.ApproxEquals(expected, actual, opt...), "expected: %s\ngot: %s", expected, actual)
-}
-
-func assertBinop(t *testing.T, fn binaryFunc, left, right, expected arrow.Array, opt []array.EqualOption, scalarOpt []scalar.EqualOption) {
-	actual, err := fn(&compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	require.NoError(t, err)
-	defer actual.Release()
-	assertDatumsEqual(t, &compute.ArrayDatum{Value: expected.Data()}, actual, opt, scalarOpt)
-
-	// also check (Scalar, Scalar) operations
-	for i := 0; i < expected.Len(); i++ {
-		s, err := scalar.GetScalar(expected, i)
-		require.NoError(t, err)
-		lhs, _ := scalar.GetScalar(left, i)
-		rhs, _ := scalar.GetScalar(right, i)
-
-		actual, err := fn(&compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
-		assert.NoError(t, err)
-		assertScalarEquals(t, s, actual.(*compute.ScalarDatum).Value, scalarOpt...)
-	}
-}
-
-func assertBinopErr(t *testing.T, fn binaryFunc, left, right arrow.Array, expectedMsg string) {
-	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, expectedMsg)
-}
-
-type BinaryFuncTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-}
-
-func (b *BinaryFuncTestSuite) SetupTest() {
-	b.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	b.ctx = compute.WithAllocator(context.TODO(), b.mem)
-}
-
-func (b *BinaryFuncTestSuite) TearDownTest() {
-	b.mem.AssertSize(b.T(), 0)
-}
-
-func (b *BinaryFuncTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(b.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	b.Require().NoError(err)
-	return arr
-}
-
-type Float16BinaryFuncTestSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (b *Float16BinaryFuncTestSuite) assertBinopErr(fn binaryFunc, lhs, rhs string) {
-	left, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()})
-	b.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-func (b *Float16BinaryFuncTestSuite) TestAdd() {
-	for _, overflow := range []bool{false, true} {
-		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
-			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
-				return compute.Add(b.ctx, opts, left, right)
-			}, `[1.5]`, `[1.5]`)
-		})
-	}
-}
-
-func (b *Float16BinaryFuncTestSuite) TestSub() {
-	for _, overflow := range []bool{false, true} {
-		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
-			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
-				return compute.Subtract(b.ctx, opts, left, right)
-			}, `[1.5]`, `[1.5]`)
-		})
-	}
-}
-
-type BinaryArithmeticSuite[T arrow.NumericType] struct {
-	BinaryFuncTestSuite
-
-	opts            compute.ArithmeticOptions
-	min, max        T
-	equalOpts       []array.EqualOption
-	scalarEqualOpts []scalar.EqualOption
-}
-
-func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-func (b *BinaryArithmeticSuite[T]) setNansEqual(val bool) {
-	b.equalOpts = []array.EqualOption{array.WithNaNsEqual(val)}
-	b.scalarEqualOpts = []scalar.EqualOption{scalar.WithNaNsEqual(val)}
-}
-
-func (b *BinaryArithmeticSuite[T]) SetupTest() {
-	b.BinaryFuncTestSuite.SetupTest()
-	b.opts.NoCheckOverflow = false
-}
-
-func (b *BinaryArithmeticSuite[T]) makeNullScalar() scalar.Scalar {
-	return scalar.MakeNullScalar(b.DataType())
-}
-
-func (b *BinaryArithmeticSuite[T]) makeScalar(val T) scalar.Scalar {
-	return scalar.MakeScalar(val)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryArithmeticFunc, lhs, rhs T, expected T) {
-	left, right := b.makeScalar(lhs), b.makeScalar(rhs)
-	exp := b.makeScalar(expected)
-
-	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: left}, &compute.ScalarDatum{Value: right})
-	b.NoError(err)
-	sc := actual.(*compute.ScalarDatum).Value
-
-	assertScalarEquals(b.T(), exp, sc)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalarValArr(fn binaryArithmeticFunc, lhs T, rhs, expected string) {
-	left := b.makeScalar(lhs)
-	b.assertBinopScalarArr(fn, left, rhs, expected)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryArithmeticFunc, lhs scalar.Scalar, rhs, expected string) {
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
-	defer right.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
-	defer exp.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ArrayDatum{Value: right.Data()})
-	b.NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarExpArr(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, exp arrow.Array) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
-	defer left.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{left.Data()}, compute.NewDatum(rhs))
-	b.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarVal(fn binaryArithmeticFunc, lhs string, rhs T, expected string) {
-	right := b.makeScalar(rhs)
-	b.assertBinopArrScalar(fn, lhs, right, expected)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, expected string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
-	defer left.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
-	defer exp.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ScalarDatum{Value: rhs})
-	b.NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrs(fn binaryArithmeticFunc, lhs, rhs, exp arrow.Array) {
-	assertBinop(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
-		return fn(b.ctx, b.opts, left, right)
-	}, lhs, rhs, exp, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopExpArr(fn binaryArithmeticFunc, lhs, rhs string, exp arrow.Array) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	b.assertBinopArrs(fn, left, right, exp)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryArithmeticFunc, lhs, rhs, expected string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected), array.WithUseNumber())
-	defer exp.Release()
-
-	b.assertBinopArrs(fn, left, right, exp)
-}
-
-func (b *BinaryArithmeticSuite[T]) setOverflowCheck(value bool) {
-	b.opts.NoCheckOverflow = !value
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryArithmeticFunc, lhs, rhs, expectedMsg string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	assertBinopErr(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
-		return fn(b.ctx, b.opts, left, right)
-	}, left, right, expectedMsg)
-}
-
-func (b *BinaryArithmeticSuite[T]) TestAdd() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Add, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
-				// nulls on one side
-				b.assertBinop(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
-				b.assertBinop(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
-				// all nulls
-				b.assertBinop(compute.Add, `[null]`, `[null]`, `[null]`)
-
-				// scalar on the left
-				b.assertBinopScalarValArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
-				b.assertBinopScalarValArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
-				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on the right
-				b.assertBinopArrScalarVal(compute.Add, `[1, 2]`, 3, `[4, 5]`)
-				b.assertBinopArrScalarVal(compute.Add, `[null, 2]`, 3, `[null, 5]`)
-				b.assertBinopArrScalar(compute.Add, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Add, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-
-				if !arrow.IsFloating(b.DataType().ID()) && overflow {
-					val := fmt.Sprintf("[%v]", b.max)
-					b.assertBinopErr(compute.Add, val, val, "overflow")
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestSub() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Subtract, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
-				// nulls on one side
-				b.assertBinop(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
-				b.assertBinop(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
-				// all nulls
-				b.assertBinop(compute.Subtract, `[null]`, `[null]`, `[null]`)
-
-				// scalar on the left
-				b.assertBinopScalarValArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
-				b.assertBinopScalarValArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
-				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on the right
-				b.assertBinopArrScalarVal(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
-				b.assertBinopArrScalarVal(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
-				b.assertBinopArrScalar(compute.Subtract, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Subtract, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-
-				if !arrow.IsFloating(b.DataType().ID()) && overflow {
-					b.assertBinopErr(compute.Subtract, fmt.Sprintf("[%v]", b.min), fmt.Sprintf("[%v]", b.max), "overflow")
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestMultiply() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Multiply, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Multiply, `[3, 2, 6]`, `[1, 0, 2]`, `[3, 0, 12]`)
-				// nulls on one side
-				b.assertBinop(compute.Multiply, `[null, 2, null]`, `[4, 5, 6]`, `[null, 10, null]`)
-				b.assertBinop(compute.Multiply, `[4, 5, 6]`, `[null, 2, null]`, `[null, 10, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Multiply, `[null, 2, 3]`, `[4, 5, null]`, `[null, 10, null]`)
-				// all nulls
-				b.assertBinop(compute.Multiply, `[null]`, `[null]`, `[null]`)
-
-				// scalar on left
-				b.assertBinopScalarValArr(compute.Multiply, 3, `[4, 5]`, `[12, 15]`)
-				b.assertBinopScalarValArr(compute.Multiply, 3, `[null, 5]`, `[null, 15]`)
-				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on right
-				b.assertBinopArrScalarVal(compute.Multiply, `[4, 5]`, 3, `[12, 15]`)
-				b.assertBinopArrScalarVal(compute.Multiply, `[null, 5]`, 3, `[null, 15]`)
-				b.assertBinopArrScalar(compute.Multiply, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Multiply, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestDiv() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				// empty arrays
-				b.assertBinop(compute.Divide, `[]`, `[]`, `[]`)
-				// ordinary arrays
-				b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 2]`, `[3, 2, 3]`)
-				// with nulls
-				b.assertBinop(compute.Divide, `[null, 10, 30, null, 20]`, `[1, 5, 2, 5, 10]`, `[null, 2, 15, null, 2]`)
-				if !arrow.IsFloating(b.DataType().ID()) {
-					// scalar divided by array
-					b.assertBinopScalarValArr(compute.Divide, 33, `[null, 1, 3, null, 2]`, `[null, 33, 11, null, 16]`)
-					// array divided by scalar
-					b.assertBinopArrScalarVal(compute.Divide, `[null, 10, 30, null, 2]`, 3, `[null, 3, 10, null, 0]`)
-					// scalar divided by scalar
-					b.assertBinopScalars(compute.Divide, 16, 7, 2)
-				} else {
-					b.assertBinop(compute.Divide, `[3.4, 0.64, 1.28]`, `[1, 2, 4]`, `[3.4, 0.32, 0.32]`)
-					b.assertBinop(compute.Divide, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 0.25, 1.65, null, 20]`)
-					b.assertBinopScalarValArr(compute.Divide, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 4, null, 5, 2]`)
-					b.assertBinopArrScalarVal(compute.Divide, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 0.1, 0.25, null, 0.2, 0.5]`)
-
-					b.assertBinop(compute.Divide, `[3.4, "Inf", "-Inf"]`, `[1, 2, 3]`, `[3.4, "Inf", "-Inf"]`)
-					b.setNansEqual(true)
-					b.assertBinop(compute.Divide, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 1.0]`)
-					b.assertBinopScalars(compute.Divide, 21, 3, 7)
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestDivideByZero() {
-	if !arrow.IsFloating(b.DataType().ID()) {
-		for _, checkOverflow := range []bool{false, true} {
-			b.setOverflowCheck(checkOverflow)
-			b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
-		}
-	} else {
-		b.setOverflowCheck(true)
-		b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
-		b.assertBinopErr(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, "divide by zero")
-		b.assertBinopErr(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, "divide by zero")
-
-		b.setOverflowCheck(false)
-		b.setNansEqual(true)
-		b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, `[3, 2, "Inf"]`)
-		b.assertBinop(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, `[3, 2, "NaN"]`)
-		b.assertBinop(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, `[3, 2, "-Inf"]`)
-	}
-}
-
-func (b *BinaryArithmeticSuite[T]) TestPower() {
-	b.setNansEqual(true)
-	b.Run(b.DataType().String(), func() {
-		for _, checkOverflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("checkOverflow=%t", checkOverflow), func() {
-				b.setOverflowCheck(checkOverflow)
-
-				b.assertBinop(compute.Power, `[]`, `[]`, `[]`)
-				if !arrow.IsFloating(b.DataType().ID()) {
-					b.assertBinop(compute.Power, `[3, 2, 6, 2]`, `[1, 1, 2, 0]`, `[3, 2, 36, 1]`)
-					b.assertBinop(compute.Power, `[null, 2, 3, null, 20]`, `[1, 6, 2, 5, 1]`, `[null, 64, 9, null, 20]`)
-					b.assertBinopScalarValArr(compute.Power, 3, `[null, 3, 4, null, 2]`, `[null, 27, 81, null, 9]`)
-					b.assertBinopArrScalarVal(compute.Power, `[null, 10, 3, null, 2]`, 2, `[null, 100, 9, null, 4]`)
-					b.assertBinopScalars(compute.Power, 4, 3, 64)
-					b.assertBinop(compute.Power, `[0, 1, 0]`, `[0, 0, 42]`, `[1, 1, 0]`)
-
-					if checkOverflow {
-						b.assertBinopErr(compute.Power, fmt.Sprintf("[%v]", b.max), `[10]`, "overflow")
-					} else {
-						b.assertBinopScalars(compute.Power, b.max, 10, 1)
-					}
-				} else {
-					b.assertBinop(compute.Power, `[3.4, 16, 0.64, 1.2, 0]`, `[1, 0.5, 2, 4, 0]`, `[3.4, 4, 0.4096, 2.0736, 1]`)
-					b.assertBinop(compute.Power, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 1, 10.89, null, 1.07177346]`)
-					b.assertBinopScalarValArr(compute.Power, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 316.227766017, null, 100, 100000]`)
-					b.assertBinopArrScalarVal(compute.Power, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 1, 9536.74316406, null, 1024, 9765625]`)
-					b.assertBinop(compute.Power, `[3.4, "Inf", "-Inf", 1.1, 10000]`, `[1, 2, 3, "Inf", 100000]`, `[3.4, "Inf", "-Inf", "Inf", "Inf"]`)
-					b.assertBinop(compute.Power, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 4.0]`)
-					b.assertBinop(compute.Power, `[0.0, 0.0]`, `[-1.0, -3.0]`, `["Inf", "Inf"]`)
-				}
-			})
-		}
-	})
-}
-
-type BinaryFloatingArithmeticSuite[T constraints.Float] struct {
-	BinaryArithmeticSuite[T]
-
-	smallest T
-}
-
-func (bs *BinaryFloatingArithmeticSuite[T]) TestTrigAtan2() {
-	bs.setNansEqual(true)
-	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
-		return compute.Atan2(ctx, x, y)
-	}
-
-	bs.assertBinop(atan2, `[]`, `[]`, `[]`)
-	bs.assertBinop(atan2, `[0, 0, null, "NaN"]`, `[null, "NaN", 0, 0]`, `[null, "NaN", null, "NaN"]`)
-	bs.assertBinop(atan2, `[0, 0, -0.0, 0, -0.0, 0, 1, 0, -1, "Inf", "-Inf", 0, 0]`,
-		`[0, 0, 0, -0.0, -0.0, 1, 0, -1, 0, 0, 0, "Inf", "-Inf"]`,
-		fmt.Sprintf("[0, 0, -0.0, %f, %f, 0, %f, %f, %f, %f, %f, 0, %f]",
-			math.Pi, -math.Pi, math.Pi/2, math.Pi, -math.Pi/2, math.Pi/2, -math.Pi/2, math.Pi))
-}
-
-func (bs *BinaryFloatingArithmeticSuite[T]) TestLog() {
-	bs.setNansEqual(true)
-	for _, overflow := range []bool{false, true} {
-		bs.setOverflowCheck(overflow)
-		bs.assertBinop(compute.Logb, `[1, 10, null, "NaN", "Inf"]`, `[100, 10, null, 2, 10]`,
-			`[0, 1, null, "NaN", "Inf"]`)
-		bs.assertBinopScalars(compute.Logb, bs.smallest, 10, T(math.Log(float64(bs.smallest))/math.Log(10)))
-		bs.assertBinopScalars(compute.Logb, bs.max, 10, T(math.Log(float64(bs.max))/math.Log(10)))
-	}
-
-	bs.setOverflowCheck(true)
-	bs.assertBinop(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, `[0, 1, null]`)
-	bs.assertBinop(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, `[0, 1, null]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `[10, 100, 1000, null]`, 10, `[1, 2, 3, null]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `[1, 2, 4, 8]`, 0.25, `[-0.0, -0.5, -1.0, -1.5]`)
-
-	bs.setOverflowCheck(false)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 10, `["NaN", "NaN", "-Inf", "Inf"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 2, `["NaN", "NaN", "-Inf", "Inf"]`)
-	bs.assertBinop(compute.Logb, `["-Inf", -1, 0, "Inf"]`, `[2, 10, 0, 0]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 0, `["NaN", "NaN", "NaN", "NaN"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -2, -1, "Inf"]`, 2, `["NaN", "NaN", "NaN", "Inf"]`)
-
-	bs.setOverflowCheck(true)
-	bs.assertBinopErr(compute.Logb, `[0]`, `[2]`, "logarithm of zero")
-	bs.assertBinopErr(compute.Logb, `[2]`, `[0]`, "logarithm of zero")
-	bs.assertBinopErr(compute.Logb, `[-1]`, `[2]`, "logarithm of negative number")
-	bs.assertBinopErr(compute.Logb, `["-Inf"]`, `[2]`, "logarithm of negative number")
-}
-
-type BinaryIntegralArithmeticSuite[T arrow.IntType | arrow.UintType] struct {
-	BinaryArithmeticSuite[T]
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeft() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.ShiftLeft, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, 4, 5]`, `[0, 8, 32, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, 4, 5]`, `[0, null, 32, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, null, 5]`, `[0, 8, null, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, null, 5]`, `[0, null, null, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[null]`, `[null]`, `[null]`)
-				b.assertBinopScalarValArr(compute.ShiftLeft, 2, `[null, 5]`, `[null, 64]`)
-				b.assertBinopScalarArr(compute.ShiftLeft, b.makeNullScalar(), `[null, 5]`, `[null, null]`)
-				b.assertBinopArrScalarVal(compute.ShiftLeft, `[null, 5]`, 3, `[null, 40]`)
-				b.assertBinopArrScalar(compute.ShiftLeft, `[null, 5]`, b.makeNullScalar(), `[null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRight() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.ShiftRight, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, 1, 4]`, `[0, 0, 2, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, 1, 4]`, `[0, null, 2, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, null, 4]`, `[0, 0, null, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, null, 4]`, `[0, null, null, 0]`)
-				b.assertBinop(compute.ShiftRight, `[null]`, `[null]`, `[null]`)
-				b.assertBinopScalarValArr(compute.ShiftRight, 64, `[null, 2, 6]`, `[null, 16, 1]`)
-				b.assertBinopScalarArr(compute.ShiftRight, b.makeNullScalar(), `[null, 2, 6]`, `[null, null, null]`)
-				b.assertBinopArrScalarVal(compute.ShiftRight, `[null, 3, 96]`, 3, `[null, 0, 12]`)
-				b.assertBinopArrScalar(compute.ShiftRight, `[null, 3, 96]`, b.makeNullScalar(), `[null, null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeftOverflowError() {
-	b.Run(b.DataType().String(), func() {
-		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
-		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
-			bitWidth--
-		}
-
-		b.setOverflowCheck(true)
-		b.assertBinop(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth-1),
-			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
-		b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-2),
-			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
-		if arrow.IsUnsignedInteger(b.DataType().ID()) {
-			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-		} else {
-			// shift a bit into the sign bit
-			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1),
-				fmt.Sprintf("[%d]", b.min))
-			// shift a bit past the sign bit
-			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinop(compute.ShiftLeft, fmt.Sprintf("[%d]", b.min), `[1]`, `[0]`)
-			b.assertBinopErr(compute.ShiftLeft, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
-			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-
-			b.setOverflowCheck(false)
-			b.assertBinop(compute.ShiftLeft, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRightOverflowError() {
-	b.Run(b.DataType().String(), func() {
-		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
-		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
-			bitWidth--
-		}
-
-		b.setOverflowCheck(true)
-
-		b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.max), fmt.Sprintf("[%d]", bitWidth-1), `[1]`)
-		if arrow.IsUnsignedInteger(b.DataType().ID()) {
-			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-		} else {
-			b.assertBinop(compute.ShiftRight, `[-1, -1]`, `[1, 5]`, `[-1, -1]`)
-			b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.min), `[1]`, fmt.Sprintf("[%d]", b.min/2))
-
-			b.assertBinopErr(compute.ShiftRight, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
-			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-
-			b.setOverflowCheck(false)
-			b.assertBinop(compute.ShiftRight, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestTrig() {
-	// integer arguments promoted to float64, sanity check here
-	ty := b.DataType()
-	b.setNansEqual(true)
-	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
-		return compute.Atan2(ctx, x, y)
-	}
-
-	lhs, rhs := b.getArr(ty, `[0, 1]`), b.getArr(ty, `[1, 0]`)
-	defer lhs.Release()
-	defer rhs.Release()
-	exp := b.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf(`[0, %f]`, math.Pi/2))
-	defer exp.Release()
-
-	b.assertBinopArrs(atan2, lhs, rhs, exp)
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestLog() {
-	// integer arguments promoted to double, sanity check here
-	exp1 := b.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
-	exp2 := b.getArr(arrow.PrimitiveTypes.Float64, `[1, 2, null]`)
-	defer exp1.Release()
-	defer exp2.Release()
-
-	b.assertBinopExpArr(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, exp1)
-	b.assertBinopExpArr(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, exp1)
-	b.assertBinopArrScalarExpArr(compute.Logb, `[10, 100, null]`, scalar.MakeScalar(T(10)), exp2)
-}
-
-func TestBinaryArithmetic(t *testing.T) {
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int8]{BinaryArithmeticSuite[int8]{min: math.MinInt8, max: math.MaxInt8}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint8]{BinaryArithmeticSuite[uint8]{min: 0, max: math.MaxUint8}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int16]{BinaryArithmeticSuite[int16]{min: math.MinInt16, max: math.MaxInt16}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint16]{BinaryArithmeticSuite[uint16]{min: 0, max: math.MaxUint16}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int32]{BinaryArithmeticSuite[int32]{min: math.MinInt32, max: math.MaxInt32}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint32]{BinaryArithmeticSuite[uint32]{min: 0, max: math.MaxUint32}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int64]{BinaryArithmeticSuite[int64]{min: math.MinInt64, max: math.MaxInt64}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint64]{BinaryArithmeticSuite[uint64]{min: 0, max: math.MaxUint64}})
-	suite.Run(t, &BinaryFloatingArithmeticSuite[float32]{BinaryArithmeticSuite[float32]{min: -math.MaxFloat32, max: math.MaxFloat32}, math.SmallestNonzeroFloat32})
-	suite.Run(t, &BinaryFloatingArithmeticSuite[float64]{BinaryArithmeticSuite[float64]{min: -math.MaxFloat64, max: math.MaxFloat64}, math.SmallestNonzeroFloat64})
-	suite.Run(t, new(Float16BinaryFuncTestSuite))
-	suite.Run(t, new(DecimalBinaryArithmeticSuite))
-	suite.Run(t, new(ScalarBinaryTemporalArithmeticSuite))
-}
-
-func TestBinaryArithmeticDispatchBest(t *testing.T) {
-	for _, name := range []string{"add", "sub", "multiply", "divide", "power"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			name += suffix
-			t.Run(name, func(t *testing.T) {
-
-				tests := []struct {
-					left, right arrow.DataType
-					expected    arrow.DataType
-				}{
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32},
-					{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
-					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-					{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32},
-					{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64},
-					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
-						arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
-						arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Float64},
-				}
-
-				for _, tt := range tests {
-					CheckDispatchBest(t, name, []arrow.DataType{tt.left, tt.right}, []arrow.DataType{tt.expected, tt.expected})
-				}
-			})
-		}
-	}
-}
-
-type DecimalArithmeticSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (*DecimalArithmeticSuite) positiveScales() []arrow.DataType {
-	return []arrow.DataType{
-		&arrow.Decimal128Type{Precision: 4, Scale: 2},
-		&arrow.Decimal256Type{Precision: 4, Scale: 2},
-		&arrow.Decimal128Type{Precision: 38, Scale: 2},
-		&arrow.Decimal256Type{Precision: 76, Scale: 2},
-	}
-}
-
-func (*DecimalArithmeticSuite) negativeScales() []arrow.DataType {
-	return []arrow.DataType{
-		&arrow.Decimal128Type{Precision: 2, Scale: -2},
-		&arrow.Decimal256Type{Precision: 2, Scale: -2},
-	}
-}
-
-func (ds *DecimalArithmeticSuite) checkDecimalToFloat(fn string, args []compute.Datum) {
-	// validate that fn(*decimals) is the same as
-	// fn([cast(x, float64) x for x in decimals])
-
-	newArgs := make([]compute.Datum, len(args))
-	for i, arg := range args {
-		if arrow.IsDecimal(arg.(compute.ArrayLikeDatum).Type().ID()) {
-			casted, err := compute.CastDatum(ds.ctx, arg, compute.NewCastOptions(arrow.PrimitiveTypes.Float64, true))
-			ds.Require().NoError(err)
-			defer casted.Release()
-			newArgs[i] = casted
-		} else {
-			newArgs[i] = arg
-		}
-	}
-
-	expected, err := compute.CallFunction(ds.ctx, fn, nil, newArgs...)
-	ds.Require().NoError(err)
-	defer expected.Release()
-	actual, err := compute.CallFunction(ds.ctx, fn, nil, args...)
-	ds.Require().NoError(err)
-	defer actual.Release()
-
-	assertDatumsEqual(ds.T(), expected, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-}
-
-func (ds *DecimalArithmeticSuite) checkFail(fn string, args []compute.Datum, substr string, opts compute.FunctionOptions) {
-	_, err := compute.CallFunction(ds.ctx, fn, opts, args...)
-	ds.ErrorIs(err, arrow.ErrInvalid)
-	ds.ErrorContains(err, substr)
-}
-
-func (ds *DecimalArithmeticSuite) decimalArrayFromJSON(ty arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(ds.mem, ty, strings.NewReader(str))
-	ds.Require().NoError(err)
-	return arr
-}
-
-type DecimalBinaryArithmeticSuite struct {
-	DecimalArithmeticSuite
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestDispatchBest() {
-	// decimal, floating point
-	ds.Run("dec/floatingpoint", func() {
-		for _, fn := range []string{"add", "sub", "multiply", "divide"} {
-			for _, suffix := range []string{"", "_unchecked"} {
-				fn += suffix
-				ds.Run(fn, func() {
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 1, Scale: 0},
-						arrow.PrimitiveTypes.Float32}, []arrow.DataType{
-						arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Float64},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Float32, &arrow.Decimal256Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-				})
-			}
-		}
-	})
-
-	// decimal, decimal => decimal
-	// decimal, integer => decimal
-	ds.Run("dec/dec_int", func() {
-		for _, fn := range []string{"add", "sub"} {
-			for _, suffix := range []string{"", "_unchecked"} {
-				fn += suffix
-				ds.Run(fn, func() {
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0},
-							&arrow.Decimal128Type{Precision: 1, Scale: 0}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 1, Scale: 0},
-							&arrow.Decimal128Type{Precision: 19, Scale: 0}})
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 1},
-							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-							&arrow.Decimal128Type{Precision: 3, Scale: 1}})
-				})
-			}
-		}
-	})
-
-	{
-		fn := "multiply"
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 19},
-						&arrow.Decimal128Type{Precision: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 1}, arrow.PrimitiveTypes.Int64},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 1},
-						&arrow.Decimal128Type{Precision: 19}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 0},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
-			})
-		}
-	}
-
-	{
-		fn := "divide"
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 23, Scale: 4},
-						&arrow.Decimal128Type{Precision: 1, Scale: 0}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 21, Scale: 20},
-						&arrow.Decimal128Type{Precision: 19, Scale: 0}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 6, Scale: 5},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 7, Scale: 5},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 4},
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
-			})
-		}
-	}
-
-	for _, name := range []string{"power", "power_unchecked", "atan2", "logb", "logb_unchecked"} {
-		ds.Run(name, func() {
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Int64},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				arrow.PrimitiveTypes.Int32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Float64},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				arrow.PrimitiveTypes.Float32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-		})
-	}
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec128() {
-	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 30, Scale: 3},
-		strings.NewReader(`["1.000", "-123456789012345678901234567.890", "98765432109876543210.987", "-999999999999999999999999999.999"]`))
-	defer left.Release()
-	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 9},
-		strings.NewReader(`["-1.000000000", "12345678901.234567890", "98765.432101234", "-99999999999.999999999"]`))
-	defer right.Release()
-	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
-		strings.NewReader(`["0.000000000", "-123456789012345666555555666.655432110", "98765432109876641976.419101234", "-1000000000000000099999999999.998999999"]`))
-	defer added.Release()
-	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
-		strings.NewReader(`["2.000000000", "-123456789012345691246913469.124567890", "98765432109876444445.554898766", "-999999999999999899999999999.999000001"]`))
-	defer subtracted.Release()
-
-	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
-	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
-	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec256() {
-	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 20},
-		strings.NewReader(`[
-			"-1.00000000000000000001",
-			"1234567890.12345678900000000000",
-			"-9876543210.09876543210987654321",
-			"9999999999.99999999999999999999"
-		  ]`))
-	defer left.Release()
-	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 10},
-		strings.NewReader(`[
-			"1.0000000000",
-			"-1234567890.1234567890",
-			"6789.5432101234",
-			"99999999999999999999.9999999999"
-		  ]`))
-	defer right.Release()
-	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
-		strings.NewReader(`[
-			"-0.00000000000000000001",
-			"0.00000000000000000000",
-			"-9876536420.55555530870987654321",
-			"100000000009999999999.99999999989999999999"
-		  ]`))
-	defer added.Release()
-	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
-		strings.NewReader(`[
-			"-2.00000000000000000001",
-			"2469135780.24691357800000000000",
-			"-9876549999.64197555550987654321",
-			"-99999999989999999999.99999999990000000001"
-		  ]`))
-	defer subtracted.Release()
-
-	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
-	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
-	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubScalars() {
-	ds.Run("scalar_array", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.New(0, 123456), &arrow.Decimal128Type{Precision: 6, Scale: 1})
-		right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 10, Scale: 3},
-			strings.NewReader(`["1.234", "1234.000", "-9876.543", "666.888"]`))
-		defer right.Release()
-		added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["12346.834", "13579.600", "2469.057", "13012.488"]`))
-		defer added.Release()
-		leftSubRight, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["12344.366", "11111.600", "22222.143", "11678.712"]`))
-		defer leftSubRight.Release()
-		rightSubLeft, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["-12344.366", "-11111.600", "-22222.143", "-11678.712"]`))
-		defer rightSubLeft.Release()
-
-		rightDatum := &compute.ArrayDatum{right.Data()}
-		addedDatum := &compute.ArrayDatum{added.Data()}
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), rightDatum, addedDatum, nil)
-		checkScalarBinary(ds.T(), "add", rightDatum, compute.NewDatum(left), addedDatum, nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), rightDatum, &compute.ArrayDatum{leftSubRight.Data()}, nil)
-		checkScalarBinary(ds.T(), "sub", rightDatum, compute.NewDatum(left), &compute.ArrayDatum{rightSubLeft.Data()}, nil)
-	})
-
-	ds.Run("scalar_scalar", func() {
-		left := scalar.NewDecimal256Scalar(decimal256.FromU64(666), &arrow.Decimal256Type{Precision: 3})
-		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
-		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
-		subtracted := scalar.NewDecimal256Scalar(decimal256.FromI64(-222), &arrow.Decimal256Type{Precision: 4})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
-	})
-
-	ds.Run("dec128_dec256", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
-		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
-	})
-
-	ds.Run("decimal_float", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.MakeScalar(float64(888))
-		added := scalar.MakeScalar(float64(1554))
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
-	})
-
-	ds.Run("decimal_integer", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.MakeScalar(int64(888))
-		added := scalar.NewDecimal128Scalar(decimal128.FromU64(1554), &arrow.Decimal128Type{Precision: 20})
-		subtracted := scalar.NewDecimal128Scalar(decimal128.FromI64(-222), &arrow.Decimal128Type{Precision: 20})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestMultiply() {
-	ds.Run("array x array, decimal128", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 10},
-			strings.NewReader(`["1234567890.1234567890", "-0.0000000001", "-9999999999.9999999999"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001", "-9999999999.999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 34, Scale: 13},
-			strings.NewReader(`["1524157875323319737.98709039504701", "-0.0000000000001", "99999999999989999999.0000000000001"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("array x array decimal256", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 3},
-			strings.NewReader(`["123456789012345678901234567.890", "0.000"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 9},
-			strings.NewReader(`["-12345678901.234567890", "99999999999.999999999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 51, Scale: 12},
-			strings.NewReader(`["-1524157875323883675034293577501905199.875019052100", "0.000000000000"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("scalar x array", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "3.14")
-		ds.Require().NoError(err)
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
-			strings.NewReader(`["1", "2", "3", "4", "5"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-			strings.NewReader(`["3.14", "6.28", "9.42", "12.56", "15.70"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
-		expDatum := &compute.ArrayDatum{expected.Data()}
-
-		checkScalarBinary(ds.T(), "multiply_unchecked", leftDatum, rightDatum, expDatum, nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", rightDatum, leftDatum, expDatum, nil)
-	})
-
-	ds.Run("scalar x scalar", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
-		ds.Require().NoError(err)
-		expected, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "1")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal128 x decimal256", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "6.66")
-		right, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 3, Scale: 1}, "88.8")
-		expected, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 7, Scale: 3}, "591.408")
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal x float", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
-		right := scalar.MakeScalar(float64(888))
-		expected := scalar.MakeScalar(float64(591408))
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal x integer", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
-		right := scalar.MakeScalar(int64(888))
-		expected, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23}, "591408")
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestDivide() {
-	ds.Run("array / array, decimal128", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 3, Scale: 0},
-			strings.NewReader(`["-987", "999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 17, Scale: 7},
-			strings.NewReader(`["-1250828.6627386", "0.0000010"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("array / array decimal256", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 10},
-			strings.NewReader(`["1234567890.1234567890", "9999999999.9999999999"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 34, Scale: 21},
-			strings.NewReader(`["1.000000000000369999093", "9999999999999.999999900000000000000"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("scalar / array", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1, Scale: 0}, "1")
-		ds.Require().NoError(err)
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
-			strings.NewReader(`["1", "2", "3", "4"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		leftDivRight, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
-			strings.NewReader(`["1.0000", "0.5000", "0.3333", "0.2500"]`))
-		ds.Require().NoError(err)
-		defer leftDivRight.Release()
-		rightDivLeft, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
-			strings.NewReader(`["1.0000", "2.0000", "3.0000", "4.0000"]`))
-		ds.Require().NoError(err)
-		defer rightDivLeft.Release()
-
-		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
-
-		checkScalarBinary(ds.T(), "divide_unchecked", leftDatum, rightDatum, &compute.ArrayDatum{leftDivRight.Data()}, nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", rightDatum, leftDatum, &compute.ArrayDatum{rightDivLeft.Data()}, nil)
-	})
-
-	ds.Run("scalar / scalar", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "3.14159")
-		ds.Require().NoError(err)
-		expected, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal128 / decimal256", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 6, Scale: 5}, "3.14159")
-		ds.Require().NoError(err)
-		leftDivRight, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
-		ds.Require().NoError(err)
-		rightDivLeft, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "1.1557271")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-
-	ds.Run("decimal / float", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
-		right := scalar.MakeScalar(float64(50))
-		leftDivRight := scalar.MakeScalar(float64(2))
-		rightDivLeft := scalar.MakeScalar(float64(0.5))
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-
-	ds.Run("decimal / integer", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
-		right := scalar.MakeScalar(int64(50))
-		leftDivRight, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 20}, "2.0000000000000000000")
-		rightDivLeft, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 4}, "0.5000")
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAtan2() {
-	// decimal arguments get promoted to float64, sanity check here
-	fn := "atan2"
-	for _, ty := range ds.positiveScales() {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-		larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
-		defer larr.Release()
-
-		ldatum := &compute.ArrayDatum{larr.Data()}
-
-		test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
-		defer test.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			&compute.ArrayDatum{test.Data()}})
-
-		test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
-		defer test.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			&compute.ArrayDatum{test.Data()}})
-
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			compute.NewDatum(scalar.MakeScalar(int64(10)))})
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			compute.NewDatum(scalar.MakeScalar(float64(10)))})
-
-		larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
-		defer larr.Release()
-
-		sc, _ := scalar.MakeScalarParam("10.00", ty)
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()},
-			compute.NewDatum(sc)})
-
-		larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
-		defer larr.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()},
-			compute.NewDatum(sc)})
-	}
-
-	for _, ty := range ds.negativeScales() {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-		larr := ds.getArr(ty, `["12E2", "42E2", null]`)
-		defer larr.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
-
-		rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
-		defer rarr.Release()
-
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
-	}
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestLogb() {
-	// decimal arguments get promoted to float64, sanity check here
-	for _, fn := range []string{"logb", "logb_unchecked"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				empty := ds.getArr(ty, `[]`)
-				defer empty.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-				larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
-				defer larr.Release()
-
-				ldatum := &compute.ArrayDatum{larr.Data()}
-
-				test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
-				defer test.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					&compute.ArrayDatum{test.Data()}})
-
-				test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
-				defer test.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					&compute.ArrayDatum{test.Data()}})
-
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					compute.NewDatum(scalar.MakeScalar(int64(10)))})
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					compute.NewDatum(scalar.MakeScalar(float64(10)))})
-
-				larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
-				defer larr.Release()
-
-				sc, _ := scalar.MakeScalarParam("10.00", ty)
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()},
-					compute.NewDatum(sc)})
-
-				larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
-				defer larr.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()},
-					compute.NewDatum(sc)})
-			}
-
-			for _, ty := range ds.negativeScales() {
-				empty := ds.getArr(ty, `[]`)
-				defer empty.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-				larr := ds.getArr(ty, `["12E2", "42E2", null]`)
-				defer larr.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
-
-				rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
-				defer rarr.Release()
-
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
-			}
-		})
-	}
-}
-
-type DecimalUnaryArithmeticSuite struct {
-	DecimalArithmeticSuite
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestAbsoluteValue() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-	ds.Run("decimal", func() {
-		for _, fn := range []string{"abs_unchecked", "abs"} {
-			ds.Run(fn, func() {
-				for _, ty := range ds.positiveScales() {
-					ds.Run(ty.String(), func() {
-						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-						defer empty.Release()
-						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "-42.15", null]`))
-						defer in.Release()
-						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "42.15", null]`))
-						defer exp.Release()
-
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-					})
-				}
-
-				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-					compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
-				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
-					compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
-				for _, ty := range ds.negativeScales() {
-					ds.Run(ty.String(), func() {
-						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-						defer empty.Release()
-						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "-42E2", null]`))
-						defer in.Release()
-						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "42E2", null]`))
-						defer exp.Release()
-
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-					})
-				}
-			})
-		}
-	})
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestNegate() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-
-	for _, fn := range []string{"negate_unchecked", "negate"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-				defer empty.Release()
-				in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "1.00", "-42.15", null]`))
-				defer in.Release()
-				exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "-1.00", "42.15", null]`))
-				defer exp.Release()
-
-				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-			}
-
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-				compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
-				compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
-				compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76}))},
-				compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76})), nil)
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-					defer empty.Release()
-					in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "12E2", "-42E2", null]`))
-					defer in.Release()
-					exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "-12E2", "42E2", null]`))
-					defer exp.Release()
-
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestSquareRoot() {
-	for _, fn := range []string{"sqrt_unchecked", "sqrt"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					arr := ds.decimalArrayFromJSON(ty, `["4.00", "16.00", "36.00", null]`)
-					defer arr.Release()
-
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
-
-					neg := ds.decimalArrayFromJSON(ty, `["-2.00"]`)
-					defer neg.Release()
-					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
-				})
-			}
-
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					arr := ds.decimalArrayFromJSON(ty, `["400", "1600", "3600", null]`)
-					defer arr.Release()
-
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
-
-					neg := ds.decimalArrayFromJSON(ty, `["-400"]`)
-					defer neg.Release()
-					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestSign() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-
-	for _, ty := range ds.positiveScales() {
-		empty := ds.decimalArrayFromJSON(ty, `[]`)
-		defer empty.Release()
-		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
-		defer emptyOut.Release()
-		in := ds.decimalArrayFromJSON(ty, `["1.00", "0.00", "-42.15", null]`)
-		defer in.Release()
-		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-		defer exp.Release()
-
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-			&compute.ArrayDatum{emptyOut.Data()}, nil)
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
-			&compute.ArrayDatum{exp.Data()}, nil)
-	}
-
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
-
-	for _, ty := range ds.negativeScales() {
-		empty := ds.decimalArrayFromJSON(ty, `[]`)
-		defer empty.Release()
-		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
-		defer emptyOut.Release()
-		in := ds.decimalArrayFromJSON(ty, `["12e2", "0.00", "-42E2", null]`)
-		defer in.Release()
-		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-		defer exp.Release()
-
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-			&compute.ArrayDatum{emptyOut.Data()}, nil)
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
-			&compute.ArrayDatum{exp.Data()}, nil)
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestTrigAcosAsin() {
-	for _, fn := range []string{"acos", "acos_unchecked", "asin", "asin_unchecked"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-					defer vals.Release()
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-				})
-			}
-		})
-	}
-
-	for _, fn := range []string{"acos", "asin"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					arr := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-					defer arr.Release()
-					ds.checkDecimalToFloat(fn+"_unchecked", []compute.Datum{&compute.ArrayDatum{arr.Data()}})
-					ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{arr.Data()}}, "domain error", nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestAtan() {
-	fn := "atan"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.decimalArrayFromJSON(ty, `[]`)
-			defer empty.Release()
-			vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-			defer vals.Release()
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.decimalArrayFromJSON(ty, `[]`)
-			defer empty.Release()
-			vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-			defer vals.Release()
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestTrig() {
-	for _, fn := range []string{"cos", "sin", "tan"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				for _, ty := range ds.positiveScales() {
-					ds.Run(ty.String(), func() {
-						empty := ds.decimalArrayFromJSON(ty, `[]`)
-						defer empty.Release()
-						vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-						defer vals.Release()
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-					})
-				}
-				for _, ty := range ds.negativeScales() {
-					ds.Run(ty.String(), func() {
-						empty := ds.decimalArrayFromJSON(ty, `[]`)
-						defer empty.Release()
-						vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-						defer vals.Release()
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-					})
-				}
-			})
-		}
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRound() {
-	options := compute.RoundOptions{NDigits: 2, Mode: compute.RoundDown}
-
-	cases := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
-		{compute.RoundUp, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
-		{compute.RoundTowardsZero, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
-		{compute.RoundTowardsInfinity, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfDown, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfUp, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-		{compute.RoundHalfTowardsZero, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-		{compute.RoundHalfTowardsInfinity, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfToEven, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfToOdd, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-	}
-
-	fn := "round"
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal256Type{Precision: 4, Scale: 3}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["1.010", "1.012", "1.015", "1.019", "-1.010", "-1.012", "-1.015", "-1.019", null]`)
-			defer values.Release()
-
-			for _, tt := range cases {
-				ds.Run(tt.mode.String(), func() {
-					options.Mode = tt.mode
-					exp := ds.getArr(ty, tt.exp)
-					defer exp.Release()
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{values.Data()}},
-						&compute.ArrayDatum{exp.Data()}, options)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundTowardsInfinity() {
-	fn := "round"
-	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundTowardsInfinity}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-			vals := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer vals.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-			input := []compute.Datum{&compute.ArrayDatum{vals.Data()}}
-
-			options.NDigits = 0
-
-			exp0 := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-43.00", "-43.00", null]`)
-			defer exp0.Release()
-
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp0.Data()}, options)
-
-			exp1 := ds.getArr(ty, `["1.00", "2.00", "1.10", "-42.00", "-43.00", "-42.20", null]`)
-			defer exp1.Release()
-
-			options.NDigits = 1
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp1.Data()}, options)
-
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-			options.NDigits = 4
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-
-			options.NDigits = -1
-			neg := ds.getArr(ty, `["10.00", "10.00", "10.00", "-50.00", "-50.00", "-50.00", null]`)
-			defer neg.Release()
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{neg.Data()}, options)
-
-			options.NDigits = -2
-			ds.checkFail(fn, input, "rounding to -2 digits will not fit in precision", options)
-			options.NDigits = -1
-
-			noprec := ds.getArr(ty, `["99.99"]`)
-			defer noprec.Release()
-			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
-		})
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -3
-			res := ds.getArr(ty, `["10E2", "20E2", "20E2", "-10E2", "-20E2", "-20E2", null]`)
-			defer res.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
-
-			options.NDigits = -4
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundHalfToEven() {
-	fn := "round"
-	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundHalfToEven}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-			values := ds.getArr(ty, `["1.00", "5.99", "1.01", "-42.00", "-42.99", "-42.15", "1.50", "2.50", "-5.50", "-2.55", null]`)
-			defer values.Release()
-			input := &compute.ArrayDatum{values.Data()}
-
-			exp0 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.00", "2.00", "2.00", "-6.00", "-3.00", null]`)
-			defer exp0.Release()
-
-			exp1 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.20", "1.50", "2.50", "-5.50", "-2.60", null]`)
-			defer exp1.Release()
-
-			expNeg1 := ds.getArr(ty, `["0.00", "10.00", "0.00", "-40.00", "-40.00", "-40.00", "0.00", "0.00", "-10.00", "0.00", null]`)
-			defer expNeg1.Release()
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp0.Data()}, options)
-			options.NDigits = 1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 4
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{expNeg1.Data()}, options)
-			options.NDigits = -2
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -2 digits will not fit in precision", options)
-			options.NDigits = -1
-			noprec := ds.getArr(ty, `["99.99"]`)
-			defer noprec.Release()
-			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["5E2", "10E2", "12E2", "15E2", "18E2", "-10E2", "-12E2", "-15E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -3
-			res := ds.getArr(ty, `["0", "10E2", "10E2", "20E2", "20E2", "-10E2", "-10E2", "-20E2", "-20E2", null]`)
-			defer res.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
-
-			options.NDigits = -4
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundCeil() {
-	fn := "ceil"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-42.00", "-42.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("99.99", ty)
-			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value 100.00 does not fit in precision of decimal", nil)
-			sc, _ = scalar.MakeScalarParam("-99.99", ty)
-			out, _ := scalar.MakeScalarParam("-99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundFloor() {
-	fn := "floor"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-43.00", "-43.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("-99.99", ty)
-			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value -100.00 does not fit in precision of decimal", nil)
-			sc, _ = scalar.MakeScalarParam("99.99", ty)
-			out, _ := scalar.MakeScalarParam("99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundTrunc() {
-	fn := "trunc"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-42.00", "-42.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("99.99", ty)
-			out, _ := scalar.MakeScalarParam("99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-			sc, _ = scalar.MakeScalarParam("-99.99", ty)
-			out, _ = scalar.MakeScalarParam("-99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultiple() {
-	fn := "round_to_multiple"
-	var options compute.RoundToMultipleOptions
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			if ty.ID() == arrow.DECIMAL128 {
-				options.Multiple, _ = scalar.MakeScalarParam(decimal128.FromI64(200), ty)
-			} else {
-				options.Multiple, _ = scalar.MakeScalarParam(decimal256.FromI64(200), ty)
-			}
-
-			values := ds.getArr(ty, `["-3.50", "-3.00", "-2.50", "-2.00", "-1.50", "-1.00", "-0.50", "0.00", "0.50", "1.00", "1.50", "2.00", "2.50", "3.00", "3.50", null]`)
-			defer values.Release()
-
-			input := []compute.Datum{&compute.ArrayDatum{values.Data()}}
-
-			tests := []struct {
-				mode compute.RoundMode
-				exp  string
-			}{
-				{compute.RoundDown, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
-				{compute.RoundUp, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
-				{compute.RoundTowardsZero, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
-				{compute.RoundTowardsInfinity, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfDown, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-				{compute.RoundHalfUp, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfTowardsZero, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-				{compute.RoundHalfTowardsInfinity, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfToEven, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfToOdd, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-			}
-
-			for _, tt := range tests {
-				ds.Run(tt.mode.String(), func() {
-					options.Mode = tt.mode
-
-					result := ds.getArr(ty, tt.exp)
-					defer result.Release()
-
-					checkScalar(ds.T(), fn, input, &compute.ArrayDatum{result.Data()}, options)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleTowardsInfinity() {
-	fn := "round_to_multiple"
-	options := compute.RoundToMultipleOptions{Mode: compute.RoundTowardsInfinity}
-	setMultiple := func(ty arrow.DataType, val int64) {
-		if ty.ID() == arrow.DECIMAL128 {
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
-		} else {
-			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
-		}
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			values := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			setMultiple(ty, 25)
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-			exp25 := ds.getArr(ty, `["1.00", "2.00", "1.25", "-42.00", "-43.00", "-42.25", null]`)
-			defer exp25.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
-
-			setMultiple(ty, 1)
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-
-			setMultiple(&arrow.Decimal128Type{Precision: 2, Scale: 0}, 2)
-			exp20 := ds.getArr(ty, `["2.00", "2.00", "2.00", "-42.00", "-44.00", "-44.00", null]`)
-			defer exp20.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp20.Data()}, options)
-
-			setMultiple(ty, 0)
-			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
-
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.Num{}, &arrow.Decimal128Type{Precision: 4, Scale: 2})
-			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
-
-			tester := ds.getArr(ty, `["99.99"]`)
-			defer tester.Release()
-
-			testDatum := &compute.ArrayDatum{tester.Data()}
-
-			setMultiple(ty, -10)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be positive", options)
-			setMultiple(ty, 100)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
-			options.Multiple = scalar.NewFloat64Scalar(1)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
-			options.Multiple = scalar.MakeNullScalar(&arrow.Decimal128Type{Precision: 3})
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
-			options.Multiple = nil
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
-		})
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			setMultiple(ty, 4)
-			exp := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
-			defer exp.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp.Data()}, options)
-
-			setMultiple(ty, 1)
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleHalfToOdd() {
-	fn := "round_to_multiple"
-	options := compute.RoundToMultipleOptions{Mode: compute.RoundHalfToOdd}
-	setMultiple := func(ty arrow.DataType, val int64) {
-		if ty.ID() == arrow.DECIMAL128 {
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
-		} else {
-			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
-		}
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-
-		values := ds.getArr(ty, `["-0.38", "-0.37", "-0.25", "-0.13", "-0.12", "0.00", "0.12", "0.13", "0.25", "0.37", "0.38", null]`)
-		defer values.Release()
-
-		input := &compute.ArrayDatum{values.Data()}
-
-		// there is no exact halfway point, check what happens
-		setMultiple(ty, 25)
-		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-		exp25 := ds.getArr(ty, `["-0.50", "-0.25", "-0.25", "-0.25", "-0.00", "0.00", "0.00", "0.25", "0.25", "0.25", "0.50", null]`)
-		defer exp25.Release()
-
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
-
-		setMultiple(ty, 1)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-		setMultiple(ty, 24)
-		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-		exp24 := ds.getArr(ty, `["-0.48", "-0.48", "-0.24", "-0.24", "-0.24", "0.00", "0.24", "0.24", "0.24", "0.48", "0.48", null]`)
-		defer exp24.Release()
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp24.Data()}, options)
-
-		setMultiple(&arrow.Decimal128Type{Precision: 3, Scale: 1}, 1)
-		exp1 := ds.getArr(ty, `["-0.40", "-0.40", "-0.30", "-0.10", "-0.10", "0.00", "0.10", "0.10", "0.30", "0.40", "0.40", null]`)
-		defer exp1.Release()
-
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-		defer values.Release()
-
-		exp4 := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
-		defer exp4.Release()
-
-		exp5 := ds.getArr(ty, `["10E2", "10E2", "20E2", "-10E2", "-10E2", "-20E2", null]`)
-		defer exp5.Release()
-
-		input := &compute.ArrayDatum{values.Data()}
-		setMultiple(ty, 4)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp4.Data()}, options)
-
-		setMultiple(ty, 5)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp5.Data()}, options)
-
-		setMultiple(ty, 1)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-	}
-}
-
-type ScalarBinaryTemporalArithmeticSuite struct {
-	BinaryFuncTestSuite
-}
-
-var (
-	date32JSON = `[0, 11016, -25932, 23148, 18262, 18261, 18260, 14609, 14610, 14612,
-	14613, 13149, 13148, 14241, 14242, 15340, null]`
-	date32JSON2 = `[365, 10650, -25901, 23118, 18263, 18259, 18260, 14609, 14610, 14612,
-	14613, 13149, 13148, 14240, 13937, 15400, null]`
-	date64JSON = `[0, 951782400000, -2240524800000, 1999987200000, 1577836800000,
-	1577750400000, 1577664000000, 1262217600000, 1262304000000, 1262476800000,
-	1262563200000, 1136073600000, 1135987200000, 1230422400000, 1230508800000,
-	1325376000000, null]`
-	date64JSON2 = `[31536000000, 920160000000, -2237846400000, 1997395200000,
-	1577923200000, 1577577600000, 1577664000000, 1262217600000, 1262304000000,
-	1262476800000, 1262563200000, 1136073600000, 1135987200000, 1230336000000,
-	1204156800000, 1330560000000, null]`
-	timeJSONs = `[59, 84203, 3560, 12800, 3905, 7810, 11715, 15620, 19525, 23430, 27335,
-	31240, 35145, 0, 0, 3723, null]`
-	timeJSONs2 = `[59, 84203, 12642, 7182, 68705, 7390, 915, 16820, 19525, 5430, 84959,
-	31207, 35145, 0, 0, 3723, null]`
-	timeJSONms = `[59123, 84203999, 3560001, 12800000, 3905001, 7810002, 11715003, 15620004,
-	19525005, 23430006, 27335000, 31240000, 35145000, 0, 0, 3723000, null]`
-	timeJSONms2 = `[59103, 84203999, 12642001, 7182000, 68705005, 7390000, 915003, 16820004,
-	19525005, 5430006, 84959000, 31207000, 35145000, 0, 0, 3723000, null]`
-	timeJSONus = `[59123456, 84203999999, 3560001001, 12800000000, 3905001000, 7810002000,
-	11715003000, 15620004132, 19525005321, 23430006163, 27335000000,
-	31240000000, 35145000000, 0, 0, 3723000000, null]`
-	timeJSONus2 = `[59103476, 84203999999, 12642001001, 7182000000, 68705005000, 7390000000,
-	915003000, 16820004432, 19525005021, 5430006163, 84959000000,
-	31207000000, 35145000000, 0, 0, 3723000000, null]`
-	timeJSONns = `[59123456789, 84203999999999, 3560001001001, 12800000000000, 3905001000000,
-	7810002000000, 11715003000000, 15620004132000, 19525005321000,
-	23430006163000, 27335000000000, 31240000000000, 35145000000000, 0, 0,
-	3723000000000, null]`
-	timeJSONns2 = `[59103476799, 84203999999909, 12642001001001, 7182000000000, 68705005000000,
-	7390000000000, 915003000000, 16820004432000, 19525005021000, 5430006163000,
-	84959000000000, 31207000000000, 35145000000000, 0, 0, 3723000000000, null]`
-)
-
-func (s *ScalarBinaryTemporalArithmeticSuite) TestTemporalAddSub() {
-	tests := []struct {
-		val1 string
-		val2 string
-		dt   arrow.DataType
-		exp  arrow.DataType
-	}{
-		{date32JSON, date32JSON2, arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Duration_s},
-		{date64JSON, date64JSON2, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Duration_ms},
-		{timeJSONs, timeJSONs2, arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Duration_s},
-		{timeJSONms, timeJSONms2, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Duration_ms},
-		{timeJSONus, timeJSONus2, arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Duration_us},
-		{timeJSONns, timeJSONns2, arrow.FixedWidthTypes.Time64ns, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		s.Run(tt.dt.String(), func() {
-			for _, checked := range []bool{true, false} {
-				s.Run(fmt.Sprintf("checked=%t", checked), func() {
-					opts := compute.ArithmeticOptions{NoCheckOverflow: !checked}
-					arr1, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val1))
-					defer arr1.Release()
-					arr2, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val2))
-					defer arr2.Release()
-
-					datum1 := &compute.ArrayDatum{Value: arr1.Data()}
-					datum2 := &compute.ArrayDatum{Value: arr2.Data()}
-
-					result, err := compute.Subtract(s.ctx, opts, datum1, datum2)
-					s.Require().NoError(err)
-					defer result.Release()
-					res := result.(*compute.ArrayDatum)
-					s.Truef(arrow.TypeEqual(tt.exp, res.Type()),
-						"expected: %s\n got: %s", tt.exp, res.Type())
-
-					out, err := compute.Add(s.ctx, opts, datum2, result)
-					s.Require().NoError(err)
-					defer out.Release()
-
-					// date32 - date32 / date64 - date64 produce durations
-					// and date + duration == timestamp so we need to cast
-					// the timestamp back to a date in that case. Otherwise
-					// we get back time32/time64 in those cases and can
-					// compare them accurately.
-					if arrow.TypeEqual(arr1.DataType(), out.(*compute.ArrayDatum).Type()) {
-						assertDatumsEqual(s.T(), datum1, out, nil, nil)
-					} else {
-						casted, err := compute.CastDatum(s.ctx, out, compute.SafeCastOptions(arr1.DataType()))
-						s.Require().NoError(err)
-						defer casted.Release()
-						assertDatumsEqual(s.T(), datum1, casted, nil, nil)
-					}
-
-				})
-			}
-		})
-	}
-}
-
-func TestUnaryDispatchBest(t *testing.T) {
-	for _, fn := range []string{"abs"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range numericTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{ty})
-					})
-				}
-			})
-		}
-	}
-
-	for _, fn := range []string{"negate_unchecked", "sign"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range numericTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	for _, fn := range []string{"negate"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range append(signedIntTypes, floatingTypes...) {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	// float types (with _unchecked variants)
-	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range floatingTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{ty})
-					})
-				}
-			})
-		}
-	}
-
-	// float types (without _unchecked variants)
-	for _, fn := range []string{"atan", "sign", "floor", "ceil", "trunc", "round"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range floatingTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	// integer -> float64 (with _unchecked variant)
-	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range integerTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{arrow.PrimitiveTypes.Float64})
-					})
-				}
-			})
-		}
-	}
-
-	// integer -> float64 (without _unchecked variants)
-	for _, fn := range []string{"atan", "floor", "ceil", "trunc", "round"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range integerTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64})
-				})
-			}
-		})
-	}
-}
-
-func TestUnaryArithmeticNull(t *testing.T) {
-	for _, fn := range []string{"abs", "negate", "acos", "asin", "cos", "ln", "log10", "log1p", "log2", "sin", "tan"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
-		}
-	}
-
-	for _, fn := range []string{"sign", "atan", "bit_wise_not", "floor", "ceil", "trunc", "round"} {
-		assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
-	}
-}
-
-type UnaryArithmeticSuite[T arrow.NumericType, O fnOpts] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-
-	opts O
-}
-
-func (us *UnaryArithmeticSuite[T, O]) SetupTest() {
-	us.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	us.ctx = compute.WithAllocator(context.TODO(), us.mem)
-	var def O
-	us.opts = def
-}
-
-func (us *UnaryArithmeticSuite[T, O]) TearDownTest() {
-	us.mem.AssertSize(us.T(), 0)
-}
-
-func (*UnaryArithmeticSuite[T, O]) datatype() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeNullScalar() scalar.Scalar {
-	return scalar.MakeNullScalar(us.datatype())
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeScalar(v T) scalar.Scalar {
-	return scalar.MakeScalar(v)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeArray(v ...T) arrow.Array {
-	return exec.ArrayFromSlice(us.mem, v)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(us.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	us.Require().NoError(err)
-	return arr
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpValError(fn unaryArithmeticFunc[O], arg T, msg string) {
-	in := us.makeScalar(arg)
-	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.ErrorIs(err, arrow.ErrInvalid)
-	us.ErrorContains(err, msg)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpNotImplemented(fn unaryArithmeticFunc[O], arg T, msg string) {
-	in := us.makeScalar(arg)
-	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.ErrorIs(err, arrow.ErrNotImplemented)
-	us.ErrorContains(err, msg)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpVals(fn unaryArithmeticFunc[O], arg, expected T) {
-	in := us.makeScalar(arg)
-	exp := us.makeScalar(expected)
-
-	actual, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.Require().NoError(err)
-	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpScalars(fn unaryArithmeticFunc[O], arg, exp scalar.Scalar) {
-	actual, err := fn(us.ctx, us.opts, compute.NewDatum(arg))
-	us.Require().NoError(err)
-	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpArrs(fn unaryArithmeticFunc[O], arg, exp arrow.Array) {
-	datum := &compute.ArrayDatum{arg.Data()}
-	actual, err := fn(us.ctx, us.opts, datum)
-	us.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(us.T(), &compute.ArrayDatum{exp.Data()}, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-
-	// also check scalar ops
-	for i := 0; i < arg.Len(); i++ {
-		expScalar, err := scalar.GetScalar(exp, i)
-		us.NoError(err)
-		argScalar, err := scalar.GetScalar(arg, i)
-		us.NoError(err)
-
-		actual, err := fn(us.ctx, us.opts, compute.NewDatum(argScalar))
-		us.Require().NoError(err)
-		assertDatumsEqual(us.T(), compute.NewDatum(expScalar), compute.NewDatum(actual), []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-	}
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpExpArr(fn unaryArithmeticFunc[O], arg string, exp arrow.Array) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-
-	us.assertUnaryOpArrs(fn, in, exp)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOp(fn unaryArithmeticFunc[O], arg, exp string) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-	expected, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(exp), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer expected.Release()
-
-	us.assertUnaryOpArrs(fn, in, expected)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpErr(fn unaryArithmeticFunc[O], arg string, msg string) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-
-	_, err = fn(us.ctx, us.opts, &compute.ArrayDatum{in.Data()})
-	us.ErrorIs(err, arrow.ErrInvalid)
-	us.ErrorContains(err, msg)
-}
-
-type UnaryArithmeticIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
-}
-
-func (us *UnaryArithmeticIntegral[T]) setOverflowCheck(v bool) {
-	us.opts.NoCheckOverflow = !v
-}
-
-func (us *UnaryArithmeticIntegral[T]) TestTrig() {
-	// integer arguments promoted to float64, sanity check here
-	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
-		return compute.Atan(ctx, arg)
-	}
-
-	input := us.makeArray(0, 1)
-	defer input.Release()
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		sinOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 0.8414709848078965]`)
-		defer sinOut.Release()
-		cosOut := us.getArr(arrow.PrimitiveTypes.Float64, `[1, 0.5403023058681398]`)
-		defer cosOut.Release()
-		tanOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1.5574077246549023]`)
-		defer tanOut.Release()
-		asinOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/2))
-		defer asinOut.Release()
-		acosOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[%f, 0]", math.Pi/2))
-		defer acosOut.Release()
-		atanOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/4))
-		defer atanOut.Release()
-
-		us.assertUnaryOpArrs(compute.Sin, input, sinOut)
-		us.assertUnaryOpArrs(compute.Cos, input, cosOut)
-		us.assertUnaryOpArrs(compute.Tan, input, tanOut)
-		us.assertUnaryOpArrs(compute.Asin, input, asinOut)
-		us.assertUnaryOpArrs(compute.Acos, input, acosOut)
-		us.assertUnaryOpArrs(atan, input, atanOut)
-	}
-}
-
-func (us *UnaryArithmeticIntegral[T]) TestLog() {
-	// integer arguments promoted to double, sanity check here
-	ty := us.datatype()
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		exp1 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, null]`)
-		defer exp1.Release()
-		exp2 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
-		defer exp2.Release()
-
-		ln := us.getArr(ty, `[1, null]`)
-		defer ln.Release()
-		log10 := us.getArr(ty, `[1, 10, null]`)
-		defer log10.Release()
-		log2 := us.getArr(ty, `[1, 2, null]`)
-		defer log2.Release()
-		log1p := us.getArr(ty, `[0, null]`)
-		defer log1p.Release()
-
-		us.assertUnaryOpArrs(compute.Ln, ln, exp1)
-		us.assertUnaryOpArrs(compute.Log10, log10, exp2)
-		us.assertUnaryOpArrs(compute.Log2, log2, exp2)
-		us.assertUnaryOpArrs(compute.Log1p, log1p, exp1)
-	}
-}
-
-type UnaryArithmeticSigned[T arrow.IntType] struct {
-	UnaryArithmeticIntegral[T]
-}
-
-func (us *UnaryArithmeticSigned[T]) TestAbsoluteValue() {
-	var (
-		dt  = us.datatype()
-		min = kernels.MinOf[T]()
-		max = kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				// empty array
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1, null, -10]`, `[1, null, 10]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				// scalar/arrays with zeros
-				fn(`[0, -0]`, `[0, 0]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -0, 0)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[1, 10, 127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 1, 1)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -1, 1)
-				// min/max
-				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
-				if checkOverflow {
-					us.assertUnaryOpValError(compute.AbsoluteValue, min, "overflow")
-				} else {
-					us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
-				}
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticSigned[T]) TestNegate() {
-	var (
-		dt  = us.datatype()
-		min = kernels.MinOf[T]()
-		max = kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1, null, -10]`, `[-1, null, 10]`)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[1, 10, 127]`, `[-1, -10, -127]`)
-				us.assertUnaryOpVals(compute.Negate, 1, -1)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.Negate, -1, 1)
-				// min/max
-				us.assertUnaryOpVals(compute.Negate, min+1, max)
-				us.assertUnaryOpVals(compute.Negate, max, min+1)
-			})
-		}
-	})
-}
-
-type UnaryArithmeticUnsigned[T arrow.UintType] struct {
-	UnaryArithmeticIntegral[T]
-}
-
-func (us *UnaryArithmeticUnsigned[T]) TestAbsoluteValue() {
-	var (
-		min, max T = 0, kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(us.datatype().String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				fn(`[null]`, `[null]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				fn(`[0, 1, 10, 127]`, `[0, 1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
-				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticUnsigned[T]) TestNegate() {
-	var (
-		dt = us.datatype()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		us.setOverflowCheck(true)
-		us.assertUnaryOpNotImplemented(compute.Negate, 1, "no kernel matching input types")
-
-		us.setOverflowCheck(false)
-		fn(`[]`, `[]`)
-		fn(`[null]`, `[null]`)
-		us.assertUnaryOpVals(compute.Negate, 1, ^T(1)+1)
-	})
-}
-
-type UnaryArithmeticFloating[T constraints.Float] struct {
-	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
-
-	min, max T
-	smallest T
-}
-
-func (us *UnaryArithmeticFloating[T]) setOverflowCheck(v bool) {
-	us.opts.NoCheckOverflow = !v
-}
-
-func (us *UnaryArithmeticFloating[T]) TestAbsoluteValue() {
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(us.datatype().String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				fn(`[null]`, `[null]`)
-				fn(`[1.3, null, -10.80]`, `[1.3, null, 10.80]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				fn(`[0.0, -0.0]`, `[0.0, 0.0]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, T(math.Copysign(0, -1)), 0)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
-				fn(`[1.3, 10.80, 12748.001]`, `[1.3, 10.80, 12748.001]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 1.3, 1.3)
-				fn(`[-1.3, -10.80, -12748.001]`, `[1.3, 10.80, 12748.001]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -1.3, 1.3)
-				fn(`["Inf", "-Inf"]`, `["Inf", "Inf"]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, us.min, us.max)
-				us.assertUnaryOpVals(compute.AbsoluteValue, us.max, us.max)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticFloating[T]) TestNegate() {
-	var (
-		dt = us.datatype()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1.5, null, -10.25]`, `[-1.5, null, 10.25]`)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[0.5, 10.123, 127.321]`, `[-0.5, -10.123, -127.321]`)
-				us.assertUnaryOpVals(compute.Negate, 1.25, -1.25)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-0.5, -10.123, -127.321]`, `[0.5, 10.123, 127.321]`)
-				us.assertUnaryOpVals(compute.Negate, -1.25, 1.25)
-				// min/max
-				us.assertUnaryOpVals(compute.Negate, us.min, us.max)
-				us.assertUnaryOpVals(compute.Negate, us.max, us.min)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigSin() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Sin, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Sin, `[]`, `[]`)
-		us.assertUnaryOp(compute.Sin, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, math.Pi/2, math.Pi)
-		exp := us.makeArray(0, 1, 0)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Sin, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Sin, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigCos() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Cos, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Cos, `[]`, `[]`)
-		us.assertUnaryOp(compute.Cos, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, math.Pi/2, math.Pi)
-		exp := us.makeArray(1, 0, -1)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Cos, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Cos, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigTan() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Tan, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Tan, `[]`, `[]`)
-		us.assertUnaryOp(compute.Tan, `[null, "NaN"]`, `[null, "NaN"]`)
-		// pi/2 isn't representable exactly -> there are no poles
-		// (i.e. tan(pi/2) is merely a large value and not +Inf)
-		arr := us.makeArray(0, math.Pi)
-		exp := us.makeArray(0, 0)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Tan, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Tan, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAsin() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Asin, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Asin, `[]`, `[]`)
-		us.assertUnaryOp(compute.Asin, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, 1, -1)
-		exp := us.makeArray(0, math.Pi/2, -math.Pi/2)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Asin, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Asin, `["Inf", "-Inf", -2, 2]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAcos() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Acos, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Acos, `[]`, `[]`)
-		us.assertUnaryOp(compute.Acos, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, 1, -1)
-		exp := us.makeArray(math.Pi/2, 0, math.Pi)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Acos, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Acos, `["Inf", "-Inf", -2, 2]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAtan() {
-	us.setOverflowCheck(false)
-	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
-		return compute.Atan(ctx, arg)
-	}
-	us.assertUnaryOp(atan, `[]`, `[]`)
-	us.assertUnaryOp(atan, `[null, "NaN"]`, `[null, "NaN"]`)
-
-	arr := us.makeArray(0, 1, -1, T(math.Inf(1)), T(math.Inf(-1)))
-	exp := us.makeArray(0, math.Pi/4, -math.Pi/4, math.Pi/2, -math.Pi/2)
-	defer arr.Release()
-	defer exp.Release()
-	us.assertUnaryOpArrs(atan, arr, exp)
-}
-
-func (us *UnaryArithmeticFloating[T]) TestLog() {
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.Run(fmt.Sprintf("checked=%t", overflow), func() {
-			us.assertUnaryOp(compute.Ln, `[1, 2.718281828459045, null, "NaN", "Inf"]`,
-				`[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Ln, us.smallest, T(math.Log(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Ln, us.max, T(math.Log(float64(us.max))))
-			us.assertUnaryOp(compute.Log10, `[1, 10, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log10, us.smallest, T(math.Log10(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log10, us.max, T(math.Log10(float64(us.max))))
-			us.assertUnaryOp(compute.Log2, `[1, 2, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log2, us.smallest, T(math.Log2(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log2, us.max, T(math.Log2(float64(us.max))))
-			us.assertUnaryOp(compute.Log1p, `[0, 1.718281828459045, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log1p, us.smallest, T(math.Log1p(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log1p, us.max, T(math.Log1p(float64(us.max))))
-		})
-	}
-
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Ln, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log10, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log2, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log1p, `["-Inf", -2, -1, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Ln, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Ln, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Ln, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Ln, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log10, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log10, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log10, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log10, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log2, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log2, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log2, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log2, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log1p, `[-1]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log1p, `[-2]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log1p, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log1p, us.min, "logarithm of negative number")
-}
-
-func TestUnaryArithmetic(t *testing.T) {
-	suite.Run(t, new(UnaryArithmeticSigned[int8]))
-	suite.Run(t, new(UnaryArithmeticSigned[int16]))
-	suite.Run(t, new(UnaryArithmeticSigned[int32]))
-	suite.Run(t, new(UnaryArithmeticSigned[int64]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint8]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint16]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint32]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint64]))
-	suite.Run(t, &UnaryArithmeticFloating[float32]{min: -math.MaxFloat32, max: math.MaxFloat32, smallest: math.SmallestNonzeroFloat32})
-	suite.Run(t, &UnaryArithmeticFloating[float64]{min: -math.MaxFloat64, max: math.MaxFloat64, smallest: math.SmallestNonzeroFloat64})
-	suite.Run(t, new(DecimalUnaryArithmeticSuite))
-}
-
-type BitwiseArithmeticSuite[T arrow.IntType | arrow.UintType] struct {
-	BinaryFuncTestSuite
-}
-
-func (bs *BitwiseArithmeticSuite[T]) datatype() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-// to make it easier to test different widths, tests give bytes which
-// get repeated to make an array of the actual type
-func (bs *BitwiseArithmeticSuite[T]) expandByteArray(values []byte) arrow.Array {
-	vals := make([]T, len(values)+1)
-	sz := kernels.SizeOf[T]()
-	for i, v := range values {
-		memory.Set(unsafe.Slice((*byte)(unsafe.Pointer(&vals[i])), sz), v)
-	}
-	valid := make([]bool, len(vals))
-	for i := range values {
-		valid[i] = true
-	}
-	return exec.ArrayFromSliceWithValid(bs.mem, vals, valid)
-}
-
-func (bs *BitwiseArithmeticSuite[T]) assertBinaryOp(fn string, arg0, arg1, expected []byte) {
-	in0, in1 := bs.expandByteArray(arg0), bs.expandByteArray(arg1)
-	out := bs.expandByteArray(expected)
-	defer func() {
-		in0.Release()
-		in1.Release()
-		out.Release()
-	}()
-
-	actual, err := compute.CallFunction(bs.ctx, fn, nil, &compute.ArrayDatum{in0.Data()}, &compute.ArrayDatum{in1.Data()})
-	bs.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(bs.T(), &compute.ArrayDatum{out.Data()}, actual, nil, nil)
-
-	for i := 0; i < out.Len(); i++ {
-		a0, err := scalar.GetScalar(in0, i)
-		bs.Require().NoError(err)
-		a1, err := scalar.GetScalar(in1, i)
-		bs.Require().NoError(err)
-		exp, err := scalar.GetScalar(out, i)
-		bs.Require().NoError(err)
-
-		actual, err := compute.CallFunction(bs.ctx, fn, nil, compute.NewDatum(a0), compute.NewDatum(a1))
-		bs.Require().NoError(err)
-		assertScalarEquals(bs.T(), exp, actual.(*compute.ScalarDatum).Value)
-	}
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseAnd() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_and", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0x00, 0x00, 0xFF})
-	})
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseOr() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_or", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0xFF})
-	})
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseXor() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_xor", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0x00})
-	})
-}
-
-func TestBitwiseArithmetic(t *testing.T) {
-	suite.Run(t, new(BitwiseArithmeticSuite[int8]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint8]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int16]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint16]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int32]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint32]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int64]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint64]))
-}
-
-var roundModes = []compute.RoundMode{
-	compute.RoundDown,
-	compute.RoundUp,
-	compute.RoundTowardsZero,
-	compute.RoundTowardsInfinity,
-	compute.RoundHalfDown,
-	compute.RoundHalfUp,
-	compute.RoundHalfTowardsZero,
-	compute.RoundHalfTowardsInfinity,
-	compute.RoundHalfToEven,
-	compute.RoundHalfToOdd,
-}
-
-type UnaryRoundSuite[T arrow.NumericType] struct {
-	UnaryArithmeticSuite[T, compute.RoundOptions]
-}
-
-func (us *UnaryRoundSuite[T]) setRoundMode(mode compute.RoundMode) {
-	us.opts.Mode = mode
-}
-
-func (us *UnaryRoundSuite[T]) setRoundNDigits(v int64) {
-	us.opts.NDigits = v
-}
-
-type UnaryRoundToMultipleSuite[T arrow.NumericType] struct {
-	UnaryArithmeticSuite[T, compute.RoundToMultipleOptions]
-}
-
-func (us *UnaryRoundToMultipleSuite[T]) setRoundMode(mode compute.RoundMode) {
-	us.opts.Mode = mode
-}
-
-func (us *UnaryRoundToMultipleSuite[T]) setRoundMultiple(val float64) {
-	us.opts.Multiple = scalar.NewFloat64Scalar(val)
-}
-
-type UnaryRoundIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryRoundSuite[T]
-}
-
-type UnaryRoundToMultipleIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryRoundToMultipleSuite[T]
-}
-
-type UnaryRoundSigned[T arrow.IntType] struct {
-	UnaryRoundIntegral[T]
-}
-
-func (us *UnaryRoundSigned[T]) TestRound() {
-	values := `[0, 1, -13, -50, 115]`
-	us.setRoundNDigits(0)
-
-	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-	defer arr.Release()
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		us.assertUnaryOpExpArr(compute.Round, values, arr)
-	}
-
-	// test different round N-digits for nearest rounding mode
-	ndigExpected := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[0, 0, -0.0, -100, 100]`},
-		{-1, `[0.0, 0.0, -10, -50, 120]`},
-		{0, values},
-		{1, values},
-		{2, values},
-	}
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigExpected {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-			defer arr.Release()
-			us.assertUnaryOpExpArr(compute.Round, values, arr)
-		})
-	}
-}
-
-type UnaryRoundToMultipleSigned[T arrow.IntType] struct {
-	UnaryRoundToMultipleIntegral[T]
-}
-
-func (us *UnaryRoundToMultipleSigned[T]) TestRoundToMultiple() {
-	values := `[0, 1, -13, -50, 115]`
-	us.setRoundMultiple(1)
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-
-	tests := []struct {
-		mult float64
-		exp  string
-	}{
-		{2, `[0.0, 2, -14, -50, 116]`},
-		{0.05, `[0.0, 1, -13, -50, 115]`},
-		{0.1, values},
-		{10, `[0.0, 0.0, -10, -50, 120]`},
-		{100, `[0.0, 0.0, -0.0, -100, 100]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range tests {
-		us.setRoundMultiple(tt.mult)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-}
-
-type UnaryRoundUnsigned[T arrow.UintType] struct {
-	UnaryRoundIntegral[T]
-}
-
-func (us *UnaryRoundUnsigned[T]) TestRound() {
-	values := `[0, 1, 13, 50, 115]`
-	us.setRoundNDigits(0)
-
-	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-	defer arr.Release()
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		us.assertUnaryOpExpArr(compute.Round, values, arr)
-	}
-
-	// test different round N-digits for nearest rounding mode
-	ndigExpected := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[0, 0, 0, 100, 100]`},
-		{-1, `[0.0, 0.0, 10, 50, 120]`},
-		{0, values},
-		{1, values},
-		{2, values},
-	}
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigExpected {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-			defer arr.Release()
-			us.assertUnaryOpExpArr(compute.Round, values, arr)
-		})
-	}
-}
-
-type UnaryRoundToMultipleUnsigned[T arrow.UintType] struct {
-	UnaryRoundToMultipleIntegral[T]
-}
-
-func (us *UnaryRoundToMultipleUnsigned[T]) TestRoundToMultiple() {
-	values := `[0, 1, 13, 50, 115]`
-	us.setRoundMultiple(1)
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-
-	tests := []struct {
-		mult float64
-		exp  string
-	}{
-		{0.05, `[0, 1, 13, 50, 115]`},
-		{0.1, values},
-		{2, `[0, 2, 14, 50, 116]`},
-		{10, `[0, 0, 10, 50, 120]`},
-		{100, `[0, 0, 0, 100, 100]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range tests {
-		us.setRoundMultiple(tt.mult)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-}
-
-type UnaryRoundFloating[T constraints.Float] struct {
-	UnaryRoundSuite[T]
-}
-
-func (us *UnaryRoundFloating[T]) TestRound() {
-	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
-	rmodeExpected := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
-		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
-		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
-		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
-		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
-		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
-		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
-	}
-	us.setRoundNDigits(0)
-	for _, tt := range rmodeExpected {
-		us.Run(tt.mode.String(), func() {
-			us.setRoundMode(tt.mode)
-			us.assertUnaryOp(compute.Round, `[]`, `[]`)
-			us.assertUnaryOp(compute.Round, `[null, 0, "Inf", "-Inf", "NaN"]`,
-				`[null, 0, "Inf", "-Inf", "NaN"]`)
-			us.assertUnaryOp(compute.Round, values, tt.exp)
-		})
-	}
-
-	// test different round n-digits for nearest rounding mode
-	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
-	ndigitsExp := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
-		{-1, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
-		{0, `[320, 4, 3, 5, -3, -35, -3]`},
-		{1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
-		{2, `[320, 3.5, 3.08, 4.5, -3.21, -35.12, -3.05]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigitsExp {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			us.assertUnaryOp(compute.Round, values, tt.exp)
-		})
-	}
-}
-
-type UnaryRoundToMultipleFloating[T constraints.Float] struct {
-	UnaryRoundToMultipleSuite[T]
-}
-
-func (us *UnaryRoundToMultipleFloating[T]) TestRoundToMultiple() {
-	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
-	rmodeExpected := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
-		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
-		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
-		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
-		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
-		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
-		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
-	}
-	us.setRoundMultiple(1)
-	for _, tt := range rmodeExpected {
-		us.Run(tt.mode.String(), func() {
-			us.setRoundMode(tt.mode)
-			us.assertUnaryOp(compute.RoundToMultiple, `[]`, `[]`)
-			us.assertUnaryOp(compute.RoundToMultiple, `[null, 0, "Inf", "-Inf", "NaN"]`,
-				`[null, 0, "Inf", "-Inf", "NaN"]`)
-			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
-		})
-	}
-
-	// test different round n-digits for nearest rounding mode
-	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
-	multAndExp := []struct {
-		mult float64
-		exp  string
-	}{
-		{0.05, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3.05]`},
-		{0.1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
-		{2, `[320, 4, 4, 4, -4, -36, -4]`},
-		{10, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
-		{100, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range multAndExp {
-		us.Run(fmt.Sprintf("multiple=%f", tt.mult), func() {
-			us.setRoundMultiple(tt.mult)
-			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
-		})
-	}
-}
-
-func TestRounding(t *testing.T) {
-	suite.Run(t, new(UnaryRoundSigned[int8]))
-	suite.Run(t, new(UnaryRoundSigned[int16]))
-	suite.Run(t, new(UnaryRoundSigned[int32]))
-	suite.Run(t, new(UnaryRoundSigned[int64]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint8]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint16]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint32]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint64]))
-	suite.Run(t, new(UnaryRoundFloating[float32]))
-	suite.Run(t, new(UnaryRoundFloating[float64]))
-
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int8]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int16]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int32]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int64]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint8]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint16]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint32]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint64]))
-	suite.Run(t, new(UnaryRoundToMultipleFloating[float32]))
-	suite.Run(t, new(UnaryRoundToMultipleFloating[float64]))
-}
-
-const seed = 0x94378165
-
-type binaryOp = func(ctx context.Context, left, right compute.Datum) (compute.Datum, error)
-
-func Add(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	var opts compute.ArithmeticOptions
-	return compute.Add(ctx, opts, left, right)
-}
-
-func Subtract(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	var opts compute.ArithmeticOptions
-	return compute.Subtract(ctx, opts, left, right)
-}
-
-func AddUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
-	return compute.Add(ctx, opts, left, right)
-}
-
-func SubtractUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
-	return compute.Subtract(ctx, opts, left, right)
-}
-
-func arrayScalarKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
-	b.Run("array scalar", func(b *testing.B) {
-		var (
-			mem                     = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			arraySize               = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
-			min       int64         = 6
-			max                     = min + 15
-			sc, _                   = scalar.MakeScalarParam(6, dt)
-			rhs       compute.Datum = &compute.ScalarDatum{Value: sc}
-			rng                     = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		lhs := rng.Numeric(dt.ID(), arraySize, min, max, nullProp)
-		b.Cleanup(func() {
-			lhs.Release()
-		})
-
-		var (
-			res  compute.Datum
-			err  error
-			ctx  = context.Background()
-			left = &compute.ArrayDatum{Value: lhs.Data()}
-		)
-
-		b.SetBytes(arraySize)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = op(ctx, left, rhs)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func arrayArrayKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
-	b.Run("array array", func(b *testing.B) {
-		var (
-			mem             = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			arraySize       = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
-			rmin      int64 = 1
-			rmax            = rmin + 6 // 7
-			lmin            = rmax + 1 // 8
-			lmax            = lmin + 6 // 14
-			rng             = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		lhs := rng.Numeric(dt.ID(), arraySize, lmin, lmax, nullProp)
-		rhs := rng.Numeric(dt.ID(), arraySize, rmin, rmax, nullProp)
-		b.Cleanup(func() {
-			lhs.Release()
-			rhs.Release()
-		})
-		var (
-			res   compute.Datum
-			err   error
-			ctx   = context.Background()
-			left  = &compute.ArrayDatum{Value: lhs.Data()}
-			right = &compute.ArrayDatum{Value: rhs.Data()}
-		)
-
-		b.SetBytes(arraySize)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = op(ctx, left, right)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func BenchmarkScalarArithmetic(b *testing.B) {
-	args := []struct {
-		sz       int
-		nullProb float64
-	}{
-		{CpuCacheSizes[2], 0},
-		{CpuCacheSizes[2], 0.5},
-		{CpuCacheSizes[2], 1},
-	}
-
-	testfns := []struct {
-		name string
-		op   binaryOp
-	}{
-		{"Add", Add},
-		{"AddUnchecked", AddUnchecked},
-		{"Subtract", Subtract},
-		{"SubtractUnchecked", SubtractUnchecked},
-	}
-
-	for _, dt := range numericTypes {
-		b.Run(dt.String(), func(b *testing.B) {
-			for _, benchArgs := range args {
-				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f", benchArgs.sz, benchArgs.nullProb), func(b *testing.B) {
-					for _, tfn := range testfns {
-						b.Run(tfn.name, func(b *testing.B) {
-							arrayArrayKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
-							arrayScalarKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/cast.go b/go/arrow/compute/cast.go
deleted file mode 100644
index 6ef6fdddd16ff..0000000000000
--- a/go/arrow/compute/cast.go
+++ /dev/null
@@ -1,587 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	castTable map[arrow.Type]*castFunction
-	castInit  sync.Once
-
-	castDoc = FunctionDoc{
-		Summary:         "cast values to another data type",
-		Description:     "Behavior when values wouldn't fit in the target type\ncan be controlled through CastOptions.",
-		ArgNames:        []string{"input"},
-		OptionsType:     "CastOptions",
-		OptionsRequired: true,
-	}
-	castMetaFunc = NewMetaFunction("cast", Unary(), castDoc,
-		func(ctx context.Context, fo FunctionOptions, d ...Datum) (Datum, error) {
-			castOpts := fo.(*CastOptions)
-			if castOpts == nil || castOpts.ToType == nil {
-				return nil, fmt.Errorf("%w: cast requires that options be passed with a ToType", arrow.ErrInvalid)
-			}
-
-			if arrow.TypeEqual(d[0].(ArrayLikeDatum).Type(), castOpts.ToType) {
-				return NewDatum(d[0]), nil
-			}
-
-			fn, err := getCastFunction(castOpts.ToType)
-			if err != nil {
-				return nil, fmt.Errorf("%w from %s", err, d[0].(ArrayLikeDatum).Type())
-			}
-
-			return fn.Execute(ctx, fo, d...)
-		})
-)
-
-func RegisterScalarCast(reg FunctionRegistry) {
-	reg.AddFunction(castMetaFunc, false)
-}
-
-type castFunction struct {
-	ScalarFunction
-
-	inIDs []arrow.Type
-	out   arrow.Type
-}
-
-func newCastFunction(name string, outType arrow.Type) *castFunction {
-	return &castFunction{
-		ScalarFunction: *NewScalarFunction(name, Unary(), EmptyFuncDoc),
-		out:            outType,
-		inIDs:          make([]arrow.Type, 0, 1),
-	}
-}
-
-func (cf *castFunction) AddTypeCast(in arrow.Type, kernel exec.ScalarKernel) error {
-	kernel.Init = exec.OptionsInit[kernels.CastState]
-	if err := cf.AddKernel(kernel); err != nil {
-		return err
-	}
-	cf.inIDs = append(cf.inIDs, in)
-	return nil
-}
-
-func (cf *castFunction) AddNewTypeCast(inID arrow.Type, inTypes []exec.InputType, out exec.OutputType,
-	ex exec.ArrayKernelExec, nullHandle exec.NullHandling, memAlloc exec.MemAlloc) error {
-
-	kn := exec.NewScalarKernel(inTypes, out, ex, nil)
-	kn.NullHandling = nullHandle
-	kn.MemAlloc = memAlloc
-	return cf.AddTypeCast(inID, kn)
-}
-
-func (cf *castFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := cf.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	candidates := make([]*exec.ScalarKernel, 0, 1)
-	for i := range cf.kernels {
-		if cf.kernels[i].Signature.MatchesInputs(vals) {
-			candidates = append(candidates, &cf.kernels[i])
-		}
-	}
-
-	if len(candidates) == 0 {
-		return nil, fmt.Errorf("%w: unsupported cast from %s to %s using function %s",
-			arrow.ErrNotImplemented, vals[0], cf.out, cf.name)
-	}
-
-	if len(candidates) == 1 {
-		// one match!
-		return candidates[0], nil
-	}
-
-	// in this situation we may have both an EXACT type and
-	// a SAME_TYPE_ID match. So we will see if there is an exact
-	// match among the candidates and if not, we just return the
-	// first one
-	for _, k := range candidates {
-		arg0 := k.Signature.InputTypes[0]
-		if arg0.Kind == exec.InputExact {
-			// found one!
-			return k, nil
-		}
-	}
-
-	// just return some kernel that matches since we didn't find an exact
-	return candidates[0], nil
-}
-
-func unpackDictionary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		dictArr  = batch.Values[0].Array.MakeArray().(*array.Dictionary)
-		opts     = ctx.State.(kernels.CastState)
-		dictType = dictArr.DataType().(*arrow.DictionaryType)
-		toType   = opts.ToType
-	)
-	defer dictArr.Release()
-
-	if !arrow.TypeEqual(toType, dictType) && !CanCast(dictType, toType) {
-		return fmt.Errorf("%w: cast type %s incompatible with dictionary type %s",
-			arrow.ErrInvalid, toType, dictType)
-	}
-
-	unpacked, err := TakeArray(ctx.Ctx, dictArr.Dictionary(), dictArr.Indices())
-	if err != nil {
-		return err
-	}
-	defer unpacked.Release()
-
-	if !arrow.TypeEqual(dictType, toType) {
-		unpacked, err = CastArray(ctx.Ctx, unpacked, &opts)
-		if err != nil {
-			return err
-		}
-		defer unpacked.Release()
-	}
-
-	out.TakeOwnership(unpacked.Data())
-	return nil
-}
-
-func CastFromExtension(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(kernels.CastState)
-
-	arr := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer arr.Release()
-
-	castOpts := CastOptions(opts)
-	result, err := CastArray(ctx.Ctx, arr.Storage(), &castOpts)
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	return nil
-}
-
-func CastList[SrcOffsetT, DestOffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(kernels.CastState)
-		childType  = out.Type.(arrow.NestedType).Fields()[0].Type
-		input      = &batch.Values[0].Array
-		offsets    = exec.GetSpanOffsets[SrcOffsetT](input, 1)
-		isDowncast = kernels.SizeOf[SrcOffsetT]() > kernels.SizeOf[DestOffsetT]()
-	)
-
-	out.Buffers[0] = input.Buffers[0]
-	out.Buffers[1] = input.Buffers[1]
-
-	if input.Offset != 0 && len(input.Buffers[0].Buf) > 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
-			out.Buffers[0].Buf, 0)
-	}
-
-	// Handle list offsets
-	// Several cases possible:
-	//	- The source offset is non-zero, in which case we slice the
-	//	  underlying values and shift the list offsets (regardless of
-	//	  their respective types)
-	//	- the source offset is zero but the source and destination types
-	//	  have different list offset types, in which case we cast the offsets
-	//  - otherwise we simply keep the original offsets
-	if isDowncast {
-		if offsets[input.Len] > SrcOffsetT(kernels.MaxOf[DestOffsetT]()) {
-			return fmt.Errorf("%w: array of type %s too large to convert to %s",
-				arrow.ErrInvalid, input.Type, out.Type)
-		}
-	}
-
-	values := input.Children[0].MakeArray()
-	defer values.Release()
-
-	if input.Offset != 0 {
-		out.Buffers[1].WrapBuffer(
-			ctx.Allocate(out.Type.(arrow.OffsetsDataType).
-				OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
-
-		shiftedOffsets := exec.GetSpanOffsets[DestOffsetT](out, 1)
-		for i := 0; i < int(input.Len)+1; i++ {
-			shiftedOffsets[i] = DestOffsetT(offsets[i] - offsets[0])
-		}
-
-		values = array.NewSlice(values, int64(offsets[0]), int64(offsets[input.Len]))
-		defer values.Release()
-	} else if kernels.SizeOf[SrcOffsetT]() != kernels.SizeOf[DestOffsetT]() {
-		out.Buffers[1].WrapBuffer(ctx.Allocate(out.Type.(arrow.OffsetsDataType).
-			OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
-
-		kernels.DoStaticCast(exec.GetSpanOffsets[SrcOffsetT](input, 1),
-			exec.GetSpanOffsets[DestOffsetT](out, 1))
-	}
-
-	// handle values
-	opts.ToType = childType
-
-	castedValues, err := CastArray(ctx.Ctx, values, &opts)
-	if err != nil {
-		return err
-	}
-	defer castedValues.Release()
-
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].SetMembers(castedValues.Data())
-	for i, b := range out.Children[0].Buffers {
-		if b.Owner != nil && b.Owner != values.Data().Buffers()[i] {
-			b.Owner.Retain()
-			b.SelfAlloc = true
-		}
-	}
-	return nil
-}
-
-func CastStruct(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts          = ctx.State.(kernels.CastState)
-		inType        = batch.Values[0].Array.Type.(*arrow.StructType)
-		outType       = out.Type.(*arrow.StructType)
-		inFieldCount  = inType.NumFields()
-		outFieldCount = outType.NumFields()
-	)
-
-	fieldsToSelect := make([]int, outFieldCount)
-	for i := range fieldsToSelect {
-		fieldsToSelect[i] = -1
-	}
-
-	outFieldIndex := 0
-	for inFieldIndex := 0; inFieldIndex < inFieldCount && outFieldIndex < outFieldCount; inFieldIndex++ {
-		inField := inType.Field(inFieldIndex)
-		outField := outType.Field(outFieldIndex)
-		if inField.Name == outField.Name {
-			if inField.Nullable && !outField.Nullable {
-				return fmt.Errorf("%w: cannot cast nullable field to non-nullable field: %s %s",
-					arrow.ErrType, inType, outType)
-			}
-			fieldsToSelect[outFieldIndex] = inFieldIndex
-			outFieldIndex++
-		}
-	}
-
-	if outFieldIndex < outFieldCount {
-		return fmt.Errorf("%w: struct fields don't match or are in the wrong order: Input: %s Output: %s",
-			arrow.ErrType, inType, outType)
-	}
-
-	input := &batch.Values[0].Array
-	if len(input.Buffers[0].Buf) > 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
-			out.Buffers[0].Buf, 0)
-	}
-
-	out.Children = make([]exec.ArraySpan, outFieldCount)
-	for outFieldIndex, idx := range fieldsToSelect {
-		values := input.Children[idx].MakeArray()
-		defer values.Release()
-		values = array.NewSlice(values, input.Offset, input.Len)
-		defer values.Release()
-
-		opts.ToType = outType.Field(outFieldIndex).Type
-		castedValues, err := CastArray(ctx.Ctx, values, &opts)
-		if err != nil {
-			return err
-		}
-		defer castedValues.Release()
-
-		out.Children[outFieldIndex].TakeOwnership(castedValues.Data())
-	}
-	return nil
-}
-
-func addListCast[SrcOffsetT, DestOffsetT int32 | int64](fn *castFunction, inType arrow.Type) error {
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
-		kernels.OutputTargetType, CastList[SrcOffsetT, DestOffsetT], nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	kernel.MemAlloc = exec.MemNoPrealloc
-	return fn.AddTypeCast(inType, kernel)
-}
-
-func addStructToStructCast(fn *castFunction) error {
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.STRUCT)},
-		kernels.OutputTargetType, CastStruct, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	return fn.AddTypeCast(arrow.STRUCT, kernel)
-}
-
-func addCastFuncs(fn []*castFunction) {
-	for _, f := range fn {
-		f.AddNewTypeCast(arrow.EXTENSION, []exec.InputType{exec.NewIDInput(arrow.EXTENSION)},
-			f.kernels[0].Signature.OutType, CastFromExtension,
-			exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-		castTable[f.out] = f
-	}
-}
-
-func initCastTable() {
-	castTable = make(map[arrow.Type]*castFunction)
-	addCastFuncs(getBooleanCasts())
-	addCastFuncs(getNumericCasts())
-	addCastFuncs(getBinaryLikeCasts())
-	addCastFuncs(getTemporalCasts())
-	addCastFuncs(getNestedCasts())
-
-	nullToExt := newCastFunction("cast_extension", arrow.EXTENSION)
-	nullToExt.AddNewTypeCast(arrow.NULL, []exec.InputType{exec.NewExactInput(arrow.Null)},
-		kernels.OutputTargetType, kernels.CastFromNull, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-	castTable[arrow.EXTENSION] = nullToExt
-}
-
-func getCastFunction(to arrow.DataType) (*castFunction, error) {
-	castInit.Do(initCastTable)
-
-	fn, ok := castTable[to.ID()]
-	if ok {
-		return fn, nil
-	}
-
-	return nil, fmt.Errorf("%w: unsupported cast to %s", arrow.ErrNotImplemented, to)
-}
-
-func getNestedCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	addKernels := func(fn *castFunction, kernels []exec.ScalarKernel) {
-		for _, k := range kernels {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-	}
-
-	castLists := newCastFunction("cast_list", arrow.LIST)
-	addKernels(castLists, kernels.GetCommonCastKernels(arrow.LIST, kernels.OutputTargetType))
-	if err := addListCast[int32, int32](castLists, arrow.LIST); err != nil {
-		panic(err)
-	}
-	if err := addListCast[int64, int32](castLists, arrow.LARGE_LIST); err != nil {
-		panic(err)
-	}
-	out = append(out, castLists)
-
-	castLargeLists := newCastFunction("cast_large_list", arrow.LARGE_LIST)
-	addKernels(castLargeLists, kernels.GetCommonCastKernels(arrow.LARGE_LIST, kernels.OutputTargetType))
-	if err := addListCast[int32, int64](castLargeLists, arrow.LIST); err != nil {
-		panic(err)
-	}
-	if err := addListCast[int64, int64](castLargeLists, arrow.LARGE_LIST); err != nil {
-		panic(err)
-	}
-	out = append(out, castLargeLists)
-
-	castFsl := newCastFunction("cast_fixed_size_list", arrow.FIXED_SIZE_LIST)
-	addKernels(castFsl, kernels.GetCommonCastKernels(arrow.FIXED_SIZE_LIST, kernels.OutputTargetType))
-	out = append(out, castFsl)
-
-	castStruct := newCastFunction("cast_struct", arrow.STRUCT)
-	addKernels(castStruct, kernels.GetCommonCastKernels(arrow.STRUCT, kernels.OutputTargetType))
-	if err := addStructToStructCast(castStruct); err != nil {
-		panic(err)
-	}
-	out = append(out, castStruct)
-
-	return out
-}
-
-func getBooleanCasts() []*castFunction {
-	fn := newCastFunction("cast_boolean", arrow.BOOL)
-	kns := kernels.GetBooleanCastKernels()
-
-	for _, k := range kns {
-		if err := fn.AddTypeCast(k.Signature.InputTypes[0].Type.ID(), k); err != nil {
-			panic(err)
-		}
-	}
-
-	return []*castFunction{fn}
-}
-
-func getTemporalCasts() []*castFunction {
-	output := make([]*castFunction, 0)
-	addFn := func(name string, id arrow.Type, kernels []exec.ScalarKernel) {
-		fn := newCastFunction(name, id)
-		for _, k := range kernels {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kernels[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-		output = append(output, fn)
-	}
-
-	addFn("cast_timestamp", arrow.TIMESTAMP, kernels.GetTimestampCastKernels())
-	addFn("cast_date32", arrow.DATE32, kernels.GetDate32CastKernels())
-	addFn("cast_date64", arrow.DATE64, kernels.GetDate64CastKernels())
-	addFn("cast_time32", arrow.TIME32, kernels.GetTime32CastKernels())
-	addFn("cast_time64", arrow.TIME64, kernels.GetTime64CastKernels())
-	addFn("cast_duration", arrow.DURATION, kernels.GetDurationCastKernels())
-	addFn("cast_month_day_nano_interval", arrow.INTERVAL_MONTH_DAY_NANO, kernels.GetIntervalCastKernels())
-	return output
-}
-
-func getNumericCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	getFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) *castFunction {
-		fn := newCastFunction(name, ty)
-		for _, k := range kns {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-
-		return fn
-	}
-
-	out = append(out, getFn("cast_int8", arrow.INT8, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int8)))
-	out = append(out, getFn("cast_int16", arrow.INT16, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int16)))
-
-	castInt32 := getFn("cast_int32", arrow.INT32, kernels.GetCastToInteger[int32](arrow.PrimitiveTypes.Int32))
-	castInt32.AddTypeCast(arrow.DATE32,
-		kernels.GetZeroCastKernel(arrow.DATE32,
-			exec.NewExactInput(arrow.FixedWidthTypes.Date32),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
-	castInt32.AddTypeCast(arrow.TIME32,
-		kernels.GetZeroCastKernel(arrow.TIME32,
-			exec.NewIDInput(arrow.TIME32), exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
-	out = append(out, castInt32)
-
-	castInt64 := getFn("cast_int64", arrow.INT64, kernels.GetCastToInteger[int64](arrow.PrimitiveTypes.Int64))
-	castInt64.AddTypeCast(arrow.DATE64,
-		kernels.GetZeroCastKernel(arrow.DATE64,
-			exec.NewIDInput(arrow.DATE64),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.TIME64,
-		kernels.GetZeroCastKernel(arrow.TIME64,
-			exec.NewIDInput(arrow.TIME64),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.DURATION,
-		kernels.GetZeroCastKernel(arrow.DURATION,
-			exec.NewIDInput(arrow.DURATION),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.TIMESTAMP,
-		kernels.GetZeroCastKernel(arrow.TIMESTAMP,
-			exec.NewIDInput(arrow.TIMESTAMP),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	out = append(out, castInt64)
-
-	out = append(out, getFn("cast_uint8", arrow.UINT8, kernels.GetCastToInteger[uint8](arrow.PrimitiveTypes.Uint8)))
-	out = append(out, getFn("cast_uint16", arrow.UINT16, kernels.GetCastToInteger[uint16](arrow.PrimitiveTypes.Uint16)))
-	out = append(out, getFn("cast_uint32", arrow.UINT32, kernels.GetCastToInteger[uint32](arrow.PrimitiveTypes.Uint32)))
-	out = append(out, getFn("cast_uint64", arrow.UINT64, kernels.GetCastToInteger[uint64](arrow.PrimitiveTypes.Uint64)))
-
-	out = append(out, getFn("cast_half_float", arrow.FLOAT16, kernels.GetCommonCastKernels(arrow.FLOAT16, exec.NewOutputType(arrow.FixedWidthTypes.Float16))))
-	out = append(out, getFn("cast_float", arrow.FLOAT32, kernels.GetCastToFloating[float32](arrow.PrimitiveTypes.Float32)))
-	out = append(out, getFn("cast_double", arrow.FLOAT64, kernels.GetCastToFloating[float64](arrow.PrimitiveTypes.Float64)))
-
-	// cast to decimal128
-	out = append(out, getFn("cast_decimal", arrow.DECIMAL128, kernels.GetCastToDecimal128()))
-	// cast to decimal256
-	out = append(out, getFn("cast_decimal256", arrow.DECIMAL256, kernels.GetCastToDecimal256()))
-	return out
-}
-
-func getBinaryLikeCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	addFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) {
-		fn := newCastFunction(name, ty)
-		for _, k := range kns {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-
-		out = append(out, fn)
-	}
-
-	addFn("cast_binary", arrow.BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.Binary))
-	addFn("cast_large_binary", arrow.LARGE_BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeBinary))
-	addFn("cast_string", arrow.STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.String))
-	addFn("cast_large_string", arrow.LARGE_STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeString))
-	addFn("cast_fixed_sized_binary", arrow.FIXED_SIZE_BINARY, kernels.GetFsbCastKernels())
-	return out
-}
-
-// CastDatum is a convenience function for casting a Datum to another type.
-// It is equivalent to calling CallFunction(ctx, "cast", opts, Datum) and
-// should work for Scalar, Array or ChunkedArray Datums.
-func CastDatum(ctx context.Context, val Datum, opts *CastOptions) (Datum, error) {
-	return CallFunction(ctx, "cast", opts, val)
-}
-
-// CastArray is a convenience function for casting an Array to another type.
-// It is equivalent to constructing a Datum for the array and using
-// CallFunction(ctx, "cast", ...).
-func CastArray(ctx context.Context, val arrow.Array, opts *CastOptions) (arrow.Array, error) {
-	d := NewDatum(val)
-	defer d.Release()
-
-	out, err := CastDatum(ctx, d, opts)
-	if err != nil {
-		return nil, err
-	}
-
-	defer out.Release()
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-// CastToType is a convenience function equivalent to calling
-// CastArray(ctx, val, compute.SafeCastOptions(toType))
-func CastToType(ctx context.Context, val arrow.Array, toType arrow.DataType) (arrow.Array, error) {
-	return CastArray(ctx, val, SafeCastOptions(toType))
-}
-
-// CanCast returns true if there is an implementation for casting an array
-// or scalar value from the specified DataType to the other data type.
-func CanCast(from, to arrow.DataType) bool {
-	fn, err := getCastFunction(to)
-	if err != nil {
-		return false
-	}
-
-	for _, id := range fn.inIDs {
-		if from.ID() == id {
-			return true
-		}
-	}
-	return false
-}
diff --git a/go/arrow/compute/cast_test.go b/go/arrow/compute/cast_test.go
deleted file mode 100644
index db6098225dda8..0000000000000
--- a/go/arrow/compute/cast_test.go
+++ /dev/null
@@ -1,2867 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func getScalars(inputs []compute.Datum, idx int) []scalar.Scalar {
-	out := make([]scalar.Scalar, len(inputs))
-	for i, in := range inputs {
-		if in.Kind() == compute.KindArray {
-			arr := in.(*compute.ArrayDatum).MakeArray()
-			defer arr.Release()
-			out[i], _ = scalar.GetScalar(arr, idx)
-		} else {
-			out[i] = in.(*compute.ScalarDatum).Value
-		}
-	}
-	return out
-}
-
-func getDatums[T any](inputs []T) []compute.Datum {
-	out := make([]compute.Datum, len(inputs))
-	for i, in := range inputs {
-		out[i] = compute.NewDatum(in)
-	}
-	return out
-}
-
-func assertArraysEqual(t *testing.T, expected, actual arrow.Array, opts ...array.EqualOption) bool {
-	return assert.Truef(t, array.ApproxEqual(expected, actual, opts...), "expected: %s\ngot: %s", expected, actual)
-}
-
-func assertDatumsEqual(t *testing.T, expected, actual compute.Datum, opts []array.EqualOption, scalarOpts []scalar.EqualOption) {
-	require.Equal(t, expected.Kind(), actual.Kind())
-
-	switch expected.Kind() {
-	case compute.KindScalar:
-		want := expected.(*compute.ScalarDatum).Value
-		got := actual.(*compute.ScalarDatum).Value
-		assert.Truef(t, scalar.ApproxEquals(want, got, scalarOpts...), "expected: %s\ngot: %s", want, got)
-	case compute.KindArray:
-		want := expected.(*compute.ArrayDatum).MakeArray()
-		got := actual.(*compute.ArrayDatum).MakeArray()
-		assertArraysEqual(t, want, got, opts...)
-		want.Release()
-		got.Release()
-	case compute.KindChunked:
-		want := expected.(*compute.ChunkedDatum).Value
-		got := actual.(*compute.ChunkedDatum).Value
-		assert.Truef(t, array.ChunkedEqual(want, got), "expected: %s\ngot: %s", want, got)
-	default:
-		assert.Truef(t, actual.Equals(expected), "expected: %s\ngot: %s", expected, actual)
-	}
-}
-
-func checkScalarNonRecursive(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
-	out, err := compute.CallFunction(context.Background(), funcName, opts, inputs...)
-	assert.NoError(t, err)
-	defer out.Release()
-	assertDatumsEqual(t, expected, out, nil, nil)
-}
-
-func checkScalarWithScalars(t *testing.T, funcName string, inputs []scalar.Scalar, expected scalar.Scalar, opts compute.FunctionOptions) {
-	datums := getDatums(inputs)
-	defer func() {
-		for _, s := range inputs {
-			if r, ok := s.(scalar.Releasable); ok {
-				r.Release()
-			}
-		}
-		for _, d := range datums {
-			d.Release()
-		}
-	}()
-	out, err := compute.CallFunction(context.Background(), funcName, opts, datums...)
-	assert.NoError(t, err)
-	defer out.Release()
-	if !scalar.Equals(out.(*compute.ScalarDatum).Value, expected) {
-		var b strings.Builder
-		b.WriteString(funcName + "(")
-		for i, in := range inputs {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			b.WriteString(in.String())
-		}
-		b.WriteByte(')')
-		b.WriteString(" = " + out.(*compute.ScalarDatum).Value.String())
-		b.WriteString(" != " + expected.String())
-
-		if !arrow.TypeEqual(out.(*compute.ScalarDatum).Type(), expected.DataType()) {
-			fmt.Fprintf(&b, " (types differed: %s vs %s)",
-				out.(*compute.ScalarDatum).Type(), expected.DataType())
-		}
-		t.Fatal(b.String())
-	}
-}
-
-func checkScalar(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
-	checkScalarNonRecursive(t, funcName, inputs, expected, opts)
-
-	if expected.Kind() == compute.KindScalar {
-		return
-	}
-
-	exp := expected.(*compute.ArrayDatum).MakeArray()
-	defer exp.Release()
-
-	// check for at least 1 array, and make sure the others are of equal len
-	hasArray := false
-	for _, in := range inputs {
-		if in.Kind() == compute.KindArray {
-			assert.EqualValues(t, exp.Len(), in.(*compute.ArrayDatum).Len())
-			hasArray = true
-		}
-	}
-
-	require.True(t, hasArray)
-
-	// check all the input scalars
-	for i := 0; i < exp.Len(); i++ {
-		e, _ := scalar.GetScalar(exp, i)
-		checkScalarWithScalars(t, funcName, getScalars(inputs, i), e, opts)
-		if r, ok := e.(scalar.Releasable); ok {
-			r.Release()
-		}
-	}
-}
-
-func assertBufferSame(t *testing.T, left, right arrow.Array, idx int) {
-	assert.Same(t, left.Data().Buffers()[idx], right.Data().Buffers()[idx])
-}
-
-func checkScalarUnary(t *testing.T, funcName string, input compute.Datum, exp compute.Datum, opt compute.FunctionOptions) {
-	checkScalar(t, funcName, []compute.Datum{input}, exp, opt)
-}
-
-func checkCast(t *testing.T, input arrow.Array, exp arrow.Array, opts compute.CastOptions) {
-	opts.ToType = exp.DataType()
-	in, out := compute.NewDatum(input), compute.NewDatum(exp)
-	defer in.Release()
-	defer out.Release()
-	checkScalarUnary(t, "cast", in, out, &opts)
-}
-
-func checkCastFails(t *testing.T, input arrow.Array, opt compute.CastOptions) {
-	_, err := compute.CastArray(context.Background(), input, &opt)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-
-	// for scalars, check that at least one of the input fails
-	// since many of the tests contain a mix of passing and failing values.
-	// in some cases we will want to check more precisely
-	nfail := 0
-	for i := 0; i < input.Len(); i++ {
-		sc, _ := scalar.GetScalar(input, i)
-		if r, ok := sc.(scalar.Releasable); ok {
-			defer r.Release()
-		}
-		d := compute.NewDatum(sc)
-		defer d.Release()
-		out, err := compute.CastDatum(context.Background(), d, &opt)
-		if err != nil {
-			nfail++
-		} else {
-			out.Release()
-		}
-	}
-	assert.Greater(t, nfail, 0)
-}
-
-func checkCastZeroCopy(t *testing.T, input arrow.Array, toType arrow.DataType, opts *compute.CastOptions) {
-	opts.ToType = toType
-	out, err := compute.CastArray(context.Background(), input, opts)
-	assert.NoError(t, err)
-	defer out.Release()
-
-	assert.Len(t, out.Data().Buffers(), len(input.Data().Buffers()))
-	for i := range out.Data().Buffers() {
-		assertBufferSame(t, out, input, i)
-	}
-}
-
-var (
-	signedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-	}
-	unsignedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	integerTypes  = append(signedIntTypes, unsignedIntTypes...)
-	floatingTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-	numericTypes    = append(integerTypes, floatingTypes...)
-	baseBinaryTypes = []arrow.DataType{
-		arrow.BinaryTypes.Binary,
-		arrow.BinaryTypes.LargeBinary,
-		arrow.BinaryTypes.String,
-		arrow.BinaryTypes.LargeString,
-	}
-	dictIndexTypes = integerTypes
-)
-
-type CastSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-}
-
-func (c *CastSuite) allocateEmptyBitmap(len int) *memory.Buffer {
-	buf := memory.NewResizableBuffer(c.mem)
-	buf.Resize(int(bitutil.BytesForBits(int64(len))))
-	return buf
-}
-
-func (c *CastSuite) maskArrayWithNullsAt(input arrow.Array, toMask []int) arrow.Array {
-	masked := input.Data().(*array.Data).Copy()
-	defer masked.Release()
-	if masked.Buffers()[0] != nil {
-		masked.Buffers()[0].Release()
-	}
-	masked.Buffers()[0] = c.allocateEmptyBitmap(input.Len())
-	masked.SetNullN(array.UnknownNullCount)
-
-	if original := input.NullBitmapBytes(); len(original) > 0 {
-		bitutil.CopyBitmap(original, input.Data().Offset(), input.Len(), masked.Buffers()[0].Bytes(), 0)
-	} else {
-		bitutil.SetBitsTo(masked.Buffers()[0].Bytes(), 0, int64(input.Len()), true)
-	}
-
-	for _, i := range toMask {
-		bitutil.SetBitTo(masked.Buffers()[0].Bytes(), i, false)
-	}
-
-	return array.MakeFromData(masked)
-}
-
-func (c *CastSuite) invalidUtf8Arr(dt arrow.DataType) arrow.Array {
-	bldr := array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
-	defer bldr.Release()
-
-	bldr.AppendValues([][]byte{
-		[]byte("Hi"),
-		[]byte("olá mundo"),
-		[]byte("你好世界"),
-		[]byte(""),
-		[]byte("\xa0\xa1"), // invalid utf8!
-	}, nil)
-
-	return bldr.NewArray()
-}
-
-type binaryBuilderAppend interface {
-	array.Builder
-	AppendValues([][]byte, []bool)
-}
-
-func (c *CastSuite) fixedSizeInvalidUtf8(dt arrow.DataType) arrow.Array {
-	var bldr binaryBuilderAppend
-	if dt.ID() == arrow.FIXED_SIZE_BINARY {
-		c.Require().Equal(3, dt.(*arrow.FixedSizeBinaryType).ByteWidth)
-		bldr = array.NewFixedSizeBinaryBuilder(c.mem, dt.(*arrow.FixedSizeBinaryType))
-	} else {
-		bldr = array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
-	}
-
-	defer bldr.Release()
-
-	bldr.AppendValues([][]byte{
-		[]byte("Hi!"),
-		[]byte("lá"),
-		[]byte("你"),
-		[]byte("   "),
-		[]byte("\xa0\xa1\xa2"), // invalid utf8!
-	}, nil)
-
-	return bldr.NewArray()
-}
-
-func (c *CastSuite) SetupTest() {
-	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (c *CastSuite) TearDownTest() {
-	c.mem.AssertSize(c.T(), 0)
-}
-
-func (c *CastSuite) TestCanCast() {
-	expectCanCast := func(from arrow.DataType, toSet []arrow.DataType, expected bool) {
-		for _, to := range toSet {
-			c.Equalf(expected, compute.CanCast(from, to), "CanCast from: %s, to: %s, expected: %t",
-				from, to, expected)
-		}
-	}
-
-	canCast := func(from arrow.DataType, toSet []arrow.DataType) {
-		expectCanCast(from, toSet, true)
-	}
-
-	cannotCast := func(from arrow.DataType, toSet []arrow.DataType) {
-		expectCanCast(from, toSet, false)
-	}
-
-	canCast(arrow.Null, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-	canCast(arrow.Null, numericTypes)
-	canCast(arrow.Null, baseBinaryTypes)
-	canCast(arrow.Null, []arrow.DataType{
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s,
-	})
-	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.Null}, []arrow.DataType{arrow.Null})
-
-	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-	canCast(arrow.FixedWidthTypes.Boolean, numericTypes)
-	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.FixedWidthTypes.Boolean}, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.Null})
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s})
-
-	for _, from := range numericTypes {
-		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-		canCast(from, numericTypes)
-		canCast(from, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: from}, []arrow.DataType{from})
-
-		cannotCast(from, []arrow.DataType{arrow.Null})
-	}
-
-	for _, from := range baseBinaryTypes {
-		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-		canCast(from, numericTypes)
-		canCast(from, baseBinaryTypes)
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int64, ValueType: from}, []arrow.DataType{from})
-
-		// any cast which is valid for the dictionary is valid for the dictionary array
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: from}, baseBinaryTypes)
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: from}, baseBinaryTypes)
-
-		cannotCast(from, []arrow.DataType{arrow.Null})
-	}
-
-	canCast(arrow.BinaryTypes.String, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ms})
-	canCast(arrow.BinaryTypes.LargeString, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ns})
-	// no formatting supported
-	cannotCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
-
-	canCast(&arrow.FixedSizeBinaryType{ByteWidth: 3}, []arrow.DataType{
-		arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString,
-		&arrow.FixedSizeBinaryType{ByteWidth: 3}})
-
-	arrow.RegisterExtensionType(types.NewSmallintType())
-	defer arrow.UnregisterExtensionType("smallint")
-	canCast(types.NewSmallintType(), []arrow.DataType{arrow.PrimitiveTypes.Int16})
-	canCast(types.NewSmallintType(), numericTypes) // any cast which is valid for storage is supported
-	canCast(arrow.Null, []arrow.DataType{types.NewSmallintType()})
-
-	canCast(arrow.FixedWidthTypes.Date32, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Date64, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Timestamp_ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Time32ms, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Time64ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-}
-
-func (c *CastSuite) checkCastFails(dt arrow.DataType, input string, opts *compute.CastOptions) {
-	inArr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(input), array.WithUseNumber())
-	defer inArr.Release()
-
-	checkCastFails(c.T(), inArr, *opts)
-}
-
-func (c *CastSuite) checkCastOpts(dtIn, dtOut arrow.DataType, inJSON, outJSON string, opts compute.CastOptions) {
-	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
-	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(outJSON), array.WithUseNumber())
-	defer inArr.Release()
-	defer outArr.Release()
-
-	checkCast(c.T(), inArr, outArr, opts)
-}
-
-func (c *CastSuite) checkCast(dtIn, dtOut arrow.DataType, inJSON, outJSON string) {
-	c.checkCastOpts(dtIn, dtOut, inJSON, outJSON, *compute.DefaultCastOptions(true))
-}
-
-func (c *CastSuite) checkCastArr(in arrow.Array, dtOut arrow.DataType, json string, opts compute.CastOptions) {
-	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(json), array.WithUseNumber())
-	defer outArr.Release()
-	checkCast(c.T(), in, outArr, opts)
-}
-
-func (c *CastSuite) checkCastExp(dtIn arrow.DataType, inJSON string, exp arrow.Array) {
-	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
-	defer inArr.Release()
-	checkCast(c.T(), inArr, exp, *compute.DefaultCastOptions(true))
-}
-
-func (c *CastSuite) TestNumericToBool() {
-	for _, dt := range numericTypes {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`[0, null, 127, 1, 0]`, `[false, null, true, true, false]`)
-	}
-
-	// check negative numbers
-	for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Float64} {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`[0, null, 127, -1, 0]`, `[false, null, true, true, false]`)
-	}
-}
-
-func (c *CastSuite) StringToBool() {
-	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`["False", null, "true", "True", "false"]`, `[false, null, true, true, false]`)
-
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`["0", null, "1", "1", "0"]`, `[false, null, true, true, false]`)
-
-		opts := compute.NewCastOptions(arrow.FixedWidthTypes.Boolean, true)
-		c.checkCastFails(dt, `["false "]`, opts)
-		c.checkCastFails(dt, `["T"]`, opts)
-	}
-}
-
-func (c *CastSuite) TestToIntUpcast() {
-	c.checkCast(arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32,
-		`[0, null, 127, -1, 0]`, `[0, null, 127, -1, 0]`)
-
-	c.checkCast(arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int16,
-		`[0, 100, 200, 255, 0]`, `[0, 100, 200, 255, 0]`)
-}
-
-func (c *CastSuite) TestToIntDowncastSafe() {
-	// int16 to uint8 no overflow/underflow
-	c.checkCast(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`)
-
-	// int16 to uint8, overflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, 256, 0, 0]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-	// and underflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, -1, 0, 0]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-
-	// int32 to int16, no overflow/underflow
-	c.checkCast(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 1, 2]`, `[0, null, 2000, 1, 2]`)
-
-	// int32 to int16, overflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
-
-	// and underflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
-
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-
-}
-
-func (c *CastSuite) TestIntegerSignedToUnsigned() {
-	i32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[-2147483648, null, -1, 65535, 2147483647]`))
-	defer i32s.Release()
-
-	// same width
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint32, true))
-	// wider
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint64, true))
-	// narrower
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
-
-	var options compute.CastOptions
-	options.AllowIntOverflow = true
-
-	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32,
-		strings.NewReader(`[2147483648, null, 4294967295, 65535, 2147483647]`))
-	defer u32s.Release()
-	checkCast(c.T(), i32s, u32s, options)
-
-	u64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint64,
-		strings.NewReader(`[18446744071562067968, null, 18446744073709551615, 65535, 2147483647]`),
-		array.WithUseNumber()) // have to use WithUseNumber so it doesn't lose precision converting to float64
-	defer u64s.Release()
-	checkCast(c.T(), i32s, u64s, options)
-
-	// fail because of overflow, instead of underflow
-	i32s, _, _ = array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, null, 0, 65536, 2147483647]`))
-	defer i32s.Release()
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
-
-	u16s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint16, strings.NewReader(`[0, null, 0, 0, 65535]`))
-	defer u16s.Release()
-	checkCast(c.T(), i32s, u16s, options)
-}
-
-func (c *CastSuite) TestIntegerUnsignedToSigned() {
-	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32, strings.NewReader(`[4294967295, null, 0, 32768]`))
-	defer u32s.Release()
-	// same width
-	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int32))
-
-	// narrower
-	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
-	sl := array.NewSlice(u32s, 1, int64(u32s.Len()))
-	defer sl.Release()
-	checkCastFails(c.T(), sl, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
-
-	var opts compute.CastOptions
-	opts.AllowIntOverflow = true
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int32, `[-1, null, 0, 32768]`, opts)
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int64, `[4294967295, null, 0, 32768]`, opts)
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int16, `[-1, null, 0, -32768]`, opts)
-}
-
-func (c *CastSuite) TestToIntDowncastUnsafe() {
-	opts := compute.CastOptions{AllowIntOverflow: true}
-	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 256, 1, 2, -1]`, `[0, null, 0, 1, 2, 255]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 1, 2, -1]`, `[0, null, 2000, 1, 2, -1]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 70000, -70000]`, `[0, null, 2000, 4464, -4464]`, opts)
-}
-
-func (c *CastSuite) TestFloatingToInt() {
-	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		for _, to := range []arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64} {
-			// float to int no truncation
-			c.checkCast(from, to, `[1.0, null, 0.0, -1.0, 5.0]`, `[1, null, 0, -1, 5]`)
-
-			// float to int truncate error
-			opts := compute.SafeCastOptions(to)
-			c.checkCastFails(from, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, opts)
-
-			// float to int truncate allowed
-			opts.AllowFloatTruncate = true
-			c.checkCastOpts(from, to, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, `[1, 0, null, 0, -1, 5]`, *opts)
-		}
-	}
-}
-
-func (c *CastSuite) TestIntToFloating() {
-	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32} {
-		two24 := `[16777216, 16777217]`
-		c.checkCastFails(from, two24, compute.SafeCastOptions(arrow.PrimitiveTypes.Float32))
-		one24 := `[16777216]`
-		c.checkCast(from, arrow.PrimitiveTypes.Float32, one24, one24)
-	}
-
-	i64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int64,
-		strings.NewReader(`[-9223372036854775808, -9223372036854775807, 0, 9223372036854775806,  9223372036854775807]`),
-		array.WithUseNumber())
-	defer i64s.Release()
-
-	checkCastFails(c.T(), i64s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
-	masked := c.maskArrayWithNullsAt(i64s, []int{0, 1, 3, 4})
-	defer masked.Release()
-	c.checkCastArr(masked, arrow.PrimitiveTypes.Float64, `[null, null, 0, null, null]`, *compute.DefaultCastOptions(true))
-
-	c.checkCastFails(arrow.PrimitiveTypes.Uint64, `[9007199254740992, 9007199254740993]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
-}
-
-func (c *CastSuite) TestDecimal128ToInt() {
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
-
-	c.Run("no overflow no truncate", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverflow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
-
-						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-						noOverflowNoTrunc.Release()
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("truncate no overflow", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
-				opts.AllowIntOverflow = allowIntOverflow
-				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
-
-				opts.AllowDecimalTruncate = true
-				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-
-				opts.AllowDecimalTruncate = false
-				checkCastFails(c.T(), truncNoOverflow, *opts)
-				truncNoOverflow.Release()
-			})
-		}
-	})
-
-	c.Run("overflow no truncate", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-					strings.NewReader(`[
-						"12345678901234567890000.0000000000",
-						"99999999999999999999999.0000000000",
-						null]`), array.WithUseNumber())
-				defer overflowNoTrunc.Release()
-				opts.AllowIntOverflow = true
-				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
-					// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
-					`[4807115922877858896, 200376420520689663, null]`, *opts)
-
-				opts.AllowIntOverflow = false
-				checkCastFails(c.T(), overflowNoTrunc, *opts)
-			})
-		}
-	})
-
-	c.Run("overflow and truncate", func() {
-		for _, allowIntOverFlow := range []bool{false, true} {
-			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverFlow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-							strings.NewReader(`[
-							"12345678901234567890000.0045345000",
-							"99999999999999999999999.0000344300",
-							null]`), array.WithUseNumber())
-						defer overflowAndTruncate.Release()
-						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
-							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
-								// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
-								`[4807115922877858896, 200376420520689663, null]`, *opts)
-						} else {
-							checkCastFails(c.T(), overflowAndTruncate, *opts)
-						}
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("negative scale", func() {
-		bldr := array.NewDecimal128Builder(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: -4})
-		defer bldr.Release()
-
-		var err error
-		for _, d := range []decimal128.Num{decimal128.FromU64(1234567890000), decimal128.FromI64(-120000)} {
-			d, err = d.Rescale(0, -4)
-			c.Require().NoError(err)
-			bldr.Append(d)
-		}
-		negScale := bldr.NewArray()
-		defer negScale.Release()
-
-		opts.AllowIntOverflow = true
-		opts.AllowDecimalTruncate = true
-		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToInt() {
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
-
-	c.Run("no overflow no truncate", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverflow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
-
-						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-						noOverflowNoTrunc.Release()
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("truncate no overflow", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
-				opts.AllowIntOverflow = allowIntOverflow
-				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
-
-				opts.AllowDecimalTruncate = true
-				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-
-				opts.AllowDecimalTruncate = false
-				checkCastFails(c.T(), truncNoOverflow, *opts)
-				truncNoOverflow.Release()
-			})
-		}
-	})
-
-	c.Run("overflow no truncate", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-					strings.NewReader(`[
-						"1234567890123456789000000.0000000000",
-						"9999999999999999999999999.0000000000",
-						null]`), array.WithUseNumber())
-				defer overflowNoTrunc.Release()
-				opts.AllowIntOverflow = true
-				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
-					// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
-					`[1096246371337547584, 1590897978359414783, null]`, *opts)
-
-				opts.AllowIntOverflow = false
-				checkCastFails(c.T(), overflowNoTrunc, *opts)
-			})
-		}
-	})
-
-	c.Run("overflow and truncate", func() {
-		for _, allowIntOverFlow := range []bool{false, true} {
-			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverFlow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-							strings.NewReader(`[
-							"1234567890123456789000000.0045345000",
-							"9999999999999999999999999.0000344300",
-							null]`), array.WithUseNumber())
-						defer overflowAndTruncate.Release()
-						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
-							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
-								// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
-								`[1096246371337547584, 1590897978359414783, null]`, *opts)
-						} else {
-							checkCastFails(c.T(), overflowAndTruncate, *opts)
-						}
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("negative scale", func() {
-		bldr := array.NewDecimal256Builder(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: -4})
-		defer bldr.Release()
-
-		var err error
-		for _, d := range []decimal256.Num{decimal256.FromU64(1234567890000), decimal256.FromI64(-120000)} {
-			d, err = d.Rescale(0, -4)
-			c.Require().NoError(err)
-			bldr.Append(d)
-		}
-		negScale := bldr.NewArray()
-		defer negScale.Release()
-
-		opts.AllowIntOverflow = true
-		opts.AllowDecimalTruncate = true
-		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestIntegerToDecimal() {
-	for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 22, Scale: 2}, &arrow.Decimal256Type{Precision: 22, Scale: 2}} {
-		c.Run(decType.String(), func() {
-			for _, intType := range integerTypes {
-				c.Run(intType.String(), func() {
-					c.checkCast(intType, decType, `[0, 7, null, 100, 99]`, `["0.00", "7.00", null, "100.00", "99.00"]`)
-				})
-			}
-		})
-	}
-
-	c.Run("extreme value", func() {
-		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0}, &arrow.Decimal256Type{Precision: 19, Scale: 0}} {
-			c.Run(dt.String(), func() {
-				c.checkCast(arrow.PrimitiveTypes.Int64, dt,
-					`[-9223372036854775808, 9223372036854775807]`, `["-9223372036854775808", "9223372036854775807"]`)
-			})
-		}
-		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 20, Scale: 0}, &arrow.Decimal256Type{Precision: 20, Scale: 0}} {
-			c.Run(dt.String(), func() {
-				c.checkCast(arrow.PrimitiveTypes.Uint64, dt,
-					`[0, 18446744073709551615]`, `["0", "18446744073709551615"]`)
-			})
-		}
-	})
-
-	c.Run("insufficient output precision", func() {
-		var opts compute.CastOptions
-		opts.ToType = &arrow.Decimal128Type{Precision: 5, Scale: 3}
-		c.checkCastFails(arrow.PrimitiveTypes.Int8, `[0]`, &opts)
-
-		opts.ToType = &arrow.Decimal256Type{Precision: 76, Scale: 67}
-		c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0]`, &opts)
-	})
-}
-
-func (c *CastSuite) TestDecimal128ToDecimal128() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d42, d52, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			dP38S10.Release()
-			dP28S0.Release()
-			dP38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), dP38S10, dP28S0, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = dP28S0.DataType()
-		checkCastFails(c.T(), dP38S10, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3},
-			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToDecimal256() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d42, d52, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			dP38S10.Release()
-			dP28S0.Release()
-			dP38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), dP38S10, dP28S0, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = dP28S0.DataType()
-		checkCastFails(c.T(), dP38S10, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 4, Scale: 3},
-			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal128ToDecimal256() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d402, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-				defer d402.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d52, d402, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		d128P38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d256P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d256P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			d128P38S10.Release()
-			d128P28S0.Release()
-			d256P28S0.Release()
-			d256P38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), d128P38S10, d256P28S0, opts)
-		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = d256P28S0.DataType()
-		checkCastFails(c.T(), d128P38S10, opts)
-		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d128P4S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d128P4S2.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 4, Scale: 3},
-			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d128P4S2, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d128P4S2, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToDecimal128() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				dP42S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer dP42S2.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), dP42S2, d42, opts)
-				checkCast(c.T(), d42, dP42S2, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		d256P52S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 52, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		d256P42S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d128P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			d256P52S10.Release()
-			d256P42S0.Release()
-			d128P28S0.Release()
-			d128P38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), d256P52S10, d128P28S0, opts)
-		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = d128P28S0.DataType()
-		checkCastFails(c.T(), d256P52S10, opts)
-		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3},
-			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestFloatingToDecimal() {
-	for _, fltType := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		c.Run("from "+fltType.String(), func() {
-			for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
-				c.Run("to "+decType.String(), func() {
-					c.checkCast(fltType, decType,
-						`[0.0, null, 123.45, 123.456, 999.994]`, `["0.00", null, "123.45", "123.46", "999.99"]`)
-
-					c.Run("overflow", func() {
-						opts := compute.CastOptions{ToType: decType}
-						c.checkCastFails(fltType, `[999.996]`, &opts)
-
-						opts.AllowDecimalTruncate = true
-						c.checkCastOpts(fltType, decType, `[0.0, null, 999.996, 123.45, 999.994]`,
-							`["0.00", null, "0.00", "123.45", "999.99"]`, opts)
-					})
-				})
-			}
-		})
-	}
-
-	dec128 := func(prec, scale int32) arrow.DataType {
-		return &arrow.Decimal128Type{Precision: prec, Scale: scale}
-	}
-	dec256 := func(prec, scale int32) arrow.DataType {
-		return &arrow.Decimal256Type{Precision: prec, Scale: scale}
-	}
-
-	type decFunc func(int32, int32) arrow.DataType
-
-	for _, decType := range []decFunc{dec128, dec256} {
-		// 2**64 + 2**41 (exactly representable as a float)
-		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 0),
-			`[1.8446746e+19, -1.8446746e+19]`,
-			`[18446746272732807168, -18446746272732807168]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 0),
-			`[1.8446744073709556e+19, -1.8446744073709556e+19]`,
-			`[18446744073709555712, -18446744073709555712]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 4),
-			`[1.8446746e+15, -1.8446746e+15]`,
-			`[1844674627273280.7168, -1844674627273280.7168]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 4),
-			`[1.8446744073709556e+15, -1.8446744073709556e+15]`,
-			`[1844674407370955.5712, -1844674407370955.5712]`)
-	}
-}
-
-func (c *CastSuite) TestDecimalToFloating() {
-	for _, flt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		c.Run(flt.String(), func() {
-			for _, dec := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
-				c.Run(dec.String(), func() {
-					c.checkCast(dec, flt, `["0.00", null, "123.45", "999.99"]`,
-						`[0.0, null, 123.45, 999.99]`)
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestDateToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Date32, stype,
-			`[0, null]`, `["1970-01-01", null]`)
-		c.checkCast(arrow.FixedWidthTypes.Date64, stype,
-			`[86400000, null]`, `["1970-01-02", null]`)
-	}
-}
-
-func (c *CastSuite) TestTimeToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Time32s, stype, `[1, 62]`, `["00:00:01", "00:01:02"]`)
-		c.checkCast(arrow.FixedWidthTypes.Time64ns, stype, `[0, 1]`, `["00:00:00.000000000", "00:00:00.000000001"]`)
-	}
-}
-
-func (c *CastSuite) TestTimestampToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Second}, stype,
-			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00", "1800-01-01 00:00:00"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond}, stype,
-			`[-30610224000000, -5364662400000]`, `["1000-01-01 00:00:00.000", "1800-01-01 00:00:00.000"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond}, stype,
-			`[-30610224000000000, -5364662400000000]`, `["1000-01-01 00:00:00.000000", "1800-01-01 00:00:00.000000"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond}, stype,
-			`[-596933876543210988, 349837323456789012]`, `["1951-02-01 01:02:03.456789012", "1981-02-01 01:02:03.456789012"]`)
-	}
-}
-
-func (c *CastSuite) TestTimestampWithZoneToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Timestamp_s, stype,
-			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00Z", "1800-01-01 00:00:00Z"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955, 1456767743]`, `["1968-11-30 13:30:45-0700", "2016-02-29 10:42:23-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955877, 1456767743456]`, `["1968-11-30 13:30:44.123-0700", "2016-02-29 10:42:23.456-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955877000, 1456767743456789]`, `["1968-11-30 13:30:44.123000-0700", "2016-02-29 10:42:23.456789-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955876543211, 1456767743456789246]`, `["1968-11-30 13:30:44.123456789-0700", "2016-02-29 10:42:23.456789246-0700"]`)
-	}
-}
-
-func (c *CastSuite) assertBinaryZeroCopy(lhs, rhs arrow.Array) {
-	// null bitmap and data buffers are always zero-copied
-	assertBufferSame(c.T(), lhs, rhs, 0)
-	assertBufferSame(c.T(), lhs, rhs, 2)
-
-	lOffsetByteWidth := lhs.DataType().Layout().Buffers[1].ByteWidth
-	rOffsetByteWidth := rhs.DataType().Layout().Buffers[1].ByteWidth
-	if lOffsetByteWidth == rOffsetByteWidth {
-		assertBufferSame(c.T(), lhs, rhs, 1)
-		return
-	}
-
-	offsets := make([]arrow.Array, 0, 2)
-	for _, arr := range []arrow.Array{lhs, rhs} {
-		length := arr.Len()
-		buffer := arr.Data().Buffers()[1]
-
-		byteWidth := arr.DataType().Layout().Buffers[1].ByteWidth
-		switch byteWidth {
-		case 4:
-			data := array.NewData(arrow.PrimitiveTypes.Int32, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-			defer data.Release()
-			i32 := array.NewInt32Data(data)
-			i64, err := compute.CastArray(context.Background(), i32, compute.SafeCastOptions(arrow.PrimitiveTypes.Int64))
-			c.Require().NoError(err)
-			i32.Release()
-			defer i64.Release()
-			offsets = append(offsets, i64)
-		default:
-			data := array.NewData(arrow.PrimitiveTypes.Int64, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-			defer data.Release()
-			i64 := array.NewInt64Data(data)
-			defer i64.Release()
-			offsets = append(offsets, i64)
-		}
-	}
-	c.Truef(array.Equal(offsets[0], offsets[1]), "lhs: %s\nrhs: %s", offsets[0], offsets[1])
-}
-
-func (c *CastSuite) TestBinaryToString() {
-	for _, btype := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-		c.Run(btype.String(), func() {
-			for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-				c.Run(stype.String(), func() {
-					// empty -> empty always works
-					c.checkCast(btype, stype, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(btype)
-					defer invalidUtf8.Release()
-
-					invalidutf8Str := c.invalidUtf8Arr(stype)
-					defer invalidutf8Str.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
-
-					opts := compute.SafeCastOptions(stype)
-					checkCastFails(c.T(), invalidUtf8, *opts)
-
-					// override utf8 check
-					opts.AllowInvalidUtf8 = true
-					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
-					c.NoError(err)
-					defer strs.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, strs)
-				})
-			}
-		})
-	}
-
-	c.Run("fixed size binary", func() {
-		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
-		defer invalidUtf8Arr.Release()
-		for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-			c.Run(stype.String(), func() {
-				c.checkCast(fromType, stype, `[]`, `[]`)
-
-				// invalid utf-8 masked by a null bit is not an error
-				strInvalidUtf8 := c.fixedSizeInvalidUtf8(stype)
-				defer strInvalidUtf8.Release()
-
-				masked := c.maskArrayWithNullsAt(invalidUtf8Arr, []int{4})
-				expMasked := c.maskArrayWithNullsAt(strInvalidUtf8, []int{4})
-				defer masked.Release()
-				defer expMasked.Release()
-
-				checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
-
-				opts := compute.SafeCastOptions(stype)
-				checkCastFails(c.T(), invalidUtf8Arr, *opts)
-
-				// override utf8 check
-				opts.AllowInvalidUtf8 = true
-				strs, err := compute.CastArray(context.Background(), invalidUtf8Arr, opts)
-				c.NoError(err)
-				defer strs.Release()
-
-				// null buffer is not always the same if input is sliced
-				assertBufferSame(c.T(), invalidUtf8Arr, strs, 0)
-
-				c.Same(invalidUtf8Arr.Data().Buffers()[1], strs.Data().Buffers()[2])
-			})
-		}
-	})
-}
-
-func (c *CastSuite) TestBinaryOrStringToBinary() {
-	for _, fromType := range baseBinaryTypes {
-		c.Run(fromType.String(), func() {
-			for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-				c.Run(toType.String(), func() {
-					// empty -> empty always works
-					c.checkCast(fromType, toType, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(fromType)
-					defer invalidUtf8.Release()
-
-					// invalid utf-8 is not an error for binary
-					out, err := compute.CastToType(context.Background(), invalidUtf8, toType)
-					c.NoError(err)
-					defer out.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, out)
-
-					// invalid utf-8 masked by a null is also not an erro
-					invalidutf8Bin := c.invalidUtf8Arr(toType)
-					defer invalidutf8Bin.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Bin, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
-				})
-			}
-		})
-	}
-
-	c.Run("fixed size binary", func() {
-		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
-		defer invalidUtf8Arr.Release()
-
-		checkCast(c.T(), invalidUtf8Arr, invalidUtf8Arr, *compute.DefaultCastOptions(true))
-		checkCastFails(c.T(), invalidUtf8Arr, *compute.SafeCastOptions(&arrow.FixedSizeBinaryType{ByteWidth: 5}))
-		for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-			c.Run(toType.String(), func() {
-				c.checkCast(fromType, toType, `[]`, `[]`)
-
-				out, err := compute.CastToType(context.Background(), invalidUtf8Arr, toType)
-				c.NoError(err)
-				defer out.Release()
-				assertBufferSame(c.T(), invalidUtf8Arr, out, 0)
-
-				c.Same(invalidUtf8Arr.Data().Buffers()[1], out.Data().Buffers()[2])
-			})
-		}
-	})
-}
-
-func (c *CastSuite) TestStringToString() {
-	for _, fromType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run("from "+fromType.String(), func() {
-			for _, toType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-				c.Run("to "+toType.String(), func() {
-					c.checkCast(fromType, toType, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(fromType)
-					defer invalidUtf8.Release()
-
-					invalidutf8Str := c.invalidUtf8Arr(toType)
-					defer invalidutf8Str.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
-
-					opts := compute.SafeCastOptions(toType)
-					// override utf8 check
-					opts.AllowInvalidUtf8 = true
-					// utf-8 is not checked by cast when the origin (utf-8) guarantees utf-8
-					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
-					c.NoError(err)
-					defer strs.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, strs)
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestStringToInt() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		for _, dt := range signedIntTypes {
-			c.checkCast(stype, dt,
-				`["0", null, "127", "-1", "0", "0x0", "0x7F"]`,
-				`[0, null, 127, -1, 0, 0, 127]`)
-		}
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Int32,
-			`["2147483647", null, "-2147483648", "0", "0X0", "0x7FFFFFFF", "-0X1", "-0x10000000"]`,
-			`[2147483647, null, -2147483648, 0, 0, 2147483647, -1, -268435456]`)
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Int64,
-			`["9223372036854775807", null, "-9223372036854775808", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "-0x0FFFFFFFFFFFFFFF"]`,
-			`[9223372036854775807, null, -9223372036854775808, 0, 0, 9223372036854775807, -1152921504606846975]`)
-
-		for _, dt := range unsignedIntTypes {
-			c.checkCast(stype, dt, `["0", null, "127", "255", "0", "0x0", "0xff", "0X7f"]`,
-				`[0, null, 127, 255, 0, 0, 255, 127]`)
-		}
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Uint32,
-			`["2147483647", null, "4294967295", "0", "0x0", "0x7FFFFFFf", "0xFFFFFFFF"]`,
-			`[2147483647, null, 4294967295, 0, 0, 2147483647, 4294967295]`)
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Uint64,
-			`["9223372036854775807", null, "18446744073709551615", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "0xfFFFFFFFFFFFFFFf"]`,
-			`[9223372036854775807, null, 18446744073709551615, 0, 0, 9223372036854775807, 18446744073709551615]`)
-
-		for _, notInt8 := range []string{"z", "12 z", "128", "-129", "0.5", "0x", "0xfff", "-0xf0"} {
-			c.checkCastFails(stype, `["`+notInt8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Int8))
-		}
-
-		for _, notUint8 := range []string{"256", "-1", "0.5", "0x", "0x3wa", "0x123"} {
-			c.checkCastFails(stype, `["`+notUint8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8))
-		}
-	}
-}
-
-func (c *CastSuite) TestStringToFloating() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-			c.checkCast(stype, dt, `["0.1", null, "127.3", "1e3", "200.4", "0.5"]`,
-				`[0.1, null, 127.3, 1000, 200.4, 0.5]`)
-
-			for _, notFloat := range []string{"z"} {
-				c.checkCastFails(stype, `["`+notFloat+`"]`, compute.SafeCastOptions(dt))
-			}
-		}
-	}
-}
-
-func (c *CastSuite) TestUnsupportedInputType() {
-	// casting to a supported target type, but with an unsupported
-	// input for that target type.
-	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-	defer arr.Release()
-
-	toType := arrow.ListOf(arrow.BinaryTypes.String)
-	_, err := compute.CastToType(context.Background(), arr, toType)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
-
-	// test calling through the generic kernel API
-	datum := compute.NewDatum(arr)
-	defer datum.Release()
-	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
-}
-
-func (c *CastSuite) TestUnsupportedTargetType() {
-	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-	defer arr.Release()
-
-	toType := arrow.DenseUnionOf([]arrow.Field{{Name: "a", Type: arrow.PrimitiveTypes.Int32}}, []arrow.UnionTypeCode{0})
-	_, err := compute.CastToType(context.Background(), arr, toType)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
-
-	// test calling through the generic kernel API
-	datum := compute.NewDatum(arr)
-	defer datum.Release()
-	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
-}
-
-func (c *CastSuite) checkCastSelfZeroCopy(dt arrow.DataType, json string) {
-	arr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(json))
-	defer arr.Release()
-
-	checkCastZeroCopy(c.T(), arr, dt, compute.NewCastOptions(dt, true))
-}
-
-func (c *CastSuite) checkCastZeroCopy(from arrow.DataType, json string, to arrow.DataType) {
-	arr, _, _ := array.FromJSON(c.mem, from, strings.NewReader(json))
-	defer arr.Release()
-	checkCastZeroCopy(c.T(), arr, to, compute.NewCastOptions(to, true))
-}
-
-func (c *CastSuite) TestTimestampToTimestamp() {
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ms},
-		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us},
-		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_ns},
-	}
-
-	var opts compute.CastOptions
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000, 1000, 2000]`)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, `[0, null, 200456, 1123, 2456]`, &opts)
-
-			// with truncation allowed, divide/truncate
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456, 1123, 2456]`, `[0, null, 200, 1, 2]`, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000000000, 1000000000, 2000000000]`)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, `[0, null, 200456000000, 1123000000, 2456000000]`, &opts)
-
-			// with truncation allowed, divide/truncate
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456000000, 1123000000, 2456000000]`, `[0, null, 200, 1, 2]`, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestTimestampZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Timestamp_s /*,  arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Timestamp_s)
-}
-
-func (c *CastSuite) TestTimestampToTimestampMultiplyOverflow() {
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Timestamp_ns}
-	// 1000-01-01, 1800-01-01, 2000-01-01, 2300-01-01, 3000-01-01
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_s, `[-30610224000, -5364662400, 946684800, 10413792000, 32503680000]`, &opts)
-}
-
-var (
-	timestampJSON = `["1970-01-01T00:00:59.123456789","2000-02-29T23:23:23.999999999",
-		"1899-01-01T00:59:20.001001001","2033-05-18T03:33:20.000000000",
-		"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-		"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
-		"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
-		"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-		"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-	timestampSecondsJSON = `["1970-01-01T00:00:59","2000-02-29T23:23:23",
-		"1899-01-01T00:59:20","2033-05-18T03:33:20",
-		"2020-01-01T01:05:05", "2019-12-31T02:10:10",
-		"2019-12-30T03:15:15", "2009-12-31T04:20:20",
-		"2010-01-01T05:25:25", "2010-01-03T06:30:30",
-		"2010-01-04T07:35:35", "2006-01-01T08:40:40",
-		"2005-12-31T09:45:45", "2008-12-28", "2008-12-29",
-		"2012-01-01 01:02:03", null]`
-	timestampExtremeJSON = `["1677-09-20T00:00:59.123456", "2262-04-13T23:23:23.999999"]`
-)
-
-func (c *CastSuite) TestTimestampToDate() {
-	stamps, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Timestamp_ns, strings.NewReader(timestampJSON))
-	defer stamps.Release()
-	date32, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date32,
-		strings.NewReader(`[
-			0, 11016, -25932, 23148,
-			18262, 18261, 18260, 14609,
-			14610, 14612, 14613, 13149,
-			13148, 14241, 14242, 15340, null
-		]`))
-	defer date32.Release()
-	date64, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date64,
-		strings.NewReader(`[
-		0, 951782400000, -2240524800000, 1999987200000,
-		1577836800000, 1577750400000, 1577664000000, 1262217600000,
-		1262304000000, 1262476800000, 1262563200000, 1136073600000,
-		1135987200000, 1230422400000, 1230508800000, 1325376000000, null]`), array.WithUseNumber())
-	defer date64.Release()
-
-	checkCast(c.T(), stamps, date32, *compute.DefaultCastOptions(true))
-	checkCast(c.T(), stamps, date64, *compute.DefaultCastOptions(true))
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date32,
-		timestampExtremeJSON, `[-106753, 106753]`)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64,
-		timestampExtremeJSON, `[-9223459200000, 9223459200000]`)
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Microsecond, arrow.Millisecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u}
-		c.checkCastExp(dt, timestampSecondsJSON, date32)
-		c.checkCastExp(dt, timestampSecondsJSON, date64)
-	}
-}
-
-func (c *CastSuite) TestZonedTimestampToDate() {
-	c.Run("Pacific/Marquesas", func() {
-		dt := &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"}
-		c.checkCast(dt, arrow.FixedWidthTypes.Date32,
-			timestampJSON, `[-1, 11016, -25933, 23147,
-				18261, 18260, 18259, 14608,
-				14609, 14611, 14612, 13148,
-				13148, 14240, 14241, 15339, null]`)
-		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampJSON,
-			`[-86400000, 951782400000, -2240611200000, 1999900800000,
-			1577750400000, 1577664000000, 1577577600000, 1262131200000,
-			1262217600000, 1262390400000, 1262476800000, 1135987200000,
-			1135987200000, 1230336000000, 1230422400000, 1325289600000, null]`)
-	})
-
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Australia/Broken_Hill"}
-		c.checkCast(dt, arrow.FixedWidthTypes.Date32, timestampSecondsJSON, `[
-			0, 11017, -25932, 23148,
-			18262, 18261, 18260, 14609,
-			14610, 14612, 14613, 13149,
-			13148, 14241, 14242, 15340, null]`)
-		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampSecondsJSON, `[
-			0, 951868800000, -2240524800000, 1999987200000, 1577836800000,
-			1577750400000, 1577664000000, 1262217600000, 1262304000000,
-			1262476800000, 1262563200000, 1136073600000, 1135987200000,
-			1230422400000, 1230508800000, 1325376000000, null]`)
-	}
-
-	// invalid timezones
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
-		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date32, false))
-		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date64, false))
-	}
-}
-
-func (c *CastSuite) TestTimestampToTime() {
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
-		timestampJSON, `[
-			59123456789, 84203999999999, 3560001001001, 12800000000000,
-			3905001000000, 7810002000000, 11715003000000, 15620004132000,
-			19525005321000, 23430006163000, 27335000000000, 31240000000000,
-			35145000000000, 0, 0, 3723000000000, null]`)
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
-		timestampExtremeJSON, `[59123456, 84203999999]`)
-
-	timesSec := `[59, 84203, 3560, 12800,
-				3905, 7810, 11715, 15620,
-				19525, 23430, 27335, 31240,
-				35145, 0, 0, 3723, null]`
-	timesMs := `[59000, 84203000, 3560000, 12800000,
-				3905000, 7810000, 11715000, 15620000,
-				19525000, 23430000, 27335000, 31240000,
-				35145000, 0, 0, 3723000, null]`
-	timesUs := `[59000000, 84203000000, 3560000000, 12800000000,
-				3905000000, 7810000000, 11715000000, 15620000000,
-				19525000000, 23430000000, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-	timesNs := `[59000000000, 84203000000000, 3560000000000, 12800000000000,
-				3905000000000, 7810000000000, 11715000000000, 15620000000000,
-				19525000000000, 23430000000000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
-		timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns,
-		timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us,
-		timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
-		timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-
-	trunc := compute.CastOptions{AllowTimeTruncate: true}
-
-	timestampsUS := `["1970-01-01T00:00:59.123456","2000-02-29T23:23:23.999999",
-					"1899-01-01T00:59:20.001001","2033-05-18T03:33:20.000000",
-					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
-					"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
-					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-	timestampsMS := `["1970-01-01T00:00:59.123","2000-02-29T23:23:23.999",
-					"1899-01-01T00:59:20.001","2033-05-18T03:33:20.000",
-					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004",
-					"2010-01-01T05:25:25.005", "2010-01-03T06:30:30.006",
-					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ms, timestampsMS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-
-	timesNsUs := `[59123456, 84203999999, 3560001001, 12800000000,
-				3905001000, 7810002000, 11715003000, 15620004132,
-				19525005321, 23430006163, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-	timesNsMs := `[59123, 84203999, 3560001, 12800000,
-				3905001, 7810002, 11715003, 15620004,
-				19525005, 23430006, 27335000, 31240000,
-				35145000, 0, 0, 3723000, null]`
-	timesUsNs := `[59123456000, 84203999999000, 3560001001000, 12800000000000,
-				3905001000000, 7810002000000, 11715003000000, 15620004132000,
-				19525005321000, 23430006163000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-	timesMsNs := `[59123000000, 84203999000000, 3560001000000, 12800000000000,
-				3905001000000, 7810002000000, 11715003000000, 15620004000000,
-				19525005000000, 23430006000000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-	timesMsUs := `[59123000, 84203999000, 3560001000, 12800000000,
-				3905001000, 7810002000, 11715003000, 15620004000,
-				19525005000, 23430006000, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us, timestampJSON, timesNsUs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms, timestampJSON, timesNsMs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s, timestampJSON, timesSec, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms, timestampsUS, timesNsMs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s, timestampsUS, timesSec, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s, timestampsMS, timesSec, trunc)
-
-	// upscaling tests
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns, timestampsUS, timesUsNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64ns, timestampsMS, timesMsNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64us, timestampsMS, timesMsUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
-
-	// invalid timezones
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
-		switch u {
-		case arrow.Second, arrow.Millisecond:
-			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time32Type{Unit: u}, false))
-		default:
-			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time64Type{Unit: u}, false))
-		}
-	}
-}
-
-func (c *CastSuite) TestZonedTimestampToTime() {
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"},
-		arrow.FixedWidthTypes.Time64ns, timestampJSON, `[52259123456789, 50003999999999, 56480001001001, 65000000000000,
-			56105001000000, 60010002000000, 63915003000000, 67820004132000,
-			71725005321000, 75630006163000, 79535000000000, 83440000000000,
-			945000000000, 52200000000000, 52200000000000, 55923000000000, null]`)
-
-	timesSec := `[
-		34259, 35603, 35960, 47000,
-		41705, 45610, 49515, 53420,
-		57325, 61230, 65135, 69040,
-		72945, 37800, 37800, 41523, null
-	]`
-	timesMs := `[
-		34259000, 35603000, 35960000, 47000000,
-		41705000, 45610000, 49515000, 53420000,
-		57325000, 61230000, 65135000, 69040000,
-		72945000, 37800000, 37800000, 41523000, null
-	]`
-	timesUs := `[
-		34259000000, 35603000000, 35960000000, 47000000000,
-		41705000000, 45610000000, 49515000000, 53420000000,
-		57325000000, 61230000000, 65135000000, 69040000000,
-		72945000000, 37800000000, 37800000000, 41523000000, null
-	]`
-	timesNs := `[
-		34259000000000, 35603000000000, 35960000000000, 47000000000000,
-		41705000000000, 45610000000000, 49515000000000, 53420000000000,
-		57325000000000, 61230000000000, 65135000000000, 69040000000000,
-		72945000000000, 37800000000000, 37800000000000, 41523000000000, null
-	]`
-
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time32s, timestampSecondsJSON, timesSec)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
-}
-
-func (c *CastSuite) TestTimeToTime() {
-	var opts compute.CastOptions
-
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time32ms},
-		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64us},
-		{arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000, 1000, 2000]`
-			willBeTruncated := `[0, null, 200456, 1123, 2456]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64us},
-		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000, 1000000, 2000000]`
-			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
-			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestTimeZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time32s /*, arrow.PrimitiveTypes.Int32*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time32s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time32s)
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time64us /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time64us, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time64us)
-}
-
-func (c *CastSuite) TestDateToDate() {
-	day32 := `[0, null, 100, 1, 10]`
-	day64 := `[0, null,  8640000000, 86400000, 864000000]`
-
-	// multiply promotion
-	c.checkCast(arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, day32, day64)
-	// no truncation
-	c.checkCast(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32, day64, day32)
-
-	day64WillBeTruncated := `[0, null, 8640000123, 86400456, 864000789]`
-
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Date32}
-	c.checkCastFails(arrow.FixedWidthTypes.Date64, day64WillBeTruncated, &opts)
-
-	opts.AllowTimeTruncate = true
-	c.checkCastOpts(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32,
-		day64WillBeTruncated, day32, opts)
-}
-
-func (c *CastSuite) TestDateZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32 /*, arrow.PrimitiveTypes.Int32*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date32, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Date32)
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date64 /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date64, `[0, null, 172800000, 86400000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 172800000, 86400000, 0]`, arrow.FixedWidthTypes.Date64)
-}
-
-func (c *CastSuite) TestDurationToDuration() {
-	var opts compute.CastOptions
-
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ms},
-		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_us},
-		{arrow.FixedWidthTypes.Duration_us, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000, 1000, 2000]`
-			willBeTruncated := `[0, null, 200456, 1123, 2456]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_us},
-		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000, 1000000, 2000000]`
-			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
-			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestDurationZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Duration_s /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Duration_s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Duration_s)
-}
-
-func (c *CastSuite) TestDurationToDurationMultiplyOverflow() {
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Duration_ns}
-	c.checkCastFails(arrow.FixedWidthTypes.Duration_s, `[10000000000, 1, 2, 3, 10000000000]`, &opts)
-}
-
-func (c *CastSuite) TestStringToTimestamp() {
-	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Second}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400]`)
-		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Microsecond}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400000000]`)
-
-		for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-			for _, notTS := range []string{"", "xxx"} {
-				opts := compute.NewCastOptions(&arrow.TimestampType{Unit: u}, true)
-				c.checkCastFails(dt, `["`+notTS+`"]`, opts)
-			}
-		}
-
-		zoned, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-02-29T00:00:00Z", "2020-03-02T10:11:12+0102"]`))
-		defer zoned.Release()
-		mixed, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-03-02T10:11:12+0102", "2020-02-29T00:00:00"]`))
-		defer mixed.Release()
-
-		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-
-		// timestamp with zone offset should not parse as naive
-		checkCastFails(c.T(), zoned, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
-
-		// mixed zoned/unzoned should not parse as naive
-		checkCastFails(c.T(), mixed, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
-
-		// timestamp with zone offset can parse as any time zone (since they're unambiguous)
-		c.checkCastArr(zoned, arrow.FixedWidthTypes.Timestamp_s, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-	}
-}
-
-func (c *CastSuite) TestIntToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			c.checkCast(arrow.PrimitiveTypes.Int8, stype,
-				`[0, 1, 127, -128, null]`, `["0", "1", "127", "-128", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint8, stype,
-				`[0, 1, 255, null]`, `["0", "1", "255", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int16, stype,
-				`[0, 1, 32767, -32768, null]`, `["0", "1", "32767", "-32768", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint16, stype,
-				`[0, 1, 65535, null]`, `["0", "1", "65535", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int32, stype,
-				`[0, 1, 2147483647, -2147483648, null]`,
-				`["0", "1", "2147483647", "-2147483648", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint32, stype,
-				`[0, 1, 4294967295, null]`, `["0", "1", "4294967295", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int64, stype,
-				`[0, 1, 9223372036854775807, -9223372036854775808, null]`,
-				`["0", "1", "9223372036854775807", "-9223372036854775808", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint64, stype,
-				`[0, 1, 18446744073709551615, null]`, `["0", "1", "18446744073709551615", null]`)
-		})
-	}
-}
-
-func (c *CastSuite) TestFloatingToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			bldr := array.NewFloat32Builder(c.mem)
-			defer bldr.Release()
-			bldr.AppendValues([]float32{
-				0, float32(math.Copysign(0, -1)), 1.5, float32(math.Inf(-1)),
-				float32(math.Inf(0)), float32(math.NaN())}, nil)
-			bldr.AppendNull()
-			arr := bldr.NewArray()
-			defer arr.Release()
-
-			bldr64 := array.NewFloat64Builder(c.mem)
-			defer bldr64.Release()
-			bldr64.AppendValues([]float64{
-				0, math.Copysign(0, -1), 1.5, math.Inf(-1), math.Inf(0), math.NaN()}, nil)
-			bldr64.AppendNull()
-			arr64 := bldr64.NewArray()
-			defer arr64.Release()
-
-			c.checkCastArr(arr, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
-
-			c.checkCastArr(arr64, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
-		})
-	}
-}
-
-func (c *CastSuite) TestBooleanToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			c.checkCast(arrow.FixedWidthTypes.Boolean, stype,
-				`[true, true, false, null]`, `["true", "true", "false", null]`)
-		})
-	}
-}
-
-func (c *CastSuite) TestIdentityCasts() {
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Boolean, `[false, true, null, false]`)
-
-	c.checkCastSelfZeroCopy(arrow.Null, `[null, null, null]`)
-	for _, typ := range numericTypes {
-		c.checkCastSelfZeroCopy(typ, `[1, 2, null, 4]`)
-	}
-
-	// ["foo", "bar"] base64 encoded for binary
-	c.checkCastSelfZeroCopy(arrow.BinaryTypes.Binary, `["Zm9v", "YmFy"]`)
-	c.checkCastSelfZeroCopy(arrow.BinaryTypes.String, `["foo", "bar"]`)
-	c.checkCastSelfZeroCopy(&arrow.FixedSizeBinaryType{ByteWidth: 3}, `["Zm9v", "YmFy"]`)
-
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time32ms, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time64us, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date32, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date64, `[86400000, 0]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[1, 2, 3, 4]`)
-
-	c.checkCastSelfZeroCopy(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Int8},
-		`[1, 2, 3, 1, null, 3]`)
-}
-
-func (c *CastSuite) TestListToPrimitive() {
-	arr, _, _ := array.FromJSON(c.mem, arrow.ListOf(arrow.PrimitiveTypes.Int8), strings.NewReader(`[[1, 2], [3, 4]]`))
-	defer arr.Release()
-
-	_, err := compute.CastToType(context.Background(), arr, arrow.PrimitiveTypes.Uint8)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-type makeList func(arrow.DataType) arrow.DataType
-
-var listFactories = []makeList{
-	func(dt arrow.DataType) arrow.DataType { return arrow.ListOf(dt) },
-	func(dt arrow.DataType) arrow.DataType { return arrow.LargeListOf(dt) },
-}
-
-func (c *CastSuite) checkListToList(valTypes []arrow.DataType, jsonData string) {
-	for _, makeSrc := range listFactories {
-		for _, makeDest := range listFactories {
-			for _, srcValueType := range valTypes {
-				for _, dstValueType := range valTypes {
-					srcType := makeSrc(srcValueType)
-					dstType := makeDest(dstValueType)
-					c.Run(fmt.Sprintf("from %s to %s", srcType, dstType), func() {
-						c.checkCast(srcType, dstType, jsonData, jsonData)
-					})
-				}
-			}
-		}
-	}
-}
-
-func (c *CastSuite) TestListToList() {
-	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
-		`[[0], [1], null, [2, 3, 4], [5, 6], null, [], [7], [8, 9]]`)
-}
-
-func (c *CastSuite) TestListToListNoNulls() {
-	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
-		`[[0], [1], [2, 3, 4], [5, 6], [], [7], [8, 9]]`)
-}
-
-func (c *CastSuite) TestListToListOptionsPassthru() {
-	for _, makeSrc := range listFactories {
-		for _, makeDest := range listFactories {
-			opts := compute.SafeCastOptions(makeDest(arrow.PrimitiveTypes.Int16))
-			c.checkCastFails(makeSrc(arrow.PrimitiveTypes.Int32), `[[87654321]]`, opts)
-
-			opts.AllowIntOverflow = true
-			c.checkCastOpts(makeSrc(arrow.PrimitiveTypes.Int32), makeDest(arrow.PrimitiveTypes.Int16),
-				`[[87654321]]`, `[[32689]]`, *opts)
-		}
-	}
-}
-
-func (c *CastSuite) checkStructToStruct(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b"}
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 3, 4, null]`))
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 7, 8, 9, 0]`))
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 3, 4, null]`))
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 7, 8, 9, 0]`))
-					src, _ := array.NewStructArray([]arrow.Array{a1, b1}, fieldNames)
-					dest, _ := array.NewStructArray([]arrow.Array{a2, b2}, fieldNames)
-					defer func() {
-						a1.Release()
-						b1.Release()
-						a2.Release()
-						b2.Release()
-						src.Release()
-						dest.Release()
-					}()
-
-					checkCast(c.T(), src, dest, *compute.DefaultCastOptions(true))
-					c.Run("with nulls", func() {
-						nullBitmap := memory.NewBufferBytes([]byte{10})
-						srcNullData := src.Data().(*array.Data).Copy()
-						srcNullData.Buffers()[0] = nullBitmap
-						srcNullData.SetNullN(3)
-						defer srcNullData.Release()
-						destNullData := dest.Data().(*array.Data).Copy()
-						destNullData.Buffers()[0] = nullBitmap
-						destNullData.SetNullN(3)
-						defer destNullData.Release()
-
-						srcNulls := array.NewStructData(srcNullData)
-						destNulls := array.NewStructData(destNullData)
-						defer srcNulls.Release()
-						defer destNulls.Release()
-
-						checkCast(c.T(), srcNulls, destNulls, *compute.DefaultCastOptions(true))
-					})
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) checkStructToStructSubset(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b", "c", "d", "e"}
-
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
-					defer a1.Release()
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, 4, 7]`))
-					defer b1.Release()
-					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
-					defer c1.Release()
-					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, 49]`))
-					defer d1.Release()
-					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[19, 17, 74]`))
-					defer e1.Release()
-
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
-					defer a2.Release()
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, 4, 7]`))
-					defer b2.Release()
-					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
-					defer c2.Release()
-					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, 49]`))
-					defer d2.Release()
-					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[19, 17, 74]`))
-					defer e2.Release()
-
-					src, _ := array.NewStructArray([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames)
-					defer src.Release()
-					dest1, _ := array.NewStructArray([]arrow.Array{a2}, []string{"a"})
-					defer dest1.Release()
-
-					opts := *compute.DefaultCastOptions(true)
-					checkCast(c.T(), src, dest1, opts)
-
-					dest2, _ := array.NewStructArray([]arrow.Array{b2, c2}, []string{"b", "c"})
-					defer dest2.Release()
-					checkCast(c.T(), src, dest2, opts)
-
-					dest3, _ := array.NewStructArray([]arrow.Array{c2, d2, e2}, []string{"c", "d", "e"})
-					defer dest3.Release()
-					checkCast(c.T(), src, dest3, opts)
-
-					dest4, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"})
-					defer dest4.Release()
-					checkCast(c.T(), src, dest4, opts)
-
-					dest5, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"})
-					defer dest5.Release()
-					checkCast(c.T(), src, dest5, opts)
-
-					// field does not exist
-					dest6 := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options6 := compute.SafeCastOptions(dest6)
-					_, err := compute.CastArray(context.TODO(), src, options6)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-
-					// fields in wrong order
-					dest7 := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options7 := compute.SafeCastOptions(dest7)
-					_, err = compute.CastArray(context.TODO(), src, options7)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) checkStructToStructSubsetWithNulls(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b", "c", "d", "e"}
-
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
-					defer a1.Release()
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, null, 7]`))
-					defer b1.Release()
-					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
-					defer c1.Release()
-					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, null]`))
-					defer d1.Release()
-					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 17, 74]`))
-					defer e1.Release()
-
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
-					defer a2.Release()
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, null, 7]`))
-					defer b2.Release()
-					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
-					defer c2.Release()
-					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, null]`))
-					defer d2.Release()
-					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 17, 74]`))
-					defer e2.Release()
-
-					// 0, 1, 0
-					nullBitmap := memory.NewBufferBytes([]byte{2})
-					srcNull, _ := array.NewStructArrayWithNulls([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames, nullBitmap, 2, 0)
-					defer srcNull.Release()
-
-					dest1Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2}, []string{"a"}, nullBitmap, -1, 0)
-					defer dest1Null.Release()
-					opts := compute.DefaultCastOptions(true)
-					checkCast(c.T(), srcNull, dest1Null, *opts)
-
-					dest2Null, _ := array.NewStructArrayWithNulls([]arrow.Array{b2, c2}, []string{"b", "c"}, nullBitmap, -1, 0)
-					defer dest2Null.Release()
-					checkCast(c.T(), srcNull, dest2Null, *opts)
-
-					dest3Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, d2, e2}, []string{"a", "d", "e"}, nullBitmap, -1, 0)
-					defer dest3Null.Release()
-					checkCast(c.T(), srcNull, dest3Null, *opts)
-
-					dest4Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"}, nullBitmap, -1, 0)
-					defer dest4Null.Release()
-					checkCast(c.T(), srcNull, dest4Null, *opts)
-
-					dest5Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"}, nullBitmap, -1, 0)
-					defer dest5Null.Release()
-					checkCast(c.T(), srcNull, dest5Null, *opts)
-
-					// field does not exist
-					dest6Null := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options6Null := compute.SafeCastOptions(dest6Null)
-					_, err := compute.CastArray(context.TODO(), srcNull, options6Null)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-
-					// fields in wrong order
-					dest7Null := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options7Null := compute.SafeCastOptions(dest7Null)
-					_, err = compute.CastArray(context.TODO(), srcNull, options7Null)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestStructToSameSizedAndNamedStruct() {
-	c.checkStructToStruct(numericTypes)
-}
-
-func (c *CastSuite) TestStructToStructSubset() {
-	c.checkStructToStructSubset(numericTypes)
-}
-
-func (c *CastSuite) TestStructToStructSubsetWithNulls() {
-	c.checkStructToStructSubsetWithNulls(numericTypes)
-}
-
-func (c *CastSuite) TestStructToSameSizedButDifferentNamedStruct() {
-	fieldNames := []string{"a", "b"}
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
-	defer a.Release()
-	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
-	defer b.Release()
-
-	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
-	defer src.Release()
-
-	dest := arrow.StructOf(
-		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	)
-	opts := compute.SafeCastOptions(dest)
-	_, err := compute.CastArray(context.TODO(), src, opts)
-	c.ErrorIs(err, arrow.ErrType)
-	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-}
-
-func (c *CastSuite) TestStructToBiggerStruct() {
-	fieldNames := []string{"a", "b"}
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
-	defer a.Release()
-	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
-	defer b.Release()
-
-	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
-	defer src.Release()
-
-	dest := arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	)
-	opts := compute.SafeCastOptions(dest)
-	_, err := compute.CastArray(context.TODO(), src, opts)
-	c.ErrorIs(err, arrow.ErrType)
-	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-}
-
-func (c *CastSuite) TestStructToDifferentNullabilityStruct() {
-	c.Run("non-nullable to nullable", func() {
-		fieldsSrcNonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int8},
-		}
-		srcNonNull, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNonNullable...),
-			strings.NewReader(`[
-				{"a": 11, "b": 32, "c": 95},
-				{"a": 23, "b": 46, "c": 11},
-				{"a": 56, "b": 37, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer srcNonNull.Release()
-
-		fieldsDest1Nullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-		destNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsDest1Nullable...),
-			strings.NewReader(`[
-				{"a": 11, "b": 32, "c": 95},
-				{"a": 23, "b": 46, "c": 11},
-				{"a": 56, "b": 37, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer destNullable.Release()
-
-		checkCast(c.T(), srcNonNull, destNullable, *compute.DefaultCastOptions(true))
-
-		fieldsDest2Nullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-
-		data := array.NewData(arrow.StructOf(fieldsDest2Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
-			[]arrow.ArrayData{destNullable.Data().Children()[0], destNullable.Data().Children()[2]},
-			destNullable.NullN(), 0)
-		defer data.Release()
-		dest2Nullable := array.NewStructData(data)
-		defer dest2Nullable.Release()
-		checkCast(c.T(), srcNonNull, dest2Nullable, *compute.DefaultCastOptions(true))
-
-		fieldsDest3Nullable := []arrow.Field{
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-
-		data = array.NewData(arrow.StructOf(fieldsDest3Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
-			[]arrow.ArrayData{destNullable.Data().Children()[1]}, destNullable.NullN(), 0)
-		defer data.Release()
-		dest3Nullable := array.NewStructData(data)
-		defer dest3Nullable.Release()
-		checkCast(c.T(), srcNonNull, dest3Nullable, *compute.DefaultCastOptions(true))
-	})
-	c.Run("nullable to non-nullable", func() {
-		fieldsSrcNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		}
-		srcNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNullable...),
-			strings.NewReader(`[
-				{"a": 1, "b": 3, "c": 9},
-				{"a": null, "b": 4, "c": 11},
-				{"a": 5, "b": null, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer srcNullable.Release()
-
-		fieldsDest1NonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest1NonNullable := arrow.StructOf(fieldsDest1NonNullable...)
-		options1NoNullable := compute.SafeCastOptions(dest1NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options1NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-
-		fieldsDest2NonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest2NonNullable := arrow.StructOf(fieldsDest2NonNullable...)
-		options2NoNullable := compute.SafeCastOptions(dest2NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options2NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-
-		fieldsDest3NonNullable := []arrow.Field{
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest3NonNullable := arrow.StructOf(fieldsDest3NonNullable...)
-		options3NoNullable := compute.SafeCastOptions(dest3NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options3NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-	})
-}
-
-func (c *CastSuite) smallIntArrayFromJSON(data string) arrow.Array {
-	arr, _, _ := array.FromJSON(c.mem, types.NewSmallintType(), strings.NewReader(data))
-	return arr
-}
-
-func (c *CastSuite) TestExtensionTypeToIntDowncast() {
-	smallint := types.NewSmallintType()
-	arrow.RegisterExtensionType(smallint)
-	defer arrow.UnregisterExtensionType("smallint")
-
-	c.Run("smallint(int16) to int16", func() {
-		arr := c.smallIntArrayFromJSON(`[0, 100, 200, 1, 2]`)
-		defer arr.Release()
-
-		checkCastZeroCopy(c.T(), arr, arrow.PrimitiveTypes.Int16, compute.DefaultCastOptions(true))
-
-		c.checkCast(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, 100, 200, 1, 2]`, `[0, 100, 200, 1, 2]`)
-	})
-
-	c.Run("smallint(int16) to uint8 with overflow", func() {
-		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
-		c.checkCastFails(smallint, `[0, null, 256, 1, 3]`, opts)
-
-		opts.AllowIntOverflow = true
-		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, null, 256, 1, 3]`, `[0, null, 0, 1, 3]`, *opts)
-	})
-
-	c.Run("smallint(int16) to uint8 with underflow", func() {
-		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
-		c.checkCastFails(smallint, `[0, null, -1, 1, 3]`, opts)
-
-		opts.AllowIntOverflow = true
-		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, null, -1, 1, 3]`, `[0, null, 255, 1, 3]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestNoOutBitmapIfIsAllValid() {
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
-	defer a.Release()
-
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int32)
-	result, err := compute.CastArray(context.Background(), a, opts)
-	c.NoError(err)
-	c.NotNil(a.Data().Buffers()[0])
-	c.Nil(result.Data().Buffers()[0])
-}
-
-func (c *CastSuite) TestFromDictionary() {
-	ctx := compute.WithAllocator(context.Background(), c.mem)
-
-	dictionaries := []arrow.Array{}
-
-	for _, ty := range numericTypes {
-		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[23, 12, 45, 12, null]`))
-		defer a.Release()
-		dictionaries = append(dictionaries, a)
-	}
-
-	for _, ty := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`["foo", "bar", "baz", "foo", null]`))
-		defer a.Release()
-		dictionaries = append(dictionaries, a)
-	}
-
-	for _, d := range dictionaries {
-		for _, ty := range dictIndexTypes {
-			indices, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[4, 0, 1, 2, 0, 4, null, 2]`))
-
-			expected, err := compute.Take(ctx, compute.TakeOptions{}, &compute.ArrayDatum{d.Data()}, &compute.ArrayDatum{indices.Data()})
-			c.Require().NoError(err)
-			exp := expected.(*compute.ArrayDatum).MakeArray()
-
-			dictArr := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: ty, ValueType: d.DataType()}, indices, d)
-			checkCast(c.T(), dictArr, exp, *compute.SafeCastOptions(d.DataType()))
-
-			indices.Release()
-			expected.Release()
-			exp.Release()
-			dictArr.Release()
-			return
-		}
-	}
-}
-
-func TestCasts(t *testing.T) {
-	suite.Run(t, new(CastSuite))
-}
-
-const rngseed = 0x94378165
-
-func benchmarkNumericCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
-	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
-	arr := rng.Numeric(fromType.ID(), size, min, max, nullprob)
-	var (
-		err   error
-		out   compute.Datum
-		ctx   = context.Background()
-		input = compute.NewDatum(arr.Data())
-	)
-
-	b.Cleanup(func() {
-		arr.Release()
-		input.Release()
-	})
-
-	opts.ToType = toType
-	b.ResetTimer()
-	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
-	for i := 0; i < b.N; i++ {
-		out, err = compute.CastDatum(ctx, input, &opts)
-		if err != nil {
-			b.Fatal(err)
-		}
-		out.Release()
-	}
-}
-
-func benchmarkFloatingToIntegerCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
-	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
-	arr := rng.Numeric(toType.ID(), size, min, max, nullprob)
-	asFloat, err := compute.CastToType(context.Background(), arr, fromType)
-	if err != nil {
-		b.Fatal(err)
-	}
-	arr.Release()
-
-	var (
-		out   compute.Datum
-		ctx   = context.Background()
-		input = compute.NewDatum(asFloat.Data())
-	)
-
-	b.Cleanup(func() {
-		asFloat.Release()
-		input.Release()
-	})
-
-	opts.ToType = toType
-	b.ResetTimer()
-	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
-	for i := 0; i < b.N; i++ {
-		out, err = compute.CastDatum(ctx, input, &opts)
-		if err != nil {
-			b.Fatal(err)
-		}
-		out.Release()
-	}
-}
-
-func BenchmarkCasting(b *testing.B) {
-	type benchfn func(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64)
-
-	tests := []struct {
-		from, to arrow.DataType
-		min, max int64
-		safe     bool
-		fn       benchfn
-	}{
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, false, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32, 0, math.MaxInt32, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, false, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, true, benchmarkFloatingToIntegerCast},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, false, benchmarkFloatingToIntegerCast},
-	}
-
-	for _, tt := range tests {
-		for _, sz := range []int64{int64(CpuCacheSizes[1]) /* L2 Cache Size */} {
-			for _, nullProb := range []float64{0, 0.1, 0.5, 0.9, 1} {
-				arraySize := sz / int64(tt.from.(arrow.FixedWidthDataType).Bytes())
-				opts := compute.DefaultCastOptions(tt.safe)
-				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f/from=%s/to=%s/safe=%t", arraySize, nullProb, tt.from, tt.to, tt.safe), func(b *testing.B) {
-					tt.fn(b, tt.from, tt.to, *opts, arraySize, tt.min, tt.max, nullProb)
-				})
-			}
-		}
-	}
-}
diff --git a/go/arrow/compute/datum.go b/go/arrow/compute/datum.go
deleted file mode 100644
index 9619fe09610de..0000000000000
--- a/go/arrow/compute/datum.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-//go:generate go run golang.org/x/tools/cmd/stringer -type=DatumKind -linecomment
-
-// DatumKind is an enum used for denoting which kind of type a datum is encapsulating
-type DatumKind int
-
-const (
-	KindNone    DatumKind = iota // none
-	KindScalar                   // scalar
-	KindArray                    // array
-	KindChunked                  // chunked_array
-	KindRecord                   // record_batch
-	KindTable                    // table
-)
-
-const UnknownLength int64 = -1
-
-// DatumIsValue returns true if the datum passed is a Scalar, Array
-// or ChunkedArray type (e.g. it contains a specific value not a
-// group of values)
-func DatumIsValue(d Datum) bool {
-	switch d.Kind() {
-	case KindScalar, KindArray, KindChunked:
-		return true
-	}
-	return false
-}
-
-// Datum is a variant interface for wrapping the various Arrow data structures
-// for now the various Datum types just hold a Value which is the type they
-// are wrapping, but it might make sense in the future for those types
-// to actually be aliases or embed their types instead. Not sure yet.
-type Datum interface {
-	fmt.Stringer
-	Kind() DatumKind
-	Len() int64
-	Equals(Datum) bool
-	Release()
-
-	data() any
-}
-
-// ArrayLikeDatum is an interface for treating a Datum similarly to an Array,
-// so that it is easy to differentiate between Record/Table/Collection and Scalar,
-// Array/ChunkedArray for ease of use. Chunks will return an empty slice for Scalar,
-// a slice with 1 element for Array, and the slice of chunks for a chunked array.
-type ArrayLikeDatum interface {
-	Datum
-	NullN() int64
-	Type() arrow.DataType
-	Chunks() []arrow.Array
-}
-
-// TableLikeDatum is an interface type for specifying either a RecordBatch or a
-// Table as both contain a schema as opposed to just a single data type.
-type TableLikeDatum interface {
-	Datum
-	Schema() *arrow.Schema
-}
-
-// EmptyDatum is the null case, a Datum with nothing in it.
-type EmptyDatum struct{}
-
-func (EmptyDatum) String() string  { return "nullptr" }
-func (EmptyDatum) Kind() DatumKind { return KindNone }
-func (EmptyDatum) Len() int64      { return UnknownLength }
-func (EmptyDatum) Release()        {}
-func (EmptyDatum) Equals(other Datum) bool {
-	_, ok := other.(EmptyDatum)
-	return ok
-}
-func (EmptyDatum) data() any { return nil }
-
-// ScalarDatum contains a scalar value
-type ScalarDatum struct {
-	Value scalar.Scalar
-}
-
-func (ScalarDatum) Kind() DatumKind         { return KindScalar }
-func (ScalarDatum) Len() int64              { return 1 }
-func (ScalarDatum) Chunks() []arrow.Array   { return nil }
-func (d *ScalarDatum) Type() arrow.DataType { return d.Value.DataType() }
-func (d *ScalarDatum) String() string       { return d.Value.String() }
-func (d *ScalarDatum) ToScalar() (scalar.Scalar, error) {
-	return d.Value, nil
-}
-func (d *ScalarDatum) data() any { return d.Value }
-func (d *ScalarDatum) NullN() int64 {
-	if d.Value.IsValid() {
-		return 0
-	}
-	return 1
-}
-
-type releasable interface {
-	Release()
-}
-
-func (d *ScalarDatum) Release() {
-	if v, ok := d.Value.(releasable); ok {
-		v.Release()
-	}
-}
-
-func (d *ScalarDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*ScalarDatum); ok {
-		return scalar.Equals(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// ArrayDatum references an array.Data object which can be used to create
-// array instances from if needed.
-type ArrayDatum struct {
-	Value arrow.ArrayData
-}
-
-func (ArrayDatum) Kind() DatumKind           { return KindArray }
-func (d *ArrayDatum) Type() arrow.DataType   { return d.Value.DataType() }
-func (d *ArrayDatum) Len() int64             { return int64(d.Value.Len()) }
-func (d *ArrayDatum) NullN() int64           { return int64(d.Value.NullN()) }
-func (d *ArrayDatum) String() string         { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
-func (d *ArrayDatum) MakeArray() arrow.Array { return array.MakeFromData(d.Value) }
-func (d *ArrayDatum) Chunks() []arrow.Array  { return []arrow.Array{d.MakeArray()} }
-func (d *ArrayDatum) ToScalar() (scalar.Scalar, error) {
-	return scalar.NewListScalarData(d.Value), nil
-}
-func (d *ArrayDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-func (d *ArrayDatum) data() any { return d.Value }
-func (d *ArrayDatum) Equals(other Datum) bool {
-	rhs, ok := other.(*ArrayDatum)
-	if !ok {
-		return false
-	}
-
-	left := d.MakeArray()
-	defer left.Release()
-	right := rhs.MakeArray()
-	defer right.Release()
-
-	return array.Equal(left, right)
-}
-
-// ChunkedDatum contains a chunked array for use with expressions and compute.
-type ChunkedDatum struct {
-	Value *arrow.Chunked
-}
-
-func (ChunkedDatum) Kind() DatumKind          { return KindChunked }
-func (d *ChunkedDatum) Type() arrow.DataType  { return d.Value.DataType() }
-func (d *ChunkedDatum) Len() int64            { return int64(d.Value.Len()) }
-func (d *ChunkedDatum) NullN() int64          { return int64(d.Value.NullN()) }
-func (d *ChunkedDatum) String() string        { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
-func (d *ChunkedDatum) Chunks() []arrow.Array { return d.Value.Chunks() }
-func (d *ChunkedDatum) data() any             { return d.Value }
-func (d *ChunkedDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-
-func (d *ChunkedDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*ChunkedDatum); ok {
-		return array.ChunkedEqual(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// RecordDatum contains an array.Record for passing a full record to an expression
-// or to compute.
-type RecordDatum struct {
-	Value arrow.Record
-}
-
-func (RecordDatum) Kind() DatumKind          { return KindRecord }
-func (RecordDatum) String() string           { return "RecordBatch" }
-func (r *RecordDatum) Len() int64            { return r.Value.NumRows() }
-func (r *RecordDatum) Schema() *arrow.Schema { return r.Value.Schema() }
-func (r *RecordDatum) data() any             { return r.Value }
-func (r *RecordDatum) Release() {
-	r.Value.Release()
-	r.Value = nil
-}
-
-func (r *RecordDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*RecordDatum); ok {
-		return array.RecordEqual(r.Value, rhs.Value)
-	}
-	return false
-}
-
-// TableDatum contains a table so that multiple record batches can be worked with
-// together as a single table for being passed to compute and expression handling.
-type TableDatum struct {
-	Value arrow.Table
-}
-
-func (TableDatum) Kind() DatumKind          { return KindTable }
-func (TableDatum) String() string           { return "Table" }
-func (d *TableDatum) Len() int64            { return d.Value.NumRows() }
-func (d *TableDatum) Schema() *arrow.Schema { return d.Value.Schema() }
-func (d *TableDatum) data() any             { return d.Value }
-func (d *TableDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-
-func (d *TableDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*TableDatum); ok {
-		return array.TableEqual(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// NewDatum will construct the appropriate Datum type based on what is passed in
-// as the argument.
-//
-// An arrow.Array gets an ArrayDatum
-// An array.Chunked gets a ChunkedDatum
-// An array.Record gets a RecordDatum
-// an array.Table gets a TableDatum
-// a scalar.Scalar gets a ScalarDatum
-//
-// Anything else is passed to scalar.MakeScalar and receives a scalar
-// datum of that appropriate type.
-func NewDatum(value interface{}) Datum {
-	switch v := value.(type) {
-	case Datum:
-		return NewDatum(v.data())
-	case arrow.Array:
-		v.Data().Retain()
-		return &ArrayDatum{v.Data()}
-	case scalar.Releasable:
-		v.Retain()
-		return NewDatumWithoutOwning(v)
-	case scalar.Scalar:
-		return &ScalarDatum{v}
-	default:
-		return &ScalarDatum{scalar.MakeScalar(value)}
-	}
-}
-
-// NewDatumWithoutOwning is like NewDatum only it does not call Retain on
-// the passed in value (if applicable). This means that if the resulting
-// Datum should not have Release called on it and the original value needs
-// to outlive the Datum.
-//
-// Only use this if you know what you're doing. For the most part this is
-// just a convenience function.+-
-
-func NewDatumWithoutOwning(value interface{}) Datum {
-	switch v := value.(type) {
-	case arrow.Array:
-		return &ArrayDatum{v.Data()}
-	case arrow.ArrayData:
-		return &ArrayDatum{v}
-	case *arrow.Chunked:
-		return &ChunkedDatum{v}
-	case arrow.Record:
-		return &RecordDatum{v}
-	case arrow.Table:
-		return &TableDatum{v}
-	case scalar.Scalar:
-		return &ScalarDatum{v}
-	default:
-		return &ScalarDatum{scalar.MakeScalar(value)}
-	}
-}
-
-var (
-	_ ArrayLikeDatum = (*ScalarDatum)(nil)
-	_ ArrayLikeDatum = (*ArrayDatum)(nil)
-	_ ArrayLikeDatum = (*ChunkedDatum)(nil)
-	_ TableLikeDatum = (*RecordDatum)(nil)
-	_ TableLikeDatum = (*TableDatum)(nil)
-)
diff --git a/go/arrow/compute/datumkind_string.go b/go/arrow/compute/datumkind_string.go
deleted file mode 100644
index 3603e5e495414..0000000000000
--- a/go/arrow/compute/datumkind_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by "stringer -type=DatumKind -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package compute
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[KindNone-0]
-	_ = x[KindScalar-1]
-	_ = x[KindArray-2]
-	_ = x[KindChunked-3]
-	_ = x[KindRecord-4]
-	_ = x[KindTable-5]
-}
-
-const _DatumKind_name = "nonescalararraychunked_arrayrecord_batchtable"
-
-var _DatumKind_index = [...]uint8{0, 4, 10, 15, 28, 40, 45}
-
-func (i DatumKind) String() string {
-	if i < 0 || i >= DatumKind(len(_DatumKind_index)-1) {
-		return "DatumKind(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _DatumKind_name[_DatumKind_index[i]:_DatumKind_index[i+1]]
-}
diff --git a/go/arrow/compute/doc.go b/go/arrow/compute/doc.go
deleted file mode 100644
index 7c763cb18d0ff..0000000000000
--- a/go/arrow/compute/doc.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package compute is a native-go implementation of an Acero-like
-// arrow compute engine. It requires go1.18+
-//
-// While consumers of Arrow that are able to use CGO could utilize the
-// C Data API (using the cdata package) and could link against the
-// acero library directly, there are consumers who cannot use CGO. This
-// is an attempt to provide for those users, and in general create a
-// native-go arrow compute engine.
-//
-// The overwhelming majority of things in this package require go1.18 as
-// it utilizes generics. The files in this package and its sub-packages
-// are all excluded from being built by go versions lower than 1.18 so
-// that the larger Arrow module itself is still compatible with go1.17.
-//
-// Everything in this package should be considered Experimental for now.
-package compute
-
-//go:generate stringer -type=FuncKind -linecomment
diff --git a/go/arrow/compute/example_test.go b/go/arrow/compute/example_test.go
deleted file mode 100644
index d427fb622d24a..0000000000000
--- a/go/arrow/compute/example_test.go
+++ /dev/null
@@ -1,91 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// This example demonstrates how to register a custom scalar function.
-func Example_customFunction() {
-	pool := memory.NewGoAllocator()
-
-	ctx := context.Background()
-	execCtx := compute.DefaultExecCtx()
-	ctx = compute.SetExecCtx(ctx, execCtx)
-
-	add42 := compute.NewScalarFunction("add_42", compute.Arity{
-		NArgs: 1,
-	}, compute.FunctionDoc{
-		Summary:  "Returns the input values plus 42",
-		ArgNames: []string{"input"},
-	})
-
-	if err := add42.AddNewKernel(
-		[]exec.InputType{
-			// We accept a single argument (array) of Int8 type.
-			{
-				Kind: exec.InputExact,
-				Type: arrow.PrimitiveTypes.Int8,
-			},
-		},
-		// We'll return a single Int8 array.
-		exec.NewOutputType(arrow.PrimitiveTypes.Int8),
-		func(ctx *exec.KernelCtx, span *exec.ExecSpan, result *exec.ExecResult) error {
-			// The second buffer contains the values. Both for the input and the output arrays.
-			for i, x := range span.Values[0].Array.Buffers[1].Buf {
-				result.Buffers[1].Buf[i] = x + 42
-			}
-			return nil
-		},
-		nil,
-	); err != nil {
-		log.Fatal(err)
-	}
-	execCtx.Registry.AddFunction(add42, true)
-
-	inputArrayBuilder := array.NewInt8Builder(pool)
-	for i := 0; i < 16; i++ {
-		inputArrayBuilder.Append(int8(i))
-	}
-	inputArray := inputArrayBuilder.NewArray()
-
-	outputArrayDatum, err := compute.CallFunction(
-		compute.SetExecCtx(context.Background(), execCtx),
-		"add_42",
-		nil,
-		&compute.ArrayDatum{Value: inputArray.Data()},
-	)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	fmt.Println(array.NewInt8Data(outputArrayDatum.(*compute.ArrayDatum).Value).Int8Values())
-
-	// Output:
-	// [42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57]
-}
diff --git a/go/arrow/compute/exec.go b/go/arrow/compute/exec.go
deleted file mode 100644
index 1142297c1c396..0000000000000
--- a/go/arrow/compute/exec.go
+++ /dev/null
@@ -1,199 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func haveChunkedArray(values []Datum) bool {
-	for _, v := range values {
-		if v.Kind() == KindChunked {
-			return true
-		}
-	}
-	return false
-}
-
-// ExecSpanFromBatch constructs and returns a new ExecSpan from the values
-// inside of the ExecBatch which could be scalar or arrays.
-//
-// This is mostly used for tests but is also a convenience method for other
-// cases.
-func ExecSpanFromBatch(batch *ExecBatch) *exec.ExecSpan {
-	out := &exec.ExecSpan{Len: batch.Len, Values: make([]exec.ExecValue, len(batch.Values))}
-	for i, v := range batch.Values {
-		outVal := &out.Values[i]
-		if v.Kind() == KindScalar {
-			outVal.Scalar = v.(*ScalarDatum).Value
-		} else {
-			outVal.Array.SetMembers(v.(*ArrayDatum).Value)
-			outVal.Scalar = nil
-		}
-	}
-	return out
-}
-
-// this is the primary driver of execution
-func execInternal(ctx context.Context, fn Function, opts FunctionOptions, passedLen int64, args ...Datum) (result Datum, err error) {
-	if opts == nil {
-		if err = checkOptions(fn, opts); err != nil {
-			return
-		}
-		opts = fn.DefaultOptions()
-	}
-
-	// we only allow Array, ChunkedArray, and Scalars for now.
-	// RecordBatch and Table datums are disallowed.
-	if err = checkAllIsValue(args); err != nil {
-		return
-	}
-
-	inTypes := make([]arrow.DataType, len(args))
-	for i, a := range args {
-		inTypes[i] = a.(ArrayLikeDatum).Type()
-	}
-
-	var (
-		k        exec.Kernel
-		executor KernelExecutor
-	)
-
-	switch fn.Kind() {
-	case FuncScalar:
-		executor = scalarExecPool.Get().(*scalarExecutor)
-		defer func() {
-			executor.Clear()
-			scalarExecPool.Put(executor.(*scalarExecutor))
-		}()
-	case FuncVector:
-		executor = vectorExecPool.Get().(*vectorExecutor)
-		defer func() {
-			executor.Clear()
-			vectorExecPool.Put(executor.(*vectorExecutor))
-		}()
-	default:
-		return nil, fmt.Errorf("%w: direct execution of %s", arrow.ErrNotImplemented, fn.Kind())
-	}
-
-	if k, err = fn.DispatchBest(inTypes...); err != nil {
-		return
-	}
-
-	var newArgs []Datum
-	// cast arguments if necessary
-	for i, arg := range args {
-		if !arrow.TypeEqual(inTypes[i], arg.(ArrayLikeDatum).Type()) {
-			if newArgs == nil {
-				newArgs = make([]Datum, len(args))
-				copy(newArgs, args)
-			}
-			newArgs[i], err = CastDatum(ctx, arg, SafeCastOptions(inTypes[i]))
-			if err != nil {
-				return nil, err
-			}
-			defer newArgs[i].Release()
-		}
-	}
-	if newArgs != nil {
-		args = newArgs
-	}
-
-	kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
-	init := k.GetInitFn()
-	kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: inTypes, Options: opts}
-	if init != nil {
-		kctx.State, err = init(kctx, kinitArgs)
-		if err != nil {
-			return
-		}
-	}
-
-	if err = executor.Init(kctx, kinitArgs); err != nil {
-		return
-	}
-
-	input := ExecBatch{Values: args, Len: 0}
-	if input.NumValues() == 0 {
-		if passedLen != -1 {
-			input.Len = passedLen
-		}
-	} else {
-		inferred, allSame := inferBatchLength(input.Values)
-		input.Len = inferred
-		switch fn.Kind() {
-		case FuncScalar:
-			if passedLen != -1 && passedLen != inferred {
-				return nil, fmt.Errorf("%w: passed batch length for execution did not match actual length for scalar fn execution",
-					arrow.ErrInvalid)
-			}
-		case FuncVector:
-			vkernel := k.(*exec.VectorKernel)
-			if !(allSame || !vkernel.CanExecuteChunkWise) {
-				return nil, fmt.Errorf("%w: vector kernel arguments must all be the same length", arrow.ErrInvalid)
-			}
-		}
-	}
-
-	ectx := GetExecCtx(ctx)
-
-	ctx, cancel := context.WithCancel(context.Background())
-	defer cancel()
-
-	ch := make(chan Datum, ectx.ExecChannelSize)
-	go func() {
-		defer close(ch)
-		if err = executor.Execute(ctx, &input, ch); err != nil {
-			cancel()
-		}
-	}()
-
-	result = executor.WrapResults(ctx, ch, haveChunkedArray(input.Values))
-	if err == nil {
-		debug.Assert(executor.CheckResultType(result) == nil, "invalid result type")
-	}
-
-	if ctx.Err() == context.Canceled && result != nil {
-		result.Release()
-	}
-
-	return
-}
-
-// CallFunction is a one-shot invoker for all types of functions.
-//
-// It will perform kernel-dispatch, argument checking, iteration of
-// ChunkedArray inputs and wrapping of outputs.
-//
-// To affect the execution options, you must call SetExecCtx and pass
-// the resulting context in here.
-func CallFunction(ctx context.Context, funcName string, opts FunctionOptions, args ...Datum) (Datum, error) {
-	ectx := GetExecCtx(ctx)
-	fn, ok := ectx.Registry.GetFunction(funcName)
-	if !ok {
-		return nil, fmt.Errorf("%w: function '%s' not found", arrow.ErrKey, funcName)
-	}
-
-	return fn.Execute(ctx, opts, args...)
-}
diff --git a/go/arrow/compute/exec/hash_util.go b/go/arrow/compute/exec/hash_util.go
deleted file mode 100644
index 0c8f7df5a3237..0000000000000
--- a/go/arrow/compute/exec/hash_util.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package exec
-
-// ADAPTED FROM HASH UTILITIES FOR BOOST
-
-func HashCombine(seed, value uint64) uint64 {
-	seed ^= value + 0x9e3779b9 + (seed << 6) + (seed >> 2)
-	return seed
-}
diff --git a/go/arrow/compute/exec/kernel.go b/go/arrow/compute/exec/kernel.go
deleted file mode 100644
index 600e52c681686..0000000000000
--- a/go/arrow/compute/exec/kernel.go
+++ /dev/null
@@ -1,695 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"context"
-	"fmt"
-	"hash/maphash"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/slices"
-)
-
-var hashSeed = maphash.MakeSeed()
-
-type ctxAllocKey struct{}
-
-// WithAllocator returns a new context with the provided allocator
-// embedded into the context.
-func WithAllocator(ctx context.Context, mem memory.Allocator) context.Context {
-	return context.WithValue(ctx, ctxAllocKey{}, mem)
-}
-
-// GetAllocator retrieves the allocator from the context, or returns
-// memory.DefaultAllocator if there was no allocator in the provided
-// context.
-func GetAllocator(ctx context.Context) memory.Allocator {
-	mem, ok := ctx.Value(ctxAllocKey{}).(memory.Allocator)
-	if !ok {
-		return memory.DefaultAllocator
-	}
-	return mem
-}
-
-// Kernel defines the minimum interface required for the basic execution
-// kernel. It will grow as the implementation requires.
-type Kernel interface {
-	GetInitFn() KernelInitFn
-	GetSig() *KernelSignature
-}
-
-// NonAggKernel builds on the base Kernel interface for
-// non aggregate execution kernels. Specifically this will
-// represent Scalar and Vector kernels.
-type NonAggKernel interface {
-	Kernel
-	Exec(*KernelCtx, *ExecSpan, *ExecResult) error
-	GetNullHandling() NullHandling
-	GetMemAlloc() MemAlloc
-	CanFillSlices() bool
-}
-
-// KernelCtx is a small struct holding the context for a kernel execution
-// consisting of a pointer to the kernel, initialized state (if needed)
-// and the context for this execution.
-type KernelCtx struct {
-	Ctx    context.Context
-	Kernel Kernel
-	State  KernelState
-}
-
-func (k *KernelCtx) Allocate(bufsize int) *memory.Buffer {
-	buf := memory.NewResizableBuffer(GetAllocator(k.Ctx))
-	buf.Resize(bufsize)
-	return buf
-}
-
-func (k *KernelCtx) AllocateBitmap(nbits int64) *memory.Buffer {
-	nbytes := bitutil.BytesForBits(nbits)
-	return k.Allocate(int(nbytes))
-}
-
-// TypeMatcher define an interface for matching Input or Output types
-// for execution kernels. There are multiple implementations of this
-// interface provided by this package.
-type TypeMatcher interface {
-	fmt.Stringer
-	Matches(typ arrow.DataType) bool
-	Equals(other TypeMatcher) bool
-}
-
-type sameTypeIDMatcher struct {
-	accepted arrow.Type
-}
-
-func (s sameTypeIDMatcher) Matches(typ arrow.DataType) bool { return s.accepted == typ.ID() }
-func (s sameTypeIDMatcher) Equals(other TypeMatcher) bool {
-	if s == other {
-		return true
-	}
-
-	o, ok := other.(*sameTypeIDMatcher)
-	if !ok {
-		return false
-	}
-
-	return s.accepted == o.accepted
-}
-
-func (s sameTypeIDMatcher) String() string {
-	return "Type::" + s.accepted.String()
-}
-
-// SameTypeID returns a type matcher which will match
-// any DataType that uses the same arrow.Type ID as the one
-// passed in here.
-func SameTypeID(id arrow.Type) TypeMatcher { return &sameTypeIDMatcher{id} }
-
-type timeUnitMatcher struct {
-	id   arrow.Type
-	unit arrow.TimeUnit
-}
-
-func (s timeUnitMatcher) Matches(typ arrow.DataType) bool {
-	if typ.ID() != s.id {
-		return false
-	}
-	return s.unit == typ.(arrow.TemporalWithUnit).TimeUnit()
-}
-
-func (s timeUnitMatcher) String() string {
-	return strings.ToLower(s.id.String()) + "(" + s.unit.String() + ")"
-}
-
-func (s *timeUnitMatcher) Equals(other TypeMatcher) bool {
-	if s == other {
-		return true
-	}
-
-	o, ok := other.(*timeUnitMatcher)
-	if !ok {
-		return false
-	}
-	return o.id == s.id && o.unit == s.unit
-}
-
-// TimestampTypeUnit returns a TypeMatcher that will match only
-// a Timestamp datatype with the specified TimeUnit.
-func TimestampTypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIMESTAMP, unit}
-}
-
-// Time32TypeUnit returns a TypeMatcher that will match only
-// a Time32 datatype with the specified TimeUnit.
-func Time32TypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIME32, unit}
-}
-
-// Time64TypeUnit returns a TypeMatcher that will match only
-// a Time64 datatype with the specified TimeUnit.
-func Time64TypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIME64, unit}
-}
-
-// DurationTypeUnit returns a TypeMatcher that will match only
-// a Duration datatype with the specified TimeUnit.
-func DurationTypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.DURATION, unit}
-}
-
-type integerMatcher struct{}
-
-func (integerMatcher) String() string                  { return "integer" }
-func (integerMatcher) Matches(typ arrow.DataType) bool { return arrow.IsInteger(typ.ID()) }
-func (integerMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(integerMatcher)
-	return ok
-}
-
-type binaryLikeMatcher struct{}
-
-func (binaryLikeMatcher) String() string                  { return "binary-like" }
-func (binaryLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsBinaryLike(typ.ID()) }
-func (binaryLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(binaryLikeMatcher)
-	return ok
-}
-
-type largeBinaryLikeMatcher struct{}
-
-func (largeBinaryLikeMatcher) String() string { return "large-binary-like" }
-func (largeBinaryLikeMatcher) Matches(typ arrow.DataType) bool {
-	return arrow.IsLargeBinaryLike(typ.ID())
-}
-func (largeBinaryLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(largeBinaryLikeMatcher)
-	return ok
-}
-
-type fsbLikeMatcher struct{}
-
-func (fsbLikeMatcher) String() string                  { return "fixed-size-binary-like" }
-func (fsbLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsFixedSizeBinary(typ.ID()) }
-func (fsbLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(fsbLikeMatcher)
-	return ok
-}
-
-// Integer returns a TypeMatcher which will match any integral type like int8 or uint16
-func Integer() TypeMatcher { return integerMatcher{} }
-
-// BinaryLike returns a TypeMatcher that will match Binary or String
-func BinaryLike() TypeMatcher { return binaryLikeMatcher{} }
-
-// LargeBinaryLike returns a TypeMatcher which will match LargeBinary or LargeString
-func LargeBinaryLike() TypeMatcher { return largeBinaryLikeMatcher{} }
-
-// FixedSizeBinaryLike returns a TypeMatcher that will match FixedSizeBinary
-// or Decimal128/256
-func FixedSizeBinaryLike() TypeMatcher { return fsbLikeMatcher{} }
-
-type primitiveMatcher struct{}
-
-func (primitiveMatcher) String() string                  { return "primitive" }
-func (primitiveMatcher) Matches(typ arrow.DataType) bool { return arrow.IsPrimitive(typ.ID()) }
-func (primitiveMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(primitiveMatcher)
-	return ok
-}
-
-// Primitive returns a TypeMatcher that will match any type that arrow.IsPrimitive
-// returns true for.
-func Primitive() TypeMatcher { return primitiveMatcher{} }
-
-type reeMatcher struct {
-	runEndsMatcher TypeMatcher
-	encodedMatcher TypeMatcher
-}
-
-func (r reeMatcher) Matches(typ arrow.DataType) bool {
-	if typ.ID() != arrow.RUN_END_ENCODED {
-		return false
-	}
-
-	dt := typ.(*arrow.RunEndEncodedType)
-	return r.runEndsMatcher.Matches(dt.RunEnds()) && r.encodedMatcher.Matches(dt.Encoded())
-}
-
-func (r reeMatcher) Equals(other TypeMatcher) bool {
-	o, ok := other.(reeMatcher)
-	if !ok {
-		return false
-	}
-	return r.runEndsMatcher.Equals(o.runEndsMatcher) && r.encodedMatcher.Equals(o.encodedMatcher)
-}
-
-func (r reeMatcher) String() string {
-	return "run_end_encoded(run_ends=" + r.runEndsMatcher.String() + ", values=" + r.encodedMatcher.String() + ")"
-}
-
-// RunEndEncoded returns a matcher which matches a RunEndEncoded
-// type whose encoded type is matched by the passed in matcher.
-func RunEndEncoded(runEndsMatcher, encodedMatcher TypeMatcher) TypeMatcher {
-	return reeMatcher{
-		runEndsMatcher: runEndsMatcher,
-		encodedMatcher: encodedMatcher}
-}
-
-// InputKind is an enum representing the type of Input matching
-// that will be done. Either accepting any type, an exact specific type
-// or using a TypeMatcher.
-type InputKind int8
-
-const (
-	InputAny InputKind = iota
-	InputExact
-	InputUseMatcher
-)
-
-// InputType is used for type checking arguments passed to a kernel
-// and stored within a KernelSignature. The type-checking rule can
-// be supplied either with an exact DataType instance or a custom
-// TypeMatcher.
-type InputType struct {
-	Kind    InputKind
-	Type    arrow.DataType
-	Matcher TypeMatcher
-}
-
-func NewExactInput(dt arrow.DataType) InputType { return InputType{Kind: InputExact, Type: dt} }
-func NewMatchedInput(match TypeMatcher) InputType {
-	return InputType{Kind: InputUseMatcher, Matcher: match}
-}
-func NewIDInput(id arrow.Type) InputType { return NewMatchedInput(SameTypeID(id)) }
-
-func (it InputType) MatchID() arrow.Type {
-	switch it.Kind {
-	case InputExact:
-		return it.Type.ID()
-	case InputUseMatcher:
-		if idMatch, ok := it.Matcher.(*sameTypeIDMatcher); ok {
-			return idMatch.accepted
-		}
-	}
-	debug.Assert(false, "MatchID called on non-id matching InputType")
-	return -1
-}
-
-func (it InputType) String() string {
-	switch it.Kind {
-	case InputAny:
-		return "any"
-	case InputUseMatcher:
-		return it.Matcher.String()
-	case InputExact:
-		return it.Type.String()
-	}
-	return ""
-}
-
-func (it *InputType) Equals(other *InputType) bool {
-	if it == other {
-		return true
-	}
-
-	if it.Kind != other.Kind {
-		return false
-	}
-
-	switch it.Kind {
-	case InputAny:
-		return true
-	case InputExact:
-		return arrow.TypeEqual(it.Type, other.Type)
-	case InputUseMatcher:
-		return it.Matcher.Equals(other.Matcher)
-	default:
-		return false
-	}
-}
-
-func (it InputType) Hash() uint64 {
-	var h maphash.Hash
-
-	h.SetSeed(hashSeed)
-	result := HashCombine(h.Sum64(), uint64(it.Kind))
-	switch it.Kind {
-	case InputExact:
-		result = HashCombine(result, arrow.HashType(hashSeed, it.Type))
-	}
-	return result
-}
-
-func (it InputType) Matches(dt arrow.DataType) bool {
-	switch it.Kind {
-	case InputExact:
-		return arrow.TypeEqual(it.Type, dt)
-	case InputUseMatcher:
-		return it.Matcher.Matches(dt)
-	case InputAny:
-		return true
-	default:
-		debug.Assert(false, "invalid InputKind")
-		return true
-	}
-}
-
-// ResolveKind defines the way that a particular OutputType resolves
-// its type. Either it has a fixed type to resolve to or it contains
-// a Resolver which will compute the resolved type based on
-// the input types.
-type ResolveKind int8
-
-const (
-	ResolveFixed ResolveKind = iota
-	ResolveComputed
-)
-
-// TypeResolver is simply a function that takes a KernelCtx and a list of input types
-// and returns the resolved type or an error.
-type TypeResolver = func(*KernelCtx, []arrow.DataType) (arrow.DataType, error)
-
-type OutputType struct {
-	Kind     ResolveKind
-	Type     arrow.DataType
-	Resolver TypeResolver
-}
-
-func NewOutputType(dt arrow.DataType) OutputType {
-	return OutputType{Kind: ResolveFixed, Type: dt}
-}
-
-func NewComputedOutputType(resolver TypeResolver) OutputType {
-	return OutputType{Kind: ResolveComputed, Resolver: resolver}
-}
-
-func (o OutputType) String() string {
-	if o.Kind == ResolveFixed {
-		return o.Type.String()
-	}
-	return "computed"
-}
-
-func (o OutputType) Resolve(ctx *KernelCtx, types []arrow.DataType) (arrow.DataType, error) {
-	switch o.Kind {
-	case ResolveFixed:
-		return o.Type, nil
-	}
-
-	return o.Resolver(ctx, types)
-}
-
-// NullHandling is an enum representing how a particular Kernel
-// wants the executor to handle nulls.
-type NullHandling int8
-
-const (
-	// Compute the output validity bitmap by intersection the validity
-	// bitmaps of the arguments using bitwise-and operations. This means
-	// that values in the output are valid/non-null only if the corresponding
-	// values in all input arguments were valid/non-null. Kernels generally
-	// do not have to touch the bitmap afterwards, but a kernel's exec function
-	// is permitted to alter the bitmap after the null intersection is computed
-	// if necessary.
-	NullIntersection NullHandling = iota
-	// Kernel expects a pre-allocated buffer to write the result bitmap
-	// into.
-	NullComputedPrealloc
-	// Kernel will allocate and set the validity bitmap of the output
-	NullComputedNoPrealloc
-	// kernel output is never null and a validity bitmap doesn't need to
-	// be allocated
-	NullNoOutput
-)
-
-// MemAlloc is the preference for preallocating memory of fixed-width
-// type outputs during kernel execution.
-type MemAlloc int8
-
-const (
-	// For data types that support pre-allocation (fixed-width), the
-	// kernel expects to be provided a pre-allocated buffer to write into.
-	// Non-fixed-width types must always allocate their own buffers.
-	// The allocation is made for the same length as the execution batch,
-	// so vector kernels yielding differently sized outputs should not
-	// use this.
-	//
-	// It is valid for the data to not be preallocated but the validity
-	// bitmap is (or is computed using intersection).
-	//
-	// For variable-size output types like Binary or String, or for nested
-	// types, this option has no effect.
-	MemPrealloc MemAlloc = iota
-	// The kernel is responsible for allocating its own data buffer
-	// for fixed-width output types.
-	MemNoPrealloc
-)
-
-type KernelState any
-
-// KernelInitArgs are the arguments required to initialize an Kernel's
-// state using the input types and any options.
-type KernelInitArgs struct {
-	Kernel Kernel
-	Inputs []arrow.DataType
-	// Options are opaque and specific to the Kernel being initialized,
-	// may be nil if the kernel doesn't require options.
-	Options any
-}
-
-// KernelInitFn is any function that receives a KernelCtx and initialization
-// arguments and returns the initialized state or an error.
-type KernelInitFn = func(*KernelCtx, KernelInitArgs) (KernelState, error)
-
-// KernelSignature holds the input and output types for a kernel.
-//
-// Variable argument functions with a minimum of N arguments should pass
-// up to N input types to be used to validate for invocation. The first
-// N-1 types will be matched against the first N-1 arguments and the last
-// type will be matched against the remaining arguments.
-type KernelSignature struct {
-	InputTypes []InputType
-	OutType    OutputType
-	IsVarArgs  bool
-
-	// store the hashcode after it is computed so we don't
-	// need to recompute it
-	hashCode uint64
-}
-
-func (k KernelSignature) String() string {
-	var b strings.Builder
-	if k.IsVarArgs {
-		b.WriteString("varargs[")
-	} else {
-		b.WriteByte('(')
-	}
-
-	for i, t := range k.InputTypes {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		b.WriteString(t.String())
-	}
-	if k.IsVarArgs {
-		b.WriteString("*]")
-	} else {
-		b.WriteByte(')')
-	}
-
-	b.WriteString(" -> ")
-	b.WriteString(k.OutType.String())
-	return b.String()
-}
-
-func (k KernelSignature) Equals(other KernelSignature) bool {
-	if k.IsVarArgs != other.IsVarArgs {
-		return false
-	}
-
-	return slices.EqualFunc(k.InputTypes, other.InputTypes, func(e1, e2 InputType) bool {
-		return e1.Equals(&e2)
-	})
-}
-
-func (k *KernelSignature) Hash() uint64 {
-	if k.hashCode != 0 {
-		return k.hashCode
-	}
-
-	var h maphash.Hash
-	h.SetSeed(hashSeed)
-	result := h.Sum64()
-	for _, typ := range k.InputTypes {
-		result = HashCombine(result, typ.Hash())
-	}
-	k.hashCode = result
-	return result
-}
-
-func (k KernelSignature) MatchesInputs(types []arrow.DataType) bool {
-	switch k.IsVarArgs {
-	case true:
-		// check that it has enough to match at least the non-vararg types
-		if len(types) < (len(k.InputTypes) - 1) {
-			return false
-		}
-
-		for i, t := range types {
-			if !k.InputTypes[Min(i, len(k.InputTypes)-1)].Matches(t) {
-				return false
-			}
-		}
-	case false:
-		if len(types) != len(k.InputTypes) {
-			return false
-		}
-		for i, t := range types {
-			if !k.InputTypes[i].Matches(t) {
-				return false
-			}
-		}
-	}
-	return true
-}
-
-// ArrayKernelExec is an alias definition for a kernel's execution function.
-//
-// This is used for both stateless and stateful kernels. If a kernel
-// depends on some execution state, it can be accessed from the KernelCtx
-// object, which also contains the context.Context object which can be
-// used for shortcircuiting by checking context.Done / context.Err.
-// This allows kernels to control handling timeouts or cancellation of
-// computation.
-type ArrayKernelExec = func(*KernelCtx, *ExecSpan, *ExecResult) error
-
-type kernel struct {
-	Init           KernelInitFn
-	Signature      *KernelSignature
-	Data           KernelState
-	Parallelizable bool
-}
-
-func (k kernel) GetInitFn() KernelInitFn  { return k.Init }
-func (k kernel) GetSig() *KernelSignature { return k.Signature }
-
-// A ScalarKernel is the kernel implementation for a Scalar Function.
-// In addition to the members found in the base Kernel, it contains
-// the null handling and memory pre-allocation preferences.
-type ScalarKernel struct {
-	kernel
-
-	ExecFn             ArrayKernelExec
-	CanWriteIntoSlices bool
-	NullHandling       NullHandling
-	MemAlloc           MemAlloc
-}
-
-// NewScalarKernel constructs a new kernel for scalar execution, constructing
-// a KernelSignature with the provided input types and output type, and using
-// the passed in execution implementation and initialization function.
-func NewScalarKernel(in []InputType, out OutputType, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
-	return NewScalarKernelWithSig(&KernelSignature{
-		InputTypes: in,
-		OutType:    out,
-	}, exec, init)
-}
-
-// NewScalarKernelWithSig is a convenience when you already have a signature
-// to use for constructing a kernel. It's equivalent to passing the components
-// of the signature (input and output types) to NewScalarKernel.
-func NewScalarKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
-	return ScalarKernel{
-		kernel:             kernel{Signature: sig, Init: init, Parallelizable: true},
-		ExecFn:             exec,
-		CanWriteIntoSlices: true,
-		NullHandling:       NullIntersection,
-		MemAlloc:           MemPrealloc,
-	}
-}
-
-func (s *ScalarKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
-	return s.ExecFn(ctx, sp, out)
-}
-
-func (s ScalarKernel) GetNullHandling() NullHandling { return s.NullHandling }
-func (s ScalarKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
-func (s ScalarKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
-
-// ChunkedExec is the signature for executing a stateful vector kernel
-// against a ChunkedArray input. It is optional
-type ChunkedExec func(*KernelCtx, []*arrow.Chunked, *ExecResult) ([]*ExecResult, error)
-
-// FinalizeFunc is an optional finalizer function for any postprocessing
-// that may need to be done on data before returning it
-type FinalizeFunc func(*KernelCtx, []*ArraySpan) ([]*ArraySpan, error)
-
-// VectorKernel is a structure for implementations of vector functions.
-// It can optionally contain a finalizer function, the null handling
-// and memory pre-allocation preferences (different defaults from
-// scalar kernels when using NewVectorKernel), and other execution related
-// options.
-type VectorKernel struct {
-	kernel
-
-	ExecFn              ArrayKernelExec
-	ExecChunked         ChunkedExec
-	Finalize            FinalizeFunc
-	NullHandling        NullHandling
-	MemAlloc            MemAlloc
-	CanWriteIntoSlices  bool
-	CanExecuteChunkWise bool
-	OutputChunked       bool
-}
-
-// NewVectorKernel constructs a new kernel for execution of vector functions,
-// which take into account more than just the individual scalar values
-// of its input. Output of a vector kernel may be a different length
-// than its inputs.
-func NewVectorKernel(inTypes []InputType, outType OutputType, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
-	return NewVectorKernelWithSig(&KernelSignature{
-		InputTypes: inTypes, OutType: outType}, exec, init)
-}
-
-// NewVectorKernelWithSig is a convenience function for creating a kernel
-// when you already have a signature constructed.
-func NewVectorKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
-	return VectorKernel{
-		kernel:              kernel{Signature: sig, Init: init, Parallelizable: true},
-		ExecFn:              exec,
-		CanWriteIntoSlices:  true,
-		CanExecuteChunkWise: true,
-		OutputChunked:       true,
-		NullHandling:        NullComputedNoPrealloc,
-		MemAlloc:            MemNoPrealloc,
-	}
-}
-
-func (s *VectorKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
-	return s.ExecFn(ctx, sp, out)
-}
-
-func (s VectorKernel) GetNullHandling() NullHandling { return s.NullHandling }
-func (s VectorKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
-func (s VectorKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
diff --git a/go/arrow/compute/exec/kernel_test.go b/go/arrow/compute/exec/kernel_test.go
deleted file mode 100644
index 248bad323a307..0000000000000
--- a/go/arrow/compute/exec/kernel_test.go
+++ /dev/null
@@ -1,588 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTypeMatcherSameTypeID(t *testing.T) {
-	matcher := exec.SameTypeID(arrow.DECIMAL128)
-	assert.True(t, matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-	assert.False(t, matcher.Matches(arrow.PrimitiveTypes.Int8))
-
-	assert.Equal(t, "Type::DECIMAL128", matcher.String())
-
-	assert.True(t, matcher.Equals(matcher))
-	assert.True(t, matcher.Equals(exec.SameTypeID(arrow.DECIMAL)))
-	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
-	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Microsecond)))
-}
-
-func TestTypeMatcherTimestampTypeUnit(t *testing.T) {
-	matcher := exec.TimestampTypeUnit(arrow.Millisecond)
-	matcher2 := exec.Time32TypeUnit(arrow.Millisecond)
-	matcher3 := exec.Time64TypeUnit(arrow.Microsecond)
-	matcher4 := exec.DurationTypeUnit(arrow.Microsecond)
-
-	assert.True(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_ms))
-	assert.True(t, matcher.Matches(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "utc"}))
-	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_s))
-	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Time32ms))
-	assert.True(t, matcher2.Matches(arrow.FixedWidthTypes.Time32ms))
-
-	assert.True(t, matcher3.Matches(arrow.FixedWidthTypes.Time64us))
-	assert.False(t, matcher3.Matches(arrow.FixedWidthTypes.Time64ns))
-	assert.True(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_us))
-	assert.False(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_ms))
-
-	// check String() representation
-	assert.Equal(t, "timestamp(s)", exec.TimestampTypeUnit(arrow.Second).String())
-	assert.Equal(t, "timestamp(ms)", exec.TimestampTypeUnit(arrow.Millisecond).String())
-	assert.Equal(t, "timestamp(us)", exec.TimestampTypeUnit(arrow.Microsecond).String())
-	assert.Equal(t, "timestamp(ns)", exec.TimestampTypeUnit(arrow.Nanosecond).String())
-
-	// equals implementation
-	assert.True(t, matcher.Equals(matcher))
-	assert.True(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Millisecond)))
-	assert.False(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Microsecond)))
-	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Millisecond)))
-	assert.False(t, matcher3.Equals(matcher2))
-	assert.False(t, matcher4.Equals(matcher3))
-	assert.True(t, matcher4.Equals(exec.DurationTypeUnit(arrow.Microsecond)))
-	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
-}
-
-func TestIntegerMatcher(t *testing.T) {
-	match := exec.Integer()
-
-	assert.Equal(t, "integer", match.String())
-	assert.True(t, match.Matches(arrow.PrimitiveTypes.Int8))
-	assert.True(t, match.Matches(arrow.PrimitiveTypes.Uint64))
-	assert.True(t, match.Equals(exec.Integer()))
-	assert.False(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestBinaryLikeMatcher(t *testing.T) {
-	match := exec.BinaryLike()
-
-	assert.Equal(t, "binary-like", match.String())
-	assert.True(t, match.Matches(arrow.BinaryTypes.String))
-	assert.True(t, match.Matches(arrow.BinaryTypes.Binary))
-	assert.False(t, match.Matches(arrow.BinaryTypes.LargeString))
-	assert.False(t, match.Matches(arrow.BinaryTypes.LargeBinary))
-	assert.False(t, match.Equals(exec.LargeBinaryLike()))
-	assert.True(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestLargeBinaryLikeMatcher(t *testing.T) {
-	match := exec.LargeBinaryLike()
-
-	assert.Equal(t, "large-binary-like", match.String())
-	assert.False(t, match.Matches(arrow.BinaryTypes.String))
-	assert.False(t, match.Matches(arrow.BinaryTypes.Binary))
-	assert.True(t, match.Matches(arrow.BinaryTypes.LargeString))
-	assert.True(t, match.Matches(arrow.BinaryTypes.LargeBinary))
-	assert.True(t, match.Equals(exec.LargeBinaryLike()))
-	assert.False(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestFixedSizeBinaryMatcher(t *testing.T) {
-	match := exec.FixedSizeBinaryLike()
-
-	assert.Equal(t, "fixed-size-binary-like", match.String())
-	assert.False(t, match.Matches(arrow.BinaryTypes.String))
-	assert.True(t, match.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 5}))
-	assert.True(t, match.Matches(&arrow.Decimal256Type{Precision: 12, Scale: 10}))
-	assert.True(t, match.Matches(&arrow.FixedSizeBinaryType{}))
-	assert.False(t, match.Equals(exec.LargeBinaryLike()))
-	assert.True(t, match.Equals(exec.FixedSizeBinaryLike()))
-}
-
-func TestPrimitiveMatcher(t *testing.T) {
-	match := exec.Primitive()
-
-	assert.Equal(t, "primitive", match.String())
-	assert.True(t, match.Equals(exec.Primitive()))
-
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.FixedWidthTypes.Float16,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-		arrow.FixedWidthTypes.Date32,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Time32ms,
-		arrow.FixedWidthTypes.Time64ns,
-		arrow.FixedWidthTypes.Timestamp_ms,
-		arrow.FixedWidthTypes.Duration_ms,
-		arrow.FixedWidthTypes.MonthInterval,
-		arrow.FixedWidthTypes.DayTimeInterval,
-		arrow.FixedWidthTypes.MonthDayNanoInterval,
-	}
-
-	for _, typ := range types {
-		assert.True(t, match.Matches(typ))
-	}
-
-	assert.False(t, match.Matches(arrow.Null))
-}
-
-func TestREEMatcher(t *testing.T) {
-	tests := []struct {
-		runEnds        exec.TypeMatcher
-		enc            exec.TypeMatcher
-		matchRunEnds   arrow.DataType
-		nomatchRunEnds arrow.DataType
-		matchEnc       arrow.DataType
-		nomatchEnc     arrow.DataType
-	}{
-		{exec.Integer(), exec.Integer(), arrow.PrimitiveTypes.Int16, arrow.FixedWidthTypes.Float16, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String},
-		{exec.SameTypeID(arrow.INT32), exec.BinaryLike(), arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32},
-		{exec.SameTypeID(arrow.INT64), exec.SameTypeID(arrow.STRUCT), arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int16}), arrow.PrimitiveTypes.Int8},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.enc.String(), func(t *testing.T) {
-			matcher := exec.RunEndEncoded(tt.runEnds, tt.enc)
-			assert.False(t, matcher.Matches(tt.matchEnc))
-			assert.True(t, matcher.Matches(arrow.RunEndEncodedOf(tt.matchRunEnds, tt.matchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.matchRunEnds, tt.nomatchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.nomatchRunEnds, tt.matchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.nomatchRunEnds, tt.nomatchEnc)))
-
-			assert.Equal(t, "run_end_encoded(run_ends="+tt.runEnds.String()+", values="+tt.enc.String()+")", matcher.String())
-
-			assert.True(t, matcher.Equals(exec.RunEndEncoded(tt.runEnds, tt.enc)))
-			assert.False(t, matcher.Equals(exec.Primitive()))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.nomatchRunEnds.ID()), exec.SameTypeID(tt.nomatchEnc.ID()))))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.matchRunEnds.ID()), exec.SameTypeID(tt.nomatchEnc.ID()))))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.nomatchRunEnds.ID()), exec.SameTypeID(tt.matchEnc.ID()))))
-		})
-	}
-}
-
-func TestInputTypeAnyType(t *testing.T) {
-	var ty exec.InputType
-	assert.Equal(t, exec.InputAny, ty.Kind)
-}
-
-func TestInputType(t *testing.T) {
-	ty1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	assert.Equal(t, exec.InputExact, ty1.Kind)
-	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
-	assert.Equal(t, "int8", ty1.String())
-
-	ty2 := exec.NewIDInput(arrow.DECIMAL)
-	assert.Equal(t, exec.InputUseMatcher, ty2.Kind)
-	assert.Equal(t, "Type::DECIMAL128", ty2.String())
-	assert.True(t, ty2.Matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-	assert.False(t, ty2.Matcher.Matches(arrow.PrimitiveTypes.Int16))
-
-	ty3 := exec.NewMatchedInput(exec.TimestampTypeUnit(arrow.Microsecond))
-	assert.Equal(t, "timestamp(us)", ty3.String())
-
-	var ty4 exec.InputType
-	assert.Equal(t, "any", ty4.String())
-	// InputAny matches anything
-	assert.True(t, ty4.Matches((arrow.DataType)(nil)))
-}
-
-func TestInputTypeEquals(t *testing.T) {
-	t1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	t2 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	t3 := exec.NewExactInput(arrow.PrimitiveTypes.Int32)
-
-	t5 := exec.NewIDInput(arrow.DECIMAL)
-	t6 := exec.NewIDInput(arrow.DECIMAL)
-
-	assert.True(t, t1.Equals(&t2))
-	assert.False(t, t1.Equals(&t3))
-	assert.False(t, t1.Equals(&t5))
-	assert.True(t, t5.Equals(&t5))
-	assert.True(t, t5.Equals(&t6))
-
-	var ty exec.InputType
-	assert.True(t, ty.Equals(&exec.InputType{Kind: exec.InputAny}))
-
-	// for now, an ID matcher for arrow.INT32 and a ExactInput for
-	// arrow.PrimitiveTypes.Int32 are treated as being different.
-	// this could be made equivalent later if desireable
-
-	// check that field metadata is excluded from equality checks
-	t7 := exec.NewExactInput(arrow.ListOfField(
-		arrow.Field{Name: "item", Type: arrow.BinaryTypes.String,
-			Nullable: true, Metadata: arrow.NewMetadata([]string{"foo"}, []string{"bar"})}))
-	t8 := exec.NewExactInput(arrow.ListOf(arrow.BinaryTypes.String))
-	assert.True(t, t7.Equals(&t8))
-}
-
-func TestInputTypeHash(t *testing.T) {
-	var (
-		t0 exec.InputType
-		t1 = exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-		t2 = exec.NewIDInput(arrow.DECIMAL)
-	)
-
-	// these checks try to determine first of all whether hash
-	// always returns the same value, and whether the elements
-	// of the type are all incorporated into the hash
-	assert.Equal(t, t0.Hash(), t0.Hash())
-	assert.Equal(t, t1.Hash(), t1.Hash())
-	assert.Equal(t, t2.Hash(), t2.Hash())
-	assert.NotEqual(t, t0.Hash(), t1.Hash())
-	assert.NotEqual(t, t0.Hash(), t2.Hash())
-	assert.NotEqual(t, t1.Hash(), t2.Hash())
-}
-
-func TestInputTypeMatches(t *testing.T) {
-	in1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-
-	assert.True(t, in1.Matches(arrow.PrimitiveTypes.Int8))
-	assert.False(t, in1.Matches(arrow.PrimitiveTypes.Int16))
-
-	in2 := exec.NewIDInput(arrow.DECIMAL)
-	assert.True(t, in2.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-
-	ty2 := &arrow.Decimal128Type{Precision: 12, Scale: 2}
-	ty3 := arrow.PrimitiveTypes.Float64
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr2 := array.MakeArrayOfNull(mem, ty2, 1)
-	arr3 := array.MakeArrayOfNull(mem, ty3, 1)
-	defer arr2.Release()
-	defer arr3.Release()
-
-	scalar2, err := scalar.GetScalar(arr2, 0)
-	assert.NoError(t, err)
-
-	datumArr := compute.NewDatum(arr2)
-	defer datumArr.Release()
-	datumScalar := compute.NewDatum(scalar2)
-	defer datumScalar.Release()
-
-	assert.False(t, in2.Matches(ty3))
-	assert.False(t, in2.Matches(arr3.DataType()))
-}
-
-func TestOutputType(t *testing.T) {
-	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int8)
-	assert.Equal(t, exec.ResolveFixed, ty1.Kind)
-	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
-
-	dummyResolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-		return arrow.PrimitiveTypes.Int32, nil
-	}
-
-	ty2 := exec.NewComputedOutputType(dummyResolver)
-	assert.Equal(t, exec.ResolveComputed, ty2.Kind)
-
-	outType2, err := ty2.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, outType2)
-
-	ty3 := ty1
-	assert.Equal(t, exec.ResolveFixed, ty3.Kind)
-	assert.True(t, arrow.TypeEqual(ty1.Type, ty3.Type))
-
-	ty4 := ty2
-	assert.Equal(t, exec.ResolveComputed, ty4.Kind)
-	outType4, err := ty4.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, outType4)
-
-	assert.Equal(t, "int8", ty3.String())
-	assert.Equal(t, "computed", ty4.String())
-}
-
-func TestOutputTypeResolve(t *testing.T) {
-	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int32)
-
-	result, err := ty1.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	resolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-		return args[0], nil
-	}
-	ty2 := exec.NewComputedOutputType(resolver)
-
-	result, err = ty2.Resolve(nil, []arrow.DataType{arrow.BinaryTypes.String})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.BinaryTypes.String, result)
-
-	// type resolver that returns an error
-	ty3 := exec.NewComputedOutputType(func(_ *exec.KernelCtx, dt []arrow.DataType) (arrow.DataType, error) {
-		// checking the value types versus the function arity should be validated
-		// elsewhere. this is just for illustration purposes
-		if len(dt) == 0 {
-			return nil, fmt.Errorf("%w: need at least one argument", arrow.ErrInvalid)
-		}
-		return dt[0], nil
-	})
-
-	_, err = ty3.Resolve(nil, []arrow.DataType{})
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-
-	// resolver returns a fixed value
-	ty4 := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
-		return arrow.PrimitiveTypes.Int32, nil
-	})
-	result, err = ty4.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-	result, err = ty4.Resolve(nil, []arrow.DataType{})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-}
-
-func TestKernelSignatureEquals(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
-	sig1Copy := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	// output type doesn't matter (for now)
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType: exec.NewOutputType(arrow.PrimitiveTypes.Int32),
-	}
-
-	sig4 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig4Copy := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig5 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.True(t, sig1.Equals(sig1))
-	assert.True(t, sig2.Equals(sig3))
-	assert.False(t, sig3.Equals(sig4))
-
-	// different sig objects but same sig
-	assert.True(t, sig1.Equals(sig1Copy))
-	assert.True(t, sig4.Equals(sig4Copy))
-
-	// match first 2 args, but not third
-	assert.False(t, sig4.Equals(sig5))
-}
-
-func TestKernelSignatureVarArgsEqual(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs:  true,
-	}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs:  true,
-	}
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.True(t, sig1.Equals(sig2))
-	assert.False(t, sig2.Equals(sig3))
-}
-
-func TestKernelSignatureHash(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.Equal(t, sig1.Hash(), sig1.Hash())
-	assert.Equal(t, sig2.Hash(), sig2.Hash())
-	assert.NotEqual(t, sig1.Hash(), sig2.Hash())
-	assert.NotEqual(t, sig2.Hash(), sig3.Hash())
-}
-
-func TestKernelSignatureMatchesInputs(t *testing.T) {
-	// () -> boolean
-	sig1 := exec.KernelSignature{
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean)}
-
-	assert.True(t, sig1.MatchesInputs([]arrow.DataType{}))
-	assert.False(t, sig1.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
-
-	// (int8, decimal) -> boolean
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewIDInput(arrow.DECIMAL)},
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}
-	assert.False(t, sig2.MatchesInputs([]arrow.DataType{}))
-	assert.False(t, sig2.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
-	assert.True(t, sig2.MatchesInputs([]arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		&arrow.Decimal128Type{Precision: 12, Scale: 2}}))
-
-	// (int8, int32) -> boolean
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		},
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}
-	assert.False(t, sig3.MatchesInputs(nil))
-	assert.True(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32}))
-	assert.False(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int16}))
-}
-
-func TestKernelSignatureVarArgsMatchesInputs(t *testing.T) {
-	{
-		sig := exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-			OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-			IsVarArgs:  true,
-		}
-
-		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8)
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int32)
-		assert.False(t, sig.MatchesInputs(args))
-	}
-	{
-		sig := exec.KernelSignature{
-			InputTypes: []exec.InputType{
-				exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-				exec.NewExactInput(arrow.BinaryTypes.String),
-			},
-			OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-			IsVarArgs: true,
-		}
-
-		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int32)
-		assert.False(t, sig.MatchesInputs(args))
-	}
-}
-
-func TestKernelSignatureToString(t *testing.T) {
-	inTypes := []exec.InputType{
-		exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-		exec.NewIDInput(arrow.DECIMAL),
-		exec.NewExactInput(arrow.BinaryTypes.String),
-	}
-
-	sig := exec.KernelSignature{
-		InputTypes: inTypes, OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	assert.Equal(t, "(int8, Type::DECIMAL128, utf8) -> utf8", sig.String())
-
-	outType := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
-		return nil, arrow.ErrInvalid
-	})
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewIDInput(arrow.DECIMAL)},
-		OutType: outType,
-	}
-	assert.Equal(t, "(int8, Type::DECIMAL128) -> computed", sig2.String())
-}
-
-func TestKernelSignatureVarArgsToString(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs: true,
-	}
-	assert.Equal(t, "varargs[int8*] -> utf8", sig1.String())
-
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.BinaryTypes.String),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs: true,
-	}
-	assert.Equal(t, "varargs[utf8, int8*] -> utf8", sig2.String())
-}
diff --git a/go/arrow/compute/exec/span.go b/go/arrow/compute/exec/span.go
deleted file mode 100644
index 6156acfd008aa..0000000000000
--- a/go/arrow/compute/exec/span.go
+++ /dev/null
@@ -1,634 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// BufferSpan is a lightweight Buffer holder for ArraySpans that does not
-// take ownership of the underlying memory.Buffer at all or could be
-// used to reference raw byte slices instead.
-type BufferSpan struct {
-	// Buf should be the byte slice representing this buffer, if this is
-	// nil then this bufferspan should be considered empty.
-	Buf []byte
-	// Owner should point to an underlying parent memory.Buffer if this
-	// memory is owned by a different, existing, buffer. Retain is not
-	// called on this buffer, so it must not be released as long as
-	// this BufferSpan refers to it.
-	Owner *memory.Buffer
-	// SelfAlloc tracks whether or not this bufferspan is the only owner
-	// of the Owning memory.Buffer. This happens when preallocating
-	// memory or if a kernel allocates it's own buffer for a result.
-	// In these cases, we have to know so we can properly maintain the
-	// refcount if this is later turned into an ArrayData object.
-	SelfAlloc bool
-}
-
-// SetBuffer sets the given buffer into this BufferSpan and marks
-// SelfAlloc as false. This should be called when setting a buffer
-// that is externally owned/created.
-func (b *BufferSpan) SetBuffer(buf *memory.Buffer) {
-	b.Buf = buf.Bytes()
-	b.Owner = buf
-	b.SelfAlloc = false
-}
-
-// WrapBuffer wraps this bufferspan around a buffer and marks
-// SelfAlloc as true. This should be called when setting a buffer
-// that was allocated as part of an execution rather than just
-// re-using an existing buffer from an input array.
-func (b *BufferSpan) WrapBuffer(buf *memory.Buffer) {
-	b.Buf = buf.Bytes()
-	b.Owner = buf
-	b.SelfAlloc = true
-}
-
-// ArraySpan is a light-weight, non-owning version of arrow.ArrayData
-// for more efficient handling with computation and engines. We use
-// explicit go Arrays to define the buffers and some scratch space
-// for easily populating and shifting around pointers to memory without
-// having to worry about and deal with retain/release during calculations.
-type ArraySpan struct {
-	Type    arrow.DataType
-	Len     int64
-	Nulls   int64
-	Offset  int64
-	Buffers [3]BufferSpan
-
-	// Scratch is a holding spot for things such as
-	// offsets or union type codes when converting from scalars
-	Scratch [2]uint64
-
-	Children []ArraySpan
-}
-
-// if an error is encountered, call Release on a preallocated span
-// to ensure it releases any self-allocated buffers, it will
-// not call release on buffers it doesn't own (SelfAlloc != true)
-func (a *ArraySpan) Release() {
-	for _, c := range a.Children {
-		c.Release()
-	}
-
-	for _, b := range a.Buffers {
-		if b.SelfAlloc {
-			b.Owner.Release()
-		}
-	}
-}
-
-func (a *ArraySpan) MayHaveNulls() bool {
-	return atomic.LoadInt64(&a.Nulls) != 0 && a.Buffers[0].Buf != nil
-}
-
-// UpdateNullCount will count the bits in the null bitmap and update the
-// number of nulls if the current null count is unknown, otherwise it just
-// returns the value of a.Nulls
-func (a *ArraySpan) UpdateNullCount() int64 {
-	curNulls := atomic.LoadInt64(&a.Nulls)
-	if curNulls != array.UnknownNullCount {
-		return curNulls
-	}
-
-	newNulls := a.Len - int64(bitutil.CountSetBits(a.Buffers[0].Buf, int(a.Offset), int(a.Len)))
-	atomic.StoreInt64(&a.Nulls, newNulls)
-	return newNulls
-}
-
-// Dictionary returns a pointer to the array span for the dictionary which
-// we will always place as the first (and only) child if it exists.
-func (a *ArraySpan) Dictionary() *ArraySpan { return &a.Children[0] }
-
-// NumBuffers returns the number of expected buffers for this type
-func (a *ArraySpan) NumBuffers() int { return getNumBuffers(a.Type) }
-
-// MakeData generates an arrow.ArrayData object for this ArraySpan,
-// properly updating the buffer ref count if necessary.
-func (a *ArraySpan) MakeData() arrow.ArrayData {
-	var bufs [3]*memory.Buffer
-	for i := range bufs {
-		b := a.GetBuffer(i)
-		bufs[i] = b
-		if b != nil && a.Buffers[i].SelfAlloc {
-			// if this buffer is just a pointer to another existing buffer
-			// then we never bumped the refcount for that buffer.
-			// As a result, we won't call release here so that the call
-			// to array.NewData properly updates the ref counts of the buffers.
-			// If instead this buffer was allocated during calculation
-			// (such as during prealloc or by a kernel itself)
-			// then we need to release after we create the ArrayData so that it
-			// maintains the correct refcount of 1, giving the resulting
-			// ArrayData object ownership of this buffer.
-			defer b.Release()
-		}
-	}
-
-	var (
-		nulls    = int(atomic.LoadInt64(&a.Nulls))
-		length   = int(a.Len)
-		off      = int(a.Offset)
-		dt       = a.Type
-		children []arrow.ArrayData
-	)
-
-	if a.Type.ID() == arrow.NULL {
-		nulls = length
-	} else if len(a.Buffers[0].Buf) == 0 {
-		nulls = 0
-	}
-
-	// we use a.Type for the NewData call at the end, so we can
-	// handle extension types by using dt to point to the storage type
-	// and let the proper extension type get set into the ArrayData
-	// object we return.
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		result := array.NewData(a.Type, length, bufs[:a.NumBuffers()], nil, nulls, off)
-		dict := a.Dictionary().MakeData()
-		defer dict.Release()
-		result.SetDictionary(dict)
-		return result
-	} else if dt.ID() == arrow.DENSE_UNION || dt.ID() == arrow.SPARSE_UNION {
-		bufs[0] = nil
-		nulls = 0
-	}
-
-	if len(a.Children) > 0 {
-		children = make([]arrow.ArrayData, len(a.Children))
-		for i, c := range a.Children {
-			d := c.MakeData()
-			defer d.Release()
-			children[i] = d
-		}
-	}
-	return array.NewData(a.Type, length, bufs[:a.NumBuffers()], children, nulls, off)
-}
-
-// MakeArray is a convenience function for calling array.MakeFromData(a.MakeData())
-func (a *ArraySpan) MakeArray() arrow.Array {
-	d := a.MakeData()
-	defer d.Release()
-	return array.MakeFromData(d)
-}
-
-// SetSlice updates the offset and length of this ArraySpan to refer to
-// a specific slice of the underlying buffers.
-func (a *ArraySpan) SetSlice(off, length int64) {
-	if off == a.Offset && length == a.Len {
-		// don't modify the nulls if the slice is the entire span
-		return
-	}
-
-	if a.Type.ID() != arrow.NULL {
-		if a.Nulls != 0 {
-			if a.Nulls == a.Len {
-				a.Nulls = length
-			} else {
-				a.Nulls = array.UnknownNullCount
-			}
-		}
-	} else {
-		a.Nulls = length
-	}
-
-	a.Offset, a.Len = off, length
-}
-
-// GetBuffer returns the buffer for the requested index. If this buffer
-// is owned by another array/arrayspan the Owning buffer is returned,
-// otherwise if this slice has no owning buffer, we call NewBufferBytes
-// to wrap it as a memory.Buffer. Can also return nil if there is no
-// buffer in this index.
-func (a *ArraySpan) GetBuffer(idx int) *memory.Buffer {
-	buf := a.Buffers[idx]
-	switch {
-	case buf.Owner != nil:
-		return buf.Owner
-	case buf.Buf != nil:
-		return memory.NewBufferBytes(buf.Buf)
-	}
-	return nil
-}
-
-// convenience function to resize the children slice if necessary,
-// or just shrink the slice without re-allocating if there's enough
-// capacity already.
-func (a *ArraySpan) resizeChildren(i int) {
-	if cap(a.Children) >= i {
-		a.Children = a.Children[:i]
-	} else {
-		a.Children = make([]ArraySpan, i)
-	}
-}
-
-// FillFromScalar populates this ArraySpan as if it were a 1 length array
-// with the single value equal to the passed in Scalar.
-func (a *ArraySpan) FillFromScalar(val scalar.Scalar) {
-	var (
-		trueBit  byte = 0x01
-		falseBit byte = 0x00
-	)
-
-	a.Type = val.DataType()
-	a.Len = 1
-	typeID := a.Type.ID()
-	if val.IsValid() {
-		a.Nulls = 0
-	} else {
-		a.Nulls = 1
-	}
-
-	if !arrow.IsUnion(typeID) && typeID != arrow.NULL {
-		if val.IsValid() {
-			a.Buffers[0].Buf = []byte{trueBit}
-		} else {
-			a.Buffers[0].Buf = []byte{falseBit}
-		}
-		a.Buffers[0].Owner = nil
-		a.Buffers[0].SelfAlloc = false
-	}
-
-	switch {
-	case typeID == arrow.BOOL:
-		if val.(*scalar.Boolean).Value {
-			a.Buffers[1].Buf = []byte{trueBit}
-		} else {
-			a.Buffers[1].Buf = []byte{falseBit}
-		}
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-	case arrow.IsPrimitive(typeID) || arrow.IsDecimal(typeID):
-		sc := val.(scalar.PrimitiveScalar)
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-	case typeID == arrow.DICTIONARY:
-		sc := val.(scalar.PrimitiveScalar)
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		a.resizeChildren(1)
-		a.Children[0].SetMembers(val.(*scalar.Dictionary).Value.Dict.Data())
-	case arrow.IsBaseBinary(typeID):
-		sc := val.(scalar.BinaryScalar)
-		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-
-		var dataBuffer []byte
-		if sc.IsValid() {
-			dataBuffer = sc.Data()
-			a.Buffers[2].Owner = sc.Buffer()
-			a.Buffers[2].SelfAlloc = false
-		}
-		if arrow.IsBinaryLike(typeID) {
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(len(dataBuffer)), 1)
-		} else {
-			// large_binary_like
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(len(dataBuffer)), 1)
-		}
-		a.Buffers[2].Buf = dataBuffer
-	case typeID == arrow.FIXED_SIZE_BINARY:
-		sc := val.(scalar.BinaryScalar)
-		if !sc.IsValid() {
-			a.Buffers[1].Buf = make([]byte, sc.DataType().(*arrow.FixedSizeBinaryType).ByteWidth)
-			a.Buffers[1].Owner = nil
-			a.Buffers[1].SelfAlloc = false
-			break
-		}
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = sc.Buffer()
-		a.Buffers[1].SelfAlloc = false
-	case arrow.IsListLike(typeID):
-		sc := val.(scalar.ListScalar)
-		valueLen := 0
-		a.resizeChildren(1)
-
-		if sc.GetList() != nil {
-			a.Children[0].SetMembers(sc.GetList().Data())
-			valueLen = sc.GetList().Len()
-		} else {
-			// even when the value is null, we must populate
-			// child data to yield a valid array. ugh
-			FillZeroLength(sc.DataType().(arrow.NestedType).Fields()[0].Type, &a.Children[0])
-		}
-
-		switch typeID {
-		case arrow.LIST, arrow.MAP:
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(valueLen), 1)
-		case arrow.LARGE_LIST:
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(valueLen), 1)
-		default:
-			// fixed size list has no second buffer
-			a.Buffers[1].Buf, a.Buffers[1].Owner = nil, nil
-			a.Buffers[1].SelfAlloc = false
-		}
-	case typeID == arrow.STRUCT:
-		sc := val.(*scalar.Struct)
-		a.Buffers[1].Buf = nil
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		a.resizeChildren(len(sc.Value))
-		for i, v := range sc.Value {
-			a.Children[i].FillFromScalar(v)
-		}
-	case arrow.IsUnion(typeID):
-		// first buffer is kept null since unions have no validity vector
-		a.Buffers[0].Buf, a.Buffers[0].Owner = nil, nil
-		a.Buffers[0].SelfAlloc = false
-
-		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])[:1]
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		codes := unsafe.Slice((*arrow.UnionTypeCode)(unsafe.Pointer(&a.Buffers[1].Buf[0])), 1)
-
-		a.resizeChildren(len(a.Type.(arrow.UnionType).Fields()))
-		switch sc := val.(type) {
-		case *scalar.DenseUnion:
-			codes[0] = sc.TypeCode
-			// has offset, start 4 bytes in so it's aligned to the 32-bit boundaries
-			off := unsafe.Slice((*int32)(unsafe.Add(unsafe.Pointer(&a.Scratch[0]), arrow.Int32SizeBytes)), 2)
-			setOffsetsForScalar(a, off, 1, 2)
-			// we can't "see" the other arrays in the union, but we put the "active"
-			// union array in the right place and fill zero-length arrays for
-			// the others.
-			childIDS := a.Type.(arrow.UnionType).ChildIDs()
-			for i, f := range a.Type.(arrow.UnionType).Fields() {
-				if i == childIDS[sc.TypeCode] {
-					a.Children[i].FillFromScalar(sc.Value)
-				} else {
-					FillZeroLength(f.Type, &a.Children[i])
-				}
-			}
-		case *scalar.SparseUnion:
-			codes[0] = sc.TypeCode
-			// sparse union scalars have a full complement of child values
-			// even though only one of them is relevant, so we just fill them
-			// in here
-			for i, v := range sc.Value {
-				a.Children[i].FillFromScalar(v)
-			}
-		}
-	case typeID == arrow.EXTENSION:
-		// pass through storage
-		sc := val.(*scalar.Extension)
-		a.FillFromScalar(sc.Value)
-		// restore the extension type
-		a.Type = val.DataType()
-	case typeID == arrow.NULL:
-		for i := range a.Buffers {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-}
-
-func (a *ArraySpan) SetDictionary(span *ArraySpan) {
-	a.resizeChildren(1)
-	a.Children[0].Release()
-	a.Children[0] = *span
-}
-
-// TakeOwnership is like SetMembers only this takes ownership of
-// the buffers by calling Retain on them so that the passed in
-// ArrayData can be released without negatively affecting this
-// ArraySpan
-func (a *ArraySpan) TakeOwnership(data arrow.ArrayData) {
-	a.Type = data.DataType()
-	a.Len = int64(data.Len())
-	if a.Type.ID() == arrow.NULL {
-		a.Nulls = a.Len
-	} else {
-		a.Nulls = int64(data.NullN())
-	}
-	a.Offset = int64(data.Offset())
-
-	for i, b := range data.Buffers() {
-		if b != nil {
-			a.Buffers[i].WrapBuffer(b)
-			b.Retain()
-		} else {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-
-	typeID := a.Type.ID()
-	if a.Buffers[0].Buf == nil {
-		switch typeID {
-		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		default:
-			// should already be zero, but we make sure
-			a.Nulls = 0
-		}
-	}
-
-	for i := len(data.Buffers()); i < 3; i++ {
-		a.Buffers[i].Buf = nil
-		a.Buffers[i].Owner = nil
-		a.Buffers[i].SelfAlloc = false
-	}
-
-	if typeID == arrow.DICTIONARY {
-		a.resizeChildren(1)
-		dict := data.Dictionary()
-		if dict != (*array.Data)(nil) {
-			a.Children[0].TakeOwnership(dict)
-		}
-	} else {
-		a.resizeChildren(len(data.Children()))
-		for i, c := range data.Children() {
-			a.Children[i].TakeOwnership(c)
-		}
-	}
-}
-
-// SetMembers populates this ArraySpan from the given ArrayData object.
-// As this is a non-owning reference, the ArrayData object must not
-// be fully released while this ArraySpan is in use, otherwise any buffers
-// referenced will be released too
-func (a *ArraySpan) SetMembers(data arrow.ArrayData) {
-	a.Type = data.DataType()
-	a.Len = int64(data.Len())
-	if a.Type.ID() == arrow.NULL {
-		a.Nulls = a.Len
-	} else {
-		a.Nulls = int64(data.NullN())
-	}
-	a.Offset = int64(data.Offset())
-
-	for i, b := range data.Buffers() {
-		if b != nil {
-			a.Buffers[i].SetBuffer(b)
-		} else {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-
-	typeID := a.Type.ID()
-	if a.Buffers[0].Buf == nil {
-		switch typeID {
-		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		default:
-			// should already be zero, but we make sure
-			a.Nulls = 0
-		}
-	}
-
-	for i := len(data.Buffers()); i < 3; i++ {
-		a.Buffers[i].Buf = nil
-		a.Buffers[i].Owner = nil
-		a.Buffers[i].SelfAlloc = false
-	}
-
-	if typeID == arrow.DICTIONARY {
-		a.resizeChildren(1)
-		dict := data.Dictionary()
-		if dict != (*array.Data)(nil) {
-			a.Children[0].SetMembers(dict)
-		}
-	} else {
-		if cap(a.Children) >= len(data.Children()) {
-			a.Children = a.Children[:len(data.Children())]
-		} else {
-			a.Children = make([]ArraySpan, len(data.Children()))
-		}
-		for i, c := range data.Children() {
-			a.Children[i].SetMembers(c)
-		}
-	}
-}
-
-// ExecValue represents a single input to an execution which could
-// be either an Array (ArraySpan) or a Scalar value
-type ExecValue struct {
-	Array  ArraySpan
-	Scalar scalar.Scalar
-}
-
-func (e *ExecValue) IsArray() bool  { return e.Scalar == nil }
-func (e *ExecValue) IsScalar() bool { return !e.IsArray() }
-
-func (e *ExecValue) Type() arrow.DataType {
-	if e.IsArray() {
-		return e.Array.Type
-	}
-	return e.Scalar.DataType()
-}
-
-// ExecResult is the result of a kernel execution and should be populated
-// by the execution functions and/or a kernel. For now we're just going to
-// alias an ArraySpan.
-type ExecResult = ArraySpan
-
-// ExecSpan represents a slice of inputs and is used to provide slices
-// of input values to iterate over.
-//
-// Len is the length of the span (all elements in Values should either
-// be scalar or an array with a length + offset of at least Len).
-type ExecSpan struct {
-	Len    int64
-	Values []ExecValue
-}
-
-func getNumBuffers(dt arrow.DataType) int {
-	switch dt.ID() {
-	case arrow.RUN_END_ENCODED:
-		return 0
-	case arrow.NULL, arrow.STRUCT, arrow.FIXED_SIZE_LIST:
-		return 1
-	case arrow.BINARY, arrow.LARGE_BINARY, arrow.STRING, arrow.LARGE_STRING, arrow.DENSE_UNION:
-		return 3
-	case arrow.EXTENSION:
-		return getNumBuffers(dt.(arrow.ExtensionType).StorageType())
-	default:
-		return 2
-	}
-}
-
-// FillZeroLength fills an ArraySpan with the appropriate information for
-// a Zero Length Array of the provided type.
-func FillZeroLength(dt arrow.DataType, span *ArraySpan) {
-	span.Scratch[0], span.Scratch[1] = 0, 0
-	span.Type = dt
-	span.Len = 0
-	numBufs := getNumBuffers(dt)
-	for i := 0; i < numBufs; i++ {
-		span.Buffers[i].Buf = arrow.Uint64Traits.CastToBytes(span.Scratch[:])[:0]
-		span.Buffers[i].Owner = nil
-	}
-
-	for i := numBufs; i < 3; i++ {
-		span.Buffers[i].Buf, span.Buffers[i].Owner = nil, nil
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		span.resizeChildren(1)
-		FillZeroLength(dt.(*arrow.DictionaryType).ValueType, &span.Children[0])
-		return
-	}
-
-	nt, ok := dt.(arrow.NestedType)
-	if !ok {
-		if len(span.Children) > 0 {
-			span.Children = span.Children[:0]
-		}
-		return
-	}
-
-	span.resizeChildren(nt.NumFields())
-	for i, f := range nt.Fields() {
-		FillZeroLength(f.Type, &span.Children[i])
-	}
-}
-
-// PromoteExecSpanScalars promotes the values of the passed in ExecSpan
-// from scalars to Arrays of length 1 for each value.
-func PromoteExecSpanScalars(span ExecSpan) {
-	for i := range span.Values {
-		if span.Values[i].Scalar != nil {
-			span.Values[i].Array.FillFromScalar(span.Values[i].Scalar)
-			span.Values[i].Scalar = nil
-		}
-	}
-}
diff --git a/go/arrow/compute/exec/span_offsets.go b/go/arrow/compute/exec/span_offsets.go
deleted file mode 100644
index d2d0398884c9d..0000000000000
--- a/go/arrow/compute/exec/span_offsets.go
+++ /dev/null
@@ -1,36 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package exec
-
-import (
-	"unsafe"
-)
-
-// convenience function for populating the offsets buffer from a scalar
-// value's size.
-func setOffsetsForScalar[T int32 | int64](span *ArraySpan, buf []T, valueSize int64, bufidx int) {
-	buf[0] = 0
-	buf[1] = T(valueSize)
-
-	span.Buffers[bufidx].Buf = unsafe.Slice((*byte)(unsafe.Pointer(unsafe.SliceData(buf))),
-		2*int(unsafe.Sizeof(T(0))))
-
-	span.Buffers[bufidx].Owner = nil
-	span.Buffers[bufidx].SelfAlloc = false
-}
diff --git a/go/arrow/compute/exec/span_test.go b/go/arrow/compute/exec/span_test.go
deleted file mode 100644
index 018fbb7d623d9..0000000000000
--- a/go/arrow/compute/exec/span_test.go
+++ /dev/null
@@ -1,835 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"reflect"
-	"strings"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBufferSpan_SetBuffer(t *testing.T) {
-	type fields struct {
-		Buf       []byte
-		Owner     *memory.Buffer
-		SelfAlloc bool
-	}
-	type args struct {
-		buf *memory.Buffer
-	}
-	foo := []byte{0xde, 0xad, 0xbe, 0xef}
-	own := memory.NewBufferBytes(foo)
-	tests := []struct {
-		name   string
-		fields fields
-		args   args
-	}{
-		{"simple", fields{SelfAlloc: true}, args{own}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			b := &exec.BufferSpan{
-				Buf:       tt.fields.Buf,
-				Owner:     tt.fields.Owner,
-				SelfAlloc: tt.fields.SelfAlloc,
-			}
-			b.SetBuffer(tt.args.buf)
-			assert.Same(t, &foo[0], &b.Buf[0])
-			assert.Same(t, own, b.Owner)
-			assert.False(t, b.SelfAlloc)
-		})
-	}
-}
-
-func TestBufferSpan_WrapBuffer(t *testing.T) {
-	type fields struct {
-		Buf       []byte
-		Owner     *memory.Buffer
-		SelfAlloc bool
-	}
-	type args struct {
-		buf *memory.Buffer
-	}
-	foo := []byte{0xde, 0xad, 0xbe, 0xef}
-	own := memory.NewBufferBytes(foo)
-	tests := []struct {
-		name   string
-		fields fields
-		args   args
-	}{
-		{"simple", fields{SelfAlloc: false}, args{own}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			b := &exec.BufferSpan{
-				Buf:       tt.fields.Buf,
-				Owner:     tt.fields.Owner,
-				SelfAlloc: tt.fields.SelfAlloc,
-			}
-			b.WrapBuffer(tt.args.buf)
-			assert.Same(t, &foo[0], &b.Buf[0])
-			assert.Same(t, own, b.Owner)
-			assert.True(t, b.SelfAlloc)
-		})
-	}
-}
-
-func TestArraySpan_UpdateNullCount(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	tests := []struct {
-		name   string
-		fields fields
-		want   int64
-	}{
-		{"known", fields{Nulls: 25}, 25},
-		{"unknown", fields{
-			Nulls:   array.UnknownNullCount,
-			Len:     8, // 0b01101101
-			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 3},
-		{"unknown with offset", fields{
-			Nulls:   array.UnknownNullCount,
-			Len:     4,
-			Offset:  2, // 0b01101101
-			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 1},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.UpdateNullCount(); got != tt.want {
-				t.Errorf("ArraySpan.UpdateNullCount() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_Dictionary(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	children := []exec.ArraySpan{{}}
-	tests := []struct {
-		name   string
-		fields fields
-		want   *exec.ArraySpan
-	}{
-		{"basic", fields{Children: children}, &children[0]},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.Dictionary(); !reflect.DeepEqual(got, tt.want) {
-				t.Errorf("ArraySpan.Dictionary() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_NumBuffers(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-
-	tests := []struct {
-		name   string
-		fields fields
-		want   int
-	}{
-		{"null", fields{Type: arrow.Null}, 1},
-		{"struct", fields{Type: arrow.StructOf()}, 1},
-		{"fixed size list", fields{Type: arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int32)}, 1},
-		{"binary", fields{Type: arrow.BinaryTypes.Binary}, 3},
-		{"large binary", fields{Type: arrow.BinaryTypes.LargeBinary}, 3},
-		{"string", fields{Type: arrow.BinaryTypes.String}, 3},
-		{"large string", fields{Type: arrow.BinaryTypes.LargeString}, 3},
-		{"extension", fields{Type: extensions.NewUUIDType()}, 2},
-		{"int32", fields{Type: arrow.PrimitiveTypes.Int32}, 2},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.NumBuffers(); got != tt.want {
-				t.Errorf("ArraySpan.NumBuffers() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_MakeData(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-
-	var (
-		buf1 *memory.Buffer
-	)
-	arrow.RegisterExtensionType(types.NewDictExtensionType())
-	defer arrow.UnregisterExtensionType("dict-extension")
-
-	tests := []struct {
-		name   string
-		fields func(mem memory.Allocator) fields
-		want   func(mem memory.Allocator) arrow.ArrayData
-	}{
-		{"null type", func(mem memory.Allocator) fields {
-			return fields{
-				Type:  arrow.Null,
-				Len:   5,
-				Nulls: array.UnknownNullCount,
-			}
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			return array.NewData(arrow.Null, 5, []*memory.Buffer{nil}, nil, 5, 0)
-		}},
-		{"zero len", func(mem memory.Allocator) fields {
-			return fields{Type: arrow.PrimitiveTypes.Int32}
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			return array.NewData(arrow.PrimitiveTypes.Int32, 0, []*memory.Buffer{nil, nil}, nil, 0, 0)
-		}},
-		{"non-owning offset", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type:   arrow.PrimitiveTypes.Int8,
-				Len:    4,
-				Nulls:  1,
-				Offset: 1,
-			}
-			buf1 = memory.NewResizableBuffer(mem)
-			buf1.Resize(1)
-			buf1.Bytes()[0] = 109
-			ret.Buffers[0].SetBuffer(buf1)
-			ret.Buffers[1].SetBuffer(memory.NewBufferBytes([]byte{5, 5, 5, 5, 5}))
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			// created in the above func, we release after constructing
-			// the NewData so the refcount is as expected
-			defer buf1.Release()
-			return array.NewData(arrow.PrimitiveTypes.Int8, 4,
-				[]*memory.Buffer{buf1, memory.NewBufferBytes([]byte{5, 5, 5, 5, 5})}, nil, 1, 1)
-		}},
-		{"self-alloc", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type: arrow.PrimitiveTypes.Int8,
-				Len:  4,
-			}
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(1)
-			ret.Buffers[0].WrapBuffer(buf)
-			buf2 := memory.NewResizableBuffer(mem)
-			buf2.Resize(4)
-			ret.Buffers[1].WrapBuffer(buf2)
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(1)
-			defer buf.Release()
-			buf2 := memory.NewResizableBuffer(mem)
-			buf2.Resize(4)
-			defer buf2.Release()
-			return array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{buf, buf2}, nil, 0, 0)
-		}},
-		{"with children", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type: arrow.ListOf(arrow.PrimitiveTypes.Int8),
-				Len:  1,
-				Children: []exec.ArraySpan{{
-					Type: arrow.PrimitiveTypes.Int8,
-					Len:  4,
-				}},
-			}
-			var offsets [8]byte
-			endian.Native.PutUint32(offsets[4:], 4)
-			ret.Buffers[1].SetBuffer(memory.NewBufferBytes(offsets[:]))
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(4)
-			buf.Bytes()[0] = 1
-			buf.Bytes()[1] = 2
-			buf.Bytes()[2] = 3
-			buf.Bytes()[3] = 4
-
-			ret.Children[0].Buffers[1].WrapBuffer(buf)
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(4)
-			buf.Bytes()[0] = 1
-			buf.Bytes()[1] = 2
-			buf.Bytes()[2] = 3
-			buf.Bytes()[3] = 4
-			defer buf.Release()
-			child := array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{nil, buf}, nil, 0, 0)
-			defer child.Release()
-
-			var offsets [8]byte
-			endian.Native.PutUint32(offsets[4:], 4)
-
-			return array.NewData(arrow.ListOf(arrow.PrimitiveTypes.Int8), 1,
-				[]*memory.Buffer{nil, memory.NewBufferBytes(offsets[:])},
-				[]arrow.ArrayData{child}, 0, 0)
-		}},
-		{"dict-extension-type", func(mem memory.Allocator) fields {
-			// dict-extension-type is dict(Index: int8, Value: string)
-			// so there should be an int8 in the arrayspan and
-			// a child of a string arrayspan in the first index of
-			// Children
-			ret := fields{
-				Type: types.NewDictExtensionType(),
-				Len:  1,
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-				}},
-			}
-
-			indices := memory.NewResizableBuffer(mem)
-			indices.Resize(1)
-			indices.Bytes()[0] = 1
-			ret.Buffers[1].WrapBuffer(indices)
-
-			offsets := memory.NewResizableBuffer(mem)
-			offsets.Resize(3 * arrow.Int32SizeBytes)
-			copy(offsets.Bytes(), arrow.Int32Traits.CastToBytes([]int32{0, 5, 10}))
-
-			values := memory.NewResizableBuffer(mem)
-			values.Resize(len("HelloWorld"))
-			copy(values.Bytes(), []byte("HelloWorld"))
-
-			nulls := memory.NewResizableBuffer(mem)
-			nulls.Resize(1)
-			nulls.Bytes()[0] = 3
-			ret.Children[0].Buffers[0].WrapBuffer(nulls)
-			ret.Children[0].Buffers[1].WrapBuffer(offsets)
-			ret.Children[0].Buffers[2].WrapBuffer(values)
-
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
-			defer dict.Release()
-			index, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
-			defer index.Release()
-
-			out := array.NewData(types.NewDictExtensionType(), 1, []*memory.Buffer{nil, index.Data().Buffers()[1]}, nil, 0, 0)
-			out.SetDictionary(dict.Data())
-			return out
-		}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			t.Run("MakeData", func(t *testing.T) {
-				f := tt.fields(mem)
-				a := &exec.ArraySpan{
-					Type:     f.Type,
-					Len:      f.Len,
-					Nulls:    f.Nulls,
-					Offset:   f.Offset,
-					Buffers:  f.Buffers,
-					Scratch:  f.Scratch,
-					Children: f.Children,
-				}
-				got := a.MakeData()
-				want := tt.want(mem)
-				if !reflect.DeepEqual(got, want) {
-					t.Errorf("ArraySpan.MakeData() = %v, want %v", got, want)
-				}
-				want.Release()
-				got.Release()
-			})
-
-			t.Run("MakeArray", func(t *testing.T) {
-				f := tt.fields(mem)
-				a := &exec.ArraySpan{
-					Type:     f.Type,
-					Len:      f.Len,
-					Nulls:    f.Nulls,
-					Offset:   f.Offset,
-					Buffers:  f.Buffers,
-					Scratch:  f.Scratch,
-					Children: f.Children,
-				}
-				arr := a.MakeArray()
-				want := tt.want(mem)
-				defer want.Release()
-				exp := array.MakeFromData(want)
-
-				assert.Truef(t, array.Equal(arr, exp), "expected: %s\ngot: %s", exp, arr)
-
-				exp.Release()
-				arr.Release()
-			})
-		})
-	}
-}
-
-func TestArraySpan_SetSlice(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	type args struct {
-		off    int64
-		length int64
-	}
-	tests := []struct {
-		name      string
-		fields    fields
-		args      args
-		wantNulls int64
-	}{
-		{"null type", fields{Type: arrow.Null}, args{5, 10}, 10},
-		{"not-null type", fields{Type: arrow.PrimitiveTypes.Int8}, args{5, 10}, 0},
-		{"not-null type with nulls", fields{Type: arrow.PrimitiveTypes.Int8, Nulls: -1}, args{5, 10}, array.UnknownNullCount},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			a.SetSlice(tt.args.off, tt.args.length)
-			assert.Equal(t, tt.args.off, a.Offset)
-			assert.Equal(t, tt.args.length, a.Len)
-			assert.Equal(t, tt.wantNulls, a.Nulls)
-		})
-	}
-}
-
-func TestArraySpan_FillFromScalar(t *testing.T) {
-	var (
-		expDecimalBuf [arrow.Decimal128SizeBytes]byte
-		expScratch    [2]uint64
-	)
-
-	endian.Native.PutUint64(expDecimalBuf[:], 1234)
-	endian.Native.PutUint32(arrow.Uint64Traits.CastToBytes(expScratch[:])[4:], 10)
-
-	dict, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
-	defer dict.Release()
-
-	tests := []struct {
-		name string
-		args scalar.Scalar
-		exp  exec.ArraySpan
-	}{
-		{"null-type",
-			scalar.MakeNullScalar(arrow.Null),
-			exec.ArraySpan{Type: arrow.Null, Len: 1, Nulls: 1}},
-		{"bool valid",
-			scalar.MakeScalar(true),
-			exec.ArraySpan{
-				Type:    arrow.FixedWidthTypes.Boolean,
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x01}}, {}},
-			}},
-		{"bool valid false",
-			scalar.MakeScalar(false),
-			exec.ArraySpan{
-				Type:    arrow.FixedWidthTypes.Boolean,
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x00}}, {}},
-			}},
-		{"primitive null",
-			scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32),
-			exec.ArraySpan{
-				Type:    arrow.PrimitiveTypes.Int32,
-				Len:     1,
-				Nulls:   1,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x00}}, {Buf: []byte{0, 0, 0, 0}}, {}},
-			}},
-		{"decimal valid",
-			scalar.NewDecimal128Scalar(decimal128.FromU64(1234), &arrow.Decimal128Type{Precision: 12, Scale: 2}),
-			exec.ArraySpan{
-				Type:    &arrow.Decimal128Type{Precision: 12, Scale: 2},
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: expDecimalBuf[:]}, {}},
-			}},
-		{"dictionary scalar",
-			scalar.NewDictScalar(scalar.NewInt8Scalar(1), dict),
-			exec.ArraySpan{
-				Type:  &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String},
-				Len:   1,
-				Nulls: 0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}},
-					{Buf: []byte{1}}, {},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"binary scalar",
-			scalar.NewBinaryScalar(dict.Data().Buffers()[2], arrow.BinaryTypes.String),
-			exec.ArraySpan{
-				Type:    arrow.BinaryTypes.String,
-				Len:     1,
-				Nulls:   0,
-				Scratch: expScratch,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: arrow.Uint64Traits.CastToBytes(expScratch[:1])},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
-			},
-		},
-		{"large binary",
-			scalar.NewLargeStringScalarFromBuffer(dict.Data().Buffers()[2]),
-			exec.ArraySpan{
-				Type:    arrow.BinaryTypes.LargeString,
-				Len:     1,
-				Nulls:   0,
-				Scratch: [2]uint64{0, 10},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: arrow.Uint64Traits.CastToBytes([]uint64{0, 10})},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
-			}},
-		{"fixed size binary",
-			scalar.NewFixedSizeBinaryScalar(dict.Data().Buffers()[2], &arrow.FixedSizeBinaryType{ByteWidth: 10}),
-			exec.ArraySpan{
-				Type: &arrow.FixedSizeBinaryType{ByteWidth: 10},
-				Len:  1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}, {},
-				},
-			}},
-		{"map scalar null value",
-			scalar.MakeNullScalar(arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String)),
-			exec.ArraySpan{
-				Type:  arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String),
-				Len:   1,
-				Nulls: 1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0}},
-					{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
-					{},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.StructOf(arrow.Field{Name: "key", Type: arrow.PrimitiveTypes.Int8},
-						arrow.Field{Name: "value", Type: arrow.BinaryTypes.String, Nullable: true}),
-					Len:   0,
-					Nulls: 0,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: []byte{}}, {}, {},
-					},
-					Children: []exec.ArraySpan{
-						{
-							Type: arrow.PrimitiveTypes.Int8,
-							Buffers: [3]exec.BufferSpan{
-								{Buf: []byte{}}, {Buf: []byte{}}, {},
-							},
-						},
-						{
-							Type: arrow.BinaryTypes.String,
-							Buffers: [3]exec.BufferSpan{
-								{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
-							},
-						},
-					},
-				}},
-			}},
-		{"list scalar",
-			scalar.NewListScalarData(dict.Data()),
-			exec.ArraySpan{
-				Type: arrow.ListOf(arrow.BinaryTypes.String),
-				Len:  1,
-				Scratch: [2]uint64{
-					*(*uint64)(unsafe.Pointer(&[]int32{0, 2}[0])),
-					0,
-				},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{Buf: arrow.Int32Traits.CastToBytes([]int32{0, 2})},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"large list scalar",
-			scalar.NewLargeListScalarData(dict.Data()),
-			exec.ArraySpan{
-				Type:    arrow.LargeListOf(arrow.BinaryTypes.String),
-				Len:     1,
-				Scratch: [2]uint64{0, 2},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{Buf: arrow.Int64Traits.CastToBytes([]int64{0, 2})},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"fixed size list",
-			scalar.NewFixedSizeListScalar(dict),
-			exec.ArraySpan{
-				Type: arrow.FixedSizeListOf(2, arrow.BinaryTypes.String),
-				Len:  1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{}, {},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"struct scalar",
-			func() scalar.Scalar {
-				s, _ := scalar.NewStructScalarWithNames([]scalar.Scalar{
-					scalar.MakeScalar(int32(5)), scalar.MakeScalar(uint8(10)),
-				}, []string{"int32", "uint8"})
-				return s
-			}(),
-			exec.ArraySpan{
-				Type: arrow.StructOf(
-					arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-					arrow.Field{Name: "uint8", Type: arrow.PrimitiveTypes.Uint8, Nullable: true}),
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}}, {}, {},
-				},
-				Len: 1,
-				Children: []exec.ArraySpan{
-					{
-						Type: arrow.PrimitiveTypes.Int32,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Int32Traits.CastToBytes([]int32{5})},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint8,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: []byte{10}},
-							{},
-						},
-					},
-				},
-			},
-		},
-		{"dense union scalar",
-			func() scalar.Scalar {
-				dt := arrow.UnionOf(arrow.DenseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43})
-				return scalar.NewDenseUnionScalar(scalar.MakeScalar(uint64(25)), 42, dt.(*arrow.DenseUnionType))
-			}(),
-			exec.ArraySpan{
-				Type: arrow.UnionOf(arrow.DenseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43}),
-				Len:     1,
-				Scratch: [2]uint64{42, 1},
-				Buffers: [3]exec.BufferSpan{{},
-					{Buf: []byte{42}}, {Buf: arrow.Int32Traits.CastToBytes([]int32{0, 1})},
-				},
-				Children: []exec.ArraySpan{
-					{
-						Type: arrow.BinaryTypes.String,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{}}, {Buf: []byte{}}, {},
-						},
-					},
-				},
-			},
-		},
-		{"sparse union",
-			func() scalar.Scalar {
-				dt := arrow.UnionOf(arrow.SparseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43})
-				return scalar.NewSparseUnionScalarFromValue(scalar.MakeScalar(uint64(25)), 1, dt.(*arrow.SparseUnionType))
-			}(),
-			exec.ArraySpan{
-				Type: arrow.UnionOf(arrow.SparseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43}),
-				Len:     1,
-				Scratch: [2]uint64{42, 0},
-				Buffers: [3]exec.BufferSpan{{},
-					{Buf: []byte{42}}, {},
-				},
-				Children: []exec.ArraySpan{
-					{
-						Type:  arrow.BinaryTypes.String,
-						Len:   1,
-						Nulls: 1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x0}},
-							{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
-							{},
-						},
-					},
-					{
-						Type:  arrow.PrimitiveTypes.Uint64,
-						Len:   1,
-						Nulls: 1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x0}}, {Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}}, {},
-						},
-					},
-				},
-			},
-		},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Nulls:   array.UnknownNullCount,
-				Buffers: [3]exec.BufferSpan{{SelfAlloc: true, Owner: &memory.Buffer{}}, {SelfAlloc: true, Owner: &memory.Buffer{}}, {}},
-			}
-			a.FillFromScalar(tt.args)
-			assert.Equal(t, tt.exp, *a)
-		})
-	}
-}
diff --git a/go/arrow/compute/exec/utils.go b/go/arrow/compute/exec/utils.go
deleted file mode 100644
index 832f93f13165d..0000000000000
--- a/go/arrow/compute/exec/utils.go
+++ /dev/null
@@ -1,276 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"fmt"
-	"math"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/exp/slices"
-)
-
-// GetSpanValues returns a properly typed slice by reinterpreting
-// the buffer at index i using unsafe.Slice. This will take into account
-// the offset of the given ArraySpan.
-func GetSpanValues[T arrow.FixedWidthType](span *ArraySpan, i int) []T {
-	if len(span.Buffers[i].Buf) == 0 {
-		return nil
-	}
-	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len)
-	return ret[span.Offset:]
-}
-
-// GetSpanOffsets is like GetSpanValues, except it is only for int32
-// or int64 and adds the additional 1 expected value for an offset
-// buffer (ie. len(output) == span.Len+1)
-func GetSpanOffsets[T int32 | int64](span *ArraySpan, i int) []T {
-	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len+1)
-	return ret[span.Offset:]
-}
-
-func Min[T constraints.Ordered](a, b T) T {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func Max[T constraints.Ordered](a, b T) T {
-	if a > b {
-		return a
-	}
-	return b
-}
-
-// OptionsInit should be used in the case where a KernelState is simply
-// represented with a specific type by value (instead of pointer).
-// This will initialize the KernelState as a value-copied instance of
-// the passed in function options argument to ensure separation
-// and allow the kernel to manipulate the options if necessary without
-// any negative consequences since it will have its own copy of the options.
-func OptionsInit[T any](_ *KernelCtx, args KernelInitArgs) (KernelState, error) {
-	if opts, ok := args.Options.(*T); ok {
-		return *opts, nil
-	}
-
-	return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-		arrow.ErrInvalid)
-}
-
-type arrayBuilder[T arrow.NumericType | bool] interface {
-	array.Builder
-	Append(T)
-	AppendValues([]T, []bool)
-}
-
-func ArrayFromSlice[T arrow.NumericType | bool](mem memory.Allocator, data []T) arrow.Array {
-	bldr := array.NewBuilder(mem, arrow.GetDataType[T]()).(arrayBuilder[T])
-	defer bldr.Release()
-
-	bldr.AppendValues(data, nil)
-	return bldr.NewArray()
-}
-
-func ArrayFromSliceWithValid[T arrow.NumericType | bool](mem memory.Allocator, data []T, valid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, arrow.GetDataType[T]()).(arrayBuilder[T])
-	defer bldr.Release()
-
-	bldr.AppendValues(data, valid)
-	return bldr.NewArray()
-}
-
-func RechunkArraysConsistently(groups [][]arrow.Array) [][]arrow.Array {
-	if len(groups) <= 1 {
-		return groups
-	}
-
-	var totalLen int
-	for _, a := range groups[0] {
-		totalLen += a.Len()
-	}
-
-	if totalLen == 0 {
-		return groups
-	}
-
-	rechunked := make([][]arrow.Array, len(groups))
-	offsets := make([]int64, len(groups))
-	// scan all array vectors at once, rechunking along the way
-	var start int64
-	for start < int64(totalLen) {
-		// first compute max possible length for next chunk
-		var chunkLength int64 = math.MaxInt64
-		for i, g := range groups {
-			offset := offsets[i]
-			// skip any done arrays including 0-length
-			for offset == int64(g[0].Len()) {
-				g = g[1:]
-				offset = 0
-			}
-			arr := g[0]
-			chunkLength = Min(chunkLength, int64(arr.Len())-offset)
-
-			offsets[i] = offset
-			groups[i] = g
-		}
-
-		// now slice all the arrays along this chunk size
-		for i, g := range groups {
-			offset := offsets[i]
-			arr := g[0]
-			if offset == 0 && int64(arr.Len()) == chunkLength {
-				// slice spans entire array
-				arr.Retain()
-				rechunked[i] = append(rechunked[i], arr)
-			} else {
-				rechunked[i] = append(rechunked[i], array.NewSlice(arr, int64(offset), int64(offset+chunkLength)))
-			}
-			offsets[i] += chunkLength
-		}
-
-		start += int64(chunkLength)
-	}
-	return rechunked
-}
-
-type ChunkResolver struct {
-	offsets []int64
-	cached  int64
-}
-
-func NewChunkResolver(chunks []arrow.Array) *ChunkResolver {
-	offsets := make([]int64, len(chunks)+1)
-	var offset int64
-	for i, c := range chunks {
-		curOffset := offset
-		offset += int64(c.Len())
-		offsets[i] = curOffset
-	}
-	offsets[len(chunks)] = offset
-	return &ChunkResolver{offsets: offsets}
-}
-
-func (c *ChunkResolver) Resolve(idx int64) (chunk, index int64) {
-	// some algorithms consecutively access indexes that are a
-	// relatively small distance from each other, falling into
-	// the same chunk.
-	// This is trivial when merging (assuming each side of the
-	// merge uses its own resolver), but also in the inner
-	// recursive invocations of partitioning.
-	if len(c.offsets) <= 1 {
-		return 0, idx
-	}
-
-	cached := atomic.LoadInt64(&c.cached)
-	cacheHit := idx >= c.offsets[cached] && idx < c.offsets[cached+1]
-	if cacheHit {
-		return cached, idx - c.offsets[cached]
-	}
-
-	chkIdx, found := slices.BinarySearch(c.offsets, idx)
-	if !found {
-		chkIdx--
-	}
-
-	chunk, index = int64(chkIdx), idx-c.offsets[chkIdx]
-	atomic.StoreInt64(&c.cached, chunk)
-	return
-}
-
-type arrayTypes interface {
-	arrow.FixedWidthType | arrow.TemporalType | bool | string | []byte
-}
-
-type ArrayIter[T arrayTypes] interface {
-	Next() T
-}
-
-type BoolIter struct {
-	Rdr *bitutil.BitmapReader
-}
-
-func NewBoolIter(arr *ArraySpan) ArrayIter[bool] {
-	return &BoolIter{
-		Rdr: bitutil.NewBitmapReader(arr.Buffers[1].Buf, int(arr.Offset), int(arr.Len))}
-}
-
-func (b *BoolIter) Next() (out bool) {
-	out = b.Rdr.Set()
-	b.Rdr.Next()
-	return
-}
-
-type PrimitiveIter[T arrow.FixedWidthType] struct {
-	Values []T
-}
-
-func NewPrimitiveIter[T arrow.FixedWidthType](arr *ArraySpan) ArrayIter[T] {
-	return &PrimitiveIter[T]{Values: GetSpanValues[T](arr, 1)}
-}
-
-func (p *PrimitiveIter[T]) Next() (v T) {
-	v = p.Values[0]
-	p.Values = p.Values[1:]
-	return
-}
-
-type VarBinaryIter[OffsetT int32 | int64] struct {
-	Offsets []OffsetT
-	Data    []byte
-	Pos     int64
-}
-
-func NewVarBinaryIter[OffsetT int32 | int64](arr *ArraySpan) ArrayIter[[]byte] {
-	return &VarBinaryIter[OffsetT]{
-		Offsets: GetSpanOffsets[OffsetT](arr, 1),
-		Data:    arr.Buffers[2].Buf,
-	}
-}
-
-func (v *VarBinaryIter[OffsetT]) Next() []byte {
-	cur := v.Pos
-	v.Pos++
-	return v.Data[v.Offsets[cur]:v.Offsets[v.Pos]]
-}
-
-type FSBIter struct {
-	Data  []byte
-	Width int
-	Pos   int64
-}
-
-func NewFSBIter(arr *ArraySpan) ArrayIter[[]byte] {
-	return &FSBIter{
-		Data:  arr.Buffers[1].Buf,
-		Width: arr.Type.(arrow.FixedWidthDataType).Bytes(),
-	}
-}
-
-func (f *FSBIter) Next() []byte {
-	start := f.Width * int(f.Pos)
-	f.Pos++
-	return f.Data[start : start+f.Width]
-}
diff --git a/go/arrow/compute/exec/utils_test.go b/go/arrow/compute/exec/utils_test.go
deleted file mode 100644
index b8b7212b538c5..0000000000000
--- a/go/arrow/compute/exec/utils_test.go
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRechunkConsistentArraysTrivial(t *testing.T) {
-	var groups [][]arrow.Array
-	rechunked := exec.RechunkArraysConsistently(groups)
-	assert.Zero(t, rechunked)
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a1 := exec.ArrayFromSlice(mem, []int16{})
-	defer a1.Release()
-	a2 := exec.ArrayFromSlice(mem, []int16{})
-	defer a2.Release()
-	b1 := exec.ArrayFromSlice(mem, []int32{})
-	defer b1.Release()
-	groups = [][]arrow.Array{{a1, a2}, {}, {b1}}
-	rechunked = exec.RechunkArraysConsistently(groups)
-	assert.Len(t, rechunked, 3)
-
-	for _, arrvec := range rechunked {
-		for _, arr := range arrvec {
-			assert.Zero(t, arr.Len())
-		}
-	}
-}
-
-func assertEqual[T arrow.NumericType](t *testing.T, mem memory.Allocator, arr arrow.Array, data []T) {
-	exp := exec.ArrayFromSlice(mem, data)
-	defer exp.Release()
-	assert.Truef(t, array.Equal(exp, arr), "expected: %s\ngot: %s", exp, arr)
-}
-
-func TestRechunkArraysConsistentlyPlain(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a1 := exec.ArrayFromSlice(mem, []int16{1, 2, 3})
-	defer a1.Release()
-	a2 := exec.ArrayFromSlice(mem, []int16{4, 5})
-	defer a2.Release()
-	a3 := exec.ArrayFromSlice(mem, []int16{6, 7, 8, 9})
-	defer a3.Release()
-
-	b1 := exec.ArrayFromSlice(mem, []int32{41, 42})
-	defer b1.Release()
-	b2 := exec.ArrayFromSlice(mem, []int32{43, 44, 45})
-	defer b2.Release()
-	b3 := exec.ArrayFromSlice(mem, []int32{46, 47})
-	defer b3.Release()
-	b4 := exec.ArrayFromSlice(mem, []int32{48, 49})
-	defer b4.Release()
-
-	groups := [][]arrow.Array{{a1, a2, a3}, {b1, b2, b3, b4}}
-	rechunked := exec.RechunkArraysConsistently(groups)
-	assert.Len(t, rechunked, 2)
-	ra := rechunked[0]
-	rb := rechunked[1]
-
-	assert.Len(t, ra, 5)
-	assertEqual(t, mem, ra[0], []int16{1, 2})
-	ra[0].Release()
-	assertEqual(t, mem, ra[1], []int16{3})
-	ra[1].Release()
-	assertEqual(t, mem, ra[2], []int16{4, 5})
-	ra[2].Release()
-	assertEqual(t, mem, ra[3], []int16{6, 7})
-	ra[3].Release()
-	assertEqual(t, mem, ra[4], []int16{8, 9})
-	ra[4].Release()
-
-	assert.Len(t, rb, 5)
-	assertEqual(t, mem, rb[0], []int32{41, 42})
-	rb[0].Release()
-	assertEqual(t, mem, rb[1], []int32{43})
-	rb[1].Release()
-	assertEqual(t, mem, rb[2], []int32{44, 45})
-	rb[2].Release()
-	assertEqual(t, mem, rb[3], []int32{46, 47})
-	rb[3].Release()
-	assertEqual(t, mem, rb[4], []int32{48, 49})
-	rb[4].Release()
-}
diff --git a/go/arrow/compute/exec_internals_test.go b/go/arrow/compute/exec_internals_test.go
deleted file mode 100644
index f0c585f557ebc..0000000000000
--- a/go/arrow/compute/exec_internals_test.go
+++ /dev/null
@@ -1,585 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/suite"
-)
-
-type ComputeInternalsTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-
-	execCtx ExecCtx
-	ctx     *exec.KernelCtx
-	rng     gen.RandomArrayGenerator
-}
-
-func (c *ComputeInternalsTestSuite) SetupTest() {
-	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	c.rng = gen.NewRandomArrayGenerator(0, c.mem)
-
-	c.resetCtx()
-}
-
-func (c *ComputeInternalsTestSuite) TearDownTest() {
-	c.mem.AssertSize(c.T(), 0)
-}
-
-func (c *ComputeInternalsTestSuite) assertArrayEqual(expected, got arrow.Array) {
-	c.Truef(array.Equal(expected, got), "expected: %s\ngot: %s", expected, got)
-}
-
-func (c *ComputeInternalsTestSuite) assertDatumEqual(expected arrow.Array, got Datum) {
-	arr := got.(*ArrayDatum).MakeArray()
-	defer arr.Release()
-	c.Truef(array.Equal(expected, arr), "expected: %s\ngot: %s", expected, arr)
-}
-
-func (c *ComputeInternalsTestSuite) resetCtx() {
-	c.execCtx = ExecCtx{Registry: GetFunctionRegistry(),
-		ChunkSize: DefaultMaxChunkSize, PreallocContiguous: true}
-	c.ctx = &exec.KernelCtx{Ctx: SetExecCtx(context.Background(), c.execCtx)}
-}
-
-func (c *ComputeInternalsTestSuite) getBoolArr(sz int64, trueprob, nullprob float64) arrow.Array {
-	return c.rng.Boolean(sz, trueprob, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getUint8Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Uint8(sz, 0, 100, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getInt32Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Int32(sz, 0, 1000, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getFloat64Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Float64(sz, 0, 1000, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getInt32Chunked(szs []int64) *arrow.Chunked {
-	chunks := make([]arrow.Array, 0)
-	for i, s := range szs {
-		chunks = append(chunks, c.getInt32Arr(s, 0.1))
-		defer chunks[i].Release()
-	}
-	return arrow.NewChunked(arrow.PrimitiveTypes.Int32, chunks)
-}
-
-func (c *ComputeInternalsTestSuite) assertValidityZeroExtraBits(data []byte, length, offset int) {
-	bitExtent := ((offset + length + 7) / 8) * 8
-	for i := offset + length; i < bitExtent; i++ {
-		c.False(bitutil.BitIsSet(data, i))
-	}
-}
-
-type PropagateNullsSuite struct {
-	ComputeInternalsTestSuite
-}
-
-func (p *PropagateNullsSuite) TestUnknownNullCountWithNullsZeroCopies() {
-	const length int = 16
-	bitmap := [8]byte{254, 0, 0, 0, 0, 0, 0, 0}
-	nulls := memory.NewBufferBytes(bitmap[:])
-
-	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
-
-	var outSpan exec.ArraySpan
-	outSpan.SetMembers(output)
-	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
-	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
-	p.Same(nulls, outSpan.Buffers[0].Owner)
-	p.EqualValues(array.UnknownNullCount, outSpan.Nulls)
-	p.Equal(9, int(outSpan.Len)-bitutil.CountSetBits(outSpan.Buffers[0].Buf, int(outSpan.Offset), int(outSpan.Len)))
-}
-
-func (p *PropagateNullsSuite) TestUnknownNullCountWithoutNulls() {
-	const length int = 16
-	bitmap := [8]byte{255, 255, 0, 0, 0, 0, 0, 0}
-	nulls := memory.NewBufferBytes(bitmap[:])
-
-	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
-
-	var outSpan exec.ArraySpan
-	outSpan.SetMembers(output)
-	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
-	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
-	p.EqualValues(-1, outSpan.Nulls)
-	p.Same(nulls, outSpan.Buffers[0].Owner)
-}
-
-func (p *PropagateNullsSuite) TestSetAllNulls() {
-	const length int = 16
-	checkSetAll := func(vals []Datum, prealloc bool) {
-		// fresh bitmap with all 1s
-		bitmapData := [2]byte{255, 255}
-		preallocatedMem := memory.NewBufferBytes(bitmapData[:])
-
-		output := &exec.ArraySpan{
-			Type:  arrow.FixedWidthTypes.Boolean,
-			Len:   int64(length),
-			Nulls: array.UnknownNullCount,
-		}
-
-		if prealloc {
-			output.Buffers[0].SetBuffer(preallocatedMem)
-		}
-
-		batch := &ExecBatch{Values: vals, Len: int64(length)}
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-
-		if prealloc {
-			// ensure that the buffer object is the same when we pass preallocated
-			// memory to it
-			p.Same(preallocatedMem, output.Buffers[0].Owner)
-		} else {
-			defer output.Buffers[0].Owner.Release()
-		}
-
-		p.NotNil(output.Buffers[0].Buf)
-		expected := [2]byte{0, 0}
-		p.True(bytes.Equal(expected[:], output.Buffers[0].Buf))
-	}
-
-	var vals []Datum
-	const trueProb float64 = 0.5
-	p.Run("Null Scalar", func() {
-		i32Val := scalar.MakeScalar(int32(3))
-		vals = []Datum{NewDatum(i32Val), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))}
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-
-		arr := p.getBoolArr(int64(length), trueProb, 0)
-		defer arr.Release()
-		vals[0] = NewDatum(arr)
-		defer vals[0].Release()
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("one all null", func() {
-		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
-		defer arrAllNulls.Release()
-		arrHalf := p.getBoolArr(int64(length), trueProb, 0.5)
-		defer arrHalf.Release()
-		vals = []Datum{NewDatum(arrHalf), NewDatum(arrAllNulls)}
-		defer vals[0].Release()
-		defer vals[1].Release()
-
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("one value is NullType", func() {
-		nullarr := array.NewNull(length)
-		arr := p.getBoolArr(int64(length), trueProb, 0)
-		defer arr.Release()
-		vals = []Datum{NewDatum(arr), NewDatum(nullarr)}
-		defer vals[0].Release()
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("Other scenarios", func() {
-		// an all-null bitmap is zero-copied over, even though
-		// there is a null-scalar earlier in the batch
-		outSpan := &exec.ArraySpan{
-			Type: arrow.FixedWidthTypes.Boolean,
-			Len:  int64(length),
-		}
-		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
-		defer arrAllNulls.Release()
-
-		batch := &ExecBatch{
-			Values: []Datum{
-				NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)),
-				NewDatum(arrAllNulls),
-			},
-			Len: int64(length),
-		}
-		defer batch.Values[1].Release()
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), outSpan))
-		p.Same(arrAllNulls.Data().Buffers()[0], outSpan.Buffers[0].Owner)
-		outSpan.Buffers[0].Owner.Release()
-	})
-}
-
-func (p *PropagateNullsSuite) TestSingleValueWithNulls() {
-	const length int64 = 100
-	arr := p.getBoolArr(length, 0.5, 0.5)
-	defer arr.Release()
-
-	checkSliced := func(offset int64, prealloc bool, outOffset int64) {
-		// unaligned bitmap, zero copy not possible
-		sliced := array.NewSlice(arr, offset, int64(arr.Len()))
-		defer sliced.Release()
-		vals := []Datum{NewDatum(sliced)}
-		defer vals[0].Release()
-
-		output := &exec.ArraySpan{
-			Type:   arrow.FixedWidthTypes.Boolean,
-			Len:    vals[0].Len(),
-			Offset: outOffset,
-		}
-
-		batch := &ExecBatch{Values: vals, Len: vals[0].Len()}
-
-		var preallocatedBitmap *memory.Buffer
-		if prealloc {
-			preallocatedBitmap = memory.NewResizableBuffer(p.mem)
-			preallocatedBitmap.Resize(int(bitutil.BytesForBits(int64(sliced.Len()) + outOffset)))
-			defer preallocatedBitmap.Release()
-			output.Buffers[0].SetBuffer(preallocatedBitmap)
-			output.Buffers[0].SelfAlloc = true
-		} else {
-			p.EqualValues(0, output.Offset)
-		}
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-		if !prealloc {
-			parentBuf := arr.Data().Buffers()[0]
-			if offset == 0 {
-				// validity bitmap same, no slice
-				p.Same(parentBuf, output.Buffers[0].Owner)
-			} else if offset%8 == 0 {
-				// validity bitmap sliced
-				p.NotSame(parentBuf, output.Buffers[0].Owner)
-				p.Same(parentBuf, output.Buffers[0].Owner.Parent())
-				defer output.Buffers[0].Owner.Release()
-			} else {
-				// new memory for offset not 0 mod 8
-				p.NotSame(parentBuf, output.Buffers[0].Owner)
-				p.Nil(output.Buffers[0].Owner.Parent())
-				defer output.Buffers[0].Owner.Release()
-			}
-		} else {
-			// preallocated, so check that the validity bitmap is unbothered
-			p.Same(preallocatedBitmap, output.Buffers[0].Owner)
-		}
-
-		p.EqualValues(sliced.NullN(), output.UpdateNullCount())
-		p.True(bitutil.BitmapEquals(
-			sliced.NullBitmapBytes(), output.Buffers[0].Buf,
-			int64(sliced.Data().Offset()), output.Offset, output.Len))
-		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
-	}
-
-	tests := []struct {
-		offset, outoffset int64
-		prealloc          bool
-	}{
-		{8, 0, false},
-		{7, 0, false},
-		{8, 0, true},
-		{7, 0, true},
-		{8, 4, true},
-		{7, 4, true},
-	}
-
-	for _, tt := range tests {
-		name := fmt.Sprintf("off=%d,prealloc=%t,outoff=%d", tt.offset, tt.prealloc, tt.outoffset)
-		p.Run(name, func() {
-			checkSliced(tt.offset, tt.prealloc, tt.outoffset)
-		})
-	}
-}
-
-func (p *PropagateNullsSuite) TestIntersectsNulls() {
-	const length = 16
-	var (
-		// 0b01111111 0b11001111
-		bitmap1 = [8]byte{127, 207, 0, 0, 0, 0, 0, 0}
-		// 0b11111110 0b01111111
-		bitmap2 = [8]byte{254, 127, 0, 0, 0, 0, 0, 0}
-		// 0b11101111 0b11111110
-		bitmap3 = [8]byte{239, 254, 0, 0, 0, 0, 0, 0}
-	)
-
-	arr1 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap1[:]), nil}, nil, array.UnknownNullCount, 0)
-	arr2 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap2[:]), nil}, nil, array.UnknownNullCount, 0)
-	arr3 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap3[:]), nil}, nil, array.UnknownNullCount, 0)
-
-	checkCase := func(vals []Datum, exNullCount int, exBitmap []byte, prealloc bool, outoffset int) {
-		batch := &ExecBatch{Values: vals, Len: length}
-
-		output := &exec.ArraySpan{Type: arrow.FixedWidthTypes.Boolean, Len: length}
-
-		var nulls *memory.Buffer
-		if prealloc {
-			// make the buffer one byte bigger so we can have non-zero offsets
-			nulls = memory.NewResizableBuffer(p.mem)
-			nulls.Resize(3)
-			defer nulls.Release()
-			output.Buffers[0].SetBuffer(nulls)
-			output.Buffers[0].SelfAlloc = true
-		} else {
-			// non-zero output offset not permitted unless output memory is preallocated
-			p.Equal(0, outoffset)
-		}
-
-		output.Offset = int64(outoffset)
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-
-		// preallocated memory used
-		if prealloc {
-			p.Same(nulls, output.Buffers[0].Owner)
-		} else {
-			defer output.Buffers[0].Owner.Release()
-		}
-
-		p.EqualValues(array.UnknownNullCount, output.Nulls)
-		p.EqualValues(exNullCount, output.UpdateNullCount())
-
-		p.True(bitutil.BitmapEquals(exBitmap, output.Buffers[0].Buf, 0, output.Offset, length))
-		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
-	}
-
-	p.Run("0b01101110 0b01001110", func() {
-		// 0b01101110 0b01001110
-		expected := [2]byte{110, 78}
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], false, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 4)
-	})
-
-	p.Run("0b01111110 0b01001111", func() {
-		expected := [2]byte{126, 79}
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], false, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], true, 4)
-	})
-}
-
-func TestComputeInternals(t *testing.T) {
-	suite.Run(t, new(PropagateNullsSuite))
-}
-
-type ExecSpanItrSuite struct {
-	ComputeInternalsTestSuite
-
-	iter spanIterator
-}
-
-func (e *ExecSpanItrSuite) setupIterator(batch *ExecBatch, maxChunk int64) {
-	var err error
-	_, e.iter, err = iterateExecSpans(batch, maxChunk, true)
-	e.NoError(err)
-}
-
-func (e *ExecSpanItrSuite) checkIteration(input *ExecBatch, chunksize int, exBatchSizes []int) {
-	e.setupIterator(input, int64(chunksize))
-	var (
-		batch  exec.ExecSpan
-		curPos int64
-		pos    int64
-		next   bool
-	)
-
-	for _, sz := range exBatchSizes {
-		batch, pos, next = e.iter()
-		e.True(next)
-		e.EqualValues(sz, batch.Len)
-
-		for j, val := range input.Values {
-			switch val := val.(type) {
-			case *ScalarDatum:
-				e.Truef(scalar.Equals(batch.Values[j].Scalar, val.Value), "expected: %s\ngot: %s", val.Value, batch.Values[j].Scalar)
-			case *ArrayDatum:
-				arr := val.MakeArray()
-				sl := array.NewSlice(arr, curPos, curPos+batch.Len)
-				got := batch.Values[j].Array.MakeArray()
-
-				e.Truef(array.Equal(sl, got), "expected: %s\ngot: %s", sl, got)
-
-				got.Release()
-				arr.Release()
-				sl.Release()
-			case *ChunkedDatum:
-				carr := val.Value
-				if batch.Len == 0 {
-					e.Zero(carr.Len())
-				} else {
-					chkd := array.NewChunkedSlice(carr, curPos, curPos+batch.Len)
-					defer chkd.Release()
-					e.Len(chkd.Chunks(), 1)
-					got := batch.Values[j].Array.MakeArray()
-					defer got.Release()
-					e.Truef(array.Equal(got, chkd.Chunk(0)), "expected: %s\ngot: %s", chkd.Chunk(0), got)
-				}
-			}
-		}
-
-		curPos += int64(sz)
-		e.EqualValues(curPos, pos)
-	}
-
-	batch, pos, next = e.iter()
-	e.Zero(batch)
-	e.False(next)
-	e.EqualValues(input.Len, pos)
-}
-
-func (e *ExecSpanItrSuite) TestBasics() {
-	const length = 100
-
-	arr1 := e.getInt32Arr(length, 0.1)
-	defer arr1.Release()
-	arr2 := e.getFloat64Arr(length, 0.1)
-	defer arr2.Release()
-
-	input := &ExecBatch{
-		Len:    length,
-		Values: []Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(int32(3))},
-	}
-	defer func() {
-		for _, v := range input.Values {
-			v.Release()
-		}
-	}()
-
-	e.Run("simple", func() {
-		e.setupIterator(input, DefaultMaxChunkSize)
-
-		batch, pos, next := e.iter()
-		e.True(next)
-		e.Len(batch.Values, 3)
-		e.EqualValues(length, batch.Len)
-		e.EqualValues(length, pos)
-
-		in1 := input.Values[0].(*ArrayDatum).MakeArray()
-		defer in1.Release()
-		in2 := input.Values[1].(*ArrayDatum).MakeArray()
-		defer in2.Release()
-		out1 := batch.Values[0].Array.MakeArray()
-		defer out1.Release()
-		out2 := batch.Values[1].Array.MakeArray()
-		defer out2.Release()
-
-		e.Truef(array.Equal(in1, out1), "expected: %s\ngot: %s", in1, out1)
-		e.Truef(array.Equal(in2, out2), "expected: %s\ngot: %s", in2, out2)
-		e.True(scalar.Equals(input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar), input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar)
-
-		_, pos, next = e.iter()
-		e.EqualValues(length, pos)
-		e.False(next)
-	})
-
-	e.Run("iterations", func() {
-		e.checkIteration(input, 16, []int{16, 16, 16, 16, 16, 16, 4})
-	})
-}
-
-func (e *ExecSpanItrSuite) TestInputValidation() {
-	arr1 := e.getInt32Arr(10, 0.1)
-	defer arr1.Release()
-	arr2 := e.getInt32Arr(9, 0.1)
-	defer arr2.Release()
-
-	// length mismatch
-	batch := &ExecBatch{
-		Values: []Datum{&ArrayDatum{arr1.Data()}, &ArrayDatum{arr2.Data()}},
-		Len:    10,
-	}
-
-	_, _, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.ErrorIs(err, arrow.ErrInvalid)
-
-	// swap order of input
-	batch.Values = []Datum{&ArrayDatum{arr2.Data()}, &ArrayDatum{arr1.Data()}}
-
-	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.ErrorIs(err, arrow.ErrInvalid)
-
-	batch.Values = []Datum{&ArrayDatum{arr1.Data()}}
-	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.NoError(err)
-}
-
-func (e *ExecSpanItrSuite) TestChunkedArrays() {
-	arr1 := e.getInt32Chunked([]int64{0, 20, 10})
-	defer arr1.Release()
-	arr2 := e.getInt32Chunked([]int64{15, 15})
-	defer arr2.Release()
-	arr3 := e.getInt32Arr(30, 0.1)
-	defer arr3.Release()
-
-	batch := &ExecBatch{
-		Values: []Datum{
-			&ChunkedDatum{arr1}, &ChunkedDatum{arr2}, &ArrayDatum{arr3.Data()},
-			NewDatum(int32(5)), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))},
-		Len: 30,
-	}
-
-	e.checkIteration(batch, 10, []int{10, 5, 5, 10})
-	e.checkIteration(batch, 20, []int{15, 5, 10})
-	e.checkIteration(batch, 30, []int{15, 5, 10})
-}
-
-func (e *ExecSpanItrSuite) TestZeroLengthInput() {
-	carr := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{})
-	checkArgs := func(batch *ExecBatch) {
-		_, itr, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
-		e.NoError(err)
-		itrSpan, _, next := itr()
-
-		e.False(next)
-		e.Zero(itrSpan)
-	}
-
-	input := &ExecBatch{Len: 0}
-
-	// zero-length chunkedarray with zero chunks
-	input.Values = []Datum{&ChunkedDatum{carr}}
-	checkArgs(input)
-
-	// zero-length array
-	arr := e.getInt32Arr(0, 0.1)
-	defer arr.Release()
-	input.Values = []Datum{&ArrayDatum{arr.Data()}}
-	checkArgs(input)
-
-	// chunkedarray with single empty chunk
-	carr = e.getInt32Chunked([]int64{0})
-	input.Values = []Datum{&ChunkedDatum{carr}}
-	checkArgs(input)
-}
-
-func TestExecSpanIterator(t *testing.T) {
-	suite.Run(t, new(ExecSpanItrSuite))
-}
diff --git a/go/arrow/compute/exec_test.go b/go/arrow/compute/exec_test.go
deleted file mode 100644
index 27f6676f3187c..0000000000000
--- a/go/arrow/compute/exec_test.go
+++ /dev/null
@@ -1,379 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/suite"
-)
-
-func ExecCopyArray(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	debug.Assert(len(batch.Values) == 1, "wrong number of values")
-	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
-
-	arg0 := batch.Values[0].Array
-	dst := out.Buffers[1].Buf[out.Offset*valueSize:]
-	src := arg0.Buffers[1].Buf[arg0.Offset*valueSize:]
-	copy(dst, src[:batch.Len*valueSize])
-	return nil
-}
-
-func ExecComputedBitmap(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// propagate nulls not used. check that out bitmap isn't the same already
-	// as the input bitmap
-	arg0 := batch.Values[0].Array
-	if bitutil.CountSetBits(arg0.Buffers[1].Buf, int(arg0.Offset), int(batch.Len)) > 0 {
-		// check that the bitmap hasn't already been copied
-		debug.Assert(!bitutil.BitmapEquals(arg0.Buffers[0].Buf, out.Buffers[0].Buf,
-			arg0.Offset, out.Offset, batch.Len), "bitmap should not have already been copied")
-	}
-
-	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, int(out.Offset))
-	return ExecCopyArray(ctx, batch, out)
-}
-
-func ExecNoPreallocatedData(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// validity preallocated, not data
-	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
-	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
-	out.Buffers[1].SetBuffer(ctx.Allocate(int(out.Len * valueSize)))
-	out.Buffers[1].SelfAlloc = true
-	return ExecCopyArray(ctx, batch, out)
-}
-
-func ExecNoPreallocatedAnything(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// neither validity nor data preallocated
-	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
-	out.Buffers[0].SetBuffer(ctx.AllocateBitmap(out.Len))
-	out.Buffers[0].SelfAlloc = true
-	arg0 := batch.Values[0].Array
-	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, 0)
-
-	// reuse kernel that allocates data
-	return ExecNoPreallocatedData(ctx, batch, out)
-}
-
-type ExampleOptions struct {
-	Value scalar.Scalar
-}
-
-func (e *ExampleOptions) TypeName() string { return "example" }
-
-type ExampleState struct {
-	Value scalar.Scalar
-}
-
-func InitStateful(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	value := args.Options.(*ExampleOptions).Value
-	return &ExampleState{Value: value}, nil
-}
-
-func ExecStateful(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	state := ctx.State.(*ExampleState)
-	multiplier := state.Value.(*scalar.Int32).Value
-
-	arg0 := batch.Values[0].Array
-	arg0Data := exec.GetSpanValues[int32](&arg0, 1)
-	dst := exec.GetSpanValues[int32](out, 1)
-	for i, v := range arg0Data {
-		dst[i] = v * multiplier
-	}
-	return nil
-}
-
-func ExecAddInt32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	left := exec.GetSpanValues[int32](&batch.Values[0].Array, 1)
-	right := exec.GetSpanValues[int32](&batch.Values[1].Array, 1)
-	outValues := exec.GetSpanValues[int32](out, 1)
-	for i := 0; i < int(batch.Len); i++ {
-		outValues[i] = left[i] + right[i]
-	}
-	return nil
-}
-
-type CallScalarFuncSuite struct {
-	ComputeInternalsTestSuite
-}
-
-func (c *CallScalarFuncSuite) addCopyFuncs() {
-	registry = GetFunctionRegistry()
-
-	fn := NewScalarFunction("test_copy", Unary(), EmptyFuncDoc)
-	types := []arrow.DataType{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64}
-	for _, t := range types {
-		c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(t)},
-			exec.NewOutputType(t), ExecCopyArray, nil))
-	}
-	c.True(registry.AddFunction(fn, false))
-
-	// a version which doesn't want the executor to call propagatenulls
-	fn2 := NewScalarFunction("test_copy_computed_bitmap", Unary(), EmptyFuncDoc)
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Uint8), ExecComputedBitmap, nil)
-	kernel.NullHandling = exec.NullComputedPrealloc
-	c.NoError(fn2.AddKernel(kernel))
-	c.True(registry.AddFunction(fn2, false))
-}
-
-func (c *CallScalarFuncSuite) addNoPreallocFuncs() {
-	registry = GetFunctionRegistry()
-
-	// a function that allocates its own output memory. we have cases
-	// for both non-preallocated data and non-preallocated bitmap
-	f1 := NewScalarFunction("test_nopre_data", Unary(), EmptyFuncDoc)
-	f2 := NewScalarFunction("test_nopre_validity_or_data", Unary(), EmptyFuncDoc)
-
-	kernel := exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Uint8),
-		ExecNoPreallocatedData, nil)
-	kernel.MemAlloc = exec.MemNoPrealloc
-	c.NoError(f1.AddKernel(kernel))
-
-	kernel.ExecFn = ExecNoPreallocatedAnything
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	c.NoError(f2.AddKernel(kernel))
-
-	c.True(registry.AddFunction(f1, false))
-	c.True(registry.AddFunction(f2, false))
-}
-
-func (c *CallScalarFuncSuite) addStatefulFunc() {
-	registry := GetFunctionRegistry()
-
-	// this functions behavior depends on a static parameter that
-	// is made available to the execution through its options object
-	fn := NewScalarFunction("test_stateful", Unary(), EmptyFuncDoc)
-
-	c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecStateful, InitStateful))
-
-	c.True(registry.AddFunction(fn, false))
-}
-
-func (c *CallScalarFuncSuite) addScalarFunc() {
-	registry := GetFunctionRegistry()
-
-	fn := NewScalarFunction("test_scalar_add_int32", Binary(), EmptyFuncDoc)
-	c.NoError(fn.AddNewKernel([]exec.InputType{
-		exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecAddInt32, nil))
-	c.True(registry.AddFunction(fn, false))
-}
-
-func (c *CallScalarFuncSuite) SetupSuite() {
-	c.addCopyFuncs()
-	c.addNoPreallocFuncs()
-	c.addStatefulFunc()
-	c.addScalarFunc()
-}
-
-func (c *CallScalarFuncSuite) TestArgumentValidation() {
-	// copy accepts only a single array arg
-	arr := c.getInt32Arr(10, 0.1)
-	defer arr.Release()
-	d1 := &ArrayDatum{Value: arr.Data()}
-
-	c.Run("too many args", func() {
-		args := []Datum{d1, d1}
-		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil, args...)
-		c.ErrorIs(err, arrow.ErrInvalid)
-	})
-
-	c.Run("too few args", func() {
-		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil)
-		c.ErrorIs(err, arrow.ErrInvalid)
-	})
-
-	d1Scalar := NewDatum(int32(5))
-	result, err := CallFunction(c.ctx.Ctx, "test_copy", nil, d1)
-	c.NoError(err)
-	result.Release()
-	result, err = CallFunction(c.ctx.Ctx, "test_copy", nil, d1Scalar)
-	c.NoError(err)
-	result.Release()
-}
-
-func (c *CallScalarFuncSuite) TestPreallocationCases() {
-	nullProb := float64(0.2)
-	arr := c.getUint8Arr(100, nullProb)
-	defer arr.Release()
-
-	funcNames := []string{"test_copy", "test_copy_computed_bitmap"}
-	for _, funcName := range funcNames {
-		c.Run(funcName, func() {
-			c.resetCtx()
-
-			c.Run("single output default", func() {
-				result, err := CallFunction(c.ctx.Ctx, funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("exec chunks", func() {
-				// set the exec_chunksize to be smaller so now we have
-				// several invocations of the kernel,
-				// but still only one output array
-				c.execCtx.ChunkSize = 80
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("not multiple 8 chunk", func() {
-				// chunksize is not a multiple of 8
-				c.execCtx.ChunkSize = 11
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("chunked", func() {
-				// input is chunked, output is one big chunk
-				chk1, chk2 := array.NewSlice(arr, 0, 10), array.NewSlice(arr, 10, int64(arr.Len()))
-				defer chk1.Release()
-				defer chk2.Release()
-				carr := arrow.NewChunked(arr.DataType(), []arrow.Array{chk1, chk2})
-				defer carr.Release()
-
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ChunkedDatum{carr})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindChunked, result.Kind())
-				actual := result.(*ChunkedDatum).Value
-				c.Len(actual.Chunks(), 1)
-				c.Truef(array.ChunkedEqual(actual, carr), "expected: %s\ngot: %s", carr, actual)
-			})
-
-			c.Run("independent", func() {
-				// preallocate independently for each batch
-				c.execCtx.PreallocContiguous = false
-				c.execCtx.ChunkSize = 40
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindChunked, result.Kind())
-
-				carr := result.(*ChunkedDatum).Value
-				c.Len(carr.Chunks(), 3)
-				sl := array.NewSlice(arr, 0, 40)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(0))
-				sl = array.NewSlice(arr, 40, 80)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(1))
-				sl = array.NewSlice(arr, 80, int64(arr.Len()))
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(2))
-			})
-		})
-	}
-}
-
-func (c *CallScalarFuncSuite) TestBasicNonStandardCases() {
-	// test some more cases
-	//
-	// * validity bitmap computed by kernel rather than propagate nulls
-	// * data not pre-allocated
-	// * validity bitmap not pre-allocated
-
-	nullProb := float64(0.2)
-	arr := c.getUint8Arr(1000, nullProb)
-	defer arr.Release()
-	args := []Datum{&ArrayDatum{arr.Data()}}
-
-	for _, funcName := range []string{"test_nopre_data", "test_nopre_validity_or_data"} {
-		c.Run("funcName", func() {
-			c.resetCtx()
-			c.Run("single output default", func() {
-				result, err := CallFunction(c.ctx.Ctx, funcName, nil, args...)
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("split into 3 chunks", func() {
-				c.execCtx.ChunkSize = 400
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, args...)
-				c.NoError(err)
-				defer result.Release()
-
-				c.Equal(KindChunked, result.Kind())
-
-				carr := result.(*ChunkedDatum).Value
-				c.Len(carr.Chunks(), 3)
-				sl := array.NewSlice(arr, 0, 400)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(0))
-				sl = array.NewSlice(arr, 400, 800)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(1))
-				sl = array.NewSlice(arr, 800, int64(arr.Len()))
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(2))
-			})
-		})
-	}
-}
-
-func (c *CallScalarFuncSuite) TestStatefulKernel() {
-	input, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3, null, 5]`))
-	defer input.Release()
-
-	multiplier := scalar.MakeScalar(int32(2))
-	expected, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[2, 4, 6, null, 10]`))
-	defer expected.Release()
-
-	options := &ExampleOptions{multiplier}
-	result, err := CallFunction(c.ctx.Ctx, "test_stateful", options, &ArrayDatum{input.Data()})
-	c.NoError(err)
-	defer result.Release()
-	c.assertDatumEqual(expected, result)
-}
-
-func (c *CallScalarFuncSuite) TestScalarFunction() {
-	args := []Datum{NewDatum(int32(5)), NewDatum(int32(7))}
-	result, err := CallFunction(c.ctx.Ctx, "test_scalar_add_int32", nil, args...)
-	c.NoError(err)
-	defer result.Release()
-
-	c.Equal(KindScalar, result.Kind())
-	expected := scalar.MakeScalar(int32(12))
-	c.True(scalar.Equals(expected, result.(*ScalarDatum).Value))
-}
-
-func TestCallScalarFunctions(t *testing.T) {
-	suite.Run(t, new(CallScalarFuncSuite))
-}
diff --git a/go/arrow/compute/executor.go b/go/arrow/compute/executor.go
deleted file mode 100644
index 1d197e4220ab2..0000000000000
--- a/go/arrow/compute/executor.go
+++ /dev/null
@@ -1,1122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"runtime"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// ExecCtx holds simple contextual information for execution
-// such as the default ChunkSize for batch iteration, whether or not
-// to ensure contiguous preallocations for kernels that want preallocation,
-// and a reference to the desired function registry to use.
-//
-// An ExecCtx should be placed into a context.Context by using
-// SetExecCtx and GetExecCtx to pass it along for execution.
-type ExecCtx struct {
-	// ChunkSize is the size used when iterating batches for execution
-	// ChunkSize elements will be operated on as a time unless an argument
-	// is a chunkedarray with a chunk that is smaller
-	ChunkSize int64
-	// PreallocContiguous determines whether preallocating memory for
-	// execution of compute attempts to preallocate a full contiguous
-	// buffer for all of the chunks beforehand.
-	PreallocContiguous bool
-	// Registry allows specifying the Function Registry to utilize
-	// when searching for kernel implementations.
-	Registry FunctionRegistry
-	// ExecChannelSize is the size of the channel used for passing
-	// exec results to the WrapResults function.
-	ExecChannelSize int
-	// NumParallel determines the number of parallel goroutines
-	// allowed for parallel executions.
-	NumParallel int
-}
-
-type ctxExecKey struct{}
-
-const DefaultMaxChunkSize = math.MaxInt64
-
-var (
-	// global default ExecCtx object, initialized with the
-	// default max chunk size, contiguous preallocations, and
-	// the default function registry.
-	defaultExecCtx ExecCtx
-
-	// WithAllocator returns a new context with the provided allocator
-	// embedded into the context.
-	WithAllocator = exec.WithAllocator
-	// GetAllocator retrieves the allocator from the context, or returns
-	// memory.DefaultAllocator if there was no allocator in the provided
-	// context.
-	GetAllocator = exec.GetAllocator
-)
-
-// DefaultExecCtx returns the default exec context which will be used
-// if there is no ExecCtx set into the context for execution.
-//
-// This can be called to get a copy of the default values which can
-// then be modified to set into a context.
-//
-// The default exec context uses the following values:
-//   - ChunkSize = DefaultMaxChunkSize (MaxInt64)
-//   - PreallocContiguous = true
-//   - Registry = GetFunctionRegistry()
-//   - ExecChannelSize = 10
-//   - NumParallel = runtime.NumCPU()
-func DefaultExecCtx() ExecCtx { return defaultExecCtx }
-
-func init() {
-	defaultExecCtx.ChunkSize = DefaultMaxChunkSize
-	defaultExecCtx.PreallocContiguous = true
-	defaultExecCtx.Registry = GetFunctionRegistry()
-	defaultExecCtx.ExecChannelSize = 10
-	// default level of parallelism
-	// set to 1 to disable parallelization
-	defaultExecCtx.NumParallel = runtime.NumCPU()
-}
-
-// SetExecCtx returns a new child context containing the passed in ExecCtx
-func SetExecCtx(ctx context.Context, e ExecCtx) context.Context {
-	return context.WithValue(ctx, ctxExecKey{}, e)
-}
-
-// GetExecCtx returns an embedded ExecCtx from the provided context.
-// If it does not contain an ExecCtx, then the default one is returned.
-func GetExecCtx(ctx context.Context) ExecCtx {
-	e, ok := ctx.Value(ctxExecKey{}).(ExecCtx)
-	if ok {
-		return e
-	}
-	return defaultExecCtx
-}
-
-// ExecBatch is a unit of work for kernel execution. It contains a collection
-// of Array and Scalar values.
-//
-// ExecBatch is semantically similar to a RecordBatch but for a SQL-style
-// execution context. It represents a collection or records, but constant
-// "columns" are represented by Scalar values rather than having to be
-// converted into arrays with repeated values.
-type ExecBatch struct {
-	Values []Datum
-	// Guarantee is a predicate Expression guaranteed to evaluate to true for
-	// all rows in this batch.
-	// Guarantee Expression
-	// Len is the semantic length of this ExecBatch. When the values are
-	// all scalars, the length should be set to 1 for non-aggregate kernels.
-	// Otherwise the length is taken from the array values. Aggregate kernels
-	// can have an ExecBatch formed by projecting just the partition columns
-	// from a batch in which case it would have scalar rows with length > 1
-	//
-	// If the array values are of length 0, then the length is 0 regardless of
-	// whether any values are Scalar.
-	Len int64
-}
-
-func (e ExecBatch) NumValues() int { return len(e.Values) }
-
-// simple struct for defining how to preallocate a particular buffer.
-type bufferPrealloc struct {
-	bitWidth int
-	addLen   int
-}
-
-func allocateDataBuffer(ctx *exec.KernelCtx, length, bitWidth int) *memory.Buffer {
-	switch bitWidth {
-	case 1:
-		return ctx.AllocateBitmap(int64(length))
-	default:
-		bufsiz := int(bitutil.BytesForBits(int64(length * bitWidth)))
-		return ctx.Allocate(bufsiz)
-	}
-}
-
-func addComputeDataPrealloc(dt arrow.DataType, widths []bufferPrealloc) []bufferPrealloc {
-	if typ, ok := dt.(arrow.FixedWidthDataType); ok {
-		return append(widths, bufferPrealloc{bitWidth: typ.BitWidth()})
-	}
-
-	switch dt.ID() {
-	case arrow.BINARY, arrow.STRING, arrow.LIST, arrow.MAP:
-		return append(widths, bufferPrealloc{bitWidth: 32, addLen: 1})
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING, arrow.LARGE_LIST:
-		return append(widths, bufferPrealloc{bitWidth: 64, addLen: 1})
-	case arrow.STRING_VIEW, arrow.BINARY_VIEW:
-		return append(widths, bufferPrealloc{bitWidth: arrow.ViewHeaderSizeBytes * 8})
-	}
-	return widths
-}
-
-// enum to define a generalized assumption of the nulls in the inputs
-type nullGeneralization int8
-
-const (
-	nullGenPerhapsNull nullGeneralization = iota
-	nullGenAllValid
-	nullGenAllNull
-)
-
-func getNullGen(val *exec.ExecValue) nullGeneralization {
-	dtID := val.Type().ID()
-	switch {
-	case dtID == arrow.NULL:
-		return nullGenAllNull
-	case !internal.DefaultHasValidityBitmap(dtID):
-		return nullGenAllValid
-	case val.IsScalar():
-		if val.Scalar.IsValid() {
-			return nullGenAllValid
-		}
-		return nullGenAllNull
-	default:
-		arr := val.Array
-		// do not count if they haven't been counted already
-		if arr.Nulls == 0 || arr.Buffers[0].Buf == nil {
-			return nullGenAllValid
-		}
-
-		if arr.Nulls == arr.Len {
-			return nullGenAllNull
-		}
-	}
-	return nullGenPerhapsNull
-}
-
-func getNullGenDatum(datum Datum) nullGeneralization {
-	var val exec.ExecValue
-	switch datum.Kind() {
-	case KindArray:
-		val.Array.SetMembers(datum.(*ArrayDatum).Value)
-	case KindScalar:
-		val.Scalar = datum.(*ScalarDatum).Value
-	case KindChunked:
-		return nullGenPerhapsNull
-	default:
-		debug.Assert(false, "should be array, scalar, or chunked!")
-		return nullGenPerhapsNull
-	}
-	return getNullGen(&val)
-}
-
-// populate the validity bitmaps with the intersection of the nullity
-// of the arguments. If a preallocated bitmap is not provided, then one
-// will be allocated if needed (in some cases a bitmap can be zero-copied
-// from the arguments). If any Scalar value is null, then the entire
-// validity bitmap will be set to null.
-func propagateNulls(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ArraySpan) (err error) {
-	if out.Type.ID() == arrow.NULL {
-		// null output type is a no-op (rare but it happens)
-		return
-	}
-
-	// this function is ONLY able to write into output with non-zero offset
-	// when the bitmap is preallocated.
-	if out.Offset != 0 && out.Buffers[0].Buf == nil {
-		return fmt.Errorf("%w: can only propagate nulls into pre-allocated memory when output offset is non-zero", arrow.ErrInvalid)
-	}
-
-	var (
-		arrsWithNulls = make([]*exec.ArraySpan, 0, len(batch.Values))
-		isAllNull     bool
-		prealloc      bool = out.Buffers[0].Buf != nil
-	)
-
-	for i := range batch.Values {
-		v := &batch.Values[i]
-		nullGen := getNullGen(v)
-		if nullGen == nullGenAllNull {
-			isAllNull = true
-		}
-		if nullGen != nullGenAllValid && v.IsArray() {
-			arrsWithNulls = append(arrsWithNulls, &v.Array)
-		}
-	}
-
-	outBitmap := out.Buffers[0].Buf
-	if isAllNull {
-		// an all-null value gives us a short circuit opportunity
-		// output should all be null
-		out.Nulls = out.Len
-		if prealloc {
-			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, false)
-			return
-		}
-
-		// walk all the values with nulls instead of breaking on the first
-		// in case we find a bitmap that can be reused in the non-preallocated case
-		for _, arr := range arrsWithNulls {
-			if arr.Nulls == arr.Len && arr.Buffers[0].Owner != nil {
-				buf := arr.GetBuffer(0)
-				buf.Retain()
-				out.Buffers[0].Buf = buf.Bytes()
-				out.Buffers[0].Owner = buf
-				return
-			}
-		}
-
-		buf := ctx.AllocateBitmap(int64(out.Len))
-		out.Buffers[0].Owner = buf
-		out.Buffers[0].Buf = buf.Bytes()
-		out.Buffers[0].SelfAlloc = true
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, false)
-		return
-	}
-
-	out.Nulls = array.UnknownNullCount
-	switch len(arrsWithNulls) {
-	case 0:
-		out.Nulls = 0
-		if prealloc {
-			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, true)
-		}
-	case 1:
-		arr := arrsWithNulls[0]
-		out.Nulls = arr.Nulls
-		if prealloc {
-			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), outBitmap, int(out.Offset))
-			return
-		}
-
-		switch {
-		case arr.Offset == 0:
-			out.Buffers[0] = arr.Buffers[0]
-			out.Buffers[0].Owner.Retain()
-		case arr.Offset%8 == 0:
-			buf := memory.SliceBuffer(arr.GetBuffer(0), int(arr.Offset)/8, int(bitutil.BytesForBits(arr.Len)))
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].Owner = buf
-		default:
-			buf := ctx.AllocateBitmap(int64(out.Len))
-			out.Buffers[0].Owner = buf
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].SelfAlloc = true
-			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), out.Buffers[0].Buf, 0)
-		}
-		return
-
-	default:
-		if !prealloc {
-			buf := ctx.AllocateBitmap(int64(out.Len))
-			out.Buffers[0].Owner = buf
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].SelfAlloc = true
-			outBitmap = out.Buffers[0].Buf
-		}
-
-		acc := func(left, right *exec.ArraySpan) {
-			debug.Assert(left.Buffers[0].Buf != nil, "invalid intersection for null propagation")
-			debug.Assert(right.Buffers[0].Buf != nil, "invalid intersection for null propagation")
-			bitutil.BitmapAnd(left.Buffers[0].Buf, right.Buffers[0].Buf, left.Offset, right.Offset, outBitmap, out.Offset, out.Len)
-		}
-
-		acc(arrsWithNulls[0], arrsWithNulls[1])
-		for _, arr := range arrsWithNulls[2:] {
-			acc(out, arr)
-		}
-	}
-	return
-}
-
-func inferBatchLength(values []Datum) (length int64, allSame bool) {
-	length, allSame = -1, true
-	areAllScalar := true
-	for _, arg := range values {
-		switch arg := arg.(type) {
-		case *ArrayDatum:
-			argLength := arg.Len()
-			if length < 0 {
-				length = argLength
-			} else {
-				if length != argLength {
-					allSame = false
-					return
-				}
-			}
-			areAllScalar = false
-		case *ChunkedDatum:
-			argLength := arg.Len()
-			if length < 0 {
-				length = argLength
-			} else {
-				if length != argLength {
-					allSame = false
-					return
-				}
-			}
-			areAllScalar = false
-		}
-	}
-
-	if areAllScalar && len(values) > 0 {
-		length = 1
-	} else if length < 0 {
-		length = 0
-	}
-	allSame = true
-	return
-}
-
-// KernelExecutor is the interface for all executors to initialize and
-// call kernel execution functions on batches.
-type KernelExecutor interface {
-	// Init must be called *after* the kernel's init method and any
-	// KernelState must be set into the KernelCtx *before* calling
-	// this Init method. This is to facilitate the case where
-	// Init may be expensive and does not need to be called
-	// again for each execution of the kernel. For example,
-	// the same lookup table can be re-used for all scanned batches
-	// in a dataset filter.
-	Init(*exec.KernelCtx, exec.KernelInitArgs) error
-	// Execute the kernel for the provided batch and pass the resulting
-	// Datum values to the provided channel.
-	Execute(context.Context, *ExecBatch, chan<- Datum) error
-	// WrapResults exists for the case where an executor wants to post process
-	// the batches of result datums. Such as creating a ChunkedArray from
-	// multiple output batches or so on. Results from individual batch
-	// executions should be read from the out channel, and WrapResults should
-	// return the final Datum result.
-	WrapResults(ctx context.Context, out <-chan Datum, chunkedArgs bool) Datum
-	// CheckResultType checks the actual result type against the resolved
-	// output type. If the types don't match an error is returned
-	CheckResultType(out Datum) error
-	// Clear resets the state in the executor so that it can be reused.
-	Clear()
-}
-
-// the base implementation for executing non-aggregate kernels.
-type nonAggExecImpl struct {
-	ctx              *exec.KernelCtx
-	ectx             ExecCtx
-	kernel           exec.NonAggKernel
-	outType          arrow.DataType
-	numOutBuf        int
-	dataPrealloc     []bufferPrealloc
-	preallocValidity bool
-}
-
-func (e *nonAggExecImpl) Clear() {
-	e.ctx, e.kernel, e.outType = nil, nil, nil
-	if e.dataPrealloc != nil {
-		e.dataPrealloc = e.dataPrealloc[:0]
-	}
-}
-
-func (e *nonAggExecImpl) Init(ctx *exec.KernelCtx, args exec.KernelInitArgs) (err error) {
-	e.ctx, e.kernel = ctx, args.Kernel.(exec.NonAggKernel)
-	e.outType, err = e.kernel.GetSig().OutType.Resolve(ctx, args.Inputs)
-	e.ectx = GetExecCtx(ctx.Ctx)
-	return
-}
-
-func (e *nonAggExecImpl) prepareOutput(length int) *exec.ExecResult {
-	var nullCount int = array.UnknownNullCount
-
-	if e.kernel.GetNullHandling() == exec.NullNoOutput {
-		nullCount = 0
-	}
-
-	output := &exec.ArraySpan{
-		Type:  e.outType,
-		Len:   int64(length),
-		Nulls: int64(nullCount),
-	}
-
-	if e.preallocValidity {
-		buf := e.ctx.AllocateBitmap(int64(length))
-		output.Buffers[0].Owner = buf
-		output.Buffers[0].Buf = buf.Bytes()
-		output.Buffers[0].SelfAlloc = true
-	}
-
-	for i, pre := range e.dataPrealloc {
-		if pre.bitWidth >= 0 {
-			buf := allocateDataBuffer(e.ctx, length+pre.addLen, pre.bitWidth)
-			output.Buffers[i+1].Owner = buf
-			output.Buffers[i+1].Buf = buf.Bytes()
-			output.Buffers[i+1].SelfAlloc = true
-		}
-	}
-
-	return output
-}
-
-func (e *nonAggExecImpl) CheckResultType(out Datum) error {
-	typ := out.(ArrayLikeDatum).Type()
-	if typ != nil && !arrow.TypeEqual(e.outType, typ) {
-		return fmt.Errorf("%w: kernel type result mismatch: declared as %s, actual is %s",
-			arrow.ErrType, e.outType, typ)
-	}
-	return nil
-}
-
-type spanIterator func() (exec.ExecSpan, int64, bool)
-
-func NewScalarExecutor() KernelExecutor { return &scalarExecutor{} }
-
-type scalarExecutor struct {
-	nonAggExecImpl
-
-	elideValidityBitmap bool
-	preallocAllBufs     bool
-	preallocContiguous  bool
-	allScalars          bool
-	iter                spanIterator
-	iterLen             int64
-}
-
-func (s *scalarExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
-	s.allScalars, s.iter, err = iterateExecSpans(batch, s.ectx.ChunkSize, true)
-	if err != nil {
-		return
-	}
-
-	s.iterLen = batch.Len
-
-	if batch.Len == 0 {
-		result := array.MakeArrayOfNull(exec.GetAllocator(s.ctx.Ctx), s.outType, 0)
-		defer result.Release()
-		out := &exec.ArraySpan{}
-		out.SetMembers(result.Data())
-		return s.emitResult(out, data)
-	}
-
-	if err = s.setupPrealloc(batch.Len, batch.Values); err != nil {
-		return
-	}
-
-	return s.executeSpans(data)
-}
-
-func (s *scalarExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
-	var (
-		output Datum
-		acc    []arrow.Array
-	)
-
-	toChunked := func() {
-		acc = output.(ArrayLikeDatum).Chunks()
-		output.Release()
-		output = nil
-	}
-
-	// get first output
-	select {
-	case <-ctx.Done():
-		return nil
-	case output = <-out:
-		// if the inputs contained at least one chunked array
-		// then we want to return chunked output
-		if hasChunked {
-			toChunked()
-		}
-	}
-
-	for {
-		select {
-		case <-ctx.Done():
-			// context is done, either cancelled or a timeout.
-			// either way, we end early and return what we've got so far.
-			return output
-		case o, ok := <-out:
-			if !ok { // channel closed, wrap it up
-				if output != nil {
-					return output
-				}
-
-				for _, c := range acc {
-					defer c.Release()
-				}
-
-				chkd := arrow.NewChunked(s.outType, acc)
-				defer chkd.Release()
-				return NewDatum(chkd)
-			}
-
-			// if we get multiple batches of output, then we need
-			// to return it as a chunked array.
-			if acc == nil {
-				toChunked()
-			}
-
-			defer o.Release()
-			if o.Len() == 0 { // skip any empty batches
-				continue
-			}
-
-			acc = append(acc, o.(*ArrayDatum).MakeArray())
-		}
-	}
-}
-
-func (s *scalarExecutor) executeSpans(data chan<- Datum) (err error) {
-	var (
-		input  exec.ExecSpan
-		output exec.ExecResult
-		next   bool
-	)
-
-	if s.preallocContiguous {
-		// make one big output alloc
-		prealloc := s.prepareOutput(int(s.iterLen))
-		output = *prealloc
-
-		output.Offset = 0
-		var resultOffset int64
-		var nextOffset int64
-		for err == nil {
-			if input, nextOffset, next = s.iter(); !next {
-				break
-			}
-			output.SetSlice(resultOffset, input.Len)
-			err = s.executeSingleSpan(&input, &output)
-			resultOffset = nextOffset
-		}
-		if err != nil {
-			prealloc.Release()
-			return
-		}
-
-		return s.emitResult(prealloc, data)
-	}
-
-	// fully preallocating, but not contiguously
-	// we (maybe) preallocate only for the output of processing
-	// the current chunk
-	for err == nil {
-		if input, _, next = s.iter(); !next {
-			break
-		}
-
-		output = *s.prepareOutput(int(input.Len))
-		if err = s.executeSingleSpan(&input, &output); err != nil {
-			output.Release()
-			return
-		}
-		err = s.emitResult(&output, data)
-	}
-
-	return
-}
-
-func (s *scalarExecutor) executeSingleSpan(input *exec.ExecSpan, out *exec.ExecResult) error {
-	switch {
-	case out.Type.ID() == arrow.NULL:
-		out.Nulls = out.Len
-	case s.kernel.GetNullHandling() == exec.NullIntersection:
-		if !s.elideValidityBitmap {
-			propagateNulls(s.ctx, input, out)
-		}
-	case s.kernel.GetNullHandling() == exec.NullNoOutput:
-		out.Nulls = 0
-	}
-	return s.kernel.Exec(s.ctx, input, out)
-}
-
-func (s *scalarExecutor) setupPrealloc(totalLen int64, args []Datum) error {
-	s.numOutBuf = len(s.outType.Layout().Buffers)
-	outTypeID := s.outType.ID()
-	// default to no validity pre-allocation for the following cases:
-	// - Output Array is NullArray
-	// - kernel.NullHandling is ComputeNoPrealloc or OutputNotNull
-	s.preallocValidity = false
-
-	if outTypeID != arrow.NULL {
-		switch s.kernel.GetNullHandling() {
-		case exec.NullComputedPrealloc:
-			s.preallocValidity = true
-		case exec.NullIntersection:
-			s.elideValidityBitmap = true
-			for _, a := range args {
-				nullGen := getNullGenDatum(a) == nullGenAllValid
-				s.elideValidityBitmap = s.elideValidityBitmap && nullGen
-			}
-			s.preallocValidity = !s.elideValidityBitmap
-		case exec.NullNoOutput:
-			s.elideValidityBitmap = true
-		}
-	}
-
-	if s.kernel.GetMemAlloc() == exec.MemPrealloc {
-		s.dataPrealloc = addComputeDataPrealloc(s.outType, s.dataPrealloc)
-	}
-
-	// validity bitmap either preallocated or elided, and all data buffers allocated
-	// this is basically only true for primitive types that are not dict-encoded
-	s.preallocAllBufs =
-		((s.preallocValidity || s.elideValidityBitmap) && len(s.dataPrealloc) == (s.numOutBuf-1) &&
-			!arrow.IsNested(outTypeID) && outTypeID != arrow.DICTIONARY)
-
-	// contiguous prealloc only possible on non-nested types if all
-	// buffers are preallocated. otherwise we have to go chunk by chunk
-	//
-	// some kernels are also unable to write into sliced outputs, so
-	// we respect the kernel's attributes
-	s.preallocContiguous =
-		(s.ectx.PreallocContiguous && s.kernel.CanFillSlices() &&
-			s.preallocAllBufs)
-
-	return nil
-}
-
-func (s *scalarExecutor) emitResult(resultData *exec.ArraySpan, data chan<- Datum) error {
-	var output Datum
-	if len(resultData.Buffers[0].Buf) != 0 {
-		resultData.UpdateNullCount()
-	}
-	if s.allScalars {
-		// we boxed scalar inputs as ArraySpan so now we have to unbox the output
-		arr := resultData.MakeArray()
-		defer arr.Release()
-		sc, err := scalar.GetScalar(arr, 0)
-		if err != nil {
-			return err
-		}
-		if r, ok := sc.(scalar.Releasable); ok {
-			defer r.Release()
-		}
-		output = NewDatum(sc)
-	} else {
-		d := resultData.MakeData()
-		defer d.Release()
-		output = NewDatum(d)
-	}
-	data <- output
-	return nil
-}
-
-func checkAllIsValue(vals []Datum) error {
-	for _, v := range vals {
-		if !DatumIsValue(v) {
-			return fmt.Errorf("%w: tried executing function with non-value type: %s",
-				arrow.ErrInvalid, v)
-		}
-	}
-	return nil
-}
-
-func checkIfAllScalar(batch *ExecBatch) bool {
-	for _, v := range batch.Values {
-		if v.Kind() != KindScalar {
-			return false
-		}
-	}
-	return batch.NumValues() > 0
-}
-
-// iterateExecSpans sets up and returns a function which can iterate a batch
-// according to the chunk sizes. If the inputs contain chunked arrays, then
-// we will find the min(chunk sizes, maxChunkSize) to ensure we return
-// contiguous spans to execute on.
-//
-// the iteration function returns the next span to execute on, the current
-// position in the full batch, and a boolean indicating whether or not
-// a span was actually returned (there is data to process).
-func iterateExecSpans(batch *ExecBatch, maxChunkSize int64, promoteIfAllScalar bool) (haveAllScalars bool, itr spanIterator, err error) {
-	if batch.NumValues() > 0 {
-		inferred, allArgsSame := inferBatchLength(batch.Values)
-		if inferred != batch.Len {
-			return false, nil, fmt.Errorf("%w: value lengths differed from execbatch length", arrow.ErrInvalid)
-		}
-		if !allArgsSame {
-			return false, nil, fmt.Errorf("%w: array args must all be the same length", arrow.ErrInvalid)
-		}
-	}
-
-	var (
-		args           []Datum = batch.Values
-		haveChunked    bool
-		chunkIdxes           = make([]int, len(args))
-		valuePositions       = make([]int64, len(args))
-		valueOffsets         = make([]int64, len(args))
-		pos, length    int64 = 0, batch.Len
-	)
-	haveAllScalars = checkIfAllScalar(batch)
-	maxChunkSize = exec.Min(length, maxChunkSize)
-
-	span := exec.ExecSpan{Values: make([]exec.ExecValue, len(args)), Len: 0}
-	for i, a := range args {
-		switch arg := a.(type) {
-		case *ScalarDatum:
-			span.Values[i].Scalar = arg.Value
-		case *ArrayDatum:
-			span.Values[i].Array.SetMembers(arg.Value)
-			valueOffsets[i] = int64(arg.Value.Offset())
-		case *ChunkedDatum:
-			// populate from first chunk
-			carr := arg.Value
-			if len(carr.Chunks()) > 0 {
-				arr := carr.Chunk(0).Data()
-				span.Values[i].Array.SetMembers(arr)
-				valueOffsets[i] = int64(arr.Offset())
-			} else {
-				// fill as zero len
-				exec.FillZeroLength(carr.DataType(), &span.Values[i].Array)
-			}
-			haveChunked = true
-		}
-	}
-
-	if haveAllScalars && promoteIfAllScalar {
-		exec.PromoteExecSpanScalars(span)
-	}
-
-	nextChunkSpan := func(iterSz int64, span exec.ExecSpan) int64 {
-		for i := 0; i < len(args) && iterSz > 0; i++ {
-			// if the argument is not chunked, it's either a scalar or an array
-			// in which case it doesn't influence the size of the span
-			chunkedArg, ok := args[i].(*ChunkedDatum)
-			if !ok {
-				continue
-			}
-
-			arg := chunkedArg.Value
-			if len(arg.Chunks()) == 0 {
-				iterSz = 0
-				continue
-			}
-
-			var curChunk arrow.Array
-			for {
-				curChunk = arg.Chunk(chunkIdxes[i])
-				if valuePositions[i] == int64(curChunk.Len()) {
-					// chunk is zero-length, or was exhausted in the previous
-					// iteration, move to next chunk
-					chunkIdxes[i]++
-					curChunk = arg.Chunk(chunkIdxes[i])
-					span.Values[i].Array.SetMembers(curChunk.Data())
-					valuePositions[i] = 0
-					valueOffsets[i] = int64(curChunk.Data().Offset())
-					continue
-				}
-				break
-			}
-			iterSz = exec.Min(int64(curChunk.Len())-valuePositions[i], iterSz)
-		}
-		return iterSz
-	}
-
-	return haveAllScalars, func() (exec.ExecSpan, int64, bool) {
-		if pos == length {
-			return exec.ExecSpan{}, pos, false
-		}
-
-		iterationSize := exec.Min(length-pos, maxChunkSize)
-		if haveChunked {
-			iterationSize = nextChunkSpan(iterationSize, span)
-		}
-
-		span.Len = iterationSize
-		for i, a := range args {
-			if a.Kind() != KindScalar {
-				span.Values[i].Array.SetSlice(valuePositions[i]+valueOffsets[i], iterationSize)
-				valuePositions[i] += iterationSize
-			}
-		}
-
-		pos += iterationSize
-		debug.Assert(pos <= length, "bad state for iteration exec span")
-		return span, pos, true
-	}, nil
-}
-
-var (
-	// have a pool of scalar executors to avoid excessive object creation
-	scalarExecPool = sync.Pool{
-		New: func() any { return &scalarExecutor{} },
-	}
-	vectorExecPool = sync.Pool{
-		New: func() any { return &vectorExecutor{} },
-	}
-)
-
-func checkCanExecuteChunked(k *exec.VectorKernel) error {
-	if k.ExecChunked == nil {
-		return fmt.Errorf("%w: vector kernel cannot execute chunkwise and no chunked exec function defined", arrow.ErrInvalid)
-	}
-
-	if k.NullHandling == exec.NullIntersection {
-		return fmt.Errorf("%w: null pre-propagation is unsupported for chunkedarray execution in vector kernels", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-type vectorExecutor struct {
-	nonAggExecImpl
-
-	iter    spanIterator
-	results []*exec.ArraySpan
-	iterLen int64
-
-	allScalars bool
-}
-
-func (v *vectorExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
-	final := v.kernel.(*exec.VectorKernel).Finalize
-	if final != nil {
-		if v.results == nil {
-			v.results = make([]*exec.ArraySpan, 0, 1)
-		} else {
-			v.results = v.results[:0]
-		}
-	}
-	// some vector kernels have a separate code path for handling chunked
-	// arrays (VectorKernel.ExecChunked) so we check for any chunked
-	// arrays. If we do and an ExecChunked function is defined
-	// then we call that.
-	hasChunked := haveChunkedArray(batch.Values)
-	v.numOutBuf = len(v.outType.Layout().Buffers)
-	v.preallocValidity = v.kernel.GetNullHandling() != exec.NullComputedNoPrealloc &&
-		v.kernel.GetNullHandling() != exec.NullNoOutput
-	if v.kernel.GetMemAlloc() == exec.MemPrealloc {
-		v.dataPrealloc = addComputeDataPrealloc(v.outType, v.dataPrealloc)
-	}
-
-	if v.kernel.(*exec.VectorKernel).CanExecuteChunkWise {
-		v.allScalars, v.iter, err = iterateExecSpans(batch, v.ectx.ChunkSize, true)
-		v.iterLen = batch.Len
-
-		var (
-			input exec.ExecSpan
-			next  bool
-		)
-		if v.iterLen == 0 {
-			input.Values = make([]exec.ExecValue, batch.NumValues())
-			for i, v := range batch.Values {
-				exec.FillZeroLength(v.(ArrayLikeDatum).Type(), &input.Values[i].Array)
-			}
-			err = v.exec(&input, data)
-		}
-		for err == nil {
-			if input, _, next = v.iter(); !next {
-				break
-			}
-			err = v.exec(&input, data)
-		}
-		if err != nil {
-			return
-		}
-	} else {
-		// kernel cannot execute chunkwise. if we have any chunked arrays,
-		// then execchunked must be defined or we raise an error
-		if hasChunked {
-			if err = v.execChunked(batch, data); err != nil {
-				return
-			}
-		} else {
-			// no chunked arrays. we pack the args into an execspan
-			// and call regular exec code path
-			span := ExecSpanFromBatch(batch)
-			if checkIfAllScalar(batch) {
-				exec.PromoteExecSpanScalars(*span)
-			}
-			if err = v.exec(span, data); err != nil {
-				return
-			}
-		}
-	}
-
-	if final != nil {
-		// intermediate results require post-processing after execution is
-		// completed (possibly involving some accumulated state)
-		output, err := final(v.ctx, v.results)
-		if err != nil {
-			return err
-		}
-
-		for _, r := range output {
-			d := r.MakeData()
-			defer d.Release()
-			data <- NewDatum(d)
-		}
-	}
-
-	return nil
-}
-
-func (v *vectorExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
-	// if kernel doesn't output chunked, just grab the one output and return it
-	if !v.kernel.(*exec.VectorKernel).OutputChunked {
-		var output Datum
-		select {
-		case <-ctx.Done():
-			return nil
-		case output = <-out:
-		}
-
-		// we got an output datum, but let's wait for the channel to
-		// close so we don't have any race conditions
-		select {
-		case <-ctx.Done():
-			output.Release()
-			return nil
-		case <-out:
-			return output
-		}
-	}
-
-	// if execution yielded multiple chunks then the result is a chunked array
-	var (
-		output Datum
-		acc    []arrow.Array
-	)
-
-	toChunked := func() {
-		out := output.(ArrayLikeDatum).Chunks()
-		acc = make([]arrow.Array, 0, len(out))
-		for _, o := range out {
-			if o.Len() > 0 {
-				acc = append(acc, o)
-			}
-		}
-		if output.Kind() != KindChunked {
-			output.Release()
-		}
-		output = nil
-	}
-
-	// get first output
-	select {
-	case <-ctx.Done():
-		return nil
-	case output = <-out:
-		if output == nil || ctx.Err() != nil {
-			return nil
-		}
-
-		// if the inputs contained at least one chunked array
-		// then we want to return chunked output
-		if hasChunked {
-			toChunked()
-		}
-	}
-
-	for {
-		select {
-		case <-ctx.Done():
-			// context is done, either cancelled or a timeout.
-			// either way, we end early and return what we've got so far.
-			return output
-		case o, ok := <-out:
-			if !ok { // channel closed, wrap it up
-				if output != nil {
-					return output
-				}
-
-				for _, c := range acc {
-					defer c.Release()
-				}
-
-				chkd := arrow.NewChunked(v.outType, acc)
-				defer chkd.Release()
-				return NewDatum(chkd)
-			}
-
-			// if we get multiple batches of output, then we need
-			// to return it as a chunked array.
-			if acc == nil {
-				toChunked()
-			}
-
-			defer o.Release()
-			if o.Len() == 0 { // skip any empty batches
-				continue
-			}
-
-			acc = append(acc, o.(*ArrayDatum).MakeArray())
-		}
-	}
-}
-
-func (v *vectorExecutor) exec(span *exec.ExecSpan, data chan<- Datum) (err error) {
-	out := v.prepareOutput(int(span.Len))
-	if v.kernel.GetNullHandling() == exec.NullIntersection {
-		if err = propagateNulls(v.ctx, span, out); err != nil {
-			return
-		}
-	}
-	if err = v.kernel.Exec(v.ctx, span, out); err != nil {
-		return
-	}
-	return v.emitResult(out, data)
-}
-
-func (v *vectorExecutor) emitResult(result *exec.ArraySpan, data chan<- Datum) (err error) {
-	if v.kernel.(*exec.VectorKernel).Finalize == nil {
-		d := result.MakeData()
-		defer d.Release()
-		data <- NewDatum(d)
-	} else {
-		v.results = append(v.results, result)
-	}
-	return nil
-}
-
-func (v *vectorExecutor) execChunked(batch *ExecBatch, out chan<- Datum) error {
-	if err := checkCanExecuteChunked(v.kernel.(*exec.VectorKernel)); err != nil {
-		return err
-	}
-
-	output := v.prepareOutput(int(batch.Len))
-	input := make([]*arrow.Chunked, len(batch.Values))
-	for i, v := range batch.Values {
-		switch val := v.(type) {
-		case *ArrayDatum:
-			chks := val.Chunks()
-			input[i] = arrow.NewChunked(val.Type(), chks)
-			chks[0].Release()
-			defer input[i].Release()
-		case *ChunkedDatum:
-			input[i] = val.Value
-		default:
-			return fmt.Errorf("%w: handling with exec chunked", arrow.ErrNotImplemented)
-		}
-	}
-	result, err := v.kernel.(*exec.VectorKernel).ExecChunked(v.ctx, input, output)
-	if err != nil {
-		return err
-	}
-
-	if len(result) == 0 {
-		empty := output.MakeArray()
-		defer empty.Release()
-		out <- &ChunkedDatum{Value: arrow.NewChunked(output.Type, []arrow.Array{empty})}
-		return nil
-	}
-
-	for _, r := range result {
-		if err := v.emitResult(r, out); err != nil {
-			return err
-		}
-	}
-	return nil
-}
diff --git a/go/arrow/compute/expression.go b/go/arrow/compute/expression.go
deleted file mode 100644
index f6aadeda5634b..0000000000000
--- a/go/arrow/compute/expression.go
+++ /dev/null
@@ -1,904 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"bytes"
-	"encoding/hex"
-	"errors"
-	"fmt"
-	"hash/maphash"
-	"reflect"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-var hashSeed = maphash.MakeSeed()
-
-// Expression is an interface for mapping one datum to another. An expression
-// is one of:
-//
-//	A literal Datum
-//	A reference to a single (potentially nested) field of an input Datum
-//	A call to a compute function, with arguments specified by other Expressions
-//
-// Deprecated: use substrait-go expressions instead.
-type Expression interface {
-	fmt.Stringer
-	// IsBound returns true if this expression has been bound to a particular
-	// Datum and/or Schema.
-	IsBound() bool
-	// IsScalarExpr returns true if this expression is composed only of scalar
-	// literals, field references and calls to scalar functions.
-	IsScalarExpr() bool
-	// IsNullLiteral returns true if this expression is a literal and entirely
-	// null.
-	IsNullLiteral() bool
-	// IsSatisfiable returns true if this expression could evaluate to true
-	IsSatisfiable() bool
-	// FieldRef returns a pointer to the underlying field reference, or nil if
-	// this expression is not a field reference.
-	FieldRef() *FieldRef
-	// Type returns the datatype this expression will evaluate to.
-	Type() arrow.DataType
-
-	Hash() uint64
-	Equals(Expression) bool
-
-	// Release releases the underlying bound C++ memory that is allocated when
-	// a Bind is performed. Any bound expression should get released to ensure
-	// no memory leaks.
-	Release()
-}
-
-func printDatum(datum Datum) string {
-	switch datum := datum.(type) {
-	case *ScalarDatum:
-		if !datum.Value.IsValid() {
-			return "null"
-		}
-
-		switch datum.Type().ID() {
-		case arrow.STRING, arrow.LARGE_STRING:
-			return strconv.Quote(datum.Value.(scalar.BinaryScalar).String())
-		case arrow.BINARY, arrow.FIXED_SIZE_BINARY, arrow.LARGE_BINARY:
-			return `"` + strings.ToUpper(hex.EncodeToString(datum.Value.(scalar.BinaryScalar).Data())) + `"`
-		}
-
-		return datum.Value.String()
-	default:
-		return datum.String()
-	}
-}
-
-// Literal is an expression denoting a literal Datum which could be any value
-// as a scalar, an array, or so on.
-//
-// Deprecated: use substrait-go expressions Literal instead.
-type Literal struct {
-	Literal Datum
-}
-
-func (Literal) FieldRef() *FieldRef     { return nil }
-func (l *Literal) String() string       { return printDatum(l.Literal) }
-func (l *Literal) Type() arrow.DataType { return l.Literal.(ArrayLikeDatum).Type() }
-func (l *Literal) IsBound() bool        { return l.Type() != nil }
-func (l *Literal) IsScalarExpr() bool   { return l.Literal.Kind() == KindScalar }
-
-func (l *Literal) Equals(other Expression) bool {
-	if rhs, ok := other.(*Literal); ok {
-		return l.Literal.Equals(rhs.Literal)
-	}
-	return false
-}
-
-func (l *Literal) IsNullLiteral() bool {
-	if ad, ok := l.Literal.(ArrayLikeDatum); ok {
-		return ad.NullN() == ad.Len()
-	}
-	return true
-}
-
-func (l *Literal) IsSatisfiable() bool {
-	if l.IsNullLiteral() {
-		return false
-	}
-
-	if sc, ok := l.Literal.(*ScalarDatum); ok && sc.Type().ID() == arrow.BOOL {
-		return sc.Value.(*scalar.Boolean).Value
-	}
-
-	return true
-}
-
-func (l *Literal) Hash() uint64 {
-	if l.IsScalarExpr() {
-		return scalar.Hash(hashSeed, l.Literal.(*ScalarDatum).Value)
-	}
-	return 0
-}
-
-func (l *Literal) Release() {
-	l.Literal.Release()
-}
-
-// Parameter represents a field reference and needs to be bound in order to determine
-// its type and shape.
-//
-// Deprecated: use substrait-go field references instead.
-type Parameter struct {
-	ref *FieldRef
-
-	// post bind props
-	dt    arrow.DataType
-	index int
-}
-
-func (Parameter) IsNullLiteral() bool     { return false }
-func (p *Parameter) Type() arrow.DataType { return p.dt }
-func (p *Parameter) IsBound() bool        { return p.Type() != nil }
-func (p *Parameter) IsScalarExpr() bool   { return p.ref != nil }
-func (p *Parameter) IsSatisfiable() bool  { return p.Type() == nil || p.Type().ID() != arrow.NULL }
-func (p *Parameter) FieldRef() *FieldRef  { return p.ref }
-func (p *Parameter) Hash() uint64         { return p.ref.Hash(hashSeed) }
-
-func (p *Parameter) String() string {
-	switch {
-	case p.ref.IsName():
-		return p.ref.Name()
-	case p.ref.IsFieldPath():
-		return p.ref.FieldPath().String()
-	default:
-		return p.ref.String()
-	}
-}
-
-func (p *Parameter) Equals(other Expression) bool {
-	if rhs, ok := other.(*Parameter); ok {
-		return p.ref.Equals(*rhs.ref)
-	}
-
-	return false
-}
-
-func (p *Parameter) Release() {}
-
-type comparisonType int8
-
-const (
-	compNA comparisonType = 0
-	compEQ comparisonType = 1
-	compLT comparisonType = 2
-	compGT comparisonType = 4
-	compNE comparisonType = compLT | compGT
-	compLE comparisonType = compLT | compEQ
-	compGE comparisonType = compGT | compEQ
-)
-
-//lint:ignore U1000 ignore that this is unused for now
-func (c comparisonType) name() string {
-	switch c {
-	case compEQ:
-		return "equal"
-	case compLT:
-		return "less"
-	case compGT:
-		return "greater"
-	case compNE:
-		return "not_equal"
-	case compLE:
-		return "less_equal"
-	case compGE:
-		return "greater_equal"
-	}
-	return "na"
-}
-
-func (c comparisonType) getOp() string {
-	switch c {
-	case compEQ:
-		return "=="
-	case compLT:
-		return "<"
-	case compGT:
-		return ">"
-	case compNE:
-		return "!="
-	case compLE:
-		return "<="
-	case compGE:
-		return ">="
-	}
-	debug.Assert(false, "invalid getop")
-	return ""
-}
-
-var compmap = map[string]comparisonType{
-	"equal":         compEQ,
-	"less":          compLT,
-	"greater":       compGT,
-	"not_equal":     compNE,
-	"less_equal":    compLE,
-	"greater_equal": compGE,
-}
-
-func optionsToString(fn FunctionOptions) string {
-	if s, ok := fn.(fmt.Stringer); ok {
-		return s.String()
-	}
-
-	var b strings.Builder
-	v := reflect.Indirect(reflect.ValueOf(fn))
-	b.WriteByte('{')
-	for i := 0; i < v.Type().NumField(); i++ {
-		fld := v.Type().Field(i)
-		tag := fld.Tag.Get("compute")
-		if tag == "-" {
-			continue
-		}
-
-		fldVal := v.Field(i)
-		fmt.Fprintf(&b, "%s=%v, ", tag, fldVal.Interface())
-	}
-	ret := b.String()
-	return ret[:len(ret)-2] + "}"
-}
-
-// Call is a function call with specific arguments which are themselves other
-// expressions. A call can also have options that are specific to the function
-// in question. It must be bound to determine the shape and type.
-//
-// Deprecated: use substrait-go expression functions instead.
-type Call struct {
-	funcName string
-	args     []Expression
-	dt       arrow.DataType
-	options  FunctionOptions
-
-	cachedHash uint64
-}
-
-func (c *Call) IsNullLiteral() bool  { return false }
-func (c *Call) FieldRef() *FieldRef  { return nil }
-func (c *Call) Type() arrow.DataType { return c.dt }
-func (c *Call) IsSatisfiable() bool  { return c.Type() == nil || c.Type().ID() != arrow.NULL }
-
-func (c *Call) String() string {
-	binary := func(op string) string {
-		return "(" + c.args[0].String() + " " + op + " " + c.args[1].String() + ")"
-	}
-
-	if cmp, ok := compmap[c.funcName]; ok {
-		return binary(cmp.getOp())
-	}
-
-	const kleene = "_kleene"
-	if strings.HasSuffix(c.funcName, kleene) {
-		return binary(strings.TrimSuffix(c.funcName, kleene))
-	}
-
-	if c.funcName == "make_struct" && c.options != nil {
-		opts := c.options.(*MakeStructOptions)
-		out := "{"
-		for i, a := range c.args {
-			out += opts.FieldNames[i] + "=" + a.String() + ", "
-		}
-		return out[:len(out)-2] + "}"
-	}
-
-	var b strings.Builder
-	b.WriteString(c.funcName + "(")
-	for _, a := range c.args {
-		b.WriteString(a.String() + ", ")
-	}
-
-	if c.options != nil {
-		b.WriteString(optionsToString(c.options))
-		b.WriteString("  ")
-	}
-
-	ret := b.String()
-	return ret[:len(ret)-2] + ")"
-}
-
-func (c *Call) Hash() uint64 {
-	if c.cachedHash != 0 {
-		return c.cachedHash
-	}
-
-	var h maphash.Hash
-	h.SetSeed(hashSeed)
-
-	h.WriteString(c.funcName)
-	c.cachedHash = h.Sum64()
-	for _, arg := range c.args {
-		c.cachedHash = exec.HashCombine(c.cachedHash, arg.Hash())
-	}
-	return c.cachedHash
-}
-
-func (c *Call) IsScalarExpr() bool {
-	for _, arg := range c.args {
-		if !arg.IsScalarExpr() {
-			return false
-		}
-	}
-
-	return false
-	// return isFuncScalar(c.funcName)
-}
-
-func (c *Call) IsBound() bool {
-	return c.Type() != nil
-}
-
-func (c *Call) Equals(other Expression) bool {
-	rhs, ok := other.(*Call)
-	if !ok {
-		return false
-	}
-
-	if c.funcName != rhs.funcName || len(c.args) != len(rhs.args) {
-		return false
-	}
-
-	for i := range c.args {
-		if !c.args[i].Equals(rhs.args[i]) {
-			return false
-		}
-	}
-
-	if opt, ok := c.options.(FunctionOptionsEqual); ok {
-		return opt.Equals(rhs.options)
-	}
-	return reflect.DeepEqual(c.options, rhs.options)
-}
-
-func (c *Call) Release() {
-	for _, a := range c.args {
-		a.Release()
-	}
-	if r, ok := c.options.(releasable); ok {
-		r.Release()
-	}
-}
-
-// FunctionOptions can be any type which has a TypeName function. The fields
-// of the type will be used (via reflection) to determine the information to
-// propagate when serializing to pass to the C++ for execution.
-type FunctionOptions interface {
-	TypeName() string
-}
-
-type FunctionOptionsEqual interface {
-	Equals(FunctionOptions) bool
-}
-
-type FunctionOptionsCloneable interface {
-	Clone() FunctionOptions
-}
-
-type MakeStructOptions struct {
-	FieldNames       []string          `compute:"field_names"`
-	FieldNullability []bool            `compute:"field_nullability"`
-	FieldMetadata    []*arrow.Metadata `compute:"field_metadata"`
-}
-
-func (MakeStructOptions) TypeName() string { return "MakeStructOptions" }
-
-type NullOptions struct {
-	NanIsNull bool `compute:"nan_is_null"`
-}
-
-func (NullOptions) TypeName() string { return "NullOptions" }
-
-type StrptimeOptions struct {
-	Format string         `compute:"format"`
-	Unit   arrow.TimeUnit `compute:"unit"`
-}
-
-func (StrptimeOptions) TypeName() string { return "StrptimeOptions" }
-
-type NullSelectionBehavior = kernels.NullSelectionBehavior
-
-const (
-	SelectionEmitNulls = kernels.EmitNulls
-	SelectionDropNulls = kernels.DropNulls
-)
-
-type ArithmeticOptions struct {
-	NoCheckOverflow bool `compute:"check_overflow"`
-}
-
-func (ArithmeticOptions) TypeName() string { return "ArithmeticOptions" }
-
-type (
-	CastOptions   = kernels.CastOptions
-	FilterOptions = kernels.FilterOptions
-	TakeOptions   = kernels.TakeOptions
-)
-
-func DefaultFilterOptions() *FilterOptions { return &FilterOptions{} }
-
-func DefaultTakeOptions() *TakeOptions { return &TakeOptions{BoundsCheck: true} }
-
-func DefaultCastOptions(safe bool) *CastOptions {
-	if safe {
-		return &CastOptions{}
-	}
-	return &CastOptions{
-		AllowIntOverflow:     true,
-		AllowTimeTruncate:    true,
-		AllowTimeOverflow:    true,
-		AllowDecimalTruncate: true,
-		AllowFloatTruncate:   true,
-		AllowInvalidUtf8:     true,
-	}
-}
-
-func UnsafeCastOptions(dt arrow.DataType) *CastOptions {
-	return NewCastOptions(dt, false)
-}
-
-func SafeCastOptions(dt arrow.DataType) *CastOptions {
-	return NewCastOptions(dt, true)
-}
-
-func NewCastOptions(dt arrow.DataType, safe bool) *CastOptions {
-	opts := DefaultCastOptions(safe)
-	if dt != nil {
-		opts.ToType = dt
-	} else {
-		opts.ToType = arrow.Null
-	}
-	return opts
-}
-
-func Cast(ex Expression, dt arrow.DataType) Expression {
-	opts := &CastOptions{}
-	if dt == nil {
-		opts.ToType = arrow.Null
-	} else {
-		opts.ToType = dt
-	}
-
-	return NewCall("cast", []Expression{ex}, opts)
-}
-
-type SetLookupOptions struct {
-	ValueSet  Datum `compute:"value_set"`
-	SkipNulls bool  `compute:"skip_nulls"`
-}
-
-func (SetLookupOptions) TypeName() string { return "SetLookupOptions" }
-
-func (s *SetLookupOptions) Release() { s.ValueSet.Release() }
-
-func (s *SetLookupOptions) Equals(other FunctionOptions) bool {
-	rhs, ok := other.(*SetLookupOptions)
-	if !ok {
-		return false
-	}
-
-	return s.SkipNulls == rhs.SkipNulls && s.ValueSet.Equals(rhs.ValueSet)
-}
-
-func (s *SetLookupOptions) FromStructScalar(sc *scalar.Struct) error {
-	if v, err := sc.Field("skip_nulls"); err == nil {
-		s.SkipNulls = v.(*scalar.Boolean).Value
-	}
-
-	value, err := sc.Field("value_set")
-	if err != nil {
-		return err
-	}
-
-	if v, ok := value.(scalar.ListScalar); ok {
-		s.ValueSet = NewDatum(v.GetList())
-		return nil
-	}
-
-	return errors.New("set lookup options valueset should be a list")
-}
-
-var (
-	funcOptionsMap map[string]reflect.Type
-	funcOptsTypes  = []FunctionOptions{
-		SetLookupOptions{}, ArithmeticOptions{}, CastOptions{},
-		FilterOptions{}, NullOptions{}, StrptimeOptions{}, MakeStructOptions{},
-	}
-)
-
-func init() {
-	funcOptionsMap = make(map[string]reflect.Type)
-	for _, ft := range funcOptsTypes {
-		funcOptionsMap[ft.TypeName()] = reflect.TypeOf(ft)
-	}
-}
-
-// NewLiteral constructs a new literal expression from any value. It is passed
-// to NewDatum which will construct the appropriate Datum and/or scalar
-// value for the type provided.
-func NewLiteral(arg interface{}) Expression {
-	return &Literal{Literal: NewDatum(arg)}
-}
-
-func NullLiteral(dt arrow.DataType) Expression {
-	return &Literal{Literal: NewDatum(scalar.MakeNullScalar(dt))}
-}
-
-// NewRef constructs a parameter expression which refers to a specific field
-func NewRef(ref FieldRef) Expression {
-	return &Parameter{ref: &ref, index: -1}
-}
-
-// NewFieldRef is shorthand for NewRef(FieldRefName(field))
-func NewFieldRef(field string) Expression {
-	return NewRef(FieldRefName(field))
-}
-
-// NewCall constructs an expression that represents a specific function call with
-// the given arguments and options.
-func NewCall(name string, args []Expression, opts FunctionOptions) Expression {
-	return &Call{funcName: name, args: args, options: opts}
-}
-
-// Project is shorthand for `make_struct` to produce a record batch output
-// from a group of expressions.
-func Project(values []Expression, names []string) Expression {
-	nulls := make([]bool, len(names))
-	for i := range nulls {
-		nulls[i] = true
-	}
-	meta := make([]*arrow.Metadata, len(names))
-	return NewCall("make_struct", values,
-		&MakeStructOptions{FieldNames: names, FieldNullability: nulls, FieldMetadata: meta})
-}
-
-// Equal is a convenience function for the equal function
-func Equal(lhs, rhs Expression) Expression {
-	return NewCall("equal", []Expression{lhs, rhs}, nil)
-}
-
-// NotEqual creates a call to not_equal
-func NotEqual(lhs, rhs Expression) Expression {
-	return NewCall("not_equal", []Expression{lhs, rhs}, nil)
-}
-
-// Less is shorthand for NewCall("less",....)
-func Less(lhs, rhs Expression) Expression {
-	return NewCall("less", []Expression{lhs, rhs}, nil)
-}
-
-// LessEqual is shorthand for NewCall("less_equal",....)
-func LessEqual(lhs, rhs Expression) Expression {
-	return NewCall("less_equal", []Expression{lhs, rhs}, nil)
-}
-
-// Greater is shorthand for NewCall("greater",....)
-func Greater(lhs, rhs Expression) Expression {
-	return NewCall("greater", []Expression{lhs, rhs}, nil)
-}
-
-// GreaterEqual is shorthand for NewCall("greater_equal",....)
-func GreaterEqual(lhs, rhs Expression) Expression {
-	return NewCall("greater_equal", []Expression{lhs, rhs}, nil)
-}
-
-// IsNull creates an expression that returns true if the passed in expression is
-// null. Optionally treating NaN as null if desired.
-func IsNull(lhs Expression, nanIsNull bool) Expression {
-	return NewCall("less", []Expression{lhs}, &NullOptions{nanIsNull})
-}
-
-// IsValid is the inverse of IsNull
-func IsValid(lhs Expression) Expression {
-	return NewCall("is_valid", []Expression{lhs}, nil)
-}
-
-type binop func(lhs, rhs Expression) Expression
-
-func foldLeft(op binop, args ...Expression) Expression {
-	switch len(args) {
-	case 0:
-		return nil
-	case 1:
-		return args[0]
-	}
-
-	folded := args[0]
-	for _, a := range args[1:] {
-		folded = op(folded, a)
-	}
-	return folded
-}
-
-func and(lhs, rhs Expression) Expression {
-	return NewCall("and_kleene", []Expression{lhs, rhs}, nil)
-}
-
-// And constructs a tree of calls to and_kleene for boolean And logic taking
-// an arbitrary number of values.
-func And(lhs, rhs Expression, ops ...Expression) Expression {
-	folded := foldLeft(and, append([]Expression{lhs, rhs}, ops...)...)
-	if folded != nil {
-		return folded
-	}
-	return NewLiteral(true)
-}
-
-func or(lhs, rhs Expression) Expression {
-	return NewCall("or_kleene", []Expression{lhs, rhs}, nil)
-}
-
-// Or constructs a tree of calls to or_kleene for boolean Or logic taking
-// an arbitrary number of values.
-func Or(lhs, rhs Expression, ops ...Expression) Expression {
-	folded := foldLeft(or, append([]Expression{lhs, rhs}, ops...)...)
-	if folded != nil {
-		return folded
-	}
-	return NewLiteral(false)
-}
-
-// Not creates a call to "invert" for the value specified.
-func Not(expr Expression) Expression {
-	return NewCall("invert", []Expression{expr}, nil)
-}
-
-func SerializeOptions(opts FunctionOptions, mem memory.Allocator) (*memory.Buffer, error) {
-	sc, err := scalar.ToScalar(opts, mem)
-	if err != nil {
-		return nil, err
-	}
-	if sc, ok := sc.(releasable); ok {
-		defer sc.Release()
-	}
-
-	arr, err := scalar.MakeArrayFromScalar(sc, 1, mem)
-	if err != nil {
-		return nil, err
-	}
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Type: arr.DataType(), Nullable: true}}, nil), []arrow.Array{arr}, 1)
-	defer batch.Release()
-
-	buf := &bufferWriteSeeker{mem: mem}
-	wr, err := ipc.NewFileWriter(buf, ipc.WithSchema(batch.Schema()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-
-	wr.Write(batch)
-	wr.Close()
-	return buf.buf, nil
-}
-
-// SerializeExpr serializes expressions by converting them to Metadata and
-// storing this in the schema of a Record. Embedded arrays and scalars are
-// stored in its columns. Finally the record is written as an IPC file
-func SerializeExpr(expr Expression, mem memory.Allocator) (*memory.Buffer, error) {
-	var (
-		cols      []arrow.Array
-		metaKey   []string
-		metaValue []string
-		visit     func(Expression) error
-	)
-
-	addScalar := func(s scalar.Scalar) (string, error) {
-		ret := len(cols)
-		arr, err := scalar.MakeArrayFromScalar(s, 1, mem)
-		if err != nil {
-			return "", err
-		}
-		cols = append(cols, arr)
-		return strconv.Itoa(ret), nil
-	}
-
-	visit = func(e Expression) error {
-		switch e := e.(type) {
-		case *Literal:
-			if !e.IsScalarExpr() {
-				return errors.New("not implemented: serialization of non-scalar literals")
-			}
-			metaKey = append(metaKey, "literal")
-			s, err := addScalar(e.Literal.(*ScalarDatum).Value)
-			if err != nil {
-				return err
-			}
-			metaValue = append(metaValue, s)
-		case *Parameter:
-			if e.ref.Name() == "" {
-				return errors.New("not implemented: serialization of non-name field_ref")
-			}
-
-			metaKey = append(metaKey, "field_ref")
-			metaValue = append(metaValue, e.ref.Name())
-		case *Call:
-			metaKey = append(metaKey, "call")
-			metaValue = append(metaValue, e.funcName)
-
-			for _, arg := range e.args {
-				visit(arg)
-			}
-
-			if e.options != nil {
-				st, err := scalar.ToScalar(e.options, mem)
-				if err != nil {
-					return err
-				}
-				metaKey = append(metaKey, "options")
-				s, err := addScalar(st)
-				if err != nil {
-					return err
-				}
-				metaValue = append(metaValue, s)
-
-				for _, f := range st.(*scalar.Struct).Value {
-					switch s := f.(type) {
-					case releasable:
-						defer s.Release()
-					}
-				}
-			}
-
-			metaKey = append(metaKey, "end")
-			metaValue = append(metaValue, e.funcName)
-		}
-		return nil
-	}
-
-	if err := visit(expr); err != nil {
-		return nil, err
-	}
-
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		fields[i].Type = c.DataType()
-		defer c.Release()
-	}
-
-	metadata := arrow.NewMetadata(metaKey, metaValue)
-	rec := array.NewRecord(arrow.NewSchema(fields, &metadata), cols, 1)
-	defer rec.Release()
-
-	buf := &bufferWriteSeeker{mem: mem}
-	wr, err := ipc.NewFileWriter(buf, ipc.WithSchema(rec.Schema()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-
-	wr.Write(rec)
-	wr.Close()
-	return buf.buf, nil
-}
-
-func DeserializeExpr(mem memory.Allocator, buf *memory.Buffer) (Expression, error) {
-	rdr, err := ipc.NewFileReader(bytes.NewReader(buf.Bytes()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-	defer rdr.Close()
-
-	batch, err := rdr.Read()
-	if err != nil {
-		return nil, err
-	}
-
-	if !batch.Schema().HasMetadata() {
-		return nil, errors.New("serialized Expression's batch repr had no metadata")
-	}
-
-	if batch.NumRows() != 1 {
-		return nil, fmt.Errorf("serialized Expression's batch repr was not a single row - had %d", batch.NumRows())
-	}
-
-	var (
-		getone   func() (Expression, error)
-		index    int = 0
-		metadata     = batch.Schema().Metadata()
-	)
-
-	getscalar := func(i string) (scalar.Scalar, error) {
-		colIndex, err := strconv.ParseInt(i, 10, 32)
-		if err != nil {
-			return nil, err
-		}
-		if colIndex >= batch.NumCols() {
-			return nil, errors.New("column index out of bounds")
-		}
-		return scalar.GetScalar(batch.Column(int(colIndex)), 0)
-	}
-
-	getone = func() (Expression, error) {
-		if index >= metadata.Len() {
-			return nil, errors.New("unterminated serialized Expression")
-		}
-
-		key, val := metadata.Keys()[index], metadata.Values()[index]
-		index++
-
-		switch key {
-		case "literal":
-			scalar, err := getscalar(val)
-			if err != nil {
-				return nil, err
-			}
-			if r, ok := scalar.(releasable); ok {
-				defer r.Release()
-			}
-			return NewLiteral(scalar), err
-		case "field_ref":
-			return NewFieldRef(val), nil
-		case "call":
-			args := make([]Expression, 0)
-			for metadata.Keys()[index] != "end" {
-				if metadata.Keys()[index] == "options" {
-					optsScalar, err := getscalar(metadata.Values()[index])
-					if err != nil {
-						return nil, err
-					}
-					if r, ok := optsScalar.(releasable); ok {
-						defer r.Release()
-					}
-					var opts FunctionOptions
-					if optsScalar != nil {
-						typname, err := optsScalar.(*scalar.Struct).Field("_type_name")
-						if err != nil {
-							return nil, err
-						}
-						if typname.DataType().ID() != arrow.BINARY {
-							return nil, errors.New("options scalar typename must be binary")
-						}
-
-						optionsVal := reflect.New(funcOptionsMap[string(typname.(*scalar.Binary).Data())]).Interface()
-						if err := scalar.FromScalar(optsScalar.(*scalar.Struct), optionsVal); err != nil {
-							return nil, err
-						}
-						opts = optionsVal.(FunctionOptions)
-					}
-					index += 2
-					return NewCall(val, args, opts), nil
-				}
-
-				arg, err := getone()
-				if err != nil {
-					return nil, err
-				}
-				args = append(args, arg)
-			}
-			index++
-			return NewCall(val, args, nil), nil
-		default:
-			return nil, fmt.Errorf("unrecognized serialized Expression key %s", key)
-		}
-	}
-
-	return getone()
-}
diff --git a/go/arrow/compute/expression_test.go b/go/arrow/compute/expression_test.go
deleted file mode 100644
index 1898bb3dc92b2..0000000000000
--- a/go/arrow/compute/expression_test.go
+++ /dev/null
@@ -1,259 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestExpressionToString(t *testing.T) {
-	ts, _ := scalar.MakeScalar("1990-10-23 10:23:33.123456").CastTo(arrow.FixedWidthTypes.Timestamp_ns)
-
-	add := compute.NewCall("add", []compute.Expression{compute.NewFieldRef("beta"), compute.NewLiteral(3)}, &compute.ArithmeticOptions{})
-
-	tests := []struct {
-		expr     compute.Expression
-		expected string
-	}{
-		{compute.NewFieldRef("alpha"), "alpha"},
-		{compute.NewLiteral(3), "3"},
-		{compute.NewLiteral("a"), `"a"`},
-		{compute.NewLiteral("a\nb"), `"a\nb"`},
-		{compute.NewLiteral(&scalar.Boolean{}), "null"},
-		{compute.NewLiteral(&scalar.Int64{}), "null"},
-		{compute.NewLiteral(scalar.NewBinaryScalar(memory.NewBufferBytes([]byte("az")),
-			arrow.BinaryTypes.Binary)), `"617A"`},
-		{compute.NewLiteral(ts), "1990-10-23 10:23:33.123456"},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewFieldRef("beta")}, nil), "add(3, beta)"},
-		{compute.And(compute.NewFieldRef("a"), compute.NewFieldRef("b")), "(a and b)"},
-		{compute.Or(compute.NewFieldRef("a"), compute.NewFieldRef("b")), "(a or b)"},
-		{compute.Not(compute.NewFieldRef("a")), "invert(a)"},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32),
-			"cast(a, {to_type=int32, allow_int_overflow=false, allow_time_truncate=false, " +
-				"allow_time_overflow=false, allow_decimal_truncate=false, " +
-				"allow_float_truncate=false, allow_invalid_utf8=false})"},
-		{compute.Cast(compute.NewFieldRef("a"), nil),
-			"cast(a, {to_type=null, allow_int_overflow=false, allow_time_truncate=false, " +
-				"allow_time_overflow=false, allow_decimal_truncate=false, " +
-				"allow_float_truncate=false, allow_invalid_utf8=false})"},
-		{compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)), "(a == 1)"},
-		{compute.Less(compute.NewFieldRef("a"), compute.NewLiteral(2)), "(a < 2)"},
-		{compute.Greater(compute.NewFieldRef("a"), compute.NewLiteral(3)), "(a > 3)"},
-		{compute.NotEqual(compute.NewFieldRef("a"), compute.NewLiteral("a")), `(a != "a")`},
-		{compute.LessEqual(compute.NewFieldRef("a"), compute.NewLiteral("b")), `(a <= "b")`},
-		{compute.GreaterEqual(compute.NewFieldRef("a"), compute.NewLiteral("c")), `(a >= "c")`},
-		{compute.Project(
-			[]compute.Expression{
-				compute.NewFieldRef("a"), compute.NewFieldRef("a"), compute.NewLiteral(3), add,
-			}, []string{"a", "renamed_a", "three", "b"}),
-			"{a=a, renamed_a=a, three=3, b=" + add.String() + "}"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.expected, func(t *testing.T) {
-			assert.Equal(t, tt.expected, tt.expr.String())
-		})
-	}
-}
-
-func TestExpressionEquality(t *testing.T) {
-	tests := []struct {
-		exp1  compute.Expression
-		exp2  compute.Expression
-		equal bool
-	}{
-		{compute.NewLiteral(1), compute.NewLiteral(1), true},
-		{compute.NewLiteral(1), compute.NewLiteral(2), false},
-		{compute.NewFieldRef("a"), compute.NewFieldRef("a"), true},
-		{compute.NewFieldRef("a"), compute.NewFieldRef("b"), false},
-		{compute.NewFieldRef("a"), compute.NewLiteral(2), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil), true},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(2), compute.NewLiteral("a")}, nil), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewFieldRef("a"), compute.NewLiteral(3)}, nil), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}), true},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{false}), false},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), true},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int64), false},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.NewCall("cast", []compute.Expression{compute.NewFieldRef("a")}, compute.NewCastOptions(arrow.PrimitiveTypes.Int32, false)), false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.exp1.String(), func(t *testing.T) {
-			assert.Equal(t, tt.equal, tt.exp1.Equals(tt.exp2))
-		})
-	}
-}
-
-func TestExpressionHashing(t *testing.T) {
-	set := make(map[uint64]compute.Expression)
-
-	e := compute.NewFieldRef("alpha")
-	set[e.Hash()] = e
-
-	e = compute.NewFieldRef("beta")
-	_, ok := set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	e = compute.NewFieldRef("beta")
-	ex, ok := set[e.Hash()]
-	assert.True(t, ok)
-	assert.True(t, e.Equals(ex))
-
-	e = compute.NewLiteral(1)
-	set[e.Hash()] = e
-	_, ok = set[compute.NewLiteral(1).Hash()]
-	assert.True(t, ok)
-	_, ok = set[compute.NewLiteral(3).Hash()]
-	assert.False(t, ok)
-	set[compute.NewLiteral(3).Hash()] = compute.NewLiteral(3)
-
-	e = compute.NullLiteral(arrow.PrimitiveTypes.Int32)
-	set[e.Hash()] = e
-	_, ok = set[compute.NullLiteral(arrow.PrimitiveTypes.Int32).Hash()]
-	assert.True(t, ok)
-	e = compute.NullLiteral(arrow.PrimitiveTypes.Float32)
-	_, ok = set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	e = compute.NewCall("add", []compute.Expression{}, nil)
-	set[e.Hash()] = e
-	_, ok = set[compute.NewCall("add", nil, nil).Hash()]
-	assert.True(t, ok)
-	e = compute.NewCall("widgetify", nil, nil)
-	_, ok = set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	assert.Len(t, set, 8)
-}
-
-func TestIsScalarExpression(t *testing.T) {
-	assert.True(t, compute.NewLiteral(true).IsScalarExpr())
-	arr := array.MakeFromData(array.NewData(arrow.PrimitiveTypes.Int8, 0, []*memory.Buffer{nil, nil}, nil, 0, 0))
-	defer arr.Release()
-
-	assert.False(t, compute.NewLiteral(arr).IsScalarExpr())
-	assert.True(t, compute.NewFieldRef("a").IsScalarExpr())
-}
-
-func TestExpressionIsSatisfiable(t *testing.T) {
-	assert.True(t, compute.NewLiteral(true).IsSatisfiable())
-	assert.False(t, compute.NewLiteral(false).IsSatisfiable())
-
-	null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)
-	assert.False(t, compute.NewLiteral(null).IsSatisfiable())
-	assert.True(t, compute.NewFieldRef("a").IsSatisfiable())
-	assert.True(t, compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)).IsSatisfiable())
-	// no constant folding here
-	assert.True(t, compute.Equal(compute.NewLiteral(0), compute.NewLiteral(1)).IsSatisfiable())
-
-	// when a top level conjunction contains an Expression which is certain to
-	// evaluate to null, it can only evaluate to null or false
-	neverTrue := compute.And(compute.NewLiteral(null), compute.NewFieldRef("a"))
-	// this may appear in satisfiable filters if coalesced (for example, wrapped in fill_na)
-	assert.True(t, compute.NewCall("is_null", []compute.Expression{neverTrue}, nil).IsSatisfiable())
-}
-
-func TestExpressionSerializationRoundTrip(t *testing.T) {
-	bldr := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.AppendValues([]int32{1, 2, 3}, nil)
-	lookupArr := bldr.NewArray()
-	defer lookupArr.Release()
-
-	intvalueset := compute.NewDatum(lookupArr)
-	defer intvalueset.Release()
-
-	bldr2 := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer bldr2.Release()
-
-	bldr2.AppendValues([]float64{0.5, 1.0, 2.0}, nil)
-	lookupArr = bldr2.NewArray()
-	defer lookupArr.Release()
-
-	fltvalueset := compute.NewDatum(lookupArr)
-	defer fltvalueset.Release()
-
-	tests := []struct {
-		name string
-		expr compute.Expression
-	}{
-		{"null literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.Null))},
-		{"null int32 literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32))},
-		{"null struct literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.StructOf(
-			arrow.Field{Name: "i", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-			arrow.Field{Name: "s", Type: arrow.BinaryTypes.String, Nullable: true},
-		)))},
-		{"literal true", compute.NewLiteral(true)},
-		{"literal false", compute.NewLiteral(false)},
-		{"literal int", compute.NewLiteral(1)},
-		{"literal float", compute.NewLiteral(1.125)},
-		{"stringy strings", compute.NewLiteral("stringy strings")},
-		{"field ref", compute.NewFieldRef("field")},
-		{"greater", compute.Greater(compute.NewFieldRef("a"), compute.NewLiteral(0.25))},
-		{"or", compute.Or(
-			compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)),
-			compute.NotEqual(compute.NewFieldRef("b"), compute.NewLiteral("hello")),
-			compute.Equal(compute.NewFieldRef("b"), compute.NewLiteral("foo bar")))},
-		{"not", compute.Not(compute.NewFieldRef("alpha"))},
-		{"is_in", compute.NewCall("is_in", []compute.Expression{compute.NewLiteral(1)}, &compute.SetLookupOptions{ValueSet: intvalueset})},
-		{"is_in cast", compute.NewCall("is_in", []compute.Expression{
-			compute.NewCall("cast", []compute.Expression{compute.NewFieldRef("version")}, compute.NewCastOptions(arrow.PrimitiveTypes.Float64, true))},
-			&compute.SetLookupOptions{ValueSet: fltvalueset})},
-		{"is valid", compute.IsValid(compute.NewFieldRef("validity"))},
-		{"lots and", compute.And(
-			compute.And(
-				compute.GreaterEqual(compute.NewFieldRef("x"), compute.NewLiteral(-1.5)),
-				compute.Less(compute.NewFieldRef("x"), compute.NewLiteral(0.0))),
-			compute.And(compute.GreaterEqual(compute.NewFieldRef("y"), compute.NewLiteral(0.0)),
-				compute.Less(compute.NewFieldRef("y"), compute.NewLiteral(1.5))),
-			compute.And(compute.Greater(compute.NewFieldRef("z"), compute.NewLiteral(1.5)),
-				compute.LessEqual(compute.NewFieldRef("z"), compute.NewLiteral(3.0))))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-			serialized, err := compute.SerializeExpr(tt.expr, mem)
-			assert.NoError(t, err)
-			defer serialized.Release()
-			roundTripped, err := compute.DeserializeExpr(mem, serialized)
-			assert.NoError(t, err)
-			defer roundTripped.Release()
-			assert.Truef(t, tt.expr.Equals(roundTripped), "started with: %s, got: %s", tt.expr, roundTripped)
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/builders.go b/go/arrow/compute/exprs/builders.go
deleted file mode 100644
index a3af8dd6f287d..0000000000000
--- a/go/arrow/compute/exprs/builders.go
+++ /dev/null
@@ -1,445 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-	"strconv"
-	"strings"
-	"unicode"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-// NewDefaultExtensionSet constructs an empty extension set using the default
-// Arrow Extension registry and the default collection of substrait extensions
-// from the Substrait-go repo.
-func NewDefaultExtensionSet() ExtensionIDSet {
-	return NewExtensionSetDefault(expr.NewEmptyExtensionRegistry(&extensions.DefaultCollection))
-}
-
-// NewScalarCall constructs a substrait ScalarFunction expression with the provided
-// options and arguments.
-//
-// The function name (fn) is looked up in the internal Arrow DefaultExtensionIDRegistry
-// to ensure it exists and to convert from the Arrow function name to the substrait
-// function name. It is then looked up using the DefaultCollection from the
-// substrait extensions module to find the declaration. If it cannot be found,
-// we try constructing the compound signature name by getting the types of the
-// arguments which were passed and appending them to the function name appropriately.
-//
-// An error is returned if the function cannot be resolved.
-func NewScalarCall(reg ExtensionIDSet, fn string, opts []*types.FunctionOption, args ...types.FuncArg) (*expr.ScalarFunction, error) {
-	conv, ok := reg.GetArrowRegistry().GetArrowToSubstrait(fn)
-	if !ok {
-		return nil, arrow.ErrNotFound
-	}
-
-	id, convOpts, err := conv(fn)
-	if err != nil {
-		return nil, err
-	}
-
-	opts = append(opts, convOpts...)
-	return expr.NewScalarFunc(reg.GetSubstraitRegistry(), id, opts, args...)
-}
-
-// NewFieldRefFromDotPath constructs a substrait reference segment from
-// a dot path and the base schema.
-//
-// dot_path = '.' name
-//
-//	| '[' digit+ ']'
-//	| dot_path+
-//
-// # Examples
-//
-// Assume root schema of {alpha: i32, beta: struct<gamma: list<i32>>, delta: map<string, i32>}
-//
-//	".alpha" => StructFieldRef(0)
-//	"[2]" => StructFieldRef(2)
-//	".beta[0]" => StructFieldRef(1, StructFieldRef(0))
-//	"[1].gamma[3]" => StructFieldRef(1, StructFieldRef(0, ListElementRef(3)))
-//	".delta.foobar" => StructFieldRef(2, MapKeyRef("foobar"))
-//
-// Note: when parsing a name, a '\' preceding any other character
-// will be dropped from the resulting name. Therefore if a name must
-// contain the characters '.', '\', '[', or ']' then they must be escaped
-// with a preceding '\'.
-func NewFieldRefFromDotPath(dotpath string, rootSchema *arrow.Schema) (expr.ReferenceSegment, error) {
-	if len(dotpath) == 0 {
-		return nil, fmt.Errorf("%w dotpath was empty", arrow.ErrInvalid)
-	}
-
-	parseName := func() string {
-		var name string
-		for {
-			idx := strings.IndexAny(dotpath, `\[.`)
-			if idx == -1 {
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			if dotpath[idx] != '\\' {
-				// subscript for a new field ref
-				name += dotpath[:idx]
-				dotpath = dotpath[idx:]
-				break
-			}
-
-			if len(dotpath) == idx+1 {
-				// dotpath ends with a backslash; consume it all
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			// append all characters before backslash, then the character which follows it
-			name += dotpath[:idx] + string(dotpath[idx+1])
-			dotpath = dotpath[idx+2:]
-		}
-		return name
-	}
-
-	var curType arrow.DataType = arrow.StructOf(rootSchema.Fields()...)
-	children := make([]expr.ReferenceSegment, 0)
-
-	for len(dotpath) > 0 {
-		subscript := dotpath[0]
-		dotpath = dotpath[1:]
-		switch subscript {
-		case '.':
-			// next element is a name
-			n := parseName()
-			switch ct := curType.(type) {
-			case *arrow.StructType:
-				idx, found := ct.FieldIdx(n)
-				if !found {
-					return nil, fmt.Errorf("%w: dot path '%s' referenced invalid field", arrow.ErrInvalid, dotpath)
-				}
-				children = append(children, &expr.StructFieldRef{Field: int32(idx)})
-				curType = ct.Field(idx).Type
-			case *arrow.MapType:
-				curType = ct.KeyType()
-				switch ct.KeyType().ID() {
-				case arrow.BINARY, arrow.LARGE_BINARY:
-					children = append(children, &expr.MapKeyRef{MapKey: expr.NewByteSliceLiteral([]byte(n), false)})
-				case arrow.STRING, arrow.LARGE_STRING:
-					children = append(children, &expr.MapKeyRef{MapKey: expr.NewPrimitiveLiteral(n, false)})
-				default:
-					return nil, fmt.Errorf("%w: MapKeyRef to non-binary/string map not supported", arrow.ErrNotImplemented)
-				}
-			default:
-				return nil, fmt.Errorf("%w: dot path names must refer to struct fields or map keys", arrow.ErrInvalid)
-			}
-		case '[':
-			subend := strings.IndexFunc(dotpath, func(r rune) bool { return !unicode.IsDigit(r) })
-			if subend == -1 || dotpath[subend] != ']' {
-				return nil, fmt.Errorf("%w: dot path '%s' contained an unterminated index", arrow.ErrInvalid, dotpath)
-			}
-			idx, _ := strconv.Atoi(dotpath[:subend])
-			switch ct := curType.(type) {
-			case *arrow.StructType:
-				if idx > ct.NumFields() {
-					return nil, fmt.Errorf("%w: field out of bounds in dotpath", arrow.ErrIndex)
-				}
-				curType = ct.Field(idx).Type
-				children = append(children, &expr.StructFieldRef{Field: int32(idx)})
-			case *arrow.MapType:
-				curType = ct.KeyType()
-				var keyLiteral expr.Literal
-				// TODO: implement user defined types and variations
-				switch ct.KeyType().ID() {
-				case arrow.INT8:
-					keyLiteral = expr.NewPrimitiveLiteral(int8(idx), false)
-				case arrow.INT16:
-					keyLiteral = expr.NewPrimitiveLiteral(int16(idx), false)
-				case arrow.INT32:
-					keyLiteral = expr.NewPrimitiveLiteral(int32(idx), false)
-				case arrow.INT64:
-					keyLiteral = expr.NewPrimitiveLiteral(int64(idx), false)
-				case arrow.FLOAT32:
-					keyLiteral = expr.NewPrimitiveLiteral(float32(idx), false)
-				case arrow.FLOAT64:
-					keyLiteral = expr.NewPrimitiveLiteral(float64(idx), false)
-				default:
-					return nil, fmt.Errorf("%w: dotpath ref to map key type %s", arrow.ErrNotImplemented, ct.KeyType())
-				}
-				children = append(children, &expr.MapKeyRef{MapKey: keyLiteral})
-			case *arrow.ListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			case *arrow.LargeListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			case *arrow.FixedSizeListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			default:
-				return nil, fmt.Errorf("%w: %s type not supported for dotpath ref", arrow.ErrInvalid, ct)
-			}
-			dotpath = dotpath[subend+1:]
-		default:
-			return nil, fmt.Errorf("%w: dot path must begin with '[' or '.' got '%s'",
-				arrow.ErrInvalid, dotpath)
-		}
-	}
-
-	out := children[0]
-	if len(children) > 1 {
-		cur := out
-		for _, c := range children[1:] {
-			switch r := cur.(type) {
-			case *expr.StructFieldRef:
-				r.Child = c
-			case *expr.MapKeyRef:
-				r.Child = c
-			case *expr.ListElementRef:
-				r.Child = c
-			}
-			cur = c
-		}
-	}
-
-	return out, nil
-}
-
-// RefFromFieldPath constructs a substrait field reference segment
-// from a compute.FieldPath which should be a slice of integers
-// indicating nested field paths to travel. This will return a
-// series of StructFieldRef's whose child is the next element in
-// the field path.
-func RefFromFieldPath(field compute.FieldPath) expr.ReferenceSegment {
-	if len(field) == 0 {
-		return nil
-	}
-
-	seg := expr.NewStructFieldRef(int32(field[0]))
-	parent := seg
-	for _, ref := range field[1:] {
-		next := expr.NewStructFieldRef(int32(ref))
-		parent.Child = next
-		parent = next
-	}
-
-	return seg
-}
-
-// NewFieldRef constructs a properly typed substrait field reference segment,
-// from a given arrow field reference, schema and extension set (for resolving
-// substrait types).
-func NewFieldRef(ref compute.FieldRef, schema *arrow.Schema, ext ExtensionIDSet) (*expr.FieldReference, error) {
-	path, err := ref.FindOne(schema)
-	if err != nil {
-		return nil, err
-	}
-
-	st, err := ToSubstraitType(arrow.StructOf(schema.Fields()...), false, ext)
-	if err != nil {
-		return nil, err
-	}
-
-	return expr.NewRootFieldRef(RefFromFieldPath(path), st.(*types.StructType))
-}
-
-// Builder wraps the substrait-go expression Builder and FuncArgBuilder
-// interfaces for a simple interface that can be passed around to build
-// substrait expressions from Arrow data.
-type Builder interface {
-	expr.Builder
-	expr.FuncArgBuilder
-}
-
-// ExprBuilder is the parent for building substrait expressions
-// via Arrow types and functions.
-//
-// The expectation is that it should be utilized like so:
-//
-//	bldr := NewExprBuilder(extSet)
-//	bldr.SetInputSchema(arrowschema)
-//	call, err := bldr.CallScalar("equal", nil,
-//	     bldr.FieldRef("i32"),
-//	     bldr.Literal(expr.NewPrimitiveLiteral(
-//	            int32(0), false)))
-//	ex, err := call.BuildExpr()
-//	...
-//	result, err := exprs.ExecuteScalarExpression(ctx, arrowschema,
-//	       ex, input)
-type ExprBuilder struct {
-	b           expr.ExprBuilder
-	extSet      ExtensionIDSet
-	inputSchema *arrow.Schema
-}
-
-// NewExprBuilder constructs a new Expression Builder that will use the
-// provided extension set and registry.
-func NewExprBuilder(extSet ExtensionIDSet) ExprBuilder {
-	return ExprBuilder{
-		b:      expr.ExprBuilder{Reg: extSet.GetSubstraitRegistry()},
-		extSet: extSet,
-	}
-}
-
-// SetInputSchema sets the current Arrow schema that will be utilized
-// for performing field reference and field type resolutions.
-func (e *ExprBuilder) SetInputSchema(s *arrow.Schema) error {
-	st, err := ToSubstraitType(arrow.StructOf(s.Fields()...), false, e.extSet)
-	if err != nil {
-		return err
-	}
-
-	e.inputSchema = s
-	e.b.BaseSchema = st.(*types.StructType)
-	return nil
-}
-
-// MustCallScalar is like CallScalar, but will panic on error rather than
-// return it.
-func (e *ExprBuilder) MustCallScalar(fn string, opts []*types.FunctionOption, args ...expr.FuncArgBuilder) Builder {
-	b, err := e.CallScalar(fn, opts, args...)
-	if err != nil {
-		panic(err)
-	}
-	return b
-}
-
-// CallScalar constructs a builder for a scalar function call. The function
-// name is expected to be valid in the Arrow function registry which will
-// map it properly to a substrait expression by resolving the types of
-// the arguments. Examples are: "greater", "multiply", "equal", etc.
-//
-// Can return arrow.ErrNotFound if there is no function mapping found.
-// Or will forward any error encountered when converting from an Arrow
-// function to a substrait one.
-func (e *ExprBuilder) CallScalar(fn string, opts []*types.FunctionOption, args ...expr.FuncArgBuilder) (Builder, error) {
-	conv, ok := e.extSet.GetArrowRegistry().GetArrowToSubstrait(fn)
-	if !ok {
-		return nil, arrow.ErrNotFound
-	}
-
-	id, convOpts, err := conv(fn)
-	if err != nil {
-		return nil, err
-	}
-
-	opts = append(opts, convOpts...)
-	return e.b.ScalarFunc(id, opts...).Args(args...), nil
-}
-
-// FieldPath uses a field path to construct a Field Reference
-// expression.
-func (e *ExprBuilder) FieldPath(path compute.FieldPath) Builder {
-	segments := make([]expr.ReferenceSegment, len(path))
-	for i, p := range path {
-		segments[i] = expr.NewStructFieldRef(int32(p))
-	}
-
-	return e.b.RootRef(expr.FlattenRefSegments(segments...))
-}
-
-// FieldIndex is shorthand for creating a single field reference
-// to the struct field index provided.
-func (e *ExprBuilder) FieldIndex(i int) Builder {
-	return e.b.RootRef(expr.NewStructFieldRef(int32(i)))
-}
-
-// FieldRef constructs a field reference expression to the field with
-// the given name from the input. It will be resolved to a field
-// index when calling BuildExpr.
-func (e *ExprBuilder) FieldRef(field string) Builder {
-	return &refBuilder{eb: e, fieldRef: compute.FieldRefName(field)}
-}
-
-// FieldRefList accepts a list of either integers or strings to
-// construct a field reference expression from. This will panic
-// if any of elems are not a string or int.
-//
-// Field names will be resolved to their indexes when BuildExpr is called
-// by using the provided Arrow schema.
-func (e *ExprBuilder) FieldRefList(elems ...any) Builder {
-	return &refBuilder{eb: e, fieldRef: compute.FieldRefList(elems...)}
-}
-
-// Literal wraps a substrait literal to be used as an argument to
-// building other expressions.
-func (e *ExprBuilder) Literal(l expr.Literal) Builder {
-	return e.b.Literal(l)
-}
-
-// WrapLiteral is a convenience for accepting functions like NewLiteral
-// which can potentially return an error. If an error is encountered,
-// it will be surfaced when BuildExpr is called.
-func (e *ExprBuilder) WrapLiteral(l expr.Literal, err error) Builder {
-	return e.b.Wrap(l, err)
-}
-
-// Must is a convenience wrapper for any method that returns a Builder
-// and error, panic'ing if it received an error or otherwise returning
-// the Builder.
-func (*ExprBuilder) Must(b Builder, err error) Builder {
-	if err != nil {
-		panic(err)
-	}
-	return b
-}
-
-// Cast returns a Cast expression with the FailBehavior of ThrowException,
-// erroring for invalid casts.
-func (e *ExprBuilder) Cast(from Builder, to arrow.DataType) (Builder, error) {
-	t, err := ToSubstraitType(to, true, e.extSet)
-	if err != nil {
-		return nil, err
-	}
-
-	return e.b.Cast(from, t).FailBehavior(types.BehaviorThrowException), nil
-}
-
-type refBuilder struct {
-	eb *ExprBuilder
-
-	fieldRef compute.FieldRef
-}
-
-func (r *refBuilder) BuildFuncArg() (types.FuncArg, error) {
-	return r.BuildExpr()
-}
-
-func (r *refBuilder) BuildExpr() (expr.Expression, error) {
-	if r.eb.inputSchema == nil {
-		return nil, fmt.Errorf("%w: no input schema specified for ref", arrow.ErrInvalid)
-	}
-
-	path, err := r.fieldRef.FindOne(r.eb.inputSchema)
-	if err != nil {
-		return nil, err
-	}
-
-	segments := make([]expr.ReferenceSegment, len(path))
-	for i, p := range path {
-		segments[i] = expr.NewStructFieldRef(int32(p))
-	}
-
-	return r.eb.b.RootRef(expr.FlattenRefSegments(segments...)).Build()
-}
diff --git a/go/arrow/compute/exprs/builders_test.go b/go/arrow/compute/exprs/builders_test.go
deleted file mode 100644
index 21ad3bd642030..0000000000000
--- a/go/arrow/compute/exprs/builders_test.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exprs"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/substrait-io/substrait-go/expr"
-)
-
-func TestNewScalarFunc(t *testing.T) {
-	reg := exprs.NewDefaultExtensionSet()
-
-	fn, err := exprs.NewScalarCall(reg, "add", nil,
-		expr.NewPrimitiveLiteral(int32(1), false),
-		expr.NewPrimitiveLiteral(int32(10), false))
-	require.NoError(t, err)
-
-	assert.Equal(t, "add(i32(1), i32(10), {overflow: [ERROR]}) => i32", fn.String())
-	assert.Equal(t, "add:i32_i32", fn.CompoundName())
-}
-
-func TestFieldRefDotPath(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "be.ta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "[alpha]", Type: arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32)}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32)}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	tests := []struct {
-		dotpath   string
-		shouldErr bool
-		expected  expr.ReferenceSegment
-	}{
-		{".alpha", false, &expr.StructFieldRef{Field: 0}},
-		{"[2]", false, &expr.StructFieldRef{Field: 2}},
-		{".beta[0]", false, &expr.StructFieldRef{Field: 1, Child: &expr.StructFieldRef{Field: 0}}},
-		{"[2].gamma[1][5]", false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 1,
-					Child: &expr.ListElementRef{Offset: 5}}}}},
-		{"[2].gamma[0].foobar", false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 0,
-					Child: &expr.MapKeyRef{MapKey: expr.NewPrimitiveLiteral("foobar", false)}}}}},
-		{`[1].be\.ta`, false, &expr.StructFieldRef{Field: 1, Child: &expr.StructFieldRef{Field: 0}}},
-		{`[2].gamma.\[alpha\]`, false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 0}}}},
-		{`[5]`, true, nil},     // bad struct index
-		{``, true, nil},        // empty
-		{`delta`, true, nil},   // not found
-		{`[1234`, true, nil},   // bad syntax
-		{`[1stuf]`, true, nil}, // bad syntax
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dotpath, func(t *testing.T) {
-			ref, err := exprs.NewFieldRefFromDotPath(tt.dotpath, s)
-			if tt.shouldErr {
-				assert.Error(t, err)
-			} else {
-				assert.NoError(t, err)
-				assert.Truef(t, tt.expected.Equals(ref), "expected: %s\ngot: %s", tt.expected, ref)
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/exec.go b/go/arrow/compute/exprs/exec.go
deleted file mode 100644
index 850acbb3cd492..0000000000000
--- a/go/arrow/compute/exprs/exec.go
+++ /dev/null
@@ -1,620 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"context"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-func makeExecBatch(ctx context.Context, schema *arrow.Schema, partial compute.Datum) (out compute.ExecBatch, err error) {
-	// cleanup if we get an error
-	defer func() {
-		if err != nil {
-			for _, v := range out.Values {
-				if v != nil {
-					v.Release()
-				}
-			}
-		}
-	}()
-
-	if partial.Kind() == compute.KindRecord {
-		partialBatch := partial.(*compute.RecordDatum).Value
-		batchSchema := partialBatch.Schema()
-
-		out.Values = make([]compute.Datum, schema.NumFields())
-		out.Len = partialBatch.NumRows()
-
-		for i, field := range schema.Fields() {
-			idxes := batchSchema.FieldIndices(field.Name)
-			switch len(idxes) {
-			case 0:
-				out.Values[i] = compute.NewDatum(scalar.MakeNullScalar(field.Type))
-			case 1:
-				col := partialBatch.Column(idxes[0])
-				if !arrow.TypeEqual(col.DataType(), field.Type) {
-					// referenced field was present but didn't have expected type
-					// we'll cast this case for now
-					col, err = compute.CastArray(ctx, col, compute.SafeCastOptions(field.Type))
-					if err != nil {
-						return compute.ExecBatch{}, err
-					}
-					defer col.Release()
-				}
-				out.Values[i] = compute.NewDatum(col)
-			default:
-				err = fmt.Errorf("%w: exec batch field '%s' ambiguous, more than one match",
-					arrow.ErrInvalid, field.Name)
-				return compute.ExecBatch{}, err
-			}
-		}
-		return
-	}
-
-	part, ok := partial.(compute.ArrayLikeDatum)
-	if !ok {
-		return out, fmt.Errorf("%w: MakeExecBatch from %s", arrow.ErrNotImplemented, partial)
-	}
-
-	// wasteful but useful for testing
-	if part.Type().ID() == arrow.STRUCT {
-		switch part := part.(type) {
-		case *compute.ArrayDatum:
-			arr := part.MakeArray().(*array.Struct)
-			defer arr.Release()
-
-			batch := array.RecordFromStructArray(arr, nil)
-			defer batch.Release()
-			return makeExecBatch(ctx, schema, compute.NewDatumWithoutOwning(batch))
-		case *compute.ScalarDatum:
-			out.Len = 1
-			out.Values = make([]compute.Datum, schema.NumFields())
-
-			s := part.Value.(*scalar.Struct)
-			dt := s.Type.(*arrow.StructType)
-
-			for i, field := range schema.Fields() {
-				idx, found := dt.FieldIdx(field.Name)
-				if !found {
-					out.Values[i] = compute.NewDatum(scalar.MakeNullScalar(field.Type))
-					continue
-				}
-
-				val := s.Value[idx]
-				if !arrow.TypeEqual(val.DataType(), field.Type) {
-					// referenced field was present but didn't have the expected
-					// type. for now we'll cast this
-					val, err = val.CastTo(field.Type)
-					if err != nil {
-						return compute.ExecBatch{}, err
-					}
-				}
-				out.Values[i] = compute.NewDatum(val)
-			}
-			return
-		}
-	}
-
-	return out, fmt.Errorf("%w: MakeExecBatch from %s", arrow.ErrNotImplemented, partial)
-}
-
-// ToArrowSchema takes a substrait NamedStruct and an extension set (for
-// type resolution mapping) and creates the equivalent Arrow Schema.
-func ToArrowSchema(base types.NamedStruct, ext ExtensionIDSet) (*arrow.Schema, error) {
-	fields := make([]arrow.Field, len(base.Names))
-	for i, typ := range base.Struct.Types {
-		dt, nullable, err := FromSubstraitType(typ, ext)
-		if err != nil {
-			return nil, err
-		}
-		fields[i] = arrow.Field{
-			Name:     base.Names[i],
-			Type:     dt,
-			Nullable: nullable,
-		}
-	}
-
-	return arrow.NewSchema(fields, nil), nil
-}
-
-type (
-	regCtxKey struct{}
-	extCtxKey struct{}
-)
-
-func WithExtensionRegistry(ctx context.Context, reg *ExtensionIDRegistry) context.Context {
-	return context.WithValue(ctx, regCtxKey{}, reg)
-}
-
-func GetExtensionRegistry(ctx context.Context) *ExtensionIDRegistry {
-	v, ok := ctx.Value(regCtxKey{}).(*ExtensionIDRegistry)
-	if !ok {
-		v = DefaultExtensionIDRegistry
-	}
-	return v
-}
-
-func WithExtensionIDSet(ctx context.Context, ext ExtensionIDSet) context.Context {
-	return context.WithValue(ctx, extCtxKey{}, ext)
-}
-
-func GetExtensionIDSet(ctx context.Context) ExtensionIDSet {
-	v, ok := ctx.Value(extCtxKey{}).(ExtensionIDSet)
-	if !ok {
-		return NewExtensionSet(
-			expr.NewEmptyExtensionRegistry(&extensions.DefaultCollection),
-			GetExtensionRegistry(ctx))
-	}
-	return v
-}
-
-func literalToDatum(mem memory.Allocator, lit expr.Literal, ext ExtensionIDSet) (compute.Datum, error) {
-	switch v := lit.(type) {
-	case *expr.PrimitiveLiteral[bool]:
-		return compute.NewDatum(scalar.NewBooleanScalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int8]:
-		return compute.NewDatum(scalar.NewInt8Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int16]:
-		return compute.NewDatum(scalar.NewInt16Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int32]:
-		return compute.NewDatum(scalar.NewInt32Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int64]:
-		return compute.NewDatum(scalar.NewInt64Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[float32]:
-		return compute.NewDatum(scalar.NewFloat32Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[float64]:
-		return compute.NewDatum(scalar.NewFloat64Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[string]:
-		return compute.NewDatum(scalar.NewStringScalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[types.Timestamp]:
-		return compute.NewDatum(scalar.NewTimestampScalar(arrow.Timestamp(v.Value), &arrow.TimestampType{Unit: arrow.Microsecond})), nil
-	case *expr.PrimitiveLiteral[types.TimestampTz]:
-		return compute.NewDatum(scalar.NewTimestampScalar(arrow.Timestamp(v.Value),
-			&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: TimestampTzTimezone})), nil
-	case *expr.PrimitiveLiteral[types.Date]:
-		return compute.NewDatum(scalar.NewDate32Scalar(arrow.Date32(v.Value))), nil
-	case *expr.PrimitiveLiteral[types.Time]:
-		return compute.NewDatum(scalar.NewTime64Scalar(arrow.Time64(v.Value), &arrow.Time64Type{Unit: arrow.Microsecond})), nil
-	case *expr.PrimitiveLiteral[types.FixedChar]:
-		length := int(v.Type.(*types.FixedCharType).Length)
-		return compute.NewDatum(scalar.NewExtensionScalar(
-			scalar.NewFixedSizeBinaryScalar(memory.NewBufferBytes([]byte(v.Value)),
-				&arrow.FixedSizeBinaryType{ByteWidth: length}), fixedChar(int32(length)))), nil
-	case *expr.ByteSliceLiteral[[]byte]:
-		return compute.NewDatum(scalar.NewBinaryScalar(memory.NewBufferBytes(v.Value), arrow.BinaryTypes.Binary)), nil
-	case *expr.ByteSliceLiteral[types.UUID]:
-		return compute.NewDatum(scalar.NewExtensionScalar(scalar.NewFixedSizeBinaryScalar(
-			memory.NewBufferBytes(v.Value), uuid().(arrow.ExtensionType).StorageType()), uuid())), nil
-	case *expr.ByteSliceLiteral[types.FixedBinary]:
-		return compute.NewDatum(scalar.NewFixedSizeBinaryScalar(memory.NewBufferBytes(v.Value),
-			&arrow.FixedSizeBinaryType{ByteWidth: int(v.Type.(*types.FixedBinaryType).Length)})), nil
-	case *expr.NullLiteral:
-		dt, _, err := FromSubstraitType(v.Type, ext)
-		if err != nil {
-			return nil, err
-		}
-		return compute.NewDatum(scalar.MakeNullScalar(dt)), nil
-	case *expr.ListLiteral:
-		var elemType arrow.DataType
-
-		values := make([]scalar.Scalar, len(v.Value))
-		for i, val := range v.Value {
-			d, err := literalToDatum(mem, val, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer d.Release()
-			values[i] = d.(*compute.ScalarDatum).Value
-			if elemType != nil {
-				if !arrow.TypeEqual(values[i].DataType(), elemType) {
-					return nil, fmt.Errorf("%w: %s has a value whose type doesn't match the other list values",
-						arrow.ErrInvalid, v)
-				}
-			} else {
-				elemType = values[i].DataType()
-			}
-		}
-
-		bldr := array.NewBuilder(memory.DefaultAllocator, elemType)
-		defer bldr.Release()
-		if err := scalar.AppendSlice(bldr, values); err != nil {
-			return nil, err
-		}
-		arr := bldr.NewArray()
-		defer arr.Release()
-		return compute.NewDatum(scalar.NewListScalar(arr)), nil
-	case *expr.MapLiteral:
-		dt, _, err := FromSubstraitType(v.Type, ext)
-		if err != nil {
-			return nil, err
-		}
-
-		mapType, ok := dt.(*arrow.MapType)
-		if !ok {
-			return nil, fmt.Errorf("%w: map literal with non-map type", arrow.ErrInvalid)
-		}
-
-		keys, values := make([]scalar.Scalar, len(v.Value)), make([]scalar.Scalar, len(v.Value))
-		for i, kv := range v.Value {
-			k, err := literalToDatum(mem, kv.Key, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer k.Release()
-			scalarKey := k.(*compute.ScalarDatum).Value
-
-			v, err := literalToDatum(mem, kv.Value, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer v.Release()
-			scalarValue := v.(*compute.ScalarDatum).Value
-
-			if !arrow.TypeEqual(mapType.KeyType(), scalarKey.DataType()) {
-				return nil, fmt.Errorf("%w: key type mismatch for %s, got key with type %s",
-					arrow.ErrInvalid, mapType, scalarKey.DataType())
-			}
-			if !arrow.TypeEqual(mapType.ItemType(), scalarValue.DataType()) {
-				return nil, fmt.Errorf("%w: value type mismatch for %s, got value with type %s",
-					arrow.ErrInvalid, mapType, scalarValue.DataType())
-			}
-
-			keys[i], values[i] = scalarKey, scalarValue
-		}
-
-		keyBldr, valBldr := array.NewBuilder(mem, mapType.KeyType()), array.NewBuilder(mem, mapType.ItemType())
-		defer keyBldr.Release()
-		defer valBldr.Release()
-
-		if err := scalar.AppendSlice(keyBldr, keys); err != nil {
-			return nil, err
-		}
-		if err := scalar.AppendSlice(valBldr, values); err != nil {
-			return nil, err
-		}
-
-		keyArr, valArr := keyBldr.NewArray(), valBldr.NewArray()
-		defer keyArr.Release()
-		defer valArr.Release()
-
-		kvArr, err := array.NewStructArray([]arrow.Array{keyArr, valArr}, []string{"key", "value"})
-		if err != nil {
-			return nil, err
-		}
-		defer kvArr.Release()
-
-		return compute.NewDatumWithoutOwning(scalar.NewMapScalar(kvArr)), nil
-	case *expr.StructLiteral:
-		fields := make([]scalar.Scalar, len(v.Value))
-		names := make([]string, len(v.Value))
-
-		for i, l := range v.Value {
-			lit, err := literalToDatum(mem, l, ext)
-			if err != nil {
-				return nil, err
-			}
-			fields[i] = lit.(*compute.ScalarDatum).Value
-		}
-
-		s, err := scalar.NewStructScalarWithNames(fields, names)
-		return compute.NewDatum(s), err
-	case *expr.ProtoLiteral:
-		switch v := v.Value.(type) {
-		case *types.Decimal:
-			if len(v.Value) != arrow.Decimal128SizeBytes {
-				return nil, fmt.Errorf("%w: decimal literal had %d bytes (expected %d)",
-					arrow.ErrInvalid, len(v.Value), arrow.Decimal128SizeBytes)
-			}
-
-			var val decimal128.Num
-			data := (*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-			copy(data, v.Value)
-			if endian.IsBigEndian {
-				// reverse the bytes
-				for i := len(data)/2 - 1; i >= 0; i-- {
-					opp := len(data) - 1 - i
-					data[i], data[opp] = data[opp], data[i]
-				}
-			}
-
-			return compute.NewDatum(scalar.NewDecimal128Scalar(val,
-				&arrow.Decimal128Type{Precision: v.Precision, Scale: v.Scale})), nil
-		case *types.UserDefinedLiteral: // not yet implemented
-		case *types.IntervalYearToMonth:
-			bldr := array.NewInt32Builder(memory.DefaultAllocator)
-			defer bldr.Release()
-			typ := intervalYear()
-			bldr.Append(v.Years)
-			bldr.Append(v.Months)
-			arr := bldr.NewArray()
-			defer arr.Release()
-			return &compute.ScalarDatum{Value: scalar.NewExtensionScalar(
-				scalar.NewFixedSizeListScalar(arr), typ)}, nil
-		case *types.IntervalDayToSecond:
-			bldr := array.NewInt32Builder(memory.DefaultAllocator)
-			defer bldr.Release()
-			typ := intervalDay()
-			bldr.Append(v.Days)
-			bldr.Append(v.Seconds)
-			arr := bldr.NewArray()
-			defer arr.Release()
-			return &compute.ScalarDatum{Value: scalar.NewExtensionScalar(
-				scalar.NewFixedSizeListScalar(arr), typ)}, nil
-		case *types.VarChar:
-			return compute.NewDatum(scalar.NewExtensionScalar(
-				scalar.NewStringScalar(v.Value), varChar(int32(v.Length)))), nil
-		}
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
-
-// ExecuteScalarExpression executes the given substrait expression using the provided datum as input.
-// It will first create an exec batch using the input schema and the datum.
-// The datum may have missing or incorrectly ordered columns while the input schema
-// should describe the expected input schema for the expression. Missing fields will
-// be replaced with null scalars and incorrectly ordered columns will be re-ordered
-// according to the schema.
-//
-// You can provide an allocator to use through the context via compute.WithAllocator.
-//
-// You can provide the ExtensionIDSet to use through the context via WithExtensionIDSet.
-func ExecuteScalarExpression(ctx context.Context, inputSchema *arrow.Schema, expression expr.Expression, partialInput compute.Datum) (compute.Datum, error) {
-	if expression == nil {
-		return nil, arrow.ErrInvalid
-	}
-
-	batch, err := makeExecBatch(ctx, inputSchema, partialInput)
-	if err != nil {
-		return nil, err
-	}
-	defer func() {
-		for _, v := range batch.Values {
-			v.Release()
-		}
-	}()
-
-	return executeScalarBatch(ctx, batch, expression, GetExtensionIDSet(ctx))
-}
-
-// ExecuteScalarSubstrait uses the provided Substrait extended expression to
-// determine the expected input schema (replacing missing fields in the partial
-// input datum with null scalars and re-ordering columns if necessary) and
-// ExtensionIDSet to use. You can provide the extension registry to use
-// through the context via WithExtensionRegistry, otherwise the default
-// Arrow registry will be used. You can provide a memory.Allocator to use
-// the same way via compute.WithAllocator.
-func ExecuteScalarSubstrait(ctx context.Context, expression *expr.Extended, partialInput compute.Datum) (compute.Datum, error) {
-	if expression == nil {
-		return nil, arrow.ErrInvalid
-	}
-
-	var toExecute expr.Expression
-
-	switch len(expression.ReferredExpr) {
-	case 0:
-		return nil, fmt.Errorf("%w: no referred expression to execute", arrow.ErrInvalid)
-	case 1:
-		if toExecute = expression.ReferredExpr[0].GetExpr(); toExecute == nil {
-			return nil, fmt.Errorf("%w: measures not implemented", arrow.ErrNotImplemented)
-		}
-	default:
-		return nil, fmt.Errorf("%w: only single referred expression implemented", arrow.ErrNotImplemented)
-	}
-
-	reg := GetExtensionRegistry(ctx)
-	set := NewExtensionSet(expr.NewExtensionRegistry(expression.Extensions, &extensions.DefaultCollection), reg)
-	sc, err := ToArrowSchema(expression.BaseSchema, set)
-	if err != nil {
-		return nil, err
-	}
-
-	return ExecuteScalarExpression(WithExtensionIDSet(ctx, set), sc, toExecute, partialInput)
-}
-
-func execFieldRef(ctx context.Context, e *expr.FieldReference, input compute.ExecBatch, ext ExtensionIDSet) (compute.Datum, error) {
-	if e.Root != expr.RootReference {
-		return nil, fmt.Errorf("%w: only RootReference is implemented", arrow.ErrNotImplemented)
-	}
-
-	ref, ok := e.Reference.(expr.ReferenceSegment)
-	if !ok {
-		return nil, fmt.Errorf("%w: only direct references are implemented", arrow.ErrNotImplemented)
-	}
-
-	expectedType, _, err := FromSubstraitType(e.GetType(), ext)
-	if err != nil {
-		return nil, err
-	}
-
-	var param compute.Datum
-	if sref, ok := ref.(*expr.StructFieldRef); ok {
-		if sref.Field < 0 || sref.Field >= int32(len(input.Values)) {
-			return nil, arrow.ErrInvalid
-		}
-		param = input.Values[sref.Field]
-		ref = ref.GetChild()
-	}
-
-	out, err := GetReferencedValue(compute.GetAllocator(ctx), ref, param, ext)
-	if err == compute.ErrEmpty {
-		out = compute.NewDatum(param)
-	} else if err != nil {
-		return nil, err
-	}
-	if !arrow.TypeEqual(out.(compute.ArrayLikeDatum).Type(), expectedType) {
-		return nil, fmt.Errorf("%w: referenced field %s was %s, but should have been %s",
-			arrow.ErrInvalid, ref, out.(compute.ArrayLikeDatum).Type(), expectedType)
-	}
-
-	return out, nil
-}
-
-func executeScalarBatch(ctx context.Context, input compute.ExecBatch, exp expr.Expression, ext ExtensionIDSet) (compute.Datum, error) {
-	if !exp.IsScalar() {
-		return nil, fmt.Errorf("%w: ExecuteScalarExpression cannot execute non-scalar expressions",
-			arrow.ErrInvalid)
-	}
-
-	switch e := exp.(type) {
-	case expr.Literal:
-		return literalToDatum(compute.GetAllocator(ctx), e, ext)
-	case *expr.FieldReference:
-		return execFieldRef(ctx, e, input, ext)
-	case *expr.Cast:
-		if e.Input == nil {
-			return nil, fmt.Errorf("%w: cast without argument to cast", arrow.ErrInvalid)
-		}
-
-		arg, err := executeScalarBatch(ctx, input, e.Input, ext)
-		if err != nil {
-			return nil, err
-		}
-		defer arg.Release()
-
-		dt, _, err := FromSubstraitType(e.Type, ext)
-		if err != nil {
-			return nil, fmt.Errorf("%w: could not determine type for cast", err)
-		}
-
-		var opts *compute.CastOptions
-		switch e.FailureBehavior {
-		case types.BehaviorThrowException:
-			opts = compute.UnsafeCastOptions(dt)
-		case types.BehaviorUnspecified:
-			return nil, fmt.Errorf("%w: cast behavior unspecified", arrow.ErrInvalid)
-		case types.BehaviorReturnNil:
-			return nil, fmt.Errorf("%w: cast behavior return nil", arrow.ErrNotImplemented)
-		}
-		return compute.CastDatum(ctx, arg, opts)
-	case *expr.ScalarFunction:
-		var (
-			err       error
-			allScalar = true
-			args      = make([]compute.Datum, e.NArgs())
-			argTypes  = make([]arrow.DataType, e.NArgs())
-		)
-		for i := 0; i < e.NArgs(); i++ {
-			switch v := e.Arg(i).(type) {
-			case types.Enum:
-				args[i] = compute.NewDatum(scalar.NewStringScalar(string(v)))
-			case expr.Expression:
-				args[i], err = executeScalarBatch(ctx, input, v, ext)
-				if err != nil {
-					return nil, err
-				}
-				defer args[i].Release()
-
-				if args[i].Kind() != compute.KindScalar {
-					allScalar = false
-				}
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-
-			argTypes[i] = args[i].(compute.ArrayLikeDatum).Type()
-		}
-
-		_, conv, ok := ext.DecodeFunction(e.FuncRef())
-		if !ok {
-			return nil, arrow.ErrNotImplemented
-		}
-
-		fname, opts, err := conv(e)
-		if err != nil {
-			return nil, err
-		}
-
-		ectx := compute.GetExecCtx(ctx)
-		fn, ok := ectx.Registry.GetFunction(fname)
-		if !ok {
-			return nil, arrow.ErrInvalid
-		}
-
-		if fn.Kind() != compute.FuncScalar {
-			return nil, arrow.ErrInvalid
-		}
-
-		k, err := fn.DispatchBest(argTypes...)
-		if err != nil {
-			return nil, err
-		}
-
-		kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
-		init := k.GetInitFn()
-		kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: argTypes, Options: opts}
-		if init != nil {
-			kctx.State, err = init(kctx, kinitArgs)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		executor := compute.NewScalarExecutor()
-		if err := executor.Init(kctx, kinitArgs); err != nil {
-			return nil, err
-		}
-
-		batch := compute.ExecBatch{Values: args}
-		if allScalar {
-			batch.Len = 1
-		} else {
-			batch.Len = input.Len
-		}
-
-		ctx, cancel := context.WithCancel(context.Background())
-		defer cancel()
-
-		ch := make(chan compute.Datum, ectx.ExecChannelSize)
-		go func() {
-			defer close(ch)
-			if err = executor.Execute(ctx, &batch, ch); err != nil {
-				cancel()
-			}
-		}()
-
-		result := executor.WrapResults(ctx, ch, false)
-		if err == nil {
-			debug.Assert(executor.CheckResultType(result) == nil, "invalid result type")
-		}
-
-		if ctx.Err() == context.Canceled && result != nil {
-			result.Release()
-		}
-
-		return result, nil
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
diff --git a/go/arrow/compute/exprs/exec_internal_test.go b/go/arrow/compute/exprs/exec_internal_test.go
deleted file mode 100644
index 450db139e9357..0000000000000
--- a/go/arrow/compute/exprs/exec_internal_test.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var (
-	boringArrowSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "i32_req", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f32_req", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-)
-
-func TestMakeExecBatch(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const numRows = 3
-	var (
-		ctx         = compute.WithAllocator(context.Background(), mem)
-		i32, _, _   = array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-		f32, _, _   = array.FromJSON(mem, arrow.PrimitiveTypes.Float32, strings.NewReader(`[1.5, 2.25, 3.125]`))
-		empty, _, _ = array.RecordFromJSON(mem, boringArrowSchema, strings.NewReader(`[]`))
-	)
-	defer i32.Release()
-	defer f32.Release()
-
-	getField := func(n string) arrow.Field {
-		f, _ := boringArrowSchema.FieldsByName(n)
-		return f[0]
-	}
-
-	tests := []struct {
-		name  string
-		batch arrow.Record
-	}{
-		{"empty", empty},
-		{"subset", array.NewRecord(arrow.NewSchema([]arrow.Field{getField("i32"), getField("f32")}, nil),
-			[]arrow.Array{i32, f32}, numRows)},
-		{"flipped subset", array.NewRecord(arrow.NewSchema([]arrow.Field{getField("f32"), getField("i32")}, nil),
-			[]arrow.Array{f32, i32}, numRows)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			defer tt.batch.Release()
-			batch, err := makeExecBatch(ctx, boringArrowSchema, compute.NewDatumWithoutOwning(tt.batch))
-			require.NoError(t, err)
-			require.Equal(t, tt.batch.NumRows(), batch.Len)
-
-			defer func() {
-				for _, v := range batch.Values {
-					v.Release()
-				}
-			}()
-
-			for i, field := range boringArrowSchema.Fields() {
-				typ := batch.Values[i].(compute.ArrayLikeDatum).Type()
-				assert.Truef(t, arrow.TypeEqual(typ, field.Type),
-					"expected: %s\ngot: %s", field.Type, typ)
-
-				idxes := tt.batch.Schema().FieldIndices(field.Name)
-				if batch.Values[i].Kind() == compute.KindScalar {
-					assert.False(t, batch.Values[i].(*compute.ScalarDatum).Value.IsValid(),
-						"null placeholder should be injected")
-					assert.Len(t, idxes, 0, "should only happen when column isn't found")
-				} else {
-					col := tt.batch.Column(idxes[0])
-					val := batch.Values[i].(*compute.ArrayDatum).MakeArray()
-					defer val.Release()
-
-					assert.Truef(t, array.Equal(col, val), "expected: %s\ngot: %s", col, val)
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/exec_test.go b/go/arrow/compute/exprs/exec_test.go
deleted file mode 100644
index b74f80057a0d7..0000000000000
--- a/go/arrow/compute/exprs/exec_test.go
+++ /dev/null
@@ -1,461 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exprs"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-var (
-	extSet           = exprs.NewDefaultExtensionSet()
-	_, u32TypeRef, _ = extSet.EncodeTypeVariation(arrow.PrimitiveTypes.Uint32)
-
-	boringSchema = types.NamedStruct{
-		Names: []string{
-			"bool", "i8", "i32", "i32_req",
-			"u32", "i64", "f32", "f32_req",
-			"f64", "date32", "str", "bin"},
-		Struct: types.StructType{
-			Nullability: types.NullabilityRequired,
-			Types: []types.Type{
-				&types.BooleanType{},
-				&types.Int8Type{},
-				&types.Int32Type{},
-				&types.Int32Type{Nullability: types.NullabilityRequired},
-				&types.Int32Type{
-					TypeVariationRef: u32TypeRef,
-				},
-				&types.Int64Type{},
-				&types.Float32Type{},
-				&types.Float32Type{Nullability: types.NullabilityRequired},
-				&types.Float64Type{},
-				&types.DateType{},
-				&types.StringType{},
-				&types.BinaryType{},
-			},
-		},
-	}
-
-	boringArrowSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-)
-
-func TestToArrowSchema(t *testing.T) {
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "i32_req", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f32_req", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-
-	sc, err := exprs.ToArrowSchema(boringSchema, extSet)
-	assert.NoError(t, err)
-
-	assert.Truef(t, expectedSchema.Equal(sc), "expected: %s\ngot: %s", expectedSchema, sc)
-}
-
-func assertEqual(t *testing.T, expected, actual any) bool {
-	switch e := expected.(type) {
-	case compute.Datum:
-		return assert.Truef(t, e.Equals(compute.NewDatumWithoutOwning(actual)),
-			"expected: %s\ngot: %s", e, actual)
-	case arrow.Array:
-		switch a := actual.(type) {
-		case compute.Datum:
-			if a.Kind() == compute.KindArray {
-				actual := a.(*compute.ArrayDatum).MakeArray()
-				defer actual.Release()
-				return assert.Truef(t, array.Equal(e, actual), "expected: %s\ngot: %s",
-					e, actual)
-			}
-		case arrow.Array:
-			return assert.Truef(t, array.Equal(e, a), "expected: %s\ngot: %s",
-				e, actual)
-		}
-		t.Errorf("expected arrow Array, got %s", actual)
-		return false
-	}
-	panic("unimplemented comparison")
-}
-
-func TestComparisons(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		ctx  = compute.WithAllocator(context.Background(), mem)
-		zero = scalar.MakeScalar(int32(0))
-		one  = scalar.MakeScalar(int32(1))
-		two  = scalar.MakeScalar(int32(2))
-
-		str = scalar.MakeScalar("hello")
-		bin = scalar.MakeScalar([]byte("hello"))
-	)
-
-	getArgType := func(dt arrow.DataType) types.Type {
-		switch dt.ID() {
-		case arrow.INT32:
-			return &types.Int32Type{}
-		case arrow.STRING:
-			return &types.StringType{}
-		case arrow.BINARY:
-			return &types.BinaryType{}
-		}
-		panic("wtf")
-	}
-
-	expect := func(t *testing.T, fn string, arg1, arg2 scalar.Scalar, res bool) {
-		baseStruct := types.NamedStruct{
-			Names: []string{"arg1", "arg2"},
-			Struct: types.StructType{
-				Types: []types.Type{getArgType(arg1.DataType()), getArgType(arg2.DataType())},
-			},
-		}
-
-		ex, err := exprs.NewScalarCall(extSet, fn, nil,
-			expr.MustExpr(expr.NewRootFieldRef(expr.NewStructFieldRef(0), &baseStruct.Struct)),
-			expr.MustExpr(expr.NewRootFieldRef(expr.NewStructFieldRef(1), &baseStruct.Struct)))
-		require.NoError(t, err)
-
-		expression := &expr.Extended{
-			Extensions: extSet.GetSubstraitRegistry().Set,
-			ReferredExpr: []expr.ExpressionReference{
-				expr.NewExpressionReference([]string{"out"}, ex),
-			},
-			BaseSchema: baseStruct,
-		}
-
-		input, _ := scalar.NewStructScalarWithNames([]scalar.Scalar{arg1, arg2}, []string{"arg1", "arg2"})
-		out, err := exprs.ExecuteScalarSubstrait(ctx, expression, compute.NewDatum(input))
-		require.NoError(t, err)
-		require.Equal(t, compute.KindScalar, out.Kind())
-
-		result := out.(*compute.ScalarDatum).Value
-		assert.Equal(t, res, result.(*scalar.Boolean).Value)
-	}
-
-	expect(t, "equal", one, one, true)
-	expect(t, "equal", one, two, false)
-	expect(t, "less", one, two, true)
-	expect(t, "less", one, zero, false)
-	expect(t, "greater", one, zero, true)
-	expect(t, "greater", one, two, false)
-
-	expect(t, "equal", str, bin, true)
-	expect(t, "equal", bin, str, true)
-}
-
-func TestExecuteFieldRef(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	fromJSON := func(ty arrow.DataType, json string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		return arr
-	}
-
-	scalarFromJSON := func(ty arrow.DataType, json string) scalar.Scalar {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		defer arr.Release()
-		s, err := scalar.GetScalar(arr, 0)
-		require.NoError(t, err)
-		return s
-	}
-
-	tests := []struct {
-		testName string
-		ref      compute.FieldRef
-		input    compute.Datum
-		expected compute.Datum
-	}{
-		{"basic ref", compute.FieldRefName("a"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-			 	{"a": 6.125},
-				{"a": 0.0},
-				{"a": -1}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"ref one field", compute.FieldRefName("a"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-				arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-				{"a": 6.125, "b": 7.5},
-				{"a": 0.0, "b": 2.125},
-				{"a": -1, "b": 4.0}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"second field", compute.FieldRefName("b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-				arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-					{"a": 6.125, "b": 7.5},
-					{"a": 0.0, "b": 2.125},
-					{"a": -1, "b": 4.0}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[7.5, 2.125, 4.0]`))},
-		{"nested field by path", compute.FieldRefPath(compute.FieldPath{0, 0}), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-				{"a": {"b": 6.125}},
-				{"a": {"b": 0.0}},
-				{"a": {"b": -1}}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"nested field by name", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-					{"a": {"b": 6.125}},
-					{"a": {"b": 0.0}},
-					{"a": {"b": -1}}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"nested field with nulls", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-						{"a": {"b": 6.125}},
-						{"a": null},
-						{"a": {"b": null}}
-					 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, null, null]`))},
-		{"nested scalar", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": {"b": 64.0}}]`)),
-			compute.NewDatum(scalar.NewFloat64Scalar(64.0))},
-		{"nested scalar with null", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": {"b": null}}]`)),
-			compute.NewDatum(scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64))},
-		{"nested scalar null", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": null}]`)),
-			compute.NewDatum(scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.testName, func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-			dt := tt.input.(compute.ArrayLikeDatum).Type().(arrow.NestedType)
-			schema := arrow.NewSchema(dt.Fields(), nil)
-			ref, err := exprs.NewFieldRef(tt.ref, schema, extSet)
-			require.NoError(t, err)
-			assert.NotNil(t, ref)
-
-			actual, err := exprs.ExecuteScalarExpression(ctx, schema, ref, tt.input)
-			require.NoError(t, err)
-			defer actual.Release()
-
-			assert.Truef(t, tt.expected.Equals(actual), "expected: %s\ngot: %s", tt.expected, actual)
-		})
-	}
-}
-
-func TestExecuteScalarFuncCall(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	fromJSON := func(ty arrow.DataType, json string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		return arr
-	}
-
-	basicSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	nestedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.StructOf(basicSchema.Fields()...), Nullable: false},
-	}, nil)
-
-	bldr := exprs.NewExprBuilder(extSet)
-
-	tests := []struct {
-		name     string
-		ex       exprs.Builder
-		sc       *arrow.Schema
-		input    compute.Datum
-		expected compute.Datum
-	}{
-		{"add", bldr.MustCallScalar("add", nil, bldr.FieldRef("a"),
-			bldr.Literal(expr.NewPrimitiveLiteral(float64(3.5), false))),
-			basicSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(basicSchema.Fields()...),
-				`[
-				{"a": 6.125, "b": 3.375},
-				{"a": 0.0, "b": 1},
-				{"a": -1, "b": 4.75}
-			]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[9.625, 3.5, 2.5]`))},
-		{"add sub", bldr.MustCallScalar("add", nil, bldr.FieldRef("a"),
-			bldr.MustCallScalar("subtract", nil,
-				bldr.WrapLiteral(expr.NewLiteral(float64(3.5), false)),
-				bldr.FieldRef("b"))),
-			basicSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(basicSchema.Fields()...),
-				`[
-				{"a": 6.125, "b": 3.375},
-				{"a": 0.0, "b": 1},
-				{"a": -1, "b": 4.75}
-			]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[6.25, 2.5, -2.25]`))},
-		{"add nested", bldr.MustCallScalar("add", nil,
-			bldr.FieldRefList("a", "a"), bldr.FieldRefList("a", "b")), nestedSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(nestedSchema.Fields()...),
-				`[
-					{"a": {"a": 6.125, "b": 3.375}},
-					{"a": {"a": 0.0, "b": 1}},
-					{"a": {"a": -1, "b": 4.75}}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[9.5, 1, 3.75]`))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			bldr.SetInputSchema(tt.sc)
-			ex, err := tt.ex.BuildExpr()
-			require.NoError(t, err)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-			dt := tt.input.(compute.ArrayLikeDatum).Type().(arrow.NestedType)
-			schema := arrow.NewSchema(dt.Fields(), nil)
-
-			actual, err := exprs.ExecuteScalarExpression(ctx, schema, ex, tt.input)
-			require.NoError(t, err)
-			defer actual.Release()
-
-			assert.Truef(t, tt.expected.Equals(actual), "expected: %s\ngot: %s", tt.expected, actual)
-		})
-	}
-}
-
-func TestGenerateMask(t *testing.T) {
-	sc, err := boringArrowSchema.AddField(0, arrow.Field{
-		Name: "in", Type: arrow.FixedWidthTypes.Boolean, Nullable: true})
-	require.NoError(t, err)
-
-	bldr := exprs.NewExprBuilder(extSet)
-	require.NoError(t, bldr.SetInputSchema(sc))
-
-	tests := []struct {
-		name   string
-		json   string
-		filter exprs.Builder
-	}{
-		{"simple", `[
-			{"i32": 0, "f32": -0.1, "in": true},
-			{"i32": 0, "f32":  0.3, "in": true},
-			{"i32": 1, "f32":  0.2, "in": false},
-			{"i32": 2, "f32": -0.1, "in": false},
-			{"i32": 0, "f32":  0.1, "in": true},
-			{"i32": 0, "f32": null, "in": true},
-			{"i32": 0, "f32":  1.0, "in": true}
-		]`, bldr.MustCallScalar("equal", nil,
-			bldr.FieldRef("i32"), bldr.Literal(expr.NewPrimitiveLiteral(int32(0), false)))},
-		{"complex", `[
-			{"f64":  0.3, "f32":  0.1, "in": true},
-			{"f64": -0.1, "f32":  0.3, "in": false},
-			{"f64":  0.1, "f32":  0.2, "in": true},
-			{"f64":  0.0, "f32": -0.1, "in": false},
-			{"f64":  1.0, "f32":  0.1, "in": true},
-			{"f64": -2.0, "f32": null, "in": null},
-			{"f64":  3.0, "f32":  1.0, "in": true}
-		]`, bldr.MustCallScalar("greater", nil,
-			bldr.MustCallScalar("multiply", nil,
-				bldr.Must(bldr.Cast(bldr.FieldRef("f32"), arrow.PrimitiveTypes.Float64)),
-				bldr.FieldRef("f64")),
-			bldr.Literal(expr.NewPrimitiveLiteral(float64(0), false)))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-
-			rec, _, err := array.RecordFromJSON(mem, sc, strings.NewReader(tt.json))
-			require.NoError(t, err)
-			defer rec.Release()
-
-			input := compute.NewDatumWithoutOwning(rec)
-			expectedMask := rec.Column(0)
-
-			mask, err := exprs.ExecuteScalarExpression(ctx, sc,
-				expr.MustExpr(tt.filter.BuildExpr()), input)
-			require.NoError(t, err)
-			defer mask.Release()
-
-			assertEqual(t, expectedMask, mask)
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/extension_types.go b/go/arrow/compute/exprs/extension_types.go
deleted file mode 100644
index 8177675592fc9..0000000000000
--- a/go/arrow/compute/exprs/extension_types.go
+++ /dev/null
@@ -1,149 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"encoding/json"
-	"fmt"
-	"reflect"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type simpleExtensionTypeFactory[P comparable] struct {
-	arrow.ExtensionBase
-
-	params     P
-	name       string
-	getStorage func(P) arrow.DataType
-}
-
-func (ef *simpleExtensionTypeFactory[P]) String() string        { return "extension<" + ef.Serialize() + ">" }
-func (ef *simpleExtensionTypeFactory[P]) ExtensionName() string { return ef.name }
-func (ef *simpleExtensionTypeFactory[P]) Serialize() string {
-	s, _ := json.Marshal(ef.params)
-	return ef.name + string(s)
-}
-func (ef *simpleExtensionTypeFactory[P]) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !strings.HasPrefix(data, ef.name) {
-		return nil, fmt.Errorf("%w: invalid deserialization of extension type %s", arrow.ErrInvalid, ef.name)
-	}
-
-	data = strings.TrimPrefix(data, ef.name)
-	if err := json.Unmarshal([]byte(data), &ef.params); err != nil {
-		return nil, fmt.Errorf("%w: failed parsing parameters for extension type", err)
-	}
-
-	if !arrow.TypeEqual(storage, ef.getStorage(ef.params)) {
-		return nil, fmt.Errorf("%w: invalid storage type for %s: %s (expected: %s)",
-			arrow.ErrInvalid, ef.name, storage, ef.getStorage(ef.params))
-	}
-
-	return &simpleExtensionTypeFactory[P]{
-		name:       ef.name,
-		params:     ef.params,
-		getStorage: ef.getStorage,
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: storage,
-		},
-	}, nil
-}
-func (ef *simpleExtensionTypeFactory[P]) ExtensionEquals(other arrow.ExtensionType) bool {
-	if ef.name != other.ExtensionName() {
-		return false
-	}
-
-	rhs := other.(*simpleExtensionTypeFactory[P])
-	return ef.params == rhs.params
-}
-func (ef *simpleExtensionTypeFactory[P]) ArrayType() reflect.Type {
-	return reflect.TypeOf(array.ExtensionArrayBase{})
-}
-
-func (ef *simpleExtensionTypeFactory[P]) CreateType(params P) arrow.DataType {
-	storage := ef.getStorage(params)
-
-	return &simpleExtensionTypeFactory[P]{
-		name:       ef.name,
-		params:     params,
-		getStorage: ef.getStorage,
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: storage,
-		},
-	}
-}
-
-type uuidExtParams struct{}
-
-var uuidType = simpleExtensionTypeFactory[uuidExtParams]{
-	name: "uuid", getStorage: func(uuidExtParams) arrow.DataType {
-		return &arrow.FixedSizeBinaryType{ByteWidth: 16}
-	}}
-
-type fixedCharExtensionParams struct {
-	Length int32 `json:"length"`
-}
-
-var fixedCharType = simpleExtensionTypeFactory[fixedCharExtensionParams]{
-	name: "fixed_char", getStorage: func(p fixedCharExtensionParams) arrow.DataType {
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(p.Length)}
-	},
-}
-
-type varCharExtensionParams struct {
-	Length int32 `json:"length"`
-}
-
-var varCharType = simpleExtensionTypeFactory[varCharExtensionParams]{
-	name: "varchar", getStorage: func(varCharExtensionParams) arrow.DataType {
-		return arrow.BinaryTypes.String
-	},
-}
-
-type intervalYearExtensionParams struct{}
-
-var intervalYearType = simpleExtensionTypeFactory[intervalYearExtensionParams]{
-	name: "interval_year", getStorage: func(intervalYearExtensionParams) arrow.DataType {
-		return arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	},
-}
-
-type intervalDayExtensionParams struct{}
-
-var intervalDayType = simpleExtensionTypeFactory[intervalDayExtensionParams]{
-	name: "interval_day", getStorage: func(intervalDayExtensionParams) arrow.DataType {
-		return arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	},
-}
-
-func uuid() arrow.DataType { return uuidType.CreateType(uuidExtParams{}) }
-func fixedChar(length int32) arrow.DataType {
-	return fixedCharType.CreateType(fixedCharExtensionParams{Length: length})
-}
-func varChar(length int32) arrow.DataType {
-	return varCharType.CreateType(varCharExtensionParams{Length: length})
-}
-func intervalYear() arrow.DataType {
-	return intervalYearType.CreateType(intervalYearExtensionParams{})
-}
-func intervalDay() arrow.DataType {
-	return intervalDayType.CreateType(intervalDayExtensionParams{})
-}
diff --git a/go/arrow/compute/exprs/field_refs.go b/go/arrow/compute/exprs/field_refs.go
deleted file mode 100644
index 0e039d9e26601..0000000000000
--- a/go/arrow/compute/exprs/field_refs.go
+++ /dev/null
@@ -1,254 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/substrait-io/substrait-go/expr"
-)
-
-func getFields(typ arrow.DataType) []arrow.Field {
-	if nested, ok := typ.(arrow.NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-// GetRefField evaluates the substrait field reference to retrieve the
-// referenced field or return an error.
-func GetRefField(ref expr.ReferenceSegment, fields []arrow.Field) (*arrow.Field, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	var (
-		out *arrow.Field
-	)
-
-	for ref != nil {
-		if len(fields) == 0 {
-			return nil, fmt.Errorf("%w: %s", compute.ErrNoChildren, out.Type)
-		}
-
-		switch f := ref.(type) {
-		case *expr.StructFieldRef:
-			if f.Field < 0 || f.Field >= int32(len(fields)) {
-				return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, f)
-			}
-
-			out = &fields[f.Field]
-			fields = getFields(out.Type)
-		default:
-			return nil, arrow.ErrNotImplemented
-		}
-
-		ref = ref.GetChild()
-	}
-
-	return out, nil
-}
-
-// GetRefSchema evaluates the provided substrait field reference against
-// the schema to retrieve the referenced (potentially nested) field.
-func GetRefSchema(ref expr.ReferenceSegment, schema *arrow.Schema) (*arrow.Field, error) {
-	return GetRefField(ref, schema.Fields())
-}
-
-// GetScalar returns the evaluated referenced scalar value from the provided
-// scalar which must be appropriate to the type of reference.
-//
-// A StructFieldRef can only reference against a Struct-type scalar, a
-// ListElementRef can only reference against a List or LargeList scalar,
-// and a MapKeyRef will only reference against a Map scalar. An error is
-// returned if following the reference children ends up with an invalid
-// nested reference object.
-func GetScalar(ref expr.ReferenceSegment, s scalar.Scalar, mem memory.Allocator, ext ExtensionIDSet) (scalar.Scalar, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	var out scalar.Scalar
-	for ref != nil {
-		switch f := ref.(type) {
-		case *expr.StructFieldRef:
-			if s.DataType().ID() != arrow.STRUCT {
-				return nil, fmt.Errorf("%w: attempting to reference field from non-struct scalar %s",
-					arrow.ErrInvalid, s)
-			}
-
-			st := s.(*scalar.Struct)
-			if f.Field < 0 || f.Field >= int32(len(st.Value)) {
-				return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-			}
-
-			out = st.Value[f.Field]
-		case *expr.ListElementRef:
-			switch v := s.(type) {
-			case *scalar.List:
-				sc, err := scalar.GetScalar(v.Value, int(f.Offset))
-				if err != nil {
-					return nil, err
-				}
-				out = sc
-			case *scalar.LargeList:
-				sc, err := scalar.GetScalar(v.Value, int(f.Offset))
-				if err != nil {
-					return nil, err
-				}
-				out = sc
-			default:
-				return nil, fmt.Errorf("%w: cannot get ListElementRef from non-list scalar %s",
-					arrow.ErrInvalid, v)
-			}
-		case *expr.MapKeyRef:
-			v, ok := s.(*scalar.Map)
-			if !ok {
-				return nil, arrow.ErrInvalid
-			}
-
-			dt, _, err := FromSubstraitType(f.MapKey.GetType(), ext)
-			if err != nil {
-				return nil, err
-			}
-
-			if !arrow.TypeEqual(dt, v.Type.(*arrow.MapType).KeyType()) {
-				return nil, arrow.ErrInvalid
-			}
-
-			keyvalDatum, err := literalToDatum(mem, f.MapKey, ext)
-			if err != nil {
-				return nil, err
-			}
-
-			var (
-				keyval      = keyvalDatum.(*compute.ScalarDatum)
-				m           = v.Value.(*array.Struct)
-				keys        = m.Field(0)
-				valueScalar scalar.Scalar
-			)
-			for i := 0; i < v.Value.Len(); i++ {
-				kv, err := scalar.GetScalar(keys, i)
-				if err != nil {
-					return nil, err
-				}
-				if scalar.Equals(kv, keyval.Value) {
-					valueScalar, err = scalar.GetScalar(m.Field(1), i)
-					if err != nil {
-						return nil, err
-					}
-					break
-				}
-			}
-
-			if valueScalar == nil {
-				return nil, arrow.ErrNotFound
-			}
-
-			out = valueScalar
-		}
-		s = out
-		ref = ref.GetChild()
-	}
-
-	return out, nil
-}
-
-// GetReferencedValue retrieves the referenced (potentially nested) value from
-// the provided datum which may be a scalar, array, or record batch.
-func GetReferencedValue(mem memory.Allocator, ref expr.ReferenceSegment, value compute.Datum, ext ExtensionIDSet) (compute.Datum, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	for ref != nil {
-		// process the rest of the refs for the scalars
-		// since arrays can go down to a scalar, but you
-		// won't get an array from a scalar via ref
-		if v, ok := value.(*compute.ScalarDatum); ok {
-			out, err := GetScalar(ref, v.Value, mem, ext)
-			if err != nil {
-				return nil, err
-			}
-
-			return &compute.ScalarDatum{Value: out}, nil
-		}
-
-		switch r := ref.(type) {
-		case *expr.MapKeyRef:
-			return nil, arrow.ErrNotImplemented
-		case *expr.StructFieldRef:
-			switch v := value.(type) {
-			case *compute.ArrayDatum:
-				if v.Type().ID() != arrow.STRUCT {
-					return nil, fmt.Errorf("%w: struct field ref for non struct type %s",
-						arrow.ErrInvalid, v.Type())
-				}
-
-				if r.Field < 0 || r.Field >= int32(len(v.Value.Children())) {
-					return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-				}
-
-				value = &compute.ArrayDatum{Value: v.Value.Children()[r.Field]}
-			case *compute.RecordDatum:
-				if r.Field < 0 || r.Field >= int32(v.Value.NumCols()) {
-					return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-				}
-
-				value = &compute.ArrayDatum{Value: v.Value.Column(int(r.Field)).Data()}
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-		case *expr.ListElementRef:
-			switch v := value.(type) {
-			case *compute.ArrayDatum:
-				switch v.Type().ID() {
-				case arrow.LIST, arrow.LARGE_LIST, arrow.FIXED_SIZE_LIST:
-					arr := v.MakeArray()
-					defer arr.Release()
-
-					sc, err := scalar.GetScalar(arr, int(r.Offset))
-					if err != nil {
-						return nil, err
-					}
-					if s, ok := sc.(scalar.Releasable); ok {
-						defer s.Release()
-					}
-
-					value = &compute.ScalarDatum{Value: sc}
-				default:
-					return nil, fmt.Errorf("%w: cannot reference list element in non-list array type %s",
-						arrow.ErrInvalid, v.Type())
-				}
-
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-		}
-
-		ref = ref.GetChild()
-	}
-
-	return value, nil
-}
diff --git a/go/arrow/compute/exprs/types.go b/go/arrow/compute/exprs/types.go
deleted file mode 100644
index 594a55c9041a8..0000000000000
--- a/go/arrow/compute/exprs/types.go
+++ /dev/null
@@ -1,745 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-	"hash/maphash"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-const (
-	// URI for official Arrow Substrait Extension Types
-	ArrowExtTypesUri          = "https://github.com/apache/arrow/blob/main/format/substrait/extension_types.yaml"
-	SubstraitDefaultURIPrefix = extensions.SubstraitDefaultURIPrefix
-	// URI for official Substrait Arithmetic funcs extensions
-	SubstraitArithmeticFuncsURI = SubstraitDefaultURIPrefix + "functions_arithmetic.yaml"
-	// URI for official Substrait Comparison funcs extensions
-	SubstraitComparisonFuncsURI = SubstraitDefaultURIPrefix + "functions_comparison.yaml"
-
-	TimestampTzTimezone = "UTC"
-)
-
-var hashSeed maphash.Seed
-
-// the default extension registry that will contain the Arrow extension
-// type variations and types.
-var DefaultExtensionIDRegistry = NewExtensionIDRegistry()
-
-func init() {
-	hashSeed = maphash.MakeSeed()
-
-	types := []struct {
-		dt   arrow.DataType
-		name string
-	}{
-		{arrow.PrimitiveTypes.Uint8, "u8"},
-		{arrow.PrimitiveTypes.Uint16, "u16"},
-		{arrow.PrimitiveTypes.Uint32, "u32"},
-		{arrow.PrimitiveTypes.Uint64, "u64"},
-		{arrow.FixedWidthTypes.Float16, "fp16"},
-		{arrow.Null, "null"},
-		{arrow.FixedWidthTypes.MonthInterval, "interval_month"},
-		{arrow.FixedWidthTypes.DayTimeInterval, "interval_day_milli"},
-		{arrow.FixedWidthTypes.MonthDayNanoInterval, "interval_month_day_nano"},
-	}
-
-	for _, t := range types {
-		err := DefaultExtensionIDRegistry.RegisterType(extensions.ID{
-			URI: ArrowExtTypesUri, Name: t.name}, t.dt)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"add", "subtract", "multiply", "divide", "power", "sqrt", "abs"} {
-		err := DefaultExtensionIDRegistry.AddSubstraitScalarToArrow(
-			extensions.ID{URI: SubstraitArithmeticFuncsURI, Name: fn},
-			decodeOptionlessOverflowableArithmetic(fn))
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"add", "subtract", "multiply", "divide"} {
-		err := DefaultExtensionIDRegistry.AddArrowToSubstrait(fn,
-			encodeOptionlessOverflowableArithmetic(extensions.ID{
-				URI: SubstraitArithmeticFuncsURI, Name: fn}))
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"equal", "not_equal", "lt", "lte", "gt", "gte"} {
-		err := DefaultExtensionIDRegistry.AddSubstraitScalarToArrow(
-			extensions.ID{URI: SubstraitComparisonFuncsURI, Name: fn},
-			simpleMapSubstraitToArrowFunc)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"equal", "not_equal", "less", "less_equal", "greater", "greater_equal"} {
-		err := DefaultExtensionIDRegistry.AddArrowToSubstrait(fn,
-			simpleMapArrowToSubstraitFunc(SubstraitComparisonFuncsURI))
-		if err != nil {
-			panic(err)
-		}
-	}
-}
-
-type overflowBehavior string
-
-const (
-	overflowSILENT   = "SILENT"
-	overflowSATURATE = "SATURATE"
-	overflowERROR    = "ERROR"
-)
-
-type enumParser[typ ~string] struct {
-	values map[typ]struct{}
-}
-
-func (e *enumParser[typ]) parse(v string) (typ, error) {
-	out := typ(v)
-	if _, ok := e.values[out]; ok {
-		return out, nil
-	}
-	return "", arrow.ErrNotFound
-}
-
-var overflowParser = enumParser[overflowBehavior]{
-	values: map[overflowBehavior]struct{}{
-		overflowSILENT:   {},
-		overflowSATURATE: {},
-		overflowERROR:    {},
-	},
-}
-
-func parseOption[typ ~string](sf *expr.ScalarFunction, optionName string, parser *enumParser[typ], implemented []typ, def typ) (typ, error) {
-	opts := sf.GetOption(optionName)
-	if len(opts) == 0 {
-		return def, nil
-	}
-
-	for _, o := range opts {
-		p, err := parser.parse(o)
-		if err != nil {
-			return def, arrow.ErrInvalid
-		}
-		for _, i := range implemented {
-			if i == p {
-				return p, nil
-			}
-		}
-	}
-
-	return def, arrow.ErrNotImplemented
-}
-
-type substraitToArrow = func(*expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error)
-type arrowToSubstrait = func(fname string) (extensions.ID, []*types.FunctionOption, error)
-
-var substraitToArrowFuncMap = map[string]string{
-	"lt":  "less",
-	"gt":  "greater",
-	"lte": "less_equal",
-	"gte": "greater_equal",
-}
-
-var arrowToSubstraitFuncMap = map[string]string{
-	"less":          "lt",
-	"greater":       "gt",
-	"less_equal":    "lte",
-	"greater_equal": "gte",
-}
-
-func simpleMapSubstraitToArrowFunc(sf *expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error) {
-	fname, _, _ = strings.Cut(sf.Name(), ":")
-	f, ok := substraitToArrowFuncMap[fname]
-	if ok {
-		fname = f
-	}
-	return
-}
-
-func simpleMapArrowToSubstraitFunc(uri string) arrowToSubstrait {
-	return func(fname string) (extensions.ID, []*types.FunctionOption, error) {
-		f, ok := arrowToSubstraitFuncMap[fname]
-		if ok {
-			fname = f
-		}
-		return extensions.ID{URI: uri, Name: fname}, nil, nil
-	}
-}
-
-func decodeOptionlessOverflowableArithmetic(n string) substraitToArrow {
-	return func(sf *expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error) {
-		overflow, err := parseOption(sf, "overflow", &overflowParser, []overflowBehavior{overflowSILENT, overflowERROR}, overflowSILENT)
-		if err != nil {
-			return n, nil, err
-		}
-
-		switch overflow {
-		case overflowSILENT:
-			return n + "_unchecked", nil, nil
-		case overflowERROR:
-			return n, nil, nil
-		default:
-			return n, nil, arrow.ErrNotImplemented
-		}
-	}
-}
-
-func encodeOptionlessOverflowableArithmetic(id extensions.ID) arrowToSubstrait {
-	return func(fname string) (extensions.ID, []*types.FunctionOption, error) {
-		fn, _, ok := strings.Cut(fname, ":")
-		if ok {
-			id.Name = fname
-			fname = fn
-		}
-
-		opts := make([]*types.FunctionOption, 0, 1)
-		if strings.HasSuffix(fname, "_unchecked") {
-			opts = append(opts, &types.FunctionOption{
-				Name: "overflow", Preference: []string{"SILENT"}})
-		} else {
-			opts = append(opts, &types.FunctionOption{
-				Name: "overflow", Preference: []string{"ERROR"}})
-		}
-
-		return id, opts, nil
-	}
-}
-
-// NewExtensionSetDefault is a convenience function to create a new extension
-// set using the Default arrow extension ID registry.
-//
-// See NewExtensionSet for more info.
-func NewExtensionSetDefault(set expr.ExtensionRegistry) ExtensionIDSet {
-	return &extensionSet{ExtensionRegistry: set, reg: DefaultExtensionIDRegistry}
-}
-
-// NewExtensionSet creates a new extension set given a substrait extension registry,
-// and an Arrow <--> Substrait registry for mapping substrait extensions to
-// their Arrow equivalents. This extension set can then be used to manage a
-// particular set of extensions in use by an expression or plan, so when
-// serializing you only need to serialize the extensions that have been
-// inserted into the extension set.
-func NewExtensionSet(set expr.ExtensionRegistry, reg *ExtensionIDRegistry) ExtensionIDSet {
-	return &extensionSet{ExtensionRegistry: set, reg: reg}
-}
-
-type extensionSet struct {
-	expr.ExtensionRegistry
-	reg *ExtensionIDRegistry
-}
-
-func (e *extensionSet) GetArrowRegistry() *ExtensionIDRegistry       { return e.reg }
-func (e *extensionSet) GetSubstraitRegistry() expr.ExtensionRegistry { return e.ExtensionRegistry }
-
-func (e *extensionSet) DecodeTypeArrow(anchor uint32) (extensions.ID, arrow.DataType, bool) {
-	id, ok := e.Set.DecodeType(anchor)
-	if !ok {
-		if id, ok = e.Set.DecodeTypeVariation(anchor); !ok {
-			return id, nil, false
-		}
-	}
-
-	dt, ok := e.reg.GetTypeByID(id)
-	return id, dt, ok
-}
-
-func (e *extensionSet) DecodeFunction(ref uint32) (extensions.ID, substraitToArrow, bool) {
-	id, ok := e.Set.DecodeFunc(ref)
-	if !ok {
-		return id, nil, false
-	}
-
-	conv, ok := e.reg.GetSubstraitScalarToArrow(id)
-	if !ok {
-		id.Name, _, ok = strings.Cut(id.Name, ":")
-		if ok {
-			conv, ok = e.reg.GetSubstraitScalarToArrow(id)
-		}
-	}
-	return id, conv, ok
-}
-
-func (e *extensionSet) EncodeTypeVariation(dt arrow.DataType) (extensions.ID, uint32, bool) {
-	id, ok := e.reg.GetIDByType(dt)
-	if !ok {
-		return extensions.ID{}, 0, false
-	}
-
-	return id, e.Set.GetTypeVariationAnchor(id), true
-}
-
-func (e *extensionSet) EncodeType(dt arrow.DataType) (extensions.ID, uint32, bool) {
-	id, ok := e.reg.GetIDByType(dt)
-	if !ok {
-		return extensions.ID{}, 0, false
-	}
-
-	return id, e.Set.GetTypeAnchor(id), true
-}
-
-func (e *extensionSet) EncodeFunction(id extensions.ID) uint32 {
-	return e.Set.GetFuncAnchor(id)
-}
-
-// ExtensionIDRegistry manages a set of mappings between Arrow types
-// and functions and their substrait equivalents.
-type ExtensionIDRegistry struct {
-	typeList []arrow.DataType
-	ids      []extensions.ID
-
-	substraitToIdx map[extensions.ID]int
-	arrowToIdx     map[uint64]int
-
-	substraitToArrowFn map[extensions.ID]substraitToArrow
-	arrowToSubstrait   map[string]arrowToSubstrait
-}
-
-// NewExtensionIDRegistry initializes a new registry for use.
-func NewExtensionIDRegistry() *ExtensionIDRegistry {
-	return &ExtensionIDRegistry{
-		typeList:           make([]arrow.DataType, 0),
-		ids:                make([]extensions.ID, 0),
-		substraitToIdx:     make(map[extensions.ID]int),
-		arrowToIdx:         make(map[uint64]int),
-		substraitToArrowFn: make(map[extensions.ID]substraitToArrow),
-		arrowToSubstrait:   make(map[string]arrowToSubstrait),
-	}
-}
-
-// RegisterType creates a mapping between the given extension ID and the
-// provided Arrow data type. If this extension ID or arrow type are already
-// registered, an arrow.ErrInvalid error will be returned.
-func (e *ExtensionIDRegistry) RegisterType(id extensions.ID, dt arrow.DataType) error {
-	if _, ok := e.substraitToIdx[id]; ok {
-		return fmt.Errorf("%w: type id already registered", arrow.ErrInvalid)
-	}
-
-	dthash := arrow.HashType(hashSeed, dt)
-	if _, ok := e.arrowToIdx[dthash]; ok {
-		return fmt.Errorf("%w: type already registered", arrow.ErrInvalid)
-	}
-
-	idx := len(e.ids)
-	e.typeList = append(e.typeList, dt)
-	e.ids = append(e.ids, id)
-	e.substraitToIdx[id] = idx
-	e.arrowToIdx[dthash] = idx
-	return nil
-}
-
-// AddSubstraitScalarToArrow creates a mapping between a given extension ID
-// and a function which should return the corresponding Arrow compute function
-// name along with any relevant FunctionOptions based on the ScalarFunction
-// instance passed to it.
-//
-// Any relevant options should be parsed from the ScalarFunction's options
-// and used to ensure the correct arrow compute function is used and necessary
-// options are passed.
-func (e *ExtensionIDRegistry) AddSubstraitScalarToArrow(id extensions.ID, toArrow substraitToArrow) error {
-	if _, ok := e.substraitToArrowFn[id]; ok {
-		return fmt.Errorf("%w: extension id already registered as function", arrow.ErrInvalid)
-	}
-
-	e.substraitToArrowFn[id] = toArrow
-	return nil
-}
-
-// AddArrowToSubstrait creates a mapping between the provided arrow compute function
-// and a function which should provide the correct substrait ExtensionID and function
-// options from that name.
-func (e *ExtensionIDRegistry) AddArrowToSubstrait(name string, fn arrowToSubstrait) error {
-	if _, ok := e.arrowToSubstrait[name]; ok {
-		return fmt.Errorf("%w: function name '%s' already registered for conversion to substrait", arrow.ErrInvalid, name)
-	}
-
-	e.arrowToSubstrait[name] = fn
-	return nil
-}
-
-// GetTypeByID returns the mapped arrow data type from the provided substrait
-// extension id. If no mapping exists for this substrait extension id,
-// the second return value will be false.
-func (e *ExtensionIDRegistry) GetTypeByID(id extensions.ID) (arrow.DataType, bool) {
-	idx, ok := e.substraitToIdx[id]
-	if !ok {
-		return nil, false
-	}
-
-	return e.typeList[idx], true
-}
-
-// GetIDByType is the inverse of GetTypeByID, returning the mapped substrait
-// extension ID corresponding to the provided arrow data type. The second
-// return is false if there is no mapping found.
-func (e *ExtensionIDRegistry) GetIDByType(typ arrow.DataType) (extensions.ID, bool) {
-	dthash := arrow.HashType(hashSeed, typ)
-	idx, ok := e.arrowToIdx[dthash]
-	if !ok {
-		return extensions.ID{}, false
-	}
-
-	return e.ids[idx], true
-}
-
-// GetSubstraitScalarToArrow returns the mapped conversion function for a
-// given substrait extension ID to convert a substrait ScalarFunction to
-// the corresponding Arrow compute function call. False is returned as
-// the second value if there is no mapping available.
-func (e *ExtensionIDRegistry) GetSubstraitScalarToArrow(id extensions.ID) (substraitToArrow, bool) {
-	conv, ok := e.substraitToArrowFn[id]
-	if !ok {
-		return nil, ok
-	}
-
-	return conv, true
-}
-
-// GetArrowToSubstrait returns the mapped function to convert an arrow compute
-// function to the corresponding Substrait ScalarFunction extension ID and options.
-// False is returned as the second value if there is no mapping found.
-func (e *ExtensionIDRegistry) GetArrowToSubstrait(name string) (conv arrowToSubstrait, ok bool) {
-	conv, ok = e.arrowToSubstrait[name]
-	if !ok {
-		fn, _, found := strings.Cut(name, ":")
-		if found {
-			conv, ok = e.arrowToSubstrait[fn]
-		}
-	}
-	return
-}
-
-// ExtensionIDSet is an interface for managing the mapping between arrow
-// and substrait types and function extensions.
-type ExtensionIDSet interface {
-	GetArrowRegistry() *ExtensionIDRegistry
-	GetSubstraitRegistry() expr.ExtensionRegistry
-
-	DecodeTypeArrow(anchor uint32) (extensions.ID, arrow.DataType, bool)
-	DecodeFunction(ref uint32) (extensions.ID, substraitToArrow, bool)
-
-	EncodeType(dt arrow.DataType) (extensions.ID, uint32, bool)
-	EncodeTypeVariation(dt arrow.DataType) (extensions.ID, uint32, bool)
-}
-
-// IsNullable is a convenience method to return whether or not
-// a substrait type has Nullability set to NullabilityRequired or not.
-func IsNullable(t types.Type) bool {
-	return t.GetNullability() != types.NullabilityRequired
-}
-
-// FieldsFromSubstrait produces a list of arrow fields from a list of
-// substrait types (such as the fields of a StructType) using nextName
-// to determine the names for the fields.
-func FieldsFromSubstrait(typeList []types.Type, nextName func() string, ext ExtensionIDSet) (out []arrow.Field, err error) {
-	out = make([]arrow.Field, len(typeList))
-	for i, t := range typeList {
-		out[i].Name = nextName()
-		out[i].Nullable = IsNullable(t)
-
-		if st, ok := t.(*types.StructType); ok {
-			fields, err := FieldsFromSubstrait(st.Types, nextName, ext)
-			if err != nil {
-				return nil, err
-			}
-			out[i].Type = arrow.StructOf(fields...)
-		} else {
-			out[i].Type, _, err = FromSubstraitType(t, ext)
-			if err != nil {
-				return nil, err
-			}
-		}
-	}
-	return
-}
-
-// ToSubstraitType converts an arrow data type to a Substrait Type. Since
-// arrow types don't have a nullable flag (it is in the arrow.Field) but
-// Substrait types do, the nullability must be passed in here.
-func ToSubstraitType(dt arrow.DataType, nullable bool, ext ExtensionIDSet) (types.Type, error) {
-	var nullability types.Nullability
-	if nullable {
-		nullability = types.NullabilityNullable
-	} else {
-		nullability = types.NullabilityRequired
-	}
-
-	switch dt.ID() {
-	case arrow.BOOL:
-		return &types.BooleanType{Nullability: nullability}, nil
-	case arrow.INT8:
-		return &types.Int8Type{Nullability: nullability}, nil
-	case arrow.INT16:
-		return &types.Int16Type{Nullability: nullability}, nil
-	case arrow.INT32:
-		return &types.Int32Type{Nullability: nullability}, nil
-	case arrow.INT64:
-		return &types.Int64Type{Nullability: nullability}, nil
-	case arrow.UINT8:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int8Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT16:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int16Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT32:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int32Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT64:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int64Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.FLOAT16:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int16Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.FLOAT32:
-		return &types.Float32Type{Nullability: nullability}, nil
-	case arrow.FLOAT64:
-		return &types.Float64Type{Nullability: nullability}, nil
-	case arrow.STRING:
-		return &types.StringType{Nullability: nullability}, nil
-	case arrow.BINARY:
-		return &types.BinaryType{Nullability: nullability}, nil
-	case arrow.DATE32:
-		return &types.DateType{Nullability: nullability}, nil
-	case arrow.EXTENSION:
-		dt := dt.(arrow.ExtensionType)
-		switch dt.ExtensionName() {
-		case "uuid":
-			return &types.UUIDType{Nullability: nullability}, nil
-		case "fixed_char":
-			return &types.FixedCharType{
-				Nullability: nullability,
-				Length:      int32(dt.StorageType().(*arrow.FixedSizeBinaryType).ByteWidth),
-			}, nil
-		case "varchar":
-			return &types.VarCharType{Nullability: nullability, Length: -1}, nil
-		case "interval_year":
-			return &types.IntervalYearType{Nullability: nullability}, nil
-		case "interval_day":
-			return &types.IntervalDayType{Nullability: nullability}, nil
-		default:
-			_, anchor, ok := ext.EncodeType(dt)
-			if !ok {
-				return nil, arrow.ErrNotFound
-			}
-			return &types.UserDefinedType{
-				Nullability:   nullability,
-				TypeReference: anchor,
-			}, nil
-		}
-	case arrow.FIXED_SIZE_BINARY:
-		return &types.FixedBinaryType{Nullability: nullability,
-			Length: int32(dt.(*arrow.FixedSizeBinaryType).ByteWidth)}, nil
-	case arrow.DECIMAL128, arrow.DECIMAL256:
-		dt := dt.(arrow.DecimalType)
-		return &types.DecimalType{Nullability: nullability,
-			Precision: dt.GetPrecision(), Scale: dt.GetScale()}, nil
-	case arrow.STRUCT:
-		dt := dt.(*arrow.StructType)
-		fields := make([]types.Type, dt.NumFields())
-		var err error
-		for i, f := range dt.Fields() {
-			fields[i], err = ToSubstraitType(f.Type, f.Nullable, ext)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		return &types.StructType{
-			Nullability: nullability,
-			Types:       fields,
-		}, nil
-	case arrow.LIST, arrow.FIXED_SIZE_LIST, arrow.LARGE_LIST:
-		dt := dt.(arrow.NestedType)
-		elemType, err := ToSubstraitType(dt.Fields()[0].Type, dt.Fields()[0].Nullable, ext)
-		if err != nil {
-			return nil, err
-		}
-		return &types.ListType{
-			Nullability: nullability,
-			Type:        elemType,
-		}, nil
-	case arrow.MAP:
-		dt := dt.(*arrow.MapType)
-		keyType, err := ToSubstraitType(dt.KeyType(), false, ext)
-		if err != nil {
-			return nil, err
-		}
-		valueType, err := ToSubstraitType(dt.ItemType(), dt.ItemField().Nullable, ext)
-		if err != nil {
-			return nil, err
-		}
-
-		return &types.MapType{
-			Nullability: nullability,
-			Key:         keyType,
-			Value:       valueType,
-		}, nil
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
-
-// FromSubstraitType returns the appropriate Arrow data type for the given
-// substrait type, using the extension set if necessary.
-// Since Substrait types contain their nullability also, the nullability
-// returned along with the data type.
-func FromSubstraitType(t types.Type, ext ExtensionIDSet) (arrow.DataType, bool, error) {
-	nullable := IsNullable(t)
-
-	if t.GetTypeVariationReference() > 0 {
-		_, dt, ok := ext.DecodeTypeArrow(t.GetTypeVariationReference())
-		if ok {
-			return dt, nullable, nil
-		}
-	}
-
-	switch t := t.(type) {
-	case *types.BooleanType:
-		return arrow.FixedWidthTypes.Boolean, nullable, nil
-	case *types.Int8Type:
-		return arrow.PrimitiveTypes.Int8, nullable, nil
-	case *types.Int16Type:
-		return arrow.PrimitiveTypes.Int16, nullable, nil
-	case *types.Int32Type:
-		return arrow.PrimitiveTypes.Int32, nullable, nil
-	case *types.Int64Type:
-		return arrow.PrimitiveTypes.Int64, nullable, nil
-	case *types.Float32Type:
-		return arrow.PrimitiveTypes.Float32, nullable, nil
-	case *types.Float64Type:
-		return arrow.PrimitiveTypes.Float64, nullable, nil
-	case *types.StringType:
-		return arrow.BinaryTypes.String, nullable, nil
-	case *types.BinaryType:
-		return arrow.BinaryTypes.Binary, nullable, nil
-	case *types.TimestampType:
-		return &arrow.TimestampType{Unit: arrow.Microsecond}, nullable, nil
-	case *types.TimestampTzType:
-		return &arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: TimestampTzTimezone},
-			nullable, nil
-	case *types.DateType:
-		return arrow.FixedWidthTypes.Date32, nullable, nil
-	case *types.TimeType:
-		return &arrow.Time64Type{Unit: arrow.Microsecond}, nullable, nil
-	case *types.IntervalYearType:
-		return intervalYear(), nullable, nil
-	case *types.IntervalDayType:
-		return intervalDay(), nullable, nil
-	case *types.UUIDType:
-		return uuid(), nullable, nil
-	case *types.FixedCharType:
-		return fixedChar(t.Length), nullable, nil
-	case *types.VarCharType:
-		return varChar(t.Length), nullable, nil
-	case *types.FixedBinaryType:
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(t.Length)}, nullable, nil
-	case *types.DecimalType:
-		return &arrow.Decimal128Type{
-			Precision: t.Precision,
-			Scale:     t.Scale,
-		}, nullable, nil
-	case *types.StructType:
-		i := 0
-		fields, err := FieldsFromSubstrait(t.Types, func() string {
-			i++
-			return strconv.Itoa(i)
-		}, ext)
-		if err != nil {
-			return nil, false, err
-		}
-
-		return arrow.StructOf(fields...), nullable, nil
-	case *types.ListType:
-		elem, elemNullable, err := FromSubstraitType(t.Type, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		return arrow.ListOfField(arrow.Field{Name: "item", Type: elem, Nullable: elemNullable}),
-			nullable, nil
-	case *types.MapType:
-		key, keyNullable, err := FromSubstraitType(t.Key, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		if keyNullable {
-			return nil, false, fmt.Errorf("%w: encountered nullable key field when converting to arrow.Map",
-				arrow.ErrInvalid)
-		}
-
-		value, valueNullable, err := FromSubstraitType(t.Value, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		ret := arrow.MapOf(key, value)
-		ret.SetItemNullable(valueNullable)
-		return ret, nullable, nil
-	case *types.UserDefinedType:
-		anchor := t.TypeReference
-		_, dt, ok := ext.DecodeTypeArrow(anchor)
-		if !ok {
-			return nil, false, arrow.ErrNotImplemented
-		}
-		return dt, nullable, nil
-	}
-
-	return nil, false, arrow.ErrNotImplemented
-}
diff --git a/go/arrow/compute/fieldref.go b/go/arrow/compute/fieldref.go
deleted file mode 100644
index d69c7d91044c7..0000000000000
--- a/go/arrow/compute/fieldref.go
+++ /dev/null
@@ -1,587 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compute
-
-import (
-	"errors"
-	"fmt"
-	"hash/maphash"
-	"reflect"
-	"strconv"
-	"strings"
-	"unicode"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-var (
-	ErrEmpty           = errors.New("cannot traverse empty field path")
-	ErrNoChildren      = errors.New("trying to get child of type with no children")
-	ErrIndexRange      = errors.New("index out of range")
-	ErrMultipleMatches = errors.New("multiple matches")
-	ErrNoMatch         = errors.New("no match")
-	ErrInvalid         = errors.New("field ref invalid")
-)
-
-func getFields(typ arrow.DataType) []arrow.Field {
-	if nested, ok := typ.(arrow.NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-type listvals interface {
-	ListValues() arrow.Array
-}
-
-func getChildren(arr arrow.Array) (ret []arrow.Array) {
-	switch arr := arr.(type) {
-	case *array.Struct:
-		ret = make([]arrow.Array, arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			ret[i] = arr.Field(i)
-		}
-	case listvals:
-		ret = []arrow.Array{arr.ListValues()}
-	}
-	return
-}
-
-// FieldPath represents a path to a nested field using indices of child fields.
-// For example, given the indices {5, 9, 3} the field could be retrieved with:
-// schema.Field(5).Type().(*arrow.StructType).Field(9).Type().(*arrow.StructType).Field(3)
-//
-// Attempting to retrieve a child field using a FieldPath which is not valid for a given
-// schema will get an error such as an out of range index, or an empty path.
-//
-// FieldPaths provide for drilling down to potentially nested children for convenience
-// of accepting a slice of fields, a schema or a datatype (which should contain child fields).
-//
-// A fieldpath can also be used to retrieve a child arrow.Array or column from a record batch.
-type FieldPath []int
-
-func (f FieldPath) String() string {
-	if len(f) == 0 {
-		return "FieldPath(empty)"
-	}
-
-	var b strings.Builder
-	b.WriteString("FieldPath(")
-	for _, i := range f {
-		fmt.Fprint(&b, i)
-		b.WriteByte(' ')
-	}
-	ret := b.String()
-	return ret[:len(ret)-1] + ")"
-}
-
-// Get retrieves the corresponding nested child field by drilling through the schema's
-// fields as per the field path.
-func (f FieldPath) Get(s *arrow.Schema) (*arrow.Field, error) {
-	return f.GetFieldFromSlice(s.Fields())
-}
-
-// GetFieldFromSlice treats the slice as the top layer of fields, so the first value
-// in the field path will index into the slice, and then drill down from there.
-func (f FieldPath) GetFieldFromSlice(fields []arrow.Field) (*arrow.Field, error) {
-	if len(f) == 0 {
-		return nil, ErrEmpty
-	}
-
-	var (
-		depth = 0
-		out   *arrow.Field
-	)
-	for _, idx := range f {
-		if len(fields) == 0 {
-			return nil, fmt.Errorf("%w: %s", ErrNoChildren, out.Type)
-		}
-
-		if idx < 0 || idx >= len(fields) {
-			return nil, fmt.Errorf("%w: indices=%s", ErrIndexRange, f[:depth+1])
-		}
-
-		out = &fields[idx]
-		fields = getFields(out.Type)
-		depth++
-	}
-
-	return out, nil
-}
-
-func (f FieldPath) getArray(arrs []arrow.Array) (arrow.Array, error) {
-	if len(f) == 0 {
-		return nil, ErrEmpty
-	}
-
-	var (
-		depth = 0
-		out   arrow.Array
-	)
-	for _, idx := range f {
-		if len(arrs) == 0 {
-			return nil, fmt.Errorf("%w: %s", ErrNoChildren, out.DataType())
-		}
-
-		if idx < 0 || idx >= len(arrs) {
-			return nil, fmt.Errorf("%w. indices=%s", ErrIndexRange, f[:depth+1])
-		}
-
-		out = arrs[idx]
-		arrs = getChildren(out)
-		depth++
-	}
-	return out, nil
-}
-
-// GetFieldFromType returns the nested field from a datatype by drilling into it's
-// child fields.
-func (f FieldPath) GetFieldFromType(typ arrow.DataType) (*arrow.Field, error) {
-	return f.GetFieldFromSlice(getFields(typ))
-}
-
-// GetField is equivalent to GetFieldFromType(field.Type)
-func (f FieldPath) GetField(field arrow.Field) (*arrow.Field, error) {
-	return f.GetFieldFromType(field.Type)
-}
-
-// GetColumn will return the correct child array by traversing the fieldpath
-// going to the nested arrays of the columns in the record batch.
-func (f FieldPath) GetColumn(batch arrow.Record) (arrow.Array, error) {
-	return f.getArray(batch.Columns())
-}
-
-func (f FieldPath) findAll(fields []arrow.Field) []FieldPath {
-	_, err := f.GetFieldFromSlice(fields)
-	if err == nil {
-		return []FieldPath{f}
-	}
-	return nil
-}
-
-// a nameref represents a FieldRef by name of the field
-type nameRef string
-
-func (n nameRef) String() string {
-	return "Name(" + string(n) + ")"
-}
-
-func (ref nameRef) findAll(fields []arrow.Field) []FieldPath {
-	out := []FieldPath{}
-	for i, f := range fields {
-		if f.Name == string(ref) {
-			out = append(out, FieldPath{i})
-		}
-	}
-	return out
-}
-
-func (ref nameRef) hash(h *maphash.Hash) { h.WriteString(string(ref)) }
-
-type matches struct {
-	prefixes []FieldPath
-	refs     []*arrow.Field
-}
-
-func (m *matches) add(prefix, suffix FieldPath, fields []arrow.Field) {
-	f, err := suffix.GetFieldFromSlice(fields)
-	if err != nil {
-		panic(err)
-	}
-
-	m.refs = append(m.refs, f)
-	m.prefixes = append(m.prefixes, append(prefix, suffix...))
-}
-
-// refList represents a list of references to use to determine which nested
-// field is being referenced. allowing combinations of field indices and names
-type refList []FieldRef
-
-func (r refList) String() string {
-	var b strings.Builder
-	b.WriteString("Nested(")
-	for _, f := range r {
-		fmt.Fprint(&b, f)
-		b.WriteByte(' ')
-	}
-	ret := b.String()
-	return ret[:len(ret)-1] + ")"
-}
-
-func (ref refList) hash(h *maphash.Hash) {
-	for _, r := range ref {
-		r.hash(h)
-	}
-}
-
-func (ref refList) findAll(fields []arrow.Field) []FieldPath {
-	if len(ref) == 0 {
-		return nil
-	}
-
-	m := matches{}
-	for _, list := range ref[0].FindAll(fields) {
-		m.add(FieldPath{}, list, fields)
-	}
-
-	for _, r := range ref[1:] {
-		next := matches{}
-		for i, f := range m.refs {
-			for _, match := range r.FindAllField(*f) {
-				next.add(m.prefixes[i], match, getFields(f.Type))
-			}
-		}
-		m = next
-	}
-	return m.prefixes
-}
-
-type refImpl interface {
-	fmt.Stringer
-	findAll(fields []arrow.Field) []FieldPath
-	hash(h *maphash.Hash)
-}
-
-// FieldRef is a descriptor of a (potentially nested) field within a schema.
-//
-// Unlike FieldPath (which is exclusively indices of child fields), FieldRef
-// may reference a field by name. It can be constructed from either
-// a field index, field name, or field path.
-//
-// Nested fields can be referenced as well, given the schema:
-//
-//			arrow.NewSchema([]arrow.Field{
-//				{Name: "a", Type: arrow.StructOf(arrow.Field{Name: "n", Type: arrow.Null})},
-//	 		{Name: "b", Type: arrow.PrimitiveTypes.Int32},
-//			})
-//
-// the following all indicate the nested field named "n":
-//
-//	FieldRefPath(FieldPath{0, 0})
-//	FieldRefList("a", 0)
-//	FieldRefList("a", "n")
-//	FieldRefList(0, "n")
-//	NewFieldRefFromDotPath(".a[0]")
-//
-// FieldPaths matching a FieldRef are retrieved with the FindAll* functions
-// Multiple matches are possible because field names may be duplicated within
-// a schema. For example:
-//
-//	aIsAmbiguous := arrow.NewSchema([]arrow.Field{
-//		{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-//		{Name: "a", Type: arrow.PrimitiveTypes.Float32},
-//	})
-//	matches := FieldRefName("a").FindAll(aIsAmbiguous)
-//	assert.Len(matches, 2)
-//	assert.True(matches[0].Get(aIsAmbiguous).Equals(aIsAmbiguous.Field(0))
-//	assert.True(matches[1].Get(aIsAmbiguous).Equals(aIsAmbiguous.Field(1))
-type FieldRef struct {
-	impl refImpl
-}
-
-// FieldRefPath constructs a FieldRef from a given FieldPath
-func FieldRefPath(p FieldPath) FieldRef {
-	return FieldRef{impl: p}
-}
-
-// FieldRefIndex is a convenience function to construct a FieldPath reference
-// of a single index
-func FieldRefIndex(i int) FieldRef {
-	return FieldRef{impl: FieldPath{i}}
-}
-
-// FieldRefName constructs a FieldRef by name
-func FieldRefName(n string) FieldRef {
-	return FieldRef{impl: nameRef(n)}
-}
-
-// FieldRefList takes an arbitrary number of arguments which can be either
-// strings or ints. This will panic if anything other than a string or int
-// is passed in.
-func FieldRefList(elems ...interface{}) FieldRef {
-	list := make(refList, len(elems))
-	for i, e := range elems {
-		switch e := e.(type) {
-		case string:
-			list[i] = FieldRefName(e)
-		case int:
-			list[i] = FieldRefIndex(e)
-		}
-	}
-	return FieldRef{impl: list}
-}
-
-// NewFieldRefFromDotPath parses a dot path into a field ref.
-//
-// dot_path = '.' name
-//
-//	| '[' digit+ ']'
-//	| dot_path+
-//
-// Examples
-//
-//	".alpha" => FieldRefName("alpha")
-//	"[2]" => FieldRefIndex(2)
-//	".beta[3]" => FieldRefList("beta", 3)
-//	"[5].gamma.delta[7]" => FieldRefList(5, "gamma", "delta", 7)
-//	".hello world" => FieldRefName("hello world")
-//	`.\[y\]\\tho\.\` => FieldRef(`[y]\tho.\`)
-//
-// Note: when parsing a name, a '\' preceding any other character will be
-// dropped from the resulting name. therefore if a name must contain the characters
-// '.', '\', '[' or ']' then they must be escaped with a preceding '\'.
-func NewFieldRefFromDotPath(dotpath string) (out FieldRef, err error) {
-	if len(dotpath) == 0 {
-		return out, fmt.Errorf("%w dotpath was empty", ErrInvalid)
-	}
-
-	parseName := func() string {
-		var name string
-		for {
-			idx := strings.IndexAny(dotpath, `\[.`)
-			if idx == -1 {
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			if dotpath[idx] != '\\' {
-				// subscript for a new field ref
-				name += dotpath[:idx]
-				dotpath = dotpath[idx:]
-				break
-			}
-
-			if len(dotpath) == idx+1 {
-				// dotpath ends with a backslash; consume it all
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			// append all characters before backslash, then the character which follows it
-			name += dotpath[:idx] + string(dotpath[idx+1])
-			dotpath = dotpath[idx+2:]
-		}
-		return name
-	}
-
-	children := make([]FieldRef, 0)
-
-	for len(dotpath) > 0 {
-		subscript := dotpath[0]
-		dotpath = dotpath[1:]
-		switch subscript {
-		case '.':
-			// next element is a name
-			children = append(children, FieldRef{nameRef(parseName())})
-		case '[':
-			subend := strings.IndexFunc(dotpath, func(r rune) bool { return !unicode.IsDigit(r) })
-			if subend == -1 || dotpath[subend] != ']' {
-				return out, fmt.Errorf("%w: dot path '%s' contained an unterminated index", ErrInvalid, dotpath)
-			}
-			idx, _ := strconv.Atoi(dotpath[:subend])
-			children = append(children, FieldRef{FieldPath{idx}})
-			dotpath = dotpath[subend+1:]
-		default:
-			return out, fmt.Errorf("%w: dot path must begin with '[' or '.' got '%s'", ErrInvalid, dotpath)
-		}
-	}
-
-	out.flatten(children)
-	return
-}
-
-func (f FieldRef) hash(h *maphash.Hash) { f.impl.hash(h) }
-
-// Hash produces a hash of this field reference and takes in a seed so that
-// it can maintain consistency across multiple places / processes /etc.
-func (f FieldRef) Hash(seed maphash.Seed) uint64 {
-	h := maphash.Hash{}
-	h.SetSeed(seed)
-	f.hash(&h)
-	return h.Sum64()
-}
-
-// IsName returns true if this fieldref is a name reference
-func (f *FieldRef) IsName() bool {
-	_, ok := f.impl.(nameRef)
-	return ok
-}
-
-// IsFieldPath returns true if this FieldRef uses a fieldpath
-func (f *FieldRef) IsFieldPath() bool {
-	_, ok := f.impl.(FieldPath)
-	return ok
-}
-
-// IsNested returns true if this FieldRef expects to represent
-// a nested field.
-func (f *FieldRef) IsNested() bool {
-	switch impl := f.impl.(type) {
-	case nameRef:
-		return false
-	case FieldPath:
-		return len(impl) > 1
-	default:
-		return true
-	}
-}
-
-// Name returns the name of the field this references if it is
-// a Name reference, otherwise the empty string
-func (f *FieldRef) Name() string {
-	n, _ := f.impl.(nameRef)
-	return string(n)
-}
-
-// FieldPath returns the fieldpath that this FieldRef uses, otherwise
-// an empty FieldPath if it's not a FieldPath reference
-func (f *FieldRef) FieldPath() FieldPath {
-	p, _ := f.impl.(FieldPath)
-	return p
-}
-
-func (f *FieldRef) Equals(other FieldRef) bool {
-	return reflect.DeepEqual(f.impl, other.impl)
-}
-
-func (f *FieldRef) flatten(children []FieldRef) {
-	out := make([]FieldRef, 0, len(children))
-
-	var populate func(refImpl)
-	populate = func(refs refImpl) {
-		switch r := refs.(type) {
-		case nameRef:
-			out = append(out, FieldRef{r})
-		case FieldPath:
-			out = append(out, FieldRef{r})
-		case refList:
-			for _, c := range r {
-				populate(c.impl)
-			}
-		}
-	}
-
-	populate(refList(children))
-
-	if len(out) == 1 {
-		f.impl = out[0].impl
-	} else {
-		f.impl = refList(out)
-	}
-}
-
-// FindAll returns all the fieldpaths which this FieldRef matches in the given
-// slice of fields.
-func (f FieldRef) FindAll(fields []arrow.Field) []FieldPath {
-	return f.impl.findAll(fields)
-}
-
-// FindAllField returns all the fieldpaths that this FieldRef matches against
-// the type of the given field.
-func (f FieldRef) FindAllField(field arrow.Field) []FieldPath {
-	return f.impl.findAll(getFields(field.Type))
-}
-
-// FindOneOrNone is a convenience helper that will either return 1 fieldpath,
-// or an empty fieldpath, and will return an error if there are multiple matches.
-func (f FieldRef) FindOneOrNone(schema *arrow.Schema) (FieldPath, error) {
-	matches := f.FindAll(schema.Fields())
-	if len(matches) > 1 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrMultipleMatches, f, schema)
-	}
-	if len(matches) == 0 {
-		return nil, nil
-	}
-	return matches[0], nil
-}
-
-// FindOneOrNoneRecord is like FindOneOrNone but for the schema of a record,
-// returning an error only if there are multiple matches.
-func (f FieldRef) FindOneOrNoneRecord(root arrow.Record) (FieldPath, error) {
-	return f.FindOneOrNone(root.Schema())
-}
-
-// FindOne returns an error if the field isn't matched or if there are multiple matches
-// otherwise it returns the path to the single valid match.
-func (f FieldRef) FindOne(schema *arrow.Schema) (FieldPath, error) {
-	matches := f.FindAll(schema.Fields())
-	if len(matches) == 0 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrNoMatch, f, schema)
-	}
-	if len(matches) > 1 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrMultipleMatches, f, schema)
-	}
-	return matches[0], nil
-}
-
-// GetAllColumns gets all the matching column arrays from the given record that
-// this FieldRef references.
-func (f FieldRef) GetAllColumns(root arrow.Record) ([]arrow.Array, error) {
-	out := make([]arrow.Array, 0)
-	for _, m := range f.FindAll(root.Schema().Fields()) {
-		n, err := m.GetColumn(root)
-		if err != nil {
-			return nil, err
-		}
-		out = append(out, n)
-	}
-	return out, nil
-}
-
-// GetOneField will return a pointer to a field or an error if it is not found
-// or if there are multiple matches.
-func (f FieldRef) GetOneField(schema *arrow.Schema) (*arrow.Field, error) {
-	match, err := f.FindOne(schema)
-	if err != nil {
-		return nil, err
-	}
-
-	return match.GetFieldFromSlice(schema.Fields())
-}
-
-// GetOneOrNone will return a field or a nil if the field is found or not, and
-// only errors if there are multiple matches.
-func (f FieldRef) GetOneOrNone(schema *arrow.Schema) (*arrow.Field, error) {
-	match, err := f.FindOneOrNone(schema)
-	if err != nil {
-		return nil, err
-	}
-	if len(match) == 0 {
-		return nil, nil
-	}
-	return match.GetFieldFromSlice(schema.Fields())
-}
-
-// GetOneColumnOrNone returns either a nil or the referenced array if it can be
-// found, erroring only if there is an ambiguous multiple matches.
-func (f FieldRef) GetOneColumnOrNone(root arrow.Record) (arrow.Array, error) {
-	match, err := f.FindOneOrNoneRecord(root)
-	if err != nil {
-		return nil, err
-	}
-	if len(match) == 0 {
-		return nil, nil
-	}
-	return match.GetColumn(root)
-}
-
-func (f FieldRef) String() string {
-	return "FieldRef." + f.impl.String()
-}
diff --git a/go/arrow/compute/fieldref_hash.go b/go/arrow/compute/fieldref_hash.go
deleted file mode 100644
index 21ef88f1ecb4f..0000000000000
--- a/go/arrow/compute/fieldref_hash.go
+++ /dev/null
@@ -1,39 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package compute
-
-import (
-	"hash/maphash"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func (f FieldPath) hash(h *maphash.Hash) {
-	raw := unsafe.Pointer(unsafe.SliceData(f))
-	var byteLen int
-	if bits.UintSize == 32 {
-		byteLen = arrow.Int32Traits.BytesRequired(len(f))
-	} else {
-		byteLen = arrow.Int64Traits.BytesRequired(len(f))
-	}
-
-	h.Write(unsafe.Slice((*byte)(raw), byteLen))
-}
diff --git a/go/arrow/compute/fieldref_test.go b/go/arrow/compute/fieldref_test.go
deleted file mode 100644
index ce2051f942271..0000000000000
--- a/go/arrow/compute/fieldref_test.go
+++ /dev/null
@@ -1,316 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFieldPathBasics(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f3 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2, f3}, nil)
-
-	for i := range s.Fields() {
-		f, err := compute.FieldPath{i}.Get(s)
-		assert.NoError(t, err)
-		assert.Equal(t, s.Field(i), *f)
-	}
-
-	f, err := compute.FieldPath{}.Get(s)
-	assert.Nil(t, f)
-	assert.ErrorIs(t, err, compute.ErrEmpty)
-
-	f, err = compute.FieldPath{s.NumFields() * 2}.Get(s)
-	assert.Nil(t, f)
-	assert.ErrorIs(t, err, compute.ErrIndexRange)
-}
-
-func TestFieldRefBasics(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f3 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2, f3}, nil)
-
-	// lookup by index returns Indices{index}
-	for i := range s.Fields() {
-		assert.ElementsMatch(t, []compute.FieldPath{{i}}, compute.FieldRefIndex(i).FindAll(s.Fields()))
-	}
-
-	// out of range index results in failure to match
-	assert.Empty(t, compute.FieldRefIndex(s.NumFields()*2).FindAll(s.Fields()))
-
-	// lookup by name returns the indices of both matching fields
-	assert.Equal(t, []compute.FieldPath{{0}, {2}}, compute.FieldRefName("alpha").FindAll(s.Fields()))
-	assert.Equal(t, []compute.FieldPath{{1}, {3}}, compute.FieldRefName("beta").FindAll(s.Fields()))
-}
-
-func TestFieldRefDotPath(t *testing.T) {
-	ref, err := compute.NewFieldRefFromDotPath(`.alpha`)
-	assert.True(t, ref.IsName())
-	assert.Equal(t, "alpha", ref.Name())
-	assert.False(t, ref.IsFieldPath())
-	assert.False(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName("alpha"), ref)
-	assert.True(t, ref.Equals(compute.FieldRefName("alpha")))
-
-	ref, err = compute.NewFieldRefFromDotPath(`..`)
-	assert.Empty(t, ref.Name())
-	assert.False(t, ref.IsName())
-	assert.False(t, ref.IsFieldPath())
-	assert.Nil(t, ref.FieldPath())
-	assert.True(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList("", ""), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`[2]`)
-	assert.False(t, ref.IsName())
-	assert.True(t, ref.IsFieldPath())
-	assert.Equal(t, compute.FieldPath{2}, ref.FieldPath())
-	assert.False(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefIndex(2), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.beta[3]`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList("beta", 3), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`[5].gamma.delta[7]`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList(5, "gamma", "delta", 7), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.hello world`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName("hello world"), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.\[y\]\\tho\.\`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName(`[y]\tho.\`), ref)
-
-	_, err = compute.NewFieldRefFromDotPath(``)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`alpha`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`[134234`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`[1stuf]`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-}
-
-func TestFieldPathNested(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	f, err := compute.FieldPath{0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f0, *f)
-
-	f, err = compute.FieldPath{0, 0}.Get(s)
-	assert.ErrorIs(t, err, compute.ErrNoChildren)
-	assert.Nil(t, f)
-
-	f, err = compute.FieldPath{1, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f1_0, *f)
-
-	f, err = compute.FieldPath{2, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-
-	f, err = compute.FieldPath{2, 1, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_0, *f)
-
-	f, err = compute.FieldPath{1, 0}.GetField(s.Field(2))
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_0, *f)
-
-	f, err = compute.FieldPath{2, 1, 1}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_1, *f)
-}
-
-func TestFindFuncs(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "alpha", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	assert.Equal(t, []compute.FieldPath{{1}}, compute.FieldRefName("gamma").FindAllField(f2))
-	fp, err := compute.FieldRefName("alpha").FindOneOrNone(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Len(t, fp, 0)
-	fp, err = compute.FieldRefName("alpha").FindOne(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Len(t, fp, 0)
-
-	fp, err = compute.FieldRefName("beta").FindOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldPath{2}, fp)
-	fp, err = compute.FieldRefName("beta").FindOne(s)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldPath{2}, fp)
-
-	fp, err = compute.FieldRefName("gamma").FindOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Len(t, fp, 0)
-
-	fp, err = compute.FieldRefName("gamma").FindOne(s)
-	assert.ErrorIs(t, err, compute.ErrNoMatch)
-	assert.Nil(t, fp)
-}
-
-func TestGetFieldFuncs(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "alpha", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	ref, err := compute.NewFieldRefFromDotPath(`[2].alpha`)
-	assert.NoError(t, err)
-
-	f, err := ref.GetOneField(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-	f, err = ref.GetOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-
-	ref = compute.FieldRefList("beta", "gamma", 2)
-	f, err = ref.GetOneField(s)
-	assert.ErrorIs(t, err, compute.ErrNoMatch)
-	assert.Nil(t, f)
-	f, err = ref.GetOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Nil(t, f)
-
-	f, err = compute.FieldRefName("alpha").GetOneOrNone(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Nil(t, f)
-}
-
-func TestFieldRefRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	alphaBldr := array.NewInt32Builder(mem)
-	defer alphaBldr.Release()
-
-	betaBldr := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer betaBldr.Release()
-
-	gammaBldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32, Nullable: true}))
-	defer gammaBldr.Release()
-
-	alphaBldr.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-	betaBldr.AppendValues([]int32{0, 3, 7, 8, 8, 10, 13, 14, 17, 20, 22}, []bool{true, true, true, false, true, true, true, true, true, true})
-	for i := 0; i < 22; i++ {
-		betaBldr.ValueBuilder().(*array.Int32Builder).Append(int32(i * 2))
-	}
-
-	gammaBldr.AppendValues([]bool{true, true, true, true, true, true, true, true, true, true})
-	gammaBldr.FieldBuilder(0).(*array.Int32Builder).AppendValues([]int32{10, 20, 30, 40, 50, 60, 70, 80, 90, 100}, nil)
-	gammaBldr.FieldBuilder(1).(*array.Int32Builder).AppendValues([]int32{-10, -20, -30, -40, -50, -60, -70, -80, -90, -100}, nil)
-
-	alpha := alphaBldr.NewInt32Array()
-	defer alpha.Release()
-	beta := betaBldr.NewListArray()
-	defer beta.Release()
-	gamma := gammaBldr.NewStructArray()
-	defer gamma.Release()
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "alpha", Type: alpha.DataType(), Nullable: true},
-		{Name: "alpha", Type: beta.DataType(), Nullable: true},
-		{Name: "alpha", Type: gamma.DataType(), Nullable: true},
-	}, nil), []arrow.Array{alpha, beta, gamma}, 10)
-	defer rec.Release()
-
-	arr, err := compute.FieldPath{2, 0}.GetColumn(rec)
-	assert.NoError(t, err)
-	assert.Same(t, gamma.Field(0), arr)
-
-	arr, err = compute.FieldPath{}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrEmpty)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldPath{1, 0}.GetColumn(rec)
-	assert.NoError(t, err)
-	assert.Same(t, beta.ListValues(), arr)
-
-	arr, err = compute.FieldPath{1, 0, 0}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrNoChildren)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldPath{2, 2}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrIndexRange)
-	assert.Nil(t, arr)
-
-	arrs, err := compute.FieldRefName("alpha").GetAllColumns(rec)
-	assert.NoError(t, err)
-	assert.Equal(t, []arrow.Array{alpha, beta, gamma}, arrs)
-
-	arrs, err = compute.FieldRefName("delta").GetAllColumns(rec)
-	assert.NoError(t, err)
-	assert.Len(t, arrs, 0)
-
-	arr, err = compute.FieldRefName("delta").GetOneColumnOrNone(rec)
-	assert.NoError(t, err)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldRefName("alpha").GetOneColumnOrNone(rec)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldRefList("alpha", "beta").GetOneColumnOrNone(rec)
-	assert.NoError(t, err)
-	assert.Same(t, gamma.Field(1), arr)
-}
diff --git a/go/arrow/compute/funckind_string.go b/go/arrow/compute/funckind_string.go
deleted file mode 100644
index 204e844133e53..0000000000000
--- a/go/arrow/compute/funckind_string.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Code generated by "stringer -type=FuncKind -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package compute
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[FuncScalar-0]
-	_ = x[FuncVector-1]
-	_ = x[FuncScalarAgg-2]
-	_ = x[FuncHashAgg-3]
-	_ = x[FuncMeta-4]
-}
-
-const _FuncKind_name = "ScalarVectorScalarAggregateHashAggregateMeta"
-
-var _FuncKind_index = [...]uint8{0, 6, 12, 27, 40, 44}
-
-func (i FuncKind) String() string {
-	if i < 0 || i >= FuncKind(len(_FuncKind_index)-1) {
-		return "FuncKind(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _FuncKind_name[_FuncKind_index[i]:_FuncKind_index[i+1]]
-}
diff --git a/go/arrow/compute/functions.go b/go/arrow/compute/functions.go
deleted file mode 100644
index ebade11a8e60b..0000000000000
--- a/go/arrow/compute/functions.go
+++ /dev/null
@@ -1,430 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-type Function interface {
-	Name() string
-	Kind() FuncKind
-	Arity() Arity
-	Doc() FunctionDoc
-	NumKernels() int
-	Execute(context.Context, FunctionOptions, ...Datum) (Datum, error)
-	DispatchExact(...arrow.DataType) (exec.Kernel, error)
-	DispatchBest(...arrow.DataType) (exec.Kernel, error)
-	DefaultOptions() FunctionOptions
-	Validate() error
-}
-
-// Arity defines the number of required arguments for a function.
-//
-// Naming conventions are taken from https://en.wikipedia.org/wiki/Arity
-type Arity struct {
-	NArgs     int
-	IsVarArgs bool
-}
-
-// Convenience functions to generating Arities
-
-func Nullary() Arity            { return Arity{0, false} }
-func Unary() Arity              { return Arity{1, false} }
-func Binary() Arity             { return Arity{2, false} }
-func Ternary() Arity            { return Arity{3, false} }
-func VarArgs(minArgs int) Arity { return Arity{minArgs, true} }
-
-type FunctionDoc struct {
-	// A one-line summary of the function, using a verb.
-	//
-	// For example, "Add two numeric arrays or scalars"
-	Summary string
-	// A detailed description of the function, meant to follow the summary.
-	Description string
-	// Symbolic names (identifiers) for the function arguments.
-	//
-	// Can be used to generate nicer function signatures.
-	ArgNames []string
-	// Name of the options struct type, if any
-	OptionsType string
-	// Whether or not options are required for function execution.
-	//
-	// If false, then either there are no options for this function,
-	// or there is a usable default options value.
-	OptionsRequired bool
-}
-
-// EmptyFuncDoc is a reusable empty function doc definition for convenience.
-var EmptyFuncDoc FunctionDoc
-
-// FuncKind is an enum representing the type of a function
-type FuncKind int8
-
-const (
-	// A function that performs scalar data operations on whole arrays
-	// of data. Can generally process Array or Scalar values. The size
-	// of the output will be the same as the size (or broadcasted size,
-	// in the case of mixing Array and Scalar inputs) of the input.
-	FuncScalar FuncKind = iota // Scalar
-	// A function with array input and output whose behavior depends on
-	// the values of the entire arrays passed, rather than the value of
-	// each scalar value.
-	FuncVector // Vector
-	// A function that computes a scalar summary statistic from array input.
-	FuncScalarAgg // ScalarAggregate
-	// A function that computes grouped summary statistics from array
-	// input and an array of group identifiers.
-	FuncHashAgg // HashAggregate
-	// A function that dispatches to other functions and does not contain
-	// its own kernels.
-	FuncMeta // Meta
-)
-
-func validateFunctionSummary(summary string) error {
-	if strings.Contains(summary, "\n") {
-		return fmt.Errorf("%w: summary contains a newline", arrow.ErrInvalid)
-	}
-	if summary[len(summary)-1] == '.' {
-		return fmt.Errorf("%w: summary ends with a point", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-func validateFunctionDescription(desc string) error {
-	if len(desc) != 0 && desc[len(desc)-1] == '\n' {
-		return fmt.Errorf("%w: description ends with a newline", arrow.ErrInvalid)
-	}
-
-	const maxLineSize = 78
-	for _, ln := range strings.Split(desc, "\n") {
-		if len(ln) > maxLineSize {
-			return fmt.Errorf("%w: description line length exceeds %d characters", arrow.ErrInvalid, maxLineSize)
-		}
-	}
-	return nil
-}
-
-// baseFunction is the base class for compute functions. Function
-// implementations should embed this baseFunction and will contain
-// a collection of "kernels" which are implementations of the function
-// for specific argument types. Selecting a viable kernel for
-// executing the function is referred to as "dispatching".
-type baseFunction struct {
-	name        string
-	kind        FuncKind
-	arity       Arity
-	doc         FunctionDoc
-	defaultOpts FunctionOptions
-}
-
-func (b *baseFunction) Name() string                    { return b.name }
-func (b *baseFunction) Kind() FuncKind                  { return b.kind }
-func (b *baseFunction) Arity() Arity                    { return b.arity }
-func (b *baseFunction) Doc() FunctionDoc                { return b.doc }
-func (b *baseFunction) DefaultOptions() FunctionOptions { return b.defaultOpts }
-func (b *baseFunction) Validate() error {
-	if b.doc.Summary == "" {
-		return nil
-	}
-
-	argCount := len(b.doc.ArgNames)
-	if argCount != b.arity.NArgs && !(b.arity.IsVarArgs && argCount == b.arity.NArgs+1) {
-		return fmt.Errorf("in function '%s': number of argument names for function doc != function arity", b.name)
-	}
-
-	if err := validateFunctionSummary(b.doc.Summary); err != nil {
-		return err
-	}
-	return validateFunctionDescription(b.doc.Description)
-}
-
-func checkOptions(fn Function, opts FunctionOptions) error {
-	if opts == nil && fn.Doc().OptionsRequired {
-		return fmt.Errorf("%w: function '%s' cannot be called without options", arrow.ErrInvalid, fn.Name())
-	}
-	return nil
-}
-
-func (b *baseFunction) checkArity(nargs int) error {
-	switch {
-	case b.arity.IsVarArgs && nargs < b.arity.NArgs:
-		return fmt.Errorf("%w: varargs function '%s' needs at least %d arguments, but only %d passed",
-			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
-	case !b.arity.IsVarArgs && nargs != b.arity.NArgs:
-		return fmt.Errorf("%w: function '%s' accepts %d arguments but %d passed",
-			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
-	}
-	return nil
-}
-
-// kernelType is a type constraint interface that is used for funcImpl
-// generic definitions. It will be extended as other kernel types
-// are defined.
-//
-// Currently only ScalarKernels are allowed to be used.
-type kernelType interface {
-	exec.ScalarKernel | exec.VectorKernel
-
-	// specifying the Kernel interface here allows us to utilize
-	// the methods of the Kernel interface on the generic
-	// constrained type
-	exec.Kernel
-}
-
-// funcImpl is the basic implementation for any functions that use kernels
-// i.e. all except for Meta functions.
-type funcImpl[KT kernelType] struct {
-	baseFunction
-
-	kernels []KT
-}
-
-func (fi *funcImpl[KT]) DispatchExact(vals ...arrow.DataType) (*KT, error) {
-	if err := fi.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	for i := range fi.kernels {
-		if fi.kernels[i].GetSig().MatchesInputs(vals) {
-			return &fi.kernels[i], nil
-		}
-	}
-
-	return nil, fmt.Errorf("%w: function '%s' has no kernel matching input types %s",
-		arrow.ErrNotImplemented, fi.name, arrow.TypesToString(vals))
-}
-
-func (fi *funcImpl[KT]) NumKernels() int { return len(fi.kernels) }
-func (fi *funcImpl[KT]) Kernels() []*KT {
-	res := make([]*KT, len(fi.kernels))
-	for i := range fi.kernels {
-		res[i] = &fi.kernels[i]
-	}
-	return res
-}
-
-// A ScalarFunction is a function that executes element-wise operations
-// on arrays or scalars, and therefore whose results generally do not
-// depend on the order of the values in the arguments. Accepts and returns
-// arrays that are all of the same size. These functions roughly correspond
-// to the functions used in most SQL expressions.
-type ScalarFunction struct {
-	funcImpl[exec.ScalarKernel]
-}
-
-// NewScalarFunction constructs a new ScalarFunction object with the passed in
-// name, arity and function doc.
-func NewScalarFunction(name string, arity Arity, doc FunctionDoc) *ScalarFunction {
-	return &ScalarFunction{
-		funcImpl: funcImpl[exec.ScalarKernel]{
-			baseFunction: baseFunction{
-				name:  name,
-				arity: arity,
-				doc:   doc,
-				kind:  FuncScalar,
-			},
-		},
-	}
-}
-
-func (s *ScalarFunction) SetDefaultOptions(opts FunctionOptions) {
-	s.defaultOpts = opts
-}
-
-func (s *ScalarFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	return s.funcImpl.DispatchExact(vals...)
-}
-
-func (s *ScalarFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	return s.DispatchExact(vals...)
-}
-
-// AddNewKernel constructs a new kernel with the provided signature
-// and execution/init functions and then adds it to the function's list of
-// kernels. This assumes default null handling (intersection of validity bitmaps)
-func (s *ScalarFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
-	if err := s.checkArity(len(inTypes)); err != nil {
-		return err
-	}
-
-	if s.arity.IsVarArgs && len(inTypes) != 1 {
-		return fmt.Errorf("%w: varargs signatures must have exactly one input type", arrow.ErrInvalid)
-	}
-
-	sig := &exec.KernelSignature{
-		InputTypes: inTypes,
-		OutType:    outType,
-		IsVarArgs:  s.arity.IsVarArgs,
-	}
-
-	s.kernels = append(s.kernels, exec.NewScalarKernelWithSig(sig, execFn, init))
-	return nil
-}
-
-// AddKernel adds the provided kernel to the list of kernels
-// this function has. A copy of the kernel is added to the slice of kernels,
-// which means that a given kernel object can be created, added and then
-// reused to add other kernels.
-func (s *ScalarFunction) AddKernel(k exec.ScalarKernel) error {
-	if err := s.checkArity(len(k.Signature.InputTypes)); err != nil {
-		return err
-	}
-
-	if s.arity.IsVarArgs && !k.Signature.IsVarArgs {
-		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
-	}
-
-	s.kernels = append(s.kernels, k)
-	return nil
-}
-
-// Execute uses the passed in context, function options and arguments to eagerly
-// execute the function using kernel dispatch, batch iteration and memory
-// allocation details as defined by the kernel.
-//
-// If opts is nil, then the DefaultOptions() will be used.
-func (s *ScalarFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, s, opts, -1, args...)
-}
-
-type VectorFunction struct {
-	funcImpl[exec.VectorKernel]
-}
-
-func NewVectorFunction(name string, arity Arity, doc FunctionDoc) *VectorFunction {
-	return &VectorFunction{
-		funcImpl: funcImpl[exec.VectorKernel]{
-			baseFunction: baseFunction{
-				name:  name,
-				arity: arity,
-				doc:   doc,
-				kind:  FuncVector,
-			},
-		},
-	}
-}
-
-func (f *VectorFunction) SetDefaultOptions(opts FunctionOptions) {
-	f.defaultOpts = opts
-}
-
-func (f *VectorFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	return f.funcImpl.DispatchExact(vals...)
-}
-
-func (f *VectorFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	return f.DispatchExact(vals...)
-}
-
-func (f *VectorFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
-	if err := f.checkArity(len(inTypes)); err != nil {
-		return err
-	}
-
-	if f.arity.IsVarArgs && len(inTypes) != 1 {
-		return fmt.Errorf("%w: varags signatures must have exactly one input type", arrow.ErrInvalid)
-	}
-
-	sig := &exec.KernelSignature{
-		InputTypes: inTypes,
-		OutType:    outType,
-		IsVarArgs:  f.arity.IsVarArgs,
-	}
-	f.kernels = append(f.kernels, exec.NewVectorKernelWithSig(sig, execFn, init))
-	return nil
-}
-
-func (f *VectorFunction) AddKernel(kernel exec.VectorKernel) error {
-	if err := f.checkArity(len(kernel.Signature.InputTypes)); err != nil {
-		return err
-	}
-
-	if f.arity.IsVarArgs && !kernel.Signature.IsVarArgs {
-		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
-	}
-	f.kernels = append(f.kernels, kernel)
-	return nil
-}
-
-func (f *VectorFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, f, opts, -1, args...)
-}
-
-// MetaFunctionImpl is the signature needed for implementing a MetaFunction
-// which is a function that dispatches to another function instead.
-type MetaFunctionImpl func(context.Context, FunctionOptions, ...Datum) (Datum, error)
-
-// MetaFunction is a function which dispatches to other functions, the impl
-// must not be nil.
-//
-// For Array, ChunkedArray and Scalar datums, this may rely on the execution
-// of concrete function types, but this must handle other Datum kinds on its
-// own.
-type MetaFunction struct {
-	baseFunction
-	impl MetaFunctionImpl
-}
-
-// NewMetaFunction constructs a new MetaFunction which will call the provided
-// impl for dispatching with the expected arity.
-//
-// Will panic if impl is nil.
-func NewMetaFunction(name string, arity Arity, doc FunctionDoc, impl MetaFunctionImpl) *MetaFunction {
-	if impl == nil {
-		panic("arrow/compute: cannot construct MetaFunction with nil impl")
-	}
-	return &MetaFunction{
-		baseFunction: baseFunction{
-			name:  name,
-			arity: arity,
-			doc:   doc,
-		},
-		impl: impl,
-	}
-}
-
-func (MetaFunction) NumKernels() int { return 0 }
-func (m *MetaFunction) DispatchExact(...arrow.DataType) (exec.Kernel, error) {
-	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
-}
-
-func (m *MetaFunction) DispatchBest(...arrow.DataType) (exec.Kernel, error) {
-	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
-}
-
-func (m *MetaFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	if err := m.checkArity(len(args)); err != nil {
-		return nil, err
-	}
-	if err := checkOptions(m, opts); err != nil {
-		return nil, err
-	}
-
-	if opts == nil {
-		opts = m.defaultOpts
-	}
-
-	return m.impl(ctx, opts, args...)
-}
diff --git a/go/arrow/compute/functions_test.go b/go/arrow/compute/functions_test.go
deleted file mode 100644
index 31a4cf124e845..0000000000000
--- a/go/arrow/compute/functions_test.go
+++ /dev/null
@@ -1,69 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestArityBasics(t *testing.T) {
-	nullary := compute.Nullary()
-	assert.Equal(t, 0, nullary.NArgs)
-	assert.False(t, nullary.IsVarArgs)
-
-	unary := compute.Unary()
-	assert.Equal(t, 1, unary.NArgs)
-	assert.False(t, unary.IsVarArgs)
-
-	binary := compute.Binary()
-	assert.Equal(t, 2, binary.NArgs)
-	assert.False(t, binary.IsVarArgs)
-
-	ternary := compute.Ternary()
-	assert.Equal(t, 3, ternary.NArgs)
-	assert.False(t, ternary.IsVarArgs)
-
-	varargs := compute.VarArgs(2)
-	assert.Equal(t, 2, varargs.NArgs)
-	assert.True(t, varargs.IsVarArgs)
-}
-
-func CheckDispatchBest(t *testing.T, funcName string, originalTypes, expected []arrow.DataType) {
-	fn, exists := compute.GetFunctionRegistry().GetFunction(funcName)
-	require.True(t, exists)
-
-	vals := make([]arrow.DataType, len(originalTypes))
-	copy(vals, originalTypes)
-
-	actualKernel, err := fn.DispatchBest(vals...)
-	require.NoError(t, err)
-	expKernel, err := fn.DispatchExact(expected...)
-	require.NoError(t, err)
-
-	assert.Same(t, expKernel, actualKernel)
-	assert.Equal(t, len(expected), len(vals))
-	for i, v := range vals {
-		assert.True(t, arrow.TypeEqual(v, expected[i]), v.String(), expected[i].String())
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/Makefile b/go/arrow/compute/internal/kernels/Makefile
deleted file mode 100644
index ac00bd837c0b3..0000000000000
--- a/go/arrow/compute/internal/kernels/Makefile
+++ /dev/null
@@ -1,110 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-CXX=clang++-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=5000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	cast_numeric_avx2_amd64.s cast_numeric_sse4_amd64.s constant_factor_avx2_amd64.s \
-	constant_factor_sse4_amd64.s base_arithmetic_avx2_amd64.s base_arithmetic_sse4_amd64.s \
-	scalar_comparison_avx2_amd64.s scalar_comparison_sse4_amd64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/cast_numeric_avx2_amd64.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
-
-_lib/cast_numeric_sse4_amd64.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/cast_numeric_neon.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_avx2_amd64.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_sse4_amd64.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/scalar_comparison_avx2_amd64.s: _lib/scalar_comparison.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
-
-_lib/scalar_comparison_sse4_amd64.s: _lib/scalar_comparison.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_neon.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_avx2_amd64.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_sse4_amd64.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_neon.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-cast_numeric_avx2_amd64.s: _lib/cast_numeric_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-cast_numeric_sse4_amd64.s: _lib/cast_numeric_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-constant_factor_avx2_amd64.s: _lib/constant_factor_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-constant_factor_sse4_amd64.s: _lib/constant_factor_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-base_arithmetic_avx2_amd64.s: _lib/base_arithmetic_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-base_arithmetic_sse4_amd64.s: _lib/base_arithmetic_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-scalar_comparison_avx2_amd64.s: _lib/scalar_comparison_avx2_amd64.s	
-	$(C2GOASM) -a -f $^ $@
-
-scalar_comparison_sse4_amd64.s: _lib/scalar_comparison_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
deleted file mode 100644
index 199c9d48ac631..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
+++ /dev/null
@@ -1,484 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <math.h>
-#include <stdint.h>
-#include <limits.h>
-#include "types.h"
-#include "vendored/safe-math.h"
-
-// Corresponds to equivalent ArithmeticOp enum in base_arithmetic.go
-// for passing across which operation to perform. This allows simpler
-// implementation at the cost of having to pass the extra int8 and
-// perform a switch.
-//
-// In cases of small arrays, this is completely negligible. In cases
-// of large arrays, the time saved by using SIMD here is significantly
-// worth the cost.
-enum class optype : int8_t {
-    ADD,
-    SUB,
-    MUL,
-    DIV,
-    ABSOLUTE_VALUE,
-    NEGATE,
-    SQRT,
-    POWER,
-    SIN,
-    COS,
-    TAN,
-    ASIN,
-    ACOS,
-    ATAN,
-    ATAN2,
-    LN,
-    LOG10,
-    LOG2,
-    LOG1P,
-    LOGB,
-    SIGN,
-
-    // this impl doesn't actually perform any overflow checks as we need
-    // to only run overflow checks on non-null entries
-    ADD_CHECKED,
-    SUB_CHECKED,
-    MUL_CHECKED,
-    DIV_CHECKED,
-    ABSOLUTE_VALUE_CHECKED,
-    NEGATE_CHECKED,
-    SQRT_CHECKED,
-    POWER_CHECKED,
-    SIN_CHECKED,
-    COS_CHECKED,
-    TAN_CHECKED,
-    ASIN_CHECKED,
-    ACOS_CHECKED,    
-    LN_CHECKED,
-    LOG10_CHECKED,
-    LOG2_CHECKED,
-    LOG1P_CHECKED,
-    LOGB_CHECKED,
-};
-
-struct Add {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        if constexpr (is_arithmetic_v<T>)
-            return left + right;
-    }
-};
-
-struct Sub {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        if constexpr (is_arithmetic_v<T>)
-            return left - right;
-    }
-};
-
-struct AddChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left + right;
-        }
-    }
-};
-
-
-struct SubChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left - right;
-        }
-    }
-};
-
-template <typename T>
-using maybe_make_unsigned = conditional_t<is_integral_v<T> && !is_same_v<T, bool>, make_unsigned_t<T>, T>;
-
-template <typename T, typename Unsigned = maybe_make_unsigned<T>>
-constexpr Unsigned to_unsigned(T signed_) {
-    return static_cast<Unsigned>(signed_);
-}
-
-struct Multiply {
-    static_assert(is_same_v<decltype(int8_t() * int8_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint8_t() * uint8_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(int16_t() * int16_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint16_t() * uint16_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(int32_t() * int32_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint32_t() * uint32_t()), uint32_t>, "");
-    static_assert(is_same_v<decltype(int64_t() * int64_t()), int64_t>, "");
-    static_assert(is_same_v<decltype(uint64_t() * uint64_t()), uint64_t>, "");
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
-        if constexpr(is_floating_point_v<T>) {
-            return left * right;
-        } else if constexpr(is_unsigned_v<T> && !is_same_v<T, uint16_t>) {
-            return left * right;
-        } else if constexpr(is_signed_v<T> && !is_same_v<T, int16_t>) {
-            return to_unsigned(left) * to_unsigned(right);
-        } else if constexpr(is_same_v<T, int16_t> || is_same_v<T, uint16_t>) {
-            // multiplication of 16 bit integer types implicitly promotes to
-            // signed 32 bit integer. However, some inputs may overflow (which
-            // triggers undefined behavior). Therefore we first cast to 32 bit
-            // unsigned integers where overflow is well defined.
-            return static_cast<uint32_t>(left) * static_cast<uint32_t>(right);
-        }
-    }
-};
-
-struct MultiplyChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left * right;
-        }
-    }
-};
-
-struct AbsoluteValue {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_same_v<Arg, float>) {
-            *(((int*)&input)+0) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_same_v<Arg, double>) {
-            *(((int*)&input)+1) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input;
-        } else {
-            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
-            return (input + mask) ^ mask;
-        }
-    }
-};
-
-struct AbsoluteValueChecked {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_same_v<Arg, float>) {
-            *(((int*)&input)+0) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_same_v<Arg, double>) {
-            *(((int*)&input)+1) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input;
-        } else {
-            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
-            return (input + mask) ^ mask;
-        }
-    }
-};
-
-struct Negate {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_floating_point_v<Arg>) {
-            return -input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return ~input + 1;
-        } else {
-            return -input;
-        }
-    }
-};
-
-struct NegateChecked {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        static_assert(is_same_v<T, Arg>, "");
-        if constexpr(is_floating_point_v<Arg>) {
-            return -input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return 0;
-        } else {
-            return -input;
-        }
-    }
-};
-
-struct Sign {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_floating_point_v<Arg>) {
-            return isnan(input) ? input : ((input == 0) ? 0 : (signbit(input) ? -1 : 1));
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input > 0 ? 1 : 0;
-        } else if constexpr(is_signed_v<Arg>) {
-            return input > 0 ? 1 : (input ? -1 : 0);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_arr_arr_impl {
-    static inline void exec(const void* in_left, const void* in_right, void* out, const int len) {
-        const T* left = reinterpret_cast<const T*>(in_left);
-        const T* right = reinterpret_cast<const T*>(in_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left[i], right[i]);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_arr_scalar_impl {
-    static inline void exec(const void* in_left, const void* scalar_right, void* out, const int len) {
-        const T* left = reinterpret_cast<const T*>(in_left);
-        const T right = *reinterpret_cast<const T*>(scalar_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left[i], right);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_scalar_arr_impl {
-    static inline void exec(const void* scalar_left, const void* in_right, void* out, const int len) {
-        const T left = *reinterpret_cast<const T*>(scalar_left);
-        const T* right = reinterpret_cast<const T*>(in_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left, right[i]);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_unary_op_impl {
-    static inline void exec(const void* arg, void* out, const int len) {
-        const T* input = reinterpret_cast<const T*>(arg);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T>(input[i]);
-        }
-    }
-};
-
-template <typename Op, template<typename...> typename Impl>
-static inline void arithmetic_op(const int type, const void* in_left, const void* in_right, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(type);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::exec(in_left, in_right, output, len);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::exec(in_left, in_right, output, len);
-    default:
-        break;
-    }
-}
-
-template <typename Op, template <typename...> typename Impl, typename Input>
-static inline void arithmetic_op(const int otype, const void* input, void* output, const int len) {
-    const auto outtype = static_cast<arrtype>(otype);
-
-    switch (outtype) {
-    case arrtype::UINT8:
-        return Impl<Input, Op, uint8_t>::exec(input, output, len);
-    case arrtype::INT8:
-        return Impl<Input, Op, int8_t>::exec(input, output, len);
-    case arrtype::UINT16:
-        return Impl<Input, Op, uint16_t>::exec(input, output, len);
-    case arrtype::INT16:
-        return Impl<Input, Op, int16_t>::exec(input, output, len);
-    case arrtype::UINT32:
-        return Impl<Input, Op, uint32_t>::exec(input, output, len);
-    case arrtype::INT32:
-        return Impl<Input, Op, int32_t>::exec(input, output, len);
-    case arrtype::UINT64:
-        return Impl<Input, Op, uint64_t>::exec(input, output, len);
-    case arrtype::INT64:
-        return Impl<Input, Op, int64_t>::exec(input, output, len);
-    case arrtype::FLOAT32:
-        return Impl<Input, Op, float>::exec(input, output, len);
-    case arrtype::FLOAT64:
-        return Impl<Input, Op, double>::exec(input, output, len);
-    default:
-        break;
-    }
-}
-
-
-template <typename Op, template <typename...> typename Impl>
-static inline void arithmetic_op(const int type, const void* input, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(type);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::exec(input, output, len);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::exec(input, output, len);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::exec(input, output, len);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::exec(input, output, len);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::exec(input, output, len);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::exec(input, output, len);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::exec(input, output, len);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::exec(input, output, len);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::exec(input, output, len);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::exec(input, output, len);
-    default:
-        break;
-    }
-}
-
-template <typename Op, template <typename...> typename Impl>
-static inline void arithmetic_op(const int itype, const int otype, const void* input, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(itype);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return arithmetic_op<Op, Impl, uint8_t>(otype, input, output, len);
-    case arrtype::INT8:
-        return arithmetic_op<Op, Impl, int8_t>(otype, input, output, len);
-    case arrtype::UINT16:
-        return arithmetic_op<Op, Impl, uint16_t>(otype, input, output, len);
-    case arrtype::INT16:
-        return arithmetic_op<Op, Impl, int16_t>(otype, input, output, len);
-    case arrtype::UINT32:
-        return arithmetic_op<Op, Impl, uint32_t>(otype, input, output, len);
-    case arrtype::INT32:
-        return arithmetic_op<Op, Impl, int32_t>(otype, input, output, len);
-    case arrtype::UINT64:
-        return arithmetic_op<Op, Impl, uint64_t>(otype, input, output, len);
-    case arrtype::INT64:
-        return arithmetic_op<Op, Impl, int64_t>(otype, input, output, len);
-    case arrtype::FLOAT32:
-        return arithmetic_op<Op, Impl, float>(otype, input, output, len);
-    case arrtype::FLOAT64:
-        return arithmetic_op<Op, Impl, double>(otype, input, output, len);
-    default:
-        break;
-    }
-}
-
-template <template <typename...> class Impl>
-static inline void arithmetic_unary_impl_same_types(const int type, const int8_t op, const void* input, void* output, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::ABSOLUTE_VALUE:
-        return arithmetic_op<AbsoluteValue, Impl>(type, input, output, len);
-    case optype::ABSOLUTE_VALUE_CHECKED:
-        return arithmetic_op<AbsoluteValueChecked, Impl>(type, input, output, len);
-    case optype::NEGATE:
-        return arithmetic_op<Negate, Impl>(type, input, output, len);
-    case optype::NEGATE_CHECKED:
-        return arithmetic_op<NegateChecked, Impl>(type, input, output, len);
-    case optype::SIGN:
-        return arithmetic_op<Sign, Impl>(type, input, output, len);
-    default:
-        break;
-    }
-}
-
-
-template <template <typename...> class Impl>
-static inline void arithmetic_unary_impl(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::SIGN:
-        return arithmetic_op<Sign, Impl>(itype, otype, input, output, len);
-    default:
-        break;
-    }
-}
-
-template <template <typename...> class Impl>
-static inline void arithmetic_binary_impl(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::ADD:
-        return arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
-    case optype::ADD_CHECKED:
-        return arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
-    case optype::SUB:
-        return arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
-    case optype::SUB_CHECKED:
-        return arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
-    case optype::MUL:
-        return arithmetic_op<Multiply, Impl>(type, in_left, in_right, out, len);
-    case optype::MUL_CHECKED:
-        return arithmetic_op<MultiplyChecked, Impl>(type, in_left, in_right, out, len);
-    default:
-        // don't implement divide here as we can only divide on non-null entries
-        // so we can avoid dividing by zero
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(arithmetic_binary)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_arr_arr_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_arr_scalar)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_arr_scalar_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_scalar_arr)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_scalar_arr_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_unary_same_types)(const int type, const int8_t op, const void* input, void* output, const int len) {
-    arithmetic_unary_impl_same_types<arithmetic_unary_op_impl>(type, op, input, output, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_unary_diff_type)(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
-    arithmetic_unary_impl<arithmetic_unary_op_impl>(itype, otype, op, input, output, len);
-}
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
deleted file mode 100644
index 6a89e975170b5..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
+++ /dev/null
@@ -1,34899 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"base_arithmetic.cc"
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_binary_avx2
-.LCPI0_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_binary_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_binary_avx2,@function
-arithmetic_binary_avx2:                 # @arithmetic_binary_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB0_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB0_21
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB0_287
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB0_825
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB0_559
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB0_6
-# %bb.553:
-	cmp	edi, 4
-	je	.LBB0_602
-# %bb.554:
-	cmp	edi, 5
-	je	.LBB0_614
-# %bb.555:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.556:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.557:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_626
-# %bb.558:
-	xor	esi, esi
-.LBB0_631:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_633
-.LBB0_632:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_632
-.LBB0_633:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_634:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_634
-	jmp	.LBB0_825
-.LBB0_11:
-	cmp	sil, 21
-	je	.LBB0_154
-# %bb.12:
-	cmp	sil, 22
-	je	.LBB0_420
-# %bb.13:
-	cmp	sil, 23
-	jne	.LBB0_825
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB0_695
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB0_16
-# %bb.689:
-	cmp	edi, 4
-	je	.LBB0_738
-# %bb.690:
-	cmp	edi, 5
-	je	.LBB0_750
-# %bb.691:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.692:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.693:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_762
-# %bb.694:
-	xor	esi, esi
-.LBB0_767:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_769
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_768
-.LBB0_769:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_770:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_770
-	jmp	.LBB0_825
-.LBB0_21:
-	cmp	edi, 6
-	jg	.LBB0_34
-# %bb.22:
-	cmp	edi, 3
-	jle	.LBB0_23
-# %bb.28:
-	cmp	edi, 4
-	je	.LBB0_67
-# %bb.29:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.30:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.31:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.32:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_91
-# %bb.33:
-	xor	esi, esi
-	jmp	.LBB0_96
-.LBB0_287:
-	cmp	edi, 6
-	jg	.LBB0_300
-# %bb.288:
-	cmp	edi, 3
-	jle	.LBB0_289
-# %bb.294:
-	cmp	edi, 4
-	je	.LBB0_333
-# %bb.295:
-	cmp	edi, 5
-	je	.LBB0_345
-# %bb.296:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.297:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.298:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_357
-# %bb.299:
-	xor	esi, esi
-.LBB0_362:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_364
-.LBB0_363:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_363
-.LBB0_364:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_365:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_365
-	jmp	.LBB0_825
-.LBB0_154:
-	cmp	edi, 6
-	jg	.LBB0_167
-# %bb.155:
-	cmp	edi, 3
-	jle	.LBB0_156
-# %bb.161:
-	cmp	edi, 4
-	je	.LBB0_200
-# %bb.162:
-	cmp	edi, 5
-	je	.LBB0_212
-# %bb.163:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.164:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.165:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_224
-# %bb.166:
-	xor	esi, esi
-	jmp	.LBB0_229
-.LBB0_420:
-	cmp	edi, 6
-	jg	.LBB0_433
-# %bb.421:
-	cmp	edi, 3
-	jle	.LBB0_422
-# %bb.427:
-	cmp	edi, 4
-	je	.LBB0_466
-# %bb.428:
-	cmp	edi, 5
-	je	.LBB0_478
-# %bb.429:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.430:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.431:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_490
-# %bb.432:
-	xor	esi, esi
-.LBB0_495:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_497
-.LBB0_496:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_496
-.LBB0_497:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_498:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_498
-	jmp	.LBB0_825
-.LBB0_559:
-	cmp	edi, 8
-	jle	.LBB0_560
-# %bb.565:
-	cmp	edi, 9
-	je	.LBB0_656
-# %bb.566:
-	cmp	edi, 11
-	je	.LBB0_668
-# %bb.567:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.568:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.569:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_680
-# %bb.570:
-	xor	esi, esi
-.LBB0_685:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_687
-.LBB0_686:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_686
-.LBB0_687:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_688:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_688
-	jmp	.LBB0_825
-.LBB0_695:
-	cmp	edi, 8
-	jle	.LBB0_696
-# %bb.701:
-	cmp	edi, 9
-	je	.LBB0_792
-# %bb.702:
-	cmp	edi, 11
-	je	.LBB0_804
-# %bb.703:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.704:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.705:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_816
-# %bb.706:
-	xor	esi, esi
-.LBB0_821:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_823
-.LBB0_822:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_822
-.LBB0_823:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_824:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_824
-	jmp	.LBB0_825
-.LBB0_34:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.40:
-	cmp	edi, 9
-	je	.LBB0_121
-# %bb.41:
-	cmp	edi, 11
-	je	.LBB0_133
-# %bb.42:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.44:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_145
-# %bb.45:
-	xor	esi, esi
-	jmp	.LBB0_150
-.LBB0_300:
-	cmp	edi, 8
-	jle	.LBB0_301
-# %bb.306:
-	cmp	edi, 9
-	je	.LBB0_387
-# %bb.307:
-	cmp	edi, 11
-	je	.LBB0_399
-# %bb.308:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.309:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.310:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_411
-# %bb.311:
-	xor	esi, esi
-.LBB0_416:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_418
-.LBB0_417:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_417
-.LBB0_418:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_419:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_419
-	jmp	.LBB0_825
-.LBB0_167:
-	cmp	edi, 8
-	jle	.LBB0_168
-# %bb.173:
-	cmp	edi, 9
-	je	.LBB0_254
-# %bb.174:
-	cmp	edi, 11
-	je	.LBB0_266
-# %bb.175:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.176:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.177:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_278
-# %bb.178:
-	xor	esi, esi
-	jmp	.LBB0_283
-.LBB0_433:
-	cmp	edi, 8
-	jle	.LBB0_434
-# %bb.439:
-	cmp	edi, 9
-	je	.LBB0_520
-# %bb.440:
-	cmp	edi, 11
-	je	.LBB0_532
-# %bb.441:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.442:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.443:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_544
-# %bb.444:
-	xor	esi, esi
-.LBB0_549:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_551
-.LBB0_550:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_550
-.LBB0_551:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_552:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_552
-	jmp	.LBB0_825
-.LBB0_6:
-	cmp	edi, 2
-	je	.LBB0_571
-# %bb.7:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.9:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_588
-# %bb.10:
-	xor	edi, edi
-	jmp	.LBB0_598
-.LBB0_16:
-	cmp	edi, 2
-	je	.LBB0_707
-# %bb.17:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.18:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.19:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_724
-# %bb.20:
-	xor	edi, edi
-	jmp	.LBB0_734
-.LBB0_23:
-	cmp	edi, 2
-	je	.LBB0_46
-# %bb.24:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.25:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.26:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_58
-# %bb.27:
-	xor	esi, esi
-	jmp	.LBB0_63
-.LBB0_289:
-	cmp	edi, 2
-	je	.LBB0_312
-# %bb.290:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.291:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.292:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_324
-# %bb.293:
-	xor	esi, esi
-	jmp	.LBB0_329
-.LBB0_156:
-	cmp	edi, 2
-	je	.LBB0_179
-# %bb.157:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.158:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.159:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_191
-# %bb.160:
-	xor	esi, esi
-	jmp	.LBB0_196
-.LBB0_422:
-	cmp	edi, 2
-	je	.LBB0_445
-# %bb.423:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.424:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.425:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_457
-# %bb.426:
-	xor	esi, esi
-	jmp	.LBB0_462
-.LBB0_560:
-	cmp	edi, 7
-	je	.LBB0_635
-# %bb.561:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.562:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.563:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_647
-# %bb.564:
-	xor	esi, esi
-	jmp	.LBB0_652
-.LBB0_696:
-	cmp	edi, 7
-	je	.LBB0_771
-# %bb.697:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.698:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.699:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_783
-# %bb.700:
-	xor	esi, esi
-	jmp	.LBB0_788
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_100
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.37:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.38:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_112
-# %bb.39:
-	xor	esi, esi
-	jmp	.LBB0_117
-.LBB0_301:
-	cmp	edi, 7
-	je	.LBB0_366
-# %bb.302:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.303:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.304:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_378
-# %bb.305:
-	xor	esi, esi
-	jmp	.LBB0_383
-.LBB0_168:
-	cmp	edi, 7
-	je	.LBB0_233
-# %bb.169:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.170:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.171:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_245
-# %bb.172:
-	xor	esi, esi
-	jmp	.LBB0_250
-.LBB0_434:
-	cmp	edi, 7
-	je	.LBB0_499
-# %bb.435:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.436:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.437:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_511
-# %bb.438:
-	xor	esi, esi
-	jmp	.LBB0_516
-.LBB0_602:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.603:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_605
-# %bb.604:
-	xor	esi, esi
-.LBB0_610:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_612
-.LBB0_611:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_611
-.LBB0_612:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_613:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_613
-	jmp	.LBB0_825
-.LBB0_614:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.615:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_617
-# %bb.616:
-	xor	esi, esi
-.LBB0_622:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_624
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_623
-.LBB0_624:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_625
-	jmp	.LBB0_825
-.LBB0_738:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.739:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_741
-# %bb.740:
-	xor	esi, esi
-.LBB0_746:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_748
-.LBB0_747:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_747
-.LBB0_748:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_749:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_749
-	jmp	.LBB0_825
-.LBB0_750:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.751:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_753
-# %bb.752:
-	xor	esi, esi
-.LBB0_758:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_760
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_759
-.LBB0_760:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_761:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_761
-	jmp	.LBB0_825
-.LBB0_67:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_70
-# %bb.69:
-	xor	esi, esi
-	jmp	.LBB0_75
-.LBB0_79:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.80:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_82
-# %bb.81:
-	xor	esi, esi
-	jmp	.LBB0_87
-.LBB0_333:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.334:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_336
-# %bb.335:
-	xor	esi, esi
-.LBB0_341:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_343
-.LBB0_342:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_342
-.LBB0_343:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_344:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_344
-	jmp	.LBB0_825
-.LBB0_345:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.346:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_348
-# %bb.347:
-	xor	esi, esi
-.LBB0_353:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_355
-.LBB0_354:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_354
-.LBB0_355:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_356:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_356
-	jmp	.LBB0_825
-.LBB0_200:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.201:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_203
-# %bb.202:
-	xor	esi, esi
-	jmp	.LBB0_208
-.LBB0_212:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.213:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_215
-# %bb.214:
-	xor	esi, esi
-	jmp	.LBB0_220
-.LBB0_466:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.467:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_469
-# %bb.468:
-	xor	esi, esi
-.LBB0_474:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_476
-.LBB0_475:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_475
-.LBB0_476:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_477:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_477
-	jmp	.LBB0_825
-.LBB0_478:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.479:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_481
-# %bb.480:
-	xor	esi, esi
-.LBB0_486:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_488
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_487
-.LBB0_488:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_489:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_489
-	jmp	.LBB0_825
-.LBB0_656:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.657:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_659
-# %bb.658:
-	xor	esi, esi
-.LBB0_664:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_666
-.LBB0_665:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_665
-.LBB0_666:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_667:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_667
-	jmp	.LBB0_825
-.LBB0_668:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.669:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_671
-# %bb.670:
-	xor	esi, esi
-.LBB0_676:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_678
-.LBB0_677:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_677
-.LBB0_678:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_679:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_679
-	jmp	.LBB0_825
-.LBB0_792:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.793:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_795
-# %bb.794:
-	xor	esi, esi
-.LBB0_800:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_802
-.LBB0_801:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_801
-.LBB0_802:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_803:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_803
-	jmp	.LBB0_825
-.LBB0_804:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.805:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_807
-# %bb.806:
-	xor	esi, esi
-.LBB0_812:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_814
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_813
-.LBB0_814:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_815:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_815
-	jmp	.LBB0_825
-.LBB0_121:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.122:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_124
-# %bb.123:
-	xor	esi, esi
-	jmp	.LBB0_129
-.LBB0_133:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.134:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_136
-# %bb.135:
-	xor	esi, esi
-	jmp	.LBB0_141
-.LBB0_387:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.388:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_390
-# %bb.389:
-	xor	esi, esi
-.LBB0_395:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_397
-.LBB0_396:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_396
-.LBB0_397:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_398:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_398
-	jmp	.LBB0_825
-.LBB0_399:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.400:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_402
-# %bb.401:
-	xor	esi, esi
-.LBB0_407:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_409
-.LBB0_408:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_408
-.LBB0_409:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_410:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_410
-	jmp	.LBB0_825
-.LBB0_254:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.255:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_257
-# %bb.256:
-	xor	esi, esi
-	jmp	.LBB0_262
-.LBB0_266:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.267:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_269
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_274
-.LBB0_520:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.521:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_523
-# %bb.522:
-	xor	esi, esi
-.LBB0_528:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_530
-.LBB0_529:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_529
-.LBB0_530:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_531:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_531
-	jmp	.LBB0_825
-.LBB0_532:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.533:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_535
-# %bb.534:
-	xor	esi, esi
-.LBB0_540:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_542
-.LBB0_541:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_541
-.LBB0_542:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_543:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_543
-	jmp	.LBB0_825
-.LBB0_571:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.572:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_574
-# %bb.573:
-	xor	edi, edi
-	jmp	.LBB0_584
-.LBB0_707:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.708:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_710
-# %bb.709:
-	xor	edi, edi
-	jmp	.LBB0_720
-.LBB0_46:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.47:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_49
-# %bb.48:
-	xor	esi, esi
-	jmp	.LBB0_54
-.LBB0_312:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.313:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_315
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB0_320
-.LBB0_179:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.180:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_182
-# %bb.181:
-	xor	esi, esi
-	jmp	.LBB0_187
-.LBB0_445:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.446:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_448
-# %bb.447:
-	xor	esi, esi
-	jmp	.LBB0_453
-.LBB0_635:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.636:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_638
-# %bb.637:
-	xor	esi, esi
-	jmp	.LBB0_643
-.LBB0_771:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.772:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_774
-# %bb.773:
-	xor	esi, esi
-	jmp	.LBB0_779
-.LBB0_100:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.101:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_103
-# %bb.102:
-	xor	esi, esi
-	jmp	.LBB0_108
-.LBB0_366:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.367:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_369
-# %bb.368:
-	xor	esi, esi
-	jmp	.LBB0_374
-.LBB0_233:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.234:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_236
-# %bb.235:
-	xor	esi, esi
-	jmp	.LBB0_241
-.LBB0_499:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.500:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_502
-# %bb.501:
-	xor	esi, esi
-	jmp	.LBB0_507
-.LBB0_91:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_96
-# %bb.92:
-	and	al, dil
-	jne	.LBB0_96
-# %bb.93:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_94:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_94
-# %bb.95:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_96:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_98
-.LBB0_97:                               # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_97
-.LBB0_98:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_99:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_99
-	jmp	.LBB0_825
-.LBB0_224:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_229
-# %bb.225:
-	and	al, dil
-	jne	.LBB0_229
-# %bb.226:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_227:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_227
-# %bb.228:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_229:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_231
-.LBB0_230:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_230
-.LBB0_231:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_232:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_232
-	jmp	.LBB0_825
-.LBB0_145:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_150
-# %bb.146:
-	and	al, dil
-	jne	.LBB0_150
-# %bb.147:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_148:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_148
-# %bb.149:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_150:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_152
-.LBB0_151:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_151
-.LBB0_152:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_153:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_153
-	jmp	.LBB0_825
-.LBB0_278:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_283
-# %bb.279:
-	and	al, dil
-	jne	.LBB0_283
-# %bb.280:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_281:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_281
-# %bb.282:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_283:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_285
-.LBB0_284:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_284
-.LBB0_285:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_286:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_286
-	jmp	.LBB0_825
-.LBB0_588:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_598
-# %bb.589:
-	and	al, sil
-	jne	.LBB0_598
-# %bb.590:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_592
-# %bb.591:
-	xor	esi, esi
-	jmp	.LBB0_594
-.LBB0_724:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_734
-# %bb.725:
-	and	al, sil
-	jne	.LBB0_734
-# %bb.726:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_728
-# %bb.727:
-	xor	esi, esi
-	jmp	.LBB0_730
-.LBB0_58:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_63
-# %bb.59:
-	and	al, dil
-	jne	.LBB0_63
-# %bb.60:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_61:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_61
-# %bb.62:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_63:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_65
-.LBB0_64:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_64
-.LBB0_65:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_66:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_66
-	jmp	.LBB0_825
-.LBB0_324:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_329
-# %bb.325:
-	and	al, dil
-	jne	.LBB0_329
-# %bb.326:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_327:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_327
-# %bb.328:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_329:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_331
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_330
-.LBB0_331:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_332:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_332
-	jmp	.LBB0_825
-.LBB0_191:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_196
-# %bb.192:
-	and	al, dil
-	jne	.LBB0_196
-# %bb.193:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_194:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_194
-# %bb.195:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_196:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_198
-.LBB0_197:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_197
-.LBB0_198:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_199:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_199
-	jmp	.LBB0_825
-.LBB0_457:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_462
-# %bb.458:
-	and	al, dil
-	jne	.LBB0_462
-# %bb.459:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_460:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_460
-# %bb.461:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_462:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_464
-.LBB0_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_463
-.LBB0_464:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_465
-	jmp	.LBB0_825
-.LBB0_647:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_652
-# %bb.648:
-	and	al, dil
-	jne	.LBB0_652
-# %bb.649:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_650:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_650
-# %bb.651:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_652:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_654
-.LBB0_653:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_653
-.LBB0_654:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_655:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_655
-	jmp	.LBB0_825
-.LBB0_783:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_788
-# %bb.784:
-	and	al, dil
-	jne	.LBB0_788
-# %bb.785:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_786
-# %bb.787:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_788:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_790
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_789
-.LBB0_790:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_791:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_791
-	jmp	.LBB0_825
-.LBB0_112:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_117
-# %bb.113:
-	and	al, dil
-	jne	.LBB0_117
-# %bb.114:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_115:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_115
-# %bb.116:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_117:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_119
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_118
-.LBB0_119:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_120:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_120
-	jmp	.LBB0_825
-.LBB0_378:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_383
-# %bb.379:
-	and	al, dil
-	jne	.LBB0_383
-# %bb.380:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_381:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_381
-# %bb.382:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_383:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_385
-.LBB0_384:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_384
-.LBB0_385:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_386
-	jmp	.LBB0_825
-.LBB0_245:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_250
-# %bb.246:
-	and	al, dil
-	jne	.LBB0_250
-# %bb.247:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_248:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_248
-# %bb.249:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_250:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_252
-.LBB0_251:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_251
-.LBB0_252:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_253:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_253
-	jmp	.LBB0_825
-.LBB0_511:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_516
-# %bb.512:
-	and	al, dil
-	jne	.LBB0_516
-# %bb.513:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_514
-# %bb.515:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_516:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_518
-.LBB0_517:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_517
-.LBB0_518:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_519:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_519
-	jmp	.LBB0_825
-.LBB0_70:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_75
-# %bb.71:
-	and	al, dil
-	jne	.LBB0_75
-# %bb.72:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_73:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_73
-# %bb.74:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_75:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_77
-.LBB0_76:                               # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_76
-.LBB0_77:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_78
-	jmp	.LBB0_825
-.LBB0_82:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_87
-# %bb.83:
-	and	al, dil
-	jne	.LBB0_87
-# %bb.84:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_85
-# %bb.86:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_87:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_89
-.LBB0_88:                               # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_88
-.LBB0_89:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_90
-	jmp	.LBB0_825
-.LBB0_203:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_208
-# %bb.204:
-	and	al, dil
-	jne	.LBB0_208
-# %bb.205:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_206:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_206
-# %bb.207:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_208:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_210
-.LBB0_209:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_209
-.LBB0_210:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_211:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_211
-	jmp	.LBB0_825
-.LBB0_215:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_220
-# %bb.216:
-	and	al, dil
-	jne	.LBB0_220
-# %bb.217:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_218:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_218
-# %bb.219:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_220:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_222
-.LBB0_221:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_221
-.LBB0_222:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_223:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_223
-	jmp	.LBB0_825
-.LBB0_124:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_129
-# %bb.125:
-	and	al, dil
-	jne	.LBB0_129
-# %bb.126:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_127:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_127
-# %bb.128:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_129:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_131
-.LBB0_130:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_130
-.LBB0_131:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_132:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_132
-	jmp	.LBB0_825
-.LBB0_136:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_141
-# %bb.137:
-	and	al, dil
-	jne	.LBB0_141
-# %bb.138:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_139:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_139
-# %bb.140:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_141:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_143
-.LBB0_142:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_142
-.LBB0_143:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_144:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_144
-	jmp	.LBB0_825
-.LBB0_257:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_262
-# %bb.258:
-	and	al, dil
-	jne	.LBB0_262
-# %bb.259:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_260:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_260
-# %bb.261:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_262:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_264
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_263
-.LBB0_264:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_265:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_265
-	jmp	.LBB0_825
-.LBB0_269:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_274
-# %bb.270:
-	and	al, dil
-	jne	.LBB0_274
-# %bb.271:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_272:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_272
-# %bb.273:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_274:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_276
-.LBB0_275:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_275
-.LBB0_276:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_277:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_277
-	jmp	.LBB0_825
-.LBB0_574:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_584
-# %bb.575:
-	and	al, sil
-	jne	.LBB0_584
-# %bb.576:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_578
-# %bb.577:
-	xor	esi, esi
-	jmp	.LBB0_580
-.LBB0_710:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_720
-# %bb.711:
-	and	al, sil
-	jne	.LBB0_720
-# %bb.712:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_714
-# %bb.713:
-	xor	esi, esi
-	jmp	.LBB0_716
-.LBB0_49:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_54
-# %bb.50:
-	and	al, dil
-	jne	.LBB0_54
-# %bb.51:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_52
-# %bb.53:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_54:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_56
-.LBB0_55:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_55
-.LBB0_56:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_57:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_57
-	jmp	.LBB0_825
-.LBB0_315:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_320
-# %bb.316:
-	and	al, dil
-	jne	.LBB0_320
-# %bb.317:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_318:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_318
-# %bb.319:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_320:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_322
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_321
-.LBB0_322:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_323:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_323
-	jmp	.LBB0_825
-.LBB0_182:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_187
-# %bb.183:
-	and	al, dil
-	jne	.LBB0_187
-# %bb.184:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_185:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_185
-# %bb.186:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_187:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_189
-.LBB0_188:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_188
-.LBB0_189:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_190:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_190
-	jmp	.LBB0_825
-.LBB0_448:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_453
-# %bb.449:
-	and	al, dil
-	jne	.LBB0_453
-# %bb.450:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_451:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_451
-# %bb.452:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_453:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_455
-.LBB0_454:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_454
-.LBB0_455:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_456
-	jmp	.LBB0_825
-.LBB0_638:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_643
-# %bb.639:
-	and	al, dil
-	jne	.LBB0_643
-# %bb.640:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_641:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_641
-# %bb.642:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_643:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_645
-.LBB0_644:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_644
-.LBB0_645:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_646:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_646
-	jmp	.LBB0_825
-.LBB0_774:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_779
-# %bb.775:
-	and	al, dil
-	jne	.LBB0_779
-# %bb.776:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_777:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_777
-# %bb.778:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_779:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_781
-.LBB0_780:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_780
-.LBB0_781:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_782:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_782
-	jmp	.LBB0_825
-.LBB0_103:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_108
-# %bb.104:
-	and	al, dil
-	jne	.LBB0_108
-# %bb.105:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_106:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_106
-# %bb.107:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_108:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_110
-.LBB0_109:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_109
-.LBB0_110:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_111
-	jmp	.LBB0_825
-.LBB0_369:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_374
-# %bb.370:
-	and	al, dil
-	jne	.LBB0_374
-# %bb.371:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_372:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_372
-# %bb.373:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_374:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_376
-.LBB0_375:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_375
-.LBB0_376:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_377:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_377
-	jmp	.LBB0_825
-.LBB0_236:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_241
-# %bb.237:
-	and	al, dil
-	jne	.LBB0_241
-# %bb.238:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_239:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_239
-# %bb.240:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_241:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_243
-.LBB0_242:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_242
-.LBB0_243:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_244:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_244
-	jmp	.LBB0_825
-.LBB0_502:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_507
-# %bb.503:
-	and	al, dil
-	jne	.LBB0_507
-# %bb.504:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_505:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_505
-# %bb.506:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_507:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_509
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_508
-.LBB0_509:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_510
-	jmp	.LBB0_825
-.LBB0_626:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_631
-# %bb.627:
-	and	al, dil
-	jne	.LBB0_631
-# %bb.628:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_629:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_629
-# %bb.630:
-	cmp	rsi, r10
-	jne	.LBB0_631
-	jmp	.LBB0_825
-.LBB0_762:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_767
-# %bb.763:
-	and	al, dil
-	jne	.LBB0_767
-# %bb.764:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_765
-# %bb.766:
-	cmp	rsi, r10
-	jne	.LBB0_767
-	jmp	.LBB0_825
-.LBB0_357:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_362
-# %bb.358:
-	and	al, dil
-	jne	.LBB0_362
-# %bb.359:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_360:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_360
-# %bb.361:
-	cmp	rsi, r10
-	jne	.LBB0_362
-	jmp	.LBB0_825
-.LBB0_490:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_495
-# %bb.491:
-	and	al, dil
-	jne	.LBB0_495
-# %bb.492:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_493:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_493
-# %bb.494:
-	cmp	rsi, r10
-	jne	.LBB0_495
-	jmp	.LBB0_825
-.LBB0_680:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_685
-# %bb.681:
-	and	al, dil
-	jne	.LBB0_685
-# %bb.682:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_683
-# %bb.684:
-	cmp	rsi, r10
-	jne	.LBB0_685
-	jmp	.LBB0_825
-.LBB0_816:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_821
-# %bb.817:
-	and	al, dil
-	jne	.LBB0_821
-# %bb.818:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_819:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_819
-# %bb.820:
-	cmp	rsi, r10
-	jne	.LBB0_821
-	jmp	.LBB0_825
-.LBB0_411:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_416
-# %bb.412:
-	and	al, dil
-	jne	.LBB0_416
-# %bb.413:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_414:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_414
-# %bb.415:
-	cmp	rsi, r10
-	jne	.LBB0_416
-	jmp	.LBB0_825
-.LBB0_544:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_549
-# %bb.545:
-	and	al, dil
-	jne	.LBB0_549
-# %bb.546:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_547:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_547
-# %bb.548:
-	cmp	rsi, r10
-	jne	.LBB0_549
-	jmp	.LBB0_825
-.LBB0_605:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_610
-# %bb.606:
-	and	al, dil
-	jne	.LBB0_610
-# %bb.607:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_608:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_608
-# %bb.609:
-	cmp	rsi, r10
-	jne	.LBB0_610
-	jmp	.LBB0_825
-.LBB0_617:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_622
-# %bb.618:
-	and	al, dil
-	jne	.LBB0_622
-# %bb.619:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_620:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_620
-# %bb.621:
-	cmp	rsi, r10
-	jne	.LBB0_622
-	jmp	.LBB0_825
-.LBB0_741:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_746
-# %bb.742:
-	and	al, dil
-	jne	.LBB0_746
-# %bb.743:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_744
-# %bb.745:
-	cmp	rsi, r10
-	jne	.LBB0_746
-	jmp	.LBB0_825
-.LBB0_753:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_758
-# %bb.754:
-	and	al, dil
-	jne	.LBB0_758
-# %bb.755:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_756:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_756
-# %bb.757:
-	cmp	rsi, r10
-	jne	.LBB0_758
-	jmp	.LBB0_825
-.LBB0_336:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_341
-# %bb.337:
-	and	al, dil
-	jne	.LBB0_341
-# %bb.338:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_339:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_339
-# %bb.340:
-	cmp	rsi, r10
-	jne	.LBB0_341
-	jmp	.LBB0_825
-.LBB0_348:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_353
-# %bb.349:
-	and	al, dil
-	jne	.LBB0_353
-# %bb.350:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_351:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_351
-# %bb.352:
-	cmp	rsi, r10
-	jne	.LBB0_353
-	jmp	.LBB0_825
-.LBB0_469:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_474
-# %bb.470:
-	and	al, dil
-	jne	.LBB0_474
-# %bb.471:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_472:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_472
-# %bb.473:
-	cmp	rsi, r10
-	jne	.LBB0_474
-	jmp	.LBB0_825
-.LBB0_481:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_486
-# %bb.482:
-	and	al, dil
-	jne	.LBB0_486
-# %bb.483:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_484:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_484
-# %bb.485:
-	cmp	rsi, r10
-	jne	.LBB0_486
-	jmp	.LBB0_825
-.LBB0_659:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_664
-# %bb.660:
-	and	al, dil
-	jne	.LBB0_664
-# %bb.661:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_662:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_662
-# %bb.663:
-	cmp	rsi, r10
-	jne	.LBB0_664
-	jmp	.LBB0_825
-.LBB0_671:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_676
-# %bb.672:
-	and	al, dil
-	jne	.LBB0_676
-# %bb.673:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_674:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_674
-# %bb.675:
-	cmp	rsi, r10
-	jne	.LBB0_676
-	jmp	.LBB0_825
-.LBB0_795:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_800
-# %bb.796:
-	and	al, dil
-	jne	.LBB0_800
-# %bb.797:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_798:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_798
-# %bb.799:
-	cmp	rsi, r10
-	jne	.LBB0_800
-	jmp	.LBB0_825
-.LBB0_807:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_812
-# %bb.808:
-	and	al, dil
-	jne	.LBB0_812
-# %bb.809:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_810:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_810
-# %bb.811:
-	cmp	rsi, r10
-	jne	.LBB0_812
-	jmp	.LBB0_825
-.LBB0_390:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_395
-# %bb.391:
-	and	al, dil
-	jne	.LBB0_395
-# %bb.392:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_393:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_393
-# %bb.394:
-	cmp	rsi, r10
-	jne	.LBB0_395
-	jmp	.LBB0_825
-.LBB0_402:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_407
-# %bb.403:
-	and	al, dil
-	jne	.LBB0_407
-# %bb.404:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_405:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_405
-# %bb.406:
-	cmp	rsi, r10
-	jne	.LBB0_407
-	jmp	.LBB0_825
-.LBB0_523:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_528
-# %bb.524:
-	and	al, dil
-	jne	.LBB0_528
-# %bb.525:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_526:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_526
-# %bb.527:
-	cmp	rsi, r10
-	jne	.LBB0_528
-	jmp	.LBB0_825
-.LBB0_535:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_540
-# %bb.536:
-	and	al, dil
-	jne	.LBB0_540
-# %bb.537:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_538:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_538
-# %bb.539:
-	cmp	rsi, r10
-	jne	.LBB0_540
-	jmp	.LBB0_825
-.LBB0_592:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_593:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_593
-.LBB0_594:
-	test	r9, r9
-	je	.LBB0_597
-# %bb.595:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_596:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_596
-.LBB0_597:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_598:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_600
-.LBB0_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_599
-.LBB0_600:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_601
-	jmp	.LBB0_825
-.LBB0_728:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_729:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_729
-.LBB0_730:
-	test	r9, r9
-	je	.LBB0_733
-# %bb.731:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_732:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_732
-.LBB0_733:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_734:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_736
-.LBB0_735:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_735
-.LBB0_736:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_737:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_737
-	jmp	.LBB0_825
-.LBB0_578:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_579:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_579
-.LBB0_580:
-	test	r9, r9
-	je	.LBB0_583
-# %bb.581:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_582:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_582
-.LBB0_583:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_584:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_586
-.LBB0_585:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_585
-.LBB0_586:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_587:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_587
-	jmp	.LBB0_825
-.LBB0_714:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_715:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_715
-.LBB0_716:
-	test	r9, r9
-	je	.LBB0_719
-# %bb.717:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_718:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_718
-.LBB0_719:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_720:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_722
-.LBB0_721:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_721
-.LBB0_722:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_723:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_723
-.LBB0_825:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	arithmetic_binary_avx2, .Lfunc_end0-arithmetic_binary_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_arr_scalar_avx2
-.LCPI1_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_avx2,@function
-arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB1_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB1_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB1_1109
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB1_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB1_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB1_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB1_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.10:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_11
-# %bb.265:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_445
-# %bb.266:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_445
-.LBB1_11:
-	xor	esi, esi
-.LBB1_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_667
-.LBB1_666:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_666
-.LBB1_667:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_668:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_668
-	jmp	.LBB1_1109
-.LBB1_12:
-	cmp	sil, 21
-	je	.LBB1_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB1_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB1_1109
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB1_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB1_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB1_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB1_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.21:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_22
-# %bb.268:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_448
-# %bb.269:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_448
-.LBB1_22:
-	xor	esi, esi
-.LBB1_673:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_675
-.LBB1_674:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_674
-.LBB1_675:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_676:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_676
-	jmp	.LBB1_1109
-.LBB1_23:
-	cmp	edi, 6
-	jg	.LBB1_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB1_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB1_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB1_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.29:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_30
-# %bb.271:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_451
-# %bb.272:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_451
-.LBB1_30:
-	xor	esi, esi
-.LBB1_681:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_683
-.LBB1_682:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_682
-.LBB1_683:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_684:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_684
-	jmp	.LBB1_1109
-.LBB1_31:
-	cmp	edi, 6
-	jg	.LBB1_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB1_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB1_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB1_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.37:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_38
-# %bb.274:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_454
-# %bb.275:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_454
-.LBB1_38:
-	xor	esi, esi
-.LBB1_689:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_691
-.LBB1_690:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_690
-.LBB1_691:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_692:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_692
-	jmp	.LBB1_1109
-.LBB1_39:
-	cmp	edi, 6
-	jg	.LBB1_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB1_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB1_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB1_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.45:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_46
-# %bb.277:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_457
-# %bb.278:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_457
-.LBB1_46:
-	xor	esi, esi
-.LBB1_697:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_699
-.LBB1_698:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_698
-.LBB1_699:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_700:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_700
-	jmp	.LBB1_1109
-.LBB1_47:
-	cmp	edi, 6
-	jg	.LBB1_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB1_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB1_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB1_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.53:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_54
-# %bb.280:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_460
-# %bb.281:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_460
-.LBB1_54:
-	xor	esi, esi
-.LBB1_705:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_707
-.LBB1_706:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_706
-.LBB1_707:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_708:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_708
-	jmp	.LBB1_1109
-.LBB1_55:
-	cmp	edi, 8
-	jle	.LBB1_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB1_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB1_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.60:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_61
-# %bb.283:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_463
-# %bb.284:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_463
-.LBB1_61:
-	xor	ecx, ecx
-.LBB1_713:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_715
-.LBB1_714:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_714
-.LBB1_715:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_716:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_716
-	jmp	.LBB1_1109
-.LBB1_62:
-	cmp	edi, 8
-	jle	.LBB1_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB1_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB1_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.67:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_68
-# %bb.286:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_466
-# %bb.287:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_466
-.LBB1_68:
-	xor	ecx, ecx
-.LBB1_721:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_723
-.LBB1_722:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_722
-.LBB1_723:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_724:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_724
-	jmp	.LBB1_1109
-.LBB1_69:
-	cmp	edi, 8
-	jle	.LBB1_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB1_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB1_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.74:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_75
-# %bb.289:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_469
-# %bb.290:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_469
-.LBB1_75:
-	xor	ecx, ecx
-.LBB1_729:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_731
-.LBB1_730:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_730
-.LBB1_731:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_732:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_732
-	jmp	.LBB1_1109
-.LBB1_76:
-	cmp	edi, 8
-	jle	.LBB1_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB1_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB1_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.81:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_82
-# %bb.292:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_472
-# %bb.293:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_472
-.LBB1_82:
-	xor	ecx, ecx
-.LBB1_737:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_739
-.LBB1_738:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_738
-.LBB1_739:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_740:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_740
-	jmp	.LBB1_1109
-.LBB1_83:
-	cmp	edi, 8
-	jle	.LBB1_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB1_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB1_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.88:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_89
-# %bb.295:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_475
-# %bb.296:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_475
-.LBB1_89:
-	xor	ecx, ecx
-.LBB1_745:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_747
-.LBB1_746:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_746
-.LBB1_747:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_748:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_748
-	jmp	.LBB1_1109
-.LBB1_90:
-	cmp	edi, 8
-	jle	.LBB1_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB1_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB1_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.95:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_96
-# %bb.298:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_478
-# %bb.299:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_478
-.LBB1_96:
-	xor	ecx, ecx
-.LBB1_753:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_755
-.LBB1_754:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_754
-.LBB1_755:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_756:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_756
-	jmp	.LBB1_1109
-.LBB1_97:
-	cmp	edi, 2
-	je	.LBB1_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.100:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_101
-# %bb.301:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_481
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_481
-.LBB1_101:
-	xor	edi, edi
-.LBB1_627:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_629
-.LBB1_628:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_628
-.LBB1_629:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_630:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_630
-	jmp	.LBB1_1109
-.LBB1_102:
-	cmp	edi, 2
-	je	.LBB1_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.105:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_106
-# %bb.304:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_483
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_483
-.LBB1_106:
-	xor	edi, edi
-.LBB1_637:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_639
-.LBB1_638:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_638
-.LBB1_639:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_640:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_640
-	jmp	.LBB1_1109
-.LBB1_107:
-	cmp	edi, 2
-	je	.LBB1_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.110:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_111
-# %bb.307:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_485
-# %bb.308:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_485
-.LBB1_111:
-	xor	esi, esi
-.LBB1_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_763
-.LBB1_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_762
-.LBB1_763:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_764
-	jmp	.LBB1_1109
-.LBB1_112:
-	cmp	edi, 2
-	je	.LBB1_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.115:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_116
-# %bb.310:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_488
-# %bb.311:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_488
-.LBB1_116:
-	xor	esi, esi
-.LBB1_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_771
-.LBB1_770:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_770
-.LBB1_771:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_772:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_772
-	jmp	.LBB1_1109
-.LBB1_117:
-	cmp	edi, 2
-	je	.LBB1_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.120:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_121
-# %bb.313:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_491
-# %bb.314:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_491
-.LBB1_121:
-	xor	esi, esi
-.LBB1_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_779
-.LBB1_778:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_778
-.LBB1_779:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_780:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_780
-	jmp	.LBB1_1109
-.LBB1_122:
-	cmp	edi, 2
-	je	.LBB1_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.125:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_126
-# %bb.316:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_494
-# %bb.317:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_494
-.LBB1_126:
-	xor	esi, esi
-.LBB1_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_787
-.LBB1_786:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_786
-.LBB1_787:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_788:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_788
-	jmp	.LBB1_1109
-.LBB1_127:
-	cmp	edi, 7
-	je	.LBB1_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.130:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_131
-# %bb.319:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_497
-# %bb.320:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_497
-.LBB1_131:
-	xor	esi, esi
-.LBB1_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_795
-.LBB1_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_794
-.LBB1_795:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_796
-	jmp	.LBB1_1109
-.LBB1_132:
-	cmp	edi, 7
-	je	.LBB1_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.135:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_136
-# %bb.322:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_500
-# %bb.323:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_500
-.LBB1_136:
-	xor	esi, esi
-.LBB1_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_803
-.LBB1_802:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_802
-.LBB1_803:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_804:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_804
-	jmp	.LBB1_1109
-.LBB1_137:
-	cmp	edi, 7
-	je	.LBB1_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.140:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_141
-# %bb.325:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_503
-# %bb.326:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_503
-.LBB1_141:
-	xor	esi, esi
-.LBB1_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_811
-.LBB1_810:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_810
-.LBB1_811:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_812:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_812
-	jmp	.LBB1_1109
-.LBB1_142:
-	cmp	edi, 7
-	je	.LBB1_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.145:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_146
-# %bb.328:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_506
-# %bb.329:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_506
-.LBB1_146:
-	xor	esi, esi
-.LBB1_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_819
-.LBB1_818:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_818
-.LBB1_819:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_820:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_820
-	jmp	.LBB1_1109
-.LBB1_147:
-	cmp	edi, 7
-	je	.LBB1_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.150:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_151
-# %bb.331:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_509
-# %bb.332:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_509
-.LBB1_151:
-	xor	esi, esi
-.LBB1_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_827
-.LBB1_826:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_826
-.LBB1_827:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_828:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_828
-	jmp	.LBB1_1109
-.LBB1_152:
-	cmp	edi, 7
-	je	.LBB1_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.155:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_156
-# %bb.334:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_512
-# %bb.335:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_512
-.LBB1_156:
-	xor	esi, esi
-.LBB1_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_835
-.LBB1_834:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_834
-.LBB1_835:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_836:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_836
-	jmp	.LBB1_1109
-.LBB1_157:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.158:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_159
-# %bb.337:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_515
-# %bb.338:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_515
-.LBB1_159:
-	xor	esi, esi
-.LBB1_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_843
-.LBB1_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_842
-.LBB1_843:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_844
-	jmp	.LBB1_1109
-.LBB1_160:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.161:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_162
-# %bb.340:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_518
-# %bb.341:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_518
-.LBB1_162:
-	xor	esi, esi
-.LBB1_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_851
-.LBB1_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_850
-.LBB1_851:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_852
-	jmp	.LBB1_1109
-.LBB1_163:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.164:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_165
-# %bb.343:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_521
-# %bb.344:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_521
-.LBB1_165:
-	xor	esi, esi
-.LBB1_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_859
-.LBB1_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_858
-.LBB1_859:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_860
-	jmp	.LBB1_1109
-.LBB1_166:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.167:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_168
-# %bb.346:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_524
-# %bb.347:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_524
-.LBB1_168:
-	xor	esi, esi
-.LBB1_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_867
-.LBB1_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_866
-.LBB1_867:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_868
-	jmp	.LBB1_1109
-.LBB1_169:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.170:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_171
-# %bb.349:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_527
-# %bb.350:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_527
-.LBB1_171:
-	xor	esi, esi
-.LBB1_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_875
-.LBB1_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_874
-.LBB1_875:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_876
-	jmp	.LBB1_1109
-.LBB1_172:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.173:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_174
-# %bb.352:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_530
-# %bb.353:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_530
-.LBB1_174:
-	xor	esi, esi
-.LBB1_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_883
-.LBB1_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_882
-.LBB1_883:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_884
-	jmp	.LBB1_1109
-.LBB1_175:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.176:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_177
-# %bb.355:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_533
-# %bb.356:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_533
-.LBB1_177:
-	xor	esi, esi
-.LBB1_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_891
-.LBB1_890:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_890
-.LBB1_891:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_892:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_892
-	jmp	.LBB1_1109
-.LBB1_178:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.179:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_180
-# %bb.358:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_536
-# %bb.359:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_536
-.LBB1_180:
-	xor	esi, esi
-.LBB1_897:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_899
-.LBB1_898:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_898
-.LBB1_899:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_900:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_900
-	jmp	.LBB1_1109
-.LBB1_181:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.182:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_183
-# %bb.361:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_539
-# %bb.362:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_539
-.LBB1_183:
-	xor	esi, esi
-.LBB1_905:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_907
-.LBB1_906:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_906
-.LBB1_907:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_908:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_908
-	jmp	.LBB1_1109
-.LBB1_184:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.185:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_186
-# %bb.364:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_542
-# %bb.365:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_542
-.LBB1_186:
-	xor	esi, esi
-.LBB1_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_915
-.LBB1_914:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_914
-.LBB1_915:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_916:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_916
-	jmp	.LBB1_1109
-.LBB1_187:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.188:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_189
-# %bb.367:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_545
-# %bb.368:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_545
-.LBB1_189:
-	xor	esi, esi
-.LBB1_921:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_923
-.LBB1_922:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_922
-.LBB1_923:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_924:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_924
-	jmp	.LBB1_1109
-.LBB1_190:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.191:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_192
-# %bb.370:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_548
-# %bb.371:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_548
-.LBB1_192:
-	xor	esi, esi
-.LBB1_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_931
-.LBB1_930:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_930
-.LBB1_931:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_932:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_932
-	jmp	.LBB1_1109
-.LBB1_193:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.194:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_195
-# %bb.373:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_551
-# %bb.374:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_551
-.LBB1_195:
-	xor	esi, esi
-.LBB1_937:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_939
-.LBB1_938:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_938
-.LBB1_939:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_940:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_940
-	jmp	.LBB1_1109
-.LBB1_196:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.197:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_198
-# %bb.376:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_554
-# %bb.377:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_554
-.LBB1_198:
-	xor	ecx, ecx
-.LBB1_945:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_947
-.LBB1_946:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_946
-.LBB1_947:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_948:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_948
-	jmp	.LBB1_1109
-.LBB1_199:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.200:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_201
-# %bb.379:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_557
-# %bb.380:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_557
-.LBB1_201:
-	xor	esi, esi
-.LBB1_953:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_955
-.LBB1_954:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_954
-.LBB1_955:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_956:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_956
-	jmp	.LBB1_1109
-.LBB1_202:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.203:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_204
-# %bb.382:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_560
-# %bb.383:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_560
-.LBB1_204:
-	xor	ecx, ecx
-.LBB1_961:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_963
-.LBB1_962:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_962
-.LBB1_963:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_964:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_964
-	jmp	.LBB1_1109
-.LBB1_205:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.206:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_207
-# %bb.385:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_563
-# %bb.386:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_563
-.LBB1_207:
-	xor	esi, esi
-.LBB1_969:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_971
-.LBB1_970:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_970
-.LBB1_971:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_972
-	jmp	.LBB1_1109
-.LBB1_208:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.209:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_210
-# %bb.388:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_566
-# %bb.389:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_566
-.LBB1_210:
-	xor	ecx, ecx
-.LBB1_977:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_979
-.LBB1_978:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_978
-.LBB1_979:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_980:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_980
-	jmp	.LBB1_1109
-.LBB1_211:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.212:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_213
-# %bb.391:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_569
-# %bb.392:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_569
-.LBB1_213:
-	xor	esi, esi
-.LBB1_985:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_987
-.LBB1_986:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_986
-.LBB1_987:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_988:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_988
-	jmp	.LBB1_1109
-.LBB1_214:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.215:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_216
-# %bb.394:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_572
-# %bb.395:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_572
-.LBB1_216:
-	xor	ecx, ecx
-.LBB1_993:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_995
-.LBB1_994:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_994
-.LBB1_995:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_996:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_996
-	jmp	.LBB1_1109
-.LBB1_217:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.218:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_219
-# %bb.397:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_575
-# %bb.398:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_575
-.LBB1_219:
-	xor	esi, esi
-.LBB1_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1003
-.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1002
-.LBB1_1003:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1004
-	jmp	.LBB1_1109
-.LBB1_220:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.221:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_222
-# %bb.400:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_578
-# %bb.401:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_578
-.LBB1_222:
-	xor	ecx, ecx
-.LBB1_1009:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_1011
-.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_1010
-.LBB1_1011:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_1012
-	jmp	.LBB1_1109
-.LBB1_223:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.224:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_225
-# %bb.403:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_581
-# %bb.404:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_581
-.LBB1_225:
-	xor	esi, esi
-.LBB1_1017:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1019
-.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1018
-.LBB1_1019:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1020
-	jmp	.LBB1_1109
-.LBB1_226:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.227:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_228
-# %bb.406:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_584
-# %bb.407:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_584
-.LBB1_228:
-	xor	ecx, ecx
-.LBB1_1025:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_1027
-.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_1026
-.LBB1_1027:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_1028
-	jmp	.LBB1_1109
-.LBB1_229:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.230:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_231
-# %bb.409:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_587
-# %bb.410:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_587
-.LBB1_231:
-	xor	edi, edi
-.LBB1_647:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_649
-.LBB1_648:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_648
-.LBB1_649:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_650:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_650
-	jmp	.LBB1_1109
-.LBB1_232:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.233:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_234
-# %bb.412:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_589
-# %bb.413:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_589
-.LBB1_234:
-	xor	edi, edi
-.LBB1_657:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_659
-.LBB1_658:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_658
-.LBB1_659:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_660:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_660
-	jmp	.LBB1_1109
-.LBB1_235:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.236:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_237
-# %bb.415:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_591
-# %bb.416:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_591
-.LBB1_237:
-	xor	esi, esi
-.LBB1_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1035
-.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1034
-.LBB1_1035:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1036
-	jmp	.LBB1_1109
-.LBB1_238:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.239:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_240
-# %bb.418:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_594
-# %bb.419:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_594
-.LBB1_240:
-	xor	esi, esi
-.LBB1_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1043
-.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1042
-.LBB1_1043:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1044
-	jmp	.LBB1_1109
-.LBB1_241:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.242:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_243
-# %bb.421:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_597
-# %bb.422:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_597
-.LBB1_243:
-	xor	esi, esi
-.LBB1_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1051
-.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1050
-.LBB1_1051:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1052
-	jmp	.LBB1_1109
-.LBB1_244:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.245:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_246
-# %bb.424:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_600
-# %bb.425:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_600
-.LBB1_246:
-	xor	esi, esi
-.LBB1_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1059
-.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1058
-.LBB1_1059:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1060
-	jmp	.LBB1_1109
-.LBB1_247:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.248:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_249
-# %bb.427:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_603
-# %bb.428:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_603
-.LBB1_249:
-	xor	esi, esi
-.LBB1_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1067
-.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1066
-.LBB1_1067:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1068
-	jmp	.LBB1_1109
-.LBB1_250:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.251:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_252
-# %bb.430:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_606
-# %bb.431:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_606
-.LBB1_252:
-	xor	esi, esi
-.LBB1_1073:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1075
-.LBB1_1074:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1074
-.LBB1_1075:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1076:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1076
-	jmp	.LBB1_1109
-.LBB1_253:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.254:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_255
-# %bb.433:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_609
-# %bb.434:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_609
-.LBB1_255:
-	xor	esi, esi
-.LBB1_1081:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1083
-.LBB1_1082:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1082
-.LBB1_1083:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1084:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1084
-	jmp	.LBB1_1109
-.LBB1_256:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.257:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_258
-# %bb.436:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_612
-# %bb.437:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_612
-.LBB1_258:
-	xor	esi, esi
-.LBB1_1089:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1091
-.LBB1_1090:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1090
-.LBB1_1091:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1092
-	jmp	.LBB1_1109
-.LBB1_259:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.260:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_261
-# %bb.439:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_615
-# %bb.440:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_615
-.LBB1_261:
-	xor	esi, esi
-.LBB1_1097:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1099
-.LBB1_1098:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1098
-.LBB1_1099:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1100:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1100
-	jmp	.LBB1_1109
-.LBB1_262:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.263:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_264
-# %bb.442:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_618
-# %bb.443:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_618
-.LBB1_264:
-	xor	esi, esi
-.LBB1_1105:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1107
-.LBB1_1106:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1106
-.LBB1_1107:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1108:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1108
-	jmp	.LBB1_1109
-.LBB1_445:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_661
-# %bb.446:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_447:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_447
-	jmp	.LBB1_662
-.LBB1_448:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_669
-# %bb.449:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_450:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_450
-	jmp	.LBB1_670
-.LBB1_451:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_677
-# %bb.452:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_453:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_453
-	jmp	.LBB1_678
-.LBB1_454:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_685
-# %bb.455:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_456:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_456
-	jmp	.LBB1_686
-.LBB1_457:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_693
-# %bb.458:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_459:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_459
-	jmp	.LBB1_694
-.LBB1_460:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_701
-# %bb.461:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_462:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_462
-	jmp	.LBB1_702
-.LBB1_463:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_709
-# %bb.464:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_465:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_465
-	jmp	.LBB1_710
-.LBB1_466:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_717
-# %bb.467:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_468:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_468
-	jmp	.LBB1_718
-.LBB1_469:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_725
-# %bb.470:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_471:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_471
-	jmp	.LBB1_726
-.LBB1_472:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_733
-# %bb.473:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_474:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB1_474
-	jmp	.LBB1_734
-.LBB1_475:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_741
-# %bb.476:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_477:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_477
-	jmp	.LBB1_742
-.LBB1_478:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_749
-# %bb.479:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_480:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB1_480
-	jmp	.LBB1_750
-.LBB1_481:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_621
-# %bb.482:
-	xor	esi, esi
-	jmp	.LBB1_623
-.LBB1_483:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_631
-# %bb.484:
-	xor	esi, esi
-	jmp	.LBB1_633
-.LBB1_485:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_757
-# %bb.486:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_487:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_487
-	jmp	.LBB1_758
-.LBB1_488:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_765
-# %bb.489:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_490:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_490
-	jmp	.LBB1_766
-.LBB1_491:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_773
-# %bb.492:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_493:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_493
-	jmp	.LBB1_774
-.LBB1_494:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_781
-# %bb.495:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_496:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_496
-	jmp	.LBB1_782
-.LBB1_497:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_789
-# %bb.498:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_499:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_499
-	jmp	.LBB1_790
-.LBB1_500:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_797
-# %bb.501:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_502:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_502
-	jmp	.LBB1_798
-.LBB1_503:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_805
-# %bb.504:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_505:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_505
-	jmp	.LBB1_806
-.LBB1_506:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_813
-# %bb.507:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_508:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_508
-	jmp	.LBB1_814
-.LBB1_509:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_821
-# %bb.510:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_511:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_511
-	jmp	.LBB1_822
-.LBB1_512:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_829
-# %bb.513:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_514
-	jmp	.LBB1_830
-.LBB1_515:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_837
-# %bb.516:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_517:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_517
-	jmp	.LBB1_838
-.LBB1_518:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_845
-# %bb.519:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_520:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_520
-	jmp	.LBB1_846
-.LBB1_521:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_853
-# %bb.522:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_523:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_523
-	jmp	.LBB1_854
-.LBB1_524:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_861
-# %bb.525:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_526:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_526
-	jmp	.LBB1_862
-.LBB1_527:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_869
-# %bb.528:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_529:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_529
-	jmp	.LBB1_870
-.LBB1_530:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_877
-# %bb.531:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_532:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_532
-	jmp	.LBB1_878
-.LBB1_533:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_885
-# %bb.534:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_535:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_535
-	jmp	.LBB1_886
-.LBB1_536:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_893
-# %bb.537:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_538:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_538
-	jmp	.LBB1_894
-.LBB1_539:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_901
-# %bb.540:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_541:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_541
-	jmp	.LBB1_902
-.LBB1_542:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_909
-# %bb.543:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_544:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_544
-	jmp	.LBB1_910
-.LBB1_545:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_917
-# %bb.546:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_547:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_547
-	jmp	.LBB1_918
-.LBB1_548:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_925
-# %bb.549:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_550:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_550
-	jmp	.LBB1_926
-.LBB1_551:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_933
-# %bb.552:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_553:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_553
-	jmp	.LBB1_934
-.LBB1_554:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_941
-# %bb.555:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_556:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_556
-	jmp	.LBB1_942
-.LBB1_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_949
-# %bb.558:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_559:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_559
-	jmp	.LBB1_950
-.LBB1_560:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_957
-# %bb.561:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_562:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_562
-	jmp	.LBB1_958
-.LBB1_563:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_965
-# %bb.564:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_565:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_565
-	jmp	.LBB1_966
-.LBB1_566:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_973
-# %bb.567:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_568:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_568
-	jmp	.LBB1_974
-.LBB1_569:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_981
-# %bb.570:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_571:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_571
-	jmp	.LBB1_982
-.LBB1_572:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_989
-# %bb.573:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_574:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB1_574
-	jmp	.LBB1_990
-.LBB1_575:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_997
-# %bb.576:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_577:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_577
-	jmp	.LBB1_998
-.LBB1_578:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_1005
-# %bb.579:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_580:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_580
-	jmp	.LBB1_1006
-.LBB1_581:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1013
-# %bb.582:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_583:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_583
-	jmp	.LBB1_1014
-.LBB1_584:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_1021
-# %bb.585:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_586:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB1_586
-	jmp	.LBB1_1022
-.LBB1_587:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_641
-# %bb.588:
-	xor	esi, esi
-	jmp	.LBB1_643
-.LBB1_589:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_651
-# %bb.590:
-	xor	esi, esi
-	jmp	.LBB1_653
-.LBB1_591:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1029
-# %bb.592:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_593
-	jmp	.LBB1_1030
-.LBB1_594:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1037
-# %bb.595:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_596:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_596
-	jmp	.LBB1_1038
-.LBB1_597:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1045
-# %bb.598:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_599
-	jmp	.LBB1_1046
-.LBB1_600:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1053
-# %bb.601:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_602:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_602
-	jmp	.LBB1_1054
-.LBB1_603:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1061
-# %bb.604:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_605:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_605
-	jmp	.LBB1_1062
-.LBB1_606:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1069
-# %bb.607:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_608:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_608
-	jmp	.LBB1_1070
-.LBB1_609:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1077
-# %bb.610:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_611:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_611
-	jmp	.LBB1_1078
-.LBB1_612:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1085
-# %bb.613:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_614:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_614
-	jmp	.LBB1_1086
-.LBB1_615:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1093
-# %bb.616:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_617
-	jmp	.LBB1_1094
-.LBB1_618:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1101
-# %bb.619:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_620:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_620
-	jmp	.LBB1_1102
-.LBB1_621:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_622
-.LBB1_623:
-	test	r9, r9
-	je	.LBB1_626
-# %bb.624:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_625:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_625
-.LBB1_626:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_627
-.LBB1_631:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_632:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_632
-.LBB1_633:
-	test	r9, r9
-	je	.LBB1_636
-# %bb.634:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_635:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_635
-.LBB1_636:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_637
-.LBB1_641:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_642:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_642
-.LBB1_643:
-	test	r9, r9
-	je	.LBB1_646
-# %bb.644:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_645:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_645
-.LBB1_646:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_647
-.LBB1_651:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_652:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_652
-.LBB1_653:
-	test	r9, r9
-	je	.LBB1_656
-# %bb.654:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_655:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_655
-.LBB1_656:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_657
-.LBB1_661:
-	xor	edi, edi
-.LBB1_662:
-	test	r9b, 1
-	je	.LBB1_664
-# %bb.663:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_664:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_665
-.LBB1_669:
-	xor	edi, edi
-.LBB1_670:
-	test	r9b, 1
-	je	.LBB1_672
-# %bb.671:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_672:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_673
-.LBB1_677:
-	xor	edi, edi
-.LBB1_678:
-	test	r9b, 1
-	je	.LBB1_680
-# %bb.679:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_680:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_681
-.LBB1_685:
-	xor	edi, edi
-.LBB1_686:
-	test	r9b, 1
-	je	.LBB1_688
-# %bb.687:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_688:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_689
-.LBB1_693:
-	xor	edi, edi
-.LBB1_694:
-	test	r9b, 1
-	je	.LBB1_696
-# %bb.695:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_696:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_697
-.LBB1_701:
-	xor	edi, edi
-.LBB1_702:
-	test	r9b, 1
-	je	.LBB1_704
-# %bb.703:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_704:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_705
-.LBB1_709:
-	xor	edi, edi
-.LBB1_710:
-	test	r9b, 1
-	je	.LBB1_712
-# %bb.711:
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_712:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_713
-.LBB1_717:
-	xor	edi, edi
-.LBB1_718:
-	test	r9b, 1
-	je	.LBB1_720
-# %bb.719:
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_720:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_721
-.LBB1_725:
-	xor	edi, edi
-.LBB1_726:
-	test	r9b, 1
-	je	.LBB1_728
-# %bb.727:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_728:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_729
-.LBB1_733:
-	xor	esi, esi
-.LBB1_734:
-	test	r9b, 1
-	je	.LBB1_736
-# %bb.735:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-.LBB1_736:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_737
-.LBB1_741:
-	xor	edi, edi
-.LBB1_742:
-	test	r9b, 1
-	je	.LBB1_744
-# %bb.743:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_744:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_745
-.LBB1_749:
-	xor	esi, esi
-.LBB1_750:
-	test	r9b, 1
-	je	.LBB1_752
-# %bb.751:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-.LBB1_752:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_753
-.LBB1_757:
-	xor	edi, edi
-.LBB1_758:
-	test	r9b, 1
-	je	.LBB1_760
-# %bb.759:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_760:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_761
-.LBB1_765:
-	xor	edi, edi
-.LBB1_766:
-	test	r9b, 1
-	je	.LBB1_768
-# %bb.767:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_768:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_769
-.LBB1_773:
-	xor	edi, edi
-.LBB1_774:
-	test	r9b, 1
-	je	.LBB1_776
-# %bb.775:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_776:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_777
-.LBB1_781:
-	xor	edi, edi
-.LBB1_782:
-	test	r9b, 1
-	je	.LBB1_784
-# %bb.783:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_784:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_785
-.LBB1_789:
-	xor	edi, edi
-.LBB1_790:
-	test	r9b, 1
-	je	.LBB1_792
-# %bb.791:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_792:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_793
-.LBB1_797:
-	xor	edi, edi
-.LBB1_798:
-	test	r9b, 1
-	je	.LBB1_800
-# %bb.799:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_800:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_801
-.LBB1_805:
-	xor	edi, edi
-.LBB1_806:
-	test	r9b, 1
-	je	.LBB1_808
-# %bb.807:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_808:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_809
-.LBB1_813:
-	xor	edi, edi
-.LBB1_814:
-	test	r9b, 1
-	je	.LBB1_816
-# %bb.815:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_816:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_817
-.LBB1_821:
-	xor	edi, edi
-.LBB1_822:
-	test	r9b, 1
-	je	.LBB1_824
-# %bb.823:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_824:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_825
-.LBB1_829:
-	xor	edi, edi
-.LBB1_830:
-	test	r9b, 1
-	je	.LBB1_832
-# %bb.831:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_832:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_833
-.LBB1_837:
-	xor	edi, edi
-.LBB1_838:
-	test	r9b, 1
-	je	.LBB1_840
-# %bb.839:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_840:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_841
-.LBB1_845:
-	xor	edi, edi
-.LBB1_846:
-	test	r9b, 1
-	je	.LBB1_848
-# %bb.847:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_848:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_849
-.LBB1_853:
-	xor	edi, edi
-.LBB1_854:
-	test	r9b, 1
-	je	.LBB1_856
-# %bb.855:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_856:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_857
-.LBB1_861:
-	xor	edi, edi
-.LBB1_862:
-	test	r9b, 1
-	je	.LBB1_864
-# %bb.863:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_864:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_865
-.LBB1_869:
-	xor	edi, edi
-.LBB1_870:
-	test	r9b, 1
-	je	.LBB1_872
-# %bb.871:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_872:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_873
-.LBB1_877:
-	xor	edi, edi
-.LBB1_878:
-	test	r9b, 1
-	je	.LBB1_880
-# %bb.879:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_880:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_881
-.LBB1_885:
-	xor	edi, edi
-.LBB1_886:
-	test	r9b, 1
-	je	.LBB1_888
-# %bb.887:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_888:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_889
-.LBB1_893:
-	xor	edi, edi
-.LBB1_894:
-	test	r9b, 1
-	je	.LBB1_896
-# %bb.895:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_896:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_897
-.LBB1_901:
-	xor	edi, edi
-.LBB1_902:
-	test	r9b, 1
-	je	.LBB1_904
-# %bb.903:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_904:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_905
-.LBB1_909:
-	xor	edi, edi
-.LBB1_910:
-	test	r9b, 1
-	je	.LBB1_912
-# %bb.911:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_912:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_913
-.LBB1_917:
-	xor	edi, edi
-.LBB1_918:
-	test	r9b, 1
-	je	.LBB1_920
-# %bb.919:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_920:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_921
-.LBB1_925:
-	xor	edi, edi
-.LBB1_926:
-	test	r9b, 1
-	je	.LBB1_928
-# %bb.927:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_928:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_929
-.LBB1_933:
-	xor	edi, edi
-.LBB1_934:
-	test	r9b, 1
-	je	.LBB1_936
-# %bb.935:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_936:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_937
-.LBB1_941:
-	xor	edi, edi
-.LBB1_942:
-	test	r9b, 1
-	je	.LBB1_944
-# %bb.943:
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_944:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_945
-.LBB1_949:
-	xor	edi, edi
-.LBB1_950:
-	test	r9b, 1
-	je	.LBB1_952
-# %bb.951:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_952:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_953
-.LBB1_957:
-	xor	edi, edi
-.LBB1_958:
-	test	r9b, 1
-	je	.LBB1_960
-# %bb.959:
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_960:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_961
-.LBB1_965:
-	xor	edi, edi
-.LBB1_966:
-	test	r9b, 1
-	je	.LBB1_968
-# %bb.967:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_968:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_969
-.LBB1_973:
-	xor	edi, edi
-.LBB1_974:
-	test	r9b, 1
-	je	.LBB1_976
-# %bb.975:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_976:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_977
-.LBB1_981:
-	xor	edi, edi
-.LBB1_982:
-	test	r9b, 1
-	je	.LBB1_984
-# %bb.983:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_984:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_985
-.LBB1_989:
-	xor	esi, esi
-.LBB1_990:
-	test	r9b, 1
-	je	.LBB1_992
-# %bb.991:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-.LBB1_992:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_993
-.LBB1_997:
-	xor	edi, edi
-.LBB1_998:
-	test	r9b, 1
-	je	.LBB1_1000
-# %bb.999:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_1000:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1001
-.LBB1_1005:
-	xor	edi, edi
-.LBB1_1006:
-	test	r9b, 1
-	je	.LBB1_1008
-# %bb.1007:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_1008:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_1009
-.LBB1_1013:
-	xor	edi, edi
-.LBB1_1014:
-	test	r9b, 1
-	je	.LBB1_1016
-# %bb.1015:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_1016:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1017
-.LBB1_1021:
-	xor	esi, esi
-.LBB1_1022:
-	test	r9b, 1
-	je	.LBB1_1024
-# %bb.1023:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-.LBB1_1024:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_1025
-.LBB1_1029:
-	xor	edi, edi
-.LBB1_1030:
-	test	r9b, 1
-	je	.LBB1_1032
-# %bb.1031:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1032:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1033
-.LBB1_1037:
-	xor	edi, edi
-.LBB1_1038:
-	test	r9b, 1
-	je	.LBB1_1040
-# %bb.1039:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1040:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1041
-.LBB1_1045:
-	xor	edi, edi
-.LBB1_1046:
-	test	r9b, 1
-	je	.LBB1_1048
-# %bb.1047:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1048:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1049
-.LBB1_1053:
-	xor	edi, edi
-.LBB1_1054:
-	test	r9b, 1
-	je	.LBB1_1056
-# %bb.1055:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1056:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1057
-.LBB1_1061:
-	xor	edi, edi
-.LBB1_1062:
-	test	r9b, 1
-	je	.LBB1_1064
-# %bb.1063:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1064:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1065
-.LBB1_1069:
-	xor	edi, edi
-.LBB1_1070:
-	test	r9b, 1
-	je	.LBB1_1072
-# %bb.1071:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1072:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1073
-.LBB1_1077:
-	xor	edi, edi
-.LBB1_1078:
-	test	r9b, 1
-	je	.LBB1_1080
-# %bb.1079:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1080:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1081
-.LBB1_1085:
-	xor	edi, edi
-.LBB1_1086:
-	test	r9b, 1
-	je	.LBB1_1088
-# %bb.1087:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1088:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1089
-.LBB1_1093:
-	xor	edi, edi
-.LBB1_1094:
-	test	r9b, 1
-	je	.LBB1_1096
-# %bb.1095:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1096:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1097
-.LBB1_1101:
-	xor	edi, edi
-.LBB1_1102:
-	test	r9b, 1
-	je	.LBB1_1104
-# %bb.1103:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1104:
-	cmp	rsi, r10
-	jne	.LBB1_1105
-.LBB1_1109:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	arithmetic_arr_scalar_avx2, .Lfunc_end1-arithmetic_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_scalar_arr_avx2
-.LCPI2_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_scalar_arr_avx2,@function
-arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB2_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB2_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB2_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB2_1109
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB2_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB2_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB2_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB2_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.10:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_11
-# %bb.265:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_445
-# %bb.266:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_445
-.LBB2_11:
-	xor	esi, esi
-.LBB2_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_667
-.LBB2_666:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_666
-.LBB2_667:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_668:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_668
-	jmp	.LBB2_1109
-.LBB2_12:
-	cmp	sil, 21
-	je	.LBB2_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB2_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB2_1109
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB2_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB2_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB2_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB2_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.21:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_22
-# %bb.268:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_448
-# %bb.269:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_448
-.LBB2_22:
-	xor	esi, esi
-.LBB2_673:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_675
-.LBB2_674:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_674
-.LBB2_675:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_676:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_676
-	jmp	.LBB2_1109
-.LBB2_23:
-	cmp	edi, 6
-	jg	.LBB2_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB2_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB2_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB2_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.29:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_30
-# %bb.271:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_451
-# %bb.272:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_451
-.LBB2_30:
-	xor	esi, esi
-.LBB2_681:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_683
-.LBB2_682:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_682
-.LBB2_683:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_684:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_684
-	jmp	.LBB2_1109
-.LBB2_31:
-	cmp	edi, 6
-	jg	.LBB2_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB2_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB2_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB2_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.37:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_38
-# %bb.274:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_454
-# %bb.275:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_454
-.LBB2_38:
-	xor	esi, esi
-.LBB2_689:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_691
-.LBB2_690:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_690
-.LBB2_691:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_692:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_692
-	jmp	.LBB2_1109
-.LBB2_39:
-	cmp	edi, 6
-	jg	.LBB2_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB2_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB2_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB2_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.45:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_46
-# %bb.277:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_457
-# %bb.278:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_457
-.LBB2_46:
-	xor	esi, esi
-.LBB2_697:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_699
-.LBB2_698:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_698
-.LBB2_699:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_700:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_700
-	jmp	.LBB2_1109
-.LBB2_47:
-	cmp	edi, 6
-	jg	.LBB2_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB2_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB2_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB2_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.53:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_54
-# %bb.280:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_460
-# %bb.281:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_460
-.LBB2_54:
-	xor	esi, esi
-.LBB2_705:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_707
-.LBB2_706:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_706
-.LBB2_707:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_708:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_708
-	jmp	.LBB2_1109
-.LBB2_55:
-	cmp	edi, 8
-	jle	.LBB2_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB2_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB2_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.60:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_61
-# %bb.283:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_463
-# %bb.284:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_463
-.LBB2_61:
-	xor	edx, edx
-.LBB2_713:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_715
-.LBB2_714:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_714
-.LBB2_715:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_716:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_716
-	jmp	.LBB2_1109
-.LBB2_62:
-	cmp	edi, 8
-	jle	.LBB2_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB2_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB2_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.67:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_68
-# %bb.286:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_466
-# %bb.287:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_466
-.LBB2_68:
-	xor	edx, edx
-.LBB2_721:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_723
-.LBB2_722:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_722
-.LBB2_723:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_724:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_724
-	jmp	.LBB2_1109
-.LBB2_69:
-	cmp	edi, 8
-	jle	.LBB2_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB2_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB2_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.74:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_75
-# %bb.289:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_469
-# %bb.290:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_469
-.LBB2_75:
-	xor	edx, edx
-.LBB2_729:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_731
-.LBB2_730:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_730
-.LBB2_731:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_732:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_732
-	jmp	.LBB2_1109
-.LBB2_76:
-	cmp	edi, 8
-	jle	.LBB2_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB2_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB2_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.81:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_82
-# %bb.292:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_472
-# %bb.293:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_472
-.LBB2_82:
-	xor	edx, edx
-.LBB2_737:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_739
-.LBB2_738:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_738
-.LBB2_739:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_740:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_740
-	jmp	.LBB2_1109
-.LBB2_83:
-	cmp	edi, 8
-	jle	.LBB2_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB2_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB2_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.88:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_89
-# %bb.295:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_475
-# %bb.296:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_475
-.LBB2_89:
-	xor	edx, edx
-.LBB2_745:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_747
-.LBB2_746:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_746
-.LBB2_747:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_748:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_748
-	jmp	.LBB2_1109
-.LBB2_90:
-	cmp	edi, 8
-	jle	.LBB2_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB2_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB2_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.95:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_96
-# %bb.298:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_478
-# %bb.299:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_478
-.LBB2_96:
-	xor	edx, edx
-.LBB2_753:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_755
-.LBB2_754:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_754
-.LBB2_755:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_756:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_756
-	jmp	.LBB2_1109
-.LBB2_97:
-	cmp	edi, 2
-	je	.LBB2_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.100:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_101
-# %bb.301:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_481
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_481
-.LBB2_101:
-	xor	edi, edi
-.LBB2_627:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_629
-.LBB2_628:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_628
-.LBB2_629:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_630:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_630
-	jmp	.LBB2_1109
-.LBB2_102:
-	cmp	edi, 2
-	je	.LBB2_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.105:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_106
-# %bb.304:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_483
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_483
-.LBB2_106:
-	xor	edi, edi
-.LBB2_637:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_639
-.LBB2_638:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_638
-.LBB2_639:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_640:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_640
-	jmp	.LBB2_1109
-.LBB2_107:
-	cmp	edi, 2
-	je	.LBB2_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.110:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_111
-# %bb.307:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_485
-# %bb.308:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_485
-.LBB2_111:
-	xor	esi, esi
-.LBB2_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_763
-.LBB2_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_762
-.LBB2_763:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_764
-	jmp	.LBB2_1109
-.LBB2_112:
-	cmp	edi, 2
-	je	.LBB2_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.115:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_116
-# %bb.310:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_488
-# %bb.311:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_488
-.LBB2_116:
-	xor	esi, esi
-.LBB2_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_771
-.LBB2_770:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_770
-.LBB2_771:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_772:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_772
-	jmp	.LBB2_1109
-.LBB2_117:
-	cmp	edi, 2
-	je	.LBB2_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.120:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_121
-# %bb.313:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_491
-# %bb.314:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_491
-.LBB2_121:
-	xor	esi, esi
-.LBB2_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_779
-.LBB2_778:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_778
-.LBB2_779:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_780:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_780
-	jmp	.LBB2_1109
-.LBB2_122:
-	cmp	edi, 2
-	je	.LBB2_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.125:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_126
-# %bb.316:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_494
-# %bb.317:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_494
-.LBB2_126:
-	xor	esi, esi
-.LBB2_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_787
-.LBB2_786:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_786
-.LBB2_787:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_788:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_788
-	jmp	.LBB2_1109
-.LBB2_127:
-	cmp	edi, 7
-	je	.LBB2_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.130:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_131
-# %bb.319:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_497
-# %bb.320:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_497
-.LBB2_131:
-	xor	esi, esi
-.LBB2_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_795
-.LBB2_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_794
-.LBB2_795:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_796
-	jmp	.LBB2_1109
-.LBB2_132:
-	cmp	edi, 7
-	je	.LBB2_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.135:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_136
-# %bb.322:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_500
-# %bb.323:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_500
-.LBB2_136:
-	xor	esi, esi
-.LBB2_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_803
-.LBB2_802:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_802
-.LBB2_803:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_804:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_804
-	jmp	.LBB2_1109
-.LBB2_137:
-	cmp	edi, 7
-	je	.LBB2_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.140:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_141
-# %bb.325:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_503
-# %bb.326:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_503
-.LBB2_141:
-	xor	esi, esi
-.LBB2_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_811
-.LBB2_810:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_810
-.LBB2_811:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_812:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_812
-	jmp	.LBB2_1109
-.LBB2_142:
-	cmp	edi, 7
-	je	.LBB2_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.145:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_146
-# %bb.328:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_506
-# %bb.329:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_506
-.LBB2_146:
-	xor	esi, esi
-.LBB2_817:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_819
-.LBB2_818:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_818
-.LBB2_819:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_820:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_820
-	jmp	.LBB2_1109
-.LBB2_147:
-	cmp	edi, 7
-	je	.LBB2_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.150:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_151
-# %bb.331:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_509
-# %bb.332:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_509
-.LBB2_151:
-	xor	esi, esi
-.LBB2_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_827
-.LBB2_826:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_826
-.LBB2_827:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_828:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_828
-	jmp	.LBB2_1109
-.LBB2_152:
-	cmp	edi, 7
-	je	.LBB2_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.155:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_156
-# %bb.334:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_512
-# %bb.335:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_512
-.LBB2_156:
-	xor	esi, esi
-.LBB2_833:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_835
-.LBB2_834:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_834
-.LBB2_835:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_836:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_836
-	jmp	.LBB2_1109
-.LBB2_157:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.158:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_159
-# %bb.337:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_515
-# %bb.338:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_515
-.LBB2_159:
-	xor	esi, esi
-.LBB2_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_843
-.LBB2_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_842
-.LBB2_843:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_844
-	jmp	.LBB2_1109
-.LBB2_160:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.161:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_162
-# %bb.340:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_518
-# %bb.341:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_518
-.LBB2_162:
-	xor	esi, esi
-.LBB2_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_851
-.LBB2_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_850
-.LBB2_851:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_852
-	jmp	.LBB2_1109
-.LBB2_163:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.164:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_165
-# %bb.343:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_521
-# %bb.344:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_521
-.LBB2_165:
-	xor	esi, esi
-.LBB2_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_859
-.LBB2_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_858
-.LBB2_859:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_860
-	jmp	.LBB2_1109
-.LBB2_166:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.167:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_168
-# %bb.346:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_524
-# %bb.347:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_524
-.LBB2_168:
-	xor	esi, esi
-.LBB2_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_867
-.LBB2_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_866
-.LBB2_867:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_868
-	jmp	.LBB2_1109
-.LBB2_169:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.170:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_171
-# %bb.349:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_527
-# %bb.350:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_527
-.LBB2_171:
-	xor	esi, esi
-.LBB2_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_875
-.LBB2_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_874
-.LBB2_875:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_876
-	jmp	.LBB2_1109
-.LBB2_172:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.173:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_174
-# %bb.352:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_530
-# %bb.353:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_530
-.LBB2_174:
-	xor	esi, esi
-.LBB2_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_883
-.LBB2_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_882
-.LBB2_883:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_884
-	jmp	.LBB2_1109
-.LBB2_175:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.176:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_177
-# %bb.355:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_533
-# %bb.356:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_533
-.LBB2_177:
-	xor	esi, esi
-.LBB2_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_891
-.LBB2_890:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_890
-.LBB2_891:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_892:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_892
-	jmp	.LBB2_1109
-.LBB2_178:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.179:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_180
-# %bb.358:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_536
-# %bb.359:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_536
-.LBB2_180:
-	xor	esi, esi
-.LBB2_897:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_899
-.LBB2_898:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_898
-.LBB2_899:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_900:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_900
-	jmp	.LBB2_1109
-.LBB2_181:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.182:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_183
-# %bb.361:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_539
-# %bb.362:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_539
-.LBB2_183:
-	xor	esi, esi
-.LBB2_905:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_907
-.LBB2_906:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_906
-.LBB2_907:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_908:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_908
-	jmp	.LBB2_1109
-.LBB2_184:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.185:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_186
-# %bb.364:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_542
-# %bb.365:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_542
-.LBB2_186:
-	xor	esi, esi
-.LBB2_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_915
-.LBB2_914:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_914
-.LBB2_915:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_916:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_916
-	jmp	.LBB2_1109
-.LBB2_187:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.188:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_189
-# %bb.367:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_545
-# %bb.368:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_545
-.LBB2_189:
-	xor	esi, esi
-.LBB2_921:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_923
-.LBB2_922:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_922
-.LBB2_923:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_924:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_924
-	jmp	.LBB2_1109
-.LBB2_190:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.191:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_192
-# %bb.370:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_548
-# %bb.371:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_548
-.LBB2_192:
-	xor	esi, esi
-.LBB2_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_931
-.LBB2_930:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_930
-.LBB2_931:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_932:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_932
-	jmp	.LBB2_1109
-.LBB2_193:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.194:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_195
-# %bb.373:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_551
-# %bb.374:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_551
-.LBB2_195:
-	xor	esi, esi
-.LBB2_937:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_939
-.LBB2_938:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_938
-.LBB2_939:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_940:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_940
-	jmp	.LBB2_1109
-.LBB2_196:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.197:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_198
-# %bb.376:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_554
-# %bb.377:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_554
-.LBB2_198:
-	xor	edx, edx
-.LBB2_945:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_947
-.LBB2_946:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_946
-.LBB2_947:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_948:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_948
-	jmp	.LBB2_1109
-.LBB2_199:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.200:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_201
-# %bb.379:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_557
-# %bb.380:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_557
-.LBB2_201:
-	xor	esi, esi
-.LBB2_953:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_955
-.LBB2_954:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_954
-.LBB2_955:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_956:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_956
-	jmp	.LBB2_1109
-.LBB2_202:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.203:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_204
-# %bb.382:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_560
-# %bb.383:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_560
-.LBB2_204:
-	xor	edx, edx
-.LBB2_961:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_963
-.LBB2_962:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_962
-.LBB2_963:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_964:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_964
-	jmp	.LBB2_1109
-.LBB2_205:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.206:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_207
-# %bb.385:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_563
-# %bb.386:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_563
-.LBB2_207:
-	xor	esi, esi
-.LBB2_969:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_971
-.LBB2_970:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_970
-.LBB2_971:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_972
-	jmp	.LBB2_1109
-.LBB2_208:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.209:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_210
-# %bb.388:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_566
-# %bb.389:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_566
-.LBB2_210:
-	xor	edx, edx
-.LBB2_977:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_979
-.LBB2_978:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_978
-.LBB2_979:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_980:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_980
-	jmp	.LBB2_1109
-.LBB2_211:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.212:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_213
-# %bb.391:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_569
-# %bb.392:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_569
-.LBB2_213:
-	xor	esi, esi
-.LBB2_985:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_987
-.LBB2_986:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_986
-.LBB2_987:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_988:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_988
-	jmp	.LBB2_1109
-.LBB2_214:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.215:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_216
-# %bb.394:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_572
-# %bb.395:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_572
-.LBB2_216:
-	xor	edx, edx
-.LBB2_993:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_995
-.LBB2_994:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_994
-.LBB2_995:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_996:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_996
-	jmp	.LBB2_1109
-.LBB2_217:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.218:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_219
-# %bb.397:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_575
-# %bb.398:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_575
-.LBB2_219:
-	xor	esi, esi
-.LBB2_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1003
-.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1002
-.LBB2_1003:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1004
-	jmp	.LBB2_1109
-.LBB2_220:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.221:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_222
-# %bb.400:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_578
-# %bb.401:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_578
-.LBB2_222:
-	xor	edx, edx
-.LBB2_1009:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_1011
-.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_1010
-.LBB2_1011:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_1012
-	jmp	.LBB2_1109
-.LBB2_223:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.224:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_225
-# %bb.403:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_581
-# %bb.404:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_581
-.LBB2_225:
-	xor	esi, esi
-.LBB2_1017:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1019
-.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1018
-.LBB2_1019:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1020
-	jmp	.LBB2_1109
-.LBB2_226:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.227:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_228
-# %bb.406:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_584
-# %bb.407:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_584
-.LBB2_228:
-	xor	edx, edx
-.LBB2_1025:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_1027
-.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_1026
-.LBB2_1027:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_1028
-	jmp	.LBB2_1109
-.LBB2_229:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.230:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_231
-# %bb.409:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_587
-# %bb.410:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_587
-.LBB2_231:
-	xor	edi, edi
-.LBB2_647:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_649
-.LBB2_648:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_648
-.LBB2_649:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_650:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_650
-	jmp	.LBB2_1109
-.LBB2_232:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.233:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_234
-# %bb.412:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_589
-# %bb.413:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_589
-.LBB2_234:
-	xor	edi, edi
-.LBB2_657:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_659
-.LBB2_658:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_658
-.LBB2_659:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_660:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_660
-	jmp	.LBB2_1109
-.LBB2_235:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.236:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_237
-# %bb.415:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_591
-# %bb.416:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_591
-.LBB2_237:
-	xor	esi, esi
-.LBB2_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1035
-.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1034
-.LBB2_1035:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1036
-	jmp	.LBB2_1109
-.LBB2_238:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.239:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_240
-# %bb.418:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_594
-# %bb.419:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_594
-.LBB2_240:
-	xor	esi, esi
-.LBB2_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1043
-.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1042
-.LBB2_1043:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1044
-	jmp	.LBB2_1109
-.LBB2_241:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.242:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_243
-# %bb.421:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_597
-# %bb.422:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_597
-.LBB2_243:
-	xor	esi, esi
-.LBB2_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1051
-.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1050
-.LBB2_1051:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1052
-	jmp	.LBB2_1109
-.LBB2_244:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.245:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_246
-# %bb.424:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_600
-# %bb.425:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_600
-.LBB2_246:
-	xor	esi, esi
-.LBB2_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1059
-.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1058
-.LBB2_1059:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1060
-	jmp	.LBB2_1109
-.LBB2_247:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.248:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_249
-# %bb.427:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_603
-# %bb.428:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_603
-.LBB2_249:
-	xor	esi, esi
-.LBB2_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1067
-.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1066
-.LBB2_1067:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1068
-	jmp	.LBB2_1109
-.LBB2_250:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.251:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_252
-# %bb.430:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_606
-# %bb.431:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_606
-.LBB2_252:
-	xor	esi, esi
-.LBB2_1073:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1075
-.LBB2_1074:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1074
-.LBB2_1075:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1076:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1076
-	jmp	.LBB2_1109
-.LBB2_253:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.254:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_255
-# %bb.433:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_609
-# %bb.434:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_609
-.LBB2_255:
-	xor	esi, esi
-.LBB2_1081:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1083
-.LBB2_1082:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1082
-.LBB2_1083:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1084:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1084
-	jmp	.LBB2_1109
-.LBB2_256:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.257:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_258
-# %bb.436:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_612
-# %bb.437:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_612
-.LBB2_258:
-	xor	esi, esi
-.LBB2_1089:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1091
-.LBB2_1090:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1090
-.LBB2_1091:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1092
-	jmp	.LBB2_1109
-.LBB2_259:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.260:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_261
-# %bb.439:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_615
-# %bb.440:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_615
-.LBB2_261:
-	xor	esi, esi
-.LBB2_1097:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1099
-.LBB2_1098:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1098
-.LBB2_1099:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1100:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1100
-	jmp	.LBB2_1109
-.LBB2_262:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.263:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_264
-# %bb.442:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_618
-# %bb.443:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_618
-.LBB2_264:
-	xor	esi, esi
-.LBB2_1105:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1107
-.LBB2_1106:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1106
-.LBB2_1107:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1108:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1108
-	jmp	.LBB2_1109
-.LBB2_445:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_661
-# %bb.446:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_447:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_447
-	jmp	.LBB2_662
-.LBB2_448:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_669
-# %bb.449:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_450:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_450
-	jmp	.LBB2_670
-.LBB2_451:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_677
-# %bb.452:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_453:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_453
-	jmp	.LBB2_678
-.LBB2_454:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_685
-# %bb.455:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_456:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_456
-	jmp	.LBB2_686
-.LBB2_457:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_693
-# %bb.458:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_459:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_459
-	jmp	.LBB2_694
-.LBB2_460:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_701
-# %bb.461:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_462:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_462
-	jmp	.LBB2_702
-.LBB2_463:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_709
-# %bb.464:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_465:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_465
-	jmp	.LBB2_710
-.LBB2_466:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_717
-# %bb.467:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_468:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_468
-	jmp	.LBB2_718
-.LBB2_469:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_725
-# %bb.470:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_471:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_471
-	jmp	.LBB2_726
-.LBB2_472:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_733
-# %bb.473:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_474:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_474
-	jmp	.LBB2_734
-.LBB2_475:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_741
-# %bb.476:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_477:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_477
-	jmp	.LBB2_742
-.LBB2_478:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_749
-# %bb.479:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_480:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_480
-	jmp	.LBB2_750
-.LBB2_481:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_621
-# %bb.482:
-	xor	esi, esi
-	jmp	.LBB2_623
-.LBB2_483:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_631
-# %bb.484:
-	xor	esi, esi
-	jmp	.LBB2_633
-.LBB2_485:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_757
-# %bb.486:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_487:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_487
-	jmp	.LBB2_758
-.LBB2_488:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_765
-# %bb.489:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_490:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_490
-	jmp	.LBB2_766
-.LBB2_491:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_773
-# %bb.492:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_493:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_493
-	jmp	.LBB2_774
-.LBB2_494:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_781
-# %bb.495:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_496:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_496
-	jmp	.LBB2_782
-.LBB2_497:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_789
-# %bb.498:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_499:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_499
-	jmp	.LBB2_790
-.LBB2_500:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_797
-# %bb.501:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_502:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_502
-	jmp	.LBB2_798
-.LBB2_503:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_805
-# %bb.504:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_505:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_505
-	jmp	.LBB2_806
-.LBB2_506:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_813
-# %bb.507:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_508:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_508
-	jmp	.LBB2_814
-.LBB2_509:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_821
-# %bb.510:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_511:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_511
-	jmp	.LBB2_822
-.LBB2_512:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_829
-# %bb.513:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_514:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_514
-	jmp	.LBB2_830
-.LBB2_515:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_837
-# %bb.516:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_517:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_517
-	jmp	.LBB2_838
-.LBB2_518:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_845
-# %bb.519:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_520:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_520
-	jmp	.LBB2_846
-.LBB2_521:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_853
-# %bb.522:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_523:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_523
-	jmp	.LBB2_854
-.LBB2_524:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_861
-# %bb.525:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_526:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_526
-	jmp	.LBB2_862
-.LBB2_527:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_869
-# %bb.528:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_529:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_529
-	jmp	.LBB2_870
-.LBB2_530:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_877
-# %bb.531:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_532:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_532
-	jmp	.LBB2_878
-.LBB2_533:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_885
-# %bb.534:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_535:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_535
-	jmp	.LBB2_886
-.LBB2_536:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_893
-# %bb.537:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_538:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_538
-	jmp	.LBB2_894
-.LBB2_539:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_901
-# %bb.540:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_541:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_541
-	jmp	.LBB2_902
-.LBB2_542:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_909
-# %bb.543:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_544:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_544
-	jmp	.LBB2_910
-.LBB2_545:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_917
-# %bb.546:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_547:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_547
-	jmp	.LBB2_918
-.LBB2_548:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_925
-# %bb.549:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_550
-	jmp	.LBB2_926
-.LBB2_551:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_933
-# %bb.552:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_553:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_553
-	jmp	.LBB2_934
-.LBB2_554:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_941
-# %bb.555:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_556:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_556
-	jmp	.LBB2_942
-.LBB2_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_949
-# %bb.558:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_559:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_559
-	jmp	.LBB2_950
-.LBB2_560:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_957
-# %bb.561:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_562:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_562
-	jmp	.LBB2_958
-.LBB2_563:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_965
-# %bb.564:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_565:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_565
-	jmp	.LBB2_966
-.LBB2_566:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_973
-# %bb.567:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_568:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_568
-	jmp	.LBB2_974
-.LBB2_569:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_981
-# %bb.570:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_571:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_571
-	jmp	.LBB2_982
-.LBB2_572:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_989
-# %bb.573:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_574:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_574
-	jmp	.LBB2_990
-.LBB2_575:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_997
-# %bb.576:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_577:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_577
-	jmp	.LBB2_998
-.LBB2_578:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_1005
-# %bb.579:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_580:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_580
-	jmp	.LBB2_1006
-.LBB2_581:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1013
-# %bb.582:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_583:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_583
-	jmp	.LBB2_1014
-.LBB2_584:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_1021
-# %bb.585:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_586:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_586
-	jmp	.LBB2_1022
-.LBB2_587:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_641
-# %bb.588:
-	xor	esi, esi
-	jmp	.LBB2_643
-.LBB2_589:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_651
-# %bb.590:
-	xor	esi, esi
-	jmp	.LBB2_653
-.LBB2_591:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1029
-# %bb.592:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_593
-	jmp	.LBB2_1030
-.LBB2_594:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1037
-# %bb.595:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_596:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_596
-	jmp	.LBB2_1038
-.LBB2_597:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1045
-# %bb.598:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_599
-	jmp	.LBB2_1046
-.LBB2_600:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1053
-# %bb.601:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_602:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_602
-	jmp	.LBB2_1054
-.LBB2_603:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1061
-# %bb.604:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_605:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_605
-	jmp	.LBB2_1062
-.LBB2_606:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1069
-# %bb.607:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_608
-	jmp	.LBB2_1070
-.LBB2_609:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1077
-# %bb.610:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_611:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_611
-	jmp	.LBB2_1078
-.LBB2_612:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1085
-# %bb.613:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_614
-	jmp	.LBB2_1086
-.LBB2_615:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1093
-# %bb.616:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_617
-	jmp	.LBB2_1094
-.LBB2_618:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1101
-# %bb.619:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_620:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_620
-	jmp	.LBB2_1102
-.LBB2_621:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_622
-.LBB2_623:
-	test	r9, r9
-	je	.LBB2_626
-# %bb.624:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_625:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_625
-.LBB2_626:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_627
-.LBB2_631:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_632:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_632
-.LBB2_633:
-	test	r9, r9
-	je	.LBB2_636
-# %bb.634:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_635:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_635
-.LBB2_636:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_637
-.LBB2_641:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_642:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_642
-.LBB2_643:
-	test	r9, r9
-	je	.LBB2_646
-# %bb.644:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_645:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_645
-.LBB2_646:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_647
-.LBB2_651:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_652:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_652
-.LBB2_653:
-	test	r9, r9
-	je	.LBB2_656
-# %bb.654:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_655:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_655
-.LBB2_656:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_657
-.LBB2_661:
-	xor	edi, edi
-.LBB2_662:
-	test	r9b, 1
-	je	.LBB2_664
-# %bb.663:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_664:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_665
-.LBB2_669:
-	xor	edi, edi
-.LBB2_670:
-	test	r9b, 1
-	je	.LBB2_672
-# %bb.671:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_672:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_673
-.LBB2_677:
-	xor	edi, edi
-.LBB2_678:
-	test	r9b, 1
-	je	.LBB2_680
-# %bb.679:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_680:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_681
-.LBB2_685:
-	xor	edi, edi
-.LBB2_686:
-	test	r9b, 1
-	je	.LBB2_688
-# %bb.687:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_688:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_689
-.LBB2_693:
-	xor	edi, edi
-.LBB2_694:
-	test	r9b, 1
-	je	.LBB2_696
-# %bb.695:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_696:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_697
-.LBB2_701:
-	xor	edi, edi
-.LBB2_702:
-	test	r9b, 1
-	je	.LBB2_704
-# %bb.703:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_704:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_705
-.LBB2_709:
-	xor	edi, edi
-.LBB2_710:
-	test	r9b, 1
-	je	.LBB2_712
-# %bb.711:
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_712:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_713
-.LBB2_717:
-	xor	edi, edi
-.LBB2_718:
-	test	r9b, 1
-	je	.LBB2_720
-# %bb.719:
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_720:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_721
-.LBB2_725:
-	xor	edi, edi
-.LBB2_726:
-	test	r9b, 1
-	je	.LBB2_728
-# %bb.727:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_728:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_729
-.LBB2_733:
-	xor	edi, edi
-.LBB2_734:
-	test	r9b, 1
-	je	.LBB2_736
-# %bb.735:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_736:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_737
-.LBB2_741:
-	xor	edi, edi
-.LBB2_742:
-	test	r9b, 1
-	je	.LBB2_744
-# %bb.743:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_744:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_745
-.LBB2_749:
-	xor	edi, edi
-.LBB2_750:
-	test	r9b, 1
-	je	.LBB2_752
-# %bb.751:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_752:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_753
-.LBB2_757:
-	xor	edi, edi
-.LBB2_758:
-	test	r9b, 1
-	je	.LBB2_760
-# %bb.759:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_760:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_761
-.LBB2_765:
-	xor	edi, edi
-.LBB2_766:
-	test	r9b, 1
-	je	.LBB2_768
-# %bb.767:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_768:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_769
-.LBB2_773:
-	xor	edi, edi
-.LBB2_774:
-	test	r9b, 1
-	je	.LBB2_776
-# %bb.775:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_776:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_777
-.LBB2_781:
-	xor	edi, edi
-.LBB2_782:
-	test	r9b, 1
-	je	.LBB2_784
-# %bb.783:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_784:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_785
-.LBB2_789:
-	xor	edi, edi
-.LBB2_790:
-	test	r9b, 1
-	je	.LBB2_792
-# %bb.791:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_792:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_793
-.LBB2_797:
-	xor	edi, edi
-.LBB2_798:
-	test	r9b, 1
-	je	.LBB2_800
-# %bb.799:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_800:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_801
-.LBB2_805:
-	xor	edi, edi
-.LBB2_806:
-	test	r9b, 1
-	je	.LBB2_808
-# %bb.807:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_808:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_809
-.LBB2_813:
-	xor	edi, edi
-.LBB2_814:
-	test	r9b, 1
-	je	.LBB2_816
-# %bb.815:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_816:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_817
-.LBB2_821:
-	xor	edi, edi
-.LBB2_822:
-	test	r9b, 1
-	je	.LBB2_824
-# %bb.823:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_824:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_825
-.LBB2_829:
-	xor	edi, edi
-.LBB2_830:
-	test	r9b, 1
-	je	.LBB2_832
-# %bb.831:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_832:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_833
-.LBB2_837:
-	xor	edi, edi
-.LBB2_838:
-	test	r9b, 1
-	je	.LBB2_840
-# %bb.839:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_840:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_841
-.LBB2_845:
-	xor	edi, edi
-.LBB2_846:
-	test	r9b, 1
-	je	.LBB2_848
-# %bb.847:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_848:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_849
-.LBB2_853:
-	xor	edi, edi
-.LBB2_854:
-	test	r9b, 1
-	je	.LBB2_856
-# %bb.855:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_856:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_857
-.LBB2_861:
-	xor	edi, edi
-.LBB2_862:
-	test	r9b, 1
-	je	.LBB2_864
-# %bb.863:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_864:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_865
-.LBB2_869:
-	xor	edi, edi
-.LBB2_870:
-	test	r9b, 1
-	je	.LBB2_872
-# %bb.871:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_872:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_873
-.LBB2_877:
-	xor	edi, edi
-.LBB2_878:
-	test	r9b, 1
-	je	.LBB2_880
-# %bb.879:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_880:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_881
-.LBB2_885:
-	xor	edi, edi
-.LBB2_886:
-	test	r9b, 1
-	je	.LBB2_888
-# %bb.887:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_888:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_889
-.LBB2_893:
-	xor	edi, edi
-.LBB2_894:
-	test	r9b, 1
-	je	.LBB2_896
-# %bb.895:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_896:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_897
-.LBB2_901:
-	xor	edi, edi
-.LBB2_902:
-	test	r9b, 1
-	je	.LBB2_904
-# %bb.903:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_904:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_905
-.LBB2_909:
-	xor	edi, edi
-.LBB2_910:
-	test	r9b, 1
-	je	.LBB2_912
-# %bb.911:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_912:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_913
-.LBB2_917:
-	xor	edi, edi
-.LBB2_918:
-	test	r9b, 1
-	je	.LBB2_920
-# %bb.919:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_920:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_921
-.LBB2_925:
-	xor	edi, edi
-.LBB2_926:
-	test	r9b, 1
-	je	.LBB2_928
-# %bb.927:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_928:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_929
-.LBB2_933:
-	xor	edi, edi
-.LBB2_934:
-	test	r9b, 1
-	je	.LBB2_936
-# %bb.935:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_936:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_937
-.LBB2_941:
-	xor	edi, edi
-.LBB2_942:
-	test	r9b, 1
-	je	.LBB2_944
-# %bb.943:
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_944:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_945
-.LBB2_949:
-	xor	edi, edi
-.LBB2_950:
-	test	r9b, 1
-	je	.LBB2_952
-# %bb.951:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_952:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_953
-.LBB2_957:
-	xor	edi, edi
-.LBB2_958:
-	test	r9b, 1
-	je	.LBB2_960
-# %bb.959:
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_960:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_961
-.LBB2_965:
-	xor	edi, edi
-.LBB2_966:
-	test	r9b, 1
-	je	.LBB2_968
-# %bb.967:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_968:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_969
-.LBB2_973:
-	xor	edi, edi
-.LBB2_974:
-	test	r9b, 1
-	je	.LBB2_976
-# %bb.975:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_976:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_977
-.LBB2_981:
-	xor	edi, edi
-.LBB2_982:
-	test	r9b, 1
-	je	.LBB2_984
-# %bb.983:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_984:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_985
-.LBB2_989:
-	xor	edi, edi
-.LBB2_990:
-	test	r9b, 1
-	je	.LBB2_992
-# %bb.991:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_992:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_993
-.LBB2_997:
-	xor	edi, edi
-.LBB2_998:
-	test	r9b, 1
-	je	.LBB2_1000
-# %bb.999:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_1000:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1001
-.LBB2_1005:
-	xor	edi, edi
-.LBB2_1006:
-	test	r9b, 1
-	je	.LBB2_1008
-# %bb.1007:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_1008:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_1009
-.LBB2_1013:
-	xor	edi, edi
-.LBB2_1014:
-	test	r9b, 1
-	je	.LBB2_1016
-# %bb.1015:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_1016:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1017
-.LBB2_1021:
-	xor	edi, edi
-.LBB2_1022:
-	test	r9b, 1
-	je	.LBB2_1024
-# %bb.1023:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_1024:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_1025
-.LBB2_1029:
-	xor	edi, edi
-.LBB2_1030:
-	test	r9b, 1
-	je	.LBB2_1032
-# %bb.1031:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1032:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1033
-.LBB2_1037:
-	xor	edi, edi
-.LBB2_1038:
-	test	r9b, 1
-	je	.LBB2_1040
-# %bb.1039:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1040:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1041
-.LBB2_1045:
-	xor	edi, edi
-.LBB2_1046:
-	test	r9b, 1
-	je	.LBB2_1048
-# %bb.1047:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1048:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1049
-.LBB2_1053:
-	xor	edi, edi
-.LBB2_1054:
-	test	r9b, 1
-	je	.LBB2_1056
-# %bb.1055:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1056:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1057
-.LBB2_1061:
-	xor	edi, edi
-.LBB2_1062:
-	test	r9b, 1
-	je	.LBB2_1064
-# %bb.1063:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1064:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1065
-.LBB2_1069:
-	xor	edi, edi
-.LBB2_1070:
-	test	r9b, 1
-	je	.LBB2_1072
-# %bb.1071:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1072:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1073
-.LBB2_1077:
-	xor	edi, edi
-.LBB2_1078:
-	test	r9b, 1
-	je	.LBB2_1080
-# %bb.1079:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1080:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1081
-.LBB2_1085:
-	xor	edi, edi
-.LBB2_1086:
-	test	r9b, 1
-	je	.LBB2_1088
-# %bb.1087:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1088:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1089
-.LBB2_1093:
-	xor	edi, edi
-.LBB2_1094:
-	test	r9b, 1
-	je	.LBB2_1096
-# %bb.1095:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1096:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1097
-.LBB2_1101:
-	xor	edi, edi
-.LBB2_1102:
-	test	r9b, 1
-	je	.LBB2_1104
-# %bb.1103:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1104:
-	cmp	rsi, r10
-	jne	.LBB2_1105
-.LBB2_1109:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	arithmetic_scalar_arr_avx2, .Lfunc_end2-arithmetic_scalar_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function arithmetic_unary_same_types_avx2
-.LCPI3_0:
-	.quad	0x8000000000000000              # double -0
-.LCPI3_1:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI3_4:
-	.quad	1                               # 0x1
-.LCPI3_8:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI3_2:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI3_11:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI3_3:
-	.long	1                               # 0x1
-.LCPI3_7:
-	.long	0x80000000                      # float -0
-.LCPI3_9:
-	.long	2147483647                      # 0x7fffffff
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI3_5:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI3_6:
-	.zero	32,1
-.LCPI3_10:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-	.byte	16                              # 0x10
-	.byte	17                              # 0x11
-	.byte	20                              # 0x14
-	.byte	21                              # 0x15
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	30                              # 0x1e
-	.byte	31                              # 0x1f
-	.text
-	.globl	arithmetic_unary_same_types_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_unary_same_types_avx2,@function
-arithmetic_unary_same_types_avx2:       # @arithmetic_unary_same_types_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 19
-	jle	.LBB3_12
-# %bb.1:
-	cmp	sil, 20
-	je	.LBB3_22
-# %bb.2:
-	cmp	sil, 25
-	je	.LBB3_30
-# %bb.3:
-	cmp	sil, 26
-	jne	.LBB3_865
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB3_46
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB3_81
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB3_131
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB3_134
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.9:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.10:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB3_221
-# %bb.11:
-	xor	edx, edx
-	jmp	.LBB3_373
-.LBB3_12:
-	cmp	sil, 4
-	je	.LBB3_38
-# %bb.13:
-	cmp	sil, 5
-	jne	.LBB3_865
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB3_53
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB3_86
-# %bb.16:
-	cmp	edi, 4
-	je	.LBB3_137
-# %bb.17:
-	cmp	edi, 5
-	je	.LBB3_140
-# %bb.18:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.19:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.20:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_21
-# %bb.223:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_374
-# %bb.224:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_374
-.LBB3_21:
-	xor	esi, esi
-.LBB3_616:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_618
-.LBB3_617:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_617
-.LBB3_618:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_619:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_619
-	jmp	.LBB3_865
-.LBB3_22:
-	cmp	edi, 6
-	jg	.LBB3_60
-# %bb.23:
-	cmp	edi, 3
-	jle	.LBB3_91
-# %bb.24:
-	cmp	edi, 4
-	je	.LBB3_143
-# %bb.25:
-	cmp	edi, 5
-	je	.LBB3_146
-# %bb.26:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.27:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.28:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_29
-# %bb.226:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_377
-# %bb.227:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_377
-.LBB3_29:
-	xor	esi, esi
-.LBB3_380:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_382
-.LBB3_381:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	dil
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_381
-.LBB3_382:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_383:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 4], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 8], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 12], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_383
-	jmp	.LBB3_865
-.LBB3_30:
-	cmp	edi, 6
-	jg	.LBB3_67
-# %bb.31:
-	cmp	edi, 3
-	jle	.LBB3_96
-# %bb.32:
-	cmp	edi, 4
-	je	.LBB3_149
-# %bb.33:
-	cmp	edi, 5
-	je	.LBB3_152
-# %bb.34:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.35:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.36:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_37
-# %bb.229:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_384
-# %bb.230:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_384
-.LBB3_37:
-	xor	esi, esi
-.LBB3_624:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_626
-.LBB3_625:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_625
-.LBB3_626:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_627:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_627
-	jmp	.LBB3_865
-.LBB3_38:
-	cmp	edi, 6
-	jg	.LBB3_74
-# %bb.39:
-	cmp	edi, 3
-	jle	.LBB3_101
-# %bb.40:
-	cmp	edi, 4
-	je	.LBB3_155
-# %bb.41:
-	cmp	edi, 5
-	je	.LBB3_158
-# %bb.42:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.43:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.44:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_45
-# %bb.232:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_387
-# %bb.233:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_387
-.LBB3_45:
-	xor	esi, esi
-.LBB3_632:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_634
-.LBB3_633:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_633
-.LBB3_634:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_635:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_635
-	jmp	.LBB3_865
-.LBB3_46:
-	cmp	edi, 8
-	jle	.LBB3_106
-# %bb.47:
-	cmp	edi, 9
-	je	.LBB3_161
-# %bb.48:
-	cmp	edi, 11
-	je	.LBB3_164
-# %bb.49:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_52
-# %bb.235:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_390
-# %bb.236:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_390
-.LBB3_52:
-	xor	esi, esi
-.LBB3_640:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_643
-# %bb.641:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_642:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_642
-.LBB3_643:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.644:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_645:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_645
-	jmp	.LBB3_865
-.LBB3_53:
-	cmp	edi, 8
-	jle	.LBB3_111
-# %bb.54:
-	cmp	edi, 9
-	je	.LBB3_167
-# %bb.55:
-	cmp	edi, 11
-	je	.LBB3_170
-# %bb.56:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.57:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.58:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_59
-# %bb.238:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_393
-# %bb.239:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_393
-.LBB3_59:
-	xor	esi, esi
-.LBB3_650:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_653
-# %bb.651:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_652:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_652
-.LBB3_653:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.654:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_655:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_655
-	jmp	.LBB3_865
-.LBB3_60:
-	cmp	edi, 8
-	jle	.LBB3_116
-# %bb.61:
-	cmp	edi, 9
-	je	.LBB3_173
-# %bb.62:
-	cmp	edi, 11
-	je	.LBB3_176
-# %bb.63:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.64:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.65:
-	mov	eax, r8d
-	cmp	r8d, 16
-	jb	.LBB3_66
-# %bb.241:
-	lea	rsi, [rdx + 8*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_396
-# %bb.242:
-	lea	rsi, [rcx + 8*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_396
-.LBB3_66:
-	xor	esi, esi
-.LBB3_399:
-	mov	rdi, rsi
-	not	rdi
-	test	al, 1
-	je	.LBB3_401
-# %bb.400:
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI3_2]
-	vmovddup	xmm2, qword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-	vorpd	xmm1, xmm2, xmm1
-	vxorpd	xmm2, xmm2, xmm2
-	vcmpeqsd	xmm0, xmm0, xmm2
-	vandnpd	xmm0, xmm0, xmm1
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm0
-	or	rsi, 1
-.LBB3_401:
-	add	rdi, rax
-	je	.LBB3_865
-# %bb.402:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm1, qword ptr [rip + .LCPI3_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vxorpd	xmm2, xmm2, xmm2
-.LBB3_403:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm3
-	vmovsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm3
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_403
-	jmp	.LBB3_865
-.LBB3_67:
-	cmp	edi, 8
-	jle	.LBB3_121
-# %bb.68:
-	cmp	edi, 9
-	je	.LBB3_179
-# %bb.69:
-	cmp	edi, 11
-	je	.LBB3_182
-# %bb.70:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.71:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.72:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_73
-# %bb.244:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_404
-# %bb.245:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_404
-.LBB3_73:
-	xor	esi, esi
-.LBB3_660:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_662
-.LBB3_661:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_661
-.LBB3_662:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_663:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_663
-	jmp	.LBB3_865
-.LBB3_74:
-	cmp	edi, 8
-	jle	.LBB3_126
-# %bb.75:
-	cmp	edi, 9
-	je	.LBB3_185
-# %bb.76:
-	cmp	edi, 11
-	je	.LBB3_188
-# %bb.77:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.78:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.79:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_80
-# %bb.247:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_407
-# %bb.248:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_407
-.LBB3_80:
-	xor	esi, esi
-.LBB3_668:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_670
-.LBB3_669:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_669
-.LBB3_670:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_671:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_671
-	jmp	.LBB3_865
-.LBB3_81:
-	cmp	edi, 2
-	je	.LBB3_191
-# %bb.82:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.83:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.84:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_85
-# %bb.250:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_410
-# %bb.251:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_410
-.LBB3_85:
-	xor	esi, esi
-.LBB3_676:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_678
-.LBB3_677:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_677
-.LBB3_678:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_679:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_679
-	jmp	.LBB3_865
-.LBB3_86:
-	cmp	edi, 2
-	je	.LBB3_194
-# %bb.87:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.88:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.89:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_90
-# %bb.253:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_413
-# %bb.254:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_413
-.LBB3_90:
-	xor	esi, esi
-.LBB3_684:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_686
-.LBB3_685:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_685
-.LBB3_686:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_687:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_687
-	jmp	.LBB3_865
-.LBB3_91:
-	cmp	edi, 2
-	je	.LBB3_197
-# %bb.92:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.93:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.94:
-	mov	r11d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_95
-# %bb.256:
-	lea	rsi, [rdx + r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_416
-# %bb.257:
-	lea	rsi, [rcx + r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_416
-.LBB3_95:
-	xor	esi, esi
-.LBB3_419:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_421
-# %bb.420:
-	mov	r8b, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	r9b
-	neg	r9b
-	test	r8b, r8b
-	movzx	r8d, r9b
-	mov	edi, 1
-	cmovle	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_421:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.422:
-	mov	edi, 1
-.LBB3_423:                              # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movzx	r8d, byte ptr [rdx + rsi + 1]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_423
-	jmp	.LBB3_865
-.LBB3_96:
-	cmp	edi, 2
-	je	.LBB3_200
-# %bb.97:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.98:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.99:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_100
-# %bb.259:
-	lea	rsi, [rdx + r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_424
-# %bb.260:
-	lea	rsi, [rcx + r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_424
-.LBB3_100:
-	xor	esi, esi
-.LBB3_427:
-	mov	r8, rsi
-	not	r8
-	test	r10b, 1
-	je	.LBB3_429
-# %bb.428:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r9d, edi
-	sar	r9d, 7
-	add	edi, r9d
-	xor	edi, r9d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_429:
-	add	r8, r10
-	je	.LBB3_865
-.LBB3_430:                              # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	eax, edi
-	sar	eax, 7
-	add	edi, eax
-	xor	edi, eax
-	mov	byte ptr [rcx + rsi], dil
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_430
-	jmp	.LBB3_865
-.LBB3_101:
-	cmp	edi, 2
-	je	.LBB3_203
-# %bb.102:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.103:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.104:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_105
-# %bb.262:
-	lea	rsi, [rdx + r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_431
-# %bb.263:
-	lea	rsi, [rcx + r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_431
-.LBB3_105:
-	xor	esi, esi
-.LBB3_434:
-	mov	r8, rsi
-	not	r8
-	test	r10b, 1
-	je	.LBB3_436
-# %bb.435:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r9d, edi
-	sar	r9d, 7
-	add	edi, r9d
-	xor	edi, r9d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_436:
-	add	r8, r10
-	je	.LBB3_865
-.LBB3_437:                              # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	eax, edi
-	sar	eax, 7
-	add	edi, eax
-	xor	edi, eax
-	mov	byte ptr [rcx + rsi], dil
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_437
-	jmp	.LBB3_865
-.LBB3_106:
-	cmp	edi, 7
-	je	.LBB3_206
-# %bb.107:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.108:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.109:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB3_265
-# %bb.110:
-	xor	edx, edx
-	jmp	.LBB3_444
-.LBB3_111:
-	cmp	edi, 7
-	je	.LBB3_209
-# %bb.112:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.113:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.114:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_115
-# %bb.267:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_445
-# %bb.268:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_445
-.LBB3_115:
-	xor	esi, esi
-.LBB3_692:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_694
-.LBB3_693:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_693
-.LBB3_694:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_695:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_695
-	jmp	.LBB3_865
-.LBB3_116:
-	cmp	edi, 7
-	je	.LBB3_212
-# %bb.117:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_120
-# %bb.270:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_448
-# %bb.271:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_448
-.LBB3_120:
-	xor	esi, esi
-.LBB3_451:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_453
-.LBB3_452:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	dil
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_452
-.LBB3_453:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_454:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 8], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 16], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 24], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_454
-	jmp	.LBB3_865
-.LBB3_121:
-	cmp	edi, 7
-	je	.LBB3_215
-# %bb.122:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.123:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.124:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_125
-# %bb.273:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_455
-# %bb.274:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_455
-.LBB3_125:
-	xor	esi, esi
-.LBB3_700:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_702
-.LBB3_701:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_701
-.LBB3_702:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_703:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_703
-	jmp	.LBB3_865
-.LBB3_126:
-	cmp	edi, 7
-	je	.LBB3_218
-# %bb.127:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.128:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.129:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_130
-# %bb.276:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_458
-# %bb.277:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_458
-.LBB3_130:
-	xor	esi, esi
-.LBB3_708:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_710
-.LBB3_709:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_709
-.LBB3_710:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_711
-	jmp	.LBB3_865
-.LBB3_131:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.132:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jae	.LBB3_279
-# %bb.133:
-	xor	edx, edx
-	jmp	.LBB3_467
-.LBB3_134:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.135:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_136
-# %bb.281:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_468
-# %bb.282:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_468
-.LBB3_136:
-	xor	esi, esi
-.LBB3_716:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_718
-.LBB3_717:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_717
-.LBB3_718:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_719:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_719
-	jmp	.LBB3_865
-.LBB3_137:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.138:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_139
-# %bb.284:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_471
-# %bb.285:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_471
-.LBB3_139:
-	xor	esi, esi
-.LBB3_724:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_726
-.LBB3_725:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_725
-.LBB3_726:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_727:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_727
-	jmp	.LBB3_865
-.LBB3_140:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.141:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_142
-# %bb.287:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_474
-# %bb.288:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_474
-.LBB3_142:
-	xor	esi, esi
-.LBB3_732:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_734
-.LBB3_733:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_733
-.LBB3_734:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_735:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_735
-	jmp	.LBB3_865
-.LBB3_143:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.144:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_145
-# %bb.290:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_477
-# %bb.291:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_477
-.LBB3_145:
-	xor	esi, esi
-.LBB3_740:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_742
-.LBB3_741:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	dil
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_741
-.LBB3_742:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_743:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 2], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 4], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 6], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_743
-	jmp	.LBB3_865
-.LBB3_146:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_148
-# %bb.293:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_480
-# %bb.294:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_480
-.LBB3_148:
-	xor	esi, esi
-.LBB3_748:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_750
-# %bb.749:
-	movzx	r8d, word ptr [rdx + 2*rsi]
-	xor	r10d, r10d
-	test	r8w, r8w
-	setne	r10b
-	neg	r10d
-	test	r8w, r8w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_750:
-	add	rax, r9
-	je	.LBB3_865
-# %bb.751:
-	mov	r8d, 1
-.LBB3_752:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, r8d
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, r8d
-	mov	word ptr [rcx + 2*rsi + 2], di
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_752
-	jmp	.LBB3_865
-.LBB3_149:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.150:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_151
-# %bb.296:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_483
-# %bb.297:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_483
-.LBB3_151:
-	xor	esi, esi
-.LBB3_598:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_600
-.LBB3_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_599
-.LBB3_600:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_601
-	jmp	.LBB3_865
-.LBB3_152:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.153:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_154
-# %bb.299:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_485
-# %bb.300:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_485
-.LBB3_154:
-	xor	esi, esi
-.LBB3_757:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_759
-# %bb.758:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_759:
-	add	rax, r9
-	je	.LBB3_865
-.LBB3_760:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_760
-	jmp	.LBB3_865
-.LBB3_155:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.156:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_157
-# %bb.302:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_488
-# %bb.303:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_488
-.LBB3_157:
-	xor	esi, esi
-.LBB3_608:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_610
-.LBB3_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_609
-.LBB3_610:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_611:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_611
-	jmp	.LBB3_865
-.LBB3_158:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.159:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_160
-# %bb.305:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_490
-# %bb.306:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_490
-.LBB3_160:
-	xor	esi, esi
-.LBB3_765:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_767
-# %bb.766:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_767:
-	add	rax, r9
-	je	.LBB3_865
-.LBB3_768:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_768
-	jmp	.LBB3_865
-.LBB3_161:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.162:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_163
-# %bb.308:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_493
-# %bb.309:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_493
-.LBB3_163:
-	xor	esi, esi
-.LBB3_773:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_775
-.LBB3_774:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_774
-.LBB3_775:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_776:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_776
-	jmp	.LBB3_865
-.LBB3_164:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.165:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_166
-# %bb.311:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_496
-# %bb.312:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_496
-.LBB3_166:
-	xor	esi, esi
-.LBB3_781:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_784
-# %bb.782:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_783:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_783
-.LBB3_784:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.785:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_786:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_786
-	jmp	.LBB3_865
-.LBB3_167:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.168:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_169
-# %bb.314:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_499
-# %bb.315:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_499
-.LBB3_169:
-	xor	esi, esi
-.LBB3_791:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_793
-.LBB3_792:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_792
-.LBB3_793:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_794:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_794
-	jmp	.LBB3_865
-.LBB3_170:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_172
-# %bb.317:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_502
-# %bb.318:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_502
-.LBB3_172:
-	xor	esi, esi
-.LBB3_799:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_802
-# %bb.800:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_801:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_801
-.LBB3_802:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.803:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_804:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_804
-	jmp	.LBB3_865
-.LBB3_173:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.174:
-	mov	r11d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_175
-# %bb.320:
-	lea	rsi, [rdx + 8*r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_505
-# %bb.321:
-	lea	rsi, [rcx + 8*r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_505
-.LBB3_175:
-	xor	esi, esi
-.LBB3_508:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_510
-# %bb.509:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	xor	r9d, r9d
-	test	r8, r8
-	setne	r9b
-	neg	r9
-	test	r8, r8
-	mov	edi, 1
-	cmovle	rdi, r9
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_510:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.511:
-	mov	r8d, 1
-.LBB3_512:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_512
-	jmp	.LBB3_865
-.LBB3_176:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.177:
-	mov	eax, r8d
-	cmp	r8d, 32
-	jb	.LBB3_178
-# %bb.323:
-	lea	rsi, [rdx + 4*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_513
-# %bb.324:
-	lea	rsi, [rcx + 4*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_513
-.LBB3_178:
-	xor	esi, esi
-.LBB3_516:
-	mov	r8, rsi
-	not	r8
-	test	al, 1
-	je	.LBB3_518
-# %bb.517:
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm1, xmm10, edi
-	vxorps	xmm2, xmm2, xmm2
-	vcmpeqss	xmm0, xmm0, xmm2
-	vandnps	xmm0, xmm0, xmm1
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	or	rsi, 1
-.LBB3_518:
-	add	r8, rax
-	je	.LBB3_865
-# %bb.519:
-	vxorps	xmm0, xmm0, xmm0
-.LBB3_520:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm2, xmm10, edi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm2, xmm10, edi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_520
-	jmp	.LBB3_865
-.LBB3_179:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.180:
-	mov	r10d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_181
-# %bb.326:
-	lea	rsi, [rdx + 8*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_521
-# %bb.327:
-	lea	rsi, [rcx + 8*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_521
-.LBB3_181:
-	xor	esi, esi
-.LBB3_524:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_526
-# %bb.525:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_526:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_527:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_527
-	jmp	.LBB3_865
-.LBB3_182:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.183:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_184
-# %bb.329:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_528
-# %bb.330:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_528
-.LBB3_184:
-	xor	esi, esi
-.LBB3_809:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_812
-# %bb.810:
-	mov	r10d, 2147483647
-.LBB3_811:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_811
-.LBB3_812:
-	cmp	r8, 3
-	jb	.LBB3_865
-# %bb.813:
-	mov	eax, 2147483647
-.LBB3_814:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_814
-	jmp	.LBB3_865
-.LBB3_185:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.186:
-	mov	r10d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_187
-# %bb.332:
-	lea	rsi, [rdx + 8*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_531
-# %bb.333:
-	lea	rsi, [rcx + 8*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_531
-.LBB3_187:
-	xor	esi, esi
-.LBB3_534:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_536
-# %bb.535:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_536:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_537:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_537
-	jmp	.LBB3_865
-.LBB3_188:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.189:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_190
-# %bb.335:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_538
-# %bb.336:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_538
-.LBB3_190:
-	xor	esi, esi
-.LBB3_819:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_822
-# %bb.820:
-	mov	r10d, 2147483647
-.LBB3_821:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_821
-.LBB3_822:
-	cmp	r8, 3
-	jb	.LBB3_865
-# %bb.823:
-	mov	eax, 2147483647
-.LBB3_824:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_824
-	jmp	.LBB3_865
-.LBB3_191:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.192:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jae	.LBB3_338
-# %bb.193:
-	xor	edx, edx
-	jmp	.LBB3_547
-.LBB3_194:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.195:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_196
-# %bb.340:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_548
-# %bb.341:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_548
-.LBB3_196:
-	xor	esi, esi
-.LBB3_829:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_831
-.LBB3_830:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_830
-.LBB3_831:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_832:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_832
-	jmp	.LBB3_865
-.LBB3_197:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.198:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_199
-# %bb.343:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_551
-# %bb.344:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_551
-.LBB3_199:
-	xor	esi, esi
-.LBB3_554:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_556
-.LBB3_555:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_555
-.LBB3_556:
-	cmp	rdi, 3
-	jb	.LBB3_865
-.LBB3_557:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	cmp	byte ptr [rdx + rsi + 1], 0
-	setne	byte ptr [rcx + rsi + 1]
-	cmp	byte ptr [rdx + rsi + 2], 0
-	setne	byte ptr [rcx + rsi + 2]
-	cmp	byte ptr [rdx + rsi + 3], 0
-	setne	byte ptr [rcx + rsi + 3]
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_557
-	jmp	.LBB3_865
-.LBB3_200:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_202
-# %bb.346:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_558
-# %bb.347:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_558
-.LBB3_202:
-	xor	esi, esi
-.LBB3_837:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_839
-.LBB3_838:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_838
-.LBB3_839:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_840:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_840
-	jmp	.LBB3_865
-.LBB3_203:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.204:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_205
-# %bb.349:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_561
-# %bb.350:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_561
-.LBB3_205:
-	xor	esi, esi
-.LBB3_845:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_847
-.LBB3_846:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_846
-.LBB3_847:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_848:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_848
-	jmp	.LBB3_865
-.LBB3_206:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.207:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_208
-# %bb.352:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_564
-# %bb.353:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_564
-.LBB3_208:
-	xor	esi, esi
-.LBB3_853:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_855
-.LBB3_854:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_854
-.LBB3_855:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_856:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_856
-	jmp	.LBB3_865
-.LBB3_209:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.210:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_211
-# %bb.355:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_567
-# %bb.356:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_567
-.LBB3_211:
-	xor	esi, esi
-.LBB3_861:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_863
-.LBB3_862:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_862
-.LBB3_863:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_864:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_864
-	jmp	.LBB3_865
-.LBB3_212:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.213:
-	mov	r11d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_214
-# %bb.358:
-	lea	rsi, [rdx + 4*r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_570
-# %bb.359:
-	lea	rsi, [rcx + 4*r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_570
-.LBB3_214:
-	xor	esi, esi
-.LBB3_573:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_575
-# %bb.574:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	xor	r9d, r9d
-	test	r8d, r8d
-	setne	r9b
-	neg	r9d
-	test	r8d, r8d
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_575:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.576:
-	mov	r8d, 1
-.LBB3_577:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_577
-	jmp	.LBB3_865
-.LBB3_215:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.216:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_217
-# %bb.361:
-	lea	rsi, [rdx + 4*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_578
-# %bb.362:
-	lea	rsi, [rcx + 4*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_578
-.LBB3_217:
-	xor	esi, esi
-.LBB3_581:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_583
-# %bb.582:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_583:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_584:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_584
-	jmp	.LBB3_865
-.LBB3_218:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.219:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_220
-# %bb.364:
-	lea	rsi, [rdx + 4*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_585
-# %bb.365:
-	lea	rsi, [rcx + 4*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_585
-.LBB3_220:
-	xor	esi, esi
-.LBB3_588:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_590
-# %bb.589:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_590:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_591:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_591
-	jmp	.LBB3_865
-.LBB3_221:
-	mov	edx, r9d
-	and	edx, -32
-	lea	rax, [rdx - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 96
-	jae	.LBB3_367
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB3_369
-.LBB3_265:
-	mov	edx, r9d
-	and	edx, -16
-	lea	rax, [rdx - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 48
-	jae	.LBB3_438
-# %bb.266:
-	xor	eax, eax
-	jmp	.LBB3_440
-.LBB3_279:
-	mov	edx, r9d
-	and	edx, -64
-	lea	rax, [rdx - 64]
-	mov	rdi, rax
-	shr	rdi, 6
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 192
-	jae	.LBB3_461
-# %bb.280:
-	xor	eax, eax
-	jmp	.LBB3_463
-.LBB3_338:
-	mov	edx, r9d
-	and	edx, -128
-	lea	rax, [rdx - 128]
-	mov	rdi, rax
-	shr	rdi, 7
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 384
-	jae	.LBB3_541
-# %bb.339:
-	xor	eax, eax
-	jmp	.LBB3_543
-.LBB3_374:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_612
-# %bb.375:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_376:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_376
-	jmp	.LBB3_613
-.LBB3_377:
-	mov	esi, r9d
-	and	esi, -32
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB3_378:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm5
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_378
-# %bb.379:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_380
-.LBB3_384:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_620
-# %bb.385:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_386:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_386
-	jmp	.LBB3_621
-.LBB3_387:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_628
-# %bb.388:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_389:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_389
-	jmp	.LBB3_629
-.LBB3_390:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_636
-# %bb.391:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_392:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_392
-	jmp	.LBB3_637
-.LBB3_393:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_646
-# %bb.394:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_395:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_395
-	jmp	.LBB3_647
-.LBB3_396:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI3_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI3_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB3_397:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm6, ymmword ptr [rdx + 8*rdi + 96]
-	vandpd	ymm7, ymm3, ymm1
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm4, ymm1
-	vorpd	ymm8, ymm8, ymm2
-	vandpd	ymm9, ymm5, ymm1
-	vorpd	ymm9, ymm9, ymm2
-	vandpd	ymm10, ymm6, ymm1
-	vorpd	ymm10, ymm10, ymm2
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm7
-	vcmpneqpd	ymm4, ymm4, ymm0
-	vandpd	ymm4, ymm8, ymm4
-	vcmpneqpd	ymm5, ymm5, ymm0
-	vandpd	ymm5, ymm9, ymm5
-	vcmpneqpd	ymm6, ymm6, ymm0
-	vandpd	ymm6, ymm10, ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_397
-# %bb.398:
-	cmp	rsi, rax
-	je	.LBB3_865
-	jmp	.LBB3_399
-.LBB3_404:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_656
-# %bb.405:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-.LBB3_406:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_406
-	jmp	.LBB3_657
-.LBB3_407:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_664
-# %bb.408:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-.LBB3_409:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_409
-	jmp	.LBB3_665
-.LBB3_410:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_672
-# %bb.411:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_412:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_412
-	jmp	.LBB3_673
-.LBB3_413:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_680
-# %bb.414:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_415:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_415
-	jmp	.LBB3_681
-.LBB3_416:
-	mov	esi, r11d
-	and	esi, -128
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_6] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_417:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + rdi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [rcx + rdi], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm4
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm5
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm6
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB3_417
-# %bb.418:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_419
-.LBB3_424:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB3_425:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
-	vpsrad	ymm5, ymm1, 7
-	vpsrad	ymm6, ymm2, 7
-	vpsrad	ymm7, ymm3, 7
-	vpsrad	ymm8, ymm4, 7
-	vpaddd	ymm1, ymm5, ymm1
-	vpaddd	ymm2, ymm6, ymm2
-	vpaddd	ymm3, ymm7, ymm3
-	vpaddd	ymm4, ymm8, ymm4
-	vpxor	ymm1, ymm1, ymm5
-	vpxor	ymm2, ymm2, ymm6
-	vpxor	ymm3, ymm3, ymm7
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm1, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
-	vextracti128	xmm5, ymm2, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm2, xmm2, xmm0
-	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
-	vextracti128	xmm5, ymm3, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
-	vextracti128	xmm5, ymm4, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_425
-# %bb.426:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_427
-.LBB3_431:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB3_432:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
-	vpsrad	ymm5, ymm1, 7
-	vpsrad	ymm6, ymm2, 7
-	vpsrad	ymm7, ymm3, 7
-	vpsrad	ymm8, ymm4, 7
-	vpaddd	ymm1, ymm5, ymm1
-	vpaddd	ymm2, ymm6, ymm2
-	vpaddd	ymm3, ymm7, ymm3
-	vpaddd	ymm4, ymm8, ymm4
-	vpxor	ymm1, ymm1, ymm5
-	vpxor	ymm2, ymm2, ymm6
-	vpxor	ymm3, ymm3, ymm7
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm1, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
-	vextracti128	xmm5, ymm2, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm2, xmm2, xmm0
-	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
-	vextracti128	xmm5, ymm3, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
-	vextracti128	xmm5, ymm4, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_432
-# %bb.433:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_434
-.LBB3_445:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_688
-# %bb.446:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_447:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_447
-	jmp	.LBB3_689
-.LBB3_448:
-	mov	esi, r9d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI3_4] # ymm1 = [1,1,1,1]
-.LBB3_449:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm5
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_449
-# %bb.450:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_451
-.LBB3_455:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_696
-# %bb.456:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_457:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_457
-	jmp	.LBB3_697
-.LBB3_458:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_704
-# %bb.459:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_460:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_460
-	jmp	.LBB3_705
-.LBB3_468:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_712
-# %bb.469:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_470:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_470
-	jmp	.LBB3_713
-.LBB3_471:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_720
-# %bb.472:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_473:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_473
-	jmp	.LBB3_721
-.LBB3_474:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_728
-# %bb.475:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_476:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_476
-	jmp	.LBB3_729
-.LBB3_477:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_736
-# %bb.478:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_5] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_479:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_479
-	jmp	.LBB3_737
-.LBB3_480:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_744
-# %bb.481:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_482:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm3
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_482
-	jmp	.LBB3_745
-.LBB3_483:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_592
-# %bb.484:
-	xor	eax, eax
-	jmp	.LBB3_594
-.LBB3_485:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_753
-# %bb.486:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB3_487:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_487
-	jmp	.LBB3_754
-.LBB3_488:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_602
-# %bb.489:
-	xor	eax, eax
-	jmp	.LBB3_604
-.LBB3_490:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_761
-# %bb.491:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB3_492:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_492
-	jmp	.LBB3_762
-.LBB3_493:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_769
-# %bb.494:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_495:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_495
-	jmp	.LBB3_770
-.LBB3_496:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_777
-# %bb.497:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_498:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_498
-	jmp	.LBB3_778
-.LBB3_499:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_787
-# %bb.500:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_501:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_501
-	jmp	.LBB3_788
-.LBB3_502:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_795
-# %bb.503:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_504:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_504
-	jmp	.LBB3_796
-.LBB3_505:
-	mov	esi, r11d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI3_4] # ymm2 = [1,1,1,1]
-.LBB3_506:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_506
-# %bb.507:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_508
-.LBB3_513:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB3_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm5
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_514
-# %bb.515:
-	cmp	rsi, rax
-	je	.LBB3_865
-	jmp	.LBB3_516
-.LBB3_521:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_522:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymm1
-	vblendvpd	ymm1, ymm1, ymm4, ymm1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm5, ymm0, ymm2
-	vblendvpd	ymm2, ymm2, ymm5, ymm2
-	vpsubq	ymm5, ymm0, ymm3
-	vblendvpd	ymm3, ymm3, ymm5, ymm3
-	vpsubq	ymm5, ymm0, ymm4
-	vblendvpd	ymm4, ymm4, ymm5, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_522
-# %bb.523:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_524
-.LBB3_528:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_805
-# %bb.529:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-.LBB3_530:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_530
-	jmp	.LBB3_806
-.LBB3_531:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_532:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymm1
-	vblendvpd	ymm1, ymm1, ymm4, ymm1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm5, ymm0, ymm2
-	vblendvpd	ymm2, ymm2, ymm5, ymm2
-	vpsubq	ymm5, ymm0, ymm3
-	vblendvpd	ymm3, ymm3, ymm5, ymm3
-	vpsubq	ymm5, ymm0, ymm4
-	vblendvpd	ymm4, ymm4, ymm5, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_532
-# %bb.533:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_534
-.LBB3_538:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_815
-# %bb.539:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-.LBB3_540:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_540
-	jmp	.LBB3_816
-.LBB3_548:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_825
-# %bb.549:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_550:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_550
-	jmp	.LBB3_826
-.LBB3_551:
-	mov	esi, r9d
-	and	esi, -128
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_6] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_552:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rdx + rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rdx + rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm5
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB3_552
-# %bb.553:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_554
-.LBB3_558:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_833
-# %bb.559:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_560:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_560
-	jmp	.LBB3_834
-.LBB3_561:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_841
-# %bb.562:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_563:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_563
-	jmp	.LBB3_842
-.LBB3_564:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_849
-# %bb.565:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_566:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_566
-	jmp	.LBB3_850
-.LBB3_567:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_857
-# %bb.568:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_569:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_569
-	jmp	.LBB3_858
-.LBB3_570:
-	mov	esi, r11d
-	and	esi, -32
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI3_3] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB3_571:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_571
-# %bb.572:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_573
-.LBB3_578:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB3_579:                              # =>This Inner Loop Header: Depth=1
-	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_579
-# %bb.580:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_581
-.LBB3_585:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB3_586:                              # =>This Inner Loop Header: Depth=1
-	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_586
-# %bb.587:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_588
-.LBB3_367:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_368:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 4*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 480], ymm0
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_368
-.LBB3_369:
-	test	rsi, rsi
-	je	.LBB3_372
-# %bb.370:
-	lea	rax, [rcx + 4*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_371:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_371
-.LBB3_372:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_373:                              # =>This Inner Loop Header: Depth=1
-	mov	dword ptr [rcx + 4*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_373
-	jmp	.LBB3_865
-.LBB3_438:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_439:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 8*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 480], ymm0
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_439
-.LBB3_440:
-	test	rsi, rsi
-	je	.LBB3_443
-# %bb.441:
-	lea	rax, [rcx + 8*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_442:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_442
-.LBB3_443:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_444:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rcx + 8*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_444
-	jmp	.LBB3_865
-.LBB3_461:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_462:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 2*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 480], ymm0
-	add	rax, 256
-	add	rdi, 4
-	jne	.LBB3_462
-.LBB3_463:
-	test	rsi, rsi
-	je	.LBB3_466
-# %bb.464:
-	lea	rax, [rcx + 2*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_465:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_465
-.LBB3_466:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_467:                              # =>This Inner Loop Header: Depth=1
-	mov	word ptr [rcx + 2*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_467
-	jmp	.LBB3_865
-.LBB3_541:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_542:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + rax], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 480], ymm0
-	add	rax, 512
-	add	rdi, 4
-	jne	.LBB3_542
-.LBB3_543:
-	test	rsi, rsi
-	je	.LBB3_546
-# %bb.544:
-	add	rax, rcx
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_545:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_545
-.LBB3_546:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_547:                              # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rcx + rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_547
-.LBB3_865:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB3_592:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_593:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_593
-.LBB3_594:
-	test	r8, r8
-	je	.LBB3_597
-# %bb.595:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB3_596:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB3_596
-.LBB3_597:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_598
-.LBB3_602:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_603:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_603
-.LBB3_604:
-	test	r8, r8
-	je	.LBB3_607
-# %bb.605:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB3_606:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB3_606
-.LBB3_607:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_608
-.LBB3_612:
-	xor	edi, edi
-.LBB3_613:
-	test	r8b, 1
-	je	.LBB3_615
-# %bb.614:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_615:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_616
-.LBB3_620:
-	xor	edi, edi
-.LBB3_621:
-	test	r8b, 1
-	je	.LBB3_623
-# %bb.622:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB3_623:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_624
-.LBB3_628:
-	xor	edi, edi
-.LBB3_629:
-	test	r8b, 1
-	je	.LBB3_631
-# %bb.630:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB3_631:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_632
-.LBB3_636:
-	xor	edi, edi
-.LBB3_637:
-	test	r8b, 1
-	je	.LBB3_639
-# %bb.638:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_639:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_640
-.LBB3_646:
-	xor	edi, edi
-.LBB3_647:
-	test	r8b, 1
-	je	.LBB3_649
-# %bb.648:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_649:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_650
-.LBB3_656:
-	xor	edi, edi
-.LBB3_657:
-	test	r8b, 1
-	je	.LBB3_659
-# %bb.658:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_659:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_660
-.LBB3_664:
-	xor	edi, edi
-.LBB3_665:
-	test	r8b, 1
-	je	.LBB3_667
-# %bb.666:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_667:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_668
-.LBB3_672:
-	xor	edi, edi
-.LBB3_673:
-	test	r8b, 1
-	je	.LBB3_675
-# %bb.674:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_675:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_676
-.LBB3_680:
-	xor	edi, edi
-.LBB3_681:
-	test	r8b, 1
-	je	.LBB3_683
-# %bb.682:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_683:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_684
-.LBB3_688:
-	xor	edi, edi
-.LBB3_689:
-	test	r8b, 1
-	je	.LBB3_691
-# %bb.690:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_691:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_692
-.LBB3_696:
-	xor	edi, edi
-.LBB3_697:
-	test	r8b, 1
-	je	.LBB3_699
-# %bb.698:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB3_699:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_700
-.LBB3_704:
-	xor	edi, edi
-.LBB3_705:
-	test	r8b, 1
-	je	.LBB3_707
-# %bb.706:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB3_707:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_708
-.LBB3_712:
-	xor	edi, edi
-.LBB3_713:
-	test	r8b, 1
-	je	.LBB3_715
-# %bb.714:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_715:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_716
-.LBB3_720:
-	xor	edi, edi
-.LBB3_721:
-	test	r8b, 1
-	je	.LBB3_723
-# %bb.722:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_723:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_724
-.LBB3_728:
-	xor	edi, edi
-.LBB3_729:
-	test	r8b, 1
-	je	.LBB3_731
-# %bb.730:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_731:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_732
-.LBB3_736:
-	xor	edi, edi
-.LBB3_737:
-	test	r8b, 1
-	je	.LBB3_739
-# %bb.738:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_739:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_740
-.LBB3_744:
-	xor	edi, edi
-.LBB3_745:
-	test	r8b, 1
-	je	.LBB3_747
-# %bb.746:
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI3_5] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-.LBB3_747:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_748
-.LBB3_753:
-	xor	edi, edi
-.LBB3_754:
-	test	r8b, 1
-	je	.LBB3_756
-# %bb.755:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm2, ymm1, 15
-	vpsrad	ymm3, ymm0, 15
-	vpaddd	ymm0, ymm3, ymm0
-	vpaddd	ymm1, ymm2, ymm1
-	vpxor	ymm1, ymm1, ymm2
-	vpxor	ymm0, ymm0, ymm3
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm2
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm2
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB3_756:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_757
-.LBB3_761:
-	xor	edi, edi
-.LBB3_762:
-	test	r8b, 1
-	je	.LBB3_764
-# %bb.763:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm2, ymm1, 15
-	vpsrad	ymm3, ymm0, 15
-	vpaddd	ymm0, ymm3, ymm0
-	vpaddd	ymm1, ymm2, ymm1
-	vpxor	ymm1, ymm1, ymm2
-	vpxor	ymm0, ymm0, ymm3
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm2
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm2
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB3_764:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_765
-.LBB3_769:
-	xor	edi, edi
-.LBB3_770:
-	test	r8b, 1
-	je	.LBB3_772
-# %bb.771:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_772:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_773
-.LBB3_777:
-	xor	edi, edi
-.LBB3_778:
-	test	r8b, 1
-	je	.LBB3_780
-# %bb.779:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_780:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_781
-.LBB3_787:
-	xor	edi, edi
-.LBB3_788:
-	test	r8b, 1
-	je	.LBB3_790
-# %bb.789:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_790:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_791
-.LBB3_795:
-	xor	edi, edi
-.LBB3_796:
-	test	r8b, 1
-	je	.LBB3_798
-# %bb.797:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_798:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_799
-.LBB3_805:
-	xor	edi, edi
-.LBB3_806:
-	test	r8b, 1
-	je	.LBB3_808
-# %bb.807:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_808:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_809
-.LBB3_815:
-	xor	edi, edi
-.LBB3_816:
-	test	r8b, 1
-	je	.LBB3_818
-# %bb.817:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_818:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_819
-.LBB3_825:
-	xor	edi, edi
-.LBB3_826:
-	test	r8b, 1
-	je	.LBB3_828
-# %bb.827:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_828:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_829
-.LBB3_833:
-	xor	edi, edi
-.LBB3_834:
-	test	r8b, 1
-	je	.LBB3_836
-# %bb.835:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB3_836:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_837
-.LBB3_841:
-	xor	edi, edi
-.LBB3_842:
-	test	r8b, 1
-	je	.LBB3_844
-# %bb.843:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB3_844:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_845
-.LBB3_849:
-	xor	edi, edi
-.LBB3_850:
-	test	r8b, 1
-	je	.LBB3_852
-# %bb.851:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_852:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_853
-.LBB3_857:
-	xor	edi, edi
-.LBB3_858:
-	test	r8b, 1
-	je	.LBB3_860
-# %bb.859:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_860:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_861
-.Lfunc_end3:
-	.size	arithmetic_unary_same_types_avx2, .Lfunc_end3-arithmetic_unary_same_types_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function arithmetic_unary_diff_type_avx2
-.LCPI4_0:
-	.quad	0x8000000000000000              # double -0
-.LCPI4_1:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_6:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI4_7:
-	.quad	0x41e0000000000000              # double 2147483648
-.LCPI4_13:
-	.quad	0xbff0000000000000              # double -1
-.LCPI4_15:
-	.quad	1                               # 0x1
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI4_2:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI4_11:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_12:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_16:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_17:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_19:
-	.zero	16,1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI4_3:
-	.long	0x7fffffff                      # float NaN
-.LCPI4_4:
-	.long	0x80000000                      # float -0
-.LCPI4_5:
-	.long	0x3f800000                      # float 1
-.LCPI4_8:
-	.long	1                               # 0x1
-.LCPI4_9:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI4_10:
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI4_14:
-	.long	0xbf800000                      # float -1
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI4_18:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_20:
-	.zero	32,1
-	.text
-	.globl	arithmetic_unary_diff_type_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_unary_diff_type_avx2,@function
-arithmetic_unary_diff_type_avx2:        # @arithmetic_unary_diff_type_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	dl, 20
-	jne	.LBB4_1351
-# %bb.1:
-	cmp	edi, 6
-	jg	.LBB4_14
-# %bb.2:
-	cmp	edi, 3
-	jle	.LBB4_26
-# %bb.3:
-	cmp	edi, 4
-	je	.LBB4_46
-# %bb.4:
-	cmp	edi, 5
-	je	.LBB4_54
-# %bb.5:
-	cmp	edi, 6
-	jne	.LBB4_1351
-# %bb.6:
-	cmp	esi, 6
-	jg	.LBB4_94
-# %bb.7:
-	cmp	esi, 3
-	jle	.LBB4_164
-# %bb.8:
-	cmp	esi, 4
-	je	.LBB4_267
-# %bb.9:
-	cmp	esi, 5
-	je	.LBB4_270
-# %bb.10:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.11:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.12:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_13
-# %bb.447:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_870
-# %bb.448:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_870
-.LBB4_13:
-	xor	edx, edx
-.LBB4_873:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_875
-.LBB4_874:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_874
-.LBB4_875:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_876:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_876
-	jmp	.LBB4_1351
-.LBB4_14:
-	cmp	edi, 8
-	jle	.LBB4_36
-# %bb.15:
-	cmp	edi, 9
-	je	.LBB4_62
-# %bb.16:
-	cmp	edi, 11
-	je	.LBB4_70
-# %bb.17:
-	cmp	edi, 12
-	jne	.LBB4_1351
-# %bb.18:
-	cmp	esi, 6
-	jg	.LBB4_101
-# %bb.19:
-	cmp	esi, 3
-	jle	.LBB4_169
-# %bb.20:
-	cmp	esi, 4
-	je	.LBB4_273
-# %bb.21:
-	cmp	esi, 5
-	je	.LBB4_276
-# %bb.22:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.23:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.24:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_450
-# %bb.25:
-	xor	esi, esi
-	jmp	.LBB4_1292
-.LBB4_26:
-	cmp	edi, 2
-	je	.LBB4_78
-# %bb.27:
-	cmp	edi, 3
-	jne	.LBB4_1351
-# %bb.28:
-	cmp	esi, 6
-	jg	.LBB4_108
-# %bb.29:
-	cmp	esi, 3
-	jle	.LBB4_174
-# %bb.30:
-	cmp	esi, 4
-	je	.LBB4_279
-# %bb.31:
-	cmp	esi, 5
-	je	.LBB4_282
-# %bb.32:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.34:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_35
-# %bb.453:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_877
-# %bb.454:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_877
-.LBB4_35:
-	xor	edx, edx
-.LBB4_880:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_882
-# %bb.881:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_882:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.883:
-	mov	esi, 1
-.LBB4_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_884
-	jmp	.LBB4_1351
-.LBB4_36:
-	cmp	edi, 7
-	je	.LBB4_86
-# %bb.37:
-	cmp	edi, 8
-	jne	.LBB4_1351
-# %bb.38:
-	cmp	esi, 6
-	jg	.LBB4_115
-# %bb.39:
-	cmp	esi, 3
-	jle	.LBB4_179
-# %bb.40:
-	cmp	esi, 4
-	je	.LBB4_285
-# %bb.41:
-	cmp	esi, 5
-	je	.LBB4_288
-# %bb.42:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.44:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_456
-# %bb.45:
-	xor	edx, edx
-	jmp	.LBB4_459
-.LBB4_46:
-	cmp	esi, 6
-	jg	.LBB4_122
-# %bb.47:
-	cmp	esi, 3
-	jle	.LBB4_184
-# %bb.48:
-	cmp	esi, 4
-	je	.LBB4_291
-# %bb.49:
-	cmp	esi, 5
-	je	.LBB4_294
-# %bb.50:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.51:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.52:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_460
-# %bb.53:
-	xor	edx, edx
-	jmp	.LBB4_463
-.LBB4_54:
-	cmp	esi, 6
-	jg	.LBB4_129
-# %bb.55:
-	cmp	esi, 3
-	jle	.LBB4_189
-# %bb.56:
-	cmp	esi, 4
-	je	.LBB4_297
-# %bb.57:
-	cmp	esi, 5
-	je	.LBB4_300
-# %bb.58:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.60:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_464
-# %bb.61:
-	xor	edx, edx
-	jmp	.LBB4_467
-.LBB4_62:
-	cmp	esi, 6
-	jg	.LBB4_136
-# %bb.63:
-	cmp	esi, 3
-	jle	.LBB4_194
-# %bb.64:
-	cmp	esi, 4
-	je	.LBB4_303
-# %bb.65:
-	cmp	esi, 5
-	je	.LBB4_306
-# %bb.66:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_469
-# %bb.69:
-	xor	edx, edx
-	jmp	.LBB4_472
-.LBB4_70:
-	cmp	esi, 6
-	jg	.LBB4_143
-# %bb.71:
-	cmp	esi, 3
-	jle	.LBB4_199
-# %bb.72:
-	cmp	esi, 4
-	je	.LBB4_309
-# %bb.73:
-	cmp	esi, 5
-	je	.LBB4_312
-# %bb.74:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.75:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.76:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_474
-# %bb.77:
-	xor	edx, edx
-	jmp	.LBB4_1298
-.LBB4_78:
-	cmp	esi, 6
-	jg	.LBB4_150
-# %bb.79:
-	cmp	esi, 3
-	jle	.LBB4_204
-# %bb.80:
-	cmp	esi, 4
-	je	.LBB4_315
-# %bb.81:
-	cmp	esi, 5
-	je	.LBB4_318
-# %bb.82:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.83:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.84:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_85
-# %bb.477:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_885
-# %bb.478:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_885
-.LBB4_85:
-	xor	edx, edx
-.LBB4_888:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_890
-.LBB4_889:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_889
-.LBB4_890:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_891:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_891
-	jmp	.LBB4_1351
-.LBB4_86:
-	cmp	esi, 6
-	jg	.LBB4_157
-# %bb.87:
-	cmp	esi, 3
-	jle	.LBB4_209
-# %bb.88:
-	cmp	esi, 4
-	je	.LBB4_321
-# %bb.89:
-	cmp	esi, 5
-	je	.LBB4_324
-# %bb.90:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.91:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.92:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_93
-# %bb.480:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_892
-# %bb.481:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_892
-.LBB4_93:
-	xor	edx, edx
-.LBB4_895:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_897
-# %bb.896:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_897:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.898:
-	mov	esi, 1
-.LBB4_899:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_899
-	jmp	.LBB4_1351
-.LBB4_94:
-	cmp	esi, 8
-	jle	.LBB4_214
-# %bb.95:
-	cmp	esi, 9
-	je	.LBB4_327
-# %bb.96:
-	cmp	esi, 11
-	je	.LBB4_330
-# %bb.97:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.98:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.99:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_483
-# %bb.100:
-	xor	edx, edx
-	jmp	.LBB4_486
-.LBB4_101:
-	cmp	esi, 8
-	jle	.LBB4_219
-# %bb.102:
-	cmp	esi, 9
-	je	.LBB4_333
-# %bb.103:
-	cmp	esi, 11
-	je	.LBB4_336
-# %bb.104:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.105:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.106:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_107
-# %bb.490:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_900
-# %bb.491:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_900
-.LBB4_107:
-	xor	edx, edx
-.LBB4_903:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_905
-# %bb.904:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-	vorpd	xmm1, xmm2, xmm1
-	vxorpd	xmm2, xmm2, xmm2
-	vcmpeqsd	xmm0, xmm0, xmm2
-	vandnpd	xmm0, xmm0, xmm1
-	vmovlpd	qword ptr [r8 + 8*rdx], xmm0
-	or	rdx, 1
-.LBB4_905:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.906:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI4_2] # xmm0 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_907:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [r8 + 8*rdx], xmm3
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_907
-	jmp	.LBB4_1351
-.LBB4_108:
-	cmp	esi, 8
-	jle	.LBB4_224
-# %bb.109:
-	cmp	esi, 9
-	je	.LBB4_339
-# %bb.110:
-	cmp	esi, 11
-	je	.LBB4_342
-# %bb.111:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.112:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.113:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_114
-# %bb.493:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_908
-# %bb.494:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_908
-.LBB4_114:
-	xor	edx, edx
-.LBB4_911:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1254
-# %bb.912:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1250
-# %bb.913:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1251
-.LBB4_115:
-	cmp	esi, 8
-	jle	.LBB4_229
-# %bb.116:
-	cmp	esi, 9
-	je	.LBB4_345
-# %bb.117:
-	cmp	esi, 11
-	je	.LBB4_348
-# %bb.118:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.120:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_496
-# %bb.121:
-	xor	edx, edx
-	jmp	.LBB4_499
-.LBB4_122:
-	cmp	esi, 8
-	jle	.LBB4_234
-# %bb.123:
-	cmp	esi, 9
-	je	.LBB4_351
-# %bb.124:
-	cmp	esi, 11
-	je	.LBB4_354
-# %bb.125:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.126:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.127:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_503
-# %bb.128:
-	xor	edx, edx
-	jmp	.LBB4_506
-.LBB4_129:
-	cmp	esi, 8
-	jle	.LBB4_239
-# %bb.130:
-	cmp	esi, 9
-	je	.LBB4_357
-# %bb.131:
-	cmp	esi, 11
-	je	.LBB4_360
-# %bb.132:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.133:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.134:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_510
-# %bb.135:
-	xor	edx, edx
-	jmp	.LBB4_513
-.LBB4_136:
-	cmp	esi, 8
-	jle	.LBB4_244
-# %bb.137:
-	cmp	esi, 9
-	je	.LBB4_363
-# %bb.138:
-	cmp	esi, 11
-	je	.LBB4_366
-# %bb.139:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.140:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.141:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_519
-# %bb.142:
-	xor	edx, edx
-	jmp	.LBB4_522
-.LBB4_143:
-	cmp	esi, 8
-	jle	.LBB4_249
-# %bb.144:
-	cmp	esi, 9
-	je	.LBB4_369
-# %bb.145:
-	cmp	esi, 11
-	je	.LBB4_372
-# %bb.146:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.147:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.148:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_528
-# %bb.149:
-	xor	edx, edx
-	jmp	.LBB4_531
-.LBB4_150:
-	cmp	esi, 8
-	jle	.LBB4_257
-# %bb.151:
-	cmp	esi, 9
-	je	.LBB4_375
-# %bb.152:
-	cmp	esi, 11
-	je	.LBB4_378
-# %bb.153:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.155:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_156
-# %bb.535:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_914
-# %bb.536:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_914
-.LBB4_156:
-	xor	edx, edx
-.LBB4_917:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_922
-# %bb.918:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_920
-.LBB4_919:                              #   in Loop: Header=BB4_920 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_922
-.LBB4_920:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_919
-# %bb.921:                              #   in Loop: Header=BB4_920 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_919
-.LBB4_157:
-	cmp	esi, 8
-	jle	.LBB4_262
-# %bb.158:
-	cmp	esi, 9
-	je	.LBB4_381
-# %bb.159:
-	cmp	esi, 11
-	je	.LBB4_384
-# %bb.160:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.161:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.162:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_538
-# %bb.163:
-	xor	edx, edx
-	jmp	.LBB4_541
-.LBB4_164:
-	cmp	esi, 2
-	je	.LBB4_387
-# %bb.165:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.166:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.167:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_168
-# %bb.547:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_933
-# %bb.548:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_933
-.LBB4_168:
-	xor	edx, edx
-.LBB4_936:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_938
-.LBB4_937:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_937
-.LBB4_938:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_939:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_939
-	jmp	.LBB4_1351
-.LBB4_169:
-	cmp	esi, 2
-	je	.LBB4_390
-# %bb.170:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.171:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.172:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_173
-# %bb.550:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_940
-# %bb.551:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_940
-.LBB4_173:
-	xor	edx, edx
-.LBB4_943:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_945
-# %bb.944:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	edi, edi
-	vpxor	xmm1, xmm1, xmm1
-	vucomisd	xmm1, xmm0
-	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vorpd	xmm0, xmm1, xmm0
-	vcvttsd2si	ebx, xmm0
-	cmove	ebx, edi
-	mov	byte ptr [r8 + rdx], bl
-	or	rdx, 1
-.LBB4_945:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.946:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_947:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_947
-	jmp	.LBB4_1351
-.LBB4_174:
-	cmp	esi, 2
-	je	.LBB4_393
-# %bb.175:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.176:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.177:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB4_178
-# %bb.553:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_948
-# %bb.554:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_948
-.LBB4_178:
-	xor	r11d, r11d
-.LBB4_951:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_953
-# %bb.952:
-	mov	dil, byte ptr [rcx + r11]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_953:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.954:
-	mov	esi, 1
-.LBB4_955:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + r11]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, byte ptr [rcx + r11 + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_955
-	jmp	.LBB4_1351
-.LBB4_179:
-	cmp	esi, 2
-	je	.LBB4_396
-# %bb.180:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.181:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.182:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_183
-# %bb.556:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_956
-# %bb.557:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_956
-.LBB4_183:
-	xor	edx, edx
-.LBB4_959:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_961
-.LBB4_960:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_960
-.LBB4_961:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_962:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_962
-	jmp	.LBB4_1351
-.LBB4_184:
-	cmp	esi, 2
-	je	.LBB4_399
-# %bb.185:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.186:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.187:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_188
-# %bb.559:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_963
-# %bb.560:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_963
-.LBB4_188:
-	xor	edx, edx
-.LBB4_966:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_968
-.LBB4_967:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_967
-.LBB4_968:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_969:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_969
-	jmp	.LBB4_1351
-.LBB4_189:
-	cmp	esi, 2
-	je	.LBB4_402
-# %bb.190:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.191:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.192:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_193
-# %bb.562:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_970
-# %bb.563:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_970
-.LBB4_193:
-	xor	r11d, r11d
-.LBB4_973:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_975
-# %bb.974:
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_975:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.976:
-	mov	esi, 1
-.LBB4_977:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, word ptr [rcx + 2*r11 + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_977
-	jmp	.LBB4_1351
-.LBB4_194:
-	cmp	esi, 2
-	je	.LBB4_405
-# %bb.195:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.196:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.197:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_198
-# %bb.565:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_978
-# %bb.566:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_978
-.LBB4_198:
-	xor	r11d, r11d
-.LBB4_981:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_983
-# %bb.982:
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	r9b
-	neg	r9b
-	test	rdi, rdi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_983:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.984:
-	mov	esi, 1
-.LBB4_985:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	rax, qword ptr [rcx + 8*r11 + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_985
-	jmp	.LBB4_1351
-.LBB4_199:
-	cmp	esi, 2
-	je	.LBB4_408
-# %bb.200:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.201:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.202:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_203
-# %bb.568:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_986
-# %bb.569:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_986
-.LBB4_203:
-	xor	edx, edx
-.LBB4_989:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_991
-# %bb.990:
-	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovd	edi, xmm0
-	test	edi, edi
-	setns	dil
-	add	dil, dil
-	add	dil, -1
-	xor	r9d, r9d
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	movzx	edi, dil
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_991:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.992:
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_993:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_993
-	jmp	.LBB4_1351
-.LBB4_204:
-	cmp	esi, 2
-	je	.LBB4_411
-# %bb.205:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.206:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.207:
-	mov	eax, r9d
-	cmp	r9d, 128
-	jb	.LBB4_208
-# %bb.571:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_994
-# %bb.572:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_994
-.LBB4_208:
-	xor	edx, edx
-.LBB4_997:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_999
-.LBB4_998:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_998
-.LBB4_999:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1000:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1000
-	jmp	.LBB4_1351
-.LBB4_209:
-	cmp	esi, 2
-	je	.LBB4_414
-# %bb.210:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.211:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.212:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_213
-# %bb.574:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1001
-# %bb.575:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1001
-.LBB4_213:
-	xor	r11d, r11d
-.LBB4_1004:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1006
-# %bb.1005:
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1006:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1007:
-	mov	esi, 1
-.LBB4_1008:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	eax, dword ptr [rcx + 4*r11 + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1008
-	jmp	.LBB4_1351
-.LBB4_214:
-	cmp	esi, 7
-	je	.LBB4_417
-# %bb.215:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.216:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.217:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_577
-# %bb.218:
-	xor	edx, edx
-	jmp	.LBB4_580
-.LBB4_219:
-	cmp	esi, 7
-	je	.LBB4_420
-# %bb.220:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.221:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.222:
-	mov	r10d, r9d
-	movabs	r11, -9223372036854775808
-	cmp	r9d, 4
-	jae	.LBB4_581
-# %bb.223:
-	xor	esi, esi
-	jmp	.LBB4_1286
-.LBB4_224:
-	cmp	esi, 7
-	je	.LBB4_423
-# %bb.225:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.226:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.227:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_228
-# %bb.584:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1009
-# %bb.585:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1009
-.LBB4_228:
-	xor	edx, edx
-.LBB4_1012:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1014
-# %bb.1013:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1014:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1015:
-	mov	esi, 1
-.LBB4_1016:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1016
-	jmp	.LBB4_1351
-.LBB4_229:
-	cmp	esi, 7
-	je	.LBB4_426
-# %bb.230:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.231:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.232:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_233
-# %bb.587:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1017
-# %bb.588:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1017
-.LBB4_233:
-	xor	edx, edx
-.LBB4_1020:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1022
-.LBB4_1021:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1021
-.LBB4_1022:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1023:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1023
-	jmp	.LBB4_1351
-.LBB4_234:
-	cmp	esi, 7
-	je	.LBB4_429
-# %bb.235:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.236:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.237:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_590
-# %bb.238:
-	xor	edx, edx
-	jmp	.LBB4_593
-.LBB4_239:
-	cmp	esi, 7
-	je	.LBB4_432
-# %bb.240:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.241:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.242:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_594
-# %bb.243:
-	xor	edx, edx
-	jmp	.LBB4_597
-.LBB4_244:
-	cmp	esi, 7
-	je	.LBB4_435
-# %bb.245:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.246:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.247:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_248
-# %bb.599:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1024
-# %bb.600:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1024
-.LBB4_248:
-	xor	edx, edx
-.LBB4_1027:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1029
-# %bb.1028:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1029:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1030:
-	mov	esi, 1
-.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1031
-	jmp	.LBB4_1351
-.LBB4_249:
-	cmp	esi, 7
-	je	.LBB4_438
-# %bb.250:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.251:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.252:
-	mov	r10d, r9d
-	cmp	r9d, 1
-	jne	.LBB4_602
-# %bb.253:
-	xor	eax, eax
-	jmp	.LBB4_254
-.LBB4_257:
-	cmp	esi, 7
-	je	.LBB4_441
-# %bb.258:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.259:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.260:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_261
-# %bb.610:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1032
-# %bb.611:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1032
-.LBB4_261:
-	xor	edx, edx
-.LBB4_1035:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1037
-.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1036
-.LBB4_1037:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1038:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1038
-	jmp	.LBB4_1351
-.LBB4_262:
-	cmp	esi, 7
-	je	.LBB4_444
-# %bb.263:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.264:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.265:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_613
-# %bb.266:
-	xor	edx, edx
-	jmp	.LBB4_616
-.LBB4_267:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.268:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_618
-# %bb.269:
-	xor	edx, edx
-	jmp	.LBB4_621
-.LBB4_270:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.271:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_622
-# %bb.272:
-	xor	edx, edx
-	jmp	.LBB4_625
-.LBB4_273:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.274:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_626
-# %bb.275:
-	xor	esi, esi
-	jmp	.LBB4_629
-.LBB4_276:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.277:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_631
-# %bb.278:
-	xor	esi, esi
-	jmp	.LBB4_634
-.LBB4_279:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.280:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_281
-# %bb.636:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1039
-# %bb.637:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1039
-.LBB4_281:
-	xor	edx, edx
-.LBB4_1042:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1044
-# %bb.1043:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1044:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1045:
-	mov	esi, 1
-.LBB4_1046:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1046
-	jmp	.LBB4_1351
-.LBB4_282:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.283:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_284
-# %bb.639:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1047
-# %bb.640:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1047
-.LBB4_284:
-	xor	edx, edx
-.LBB4_1050:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1052
-# %bb.1051:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1052:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1053:
-	mov	esi, 1
-.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1054
-	jmp	.LBB4_1351
-.LBB4_285:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.286:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_642
-# %bb.287:
-	xor	edx, edx
-	jmp	.LBB4_645
-.LBB4_288:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.289:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_646
-# %bb.290:
-	xor	edx, edx
-	jmp	.LBB4_649
-.LBB4_291:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.292:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_293
-# %bb.650:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1055
-# %bb.651:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1055
-.LBB4_293:
-	xor	edx, edx
-.LBB4_1321:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1323
-.LBB4_1322:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1322
-.LBB4_1323:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1324:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1324
-	jmp	.LBB4_1351
-.LBB4_294:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.295:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_296
-# %bb.653:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1058
-# %bb.654:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1058
-.LBB4_296:
-	xor	edx, edx
-.LBB4_1329:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1331
-.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1330
-.LBB4_1331:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1332:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1332
-	jmp	.LBB4_1351
-.LBB4_297:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.298:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_299
-# %bb.656:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1061
-# %bb.657:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1061
-.LBB4_299:
-	xor	edx, edx
-.LBB4_1337:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1339
-# %bb.1338:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1339:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1340:
-	mov	esi, 1
-.LBB4_1341:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1341
-	jmp	.LBB4_1351
-.LBB4_300:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.301:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_302
-# %bb.659:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1064
-# %bb.660:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1064
-.LBB4_302:
-	xor	edx, edx
-.LBB4_1346:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1348
-# %bb.1347:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1348:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1349:
-	mov	esi, 1
-.LBB4_1350:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1350
-	jmp	.LBB4_1351
-.LBB4_303:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.304:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_662
-# %bb.305:
-	xor	edx, edx
-	jmp	.LBB4_665
-.LBB4_306:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.307:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_667
-# %bb.308:
-	xor	edx, edx
-	jmp	.LBB4_670
-.LBB4_309:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.310:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 32
-	jae	.LBB4_672
-# %bb.311:
-	xor	esi, esi
-	jmp	.LBB4_675
-.LBB4_312:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.313:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 32
-	jae	.LBB4_677
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB4_680
-.LBB4_315:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.316:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_317
-# %bb.682:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1067
-# %bb.683:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1067
-.LBB4_317:
-	xor	edx, edx
-.LBB4_1070:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1072
-.LBB4_1071:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1071
-.LBB4_1072:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1073:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1073
-	jmp	.LBB4_1351
-.LBB4_318:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.319:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_320
-# %bb.685:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1074
-# %bb.686:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1074
-.LBB4_320:
-	xor	edx, edx
-.LBB4_1077:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1079
-.LBB4_1078:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1078
-.LBB4_1079:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1080:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1080
-	jmp	.LBB4_1351
-.LBB4_321:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.322:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_688
-# %bb.323:
-	xor	edx, edx
-	jmp	.LBB4_691
-.LBB4_324:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.325:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_693
-# %bb.326:
-	xor	edx, edx
-	jmp	.LBB4_696
-.LBB4_327:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.328:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_698
-# %bb.329:
-	xor	edx, edx
-	jmp	.LBB4_701
-.LBB4_330:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.331:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_702
-# %bb.332:
-	xor	edx, edx
-	jmp	.LBB4_705
-.LBB4_333:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.334:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_709
-# %bb.335:
-	xor	edx, edx
-	jmp	.LBB4_1306
-.LBB4_336:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.337:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_712
-# %bb.338:
-	xor	edx, edx
-	jmp	.LBB4_715
-.LBB4_339:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.340:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_341
-# %bb.719:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1081
-# %bb.720:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1081
-.LBB4_341:
-	xor	edx, edx
-.LBB4_1084:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1086
-# %bb.1085:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1086:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1087:
-	mov	esi, 1
-.LBB4_1088:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1088
-	jmp	.LBB4_1351
-.LBB4_342:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.343:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_344
-# %bb.722:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1089
-# %bb.723:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1089
-.LBB4_344:
-	xor	edx, edx
-.LBB4_1092:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1269
-# %bb.1093:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1265
-# %bb.1094:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1266
-.LBB4_345:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.346:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_347
-# %bb.725:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1095
-# %bb.726:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1095
-.LBB4_347:
-	xor	edx, edx
-.LBB4_1098:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1100
-.LBB4_1099:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1099
-.LBB4_1100:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1101:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1101
-	jmp	.LBB4_1351
-.LBB4_348:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.349:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_728
-# %bb.350:
-	xor	edx, edx
-	jmp	.LBB4_731
-.LBB4_351:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.352:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_735
-# %bb.353:
-	xor	edx, edx
-	jmp	.LBB4_738
-.LBB4_354:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.355:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_739
-# %bb.356:
-	xor	edx, edx
-	jmp	.LBB4_742
-.LBB4_357:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.358:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_746
-# %bb.359:
-	xor	edx, edx
-	jmp	.LBB4_749
-.LBB4_360:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.361:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_751
-# %bb.362:
-	xor	edx, edx
-	jmp	.LBB4_754
-.LBB4_363:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.364:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_365
-# %bb.760:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1102
-# %bb.761:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1102
-.LBB4_365:
-	xor	edx, edx
-.LBB4_1105:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1107
-# %bb.1106:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1107:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1108:
-	mov	esi, 1
-.LBB4_1109:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1109
-	jmp	.LBB4_1351
-.LBB4_366:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.367:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_763
-# %bb.368:
-	xor	edx, edx
-	jmp	.LBB4_766
-.LBB4_369:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.370:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_772
-# %bb.371:
-	xor	edx, edx
-	jmp	.LBB4_1312
-.LBB4_372:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.373:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_374
-# %bb.775:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1110
-# %bb.776:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1110
-.LBB4_374:
-	xor	edx, edx
-.LBB4_1113:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1115
-# %bb.1114:
-	vmovss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm1, xmm10, edi
-	vxorps	xmm2, xmm2, xmm2
-	vcmpeqss	xmm0, xmm0, xmm2
-	vandnps	xmm0, xmm0, xmm1
-	vmovss	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1115:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1116:
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_1117:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm2, xmm10, esi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm2, xmm10, esi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1117
-	jmp	.LBB4_1351
-.LBB4_375:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.376:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_377
-# %bb.778:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1118
-# %bb.779:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1118
-.LBB4_377:
-	xor	edx, edx
-.LBB4_1121:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1123
-.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1122
-.LBB4_1123:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1124:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1124
-	jmp	.LBB4_1351
-.LBB4_378:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.379:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_380
-# %bb.781:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1125
-# %bb.782:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1125
-.LBB4_380:
-	xor	edx, edx
-.LBB4_1128:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1133
-# %bb.1129:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1131
-.LBB4_1130:                             #   in Loop: Header=BB4_1131 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_1133
-.LBB4_1131:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1130
-# %bb.1132:                             #   in Loop: Header=BB4_1131 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_1130
-.LBB4_381:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.382:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_784
-# %bb.383:
-	xor	edx, edx
-	jmp	.LBB4_787
-.LBB4_384:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.385:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_789
-# %bb.386:
-	xor	edx, edx
-	jmp	.LBB4_792
-.LBB4_387:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.388:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_389
-# %bb.798:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1144
-# %bb.799:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1144
-.LBB4_389:
-	xor	edx, edx
-.LBB4_1147:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1149
-.LBB4_1148:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1148
-.LBB4_1149:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1150:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1150
-	jmp	.LBB4_1351
-.LBB4_390:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.391:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_392
-# %bb.801:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1151
-# %bb.802:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1151
-.LBB4_392:
-	xor	edx, edx
-.LBB4_1154:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1156
-# %bb.1155:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	edi, edi
-	vpxor	xmm1, xmm1, xmm1
-	vucomisd	xmm1, xmm0
-	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vorpd	xmm0, xmm1, xmm0
-	vcvttsd2si	ebx, xmm0
-	cmove	ebx, edi
-	mov	byte ptr [r8 + rdx], bl
-	or	rdx, 1
-.LBB4_1156:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1157:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1158
-	jmp	.LBB4_1351
-.LBB4_393:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.394:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB4_395
-# %bb.804:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1159
-# %bb.805:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1159
-.LBB4_395:
-	xor	r11d, r11d
-.LBB4_1162:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1164
-# %bb.1163:
-	mov	dil, byte ptr [rcx + r11]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1164:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1165:
-	mov	esi, 1
-.LBB4_1166:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + r11]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, byte ptr [rcx + r11 + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1166
-	jmp	.LBB4_1351
-.LBB4_396:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.397:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_398
-# %bb.807:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1167
-# %bb.808:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1167
-.LBB4_398:
-	xor	edx, edx
-.LBB4_1170:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1172
-.LBB4_1171:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1171
-.LBB4_1172:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1173:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1173
-	jmp	.LBB4_1351
-.LBB4_399:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.400:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_401
-# %bb.810:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1174
-# %bb.811:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1174
-.LBB4_401:
-	xor	edx, edx
-.LBB4_1177:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1179
-.LBB4_1178:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1178
-.LBB4_1179:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1180:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1180
-	jmp	.LBB4_1351
-.LBB4_402:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.403:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_404
-# %bb.813:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1181
-# %bb.814:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1181
-.LBB4_404:
-	xor	r11d, r11d
-.LBB4_1184:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1186
-# %bb.1185:
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1186:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1187:
-	mov	esi, 1
-.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, word ptr [rcx + 2*r11 + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1188
-	jmp	.LBB4_1351
-.LBB4_405:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.406:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_407
-# %bb.816:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1189
-# %bb.817:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1189
-.LBB4_407:
-	xor	r11d, r11d
-.LBB4_1192:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1194
-# %bb.1193:
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	r9b
-	neg	r9b
-	test	rdi, rdi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1194:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1195:
-	mov	esi, 1
-.LBB4_1196:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	rax, qword ptr [rcx + 8*r11 + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1196
-	jmp	.LBB4_1351
-.LBB4_408:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.409:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_410
-# %bb.819:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1197
-# %bb.820:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1197
-.LBB4_410:
-	xor	edx, edx
-.LBB4_1200:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1202
-# %bb.1201:
-	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovd	edi, xmm0
-	test	edi, edi
-	setns	dil
-	add	dil, dil
-	add	dil, -1
-	xor	r9d, r9d
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	movzx	edi, dil
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1202:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1203:
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_1204:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1204
-	jmp	.LBB4_1351
-.LBB4_411:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.412:
-	mov	eax, r9d
-	cmp	r9d, 128
-	jb	.LBB4_413
-# %bb.822:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1205
-# %bb.823:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1205
-.LBB4_413:
-	xor	edx, edx
-.LBB4_1208:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1210
-.LBB4_1209:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1209
-.LBB4_1210:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1211:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1211
-	jmp	.LBB4_1351
-.LBB4_414:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.415:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_416
-# %bb.825:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1212
-# %bb.826:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1212
-.LBB4_416:
-	xor	r11d, r11d
-.LBB4_1215:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1217
-# %bb.1216:
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1217:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1218:
-	mov	esi, 1
-.LBB4_1219:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	eax, dword ptr [rcx + 4*r11 + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1219
-	jmp	.LBB4_1351
-.LBB4_417:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.418:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_419
-# %bb.828:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1220
-# %bb.829:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1220
-.LBB4_419:
-	xor	edx, edx
-.LBB4_1223:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1225
-.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1224
-.LBB4_1225:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1226:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1226
-	jmp	.LBB4_1351
-.LBB4_420:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.421:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_831
-# %bb.422:
-	xor	esi, esi
-	jmp	.LBB4_834
-.LBB4_423:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.424:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_425
-# %bb.836:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1227
-# %bb.837:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1227
-.LBB4_425:
-	xor	edx, edx
-.LBB4_1230:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1232
-# %bb.1231:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1232:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1233:
-	mov	esi, 1
-.LBB4_1234:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1234
-	jmp	.LBB4_1351
-.LBB4_426:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.427:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_839
-# %bb.428:
-	xor	edx, edx
-	jmp	.LBB4_842
-.LBB4_429:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.430:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_843
-# %bb.431:
-	xor	edx, edx
-	jmp	.LBB4_846
-.LBB4_432:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.433:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_847
-# %bb.434:
-	xor	edx, edx
-	jmp	.LBB4_850
-.LBB4_435:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.436:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_852
-# %bb.437:
-	xor	edx, edx
-	jmp	.LBB4_855
-.LBB4_438:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.439:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_857
-# %bb.440:
-	xor	edx, edx
-	jmp	.LBB4_860
-.LBB4_441:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.442:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_443
-# %bb.864:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1235
-# %bb.865:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1235
-.LBB4_443:
-	xor	edx, edx
-.LBB4_1238:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1240
-.LBB4_1239:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1239
-.LBB4_1240:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1241:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1241
-	jmp	.LBB4_1351
-.LBB4_444:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.445:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_446
-# %bb.867:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1242
-# %bb.868:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1242
-.LBB4_446:
-	xor	edx, edx
-.LBB4_1245:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1247
-# %bb.1246:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1247:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1248:
-	mov	esi, 1
-.LBB4_1249:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1249
-	jmp	.LBB4_1351
-.LBB4_922:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-# %bb.923:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_925
-.LBB4_924:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_925:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_926
-# %bb.929:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_930
-.LBB4_927:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_928
-.LBB4_931:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_924
-	jmp	.LBB4_932
-.LBB4_926:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_927
-.LBB4_930:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_931
-.LBB4_928:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_924
-.LBB4_932:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_924
-.LBB4_1133:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-# %bb.1134:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1136
-.LBB4_1135:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1136:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1137
-# %bb.1140:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_1141
-.LBB4_1138:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1139
-.LBB4_1142:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1135
-	jmp	.LBB4_1143
-.LBB4_1137:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1138
-.LBB4_1141:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_1142
-.LBB4_1139:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1135
-.LBB4_1143:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_1135
-.LBB4_450:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1288
-# %bb.451:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_1] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_7] # ymm3 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
-	vbroadcastss	xmm4, dword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_452:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi]
-	vcmpeqpd	ymm6, ymm8, ymm5
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm1, ymm5
-	vcmpltpd	ymm7, ymm5, ymm3
-	vextractf128	xmm2, ymm7, 1
-	vpackssdw	xmm2, xmm7, xmm2
-	vsubpd	ymm7, ymm5, ymm3
-	vcvttpd2dq	xmm7, ymm7
-	vcvttpd2dq	xmm5, ymm5
-	vxorpd	xmm7, xmm7, xmm4
-	vblendvps	xmm2, xmm7, xmm5, xmm2
-	vextractf128	xmm5, ymm6, 1
-	vpackssdw	xmm5, xmm6, xmm5
-	vpandn	xmm2, xmm5, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 32]
-	vcmpeqpd	ymm5, ymm8, ymm2
-	vextractf128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vandpd	ymm2, ymm2, ymm0
-	vorpd	ymm2, ymm1, ymm2
-	vcmpltpd	ymm6, ymm2, ymm3
-	vextractf128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vsubpd	ymm7, ymm2, ymm3
-	vcvttpd2dq	xmm7, ymm7
-	vxorpd	xmm7, xmm7, xmm4
-	vcvttpd2dq	xmm2, ymm2
-	vblendvps	xmm2, xmm7, xmm2, xmm6
-	vpandn	xmm2, xmm5, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_452
-	jmp	.LBB4_1289
-.LBB4_456:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_457:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_457
-# %bb.458:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_459:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_459
-	jmp	.LBB4_1351
-.LBB4_460:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_461:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_461
-# %bb.462:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_463:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_463
-	jmp	.LBB4_1351
-.LBB4_464:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_465:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_465
-# %bb.466:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_467:
-	mov	esi, 1
-.LBB4_468:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_468
-	jmp	.LBB4_1351
-.LBB4_469:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_470:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm9, xmm3, xmm1
-	vpcmpgtq	ymm1, ymm5, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm10, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm11, xmm3, xmm1
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vblendvps	xmm3, xmm3, xmm2, xmm9
-	vblendvps	xmm4, xmm4, xmm2, xmm10
-	vblendvps	xmm5, xmm5, xmm2, xmm11
-	vblendvps	xmm1, xmm6, xmm2, xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_470
-# %bb.471:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_472:
-	mov	esi, 1
-.LBB4_473:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_473
-	jmp	.LBB4_1351
-.LBB4_474:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1294
-# %bb.475:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI4_8] # ymm0 = [1,1,1,1,1,1,1,1]
-	vxorps	xmm1, xmm1, xmm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vbroadcastss	ymm3, dword ptr [rip + .LCPI4_4] # ymm3 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_476:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vpsrad	ymm5, ymm4, 31
-	vpor	ymm5, ymm5, ymm0
-	vcvtdq2ps	ymm5, ymm5
-	vcmpltps	ymm6, ymm5, ymm2
-	vsubps	ymm7, ymm5, ymm2
-	vcvttps2dq	ymm7, ymm7
-	vxorps	ymm7, ymm7, ymm3
-	vcvttps2dq	ymm5, ymm5
-	vblendvps	ymm5, ymm7, ymm5, ymm6
-	vcmpneqps	ymm4, ymm4, ymm1
-	vandps	ymm4, ymm4, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vpsrad	ymm5, ymm4, 31
-	vpor	ymm5, ymm5, ymm0
-	vcvtdq2ps	ymm5, ymm5
-	vcmpltps	ymm6, ymm5, ymm2
-	vsubps	ymm7, ymm5, ymm2
-	vcvttps2dq	ymm7, ymm7
-	vxorps	ymm7, ymm7, ymm3
-	vcvttps2dq	ymm5, ymm5
-	vblendvps	ymm5, ymm7, ymm5, ymm6
-	vcmpneqps	ymm4, ymm4, ymm1
-	vandps	ymm4, ymm4, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_476
-	jmp	.LBB4_1295
-.LBB4_483:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_484:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm2, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpandn	xmm2, xmm2, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpandn	xmm3, xmm3, xmm1
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpandn	xmm4, xmm4, xmm1
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpandn	xmm5, xmm5, xmm1
-	vcvtdq2pd	ymm5, xmm5
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_484
-# %bb.485:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_486:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_488
-.LBB4_487:                              #   in Loop: Header=BB4_488 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_488:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_487
-# %bb.489:                              #   in Loop: Header=BB4_488 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_487
-.LBB4_496:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_497:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_497
-# %bb.498:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_499:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_501
-.LBB4_500:                              #   in Loop: Header=BB4_501 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_501:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_500
-# %bb.502:                              #   in Loop: Header=BB4_501 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_500
-.LBB4_503:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_504:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	xmm3, xmm3              # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	xmm4, xmm4              # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	xmm5, xmm5              # xmm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	xmm6, xmm6              # xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_504
-# %bb.505:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_506:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_508
-.LBB4_507:                              #   in Loop: Header=BB4_508 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_508:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_507
-# %bb.509:                              #   in Loop: Header=BB4_508 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_507
-.LBB4_510:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_511:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	xmm3, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	xmm4, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	xmm5, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	xmm6, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_511
-# %bb.512:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_513:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_515
-.LBB4_514:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_515:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_517
-# %bb.516:                              #   in Loop: Header=BB4_515 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_517:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_514
-# %bb.518:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_514
-.LBB4_519:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm11, ymm11, ymm11
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_520:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm7, ymm3, ymm0
-	vpcmpgtq	ymm8, ymm4, ymm0
-	vpcmpgtq	ymm9, ymm5, ymm0
-	vpcmpgtq	ymm10, ymm6, ymm0
-	vpcmpeqq	ymm3, ymm3, ymm0
-	vpxor	ymm3, ymm11, ymm3
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vcvtdq2pd	ymm1, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm11, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm11, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm11, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vcvtdq2pd	ymm5, xmm5
-	vblendvpd	ymm1, ymm1, ymm2, ymm7
-	vblendvpd	ymm3, ymm3, ymm2, ymm8
-	vblendvpd	ymm4, ymm4, ymm2, ymm9
-	vblendvpd	ymm5, ymm5, ymm2, ymm10
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_520
-# %bb.521:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_522:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_524
-.LBB4_523:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_524:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_526
-# %bb.525:                              #   in Loop: Header=BB4_524 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_526:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_523
-# %bb.527:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_523
-.LBB4_528:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vxorps	xmm8, xmm8, xmm8
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_529:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
-	vmovups	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	vmovups	xmm4, xmmword ptr [rcx + 4*rsi + 32]
-	vmovups	xmm5, xmmword ptr [rcx + 4*rsi + 48]
-	vcmpeqps	xmm6, xmm8, xmm2
-	vpmovsxdq	ymm6, xmm6
-	vcmpeqps	xmm7, xmm8, xmm3
-	vpmovsxdq	ymm7, xmm7
-	vcmpeqps	xmm0, xmm8, xmm4
-	vpmovsxdq	ymm9, xmm0
-	vcmpeqps	xmm0, xmm8, xmm5
-	vpmovsxdq	ymm0, xmm0
-	vpsrad	xmm2, xmm2, 31
-	vpor	xmm2, xmm2, xmm1
-	vpsrad	xmm3, xmm3, 31
-	vpor	xmm3, xmm3, xmm1
-	vpsrad	xmm4, xmm4, 31
-	vpor	xmm4, xmm4, xmm1
-	vpsrad	xmm5, xmm5, 31
-	vpor	xmm5, xmm5, xmm1
-	vcvtdq2ps	xmm2, xmm2
-	vcvtdq2ps	xmm3, xmm3
-	vcvtdq2ps	xmm4, xmm4
-	vcvtdq2ps	xmm5, xmm5
-	vcvtps2pd	ymm2, xmm2
-	vpandn	ymm2, ymm6, ymm2
-	vcvtps2pd	ymm3, xmm3
-	vpandn	ymm3, ymm7, ymm3
-	vcvtps2pd	ymm4, xmm4
-	vcvtps2pd	ymm5, xmm5
-	vpandn	ymm4, ymm9, ymm4
-	vpandn	ymm0, ymm0, ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm0
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_529
-# %bb.530:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_531:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_533
-.LBB4_532:                              #   in Loop: Header=BB4_533 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_533:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm2, dword ptr [rcx + 4*rdx]   # xmm2 = mem[0],zero,zero,zero
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm0, xmm2
-	je	.LBB4_532
-# %bb.534:                              #   in Loop: Header=BB4_533 Depth=1
-	vmovmskps	esi, xmm2
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm10, esi
-	vcvtss2sd	xmm1, xmm1, xmm1
-	jmp	.LBB4_532
-.LBB4_538:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_539:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_539
-# %bb.540:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_541:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_543
-.LBB4_542:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_543:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_545
-# %bb.544:                              #   in Loop: Header=BB4_543 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_545:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_542
-# %bb.546:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_542
-.LBB4_577:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_578:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_578
-# %bb.579:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_580:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_580
-	jmp	.LBB4_1351
-.LBB4_581:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1282
-# %bb.582:
-	mov	r14, r9
-	and	r14, -2
-	neg	r14
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vmovsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
-.LBB4_583:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vandpd	ymm5, ymm4, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vextractf128	xmm6, ymm5, 1
-	vsubsd	xmm7, xmm6, xmm3
-	vcvttsd2si	rbx, xmm7
-	xor	rbx, r11
-	vcvttsd2si	rdx, xmm6
-	vucomisd	xmm6, xmm3
-	cmovae	rdx, rbx
-	vpermilps	xmm6, xmm6, 78          # xmm6 = xmm6[2,3,0,1]
-	vsubsd	xmm7, xmm6, xmm3
-	vcvttsd2si	rbx, xmm7
-	xor	rbx, r11
-	vcvttsd2si	rax, xmm6
-	vucomisd	xmm6, xmm3
-	vmovq	xmm6, rdx
-	cmovae	rax, rbx
-	vmovq	xmm7, rax
-	vsubsd	xmm1, xmm5, xmm3
-	vcvttsd2si	rax, xmm1
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm1, xmm5, 78          # xmm1 = xmm5[2,3,0,1]
-	vsubsd	xmm5, xmm1, xmm3
-	vcvttsd2si	rax, xmm5
-	vmovq	xmm5, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	vpunpcklqdq	xmm1, xmm6, xmm7        # xmm1 = xmm6[0],xmm7[0]
-	cmovae	rdx, rax
-	vmovq	xmm6, rdx
-	vpunpcklqdq	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vinserti128	ymm1, ymm5, xmm1, 1
-	vcmpneqpd	ymm4, ymm8, ymm4
-	vandpd	ymm1, ymm4, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
-	vandpd	ymm1, ymm4, ymm0
-	vorpd	ymm1, ymm2, ymm1
-	vextractf128	xmm5, ymm1, 1
-	vsubsd	xmm6, xmm5, xmm3
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vsubsd	xmm6, xmm5, xmm3
-	vcvttsd2si	rax, xmm6
-	vmovq	xmm6, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vsubsd	xmm7, xmm1, xmm3
-	vcvttsd2si	rax, xmm7
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm1, xmm1, 78          # xmm1 = xmm1[2,3,0,1]
-	vsubsd	xmm6, xmm1, xmm3
-	vcvttsd2si	rax, xmm6
-	vmovq	xmm6, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	cmovae	rdx, rax
-	vmovq	xmm1, rdx
-	vpunpcklqdq	xmm1, xmm6, xmm1        # xmm1 = xmm6[0],xmm1[0]
-	vinserti128	ymm1, ymm1, xmm5, 1
-	vcmpneqpd	ymm4, ymm8, ymm4
-	vandpd	ymm1, ymm4, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	add	rdi, 8
-	add	r14, 2
-	jne	.LBB4_583
-	jmp	.LBB4_1283
-.LBB4_590:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_591:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_591
-# %bb.592:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_593:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_593
-	jmp	.LBB4_1351
-.LBB4_594:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_595:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwq	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwq	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwq	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_595
-# %bb.596:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_597:
-	mov	esi, 1
-.LBB4_598:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_598
-	jmp	.LBB4_1351
-.LBB4_602:
-	mov	esi, r10d
-	and	esi, -2
-	xor	eax, eax
-	vxorps	xmm0, xmm0, xmm0
-	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-	jmp	.LBB4_605
-.LBB4_603:                              #   in Loop: Header=BB4_605 Depth=1
-	vmovmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	vcvtsi2ss	xmm2, xmm4, edx
-	vsubss	xmm3, xmm2, xmm1
-	vcvttss2si	rdi, xmm3
-	xor	rdi, r9
-	vcvttss2si	rdx, xmm2
-	vucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_254
-.LBB4_605:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm2
-	jne	.LBB4_607
-# %bb.606:                              #   in Loop: Header=BB4_605 Depth=1
-	xor	edx, edx
-	jmp	.LBB4_608
-.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
-	vmovmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	vcvtsi2ss	xmm2, xmm4, edx
-	vsubss	xmm3, xmm2, xmm1
-	vcvttss2si	rdi, xmm3
-	xor	rdi, r9
-	vcvttss2si	rdx, xmm2
-	vucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdx
-	vmovss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm2
-	jne	.LBB4_603
-# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
-	xor	edx, edx
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_605
-.LBB4_254:
-	test	r10b, 1
-	je	.LBB4_1351
-# %bb.255:
-	vmovss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	vxorps	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	jne	.LBB4_1280
-# %bb.256:
-	xor	ecx, ecx
-	jmp	.LBB4_1281
-.LBB4_613:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_614:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxdq	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxdq	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxdq	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxdq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_614
-# %bb.615:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_616:
-	mov	esi, 1
-.LBB4_617:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_617
-	jmp	.LBB4_1351
-.LBB4_618:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-.LBB4_619:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm2, ymm2, ymm1
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpsrlw	xmm2, xmm2, 15
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpsrlw	xmm3, xmm3, 15
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpsrlw	xmm4, xmm4, 15
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpsrlw	xmm5, xmm5, 15
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_619
-# %bb.620:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_621:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_621
-	jmp	.LBB4_1351
-.LBB4_622:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-.LBB4_623:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm2, ymm2, ymm1
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpsrlw	xmm2, xmm2, 15
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpsrlw	xmm3, xmm3, 15
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpsrlw	xmm4, xmm4, 15
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpsrlw	xmm5, xmm5, 15
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_623
-# %bb.624:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_625:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_625
-	jmp	.LBB4_1351
-.LBB4_626:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm9, xmm9, xmm9
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm10, xmm10, xmm10
-.LBB4_627:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm8, ymm9, ymm4
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm11, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm5
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm12, xmm3, xmm3
-	vcmpeqpd	ymm8, ymm9, ymm6
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm4, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm7, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vcvttpd2dq	xmm4, ymm4
-	vcvttpd2dq	xmm5, ymm5
-	vpackusdw	xmm4, xmm4, xmm4
-	vpackusdw	xmm5, xmm5, xmm5
-	vcvttpd2dq	xmm6, ymm6
-	vpackusdw	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackusdw	xmm7, xmm7, xmm7
-	vpblendvb	xmm4, xmm4, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm3, xmm7, xmm10, xmm3
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_627
-# %bb.628:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_629:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_630:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_630
-	jmp	.LBB4_1351
-.LBB4_631:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm9, xmm9, xmm9
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm10, xmm10, xmm10
-.LBB4_632:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm8, ymm9, ymm4
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm11, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm5
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm12, xmm3, xmm3
-	vcmpeqpd	ymm8, ymm9, ymm6
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm4, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm7, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vcvttpd2dq	xmm4, ymm4
-	vcvttpd2dq	xmm5, ymm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpackssdw	xmm5, xmm5, xmm5
-	vcvttpd2dq	xmm6, ymm6
-	vpackssdw	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackssdw	xmm7, xmm7, xmm7
-	vpblendvb	xmm4, xmm4, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm3, xmm7, xmm10, xmm3
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_632
-# %bb.633:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_634:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_635:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_635
-	jmp	.LBB4_1351
-.LBB4_642:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_643:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_643
-# %bb.644:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_645:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_645
-	jmp	.LBB4_1351
-.LBB4_646:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_647:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_647
-# %bb.648:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_649:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_649
-	jmp	.LBB4_1351
-.LBB4_662:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
-.LBB4_663:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm11, xmm3, xmm3
-	vpcmpgtq	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpcmpgtq	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpackssdw	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpackssdw	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpackssdw	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_663
-# %bb.664:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_665:
-	mov	esi, 1
-.LBB4_666:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_666
-	jmp	.LBB4_1351
-.LBB4_667:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
-.LBB4_668:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm11, xmm3, xmm3
-	vpcmpgtq	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpcmpgtq	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpackssdw	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpackssdw	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpackssdw	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_668
-# %bb.669:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_670:
-	mov	esi, 1
-.LBB4_671:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_671
-	jmp	.LBB4_1351
-.LBB4_672:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm9, xmm9, xmm9
-	vpcmpeqd	ymm10, ymm10, ymm10
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
-	vpcmpeqd	xmm12, xmm12, xmm12
-.LBB4_673:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
-	vcmpeqps	ymm8, ymm9, ymm4
-	vextractf128	xmm0, ymm8, 1
-	vpackssdw	xmm13, xmm8, xmm0
-	vcmpeqps	ymm8, ymm9, ymm5
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vcmpeqps	ymm8, ymm9, ymm6
-	vextractf128	xmm2, ymm8, 1
-	vpackssdw	xmm2, xmm8, xmm2
-	vcmpeqps	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpcmpgtd	ymm4, ymm4, ymm10
-	vextracti128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpcmpgtd	ymm4, ymm5, ymm10
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpgtd	ymm5, ymm6, ymm10
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpgtd	ymm6, ymm7, ymm10
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm0, xmm12, xmm11, xmm0
-	vpandn	xmm0, xmm13, xmm0
-	vpblendvb	xmm4, xmm12, xmm11, xmm4
-	vpandn	xmm1, xmm1, xmm4
-	vpblendvb	xmm4, xmm12, xmm11, xmm5
-	vpblendvb	xmm5, xmm12, xmm11, xmm6
-	vpandn	xmm2, xmm2, xmm4
-	vpandn	xmm3, xmm3, xmm5
-	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB4_673
-# %bb.674:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_675:
-	vpxor	xmm0, xmm0, xmm0
-.LBB4_676:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	xor	edx, edx
-	test	edi, edi
-	setns	dl
-	vucomiss	xmm0, xmm1
-	lea	edx, [rdx + rdx - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_676
-	jmp	.LBB4_1351
-.LBB4_677:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm9, xmm9, xmm9
-	vpcmpeqd	ymm10, ymm10, ymm10
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
-	vpcmpeqd	xmm12, xmm12, xmm12
-.LBB4_678:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
-	vcmpeqps	ymm8, ymm9, ymm4
-	vextractf128	xmm0, ymm8, 1
-	vpackssdw	xmm13, xmm8, xmm0
-	vcmpeqps	ymm8, ymm9, ymm5
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vcmpeqps	ymm8, ymm9, ymm6
-	vextractf128	xmm2, ymm8, 1
-	vpackssdw	xmm2, xmm8, xmm2
-	vcmpeqps	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpcmpgtd	ymm4, ymm4, ymm10
-	vextracti128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpcmpgtd	ymm4, ymm5, ymm10
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpgtd	ymm5, ymm6, ymm10
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpgtd	ymm6, ymm7, ymm10
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm0, xmm12, xmm11, xmm0
-	vpandn	xmm0, xmm13, xmm0
-	vpblendvb	xmm4, xmm12, xmm11, xmm4
-	vpandn	xmm1, xmm1, xmm4
-	vpblendvb	xmm4, xmm12, xmm11, xmm5
-	vpblendvb	xmm5, xmm12, xmm11, xmm6
-	vpandn	xmm2, xmm2, xmm4
-	vpandn	xmm3, xmm3, xmm5
-	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB4_678
-# %bb.679:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_680:
-	vpxor	xmm0, xmm0, xmm0
-.LBB4_681:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	xor	edx, edx
-	test	edi, edi
-	setns	dl
-	vucomiss	xmm0, xmm1
-	lea	edx, [rdx + rdx - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_681
-	jmp	.LBB4_1351
-.LBB4_688:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
-.LBB4_689:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm1
-	vpcmpgtd	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm11, xmm1, xmm2
-	vpcmpgtd	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqd	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqd	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqd	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqd	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_689
-# %bb.690:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_691:
-	mov	esi, 1
-.LBB4_692:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_692
-	jmp	.LBB4_1351
-.LBB4_693:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
-.LBB4_694:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm1
-	vpcmpgtd	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm11, xmm1, xmm2
-	vpcmpgtd	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqd	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqd	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqd	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqd	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_694
-# %bb.695:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_696:
-	mov	esi, 1
-.LBB4_697:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_697
-	jmp	.LBB4_1351
-.LBB4_698:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_699:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_699
-# %bb.700:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_701:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_701
-	jmp	.LBB4_1351
-.LBB4_702:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_5] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_703:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_703
-# %bb.704:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_705:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_707
-.LBB4_706:                              #   in Loop: Header=BB4_707 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_707:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_706
-# %bb.708:                              #   in Loop: Header=BB4_707 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_706
-.LBB4_709:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1302
-# %bb.710:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_711:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vandpd	ymm4, ymm3, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vextractf128	xmm5, ymm4, 1
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm6, rbx
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm5, rbx
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm6, rbx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi + 32]
-	vandpd	ymm4, ymm3, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vextractf128	xmm5, ymm4, 1
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm6, rbx
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm5, rbx
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm6, rbx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_711
-	jmp	.LBB4_1303
-.LBB4_712:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_1] # ymm0 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vcvtpd2ps	xmm2, ymm0
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI4_3] # xmm1 = [NaN,NaN,NaN,NaN]
-	vandpd	xmm2, xmm2, xmm1
-.LBB4_713:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm7, ymm8, ymm3
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm9, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm4
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm10, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm5
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm11, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm6
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm0, xmm7, xmm0
-	vcvtpd2ps	xmm3, ymm3
-	vandnpd	xmm3, xmm1, xmm3
-	vorpd	xmm3, xmm2, xmm3
-	vcvtpd2ps	xmm4, ymm4
-	vpandn	xmm3, xmm9, xmm3
-	vandnpd	xmm4, xmm1, xmm4
-	vorpd	xmm4, xmm2, xmm4
-	vpandn	xmm4, xmm10, xmm4
-	vcvtpd2ps	xmm5, ymm5
-	vandnpd	xmm5, xmm1, xmm5
-	vorpd	xmm5, xmm2, xmm5
-	vpandn	xmm5, xmm11, xmm5
-	vcvtpd2ps	xmm6, ymm6
-	vandnpd	xmm6, xmm1, xmm6
-	vorpd	xmm6, xmm2, xmm6
-	vpandn	xmm0, xmm0, xmm6
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm0
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_713
-# %bb.714:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_715:
-	vxorpd	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	jmp	.LBB4_717
-.LBB4_716:                              #   in Loop: Header=BB4_717 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_717:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
-	vucomisd	xmm0, xmm4
-	vpxor	xmm3, xmm3, xmm3
-	je	.LBB4_716
-# %bb.718:                              #   in Loop: Header=BB4_717 Depth=1
-	vcvtsd2ss	xmm3, xmm4, xmm4
-	vpand	xmm3, xmm3, xmm1
-	vpor	xmm3, xmm2, xmm3
-	jmp	.LBB4_716
-.LBB4_728:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_729:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_729
-# %bb.730:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_731:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_733
-.LBB4_732:                              #   in Loop: Header=BB4_733 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_733:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_732
-# %bb.734:                              #   in Loop: Header=BB4_733 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_732
-.LBB4_735:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_736:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_736
-# %bb.737:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_738:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_738
-	jmp	.LBB4_1351
-.LBB4_739:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_740:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpand	ymm3, ymm3, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vcvtdq2ps	ymm6, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_740
-# %bb.741:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_742:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_744
-.LBB4_743:                              #   in Loop: Header=BB4_744 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_744:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_743
-# %bb.745:                              #   in Loop: Header=BB4_744 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_743
-.LBB4_746:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_747:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwq	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwq	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwq	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_747
-# %bb.748:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_749:
-	mov	esi, 1
-.LBB4_750:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_750
-	jmp	.LBB4_1351
-.LBB4_751:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_752:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_752
-# %bb.753:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_754:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_756
-.LBB4_755:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_756:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_758
-# %bb.757:                              #   in Loop: Header=BB4_756 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_758:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_755
-# %bb.759:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_755
-.LBB4_763:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_764:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm5
-	vpcmpgtq	ymm5, ymm7, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm11, xmm5, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm12, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vcvtdq2ps	xmm5, xmm5
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vcvtdq2ps	xmm6, xmm6
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm1, ymm7, 1
-	vpackssdw	xmm1, xmm7, xmm1
-	vcvtdq2ps	xmm1, xmm1
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vcvtdq2ps	xmm4, xmm4
-	vblendvps	xmm5, xmm5, xmm2, xmm10
-	vblendvps	xmm6, xmm6, xmm2, xmm11
-	vblendvps	xmm1, xmm1, xmm2, xmm12
-	vblendvps	xmm3, xmm4, xmm2, xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_764
-# %bb.765:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_766:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_768
-.LBB4_767:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_768:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_770
-# %bb.769:                              #   in Loop: Header=BB4_768 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_770:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_767
-# %bb.771:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_767
-.LBB4_772:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1308
-# %bb.773:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_774:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
-	vcmpeqps	xmm3, xmm2, xmm0
-	vpmovsxdq	ymm3, xmm3
-	vpsrad	xmm2, xmm2, 31
-	vpor	xmm2, xmm2, xmm1
-	vcvtdq2ps	xmm2, xmm2
-	vpermilps	xmm4, xmm2, 231         # xmm4 = xmm2[3,1,2,3]
-	vcvttss2si	rax, xmm4
-	vmovq	xmm4, rax
-	vpermilpd	xmm5, xmm2, 1           # xmm5 = xmm2[1,0]
-	vcvttss2si	rax, xmm5
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm5, rax
-	vmovshdup	xmm2, xmm2              # xmm2 = xmm2[1,1,3,3]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpandn	ymm2, ymm3, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	vpsrad	xmm3, xmm2, 31
-	vpor	xmm3, xmm3, xmm1
-	vcvtdq2ps	xmm3, xmm3
-	vpermilps	xmm4, xmm3, 231         # xmm4 = xmm3[3,1,2,3]
-	vcvttss2si	rax, xmm4
-	vpermilpd	xmm4, xmm3, 1           # xmm4 = xmm3[1,0]
-	vcvttss2si	r11, xmm4
-	vcvttss2si	rbx, xmm3
-	vmovq	xmm4, rax
-	vmovshdup	xmm3, xmm3              # xmm3 = xmm3[1,1,3,3]
-	vcvttss2si	rax, xmm3
-	vmovq	xmm3, r11
-	vmovq	xmm5, rbx
-	vcmpeqps	xmm2, xmm2, xmm0
-	vpmovsxdq	ymm2, xmm2
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpandn	ymm2, ymm2, ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_774
-	jmp	.LBB4_1309
-.LBB4_784:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_785:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxdq	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxdq	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxdq	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxdq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_785
-# %bb.786:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_787:
-	mov	esi, 1
-.LBB4_788:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_788
-	jmp	.LBB4_1351
-.LBB4_789:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_790:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm7, ymm3, ymm0
-	vpcmpgtd	ymm8, ymm4, ymm0
-	vpcmpgtd	ymm9, ymm5, ymm0
-	vpcmpgtd	ymm10, ymm6, ymm0
-	vpcmpeqd	ymm3, ymm3, ymm0
-	vpxor	ymm3, ymm3, ymm1
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm4, ymm1
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqd	ymm5, ymm5, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm7
-	vblendvps	ymm4, ymm4, ymm2, ymm8
-	vblendvps	ymm5, ymm5, ymm2, ymm9
-	vblendvps	ymm6, ymm6, ymm2, ymm10
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_790
-# %bb.791:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_792:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_794
-.LBB4_793:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_794:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_796
-# %bb.795:                              #   in Loop: Header=BB4_794 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_796:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_793
-# %bb.797:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_793
-.LBB4_831:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_832:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm7, ymm8, ymm3
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm9, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm4
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm10, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm5
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm11, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm6
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm0, xmm7, xmm0
-	vandpd	ymm3, ymm3, ymm1
-	vorpd	ymm3, ymm2, ymm3
-	vandpd	ymm4, ymm4, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm1
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm1
-	vorpd	ymm6, ymm2, ymm6
-	vcvttpd2dq	xmm3, ymm3
-	vpandn	xmm3, xmm9, xmm3
-	vcvttpd2dq	xmm4, ymm4
-	vpandn	xmm4, xmm10, xmm4
-	vcvttpd2dq	xmm5, ymm5
-	vcvttpd2dq	xmm6, ymm6
-	vpandn	xmm5, xmm11, xmm5
-	vpandn	xmm0, xmm0, xmm6
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_832
-# %bb.833:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_834:
-	vpxor	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_835:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_835
-	jmp	.LBB4_1351
-.LBB4_839:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_840:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_840
-# %bb.841:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_842:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_842
-	jmp	.LBB4_1351
-.LBB4_843:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_844:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_844
-# %bb.845:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_846:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_846
-	jmp	.LBB4_1351
-.LBB4_847:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_848:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_848
-# %bb.849:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_850:
-	mov	esi, 1
-.LBB4_851:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_851
-	jmp	.LBB4_1351
-.LBB4_852:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_853:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm9, xmm3, xmm1
-	vpcmpgtq	ymm1, ymm5, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm10, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm11, xmm3, xmm1
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vblendvps	xmm3, xmm3, xmm2, xmm9
-	vblendvps	xmm4, xmm4, xmm2, xmm10
-	vblendvps	xmm5, xmm5, xmm2, xmm11
-	vblendvps	xmm1, xmm6, xmm2, xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_853
-# %bb.854:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_855:
-	mov	esi, 1
-.LBB4_856:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_856
-	jmp	.LBB4_1351
-.LBB4_857:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_858:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcvttps2dq	ymm6, ymm6
-	vcvttps2dq	ymm7, ymm7
-	vcvttps2dq	ymm8, ymm8
-	vcvttps2dq	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_858
-# %bb.859:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_860:
-	vxorps	xmm0, xmm0, xmm0
-	jmp	.LBB4_862
-.LBB4_861:                              #   in Loop: Header=BB4_862 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_862:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	vucomiss	xmm0, xmm1
-	je	.LBB4_861
-# %bb.863:                              #   in Loop: Header=BB4_862 Depth=1
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm10, esi
-	vcvttss2si	esi, xmm1
-	jmp	.LBB4_861
-.LBB4_870:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_871:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_871
-# %bb.872:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_873
-.LBB4_877:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_878:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_878
-# %bb.879:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_880
-.LBB4_885:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_886:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_886
-# %bb.887:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_888
-.LBB4_892:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_893:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_893
-# %bb.894:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_895
-.LBB4_900:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_901:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vandpd	ymm7, ymm3, ymm1
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm4, ymm1
-	vorpd	ymm8, ymm8, ymm2
-	vandpd	ymm9, ymm5, ymm1
-	vorpd	ymm9, ymm9, ymm2
-	vandpd	ymm10, ymm6, ymm1
-	vorpd	ymm10, ymm10, ymm2
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm7
-	vcmpneqpd	ymm4, ymm4, ymm0
-	vandpd	ymm4, ymm8, ymm4
-	vcmpneqpd	ymm5, ymm5, ymm0
-	vandpd	ymm5, ymm9, ymm5
-	vcmpneqpd	ymm6, ymm6, ymm0
-	vandpd	ymm6, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_901
-# %bb.902:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_903
-.LBB4_908:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_909:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	xmm3, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	xmm4, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	xmm5, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	xmm6, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_909
-# %bb.910:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_911
-.LBB4_914:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_915:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	xmm3, xmm3              # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	xmm4, xmm4              # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	xmm5, xmm5              # xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	xmm6, xmm6              # xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_915
-# %bb.916:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_917
-.LBB4_933:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_934:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_934
-# %bb.935:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_936
-.LBB4_940:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm10, xmm10, xmm10
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm11, xmm11, xmm11
-.LBB4_941:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm4, ymm10, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm12, xmm4, xmm4
-	vcmpeqpd	ymm5, ymm10, ymm7
-	vextractf128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm8, ymm10
-	vextractf128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm3, ymm9, ymm10
-	vextractf128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm6, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm6, ymm7, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm8, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm9, ymm0
-	vorpd	ymm8, ymm8, ymm2
-	vcvttpd2dq	xmm4, ymm4
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vcvttpd2dq	xmm6, ymm6
-	vpackssdw	xmm6, xmm6, xmm6
-	vpacksswb	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackssdw	xmm7, xmm7, xmm7
-	vpacksswb	xmm7, xmm7, xmm7
-	vcvttpd2dq	xmm5, ymm8
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpblendvb	xmm4, xmm4, xmm11, xmm12
-	vpblendvb	xmm6, xmm6, xmm11, xmm13
-	vpblendvb	xmm1, xmm7, xmm11, xmm1
-	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
-	vpblendvb	xmm3, xmm5, xmm11, xmm3
-	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_941
-# %bb.942:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_943
-.LBB4_948:
-	mov	r11d, r10d
-	and	r11d, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_949:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
-	sub	rsi, -128
-	cmp	r11, rsi
-	jne	.LBB4_949
-# %bb.950:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_951
-.LBB4_956:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_957:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
-	vpxor	ymm4, ymm5, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_957
-# %bb.958:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_959
-.LBB4_963:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_964:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_964
-# %bb.965:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_966
-.LBB4_970:
-	mov	r11d, r10d
-	and	r11d, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_971:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpgtw	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm10, xmm3, xmm1
-	vpcmpgtw	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpacksswb	xmm11, xmm1, xmm2
-	vpcmpgtw	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpacksswb	xmm2, xmm2, xmm3
-	vpcmpgtw	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm1, xmm3, xmm1
-	vpcmpeqw	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpcmpeqw	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpcmpeqw	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpcmpeqw	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
-	add	rsi, 64
-	cmp	r11, rsi
-	jne	.LBB4_971
-# %bb.972:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_973
-.LBB4_978:
-	mov	r11d, r10d
-	and	r11d, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_979:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm1, ymm10, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm5, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm5
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm7, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm7
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm7, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm4, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpeqq	ymm2, ymm10, ymm0
-	vpxor	ymm2, ymm9, ymm2
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm8, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm2, xmm2, xmm11, xmm12
-	vpblendvb	xmm3, xmm3, xmm11, xmm13
-	vpblendvb	xmm5, xmm5, xmm11, xmm7
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpblendvb	xmm1, xmm4, xmm11, xmm1
-	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	r11, rsi
-	jne	.LBB4_979
-# %bb.980:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_981
-.LBB4_986:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm12, xmm12, xmm12
-	vpcmpeqd	ymm13, ymm13, ymm13
-	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	vpcmpeqd	xmm15, xmm15, xmm15
-.LBB4_987:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
-	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
-	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vcmpeqps	ymm4, ymm9, ymm12
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm8, xmm4, xmm4
-	vcmpeqps	ymm4, ymm10, ymm12
-	vextractf128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpacksswb	xmm6, xmm4, xmm4
-	vcmpeqps	ymm4, ymm11, ymm12
-	vextractf128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpacksswb	xmm4, xmm0, xmm0
-	vcmpeqps	ymm0, ymm12, ymm7
-	vextractf128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vpacksswb	xmm0, xmm0, xmm0
-	vpcmpgtd	ymm1, ymm9, ymm13
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm10, ymm13
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpgtd	ymm3, ymm11, ymm13
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm7, ymm13
-	vextracti128	xmm7, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm7
-	vpblendvb	xmm1, xmm15, xmm14, xmm1
-	vpacksswb	xmm5, xmm5, xmm5
-	vpandn	xmm1, xmm8, xmm1
-	vpblendvb	xmm2, xmm15, xmm14, xmm2
-	vpblendvb	xmm3, xmm15, xmm14, xmm3
-	vpblendvb	xmm5, xmm15, xmm14, xmm5
-	vpxor	xmm7, xmm7, xmm7
-	vpblendvb	xmm2, xmm2, xmm7, xmm6
-	vpblendvb	xmm0, xmm5, xmm7, xmm0
-	vpandn	xmm3, xmm4, xmm3
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm0
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_987
-# %bb.988:
-	cmp	rdx, r10
-	je	.LBB4_1351
-	jmp	.LBB4_989
-.LBB4_994:
-	mov	edx, eax
-	and	edx, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_995:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
-	sub	rsi, -128
-	cmp	rdx, rsi
-	jne	.LBB4_995
-# %bb.996:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_997
-.LBB4_1001:
-	mov	r11d, r10d
-	and	r11d, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1002:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm11, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtd	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqd	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqd	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	cmp	r11, rsi
-	jne	.LBB4_1002
-# %bb.1003:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1004
-.LBB4_1009:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1010:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbq	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbq	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbq	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1010
-# %bb.1011:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1012
-.LBB4_1017:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
-.LBB4_1018:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1018
-# %bb.1019:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1020
-.LBB4_1024:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1025:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1025
-# %bb.1026:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1027
-.LBB4_1032:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1033:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1033
-# %bb.1034:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1035
-.LBB4_1039:
-	mov	edx, r11d
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1040:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbw	ymm10, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbw	ymm1, xmm1
-	vpcmpgtb	xmm2, xmm5, xmm0
-	vpmovsxbw	ymm2, xmm2
-	vpcmpgtb	xmm7, xmm6, xmm0
-	vpmovsxbw	ymm7, xmm7
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbw	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbw	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbw	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbw	ymm6, xmm6
-	vpblendvb	ymm3, ymm3, ymm9, ymm10
-	vpblendvb	ymm1, ymm4, ymm9, ymm1
-	vpblendvb	ymm2, ymm5, ymm9, ymm2
-	vpblendvb	ymm4, ymm6, ymm9, ymm7
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1040
-# %bb.1041:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1042
-.LBB4_1047:
-	mov	edx, r11d
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbw	ymm10, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbw	ymm1, xmm1
-	vpcmpgtb	xmm2, xmm5, xmm0
-	vpmovsxbw	ymm2, xmm2
-	vpcmpgtb	xmm7, xmm6, xmm0
-	vpmovsxbw	ymm7, xmm7
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbw	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbw	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbw	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbw	ymm6, xmm6
-	vpblendvb	ymm3, ymm3, ymm9, ymm10
-	vpblendvb	ymm1, ymm4, ymm9, ymm1
-	vpblendvb	ymm2, ymm5, ymm9, ymm2
-	vpblendvb	ymm4, ymm6, ymm9, ymm7
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1048
-# %bb.1049:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1050
-.LBB4_1055:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1317
-# %bb.1056:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1057:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB4_1057
-	jmp	.LBB4_1318
-.LBB4_1058:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1325
-# %bb.1059:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1060:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB4_1060
-	jmp	.LBB4_1326
-.LBB4_1061:
-	mov	edx, r11d
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1333
-# %bb.1062:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1063:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_1063
-	jmp	.LBB4_1334
-.LBB4_1064:
-	mov	edx, r11d
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1342
-# %bb.1065:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1066:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_1066
-	jmp	.LBB4_1343
-.LBB4_1067:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1068:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
-	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1068
-# %bb.1069:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1070
-.LBB4_1074:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1075:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
-	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1075
-# %bb.1076:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1077
-.LBB4_1081:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1082:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbq	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbq	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbq	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1082
-# %bb.1083:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1084
-.LBB4_1089:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_1090:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1090
-# %bb.1091:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1092
-.LBB4_1095:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
-.LBB4_1096:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1096
-# %bb.1097:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1098
-.LBB4_1102:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1103
-# %bb.1104:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1105
-.LBB4_1110:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1111
-# %bb.1112:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1113
-.LBB4_1118:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1119:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1119
-# %bb.1120:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1121
-.LBB4_1125:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1126:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vcvtdq2ps	ymm6, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1126
-# %bb.1127:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1128
-.LBB4_1144:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1145:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1145
-# %bb.1146:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1147
-.LBB4_1151:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm10, xmm10, xmm10
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm11, xmm11, xmm11
-.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm4, ymm10, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm12, xmm4, xmm4
-	vcmpeqpd	ymm5, ymm10, ymm7
-	vextractf128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm8, ymm10
-	vextractf128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm3, ymm9, ymm10
-	vextractf128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm6, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm6, ymm7, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm8, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm9, ymm0
-	vorpd	ymm8, ymm8, ymm2
-	vcvttpd2dq	xmm4, ymm4
-	vpackusdw	xmm4, xmm4, xmm4
-	vpackuswb	xmm4, xmm4, xmm4
-	vcvttpd2dq	xmm6, ymm6
-	vpackusdw	xmm6, xmm6, xmm6
-	vpackuswb	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackusdw	xmm7, xmm7, xmm7
-	vpackuswb	xmm7, xmm7, xmm7
-	vcvttpd2dq	xmm5, ymm8
-	vpackusdw	xmm5, xmm5, xmm5
-	vpackuswb	xmm5, xmm5, xmm5
-	vpblendvb	xmm4, xmm4, xmm11, xmm12
-	vpblendvb	xmm6, xmm6, xmm11, xmm13
-	vpblendvb	xmm1, xmm7, xmm11, xmm1
-	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
-	vpblendvb	xmm3, xmm5, xmm11, xmm3
-	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1152
-# %bb.1153:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1154
-.LBB4_1159:
-	mov	r11d, r10d
-	and	r11d, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1160:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
-	sub	rsi, -128
-	cmp	r11, rsi
-	jne	.LBB4_1160
-# %bb.1161:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1162
-.LBB4_1167:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_1168:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
-	vpxor	ymm4, ymm5, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1168
-# %bb.1169:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1170
-.LBB4_1174:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1175:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1175
-# %bb.1176:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1177
-.LBB4_1181:
-	mov	r11d, r10d
-	and	r11d, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1182:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpgtw	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm10, xmm3, xmm1
-	vpcmpgtw	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpacksswb	xmm11, xmm1, xmm2
-	vpcmpgtw	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpacksswb	xmm2, xmm2, xmm3
-	vpcmpgtw	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm1, xmm3, xmm1
-	vpcmpeqw	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpcmpeqw	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpcmpeqw	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpcmpeqw	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
-	add	rsi, 64
-	cmp	r11, rsi
-	jne	.LBB4_1182
-# %bb.1183:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1184
-.LBB4_1189:
-	mov	r11d, r10d
-	and	r11d, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_1190:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm1, ymm10, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm5, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm5
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm7, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm7
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm7, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm4, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpeqq	ymm2, ymm10, ymm0
-	vpxor	ymm2, ymm9, ymm2
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm8, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm2, xmm2, xmm11, xmm12
-	vpblendvb	xmm3, xmm3, xmm11, xmm13
-	vpblendvb	xmm5, xmm5, xmm11, xmm7
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpblendvb	xmm1, xmm4, xmm11, xmm1
-	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	r11, rsi
-	jne	.LBB4_1190
-# %bb.1191:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1192
-.LBB4_1197:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm12, xmm12, xmm12
-	vpcmpeqd	ymm13, ymm13, ymm13
-	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	vpcmpeqd	xmm15, xmm15, xmm15
-.LBB4_1198:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
-	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
-	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vcmpeqps	ymm4, ymm9, ymm12
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm8, xmm4, xmm4
-	vcmpeqps	ymm4, ymm10, ymm12
-	vextractf128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpacksswb	xmm6, xmm4, xmm4
-	vcmpeqps	ymm4, ymm11, ymm12
-	vextractf128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpacksswb	xmm4, xmm0, xmm0
-	vcmpeqps	ymm0, ymm12, ymm7
-	vextractf128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vpacksswb	xmm0, xmm0, xmm0
-	vpcmpgtd	ymm1, ymm9, ymm13
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm10, ymm13
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpgtd	ymm3, ymm11, ymm13
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm7, ymm13
-	vextracti128	xmm7, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm7
-	vpblendvb	xmm1, xmm15, xmm14, xmm1
-	vpacksswb	xmm5, xmm5, xmm5
-	vpandn	xmm1, xmm8, xmm1
-	vpblendvb	xmm2, xmm15, xmm14, xmm2
-	vpblendvb	xmm3, xmm15, xmm14, xmm3
-	vpblendvb	xmm5, xmm15, xmm14, xmm5
-	vpxor	xmm7, xmm7, xmm7
-	vpblendvb	xmm2, xmm2, xmm7, xmm6
-	vpblendvb	xmm0, xmm5, xmm7, xmm0
-	vpandn	xmm3, xmm4, xmm3
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm0
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1198
-# %bb.1199:
-	cmp	rdx, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1200
-.LBB4_1205:
-	mov	edx, eax
-	and	edx, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1206:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
-	sub	rsi, -128
-	cmp	rdx, rsi
-	jne	.LBB4_1206
-# %bb.1207:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1208
-.LBB4_1212:
-	mov	r11d, r10d
-	and	r11d, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1213:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm11, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtd	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqd	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqd	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	cmp	r11, rsi
-	jne	.LBB4_1213
-# %bb.1214:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1215
-.LBB4_1220:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_1221:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1221
-# %bb.1222:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1223
-.LBB4_1227:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1228:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1228
-# %bb.1229:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1230
-.LBB4_1235:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1236:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1236
-# %bb.1237:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1238
-.LBB4_1242:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1243:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1243
-# %bb.1244:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1245
-.LBB4_1250:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-.LBB4_1251:
-	jle	.LBB4_1253
-# %bb.1252:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-.LBB4_1253:
-	vmovq	qword ptr [r8 + 8*rdx], xmm0
-	or	rdx, 1
-.LBB4_1254:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1255:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_1257
-.LBB4_1256:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1257:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_1258
-# %bb.1261:                             #   in Loop: Header=BB4_1257 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-	vmovapd	xmm3, xmm1
-	jle	.LBB4_1262
-.LBB4_1259:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_1260
-.LBB4_1263:                             #   in Loop: Header=BB4_1257 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1256
-	jmp	.LBB4_1264
-.LBB4_1258:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1259
-.LBB4_1262:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm2
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovapd	xmm2, xmm0
-	je	.LBB4_1263
-.LBB4_1260:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1256
-.LBB4_1264:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_1256
-.LBB4_1265:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1266:
-	jle	.LBB4_1268
-# %bb.1267:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1268:
-	vmovd	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1269:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1270:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1272
-.LBB4_1271:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1272:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_1273
-# %bb.1276:                             #   in Loop: Header=BB4_1272 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-	vmovaps	xmm3, xmm1
-	jle	.LBB4_1277
-.LBB4_1274:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_1275
-.LBB4_1278:                             #   in Loop: Header=BB4_1272 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1271
-	jmp	.LBB4_1279
-.LBB4_1273:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1274
-.LBB4_1277:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm2
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovaps	xmm2, xmm0
-	je	.LBB4_1278
-.LBB4_1275:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1271
-.LBB4_1279:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_1271
-.LBB4_1282:
-	xor	edi, edi
-.LBB4_1283:
-	test	r9b, 1
-	je	.LBB4_1285
-# %bb.1284:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vxorpd	xmm1, xmm1, xmm1
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vandpd	ymm2, ymm0, ymm2
-	vorpd	ymm3, ymm3, ymm2
-	vextractf128	xmm4, ymm3, 1
-	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	vsubsd	xmm5, xmm4, xmm2
-	vcvttsd2si	rax, xmm5
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm4
-	vucomisd	xmm4, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vsubsd	xmm6, xmm4, xmm2
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm4
-	vucomisd	xmm4, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm4, rdx
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vsubsd	xmm5, xmm3, xmm2
-	vcvttsd2si	rax, xmm5
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm3
-	vucomisd	xmm3, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
-	vsubsd	xmm6, xmm3, xmm2
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm3
-	vucomisd	xmm3, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm2, rdx
-	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vcmpneqpd	ymm0, ymm0, ymm1
-	vandpd	ymm0, ymm0, ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-.LBB4_1285:
-	cmp	rsi, r10
-	je	.LBB4_1351
-.LBB4_1286:
-	vmovddup	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = [1.0E+0,1.0E+0]
-                                        # xmm0 = mem[0,0]
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	xor	eax, eax
-	vxorpd	xmm3, xmm3, xmm3
-.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
-	vandpd	xmm5, xmm4, xmm1
-	vorpd	xmm5, xmm0, xmm5
-	vsubsd	xmm6, xmm5, xmm2
-	vcvttsd2si	rdx, xmm6
-	xor	rdx, r11
-	vcvttsd2si	rdi, xmm5
-	vucomisd	xmm5, xmm2
-	cmovae	rdi, rdx
-	vucomisd	xmm3, xmm4
-	cmove	rdi, rax
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r10, rsi
-	jne	.LBB4_1287
-	jmp	.LBB4_1351
-.LBB4_1280:
-	vmovmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	vcvtsi2ss	xmm0, xmm4, ecx
-	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm0, xmm1
-	vcvttss2si	rcx, xmm2
-	movabs	rdx, -9223372036854775808
-	xor	rdx, rcx
-	vcvttss2si	rcx, xmm0
-	vucomiss	xmm0, xmm1
-	cmovae	rcx, rdx
-.LBB4_1281:
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1351
-.LBB4_1288:
-	xor	edi, edi
-.LBB4_1289:
-	test	r9b, 1
-	je	.LBB4_1291
-# %bb.1290:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vxorpd	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm0, ymm1
-	vextractf128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vandpd	ymm0, ymm0, ymm2
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vorpd	ymm0, ymm2, ymm0
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_7] # ymm2 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
-	vcmpltpd	ymm3, ymm0, ymm2
-	vextractf128	xmm4, ymm3, 1
-	vsubpd	ymm2, ymm0, ymm2
-	vcvttpd2dq	xmm2, ymm2
-	vbroadcastss	xmm5, dword ptr [rip + .LCPI4_4] # xmm5 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vpackssdw	xmm3, xmm3, xmm4
-	vxorpd	xmm2, xmm2, xmm5
-	vcvttpd2dq	xmm0, ymm0
-	vblendvps	xmm0, xmm2, xmm0, xmm3
-	vpandn	xmm0, xmm1, xmm0
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm0
-.LBB4_1291:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_1292:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1293:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	rdx, xmm3
-	cmove	edx, r10d
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1293
-	jmp	.LBB4_1351
-.LBB4_1294:
-	xor	esi, esi
-.LBB4_1295:
-	test	r9b, 1
-	je	.LBB4_1297
-# %bb.1296:
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rsi]
-	vpsrad	ymm1, ymm0, 31
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-	vpor	ymm1, ymm1, ymm2
-	vcvtdq2ps	ymm1, ymm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vcmpltps	ymm3, ymm1, ymm2
-	vsubps	ymm2, ymm1, ymm2
-	vcvttps2dq	ymm2, ymm2
-	vbroadcastss	ymm4, dword ptr [rip + .LCPI4_4] # ymm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorps	ymm2, ymm2, ymm4
-	vcvttps2dq	ymm1, ymm1
-	vblendvps	ymm1, ymm2, ymm1, ymm3
-	vxorps	xmm2, xmm2, xmm2
-	vcmpneqps	ymm0, ymm0, ymm2
-	vandps	ymm0, ymm0, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm0
-.LBB4_1297:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_1298:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1300
-.LBB4_1299:                             #   in Loop: Header=BB4_1300 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1300:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	vucomiss	xmm0, xmm1
-	je	.LBB4_1299
-# %bb.1301:                             #   in Loop: Header=BB4_1300 Depth=1
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm8, esi
-	vcvttss2si	rsi, xmm1
-	jmp	.LBB4_1299
-.LBB4_1302:
-	xor	esi, esi
-.LBB4_1303:
-	test	r9b, 1
-	je	.LBB4_1305
-# %bb.1304:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rsi]
-	vxorpd	xmm1, xmm1, xmm1
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vandpd	ymm2, ymm0, ymm2
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vorpd	ymm2, ymm3, ymm2
-	vextractf128	xmm3, ymm2, 1
-	vcvttsd2si	rdi, xmm3
-	vmovq	xmm4, rdi
-	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
-	vcvttsd2si	rdi, xmm3
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rdi, xmm2
-	vmovq	xmm4, rdi
-	vpermilps	xmm2, xmm2, 78          # xmm2 = xmm2[2,3,0,1]
-	vcvttsd2si	rdi, xmm2
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm4, xmm2        # xmm2 = xmm4[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vcmpneqpd	ymm0, ymm0, ymm1
-	vandpd	ymm0, ymm0, ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm0
-.LBB4_1305:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_1306:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1307:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	rdi, xmm3
-	cmove	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1307
-	jmp	.LBB4_1351
-.LBB4_1308:
-	xor	esi, esi
-.LBB4_1309:
-	test	r9b, 1
-	je	.LBB4_1311
-# %bb.1310:
-	vmovups	xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm1, xmm1, xmm1
-	vcmpeqps	xmm1, xmm0, xmm1
-	vpmovsxdq	ymm1, xmm1
-	vpsrad	xmm0, xmm0, 31
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-	vpor	xmm0, xmm0, xmm2
-	vcvtdq2ps	xmm0, xmm0
-	vpermilps	xmm2, xmm0, 231         # xmm2 = xmm0[3,1,2,3]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm2, rax
-	vpermilpd	xmm3, xmm0, 1           # xmm3 = xmm0[1,0]
-	vcvttss2si	rax, xmm3
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, xmm0
-	vmovq	xmm3, rax
-	vmovshdup	xmm0, xmm0              # xmm0 = xmm0[1,1,3,3]
-	vcvttss2si	rax, xmm0
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm3, xmm0        # xmm0 = xmm3[0],xmm0[0]
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vpandn	ymm0, ymm1, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm0
-.LBB4_1311:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_1312:
-	vxorps	xmm0, xmm0, xmm0
-	jmp	.LBB4_1315
-.LBB4_1313:                             #   in Loop: Header=BB4_1315 Depth=1
-	vmovmskps	eax, xmm1
-	and	eax, 1
-	neg	eax
-	or	eax, 1
-	vcvtsi2ss	xmm1, xmm6, eax
-	vcvttss2si	rsi, xmm1
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r10, rdx
-	je	.LBB4_1351
-.LBB4_1315:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm1
-	jne	.LBB4_1313
-# %bb.1316:                             #   in Loop: Header=BB4_1315 Depth=1
-	xor	esi, esi
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1315
-	jmp	.LBB4_1351
-.LBB4_1317:
-	xor	edi, edi
-.LBB4_1318:
-	test	r9b, 1
-	je	.LBB4_1320
-# %bb.1319:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB4_1320:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1321
-.LBB4_1325:
-	xor	edi, edi
-.LBB4_1326:
-	test	r9b, 1
-	je	.LBB4_1328
-# %bb.1327:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB4_1328:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1329
-.LBB4_1333:
-	xor	esi, esi
-.LBB4_1334:
-	test	r9b, 1
-	je	.LBB4_1336
-# %bb.1335:
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-.LBB4_1336:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1337
-.LBB4_1342:
-	xor	esi, esi
-.LBB4_1343:
-	test	r9b, 1
-	je	.LBB4_1345
-# %bb.1344:
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-.LBB4_1345:
-	cmp	rdx, r11
-	jne	.LBB4_1346
-.LBB4_1351:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	arithmetic_unary_diff_type_avx2, .Lfunc_end4-arithmetic_unary_diff_type_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
deleted file mode 100644
index 1b2db4159cf70..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
+++ /dev/null
@@ -1,38194 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"base_arithmetic.cc"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_binary_sse4
-.LCPI0_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_binary_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_binary_sse4,@function
-arithmetic_binary_sse4:                 # @arithmetic_binary_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB0_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB0_21
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB0_367
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB0_1013
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB0_719
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB0_6
-# %bb.713:
-	cmp	edi, 4
-	je	.LBB0_760
-# %bb.714:
-	cmp	edi, 5
-	je	.LBB0_776
-# %bb.715:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.716:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.717:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_792
-# %bb.718:
-	xor	esi, esi
-.LBB0_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_803
-.LBB0_802:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_802
-.LBB0_803:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_804:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_804
-	jmp	.LBB0_1013
-.LBB0_11:
-	cmp	sil, 21
-	je	.LBB0_194
-# %bb.12:
-	cmp	sil, 22
-	je	.LBB0_540
-# %bb.13:
-	cmp	sil, 23
-	jne	.LBB0_1013
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB0_869
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB0_16
-# %bb.863:
-	cmp	edi, 4
-	je	.LBB0_910
-# %bb.864:
-	cmp	edi, 5
-	je	.LBB0_926
-# %bb.865:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.866:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.867:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_942
-# %bb.868:
-	xor	esi, esi
-.LBB0_951:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_953
-.LBB0_952:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_952
-.LBB0_953:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_954:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_954
-	jmp	.LBB0_1013
-.LBB0_21:
-	cmp	edi, 6
-	jg	.LBB0_34
-# %bb.22:
-	cmp	edi, 3
-	jle	.LBB0_23
-# %bb.28:
-	cmp	edi, 4
-	je	.LBB0_75
-# %bb.29:
-	cmp	edi, 5
-	je	.LBB0_91
-# %bb.30:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.31:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.32:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_107
-# %bb.33:
-	xor	esi, esi
-.LBB0_116:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_118
-.LBB0_117:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_117
-.LBB0_118:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_119:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_119
-	jmp	.LBB0_1013
-.LBB0_367:
-	cmp	edi, 6
-	jg	.LBB0_380
-# %bb.368:
-	cmp	edi, 3
-	jle	.LBB0_369
-# %bb.374:
-	cmp	edi, 4
-	je	.LBB0_421
-# %bb.375:
-	cmp	edi, 5
-	je	.LBB0_437
-# %bb.376:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.377:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.378:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_453
-# %bb.379:
-	xor	esi, esi
-.LBB0_462:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_464
-.LBB0_463:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_463
-.LBB0_464:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_465
-	jmp	.LBB0_1013
-.LBB0_194:
-	cmp	edi, 6
-	jg	.LBB0_207
-# %bb.195:
-	cmp	edi, 3
-	jle	.LBB0_196
-# %bb.201:
-	cmp	edi, 4
-	je	.LBB0_248
-# %bb.202:
-	cmp	edi, 5
-	je	.LBB0_264
-# %bb.203:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.204:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.205:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_280
-# %bb.206:
-	xor	esi, esi
-.LBB0_289:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_291
-.LBB0_290:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_290
-.LBB0_291:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_292:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_292
-	jmp	.LBB0_1013
-.LBB0_540:
-	cmp	edi, 6
-	jg	.LBB0_553
-# %bb.541:
-	cmp	edi, 3
-	jle	.LBB0_542
-# %bb.547:
-	cmp	edi, 4
-	je	.LBB0_594
-# %bb.548:
-	cmp	edi, 5
-	je	.LBB0_610
-# %bb.549:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.550:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.551:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_626
-# %bb.552:
-	xor	esi, esi
-.LBB0_635:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_637
-.LBB0_636:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_636
-.LBB0_637:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_638:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_638
-	jmp	.LBB0_1013
-.LBB0_719:
-	cmp	edi, 8
-	jle	.LBB0_720
-# %bb.725:
-	cmp	edi, 9
-	je	.LBB0_826
-# %bb.726:
-	cmp	edi, 11
-	je	.LBB0_834
-# %bb.727:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.728:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.729:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_850
-# %bb.730:
-	xor	esi, esi
-.LBB0_859:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_861
-.LBB0_860:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_860
-.LBB0_861:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_862:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_862
-	jmp	.LBB0_1013
-.LBB0_869:
-	cmp	edi, 8
-	jle	.LBB0_870
-# %bb.875:
-	cmp	edi, 9
-	je	.LBB0_976
-# %bb.876:
-	cmp	edi, 11
-	je	.LBB0_984
-# %bb.877:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.878:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.879:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_1000
-# %bb.880:
-	xor	esi, esi
-.LBB0_1009:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_1011
-.LBB0_1010:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1010
-.LBB0_1011:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_1012:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_1012
-	jmp	.LBB0_1013
-.LBB0_34:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.40:
-	cmp	edi, 9
-	je	.LBB0_149
-# %bb.41:
-	cmp	edi, 11
-	je	.LBB0_165
-# %bb.42:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.44:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_181
-# %bb.45:
-	xor	esi, esi
-.LBB0_190:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_192
-.LBB0_191:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_191
-.LBB0_192:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_193:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_193
-	jmp	.LBB0_1013
-.LBB0_380:
-	cmp	edi, 8
-	jle	.LBB0_381
-# %bb.386:
-	cmp	edi, 9
-	je	.LBB0_495
-# %bb.387:
-	cmp	edi, 11
-	je	.LBB0_511
-# %bb.388:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.389:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.390:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_527
-# %bb.391:
-	xor	esi, esi
-.LBB0_536:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_538
-.LBB0_537:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_537
-.LBB0_538:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_539:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_539
-	jmp	.LBB0_1013
-.LBB0_207:
-	cmp	edi, 8
-	jle	.LBB0_208
-# %bb.213:
-	cmp	edi, 9
-	je	.LBB0_322
-# %bb.214:
-	cmp	edi, 11
-	je	.LBB0_338
-# %bb.215:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.216:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.217:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_354
-# %bb.218:
-	xor	esi, esi
-.LBB0_363:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_365
-.LBB0_364:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_364
-.LBB0_365:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_366:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_366
-	jmp	.LBB0_1013
-.LBB0_553:
-	cmp	edi, 8
-	jle	.LBB0_554
-# %bb.559:
-	cmp	edi, 9
-	je	.LBB0_668
-# %bb.560:
-	cmp	edi, 11
-	je	.LBB0_684
-# %bb.561:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.562:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.563:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_700
-# %bb.564:
-	xor	esi, esi
-.LBB0_709:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_711
-.LBB0_710:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_710
-.LBB0_711:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_712:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_712
-	jmp	.LBB0_1013
-.LBB0_6:
-	cmp	edi, 2
-	je	.LBB0_731
-# %bb.7:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.9:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_747
-# %bb.10:
-	xor	edi, edi
-.LBB0_756:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_758
-.LBB0_757:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_757
-.LBB0_758:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_759
-	jmp	.LBB0_1013
-.LBB0_16:
-	cmp	edi, 2
-	je	.LBB0_881
-# %bb.17:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.18:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.19:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_897
-# %bb.20:
-	xor	edi, edi
-.LBB0_906:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_908
-.LBB0_907:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_907
-.LBB0_908:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_909:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_909
-	jmp	.LBB0_1013
-.LBB0_23:
-	cmp	edi, 2
-	je	.LBB0_46
-# %bb.24:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.25:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.26:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_62
-# %bb.27:
-	xor	esi, esi
-.LBB0_71:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_73
-.LBB0_72:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_72
-.LBB0_73:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_74
-	jmp	.LBB0_1013
-.LBB0_369:
-	cmp	edi, 2
-	je	.LBB0_392
-# %bb.370:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.371:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.372:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_408
-# %bb.373:
-	xor	esi, esi
-.LBB0_417:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_419
-.LBB0_418:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_418
-.LBB0_419:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_420:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_420
-	jmp	.LBB0_1013
-.LBB0_196:
-	cmp	edi, 2
-	je	.LBB0_219
-# %bb.197:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.198:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.199:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_235
-# %bb.200:
-	xor	esi, esi
-.LBB0_244:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_246
-.LBB0_245:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_245
-.LBB0_246:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_247:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_247
-	jmp	.LBB0_1013
-.LBB0_542:
-	cmp	edi, 2
-	je	.LBB0_565
-# %bb.543:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.544:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.545:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_581
-# %bb.546:
-	xor	esi, esi
-.LBB0_590:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_592
-.LBB0_591:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_591
-.LBB0_592:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_593:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_593
-	jmp	.LBB0_1013
-.LBB0_720:
-	cmp	edi, 7
-	je	.LBB0_805
-# %bb.721:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.722:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.723:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_821
-# %bb.724:
-	xor	edi, edi
-	jmp	.LBB0_823
-.LBB0_870:
-	cmp	edi, 7
-	je	.LBB0_955
-# %bb.871:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.872:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.873:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_971
-# %bb.874:
-	xor	edi, edi
-	jmp	.LBB0_973
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_120
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.37:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.38:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_136
-# %bb.39:
-	xor	esi, esi
-.LBB0_145:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_147
-.LBB0_146:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_146
-.LBB0_147:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_148:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_148
-	jmp	.LBB0_1013
-.LBB0_381:
-	cmp	edi, 7
-	je	.LBB0_466
-# %bb.382:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.383:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.384:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_482
-# %bb.385:
-	xor	esi, esi
-.LBB0_491:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_493
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_492
-.LBB0_493:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_494:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_494
-	jmp	.LBB0_1013
-.LBB0_208:
-	cmp	edi, 7
-	je	.LBB0_293
-# %bb.209:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.210:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.211:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_309
-# %bb.212:
-	xor	esi, esi
-.LBB0_318:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_320
-.LBB0_319:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_319
-.LBB0_320:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_321
-	jmp	.LBB0_1013
-.LBB0_554:
-	cmp	edi, 7
-	je	.LBB0_639
-# %bb.555:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.556:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.557:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_655
-# %bb.558:
-	xor	esi, esi
-.LBB0_664:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_666
-.LBB0_665:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_665
-.LBB0_666:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_667:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_667
-	jmp	.LBB0_1013
-.LBB0_760:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.761:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_763
-# %bb.762:
-	xor	esi, esi
-.LBB0_772:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_774
-.LBB0_773:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_773
-.LBB0_774:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_775:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_775
-	jmp	.LBB0_1013
-.LBB0_776:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.777:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_779
-# %bb.778:
-	xor	esi, esi
-.LBB0_788:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_790
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_789
-.LBB0_790:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_791:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_791
-	jmp	.LBB0_1013
-.LBB0_910:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.911:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_913
-# %bb.912:
-	xor	esi, esi
-.LBB0_922:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_924
-.LBB0_923:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_923
-.LBB0_924:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_925:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_925
-	jmp	.LBB0_1013
-.LBB0_926:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.927:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_929
-# %bb.928:
-	xor	esi, esi
-.LBB0_938:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_940
-.LBB0_939:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_939
-.LBB0_940:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_941:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_941
-	jmp	.LBB0_1013
-.LBB0_75:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.76:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_78
-# %bb.77:
-	xor	esi, esi
-.LBB0_87:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_89
-.LBB0_88:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_88
-.LBB0_89:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_90
-	jmp	.LBB0_1013
-.LBB0_91:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.92:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_94
-# %bb.93:
-	xor	esi, esi
-.LBB0_103:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_105
-.LBB0_104:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_104
-.LBB0_105:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_106:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_106
-	jmp	.LBB0_1013
-.LBB0_421:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.422:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_424
-# %bb.423:
-	xor	esi, esi
-.LBB0_433:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_435
-.LBB0_434:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_434
-.LBB0_435:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_436:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_436
-	jmp	.LBB0_1013
-.LBB0_437:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.438:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_440
-# %bb.439:
-	xor	esi, esi
-.LBB0_449:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_451
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_450
-.LBB0_451:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_452:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_452
-	jmp	.LBB0_1013
-.LBB0_248:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.249:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_251
-# %bb.250:
-	xor	esi, esi
-.LBB0_260:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_262
-.LBB0_261:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_261
-.LBB0_262:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_263
-	jmp	.LBB0_1013
-.LBB0_264:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.265:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_267
-# %bb.266:
-	xor	esi, esi
-.LBB0_276:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_278
-.LBB0_277:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_277
-.LBB0_278:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_279:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_279
-	jmp	.LBB0_1013
-.LBB0_594:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.595:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_597
-# %bb.596:
-	xor	esi, esi
-.LBB0_606:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_608
-.LBB0_607:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_607
-.LBB0_608:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_609
-	jmp	.LBB0_1013
-.LBB0_610:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.611:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_613
-# %bb.612:
-	xor	esi, esi
-.LBB0_622:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_624
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_623
-.LBB0_624:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_625
-	jmp	.LBB0_1013
-.LBB0_826:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.827:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_829
-# %bb.828:
-	xor	edi, edi
-	jmp	.LBB0_831
-.LBB0_834:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.835:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_837
-# %bb.836:
-	xor	esi, esi
-.LBB0_846:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_848
-.LBB0_847:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_847
-.LBB0_848:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_849:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_849
-	jmp	.LBB0_1013
-.LBB0_976:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.977:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_979
-# %bb.978:
-	xor	edi, edi
-	jmp	.LBB0_981
-.LBB0_984:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.985:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_987
-# %bb.986:
-	xor	esi, esi
-.LBB0_996:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_998
-.LBB0_997:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_997
-.LBB0_998:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1013
-.LBB0_149:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.150:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_152
-# %bb.151:
-	xor	esi, esi
-.LBB0_161:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_163
-.LBB0_162:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_162
-.LBB0_163:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_164:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_164
-	jmp	.LBB0_1013
-.LBB0_165:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.166:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_168
-# %bb.167:
-	xor	esi, esi
-.LBB0_177:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_179
-.LBB0_178:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_178
-.LBB0_179:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_180:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_180
-	jmp	.LBB0_1013
-.LBB0_495:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.496:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_498
-# %bb.497:
-	xor	esi, esi
-.LBB0_507:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_509
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_508
-.LBB0_509:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_510
-	jmp	.LBB0_1013
-.LBB0_511:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.512:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_514
-# %bb.513:
-	xor	esi, esi
-.LBB0_523:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_525
-.LBB0_524:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_524
-.LBB0_525:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_526:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_526
-	jmp	.LBB0_1013
-.LBB0_322:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.323:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_325
-# %bb.324:
-	xor	esi, esi
-.LBB0_334:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_336
-.LBB0_335:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_335
-.LBB0_336:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_337:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_337
-	jmp	.LBB0_1013
-.LBB0_338:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.339:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_341
-# %bb.340:
-	xor	esi, esi
-.LBB0_350:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_352
-.LBB0_351:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_351
-.LBB0_352:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_353:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_353
-	jmp	.LBB0_1013
-.LBB0_668:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.669:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_671
-# %bb.670:
-	xor	esi, esi
-.LBB0_680:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_682
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_681
-.LBB0_682:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_683
-	jmp	.LBB0_1013
-.LBB0_684:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.685:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_687
-# %bb.686:
-	xor	esi, esi
-.LBB0_696:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_698
-.LBB0_697:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_697
-.LBB0_698:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_699:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_699
-	jmp	.LBB0_1013
-.LBB0_731:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.732:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_734
-# %bb.733:
-	xor	edi, edi
-.LBB0_743:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_745
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_744
-.LBB0_745:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_746:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_746
-	jmp	.LBB0_1013
-.LBB0_881:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.882:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_884
-# %bb.883:
-	xor	edi, edi
-.LBB0_893:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_895
-.LBB0_894:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_894
-.LBB0_895:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_896:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_896
-	jmp	.LBB0_1013
-.LBB0_46:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.47:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_49
-# %bb.48:
-	xor	esi, esi
-.LBB0_58:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_60
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_59
-.LBB0_60:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_61:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_61
-	jmp	.LBB0_1013
-.LBB0_392:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.393:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_395
-# %bb.394:
-	xor	esi, esi
-.LBB0_404:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_406
-.LBB0_405:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_405
-.LBB0_406:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_407:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_407
-	jmp	.LBB0_1013
-.LBB0_219:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.220:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_222
-# %bb.221:
-	xor	esi, esi
-.LBB0_231:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_233
-.LBB0_232:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_232
-.LBB0_233:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_234:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_234
-	jmp	.LBB0_1013
-.LBB0_565:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.566:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_568
-# %bb.567:
-	xor	esi, esi
-.LBB0_577:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_579
-.LBB0_578:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_578
-.LBB0_579:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_580:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_580
-	jmp	.LBB0_1013
-.LBB0_805:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.806:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_808
-# %bb.807:
-	xor	esi, esi
-.LBB0_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_819
-.LBB0_818:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_818
-.LBB0_819:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_820
-	jmp	.LBB0_1013
-.LBB0_955:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.956:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_958
-# %bb.957:
-	xor	esi, esi
-.LBB0_967:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_969
-.LBB0_968:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_968
-.LBB0_969:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_970:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_970
-	jmp	.LBB0_1013
-.LBB0_120:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.121:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_123
-# %bb.122:
-	xor	esi, esi
-.LBB0_132:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_134
-.LBB0_133:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_133
-.LBB0_134:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_135:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_135
-	jmp	.LBB0_1013
-.LBB0_466:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.467:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_469
-# %bb.468:
-	xor	esi, esi
-.LBB0_478:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_480
-.LBB0_479:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_479
-.LBB0_480:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_481:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_481
-	jmp	.LBB0_1013
-.LBB0_293:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.294:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_296
-# %bb.295:
-	xor	esi, esi
-.LBB0_305:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_307
-.LBB0_306:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_306
-.LBB0_307:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_308:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_308
-	jmp	.LBB0_1013
-.LBB0_639:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.640:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_642
-# %bb.641:
-	xor	esi, esi
-.LBB0_651:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_653
-.LBB0_652:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_652
-.LBB0_653:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_654:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_654
-	jmp	.LBB0_1013
-.LBB0_792:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_801
-# %bb.793:
-	and	al, dil
-	jne	.LBB0_801
-# %bb.794:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_795
-# %bb.796:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_797:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_797
-	jmp	.LBB0_798
-.LBB0_942:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_951
-# %bb.943:
-	and	al, dil
-	jne	.LBB0_951
-# %bb.944:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_945
-# %bb.946:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_947:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_947
-	jmp	.LBB0_948
-.LBB0_107:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_116
-# %bb.108:
-	and	al, dil
-	jne	.LBB0_116
-# %bb.109:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_110
-# %bb.111:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_112:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_112
-	jmp	.LBB0_113
-.LBB0_453:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_462
-# %bb.454:
-	and	al, dil
-	jne	.LBB0_462
-# %bb.455:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_456
-# %bb.457:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_458
-	jmp	.LBB0_459
-.LBB0_280:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_289
-# %bb.281:
-	and	al, dil
-	jne	.LBB0_289
-# %bb.282:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_283
-# %bb.284:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_285:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_285
-	jmp	.LBB0_286
-.LBB0_626:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_635
-# %bb.627:
-	and	al, dil
-	jne	.LBB0_635
-# %bb.628:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_629
-# %bb.630:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_631:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_631
-	jmp	.LBB0_632
-.LBB0_850:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_859
-# %bb.851:
-	and	al, dil
-	jne	.LBB0_859
-# %bb.852:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_853
-# %bb.854:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_855:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_855
-	jmp	.LBB0_856
-.LBB0_1000:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_1009
-# %bb.1001:
-	and	al, dil
-	jne	.LBB0_1009
-# %bb.1002:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_1003
-# %bb.1004:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_1005:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_1005
-	jmp	.LBB0_1006
-.LBB0_181:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_190
-# %bb.182:
-	and	al, dil
-	jne	.LBB0_190
-# %bb.183:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_184
-# %bb.185:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_186:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_186
-	jmp	.LBB0_187
-.LBB0_527:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_536
-# %bb.528:
-	and	al, dil
-	jne	.LBB0_536
-# %bb.529:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_530
-# %bb.531:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_532:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_532
-	jmp	.LBB0_533
-.LBB0_354:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_363
-# %bb.355:
-	and	al, dil
-	jne	.LBB0_363
-# %bb.356:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_357
-# %bb.358:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_359:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_359
-	jmp	.LBB0_360
-.LBB0_700:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_709
-# %bb.701:
-	and	al, dil
-	jne	.LBB0_709
-# %bb.702:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_703
-# %bb.704:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_705:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_705
-	jmp	.LBB0_706
-.LBB0_747:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_756
-# %bb.748:
-	and	al, sil
-	jne	.LBB0_756
-# %bb.749:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_750
-# %bb.751:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_752:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_752
-	jmp	.LBB0_753
-.LBB0_897:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_906
-# %bb.898:
-	and	al, sil
-	jne	.LBB0_906
-# %bb.899:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_900
-# %bb.901:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_902:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_902
-	jmp	.LBB0_903
-.LBB0_62:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_71
-# %bb.63:
-	and	al, dil
-	jne	.LBB0_71
-# %bb.64:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_65
-# %bb.66:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_67
-	jmp	.LBB0_68
-.LBB0_408:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_417
-# %bb.409:
-	and	al, dil
-	jne	.LBB0_417
-# %bb.410:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_411
-# %bb.412:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_413:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_413
-	jmp	.LBB0_414
-.LBB0_235:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_244
-# %bb.236:
-	and	al, dil
-	jne	.LBB0_244
-# %bb.237:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_238
-# %bb.239:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_240:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_240
-	jmp	.LBB0_241
-.LBB0_581:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_590
-# %bb.582:
-	and	al, dil
-	jne	.LBB0_590
-# %bb.583:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_584
-# %bb.585:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_586:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_586
-	jmp	.LBB0_587
-.LBB0_821:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_822:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_822
-.LBB0_823:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.824:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_825:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_825
-	jmp	.LBB0_1013
-.LBB0_971:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_972
-.LBB0_973:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.974:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_975:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_975
-	jmp	.LBB0_1013
-.LBB0_136:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_145
-# %bb.137:
-	and	al, dil
-	jne	.LBB0_145
-# %bb.138:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_139
-# %bb.140:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_141:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_141
-	jmp	.LBB0_142
-.LBB0_482:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_491
-# %bb.483:
-	and	al, dil
-	jne	.LBB0_491
-# %bb.484:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_485
-# %bb.486:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_487
-	jmp	.LBB0_488
-.LBB0_309:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_318
-# %bb.310:
-	and	al, dil
-	jne	.LBB0_318
-# %bb.311:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_312
-# %bb.313:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_314:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_314
-	jmp	.LBB0_315
-.LBB0_655:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_664
-# %bb.656:
-	and	al, dil
-	jne	.LBB0_664
-# %bb.657:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_658
-# %bb.659:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_660:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_660
-	jmp	.LBB0_661
-.LBB0_763:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_772
-# %bb.764:
-	and	al, dil
-	jne	.LBB0_772
-# %bb.765:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_766
-# %bb.767:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_769
-.LBB0_779:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_788
-# %bb.780:
-	and	al, dil
-	jne	.LBB0_788
-# %bb.781:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_782
-# %bb.783:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_784:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_784
-	jmp	.LBB0_785
-.LBB0_913:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_922
-# %bb.914:
-	and	al, dil
-	jne	.LBB0_922
-# %bb.915:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_916
-# %bb.917:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_918:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_918
-	jmp	.LBB0_919
-.LBB0_929:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_938
-# %bb.930:
-	and	al, dil
-	jne	.LBB0_938
-# %bb.931:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_932
-# %bb.933:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_934:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_934
-	jmp	.LBB0_935
-.LBB0_78:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_87
-# %bb.79:
-	and	al, dil
-	jne	.LBB0_87
-# %bb.80:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_81
-# %bb.82:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_83
-	jmp	.LBB0_84
-.LBB0_94:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_103
-# %bb.95:
-	and	al, dil
-	jne	.LBB0_103
-# %bb.96:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_97
-# %bb.98:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_99:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_99
-	jmp	.LBB0_100
-.LBB0_424:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_433
-# %bb.425:
-	and	al, dil
-	jne	.LBB0_433
-# %bb.426:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_427
-# %bb.428:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_429:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_429
-	jmp	.LBB0_430
-.LBB0_440:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_449
-# %bb.441:
-	and	al, dil
-	jne	.LBB0_449
-# %bb.442:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_443
-# %bb.444:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_445:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_445
-	jmp	.LBB0_446
-.LBB0_251:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_260
-# %bb.252:
-	and	al, dil
-	jne	.LBB0_260
-# %bb.253:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_254
-# %bb.255:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_256:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_256
-	jmp	.LBB0_257
-.LBB0_267:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_276
-# %bb.268:
-	and	al, dil
-	jne	.LBB0_276
-# %bb.269:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_270
-# %bb.271:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_272:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_272
-	jmp	.LBB0_273
-.LBB0_597:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_606
-# %bb.598:
-	and	al, dil
-	jne	.LBB0_606
-# %bb.599:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_600
-# %bb.601:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_602
-	jmp	.LBB0_603
-.LBB0_613:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_622
-# %bb.614:
-	and	al, dil
-	jne	.LBB0_622
-# %bb.615:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_616
-# %bb.617:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_618:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_618
-	jmp	.LBB0_619
-.LBB0_829:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_830:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_830
-.LBB0_831:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.832:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_833:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_833
-	jmp	.LBB0_1013
-.LBB0_837:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_846
-# %bb.838:
-	and	al, dil
-	jne	.LBB0_846
-# %bb.839:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_840
-# %bb.841:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_842:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_842
-	jmp	.LBB0_843
-.LBB0_979:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_980:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_980
-.LBB0_981:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.982:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_983:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_983
-.LBB0_1013:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_987:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_996
-# %bb.988:
-	and	al, dil
-	jne	.LBB0_996
-# %bb.989:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.991:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_992:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_992
-	jmp	.LBB0_993
-.LBB0_152:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_161
-# %bb.153:
-	and	al, dil
-	jne	.LBB0_161
-# %bb.154:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_155
-# %bb.156:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_157:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_157
-	jmp	.LBB0_158
-.LBB0_168:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_177
-# %bb.169:
-	and	al, dil
-	jne	.LBB0_177
-# %bb.170:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_171
-# %bb.172:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_173:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_173
-	jmp	.LBB0_174
-.LBB0_498:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_507
-# %bb.499:
-	and	al, dil
-	jne	.LBB0_507
-# %bb.500:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_501
-# %bb.502:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_503
-	jmp	.LBB0_504
-.LBB0_514:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_523
-# %bb.515:
-	and	al, dil
-	jne	.LBB0_523
-# %bb.516:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_517
-# %bb.518:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_519:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_519
-	jmp	.LBB0_520
-.LBB0_325:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_334
-# %bb.326:
-	and	al, dil
-	jne	.LBB0_334
-# %bb.327:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_328
-# %bb.329:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_330
-	jmp	.LBB0_331
-.LBB0_341:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_350
-# %bb.342:
-	and	al, dil
-	jne	.LBB0_350
-# %bb.343:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_344
-# %bb.345:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_346:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_346
-	jmp	.LBB0_347
-.LBB0_671:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_680
-# %bb.672:
-	and	al, dil
-	jne	.LBB0_680
-# %bb.673:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_674
-# %bb.675:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_676:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_676
-	jmp	.LBB0_677
-.LBB0_687:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_696
-# %bb.688:
-	and	al, dil
-	jne	.LBB0_696
-# %bb.689:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_690
-# %bb.691:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_692:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_692
-	jmp	.LBB0_693
-.LBB0_734:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_743
-# %bb.735:
-	and	al, sil
-	jne	.LBB0_743
-# %bb.736:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_737
-# %bb.738:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_739:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_739
-	jmp	.LBB0_740
-.LBB0_884:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_893
-# %bb.885:
-	and	al, sil
-	jne	.LBB0_893
-# %bb.886:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_887
-# %bb.888:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_889:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_889
-	jmp	.LBB0_890
-.LBB0_49:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_58
-# %bb.50:
-	and	al, dil
-	jne	.LBB0_58
-# %bb.51:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_52
-# %bb.53:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_54:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_54
-	jmp	.LBB0_55
-.LBB0_395:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_404
-# %bb.396:
-	and	al, dil
-	jne	.LBB0_404
-# %bb.397:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_398
-# %bb.399:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_400:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_400
-	jmp	.LBB0_401
-.LBB0_222:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_231
-# %bb.223:
-	and	al, dil
-	jne	.LBB0_231
-# %bb.224:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_225
-# %bb.226:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_227:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_227
-	jmp	.LBB0_228
-.LBB0_568:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_577
-# %bb.569:
-	and	al, dil
-	jne	.LBB0_577
-# %bb.570:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_571
-# %bb.572:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_573:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_573
-	jmp	.LBB0_574
-.LBB0_808:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_817
-# %bb.809:
-	and	al, dil
-	jne	.LBB0_817
-# %bb.810:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_811
-# %bb.812:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_813
-	jmp	.LBB0_814
-.LBB0_958:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_967
-# %bb.959:
-	and	al, dil
-	jne	.LBB0_967
-# %bb.960:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_961
-# %bb.962:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_963:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_963
-	jmp	.LBB0_964
-.LBB0_123:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_132
-# %bb.124:
-	and	al, dil
-	jne	.LBB0_132
-# %bb.125:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_126
-# %bb.127:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_128:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_128
-	jmp	.LBB0_129
-.LBB0_469:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_478
-# %bb.470:
-	and	al, dil
-	jne	.LBB0_478
-# %bb.471:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_472
-# %bb.473:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_474:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_474
-	jmp	.LBB0_475
-.LBB0_296:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_305
-# %bb.297:
-	and	al, dil
-	jne	.LBB0_305
-# %bb.298:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_299
-# %bb.300:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_301:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_301
-	jmp	.LBB0_302
-.LBB0_642:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_651
-# %bb.643:
-	and	al, dil
-	jne	.LBB0_651
-# %bb.644:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_645
-# %bb.646:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_647:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_647
-	jmp	.LBB0_648
-.LBB0_795:
-	xor	edi, edi
-.LBB0_798:
-	test	r9b, 1
-	je	.LBB0_800
-# %bb.799:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_800:
-	cmp	rsi, r10
-	jne	.LBB0_801
-	jmp	.LBB0_1013
-.LBB0_945:
-	xor	edi, edi
-.LBB0_948:
-	test	r9b, 1
-	je	.LBB0_950
-# %bb.949:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_950:
-	cmp	rsi, r10
-	jne	.LBB0_951
-	jmp	.LBB0_1013
-.LBB0_110:
-	xor	edi, edi
-.LBB0_113:
-	test	r9b, 1
-	je	.LBB0_115
-# %bb.114:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_115:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_116
-.LBB0_456:
-	xor	edi, edi
-.LBB0_459:
-	test	r9b, 1
-	je	.LBB0_461
-# %bb.460:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_461:
-	cmp	rsi, r10
-	jne	.LBB0_462
-	jmp	.LBB0_1013
-.LBB0_283:
-	xor	edi, edi
-.LBB0_286:
-	test	r9b, 1
-	je	.LBB0_288
-# %bb.287:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_288:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_289
-.LBB0_629:
-	xor	edi, edi
-.LBB0_632:
-	test	r9b, 1
-	je	.LBB0_634
-# %bb.633:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_634:
-	cmp	rsi, r10
-	jne	.LBB0_635
-	jmp	.LBB0_1013
-.LBB0_853:
-	xor	edi, edi
-.LBB0_856:
-	test	r9b, 1
-	je	.LBB0_858
-# %bb.857:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_858:
-	cmp	rsi, r10
-	jne	.LBB0_859
-	jmp	.LBB0_1013
-.LBB0_1003:
-	xor	edi, edi
-.LBB0_1006:
-	test	r9b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_1008:
-	cmp	rsi, r10
-	jne	.LBB0_1009
-	jmp	.LBB0_1013
-.LBB0_184:
-	xor	edi, edi
-.LBB0_187:
-	test	r9b, 1
-	je	.LBB0_189
-# %bb.188:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_189:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_190
-.LBB0_530:
-	xor	edi, edi
-.LBB0_533:
-	test	r9b, 1
-	je	.LBB0_535
-# %bb.534:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_535:
-	cmp	rsi, r10
-	jne	.LBB0_536
-	jmp	.LBB0_1013
-.LBB0_357:
-	xor	edi, edi
-.LBB0_360:
-	test	r9b, 1
-	je	.LBB0_362
-# %bb.361:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_362:
-	cmp	rsi, r10
-	jne	.LBB0_363
-	jmp	.LBB0_1013
-.LBB0_703:
-	xor	edi, edi
-.LBB0_706:
-	test	r9b, 1
-	je	.LBB0_708
-# %bb.707:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_708:
-	cmp	rsi, r10
-	jne	.LBB0_709
-	jmp	.LBB0_1013
-.LBB0_750:
-	xor	eax, eax
-.LBB0_753:
-	test	r9b, 1
-	je	.LBB0_755
-# %bb.754:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_755:
-	cmp	rdi, r10
-	jne	.LBB0_756
-	jmp	.LBB0_1013
-.LBB0_900:
-	xor	eax, eax
-.LBB0_903:
-	test	r9b, 1
-	je	.LBB0_905
-# %bb.904:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_905:
-	cmp	rdi, r10
-	jne	.LBB0_906
-	jmp	.LBB0_1013
-.LBB0_65:
-	xor	edi, edi
-.LBB0_68:
-	test	r9b, 1
-	je	.LBB0_70
-# %bb.69:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_70:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_71
-.LBB0_411:
-	xor	edi, edi
-.LBB0_414:
-	test	r9b, 1
-	je	.LBB0_416
-# %bb.415:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_416:
-	cmp	rsi, r10
-	jne	.LBB0_417
-	jmp	.LBB0_1013
-.LBB0_238:
-	xor	edi, edi
-.LBB0_241:
-	test	r9b, 1
-	je	.LBB0_243
-# %bb.242:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_243:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_244
-.LBB0_584:
-	xor	edi, edi
-.LBB0_587:
-	test	r9b, 1
-	je	.LBB0_589
-# %bb.588:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_589:
-	cmp	rsi, r10
-	jne	.LBB0_590
-	jmp	.LBB0_1013
-.LBB0_139:
-	xor	edi, edi
-.LBB0_142:
-	test	r9b, 1
-	je	.LBB0_144
-# %bb.143:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_144:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_145
-.LBB0_485:
-	xor	edi, edi
-.LBB0_488:
-	test	r9b, 1
-	je	.LBB0_490
-# %bb.489:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_490:
-	cmp	rsi, r10
-	jne	.LBB0_491
-	jmp	.LBB0_1013
-.LBB0_312:
-	xor	edi, edi
-.LBB0_315:
-	test	r9b, 1
-	je	.LBB0_317
-# %bb.316:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_317:
-	cmp	rsi, r10
-	jne	.LBB0_318
-	jmp	.LBB0_1013
-.LBB0_658:
-	xor	edi, edi
-.LBB0_661:
-	test	r9b, 1
-	je	.LBB0_663
-# %bb.662:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_663:
-	cmp	rsi, r10
-	jne	.LBB0_664
-	jmp	.LBB0_1013
-.LBB0_766:
-	xor	edi, edi
-.LBB0_769:
-	test	r9b, 1
-	je	.LBB0_771
-# %bb.770:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_771:
-	cmp	rsi, r10
-	jne	.LBB0_772
-	jmp	.LBB0_1013
-.LBB0_782:
-	xor	edi, edi
-.LBB0_785:
-	test	r9b, 1
-	je	.LBB0_787
-# %bb.786:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_787:
-	cmp	rsi, r10
-	jne	.LBB0_788
-	jmp	.LBB0_1013
-.LBB0_916:
-	xor	edi, edi
-.LBB0_919:
-	test	r9b, 1
-	je	.LBB0_921
-# %bb.920:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_921:
-	cmp	rsi, r10
-	jne	.LBB0_922
-	jmp	.LBB0_1013
-.LBB0_932:
-	xor	edi, edi
-.LBB0_935:
-	test	r9b, 1
-	je	.LBB0_937
-# %bb.936:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_937:
-	cmp	rsi, r10
-	jne	.LBB0_938
-	jmp	.LBB0_1013
-.LBB0_81:
-	xor	edi, edi
-.LBB0_84:
-	test	r9b, 1
-	je	.LBB0_86
-# %bb.85:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_86:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_87
-.LBB0_97:
-	xor	edi, edi
-.LBB0_100:
-	test	r9b, 1
-	je	.LBB0_102
-# %bb.101:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_102:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_103
-.LBB0_427:
-	xor	edi, edi
-.LBB0_430:
-	test	r9b, 1
-	je	.LBB0_432
-# %bb.431:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_432:
-	cmp	rsi, r10
-	jne	.LBB0_433
-	jmp	.LBB0_1013
-.LBB0_443:
-	xor	edi, edi
-.LBB0_446:
-	test	r9b, 1
-	je	.LBB0_448
-# %bb.447:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_448:
-	cmp	rsi, r10
-	jne	.LBB0_449
-	jmp	.LBB0_1013
-.LBB0_254:
-	xor	edi, edi
-.LBB0_257:
-	test	r9b, 1
-	je	.LBB0_259
-# %bb.258:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_259:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_260
-.LBB0_270:
-	xor	edi, edi
-.LBB0_273:
-	test	r9b, 1
-	je	.LBB0_275
-# %bb.274:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_275:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_276
-.LBB0_600:
-	xor	edi, edi
-.LBB0_603:
-	test	r9b, 1
-	je	.LBB0_605
-# %bb.604:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_605:
-	cmp	rsi, r10
-	jne	.LBB0_606
-	jmp	.LBB0_1013
-.LBB0_616:
-	xor	edi, edi
-.LBB0_619:
-	test	r9b, 1
-	je	.LBB0_621
-# %bb.620:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_621:
-	cmp	rsi, r10
-	jne	.LBB0_622
-	jmp	.LBB0_1013
-.LBB0_840:
-	xor	edi, edi
-.LBB0_843:
-	test	r9b, 1
-	je	.LBB0_845
-# %bb.844:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_845:
-	cmp	rsi, r10
-	jne	.LBB0_846
-	jmp	.LBB0_1013
-.LBB0_990:
-	xor	edi, edi
-.LBB0_993:
-	test	r9b, 1
-	je	.LBB0_995
-# %bb.994:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_995:
-	cmp	rsi, r10
-	jne	.LBB0_996
-	jmp	.LBB0_1013
-.LBB0_155:
-	xor	edi, edi
-.LBB0_158:
-	test	r9b, 1
-	je	.LBB0_160
-# %bb.159:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_160:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_161
-.LBB0_171:
-	xor	edi, edi
-.LBB0_174:
-	test	r9b, 1
-	je	.LBB0_176
-# %bb.175:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_176:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_177
-.LBB0_501:
-	xor	edi, edi
-.LBB0_504:
-	test	r9b, 1
-	je	.LBB0_506
-# %bb.505:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_506:
-	cmp	rsi, r10
-	jne	.LBB0_507
-	jmp	.LBB0_1013
-.LBB0_517:
-	xor	edi, edi
-.LBB0_520:
-	test	r9b, 1
-	je	.LBB0_522
-# %bb.521:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_522:
-	cmp	rsi, r10
-	jne	.LBB0_523
-	jmp	.LBB0_1013
-.LBB0_328:
-	xor	edi, edi
-.LBB0_331:
-	test	r9b, 1
-	je	.LBB0_333
-# %bb.332:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_333:
-	cmp	rsi, r10
-	jne	.LBB0_334
-	jmp	.LBB0_1013
-.LBB0_344:
-	xor	edi, edi
-.LBB0_347:
-	test	r9b, 1
-	je	.LBB0_349
-# %bb.348:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_349:
-	cmp	rsi, r10
-	jne	.LBB0_350
-	jmp	.LBB0_1013
-.LBB0_674:
-	xor	edi, edi
-.LBB0_677:
-	test	r9b, 1
-	je	.LBB0_679
-# %bb.678:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_679:
-	cmp	rsi, r10
-	jne	.LBB0_680
-	jmp	.LBB0_1013
-.LBB0_690:
-	xor	edi, edi
-.LBB0_693:
-	test	r9b, 1
-	je	.LBB0_695
-# %bb.694:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_695:
-	cmp	rsi, r10
-	jne	.LBB0_696
-	jmp	.LBB0_1013
-.LBB0_737:
-	xor	eax, eax
-.LBB0_740:
-	test	r9b, 1
-	je	.LBB0_742
-# %bb.741:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_742:
-	cmp	rdi, r10
-	jne	.LBB0_743
-	jmp	.LBB0_1013
-.LBB0_887:
-	xor	eax, eax
-.LBB0_890:
-	test	r9b, 1
-	je	.LBB0_892
-# %bb.891:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_892:
-	cmp	rdi, r10
-	jne	.LBB0_893
-	jmp	.LBB0_1013
-.LBB0_52:
-	xor	edi, edi
-.LBB0_55:
-	test	r9b, 1
-	je	.LBB0_57
-# %bb.56:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_57:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_58
-.LBB0_398:
-	xor	edi, edi
-.LBB0_401:
-	test	r9b, 1
-	je	.LBB0_403
-# %bb.402:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_403:
-	cmp	rsi, r10
-	jne	.LBB0_404
-	jmp	.LBB0_1013
-.LBB0_225:
-	xor	edi, edi
-.LBB0_228:
-	test	r9b, 1
-	je	.LBB0_230
-# %bb.229:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_230:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_231
-.LBB0_571:
-	xor	edi, edi
-.LBB0_574:
-	test	r9b, 1
-	je	.LBB0_576
-# %bb.575:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_576:
-	cmp	rsi, r10
-	jne	.LBB0_577
-	jmp	.LBB0_1013
-.LBB0_811:
-	xor	edi, edi
-.LBB0_814:
-	test	r9b, 1
-	je	.LBB0_816
-# %bb.815:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_816:
-	cmp	rsi, r10
-	jne	.LBB0_817
-	jmp	.LBB0_1013
-.LBB0_961:
-	xor	edi, edi
-.LBB0_964:
-	test	r9b, 1
-	je	.LBB0_966
-# %bb.965:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_966:
-	cmp	rsi, r10
-	jne	.LBB0_967
-	jmp	.LBB0_1013
-.LBB0_126:
-	xor	edi, edi
-.LBB0_129:
-	test	r9b, 1
-	je	.LBB0_131
-# %bb.130:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_131:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_132
-.LBB0_472:
-	xor	edi, edi
-.LBB0_475:
-	test	r9b, 1
-	je	.LBB0_477
-# %bb.476:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_477:
-	cmp	rsi, r10
-	jne	.LBB0_478
-	jmp	.LBB0_1013
-.LBB0_299:
-	xor	edi, edi
-.LBB0_302:
-	test	r9b, 1
-	je	.LBB0_304
-# %bb.303:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_304:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_305
-.LBB0_645:
-	xor	edi, edi
-.LBB0_648:
-	test	r9b, 1
-	je	.LBB0_650
-# %bb.649:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_650:
-	cmp	rsi, r10
-	jne	.LBB0_651
-	jmp	.LBB0_1013
-.Lfunc_end0:
-	.size	arithmetic_binary_sse4, .Lfunc_end0-arithmetic_binary_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_arr_scalar_sse4
-.LCPI1_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_sse4,@function
-arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB1_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB1_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB1_1069
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB1_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB1_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB1_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB1_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.10:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_11
-# %bb.265:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_453
-# %bb.266:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_453
-.LBB1_11:
-	xor	esi, esi
-.LBB1_625:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_627
-.LBB1_626:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_626
-.LBB1_627:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_628:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_628
-	jmp	.LBB1_1069
-.LBB1_12:
-	cmp	sil, 21
-	je	.LBB1_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB1_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB1_1069
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB1_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB1_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB1_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB1_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.21:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_22
-# %bb.268:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_456
-# %bb.269:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_456
-.LBB1_22:
-	xor	esi, esi
-.LBB1_633:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_635
-.LBB1_634:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_634
-.LBB1_635:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_636:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_636
-	jmp	.LBB1_1069
-.LBB1_23:
-	cmp	edi, 6
-	jg	.LBB1_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB1_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB1_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB1_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.29:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_30
-# %bb.271:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_459
-# %bb.272:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_459
-.LBB1_30:
-	xor	esi, esi
-.LBB1_641:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_643
-.LBB1_642:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_642
-.LBB1_643:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_644:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_644
-	jmp	.LBB1_1069
-.LBB1_31:
-	cmp	edi, 6
-	jg	.LBB1_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB1_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB1_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB1_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.37:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_38
-# %bb.274:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_462
-# %bb.275:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_462
-.LBB1_38:
-	xor	esi, esi
-.LBB1_649:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_651
-.LBB1_650:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_650
-.LBB1_651:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_652:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_652
-	jmp	.LBB1_1069
-.LBB1_39:
-	cmp	edi, 6
-	jg	.LBB1_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB1_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB1_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB1_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.45:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_46
-# %bb.277:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_465
-# %bb.278:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_465
-.LBB1_46:
-	xor	esi, esi
-.LBB1_657:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_659
-.LBB1_658:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_658
-.LBB1_659:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_660:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_660
-	jmp	.LBB1_1069
-.LBB1_47:
-	cmp	edi, 6
-	jg	.LBB1_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB1_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB1_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB1_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.53:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_54
-# %bb.280:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_468
-# %bb.281:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_468
-.LBB1_54:
-	xor	esi, esi
-.LBB1_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_667
-.LBB1_666:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_666
-.LBB1_667:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_668:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_668
-	jmp	.LBB1_1069
-.LBB1_55:
-	cmp	edi, 8
-	jle	.LBB1_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB1_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB1_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.60:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_61
-# %bb.283:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_471
-# %bb.284:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_471
-.LBB1_61:
-	xor	ecx, ecx
-.LBB1_673:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_675
-.LBB1_674:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_674
-.LBB1_675:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_676:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_676
-	jmp	.LBB1_1069
-.LBB1_62:
-	cmp	edi, 8
-	jle	.LBB1_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB1_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB1_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.67:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_68
-# %bb.286:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_474
-# %bb.287:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_474
-.LBB1_68:
-	xor	ecx, ecx
-.LBB1_681:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_683
-.LBB1_682:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_682
-.LBB1_683:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_684:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_684
-	jmp	.LBB1_1069
-.LBB1_69:
-	cmp	edi, 8
-	jle	.LBB1_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB1_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB1_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.74:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_75
-# %bb.289:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_477
-# %bb.290:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_477
-.LBB1_75:
-	xor	ecx, ecx
-.LBB1_689:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_691
-.LBB1_690:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_690
-.LBB1_691:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_692:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_692
-	jmp	.LBB1_1069
-.LBB1_76:
-	cmp	edi, 8
-	jle	.LBB1_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB1_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB1_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.81:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_82
-# %bb.292:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_480
-# %bb.293:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_480
-.LBB1_82:
-	xor	ecx, ecx
-.LBB1_697:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_699
-.LBB1_698:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_698
-.LBB1_699:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_700:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_700
-	jmp	.LBB1_1069
-.LBB1_83:
-	cmp	edi, 8
-	jle	.LBB1_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB1_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB1_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.88:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_89
-# %bb.295:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_483
-# %bb.296:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_483
-.LBB1_89:
-	xor	ecx, ecx
-.LBB1_705:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_707
-.LBB1_706:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_706
-.LBB1_707:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_708:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_708
-	jmp	.LBB1_1069
-.LBB1_90:
-	cmp	edi, 8
-	jle	.LBB1_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB1_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB1_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.95:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_96
-# %bb.298:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_486
-# %bb.299:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_486
-.LBB1_96:
-	xor	ecx, ecx
-.LBB1_713:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_715
-.LBB1_714:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_714
-.LBB1_715:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_716:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_716
-	jmp	.LBB1_1069
-.LBB1_97:
-	cmp	edi, 2
-	je	.LBB1_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.100:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_101
-# %bb.301:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_489
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_489
-.LBB1_101:
-	xor	edi, edi
-.LBB1_721:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_723
-.LBB1_722:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_722
-.LBB1_723:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_724:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_724
-	jmp	.LBB1_1069
-.LBB1_102:
-	cmp	edi, 2
-	je	.LBB1_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.105:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_106
-# %bb.304:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_492
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_492
-.LBB1_106:
-	xor	edi, edi
-.LBB1_729:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_731
-.LBB1_730:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_730
-.LBB1_731:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_732:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_732
-	jmp	.LBB1_1069
-.LBB1_107:
-	cmp	edi, 2
-	je	.LBB1_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.110:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_111
-# %bb.307:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_495
-# %bb.308:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_495
-.LBB1_111:
-	xor	esi, esi
-.LBB1_737:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_739
-.LBB1_738:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_738
-.LBB1_739:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_740:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_740
-	jmp	.LBB1_1069
-.LBB1_112:
-	cmp	edi, 2
-	je	.LBB1_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.115:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_116
-# %bb.310:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_498
-# %bb.311:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_498
-.LBB1_116:
-	xor	esi, esi
-.LBB1_745:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_747
-.LBB1_746:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_746
-.LBB1_747:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_748:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_748
-	jmp	.LBB1_1069
-.LBB1_117:
-	cmp	edi, 2
-	je	.LBB1_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.120:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_121
-# %bb.313:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_501
-# %bb.314:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_501
-.LBB1_121:
-	xor	esi, esi
-.LBB1_753:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_755
-.LBB1_754:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_754
-.LBB1_755:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_756:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_756
-	jmp	.LBB1_1069
-.LBB1_122:
-	cmp	edi, 2
-	je	.LBB1_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.125:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_126
-# %bb.316:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_504
-# %bb.317:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_504
-.LBB1_126:
-	xor	esi, esi
-.LBB1_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_763
-.LBB1_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_762
-.LBB1_763:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_764
-	jmp	.LBB1_1069
-.LBB1_127:
-	cmp	edi, 7
-	je	.LBB1_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.130:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_319
-# %bb.131:
-	xor	edi, edi
-	jmp	.LBB1_321
-.LBB1_132:
-	cmp	edi, 7
-	je	.LBB1_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.135:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_324
-# %bb.136:
-	xor	edi, edi
-	jmp	.LBB1_326
-.LBB1_137:
-	cmp	edi, 7
-	je	.LBB1_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.140:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_141
-# %bb.329:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_507
-# %bb.330:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_507
-.LBB1_141:
-	xor	esi, esi
-.LBB1_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_771
-.LBB1_770:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_770
-.LBB1_771:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_772:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_772
-	jmp	.LBB1_1069
-.LBB1_142:
-	cmp	edi, 7
-	je	.LBB1_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.145:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_146
-# %bb.332:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_510
-# %bb.333:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_510
-.LBB1_146:
-	xor	esi, esi
-.LBB1_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_779
-.LBB1_778:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_778
-.LBB1_779:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_780:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_780
-	jmp	.LBB1_1069
-.LBB1_147:
-	cmp	edi, 7
-	je	.LBB1_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.150:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_151
-# %bb.335:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_513
-# %bb.336:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_513
-.LBB1_151:
-	xor	esi, esi
-.LBB1_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_787
-.LBB1_786:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_786
-.LBB1_787:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_788:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_788
-	jmp	.LBB1_1069
-.LBB1_152:
-	cmp	edi, 7
-	je	.LBB1_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.155:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_156
-# %bb.338:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_516
-# %bb.339:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_516
-.LBB1_156:
-	xor	esi, esi
-.LBB1_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_795
-.LBB1_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_794
-.LBB1_795:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_796
-	jmp	.LBB1_1069
-.LBB1_157:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.158:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_159
-# %bb.341:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_519
-# %bb.342:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_519
-.LBB1_159:
-	xor	esi, esi
-.LBB1_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_803
-.LBB1_802:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_802
-.LBB1_803:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_804:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_804
-	jmp	.LBB1_1069
-.LBB1_160:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.161:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_162
-# %bb.344:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_522
-# %bb.345:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_522
-.LBB1_162:
-	xor	esi, esi
-.LBB1_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_811
-.LBB1_810:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_810
-.LBB1_811:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_812:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_812
-	jmp	.LBB1_1069
-.LBB1_163:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.164:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_165
-# %bb.347:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_525
-# %bb.348:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_525
-.LBB1_165:
-	xor	esi, esi
-.LBB1_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_819
-.LBB1_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_818
-.LBB1_819:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_820:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_820
-	jmp	.LBB1_1069
-.LBB1_166:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.167:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_168
-# %bb.350:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_528
-# %bb.351:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_528
-.LBB1_168:
-	xor	esi, esi
-.LBB1_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_827
-.LBB1_826:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_826
-.LBB1_827:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_828:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_828
-	jmp	.LBB1_1069
-.LBB1_169:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.170:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_171
-# %bb.353:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_531
-# %bb.354:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_531
-.LBB1_171:
-	xor	esi, esi
-.LBB1_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_835
-.LBB1_834:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_834
-.LBB1_835:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_836:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_836
-	jmp	.LBB1_1069
-.LBB1_172:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.173:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_174
-# %bb.356:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_534
-# %bb.357:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_534
-.LBB1_174:
-	xor	esi, esi
-.LBB1_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_843
-.LBB1_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_842
-.LBB1_843:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_844
-	jmp	.LBB1_1069
-.LBB1_175:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.176:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_177
-# %bb.359:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_537
-# %bb.360:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_537
-.LBB1_177:
-	xor	esi, esi
-.LBB1_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_851
-.LBB1_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_850
-.LBB1_851:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_852
-	jmp	.LBB1_1069
-.LBB1_178:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.179:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_180
-# %bb.362:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_540
-# %bb.363:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_540
-.LBB1_180:
-	xor	esi, esi
-.LBB1_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_859
-.LBB1_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_858
-.LBB1_859:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_860
-	jmp	.LBB1_1069
-.LBB1_181:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.182:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_183
-# %bb.365:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_543
-# %bb.366:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_543
-.LBB1_183:
-	xor	esi, esi
-.LBB1_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_867
-.LBB1_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_866
-.LBB1_867:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_868
-	jmp	.LBB1_1069
-.LBB1_184:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.185:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_186
-# %bb.368:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_546
-# %bb.369:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_546
-.LBB1_186:
-	xor	esi, esi
-.LBB1_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_875
-.LBB1_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_874
-.LBB1_875:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_876
-	jmp	.LBB1_1069
-.LBB1_187:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.188:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_189
-# %bb.371:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_549
-# %bb.372:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_549
-.LBB1_189:
-	xor	esi, esi
-.LBB1_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_883
-.LBB1_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_882
-.LBB1_883:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_884
-	jmp	.LBB1_1069
-.LBB1_190:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.191:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_192
-# %bb.374:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_552
-# %bb.375:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_552
-.LBB1_192:
-	xor	esi, esi
-.LBB1_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_891
-.LBB1_890:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_890
-.LBB1_891:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_892:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_892
-	jmp	.LBB1_1069
-.LBB1_193:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.194:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_377
-# %bb.195:
-	xor	edi, edi
-	jmp	.LBB1_379
-.LBB1_196:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.197:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_198
-# %bb.382:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_555
-# %bb.383:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_555
-.LBB1_198:
-	xor	ecx, ecx
-.LBB1_897:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_899
-.LBB1_898:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_898
-.LBB1_899:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_900:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_900
-	jmp	.LBB1_1069
-.LBB1_199:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.200:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_385
-# %bb.201:
-	xor	edi, edi
-	jmp	.LBB1_387
-.LBB1_202:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.203:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_204
-# %bb.390:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_558
-# %bb.391:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_558
-.LBB1_204:
-	xor	ecx, ecx
-.LBB1_905:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_907
-.LBB1_906:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_906
-.LBB1_907:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_908:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_908
-	jmp	.LBB1_1069
-.LBB1_205:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.206:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_207
-# %bb.393:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_561
-# %bb.394:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_561
-.LBB1_207:
-	xor	esi, esi
-.LBB1_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_915
-.LBB1_914:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_914
-.LBB1_915:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_916:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_916
-	jmp	.LBB1_1069
-.LBB1_208:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.209:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_210
-# %bb.396:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_564
-# %bb.397:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_564
-.LBB1_210:
-	xor	ecx, ecx
-.LBB1_921:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_923
-.LBB1_922:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_922
-.LBB1_923:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_924:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_924
-	jmp	.LBB1_1069
-.LBB1_211:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.212:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_213
-# %bb.399:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_567
-# %bb.400:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_567
-.LBB1_213:
-	xor	esi, esi
-.LBB1_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_931
-.LBB1_930:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_930
-.LBB1_931:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_932:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_932
-	jmp	.LBB1_1069
-.LBB1_214:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.215:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_216
-# %bb.402:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_570
-# %bb.403:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_570
-.LBB1_216:
-	xor	ecx, ecx
-.LBB1_937:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_939
-.LBB1_938:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_938
-.LBB1_939:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_940:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_940
-	jmp	.LBB1_1069
-.LBB1_217:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.218:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_219
-# %bb.405:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_573
-# %bb.406:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_573
-.LBB1_219:
-	xor	esi, esi
-.LBB1_945:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_947
-.LBB1_946:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_946
-.LBB1_947:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_948:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_948
-	jmp	.LBB1_1069
-.LBB1_220:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.221:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_222
-# %bb.408:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_576
-# %bb.409:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_576
-.LBB1_222:
-	xor	ecx, ecx
-.LBB1_953:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_955
-.LBB1_954:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_954
-.LBB1_955:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_956:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_956
-	jmp	.LBB1_1069
-.LBB1_223:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.224:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_225
-# %bb.411:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_579
-# %bb.412:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_579
-.LBB1_225:
-	xor	esi, esi
-.LBB1_961:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_963
-.LBB1_962:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_962
-.LBB1_963:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_964:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_964
-	jmp	.LBB1_1069
-.LBB1_226:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.227:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_228
-# %bb.414:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_582
-# %bb.415:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_582
-.LBB1_228:
-	xor	ecx, ecx
-.LBB1_969:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_971
-.LBB1_970:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_970
-.LBB1_971:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_972:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_972
-	jmp	.LBB1_1069
-.LBB1_229:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.230:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_231
-# %bb.417:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_585
-# %bb.418:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_585
-.LBB1_231:
-	xor	edi, edi
-.LBB1_977:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_979
-.LBB1_978:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_978
-.LBB1_979:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_980:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_980
-	jmp	.LBB1_1069
-.LBB1_232:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.233:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_234
-# %bb.420:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_588
-# %bb.421:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_588
-.LBB1_234:
-	xor	edi, edi
-.LBB1_985:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_987
-.LBB1_986:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_986
-.LBB1_987:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_988:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_988
-	jmp	.LBB1_1069
-.LBB1_235:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.236:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_237
-# %bb.423:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_591
-# %bb.424:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_591
-.LBB1_237:
-	xor	esi, esi
-.LBB1_993:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_995
-.LBB1_994:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_994
-.LBB1_995:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_996:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_996
-	jmp	.LBB1_1069
-.LBB1_238:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.239:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_240
-# %bb.426:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_594
-# %bb.427:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_594
-.LBB1_240:
-	xor	esi, esi
-.LBB1_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1003
-.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1002
-.LBB1_1003:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1004
-	jmp	.LBB1_1069
-.LBB1_241:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.242:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_243
-# %bb.429:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_597
-# %bb.430:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_597
-.LBB1_243:
-	xor	esi, esi
-.LBB1_1009:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1011
-.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1010
-.LBB1_1011:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1012
-	jmp	.LBB1_1069
-.LBB1_244:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.245:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_246
-# %bb.432:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_600
-# %bb.433:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_600
-.LBB1_246:
-	xor	esi, esi
-.LBB1_1017:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1019
-.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1018
-.LBB1_1019:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1020
-	jmp	.LBB1_1069
-.LBB1_247:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.248:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_249
-# %bb.435:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_603
-# %bb.436:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_603
-.LBB1_249:
-	xor	esi, esi
-.LBB1_1025:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1027
-.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1026
-.LBB1_1027:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1028
-	jmp	.LBB1_1069
-.LBB1_250:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.251:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_252
-# %bb.438:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_606
-# %bb.439:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_606
-.LBB1_252:
-	xor	esi, esi
-.LBB1_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1035
-.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1034
-.LBB1_1035:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1036
-	jmp	.LBB1_1069
-.LBB1_253:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.254:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_255
-# %bb.441:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_609
-# %bb.442:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_609
-.LBB1_255:
-	xor	esi, esi
-.LBB1_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1043
-.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1042
-.LBB1_1043:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1044
-	jmp	.LBB1_1069
-.LBB1_256:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.257:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_258
-# %bb.444:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_612
-# %bb.445:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_612
-.LBB1_258:
-	xor	esi, esi
-.LBB1_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1051
-.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1050
-.LBB1_1051:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1052
-	jmp	.LBB1_1069
-.LBB1_259:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.260:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_261
-# %bb.447:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_615
-# %bb.448:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_615
-.LBB1_261:
-	xor	esi, esi
-.LBB1_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1059
-.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1058
-.LBB1_1059:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1060
-	jmp	.LBB1_1069
-.LBB1_262:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.263:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_264
-# %bb.450:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_618
-# %bb.451:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_618
-.LBB1_264:
-	xor	esi, esi
-.LBB1_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1067
-.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1066
-.LBB1_1067:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1068
-	jmp	.LBB1_1069
-.LBB1_319:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_320:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_320
-.LBB1_321:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.322:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_323:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_323
-	jmp	.LBB1_1069
-.LBB1_324:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_325:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_325
-.LBB1_326:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.327:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_328:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_328
-	jmp	.LBB1_1069
-.LBB1_377:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_378:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_378
-.LBB1_379:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.380:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_381:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_381
-	jmp	.LBB1_1069
-.LBB1_385:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_386
-.LBB1_387:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.388:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_389:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_389
-.LBB1_1069:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB1_453:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_621
-# %bb.454:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_455:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_455
-	jmp	.LBB1_622
-.LBB1_456:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_629
-# %bb.457:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_458
-	jmp	.LBB1_630
-.LBB1_459:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_637
-# %bb.460:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_461:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_461
-	jmp	.LBB1_638
-.LBB1_462:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_645
-# %bb.463:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_464:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_464
-	jmp	.LBB1_646
-.LBB1_465:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_653
-# %bb.466:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_467:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_467
-	jmp	.LBB1_654
-.LBB1_468:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_661
-# %bb.469:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_470:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_470
-	jmp	.LBB1_662
-.LBB1_471:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_669
-# %bb.472:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_473:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_473
-	jmp	.LBB1_670
-.LBB1_474:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_677
-# %bb.475:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_476:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_476
-	jmp	.LBB1_678
-.LBB1_477:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_685
-# %bb.478:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_479:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_479
-	jmp	.LBB1_686
-.LBB1_480:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_693
-# %bb.481:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_482:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_482
-	jmp	.LBB1_694
-.LBB1_483:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_701
-# %bb.484:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_485:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_485
-	jmp	.LBB1_702
-.LBB1_486:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_709
-# %bb.487:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_488:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_488
-	jmp	.LBB1_710
-.LBB1_489:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_717
-# %bb.490:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_491:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_491
-	jmp	.LBB1_718
-.LBB1_492:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_725
-# %bb.493:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_494
-	jmp	.LBB1_726
-.LBB1_495:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_733
-# %bb.496:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_497:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_497
-	jmp	.LBB1_734
-.LBB1_498:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_741
-# %bb.499:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_500:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_500
-	jmp	.LBB1_742
-.LBB1_501:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_749
-# %bb.502:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_503
-	jmp	.LBB1_750
-.LBB1_504:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_757
-# %bb.505:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_506:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_506
-	jmp	.LBB1_758
-.LBB1_507:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_765
-# %bb.508:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_509
-	jmp	.LBB1_766
-.LBB1_510:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_773
-# %bb.511:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_512:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_512
-	jmp	.LBB1_774
-.LBB1_513:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_781
-# %bb.514:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_515:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_515
-	jmp	.LBB1_782
-.LBB1_516:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_789
-# %bb.517:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_518
-	jmp	.LBB1_790
-.LBB1_519:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_797
-# %bb.520:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_521
-	jmp	.LBB1_798
-.LBB1_522:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_805
-# %bb.523:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_524:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_524
-	jmp	.LBB1_806
-.LBB1_525:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_813
-# %bb.526:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_527:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_527
-	jmp	.LBB1_814
-.LBB1_528:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_821
-# %bb.529:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_530:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_530
-	jmp	.LBB1_822
-.LBB1_531:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_829
-# %bb.532:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_533:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_533
-	jmp	.LBB1_830
-.LBB1_534:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_837
-# %bb.535:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_536:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_536
-	jmp	.LBB1_838
-.LBB1_537:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_845
-# %bb.538:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_539:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_539
-	jmp	.LBB1_846
-.LBB1_540:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_853
-# %bb.541:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_542:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_542
-	jmp	.LBB1_854
-.LBB1_543:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_861
-# %bb.544:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_545:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_545
-	jmp	.LBB1_862
-.LBB1_546:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_869
-# %bb.547:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_548:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_548
-	jmp	.LBB1_870
-.LBB1_549:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_877
-# %bb.550:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_551:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_551
-	jmp	.LBB1_878
-.LBB1_552:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_885
-# %bb.553:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_554:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_554
-	jmp	.LBB1_886
-.LBB1_555:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_893
-# %bb.556:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_557:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_557
-	jmp	.LBB1_894
-.LBB1_558:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_901
-# %bb.559:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_560:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_560
-	jmp	.LBB1_902
-.LBB1_561:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_909
-# %bb.562:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_563:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_563
-	jmp	.LBB1_910
-.LBB1_564:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_917
-# %bb.565:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_566:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_566
-	jmp	.LBB1_918
-.LBB1_567:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_925
-# %bb.568:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_569:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_569
-	jmp	.LBB1_926
-.LBB1_570:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_933
-# %bb.571:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_572:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_572
-	jmp	.LBB1_934
-.LBB1_573:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_941
-# %bb.574:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_575:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_575
-	jmp	.LBB1_942
-.LBB1_576:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_949
-# %bb.577:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_578:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_578
-	jmp	.LBB1_950
-.LBB1_579:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_957
-# %bb.580:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_581
-	jmp	.LBB1_958
-.LBB1_582:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_965
-# %bb.583:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_584:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_584
-	jmp	.LBB1_966
-.LBB1_585:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_973
-# %bb.586:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_587:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_587
-	jmp	.LBB1_974
-.LBB1_588:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_981
-# %bb.589:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_590:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_590
-	jmp	.LBB1_982
-.LBB1_591:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_989
-# %bb.592:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_593
-	jmp	.LBB1_990
-.LBB1_594:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_997
-# %bb.595:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_596:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_596
-	jmp	.LBB1_998
-.LBB1_597:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1005
-# %bb.598:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_599
-	jmp	.LBB1_1006
-.LBB1_600:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1013
-# %bb.601:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_602
-	jmp	.LBB1_1014
-.LBB1_603:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1021
-# %bb.604:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_605:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_605
-	jmp	.LBB1_1022
-.LBB1_606:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1029
-# %bb.607:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_608:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_608
-	jmp	.LBB1_1030
-.LBB1_609:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1037
-# %bb.610:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_611:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_611
-	jmp	.LBB1_1038
-.LBB1_612:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1045
-# %bb.613:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_614:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_614
-	jmp	.LBB1_1046
-.LBB1_615:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1053
-# %bb.616:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_617
-	jmp	.LBB1_1054
-.LBB1_618:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1061
-# %bb.619:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_620
-	jmp	.LBB1_1062
-.LBB1_621:
-	xor	edi, edi
-.LBB1_622:
-	test	r9b, 1
-	je	.LBB1_624
-# %bb.623:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_624:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_625
-.LBB1_629:
-	xor	edi, edi
-.LBB1_630:
-	test	r9b, 1
-	je	.LBB1_632
-# %bb.631:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_632:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_633
-.LBB1_637:
-	xor	edi, edi
-.LBB1_638:
-	test	r9b, 1
-	je	.LBB1_640
-# %bb.639:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_640:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_641
-.LBB1_645:
-	xor	edi, edi
-.LBB1_646:
-	test	r9b, 1
-	je	.LBB1_648
-# %bb.647:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_648:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_649
-.LBB1_653:
-	xor	edi, edi
-.LBB1_654:
-	test	r9b, 1
-	je	.LBB1_656
-# %bb.655:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_656:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_657
-.LBB1_661:
-	xor	edi, edi
-.LBB1_662:
-	test	r9b, 1
-	je	.LBB1_664
-# %bb.663:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_664:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_665
-.LBB1_669:
-	xor	edi, edi
-.LBB1_670:
-	test	r9b, 1
-	je	.LBB1_672
-# %bb.671:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_672:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_673
-.LBB1_677:
-	xor	edi, edi
-.LBB1_678:
-	test	r9b, 1
-	je	.LBB1_680
-# %bb.679:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_680:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_681
-.LBB1_685:
-	xor	edi, edi
-.LBB1_686:
-	test	r9b, 1
-	je	.LBB1_688
-# %bb.687:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_688:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_689
-.LBB1_693:
-	xor	edi, edi
-.LBB1_694:
-	test	r9b, 1
-	je	.LBB1_696
-# %bb.695:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_696:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_697
-.LBB1_701:
-	xor	edi, edi
-.LBB1_702:
-	test	r9b, 1
-	je	.LBB1_704
-# %bb.703:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_704:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_705
-.LBB1_709:
-	xor	edi, edi
-.LBB1_710:
-	test	r9b, 1
-	je	.LBB1_712
-# %bb.711:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_712:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_713
-.LBB1_717:
-	xor	eax, eax
-.LBB1_718:
-	test	r9b, 1
-	je	.LBB1_720
-# %bb.719:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_720:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_721
-.LBB1_725:
-	xor	eax, eax
-.LBB1_726:
-	test	r9b, 1
-	je	.LBB1_728
-# %bb.727:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_728:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_729
-.LBB1_733:
-	xor	edi, edi
-.LBB1_734:
-	test	r9b, 1
-	je	.LBB1_736
-# %bb.735:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_736:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_737
-.LBB1_741:
-	xor	edi, edi
-.LBB1_742:
-	test	r9b, 1
-	je	.LBB1_744
-# %bb.743:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_744:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_745
-.LBB1_749:
-	xor	edi, edi
-.LBB1_750:
-	test	r9b, 1
-	je	.LBB1_752
-# %bb.751:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_752:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_753
-.LBB1_757:
-	xor	edi, edi
-.LBB1_758:
-	test	r9b, 1
-	je	.LBB1_760
-# %bb.759:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_760:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_761
-.LBB1_765:
-	xor	edi, edi
-.LBB1_766:
-	test	r9b, 1
-	je	.LBB1_768
-# %bb.767:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_768:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_769
-.LBB1_773:
-	xor	edi, edi
-.LBB1_774:
-	test	r9b, 1
-	je	.LBB1_776
-# %bb.775:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_776:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_777
-.LBB1_781:
-	xor	edi, edi
-.LBB1_782:
-	test	r9b, 1
-	je	.LBB1_784
-# %bb.783:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_784:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_785
-.LBB1_789:
-	xor	edi, edi
-.LBB1_790:
-	test	r9b, 1
-	je	.LBB1_792
-# %bb.791:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_792:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_793
-.LBB1_797:
-	xor	edi, edi
-.LBB1_798:
-	test	r9b, 1
-	je	.LBB1_800
-# %bb.799:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_800:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_801
-.LBB1_805:
-	xor	edi, edi
-.LBB1_806:
-	test	r9b, 1
-	je	.LBB1_808
-# %bb.807:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_808:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_809
-.LBB1_813:
-	xor	edi, edi
-.LBB1_814:
-	test	r9b, 1
-	je	.LBB1_816
-# %bb.815:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_816:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_817
-.LBB1_821:
-	xor	edi, edi
-.LBB1_822:
-	test	r9b, 1
-	je	.LBB1_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_824:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_825
-.LBB1_829:
-	xor	edi, edi
-.LBB1_830:
-	test	r9b, 1
-	je	.LBB1_832
-# %bb.831:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_832:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_833
-.LBB1_837:
-	xor	edi, edi
-.LBB1_838:
-	test	r9b, 1
-	je	.LBB1_840
-# %bb.839:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_840:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_841
-.LBB1_845:
-	xor	edi, edi
-.LBB1_846:
-	test	r9b, 1
-	je	.LBB1_848
-# %bb.847:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_848:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_849
-.LBB1_853:
-	xor	edi, edi
-.LBB1_854:
-	test	r9b, 1
-	je	.LBB1_856
-# %bb.855:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_856:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_857
-.LBB1_861:
-	xor	edi, edi
-.LBB1_862:
-	test	r9b, 1
-	je	.LBB1_864
-# %bb.863:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_864:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_865
-.LBB1_869:
-	xor	edi, edi
-.LBB1_870:
-	test	r9b, 1
-	je	.LBB1_872
-# %bb.871:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_872:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_873
-.LBB1_877:
-	xor	edi, edi
-.LBB1_878:
-	test	r9b, 1
-	je	.LBB1_880
-# %bb.879:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_880:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_881
-.LBB1_885:
-	xor	edi, edi
-.LBB1_886:
-	test	r9b, 1
-	je	.LBB1_888
-# %bb.887:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_888:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_889
-.LBB1_893:
-	xor	edi, edi
-.LBB1_894:
-	test	r9b, 1
-	je	.LBB1_896
-# %bb.895:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_896:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_897
-.LBB1_901:
-	xor	edi, edi
-.LBB1_902:
-	test	r9b, 1
-	je	.LBB1_904
-# %bb.903:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_904:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_905
-.LBB1_909:
-	xor	edi, edi
-.LBB1_910:
-	test	r9b, 1
-	je	.LBB1_912
-# %bb.911:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_912:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_913
-.LBB1_917:
-	xor	edi, edi
-.LBB1_918:
-	test	r9b, 1
-	je	.LBB1_920
-# %bb.919:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_920:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_921
-.LBB1_925:
-	xor	edi, edi
-.LBB1_926:
-	test	r9b, 1
-	je	.LBB1_928
-# %bb.927:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_928:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_929
-.LBB1_933:
-	xor	edi, edi
-.LBB1_934:
-	test	r9b, 1
-	je	.LBB1_936
-# %bb.935:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_936:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_937
-.LBB1_941:
-	xor	edi, edi
-.LBB1_942:
-	test	r9b, 1
-	je	.LBB1_944
-# %bb.943:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_944:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_945
-.LBB1_949:
-	xor	edi, edi
-.LBB1_950:
-	test	r9b, 1
-	je	.LBB1_952
-# %bb.951:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_952:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_953
-.LBB1_957:
-	xor	edi, edi
-.LBB1_958:
-	test	r9b, 1
-	je	.LBB1_960
-# %bb.959:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_960:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_961
-.LBB1_965:
-	xor	edi, edi
-.LBB1_966:
-	test	r9b, 1
-	je	.LBB1_968
-# %bb.967:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_968:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_969
-.LBB1_973:
-	xor	eax, eax
-.LBB1_974:
-	test	r9b, 1
-	je	.LBB1_976
-# %bb.975:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_976:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_977
-.LBB1_981:
-	xor	eax, eax
-.LBB1_982:
-	test	r9b, 1
-	je	.LBB1_984
-# %bb.983:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_984:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_985
-.LBB1_989:
-	xor	edi, edi
-.LBB1_990:
-	test	r9b, 1
-	je	.LBB1_992
-# %bb.991:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_992:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_993
-.LBB1_997:
-	xor	edi, edi
-.LBB1_998:
-	test	r9b, 1
-	je	.LBB1_1000
-# %bb.999:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1000:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1001
-.LBB1_1005:
-	xor	edi, edi
-.LBB1_1006:
-	test	r9b, 1
-	je	.LBB1_1008
-# %bb.1007:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1008:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1009
-.LBB1_1013:
-	xor	edi, edi
-.LBB1_1014:
-	test	r9b, 1
-	je	.LBB1_1016
-# %bb.1015:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1016:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1017
-.LBB1_1021:
-	xor	edi, edi
-.LBB1_1022:
-	test	r9b, 1
-	je	.LBB1_1024
-# %bb.1023:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1024:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1025
-.LBB1_1029:
-	xor	edi, edi
-.LBB1_1030:
-	test	r9b, 1
-	je	.LBB1_1032
-# %bb.1031:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1032:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1033
-.LBB1_1037:
-	xor	edi, edi
-.LBB1_1038:
-	test	r9b, 1
-	je	.LBB1_1040
-# %bb.1039:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1040:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1041
-.LBB1_1045:
-	xor	edi, edi
-.LBB1_1046:
-	test	r9b, 1
-	je	.LBB1_1048
-# %bb.1047:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1048:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1049
-.LBB1_1053:
-	xor	edi, edi
-.LBB1_1054:
-	test	r9b, 1
-	je	.LBB1_1056
-# %bb.1055:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1056:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1057
-.LBB1_1061:
-	xor	edi, edi
-.LBB1_1062:
-	test	r9b, 1
-	je	.LBB1_1064
-# %bb.1063:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1064:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1065
-.Lfunc_end1:
-	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_scalar_arr_sse4
-.LCPI2_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_scalar_arr_sse4,@function
-arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB2_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB2_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB2_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB2_1069
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB2_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB2_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB2_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB2_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.10:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_11
-# %bb.265:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_453
-# %bb.266:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_453
-.LBB2_11:
-	xor	esi, esi
-.LBB2_625:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_627
-.LBB2_626:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_626
-.LBB2_627:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_628:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_628
-	jmp	.LBB2_1069
-.LBB2_12:
-	cmp	sil, 21
-	je	.LBB2_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB2_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB2_1069
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB2_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB2_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB2_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB2_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.21:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_22
-# %bb.268:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_456
-# %bb.269:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_456
-.LBB2_22:
-	xor	esi, esi
-.LBB2_633:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_635
-.LBB2_634:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_634
-.LBB2_635:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_636:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_636
-	jmp	.LBB2_1069
-.LBB2_23:
-	cmp	edi, 6
-	jg	.LBB2_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB2_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB2_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB2_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.29:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_30
-# %bb.271:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_459
-# %bb.272:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_459
-.LBB2_30:
-	xor	esi, esi
-.LBB2_641:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_643
-.LBB2_642:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_642
-.LBB2_643:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_644:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_644
-	jmp	.LBB2_1069
-.LBB2_31:
-	cmp	edi, 6
-	jg	.LBB2_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB2_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB2_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB2_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.37:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_38
-# %bb.274:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_462
-# %bb.275:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_462
-.LBB2_38:
-	xor	esi, esi
-.LBB2_649:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_651
-.LBB2_650:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_650
-.LBB2_651:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_652:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_652
-	jmp	.LBB2_1069
-.LBB2_39:
-	cmp	edi, 6
-	jg	.LBB2_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB2_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB2_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB2_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.45:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_46
-# %bb.277:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_465
-# %bb.278:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_465
-.LBB2_46:
-	xor	esi, esi
-.LBB2_657:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_659
-.LBB2_658:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_658
-.LBB2_659:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_660:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_660
-	jmp	.LBB2_1069
-.LBB2_47:
-	cmp	edi, 6
-	jg	.LBB2_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB2_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB2_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB2_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.53:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_54
-# %bb.280:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_468
-# %bb.281:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_468
-.LBB2_54:
-	xor	esi, esi
-.LBB2_665:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_667
-.LBB2_666:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_666
-.LBB2_667:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_668:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_668
-	jmp	.LBB2_1069
-.LBB2_55:
-	cmp	edi, 8
-	jle	.LBB2_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB2_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB2_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.60:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_61
-# %bb.283:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_471
-# %bb.284:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_471
-.LBB2_61:
-	xor	edx, edx
-.LBB2_673:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_675
-.LBB2_674:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_674
-.LBB2_675:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_676:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_676
-	jmp	.LBB2_1069
-.LBB2_62:
-	cmp	edi, 8
-	jle	.LBB2_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB2_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB2_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.67:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_68
-# %bb.286:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_474
-# %bb.287:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_474
-.LBB2_68:
-	xor	edx, edx
-.LBB2_681:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_683
-.LBB2_682:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_682
-.LBB2_683:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_684:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_684
-	jmp	.LBB2_1069
-.LBB2_69:
-	cmp	edi, 8
-	jle	.LBB2_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB2_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB2_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.74:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_75
-# %bb.289:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_477
-# %bb.290:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_477
-.LBB2_75:
-	xor	edx, edx
-.LBB2_689:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_691
-.LBB2_690:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_690
-.LBB2_691:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_692:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_692
-	jmp	.LBB2_1069
-.LBB2_76:
-	cmp	edi, 8
-	jle	.LBB2_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB2_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB2_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.81:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_82
-# %bb.292:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_480
-# %bb.293:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_480
-.LBB2_82:
-	xor	edx, edx
-.LBB2_697:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_699
-.LBB2_698:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_698
-.LBB2_699:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_700:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_700
-	jmp	.LBB2_1069
-.LBB2_83:
-	cmp	edi, 8
-	jle	.LBB2_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB2_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB2_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.88:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_89
-# %bb.295:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_483
-# %bb.296:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_483
-.LBB2_89:
-	xor	edx, edx
-.LBB2_705:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_707
-.LBB2_706:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_706
-.LBB2_707:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_708:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_708
-	jmp	.LBB2_1069
-.LBB2_90:
-	cmp	edi, 8
-	jle	.LBB2_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB2_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB2_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.95:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_96
-# %bb.298:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_486
-# %bb.299:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_486
-.LBB2_96:
-	xor	edx, edx
-.LBB2_713:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_715
-.LBB2_714:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_714
-.LBB2_715:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_716:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_716
-	jmp	.LBB2_1069
-.LBB2_97:
-	cmp	edi, 2
-	je	.LBB2_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.100:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_101
-# %bb.301:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_489
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_489
-.LBB2_101:
-	xor	edi, edi
-.LBB2_721:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_723
-.LBB2_722:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_722
-.LBB2_723:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_724:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_724
-	jmp	.LBB2_1069
-.LBB2_102:
-	cmp	edi, 2
-	je	.LBB2_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.105:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_106
-# %bb.304:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_492
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_492
-.LBB2_106:
-	xor	edi, edi
-.LBB2_729:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_731
-.LBB2_730:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_730
-.LBB2_731:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_732:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_732
-	jmp	.LBB2_1069
-.LBB2_107:
-	cmp	edi, 2
-	je	.LBB2_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.110:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_111
-# %bb.307:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_495
-# %bb.308:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_495
-.LBB2_111:
-	xor	esi, esi
-.LBB2_737:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_739
-.LBB2_738:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_738
-.LBB2_739:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_740:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_740
-	jmp	.LBB2_1069
-.LBB2_112:
-	cmp	edi, 2
-	je	.LBB2_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.115:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_116
-# %bb.310:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_498
-# %bb.311:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_498
-.LBB2_116:
-	xor	esi, esi
-.LBB2_745:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_747
-.LBB2_746:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_746
-.LBB2_747:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_748:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_748
-	jmp	.LBB2_1069
-.LBB2_117:
-	cmp	edi, 2
-	je	.LBB2_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.120:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_121
-# %bb.313:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_501
-# %bb.314:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_501
-.LBB2_121:
-	xor	esi, esi
-.LBB2_753:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_755
-.LBB2_754:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_754
-.LBB2_755:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_756:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_756
-	jmp	.LBB2_1069
-.LBB2_122:
-	cmp	edi, 2
-	je	.LBB2_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.125:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_126
-# %bb.316:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_504
-# %bb.317:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_504
-.LBB2_126:
-	xor	esi, esi
-.LBB2_761:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_763
-.LBB2_762:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_762
-.LBB2_763:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_764:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_764
-	jmp	.LBB2_1069
-.LBB2_127:
-	cmp	edi, 7
-	je	.LBB2_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.130:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_319
-# %bb.131:
-	xor	edi, edi
-	jmp	.LBB2_321
-.LBB2_132:
-	cmp	edi, 7
-	je	.LBB2_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.135:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_324
-# %bb.136:
-	xor	edi, edi
-	jmp	.LBB2_326
-.LBB2_137:
-	cmp	edi, 7
-	je	.LBB2_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.140:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_141
-# %bb.329:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_507
-# %bb.330:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_507
-.LBB2_141:
-	xor	esi, esi
-.LBB2_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_771
-.LBB2_770:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_770
-.LBB2_771:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_772:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_772
-	jmp	.LBB2_1069
-.LBB2_142:
-	cmp	edi, 7
-	je	.LBB2_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.145:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_146
-# %bb.332:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_510
-# %bb.333:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_510
-.LBB2_146:
-	xor	esi, esi
-.LBB2_777:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_779
-.LBB2_778:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_778
-.LBB2_779:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_780:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_780
-	jmp	.LBB2_1069
-.LBB2_147:
-	cmp	edi, 7
-	je	.LBB2_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.150:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_151
-# %bb.335:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_513
-# %bb.336:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_513
-.LBB2_151:
-	xor	esi, esi
-.LBB2_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_787
-.LBB2_786:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_786
-.LBB2_787:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_788:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_788
-	jmp	.LBB2_1069
-.LBB2_152:
-	cmp	edi, 7
-	je	.LBB2_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.155:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_156
-# %bb.338:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_516
-# %bb.339:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_516
-.LBB2_156:
-	xor	esi, esi
-.LBB2_793:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_795
-.LBB2_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_794
-.LBB2_795:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_796
-	jmp	.LBB2_1069
-.LBB2_157:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.158:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_159
-# %bb.341:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_519
-# %bb.342:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_519
-.LBB2_159:
-	xor	esi, esi
-.LBB2_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_803
-.LBB2_802:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_802
-.LBB2_803:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_804:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_804
-	jmp	.LBB2_1069
-.LBB2_160:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.161:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_162
-# %bb.344:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_522
-# %bb.345:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_522
-.LBB2_162:
-	xor	esi, esi
-.LBB2_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_811
-.LBB2_810:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_810
-.LBB2_811:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_812:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_812
-	jmp	.LBB2_1069
-.LBB2_163:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.164:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_165
-# %bb.347:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_525
-# %bb.348:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_525
-.LBB2_165:
-	xor	esi, esi
-.LBB2_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_819
-.LBB2_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_818
-.LBB2_819:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_820:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_820
-	jmp	.LBB2_1069
-.LBB2_166:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.167:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_168
-# %bb.350:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_528
-# %bb.351:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_528
-.LBB2_168:
-	xor	esi, esi
-.LBB2_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_827
-.LBB2_826:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_826
-.LBB2_827:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_828:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_828
-	jmp	.LBB2_1069
-.LBB2_169:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.170:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_171
-# %bb.353:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_531
-# %bb.354:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_531
-.LBB2_171:
-	xor	esi, esi
-.LBB2_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_835
-.LBB2_834:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_834
-.LBB2_835:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_836:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_836
-	jmp	.LBB2_1069
-.LBB2_172:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.173:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_174
-# %bb.356:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_534
-# %bb.357:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_534
-.LBB2_174:
-	xor	esi, esi
-.LBB2_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_843
-.LBB2_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_842
-.LBB2_843:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_844
-	jmp	.LBB2_1069
-.LBB2_175:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.176:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_177
-# %bb.359:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_537
-# %bb.360:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_537
-.LBB2_177:
-	xor	esi, esi
-.LBB2_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_851
-.LBB2_850:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_850
-.LBB2_851:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_852:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_852
-	jmp	.LBB2_1069
-.LBB2_178:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.179:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_180
-# %bb.362:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_540
-# %bb.363:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_540
-.LBB2_180:
-	xor	esi, esi
-.LBB2_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_859
-.LBB2_858:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_858
-.LBB2_859:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_860:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_860
-	jmp	.LBB2_1069
-.LBB2_181:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.182:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_183
-# %bb.365:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_543
-# %bb.366:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_543
-.LBB2_183:
-	xor	esi, esi
-.LBB2_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_867
-.LBB2_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_866
-.LBB2_867:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_868
-	jmp	.LBB2_1069
-.LBB2_184:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.185:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_186
-# %bb.368:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_546
-# %bb.369:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_546
-.LBB2_186:
-	xor	esi, esi
-.LBB2_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_875
-.LBB2_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_874
-.LBB2_875:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_876
-	jmp	.LBB2_1069
-.LBB2_187:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.188:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_189
-# %bb.371:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_549
-# %bb.372:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_549
-.LBB2_189:
-	xor	esi, esi
-.LBB2_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_883
-.LBB2_882:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_882
-.LBB2_883:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_884:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_884
-	jmp	.LBB2_1069
-.LBB2_190:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.191:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_192
-# %bb.374:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_552
-# %bb.375:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_552
-.LBB2_192:
-	xor	esi, esi
-.LBB2_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_891
-.LBB2_890:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_890
-.LBB2_891:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_892:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_892
-	jmp	.LBB2_1069
-.LBB2_193:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.194:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_377
-# %bb.195:
-	xor	edi, edi
-	jmp	.LBB2_379
-.LBB2_196:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.197:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_198
-# %bb.382:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_555
-# %bb.383:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_555
-.LBB2_198:
-	xor	edx, edx
-.LBB2_897:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_899
-.LBB2_898:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_898
-.LBB2_899:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_900:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_900
-	jmp	.LBB2_1069
-.LBB2_199:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.200:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_385
-# %bb.201:
-	xor	edi, edi
-	jmp	.LBB2_387
-.LBB2_202:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.203:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_204
-# %bb.390:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_558
-# %bb.391:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_558
-.LBB2_204:
-	xor	edx, edx
-.LBB2_905:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_907
-.LBB2_906:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_906
-.LBB2_907:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_908:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_908
-	jmp	.LBB2_1069
-.LBB2_205:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.206:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_207
-# %bb.393:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_561
-# %bb.394:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_561
-.LBB2_207:
-	xor	esi, esi
-.LBB2_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_915
-.LBB2_914:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_914
-.LBB2_915:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_916:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_916
-	jmp	.LBB2_1069
-.LBB2_208:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.209:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_210
-# %bb.396:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_564
-# %bb.397:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_564
-.LBB2_210:
-	xor	edx, edx
-.LBB2_921:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_923
-.LBB2_922:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_922
-.LBB2_923:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_924:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_924
-	jmp	.LBB2_1069
-.LBB2_211:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.212:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_213
-# %bb.399:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_567
-# %bb.400:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_567
-.LBB2_213:
-	xor	esi, esi
-.LBB2_929:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_931
-.LBB2_930:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_930
-.LBB2_931:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_932:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_932
-	jmp	.LBB2_1069
-.LBB2_214:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.215:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_216
-# %bb.402:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_570
-# %bb.403:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_570
-.LBB2_216:
-	xor	edx, edx
-.LBB2_937:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_939
-.LBB2_938:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_938
-.LBB2_939:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_940:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_940
-	jmp	.LBB2_1069
-.LBB2_217:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.218:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_219
-# %bb.405:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_573
-# %bb.406:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_573
-.LBB2_219:
-	xor	esi, esi
-.LBB2_945:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_947
-.LBB2_946:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_946
-.LBB2_947:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_948:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_948
-	jmp	.LBB2_1069
-.LBB2_220:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.221:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_222
-# %bb.408:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_576
-# %bb.409:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_576
-.LBB2_222:
-	xor	edx, edx
-.LBB2_953:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_955
-.LBB2_954:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_954
-.LBB2_955:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_956:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_956
-	jmp	.LBB2_1069
-.LBB2_223:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.224:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_225
-# %bb.411:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_579
-# %bb.412:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_579
-.LBB2_225:
-	xor	esi, esi
-.LBB2_961:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_963
-.LBB2_962:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_962
-.LBB2_963:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_964:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_964
-	jmp	.LBB2_1069
-.LBB2_226:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.227:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_228
-# %bb.414:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_582
-# %bb.415:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_582
-.LBB2_228:
-	xor	edx, edx
-.LBB2_969:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_971
-.LBB2_970:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_970
-.LBB2_971:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_972:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_972
-	jmp	.LBB2_1069
-.LBB2_229:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.230:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_231
-# %bb.417:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_585
-# %bb.418:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_585
-.LBB2_231:
-	xor	edi, edi
-.LBB2_977:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_979
-.LBB2_978:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_978
-.LBB2_979:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_980:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_980
-	jmp	.LBB2_1069
-.LBB2_232:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.233:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_234
-# %bb.420:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_588
-# %bb.421:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_588
-.LBB2_234:
-	xor	edi, edi
-.LBB2_985:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_987
-.LBB2_986:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_986
-.LBB2_987:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_988:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_988
-	jmp	.LBB2_1069
-.LBB2_235:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.236:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_237
-# %bb.423:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_591
-# %bb.424:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_591
-.LBB2_237:
-	xor	esi, esi
-.LBB2_993:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_995
-.LBB2_994:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_994
-.LBB2_995:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_996:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_996
-	jmp	.LBB2_1069
-.LBB2_238:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.239:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_240
-# %bb.426:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_594
-# %bb.427:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_594
-.LBB2_240:
-	xor	esi, esi
-.LBB2_1001:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1003
-.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1002
-.LBB2_1003:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1004
-	jmp	.LBB2_1069
-.LBB2_241:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.242:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_243
-# %bb.429:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_597
-# %bb.430:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_597
-.LBB2_243:
-	xor	esi, esi
-.LBB2_1009:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1011
-.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1010
-.LBB2_1011:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1012
-	jmp	.LBB2_1069
-.LBB2_244:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.245:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_246
-# %bb.432:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_600
-# %bb.433:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_600
-.LBB2_246:
-	xor	esi, esi
-.LBB2_1017:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1019
-.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1018
-.LBB2_1019:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1020
-	jmp	.LBB2_1069
-.LBB2_247:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.248:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_249
-# %bb.435:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_603
-# %bb.436:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_603
-.LBB2_249:
-	xor	esi, esi
-.LBB2_1025:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1027
-.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1026
-.LBB2_1027:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1028
-	jmp	.LBB2_1069
-.LBB2_250:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.251:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_252
-# %bb.438:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_606
-# %bb.439:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_606
-.LBB2_252:
-	xor	esi, esi
-.LBB2_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1035
-.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1034
-.LBB2_1035:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1036
-	jmp	.LBB2_1069
-.LBB2_253:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.254:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_255
-# %bb.441:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_609
-# %bb.442:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_609
-.LBB2_255:
-	xor	esi, esi
-.LBB2_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1043
-.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1042
-.LBB2_1043:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1044
-	jmp	.LBB2_1069
-.LBB2_256:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.257:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_258
-# %bb.444:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_612
-# %bb.445:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_612
-.LBB2_258:
-	xor	esi, esi
-.LBB2_1049:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1051
-.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1050
-.LBB2_1051:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1052
-	jmp	.LBB2_1069
-.LBB2_259:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.260:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_261
-# %bb.447:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_615
-# %bb.448:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_615
-.LBB2_261:
-	xor	esi, esi
-.LBB2_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1059
-.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1058
-.LBB2_1059:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1060
-	jmp	.LBB2_1069
-.LBB2_262:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.263:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_264
-# %bb.450:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_618
-# %bb.451:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_618
-.LBB2_264:
-	xor	esi, esi
-.LBB2_1065:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1067
-.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1066
-.LBB2_1067:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1068
-	jmp	.LBB2_1069
-.LBB2_319:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_320:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_320
-.LBB2_321:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.322:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_323:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_323
-	jmp	.LBB2_1069
-.LBB2_324:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_325:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_325
-.LBB2_326:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.327:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_328:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_328
-	jmp	.LBB2_1069
-.LBB2_377:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_378:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_378
-.LBB2_379:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.380:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_381:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_381
-	jmp	.LBB2_1069
-.LBB2_385:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_386
-.LBB2_387:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.388:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_389:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_389
-.LBB2_1069:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB2_453:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_621
-# %bb.454:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_455:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_455
-	jmp	.LBB2_622
-.LBB2_456:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_629
-# %bb.457:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_458
-	jmp	.LBB2_630
-.LBB2_459:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_637
-# %bb.460:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_461:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_461
-	jmp	.LBB2_638
-.LBB2_462:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_645
-# %bb.463:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_464:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_464
-	jmp	.LBB2_646
-.LBB2_465:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_653
-# %bb.466:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_467:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_467
-	jmp	.LBB2_654
-.LBB2_468:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_661
-# %bb.469:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_470:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_470
-	jmp	.LBB2_662
-.LBB2_471:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_669
-# %bb.472:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_473:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_473
-	jmp	.LBB2_670
-.LBB2_474:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_677
-# %bb.475:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_476:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_476
-	jmp	.LBB2_678
-.LBB2_477:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_685
-# %bb.478:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_479:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_479
-	jmp	.LBB2_686
-.LBB2_480:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_693
-# %bb.481:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_482:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_482
-	jmp	.LBB2_694
-.LBB2_483:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_701
-# %bb.484:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_485:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_485
-	jmp	.LBB2_702
-.LBB2_486:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_709
-# %bb.487:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_488:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_488
-	jmp	.LBB2_710
-.LBB2_489:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_717
-# %bb.490:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_491:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_491
-	jmp	.LBB2_718
-.LBB2_492:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_725
-# %bb.493:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_494
-	jmp	.LBB2_726
-.LBB2_495:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_733
-# %bb.496:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_497:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_497
-	jmp	.LBB2_734
-.LBB2_498:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_741
-# %bb.499:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_500:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_500
-	jmp	.LBB2_742
-.LBB2_501:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_749
-# %bb.502:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_503
-	jmp	.LBB2_750
-.LBB2_504:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_757
-# %bb.505:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_506:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_506
-	jmp	.LBB2_758
-.LBB2_507:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_765
-# %bb.508:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_509
-	jmp	.LBB2_766
-.LBB2_510:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_773
-# %bb.511:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_512:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_512
-	jmp	.LBB2_774
-.LBB2_513:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_781
-# %bb.514:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_515:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_515
-	jmp	.LBB2_782
-.LBB2_516:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_789
-# %bb.517:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_518
-	jmp	.LBB2_790
-.LBB2_519:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_797
-# %bb.520:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_521
-	jmp	.LBB2_798
-.LBB2_522:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_805
-# %bb.523:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_524:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_524
-	jmp	.LBB2_806
-.LBB2_525:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_813
-# %bb.526:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_527:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_527
-	jmp	.LBB2_814
-.LBB2_528:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_821
-# %bb.529:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_530:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_530
-	jmp	.LBB2_822
-.LBB2_531:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_829
-# %bb.532:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_533:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_533
-	jmp	.LBB2_830
-.LBB2_534:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_837
-# %bb.535:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_536:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_536
-	jmp	.LBB2_838
-.LBB2_537:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_845
-# %bb.538:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_539:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_539
-	jmp	.LBB2_846
-.LBB2_540:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_853
-# %bb.541:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_542:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_542
-	jmp	.LBB2_854
-.LBB2_543:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_861
-# %bb.544:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_545:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_545
-	jmp	.LBB2_862
-.LBB2_546:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_869
-# %bb.547:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_548:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_548
-	jmp	.LBB2_870
-.LBB2_549:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_877
-# %bb.550:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_551:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_551
-	jmp	.LBB2_878
-.LBB2_552:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_885
-# %bb.553:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_554:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_554
-	jmp	.LBB2_886
-.LBB2_555:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_893
-# %bb.556:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_557:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_557
-	jmp	.LBB2_894
-.LBB2_558:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_901
-# %bb.559:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_560:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_560
-	jmp	.LBB2_902
-.LBB2_561:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_909
-# %bb.562:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_563:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_563
-	jmp	.LBB2_910
-.LBB2_564:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_917
-# %bb.565:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_566:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_566
-	jmp	.LBB2_918
-.LBB2_567:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_925
-# %bb.568:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_569:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_569
-	jmp	.LBB2_926
-.LBB2_570:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_933
-# %bb.571:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_572:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_572
-	jmp	.LBB2_934
-.LBB2_573:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_941
-# %bb.574:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_575:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_575
-	jmp	.LBB2_942
-.LBB2_576:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_949
-# %bb.577:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_578:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_578
-	jmp	.LBB2_950
-.LBB2_579:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_957
-# %bb.580:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_581
-	jmp	.LBB2_958
-.LBB2_582:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_965
-# %bb.583:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_584:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_584
-	jmp	.LBB2_966
-.LBB2_585:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_973
-# %bb.586:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_587:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_587
-	jmp	.LBB2_974
-.LBB2_588:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_981
-# %bb.589:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_590:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_590
-	jmp	.LBB2_982
-.LBB2_591:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_989
-# %bb.592:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_593
-	jmp	.LBB2_990
-.LBB2_594:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_997
-# %bb.595:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_596:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_596
-	jmp	.LBB2_998
-.LBB2_597:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1005
-# %bb.598:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_599
-	jmp	.LBB2_1006
-.LBB2_600:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1013
-# %bb.601:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_602
-	jmp	.LBB2_1014
-.LBB2_603:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1021
-# %bb.604:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_605:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_605
-	jmp	.LBB2_1022
-.LBB2_606:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1029
-# %bb.607:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_608
-	jmp	.LBB2_1030
-.LBB2_609:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1037
-# %bb.610:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_611:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_611
-	jmp	.LBB2_1038
-.LBB2_612:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1045
-# %bb.613:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_614
-	jmp	.LBB2_1046
-.LBB2_615:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1053
-# %bb.616:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_617
-	jmp	.LBB2_1054
-.LBB2_618:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1061
-# %bb.619:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_620
-	jmp	.LBB2_1062
-.LBB2_621:
-	xor	edi, edi
-.LBB2_622:
-	test	r9b, 1
-	je	.LBB2_624
-# %bb.623:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_624:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_625
-.LBB2_629:
-	xor	edi, edi
-.LBB2_630:
-	test	r9b, 1
-	je	.LBB2_632
-# %bb.631:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_632:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_633
-.LBB2_637:
-	xor	edi, edi
-.LBB2_638:
-	test	r9b, 1
-	je	.LBB2_640
-# %bb.639:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_640:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_641
-.LBB2_645:
-	xor	edi, edi
-.LBB2_646:
-	test	r9b, 1
-	je	.LBB2_648
-# %bb.647:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_648:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_649
-.LBB2_653:
-	xor	edi, edi
-.LBB2_654:
-	test	r9b, 1
-	je	.LBB2_656
-# %bb.655:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_656:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_657
-.LBB2_661:
-	xor	edi, edi
-.LBB2_662:
-	test	r9b, 1
-	je	.LBB2_664
-# %bb.663:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_664:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_665
-.LBB2_669:
-	xor	edi, edi
-.LBB2_670:
-	test	r9b, 1
-	je	.LBB2_672
-# %bb.671:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_672:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_673
-.LBB2_677:
-	xor	edi, edi
-.LBB2_678:
-	test	r9b, 1
-	je	.LBB2_680
-# %bb.679:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_680:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_681
-.LBB2_685:
-	xor	edi, edi
-.LBB2_686:
-	test	r9b, 1
-	je	.LBB2_688
-# %bb.687:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_688:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_689
-.LBB2_693:
-	xor	edi, edi
-.LBB2_694:
-	test	r9b, 1
-	je	.LBB2_696
-# %bb.695:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB2_696:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_697
-.LBB2_701:
-	xor	edi, edi
-.LBB2_702:
-	test	r9b, 1
-	je	.LBB2_704
-# %bb.703:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_704:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_705
-.LBB2_709:
-	xor	edi, edi
-.LBB2_710:
-	test	r9b, 1
-	je	.LBB2_712
-# %bb.711:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB2_712:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_713
-.LBB2_717:
-	xor	eax, eax
-.LBB2_718:
-	test	r9b, 1
-	je	.LBB2_720
-# %bb.719:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_720:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_721
-.LBB2_725:
-	xor	eax, eax
-.LBB2_726:
-	test	r9b, 1
-	je	.LBB2_728
-# %bb.727:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_728:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_729
-.LBB2_733:
-	xor	edi, edi
-.LBB2_734:
-	test	r9b, 1
-	je	.LBB2_736
-# %bb.735:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_736:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_737
-.LBB2_741:
-	xor	edi, edi
-.LBB2_742:
-	test	r9b, 1
-	je	.LBB2_744
-# %bb.743:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_744:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_745
-.LBB2_749:
-	xor	edi, edi
-.LBB2_750:
-	test	r9b, 1
-	je	.LBB2_752
-# %bb.751:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_752:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_753
-.LBB2_757:
-	xor	edi, edi
-.LBB2_758:
-	test	r9b, 1
-	je	.LBB2_760
-# %bb.759:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_760:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_761
-.LBB2_765:
-	xor	edi, edi
-.LBB2_766:
-	test	r9b, 1
-	je	.LBB2_768
-# %bb.767:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_768:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_769
-.LBB2_773:
-	xor	edi, edi
-.LBB2_774:
-	test	r9b, 1
-	je	.LBB2_776
-# %bb.775:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_776:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_777
-.LBB2_781:
-	xor	edi, edi
-.LBB2_782:
-	test	r9b, 1
-	je	.LBB2_784
-# %bb.783:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_784:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_785
-.LBB2_789:
-	xor	edi, edi
-.LBB2_790:
-	test	r9b, 1
-	je	.LBB2_792
-# %bb.791:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_792:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_793
-.LBB2_797:
-	xor	edi, edi
-.LBB2_798:
-	test	r9b, 1
-	je	.LBB2_800
-# %bb.799:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_800:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_801
-.LBB2_805:
-	xor	edi, edi
-.LBB2_806:
-	test	r9b, 1
-	je	.LBB2_808
-# %bb.807:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_808:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_809
-.LBB2_813:
-	xor	edi, edi
-.LBB2_814:
-	test	r9b, 1
-	je	.LBB2_816
-# %bb.815:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_816:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_817
-.LBB2_821:
-	xor	edi, edi
-.LBB2_822:
-	test	r9b, 1
-	je	.LBB2_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_824:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_825
-.LBB2_829:
-	xor	edi, edi
-.LBB2_830:
-	test	r9b, 1
-	je	.LBB2_832
-# %bb.831:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_832:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_833
-.LBB2_837:
-	xor	edi, edi
-.LBB2_838:
-	test	r9b, 1
-	je	.LBB2_840
-# %bb.839:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_840:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_841
-.LBB2_845:
-	xor	edi, edi
-.LBB2_846:
-	test	r9b, 1
-	je	.LBB2_848
-# %bb.847:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_848:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_849
-.LBB2_853:
-	xor	edi, edi
-.LBB2_854:
-	test	r9b, 1
-	je	.LBB2_856
-# %bb.855:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_856:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_857
-.LBB2_861:
-	xor	edi, edi
-.LBB2_862:
-	test	r9b, 1
-	je	.LBB2_864
-# %bb.863:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_864:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_865
-.LBB2_869:
-	xor	edi, edi
-.LBB2_870:
-	test	r9b, 1
-	je	.LBB2_872
-# %bb.871:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_872:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_873
-.LBB2_877:
-	xor	edi, edi
-.LBB2_878:
-	test	r9b, 1
-	je	.LBB2_880
-# %bb.879:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_880:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_881
-.LBB2_885:
-	xor	edi, edi
-.LBB2_886:
-	test	r9b, 1
-	je	.LBB2_888
-# %bb.887:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_888:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_889
-.LBB2_893:
-	xor	edi, edi
-.LBB2_894:
-	test	r9b, 1
-	je	.LBB2_896
-# %bb.895:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_896:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_897
-.LBB2_901:
-	xor	edi, edi
-.LBB2_902:
-	test	r9b, 1
-	je	.LBB2_904
-# %bb.903:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_904:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_905
-.LBB2_909:
-	xor	edi, edi
-.LBB2_910:
-	test	r9b, 1
-	je	.LBB2_912
-# %bb.911:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_912:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_913
-.LBB2_917:
-	xor	edi, edi
-.LBB2_918:
-	test	r9b, 1
-	je	.LBB2_920
-# %bb.919:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_920:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_921
-.LBB2_925:
-	xor	edi, edi
-.LBB2_926:
-	test	r9b, 1
-	je	.LBB2_928
-# %bb.927:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_928:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_929
-.LBB2_933:
-	xor	edi, edi
-.LBB2_934:
-	test	r9b, 1
-	je	.LBB2_936
-# %bb.935:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB2_936:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_937
-.LBB2_941:
-	xor	edi, edi
-.LBB2_942:
-	test	r9b, 1
-	je	.LBB2_944
-# %bb.943:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_944:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_945
-.LBB2_949:
-	xor	edi, edi
-.LBB2_950:
-	test	r9b, 1
-	je	.LBB2_952
-# %bb.951:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_952:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_953
-.LBB2_957:
-	xor	edi, edi
-.LBB2_958:
-	test	r9b, 1
-	je	.LBB2_960
-# %bb.959:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_960:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_961
-.LBB2_965:
-	xor	edi, edi
-.LBB2_966:
-	test	r9b, 1
-	je	.LBB2_968
-# %bb.967:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB2_968:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_969
-.LBB2_973:
-	xor	eax, eax
-.LBB2_974:
-	test	r9b, 1
-	je	.LBB2_976
-# %bb.975:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_976:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_977
-.LBB2_981:
-	xor	eax, eax
-.LBB2_982:
-	test	r9b, 1
-	je	.LBB2_984
-# %bb.983:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_984:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_985
-.LBB2_989:
-	xor	edi, edi
-.LBB2_990:
-	test	r9b, 1
-	je	.LBB2_992
-# %bb.991:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_992:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_993
-.LBB2_997:
-	xor	edi, edi
-.LBB2_998:
-	test	r9b, 1
-	je	.LBB2_1000
-# %bb.999:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_1000:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1001
-.LBB2_1005:
-	xor	edi, edi
-.LBB2_1006:
-	test	r9b, 1
-	je	.LBB2_1008
-# %bb.1007:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_1008:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1009
-.LBB2_1013:
-	xor	edi, edi
-.LBB2_1014:
-	test	r9b, 1
-	je	.LBB2_1016
-# %bb.1015:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_1016:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1017
-.LBB2_1021:
-	xor	edi, edi
-.LBB2_1022:
-	test	r9b, 1
-	je	.LBB2_1024
-# %bb.1023:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1024:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1025
-.LBB2_1029:
-	xor	edi, edi
-.LBB2_1030:
-	test	r9b, 1
-	je	.LBB2_1032
-# %bb.1031:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1032:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1033
-.LBB2_1037:
-	xor	edi, edi
-.LBB2_1038:
-	test	r9b, 1
-	je	.LBB2_1040
-# %bb.1039:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1040:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1041
-.LBB2_1045:
-	xor	edi, edi
-.LBB2_1046:
-	test	r9b, 1
-	je	.LBB2_1048
-# %bb.1047:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_1048:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1049
-.LBB2_1053:
-	xor	edi, edi
-.LBB2_1054:
-	test	r9b, 1
-	je	.LBB2_1056
-# %bb.1055:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1056:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1057
-.LBB2_1061:
-	xor	edi, edi
-.LBB2_1062:
-	test	r9b, 1
-	je	.LBB2_1064
-# %bb.1063:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_1064:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1065
-.Lfunc_end2:
-	.size	arithmetic_scalar_arr_sse4, .Lfunc_end2-arithmetic_scalar_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_unary_same_types_sse4
-.LCPI3_0:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI3_1:
-	.quad	0x3ff0000000000000              # double 1
-	.quad	0x3ff0000000000000              # double 1
-.LCPI3_3:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-.LCPI3_4:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI3_5:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI3_6:
-	.zero	16,1
-.LCPI3_7:
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-.LCPI3_8:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-.LCPI3_9:
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-.LCPI3_10:
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI3_2:
-	.quad	0x3ff0000000000000              # double 1
-	.text
-	.globl	arithmetic_unary_same_types_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_unary_same_types_sse4,@function
-arithmetic_unary_same_types_sse4:       # @arithmetic_unary_same_types_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 19
-	jle	.LBB3_12
-# %bb.1:
-	cmp	sil, 20
-	je	.LBB3_22
-# %bb.2:
-	cmp	sil, 25
-	je	.LBB3_30
-# %bb.3:
-	cmp	sil, 26
-	jne	.LBB3_923
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB3_46
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB3_81
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB3_131
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB3_134
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.9:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.10:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB3_221
-# %bb.11:
-	xor	edx, edx
-	jmp	.LBB3_373
-.LBB3_12:
-	cmp	sil, 4
-	je	.LBB3_38
-# %bb.13:
-	cmp	sil, 5
-	jne	.LBB3_923
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB3_53
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB3_86
-# %bb.16:
-	cmp	edi, 4
-	je	.LBB3_137
-# %bb.17:
-	cmp	edi, 5
-	je	.LBB3_140
-# %bb.18:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.19:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.20:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_21
-# %bb.223:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_374
-# %bb.224:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_374
-.LBB3_21:
-	xor	esi, esi
-.LBB3_614:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_616
-.LBB3_615:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_615
-.LBB3_616:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_617:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_617
-	jmp	.LBB3_923
-.LBB3_22:
-	cmp	edi, 6
-	jg	.LBB3_60
-# %bb.23:
-	cmp	edi, 3
-	jle	.LBB3_91
-# %bb.24:
-	cmp	edi, 4
-	je	.LBB3_143
-# %bb.25:
-	cmp	edi, 5
-	je	.LBB3_146
-# %bb.26:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.27:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.28:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_29
-# %bb.226:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_377
-# %bb.227:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_377
-.LBB3_29:
-	xor	esi, esi
-.LBB3_622:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_624
-.LBB3_623:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_623
-.LBB3_624:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_625:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 4], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 8], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 12], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_625
-	jmp	.LBB3_923
-.LBB3_30:
-	cmp	edi, 6
-	jg	.LBB3_67
-# %bb.31:
-	cmp	edi, 3
-	jle	.LBB3_96
-# %bb.32:
-	cmp	edi, 4
-	je	.LBB3_149
-# %bb.33:
-	cmp	edi, 5
-	je	.LBB3_152
-# %bb.34:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.35:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.36:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_37
-# %bb.229:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_380
-# %bb.230:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_380
-.LBB3_37:
-	xor	esi, esi
-.LBB3_536:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_538
-.LBB3_537:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_537
-.LBB3_538:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_539:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_539
-	jmp	.LBB3_923
-.LBB3_38:
-	cmp	edi, 6
-	jg	.LBB3_74
-# %bb.39:
-	cmp	edi, 3
-	jle	.LBB3_101
-# %bb.40:
-	cmp	edi, 4
-	je	.LBB3_155
-# %bb.41:
-	cmp	edi, 5
-	je	.LBB3_158
-# %bb.42:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.43:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.44:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_45
-# %bb.232:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_382
-# %bb.233:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_382
-.LBB3_45:
-	xor	esi, esi
-.LBB3_546:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_548
-.LBB3_547:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_547
-.LBB3_548:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_549:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_549
-	jmp	.LBB3_923
-.LBB3_46:
-	cmp	edi, 8
-	jle	.LBB3_106
-# %bb.47:
-	cmp	edi, 9
-	je	.LBB3_161
-# %bb.48:
-	cmp	edi, 11
-	je	.LBB3_164
-# %bb.49:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_52
-# %bb.235:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_384
-# %bb.236:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_384
-.LBB3_52:
-	xor	esi, esi
-.LBB3_630:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_633
-# %bb.631:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_632:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_632
-.LBB3_633:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.634:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_635:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_635
-	jmp	.LBB3_923
-.LBB3_53:
-	cmp	edi, 8
-	jle	.LBB3_111
-# %bb.54:
-	cmp	edi, 9
-	je	.LBB3_167
-# %bb.55:
-	cmp	edi, 11
-	je	.LBB3_170
-# %bb.56:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.57:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.58:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_59
-# %bb.238:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_387
-# %bb.239:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_387
-.LBB3_59:
-	xor	esi, esi
-.LBB3_640:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_643
-# %bb.641:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_642:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_642
-.LBB3_643:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.644:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_645:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_645
-	jmp	.LBB3_923
-.LBB3_60:
-	cmp	edi, 8
-	jle	.LBB3_116
-# %bb.61:
-	cmp	edi, 9
-	je	.LBB3_173
-# %bb.62:
-	cmp	edi, 11
-	je	.LBB3_176
-# %bb.63:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.64:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.65:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_66
-# %bb.241:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_390
-# %bb.242:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_390
-.LBB3_66:
-	xor	esi, esi
-.LBB3_650:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_652
-# %bb.651:
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	movsd	xmm2, qword ptr [rip + .LCPI3_2] # xmm2 = mem[0],zero
-	orpd	xmm2, xmm1
-	xorpd	xmm1, xmm1
-	cmpeqsd	xmm1, xmm0
-	andnpd	xmm1, xmm2
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	or	rsi, 1
-.LBB3_652:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.653:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI3_2] # xmm1 = mem[0],zero
-	xorpd	xmm2, xmm2
-.LBB3_654:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [rcx + 8*rsi], xmm3
-	movsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm3
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_654
-	jmp	.LBB3_923
-.LBB3_67:
-	cmp	edi, 8
-	jle	.LBB3_121
-# %bb.68:
-	cmp	edi, 9
-	je	.LBB3_179
-# %bb.69:
-	cmp	edi, 11
-	je	.LBB3_182
-# %bb.70:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.71:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.72:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_73
-# %bb.244:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_393
-# %bb.245:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_393
-.LBB3_73:
-	xor	esi, esi
-.LBB3_659:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_661
-.LBB3_660:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_660
-.LBB3_661:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_662:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_662
-	jmp	.LBB3_923
-.LBB3_74:
-	cmp	edi, 8
-	jle	.LBB3_126
-# %bb.75:
-	cmp	edi, 9
-	je	.LBB3_185
-# %bb.76:
-	cmp	edi, 11
-	je	.LBB3_188
-# %bb.77:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.78:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.79:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_80
-# %bb.247:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_396
-# %bb.248:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_396
-.LBB3_80:
-	xor	esi, esi
-.LBB3_667:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_669
-.LBB3_668:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_668
-.LBB3_669:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_670:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_670
-	jmp	.LBB3_923
-.LBB3_81:
-	cmp	edi, 2
-	je	.LBB3_191
-# %bb.82:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.83:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.84:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_85
-# %bb.250:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_399
-# %bb.251:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_399
-.LBB3_85:
-	xor	esi, esi
-.LBB3_675:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_677
-.LBB3_676:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_676
-.LBB3_677:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_678:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_678
-	jmp	.LBB3_923
-.LBB3_86:
-	cmp	edi, 2
-	je	.LBB3_194
-# %bb.87:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.88:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.89:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_90
-# %bb.253:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_402
-# %bb.254:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_402
-.LBB3_90:
-	xor	esi, esi
-.LBB3_683:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_685
-.LBB3_684:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_684
-.LBB3_685:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_686:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_686
-	jmp	.LBB3_923
-.LBB3_91:
-	cmp	edi, 2
-	je	.LBB3_197
-# %bb.92:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.93:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.94:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_95
-# %bb.256:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_405
-# %bb.257:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_405
-.LBB3_95:
-	xor	esi, esi
-.LBB3_691:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_693
-# %bb.692:
-	mov	dil, byte ptr [rdx + rsi]
-	test	dil, dil
-	setne	r8b
-	neg	r8b
-	test	dil, dil
-	movzx	r8d, r8b
-	mov	edi, 1
-	cmovle	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_693:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.694:
-	mov	edi, 1
-.LBB3_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movzx	r8d, byte ptr [rdx + rsi + 1]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_695
-	jmp	.LBB3_923
-.LBB3_96:
-	cmp	edi, 2
-	je	.LBB3_200
-# %bb.97:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.98:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.99:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_100
-# %bb.259:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_408
-# %bb.260:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_408
-.LBB3_100:
-	xor	esi, esi
-.LBB3_700:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_702
-# %bb.701:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r8d, edi
-	sar	r8d, 7
-	add	edi, r8d
-	xor	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_702:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_703:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_703
-	jmp	.LBB3_923
-.LBB3_101:
-	cmp	edi, 2
-	je	.LBB3_203
-# %bb.102:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.103:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.104:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_105
-# %bb.262:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_411
-# %bb.263:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_411
-.LBB3_105:
-	xor	esi, esi
-.LBB3_708:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_710
-# %bb.709:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r8d, edi
-	sar	r8d, 7
-	add	edi, r8d
-	xor	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_710:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_711:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_711
-	jmp	.LBB3_923
-.LBB3_106:
-	cmp	edi, 7
-	je	.LBB3_206
-# %bb.107:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.108:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.109:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB3_265
-# %bb.110:
-	xor	edx, edx
-	jmp	.LBB3_420
-.LBB3_111:
-	cmp	edi, 7
-	je	.LBB3_209
-# %bb.112:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.113:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.114:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_115
-# %bb.267:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_421
-# %bb.268:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_421
-.LBB3_115:
-	xor	esi, esi
-.LBB3_716:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_718
-.LBB3_717:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_717
-.LBB3_718:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_719:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_719
-	jmp	.LBB3_923
-.LBB3_116:
-	cmp	edi, 7
-	je	.LBB3_212
-# %bb.117:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_120
-# %bb.270:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_424
-# %bb.271:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_424
-.LBB3_120:
-	xor	esi, esi
-.LBB3_724:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_726
-.LBB3_725:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_725
-.LBB3_726:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_727:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 8], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 16], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 24], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_727
-	jmp	.LBB3_923
-.LBB3_121:
-	cmp	edi, 7
-	je	.LBB3_215
-# %bb.122:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.123:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.124:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_125
-# %bb.273:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_427
-# %bb.274:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_427
-.LBB3_125:
-	xor	esi, esi
-.LBB3_556:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_558
-.LBB3_557:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_557
-.LBB3_558:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_559:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_559
-	jmp	.LBB3_923
-.LBB3_126:
-	cmp	edi, 7
-	je	.LBB3_218
-# %bb.127:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.128:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.129:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_130
-# %bb.276:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_429
-# %bb.277:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_429
-.LBB3_130:
-	xor	esi, esi
-.LBB3_566:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_568
-.LBB3_567:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_567
-.LBB3_568:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_569:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_569
-	jmp	.LBB3_923
-.LBB3_131:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.132:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB3_279
-# %bb.133:
-	xor	edx, edx
-	jmp	.LBB3_437
-.LBB3_134:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.135:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_136
-# %bb.281:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_438
-# %bb.282:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_438
-.LBB3_136:
-	xor	esi, esi
-.LBB3_732:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_734
-.LBB3_733:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_733
-.LBB3_734:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_735:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_735
-	jmp	.LBB3_923
-.LBB3_137:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.138:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_139
-# %bb.284:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_441
-# %bb.285:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_441
-.LBB3_139:
-	xor	esi, esi
-.LBB3_740:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_742
-.LBB3_741:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_741
-.LBB3_742:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_743:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_743
-	jmp	.LBB3_923
-.LBB3_140:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.141:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_142
-# %bb.287:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_444
-# %bb.288:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_444
-.LBB3_142:
-	xor	esi, esi
-.LBB3_748:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_750
-.LBB3_749:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_749
-.LBB3_750:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_751:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_751
-	jmp	.LBB3_923
-.LBB3_143:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.144:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_145
-# %bb.290:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_447
-# %bb.291:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_447
-.LBB3_145:
-	xor	esi, esi
-.LBB3_756:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_758
-.LBB3_757:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_757
-.LBB3_758:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_759:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 2], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 4], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 6], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_759
-	jmp	.LBB3_923
-.LBB3_146:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_148
-# %bb.293:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_450
-# %bb.294:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_450
-.LBB3_148:
-	xor	esi, esi
-.LBB3_764:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_766
-# %bb.765:
-	movzx	r8d, word ptr [rdx + 2*rsi]
-	xor	r10d, r10d
-	test	r8w, r8w
-	setne	r10b
-	neg	r10d
-	test	r8w, r8w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_766:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.767:
-	mov	r8d, 1
-.LBB3_768:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, r8d
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, r8d
-	mov	word ptr [rcx + 2*rsi + 2], di
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_768
-	jmp	.LBB3_923
-.LBB3_149:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.150:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_151
-# %bb.296:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_453
-# %bb.297:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_453
-.LBB3_151:
-	xor	esi, esi
-.LBB3_576:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_578
-.LBB3_577:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_577
-.LBB3_578:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_579:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_579
-	jmp	.LBB3_923
-.LBB3_152:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.153:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_154
-# %bb.299:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_455
-# %bb.300:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_455
-.LBB3_154:
-	xor	esi, esi
-.LBB3_773:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_775
-# %bb.774:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_775:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_776:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_776
-	jmp	.LBB3_923
-.LBB3_155:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.156:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_157
-# %bb.302:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_458
-# %bb.303:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_458
-.LBB3_157:
-	xor	esi, esi
-.LBB3_586:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_588
-.LBB3_587:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_587
-.LBB3_588:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_589:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_589
-	jmp	.LBB3_923
-.LBB3_158:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.159:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_160
-# %bb.305:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_460
-# %bb.306:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_460
-.LBB3_160:
-	xor	esi, esi
-.LBB3_781:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_783
-# %bb.782:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_783:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_784:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_784
-	jmp	.LBB3_923
-.LBB3_161:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.162:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_163
-# %bb.308:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_463
-# %bb.309:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_463
-.LBB3_163:
-	xor	esi, esi
-.LBB3_789:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_791
-.LBB3_790:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_790
-.LBB3_791:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_792:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_792
-	jmp	.LBB3_923
-.LBB3_164:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.165:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_166
-# %bb.311:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_466
-# %bb.312:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_466
-.LBB3_166:
-	xor	esi, esi
-.LBB3_797:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_800
-# %bb.798:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_799:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_799
-.LBB3_800:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.801:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_802:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_802
-	jmp	.LBB3_923
-.LBB3_167:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.168:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_169
-# %bb.314:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_469
-# %bb.315:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_469
-.LBB3_169:
-	xor	esi, esi
-.LBB3_807:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_809
-.LBB3_808:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_808
-.LBB3_809:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_810:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_810
-	jmp	.LBB3_923
-.LBB3_170:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_172
-# %bb.317:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_472
-# %bb.318:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_472
-.LBB3_172:
-	xor	esi, esi
-.LBB3_815:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_818
-# %bb.816:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_817:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_817
-.LBB3_818:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.819:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_820:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_820
-	jmp	.LBB3_923
-.LBB3_173:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.174:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_175
-# %bb.320:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_475
-# %bb.321:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_475
-.LBB3_175:
-	xor	esi, esi
-.LBB3_825:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_827
-# %bb.826:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	xor	r10d, r10d
-	test	r8, r8
-	setne	r10b
-	neg	r10
-	test	r8, r8
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_827:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.828:
-	mov	r8d, 1
-.LBB3_829:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, r8
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_829
-	jmp	.LBB3_923
-.LBB3_176:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.177:
-	mov	eax, r8d
-	cmp	r8d, 8
-	jb	.LBB3_178
-# %bb.323:
-	lea	rsi, [rdx + 4*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_478
-# %bb.324:
-	lea	rsi, [rcx + 4*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_478
-.LBB3_178:
-	xor	esi, esi
-.LBB3_481:
-	mov	r8, rsi
-	not	r8
-	test	al, 1
-	je	.LBB3_483
-# %bb.482:
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	xorps	xmm2, xmm2
-	cmpeqss	xmm2, xmm0
-	andnps	xmm2, xmm1
-	movss	dword ptr [rcx + 4*rsi], xmm2
-	or	rsi, 1
-.LBB3_483:
-	add	r8, rax
-	je	.LBB3_923
-# %bb.484:
-	xorps	xmm0, xmm0
-.LBB3_485:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_485
-	jmp	.LBB3_923
-.LBB3_179:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.180:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_181
-# %bb.326:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_486
-# %bb.327:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_486
-.LBB3_181:
-	xor	esi, esi
-.LBB3_834:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_836
-# %bb.835:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_836:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_837:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_837
-	jmp	.LBB3_923
-.LBB3_182:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.183:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_184
-# %bb.329:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_489
-# %bb.330:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_489
-.LBB3_184:
-	xor	esi, esi
-.LBB3_842:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_845
-# %bb.843:
-	mov	r10d, 2147483647
-.LBB3_844:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_844
-.LBB3_845:
-	cmp	r8, 3
-	jb	.LBB3_923
-# %bb.846:
-	mov	eax, 2147483647
-.LBB3_847:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_847
-	jmp	.LBB3_923
-.LBB3_185:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_187
-# %bb.332:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_492
-# %bb.333:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_492
-.LBB3_187:
-	xor	esi, esi
-.LBB3_852:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_854
-# %bb.853:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_854:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_855:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_855
-	jmp	.LBB3_923
-.LBB3_188:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.189:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_190
-# %bb.335:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_495
-# %bb.336:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_495
-.LBB3_190:
-	xor	esi, esi
-.LBB3_860:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_863
-# %bb.861:
-	mov	r10d, 2147483647
-.LBB3_862:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_862
-.LBB3_863:
-	cmp	r8, 3
-	jb	.LBB3_923
-# %bb.864:
-	mov	eax, 2147483647
-.LBB3_865:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_865
-	jmp	.LBB3_923
-.LBB3_191:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.192:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB3_338
-# %bb.193:
-	xor	edx, edx
-	jmp	.LBB3_504
-.LBB3_194:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.195:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_196
-# %bb.340:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_505
-# %bb.341:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_505
-.LBB3_196:
-	xor	esi, esi
-.LBB3_870:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_872
-.LBB3_871:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_871
-.LBB3_872:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_873:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_873
-	jmp	.LBB3_923
-.LBB3_197:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.198:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_199
-# %bb.343:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_508
-# %bb.344:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_508
-.LBB3_199:
-	xor	esi, esi
-.LBB3_878:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_880
-.LBB3_879:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_879
-.LBB3_880:
-	cmp	rax, 3
-	jb	.LBB3_923
-.LBB3_881:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	cmp	byte ptr [rdx + rsi + 1], 0
-	setne	byte ptr [rcx + rsi + 1]
-	cmp	byte ptr [rdx + rsi + 2], 0
-	setne	byte ptr [rcx + rsi + 2]
-	cmp	byte ptr [rdx + rsi + 3], 0
-	setne	byte ptr [rcx + rsi + 3]
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_881
-	jmp	.LBB3_923
-.LBB3_200:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_202
-# %bb.346:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_511
-# %bb.347:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_511
-.LBB3_202:
-	xor	esi, esi
-.LBB3_596:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_598
-.LBB3_597:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_597
-.LBB3_598:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_599
-	jmp	.LBB3_923
-.LBB3_203:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.204:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_205
-# %bb.349:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_513
-# %bb.350:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_513
-.LBB3_205:
-	xor	esi, esi
-.LBB3_606:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_608
-.LBB3_607:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_607
-.LBB3_608:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_609
-	jmp	.LBB3_923
-.LBB3_206:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.207:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_208
-# %bb.352:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_515
-# %bb.353:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_515
-.LBB3_208:
-	xor	esi, esi
-.LBB3_886:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_888
-.LBB3_887:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_887
-.LBB3_888:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_889:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_889
-	jmp	.LBB3_923
-.LBB3_209:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.210:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_211
-# %bb.355:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_518
-# %bb.356:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_518
-.LBB3_211:
-	xor	esi, esi
-.LBB3_894:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_896
-.LBB3_895:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_895
-.LBB3_896:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_897:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_897
-	jmp	.LBB3_923
-.LBB3_212:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.213:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_214
-# %bb.358:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_521
-# %bb.359:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_521
-.LBB3_214:
-	xor	esi, esi
-.LBB3_902:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_904
-# %bb.903:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	xor	r10d, r10d
-	test	r8d, r8d
-	setne	r10b
-	neg	r10d
-	test	r8d, r8d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_904:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.905:
-	mov	r8d, 1
-.LBB3_906:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, r8d
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_906
-	jmp	.LBB3_923
-.LBB3_215:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_217
-# %bb.361:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_524
-# %bb.362:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_524
-.LBB3_217:
-	xor	esi, esi
-.LBB3_911:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_913
-# %bb.912:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_913:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_914:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_914
-	jmp	.LBB3_923
-.LBB3_218:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.219:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_220
-# %bb.364:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_527
-# %bb.365:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_527
-.LBB3_220:
-	xor	esi, esi
-.LBB3_919:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_921
-# %bb.920:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_921:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_922:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_922
-	jmp	.LBB3_923
-.LBB3_221:
-	mov	edx, r9d
-	and	edx, -8
-	lea	rax, [rdx - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 56
-	jae	.LBB3_367
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB3_369
-.LBB3_265:
-	mov	edx, r9d
-	and	edx, -4
-	lea	rax, [rdx - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 28
-	jae	.LBB3_414
-# %bb.266:
-	xor	eax, eax
-	jmp	.LBB3_416
-.LBB3_279:
-	mov	edx, r9d
-	and	edx, -16
-	lea	rax, [rdx - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 112
-	jae	.LBB3_431
-# %bb.280:
-	xor	eax, eax
-	jmp	.LBB3_433
-.LBB3_338:
-	mov	edx, r9d
-	and	edx, -32
-	lea	rax, [rdx - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 224
-	jae	.LBB3_498
-# %bb.339:
-	xor	eax, eax
-	jmp	.LBB3_500
-.LBB3_374:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_610
-# %bb.375:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_376:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_376
-	jmp	.LBB3_611
-.LBB3_377:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_618
-# %bb.378:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
-.LBB3_379:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_379
-	jmp	.LBB3_619
-.LBB3_380:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB3_530
-# %bb.381:
-	xor	eax, eax
-	jmp	.LBB3_532
-.LBB3_382:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB3_540
-# %bb.383:
-	xor	eax, eax
-	jmp	.LBB3_542
-.LBB3_384:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_626
-# %bb.385:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_386:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_386
-	jmp	.LBB3_627
-.LBB3_387:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_636
-# %bb.388:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_389:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_389
-	jmp	.LBB3_637
-.LBB3_390:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_646
-# %bb.391:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB3_392:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi], xmm3
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm4
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_392
-	jmp	.LBB3_647
-.LBB3_393:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_655
-# %bb.394:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
-.LBB3_395:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_395
-	jmp	.LBB3_656
-.LBB3_396:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_663
-# %bb.397:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
-.LBB3_398:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_398
-	jmp	.LBB3_664
-.LBB3_399:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_671
-# %bb.400:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_401:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_401
-	jmp	.LBB3_672
-.LBB3_402:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_679
-# %bb.403:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_404:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_404
-	jmp	.LBB3_680
-.LBB3_405:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_687
-# %bb.406:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_407:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rdi]
-	movdqu	xmm6, xmmword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm7
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm7
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm5
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_407
-	jmp	.LBB3_688
-.LBB3_408:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_696
-# %bb.409:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-.LBB3_410:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi]
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm3
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm1
-	psrad	xmm7, 7
-	movdqa	xmm0, xmm4
-	psrad	xmm0, 7
-	paddd	xmm4, xmm0
-	paddd	xmm1, xmm7
-	paddd	xmm3, xmm6
-	paddd	xmm2, xmm5
-	pxor	xmm2, xmm5
-	pxor	xmm3, xmm6
-	pxor	xmm1, xmm7
-	pxor	xmm4, xmm0
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm2
-	psrad	xmm0, 7
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm1
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm4
-	psrad	xmm7, 7
-	paddd	xmm4, xmm7
-	paddd	xmm1, xmm6
-	paddd	xmm3, xmm5
-	paddd	xmm2, xmm0
-	pxor	xmm2, xmm0
-	pxor	xmm3, xmm5
-	pxor	xmm1, xmm6
-	pxor	xmm4, xmm7
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_410
-	jmp	.LBB3_697
-.LBB3_411:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_704
-# %bb.412:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-.LBB3_413:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi]
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm3
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm1
-	psrad	xmm7, 7
-	movdqa	xmm0, xmm4
-	psrad	xmm0, 7
-	paddd	xmm4, xmm0
-	paddd	xmm1, xmm7
-	paddd	xmm3, xmm6
-	paddd	xmm2, xmm5
-	pxor	xmm2, xmm5
-	pxor	xmm3, xmm6
-	pxor	xmm1, xmm7
-	pxor	xmm4, xmm0
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm2
-	psrad	xmm0, 7
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm1
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm4
-	psrad	xmm7, 7
-	paddd	xmm4, xmm7
-	paddd	xmm1, xmm6
-	paddd	xmm3, xmm5
-	paddd	xmm2, xmm0
-	pxor	xmm2, xmm0
-	pxor	xmm3, xmm5
-	pxor	xmm1, xmm6
-	pxor	xmm4, xmm7
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_413
-	jmp	.LBB3_705
-.LBB3_421:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_712
-# %bb.422:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_423:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_423
-	jmp	.LBB3_713
-.LBB3_424:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_720
-# %bb.425:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_4] # xmm1 = [1,1]
-.LBB3_426:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_426
-	jmp	.LBB3_721
-.LBB3_427:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB3_550
-# %bb.428:
-	xor	eax, eax
-	jmp	.LBB3_552
-.LBB3_429:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB3_560
-# %bb.430:
-	xor	eax, eax
-	jmp	.LBB3_562
-.LBB3_438:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_728
-# %bb.439:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_440:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_440
-	jmp	.LBB3_729
-.LBB3_441:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_736
-# %bb.442:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_443:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_443
-	jmp	.LBB3_737
-.LBB3_444:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_744
-# %bb.445:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_446:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_446
-	jmp	.LBB3_745
-.LBB3_447:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_752
-# %bb.448:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_5] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB3_449:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_449
-	jmp	.LBB3_753
-.LBB3_450:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_760
-# %bb.451:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB3_452:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm7
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm7
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm5
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_452
-	jmp	.LBB3_761
-.LBB3_453:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB3_570
-# %bb.454:
-	xor	eax, eax
-	jmp	.LBB3_572
-.LBB3_455:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_769
-# %bb.456:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-.LBB3_457:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_457
-	jmp	.LBB3_770
-.LBB3_458:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB3_580
-# %bb.459:
-	xor	eax, eax
-	jmp	.LBB3_582
-.LBB3_460:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_777
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-.LBB3_462:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_462
-	jmp	.LBB3_778
-.LBB3_463:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_785
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_465:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_465
-	jmp	.LBB3_786
-.LBB3_466:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_793
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_468:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_468
-	jmp	.LBB3_794
-.LBB3_469:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_803
-# %bb.470:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_471:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_471
-	jmp	.LBB3_804
-.LBB3_472:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_811
-# %bb.473:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_474:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_474
-	jmp	.LBB3_812
-.LBB3_475:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_821
-# %bb.476:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
-.LBB3_477:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm7
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm7
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_477
-	jmp	.LBB3_822
-.LBB3_478:
-	mov	esi, eax
-	and	esi, -8
-	xor	edi, edi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
-.LBB3_479:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	add	rdi, 8
-	cmp	rsi, rdi
-	jne	.LBB3_479
-# %bb.480:
-	cmp	rsi, rax
-	je	.LBB3_923
-	jmp	.LBB3_481
-.LBB3_486:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_830
-# %bb.487:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_488:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_488
-	jmp	.LBB3_831
-.LBB3_489:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_838
-# %bb.490:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-.LBB3_491:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_491
-	jmp	.LBB3_839
-.LBB3_492:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_848
-# %bb.493:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_494
-	jmp	.LBB3_849
-.LBB3_495:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_856
-# %bb.496:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-.LBB3_497:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_497
-	jmp	.LBB3_857
-.LBB3_505:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_866
-# %bb.506:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_507:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_507
-	jmp	.LBB3_867
-.LBB3_508:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_874
-# %bb.509:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_6] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_510:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + rdi]
-	movdqu	xmm3, xmmword ptr [rdx + rdi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + rdi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_510
-	jmp	.LBB3_875
-.LBB3_511:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_590
-# %bb.512:
-	xor	eax, eax
-	jmp	.LBB3_592
-.LBB3_513:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_600
-# %bb.514:
-	xor	eax, eax
-	jmp	.LBB3_602
-.LBB3_515:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_882
-# %bb.516:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_517:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_517
-	jmp	.LBB3_883
-.LBB3_518:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_890
-# %bb.519:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_520:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_520
-	jmp	.LBB3_891
-.LBB3_521:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_898
-# %bb.522:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
-.LBB3_523:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm7
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm7
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm5
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_523
-	jmp	.LBB3_899
-.LBB3_524:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_907
-# %bb.525:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_526:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_526
-	jmp	.LBB3_908
-.LBB3_527:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_915
-# %bb.528:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_529:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_529
-	jmp	.LBB3_916
-.LBB3_367:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_368:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 4*rax], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 240], xmm0
-	add	rax, 64
-	add	rdi, 8
-	jne	.LBB3_368
-.LBB3_369:
-	test	rsi, rsi
-	je	.LBB3_372
-# %bb.370:
-	lea	rax, [rcx + 4*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_371:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_371
-.LBB3_372:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_373:                              # =>This Inner Loop Header: Depth=1
-	mov	dword ptr [rcx + 4*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_373
-	jmp	.LBB3_923
-.LBB3_414:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_415:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 8*rax], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 240], xmm0
-	add	rax, 32
-	add	rdi, 8
-	jne	.LBB3_415
-.LBB3_416:
-	test	rsi, rsi
-	je	.LBB3_419
-# %bb.417:
-	lea	rax, [rcx + 8*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_418:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_418
-.LBB3_419:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_420:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rcx + 8*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_420
-	jmp	.LBB3_923
-.LBB3_431:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_432:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 2*rax], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 240], xmm0
-	sub	rax, -128
-	add	rdi, 8
-	jne	.LBB3_432
-.LBB3_433:
-	test	rsi, rsi
-	je	.LBB3_436
-# %bb.434:
-	lea	rax, [rcx + 2*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_435:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_435
-.LBB3_436:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_437:                              # =>This Inner Loop Header: Depth=1
-	mov	word ptr [rcx + 2*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_437
-	jmp	.LBB3_923
-.LBB3_498:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_499:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + rax], xmm0
-	movupd	xmmword ptr [rcx + rax + 16], xmm0
-	movupd	xmmword ptr [rcx + rax + 32], xmm0
-	movupd	xmmword ptr [rcx + rax + 48], xmm0
-	movupd	xmmword ptr [rcx + rax + 64], xmm0
-	movupd	xmmword ptr [rcx + rax + 80], xmm0
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm0
-	movupd	xmmword ptr [rcx + rax + 128], xmm0
-	movupd	xmmword ptr [rcx + rax + 144], xmm0
-	movupd	xmmword ptr [rcx + rax + 160], xmm0
-	movupd	xmmword ptr [rcx + rax + 176], xmm0
-	movupd	xmmword ptr [rcx + rax + 192], xmm0
-	movupd	xmmword ptr [rcx + rax + 208], xmm0
-	movupd	xmmword ptr [rcx + rax + 224], xmm0
-	movupd	xmmword ptr [rcx + rax + 240], xmm0
-	add	rax, 256
-	add	rdi, 8
-	jne	.LBB3_499
-.LBB3_500:
-	test	rsi, rsi
-	je	.LBB3_503
-# %bb.501:
-	add	rax, rcx
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_502:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_502
-.LBB3_503:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_504:                              # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rcx + rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_504
-.LBB3_923:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB3_530:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_531:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB3_531
-.LBB3_532:
-	test	r8, r8
-	je	.LBB3_535
-# %bb.533:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB3_534:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_534
-.LBB3_535:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_536
-.LBB3_540:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_541:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB3_541
-.LBB3_542:
-	test	r8, r8
-	je	.LBB3_545
-# %bb.543:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB3_544:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_544
-.LBB3_545:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_546
-.LBB3_550:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_551:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB3_551
-.LBB3_552:
-	test	r8, r8
-	je	.LBB3_555
-# %bb.553:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB3_554:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_554
-.LBB3_555:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_556
-.LBB3_560:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_561:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB3_561
-.LBB3_562:
-	test	r8, r8
-	je	.LBB3_565
-# %bb.563:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB3_564:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_564
-.LBB3_565:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_566
-.LBB3_570:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_571:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_571
-.LBB3_572:
-	test	r8, r8
-	je	.LBB3_575
-# %bb.573:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB3_574:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_574
-.LBB3_575:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_576
-.LBB3_580:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_581:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_581
-.LBB3_582:
-	test	r8, r8
-	je	.LBB3_585
-# %bb.583:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB3_584:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_584
-.LBB3_585:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_586
-.LBB3_590:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_591:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_591
-.LBB3_592:
-	test	r8, r8
-	je	.LBB3_595
-# %bb.593:
-	add	rax, 16
-	neg	r8
-.LBB3_594:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_594
-.LBB3_595:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_596
-.LBB3_600:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_601:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_601
-.LBB3_602:
-	test	r8, r8
-	je	.LBB3_605
-# %bb.603:
-	add	rax, 16
-	neg	r8
-.LBB3_604:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_604
-.LBB3_605:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_606
-.LBB3_610:
-	xor	edi, edi
-.LBB3_611:
-	test	r8b, 1
-	je	.LBB3_613
-# %bb.612:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_613:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_614
-.LBB3_618:
-	xor	edi, edi
-.LBB3_619:
-	test	r8b, 1
-	je	.LBB3_621
-# %bb.620:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_3] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_621:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_622
-.LBB3_626:
-	xor	edi, edi
-.LBB3_627:
-	test	r8b, 1
-	je	.LBB3_629
-# %bb.628:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_629:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_630
-.LBB3_636:
-	xor	edi, edi
-.LBB3_637:
-	test	r8b, 1
-	je	.LBB3_639
-# %bb.638:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_639:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_640
-.LBB3_646:
-	xor	edi, edi
-.LBB3_647:
-	test	r8b, 1
-	je	.LBB3_649
-# %bb.648:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI3_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI3_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm4
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_649:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_650
-.LBB3_655:
-	xor	edi, edi
-.LBB3_656:
-	test	r8b, 1
-	je	.LBB3_658
-# %bb.657:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_658:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_659
-.LBB3_663:
-	xor	edi, edi
-.LBB3_664:
-	test	r8b, 1
-	je	.LBB3_666
-# %bb.665:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_666:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_667
-.LBB3_671:
-	xor	edi, edi
-.LBB3_672:
-	test	r8b, 1
-	je	.LBB3_674
-# %bb.673:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_674:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_675
-.LBB3_679:
-	xor	edi, edi
-.LBB3_680:
-	test	r8b, 1
-	je	.LBB3_682
-# %bb.681:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_682:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_683
-.LBB3_687:
-	xor	edi, edi
-.LBB3_688:
-	test	r8b, 1
-	je	.LBB3_690
-# %bb.689:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm4
-.LBB3_690:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_691
-.LBB3_696:
-	xor	edi, edi
-.LBB3_697:
-	test	r8b, 1
-	je	.LBB3_699
-# %bb.698:
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi]
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 7
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm0
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm3
-	psrad	xmm7, 7
-	paddd	xmm3, xmm7
-	paddd	xmm0, xmm6
-	paddd	xmm2, xmm5
-	paddd	xmm1, xmm4
-	pxor	xmm1, xmm4
-	pxor	xmm2, xmm5
-	pxor	xmm0, xmm6
-	pxor	xmm3, xmm7
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-	pand	xmm3, xmm4
-	pand	xmm0, xmm4
-	packusdw	xmm0, xmm3
-	pand	xmm2, xmm4
-	pand	xmm1, xmm4
-	packusdw	xmm1, xmm2
-	packuswb	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-.LBB3_699:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_700
-.LBB3_704:
-	xor	edi, edi
-.LBB3_705:
-	test	r8b, 1
-	je	.LBB3_707
-# %bb.706:
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi]
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 7
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm0
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm3
-	psrad	xmm7, 7
-	paddd	xmm3, xmm7
-	paddd	xmm0, xmm6
-	paddd	xmm2, xmm5
-	paddd	xmm1, xmm4
-	pxor	xmm1, xmm4
-	pxor	xmm2, xmm5
-	pxor	xmm0, xmm6
-	pxor	xmm3, xmm7
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-	pand	xmm3, xmm4
-	pand	xmm0, xmm4
-	packusdw	xmm0, xmm3
-	pand	xmm2, xmm4
-	pand	xmm1, xmm4
-	packusdw	xmm1, xmm2
-	packuswb	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-.LBB3_707:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_708
-.LBB3_712:
-	xor	edi, edi
-.LBB3_713:
-	test	r8b, 1
-	je	.LBB3_715
-# %bb.714:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_715:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_716
-.LBB3_720:
-	xor	edi, edi
-.LBB3_721:
-	test	r8b, 1
-	je	.LBB3_723
-# %bb.722:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_4] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_723:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_724
-.LBB3_728:
-	xor	edi, edi
-.LBB3_729:
-	test	r8b, 1
-	je	.LBB3_731
-# %bb.730:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_731:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_732
-.LBB3_736:
-	xor	edi, edi
-.LBB3_737:
-	test	r8b, 1
-	je	.LBB3_739
-# %bb.738:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_739:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_740
-.LBB3_744:
-	xor	edi, edi
-.LBB3_745:
-	test	r8b, 1
-	je	.LBB3_747
-# %bb.746:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_747:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_748
-.LBB3_752:
-	xor	edi, edi
-.LBB3_753:
-	test	r8b, 1
-	je	.LBB3_755
-# %bb.754:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_5] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB3_755:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_756
-.LBB3_760:
-	xor	edi, edi
-.LBB3_761:
-	test	r8b, 1
-	je	.LBB3_763
-# %bb.762:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm4
-.LBB3_763:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_764
-.LBB3_769:
-	xor	edi, edi
-.LBB3_770:
-	test	r8b, 1
-	je	.LBB3_772
-# %bb.771:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
-	movdqa	xmm2, xmm1
-	psrad	xmm2, 15
-	movdqa	xmm3, xmm0
-	psrad	xmm3, 15
-	paddd	xmm0, xmm3
-	paddd	xmm1, xmm2
-	pxor	xmm1, xmm2
-	pxor	xmm0, xmm3
-	pxor	xmm2, xmm2
-	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	packusdw	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-.LBB3_772:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_773
-.LBB3_777:
-	xor	edi, edi
-.LBB3_778:
-	test	r8b, 1
-	je	.LBB3_780
-# %bb.779:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
-	movdqa	xmm2, xmm1
-	psrad	xmm2, 15
-	movdqa	xmm3, xmm0
-	psrad	xmm3, 15
-	paddd	xmm0, xmm3
-	paddd	xmm1, xmm2
-	pxor	xmm1, xmm2
-	pxor	xmm0, xmm3
-	pxor	xmm2, xmm2
-	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	packusdw	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-.LBB3_780:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_781
-.LBB3_785:
-	xor	edi, edi
-.LBB3_786:
-	test	r8b, 1
-	je	.LBB3_788
-# %bb.787:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_788:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_789
-.LBB3_793:
-	xor	edi, edi
-.LBB3_794:
-	test	r8b, 1
-	je	.LBB3_796
-# %bb.795:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_796:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_797
-.LBB3_803:
-	xor	edi, edi
-.LBB3_804:
-	test	r8b, 1
-	je	.LBB3_806
-# %bb.805:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_806:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_807
-.LBB3_811:
-	xor	edi, edi
-.LBB3_812:
-	test	r8b, 1
-	je	.LBB3_814
-# %bb.813:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_814:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_815
-.LBB3_821:
-	xor	edi, edi
-.LBB3_822:
-	test	r8b, 1
-	je	.LBB3_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm2
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
-.LBB3_824:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_825
-.LBB3_830:
-	xor	edi, edi
-.LBB3_831:
-	test	r8b, 1
-	je	.LBB3_833
-# %bb.832:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	pxor	xmm4, xmm4
-	psubq	xmm4, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_833:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_834
-.LBB3_838:
-	xor	edi, edi
-.LBB3_839:
-	test	r8b, 1
-	je	.LBB3_841
-# %bb.840:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_841:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_842
-.LBB3_848:
-	xor	edi, edi
-.LBB3_849:
-	test	r8b, 1
-	je	.LBB3_851
-# %bb.850:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	pxor	xmm4, xmm4
-	psubq	xmm4, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_851:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_852
-.LBB3_856:
-	xor	edi, edi
-.LBB3_857:
-	test	r8b, 1
-	je	.LBB3_859
-# %bb.858:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_859:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_860
-.LBB3_866:
-	xor	edi, edi
-.LBB3_867:
-	test	r8b, 1
-	je	.LBB3_869
-# %bb.868:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_869:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_870
-.LBB3_874:
-	xor	edi, edi
-.LBB3_875:
-	test	r8b, 1
-	je	.LBB3_877
-# %bb.876:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_6] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-.LBB3_877:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_878
-.LBB3_882:
-	xor	edi, edi
-.LBB3_883:
-	test	r8b, 1
-	je	.LBB3_885
-# %bb.884:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_885:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_886
-.LBB3_890:
-	xor	edi, edi
-.LBB3_891:
-	test	r8b, 1
-	je	.LBB3_893
-# %bb.892:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_893:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_894
-.LBB3_898:
-	xor	edi, edi
-.LBB3_899:
-	test	r8b, 1
-	je	.LBB3_901
-# %bb.900:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-.LBB3_901:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_902
-.LBB3_907:
-	xor	edi, edi
-.LBB3_908:
-	test	r8b, 1
-	je	.LBB3_910
-# %bb.909:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_910:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_911
-.LBB3_915:
-	xor	edi, edi
-.LBB3_916:
-	test	r8b, 1
-	je	.LBB3_918
-# %bb.917:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_918:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_919
-.Lfunc_end3:
-	.size	arithmetic_unary_same_types_sse4, .Lfunc_end3-arithmetic_unary_same_types_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_unary_diff_type_sse4
-.LCPI4_0:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI4_1:
-	.quad	0x3ff0000000000000              # double 1
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_3:
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-.LCPI4_4:
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-.LCPI4_7:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_8:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-.LCPI4_10:
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI4_11:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_12:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_15:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI4_16:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.zero	4
-	.zero	4
-.LCPI4_17:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_18:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_19:
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-.LCPI4_20:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_21:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_22:
-	.zero	16,1
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI4_2:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_6:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI4_13:
-	.quad	0xbff0000000000000              # double -1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI4_5:
-	.long	0x3f800000                      # float 1
-.LCPI4_9:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI4_14:
-	.long	0xbf800000                      # float -1
-	.text
-	.globl	arithmetic_unary_diff_type_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_unary_diff_type_sse4,@function
-arithmetic_unary_diff_type_sse4:        # @arithmetic_unary_diff_type_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	dl, 20
-	jne	.LBB4_1655
-# %bb.1:
-	cmp	edi, 6
-	jg	.LBB4_14
-# %bb.2:
-	cmp	edi, 3
-	jle	.LBB4_26
-# %bb.3:
-	cmp	edi, 4
-	je	.LBB4_46
-# %bb.4:
-	cmp	edi, 5
-	je	.LBB4_54
-# %bb.5:
-	cmp	edi, 6
-	jne	.LBB4_1655
-# %bb.6:
-	cmp	esi, 6
-	jg	.LBB4_94
-# %bb.7:
-	cmp	esi, 3
-	jle	.LBB4_200
-# %bb.8:
-	cmp	esi, 4
-	je	.LBB4_303
-# %bb.9:
-	cmp	esi, 5
-	je	.LBB4_306
-# %bb.10:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.11:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.12:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_13
-# %bb.494:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_496
-# %bb.495:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_496
-.LBB4_13:
-	xor	edx, edx
-.LBB4_1232:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1234
-.LBB4_1233:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1233
-.LBB4_1234:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1235:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1235
-	jmp	.LBB4_1655
-.LBB4_14:
-	cmp	edi, 8
-	jle	.LBB4_36
-# %bb.15:
-	cmp	edi, 9
-	je	.LBB4_62
-# %bb.16:
-	cmp	edi, 11
-	je	.LBB4_70
-# %bb.17:
-	cmp	edi, 12
-	jne	.LBB4_1655
-# %bb.18:
-	cmp	esi, 6
-	jg	.LBB4_106
-# %bb.19:
-	cmp	esi, 3
-	jle	.LBB4_205
-# %bb.20:
-	cmp	esi, 4
-	je	.LBB4_309
-# %bb.21:
-	cmp	esi, 5
-	je	.LBB4_312
-# %bb.22:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.23:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.24:
-	mov	r11d, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_499
-# %bb.25:
-	xor	esi, esi
-	jmp	.LBB4_1110
-.LBB4_26:
-	cmp	edi, 2
-	je	.LBB4_78
-# %bb.27:
-	cmp	edi, 3
-	jne	.LBB4_1655
-# %bb.28:
-	cmp	esi, 6
-	jg	.LBB4_113
-# %bb.29:
-	cmp	esi, 3
-	jle	.LBB4_210
-# %bb.30:
-	cmp	esi, 4
-	je	.LBB4_315
-# %bb.31:
-	cmp	esi, 5
-	je	.LBB4_318
-# %bb.32:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.34:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_35
-# %bb.502:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_504
-# %bb.503:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_504
-.LBB4_35:
-	xor	edx, edx
-.LBB4_1240:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1242
-# %bb.1241:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	dword ptr [r8 + 4*rdx], eax
-	or	rdx, 1
-.LBB4_1242:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1243:
-	mov	esi, 1
-.LBB4_1244:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1244
-	jmp	.LBB4_1655
-.LBB4_36:
-	cmp	edi, 7
-	je	.LBB4_86
-# %bb.37:
-	cmp	edi, 8
-	jne	.LBB4_1655
-# %bb.38:
-	cmp	esi, 6
-	jg	.LBB4_123
-# %bb.39:
-	cmp	esi, 3
-	jle	.LBB4_215
-# %bb.40:
-	cmp	esi, 4
-	je	.LBB4_321
-# %bb.41:
-	cmp	esi, 5
-	je	.LBB4_324
-# %bb.42:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.44:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_507
-# %bb.45:
-	xor	edx, edx
-	jmp	.LBB4_998
-.LBB4_46:
-	cmp	esi, 6
-	jg	.LBB4_135
-# %bb.47:
-	cmp	esi, 3
-	jle	.LBB4_220
-# %bb.48:
-	cmp	esi, 4
-	je	.LBB4_327
-# %bb.49:
-	cmp	esi, 5
-	je	.LBB4_330
-# %bb.50:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.51:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.52:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_510
-# %bb.53:
-	xor	edx, edx
-	jmp	.LBB4_1116
-.LBB4_54:
-	cmp	esi, 6
-	jg	.LBB4_147
-# %bb.55:
-	cmp	esi, 3
-	jle	.LBB4_225
-# %bb.56:
-	cmp	esi, 4
-	je	.LBB4_333
-# %bb.57:
-	cmp	esi, 5
-	je	.LBB4_336
-# %bb.58:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.60:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_513
-# %bb.61:
-	xor	edx, edx
-	jmp	.LBB4_1121
-.LBB4_62:
-	cmp	esi, 6
-	jg	.LBB4_157
-# %bb.63:
-	cmp	esi, 3
-	jle	.LBB4_230
-# %bb.64:
-	cmp	esi, 4
-	je	.LBB4_339
-# %bb.65:
-	cmp	esi, 5
-	je	.LBB4_342
-# %bb.66:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_516
-# %bb.69:
-	xor	edx, edx
-	jmp	.LBB4_1127
-.LBB4_70:
-	cmp	esi, 6
-	jg	.LBB4_167
-# %bb.71:
-	cmp	esi, 3
-	jle	.LBB4_235
-# %bb.72:
-	cmp	esi, 4
-	je	.LBB4_345
-# %bb.73:
-	cmp	esi, 5
-	je	.LBB4_348
-# %bb.74:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.75:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.76:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_519
-# %bb.77:
-	xor	edx, edx
-	jmp	.LBB4_1133
-.LBB4_78:
-	cmp	esi, 6
-	jg	.LBB4_178
-# %bb.79:
-	cmp	esi, 3
-	jle	.LBB4_240
-# %bb.80:
-	cmp	esi, 4
-	je	.LBB4_351
-# %bb.81:
-	cmp	esi, 5
-	je	.LBB4_354
-# %bb.82:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.83:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.84:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_85
-# %bb.522:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_524
-# %bb.523:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_524
-.LBB4_85:
-	xor	edx, edx
-.LBB4_1249:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1251
-.LBB4_1250:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1250
-.LBB4_1251:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1252:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1252
-	jmp	.LBB4_1655
-.LBB4_86:
-	cmp	esi, 6
-	jg	.LBB4_190
-# %bb.87:
-	cmp	esi, 3
-	jle	.LBB4_245
-# %bb.88:
-	cmp	esi, 4
-	je	.LBB4_357
-# %bb.89:
-	cmp	esi, 5
-	je	.LBB4_360
-# %bb.90:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.91:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.92:
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_93
-# %bb.527:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_529
-# %bb.528:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_529
-.LBB4_93:
-	xor	edx, edx
-.LBB4_1257:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1259
-# %bb.1258:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1259:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1260:
-	mov	esi, 1
-.LBB4_1261:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1261
-	jmp	.LBB4_1655
-.LBB4_94:
-	cmp	esi, 8
-	jle	.LBB4_250
-# %bb.95:
-	cmp	esi, 9
-	je	.LBB4_363
-# %bb.96:
-	cmp	esi, 11
-	je	.LBB4_366
-# %bb.97:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.98:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.99:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_532
-# %bb.100:
-	xor	esi, esi
-.LBB4_101:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.102:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 4*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_104
-.LBB4_103:                              #   in Loop: Header=BB4_104 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_104:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_103
-# %bb.105:                              #   in Loop: Header=BB4_104 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_103
-.LBB4_106:
-	cmp	esi, 8
-	jle	.LBB4_255
-# %bb.107:
-	cmp	esi, 9
-	je	.LBB4_369
-# %bb.108:
-	cmp	esi, 11
-	je	.LBB4_372
-# %bb.109:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.110:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.111:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_112
-# %bb.542:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_544
-# %bb.543:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_544
-.LBB4_112:
-	xor	edx, edx
-.LBB4_1266:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1268
-# %bb.1267:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-	orpd	xmm2, xmm1
-	xorpd	xmm1, xmm1
-	cmpeqsd	xmm1, xmm0
-	andnpd	xmm1, xmm2
-	movlpd	qword ptr [r8 + 8*rdx], xmm1
-	or	rdx, 1
-.LBB4_1268:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1269:
-	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	xorpd	xmm2, xmm2
-.LBB4_1270:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [r8 + 8*rdx], xmm3
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1270
-	jmp	.LBB4_1655
-.LBB4_113:
-	cmp	esi, 8
-	jle	.LBB4_260
-# %bb.114:
-	cmp	esi, 9
-	je	.LBB4_375
-# %bb.115:
-	cmp	esi, 11
-	je	.LBB4_378
-# %bb.116:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.117:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.118:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_547
-# %bb.119:
-	xor	eax, eax
-.LBB4_120:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.121:
-	cmp	byte ptr [rcx + rax], 0
-	jne	.LBB4_982
-.LBB4_122:
-	xorpd	xmm0, xmm0
-	jmp	.LBB4_983
-.LBB4_123:
-	cmp	esi, 8
-	jle	.LBB4_265
-# %bb.124:
-	cmp	esi, 9
-	je	.LBB4_381
-# %bb.125:
-	cmp	esi, 11
-	je	.LBB4_384
-# %bb.126:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.127:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.128:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_557
-# %bb.129:
-	xor	esi, esi
-.LBB4_130:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.131:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 8*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_133
-.LBB4_132:                              #   in Loop: Header=BB4_133 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_133:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_132
-# %bb.134:                              #   in Loop: Header=BB4_133 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_132
-.LBB4_135:
-	cmp	esi, 8
-	jle	.LBB4_270
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB4_392
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB4_395
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.140:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_567
-# %bb.141:
-	xor	esi, esi
-.LBB4_142:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.143:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 2*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_145
-.LBB4_144:                              #   in Loop: Header=BB4_145 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_144
-# %bb.146:                              #   in Loop: Header=BB4_145 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_144
-.LBB4_147:
-	cmp	esi, 8
-	jle	.LBB4_275
-# %bb.148:
-	cmp	esi, 9
-	je	.LBB4_398
-# %bb.149:
-	cmp	esi, 11
-	je	.LBB4_401
-# %bb.150:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.151:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.152:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_577
-# %bb.153:
-	xor	eax, eax
-.LBB4_154:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.155:
-	cmp	word ptr [rcx + 2*rax], 0
-	je	.LBB4_122
-.LBB4_982:
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-.LBB4_983:
-	jle	.LBB4_985
-# %bb.984:
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-.LBB4_985:
-	movsd	qword ptr [r8 + 8*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_157:
-	cmp	esi, 8
-	jle	.LBB4_280
-# %bb.158:
-	cmp	esi, 9
-	je	.LBB4_404
-# %bb.159:
-	cmp	esi, 11
-	je	.LBB4_407
-# %bb.160:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.161:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.162:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_587
-# %bb.163:
-	xor	eax, eax
-.LBB4_164:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.165:
-	cmp	qword ptr [rcx + 8*rax], 0
-	je	.LBB4_122
-	jmp	.LBB4_982
-.LBB4_167:
-	cmp	esi, 8
-	jle	.LBB4_285
-# %bb.168:
-	cmp	esi, 9
-	je	.LBB4_413
-# %bb.169:
-	cmp	esi, 11
-	je	.LBB4_419
-# %bb.170:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.171:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.172:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_597
-# %bb.173:
-	xor	eax, eax
-.LBB4_174:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.175:
-	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
-	xorps	xmm0, xmm0
-	xorps	xmm2, xmm2
-	ucomiss	xmm2, xmm1
-	je	.LBB4_177
-# %bb.176:
-	movmskps	ecx, xmm1
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	cvtss2sd	xmm0, xmm0
-.LBB4_177:
-	movsd	qword ptr [r8 + 8*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_178:
-	cmp	esi, 8
-	jle	.LBB4_293
-# %bb.179:
-	cmp	esi, 9
-	je	.LBB4_422
-# %bb.180:
-	cmp	esi, 11
-	je	.LBB4_425
-# %bb.181:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.182:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.183:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_603
-# %bb.184:
-	xor	esi, esi
-.LBB4_185:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.186:
-	lea	rdx, [r8 + 8*rsi]
-	add	rcx, rsi
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_188
-.LBB4_187:                              #   in Loop: Header=BB4_188 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_188:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_187
-# %bb.189:                              #   in Loop: Header=BB4_188 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_187
-.LBB4_190:
-	cmp	esi, 8
-	jle	.LBB4_298
-# %bb.191:
-	cmp	esi, 9
-	je	.LBB4_428
-# %bb.192:
-	cmp	esi, 11
-	je	.LBB4_431
-# %bb.193:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.194:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.195:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_613
-# %bb.196:
-	xor	eax, eax
-.LBB4_197:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.198:
-	cmp	dword ptr [rcx + 4*rax], 0
-	je	.LBB4_122
-	jmp	.LBB4_982
-.LBB4_200:
-	cmp	esi, 2
-	je	.LBB4_434
-# %bb.201:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.202:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.203:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_204
-# %bb.623:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_625
-# %bb.624:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_625
-.LBB4_204:
-	xor	edx, edx
-.LBB4_1275:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1277
-.LBB4_1276:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1276
-.LBB4_1277:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1278:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1278
-	jmp	.LBB4_1655
-.LBB4_205:
-	cmp	esi, 2
-	je	.LBB4_437
-# %bb.206:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.207:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.208:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_209
-# %bb.628:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_630
-# %bb.629:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_630
-.LBB4_209:
-	xor	edx, edx
-.LBB4_1283:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1285
-# %bb.1284:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	r9d, r9d
-	pxor	xmm1, xmm1
-	ucomisd	xmm1, xmm0
-	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	orpd	xmm1, xmm0
-	cvttsd2si	edi, xmm1
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1285:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1286:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1287
-	jmp	.LBB4_1655
-.LBB4_210:
-	cmp	esi, 2
-	je	.LBB4_440
-# %bb.211:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.212:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.213:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_214
-# %bb.633:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_635
-# %bb.634:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_635
-.LBB4_214:
-	xor	esi, esi
-.LBB4_1292:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1294
-# %bb.1293:
-	mov	dil, byte ptr [rcx + rsi]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1294:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1295:
-	mov	edi, 1
-.LBB4_1296:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1296
-	jmp	.LBB4_1655
-.LBB4_215:
-	cmp	esi, 2
-	je	.LBB4_443
-# %bb.216:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.217:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.218:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_219
-# %bb.638:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_640
-# %bb.639:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_640
-.LBB4_219:
-	xor	edx, edx
-.LBB4_1301:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1303
-.LBB4_1302:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1302
-.LBB4_1303:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1304:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1304
-	jmp	.LBB4_1655
-.LBB4_220:
-	cmp	esi, 2
-	je	.LBB4_446
-# %bb.221:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.222:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.223:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_224
-# %bb.643:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_645
-# %bb.644:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_645
-.LBB4_224:
-	xor	edx, edx
-.LBB4_1309:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1311
-.LBB4_1310:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1310
-.LBB4_1311:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1312:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1312
-	jmp	.LBB4_1655
-.LBB4_225:
-	cmp	esi, 2
-	je	.LBB4_449
-# %bb.226:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.227:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.228:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_229
-# %bb.648:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_650
-# %bb.649:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_650
-.LBB4_229:
-	xor	esi, esi
-.LBB4_1317:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1319
-# %bb.1318:
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1319:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1320:
-	mov	r9d, 1
-.LBB4_1321:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1321
-	jmp	.LBB4_1655
-.LBB4_230:
-	cmp	esi, 2
-	je	.LBB4_452
-# %bb.231:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.232:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.233:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_234
-# %bb.653:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_655
-# %bb.654:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_655
-.LBB4_234:
-	xor	esi, esi
-.LBB4_1326:
-	mov	rdx, rsi
-	not	rdx
-	test	r10b, 1
-	je	.LBB4_1328
-# %bb.1327:
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	mov	edi, 1
-	cmovle	edi, eax
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1328:
-	add	rdx, r10
-	je	.LBB4_1655
-# %bb.1329:
-	mov	edi, 1
-.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1330
-	jmp	.LBB4_1655
-.LBB4_235:
-	cmp	esi, 2
-	je	.LBB4_455
-# %bb.236:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.237:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.238:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_239
-# %bb.658:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_660
-# %bb.659:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_660
-.LBB4_239:
-	xor	edx, edx
-.LBB4_1335:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1337
-# %bb.1336:
-	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movd	edi, xmm0
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	xor	edi, edi
-	pxor	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	movzx	eax, al
-	cmove	eax, edi
-	mov	byte ptr [r8 + rdx], al
-	or	rdx, 1
-.LBB4_1337:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1338:
-	xor	esi, esi
-	xorps	xmm0, xmm0
-.LBB4_1339:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1339
-	jmp	.LBB4_1655
-.LBB4_240:
-	cmp	esi, 2
-	je	.LBB4_458
-# %bb.241:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.242:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.243:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_244
-# %bb.663:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_665
-# %bb.664:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_665
-.LBB4_244:
-	xor	edx, edx
-.LBB4_1344:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1346
-.LBB4_1345:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1345
-.LBB4_1346:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1347:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1347
-	jmp	.LBB4_1655
-.LBB4_245:
-	cmp	esi, 2
-	je	.LBB4_461
-# %bb.246:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.247:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.248:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_249
-# %bb.668:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_670
-# %bb.669:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_670
-.LBB4_249:
-	xor	esi, esi
-.LBB4_1352:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1354
-# %bb.1353:
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1354:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1355:
-	mov	r9d, 1
-.LBB4_1356:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1356
-	jmp	.LBB4_1655
-.LBB4_250:
-	cmp	esi, 7
-	je	.LBB4_464
-# %bb.251:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.252:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.253:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_673
-# %bb.254:
-	xor	edx, edx
-	jmp	.LBB4_1003
-.LBB4_255:
-	cmp	esi, 7
-	je	.LBB4_467
-# %bb.256:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.257:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.258:
-	mov	r10d, r9d
-	movabs	r11, -9223372036854775808
-	cmp	r9d, 1
-	jne	.LBB4_676
-# %bb.259:
-	xor	esi, esi
-	jmp	.LBB4_1008
-.LBB4_260:
-	cmp	esi, 7
-	je	.LBB4_470
-# %bb.261:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.262:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.263:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_264
-# %bb.679:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_681
-# %bb.680:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_681
-.LBB4_264:
-	xor	edx, edx
-.LBB4_1361:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1363
-# %bb.1362:
-	mov	al, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	mov	eax, 1
-	cmovle	rax, rdi
-	mov	qword ptr [r8 + 8*rdx], rax
-	or	rdx, 1
-.LBB4_1363:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1364:
-	mov	esi, 1
-.LBB4_1365:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1365
-	jmp	.LBB4_1655
-.LBB4_265:
-	cmp	esi, 7
-	je	.LBB4_473
-# %bb.266:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.267:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.268:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_269
-# %bb.684:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_686
-# %bb.685:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_686
-.LBB4_269:
-	xor	edx, edx
-.LBB4_1370:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1372
-.LBB4_1371:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1371
-.LBB4_1372:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1373:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1373
-	jmp	.LBB4_1655
-.LBB4_270:
-	cmp	esi, 7
-	je	.LBB4_476
-# %bb.271:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.272:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.273:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_689
-# %bb.274:
-	xor	edx, edx
-	jmp	.LBB4_1014
-.LBB4_275:
-	cmp	esi, 7
-	je	.LBB4_479
-# %bb.276:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.277:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.278:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_692
-# %bb.279:
-	xor	edx, edx
-	jmp	.LBB4_1019
-.LBB4_280:
-	cmp	esi, 7
-	je	.LBB4_482
-# %bb.281:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.282:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.283:
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_284
-# %bb.695:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_697
-# %bb.696:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_697
-.LBB4_284:
-	xor	edx, edx
-.LBB4_1378:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1380
-# %bb.1379:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1380:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1381:
-	mov	esi, 1
-.LBB4_1382:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1382
-	jmp	.LBB4_1655
-.LBB4_285:
-	cmp	esi, 7
-	je	.LBB4_485
-# %bb.286:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.287:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.288:
-	mov	r10d, r9d
-	cmp	r9d, 1
-	jne	.LBB4_700
-# %bb.289:
-	xor	eax, eax
-	jmp	.LBB4_290
-.LBB4_293:
-	cmp	esi, 7
-	je	.LBB4_488
-# %bb.294:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.295:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.296:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_297
-# %bb.708:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_710
-# %bb.709:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_710
-.LBB4_297:
-	xor	edx, edx
-.LBB4_1387:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1389
-.LBB4_1388:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1388
-.LBB4_1389:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1390:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1390
-	jmp	.LBB4_1655
-.LBB4_298:
-	cmp	esi, 7
-	je	.LBB4_491
-# %bb.299:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.300:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.301:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_713
-# %bb.302:
-	xor	edx, edx
-	jmp	.LBB4_1025
-.LBB4_303:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.304:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_716
-# %bb.305:
-	xor	edx, edx
-	jmp	.LBB4_1141
-.LBB4_306:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.307:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_719
-# %bb.308:
-	xor	edx, edx
-	jmp	.LBB4_1146
-.LBB4_309:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.310:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_722
-# %bb.311:
-	xor	esi, esi
-	jmp	.LBB4_1151
-.LBB4_312:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.313:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_725
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB4_1157
-.LBB4_315:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.316:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_317
-# %bb.728:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_730
-# %bb.729:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_730
-.LBB4_317:
-	xor	edx, edx
-.LBB4_1395:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1397
-# %bb.1396:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	word ptr [r8 + 2*rdx], ax
-	or	rdx, 1
-.LBB4_1397:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1398:
-	mov	esi, 1
-.LBB4_1399:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1399
-	jmp	.LBB4_1655
-.LBB4_318:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.319:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_320
-# %bb.733:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_735
-# %bb.734:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_735
-.LBB4_320:
-	xor	edx, edx
-.LBB4_1404:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1406
-# %bb.1405:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	word ptr [r8 + 2*rdx], ax
-	or	rdx, 1
-.LBB4_1406:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1407:
-	mov	esi, 1
-.LBB4_1408:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1408
-	jmp	.LBB4_1655
-.LBB4_321:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.322:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_738
-# %bb.323:
-	xor	edx, edx
-	jmp	.LBB4_1031
-.LBB4_324:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.325:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_741
-# %bb.326:
-	xor	edx, edx
-	jmp	.LBB4_1036
-.LBB4_327:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.328:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_329
-# %bb.744:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_746
-# %bb.745:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_746
-.LBB4_329:
-	xor	edx, edx
-.LBB4_1413:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1415
-.LBB4_1414:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1414
-.LBB4_1415:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1416:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1416
-	jmp	.LBB4_1655
-.LBB4_330:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.331:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_332
-# %bb.749:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_751
-# %bb.750:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_751
-.LBB4_332:
-	xor	edx, edx
-.LBB4_1421:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1423
-.LBB4_1422:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1422
-.LBB4_1423:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1424:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1424
-	jmp	.LBB4_1655
-.LBB4_333:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.334:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_335
-# %bb.754:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_756
-# %bb.755:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_756
-.LBB4_335:
-	xor	edx, edx
-.LBB4_1429:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1431
-# %bb.1430:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1431:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1432:
-	mov	esi, 1
-.LBB4_1433:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1433
-	jmp	.LBB4_1655
-.LBB4_336:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.337:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_338
-# %bb.759:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_761
-# %bb.760:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_761
-.LBB4_338:
-	xor	edx, edx
-.LBB4_1438:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1440
-# %bb.1439:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1440:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1441:
-	mov	esi, 1
-.LBB4_1442:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1442
-	jmp	.LBB4_1655
-.LBB4_339:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.340:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_764
-# %bb.341:
-	xor	edx, edx
-	jmp	.LBB4_1041
-.LBB4_342:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.343:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_767
-# %bb.344:
-	xor	edx, edx
-	jmp	.LBB4_1163
-.LBB4_345:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.346:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 8
-	jae	.LBB4_770
-# %bb.347:
-	xor	esi, esi
-	jmp	.LBB4_1169
-.LBB4_348:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.349:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 8
-	jae	.LBB4_773
-# %bb.350:
-	xor	esi, esi
-	jmp	.LBB4_1175
-.LBB4_351:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.352:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_353
-# %bb.776:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_778
-# %bb.777:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_778
-.LBB4_353:
-	xor	edx, edx
-.LBB4_1447:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1449
-.LBB4_1448:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1448
-.LBB4_1449:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1450:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1450
-	jmp	.LBB4_1655
-.LBB4_354:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.355:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_356
-# %bb.781:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_783
-# %bb.782:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_783
-.LBB4_356:
-	xor	edx, edx
-.LBB4_1455:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1457
-.LBB4_1456:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1456
-.LBB4_1457:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1458:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1458
-	jmp	.LBB4_1655
-.LBB4_357:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.358:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_786
-# %bb.359:
-	xor	edx, edx
-	jmp	.LBB4_1047
-.LBB4_360:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.361:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_789
-# %bb.362:
-	xor	edx, edx
-	jmp	.LBB4_1053
-.LBB4_363:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.364:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_792
-# %bb.365:
-	xor	edx, edx
-	jmp	.LBB4_1181
-.LBB4_366:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.367:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_795
-# %bb.368:
-	xor	edx, edx
-	jmp	.LBB4_1186
-.LBB4_369:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.370:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_798
-# %bb.371:
-	xor	edx, edx
-	jmp	.LBB4_1194
-.LBB4_372:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.373:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_801
-# %bb.374:
-	xor	edx, edx
-	jmp	.LBB4_1200
-.LBB4_375:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.376:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_377
-# %bb.804:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_806
-# %bb.805:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_806
-.LBB4_377:
-	xor	edx, edx
-.LBB4_1463:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1465
-# %bb.1464:
-	mov	al, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	mov	eax, 1
-	cmovle	rax, rdi
-	mov	qword ptr [r8 + 8*rdx], rax
-	or	rdx, 1
-.LBB4_1465:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1466:
-	mov	esi, 1
-.LBB4_1467:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1467
-	jmp	.LBB4_1655
-.LBB4_378:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.379:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_380
-# %bb.809:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_811
-# %bb.810:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_811
-.LBB4_380:
-	xor	edx, edx
-.LBB4_1472:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1479
-# %bb.1473:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1475
-# %bb.1474:
-	pxor	xmm0, xmm0
-	jmp	.LBB4_1476
-.LBB4_381:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.382:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_383
-# %bb.814:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_816
-# %bb.815:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_816
-.LBB4_383:
-	xor	edx, edx
-.LBB4_1494:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1496
-.LBB4_1495:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1495
-.LBB4_1496:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1497:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1497
-	jmp	.LBB4_1655
-.LBB4_384:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.385:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_819
-# %bb.386:
-	xor	esi, esi
-.LBB4_387:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.388:
-	lea	rdx, [r8 + 4*rsi]
-	lea	rcx, [rcx + 8*rsi]
-	xor	esi, esi
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_390
-.LBB4_389:                              #   in Loop: Header=BB4_390 Depth=1
-	movss	dword ptr [rdx + 4*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_390:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_389
-# %bb.391:                              #   in Loop: Header=BB4_390 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_389
-.LBB4_392:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.393:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_829
-# %bb.394:
-	xor	edx, edx
-	jmp	.LBB4_1059
-.LBB4_395:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.396:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_832
-# %bb.397:
-	xor	edx, edx
-	jmp	.LBB4_1208
-.LBB4_398:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.399:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_835
-# %bb.400:
-	xor	edx, edx
-	jmp	.LBB4_1216
-.LBB4_401:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.402:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_838
-# %bb.403:
-	xor	edx, edx
-	jmp	.LBB4_1222
-.LBB4_404:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.405:
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_406
-# %bb.841:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_843
-# %bb.842:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_843
-.LBB4_406:
-	xor	edx, edx
-.LBB4_1502:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1504
-# %bb.1503:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1504:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1505:
-	mov	esi, 1
-.LBB4_1506:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1506
-	jmp	.LBB4_1655
-.LBB4_407:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.408:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_846
-# %bb.409:
-	xor	eax, eax
-.LBB4_410:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.411:
-	cmp	qword ptr [rcx + 8*rax], 0
-	jne	.LBB4_989
-# %bb.412:
-	xorpd	xmm0, xmm0
-	jmp	.LBB4_990
-.LBB4_413:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.414:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_856
-# %bb.415:
-	xor	eax, eax
-	jmp	.LBB4_416
-.LBB4_419:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.420:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_421
-# %bb.864:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_866
-# %bb.865:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_866
-.LBB4_421:
-	xor	edx, edx
-.LBB4_869:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_871
-# %bb.870:
-	movss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	xorps	xmm2, xmm2
-	cmpeqss	xmm2, xmm0
-	andnps	xmm2, xmm1
-	movss	dword ptr [r8 + 4*rdx], xmm2
-	or	rdx, 1
-.LBB4_871:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.872:
-	xorps	xmm0, xmm0
-.LBB4_873:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, esi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, esi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_873
-	jmp	.LBB4_1655
-.LBB4_422:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.423:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_424
-# %bb.874:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_876
-# %bb.875:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_876
-.LBB4_424:
-	xor	edx, edx
-.LBB4_1511:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1513
-.LBB4_1512:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1512
-.LBB4_1513:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1514:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1514
-	jmp	.LBB4_1655
-.LBB4_425:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.426:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_427
-# %bb.879:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_881
-# %bb.880:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_881
-.LBB4_427:
-	xor	edx, edx
-.LBB4_1519:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1524
-# %bb.1520:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1522
-.LBB4_1521:                             #   in Loop: Header=BB4_1522 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_1524
-.LBB4_1522:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1521
-# %bb.1523:                             #   in Loop: Header=BB4_1522 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1521
-.LBB4_428:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.429:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_884
-# %bb.430:
-	xor	edx, edx
-	jmp	.LBB4_1064
-.LBB4_431:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.432:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_887
-# %bb.433:
-	xor	edx, edx
-	jmp	.LBB4_1070
-.LBB4_434:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.435:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_436
-# %bb.890:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_892
-# %bb.891:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_892
-.LBB4_436:
-	xor	edx, edx
-.LBB4_1539:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1541
-.LBB4_1540:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1540
-.LBB4_1541:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1542:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1542
-	jmp	.LBB4_1655
-.LBB4_437:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.438:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_439
-# %bb.895:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_897
-# %bb.896:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_897
-.LBB4_439:
-	xor	edx, edx
-.LBB4_1547:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1549
-# %bb.1548:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	r9d, r9d
-	pxor	xmm1, xmm1
-	ucomisd	xmm1, xmm0
-	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	orpd	xmm1, xmm0
-	cvttsd2si	edi, xmm1
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1549:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1550:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1551:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1551
-	jmp	.LBB4_1655
-.LBB4_440:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.441:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_442
-# %bb.900:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_902
-# %bb.901:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_902
-.LBB4_442:
-	xor	esi, esi
-.LBB4_1556:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1558
-# %bb.1557:
-	mov	dil, byte ptr [rcx + rsi]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1558:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1559:
-	mov	edi, 1
-.LBB4_1560:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1560
-	jmp	.LBB4_1655
-.LBB4_443:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.444:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_445
-# %bb.905:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_907
-# %bb.906:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_907
-.LBB4_445:
-	xor	edx, edx
-.LBB4_1565:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1567
-.LBB4_1566:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1566
-.LBB4_1567:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1568:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1568
-	jmp	.LBB4_1655
-.LBB4_446:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.447:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_448
-# %bb.910:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_912
-# %bb.911:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_912
-.LBB4_448:
-	xor	edx, edx
-.LBB4_1573:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1575
-.LBB4_1574:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1574
-.LBB4_1575:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1576:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1576
-	jmp	.LBB4_1655
-.LBB4_449:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.450:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_451
-# %bb.915:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_917
-# %bb.916:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_917
-.LBB4_451:
-	xor	esi, esi
-.LBB4_1581:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1583
-# %bb.1582:
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1583:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1584:
-	mov	r9d, 1
-.LBB4_1585:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1585
-	jmp	.LBB4_1655
-.LBB4_452:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.453:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_454
-# %bb.920:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_922
-# %bb.921:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_922
-.LBB4_454:
-	xor	esi, esi
-.LBB4_1590:
-	mov	rdx, rsi
-	not	rdx
-	test	r10b, 1
-	je	.LBB4_1592
-# %bb.1591:
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	mov	edi, 1
-	cmovle	edi, eax
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1592:
-	add	rdx, r10
-	je	.LBB4_1655
-# %bb.1593:
-	mov	edi, 1
-.LBB4_1594:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1594
-	jmp	.LBB4_1655
-.LBB4_455:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.456:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_457
-# %bb.925:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_927
-# %bb.926:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_927
-.LBB4_457:
-	xor	edx, edx
-.LBB4_1599:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1601
-# %bb.1600:
-	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movd	edi, xmm0
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	xor	edi, edi
-	pxor	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	movzx	eax, al
-	cmove	eax, edi
-	mov	byte ptr [r8 + rdx], al
-	or	rdx, 1
-.LBB4_1601:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1602:
-	xor	esi, esi
-	xorps	xmm0, xmm0
-.LBB4_1603:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1603
-	jmp	.LBB4_1655
-.LBB4_458:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.459:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_460
-# %bb.930:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_932
-# %bb.931:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_932
-.LBB4_460:
-	xor	edx, edx
-.LBB4_1608:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1610
-.LBB4_1609:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1609
-.LBB4_1610:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1611:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1611
-	jmp	.LBB4_1655
-.LBB4_461:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.462:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_463
-# %bb.935:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_937
-# %bb.936:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_937
-.LBB4_463:
-	xor	esi, esi
-.LBB4_1616:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1618
-# %bb.1617:
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1618:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1619:
-	mov	r9d, 1
-.LBB4_1620:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1620
-	jmp	.LBB4_1655
-.LBB4_464:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.465:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_466
-# %bb.940:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_942
-# %bb.941:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_942
-.LBB4_466:
-	xor	edx, edx
-.LBB4_1625:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1627
-.LBB4_1626:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1626
-.LBB4_1627:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1628:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1628
-	jmp	.LBB4_1655
-.LBB4_467:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.468:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_945
-# %bb.469:
-	xor	esi, esi
-	jmp	.LBB4_1080
-.LBB4_470:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.471:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_472
-# %bb.948:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_950
-# %bb.949:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_950
-.LBB4_472:
-	xor	edx, edx
-.LBB4_1633:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1635
-# %bb.1634:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	dword ptr [r8 + 4*rdx], eax
-	or	rdx, 1
-.LBB4_1635:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1636:
-	mov	esi, 1
-.LBB4_1637:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1637
-	jmp	.LBB4_1655
-.LBB4_473:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.474:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_953
-# %bb.475:
-	xor	edx, edx
-	jmp	.LBB4_1086
-.LBB4_476:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.477:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_956
-# %bb.478:
-	xor	edx, edx
-	jmp	.LBB4_1091
-.LBB4_479:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.480:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_959
-# %bb.481:
-	xor	edx, edx
-	jmp	.LBB4_1096
-.LBB4_482:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.483:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_962
-# %bb.484:
-	xor	edx, edx
-	jmp	.LBB4_1102
-.LBB4_485:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.486:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_965
-# %bb.487:
-	xor	edx, edx
-	jmp	.LBB4_968
-.LBB4_488:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.489:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_490
-# %bb.972:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_974
-# %bb.973:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_974
-.LBB4_490:
-	xor	edx, edx
-.LBB4_1642:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1644
-.LBB4_1643:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1643
-.LBB4_1644:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1645:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1645
-	jmp	.LBB4_1655
-.LBB4_491:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.492:
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_493
-# %bb.977:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_979
-# %bb.978:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_979
-.LBB4_493:
-	xor	edx, edx
-.LBB4_1650:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1652
-# %bb.1651:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1652:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1653:
-	mov	esi, 1
-.LBB4_1654:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1654
-	jmp	.LBB4_1655
-.LBB4_1524:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-# %bb.1525:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1527
-.LBB4_1526:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1527:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1528
-# %bb.1531:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm1, xmm0
-	je	.LBB4_1532
-.LBB4_1529:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1530
-.LBB4_1533:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1526
-	jmp	.LBB4_1534
-.LBB4_1528:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1529
-.LBB4_1532:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	movdqa	xmm1, xmm0
-	je	.LBB4_1533
-.LBB4_1530:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1526
-.LBB4_1534:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1526
-.LBB4_499:
-	mov	esi, r11d
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1106
-# %bb.500:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_501:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm3, xmm5
-	cmpeqpd	xmm3, xmm0
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	movapd	xmm4, xmm6
-	cmpeqpd	xmm4, xmm0
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	cvttsd2si	rbx, xmm5
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	pshufd	xmm7, xmm6, 238                 # xmm7 = xmm6[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	cvttsd2si	rbx, xmm6
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	movd	xmm6, ebx
-	pinsrd	xmm6, eax, 1
-	andnps	xmm3, xmm5
-	andnps	xmm4, xmm6
-	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm3
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm3, xmm5
-	cmpeqpd	xmm3, xmm0
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	movapd	xmm4, xmm6
-	cmpeqpd	xmm4, xmm0
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	andpd	xmm6, xmm1
-	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	andnps	xmm3, xmm5
-	pshufd	xmm5, xmm6, 238                 # xmm5 = xmm6[2,3,2,3]
-	cvttsd2si	rax, xmm5
-	cvttsd2si	rbx, xmm6
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	andnps	xmm4, xmm5
-	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_501
-	jmp	.LBB4_1107
-.LBB4_507:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_994
-# %bb.508:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
-.LBB4_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_509
-	jmp	.LBB4_995
-.LBB4_510:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1112
-# %bb.511:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_512:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_512
-	jmp	.LBB4_1113
-.LBB4_513:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1117
-# %bb.514:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_515:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_515
-	jmp	.LBB4_1118
-.LBB4_516:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1123
-# %bb.517:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-.LBB4_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_518
-	jmp	.LBB4_1124
-.LBB4_519:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1129
-# %bb.520:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqa	xmm0, xmm5
-	psrad	xmm0, 31
-	por	xmm0, xmm2
-	cvtdq2ps	xmm6, xmm0
-	movaps	xmm0, xmm6
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm7, xmm6
-	subps	xmm6, xmm3
-	cvttps2dq	xmm6, xmm6
-	xorps	xmm6, xmm4
-	blendvps	xmm6, xmm7, xmm0
-	cmpneqps	xmm5, xmm1
-	andps	xmm5, xmm6
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	psrad	xmm0, 31
-	por	xmm0, xmm2
-	cvtdq2ps	xmm6, xmm0
-	movaps	xmm0, xmm6
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm7, xmm6
-	subps	xmm6, xmm3
-	cvttps2dq	xmm6, xmm6
-	xorps	xmm6, xmm4
-	blendvps	xmm6, xmm7, xmm0
-	cmpneqps	xmm5, xmm1
-	andps	xmm5, xmm6
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_521
-	jmp	.LBB4_1130
-.LBB4_532:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_534
-.LBB4_533:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_101
-.LBB4_534:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_535
-# %bb.538:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 4], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_539
-.LBB4_536:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_537
-.LBB4_540:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 12], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_533
-	jmp	.LBB4_541
-.LBB4_535:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 4], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_536
-.LBB4_539:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_540
-.LBB4_537:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 12], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_533
-.LBB4_541:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_533
-.LBB4_547:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_549
-.LBB4_548:                              #   in Loop: Header=BB4_549 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_120
-.LBB4_549:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_550
-# %bb.553:                              #   in Loop: Header=BB4_549 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_554
-.LBB4_551:                              #   in Loop: Header=BB4_549 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	byte ptr [rcx + rax + 1], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_552
-.LBB4_555:                              #   in Loop: Header=BB4_549 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_548
-	jmp	.LBB4_556
-.LBB4_550:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_551
-.LBB4_554:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	byte ptr [rcx + rax + 1], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_555
-.LBB4_552:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_548
-.LBB4_556:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_548
-.LBB4_557:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_559
-.LBB4_558:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_130
-.LBB4_559:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_560
-# %bb.563:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_564
-.LBB4_561:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_562
-.LBB4_565:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_558
-	jmp	.LBB4_566
-.LBB4_560:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_561
-.LBB4_564:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_565
-.LBB4_562:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_558
-.LBB4_566:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_558
-.LBB4_567:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_569
-.LBB4_568:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_142
-.LBB4_569:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_570
-# %bb.573:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	word ptr [rcx + 2*rsi + 2], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_574
-.LBB4_571:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	word ptr [rcx + 2*rsi + 4], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_572
-.LBB4_575:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	word ptr [rcx + 2*rsi + 6], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_568
-	jmp	.LBB4_576
-.LBB4_570:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	word ptr [rcx + 2*rsi + 2], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_571
-.LBB4_574:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	word ptr [rcx + 2*rsi + 4], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_575
-.LBB4_572:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	word ptr [rcx + 2*rsi + 6], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_568
-.LBB4_576:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_568
-.LBB4_577:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_579
-.LBB4_578:                              #   in Loop: Header=BB4_579 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_154
-.LBB4_579:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_580
-# %bb.583:                              #   in Loop: Header=BB4_579 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_584
-.LBB4_581:                              #   in Loop: Header=BB4_579 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	word ptr [rcx + 2*rax + 2], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_582
-.LBB4_585:                              #   in Loop: Header=BB4_579 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_578
-	jmp	.LBB4_586
-.LBB4_580:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_581
-.LBB4_584:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	word ptr [rcx + 2*rax + 2], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_585
-.LBB4_582:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_578
-.LBB4_586:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_578
-.LBB4_587:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_589
-.LBB4_588:                              #   in Loop: Header=BB4_589 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_164
-.LBB4_589:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_590
-# %bb.593:                              #   in Loop: Header=BB4_589 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_594
-.LBB4_591:                              #   in Loop: Header=BB4_589 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_592
-.LBB4_595:                              #   in Loop: Header=BB4_589 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_588
-	jmp	.LBB4_596
-.LBB4_590:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_591
-.LBB4_594:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_595
-.LBB4_592:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_588
-.LBB4_596:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_588
-.LBB4_597:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	jmp	.LBB4_599
-.LBB4_598:                              #   in Loop: Header=BB4_599 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm1
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_174
-.LBB4_599:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm1
-	ucomiss	xmm0, xmm2
-	xorpd	xmm3, xmm3
-	je	.LBB4_601
-# %bb.600:                              #   in Loop: Header=BB4_599 Depth=1
-	movmskps	edi, xmm2
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	xorps	xmm3, xmm3
-	cvtss2sd	xmm3, xmm2
-.LBB4_601:                              #   in Loop: Header=BB4_599 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	je	.LBB4_598
-# %bb.602:                              #   in Loop: Header=BB4_599 Depth=1
-	movmskps	edi, xmm2
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvtss2sd	xmm1, xmm1
-	jmp	.LBB4_598
-.LBB4_603:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_605
-.LBB4_604:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_185
-.LBB4_605:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_606
-# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	byte ptr [rcx + rsi + 1], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_610
-.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	byte ptr [rcx + rsi + 2], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_608
-.LBB4_611:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	byte ptr [rcx + rsi + 3], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_604
-	jmp	.LBB4_612
-.LBB4_606:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	byte ptr [rcx + rsi + 1], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_607
-.LBB4_610:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	byte ptr [rcx + rsi + 2], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_611
-.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	byte ptr [rcx + rsi + 3], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_604
-.LBB4_612:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_604
-.LBB4_613:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_615
-.LBB4_614:                              #   in Loop: Header=BB4_615 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_197
-.LBB4_615:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_616
-# %bb.619:                              #   in Loop: Header=BB4_615 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_620
-.LBB4_617:                              #   in Loop: Header=BB4_615 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	dword ptr [rcx + 4*rax + 4], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_618
-.LBB4_621:                              #   in Loop: Header=BB4_615 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_614
-	jmp	.LBB4_622
-.LBB4_616:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_617
-.LBB4_620:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	dword ptr [rcx + 4*rax + 4], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_621
-.LBB4_618:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_614
-.LBB4_622:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_614
-.LBB4_673:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_999
-# %bb.674:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_675:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_675
-	jmp	.LBB4_1000
-.LBB4_676:
-	mov	esi, r10d
-	and	esi, -2
-	lea	rax, [rsi - 2]
-	mov	r9, rax
-	shr	r9
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1004
-# %bb.677:
-	mov	r14, r9
-	and	r14, -2
-	neg	r14
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-	movsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
-.LBB4_678:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi]
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rbx, xmm6
-	xor	rbx, r11
-	cvttsd2si	rdx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rdx, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	movdqa	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rbx, xmm6
-	xor	rbx, r11
-	cvttsd2si	rax, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rax, rbx
-	movq	xmm5, rdx
-	movq	xmm6, rax
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rax, xmm6
-	xor	rax, r11
-	cvttsd2si	rdx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	movdqa	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rax, xmm6
-	xor	rax, r11
-	cvttsd2si	rbx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rbx, rax
-	movq	xmm5, rdx
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm4
-	add	rdi, 4
-	add	r14, 2
-	jne	.LBB4_678
-	jmp	.LBB4_1005
-.LBB4_689:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1010
-# %bb.690:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_691:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_691
-	jmp	.LBB4_1011
-.LBB4_692:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1015
-# %bb.693:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_694:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_694
-	jmp	.LBB4_1016
-.LBB4_700:
-	mov	esi, r10d
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-	jmp	.LBB4_703
-.LBB4_701:                              #   in Loop: Header=BB4_703 Depth=1
-	movmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edx
-	movaps	xmm3, xmm2
-	subss	xmm3, xmm1
-	cvttss2si	rdi, xmm3
-	xor	rdi, r9
-	cvttss2si	rdx, xmm2
-	ucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_290
-.LBB4_703:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	jne	.LBB4_705
-# %bb.704:                              #   in Loop: Header=BB4_703 Depth=1
-	xor	edx, edx
-	jmp	.LBB4_706
-.LBB4_705:                              #   in Loop: Header=BB4_703 Depth=1
-	movmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edx
-	movaps	xmm3, xmm2
-	subss	xmm3, xmm1
-	cvttss2si	rdi, xmm3
-	xor	rdi, r9
-	cvttss2si	rdx, xmm2
-	ucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-.LBB4_706:                              #   in Loop: Header=BB4_703 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdx
-	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	jne	.LBB4_701
-# %bb.707:                              #   in Loop: Header=BB4_703 Depth=1
-	xor	edx, edx
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_703
-.LBB4_290:
-	test	r10b, 1
-	je	.LBB4_1655
-# %bb.291:
-	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	xorps	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	jne	.LBB4_993
-# %bb.292:
-	xor	ecx, ecx
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1655
-.LBB4_713:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1021
-# %bb.714:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_715:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_715
-	jmp	.LBB4_1022
-.LBB4_716:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1137
-# %bb.717:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_718:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_718
-	jmp	.LBB4_1138
-.LBB4_719:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1142
-# %bb.720:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_721:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_721
-	jmp	.LBB4_1143
-.LBB4_722:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1147
-# %bb.723:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-.LBB4_724:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm5
-	movd	dword ptr [r8 + 2*rdi + 4], xmm6
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi + 8], xmm5
-	movd	dword ptr [r8 + 2*rdi + 12], xmm6
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_724
-	jmp	.LBB4_1148
-.LBB4_725:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1153
-# %bb.726:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-.LBB4_727:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm5
-	movd	dword ptr [r8 + 2*rdi + 4], xmm6
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi + 8], xmm5
-	movd	dword ptr [r8 + 2*rdi + 12], xmm6
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_727
-	jmp	.LBB4_1154
-.LBB4_738:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1027
-# %bb.739:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
-.LBB4_740:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi], xmm3
-	movd	dword ptr [r8 + 2*rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi + 8], xmm3
-	movd	dword ptr [r8 + 2*rsi + 12], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_740
-	jmp	.LBB4_1028
-.LBB4_741:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1032
-# %bb.742:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
-.LBB4_743:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi], xmm3
-	movd	dword ptr [r8 + 2*rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi + 8], xmm3
-	movd	dword ptr [r8 + 2*rsi + 12], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_743
-	jmp	.LBB4_1033
-.LBB4_764:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1037
-# %bb.765:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-.LBB4_766:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm5
-	movd	dword ptr [r8 + 2*rsi + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi + 8], xmm5
-	movd	dword ptr [r8 + 2*rsi + 12], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_766
-	jmp	.LBB4_1038
-.LBB4_767:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1159
-# %bb.768:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-.LBB4_769:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm5
-	movd	dword ptr [r8 + 2*rsi + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi + 8], xmm5
-	movd	dword ptr [r8 + 2*rsi + 12], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_769
-	jmp	.LBB4_1160
-.LBB4_770:
-	mov	esi, eax
-	and	esi, -8
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1165
-# %bb.771:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-.LBB4_772:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB4_772
-	jmp	.LBB4_1166
-.LBB4_773:
-	mov	esi, eax
-	and	esi, -8
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1171
-# %bb.774:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-.LBB4_775:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB4_775
-	jmp	.LBB4_1172
-.LBB4_786:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1043
-# %bb.787:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-.LBB4_788:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_788
-	jmp	.LBB4_1044
-.LBB4_789:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1049
-# %bb.790:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-.LBB4_791:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_791
-	jmp	.LBB4_1050
-.LBB4_792:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1177
-# %bb.793:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_794:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_794
-	jmp	.LBB4_1178
-.LBB4_795:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1182
-# %bb.796:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_19] # xmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_797:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_797
-	jmp	.LBB4_1183
-.LBB4_798:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1190
-# %bb.799:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_800:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movq	xmm7, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	cvttsd2si	rbx, xmm5
-	movq	xmm5, rbx
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	cvttsd2si	rbx, xmm6
-	movq	xmm5, rbx
-	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
-	cvttsd2si	rbx, xmm6
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm7
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rsi], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movq	xmm7, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	cvttsd2si	rbx, xmm5
-	movq	xmm5, rbx
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	cvttsd2si	rbx, xmm6
-	movq	xmm5, rbx
-	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
-	cvttsd2si	rbx, xmm6
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm7
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_800
-	jmp	.LBB4_1191
-.LBB4_801:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1196
-# %bb.802:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm8, xmm8
-	cvtpd2ps	xmm1, xmmword ptr [rip + .LCPI4_1]
-	movaps	xmm9, xmmword ptr [rip + .LCPI4_3] # xmm9 = [NaN,NaN,NaN,NaN]
-	movshdup	xmm3, xmm1                      # xmm3 = xmm1[1,1,3,3]
-	andps	xmm3, xmm9
-	andps	xmm1, xmm9
-.LBB4_803:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm5, xmm5
-	cvtsd2ss	xmm5, xmm4
-	cmpeqpd	xmm4, xmm8
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	xorps	xmm7, xmm7
-	cvtsd2ss	xmm7, xmm6
-	cmpeqpd	xmm6, xmm8
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm0
-	orps	xmm2, xmm3
-	movaps	xmm0, xmm9
-	andnps	xmm0, xmm5
-	orps	xmm0, xmm1
-	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
-	andnps	xmm4, xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm0
-	orps	xmm2, xmm3
-	movaps	xmm0, xmm9
-	andnps	xmm0, xmm7
-	orps	xmm0, xmm1
-	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
-	andnps	xmm6, xmm0
-	movlhps	xmm4, xmm6                      # xmm4 = xmm4[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm4
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi + 48]
-	xorps	xmm2, xmm2
-	cvtsd2ss	xmm2, xmm4
-	cmpeqpd	xmm4, xmm8
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	xorps	xmm5, xmm5
-	cvtsd2ss	xmm5, xmm0
-	cmpeqpd	xmm0, xmm8
-	movsd	xmm6, qword ptr [rcx + 8*rsi + 40] # xmm6 = mem[0],zero
-	cvtsd2ss	xmm6, xmm6
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movaps	xmm7, xmm9
-	andnps	xmm7, xmm6
-	orps	xmm7, xmm3
-	movaps	xmm6, xmm9
-	andnps	xmm6, xmm2
-	orps	xmm6, xmm1
-	unpcklps	xmm6, xmm7                      # xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1]
-	andnps	xmm4, xmm6
-	movsd	xmm2, qword ptr [rcx + 8*rsi + 56] # xmm2 = mem[0],zero
-	cvtsd2ss	xmm2, xmm2
-	movaps	xmm6, xmm9
-	andnps	xmm6, xmm2
-	orps	xmm6, xmm3
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm5
-	orps	xmm2, xmm1
-	unpcklps	xmm2, xmm6                      # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]
-	andnps	xmm0, xmm2
-	movlhps	xmm4, xmm0                      # xmm4 = xmm4[0],xmm0[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_803
-	jmp	.LBB4_1197
-.LBB4_819:
-	and	edx, -4
-	xor	esi, esi
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_821
-.LBB4_820:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_387
-.LBB4_821:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_822
-# %bb.825:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_826
-.LBB4_823:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_824
-.LBB4_827:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_820
-	jmp	.LBB4_828
-.LBB4_822:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_823
-.LBB4_826:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_827
-.LBB4_824:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_820
-.LBB4_828:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_820
-.LBB4_829:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1055
-# %bb.830:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_831:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_831
-	jmp	.LBB4_1056
-.LBB4_832:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1204
-# %bb.833:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_834:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_834
-	jmp	.LBB4_1205
-.LBB4_835:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1212
-# %bb.836:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_837:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_837
-	jmp	.LBB4_1213
-.LBB4_838:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1218
-# %bb.839:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_840:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_840
-	jmp	.LBB4_1219
-.LBB4_846:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_848
-.LBB4_847:                              #   in Loop: Header=BB4_848 Depth=1
-	movss	dword ptr [r8 + 4*rax + 4], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_410
-.LBB4_848:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_849
-# %bb.852:                              #   in Loop: Header=BB4_848 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_853
-.LBB4_850:                              #   in Loop: Header=BB4_848 Depth=1
-	movss	dword ptr [r8 + 4*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_851
-.LBB4_854:                              #   in Loop: Header=BB4_848 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_847
-	jmp	.LBB4_855
-.LBB4_849:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_850
-.LBB4_853:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm2
-	movss	dword ptr [r8 + 4*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_854
-.LBB4_851:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_847
-.LBB4_855:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_847
-.LBB4_856:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	jmp	.LBB4_859
-.LBB4_857:                              #   in Loop: Header=BB4_859 Depth=1
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvttss2si	rdi, xmm1
-	mov	qword ptr [r8 + 8*rax + 8], rdi
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_416
-.LBB4_859:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm1
-	jne	.LBB4_861
-# %bb.860:                              #   in Loop: Header=BB4_859 Depth=1
-	xor	edi, edi
-	jmp	.LBB4_862
-.LBB4_861:                              #   in Loop: Header=BB4_859 Depth=1
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvttss2si	rdi, xmm1
-.LBB4_862:                              #   in Loop: Header=BB4_859 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdi
-	movss	xmm1, dword ptr [rcx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm1
-	jne	.LBB4_857
-# %bb.863:                              #   in Loop: Header=BB4_859 Depth=1
-	xor	edi, edi
-	mov	qword ptr [r8 + 8*rax + 8], rdi
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_859
-.LBB4_416:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.417:
-	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	xorps	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	jne	.LBB4_1104
-# %bb.418:
-	xor	ecx, ecx
-	jmp	.LBB4_1105
-.LBB4_884:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1060
-# %bb.885:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_886:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_886
-	jmp	.LBB4_1061
-.LBB4_887:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1066
-# %bb.888:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_889:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_889
-	jmp	.LBB4_1067
-.LBB4_945:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1076
-# %bb.946:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_947:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm5, xmm3
-	cmpeqpd	xmm5, xmm0
-	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	movapd	xmm6, xmm4
-	cmpeqpd	xmm6, xmm0
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	andpd	xmm4, xmm1
-	orpd	xmm4, xmm2
-	cvttpd2dq	xmm3, xmm3
-	cvttpd2dq	xmm4, xmm4
-	andnps	xmm5, xmm3
-	andnps	xmm6, xmm4
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm5
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm5, xmm3
-	cmpeqpd	xmm5, xmm0
-	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	movapd	xmm6, xmm4
-	cmpeqpd	xmm6, xmm0
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	andpd	xmm4, xmm1
-	orpd	xmm4, xmm2
-	cvttpd2dq	xmm3, xmm3
-	andnps	xmm5, xmm3
-	cvttpd2dq	xmm3, xmm4
-	andnps	xmm6, xmm3
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm5
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_947
-	jmp	.LBB4_1077
-.LBB4_953:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1082
-# %bb.954:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
-.LBB4_955:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_955
-	jmp	.LBB4_1083
-.LBB4_956:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1087
-# %bb.957:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_958:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_958
-	jmp	.LBB4_1088
-.LBB4_959:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1092
-# %bb.960:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_961:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_961
-	jmp	.LBB4_1093
-.LBB4_962:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1098
-# %bb.963:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-.LBB4_964:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_964
-	jmp	.LBB4_1099
-.LBB4_965:
-	mov	edx, eax
-	and	edx, -8
-	xor	esi, esi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_966:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cvttps2dq	xmm4, xmm4
-	cvttps2dq	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	add	rsi, 8
-	cmp	rdx, rsi
-	jne	.LBB4_966
-# %bb.967:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_968:
-	xorps	xmm0, xmm0
-	jmp	.LBB4_970
-.LBB4_969:                              #   in Loop: Header=BB4_970 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_970:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	ucomiss	xmm0, xmm1
-	je	.LBB4_969
-# %bb.971:                              #   in Loop: Header=BB4_970 Depth=1
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, esi
-	cvttss2si	esi, xmm1
-	jmp	.LBB4_969
-.LBB4_496:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1228
-# %bb.497:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_498:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_498
-	jmp	.LBB4_1229
-.LBB4_504:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1236
-# %bb.505:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_506:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_506
-	jmp	.LBB4_1237
-.LBB4_524:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1245
-# %bb.525:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_526:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_526
-	jmp	.LBB4_1246
-.LBB4_529:
-	mov	edx, r11d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1253
-# %bb.530:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_531:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_531
-	jmp	.LBB4_1254
-.LBB4_544:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1262
-# %bb.545:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_546:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [r8 + 8*rsi], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_546
-	jmp	.LBB4_1263
-.LBB4_625:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1271
-# %bb.626:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_627:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi], xmm3
-	movd	dword ptr [r8 + rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi + 8], xmm3
-	movd	dword ptr [r8 + rsi + 12], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_627
-	jmp	.LBB4_1272
-.LBB4_630:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1279
-# %bb.631:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_632:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_632
-	jmp	.LBB4_1280
-.LBB4_635:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1288
-# %bb.636:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_637:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rdi, 2
-	jne	.LBB4_637
-	jmp	.LBB4_1289
-.LBB4_640:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1297
-# %bb.641:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_642:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_642
-	jmp	.LBB4_1298
-.LBB4_645:
-	mov	edx, eax
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1305
-# %bb.646:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_647:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_647
-	jmp	.LBB4_1306
-.LBB4_650:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1313
-# %bb.651:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_652:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	add	rax, 32
-	add	rdi, 2
-	jne	.LBB4_652
-	jmp	.LBB4_1314
-.LBB4_655:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1322
-# %bb.656:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_657:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm5, 0
-	pextrw	word ptr [r8 + rax + 2], xmm6, 0
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax + 4], xmm5, 0
-	pextrw	word ptr [r8 + rax + 6], xmm6, 0
-	add	rax, 8
-	add	rdi, 2
-	jne	.LBB4_657
-	jmp	.LBB4_1323
-.LBB4_660:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1331
-# %bb.661:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_662:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	movd	dword ptr [r8 + rsi + 8], xmm5
-	movd	dword ptr [r8 + rsi + 12], xmm7
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_662
-	jmp	.LBB4_1332
-.LBB4_665:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1340
-# %bb.666:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_667:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + rsi]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_667
-	jmp	.LBB4_1341
-.LBB4_670:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1348
-# %bb.671:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_672:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm5
-	movd	dword ptr [r8 + rax + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax + 8], xmm5
-	movd	dword ptr [r8 + rax + 12], xmm6
-	add	rax, 16
-	add	rdi, 2
-	jne	.LBB4_672
-	jmp	.LBB4_1349
-.LBB4_681:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1357
-# %bb.682:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_683:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_683
-	jmp	.LBB4_1358
-.LBB4_686:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1366
-# %bb.687:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
-.LBB4_688:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_688
-	jmp	.LBB4_1367
-.LBB4_697:
-	mov	edx, r11d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1374
-# %bb.698:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_699:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_699
-	jmp	.LBB4_1375
-.LBB4_710:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1383
-# %bb.711:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_712:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_712
-	jmp	.LBB4_1384
-.LBB4_730:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1391
-# %bb.731:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_732:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_732
-	jmp	.LBB4_1392
-.LBB4_735:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1400
-# %bb.736:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_737:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_737
-	jmp	.LBB4_1401
-.LBB4_746:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1409
-# %bb.747:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB4_748:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_748
-	jmp	.LBB4_1410
-.LBB4_751:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1417
-# %bb.752:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB4_753:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_753
-	jmp	.LBB4_1418
-.LBB4_756:
-	mov	edx, r11d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1425
-# %bb.757:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_758:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_758
-	jmp	.LBB4_1426
-.LBB4_761:
-	mov	edx, r11d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1434
-# %bb.762:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_763:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_763
-	jmp	.LBB4_1435
-.LBB4_778:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1443
-# %bb.779:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
-.LBB4_780:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_780
-	jmp	.LBB4_1444
-.LBB4_783:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1451
-# %bb.784:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
-.LBB4_785:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_785
-	jmp	.LBB4_1452
-.LBB4_806:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1459
-# %bb.807:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_808:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_808
-	jmp	.LBB4_1460
-.LBB4_811:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1468
-# %bb.812:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_813:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_813
-	jmp	.LBB4_1469
-.LBB4_816:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1490
-# %bb.817:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
-.LBB4_818:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_818
-	jmp	.LBB4_1491
-.LBB4_843:
-	mov	edx, r11d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1498
-# %bb.844:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_845:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_845
-	jmp	.LBB4_1499
-.LBB4_989:
-	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_990:
-	jle	.LBB4_992
-# %bb.991:
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_992:
-	movss	dword ptr [r8 + 4*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_866:
-	mov	edx, eax
-	and	edx, -8
-	xor	esi, esi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_867:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	add	rsi, 8
-	cmp	rdx, rsi
-	jne	.LBB4_867
-# %bb.868:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_869
-.LBB4_876:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1507
-# %bb.877:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_878:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_878
-	jmp	.LBB4_1508
-.LBB4_881:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1515
-# %bb.882:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_883:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_883
-	jmp	.LBB4_1516
-.LBB4_892:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1535
-# %bb.893:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_894:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi], xmm3
-	movd	dword ptr [r8 + rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi + 8], xmm3
-	movd	dword ptr [r8 + rsi + 12], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_894
-	jmp	.LBB4_1536
-.LBB4_897:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1543
-# %bb.898:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_899:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_899
-	jmp	.LBB4_1544
-.LBB4_902:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1552
-# %bb.903:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_904:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rdi, 2
-	jne	.LBB4_904
-	jmp	.LBB4_1553
-.LBB4_907:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1561
-# %bb.908:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_909:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_909
-	jmp	.LBB4_1562
-.LBB4_912:
-	mov	edx, eax
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1569
-# %bb.913:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_914:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_914
-	jmp	.LBB4_1570
-.LBB4_917:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1577
-# %bb.918:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_919:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	add	rax, 32
-	add	rdi, 2
-	jne	.LBB4_919
-	jmp	.LBB4_1578
-.LBB4_922:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1586
-# %bb.923:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_924:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm5, 0
-	pextrw	word ptr [r8 + rax + 2], xmm6, 0
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax + 4], xmm5, 0
-	pextrw	word ptr [r8 + rax + 6], xmm6, 0
-	add	rax, 8
-	add	rdi, 2
-	jne	.LBB4_924
-	jmp	.LBB4_1587
-.LBB4_927:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1595
-# %bb.928:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_929:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	movd	dword ptr [r8 + rsi + 8], xmm5
-	movd	dword ptr [r8 + rsi + 12], xmm7
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_929
-	jmp	.LBB4_1596
-.LBB4_932:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1604
-# %bb.933:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_934:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + rsi]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_934
-	jmp	.LBB4_1605
-.LBB4_937:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1612
-# %bb.938:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_939:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm5
-	movd	dword ptr [r8 + rax + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax + 8], xmm5
-	movd	dword ptr [r8 + rax + 12], xmm6
-	add	rax, 16
-	add	rdi, 2
-	jne	.LBB4_939
-	jmp	.LBB4_1613
-.LBB4_942:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1621
-# %bb.943:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_944:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_944
-	jmp	.LBB4_1622
-.LBB4_950:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1629
-# %bb.951:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_952:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_952
-	jmp	.LBB4_1630
-.LBB4_974:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1638
-# %bb.975:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_976:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_976
-	jmp	.LBB4_1639
-.LBB4_979:
-	mov	edx, r11d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1646
-# %bb.980:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_981:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_981
-	jmp	.LBB4_1647
-.LBB4_1475:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1476:
-	jle	.LBB4_1478
-# %bb.1477:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1478:
-	movd	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1479:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1480:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1482
-.LBB4_1481:                             #   in Loop: Header=BB4_1482 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1482:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1483
-# %bb.1486:                             #   in Loop: Header=BB4_1482 Depth=1
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm1
-	jle	.LBB4_1487
-.LBB4_1484:                             #   in Loop: Header=BB4_1482 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1485
-.LBB4_1488:                             #   in Loop: Header=BB4_1482 Depth=1
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1481
-	jmp	.LBB4_1489
-.LBB4_1483:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1484
-.LBB4_1487:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm2
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm2, xmm0
-	je	.LBB4_1488
-.LBB4_1485:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1481
-.LBB4_1489:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1481
-.LBB4_994:
-	xor	esi, esi
-.LBB4_995:
-	test	r9b, 1
-	je	.LBB4_997
-# %bb.996:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pandn	xmm1, xmm3
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-.LBB4_997:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_998:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_998
-	jmp	.LBB4_1655
-.LBB4_999:
-	xor	esi, esi
-.LBB4_1000:
-	test	r9b, 1
-	je	.LBB4_1002
-# %bb.1001:
-	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1002:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1003:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1003
-	jmp	.LBB4_1655
-.LBB4_1004:
-	xor	edi, edi
-.LBB4_1005:
-	test	r9b, 1
-	je	.LBB4_1007
-# %bb.1006:
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	orpd	xmm1, xmmword ptr [rip + .LCPI4_1]
-	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	movapd	xmm3, xmm1
-	subsd	xmm3, xmm2
-	cvttsd2si	rax, xmm3
-	xor	rax, r11
-	cvttsd2si	rdx, xmm1
-	ucomisd	xmm1, xmm2
-	cmovae	rdx, rax
-	movq	xmm3, rdx
-	pshufd	xmm1, xmm1, 238                 # xmm1 = xmm1[2,3,2,3]
-	movdqa	xmm4, xmm1
-	subsd	xmm4, xmm2
-	cvttsd2si	rax, xmm4
-	xor	rax, r11
-	cvttsd2si	rdx, xmm1
-	ucomisd	xmm1, xmm2
-	xorpd	xmm1, xmm1
-	cmovae	rdx, rax
-	movq	xmm2, rdx
-	punpcklqdq	xmm3, xmm2              # xmm3 = xmm3[0],xmm2[0]
-	cmpneqpd	xmm1, xmm0
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm1
-.LBB4_1007:
-	cmp	rsi, r10
-	je	.LBB4_1655
-.LBB4_1008:
-	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	xor	eax, eax
-	xorpd	xmm3, xmm3
-.LBB4_1009:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm0
-	orpd	xmm5, xmm1
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm2
-	cvttsd2si	rdx, xmm6
-	xor	rdx, r11
-	cvttsd2si	rdi, xmm5
-	ucomisd	xmm5, xmm2
-	cmovae	rdi, rdx
-	ucomisd	xmm3, xmm4
-	cmove	rdi, rax
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r10, rsi
-	jne	.LBB4_1009
-	jmp	.LBB4_1655
-.LBB4_1010:
-	xor	esi, esi
-.LBB4_1011:
-	test	r9b, 1
-	je	.LBB4_1013
-# %bb.1012:
-	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1013:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1014:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1014
-	jmp	.LBB4_1655
-.LBB4_1015:
-	xor	esi, esi
-.LBB4_1016:
-	test	r9b, 1
-	je	.LBB4_1018
-# %bb.1017:
-	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwq	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1018:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1019:
-	mov	esi, 1
-.LBB4_1020:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1020
-	jmp	.LBB4_1655
-.LBB4_993:
-	movmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm0
-	subss	xmm2, xmm1
-	cvttss2si	rcx, xmm2
-	movabs	rdx, -9223372036854775808
-	xor	rdx, rcx
-	cvttss2si	rcx, xmm0
-	ucomiss	xmm0, xmm1
-	cmovae	rcx, rdx
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1655
-.LBB4_1021:
-	xor	esi, esi
-.LBB4_1022:
-	test	r9b, 1
-	je	.LBB4_1024
-# %bb.1023:
-	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxdq	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxdq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1024:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1025:
-	mov	esi, 1
-.LBB4_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1026
-	jmp	.LBB4_1655
-.LBB4_1027:
-	xor	esi, esi
-.LBB4_1028:
-	test	r9b, 1
-	je	.LBB4_1030
-# %bb.1029:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + 2*rsi], xmm0
-	movd	dword ptr [r8 + 2*rsi + 4], xmm1
-.LBB4_1030:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1031
-	jmp	.LBB4_1655
-.LBB4_1032:
-	xor	esi, esi
-.LBB4_1033:
-	test	r9b, 1
-	je	.LBB4_1035
-# %bb.1034:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + 2*rsi], xmm0
-	movd	dword ptr [r8 + 2*rsi + 4], xmm1
-.LBB4_1035:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1036
-	jmp	.LBB4_1655
-.LBB4_1037:
-	xor	esi, esi
-.LBB4_1038:
-	test	r9b, 1
-	je	.LBB4_1040
-# %bb.1039:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm2
-	movd	dword ptr [r8 + 2*rsi + 4], xmm3
-.LBB4_1040:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1041:
-	mov	esi, 1
-.LBB4_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1042
-	jmp	.LBB4_1655
-.LBB4_1043:
-	xor	esi, esi
-.LBB4_1044:
-	test	r9b, 1
-	je	.LBB4_1046
-# %bb.1045:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-.LBB4_1046:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1047:
-	mov	esi, 1
-.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1048
-	jmp	.LBB4_1655
-.LBB4_1049:
-	xor	esi, esi
-.LBB4_1050:
-	test	r9b, 1
-	je	.LBB4_1052
-# %bb.1051:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-.LBB4_1052:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1053:
-	mov	esi, 1
-.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1054
-	jmp	.LBB4_1655
-.LBB4_1055:
-	xor	esi, esi
-.LBB4_1056:
-	test	r9b, 1
-	je	.LBB4_1058
-# %bb.1057:
-	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1058:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1059:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1059
-	jmp	.LBB4_1655
-.LBB4_1060:
-	xor	esi, esi
-.LBB4_1061:
-	test	r9b, 1
-	je	.LBB4_1063
-# %bb.1062:
-	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxdq	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxdq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1063:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1064:
-	mov	esi, 1
-.LBB4_1065:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1065
-	jmp	.LBB4_1655
-.LBB4_1066:
-	xor	esi, esi
-.LBB4_1067:
-	test	r9b, 1
-	je	.LBB4_1069
-# %bb.1068:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1069:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1070:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1072
-.LBB4_1071:                             #   in Loop: Header=BB4_1072 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1072:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1074
-# %bb.1073:                             #   in Loop: Header=BB4_1072 Depth=1
-	pxor	xmm2, xmm2
-.LBB4_1074:                             #   in Loop: Header=BB4_1072 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1071
-# %bb.1075:                             #   in Loop: Header=BB4_1072 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1071
-.LBB4_1076:
-	xor	edi, edi
-.LBB4_1077:
-	test	r9b, 1
-	je	.LBB4_1079
-# %bb.1078:
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm0
-	cmpeqpd	xmm3, xmm2
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	cmpeqpd	xmm2, xmm1
-	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
-	andpd	xmm0, xmm4
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm0, xmm5
-	andpd	xmm1, xmm4
-	orpd	xmm1, xmm5
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	andnps	xmm3, xmm0
-	andnps	xmm2, xmm1
-	movlhps	xmm3, xmm2                      # xmm3 = xmm3[0],xmm2[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm3
-.LBB4_1079:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1080:
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1081:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1081
-	jmp	.LBB4_1655
-.LBB4_1082:
-	xor	esi, esi
-.LBB4_1083:
-	test	r9b, 1
-	je	.LBB4_1085
-# %bb.1084:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pandn	xmm1, xmm3
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-.LBB4_1085:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1086:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1086
-	jmp	.LBB4_1655
-.LBB4_1087:
-	xor	esi, esi
-.LBB4_1088:
-	test	r9b, 1
-	je	.LBB4_1090
-# %bb.1089:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1090:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1091:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1091
-	jmp	.LBB4_1655
-.LBB4_1092:
-	xor	esi, esi
-.LBB4_1093:
-	test	r9b, 1
-	je	.LBB4_1095
-# %bb.1094:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1095:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1096:
-	mov	esi, 1
-.LBB4_1097:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1097
-	jmp	.LBB4_1655
-.LBB4_1098:
-	xor	esi, esi
-.LBB4_1099:
-	test	r9b, 1
-	je	.LBB4_1101
-# %bb.1100:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm2, xmm4
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pcmpeqq	xmm3, xmm4
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pxor	xmm3, xmm5
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1101:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1102:
-	mov	esi, 1
-.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1103
-	jmp	.LBB4_1655
-.LBB4_1106:
-	xor	edi, edi
-.LBB4_1107:
-	test	r9b, 1
-	je	.LBB4_1109
-# %bb.1108:
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm1, xmm1
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm1
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	cmpeqpd	xmm1, xmm2
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm4
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm5
-	andpd	xmm2, xmm4
-	orpd	xmm2, xmm5
-	pshufd	xmm4, xmm3, 238                 # xmm4 = xmm3[2,3,2,3]
-	cvttsd2si	rax, xmm4
-	cvttsd2si	rdx, xmm3
-	movd	xmm3, edx
-	pinsrd	xmm3, eax, 1
-	pshufd	xmm4, xmm2, 238                 # xmm4 = xmm2[2,3,2,3]
-	cvttsd2si	rax, xmm4
-	cvttsd2si	rdx, xmm2
-	shufps	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	movd	xmm2, edx
-	pinsrd	xmm2, eax, 1
-	andnps	xmm0, xmm3
-	andnps	xmm1, xmm2
-	movlhps	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-.LBB4_1109:
-	cmp	rsi, r11
-	je	.LBB4_1655
-.LBB4_1110:
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	rax, xmm3
-	cmove	eax, r10d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	cmp	r11, rsi
-	jne	.LBB4_1111
-	jmp	.LBB4_1655
-.LBB4_1112:
-	xor	esi, esi
-.LBB4_1113:
-	test	r9b, 1
-	je	.LBB4_1115
-# %bb.1114:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1115:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1116:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1116
-	jmp	.LBB4_1655
-.LBB4_1117:
-	xor	esi, esi
-.LBB4_1118:
-	test	r9b, 1
-	je	.LBB4_1120
-# %bb.1119:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1120:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1121:
-	mov	esi, 1
-.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1122
-	jmp	.LBB4_1655
-.LBB4_1123:
-	xor	esi, esi
-.LBB4_1124:
-	test	r9b, 1
-	je	.LBB4_1126
-# %bb.1125:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm2, xmm4
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pcmpeqq	xmm3, xmm4
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pxor	xmm3, xmm5
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1126:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1127:
-	mov	esi, 1
-.LBB4_1128:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1128
-	jmp	.LBB4_1655
-.LBB4_1129:
-	xor	esi, esi
-.LBB4_1130:
-	test	r9b, 1
-	je	.LBB4_1132
-# %bb.1131:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	xorps	xmm1, xmm1
-	cmpneqps	xmm1, xmm0
-	psrad	xmm0, 31
-	por	xmm0, xmmword ptr [rip + .LCPI4_8]
-	cvtdq2ps	xmm2, xmm0
-	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm0, xmm2
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm2
-	subps	xmm2, xmm3
-	cvttps2dq	xmm2, xmm2
-	xorps	xmm2, xmmword ptr [rip + .LCPI4_4]
-	blendvps	xmm2, xmm4, xmm0
-	andps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rsi], xmm1
-.LBB4_1132:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1133:
-	xorps	xmm0, xmm0
-	jmp	.LBB4_1135
-.LBB4_1134:                             #   in Loop: Header=BB4_1135 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1135:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	ucomiss	xmm0, xmm1
-	je	.LBB4_1134
-# %bb.1136:                             #   in Loop: Header=BB4_1135 Depth=1
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, esi
-	cvttss2si	rsi, xmm1
-	jmp	.LBB4_1134
-.LBB4_1137:
-	xor	esi, esi
-.LBB4_1138:
-	test	r9b, 1
-	je	.LBB4_1140
-# %bb.1139:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-.LBB4_1140:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1141:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1141
-	jmp	.LBB4_1655
-.LBB4_1142:
-	xor	esi, esi
-.LBB4_1143:
-	test	r9b, 1
-	je	.LBB4_1145
-# %bb.1144:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-.LBB4_1145:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1146:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1146
-	jmp	.LBB4_1655
-.LBB4_1147:
-	xor	edi, edi
-.LBB4_1148:
-	test	r9b, 1
-	je	.LBB4_1150
-# %bb.1149:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm4, xmm4
-	movapd	xmm0, xmm2
-	cmpeqpd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm3
-	cmpeqpd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm2, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm2, xmm6
-	andpd	xmm3, xmm5
-	orpd	xmm3, xmm6
-	cvttpd2dq	xmm2, xmm2
-	cvttpd2dq	xmm3, xmm3
-	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
-	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm2
-	movd	dword ptr [r8 + 2*rdi + 4], xmm3
-.LBB4_1150:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1151:
-	pxor	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1152
-	jmp	.LBB4_1655
-.LBB4_1153:
-	xor	edi, edi
-.LBB4_1154:
-	test	r9b, 1
-	je	.LBB4_1156
-# %bb.1155:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm4, xmm4
-	movapd	xmm0, xmm2
-	cmpeqpd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm3
-	cmpeqpd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm2, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm2, xmm6
-	andpd	xmm3, xmm5
-	orpd	xmm3, xmm6
-	cvttpd2dq	xmm2, xmm2
-	cvttpd2dq	xmm3, xmm3
-	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
-	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm2
-	movd	dword ptr [r8 + 2*rdi + 4], xmm3
-.LBB4_1156:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1157:
-	pxor	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1158
-	jmp	.LBB4_1655
-.LBB4_1159:
-	xor	esi, esi
-.LBB4_1160:
-	test	r9b, 1
-	je	.LBB4_1162
-# %bb.1161:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm2
-	movd	dword ptr [r8 + 2*rsi + 4], xmm3
-.LBB4_1162:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1163:
-	mov	esi, 1
-.LBB4_1164:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1164
-	jmp	.LBB4_1655
-.LBB4_1165:
-	xor	edi, edi
-.LBB4_1166:
-	test	r9b, 1
-	je	.LBB4_1168
-# %bb.1167:
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-.LBB4_1168:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1169:
-	pxor	xmm0, xmm0
-.LBB4_1170:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movd	edx, xmm1
-	xor	edi, edi
-	test	edx, edx
-	setns	dil
-	ucomiss	xmm0, xmm1
-	lea	edx, [rdi + rdi - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1170
-	jmp	.LBB4_1655
-.LBB4_1171:
-	xor	edi, edi
-.LBB4_1172:
-	test	r9b, 1
-	je	.LBB4_1174
-# %bb.1173:
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-.LBB4_1174:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1175:
-	pxor	xmm0, xmm0
-.LBB4_1176:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movd	edx, xmm1
-	xor	edi, edi
-	test	edx, edx
-	setns	dil
-	ucomiss	xmm0, xmm1
-	lea	edx, [rdi + rdi - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1176
-	jmp	.LBB4_1655
-.LBB4_1177:
-	xor	esi, esi
-.LBB4_1178:
-	test	r9b, 1
-	je	.LBB4_1180
-# %bb.1179:
-	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1180:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1181:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1181
-	jmp	.LBB4_1655
-.LBB4_1182:
-	xor	esi, esi
-.LBB4_1183:
-	test	r9b, 1
-	je	.LBB4_1185
-# %bb.1184:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_19] # xmm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1185:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1186:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1188
-.LBB4_1187:                             #   in Loop: Header=BB4_1188 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1187
-# %bb.1189:                             #   in Loop: Header=BB4_1188 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1187
-.LBB4_1190:
-	xor	esi, esi
-.LBB4_1191:
-	test	r9b, 1
-	je	.LBB4_1193
-# %bb.1192:
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cvttsd2si	rdi, xmm4
-	movq	xmm5, rdi
-	pshufd	xmm4, xmm4, 238                 # xmm4 = xmm4[2,3,2,3]
-	cvttsd2si	rdi, xmm4
-	movq	xmm4, rdi
-	punpcklqdq	xmm5, xmm4              # xmm5 = xmm5[0],xmm4[0]
-	cvttsd2si	rdi, xmm3
-	movq	xmm4, rdi
-	pshufd	xmm3, xmm3, 238                 # xmm3 = xmm3[2,3,2,3]
-	cvttsd2si	rdi, xmm3
-	movq	xmm3, rdi
-	punpcklqdq	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0]
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm5
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm4
-	movupd	xmmword ptr [r8 + 8*rsi], xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1193:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1194:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1195:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	rdi, xmm3
-	cmove	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1195
-	jmp	.LBB4_1655
-.LBB4_1196:
-	xor	esi, esi
-.LBB4_1197:
-	test	r9b, 1
-	je	.LBB4_1199
-# %bb.1198:
-	movupd	xmm2, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm8, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm0, xmm0
-	cvtsd2ss	xmm3, xmm2
-	cmpeqpd	xmm2, xmm0
-	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	cvtpd2ps	xmm4, xmmword ptr [rip + .LCPI4_1]
-	cmpeqpd	xmm0, xmm8
-	movsd	xmm5, qword ptr [rcx + 8*rsi + 8] # xmm5 = mem[0],zero
-	cvtsd2ss	xmm5, xmm5
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movaps	xmm6, xmmword ptr [rip + .LCPI4_3] # xmm6 = [NaN,NaN,NaN,NaN]
-	movaps	xmm7, xmm6
-	andnps	xmm7, xmm5
-	movshdup	xmm5, xmm4                      # xmm5 = xmm4[1,1,3,3]
-	andps	xmm5, xmm6
-	orps	xmm7, xmm5
-	movaps	xmm1, xmm6
-	andnps	xmm1, xmm3
-	andps	xmm4, xmm6
-	orps	xmm1, xmm4
-	unpcklps	xmm1, xmm7                      # xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]
-	andnps	xmm2, xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
-	cvtsd2ss	xmm1, xmm1
-	movaps	xmm3, xmm6
-	andnps	xmm3, xmm1
-	orps	xmm3, xmm5
-	xorps	xmm1, xmm1
-	cvtsd2ss	xmm1, xmm8
-	andnps	xmm6, xmm1
-	orps	xmm6, xmm4
-	unpcklps	xmm6, xmm3                      # xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
-	andnps	xmm0, xmm6
-	movlhps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1199:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1200:
-	xorps	xmm0, xmm0
-	movaps	xmm1, xmmword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	movss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = mem[0],zero,zero,zero
-	jmp	.LBB4_1202
-.LBB4_1201:                             #   in Loop: Header=BB4_1202 Depth=1
-	movss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1202:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
-	ucomisd	xmm0, xmm4
-	xorps	xmm3, xmm3
-	je	.LBB4_1201
-# %bb.1203:                             #   in Loop: Header=BB4_1202 Depth=1
-	xorps	xmm3, xmm3
-	cvtsd2ss	xmm3, xmm4
-	andps	xmm3, xmm1
-	orps	xmm3, xmm2
-	jmp	.LBB4_1201
-.LBB4_1204:
-	xor	esi, esi
-.LBB4_1205:
-	test	r9b, 1
-	je	.LBB4_1207
-# %bb.1206:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	cvtdq2ps	xmm0, xmm0
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [r8 + 4*rsi], xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1207:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1208:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1210
-.LBB4_1209:                             #   in Loop: Header=BB4_1210 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1210:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1209
-# %bb.1211:                             #   in Loop: Header=BB4_1210 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1209
-.LBB4_1212:
-	xor	esi, esi
-.LBB4_1213:
-	test	r9b, 1
-	je	.LBB4_1215
-# %bb.1214:
-	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwq	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1215:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1216:
-	mov	esi, 1
-.LBB4_1217:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1217
-	jmp	.LBB4_1655
-.LBB4_1218:
-	xor	esi, esi
-.LBB4_1219:
-	test	r9b, 1
-	je	.LBB4_1221
-# %bb.1220:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1221:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1222:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1224
-.LBB4_1223:                             #   in Loop: Header=BB4_1224 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1226
-# %bb.1225:                             #   in Loop: Header=BB4_1224 Depth=1
-	pxor	xmm2, xmm2
-.LBB4_1226:                             #   in Loop: Header=BB4_1224 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1223
-# %bb.1227:                             #   in Loop: Header=BB4_1224 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1223
-.LBB4_1104:
-	movmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	cvttss2si	rcx, xmm0
-.LBB4_1105:
-	mov	qword ptr [r8 + 8*rax], rcx
-.LBB4_1655:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	ret
-.LBB4_1228:
-	xor	esi, esi
-.LBB4_1229:
-	test	r9b, 1
-	je	.LBB4_1231
-# %bb.1230:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1231:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1232
-.LBB4_1236:
-	xor	esi, esi
-.LBB4_1237:
-	test	r9b, 1
-	je	.LBB4_1239
-# %bb.1238:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1239:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1240
-.LBB4_1245:
-	xor	esi, esi
-.LBB4_1246:
-	test	r9b, 1
-	je	.LBB4_1248
-# %bb.1247:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1248:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1249
-.LBB4_1253:
-	xor	esi, esi
-.LBB4_1254:
-	test	r9b, 1
-	je	.LBB4_1256
-# %bb.1255:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-.LBB4_1256:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1257
-.LBB4_1262:
-	xor	esi, esi
-.LBB4_1263:
-	test	r9b, 1
-	je	.LBB4_1265
-# %bb.1264:
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm4
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rsi], xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1265:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1266
-.LBB4_1271:
-	xor	esi, esi
-.LBB4_1272:
-	test	r9b, 1
-	je	.LBB4_1274
-# %bb.1273:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + rsi], xmm0
-	movd	dword ptr [r8 + rsi + 4], xmm1
-.LBB4_1274:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1275
-.LBB4_1279:
-	xor	esi, esi
-.LBB4_1280:
-	test	r9b, 1
-	je	.LBB4_1282
-# %bb.1281:
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm4
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm6
-	andpd	xmm4, xmm5
-	orpd	xmm4, xmm6
-	cvttpd2dq	xmm3, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm3, xmm5
-	cvttpd2dq	xmm4, xmm4
-	pshufb	xmm4, xmm5
-	pblendvb	xmm3, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-.LBB4_1282:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1283
-.LBB4_1288:
-	xor	eax, eax
-.LBB4_1289:
-	test	r9b, 1
-	je	.LBB4_1291
-# %bb.1290:
-	movdqu	xmm1, xmmword ptr [rcx + rax]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB4_1291:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1292
-.LBB4_1297:
-	xor	esi, esi
-.LBB4_1298:
-	test	r9b, 1
-	je	.LBB4_1300
-# %bb.1299:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pextrw	word ptr [r8 + rsi], xmm0, 0
-	pand	xmm1, xmm4
-	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
-.LBB4_1300:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1301
-.LBB4_1305:
-	xor	esi, esi
-.LBB4_1306:
-	test	r9b, 1
-	je	.LBB4_1308
-# %bb.1307:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-.LBB4_1308:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1309
-.LBB4_1313:
-	xor	eax, eax
-.LBB4_1314:
-	test	r9b, 1
-	je	.LBB4_1316
-# %bb.1315:
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packsswb	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + rax], xmm2
-.LBB4_1316:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1317
-.LBB4_1322:
-	xor	eax, eax
-.LBB4_1323:
-	test	r9b, 1
-	je	.LBB4_1325
-# %bb.1324:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm2, 0
-	pextrw	word ptr [r8 + rax + 2], xmm3, 0
-.LBB4_1325:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1326
-.LBB4_1331:
-	xor	esi, esi
-.LBB4_1332:
-	test	r9b, 1
-	je	.LBB4_1334
-# %bb.1333:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-.LBB4_1334:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1335
-.LBB4_1340:
-	xor	esi, esi
-.LBB4_1341:
-	test	r9b, 1
-	je	.LBB4_1343
-# %bb.1342:
-	movdqu	xmm0, xmmword ptr [rcx + rsi]
-	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
-.LBB4_1343:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1344
-.LBB4_1348:
-	xor	eax, eax
-.LBB4_1349:
-	test	r9b, 1
-	je	.LBB4_1351
-# %bb.1350:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm2
-	movd	dword ptr [r8 + rax + 4], xmm3
-.LBB4_1351:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1352
-.LBB4_1357:
-	xor	esi, esi
-.LBB4_1358:
-	test	r9b, 1
-	je	.LBB4_1360
-# %bb.1359:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm3, eax
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbq	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1360:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1361
-.LBB4_1366:
-	xor	esi, esi
-.LBB4_1367:
-	test	r9b, 1
-	je	.LBB4_1369
-# %bb.1368:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1369:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1370
-.LBB4_1374:
-	xor	esi, esi
-.LBB4_1375:
-	test	r9b, 1
-	je	.LBB4_1377
-# %bb.1376:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-.LBB4_1377:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1378
-.LBB4_1383:
-	xor	esi, esi
-.LBB4_1384:
-	test	r9b, 1
-	je	.LBB4_1386
-# %bb.1385:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm1, eax
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1386:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1387
-.LBB4_1391:
-	xor	esi, esi
-.LBB4_1392:
-	test	r9b, 1
-	je	.LBB4_1394
-# %bb.1393:
-	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbw	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-.LBB4_1394:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1395
-.LBB4_1400:
-	xor	esi, esi
-.LBB4_1401:
-	test	r9b, 1
-	je	.LBB4_1403
-# %bb.1402:
-	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbw	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-.LBB4_1403:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1404
-.LBB4_1409:
-	xor	esi, esi
-.LBB4_1410:
-	test	r9b, 1
-	je	.LBB4_1412
-# %bb.1411:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1412:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1413
-.LBB4_1417:
-	xor	esi, esi
-.LBB4_1418:
-	test	r9b, 1
-	je	.LBB4_1420
-# %bb.1419:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1420:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1421
-.LBB4_1425:
-	xor	esi, esi
-.LBB4_1426:
-	test	r9b, 1
-	je	.LBB4_1428
-# %bb.1427:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-.LBB4_1428:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1429
-.LBB4_1434:
-	xor	esi, esi
-.LBB4_1435:
-	test	r9b, 1
-	je	.LBB4_1437
-# %bb.1436:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-.LBB4_1437:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1438
-.LBB4_1443:
-	xor	esi, esi
-.LBB4_1444:
-	test	r9b, 1
-	je	.LBB4_1446
-# %bb.1445:
-	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1446:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1447
-.LBB4_1451:
-	xor	esi, esi
-.LBB4_1452:
-	test	r9b, 1
-	je	.LBB4_1454
-# %bb.1453:
-	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1454:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1455
-.LBB4_1459:
-	xor	esi, esi
-.LBB4_1460:
-	test	r9b, 1
-	je	.LBB4_1462
-# %bb.1461:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm3, eax
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbq	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1462:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1463
-.LBB4_1468:
-	xor	esi, esi
-.LBB4_1469:
-	test	r9b, 1
-	je	.LBB4_1471
-# %bb.1470:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1471:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1472
-.LBB4_1490:
-	xor	esi, esi
-.LBB4_1491:
-	test	r9b, 1
-	je	.LBB4_1493
-# %bb.1492:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1493:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1494
-.LBB4_1498:
-	xor	esi, esi
-.LBB4_1499:
-	test	r9b, 1
-	je	.LBB4_1501
-# %bb.1500:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-.LBB4_1501:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1502
-.LBB4_1507:
-	xor	esi, esi
-.LBB4_1508:
-	test	r9b, 1
-	je	.LBB4_1510
-# %bb.1509:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm1, eax
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1510:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1511
-.LBB4_1515:
-	xor	esi, esi
-.LBB4_1516:
-	test	r9b, 1
-	je	.LBB4_1518
-# %bb.1517:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	cvtdq2ps	xmm0, xmm0
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [r8 + 4*rsi], xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1518:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1519
-.LBB4_1535:
-	xor	esi, esi
-.LBB4_1536:
-	test	r9b, 1
-	je	.LBB4_1538
-# %bb.1537:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + rsi], xmm0
-	movd	dword ptr [r8 + rsi + 4], xmm1
-.LBB4_1538:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1539
-.LBB4_1543:
-	xor	esi, esi
-.LBB4_1544:
-	test	r9b, 1
-	je	.LBB4_1546
-# %bb.1545:
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm4
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm6
-	andpd	xmm4, xmm5
-	orpd	xmm4, xmm6
-	cvttpd2dq	xmm3, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm3, xmm5
-	cvttpd2dq	xmm4, xmm4
-	pshufb	xmm4, xmm5
-	pblendvb	xmm3, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-.LBB4_1546:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1547
-.LBB4_1552:
-	xor	eax, eax
-.LBB4_1553:
-	test	r9b, 1
-	je	.LBB4_1555
-# %bb.1554:
-	movdqu	xmm1, xmmword ptr [rcx + rax]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB4_1555:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1556
-.LBB4_1561:
-	xor	esi, esi
-.LBB4_1562:
-	test	r9b, 1
-	je	.LBB4_1564
-# %bb.1563:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pextrw	word ptr [r8 + rsi], xmm0, 0
-	pand	xmm1, xmm4
-	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
-.LBB4_1564:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1565
-.LBB4_1569:
-	xor	esi, esi
-.LBB4_1570:
-	test	r9b, 1
-	je	.LBB4_1572
-# %bb.1571:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-.LBB4_1572:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1573
-.LBB4_1577:
-	xor	eax, eax
-.LBB4_1578:
-	test	r9b, 1
-	je	.LBB4_1580
-# %bb.1579:
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packsswb	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + rax], xmm2
-.LBB4_1580:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1581
-.LBB4_1586:
-	xor	eax, eax
-.LBB4_1587:
-	test	r9b, 1
-	je	.LBB4_1589
-# %bb.1588:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm2, 0
-	pextrw	word ptr [r8 + rax + 2], xmm3, 0
-.LBB4_1589:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1590
-.LBB4_1595:
-	xor	esi, esi
-.LBB4_1596:
-	test	r9b, 1
-	je	.LBB4_1598
-# %bb.1597:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-.LBB4_1598:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1599
-.LBB4_1604:
-	xor	esi, esi
-.LBB4_1605:
-	test	r9b, 1
-	je	.LBB4_1607
-# %bb.1606:
-	movdqu	xmm0, xmmword ptr [rcx + rsi]
-	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
-.LBB4_1607:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1608
-.LBB4_1612:
-	xor	eax, eax
-.LBB4_1613:
-	test	r9b, 1
-	je	.LBB4_1615
-# %bb.1614:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm2
-	movd	dword ptr [r8 + rax + 4], xmm3
-.LBB4_1615:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1616
-.LBB4_1621:
-	xor	esi, esi
-.LBB4_1622:
-	test	r9b, 1
-	je	.LBB4_1624
-# %bb.1623:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1624:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1625
-.LBB4_1629:
-	xor	esi, esi
-.LBB4_1630:
-	test	r9b, 1
-	je	.LBB4_1632
-# %bb.1631:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1632:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1633
-.LBB4_1638:
-	xor	esi, esi
-.LBB4_1639:
-	test	r9b, 1
-	je	.LBB4_1641
-# %bb.1640:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1641:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1642
-.LBB4_1646:
-	xor	esi, esi
-.LBB4_1647:
-	test	r9b, 1
-	je	.LBB4_1649
-# %bb.1648:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-.LBB4_1649:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1650
-.Lfunc_end4:
-	.size	arithmetic_unary_diff_type_sse4, .Lfunc_end4-arithmetic_unary_diff_type_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
deleted file mode 100644
index 1e8c821ea5ec4..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
+++ /dev/null
@@ -1,104 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include "types.h"
-
-template <typename I, typename O>
-static inline void FULL_NAME(cast_tmpl_numeric)(const I* in, O* out, const int len) {
-    for (int i = 0; i < len; ++i) {
-        out[i] = static_cast<O>(in[i]);
-    }
-}
-
-template <typename I>
-static inline void FULL_NAME(cast_type_numeric_impl)(const arrtype otype, const I* in, void* out, const int len) {
-    switch (otype) {
-    case arrtype::UINT8:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint8_t*>(out), len);
-        break;
-    case arrtype::INT8:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int8_t*>(out), len);
-        break;
-    case arrtype::UINT16:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint16_t*>(out), len);
-        break;
-    case arrtype::INT16:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int16_t*>(out), len);
-        break;
-    case arrtype::UINT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint32_t*>(out), len);
-        break;
-    case arrtype::INT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int32_t*>(out), len);
-        break;
-    case arrtype::UINT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint64_t*>(out), len);
-        break;
-    case arrtype::INT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int64_t*>(out), len);
-        break;
-    case arrtype::FLOAT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<float*>(out), len);
-        break;
-    case arrtype::FLOAT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<double*>(out), len);
-        break;
-    default:
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(cast_type_numeric)(const int itype, const int otype, const void* input, void* output, const int len) {
-    const auto in = static_cast<arrtype>(itype);
-    const auto out = static_cast<arrtype>(otype);
-
-    switch (in) {    
-    case arrtype::UINT8:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint8_t*>(input), output, len);
-        break;
-    case arrtype::INT8:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int8_t*>(input), output, len);
-        break;
-    case arrtype::UINT16:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint16_t*>(input), output, len);
-        break;    
-    case arrtype::INT16:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int16_t*>(input), output, len);
-        break;    
-    case arrtype::UINT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint32_t*>(input), output, len);
-        break;
-    case arrtype::INT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int32_t*>(input), output, len);
-        break;    
-    case arrtype::UINT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint64_t*>(input), output, len);
-        break;    
-    case arrtype::INT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int64_t*>(input), output, len);
-        break;    
-    case arrtype::FLOAT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const float*>(input), output, len);
-        break;    
-    case arrtype::FLOAT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const double*>(input), output, len);
-        break;    
-    default:
-        break;
-    }
-}
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
deleted file mode 100644
index bed3562e2da7b..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
+++ /dev/null
@@ -1,11337 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"cast_numeric.cc"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function cast_type_numeric_avx2
-.LCPI0_0:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI0_5:
-	.quad	4841369599423283200             # 0x4330000000000000
-.LCPI0_6:
-	.quad	4985484787499139072             # 0x4530000000000000
-.LCPI0_7:
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-.LCPI0_10:
-	.quad	1                               # 0x1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_1:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI0_2:
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI0_3:
-	.long	2147483648                      # 0x80000000
-.LCPI0_13:
-	.long	1258291200                      # 0x4b000000
-.LCPI0_14:
-	.long	1392508928                      # 0x53000000
-.LCPI0_15:
-	.long	0x53000080                      # float 5.49764202E+11
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_4:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_8:
-	.long	1127219200                      # 0x43300000
-	.long	1160773632                      # 0x45300000
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_9:
-	.quad	0x4330000000000000              # double 4503599627370496
-	.quad	0x4530000000000000              # double 1.9342813113834067E+25
-.LCPI0_12:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI0_11:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-	.byte	16                              # 0x10
-	.byte	17                              # 0x11
-	.byte	20                              # 0x14
-	.byte	21                              # 0x15
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	30                              # 0x1e
-	.byte	31                              # 0x1f
-.LCPI0_16:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	cast_type_numeric_avx2
-	.p2align	4, 0x90
-	.type	cast_type_numeric_avx2,@function
-cast_type_numeric_avx2:                 # @cast_type_numeric_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	edi, 6
-	jg	.LBB0_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB0_45
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB0_53
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB0_1553
-# %bb.5:
-	cmp	esi, 6
-	jg	.LBB0_93
-# %bb.6:
-	cmp	esi, 3
-	jle	.LBB0_163
-# %bb.7:
-	cmp	esi, 4
-	je	.LBB0_263
-# %bb.8:
-	cmp	esi, 5
-	je	.LBB0_266
-# %bb.9:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.10:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.11:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_12
-# %bb.443:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_742
-# %bb.444:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_742
-.LBB0_12:
-	xor	esi, esi
-.LBB0_1189:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1191
-.LBB0_1190:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1190
-.LBB0_1191:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1192
-	jmp	.LBB0_1553
-.LBB0_13:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB0_61
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB0_69
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB0_1553
-# %bb.17:
-	cmp	esi, 6
-	jg	.LBB0_100
-# %bb.18:
-	cmp	esi, 3
-	jle	.LBB0_168
-# %bb.19:
-	cmp	esi, 4
-	je	.LBB0_269
-# %bb.20:
-	cmp	esi, 5
-	je	.LBB0_272
-# %bb.21:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.22:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.23:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_446
-# %bb.24:
-	xor	edi, edi
-	jmp	.LBB0_448
-.LBB0_25:
-	cmp	edi, 2
-	je	.LBB0_77
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB0_1553
-# %bb.27:
-	cmp	esi, 6
-	jg	.LBB0_107
-# %bb.28:
-	cmp	esi, 3
-	jle	.LBB0_173
-# %bb.29:
-	cmp	esi, 4
-	je	.LBB0_275
-# %bb.30:
-	cmp	esi, 5
-	je	.LBB0_278
-# %bb.31:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.32:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.33:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_34
-# %bb.451:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_745
-# %bb.452:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_745
-.LBB0_34:
-	xor	esi, esi
-.LBB0_1197:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1199
-.LBB0_1198:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1198
-.LBB0_1199:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1200:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1200
-	jmp	.LBB0_1553
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_85
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1553
-# %bb.37:
-	cmp	esi, 6
-	jg	.LBB0_114
-# %bb.38:
-	cmp	esi, 3
-	jle	.LBB0_178
-# %bb.39:
-	cmp	esi, 4
-	je	.LBB0_281
-# %bb.40:
-	cmp	esi, 5
-	je	.LBB0_284
-# %bb.41:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.42:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.43:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_454
-# %bb.44:
-	xor	esi, esi
-	jmp	.LBB0_918
-.LBB0_45:
-	cmp	esi, 6
-	jg	.LBB0_121
-# %bb.46:
-	cmp	esi, 3
-	jle	.LBB0_183
-# %bb.47:
-	cmp	esi, 4
-	je	.LBB0_287
-# %bb.48:
-	cmp	esi, 5
-	je	.LBB0_290
-# %bb.49:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_457
-# %bb.52:
-	xor	esi, esi
-	jmp	.LBB0_1024
-.LBB0_53:
-	cmp	esi, 6
-	jg	.LBB0_128
-# %bb.54:
-	cmp	esi, 3
-	jle	.LBB0_188
-# %bb.55:
-	cmp	esi, 4
-	je	.LBB0_293
-# %bb.56:
-	cmp	esi, 5
-	je	.LBB0_296
-# %bb.57:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.58:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.59:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_460
-# %bb.60:
-	xor	esi, esi
-	jmp	.LBB0_1029
-.LBB0_61:
-	cmp	esi, 6
-	jg	.LBB0_135
-# %bb.62:
-	cmp	esi, 3
-	jle	.LBB0_193
-# %bb.63:
-	cmp	esi, 4
-	je	.LBB0_299
-# %bb.64:
-	cmp	esi, 5
-	je	.LBB0_302
-# %bb.65:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.66:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.67:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_463
-# %bb.68:
-	xor	esi, esi
-	jmp	.LBB0_1034
-.LBB0_69:
-	cmp	esi, 6
-	jg	.LBB0_142
-# %bb.70:
-	cmp	esi, 3
-	jle	.LBB0_198
-# %bb.71:
-	cmp	esi, 4
-	je	.LBB0_305
-# %bb.72:
-	cmp	esi, 5
-	je	.LBB0_308
-# %bb.73:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.74:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.75:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_466
-# %bb.76:
-	xor	esi, esi
-	jmp	.LBB0_1039
-.LBB0_77:
-	cmp	esi, 6
-	jg	.LBB0_149
-# %bb.78:
-	cmp	esi, 3
-	jle	.LBB0_203
-# %bb.79:
-	cmp	esi, 4
-	je	.LBB0_311
-# %bb.80:
-	cmp	esi, 5
-	je	.LBB0_314
-# %bb.81:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.82:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.83:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_84
-# %bb.469:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_748
-# %bb.470:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_748
-.LBB0_84:
-	xor	esi, esi
-.LBB0_1205:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1207
-.LBB0_1206:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1206
-.LBB0_1207:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1208:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1208
-	jmp	.LBB0_1553
-.LBB0_85:
-	cmp	esi, 6
-	jg	.LBB0_156
-# %bb.86:
-	cmp	esi, 3
-	jle	.LBB0_208
-# %bb.87:
-	cmp	esi, 4
-	je	.LBB0_317
-# %bb.88:
-	cmp	esi, 5
-	je	.LBB0_320
-# %bb.89:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.90:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.91:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_92
-# %bb.472:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_751
-# %bb.473:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_751
-.LBB0_92:
-	xor	esi, esi
-.LBB0_1213:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1215
-.LBB0_1214:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1214
-.LBB0_1215:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1216:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1216
-	jmp	.LBB0_1553
-.LBB0_93:
-	cmp	esi, 8
-	jle	.LBB0_213
-# %bb.94:
-	cmp	esi, 9
-	je	.LBB0_323
-# %bb.95:
-	cmp	esi, 11
-	je	.LBB0_326
-# %bb.96:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.97:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.98:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_475
-# %bb.99:
-	xor	esi, esi
-	jmp	.LBB0_1044
-.LBB0_100:
-	cmp	esi, 8
-	jle	.LBB0_218
-# %bb.101:
-	cmp	esi, 9
-	je	.LBB0_329
-# %bb.102:
-	cmp	esi, 11
-	je	.LBB0_332
-# %bb.103:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.104:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.105:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_106
-# %bb.478:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_754
-# %bb.479:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_754
-.LBB0_106:
-	xor	esi, esi
-.LBB0_1221:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1223
-.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rbx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1222
-.LBB0_1223:
-	cmp	rax, 7
-	jb	.LBB0_1553
-.LBB0_1224:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 32]
-	mov	qword ptr [rcx + 8*rsi + 32], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 40]
-	mov	qword ptr [rcx + 8*rsi + 40], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 48]
-	mov	qword ptr [rcx + 8*rsi + 48], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 56]
-	mov	qword ptr [rcx + 8*rsi + 56], rax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1224
-	jmp	.LBB0_1553
-.LBB0_107:
-	cmp	esi, 8
-	jle	.LBB0_223
-# %bb.108:
-	cmp	esi, 9
-	je	.LBB0_335
-# %bb.109:
-	cmp	esi, 11
-	je	.LBB0_338
-# %bb.110:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.111:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.112:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_113
-# %bb.481:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_757
-# %bb.482:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_757
-.LBB0_113:
-	xor	esi, esi
-.LBB0_1229:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1231
-.LBB0_1230:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1230
-.LBB0_1231:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1232
-	jmp	.LBB0_1553
-.LBB0_114:
-	cmp	esi, 8
-	jle	.LBB0_228
-# %bb.115:
-	cmp	esi, 9
-	je	.LBB0_341
-# %bb.116:
-	cmp	esi, 11
-	je	.LBB0_344
-# %bb.117:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_484
-# %bb.120:
-	xor	esi, esi
-	jmp	.LBB0_923
-.LBB0_121:
-	cmp	esi, 8
-	jle	.LBB0_233
-# %bb.122:
-	cmp	esi, 9
-	je	.LBB0_347
-# %bb.123:
-	cmp	esi, 11
-	je	.LBB0_350
-# %bb.124:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.125:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.126:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_487
-# %bb.127:
-	xor	esi, esi
-	jmp	.LBB0_1049
-.LBB0_128:
-	cmp	esi, 8
-	jle	.LBB0_238
-# %bb.129:
-	cmp	esi, 9
-	je	.LBB0_353
-# %bb.130:
-	cmp	esi, 11
-	je	.LBB0_356
-# %bb.131:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.132:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.133:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_490
-# %bb.134:
-	xor	esi, esi
-	jmp	.LBB0_1054
-.LBB0_135:
-	cmp	esi, 8
-	jle	.LBB0_243
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB0_359
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB0_362
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.139:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.140:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_493
-# %bb.141:
-	xor	esi, esi
-	jmp	.LBB0_1059
-.LBB0_142:
-	cmp	esi, 8
-	jle	.LBB0_248
-# %bb.143:
-	cmp	esi, 9
-	je	.LBB0_365
-# %bb.144:
-	cmp	esi, 11
-	je	.LBB0_368
-# %bb.145:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.146:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_496
-# %bb.148:
-	xor	esi, esi
-	jmp	.LBB0_1064
-.LBB0_149:
-	cmp	esi, 8
-	jle	.LBB0_253
-# %bb.150:
-	cmp	esi, 9
-	je	.LBB0_371
-# %bb.151:
-	cmp	esi, 11
-	je	.LBB0_374
-# %bb.152:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.153:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.154:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_155
-# %bb.499:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_760
-# %bb.500:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_760
-.LBB0_155:
-	xor	esi, esi
-.LBB0_1237:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1239
-.LBB0_1238:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1238
-.LBB0_1239:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1240:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1240
-	jmp	.LBB0_1553
-.LBB0_156:
-	cmp	esi, 8
-	jle	.LBB0_258
-# %bb.157:
-	cmp	esi, 9
-	je	.LBB0_377
-# %bb.158:
-	cmp	esi, 11
-	je	.LBB0_380
-# %bb.159:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.160:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.161:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_502
-# %bb.162:
-	xor	esi, esi
-	jmp	.LBB0_929
-.LBB0_163:
-	cmp	esi, 2
-	je	.LBB0_383
-# %bb.164:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.165:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.166:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_167
-# %bb.505:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_763
-# %bb.506:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_763
-.LBB0_167:
-	xor	esi, esi
-.LBB0_1245:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1247
-.LBB0_1246:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1246
-.LBB0_1247:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1248:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1248
-	jmp	.LBB0_1553
-.LBB0_168:
-	cmp	esi, 2
-	je	.LBB0_386
-# %bb.169:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.170:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_172
-# %bb.508:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_766
-# %bb.509:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_766
-.LBB0_172:
-	xor	esi, esi
-.LBB0_1253:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1255
-.LBB0_1254:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], bl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1254
-.LBB0_1255:
-	cmp	rax, 3
-	jb	.LBB0_1553
-.LBB0_1256:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1256
-	jmp	.LBB0_1553
-.LBB0_173:
-	cmp	esi, 2
-	je	.LBB0_389
-# %bb.174:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.175:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.176:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_177
-# %bb.511:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_769
-# %bb.512:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_769
-.LBB0_177:
-	xor	esi, esi
-.LBB0_1261:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1263
-.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1262
-.LBB0_1263:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1264:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1264
-	jmp	.LBB0_1553
-.LBB0_178:
-	cmp	esi, 2
-	je	.LBB0_392
-# %bb.179:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.180:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.181:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_182
-# %bb.514:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_772
-# %bb.515:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_772
-.LBB0_182:
-	xor	esi, esi
-.LBB0_1269:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1271
-.LBB0_1270:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1270
-.LBB0_1271:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1272
-	jmp	.LBB0_1553
-.LBB0_183:
-	cmp	esi, 2
-	je	.LBB0_395
-# %bb.184:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.185:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_187
-# %bb.517:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_775
-# %bb.518:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_775
-.LBB0_187:
-	xor	esi, esi
-.LBB0_1277:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1279
-.LBB0_1278:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1278
-.LBB0_1279:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1280:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1280
-	jmp	.LBB0_1553
-.LBB0_188:
-	cmp	esi, 2
-	je	.LBB0_398
-# %bb.189:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.190:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.191:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_192
-# %bb.520:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_778
-# %bb.521:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_778
-.LBB0_192:
-	xor	esi, esi
-.LBB0_1285:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1287
-.LBB0_1286:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1286
-.LBB0_1287:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1288:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1288
-	jmp	.LBB0_1553
-.LBB0_193:
-	cmp	esi, 2
-	je	.LBB0_401
-# %bb.194:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.195:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.196:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_197
-# %bb.523:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_781
-# %bb.524:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_781
-.LBB0_197:
-	xor	esi, esi
-.LBB0_1293:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1295
-.LBB0_1294:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1294
-.LBB0_1295:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1296:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1296
-	jmp	.LBB0_1553
-.LBB0_198:
-	cmp	esi, 2
-	je	.LBB0_404
-# %bb.199:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.200:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_202
-# %bb.526:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_784
-# %bb.527:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_784
-.LBB0_202:
-	xor	esi, esi
-.LBB0_1301:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1303
-.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1302
-.LBB0_1303:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1304:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1304
-	jmp	.LBB0_1553
-.LBB0_203:
-	cmp	esi, 2
-	je	.LBB0_407
-# %bb.204:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.205:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.206:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_207
-# %bb.529:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_787
-# %bb.530:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_787
-.LBB0_207:
-	xor	esi, esi
-.LBB0_1309:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1311
-.LBB0_1310:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1310
-.LBB0_1311:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1312
-	jmp	.LBB0_1553
-.LBB0_208:
-	cmp	esi, 2
-	je	.LBB0_410
-# %bb.209:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.210:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.211:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_212
-# %bb.532:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_790
-# %bb.533:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_790
-.LBB0_212:
-	xor	esi, esi
-.LBB0_1317:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1319
-.LBB0_1318:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1318
-.LBB0_1319:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1320:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1320
-	jmp	.LBB0_1553
-.LBB0_213:
-	cmp	esi, 7
-	je	.LBB0_413
-# %bb.214:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.215:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_535
-# %bb.217:
-	xor	esi, esi
-	jmp	.LBB0_934
-.LBB0_218:
-	cmp	esi, 7
-	je	.LBB0_416
-# %bb.219:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.220:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.221:
-	mov	r9d, r8d
-	movabs	r11, -9223372036854775808
-	cmp	r8d, 4
-	jae	.LBB0_538
-# %bb.222:
-	xor	r14d, r14d
-	jmp	.LBB0_799
-.LBB0_223:
-	cmp	esi, 7
-	je	.LBB0_419
-# %bb.224:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.225:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.226:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_227
-# %bb.540:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_801
-# %bb.541:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_801
-.LBB0_227:
-	xor	esi, esi
-.LBB0_1325:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1327
-.LBB0_1326:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1326
-.LBB0_1327:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1328:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1328
-	jmp	.LBB0_1553
-.LBB0_228:
-	cmp	esi, 7
-	je	.LBB0_422
-# %bb.229:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.230:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.231:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_232
-# %bb.543:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_804
-# %bb.544:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_804
-.LBB0_232:
-	xor	esi, esi
-.LBB0_1333:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1335
-.LBB0_1334:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1334
-.LBB0_1335:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1336:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1336
-	jmp	.LBB0_1553
-.LBB0_233:
-	cmp	esi, 7
-	je	.LBB0_425
-# %bb.234:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.235:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.236:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_546
-# %bb.237:
-	xor	esi, esi
-	jmp	.LBB0_939
-.LBB0_238:
-	cmp	esi, 7
-	je	.LBB0_428
-# %bb.239:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.240:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.241:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_549
-# %bb.242:
-	xor	esi, esi
-	jmp	.LBB0_944
-.LBB0_243:
-	cmp	esi, 7
-	je	.LBB0_431
-# %bb.244:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.245:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.246:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_247
-# %bb.552:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_807
-# %bb.553:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_807
-.LBB0_247:
-	xor	esi, esi
-.LBB0_1341:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1343
-.LBB0_1342:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1342
-.LBB0_1343:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1344:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1344
-	jmp	.LBB0_1553
-.LBB0_248:
-	cmp	esi, 7
-	je	.LBB0_434
-# %bb.249:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.250:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.251:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_555
-# %bb.252:
-	xor	r14d, r14d
-	jmp	.LBB0_816
-.LBB0_253:
-	cmp	esi, 7
-	je	.LBB0_437
-# %bb.254:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.255:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.256:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_257
-# %bb.557:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_818
-# %bb.558:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_818
-.LBB0_257:
-	xor	esi, esi
-.LBB0_1349:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1351
-.LBB0_1350:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1350
-.LBB0_1351:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1352:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1352
-	jmp	.LBB0_1553
-.LBB0_258:
-	cmp	esi, 7
-	je	.LBB0_440
-# %bb.259:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.260:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.261:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_560
-# %bb.262:
-	xor	esi, esi
-	jmp	.LBB0_949
-.LBB0_263:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.264:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_563
-# %bb.265:
-	xor	esi, esi
-	jmp	.LBB0_1069
-.LBB0_266:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.267:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_566
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_1074
-.LBB0_269:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.270:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_569
-# %bb.271:
-	xor	esi, esi
-	jmp	.LBB0_1079
-.LBB0_272:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.273:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_572
-# %bb.274:
-	xor	esi, esi
-	jmp	.LBB0_1084
-.LBB0_275:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.276:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_277
-# %bb.575:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_821
-# %bb.576:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_821
-.LBB0_277:
-	xor	esi, esi
-.LBB0_1357:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1359
-.LBB0_1358:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1358
-.LBB0_1359:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1360:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1360
-	jmp	.LBB0_1553
-.LBB0_278:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.279:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_280
-# %bb.578:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_824
-# %bb.579:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_824
-.LBB0_280:
-	xor	esi, esi
-.LBB0_1365:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1367
-.LBB0_1366:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1366
-.LBB0_1367:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1368:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1368
-	jmp	.LBB0_1553
-.LBB0_281:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.282:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_581
-# %bb.283:
-	xor	esi, esi
-	jmp	.LBB0_954
-.LBB0_284:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.285:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_584
-# %bb.286:
-	xor	esi, esi
-	jmp	.LBB0_959
-.LBB0_287:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.288:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_289
-# %bb.587:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_827
-# %bb.588:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_827
-.LBB0_289:
-	xor	esi, esi
-.LBB0_1151:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1153
-.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1152
-.LBB0_1153:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1154:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1154
-	jmp	.LBB0_1553
-.LBB0_290:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.291:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_292
-# %bb.590:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_829
-# %bb.591:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_829
-.LBB0_292:
-	xor	esi, esi
-.LBB0_1161:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1163
-.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1162
-.LBB0_1163:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1164:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1164
-	jmp	.LBB0_1553
-.LBB0_293:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.294:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_295
-# %bb.593:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_831
-# %bb.594:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_831
-.LBB0_295:
-	xor	esi, esi
-.LBB0_1171:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1173
-.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1172
-.LBB0_1173:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1174:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1174
-	jmp	.LBB0_1553
-.LBB0_296:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.297:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_298
-# %bb.596:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_833
-# %bb.597:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_833
-.LBB0_298:
-	xor	esi, esi
-.LBB0_1181:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1183
-.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1182
-.LBB0_1183:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1184:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1184
-	jmp	.LBB0_1553
-.LBB0_299:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.300:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_599
-# %bb.301:
-	xor	esi, esi
-	jmp	.LBB0_964
-.LBB0_302:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.303:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_602
-# %bb.304:
-	xor	esi, esi
-	jmp	.LBB0_1089
-.LBB0_305:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.306:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_605
-# %bb.307:
-	xor	esi, esi
-	jmp	.LBB0_1094
-.LBB0_308:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.309:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_608
-# %bb.310:
-	xor	esi, esi
-	jmp	.LBB0_1099
-.LBB0_311:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.312:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_313
-# %bb.611:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_835
-# %bb.612:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_835
-.LBB0_313:
-	xor	esi, esi
-.LBB0_1373:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1375
-.LBB0_1374:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1374
-.LBB0_1375:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1376:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1376
-	jmp	.LBB0_1553
-.LBB0_314:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.315:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_316
-# %bb.614:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_838
-# %bb.615:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_838
-.LBB0_316:
-	xor	esi, esi
-.LBB0_1381:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1383
-.LBB0_1382:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1382
-.LBB0_1383:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1384:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1384
-	jmp	.LBB0_1553
-.LBB0_317:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.318:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_617
-# %bb.319:
-	xor	esi, esi
-	jmp	.LBB0_969
-.LBB0_320:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.321:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_620
-# %bb.322:
-	xor	esi, esi
-	jmp	.LBB0_974
-.LBB0_323:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.324:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_623
-# %bb.325:
-	xor	esi, esi
-	jmp	.LBB0_1104
-.LBB0_326:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.327:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_626
-# %bb.328:
-	xor	esi, esi
-	jmp	.LBB0_1109
-.LBB0_329:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.330:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_629
-# %bb.331:
-	xor	esi, esi
-	jmp	.LBB0_1114
-.LBB0_332:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.333:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_632
-# %bb.334:
-	xor	esi, esi
-	jmp	.LBB0_1119
-.LBB0_335:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.336:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_337
-# %bb.635:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_841
-# %bb.636:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_841
-.LBB0_337:
-	xor	esi, esi
-.LBB0_1389:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1391
-.LBB0_1390:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1390
-.LBB0_1391:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1392:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1392
-	jmp	.LBB0_1553
-.LBB0_338:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.339:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_340
-# %bb.638:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_844
-# %bb.639:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_844
-.LBB0_340:
-	xor	esi, esi
-.LBB0_1397:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1399
-.LBB0_1398:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1398
-.LBB0_1399:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1400:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1400
-	jmp	.LBB0_1553
-.LBB0_341:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.342:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_343
-# %bb.641:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_847
-# %bb.642:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_847
-.LBB0_343:
-	xor	esi, esi
-.LBB0_1405:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1407
-.LBB0_1406:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1406
-.LBB0_1407:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1408:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1408
-	jmp	.LBB0_1553
-.LBB0_344:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.345:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_644
-# %bb.346:
-	xor	esi, esi
-	jmp	.LBB0_858
-.LBB0_347:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.348:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_646
-# %bb.349:
-	xor	esi, esi
-	jmp	.LBB0_979
-.LBB0_350:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.351:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_649
-# %bb.352:
-	xor	esi, esi
-	jmp	.LBB0_1124
-.LBB0_353:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.354:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_652
-# %bb.355:
-	xor	esi, esi
-	jmp	.LBB0_1129
-.LBB0_356:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.357:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_655
-# %bb.358:
-	xor	esi, esi
-	jmp	.LBB0_1134
-.LBB0_359:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.360:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_361
-# %bb.658:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_860
-# %bb.659:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_860
-.LBB0_361:
-	xor	esi, esi
-.LBB0_1413:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1415
-.LBB0_1414:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1414
-.LBB0_1415:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1416:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1416
-	jmp	.LBB0_1553
-.LBB0_362:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.363:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_661
-# %bb.364:
-	xor	esi, esi
-	jmp	.LBB0_1139
-.LBB0_365:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.366:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_664
-# %bb.367:
-	xor	esi, esi
-	jmp	.LBB0_1144
-.LBB0_368:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.369:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_370
-# %bb.667:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_863
-# %bb.668:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_863
-.LBB0_370:
-	xor	esi, esi
-.LBB0_1421:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1423
-.LBB0_1422:                             # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], ebx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1422
-.LBB0_1423:
-	cmp	rax, 7
-	jb	.LBB0_1553
-.LBB0_1424:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 16]
-	mov	dword ptr [rcx + 4*rsi + 16], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 20]
-	mov	dword ptr [rcx + 4*rsi + 20], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 24]
-	mov	dword ptr [rcx + 4*rsi + 24], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 28]
-	mov	dword ptr [rcx + 4*rsi + 28], eax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1424
-	jmp	.LBB0_1553
-.LBB0_371:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.372:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_373
-# %bb.670:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_866
-# %bb.671:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_866
-.LBB0_373:
-	xor	esi, esi
-.LBB0_1429:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1431
-.LBB0_1430:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1430
-.LBB0_1431:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1432:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1432
-	jmp	.LBB0_1553
-.LBB0_374:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.375:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_376
-# %bb.673:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_869
-# %bb.674:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_869
-.LBB0_376:
-	xor	esi, esi
-.LBB0_1437:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1439
-.LBB0_1438:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1438
-.LBB0_1439:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1440:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1440
-	jmp	.LBB0_1553
-.LBB0_377:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.378:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_676
-# %bb.379:
-	xor	esi, esi
-	jmp	.LBB0_984
-.LBB0_380:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.381:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_679
-# %bb.382:
-	xor	esi, esi
-	jmp	.LBB0_989
-.LBB0_383:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.384:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_385
-# %bb.682:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_872
-# %bb.683:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_872
-.LBB0_385:
-	xor	esi, esi
-.LBB0_1445:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1447
-.LBB0_1446:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1446
-.LBB0_1447:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1448:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1448
-	jmp	.LBB0_1553
-.LBB0_386:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.387:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_388
-# %bb.685:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_875
-# %bb.686:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_875
-.LBB0_388:
-	xor	esi, esi
-.LBB0_1453:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1455
-.LBB0_1454:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], bl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1454
-.LBB0_1455:
-	cmp	rax, 3
-	jb	.LBB0_1553
-.LBB0_1456:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1456
-	jmp	.LBB0_1553
-.LBB0_389:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.390:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_391
-# %bb.688:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_878
-# %bb.689:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_878
-.LBB0_391:
-	xor	esi, esi
-.LBB0_1461:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1463
-.LBB0_1462:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1462
-.LBB0_1463:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1464:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1464
-	jmp	.LBB0_1553
-.LBB0_392:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.393:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_394
-# %bb.691:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_881
-# %bb.692:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_881
-.LBB0_394:
-	xor	esi, esi
-.LBB0_1469:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1471
-.LBB0_1470:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1470
-.LBB0_1471:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1472:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1472
-	jmp	.LBB0_1553
-.LBB0_395:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.396:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_397
-# %bb.694:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_884
-# %bb.695:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_884
-.LBB0_397:
-	xor	esi, esi
-.LBB0_1477:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1479
-.LBB0_1478:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1478
-.LBB0_1479:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1480:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1480
-	jmp	.LBB0_1553
-.LBB0_398:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.399:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_400
-# %bb.697:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_887
-# %bb.698:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_887
-.LBB0_400:
-	xor	esi, esi
-.LBB0_1485:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1487
-.LBB0_1486:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1486
-.LBB0_1487:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1488:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1488
-	jmp	.LBB0_1553
-.LBB0_401:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.402:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_403
-# %bb.700:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_890
-# %bb.701:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_890
-.LBB0_403:
-	xor	esi, esi
-.LBB0_1493:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1495
-.LBB0_1494:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1494
-.LBB0_1495:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1496:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1496
-	jmp	.LBB0_1553
-.LBB0_404:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.405:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_406
-# %bb.703:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_893
-# %bb.704:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_893
-.LBB0_406:
-	xor	esi, esi
-.LBB0_1501:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1503
-.LBB0_1502:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1502
-.LBB0_1503:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1504:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1504
-	jmp	.LBB0_1553
-.LBB0_407:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.408:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_409
-# %bb.706:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_896
-# %bb.707:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_896
-.LBB0_409:
-	xor	esi, esi
-.LBB0_1509:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1511
-.LBB0_1510:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1510
-.LBB0_1511:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1512:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1512
-	jmp	.LBB0_1553
-.LBB0_410:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.411:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_412
-# %bb.709:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_899
-# %bb.710:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_899
-.LBB0_412:
-	xor	esi, esi
-.LBB0_1517:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1519
-.LBB0_1518:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1518
-.LBB0_1519:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1520:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1520
-	jmp	.LBB0_1553
-.LBB0_413:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.414:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_415
-# %bb.712:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_902
-# %bb.713:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_902
-.LBB0_415:
-	xor	esi, esi
-.LBB0_1525:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1527
-.LBB0_1526:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1526
-.LBB0_1527:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1528:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1528
-	jmp	.LBB0_1553
-.LBB0_416:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.417:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_715
-# %bb.418:
-	xor	esi, esi
-	jmp	.LBB0_994
-.LBB0_419:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.420:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_421
-# %bb.718:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_905
-# %bb.719:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_905
-.LBB0_421:
-	xor	esi, esi
-.LBB0_1533:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1535
-.LBB0_1534:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1534
-.LBB0_1535:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1536:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1536
-	jmp	.LBB0_1553
-.LBB0_422:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.423:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_721
-# %bb.424:
-	xor	esi, esi
-	jmp	.LBB0_999
-.LBB0_425:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.426:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_724
-# %bb.427:
-	xor	esi, esi
-	jmp	.LBB0_1004
-.LBB0_428:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.429:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_727
-# %bb.430:
-	xor	esi, esi
-	jmp	.LBB0_1009
-.LBB0_431:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.432:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_730
-# %bb.433:
-	xor	esi, esi
-	jmp	.LBB0_1014
-.LBB0_434:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.435:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_733
-# %bb.436:
-	xor	esi, esi
-	jmp	.LBB0_1019
-.LBB0_437:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.438:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_439
-# %bb.736:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_908
-# %bb.737:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_908
-.LBB0_439:
-	xor	esi, esi
-.LBB0_1541:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1543
-.LBB0_1542:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1542
-.LBB0_1543:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1544:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1544
-	jmp	.LBB0_1553
-.LBB0_440:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.441:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_442
-# %bb.739:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_911
-# %bb.740:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_911
-.LBB0_442:
-	xor	esi, esi
-.LBB0_1549:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1551
-.LBB0_1550:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1550
-.LBB0_1551:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1552:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1552
-	jmp	.LBB0_1553
-.LBB0_446:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
-	mov	dword ptr [rcx + 4*rdi], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
-	mov	dword ptr [rcx + 4*rdi + 4], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 16]
-	mov	dword ptr [rcx + 4*rdi + 8], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
-	mov	dword ptr [rcx + 4*rdi + 12], ebx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_447
-.LBB0_448:
-	test	rax, rax
-	je	.LBB0_1553
-# %bb.449:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rdi, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_450
-	jmp	.LBB0_1553
-.LBB0_454:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_914
-# %bb.455:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_456
-	jmp	.LBB0_915
-.LBB0_457:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1020
-# %bb.458:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_459:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_459
-	jmp	.LBB0_1021
-.LBB0_460:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1025
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_462:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_462
-	jmp	.LBB0_1026
-.LBB0_463:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1030
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_465
-	jmp	.LBB0_1031
-.LBB0_466:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1035
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_3] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-.LBB0_468:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi]
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 32]
-	vcmpltps	xmm5, xmm2, xmm0
-	vsubps	xmm6, xmm2, xmm0
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm1
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm6, xmm2, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
-	vcmpltps	xmm6, xmm3, xmm0
-	vsubps	xmm7, xmm3, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm7, xmm3, xmm6
-	vcmpltps	xmm6, xmm4, xmm0
-	vsubps	xmm7, xmm4, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm4, xmm4
-	vblendvps	xmm4, xmm7, xmm4, xmm6
-	vcmpltps	xmm6, xmm5, xmm0
-	vsubps	xmm7, xmm5, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vblendvps	xmm5, xmm7, xmm5, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm4
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm5
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 96]
-	vcmpltps	xmm5, xmm2, xmm0
-	vsubps	xmm6, xmm2, xmm0
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm1
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm6, xmm2, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 112]
-	vcmpltps	xmm6, xmm3, xmm0
-	vsubps	xmm7, xmm3, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm7, xmm3, xmm6
-	vcmpltps	xmm6, xmm4, xmm0
-	vsubps	xmm7, xmm4, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm4, xmm4
-	vblendvps	xmm4, xmm7, xmm4, xmm6
-	vcmpltps	xmm6, xmm5, xmm0
-	vsubps	xmm7, xmm5, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vblendvps	xmm5, xmm7, xmm5, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm4
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm5
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_468
-	jmp	.LBB0_1036
-.LBB0_475:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1040
-# %bb.476:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-.LBB0_477:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 16] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 32] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 48] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpor	ymm1, ymm1, ymm0
-	vsubpd	ymm1, ymm1, ymm0
-	vpor	ymm2, ymm2, ymm0
-	vsubpd	ymm2, ymm2, ymm0
-	vpor	ymm3, ymm3, ymm0
-	vsubpd	ymm3, ymm3, ymm0
-	vpor	ymm4, ymm4, ymm0
-	vsubpd	ymm4, ymm4, ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 64] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 80] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 96] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 112] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpor	ymm1, ymm1, ymm0
-	vsubpd	ymm1, ymm1, ymm0
-	vpor	ymm2, ymm2, ymm0
-	vsubpd	ymm2, ymm2, ymm0
-	vpor	ymm3, ymm3, ymm0
-	vsubpd	ymm3, ymm3, ymm0
-	vpor	ymm4, ymm4, ymm0
-	vsubpd	ymm4, ymm4, ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_477
-	jmp	.LBB0_1041
-.LBB0_484:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_919
-# %bb.485:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpxor	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI0_6] # ymm2 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI0_7] # ymm3 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
-.LBB0_486:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 96]
-	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm4, ymm4, 32
-	vpor	ymm4, ymm4, ymm2
-	vsubpd	ymm4, ymm4, ymm3
-	vaddpd	ymm4, ymm8, ymm4
-	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm5, ymm5, 32
-	vpor	ymm5, ymm5, ymm2
-	vsubpd	ymm5, ymm5, ymm3
-	vaddpd	ymm5, ymm8, ymm5
-	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm6, ymm6, 32
-	vpor	ymm6, ymm6, ymm2
-	vsubpd	ymm6, ymm6, ymm3
-	vaddpd	ymm6, ymm8, ymm6
-	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm7, ymm7, 32
-	vpor	ymm7, ymm7, ymm2
-	vsubpd	ymm7, ymm7, ymm3
-	vaddpd	ymm7, ymm8, ymm7
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm7
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 224]
-	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm4, ymm4, 32
-	vpor	ymm4, ymm4, ymm2
-	vsubpd	ymm4, ymm4, ymm3
-	vaddpd	ymm4, ymm8, ymm4
-	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm5, ymm5, 32
-	vpor	ymm5, ymm5, ymm2
-	vsubpd	ymm5, ymm5, ymm3
-	vaddpd	ymm5, ymm8, ymm5
-	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm6, ymm6, 32
-	vpor	ymm6, ymm6, ymm2
-	vsubpd	ymm6, ymm6, ymm3
-	vaddpd	ymm6, ymm8, ymm6
-	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm7, ymm7, 32
-	vpor	ymm7, ymm7, ymm2
-	vsubpd	ymm7, ymm7, ymm3
-	vaddpd	ymm7, ymm8, ymm7
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm7
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_486
-	jmp	.LBB0_920
-.LBB0_487:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1045
-# %bb.488:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_489:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 32] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 40] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 48] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 56] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_489
-	jmp	.LBB0_1046
-.LBB0_490:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1050
-# %bb.491:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 56]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_492
-	jmp	.LBB0_1051
-.LBB0_493:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1055
-# %bb.494:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_495:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm2, xmm11, rax
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm2, xmm11, rax
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm5, xmm11, rax
-	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 80]
-	vpextrq	rax, xmm4, 1
-	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovq	rax, xmm4
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 112]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm10
-	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm9
-	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm0
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm2, xmm11, rax
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 176]
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm2, xmm11, rax
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm5, xmm11, rax
-	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
-	vpextrq	rax, xmm4, 1
-	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovq	rax, xmm4
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 192]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 240]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 224]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 144], xmm10
-	vmovupd	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 176], xmm9
-	vmovupd	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovupd	xmmword ptr [rcx + 8*rdi + 224], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi + 240], xmm0
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_495
-	jmp	.LBB0_1056
-.LBB0_496:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1060
-# %bb.497:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_498:                              # =>This Inner Loop Header: Depth=1
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_498
-	jmp	.LBB0_1061
-.LBB0_502:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_925
-# %bb.503:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_504:                              # =>This Inner Loop Header: Depth=1
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_504
-	jmp	.LBB0_926
-.LBB0_535:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_930
-# %bb.536:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_537:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_537
-	jmp	.LBB0_931
-.LBB0_538:
-	mov	r14d, r9d
-	and	r14d, -4
-	lea	rax, [r14 - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_793
-# %bb.539:
-	xor	eax, eax
-	jmp	.LBB0_795
-.LBB0_546:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_935
-# %bb.547:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_548:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_548
-	jmp	.LBB0_936
-.LBB0_549:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_940
-# %bb.550:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_551:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_551
-	jmp	.LBB0_941
-.LBB0_555:
-	mov	r14d, r9d
-	and	r14d, -4
-	lea	rax, [r14 - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_810
-# %bb.556:
-	xor	eax, eax
-	jmp	.LBB0_812
-.LBB0_560:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_945
-# %bb.561:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_562:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_562
-	jmp	.LBB0_946
-.LBB0_563:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1065
-# %bb.564:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_565:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_565
-	jmp	.LBB0_1066
-.LBB0_566:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1070
-# %bb.567:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_568:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_568
-	jmp	.LBB0_1071
-.LBB0_569:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1075
-# %bb.570:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_571:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_571
-	jmp	.LBB0_1076
-.LBB0_572:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1080
-# %bb.573:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_574:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_574
-	jmp	.LBB0_1081
-.LBB0_581:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_950
-# %bb.582:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_583:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_583
-	jmp	.LBB0_951
-.LBB0_584:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_955
-# %bb.585:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_586:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_586
-	jmp	.LBB0_956
-.LBB0_599:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_960
-# %bb.600:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_601:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_601
-	jmp	.LBB0_961
-.LBB0_602:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1085
-# %bb.603:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_604:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_604
-	jmp	.LBB0_1086
-.LBB0_605:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1090
-# %bb.606:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_607:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_607
-	jmp	.LBB0_1091
-.LBB0_608:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1095
-# %bb.609:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_610:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_610
-	jmp	.LBB0_1096
-.LBB0_617:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_965
-# %bb.618:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_619:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_619
-	jmp	.LBB0_966
-.LBB0_620:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_970
-# %bb.621:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_622
-	jmp	.LBB0_971
-.LBB0_623:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1100
-# %bb.624:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_625
-	jmp	.LBB0_1101
-.LBB0_626:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1105
-# %bb.627:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI0_13] # ymm0 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
-	xor	edi, edi
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_14] # ymm1 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI0_15] # ymm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-.LBB0_628:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
-	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
-	vpsrld	ymm3, ymm3, 16
-	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
-	vsubps	ymm3, ymm3, ymm2
-	vaddps	ymm3, ymm7, ymm3
-	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
-	vsubps	ymm4, ymm4, ymm2
-	vaddps	ymm4, ymm7, ymm4
-	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
-	vpsrld	ymm5, ymm5, 16
-	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
-	vsubps	ymm5, ymm5, ymm2
-	vaddps	ymm5, ymm7, ymm5
-	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
-	vpsrld	ymm6, ymm6, 16
-	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
-	vsubps	ymm6, ymm6, ymm2
-	vaddps	ymm6, ymm7, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 224]
-	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
-	vpsrld	ymm3, ymm3, 16
-	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
-	vsubps	ymm3, ymm3, ymm2
-	vaddps	ymm3, ymm7, ymm3
-	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
-	vsubps	ymm4, ymm4, ymm2
-	vaddps	ymm4, ymm7, ymm4
-	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
-	vpsrld	ymm5, ymm5, 16
-	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
-	vsubps	ymm5, ymm5, ymm2
-	vaddps	ymm5, ymm7, ymm5
-	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
-	vpsrld	ymm6, ymm6, 16
-	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
-	vsubps	ymm6, ymm6, ymm2
-	vaddps	ymm6, ymm7, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm6
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_628
-	jmp	.LBB0_1106
-.LBB0_629:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1110
-# %bb.630:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_631:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
-	vmovq	xmm0, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 56]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 48]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovq	xmm2, rbx
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
-	vmovq	xmm3, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 32]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 64]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
-	vmovq	xmm6, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vmovq	xmm6, rax
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 96]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 136]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 128]
-	vmovq	xmm0, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 152]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 144]
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vmovq	xmm1, rbx
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 184]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 176]
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 168]
-	vmovq	xmm3, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 160]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 216]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 208]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 200]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 192]
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 248]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 240]
-	vmovq	xmm7, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 232]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 224]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_631
-	jmp	.LBB0_1111
-.LBB0_632:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1115
-# %bb.633:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_634:                              # =>This Inner Loop Header: Depth=1
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_634
-	jmp	.LBB0_1116
-.LBB0_644:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_850
-# %bb.645:
-	xor	eax, eax
-	jmp	.LBB0_852
-.LBB0_646:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_975
-# %bb.647:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_648:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_648
-	jmp	.LBB0_976
-.LBB0_649:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1120
-# %bb.650:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_651:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_651
-	jmp	.LBB0_1121
-.LBB0_652:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1125
-# %bb.653:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_654:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_654
-	jmp	.LBB0_1126
-.LBB0_655:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1130
-# %bb.656:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_657:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_657
-	jmp	.LBB0_1131
-.LBB0_661:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1135
-# %bb.662:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_663:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	vpextrq	rax, xmm4, 1
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vcvtsi2ss	xmm6, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm7, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vcvtsi2ss	xmm1, xmm8, rax
-	vinsertps	xmm2, xmm4, xmm6, 16    # xmm2 = xmm4[0],xmm6[0],xmm4[2,3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm7, 32    # xmm2 = xmm2[0,1],xmm7[0],xmm2[3]
-	vinsertps	xmm1, xmm2, xmm1, 48    # xmm1 = xmm2[0,1,2],xmm1[0]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm4, 1
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
-	vmovq	rax, xmm6
-	vcvtsi2ss	xmm7, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vinsertps	xmm3, xmm4, xmm5, 16    # xmm3 = xmm4[0],xmm5[0],xmm4[2,3]
-	vpextrq	rax, xmm6, 1
-	vinsertps	xmm3, xmm3, xmm7, 32    # xmm3 = xmm3[0,1],xmm7[0],xmm3[3]
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 160]
-	vpextrq	rax, xmm4, 1
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 176]
-	vpextrq	r11, xmm2, 1
-	vmovq	rax, xmm2
-	vcvtsi2ss	xmm2, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vcvtsi2ss	xmm3, xmm8, r11
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 192]
-	vpextrq	rax, xmm1, 1
-	vinsertps	xmm4, xmm4, xmm5, 16    # xmm4 = xmm4[0],xmm5[0],xmm4[2,3]
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vinsertps	xmm2, xmm4, xmm2, 32    # xmm2 = xmm4[0,1],xmm2[0],xmm4[3]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
-	vpextrq	r11, xmm4, 1
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vcvtsi2ss	xmm3, xmm8, r11
-	vinsertps	xmm1, xmm1, xmm5, 16    # xmm1 = xmm1[0],xmm5[0],xmm1[2,3]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 224]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm1, xmm1, xmm4, 32    # xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm5, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpextrq	r11, xmm3, 1
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm4, xmm5, xmm4, 16    # xmm4 = xmm5[0],xmm4[0],xmm5[2,3]
-	vcvtsi2ss	xmm5, xmm8, r11
-	vinsertps	xmm3, xmm4, xmm3, 32    # xmm3 = xmm4[0,1],xmm3[0],xmm4[3]
-	vinsertps	xmm3, xmm3, xmm5, 48    # xmm3 = xmm3[0,1,2],xmm5[0]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_663
-	jmp	.LBB0_1136
-.LBB0_664:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1140
-# %bb.665:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_666:                              # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 4]
-	vmovq	xmm0, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 12]
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 28]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 24]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovq	xmm2, rbx
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
-	vmovq	xmm3, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 16]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 32]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
-	vmovq	xmm6, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vmovq	xmm6, rax
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 48]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 68]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 64]
-	vmovq	xmm0, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 76]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 72]
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vmovq	xmm1, rbx
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 92]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 88]
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 84]
-	vmovq	xmm3, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 80]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 108]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 104]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 100]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 96]
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 124]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 120]
-	vmovq	xmm7, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 116]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 112]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_666
-	jmp	.LBB0_1141
-.LBB0_676:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_980
-# %bb.677:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_678:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_678
-	jmp	.LBB0_981
-.LBB0_679:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_985
-# %bb.680:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_681
-	jmp	.LBB0_986
-.LBB0_715:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.716:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_717:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_717
-	jmp	.LBB0_991
-.LBB0_721:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_995
-# %bb.722:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_723:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_723
-	jmp	.LBB0_996
-.LBB0_724:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1000
-# %bb.725:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_726:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_726
-	jmp	.LBB0_1001
-.LBB0_727:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1005
-# %bb.728:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_729:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_729
-	jmp	.LBB0_1006
-.LBB0_730:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1010
-# %bb.731:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_732:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_732
-	jmp	.LBB0_1011
-.LBB0_733:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1015
-# %bb.734:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_735:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_735
-	jmp	.LBB0_1016
-.LBB0_742:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1185
-# %bb.743:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_744
-	jmp	.LBB0_1186
-.LBB0_745:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1193
-# %bb.746:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_747:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_747
-	jmp	.LBB0_1194
-.LBB0_748:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1201
-# %bb.749:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_750:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_750
-	jmp	.LBB0_1202
-.LBB0_751:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1209
-# %bb.752:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_753:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_753
-	jmp	.LBB0_1210
-.LBB0_754:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1217
-# %bb.755:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_756:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_756
-	jmp	.LBB0_1218
-.LBB0_757:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1225
-# %bb.758:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 28]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_759
-	jmp	.LBB0_1226
-.LBB0_760:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1233
-# %bb.761:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_762:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 24] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 28] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_762
-	jmp	.LBB0_1234
-.LBB0_763:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1241
-# %bb.764:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_765
-	jmp	.LBB0_1242
-.LBB0_766:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1249
-# %bb.767:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackssdw	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpacksswb	xmm0, xmm0, xmm0
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm0
-	vpacksswb	xmm0, xmm0, xmm0
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
-	vpackssdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
-	vpacksswb	xmm1, xmm1, xmm1
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_1250
-.LBB0_769:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1257
-# %bb.770:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_771:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_771
-	jmp	.LBB0_1258
-.LBB0_772:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1265
-# %bb.773:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_774:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_774
-	jmp	.LBB0_1266
-.LBB0_775:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1273
-# %bb.776:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_777:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_777
-	jmp	.LBB0_1274
-.LBB0_778:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1281
-# %bb.779:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_780:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_780
-	jmp	.LBB0_1282
-.LBB0_781:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1289
-# %bb.782:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_783:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_783
-	jmp	.LBB0_1290
-.LBB0_784:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1297
-# %bb.785:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_786
-	jmp	.LBB0_1298
-.LBB0_787:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1305
-# %bb.788:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_789
-	jmp	.LBB0_1306
-.LBB0_790:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1313
-# %bb.791:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_792:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_792
-	jmp	.LBB0_1314
-.LBB0_801:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1321
-# %bb.802:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_803:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_803
-	jmp	.LBB0_1322
-.LBB0_804:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1329
-# %bb.805:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_806:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_806
-	jmp	.LBB0_1330
-.LBB0_807:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1337
-# %bb.808:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_809:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_809
-	jmp	.LBB0_1338
-.LBB0_818:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1345
-# %bb.819:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_820
-	jmp	.LBB0_1346
-.LBB0_821:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1353
-# %bb.822:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_823:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_823
-	jmp	.LBB0_1354
-.LBB0_824:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1361
-# %bb.825:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_826:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_826
-	jmp	.LBB0_1362
-.LBB0_827:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1145
-# %bb.828:
-	xor	eax, eax
-	jmp	.LBB0_1147
-.LBB0_829:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1155
-# %bb.830:
-	xor	eax, eax
-	jmp	.LBB0_1157
-.LBB0_831:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1165
-# %bb.832:
-	xor	eax, eax
-	jmp	.LBB0_1167
-.LBB0_833:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1175
-# %bb.834:
-	xor	eax, eax
-	jmp	.LBB0_1177
-.LBB0_835:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1369
-# %bb.836:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_837:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_837
-	jmp	.LBB0_1370
-.LBB0_838:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1377
-# %bb.839:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_840:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_840
-	jmp	.LBB0_1378
-.LBB0_841:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1385
-# %bb.842:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_843:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_843
-	jmp	.LBB0_1386
-.LBB0_844:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1393
-# %bb.845:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_846:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_846
-	jmp	.LBB0_1394
-.LBB0_847:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1401
-# %bb.848:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_849:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_849
-	jmp	.LBB0_1402
-.LBB0_860:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1409
-# %bb.861:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_862:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_862
-	jmp	.LBB0_1410
-.LBB0_863:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1417
-# %bb.864:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_865:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_865
-	jmp	.LBB0_1418
-.LBB0_866:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1425
-# %bb.867:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_868:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_868
-	jmp	.LBB0_1426
-.LBB0_869:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1433
-# %bb.870:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_871:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_871
-	jmp	.LBB0_1434
-.LBB0_872:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1441
-# %bb.873:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_874:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_874
-	jmp	.LBB0_1442
-.LBB0_875:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1449
-# %bb.876:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_877:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackusdw	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackuswb	xmm0, xmm0, xmm0
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vpackusdw	xmm0, xmm0, xmm0
-	vpackuswb	xmm0, xmm0, xmm0
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
-	vpackusdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
-	vpackuswb	xmm1, xmm1, xmm1
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_877
-	jmp	.LBB0_1450
-.LBB0_878:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1457
-# %bb.879:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_880:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_880
-	jmp	.LBB0_1458
-.LBB0_881:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1465
-# %bb.882:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_883:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_883
-	jmp	.LBB0_1466
-.LBB0_884:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1473
-# %bb.885:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_886:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_886
-	jmp	.LBB0_1474
-.LBB0_887:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1481
-# %bb.888:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_889:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_889
-	jmp	.LBB0_1482
-.LBB0_890:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1489
-# %bb.891:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_892:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_892
-	jmp	.LBB0_1490
-.LBB0_893:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1497
-# %bb.894:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_895:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_895
-	jmp	.LBB0_1498
-.LBB0_896:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1505
-# %bb.897:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_898:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_898
-	jmp	.LBB0_1506
-.LBB0_899:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1513
-# %bb.900:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_901:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_901
-	jmp	.LBB0_1514
-.LBB0_902:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1521
-# %bb.903:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_904:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_904
-	jmp	.LBB0_1522
-.LBB0_905:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1529
-# %bb.906:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_907:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_907
-	jmp	.LBB0_1530
-.LBB0_908:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1537
-# %bb.909:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_910:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_910
-	jmp	.LBB0_1538
-.LBB0_911:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1545
-# %bb.912:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_913:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_913
-	jmp	.LBB0_1546
-.LBB0_793:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_794:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rbx, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax]   # xmm2 = mem[0],zero
-	xor	rbx, r11
-	vcvttsd2si	rsi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rsi, rbx
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rbx, xmm1
-	xor	rbx, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rsi
-	cmovae	rdi, rbx
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 24] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 16] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 40] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 32] # xmm2 = mem[0],zero
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 56] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 48] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 72] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 64] # xmm2 = mem[0],zero
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 88] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 80] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 104] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 96] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 120] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 112] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_794
-.LBB0_795:
-	test	r8, r8
-	je	.LBB0_798
-# %bb.796:
-	shl	rax, 3
-	neg	r8
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_797:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + rax + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovsd	xmm2, qword ptr [rdx + rax + 24] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + rax + 16] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_797
-.LBB0_798:
-	cmp	r14, r9
-	je	.LBB0_1553
-.LBB0_799:
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_800:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*r14]   # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rax, xmm2
-	xor	rax, r11
-	vcvttsd2si	rsi, xmm1
-	vucomisd	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*r14], rsi
-	add	r14, 1
-	cmp	r9, r14
-	jne	.LBB0_800
-	jmp	.LBB0_1553
-.LBB0_810:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	r11, -9223372036854775808
-.LBB0_811:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rdi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	xor	rdi, r11
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rdi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rdi, xmm1
-	xor	rdi, r11
-	vcvttss2si	rsi, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rbx
-	cmovae	rsi, rdi
-	vmovq	xmm2, rsi
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 12] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 8] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 20] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 16] # xmm2 = mem[0],zero,zero,zero
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 28] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 24] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 36] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 32] # xmm2 = mem[0],zero,zero,zero
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 44] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 40] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 52] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 48] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 60] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 56] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_811
-.LBB0_812:
-	test	r8, r8
-	je	.LBB0_815
-# %bb.813:
-	shl	rax, 2
-	neg	r8
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	r10, -9223372036854775808
-.LBB0_814:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + rax + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r10
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovss	xmm1, dword ptr [rdx + rax]     # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm1, rbx
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovss	xmm2, dword ptr [rdx + rax + 12] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovss	xmm3, dword ptr [rdx + rax + 8] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 2*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_814
-.LBB0_815:
-	cmp	r14, r9
-	je	.LBB0_1553
-.LBB0_816:
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	rax, -9223372036854775808
-.LBB0_817:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*r14]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, rax
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*r14], rdi
-	add	r14, 1
-	cmp	r9, r14
-	jne	.LBB0_817
-	jmp	.LBB0_1553
-.LBB0_850:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
-.LBB0_851:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 16]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 32]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 48]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 64]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 64]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 80]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax + 32], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 96]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vpextrq	r11, xmm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm1, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm5, r11
-	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vaddps	xmm2, xmm1, xmm1
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rax + 96]
-	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 8*rax + 112]
-	vblendvps	xmm1, xmm1, xmm2, xmm3
-	vmovups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_851
-.LBB0_852:
-	test	r8, r8
-	je	.LBB0_855
-# %bb.853:
-	shl	rax, 2
-	neg	r8
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
-.LBB0_854:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vpextrq	r10, xmm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm1, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm5, r10
-	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vaddps	xmm2, xmm1, xmm1
-	vmovdqu	xmm3, xmmword ptr [rdx + 2*rax]
-	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 2*rax + 16]
-	vblendvps	xmm1, xmm1, xmm2, xmm3
-	vmovups	xmmword ptr [rcx + rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_854
-.LBB0_855:
-	cmp	rsi, r9
-	jne	.LBB0_858
-	jmp	.LBB0_1553
-.LBB0_856:                              #   in Loop: Header=BB0_858 Depth=1
-	vcvtsi2ss	xmm0, xmm5, rax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	je	.LBB0_1553
-.LBB0_858:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	test	rax, rax
-	jns	.LBB0_856
-# %bb.859:                              #   in Loop: Header=BB0_858 Depth=1
-	mov	rdi, rax
-	shr	rdi
-	and	eax, 1
-	or	rax, rdi
-	vcvtsi2ss	xmm0, xmm5, rax
-	vaddss	xmm0, xmm0, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_858
-	jmp	.LBB0_1553
-.LBB0_914:
-	xor	edi, edi
-.LBB0_915:
-	test	r8b, 1
-	je	.LBB0_917
-# %bb.916:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_917:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_918:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_918
-	jmp	.LBB0_1553
-.LBB0_919:
-	xor	edi, edi
-.LBB0_920:
-	test	r8b, 1
-	je	.LBB0_922
-# %bb.921:
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vxorpd	xmm4, xmm4, xmm4
-	vpblendd	ymm5, ymm0, ymm4, 170           # ymm5 = ymm0[0],ymm4[1],ymm0[2],ymm4[3],ymm0[4],ymm4[5],ymm0[6],ymm4[7]
-	vpbroadcastq	ymm6, qword ptr [rip + .LCPI0_5] # ymm6 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm0, ymm0, 32
-	vpbroadcastq	ymm7, qword ptr [rip + .LCPI0_6] # ymm7 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
-	vpor	ymm0, ymm0, ymm7
-	vbroadcastsd	ymm8, qword ptr [rip + .LCPI0_7] # ymm8 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
-	vsubpd	ymm0, ymm0, ymm8
-	vaddpd	ymm0, ymm5, ymm0
-	vpblendd	ymm5, ymm1, ymm4, 170           # ymm5 = ymm1[0],ymm4[1],ymm1[2],ymm4[3],ymm1[4],ymm4[5],ymm1[6],ymm4[7]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm1, ymm1, 32
-	vpor	ymm1, ymm1, ymm7
-	vsubpd	ymm1, ymm1, ymm8
-	vaddpd	ymm1, ymm5, ymm1
-	vpblendd	ymm5, ymm2, ymm4, 170           # ymm5 = ymm2[0],ymm4[1],ymm2[2],ymm4[3],ymm2[4],ymm4[5],ymm2[6],ymm4[7]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm2, ymm2, 32
-	vpor	ymm2, ymm2, ymm7
-	vsubpd	ymm2, ymm2, ymm8
-	vaddpd	ymm2, ymm5, ymm2
-	vpblendd	ymm4, ymm3, ymm4, 170           # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
-	vpor	ymm4, ymm4, ymm6
-	vpsrlq	ymm3, ymm3, 32
-	vpor	ymm3, ymm3, ymm7
-	vsubpd	ymm3, ymm3, ymm8
-	vaddpd	ymm3, ymm4, ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_922:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_923:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI0_8] # xmm0 = [1127219200,1160773632,0,0]
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI0_9] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
-.LBB0_924:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
-	vunpcklps	xmm2, xmm2, xmm0        # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vsubpd	xmm2, xmm2, xmm1
-	vpermilpd	xmm3, xmm2, 1           # xmm3 = xmm2[1,0]
-	vaddsd	xmm2, xmm3, xmm2
-	vmovsd	qword ptr [rcx + 8*rsi], xmm2
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_924
-	jmp	.LBB0_1553
-.LBB0_925:
-	xor	edi, edi
-.LBB0_926:
-	test	r8b, 1
-	je	.LBB0_928
-# %bb.927:
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_928:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_929:                              # =>This Inner Loop Header: Depth=1
-	vcvtsi2sd	xmm0, xmm4, dword ptr [rdx + 4*rsi]
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_929
-	jmp	.LBB0_1553
-.LBB0_930:
-	xor	edi, edi
-.LBB0_931:
-	test	r8b, 1
-	je	.LBB0_933
-# %bb.932:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_933:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_934:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_934
-	jmp	.LBB0_1553
-.LBB0_935:
-	xor	edi, edi
-.LBB0_936:
-	test	r8b, 1
-	je	.LBB0_938
-# %bb.937:
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_938:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_939:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_939
-	jmp	.LBB0_1553
-.LBB0_940:
-	xor	edi, edi
-.LBB0_941:
-	test	r8b, 1
-	je	.LBB0_943
-# %bb.942:
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_943:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_944:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_944
-	jmp	.LBB0_1553
-.LBB0_945:
-	xor	edi, edi
-.LBB0_946:
-	test	r8b, 1
-	je	.LBB0_948
-# %bb.947:
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_948:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_949:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_949
-	jmp	.LBB0_1553
-.LBB0_950:
-	xor	edi, edi
-.LBB0_951:
-	test	r8b, 1
-	je	.LBB0_953
-# %bb.952:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_953:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_954:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_954
-	jmp	.LBB0_1553
-.LBB0_955:
-	xor	edi, edi
-.LBB0_956:
-	test	r8b, 1
-	je	.LBB0_958
-# %bb.957:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_958:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_959:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_959
-	jmp	.LBB0_1553
-.LBB0_960:
-	xor	edi, edi
-.LBB0_961:
-	test	r8b, 1
-	je	.LBB0_963
-# %bb.962:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_963:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_964:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_964
-	jmp	.LBB0_1553
-.LBB0_965:
-	xor	edi, edi
-.LBB0_966:
-	test	r8b, 1
-	je	.LBB0_968
-# %bb.967:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_968:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_969:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_969
-	jmp	.LBB0_1553
-.LBB0_970:
-	xor	edi, edi
-.LBB0_971:
-	test	r8b, 1
-	je	.LBB0_973
-# %bb.972:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_973:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_974:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_974
-	jmp	.LBB0_1553
-.LBB0_975:
-	xor	edi, edi
-.LBB0_976:
-	test	r8b, 1
-	je	.LBB0_978
-# %bb.977:
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_978:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_979:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_979
-	jmp	.LBB0_1553
-.LBB0_980:
-	xor	edi, edi
-.LBB0_981:
-	test	r8b, 1
-	je	.LBB0_983
-# %bb.982:
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_983:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_984:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_984
-	jmp	.LBB0_1553
-.LBB0_985:
-	xor	edi, edi
-.LBB0_986:
-	test	r8b, 1
-	je	.LBB0_988
-# %bb.987:
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_988:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_989:                              # =>This Inner Loop Header: Depth=1
-	vcvtsi2ss	xmm0, xmm4, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_989
-	jmp	.LBB0_1553
-.LBB0_990:
-	xor	edi, edi
-.LBB0_991:
-	test	r8b, 1
-	je	.LBB0_993
-# %bb.992:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_993:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_994:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_994
-	jmp	.LBB0_1553
-.LBB0_995:
-	xor	edi, edi
-.LBB0_996:
-	test	r8b, 1
-	je	.LBB0_998
-# %bb.997:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_998:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1553
-.LBB0_1000:
-	xor	edi, edi
-.LBB0_1001:
-	test	r8b, 1
-	je	.LBB0_1003
-# %bb.1002:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1003:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1004
-	jmp	.LBB0_1553
-.LBB0_1005:
-	xor	edi, edi
-.LBB0_1006:
-	test	r8b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1008:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1009
-	jmp	.LBB0_1553
-.LBB0_1010:
-	xor	edi, edi
-.LBB0_1011:
-	test	r8b, 1
-	je	.LBB0_1013
-# %bb.1012:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1013:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1014
-	jmp	.LBB0_1553
-.LBB0_1015:
-	xor	edi, edi
-.LBB0_1016:
-	test	r8b, 1
-	je	.LBB0_1018
-# %bb.1017:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1018:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1019
-	jmp	.LBB0_1553
-.LBB0_1020:
-	xor	edi, edi
-.LBB0_1021:
-	test	r8b, 1
-	je	.LBB0_1023
-# %bb.1022:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1023:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1024
-	jmp	.LBB0_1553
-.LBB0_1025:
-	xor	edi, edi
-.LBB0_1026:
-	test	r8b, 1
-	je	.LBB0_1028
-# %bb.1027:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1028:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1029
-	jmp	.LBB0_1553
-.LBB0_1030:
-	xor	edi, edi
-.LBB0_1031:
-	test	r8b, 1
-	je	.LBB0_1033
-# %bb.1032:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1033:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1034
-	jmp	.LBB0_1553
-.LBB0_1035:
-	xor	edi, edi
-.LBB0_1036:
-	test	r8b, 1
-	je	.LBB0_1038
-# %bb.1037:
-	vmovups	xmm0, xmmword ptr [rdx + 4*rdi]
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_2] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vcmpltps	xmm2, xmm0, xmm1
-	vsubps	xmm3, xmm0, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vbroadcastss	xmm4, dword ptr [rip + .LCPI0_3] # xmm4 = [2147483648,2147483648,2147483648,2147483648]
-	vxorps	xmm3, xmm3, xmm4
-	vcvttps2dq	xmm0, xmm0
-	vblendvps	xmm0, xmm3, xmm0, xmm2
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vcmpltps	xmm3, xmm2, xmm1
-	vsubps	xmm5, xmm2, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vxorps	xmm5, xmm5, xmm4
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm5, xmm2, xmm3
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vcmpltps	xmm5, xmm3, xmm1
-	vsubps	xmm6, xmm3, xmm1
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm4
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm6, xmm3, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
-	vcmpltps	xmm6, xmm5, xmm1
-	vsubps	xmm1, xmm5, xmm1
-	vcvttps2dq	xmm1, xmm1
-	vxorps	xmm1, xmm1, xmm4
-	vcvttps2dq	xmm4, xmm5
-	vblendvps	xmm1, xmm1, xmm4, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-.LBB0_1038:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1039
-	jmp	.LBB0_1553
-.LBB0_1040:
-	xor	edi, edi
-.LBB0_1041:
-	test	r8b, 1
-	je	.LBB0_1043
-# %bb.1042:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI0_5] # ymm4 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpor	ymm0, ymm0, ymm4
-	vsubpd	ymm0, ymm0, ymm4
-	vpor	ymm1, ymm1, ymm4
-	vsubpd	ymm1, ymm1, ymm4
-	vpor	ymm2, ymm2, ymm4
-	vsubpd	ymm2, ymm2, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vsubpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1043:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	vcvtsi2sd	xmm0, xmm5, rax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1044
-	jmp	.LBB0_1553
-.LBB0_1045:
-	xor	edi, edi
-.LBB0_1046:
-	test	r8b, 1
-	je	.LBB0_1048
-# %bb.1047:
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1048:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1049
-	jmp	.LBB0_1553
-.LBB0_1050:
-	xor	edi, edi
-.LBB0_1051:
-	test	r8b, 1
-	je	.LBB0_1053
-# %bb.1052:
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1053:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1054:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1054
-	jmp	.LBB0_1553
-.LBB0_1055:
-	xor	edi, edi
-.LBB0_1056:
-	test	r8b, 1
-	je	.LBB0_1058
-# %bb.1057:
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm4        # xmm8 = xmm0[0],xmm4[0]
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm1, xmm1, xmm4        # xmm1 = xmm1[0],xmm4[0]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm2, xmm2, xmm4        # xmm2 = xmm2[0],xmm4[0]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vunpcklpd	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
-	vpextrq	rax, xmm6, 1
-	vunpcklpd	xmm0, xmm4, xmm0        # xmm0 = xmm4[0],xmm0[0]
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm6
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm6, 1
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovq	rax, xmm6
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm6, xmm6, xmm7        # xmm6 = xmm6[0],xmm7[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm6
-	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm4
-.LBB0_1058:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1059:                             # =>This Inner Loop Header: Depth=1
-	vcvtsi2sd	xmm0, xmm11, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1059
-	jmp	.LBB0_1553
-.LBB0_1060:
-	xor	edi, edi
-.LBB0_1061:
-	test	r8b, 1
-	je	.LBB0_1063
-# %bb.1062:
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1063:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1064:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vcvtss2sd	xmm0, xmm0, xmm0
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1064
-	jmp	.LBB0_1553
-.LBB0_1065:
-	xor	edi, edi
-.LBB0_1066:
-	test	r8b, 1
-	je	.LBB0_1068
-# %bb.1067:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1068:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1069:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1069
-	jmp	.LBB0_1553
-.LBB0_1070:
-	xor	edi, edi
-.LBB0_1071:
-	test	r8b, 1
-	je	.LBB0_1073
-# %bb.1072:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1073:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1074:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1074
-	jmp	.LBB0_1553
-.LBB0_1075:
-	xor	edi, edi
-.LBB0_1076:
-	test	r8b, 1
-	je	.LBB0_1078
-# %bb.1077:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1078:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1079:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1079
-	jmp	.LBB0_1553
-.LBB0_1080:
-	xor	edi, edi
-.LBB0_1081:
-	test	r8b, 1
-	je	.LBB0_1083
-# %bb.1082:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1083:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1084:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1084
-	jmp	.LBB0_1553
-.LBB0_1085:
-	xor	edi, edi
-.LBB0_1086:
-	test	r8b, 1
-	je	.LBB0_1088
-# %bb.1087:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1088:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1089:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1089
-	jmp	.LBB0_1553
-.LBB0_1090:
-	xor	edi, edi
-.LBB0_1091:
-	test	r8b, 1
-	je	.LBB0_1093
-# %bb.1092:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1093:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1094:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1094
-	jmp	.LBB0_1553
-.LBB0_1095:
-	xor	edi, edi
-.LBB0_1096:
-	test	r8b, 1
-	je	.LBB0_1098
-# %bb.1097:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1098:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1099
-	jmp	.LBB0_1553
-.LBB0_1100:
-	xor	edi, edi
-.LBB0_1101:
-	test	r8b, 1
-	je	.LBB0_1103
-# %bb.1102:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1103:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1104:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1104
-	jmp	.LBB0_1553
-.LBB0_1105:
-	xor	edi, edi
-.LBB0_1106:
-	test	r8b, 1
-	je	.LBB0_1108
-# %bb.1107:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpbroadcastd	ymm3, dword ptr [rip + .LCPI0_13] # ymm3 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpblendw	ymm5, ymm0, ymm3, 170           # ymm5 = ymm0[0],ymm3[1],ymm0[2],ymm3[3],ymm0[4],ymm3[5],ymm0[6],ymm3[7],ymm0[8],ymm3[9],ymm0[10],ymm3[11],ymm0[12],ymm3[13],ymm0[14],ymm3[15]
-	vpbroadcastd	ymm6, dword ptr [rip + .LCPI0_14] # ymm6 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
-	vpsrld	ymm0, ymm0, 16
-	vpblendw	ymm0, ymm0, ymm6, 170           # ymm0 = ymm0[0],ymm6[1],ymm0[2],ymm6[3],ymm0[4],ymm6[5],ymm0[6],ymm6[7],ymm0[8],ymm6[9],ymm0[10],ymm6[11],ymm0[12],ymm6[13],ymm0[14],ymm6[15]
-	vbroadcastss	ymm7, dword ptr [rip + .LCPI0_15] # ymm7 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-	vsubps	ymm0, ymm0, ymm7
-	vaddps	ymm0, ymm5, ymm0
-	vpblendw	ymm5, ymm1, ymm3, 170           # ymm5 = ymm1[0],ymm3[1],ymm1[2],ymm3[3],ymm1[4],ymm3[5],ymm1[6],ymm3[7],ymm1[8],ymm3[9],ymm1[10],ymm3[11],ymm1[12],ymm3[13],ymm1[14],ymm3[15]
-	vpsrld	ymm1, ymm1, 16
-	vpblendw	ymm1, ymm1, ymm6, 170           # ymm1 = ymm1[0],ymm6[1],ymm1[2],ymm6[3],ymm1[4],ymm6[5],ymm1[6],ymm6[7],ymm1[8],ymm6[9],ymm1[10],ymm6[11],ymm1[12],ymm6[13],ymm1[14],ymm6[15]
-	vsubps	ymm1, ymm1, ymm7
-	vaddps	ymm1, ymm5, ymm1
-	vpblendw	ymm5, ymm2, ymm3, 170           # ymm5 = ymm2[0],ymm3[1],ymm2[2],ymm3[3],ymm2[4],ymm3[5],ymm2[6],ymm3[7],ymm2[8],ymm3[9],ymm2[10],ymm3[11],ymm2[12],ymm3[13],ymm2[14],ymm3[15]
-	vpsrld	ymm2, ymm2, 16
-	vpblendw	ymm2, ymm2, ymm6, 170           # ymm2 = ymm2[0],ymm6[1],ymm2[2],ymm6[3],ymm2[4],ymm6[5],ymm2[6],ymm6[7],ymm2[8],ymm6[9],ymm2[10],ymm6[11],ymm2[12],ymm6[13],ymm2[14],ymm6[15]
-	vsubps	ymm2, ymm2, ymm7
-	vaddps	ymm2, ymm5, ymm2
-	vpblendw	ymm3, ymm4, ymm3, 170           # ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3],ymm4[4],ymm3[5],ymm4[6],ymm3[7],ymm4[8],ymm3[9],ymm4[10],ymm3[11],ymm4[12],ymm3[13],ymm4[14],ymm3[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm6, 170           # ymm4 = ymm4[0],ymm6[1],ymm4[2],ymm6[3],ymm4[4],ymm6[5],ymm4[6],ymm6[7],ymm4[8],ymm6[9],ymm4[10],ymm6[11],ymm4[12],ymm6[13],ymm4[14],ymm6[15]
-	vsubps	ymm4, ymm4, ymm7
-	vaddps	ymm3, ymm3, ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1108:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1109
-	jmp	.LBB0_1553
-.LBB0_1110:
-	xor	edi, edi
-.LBB0_1111:
-	test	r8b, 1
-	je	.LBB0_1113
-# %bb.1112:
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	vmovq	xmm0, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	vmovq	xmm1, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	vmovq	xmm1, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 56]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 48]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
-	vmovq	xmm3, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 32]
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovq	xmm3, rax
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 64]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
-	vmovq	xmm7, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 96]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-.LBB0_1113:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1114:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1114
-	jmp	.LBB0_1553
-.LBB0_1115:
-	xor	edi, edi
-.LBB0_1116:
-	test	r8b, 1
-	je	.LBB0_1118
-# %bb.1117:
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1118:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vcvtsd2ss	xmm0, xmm0, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1119
-	jmp	.LBB0_1553
-.LBB0_1120:
-	xor	edi, edi
-.LBB0_1121:
-	test	r8b, 1
-	je	.LBB0_1123
-# %bb.1122:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1123:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1124:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1124
-	jmp	.LBB0_1553
-.LBB0_1125:
-	xor	edi, edi
-.LBB0_1126:
-	test	r8b, 1
-	je	.LBB0_1128
-# %bb.1127:
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1128:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1129
-	jmp	.LBB0_1553
-.LBB0_1130:
-	xor	edi, edi
-.LBB0_1131:
-	test	r8b, 1
-	je	.LBB0_1133
-# %bb.1132:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1133:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1134:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1134
-	jmp	.LBB0_1553
-.LBB0_1135:
-	xor	edi, edi
-.LBB0_1136:
-	test	r8b, 1
-	je	.LBB0_1138
-# %bb.1137:
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vpextrq	rax, xmm4, 1
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm1, xmm4, xmm2, 16    # xmm1 = xmm4[0],xmm2[0],xmm4[2,3]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm6, 32    # xmm1 = xmm1[0,1],xmm6[0],xmm1[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 112]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 16    # xmm3 = xmm3[0],xmm4[0],xmm3[2,3]
-	vinsertps	xmm3, xmm3, xmm6, 32    # xmm3 = xmm3[0,1],xmm6[0],xmm3[3]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1138:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
-	vcvtsi2ss	xmm0, xmm8, qword ptr [rdx + 8*rsi]
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1139
-	jmp	.LBB0_1553
-.LBB0_1140:
-	xor	edi, edi
-.LBB0_1141:
-	test	r8b, 1
-	je	.LBB0_1143
-# %bb.1142:
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
-	vmovq	xmm0, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi]
-	vmovq	xmm1, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
-	vmovq	xmm1, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 28]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 24]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
-	vmovq	xmm3, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 16]
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovq	xmm3, rax
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 32]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
-	vmovq	xmm7, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 48]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-.LBB0_1143:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1144:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1144
-.LBB0_1553:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_1145:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1146:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1146
-.LBB0_1147:
-	test	r8, r8
-	je	.LBB0_1150
-# %bb.1148:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1149
-.LBB0_1150:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1151
-.LBB0_1155:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1156:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1156
-.LBB0_1157:
-	test	r8, r8
-	je	.LBB0_1160
-# %bb.1158:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1159
-.LBB0_1160:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1161
-.LBB0_1165:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1166:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1166
-.LBB0_1167:
-	test	r8, r8
-	je	.LBB0_1170
-# %bb.1168:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1169
-.LBB0_1170:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1171
-.LBB0_1175:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1176:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1176
-.LBB0_1177:
-	test	r8, r8
-	je	.LBB0_1180
-# %bb.1178:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1179
-.LBB0_1180:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1181
-.LBB0_1185:
-	xor	edi, edi
-.LBB0_1186:
-	test	r8b, 1
-	je	.LBB0_1188
-# %bb.1187:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1188:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1189
-.LBB0_1193:
-	xor	edi, edi
-.LBB0_1194:
-	test	r8b, 1
-	je	.LBB0_1196
-# %bb.1195:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1196:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1197
-.LBB0_1201:
-	xor	edi, edi
-.LBB0_1202:
-	test	r8b, 1
-	je	.LBB0_1204
-# %bb.1203:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1204:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1205
-.LBB0_1209:
-	xor	edi, edi
-.LBB0_1210:
-	test	r8b, 1
-	je	.LBB0_1212
-# %bb.1211:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1212:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1213
-.LBB0_1217:
-	xor	edi, edi
-.LBB0_1218:
-	test	r8b, 1
-	je	.LBB0_1220
-# %bb.1219:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1220:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1221
-.LBB0_1225:
-	xor	edi, edi
-.LBB0_1226:
-	test	r8b, 1
-	je	.LBB0_1228
-# %bb.1227:
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1228:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1229
-.LBB0_1233:
-	xor	edi, edi
-.LBB0_1234:
-	test	r8b, 1
-	je	.LBB0_1236
-# %bb.1235:
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1236:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1237
-.LBB0_1241:
-	xor	edi, edi
-.LBB0_1242:
-	test	r8b, 1
-	je	.LBB0_1244
-# %bb.1243:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1244:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1245
-.LBB0_1249:
-	xor	edi, edi
-.LBB0_1250:
-	test	r8b, 1
-	je	.LBB0_1252
-# %bb.1251:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackssdw	xmm0, xmm0, xmm0
-	vpacksswb	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackssdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vpackssdw	xmm1, xmm2, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1252:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1253
-.LBB0_1257:
-	xor	edi, edi
-.LBB0_1258:
-	test	r8b, 1
-	je	.LBB0_1260
-# %bb.1259:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1260:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1261
-.LBB0_1265:
-	xor	edi, edi
-.LBB0_1266:
-	test	r8b, 1
-	je	.LBB0_1268
-# %bb.1267:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1268:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1269
-.LBB0_1273:
-	xor	edi, edi
-.LBB0_1274:
-	test	r8b, 1
-	je	.LBB0_1276
-# %bb.1275:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1276:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1277
-.LBB0_1281:
-	xor	edi, edi
-.LBB0_1282:
-	test	r8b, 1
-	je	.LBB0_1284
-# %bb.1283:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1284:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1285
-.LBB0_1289:
-	xor	edi, edi
-.LBB0_1290:
-	test	r8b, 1
-	je	.LBB0_1292
-# %bb.1291:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1292:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1293
-.LBB0_1297:
-	xor	edi, edi
-.LBB0_1298:
-	test	r8b, 1
-	je	.LBB0_1300
-# %bb.1299:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1300:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1301
-.LBB0_1305:
-	xor	edi, edi
-.LBB0_1306:
-	test	r8b, 1
-	je	.LBB0_1308
-# %bb.1307:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1308:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1309
-.LBB0_1313:
-	xor	edi, edi
-.LBB0_1314:
-	test	r8b, 1
-	je	.LBB0_1316
-# %bb.1315:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1316:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1317
-.LBB0_1321:
-	xor	edi, edi
-.LBB0_1322:
-	test	r8b, 1
-	je	.LBB0_1324
-# %bb.1323:
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1324:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1325
-.LBB0_1329:
-	xor	edi, edi
-.LBB0_1330:
-	test	r8b, 1
-	je	.LBB0_1332
-# %bb.1331:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1332:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1333
-.LBB0_1337:
-	xor	edi, edi
-.LBB0_1338:
-	test	r8b, 1
-	je	.LBB0_1340
-# %bb.1339:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1340:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1341
-.LBB0_1345:
-	xor	edi, edi
-.LBB0_1346:
-	test	r8b, 1
-	je	.LBB0_1348
-# %bb.1347:
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1348:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1349
-.LBB0_1353:
-	xor	edi, edi
-.LBB0_1354:
-	test	r8b, 1
-	je	.LBB0_1356
-# %bb.1355:
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1356:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1357
-.LBB0_1361:
-	xor	edi, edi
-.LBB0_1362:
-	test	r8b, 1
-	je	.LBB0_1364
-# %bb.1363:
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1364:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1365
-.LBB0_1369:
-	xor	edi, edi
-.LBB0_1370:
-	test	r8b, 1
-	je	.LBB0_1372
-# %bb.1371:
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1372:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1373
-.LBB0_1377:
-	xor	edi, edi
-.LBB0_1378:
-	test	r8b, 1
-	je	.LBB0_1380
-# %bb.1379:
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1380:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1381
-.LBB0_1385:
-	xor	edi, edi
-.LBB0_1386:
-	test	r8b, 1
-	je	.LBB0_1388
-# %bb.1387:
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1388:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1389
-.LBB0_1393:
-	xor	edi, edi
-.LBB0_1394:
-	test	r8b, 1
-	je	.LBB0_1396
-# %bb.1395:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1396:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1397
-.LBB0_1401:
-	xor	edi, edi
-.LBB0_1402:
-	test	r8b, 1
-	je	.LBB0_1404
-# %bb.1403:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1404:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1405
-.LBB0_1409:
-	xor	edi, edi
-.LBB0_1410:
-	test	r8b, 1
-	je	.LBB0_1412
-# %bb.1411:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1412:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1413
-.LBB0_1417:
-	xor	edi, edi
-.LBB0_1418:
-	test	r8b, 1
-	je	.LBB0_1420
-# %bb.1419:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1420:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1421
-.LBB0_1425:
-	xor	edi, edi
-.LBB0_1426:
-	test	r8b, 1
-	je	.LBB0_1428
-# %bb.1427:
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1428:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1429
-.LBB0_1433:
-	xor	edi, edi
-.LBB0_1434:
-	test	r8b, 1
-	je	.LBB0_1436
-# %bb.1435:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1436:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1437
-.LBB0_1441:
-	xor	edi, edi
-.LBB0_1442:
-	test	r8b, 1
-	je	.LBB0_1444
-# %bb.1443:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1444:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1445
-.LBB0_1449:
-	xor	edi, edi
-.LBB0_1450:
-	test	r8b, 1
-	je	.LBB0_1452
-# %bb.1451:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackusdw	xmm0, xmm0, xmm0
-	vpackuswb	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackusdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vpackusdw	xmm1, xmm2, xmm2
-	vpackuswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1452:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1453
-.LBB0_1457:
-	xor	edi, edi
-.LBB0_1458:
-	test	r8b, 1
-	je	.LBB0_1460
-# %bb.1459:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1460:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1461
-.LBB0_1465:
-	xor	edi, edi
-.LBB0_1466:
-	test	r8b, 1
-	je	.LBB0_1468
-# %bb.1467:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1468:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1469
-.LBB0_1473:
-	xor	edi, edi
-.LBB0_1474:
-	test	r8b, 1
-	je	.LBB0_1476
-# %bb.1475:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1476:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1477
-.LBB0_1481:
-	xor	edi, edi
-.LBB0_1482:
-	test	r8b, 1
-	je	.LBB0_1484
-# %bb.1483:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1484:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1485
-.LBB0_1489:
-	xor	edi, edi
-.LBB0_1490:
-	test	r8b, 1
-	je	.LBB0_1492
-# %bb.1491:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1492:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1493
-.LBB0_1497:
-	xor	edi, edi
-.LBB0_1498:
-	test	r8b, 1
-	je	.LBB0_1500
-# %bb.1499:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1500:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1501
-.LBB0_1505:
-	xor	edi, edi
-.LBB0_1506:
-	test	r8b, 1
-	je	.LBB0_1508
-# %bb.1507:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1508:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1509
-.LBB0_1513:
-	xor	edi, edi
-.LBB0_1514:
-	test	r8b, 1
-	je	.LBB0_1516
-# %bb.1515:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1516:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1517
-.LBB0_1521:
-	xor	edi, edi
-.LBB0_1522:
-	test	r8b, 1
-	je	.LBB0_1524
-# %bb.1523:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1524:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1525
-.LBB0_1529:
-	xor	edi, edi
-.LBB0_1530:
-	test	r8b, 1
-	je	.LBB0_1532
-# %bb.1531:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1532:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1533
-.LBB0_1537:
-	xor	edi, edi
-.LBB0_1538:
-	test	r8b, 1
-	je	.LBB0_1540
-# %bb.1539:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1540:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1541
-.LBB0_1545:
-	xor	edi, edi
-.LBB0_1546:
-	test	r8b, 1
-	je	.LBB0_1548
-# %bb.1547:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1548:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1549
-.Lfunc_end0:
-	.size	cast_type_numeric_avx2, .Lfunc_end0-cast_type_numeric_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
deleted file mode 100644
index d029bae0fae66..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
+++ /dev/null
@@ -1,6088 +0,0 @@
-	.text
-	.file	"cast_numeric.cc"
-	.globl	cast_type_numeric_neon          // -- Begin function cast_type_numeric_neon
-	.p2align	2
-	.type	cast_type_numeric_neon,@function
-cast_type_numeric_neon:                 // @cast_type_numeric_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!           // 16-byte Folded Spill
-	cmp	w0, #6                          // =6
-	mov	x29, sp
-	b.gt	.LBB0_17
-// %bb.1:
-	cmp	w0, #3                          // =3
-	b.le	.LBB0_29
-// %bb.2:
-	cmp	w0, #4                          // =4
-	b.eq	.LBB0_53
-// %bb.3:
-	cmp	w0, #5                          // =5
-	b.eq	.LBB0_61
-// %bb.4:
-	cmp	w0, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.5:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_109
-// %bb.6:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_191
-// %bb.7:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_347
-// %bb.8:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_350
-// %bb.9:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.10:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.11:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_14
-// %bb.12:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_894
-// %bb.13:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_894
-.LBB0_14:
-	mov	x9, xzr
-.LBB0_15:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_16:                               // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_16
-	b	.LBB0_893
-.LBB0_17:
-	cmp	w0, #8                          // =8
-	b.le	.LBB0_43
-// %bb.18:
-	cmp	w0, #9                          // =9
-	b.eq	.LBB0_69
-// %bb.19:
-	cmp	w0, #11                         // =11
-	b.eq	.LBB0_77
-// %bb.20:
-	cmp	w0, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.21:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_116
-// %bb.22:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_200
-// %bb.23:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_353
-// %bb.24:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_356
-// %bb.25:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.26:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.27:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_643
-// %bb.28:
-	mov	x9, xzr
-	b	.LBB0_646
-.LBB0_29:
-	cmp	w0, #2                          // =2
-	b.eq	.LBB0_85
-// %bb.30:
-	cmp	w0, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.31:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_127
-// %bb.32:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_209
-// %bb.33:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_359
-// %bb.34:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_366
-// %bb.35:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.36:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.37:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_40
-// %bb.38:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_897
-// %bb.39:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_897
-.LBB0_40:
-	mov	x9, xzr
-.LBB0_41:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_42:                               // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_42
-	b	.LBB0_893
-.LBB0_43:
-	cmp	w0, #7                          // =7
-	b.eq	.LBB0_97
-// %bb.44:
-	cmp	w0, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.45:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_138
-// %bb.46:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_218
-// %bb.47:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_373
-// %bb.48:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_376
-// %bb.49:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.50:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.51:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_648
-// %bb.52:
-	mov	x9, xzr
-	b	.LBB0_651
-.LBB0_53:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_145
-// %bb.54:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_227
-// %bb.55:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_379
-// %bb.56:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_386
-// %bb.57:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.58:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.59:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_653
-// %bb.60:
-	mov	x9, xzr
-	b	.LBB0_656
-.LBB0_61:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_152
-// %bb.62:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_236
-// %bb.63:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_393
-// %bb.64:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_400
-// %bb.65:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.66:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.67:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_658
-// %bb.68:
-	mov	x9, xzr
-	b	.LBB0_661
-.LBB0_69:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_159
-// %bb.70:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_245
-// %bb.71:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_407
-// %bb.72:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_410
-// %bb.73:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.74:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.75:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_663
-// %bb.76:
-	mov	x9, xzr
-	b	.LBB0_666
-.LBB0_77:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_166
-// %bb.78:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_254
-// %bb.79:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_413
-// %bb.80:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_416
-// %bb.81:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.82:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.83:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_668
-// %bb.84:
-	mov	x9, xzr
-	b	.LBB0_671
-.LBB0_85:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_173
-// %bb.86:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_263
-// %bb.87:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_419
-// %bb.88:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_426
-// %bb.89:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.90:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.91:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_94
-// %bb.92:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_900
-// %bb.93:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_900
-.LBB0_94:
-	mov	x9, xzr
-.LBB0_95:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_96:                               // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_96
-	b	.LBB0_893
-.LBB0_97:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_184
-// %bb.98:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_272
-// %bb.99:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_433
-// %bb.100:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_436
-// %bb.101:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.102:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.103:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_106
-// %bb.104:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_903
-// %bb.105:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_903
-.LBB0_106:
-	mov	x9, xzr
-.LBB0_107:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_108:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_108
-	b	.LBB0_893
-.LBB0_109:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_281
-// %bb.110:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_439
-// %bb.111:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_442
-// %bb.112:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.113:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.114:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_673
-// %bb.115:
-	mov	x9, xzr
-	b	.LBB0_676
-.LBB0_116:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_286
-// %bb.117:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_445
-// %bb.118:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_448
-// %bb.119:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.120:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.121:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_124
-// %bb.122:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_906
-// %bb.123:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_906
-.LBB0_124:
-	mov	x9, xzr
-.LBB0_125:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_126:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_126
-	b	.LBB0_893
-.LBB0_127:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_291
-// %bb.128:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_451
-// %bb.129:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_458
-// %bb.130:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.131:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.132:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_135
-// %bb.133:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_909
-// %bb.134:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_909
-.LBB0_135:
-	mov	x9, xzr
-.LBB0_136:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_137:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_137
-	b	.LBB0_893
-.LBB0_138:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_300
-// %bb.139:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_465
-// %bb.140:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_472
-// %bb.141:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.142:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.143:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_678
-// %bb.144:
-	mov	x9, xzr
-	b	.LBB0_681
-.LBB0_145:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_309
-// %bb.146:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_475
-// %bb.147:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_478
-// %bb.148:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.149:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.150:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_683
-// %bb.151:
-	mov	x9, xzr
-	b	.LBB0_686
-.LBB0_152:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_314
-// %bb.153:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_481
-// %bb.154:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_484
-// %bb.155:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.156:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.157:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_688
-// %bb.158:
-	mov	x9, xzr
-	b	.LBB0_691
-.LBB0_159:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_319
-// %bb.160:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_487
-// %bb.161:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_494
-// %bb.162:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.163:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.164:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_693
-// %bb.165:
-	mov	x9, xzr
-	b	.LBB0_696
-.LBB0_166:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_328
-// %bb.167:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_497
-// %bb.168:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_500
-// %bb.169:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.170:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.171:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_698
-// %bb.172:
-	mov	x9, xzr
-	b	.LBB0_701
-.LBB0_173:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_333
-// %bb.174:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_507
-// %bb.175:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_514
-// %bb.176:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.177:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.178:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_181
-// %bb.179:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_912
-// %bb.180:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_912
-.LBB0_181:
-	mov	x9, xzr
-.LBB0_182:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_183:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_183
-	b	.LBB0_893
-.LBB0_184:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_342
-// %bb.185:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_521
-// %bb.186:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_524
-// %bb.187:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.188:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.189:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_703
-// %bb.190:
-	mov	x9, xzr
-	b	.LBB0_706
-.LBB0_191:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_527
-// %bb.192:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.193:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.194:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_197
-// %bb.195:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_915
-// %bb.196:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_915
-.LBB0_197:
-	mov	x9, xzr
-.LBB0_198:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_199:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_199
-	b	.LBB0_893
-.LBB0_200:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_534
-// %bb.201:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.202:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.203:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_206
-// %bb.204:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_918
-// %bb.205:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_918
-.LBB0_206:
-	mov	x9, xzr
-.LBB0_207:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_208:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_208
-	b	.LBB0_893
-.LBB0_209:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_541
-// %bb.210:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.211:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.212:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_215
-// %bb.213:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_921
-// %bb.214:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_921
-.LBB0_215:
-	mov	x9, xzr
-.LBB0_216:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_217:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_217
-	b	.LBB0_893
-.LBB0_218:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_548
-// %bb.219:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.220:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.221:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_224
-// %bb.222:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_924
-// %bb.223:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_924
-.LBB0_224:
-	mov	x9, xzr
-.LBB0_225:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_226:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_226
-	b	.LBB0_893
-.LBB0_227:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_555
-// %bb.228:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.229:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.230:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_233
-// %bb.231:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_927
-// %bb.232:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_927
-.LBB0_233:
-	mov	x9, xzr
-.LBB0_234:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_235:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_235
-	b	.LBB0_893
-.LBB0_236:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_562
-// %bb.237:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.238:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.239:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_242
-// %bb.240:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_930
-// %bb.241:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_930
-.LBB0_242:
-	mov	x9, xzr
-.LBB0_243:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_244:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_244
-	b	.LBB0_893
-.LBB0_245:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_569
-// %bb.246:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.247:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.248:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_251
-// %bb.249:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_933
-// %bb.250:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_933
-.LBB0_251:
-	mov	x9, xzr
-.LBB0_252:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_253:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_253
-	b	.LBB0_893
-.LBB0_254:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_576
-// %bb.255:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.256:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.257:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_260
-// %bb.258:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_936
-// %bb.259:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_936
-.LBB0_260:
-	mov	x9, xzr
-.LBB0_261:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_262:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_262
-	b	.LBB0_893
-.LBB0_263:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_583
-// %bb.264:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.265:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.266:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_269
-// %bb.267:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_939
-// %bb.268:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_939
-.LBB0_269:
-	mov	x9, xzr
-.LBB0_270:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_271:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_271
-	b	.LBB0_893
-.LBB0_272:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_590
-// %bb.273:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.274:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.275:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_278
-// %bb.276:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_942
-// %bb.277:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_942
-.LBB0_278:
-	mov	x9, xzr
-.LBB0_279:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_280:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_280
-	b	.LBB0_893
-.LBB0_281:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_597
-// %bb.282:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.283:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.284:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_708
-// %bb.285:
-	mov	x9, xzr
-	b	.LBB0_711
-.LBB0_286:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_604
-// %bb.287:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.288:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.289:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_713
-// %bb.290:
-	mov	x9, xzr
-	b	.LBB0_716
-.LBB0_291:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_607
-// %bb.292:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.293:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.294:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_297
-// %bb.295:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_945
-// %bb.296:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_945
-.LBB0_297:
-	mov	x9, xzr
-.LBB0_298:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_299:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	x11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_299
-	b	.LBB0_893
-.LBB0_300:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_614
-// %bb.301:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.302:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.303:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_306
-// %bb.304:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_948
-// %bb.305:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_948
-.LBB0_306:
-	mov	x9, xzr
-.LBB0_307:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_308:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_308
-	b	.LBB0_893
-.LBB0_309:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_617
-// %bb.310:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.311:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.312:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_718
-// %bb.313:
-	mov	x9, xzr
-	b	.LBB0_721
-.LBB0_314:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_620
-// %bb.315:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.316:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.317:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_723
-// %bb.318:
-	mov	x9, xzr
-	b	.LBB0_726
-.LBB0_319:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_623
-// %bb.320:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.321:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.322:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_325
-// %bb.323:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_951
-// %bb.324:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_951
-.LBB0_325:
-	mov	x9, xzr
-.LBB0_326:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_327:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_327
-	b	.LBB0_893
-.LBB0_328:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_626
-// %bb.329:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.330:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.331:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_728
-// %bb.332:
-	mov	x9, xzr
-	b	.LBB0_731
-.LBB0_333:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_629
-// %bb.334:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.335:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.336:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_339
-// %bb.337:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_954
-// %bb.338:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_954
-.LBB0_339:
-	mov	x9, xzr
-.LBB0_340:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_341:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_341
-	b	.LBB0_893
-.LBB0_342:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_636
-// %bb.343:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.344:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.345:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_733
-// %bb.346:
-	mov	x9, xzr
-	b	.LBB0_736
-.LBB0_347:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.348:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_738
-// %bb.349:
-	mov	x9, xzr
-	b	.LBB0_741
-.LBB0_350:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.351:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_743
-// %bb.352:
-	mov	x9, xzr
-	b	.LBB0_746
-.LBB0_353:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.354:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_748
-// %bb.355:
-	mov	x9, xzr
-	b	.LBB0_751
-.LBB0_356:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.357:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_753
-// %bb.358:
-	mov	x9, xzr
-	b	.LBB0_756
-.LBB0_359:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.360:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_363
-// %bb.361:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_957
-// %bb.362:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_957
-.LBB0_363:
-	mov	x9, xzr
-.LBB0_364:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_365:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_365
-	b	.LBB0_893
-.LBB0_366:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.367:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_370
-// %bb.368:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_960
-// %bb.369:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_960
-.LBB0_370:
-	mov	x9, xzr
-.LBB0_371:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_372:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_372
-	b	.LBB0_893
-.LBB0_373:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.374:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_758
-// %bb.375:
-	mov	x9, xzr
-	b	.LBB0_761
-.LBB0_376:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.377:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_763
-// %bb.378:
-	mov	x9, xzr
-	b	.LBB0_766
-.LBB0_379:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.380:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_383
-// %bb.381:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_963
-// %bb.382:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_963
-.LBB0_383:
-	mov	x9, xzr
-.LBB0_384:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_385:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_385
-	b	.LBB0_893
-.LBB0_386:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.387:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_390
-// %bb.388:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_966
-// %bb.389:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_966
-.LBB0_390:
-	mov	x9, xzr
-.LBB0_391:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_392:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_392
-	b	.LBB0_893
-.LBB0_393:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.394:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_397
-// %bb.395:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_969
-// %bb.396:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_969
-.LBB0_397:
-	mov	x9, xzr
-.LBB0_398:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_399:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_399
-	b	.LBB0_893
-.LBB0_400:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.401:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_404
-// %bb.402:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_972
-// %bb.403:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_972
-.LBB0_404:
-	mov	x9, xzr
-.LBB0_405:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_406:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_406
-	b	.LBB0_893
-.LBB0_407:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.408:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_768
-// %bb.409:
-	mov	x9, xzr
-	b	.LBB0_771
-.LBB0_410:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.411:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_773
-// %bb.412:
-	mov	x9, xzr
-	b	.LBB0_776
-.LBB0_413:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.414:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_778
-// %bb.415:
-	mov	x9, xzr
-	b	.LBB0_781
-.LBB0_416:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.417:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_783
-// %bb.418:
-	mov	x9, xzr
-	b	.LBB0_786
-.LBB0_419:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.420:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_423
-// %bb.421:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_975
-// %bb.422:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_975
-.LBB0_423:
-	mov	x9, xzr
-.LBB0_424:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_425:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_425
-	b	.LBB0_893
-.LBB0_426:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.427:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_430
-// %bb.428:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_978
-// %bb.429:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_978
-.LBB0_430:
-	mov	x9, xzr
-.LBB0_431:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_432:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_432
-	b	.LBB0_893
-.LBB0_433:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.434:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_788
-// %bb.435:
-	mov	x9, xzr
-	b	.LBB0_791
-.LBB0_436:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.437:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_793
-// %bb.438:
-	mov	x9, xzr
-	b	.LBB0_796
-.LBB0_439:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.440:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_798
-// %bb.441:
-	mov	x9, xzr
-	b	.LBB0_801
-.LBB0_442:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.443:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_803
-// %bb.444:
-	mov	x9, xzr
-	b	.LBB0_806
-.LBB0_445:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.446:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_808
-// %bb.447:
-	mov	x9, xzr
-	b	.LBB0_811
-.LBB0_448:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.449:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_813
-// %bb.450:
-	mov	x9, xzr
-	b	.LBB0_816
-.LBB0_451:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.452:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_455
-// %bb.453:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_981
-// %bb.454:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_981
-.LBB0_455:
-	mov	x9, xzr
-.LBB0_456:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_457:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	x11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_457
-	b	.LBB0_893
-.LBB0_458:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.459:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_462
-// %bb.460:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_984
-// %bb.461:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_984
-.LBB0_462:
-	mov	x9, xzr
-.LBB0_463:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_464:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_464
-	b	.LBB0_893
-.LBB0_465:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.466:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_469
-// %bb.467:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_987
-// %bb.468:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_987
-.LBB0_469:
-	mov	x9, xzr
-.LBB0_470:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_471:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_471
-	b	.LBB0_893
-.LBB0_472:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.473:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_818
-// %bb.474:
-	mov	x9, xzr
-	b	.LBB0_821
-.LBB0_475:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.476:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_823
-// %bb.477:
-	mov	x9, xzr
-	b	.LBB0_826
-.LBB0_478:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.479:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_828
-// %bb.480:
-	mov	x9, xzr
-	b	.LBB0_831
-.LBB0_481:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.482:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_833
-// %bb.483:
-	mov	x9, xzr
-	b	.LBB0_836
-.LBB0_484:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.485:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_838
-// %bb.486:
-	mov	x9, xzr
-	b	.LBB0_841
-.LBB0_487:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.488:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_491
-// %bb.489:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_990
-// %bb.490:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_990
-.LBB0_491:
-	mov	x9, xzr
-.LBB0_492:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_493:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_493
-	b	.LBB0_893
-.LBB0_494:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.495:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_843
-// %bb.496:
-	mov	x9, xzr
-	b	.LBB0_846
-.LBB0_497:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.498:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_848
-// %bb.499:
-	mov	x9, xzr
-	b	.LBB0_851
-.LBB0_500:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.501:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_504
-// %bb.502:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_993
-// %bb.503:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_993
-.LBB0_504:
-	mov	x9, xzr
-.LBB0_505:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_506:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_506
-	b	.LBB0_893
-.LBB0_507:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.508:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_511
-// %bb.509:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_996
-// %bb.510:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_996
-.LBB0_511:
-	mov	x9, xzr
-.LBB0_512:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_513:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_513
-	b	.LBB0_893
-.LBB0_514:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.515:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_518
-// %bb.516:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_999
-// %bb.517:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_999
-.LBB0_518:
-	mov	x9, xzr
-.LBB0_519:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_520:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_520
-	b	.LBB0_893
-.LBB0_521:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.522:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_853
-// %bb.523:
-	mov	x9, xzr
-	b	.LBB0_856
-.LBB0_524:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.525:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_858
-// %bb.526:
-	mov	x9, xzr
-	b	.LBB0_861
-.LBB0_527:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.528:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_531
-// %bb.529:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1002
-// %bb.530:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1002
-.LBB0_531:
-	mov	x9, xzr
-.LBB0_532:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_533:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_533
-	b	.LBB0_893
-.LBB0_534:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.535:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_538
-// %bb.536:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1005
-// %bb.537:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1005
-.LBB0_538:
-	mov	x9, xzr
-.LBB0_539:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_540:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_540
-	b	.LBB0_893
-.LBB0_541:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.542:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_545
-// %bb.543:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1008
-// %bb.544:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1008
-.LBB0_545:
-	mov	x9, xzr
-.LBB0_546:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_547:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_547
-	b	.LBB0_893
-.LBB0_548:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.549:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_552
-// %bb.550:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1011
-// %bb.551:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1011
-.LBB0_552:
-	mov	x9, xzr
-.LBB0_553:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_554:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_554
-	b	.LBB0_893
-.LBB0_555:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.556:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_559
-// %bb.557:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_1014
-// %bb.558:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1014
-.LBB0_559:
-	mov	x9, xzr
-.LBB0_560:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_561:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_561
-	b	.LBB0_893
-.LBB0_562:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.563:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_566
-// %bb.564:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_1017
-// %bb.565:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1017
-.LBB0_566:
-	mov	x9, xzr
-.LBB0_567:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_568:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_568
-	b	.LBB0_893
-.LBB0_569:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.570:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_573
-// %bb.571:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1020
-// %bb.572:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1020
-.LBB0_573:
-	mov	x9, xzr
-.LBB0_574:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_575:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_575
-	b	.LBB0_893
-.LBB0_576:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.577:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_580
-// %bb.578:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1023
-// %bb.579:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1023
-.LBB0_580:
-	mov	x9, xzr
-.LBB0_581:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_582:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_582
-	b	.LBB0_893
-.LBB0_583:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.584:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_587
-// %bb.585:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1026
-// %bb.586:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1026
-.LBB0_587:
-	mov	x9, xzr
-.LBB0_588:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_589:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_589
-	b	.LBB0_893
-.LBB0_590:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.591:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_594
-// %bb.592:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1029
-// %bb.593:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1029
-.LBB0_594:
-	mov	x9, xzr
-.LBB0_595:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_596:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_596
-	b	.LBB0_893
-.LBB0_597:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.598:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_601
-// %bb.599:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_1032
-// %bb.600:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_1032
-.LBB0_601:
-	mov	x9, xzr
-.LBB0_602:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_603:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_603
-	b	.LBB0_893
-.LBB0_604:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.605:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_863
-// %bb.606:
-	mov	x9, xzr
-	b	.LBB0_866
-.LBB0_607:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.608:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_611
-// %bb.609:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1035
-// %bb.610:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_1035
-.LBB0_611:
-	mov	x9, xzr
-.LBB0_612:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_613:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_613
-	b	.LBB0_893
-.LBB0_614:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.615:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_868
-// %bb.616:
-	mov	x9, xzr
-	b	.LBB0_871
-.LBB0_617:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.618:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_873
-// %bb.619:
-	mov	x9, xzr
-	b	.LBB0_876
-.LBB0_620:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.621:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_878
-// %bb.622:
-	mov	x9, xzr
-	b	.LBB0_881
-.LBB0_623:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.624:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_883
-// %bb.625:
-	mov	x9, xzr
-	b	.LBB0_886
-.LBB0_626:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.627:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_888
-// %bb.628:
-	mov	x9, xzr
-	b	.LBB0_891
-.LBB0_629:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.630:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_633
-// %bb.631:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1038
-// %bb.632:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_1038
-.LBB0_633:
-	mov	x9, xzr
-.LBB0_634:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_635:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_635
-	b	.LBB0_893
-.LBB0_636:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.637:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_640
-// %bb.638:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_1041
-// %bb.639:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_1041
-.LBB0_640:
-	mov	x9, xzr
-.LBB0_641:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_642:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_642
-	b	.LBB0_893
-.LBB0_643:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_644:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v2.2d, v2.2d
-	fcvtzu	v0.2d, v0.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn	v3.2s, v3.2d
-	xtn	v1.2s, v1.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_644
-// %bb.645:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_646:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_647:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzu	w11, d0
-	str	w11, [x10], #4
-	b.ne	.LBB0_647
-	b	.LBB0_893
-.LBB0_648:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_649:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_649
-// %bb.650:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_651:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_652:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_652
-	b	.LBB0_893
-.LBB0_653:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_654:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_654
-// %bb.655:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_656:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_657:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_657
-	b	.LBB0_893
-.LBB0_658:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_659:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_659
-// %bb.660:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_661:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_662:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_662
-	b	.LBB0_893
-.LBB0_663:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_664:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_664
-// %bb.665:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_666:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_667:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_667
-	b	.LBB0_893
-.LBB0_668:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_669:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	fcvtzu	v1.4s, v1.4s
-	fcvtzu	v3.4s, v3.4s
-	fcvtzu	v2.4s, v2.4s
-	fcvtzu	v0.4s, v0.4s
-	fcvtzu	v7.4s, v7.4s
-	fcvtzu	v6.4s, v6.4s
-	fcvtzu	v5.4s, v5.4s
-	fcvtzu	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_669
-// %bb.670:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_671:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_672:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzu	w11, s0
-	str	w11, [x9], #4
-	b.ne	.LBB0_672
-	b	.LBB0_893
-.LBB0_673:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_674:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v0.2d, v0.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_674
-// %bb.675:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_676:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_677:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_677
-	b	.LBB0_893
-.LBB0_678:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_679:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_679
-// %bb.680:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_681:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_682:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, d0
-	str	d0, [x9], #8
-	b.ne	.LBB0_682
-	b	.LBB0_893
-.LBB0_683:
-	and	x9, x8, #0xfffffff0
-	movi	d0, #0x00ffff0000ffff
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_684:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q2, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v4.16b, v4.16b, #8
-	umov	w13, v4.h[0]
-	umov	w15, v4.h[2]
-	ext	v3.16b, v2.16b, v2.16b, #8
-	umov	w14, v4.h[1]
-	umov	w16, v4.h[3]
-	umov	w17, v2.h[0]
-	umov	w18, v2.h[1]
-	umov	w0, v2.h[2]
-	fmov	s4, w13
-	umov	w13, v2.h[3]
-	fmov	s2, w15
-	umov	w15, v1.h[0]
-	fmov	s6, w0
-	umov	w0, v1.h[2]
-	fmov	s7, w15
-	umov	w15, v3.h[0]
-	fmov	s16, w0
-	umov	w0, v3.h[2]
-	fmov	s17, w15
-	mov	v6.s[1], w13
-	umov	w13, v3.h[1]
-	fmov	s5, w17
-	umov	w17, v1.h[1]
-	umov	w15, v1.h[3]
-	fmov	s1, w0
-	mov	v17.s[1], w13
-	umov	w13, v3.h[3]
-	mov	v4.s[1], w14
-	mov	v2.s[1], w16
-	mov	v5.s[1], w18
-	mov	v7.s[1], w17
-	mov	v16.s[1], w15
-	mov	v1.s[1], w13
-	and	v3.8b, v4.8b, v0.8b
-	and	v2.8b, v2.8b, v0.8b
-	and	v4.8b, v5.8b, v0.8b
-	and	v5.8b, v6.8b, v0.8b
-	and	v6.8b, v7.8b, v0.8b
-	and	v7.8b, v16.8b, v0.8b
-	and	v16.8b, v17.8b, v0.8b
-	and	v1.8b, v1.8b, v0.8b
-	ushll	v3.2d, v3.2s, #0
-	ushll	v2.2d, v2.2s, #0
-	ushll	v4.2d, v4.2s, #0
-	ushll	v5.2d, v5.2s, #0
-	ushll	v6.2d, v6.2s, #0
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	ushll	v1.2d, v1.2s, #0
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v16.2d, v16.2d
-	ucvtf	v1.2d, v1.2d
-	stp	q4, q5, [x11, #64]
-	stp	q3, q2, [x11]
-	stp	q16, q1, [x11, #96]
-	stp	q6, q7, [x11, #32]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_684
-// %bb.685:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_686:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_687:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_687
-	b	.LBB0_893
-.LBB0_688:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_689:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ext	v0.16b, v3.16b, v3.16b, #8
-	umov	w13, v3.h[0]
-	umov	w15, v3.h[2]
-	ext	v2.16b, v1.16b, v1.16b, #8
-	umov	w14, v3.h[1]
-	umov	w16, v3.h[3]
-	umov	w17, v1.h[0]
-	umov	w18, v1.h[1]
-	umov	w0, v1.h[2]
-	fmov	s3, w13
-	umov	w13, v1.h[3]
-	fmov	s1, w15
-	umov	w15, v0.h[0]
-	fmov	s5, w0
-	umov	w0, v0.h[2]
-	fmov	s6, w15
-	umov	w15, v2.h[0]
-	fmov	s7, w0
-	umov	w0, v2.h[2]
-	fmov	s16, w15
-	mov	v5.s[1], w13
-	umov	w13, v2.h[1]
-	fmov	s4, w17
-	umov	w17, v0.h[1]
-	umov	w15, v0.h[3]
-	fmov	s0, w0
-	mov	v16.s[1], w13
-	umov	w13, v2.h[3]
-	mov	v3.s[1], w14
-	mov	v1.s[1], w16
-	mov	v4.s[1], w18
-	mov	v6.s[1], w17
-	mov	v7.s[1], w15
-	mov	v0.s[1], w13
-	shl	v2.2s, v3.2s, #16
-	shl	v1.2s, v1.2s, #16
-	shl	v3.2s, v4.2s, #16
-	shl	v4.2s, v5.2s, #16
-	shl	v5.2s, v6.2s, #16
-	shl	v6.2s, v7.2s, #16
-	shl	v7.2s, v16.2s, #16
-	shl	v0.2s, v0.2s, #16
-	sshr	v2.2s, v2.2s, #16
-	sshr	v1.2s, v1.2s, #16
-	sshr	v3.2s, v3.2s, #16
-	sshr	v4.2s, v4.2s, #16
-	sshr	v5.2s, v5.2s, #16
-	sshr	v6.2s, v6.2s, #16
-	sshr	v7.2s, v7.2s, #16
-	sshr	v0.2s, v0.2s, #16
-	sshll	v2.2d, v2.2s, #0
-	sshll	v1.2d, v1.2s, #0
-	sshll	v3.2d, v3.2s, #0
-	sshll	v4.2d, v4.2s, #0
-	sshll	v5.2d, v5.2s, #0
-	sshll	v6.2d, v6.2s, #0
-	sshll	v7.2d, v7.2s, #0
-	sshll	v0.2d, v0.2s, #0
-	scvtf	v2.2d, v2.2d
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v0.2d, v0.2d
-	stp	q3, q4, [x11, #64]
-	stp	q2, q1, [x11]
-	stp	q7, q0, [x11, #96]
-	stp	q5, q6, [x11, #32]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_689
-// %bb.690:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_691:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_692:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_692
-	b	.LBB0_893
-.LBB0_693:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_694:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_694
-// %bb.695:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_696:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_697:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, d0
-	str	d0, [x9], #8
-	b.ne	.LBB0_697
-	b	.LBB0_893
-.LBB0_698:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_699:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_699
-// %bb.700:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_701:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_702:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvt	d0, s0
-	str	d0, [x10], #8
-	b.ne	.LBB0_702
-	b	.LBB0_893
-.LBB0_703:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_704:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v1.2d, v1.2d
-	scvtf	v0.2d, v0.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_704
-// %bb.705:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_706:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_707:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_707
-	b	.LBB0_893
-.LBB0_708:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_709:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_709
-// %bb.710:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_711:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_712:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_712
-	b	.LBB0_893
-.LBB0_713:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_714:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v2.2d, v2.2d
-	fcvtzu	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_714
-// %bb.715:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_716:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_717:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzu	x11, d0
-	str	x11, [x9], #8
-	b.ne	.LBB0_717
-	b	.LBB0_893
-.LBB0_718:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_719:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ushll	v2.4s, v0.4h, #0
-	ushll	v3.4s, v1.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll	v5.2d, v3.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v6.2d, v0.2s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v1.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_719
-// %bb.720:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_721:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_722:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_722
-	b	.LBB0_893
-.LBB0_723:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_724:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	sshll	v2.4s, v0.4h, #0
-	sshll	v3.4s, v1.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll	v5.2d, v3.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v6.2d, v0.2s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v1.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_724
-// %bb.725:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_726:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_727:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	x11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_727
-	b	.LBB0_893
-.LBB0_728:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_729:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v0.2d, v0.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_729
-// %bb.730:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_731:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_732:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzu	x11, s0
-	str	x11, [x10], #8
-	b.ne	.LBB0_732
-	b	.LBB0_893
-.LBB0_733:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_734:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_734
-// %bb.735:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_736:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_737:                              // =>This Inner Loop Header: Depth=1
-	ldrsw	x11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_737
-	b	.LBB0_893
-.LBB0_738:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_739:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_739
-// %bb.740:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_741:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_742:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_742
-	b	.LBB0_893
-.LBB0_743:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_744:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_744
-// %bb.745:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_746:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_747:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_747
-	b	.LBB0_893
-.LBB0_748:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_749:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q2, [x12]
-	ldp	q7, q6, [x12, #64]
-	ldp	q5, q4, [x12, #32]
-	ldp	q1, q0, [x12, #96]
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v7.2d, v7.2d
-	xtn	v3.2s, v3.2d
-	fcvtzs	v6.2d, v6.2d
-	xtn	v2.2s, v2.2d
-	xtn	v7.2s, v7.2d
-	mov	w13, v3.s[1]
-	fcvtzs	v5.2d, v5.2d
-	xtn	v6.2s, v6.2d
-	fmov	w15, s2
-	mov	v3.h[1], w13
-	mov	w13, v7.s[1]
-	fcvtzs	v1.2d, v1.2d
-	xtn	v5.2s, v5.2d
-	mov	w14, v2.s[1]
-	mov	v7.h[1], w13
-	mov	v3.h[2], w15
-	fmov	w15, s6
-	fcvtzs	v4.2d, v4.2d
-	xtn	v1.2s, v1.2d
-	mov	w13, v6.s[1]
-	mov	v7.h[2], w15
-	mov	v3.h[3], w14
-	fmov	w14, s5
-	fcvtzs	v0.2d, v0.2d
-	xtn	v4.2s, v4.2d
-	mov	w15, v5.s[1]
-	mov	v7.h[3], w13
-	mov	v3.h[4], w14
-	fmov	w14, s1
-	xtn	v0.2s, v0.2d
-	mov	w13, v1.s[1]
-	mov	v7.h[4], w14
-	mov	v3.h[5], w15
-	fmov	w15, s4
-	mov	v7.h[5], w13
-	mov	v3.h[6], w15
-	fmov	w15, s0
-	mov	w14, v4.s[1]
-	mov	w13, v0.s[1]
-	mov	v7.h[6], w15
-	mov	v3.h[7], w14
-	mov	v7.h[7], w13
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q3, q7, [x11], #32
-	b.ne	.LBB0_749
-// %bb.750:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_751:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_752:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_752
-	b	.LBB0_893
-.LBB0_753:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_754:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q2, [x12]
-	ldp	q7, q6, [x12, #64]
-	ldp	q5, q4, [x12, #32]
-	ldp	q1, q0, [x12, #96]
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v7.2d, v7.2d
-	xtn	v3.2s, v3.2d
-	fcvtzs	v6.2d, v6.2d
-	xtn	v2.2s, v2.2d
-	xtn	v7.2s, v7.2d
-	mov	w13, v3.s[1]
-	fcvtzs	v5.2d, v5.2d
-	xtn	v6.2s, v6.2d
-	fmov	w15, s2
-	mov	v3.h[1], w13
-	mov	w13, v7.s[1]
-	fcvtzs	v1.2d, v1.2d
-	xtn	v5.2s, v5.2d
-	mov	w14, v2.s[1]
-	mov	v7.h[1], w13
-	mov	v3.h[2], w15
-	fmov	w15, s6
-	fcvtzs	v4.2d, v4.2d
-	xtn	v1.2s, v1.2d
-	mov	w13, v6.s[1]
-	mov	v7.h[2], w15
-	mov	v3.h[3], w14
-	fmov	w14, s5
-	fcvtzs	v0.2d, v0.2d
-	xtn	v4.2s, v4.2d
-	mov	w15, v5.s[1]
-	mov	v7.h[3], w13
-	mov	v3.h[4], w14
-	fmov	w14, s1
-	xtn	v0.2s, v0.2d
-	mov	w13, v1.s[1]
-	mov	v7.h[4], w14
-	mov	v3.h[5], w15
-	fmov	w15, s4
-	mov	v7.h[5], w13
-	mov	v3.h[6], w15
-	fmov	w15, s0
-	mov	w14, v4.s[1]
-	mov	w13, v0.s[1]
-	mov	v7.h[6], w15
-	mov	v3.h[7], w14
-	mov	v7.h[7], w13
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q3, q7, [x11], #32
-	b.ne	.LBB0_754
-// %bb.755:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_756:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_757:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_757
-	b	.LBB0_893
-.LBB0_758:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_759:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_759
-// %bb.760:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_761:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_762:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_762
-	b	.LBB0_893
-.LBB0_763:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_764:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_764
-// %bb.765:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_766:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_767:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_767
-	b	.LBB0_893
-.LBB0_768:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_769:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_769
-// %bb.770:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_771:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_772:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_772
-	b	.LBB0_893
-.LBB0_773:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_774:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_774
-// %bb.775:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_776:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_777:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_777
-	b	.LBB0_893
-.LBB0_778:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_779:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	fcvtzu	v1.4s, v1.4s
-	fcvtzu	v3.4s, v3.4s
-	fcvtzu	v5.4s, v5.4s
-	fcvtzu	v7.4s, v7.4s
-	fcvtzu	v2.4s, v2.4s
-	fcvtzu	v0.4s, v0.4s
-	fcvtzu	v6.4s, v6.4s
-	fcvtzu	v4.4s, v4.4s
-	xtn	v3.4h, v3.4s
-	xtn	v1.4h, v1.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_779
-// %bb.780:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_781:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_782:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_782
-	b	.LBB0_893
-.LBB0_783:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_784:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	fcvtzs	v3.4s, v3.4s
-	fcvtzs	v5.4s, v5.4s
-	fcvtzs	v7.4s, v7.4s
-	fcvtzs	v2.4s, v2.4s
-	fcvtzs	v0.4s, v0.4s
-	fcvtzs	v6.4s, v6.4s
-	fcvtzs	v4.4s, v4.4s
-	xtn	v3.4h, v3.4s
-	xtn	v1.4h, v1.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_784
-// %bb.785:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_786:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_787:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_787
-	b	.LBB0_893
-.LBB0_788:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_789:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_789
-// %bb.790:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_791:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_792:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_792
-	b	.LBB0_893
-.LBB0_793:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_794:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_794
-// %bb.795:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_796:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_797:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_797
-	b	.LBB0_893
-.LBB0_798:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_799:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_799
-// %bb.800:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_801:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_802:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_802
-	b	.LBB0_893
-.LBB0_803:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_804:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	ucvtf	v1.4s, v1.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v2.4s, v2.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v7.4s, v7.4s
-	ucvtf	v6.4s, v6.4s
-	ucvtf	v5.4s, v5.4s
-	ucvtf	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_804
-// %bb.805:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_806:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_807:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, s0
-	str	s0, [x9], #4
-	b.ne	.LBB0_807
-	b	.LBB0_893
-.LBB0_808:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_809:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_809
-// %bb.810:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_811:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_812:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	x11, d0
-	str	x11, [x9], #8
-	b.ne	.LBB0_812
-	b	.LBB0_893
-.LBB0_813:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_814:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtn	v1.2s, v1.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_814
-// %bb.815:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_816:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_817:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvt	s0, d0
-	str	s0, [x10], #4
-	b.ne	.LBB0_817
-	b	.LBB0_893
-.LBB0_818:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_819:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v0.2d, v0.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v1.2s, v1.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_819
-// %bb.820:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_821:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_822:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, x11
-	str	s0, [x10], #4
-	b.ne	.LBB0_822
-	b	.LBB0_893
-.LBB0_823:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_824:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ushll	v2.4s, v0.4h, #0
-	ushll	v3.4s, v1.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll	v5.2d, v3.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v6.2d, v0.2s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v1.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_824
-// %bb.825:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_826:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_827:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_827
-	b	.LBB0_893
-.LBB0_828:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_829:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ucvtf	v4.4s, v4.4s
-	ucvtf	v5.4s, v5.4s
-	ucvtf	v1.4s, v1.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v6.4s, v6.4s
-	ucvtf	v7.4s, v7.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v2.4s, v2.4s
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_829
-// %bb.830:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_831:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_832:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_832
-	b	.LBB0_893
-.LBB0_833:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_834:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	sshll	v2.4s, v0.4h, #0
-	sshll	v3.4s, v1.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll	v5.2d, v3.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v6.2d, v0.2s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v1.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_834
-// %bb.835:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_836:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_837:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	x11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_837
-	b	.LBB0_893
-.LBB0_838:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_839:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	scvtf	v4.4s, v4.4s
-	scvtf	v5.4s, v5.4s
-	scvtf	v1.4s, v1.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v6.4s, v6.4s
-	scvtf	v7.4s, v7.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v2.4s, v2.4s
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_839
-// %bb.840:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_841:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_842:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_842
-	b	.LBB0_893
-.LBB0_843:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_844:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v0.2d, v0.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v1.2s, v1.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_844
-// %bb.845:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_846:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_847:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, x11
-	str	s0, [x10], #4
-	b.ne	.LBB0_847
-	b	.LBB0_893
-.LBB0_848:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_849:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_849
-// %bb.850:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_851:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_852:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	x11, s0
-	str	x11, [x10], #8
-	b.ne	.LBB0_852
-	b	.LBB0_893
-.LBB0_853:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_854:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_854
-// %bb.855:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_856:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_857:                              // =>This Inner Loop Header: Depth=1
-	ldrsw	x11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_857
-	b	.LBB0_893
-.LBB0_858:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_859:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	scvtf	v1.4s, v1.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v2.4s, v2.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v7.4s, v7.4s
-	scvtf	v6.4s, v6.4s
-	scvtf	v5.4s, v5.4s
-	scvtf	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_859
-// %bb.860:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_861:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_862:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, s0
-	str	s0, [x9], #4
-	b.ne	.LBB0_862
-	b	.LBB0_893
-.LBB0_863:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_864:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v0.2d, v0.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn	v3.2s, v3.2d
-	xtn	v1.2s, v1.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_864
-// %bb.865:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_866:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_867:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	str	w11, [x10], #4
-	b.ne	.LBB0_867
-	b	.LBB0_893
-.LBB0_868:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_869:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_869
-// %bb.870:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_871:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_872:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_872
-	b	.LBB0_893
-.LBB0_873:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_874:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_874
-// %bb.875:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_876:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_877:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_877
-	b	.LBB0_893
-.LBB0_878:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_879:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_879
-// %bb.880:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_881:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_882:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_882
-	b	.LBB0_893
-.LBB0_883:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_884:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_884
-// %bb.885:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_886:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_887:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_887
-	b	.LBB0_893
-.LBB0_888:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_889:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	fcvtzs	v1.4s, v1.4s
-	fcvtzs	v3.4s, v3.4s
-	fcvtzs	v2.4s, v2.4s
-	fcvtzs	v0.4s, v0.4s
-	fcvtzs	v7.4s, v7.4s
-	fcvtzs	v6.4s, v6.4s
-	fcvtzs	v5.4s, v5.4s
-	fcvtzs	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_889
-// %bb.890:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_891:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_892:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	str	w11, [x9], #4
-	b.ne	.LBB0_892
-.LBB0_893:
-	ldp	x29, x30, [sp], #16             // 16-byte Folded Reload
-	ret
-.LBB0_894:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_895:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_895
-// %bb.896:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_15
-.LBB0_897:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_898:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	sshll	v4.4s, v2.4h, #0
-	sshll2	v2.4s, v2.8h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll	v7.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_898
-// %bb.899:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_41
-.LBB0_900:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_901:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	ushll	v4.4s, v2.4h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll	v7.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_901
-// %bb.902:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_95
-.LBB0_903:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_904:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_904
-// %bb.905:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_107
-.LBB0_906:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_907:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_907
-// %bb.908:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_125
-.LBB0_909:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_910:                              // =>This Inner Loop Header: Depth=1
-	ldr	q1, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v0.16b, v1.16b, v1.16b, #8
-	umov	w13, v1.b[0]
-	umov	w15, v1.b[2]
-	umov	w17, v1.b[4]
-	fmov	s2, w13
-	umov	w13, v1.b[5]
-	fmov	s3, w15
-	umov	w15, v1.b[6]
-	fmov	s4, w17
-	umov	w17, v0.b[0]
-	fmov	s5, w15
-	umov	w15, v0.b[2]
-	fmov	s6, w17
-	mov	v4.s[1], w13
-	umov	w13, v0.b[1]
-	umov	w17, v0.b[4]
-	fmov	s7, w15
-	mov	v6.s[1], w13
-	umov	w13, v0.b[3]
-	umov	w15, v0.b[6]
-	fmov	s16, w17
-	mov	v7.s[1], w13
-	umov	w13, v0.b[5]
-	umov	w14, v1.b[1]
-	umov	w16, v1.b[3]
-	umov	w17, v1.b[7]
-	fmov	s1, w15
-	mov	v16.s[1], w13
-	umov	w13, v0.b[7]
-	mov	v2.s[1], w14
-	mov	v3.s[1], w16
-	mov	v5.s[1], w17
-	mov	v1.s[1], w13
-	shl	v0.2s, v2.2s, #24
-	shl	v2.2s, v3.2s, #24
-	shl	v3.2s, v4.2s, #24
-	shl	v4.2s, v5.2s, #24
-	shl	v5.2s, v6.2s, #24
-	shl	v6.2s, v7.2s, #24
-	shl	v7.2s, v16.2s, #24
-	shl	v1.2s, v1.2s, #24
-	sshr	v0.2s, v0.2s, #24
-	sshr	v2.2s, v2.2s, #24
-	sshr	v3.2s, v3.2s, #24
-	sshr	v4.2s, v4.2s, #24
-	sshr	v5.2s, v5.2s, #24
-	sshr	v6.2s, v6.2s, #24
-	sshr	v7.2s, v7.2s, #24
-	sshr	v1.2s, v1.2s, #24
-	sshll	v0.2d, v0.2s, #0
-	sshll	v2.2d, v2.2s, #0
-	sshll	v3.2d, v3.2s, #0
-	sshll	v4.2d, v4.2s, #0
-	sshll	v5.2d, v5.2s, #0
-	sshll	v6.2d, v6.2s, #0
-	sshll	v7.2d, v7.2s, #0
-	sshll	v1.2d, v1.2s, #0
-	scvtf	v0.2d, v0.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v1.2d, v1.2d
-	stp	q3, q4, [x11, #32]
-	stp	q0, q2, [x11]
-	stp	q7, q1, [x11, #96]
-	stp	q5, q6, [x11, #64]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_910
-// %bb.911:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_136
-.LBB0_912:
-	and	x9, x8, #0xfffffff0
-	movi	d0, #0x0000ff000000ff
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_913:                              // =>This Inner Loop Header: Depth=1
-	ldr	q2, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v2.16b, v2.16b, #8
-	umov	w13, v2.b[0]
-	umov	w15, v2.b[2]
-	umov	w17, v2.b[4]
-	fmov	s3, w13
-	umov	w13, v2.b[5]
-	fmov	s4, w15
-	umov	w15, v2.b[6]
-	fmov	s5, w17
-	umov	w17, v1.b[0]
-	fmov	s6, w15
-	umov	w15, v1.b[2]
-	fmov	s7, w17
-	mov	v5.s[1], w13
-	umov	w13, v1.b[1]
-	umov	w17, v1.b[4]
-	fmov	s16, w15
-	mov	v7.s[1], w13
-	umov	w13, v1.b[3]
-	umov	w15, v1.b[6]
-	fmov	s17, w17
-	mov	v16.s[1], w13
-	umov	w13, v1.b[5]
-	umov	w14, v2.b[1]
-	umov	w16, v2.b[3]
-	umov	w17, v2.b[7]
-	fmov	s2, w15
-	mov	v17.s[1], w13
-	umov	w13, v1.b[7]
-	mov	v3.s[1], w14
-	mov	v4.s[1], w16
-	mov	v6.s[1], w17
-	mov	v2.s[1], w13
-	and	v1.8b, v3.8b, v0.8b
-	and	v3.8b, v4.8b, v0.8b
-	and	v4.8b, v5.8b, v0.8b
-	and	v5.8b, v6.8b, v0.8b
-	and	v6.8b, v7.8b, v0.8b
-	and	v7.8b, v16.8b, v0.8b
-	and	v16.8b, v17.8b, v0.8b
-	and	v2.8b, v2.8b, v0.8b
-	ushll	v1.2d, v1.2s, #0
-	ushll	v3.2d, v3.2s, #0
-	ushll	v4.2d, v4.2s, #0
-	ushll	v5.2d, v5.2s, #0
-	ushll	v6.2d, v6.2s, #0
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	ushll	v2.2d, v2.2s, #0
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v16.2d, v16.2d
-	ucvtf	v2.2d, v2.2d
-	stp	q4, q5, [x11, #32]
-	stp	q1, q3, [x11]
-	stp	q16, q2, [x11, #96]
-	stp	q6, q7, [x11, #64]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_913
-// %bb.914:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_182
-.LBB0_915:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_916:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_916
-// %bb.917:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_198
-.LBB0_918:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_919:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q7, [x12]
-	ldp	q0, q1, [x12, #96]
-	ldp	q5, q6, [x12, #32]
-	ldp	q2, q3, [x12, #64]
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	xtn	v7.2s, v7.2d
-	xtn	v4.2s, v4.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	uzp1	v4.4h, v4.4h, v7.4h
-	xtn	v1.2s, v1.2d
-	xtn	v0.2s, v0.2d
-	umov	w13, v4.h[0]
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v5.2d, v5.2d
-	uzp1	v0.4h, v0.4h, v1.4h
-	umov	w14, v4.h[1]
-	fmov	s1, w13
-	xtn	v6.2s, v6.2d
-	xtn	v5.2s, v5.2d
-	umov	w13, v4.h[2]
-	mov	v1.b[1], w14
-	uzp1	v5.4h, v5.4h, v6.4h
-	umov	w14, v4.h[3]
-	mov	v1.b[2], w13
-	umov	w13, v5.h[0]
-	mov	v1.b[3], w14
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	umov	w14, v5.h[1]
-	mov	v1.b[4], w13
-	xtn	v3.2s, v3.2d
-	xtn	v2.2s, v2.2d
-	umov	w13, v5.h[2]
-	mov	v1.b[5], w14
-	uzp1	v2.4h, v2.4h, v3.4h
-	umov	w14, v5.h[3]
-	mov	v1.b[6], w13
-	umov	w13, v2.h[0]
-	mov	v1.b[7], w14
-	umov	w14, v2.h[1]
-	mov	v1.b[8], w13
-	umov	w13, v2.h[2]
-	mov	v1.b[9], w14
-	umov	w14, v2.h[3]
-	mov	v1.b[10], w13
-	umov	w13, v0.h[0]
-	mov	v1.b[11], w14
-	umov	w14, v0.h[1]
-	mov	v1.b[12], w13
-	umov	w13, v0.h[2]
-	mov	v1.b[13], w14
-	umov	w14, v0.h[3]
-	mov	v1.b[14], w13
-	mov	v1.b[15], w14
-	subs	x10, x10, #16                   // =16
-	str	q1, [x11], #16
-	add	x12, x12, #128                  // =128
-	b.ne	.LBB0_919
-// %bb.920:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_207
-.LBB0_921:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_922:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_922
-// %bb.923:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_216
-.LBB0_924:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_925:                              // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_925
-// %bb.926:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_225
-.LBB0_927:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_928:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_928
-// %bb.929:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_234
-.LBB0_930:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_931:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_931
-// %bb.932:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_243
-.LBB0_933:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_934:                              // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_934
-// %bb.935:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_252
-.LBB0_936:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_937:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q0, [x10, #-64]
-	ldp	q5, q1, [x10]
-	ldp	q3, q2, [x10, #-32]
-	subs	x12, x12, #32                   // =32
-	fcvtzs	v4.4s, v4.4s
-	fcvtzs	v5.4s, v5.4s
-	xtn	v7.4h, v4.4s
-	xtn	v6.4h, v5.4s
-	umov	w13, v7.h[0]
-	umov	w14, v6.h[0]
-	fmov	s4, w13
-	umov	w15, v7.h[1]
-	fmov	s5, w14
-	umov	w13, v7.h[2]
-	mov	v4.b[1], w15
-	umov	w14, v6.h[1]
-	fcvtzs	v0.4s, v0.4s
-	mov	v5.b[1], w14
-	umov	w14, v7.h[3]
-	ldp	q16, q7, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	xtn	v0.4h, v0.4s
-	mov	v4.b[2], w13
-	umov	w13, v6.h[2]
-	xtn	v1.4h, v1.4s
-	mov	v5.b[2], w13
-	umov	w13, v0.h[0]
-	mov	v4.b[3], w14
-	umov	w14, v6.h[3]
-	mov	v5.b[3], w14
-	umov	w14, v0.h[1]
-	mov	v4.b[4], w13
-	umov	w13, v1.h[0]
-	fcvtzs	v3.4s, v3.4s
-	mov	v5.b[4], w13
-	umov	w13, v0.h[2]
-	mov	v4.b[5], w14
-	umov	w14, v1.h[1]
-	fcvtzs	v16.4s, v16.4s
-	xtn	v3.4h, v3.4s
-	mov	v5.b[5], w14
-	umov	w14, v0.h[3]
-	mov	v4.b[6], w13
-	umov	w13, v1.h[2]
-	xtn	v16.4h, v16.4s
-	mov	v5.b[6], w13
-	umov	w13, v3.h[0]
-	mov	v4.b[7], w14
-	umov	w14, v1.h[3]
-	mov	v5.b[7], w14
-	umov	w14, v3.h[1]
-	mov	v4.b[8], w13
-	umov	w13, v16.h[0]
-	fcvtzs	v2.4s, v2.4s
-	mov	v5.b[8], w13
-	umov	w13, v3.h[2]
-	mov	v4.b[9], w14
-	umov	w14, v16.h[1]
-	fcvtzs	v7.4s, v7.4s
-	xtn	v2.4h, v2.4s
-	mov	v5.b[9], w14
-	umov	w14, v3.h[3]
-	mov	v4.b[10], w13
-	umov	w13, v16.h[2]
-	xtn	v7.4h, v7.4s
-	mov	v5.b[10], w13
-	umov	w13, v2.h[0]
-	mov	v4.b[11], w14
-	umov	w14, v16.h[3]
-	mov	v5.b[11], w14
-	umov	w14, v2.h[1]
-	mov	v4.b[12], w13
-	umov	w13, v7.h[0]
-	mov	v5.b[12], w13
-	umov	w13, v2.h[2]
-	mov	v4.b[13], w14
-	umov	w14, v7.h[1]
-	mov	v5.b[13], w14
-	mov	v4.b[14], w13
-	umov	w13, v7.h[2]
-	umov	w14, v2.h[3]
-	mov	v5.b[14], w13
-	umov	w13, v7.h[3]
-	mov	v4.b[15], w14
-	mov	v5.b[15], w13
-	add	x10, x10, #128                  // =128
-	stp	q4, q5, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_937
-// %bb.938:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_261
-.LBB0_939:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_940:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_940
-// %bb.941:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_270
-.LBB0_942:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_943:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_943
-// %bb.944:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_279
-.LBB0_945:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_946:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	sshll	v1.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v2.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v3.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v5.2d, v1.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v0.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_946
-// %bb.947:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_298
-.LBB0_948:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_949:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_949
-// %bb.950:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_307
-.LBB0_951:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_952:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_952
-// %bb.953:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_326
-.LBB0_954:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_955:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ushll	v1.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v2.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v3.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v5.2d, v1.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v0.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_955
-// %bb.956:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_340
-.LBB0_957:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_958:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_958
-// %bb.959:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_364
-.LBB0_960:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_961:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_961
-// %bb.962:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_371
-.LBB0_963:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_964:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_964
-// %bb.965:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_384
-.LBB0_966:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_967:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_967
-// %bb.968:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_391
-.LBB0_969:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_970:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_970
-// %bb.971:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_398
-.LBB0_972:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_973:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_973
-// %bb.974:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_405
-.LBB0_975:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_976:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_976
-// %bb.977:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_424
-.LBB0_978:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_979:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_979
-// %bb.980:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_431
-.LBB0_981:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_982:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	sshll	v1.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v2.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v3.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v5.2d, v1.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v0.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_982
-// %bb.983:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_456
-.LBB0_984:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_985:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v0.16b, v0.16b, #8
-	zip1	v2.8b, v0.8b, v0.8b
-	zip2	v0.8b, v0.8b, v0.8b
-	zip1	v3.8b, v1.8b, v0.8b
-	zip2	v1.8b, v1.8b, v0.8b
-	shl	v2.4h, v2.4h, #8
-	shl	v0.4h, v0.4h, #8
-	shl	v3.4h, v3.4h, #8
-	shl	v1.4h, v1.4h, #8
-	sshr	v2.4h, v2.4h, #8
-	sshr	v0.4h, v0.4h, #8
-	sshr	v3.4h, v3.4h, #8
-	sshr	v1.4h, v1.4h, #8
-	sshll	v2.4s, v2.4h, #0
-	sshll	v0.4s, v0.4h, #0
-	sshll	v3.4s, v3.4h, #0
-	sshll	v1.4s, v1.4h, #0
-	scvtf	v2.4s, v2.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v1.4s, v1.4s
-	stp	q2, q0, [x11]
-	stp	q3, q1, [x11, #32]
-	add	x11, x11, #64                   // =64
-	b.ne	.LBB0_985
-// %bb.986:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_463
-.LBB0_987:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_988:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_988
-// %bb.989:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_470
-.LBB0_990:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_991:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_991
-// %bb.992:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_492
-.LBB0_993:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_994:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_994
-// %bb.995:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_505
-.LBB0_996:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_997:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ushll	v1.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v2.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v3.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v5.2d, v1.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v0.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_997
-// %bb.998:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_512
-.LBB0_999:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_1000:                             // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v0.16b, v0.16b, #8
-	zip1	v2.8b, v0.8b, v0.8b
-	zip2	v0.8b, v0.8b, v0.8b
-	zip1	v3.8b, v1.8b, v0.8b
-	zip2	v1.8b, v1.8b, v0.8b
-	bic	v2.4h, #255, lsl #8
-	bic	v0.4h, #255, lsl #8
-	bic	v3.4h, #255, lsl #8
-	bic	v1.4h, #255, lsl #8
-	ushll	v2.4s, v2.4h, #0
-	ushll	v0.4s, v0.4h, #0
-	ushll	v3.4s, v3.4h, #0
-	ushll	v1.4s, v1.4h, #0
-	ucvtf	v2.4s, v2.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v1.4s, v1.4s
-	stp	q2, q0, [x11]
-	stp	q3, q1, [x11, #32]
-	add	x11, x11, #64                   // =64
-	b.ne	.LBB0_1000
-// %bb.1001:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_519
-.LBB0_1002:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1003:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1003
-// %bb.1004:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_532
-.LBB0_1005:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_1006:                             // =>This Inner Loop Header: Depth=1
-	ldp	q4, q7, [x12]
-	ldp	q0, q1, [x12, #96]
-	ldp	q5, q6, [x12, #32]
-	ldp	q2, q3, [x12, #64]
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	xtn	v7.2s, v7.2d
-	xtn	v4.2s, v4.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	uzp1	v4.4h, v4.4h, v7.4h
-	xtn	v1.2s, v1.2d
-	xtn	v0.2s, v0.2d
-	umov	w13, v4.h[0]
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v5.2d, v5.2d
-	uzp1	v0.4h, v0.4h, v1.4h
-	umov	w14, v4.h[1]
-	fmov	s1, w13
-	xtn	v6.2s, v6.2d
-	xtn	v5.2s, v5.2d
-	umov	w13, v4.h[2]
-	mov	v1.b[1], w14
-	uzp1	v5.4h, v5.4h, v6.4h
-	umov	w14, v4.h[3]
-	mov	v1.b[2], w13
-	umov	w13, v5.h[0]
-	mov	v1.b[3], w14
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	umov	w14, v5.h[1]
-	mov	v1.b[4], w13
-	xtn	v3.2s, v3.2d
-	xtn	v2.2s, v2.2d
-	umov	w13, v5.h[2]
-	mov	v1.b[5], w14
-	uzp1	v2.4h, v2.4h, v3.4h
-	umov	w14, v5.h[3]
-	mov	v1.b[6], w13
-	umov	w13, v2.h[0]
-	mov	v1.b[7], w14
-	umov	w14, v2.h[1]
-	mov	v1.b[8], w13
-	umov	w13, v2.h[2]
-	mov	v1.b[9], w14
-	umov	w14, v2.h[3]
-	mov	v1.b[10], w13
-	umov	w13, v0.h[0]
-	mov	v1.b[11], w14
-	umov	w14, v0.h[1]
-	mov	v1.b[12], w13
-	umov	w13, v0.h[2]
-	mov	v1.b[13], w14
-	umov	w14, v0.h[3]
-	mov	v1.b[14], w13
-	mov	v1.b[15], w14
-	subs	x10, x10, #16                   // =16
-	str	q1, [x11], #16
-	add	x12, x12, #128                  // =128
-	b.ne	.LBB0_1006
-// %bb.1007:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_539
-.LBB0_1008:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1009:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1009
-// %bb.1010:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_546
-.LBB0_1011:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1012:                             // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1012
-// %bb.1013:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_553
-.LBB0_1014:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1015:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1015
-// %bb.1016:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_560
-.LBB0_1017:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1018:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1018
-// %bb.1019:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_567
-.LBB0_1020:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1021:                             // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1021
-// %bb.1022:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_574
-.LBB0_1023:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1024:                             // =>This Inner Loop Header: Depth=1
-	ldp	q4, q0, [x10, #-64]
-	ldp	q5, q1, [x10]
-	ldp	q3, q2, [x10, #-32]
-	subs	x12, x12, #32                   // =32
-	fcvtzs	v4.4s, v4.4s
-	fcvtzs	v5.4s, v5.4s
-	xtn	v7.4h, v4.4s
-	xtn	v6.4h, v5.4s
-	umov	w13, v7.h[0]
-	umov	w14, v6.h[0]
-	fmov	s4, w13
-	umov	w15, v7.h[1]
-	fmov	s5, w14
-	umov	w13, v7.h[2]
-	mov	v4.b[1], w15
-	umov	w14, v6.h[1]
-	fcvtzs	v0.4s, v0.4s
-	mov	v5.b[1], w14
-	umov	w14, v7.h[3]
-	ldp	q16, q7, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	xtn	v0.4h, v0.4s
-	mov	v4.b[2], w13
-	umov	w13, v6.h[2]
-	xtn	v1.4h, v1.4s
-	mov	v5.b[2], w13
-	umov	w13, v0.h[0]
-	mov	v4.b[3], w14
-	umov	w14, v6.h[3]
-	mov	v5.b[3], w14
-	umov	w14, v0.h[1]
-	mov	v4.b[4], w13
-	umov	w13, v1.h[0]
-	fcvtzs	v3.4s, v3.4s
-	mov	v5.b[4], w13
-	umov	w13, v0.h[2]
-	mov	v4.b[5], w14
-	umov	w14, v1.h[1]
-	fcvtzs	v16.4s, v16.4s
-	xtn	v3.4h, v3.4s
-	mov	v5.b[5], w14
-	umov	w14, v0.h[3]
-	mov	v4.b[6], w13
-	umov	w13, v1.h[2]
-	xtn	v16.4h, v16.4s
-	mov	v5.b[6], w13
-	umov	w13, v3.h[0]
-	mov	v4.b[7], w14
-	umov	w14, v1.h[3]
-	mov	v5.b[7], w14
-	umov	w14, v3.h[1]
-	mov	v4.b[8], w13
-	umov	w13, v16.h[0]
-	fcvtzs	v2.4s, v2.4s
-	mov	v5.b[8], w13
-	umov	w13, v3.h[2]
-	mov	v4.b[9], w14
-	umov	w14, v16.h[1]
-	fcvtzs	v7.4s, v7.4s
-	xtn	v2.4h, v2.4s
-	mov	v5.b[9], w14
-	umov	w14, v3.h[3]
-	mov	v4.b[10], w13
-	umov	w13, v16.h[2]
-	xtn	v7.4h, v7.4s
-	mov	v5.b[10], w13
-	umov	w13, v2.h[0]
-	mov	v4.b[11], w14
-	umov	w14, v16.h[3]
-	mov	v5.b[11], w14
-	umov	w14, v2.h[1]
-	mov	v4.b[12], w13
-	umov	w13, v7.h[0]
-	mov	v5.b[12], w13
-	umov	w13, v2.h[2]
-	mov	v4.b[13], w14
-	umov	w14, v7.h[1]
-	mov	v5.b[13], w14
-	mov	v4.b[14], w13
-	umov	w13, v7.h[2]
-	umov	w14, v2.h[3]
-	mov	v5.b[14], w13
-	umov	w13, v7.h[3]
-	mov	v4.b[15], w14
-	mov	v5.b[15], w13
-	add	x10, x10, #128                  // =128
-	stp	q4, q5, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1024
-// %bb.1025:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_581
-.LBB0_1026:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1027:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1027
-// %bb.1028:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_588
-.LBB0_1029:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1030:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1030
-// %bb.1031:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_595
-.LBB0_1032:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1033:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_1033
-// %bb.1034:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_602
-.LBB0_1035:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1036:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	sshll	v4.4s, v2.4h, #0
-	sshll2	v2.4s, v2.8h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll	v7.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_1036
-// %bb.1037:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_612
-.LBB0_1038:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1039:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	ushll	v4.4s, v2.4h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll	v7.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_1039
-// %bb.1040:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_634
-.LBB0_1041:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1042:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_1042
-// %bb.1043:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_641
-.Lfunc_end0:
-	.size	cast_type_numeric_neon, .Lfunc_end0-cast_type_numeric_neon
-                                        // -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	// .addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
deleted file mode 100644
index 12c57c96f5ce9..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
+++ /dev/null
@@ -1,8837 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"cast_numeric.cc"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function cast_type_numeric_sse4
-.LCPI0_0:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_1:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_3:
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI0_4:
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-.LCPI0_5:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_6:
-	.quad	4841369599423283200             # 0x4330000000000000
-	.quad	4841369599423283200             # 0x4330000000000000
-.LCPI0_7:
-	.quad	4985484787499139072             # 0x4530000000000000
-	.quad	4985484787499139072             # 0x4530000000000000
-.LCPI0_8:
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-.LCPI0_9:
-	.long	1127219200                      # 0x43300000
-	.long	1160773632                      # 0x45300000
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_10:
-	.quad	0x4330000000000000              # double 4503599627370496
-	.quad	0x4530000000000000              # double 1.9342813113834067E+25
-.LCPI0_11:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI0_12:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-.LCPI0_13:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_14:
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-.LCPI0_15:
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-.LCPI0_16:
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-.LCPI0_17:
-	.byte	0                               # 0x0
-	.byte	2                               # 0x2
-	.byte	4                               # 0x4
-	.byte	6                               # 0x6
-	.byte	8                               # 0x8
-	.byte	10                              # 0xa
-	.byte	12                              # 0xc
-	.byte	14                              # 0xe
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_2:
-	.long	0x5f000000                      # float 9.22337203E+18
-	.text
-	.globl	cast_type_numeric_sse4
-	.p2align	4, 0x90
-	.type	cast_type_numeric_sse4,@function
-cast_type_numeric_sse4:                 # @cast_type_numeric_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edi, 6
-	jg	.LBB0_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB0_45
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB0_53
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB0_1526
-# %bb.5:
-	cmp	esi, 6
-	jg	.LBB0_93
-# %bb.6:
-	cmp	esi, 3
-	jle	.LBB0_163
-# %bb.7:
-	cmp	esi, 4
-	je	.LBB0_263
-# %bb.8:
-	cmp	esi, 5
-	je	.LBB0_266
-# %bb.9:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.10:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.11:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_12
-# %bb.443:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_761
-# %bb.444:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_761
-.LBB0_12:
-	xor	esi, esi
-.LBB0_1104:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1106
-.LBB0_1105:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1105
-.LBB0_1106:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1107:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1107
-	jmp	.LBB0_1526
-.LBB0_13:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB0_61
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB0_69
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB0_1526
-# %bb.17:
-	cmp	esi, 6
-	jg	.LBB0_100
-# %bb.18:
-	cmp	esi, 3
-	jle	.LBB0_168
-# %bb.19:
-	cmp	esi, 4
-	je	.LBB0_269
-# %bb.20:
-	cmp	esi, 5
-	je	.LBB0_272
-# %bb.21:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.22:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.23:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_446
-# %bb.24:
-	xor	edi, edi
-	jmp	.LBB0_448
-.LBB0_25:
-	cmp	edi, 2
-	je	.LBB0_77
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB0_1526
-# %bb.27:
-	cmp	esi, 6
-	jg	.LBB0_107
-# %bb.28:
-	cmp	esi, 3
-	jle	.LBB0_173
-# %bb.29:
-	cmp	esi, 4
-	je	.LBB0_275
-# %bb.30:
-	cmp	esi, 5
-	je	.LBB0_278
-# %bb.31:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.32:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.33:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_34
-# %bb.451:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_763
-# %bb.452:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_763
-.LBB0_34:
-	xor	esi, esi
-.LBB0_1482:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1484
-.LBB0_1483:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1483
-.LBB0_1484:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1485:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1485
-	jmp	.LBB0_1526
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_85
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1526
-# %bb.37:
-	cmp	esi, 6
-	jg	.LBB0_114
-# %bb.38:
-	cmp	esi, 3
-	jle	.LBB0_178
-# %bb.39:
-	cmp	esi, 4
-	je	.LBB0_281
-# %bb.40:
-	cmp	esi, 5
-	je	.LBB0_284
-# %bb.41:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.42:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.43:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_454
-# %bb.44:
-	xor	esi, esi
-	jmp	.LBB0_948
-.LBB0_45:
-	cmp	esi, 6
-	jg	.LBB0_121
-# %bb.46:
-	cmp	esi, 3
-	jle	.LBB0_183
-# %bb.47:
-	cmp	esi, 4
-	je	.LBB0_287
-# %bb.48:
-	cmp	esi, 5
-	je	.LBB0_290
-# %bb.49:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_457
-# %bb.52:
-	xor	esi, esi
-	jmp	.LBB0_953
-.LBB0_53:
-	cmp	esi, 6
-	jg	.LBB0_128
-# %bb.54:
-	cmp	esi, 3
-	jle	.LBB0_188
-# %bb.55:
-	cmp	esi, 4
-	je	.LBB0_293
-# %bb.56:
-	cmp	esi, 5
-	je	.LBB0_296
-# %bb.57:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.58:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.59:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_460
-# %bb.60:
-	xor	esi, esi
-	jmp	.LBB0_958
-.LBB0_61:
-	cmp	esi, 6
-	jg	.LBB0_135
-# %bb.62:
-	cmp	esi, 3
-	jle	.LBB0_193
-# %bb.63:
-	cmp	esi, 4
-	je	.LBB0_299
-# %bb.64:
-	cmp	esi, 5
-	je	.LBB0_302
-# %bb.65:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.66:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.67:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_463
-# %bb.68:
-	xor	esi, esi
-	jmp	.LBB0_963
-.LBB0_69:
-	cmp	esi, 6
-	jg	.LBB0_142
-# %bb.70:
-	cmp	esi, 3
-	jle	.LBB0_198
-# %bb.71:
-	cmp	esi, 4
-	je	.LBB0_305
-# %bb.72:
-	cmp	esi, 5
-	je	.LBB0_308
-# %bb.73:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.74:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.75:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_466
-# %bb.76:
-	xor	esi, esi
-	jmp	.LBB0_968
-.LBB0_77:
-	cmp	esi, 6
-	jg	.LBB0_149
-# %bb.78:
-	cmp	esi, 3
-	jle	.LBB0_203
-# %bb.79:
-	cmp	esi, 4
-	je	.LBB0_311
-# %bb.80:
-	cmp	esi, 5
-	je	.LBB0_314
-# %bb.81:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.82:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.83:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_84
-# %bb.469:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_766
-# %bb.470:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_766
-.LBB0_84:
-	xor	esi, esi
-.LBB0_1490:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1492
-.LBB0_1491:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1491
-.LBB0_1492:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1493:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1493
-	jmp	.LBB0_1526
-.LBB0_85:
-	cmp	esi, 6
-	jg	.LBB0_156
-# %bb.86:
-	cmp	esi, 3
-	jle	.LBB0_208
-# %bb.87:
-	cmp	esi, 4
-	je	.LBB0_317
-# %bb.88:
-	cmp	esi, 5
-	je	.LBB0_320
-# %bb.89:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.90:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.91:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_92
-# %bb.472:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_769
-# %bb.473:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_769
-.LBB0_92:
-	xor	esi, esi
-.LBB0_1114:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1116
-.LBB0_1115:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1115
-.LBB0_1116:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1117:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1117
-	jmp	.LBB0_1526
-.LBB0_93:
-	cmp	esi, 8
-	jle	.LBB0_213
-# %bb.94:
-	cmp	esi, 9
-	je	.LBB0_323
-# %bb.95:
-	cmp	esi, 11
-	je	.LBB0_326
-# %bb.96:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.97:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.98:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_475
-# %bb.99:
-	xor	edi, edi
-	jmp	.LBB0_477
-.LBB0_100:
-	cmp	esi, 8
-	jle	.LBB0_218
-# %bb.101:
-	cmp	esi, 9
-	je	.LBB0_329
-# %bb.102:
-	cmp	esi, 11
-	je	.LBB0_332
-# %bb.103:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.104:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.105:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_106
-# %bb.480:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_771
-# %bb.481:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_771
-.LBB0_106:
-	xor	esi, esi
-.LBB0_1124:
-	mov	edi, r9d
-	sub	edi, esi
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	and	rdi, 7
-	je	.LBB0_1126
-.LBB0_1125:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1125
-.LBB0_1126:
-	cmp	r8, 7
-	jb	.LBB0_1526
-.LBB0_1127:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 32]
-	mov	qword ptr [rcx + 8*rsi + 32], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 40]
-	mov	qword ptr [rcx + 8*rsi + 40], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 48]
-	mov	qword ptr [rcx + 8*rsi + 48], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 56]
-	mov	qword ptr [rcx + 8*rsi + 56], rax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1127
-	jmp	.LBB0_1526
-.LBB0_107:
-	cmp	esi, 8
-	jle	.LBB0_223
-# %bb.108:
-	cmp	esi, 9
-	je	.LBB0_335
-# %bb.109:
-	cmp	esi, 11
-	je	.LBB0_338
-# %bb.110:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.111:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.112:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_483
-# %bb.113:
-	xor	edi, edi
-	jmp	.LBB0_485
-.LBB0_114:
-	cmp	esi, 8
-	jle	.LBB0_228
-# %bb.115:
-	cmp	esi, 9
-	je	.LBB0_341
-# %bb.116:
-	cmp	esi, 11
-	je	.LBB0_344
-# %bb.117:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_488
-# %bb.120:
-	xor	esi, esi
-	jmp	.LBB0_973
-.LBB0_121:
-	cmp	esi, 8
-	jle	.LBB0_233
-# %bb.122:
-	cmp	esi, 9
-	je	.LBB0_347
-# %bb.123:
-	cmp	esi, 11
-	je	.LBB0_350
-# %bb.124:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.125:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.126:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_491
-# %bb.127:
-	xor	edi, edi
-	jmp	.LBB0_493
-.LBB0_128:
-	cmp	esi, 8
-	jle	.LBB0_238
-# %bb.129:
-	cmp	esi, 9
-	je	.LBB0_353
-# %bb.130:
-	cmp	esi, 11
-	je	.LBB0_356
-# %bb.131:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.132:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.133:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_496
-# %bb.134:
-	xor	edi, edi
-	jmp	.LBB0_498
-.LBB0_135:
-	cmp	esi, 8
-	jle	.LBB0_243
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB0_359
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB0_362
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.139:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.140:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_501
-# %bb.141:
-	xor	edi, edi
-	jmp	.LBB0_503
-.LBB0_142:
-	cmp	esi, 8
-	jle	.LBB0_248
-# %bb.143:
-	cmp	esi, 9
-	je	.LBB0_365
-# %bb.144:
-	cmp	esi, 11
-	je	.LBB0_368
-# %bb.145:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.146:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_506
-# %bb.148:
-	xor	esi, esi
-	jmp	.LBB0_979
-.LBB0_149:
-	cmp	esi, 8
-	jle	.LBB0_253
-# %bb.150:
-	cmp	esi, 9
-	je	.LBB0_371
-# %bb.151:
-	cmp	esi, 11
-	je	.LBB0_374
-# %bb.152:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.153:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.154:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_509
-# %bb.155:
-	xor	edi, edi
-	jmp	.LBB0_511
-.LBB0_156:
-	cmp	esi, 8
-	jle	.LBB0_258
-# %bb.157:
-	cmp	esi, 9
-	je	.LBB0_377
-# %bb.158:
-	cmp	esi, 11
-	je	.LBB0_380
-# %bb.159:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.160:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.161:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_514
-# %bb.162:
-	xor	edi, edi
-	jmp	.LBB0_516
-.LBB0_163:
-	cmp	esi, 2
-	je	.LBB0_383
-# %bb.164:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.165:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.166:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_167
-# %bb.519:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_773
-# %bb.520:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_773
-.LBB0_167:
-	xor	esi, esi
-.LBB0_1498:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1500
-.LBB0_1499:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1499
-.LBB0_1500:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1501:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1501
-	jmp	.LBB0_1526
-.LBB0_168:
-	cmp	esi, 2
-	je	.LBB0_386
-# %bb.169:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.170:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_172
-# %bb.522:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_776
-# %bb.523:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_776
-.LBB0_172:
-	xor	esi, esi
-.LBB0_1506:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1508
-.LBB0_1507:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1507
-.LBB0_1508:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1509:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1509
-	jmp	.LBB0_1526
-.LBB0_173:
-	cmp	esi, 2
-	je	.LBB0_389
-# %bb.174:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.175:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.176:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_177
-# %bb.525:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_779
-# %bb.526:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_779
-.LBB0_177:
-	xor	esi, esi
-.LBB0_1134:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1136
-.LBB0_1135:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1135
-.LBB0_1136:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1137:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1137
-	jmp	.LBB0_1526
-.LBB0_178:
-	cmp	esi, 2
-	je	.LBB0_392
-# %bb.179:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.180:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.181:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_182
-# %bb.528:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_781
-# %bb.529:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_781
-.LBB0_182:
-	xor	esi, esi
-.LBB0_1322:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1324
-.LBB0_1323:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1323
-.LBB0_1324:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1325:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1325
-	jmp	.LBB0_1526
-.LBB0_183:
-	cmp	esi, 2
-	je	.LBB0_395
-# %bb.184:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.185:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_187
-# %bb.531:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_784
-# %bb.532:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_784
-.LBB0_187:
-	xor	esi, esi
-.LBB0_1330:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1332
-.LBB0_1331:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1331
-.LBB0_1332:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1333:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1333
-	jmp	.LBB0_1526
-.LBB0_188:
-	cmp	esi, 2
-	je	.LBB0_398
-# %bb.189:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.190:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.191:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_192
-# %bb.534:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_787
-# %bb.535:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_787
-.LBB0_192:
-	xor	esi, esi
-.LBB0_1514:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1516
-.LBB0_1515:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1515
-.LBB0_1516:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1517:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1517
-	jmp	.LBB0_1526
-.LBB0_193:
-	cmp	esi, 2
-	je	.LBB0_401
-# %bb.194:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.195:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.196:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_197
-# %bb.537:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_790
-# %bb.538:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_790
-.LBB0_197:
-	xor	esi, esi
-.LBB0_1338:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1340
-.LBB0_1339:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1339
-.LBB0_1340:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1341:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1341
-	jmp	.LBB0_1526
-.LBB0_198:
-	cmp	esi, 2
-	je	.LBB0_404
-# %bb.199:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.200:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_202
-# %bb.540:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_793
-# %bb.541:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_793
-.LBB0_202:
-	xor	esi, esi
-.LBB0_1522:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1524
-.LBB0_1523:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1523
-.LBB0_1524:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1525:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1525
-	jmp	.LBB0_1526
-.LBB0_203:
-	cmp	esi, 2
-	je	.LBB0_407
-# %bb.204:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.205:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.206:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_207
-# %bb.543:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_796
-# %bb.544:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_796
-.LBB0_207:
-	xor	esi, esi
-.LBB0_1144:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1146
-.LBB0_1145:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1145
-.LBB0_1146:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1147:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1147
-	jmp	.LBB0_1526
-.LBB0_208:
-	cmp	esi, 2
-	je	.LBB0_410
-# %bb.209:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.210:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.211:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_212
-# %bb.546:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_798
-# %bb.547:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_798
-.LBB0_212:
-	xor	esi, esi
-.LBB0_1346:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1348
-.LBB0_1347:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1347
-.LBB0_1348:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1349:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1349
-	jmp	.LBB0_1526
-.LBB0_213:
-	cmp	esi, 7
-	je	.LBB0_413
-# %bb.214:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.215:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_549
-# %bb.217:
-	xor	esi, esi
-	jmp	.LBB0_807
-.LBB0_218:
-	cmp	esi, 7
-	je	.LBB0_416
-# %bb.219:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.220:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.221:
-	mov	r9d, r8d
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	movabs	r10, -9223372036854775808
-	cmp	rax, 3
-	jae	.LBB0_551
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB0_553
-.LBB0_223:
-	cmp	esi, 7
-	je	.LBB0_419
-# %bb.224:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.225:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.226:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_227
-# %bb.556:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_808
-# %bb.557:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_808
-.LBB0_227:
-	xor	esi, esi
-.LBB0_1154:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1156
-.LBB0_1155:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1155
-.LBB0_1156:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1157:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1157
-	jmp	.LBB0_1526
-.LBB0_228:
-	cmp	esi, 7
-	je	.LBB0_422
-# %bb.229:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.230:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.231:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_232
-# %bb.559:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_810
-# %bb.560:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_810
-.LBB0_232:
-	xor	esi, esi
-.LBB0_1164:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1166
-.LBB0_1165:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1165
-.LBB0_1166:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1167:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1167
-	jmp	.LBB0_1526
-.LBB0_233:
-	cmp	esi, 7
-	je	.LBB0_425
-# %bb.234:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.235:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.236:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_562
-# %bb.237:
-	xor	esi, esi
-	jmp	.LBB0_818
-.LBB0_238:
-	cmp	esi, 7
-	je	.LBB0_428
-# %bb.239:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.240:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.241:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_564
-# %bb.242:
-	xor	esi, esi
-	jmp	.LBB0_825
-.LBB0_243:
-	cmp	esi, 7
-	je	.LBB0_431
-# %bb.244:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.245:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.246:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_247
-# %bb.566:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_826
-# %bb.567:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_826
-.LBB0_247:
-	xor	esi, esi
-.LBB0_1174:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1176
-.LBB0_1175:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1175
-.LBB0_1176:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1177:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1177
-	jmp	.LBB0_1526
-.LBB0_248:
-	cmp	esi, 7
-	je	.LBB0_434
-# %bb.249:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.250:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.251:
-	mov	r9d, r8d
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB0_569
-# %bb.252:
-	xor	edi, edi
-	jmp	.LBB0_571
-.LBB0_253:
-	cmp	esi, 7
-	je	.LBB0_437
-# %bb.254:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.255:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.256:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_257
-# %bb.574:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_828
-# %bb.575:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_828
-.LBB0_257:
-	xor	esi, esi
-.LBB0_1184:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1186
-.LBB0_1185:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1185
-.LBB0_1186:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1187:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1187
-	jmp	.LBB0_1526
-.LBB0_258:
-	cmp	esi, 7
-	je	.LBB0_440
-# %bb.259:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.260:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.261:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_577
-# %bb.262:
-	xor	esi, esi
-	jmp	.LBB0_836
-.LBB0_263:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.264:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_579
-# %bb.265:
-	xor	esi, esi
-	jmp	.LBB0_984
-.LBB0_266:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.267:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_582
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_989
-.LBB0_269:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.270:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_585
-# %bb.271:
-	xor	esi, esi
-	jmp	.LBB0_994
-.LBB0_272:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.273:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_588
-# %bb.274:
-	xor	esi, esi
-	jmp	.LBB0_999
-.LBB0_275:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.276:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_277
-# %bb.591:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_837
-# %bb.592:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_837
-.LBB0_277:
-	xor	esi, esi
-.LBB0_1354:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1356
-.LBB0_1355:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1355
-.LBB0_1356:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1357:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1357
-	jmp	.LBB0_1526
-.LBB0_278:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.279:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_280
-# %bb.594:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_840
-# %bb.595:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_840
-.LBB0_280:
-	xor	esi, esi
-.LBB0_1362:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1364
-.LBB0_1363:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1363
-.LBB0_1364:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1365:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1365
-	jmp	.LBB0_1526
-.LBB0_281:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.282:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_597
-# %bb.283:
-	xor	esi, esi
-	jmp	.LBB0_1004
-.LBB0_284:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.285:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_600
-# %bb.286:
-	xor	esi, esi
-	jmp	.LBB0_1009
-.LBB0_287:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.288:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_289
-# %bb.603:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_843
-# %bb.604:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_843
-.LBB0_289:
-	xor	esi, esi
-.LBB0_1194:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1196
-.LBB0_1195:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1195
-.LBB0_1196:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1197:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1197
-	jmp	.LBB0_1526
-.LBB0_290:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.291:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_292
-# %bb.606:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_845
-# %bb.607:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_845
-.LBB0_292:
-	xor	esi, esi
-.LBB0_1204:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1206
-.LBB0_1205:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1205
-.LBB0_1206:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1207:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1207
-	jmp	.LBB0_1526
-.LBB0_293:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.294:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_295
-# %bb.609:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_847
-# %bb.610:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_847
-.LBB0_295:
-	xor	esi, esi
-.LBB0_1214:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1216
-.LBB0_1215:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1215
-.LBB0_1216:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1217:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1217
-	jmp	.LBB0_1526
-.LBB0_296:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.297:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_298
-# %bb.612:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_849
-# %bb.613:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_849
-.LBB0_298:
-	xor	esi, esi
-.LBB0_1224:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1226
-.LBB0_1225:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1225
-.LBB0_1226:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1227:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1227
-	jmp	.LBB0_1526
-.LBB0_299:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.300:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_615
-# %bb.301:
-	xor	esi, esi
-	jmp	.LBB0_1014
-.LBB0_302:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.303:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_618
-# %bb.304:
-	xor	esi, esi
-	jmp	.LBB0_1019
-.LBB0_305:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.306:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_621
-# %bb.307:
-	xor	esi, esi
-	jmp	.LBB0_1024
-.LBB0_308:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.309:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_624
-# %bb.310:
-	xor	esi, esi
-	jmp	.LBB0_1029
-.LBB0_311:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.312:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_313
-# %bb.627:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_851
-# %bb.628:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_851
-.LBB0_313:
-	xor	esi, esi
-.LBB0_1370:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1372
-.LBB0_1371:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1371
-.LBB0_1372:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1373:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1373
-	jmp	.LBB0_1526
-.LBB0_314:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.315:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_316
-# %bb.630:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_854
-# %bb.631:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_854
-.LBB0_316:
-	xor	esi, esi
-.LBB0_1378:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1380
-.LBB0_1379:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1379
-.LBB0_1380:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1381:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1381
-	jmp	.LBB0_1526
-.LBB0_317:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.318:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_633
-# %bb.319:
-	xor	esi, esi
-	jmp	.LBB0_1034
-.LBB0_320:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.321:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_636
-# %bb.322:
-	xor	esi, esi
-	jmp	.LBB0_1039
-.LBB0_323:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.324:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_639
-# %bb.325:
-	xor	esi, esi
-	jmp	.LBB0_863
-.LBB0_326:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.327:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_641
-# %bb.328:
-	xor	esi, esi
-	jmp	.LBB0_1044
-.LBB0_329:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.330:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_644
-# %bb.331:
-	xor	edi, edi
-	jmp	.LBB0_646
-.LBB0_332:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.333:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_649
-# %bb.334:
-	xor	esi, esi
-	jmp	.LBB0_1049
-.LBB0_335:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.336:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_337
-# %bb.652:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_864
-# %bb.653:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_864
-.LBB0_337:
-	xor	esi, esi
-.LBB0_1234:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1236
-.LBB0_1235:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1235
-.LBB0_1236:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1237:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1237
-	jmp	.LBB0_1526
-.LBB0_338:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.339:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_340
-# %bb.655:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_866
-# %bb.656:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_866
-.LBB0_340:
-	xor	esi, esi
-.LBB0_1386:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1388
-.LBB0_1387:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1387
-.LBB0_1388:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1389:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1389
-	jmp	.LBB0_1526
-.LBB0_341:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.342:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_343
-# %bb.658:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_869
-# %bb.659:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_869
-.LBB0_343:
-	xor	esi, esi
-.LBB0_1244:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1246
-.LBB0_1245:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1245
-.LBB0_1246:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1247:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1247
-	jmp	.LBB0_1526
-.LBB0_344:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.345:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_661
-# %bb.346:
-	xor	esi, esi
-	jmp	.LBB0_1056
-.LBB0_347:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.348:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_664
-# %bb.349:
-	xor	esi, esi
-	jmp	.LBB0_877
-.LBB0_350:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.351:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_666
-# %bb.352:
-	xor	esi, esi
-	jmp	.LBB0_1062
-.LBB0_353:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.354:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_669
-# %bb.355:
-	xor	esi, esi
-	jmp	.LBB0_884
-.LBB0_356:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.357:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_671
-# %bb.358:
-	xor	esi, esi
-	jmp	.LBB0_1067
-.LBB0_359:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.360:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_361
-# %bb.674:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_885
-# %bb.675:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_885
-.LBB0_361:
-	xor	esi, esi
-.LBB0_1254:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1256
-.LBB0_1255:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1255
-.LBB0_1256:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1257:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1257
-	jmp	.LBB0_1526
-.LBB0_362:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.363:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_677
-# %bb.364:
-	xor	edi, edi
-	jmp	.LBB0_679
-.LBB0_365:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.366:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_682
-# %bb.367:
-	xor	edi, edi
-	jmp	.LBB0_684
-.LBB0_368:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.369:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_370
-# %bb.687:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_887
-# %bb.688:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_887
-.LBB0_370:
-	xor	esi, esi
-.LBB0_1264:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1266
-.LBB0_1265:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1265
-.LBB0_1266:
-	cmp	r8, 7
-	jb	.LBB0_1526
-.LBB0_1267:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 16]
-	mov	dword ptr [rcx + 4*rsi + 16], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 20]
-	mov	dword ptr [rcx + 4*rsi + 20], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 24]
-	mov	dword ptr [rcx + 4*rsi + 24], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 28]
-	mov	dword ptr [rcx + 4*rsi + 28], eax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1267
-	jmp	.LBB0_1526
-.LBB0_371:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.372:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_373
-# %bb.690:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_889
-# %bb.691:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_889
-.LBB0_373:
-	xor	esi, esi
-.LBB0_1274:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1276
-.LBB0_1275:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1275
-.LBB0_1276:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1277:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1277
-	jmp	.LBB0_1526
-.LBB0_374:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.375:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_376
-# %bb.693:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_891
-# %bb.694:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_891
-.LBB0_376:
-	xor	esi, esi
-.LBB0_1394:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1396
-.LBB0_1395:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1395
-.LBB0_1396:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1397:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1397
-	jmp	.LBB0_1526
-.LBB0_377:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.378:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_696
-# %bb.379:
-	xor	esi, esi
-	jmp	.LBB0_900
-.LBB0_380:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.381:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_698
-# %bb.382:
-	xor	esi, esi
-	jmp	.LBB0_1072
-.LBB0_383:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.384:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_385
-# %bb.701:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_901
-# %bb.702:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_901
-.LBB0_385:
-	xor	esi, esi
-.LBB0_1402:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1404
-.LBB0_1403:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1403
-.LBB0_1404:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1405:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1405
-	jmp	.LBB0_1526
-.LBB0_386:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.387:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_388
-# %bb.704:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_904
-# %bb.705:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_904
-.LBB0_388:
-	xor	esi, esi
-.LBB0_1410:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1412
-.LBB0_1411:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1411
-.LBB0_1412:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1413:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1413
-	jmp	.LBB0_1526
-.LBB0_389:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.390:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_391
-# %bb.707:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_907
-# %bb.708:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_907
-.LBB0_391:
-	xor	esi, esi
-.LBB0_1284:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1286
-.LBB0_1285:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1285
-.LBB0_1286:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1287:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1287
-	jmp	.LBB0_1526
-.LBB0_392:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.393:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_394
-# %bb.710:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_909
-# %bb.711:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_909
-.LBB0_394:
-	xor	esi, esi
-.LBB0_1418:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1420
-.LBB0_1419:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1419
-.LBB0_1420:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1421:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1421
-	jmp	.LBB0_1526
-.LBB0_395:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.396:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_397
-# %bb.713:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_912
-# %bb.714:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_912
-.LBB0_397:
-	xor	esi, esi
-.LBB0_1426:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1428
-.LBB0_1427:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1427
-.LBB0_1428:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1429:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1429
-	jmp	.LBB0_1526
-.LBB0_398:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.399:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_400
-# %bb.716:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_915
-# %bb.717:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_915
-.LBB0_400:
-	xor	esi, esi
-.LBB0_1434:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1436
-.LBB0_1435:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1435
-.LBB0_1436:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1437:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1437
-	jmp	.LBB0_1526
-.LBB0_401:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.402:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_403
-# %bb.719:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_918
-# %bb.720:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_918
-.LBB0_403:
-	xor	esi, esi
-.LBB0_1442:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1444
-.LBB0_1443:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1443
-.LBB0_1444:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1445:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1445
-	jmp	.LBB0_1526
-.LBB0_404:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.405:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_406
-# %bb.722:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_921
-# %bb.723:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_921
-.LBB0_406:
-	xor	esi, esi
-.LBB0_1450:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1452
-.LBB0_1451:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1451
-.LBB0_1452:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1453:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1453
-	jmp	.LBB0_1526
-.LBB0_407:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.408:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_409
-# %bb.725:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_924
-# %bb.726:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_924
-.LBB0_409:
-	xor	esi, esi
-.LBB0_1294:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1296
-.LBB0_1295:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1295
-.LBB0_1296:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1297:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1297
-	jmp	.LBB0_1526
-.LBB0_410:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.411:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_412
-# %bb.728:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_926
-# %bb.729:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_926
-.LBB0_412:
-	xor	esi, esi
-.LBB0_1458:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1460
-.LBB0_1459:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1459
-.LBB0_1460:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1461:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1461
-	jmp	.LBB0_1526
-.LBB0_413:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.414:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_415
-# %bb.731:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_929
-# %bb.732:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_929
-.LBB0_415:
-	xor	esi, esi
-.LBB0_1304:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1306
-.LBB0_1305:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1305
-.LBB0_1306:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1307:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1307
-	jmp	.LBB0_1526
-.LBB0_416:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.417:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_734
-# %bb.418:
-	xor	esi, esi
-	jmp	.LBB0_1077
-.LBB0_419:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.420:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_421
-# %bb.737:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_931
-# %bb.738:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_931
-.LBB0_421:
-	xor	esi, esi
-.LBB0_1466:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1468
-.LBB0_1467:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1467
-.LBB0_1468:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1469:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1469
-	jmp	.LBB0_1526
-.LBB0_422:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.423:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_740
-# %bb.424:
-	xor	esi, esi
-	jmp	.LBB0_943
-.LBB0_425:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.426:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_743
-# %bb.427:
-	xor	esi, esi
-	jmp	.LBB0_1082
-.LBB0_428:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.429:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_746
-# %bb.430:
-	xor	esi, esi
-	jmp	.LBB0_1087
-.LBB0_431:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.432:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_749
-# %bb.433:
-	xor	esi, esi
-	jmp	.LBB0_1092
-.LBB0_434:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.435:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_752
-# %bb.436:
-	xor	esi, esi
-	jmp	.LBB0_1097
-.LBB0_437:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.438:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_439
-# %bb.755:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_934
-# %bb.756:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_934
-.LBB0_439:
-	xor	esi, esi
-.LBB0_1474:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1476
-.LBB0_1475:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1475
-.LBB0_1476:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1477:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1477
-	jmp	.LBB0_1526
-.LBB0_440:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.441:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_442
-# %bb.758:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_937
-# %bb.759:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_937
-.LBB0_442:
-	xor	esi, esi
-.LBB0_1314:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1316
-.LBB0_1315:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1315
-.LBB0_1316:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1317:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1317
-	jmp	.LBB0_1526
-.LBB0_446:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	mov	dword ptr [rcx + 4*rdi], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	dword ptr [rcx + 4*rdi + 4], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	dword ptr [rcx + 4*rdi + 8], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	dword ptr [rcx + 4*rdi + 12], eax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_447
-.LBB0_448:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.449:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_450
-	jmp	.LBB0_1526
-.LBB0_454:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_944
-# %bb.455:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_456
-	jmp	.LBB0_945
-.LBB0_457:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_949
-# %bb.458:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_459:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_459
-	jmp	.LBB0_950
-.LBB0_460:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_954
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_462:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_462
-	jmp	.LBB0_955
-.LBB0_463:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_959
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_465
-	jmp	.LBB0_960
-.LBB0_466:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_964
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movaps	xmm1, xmmword ptr [rip + .LCPI0_3] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm2, xmmword ptr [rip + .LCPI0_4] # xmm2 = [2147483648,2147483648,2147483648,2147483648]
-.LBB0_468:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm3, xmmword ptr [rdx + 4*rdi]
-	movups	xmm4, xmmword ptr [rdx + 4*rdi + 16]
-	movaps	xmm0, xmm3
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm3
-	subps	xmm3, xmm1
-	cvttps2dq	xmm3, xmm3
-	xorps	xmm3, xmm2
-	blendvps	xmm3, xmm5, xmm0
-	movaps	xmm0, xmm4
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm4
-	subps	xmm4, xmm1
-	cvttps2dq	xmm4, xmm4
-	xorps	xmm4, xmm2
-	blendvps	xmm4, xmm5, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	movaps	xmm0, xmm3
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm4, xmm3
-	subps	xmm3, xmm1
-	cvttps2dq	xmm3, xmm3
-	xorps	xmm3, xmm2
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	movaps	xmm0, xmm4
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm4
-	subps	xmm4, xmm1
-	cvttps2dq	xmm4, xmm4
-	xorps	xmm4, xmm2
-	blendvps	xmm4, xmm5, xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_468
-	jmp	.LBB0_965
-.LBB0_475:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_476:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 8]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 12]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_476
-.LBB0_477:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.478:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_479:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_479
-	jmp	.LBB0_1526
-.LBB0_483:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_484:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_484
-.LBB0_485:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.486:
-	lea	rcx, [rcx + 8*rdi]
-	add	rdx, rdi
-	xor	esi, esi
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_487
-	jmp	.LBB0_1526
-.LBB0_488:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_969
-# %bb.489:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_6] # xmm1 = [4841369599423283200,4841369599423283200]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_7] # xmm2 = [4985484787499139072,4985484787499139072]
-	movapd	xmm3, xmmword ptr [rip + .LCPI0_8] # xmm3 = [1.9342813118337666E+25,1.9342813118337666E+25]
-.LBB0_490:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm6, xmm4
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm4, 32
-	por	xmm4, xmm2
-	subpd	xmm4, xmm3
-	addpd	xmm4, xmm6
-	movdqa	xmm6, xmm5
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm5, 32
-	por	xmm5, xmm2
-	subpd	xmm5, xmm3
-	addpd	xmm5, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi], xmm4
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
-	movdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	movdqa	xmm6, xmm4
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm4, 32
-	por	xmm4, xmm2
-	subpd	xmm4, xmm3
-	addpd	xmm4, xmm6
-	movdqa	xmm6, xmm5
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm5, 32
-	por	xmm5, xmm2
-	subpd	xmm5, xmm3
-	addpd	xmm5, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_490
-	jmp	.LBB0_970
-.LBB0_491:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 6]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_492
-.LBB0_493:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.494:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 2*rdi]
-	xor	esi, esi
-.LBB0_495:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_495
-	jmp	.LBB0_1526
-.LBB0_496:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_497:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 6]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_497
-.LBB0_498:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.499:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 2*rdi]
-	xor	esi, esi
-.LBB0_500:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_500
-	jmp	.LBB0_1526
-.LBB0_501:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_502:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi]
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 8]
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 16]
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 24]
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_502
-.LBB0_503:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.504:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_505:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_505
-	jmp	.LBB0_1526
-.LBB0_506:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_975
-# %bb.507:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
-	movups	xmmword ptr [rcx + 8*rdi], xmm0
-	movups	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi + 16]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 24]
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_508
-	jmp	.LBB0_976
-.LBB0_509:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_510
-.LBB0_511:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.512:
-	lea	rcx, [rcx + 8*rdi]
-	add	rdx, rdi
-	xor	esi, esi
-.LBB0_513:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_513
-	jmp	.LBB0_1526
-.LBB0_514:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_515:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi]
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 4]
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 8]
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 12]
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_515
-.LBB0_516:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.517:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_518:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rsi]
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_518
-	jmp	.LBB0_1526
-.LBB0_549:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_801
-# %bb.550:
-	xor	eax, eax
-	jmp	.LBB0_803
-.LBB0_551:
-	and	r9d, -4
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_552:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rax]   # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rdi, xmm2
-	xor	rdi, r10
-	cvttsd2si	rsi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rsi, rdi
-	mov	qword ptr [rcx + 8*rax], rsi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 8], rdi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 16] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 16], rdi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 24] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 24], rdi
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB0_552
-.LBB0_553:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.554:
-	lea	rcx, [rcx + 8*rax]
-	lea	rax, [rdx + 8*rax]
-	xor	edx, edx
-	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_555:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rax + 8*rdx]   # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rdx], rdi
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB0_555
-	jmp	.LBB0_1526
-.LBB0_562:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_812
-# %bb.563:
-	xor	eax, eax
-	jmp	.LBB0_814
-.LBB0_564:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_819
-# %bb.565:
-	xor	eax, eax
-	jmp	.LBB0_821
-.LBB0_569:
-	and	r9d, -4
-	xor	edi, edi
-	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
-	movabs	r10, -9223372036854775808
-.LBB0_570:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rdi]   # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rsi, xmm2
-	xor	rsi, r10
-	cvttss2si	rax, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rax, rsi
-	mov	qword ptr [rcx + 8*rdi], rax
-	movss	xmm1, dword ptr [rdx + 4*rdi + 4] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 8], rsi
-	movss	xmm1, dword ptr [rdx + 4*rdi + 8] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 16], rsi
-	movss	xmm1, dword ptr [rdx + 4*rdi + 12] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 24], rsi
-	add	rdi, 4
-	cmp	r9, rdi
-	jne	.LBB0_570
-.LBB0_571:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.572:
-	lea	rax, [rcx + 8*rdi]
-	lea	rcx, [rdx + 4*rdi]
-	xor	edx, edx
-	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-.LBB0_573:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rdi, xmm2
-	xor	rdi, r9
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rdi
-	mov	qword ptr [rax + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB0_573
-	jmp	.LBB0_1526
-.LBB0_577:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_830
-# %bb.578:
-	xor	eax, eax
-	jmp	.LBB0_832
-.LBB0_579:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_980
-# %bb.580:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_581
-	jmp	.LBB0_981
-.LBB0_582:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_985
-# %bb.583:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_584:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_584
-	jmp	.LBB0_986
-.LBB0_585:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.586:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_587:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_587
-	jmp	.LBB0_991
-.LBB0_588:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_995
-# %bb.589:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_590:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_590
-	jmp	.LBB0_996
-.LBB0_597:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1000
-# %bb.598:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_599
-	jmp	.LBB0_1001
-.LBB0_600:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1005
-# %bb.601:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_602
-	jmp	.LBB0_1006
-.LBB0_615:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1010
-# %bb.616:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_617
-	jmp	.LBB0_1011
-.LBB0_618:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1015
-# %bb.619:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_620
-	jmp	.LBB0_1016
-.LBB0_621:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1020
-# %bb.622:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_623
-	jmp	.LBB0_1021
-.LBB0_624:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1025
-# %bb.625:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_626:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_626
-	jmp	.LBB0_1026
-.LBB0_633:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1030
-# %bb.634:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_635:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_635
-	jmp	.LBB0_1031
-.LBB0_636:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1035
-# %bb.637:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_638:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_638
-	jmp	.LBB0_1036
-.LBB0_639:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_857
-# %bb.640:
-	xor	eax, eax
-	jmp	.LBB0_859
-.LBB0_641:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1040
-# %bb.642:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_14] # xmm0 = [1258291200,1258291200,1258291200,1258291200]
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_15] # xmm1 = [1392508928,1392508928,1392508928,1392508928]
-	movaps	xmm2, xmmword ptr [rip + .LCPI0_16] # xmm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-.LBB0_643:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm5, xmm3
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm3, 16
-	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
-	subps	xmm3, xmm2
-	addps	xmm3, xmm5
-	movdqa	xmm5, xmm4
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm4, 16
-	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
-	subps	xmm4, xmm2
-	addps	xmm4, xmm5
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	movdqa	xmm5, xmm3
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm3, 16
-	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
-	subps	xmm3, xmm2
-	addps	xmm3, xmm5
-	movdqa	xmm5, xmm4
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm4, 16
-	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
-	subps	xmm4, xmm2
-	addps	xmm4, xmm5
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_643
-	jmp	.LBB0_1041
-.LBB0_644:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_645:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rcx + 8*rdi], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [rcx + 8*rdi + 8], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [rcx + 8*rdi + 16], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [rcx + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_645
-.LBB0_646:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.647:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_648:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_648
-	jmp	.LBB0_1526
-.LBB0_649:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1045
-# %bb.650:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_651:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_651
-	jmp	.LBB0_1046
-.LBB0_661:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1050
-# %bb.662:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_11] # xmm2 = [1,1]
-.LBB0_663:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm2
-	movdqa	xmm3, xmm0
-	psrlq	xmm3, 1
-	por	xmm3, xmm1
-	pxor	xmm4, xmm4
-	pcmpgtq	xmm4, xmm0
-	blendvpd	xmm0, xmm3, xmm0
-	pextrq	rax, xmm0, 1
-	xorps	xmm5, xmm5
-	cvtsi2ss	xmm5, rax
-	movq	rax, xmm0
-	xorps	xmm3, xmm3
-	cvtsi2ss	xmm3, rax
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
-	movaps	xmm5, xmm3
-	addps	xmm5, xmm3
-	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
-	blendvps	xmm3, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pand	xmm0, xmm2
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm0
-	xorps	xmm5, xmm5
-	pcmpgtq	xmm5, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm4, xmm1
-	addps	xmm4, xmm1
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm1, xmm4, xmm0
-	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm2
-	movdqa	xmm3, xmm0
-	psrlq	xmm3, 1
-	por	xmm3, xmm1
-	xorps	xmm4, xmm4
-	pcmpgtq	xmm4, xmm0
-	blendvpd	xmm0, xmm3, xmm0
-	pextrq	rax, xmm0, 1
-	xorps	xmm5, xmm5
-	cvtsi2ss	xmm5, rax
-	movq	rax, xmm0
-	xorps	xmm3, xmm3
-	cvtsi2ss	xmm3, rax
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
-	movaps	xmm5, xmm3
-	addps	xmm5, xmm3
-	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
-	blendvps	xmm3, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pand	xmm0, xmm2
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm0
-	xorps	xmm5, xmm5
-	pcmpgtq	xmm5, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm4, xmm1
-	addps	xmm4, xmm1
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm1, xmm4, xmm0
-	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	add	rdi, 8
-	add	r10, 2
-	jne	.LBB0_663
-	jmp	.LBB0_1051
-.LBB0_664:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_871
-# %bb.665:
-	xor	eax, eax
-	jmp	.LBB0_873
-.LBB0_666:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1058
-# %bb.667:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_668:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_668
-	jmp	.LBB0_1059
-.LBB0_669:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_878
-# %bb.670:
-	xor	eax, eax
-	jmp	.LBB0_880
-.LBB0_671:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1063
-# %bb.672:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_673:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_673
-	jmp	.LBB0_1064
-.LBB0_677:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_678:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi]
-	movss	dword ptr [rcx + 4*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 8]
-	movss	dword ptr [rcx + 4*rdi + 4], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 16]
-	movss	dword ptr [rcx + 4*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 24]
-	movss	dword ptr [rcx + 4*rdi + 12], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_678
-.LBB0_679:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.680:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rsi]
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_681
-	jmp	.LBB0_1526
-.LBB0_682:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rdi]
-	mov	qword ptr [rcx + 8*rdi], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
-	mov	qword ptr [rcx + 8*rdi + 8], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	mov	qword ptr [rcx + 8*rdi + 16], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
-	mov	qword ptr [rcx + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_683
-.LBB0_684:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.685:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_686:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_686
-	jmp	.LBB0_1526
-.LBB0_696:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_894
-# %bb.697:
-	xor	eax, eax
-	jmp	.LBB0_896
-.LBB0_698:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1068
-# %bb.699:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_700:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_700
-	jmp	.LBB0_1069
-.LBB0_734:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1073
-# %bb.735:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_736:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_736
-	jmp	.LBB0_1074
-.LBB0_740:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_939
-# %bb.741:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_742:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_742
-	jmp	.LBB0_940
-.LBB0_743:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1078
-# %bb.744:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_745:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_745
-	jmp	.LBB0_1079
-.LBB0_746:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1083
-# %bb.747:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_748:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_748
-	jmp	.LBB0_1084
-.LBB0_749:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1088
-# %bb.750:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_751:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_751
-	jmp	.LBB0_1089
-.LBB0_752:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1093
-# %bb.753:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_754:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_754
-	jmp	.LBB0_1094
-.LBB0_761:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1098
-# %bb.762:
-	xor	eax, eax
-	jmp	.LBB0_1100
-.LBB0_763:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1478
-# %bb.764:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_765
-	jmp	.LBB0_1479
-.LBB0_766:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1486
-# %bb.767:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_1487
-.LBB0_769:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1108
-# %bb.770:
-	xor	eax, eax
-	jmp	.LBB0_1110
-.LBB0_771:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1118
-# %bb.772:
-	xor	eax, eax
-	jmp	.LBB0_1120
-.LBB0_773:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1494
-# %bb.774:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_775:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_775
-	jmp	.LBB0_1495
-.LBB0_776:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1502
-# %bb.777:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_778:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_778
-	jmp	.LBB0_1503
-.LBB0_779:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1128
-# %bb.780:
-	xor	eax, eax
-	jmp	.LBB0_1130
-.LBB0_781:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1318
-# %bb.782:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_783:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_783
-	jmp	.LBB0_1319
-.LBB0_784:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1326
-# %bb.785:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_786
-	jmp	.LBB0_1327
-.LBB0_787:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1510
-# %bb.788:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_789
-	jmp	.LBB0_1511
-.LBB0_790:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1334
-# %bb.791:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_792:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_792
-	jmp	.LBB0_1335
-.LBB0_793:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1518
-# %bb.794:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_795:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi + 8], xmm0
-	movd	dword ptr [rcx + rdi + 12], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_795
-	jmp	.LBB0_1519
-.LBB0_796:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1138
-# %bb.797:
-	xor	eax, eax
-	jmp	.LBB0_1140
-.LBB0_798:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1342
-# %bb.799:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_800:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_800
-	jmp	.LBB0_1343
-.LBB0_808:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1148
-# %bb.809:
-	xor	eax, eax
-	jmp	.LBB0_1150
-.LBB0_810:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1158
-# %bb.811:
-	xor	eax, eax
-	jmp	.LBB0_1160
-.LBB0_826:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1168
-# %bb.827:
-	xor	eax, eax
-	jmp	.LBB0_1170
-.LBB0_828:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1178
-# %bb.829:
-	xor	eax, eax
-	jmp	.LBB0_1180
-.LBB0_837:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1350
-# %bb.838:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_839:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_839
-	jmp	.LBB0_1351
-.LBB0_840:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1358
-# %bb.841:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_842:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_842
-	jmp	.LBB0_1359
-.LBB0_843:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1188
-# %bb.844:
-	xor	eax, eax
-	jmp	.LBB0_1190
-.LBB0_845:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1198
-# %bb.846:
-	xor	eax, eax
-	jmp	.LBB0_1200
-.LBB0_847:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1208
-# %bb.848:
-	xor	eax, eax
-	jmp	.LBB0_1210
-.LBB0_849:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1218
-# %bb.850:
-	xor	eax, eax
-	jmp	.LBB0_1220
-.LBB0_851:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1366
-# %bb.852:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_853:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_853
-	jmp	.LBB0_1367
-.LBB0_854:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1374
-# %bb.855:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_856:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_856
-	jmp	.LBB0_1375
-.LBB0_864:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1228
-# %bb.865:
-	xor	eax, eax
-	jmp	.LBB0_1230
-.LBB0_866:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1382
-# %bb.867:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_868:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_868
-	jmp	.LBB0_1383
-.LBB0_869:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1238
-# %bb.870:
-	xor	eax, eax
-	jmp	.LBB0_1240
-.LBB0_885:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1248
-# %bb.886:
-	xor	eax, eax
-	jmp	.LBB0_1250
-.LBB0_887:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1258
-# %bb.888:
-	xor	eax, eax
-	jmp	.LBB0_1260
-.LBB0_889:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1268
-# %bb.890:
-	xor	eax, eax
-	jmp	.LBB0_1270
-.LBB0_891:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1390
-# %bb.892:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_893:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_893
-	jmp	.LBB0_1391
-.LBB0_901:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1398
-# %bb.902:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_903:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_903
-	jmp	.LBB0_1399
-.LBB0_904:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1406
-# %bb.905:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_906:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_906
-	jmp	.LBB0_1407
-.LBB0_907:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1278
-# %bb.908:
-	xor	eax, eax
-	jmp	.LBB0_1280
-.LBB0_909:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1414
-# %bb.910:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_911:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_911
-	jmp	.LBB0_1415
-.LBB0_912:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1422
-# %bb.913:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_914:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_914
-	jmp	.LBB0_1423
-.LBB0_915:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1430
-# %bb.916:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_917:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_917
-	jmp	.LBB0_1431
-.LBB0_918:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1438
-# %bb.919:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_920:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_920
-	jmp	.LBB0_1439
-.LBB0_921:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1446
-# %bb.922:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_923:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi + 8], xmm0
-	movd	dword ptr [rcx + rdi + 12], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_923
-	jmp	.LBB0_1447
-.LBB0_924:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1288
-# %bb.925:
-	xor	eax, eax
-	jmp	.LBB0_1290
-.LBB0_926:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1454
-# %bb.927:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_928:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_928
-	jmp	.LBB0_1455
-.LBB0_929:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1298
-# %bb.930:
-	xor	eax, eax
-	jmp	.LBB0_1300
-.LBB0_931:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1462
-# %bb.932:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_933:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_933
-	jmp	.LBB0_1463
-.LBB0_934:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1470
-# %bb.935:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_936:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_936
-	jmp	.LBB0_1471
-.LBB0_937:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1308
-# %bb.938:
-	xor	eax, eax
-	jmp	.LBB0_1310
-.LBB0_801:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_802:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_802
-.LBB0_803:
-	test	r8, r8
-	je	.LBB0_806
-# %bb.804:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_805:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_805
-.LBB0_806:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_807:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_807
-	jmp	.LBB0_1526
-.LBB0_812:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_813
-.LBB0_814:
-	test	r8, r8
-	je	.LBB0_817
-# %bb.815:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_816:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_816
-.LBB0_817:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_818
-	jmp	.LBB0_1526
-.LBB0_819:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_820
-.LBB0_821:
-	test	r8, r8
-	je	.LBB0_824
-# %bb.822:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_823:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
-	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_823
-.LBB0_824:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_825:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_825
-	jmp	.LBB0_1526
-.LBB0_830:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_831:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_831
-.LBB0_832:
-	test	r8, r8
-	je	.LBB0_835
-# %bb.833:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_834:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
-	pmovsxdq	xmm1, qword ptr [rdx + rax]
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_834
-.LBB0_835:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_836:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_836
-	jmp	.LBB0_1526
-.LBB0_857:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_858:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_858
-.LBB0_859:
-	test	r8, r8
-	je	.LBB0_862
-# %bb.860:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_861:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_861
-.LBB0_862:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_863:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_863
-	jmp	.LBB0_1526
-.LBB0_871:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_872:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_872
-.LBB0_873:
-	test	r8, r8
-	je	.LBB0_876
-# %bb.874:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_875:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_875
-.LBB0_876:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_877:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_877
-	jmp	.LBB0_1526
-.LBB0_878:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_879:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_879
-.LBB0_880:
-	test	r8, r8
-	je	.LBB0_883
-# %bb.881:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_882:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
-	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_882
-.LBB0_883:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_884:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_884
-	jmp	.LBB0_1526
-.LBB0_894:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_895:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_895
-.LBB0_896:
-	test	r8, r8
-	je	.LBB0_899
-# %bb.897:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_898:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
-	pmovsxdq	xmm1, qword ptr [rdx + rax]
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_898
-.LBB0_899:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_900:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_900
-	jmp	.LBB0_1526
-.LBB0_939:
-	xor	edi, edi
-.LBB0_940:
-	test	r8b, 1
-	je	.LBB0_942
-# %bb.941:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_942:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_943:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_943
-	jmp	.LBB0_1526
-.LBB0_944:
-	xor	edi, edi
-.LBB0_945:
-	test	r8b, 1
-	je	.LBB0_947
-# %bb.946:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_947:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_948:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_948
-	jmp	.LBB0_1526
-.LBB0_949:
-	xor	edi, edi
-.LBB0_950:
-	test	r8b, 1
-	je	.LBB0_952
-# %bb.951:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_952:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_953:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_953
-	jmp	.LBB0_1526
-.LBB0_954:
-	xor	edi, edi
-.LBB0_955:
-	test	r8b, 1
-	je	.LBB0_957
-# %bb.956:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_957:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_958:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_958
-	jmp	.LBB0_1526
-.LBB0_959:
-	xor	edi, edi
-.LBB0_960:
-	test	r8b, 1
-	je	.LBB0_962
-# %bb.961:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_962:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_963:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_963
-	jmp	.LBB0_1526
-.LBB0_964:
-	xor	edi, edi
-.LBB0_965:
-	test	r8b, 1
-	je	.LBB0_967
-# %bb.966:
-	movups	xmm1, xmmword ptr [rdx + 4*rdi]
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	movaps	xmm3, xmmword ptr [rip + .LCPI0_3] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm0, xmm1
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm1
-	subps	xmm1, xmm3
-	cvttps2dq	xmm1, xmm1
-	movaps	xmm5, xmmword ptr [rip + .LCPI0_4] # xmm5 = [2147483648,2147483648,2147483648,2147483648]
-	xorps	xmm1, xmm5
-	blendvps	xmm1, xmm4, xmm0
-	movaps	xmm0, xmm2
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm2
-	subps	xmm2, xmm3
-	cvttps2dq	xmm2, xmm2
-	xorps	xmm2, xmm5
-	blendvps	xmm2, xmm4, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB0_967:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_968:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_968
-	jmp	.LBB0_1526
-.LBB0_969:
-	xor	edi, edi
-.LBB0_970:
-	test	r8b, 1
-	je	.LBB0_972
-# %bb.971:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm0
-	pblendw	xmm3, xmm2, 204                 # xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
-	movdqa	xmm4, xmmword ptr [rip + .LCPI0_6] # xmm4 = [4841369599423283200,4841369599423283200]
-	por	xmm3, xmm4
-	psrlq	xmm0, 32
-	movdqa	xmm5, xmmword ptr [rip + .LCPI0_7] # xmm5 = [4985484787499139072,4985484787499139072]
-	por	xmm0, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI0_8] # xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
-	subpd	xmm0, xmm6
-	addpd	xmm0, xmm3
-	pblendw	xmm2, xmm1, 51                  # xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
-	por	xmm2, xmm4
-	psrlq	xmm1, 32
-	por	xmm1, xmm5
-	subpd	xmm1, xmm6
-	addpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB0_972:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_973:
-	movapd	xmm0, xmmword ptr [rip + .LCPI0_9] # xmm0 = [1127219200,1160773632,0,0]
-	movapd	xmm1, xmmword ptr [rip + .LCPI0_10] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
-.LBB0_974:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
-	unpcklps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	subpd	xmm2, xmm1
-	movapd	xmm3, xmm2
-	unpckhpd	xmm3, xmm2                      # xmm3 = xmm3[1],xmm2[1]
-	addsd	xmm3, xmm2
-	movsd	qword ptr [rcx + 8*rsi], xmm3
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_974
-	jmp	.LBB0_1526
-.LBB0_975:
-	xor	edi, edi
-.LBB0_976:
-	test	r8b, 1
-	je	.LBB0_978
-# %bb.977:
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB0_978:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_979:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	cvtss2sd	xmm0, xmm0
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_979
-	jmp	.LBB0_1526
-.LBB0_980:
-	xor	edi, edi
-.LBB0_981:
-	test	r8b, 1
-	je	.LBB0_983
-# %bb.982:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_983:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_984:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_984
-	jmp	.LBB0_1526
-.LBB0_985:
-	xor	edi, edi
-.LBB0_986:
-	test	r8b, 1
-	je	.LBB0_988
-# %bb.987:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_988:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_989:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_989
-	jmp	.LBB0_1526
-.LBB0_990:
-	xor	edi, edi
-.LBB0_991:
-	test	r8b, 1
-	je	.LBB0_993
-# %bb.992:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_993:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_994:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_994
-	jmp	.LBB0_1526
-.LBB0_995:
-	xor	edi, edi
-.LBB0_996:
-	test	r8b, 1
-	je	.LBB0_998
-# %bb.997:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_998:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1526
-.LBB0_1000:
-	xor	edi, edi
-.LBB0_1001:
-	test	r8b, 1
-	je	.LBB0_1003
-# %bb.1002:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1003:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1004
-	jmp	.LBB0_1526
-.LBB0_1005:
-	xor	edi, edi
-.LBB0_1006:
-	test	r8b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1008:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1009
-	jmp	.LBB0_1526
-.LBB0_1010:
-	xor	edi, edi
-.LBB0_1011:
-	test	r8b, 1
-	je	.LBB0_1013
-# %bb.1012:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1013:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1014
-	jmp	.LBB0_1526
-.LBB0_1015:
-	xor	edi, edi
-.LBB0_1016:
-	test	r8b, 1
-	je	.LBB0_1018
-# %bb.1017:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1018:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1019
-	jmp	.LBB0_1526
-.LBB0_1020:
-	xor	edi, edi
-.LBB0_1021:
-	test	r8b, 1
-	je	.LBB0_1023
-# %bb.1022:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1023:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1024
-	jmp	.LBB0_1526
-.LBB0_1025:
-	xor	edi, edi
-.LBB0_1026:
-	test	r8b, 1
-	je	.LBB0_1028
-# %bb.1027:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1028:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1029
-	jmp	.LBB0_1526
-.LBB0_1030:
-	xor	edi, edi
-.LBB0_1031:
-	test	r8b, 1
-	je	.LBB0_1033
-# %bb.1032:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1033:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1034
-	jmp	.LBB0_1526
-.LBB0_1035:
-	xor	edi, edi
-.LBB0_1036:
-	test	r8b, 1
-	je	.LBB0_1038
-# %bb.1037:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1038:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1039
-	jmp	.LBB0_1526
-.LBB0_1040:
-	xor	edi, edi
-.LBB0_1041:
-	test	r8b, 1
-	je	.LBB0_1043
-# %bb.1042:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_14] # xmm2 = [1258291200,1258291200,1258291200,1258291200]
-	movdqa	xmm3, xmm0
-	pblendw	xmm3, xmm2, 170                 # xmm3 = xmm3[0],xmm2[1],xmm3[2],xmm2[3],xmm3[4],xmm2[5],xmm3[6],xmm2[7]
-	psrld	xmm0, 16
-	movdqa	xmm4, xmmword ptr [rip + .LCPI0_15] # xmm4 = [1392508928,1392508928,1392508928,1392508928]
-	pblendw	xmm0, xmm4, 170                 # xmm0 = xmm0[0],xmm4[1],xmm0[2],xmm4[3],xmm0[4],xmm4[5],xmm0[6],xmm4[7]
-	movaps	xmm5, xmmword ptr [rip + .LCPI0_16] # xmm5 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-	subps	xmm0, xmm5
-	addps	xmm0, xmm3
-	pblendw	xmm2, xmm1, 85                  # xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	psrld	xmm1, 16
-	pblendw	xmm1, xmm4, 170                 # xmm1 = xmm1[0],xmm4[1],xmm1[2],xmm4[3],xmm1[4],xmm4[5],xmm1[6],xmm4[7]
-	subps	xmm1, xmm5
-	addps	xmm1, xmm2
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1043:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1044
-	jmp	.LBB0_1526
-.LBB0_1045:
-	xor	edi, edi
-.LBB0_1046:
-	test	r8b, 1
-	je	.LBB0_1048
-# %bb.1047:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1048:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1049
-	jmp	.LBB0_1526
-.LBB0_1050:
-	xor	edi, edi
-.LBB0_1051:
-	test	r8b, 1
-	je	.LBB0_1053
-# %bb.1052:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI0_11] # xmm3 = [1,1]
-	movdqa	xmm1, xmm0
-	movdqa	xmm2, xmm0
-	movdqa	xmm4, xmm0
-	pand	xmm4, xmm3
-	psrlq	xmm1, 1
-	por	xmm1, xmm4
-	blendvpd	xmm2, xmm1, xmm0
-	pextrq	rax, xmm2, 1
-	xorps	xmm4, xmm4
-	cvtsi2ss	xmm4, rax
-	movq	rax, xmm2
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, rax
-	pxor	xmm5, xmm5
-	pcmpgtq	xmm5, xmm0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	insertps	xmm2, xmm4, 28                  # xmm2 = xmm2[0],xmm4[0],zero,zero
-	movaps	xmm4, xmm2
-	addps	xmm4, xmm2
-	pxor	xmm6, xmm6
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm2, xmm4, xmm0
-	pand	xmm3, xmm1
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm3
-	pcmpgtq	xmm6, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm3, xmm1
-	addps	xmm3, xmm1
-	pshufd	xmm0, xmm6, 237                 # xmm0 = xmm6[1,3,2,3]
-	blendvps	xmm1, xmm3, xmm0
-	movlhps	xmm2, xmm1                      # xmm2 = xmm2[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-.LBB0_1053:
-	cmp	rsi, r9
-	jne	.LBB0_1056
-	jmp	.LBB0_1526
-.LBB0_1054:                             #   in Loop: Header=BB0_1056 Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	je	.LBB0_1526
-.LBB0_1056:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	test	rax, rax
-	jns	.LBB0_1054
-# %bb.1057:                             #   in Loop: Header=BB0_1056 Depth=1
-	mov	rdi, rax
-	shr	rdi
-	and	eax, 1
-	or	rax, rdi
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	addss	xmm0, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1056
-	jmp	.LBB0_1526
-.LBB0_1058:
-	xor	edi, edi
-.LBB0_1059:
-	test	r8b, 1
-	je	.LBB0_1061
-# %bb.1060:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1061:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1062:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1062
-	jmp	.LBB0_1526
-.LBB0_1063:
-	xor	edi, edi
-.LBB0_1064:
-	test	r8b, 1
-	je	.LBB0_1066
-# %bb.1065:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1066:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1067:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1067
-	jmp	.LBB0_1526
-.LBB0_1068:
-	xor	edi, edi
-.LBB0_1069:
-	test	r8b, 1
-	je	.LBB0_1071
-# %bb.1070:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1071:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1072:                             # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1072
-	jmp	.LBB0_1526
-.LBB0_1073:
-	xor	edi, edi
-.LBB0_1074:
-	test	r8b, 1
-	je	.LBB0_1076
-# %bb.1075:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1076:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1077:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1077
-	jmp	.LBB0_1526
-.LBB0_1078:
-	xor	edi, edi
-.LBB0_1079:
-	test	r8b, 1
-	je	.LBB0_1081
-# %bb.1080:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1081:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1082:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1082
-	jmp	.LBB0_1526
-.LBB0_1083:
-	xor	edi, edi
-.LBB0_1084:
-	test	r8b, 1
-	je	.LBB0_1086
-# %bb.1085:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1086:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1087:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1087
-	jmp	.LBB0_1526
-.LBB0_1088:
-	xor	edi, edi
-.LBB0_1089:
-	test	r8b, 1
-	je	.LBB0_1091
-# %bb.1090:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1091:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1092
-	jmp	.LBB0_1526
-.LBB0_1093:
-	xor	edi, edi
-.LBB0_1094:
-	test	r8b, 1
-	je	.LBB0_1096
-# %bb.1095:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1096:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1097:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1097
-.LBB0_1526:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_1098:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1099
-.LBB0_1100:
-	test	r8, r8
-	je	.LBB0_1103
-# %bb.1101:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1102:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1102
-.LBB0_1103:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1104
-.LBB0_1108:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1109
-.LBB0_1110:
-	test	r8, r8
-	je	.LBB0_1113
-# %bb.1111:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1112:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1112
-.LBB0_1113:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1114
-.LBB0_1118:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1119
-.LBB0_1120:
-	test	r8, r8
-	je	.LBB0_1123
-# %bb.1121:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1122:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1122
-.LBB0_1123:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1124
-.LBB0_1128:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1129
-.LBB0_1130:
-	test	r8, r8
-	je	.LBB0_1133
-# %bb.1131:
-	add	rax, 16
-	neg	r8
-.LBB0_1132:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1132
-.LBB0_1133:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1134
-.LBB0_1138:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1139
-.LBB0_1140:
-	test	r8, r8
-	je	.LBB0_1143
-# %bb.1141:
-	add	rax, 16
-	neg	r8
-.LBB0_1142:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1142
-.LBB0_1143:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1144
-.LBB0_1148:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [rdx + rax]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1149
-.LBB0_1150:
-	test	r8, r8
-	je	.LBB0_1153
-# %bb.1151:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
-	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1152
-.LBB0_1153:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1154
-.LBB0_1158:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1159
-.LBB0_1160:
-	test	r8, r8
-	je	.LBB0_1163
-# %bb.1161:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1162
-.LBB0_1163:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1164
-.LBB0_1168:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1169
-.LBB0_1170:
-	test	r8, r8
-	je	.LBB0_1173
-# %bb.1171:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1172
-.LBB0_1173:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1174
-.LBB0_1178:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1179
-.LBB0_1180:
-	test	r8, r8
-	je	.LBB0_1183
-# %bb.1181:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1182
-.LBB0_1183:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1184
-.LBB0_1188:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1189:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1189
-.LBB0_1190:
-	test	r8, r8
-	je	.LBB0_1193
-# %bb.1191:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1192
-.LBB0_1193:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1194
-.LBB0_1198:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1199:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1199
-.LBB0_1200:
-	test	r8, r8
-	je	.LBB0_1203
-# %bb.1201:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1202:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1202
-.LBB0_1203:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1204
-.LBB0_1208:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1209:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1209
-.LBB0_1210:
-	test	r8, r8
-	je	.LBB0_1213
-# %bb.1211:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1212:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1212
-.LBB0_1213:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1214
-.LBB0_1218:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1219:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1219
-.LBB0_1220:
-	test	r8, r8
-	je	.LBB0_1223
-# %bb.1221:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1222
-.LBB0_1223:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1224
-.LBB0_1228:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1229:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [rdx + rax]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1229
-.LBB0_1230:
-	test	r8, r8
-	je	.LBB0_1233
-# %bb.1231:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
-	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1232
-.LBB0_1233:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1234
-.LBB0_1238:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1239:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1239
-.LBB0_1240:
-	test	r8, r8
-	je	.LBB0_1243
-# %bb.1241:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1242:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1242
-.LBB0_1243:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1244
-.LBB0_1248:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1249:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1249
-.LBB0_1250:
-	test	r8, r8
-	je	.LBB0_1253
-# %bb.1251:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1252:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1252
-.LBB0_1253:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1254
-.LBB0_1258:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1259:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1259
-.LBB0_1260:
-	test	r8, r8
-	je	.LBB0_1263
-# %bb.1261:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1262
-.LBB0_1263:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1264
-.LBB0_1268:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1269:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1269
-.LBB0_1270:
-	test	r8, r8
-	je	.LBB0_1273
-# %bb.1271:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1272
-.LBB0_1273:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1274
-.LBB0_1278:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1279:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1279
-.LBB0_1280:
-	test	r8, r8
-	je	.LBB0_1283
-# %bb.1281:
-	add	rax, 16
-	neg	r8
-.LBB0_1282:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1282
-.LBB0_1283:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1284
-.LBB0_1288:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1289:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1289
-.LBB0_1290:
-	test	r8, r8
-	je	.LBB0_1293
-# %bb.1291:
-	add	rax, 16
-	neg	r8
-.LBB0_1292:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1292
-.LBB0_1293:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1294
-.LBB0_1298:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1299:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1299
-.LBB0_1300:
-	test	r8, r8
-	je	.LBB0_1303
-# %bb.1301:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1302
-.LBB0_1303:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1304
-.LBB0_1308:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1309:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1309
-.LBB0_1310:
-	test	r8, r8
-	je	.LBB0_1313
-# %bb.1311:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1312
-.LBB0_1313:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1314
-.LBB0_1318:
-	xor	edi, edi
-.LBB0_1319:
-	test	r8b, 1
-	je	.LBB0_1321
-# %bb.1320:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1321:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1322
-.LBB0_1326:
-	xor	edi, edi
-.LBB0_1327:
-	test	r8b, 1
-	je	.LBB0_1329
-# %bb.1328:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1329:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1330
-.LBB0_1334:
-	xor	edi, edi
-.LBB0_1335:
-	test	r8b, 1
-	je	.LBB0_1337
-# %bb.1336:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1337:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1338
-.LBB0_1342:
-	xor	edi, edi
-.LBB0_1343:
-	test	r8b, 1
-	je	.LBB0_1345
-# %bb.1344:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1345:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1346
-.LBB0_1350:
-	xor	edi, edi
-.LBB0_1351:
-	test	r8b, 1
-	je	.LBB0_1353
-# %bb.1352:
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1353:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1354
-.LBB0_1358:
-	xor	edi, edi
-.LBB0_1359:
-	test	r8b, 1
-	je	.LBB0_1361
-# %bb.1360:
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1361:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1362
-.LBB0_1366:
-	xor	edi, edi
-.LBB0_1367:
-	test	r8b, 1
-	je	.LBB0_1369
-# %bb.1368:
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1369:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1370
-.LBB0_1374:
-	xor	edi, edi
-.LBB0_1375:
-	test	r8b, 1
-	je	.LBB0_1377
-# %bb.1376:
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1377:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1378
-.LBB0_1382:
-	xor	edi, edi
-.LBB0_1383:
-	test	r8b, 1
-	je	.LBB0_1385
-# %bb.1384:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1385:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1386
-.LBB0_1390:
-	xor	edi, edi
-.LBB0_1391:
-	test	r8b, 1
-	je	.LBB0_1393
-# %bb.1392:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1393:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1394
-.LBB0_1398:
-	xor	edi, edi
-.LBB0_1399:
-	test	r8b, 1
-	je	.LBB0_1401
-# %bb.1400:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1401:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1402
-.LBB0_1406:
-	xor	edi, edi
-.LBB0_1407:
-	test	r8b, 1
-	je	.LBB0_1409
-# %bb.1408:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	cvttpd2dq	xmm0, xmm0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	cvttpd2dq	xmm1, xmm1
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1409:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1410
-.LBB0_1414:
-	xor	edi, edi
-.LBB0_1415:
-	test	r8b, 1
-	je	.LBB0_1417
-# %bb.1416:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1417:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1418
-.LBB0_1422:
-	xor	edi, edi
-.LBB0_1423:
-	test	r8b, 1
-	je	.LBB0_1425
-# %bb.1424:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1425:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1426
-.LBB0_1430:
-	xor	edi, edi
-.LBB0_1431:
-	test	r8b, 1
-	je	.LBB0_1433
-# %bb.1432:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1433:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1434
-.LBB0_1438:
-	xor	edi, edi
-.LBB0_1439:
-	test	r8b, 1
-	je	.LBB0_1441
-# %bb.1440:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1441:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1442
-.LBB0_1446:
-	xor	edi, edi
-.LBB0_1447:
-	test	r8b, 1
-	je	.LBB0_1449
-# %bb.1448:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1449:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1450
-.LBB0_1454:
-	xor	edi, edi
-.LBB0_1455:
-	test	r8b, 1
-	je	.LBB0_1457
-# %bb.1456:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1457:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1458
-.LBB0_1462:
-	xor	edi, edi
-.LBB0_1463:
-	test	r8b, 1
-	je	.LBB0_1465
-# %bb.1464:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1465:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1466
-.LBB0_1470:
-	xor	edi, edi
-.LBB0_1471:
-	test	r8b, 1
-	je	.LBB0_1473
-# %bb.1472:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1473:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1474
-.LBB0_1478:
-	xor	edi, edi
-.LBB0_1479:
-	test	r8b, 1
-	je	.LBB0_1481
-# %bb.1480:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1481:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1482
-.LBB0_1486:
-	xor	edi, edi
-.LBB0_1487:
-	test	r8b, 1
-	je	.LBB0_1489
-# %bb.1488:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1489:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1490
-.LBB0_1494:
-	xor	edi, edi
-.LBB0_1495:
-	test	r8b, 1
-	je	.LBB0_1497
-# %bb.1496:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1497:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1498
-.LBB0_1502:
-	xor	edi, edi
-.LBB0_1503:
-	test	r8b, 1
-	je	.LBB0_1505
-# %bb.1504:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	cvttpd2dq	xmm0, xmm0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	cvttpd2dq	xmm1, xmm1
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1505:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1506
-.LBB0_1510:
-	xor	edi, edi
-.LBB0_1511:
-	test	r8b, 1
-	je	.LBB0_1513
-# %bb.1512:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1513:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1514
-.LBB0_1518:
-	xor	edi, edi
-.LBB0_1519:
-	test	r8b, 1
-	je	.LBB0_1521
-# %bb.1520:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1521:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1522
-.Lfunc_end0:
-	.size	cast_type_numeric_sse4, .Lfunc_end0-cast_type_numeric_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor.c b/go/arrow/compute/internal/kernels/_lib/constant_factor.c
deleted file mode 100644
index a540f4cd6b649..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor.c
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#define CREATE_CONSTANT_FACTOR(SRC, DEST) \
-    void FULL_NAME(multiply_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
-        for (int i = 0; i < len; ++i) {            \
-            dest[i] = (DEST##_t)(src[i] * factor); \
-        }                                          \
-    }                                              \
-    void FULL_NAME(divide_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
-        for (int i = 0; i < len; ++i) {            \
-            dest[i] = (DEST##_t)(src[i] / factor); \
-        }                                          \
-    }
-
-CREATE_CONSTANT_FACTOR(int32, int32)
-CREATE_CONSTANT_FACTOR(int32, int64)
-CREATE_CONSTANT_FACTOR(int64, int32)
-CREATE_CONSTANT_FACTOR(int64, int64)
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
deleted file mode 100644
index f0dfeed8dee89..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
+++ /dev/null
@@ -1,837 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"constant_factor.c"
-	.globl	multiply_constant_int32_int32_avx2 # -- Begin function multiply_constant_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int32_avx2,@function
-multiply_constant_int32_int32_avx2:     # @multiply_constant_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB0_16
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 31
-	jbe	.LBB0_2
-# %bb.7:
-	lea	rax, [rdi + 4*r9]
-	cmp	rax, rsi
-	jbe	.LBB0_9
-# %bb.8:
-	lea	rax, [rsi + 4*r9]
-	cmp	rax, rdi
-	jbe	.LBB0_9
-.LBB0_2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 4*r11]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*r11], edx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 4]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 4], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 8]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 8], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 12]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 12], eax
-	add	r11, 4
-	cmp	r9, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_9:
-	mov	r11d, r9d
-	and	r11d, -32
-	vmovd	xmm0, ecx
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 96]
-	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 224]
-	vmovdqu	ymmword ptr [rsi + 4*rax + 128], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 160], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 192], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 224], ymm4
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r8b, 1
-	je	.LBB0_15
-.LBB0_14:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdi + 4*rax + 96]
-	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm0
-.LBB0_15:
-	cmp	r11, r9
-	jne	.LBB0_3
-.LBB0_16:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_10:
-	xor	eax, eax
-	test	r8b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	multiply_constant_int32_int32_avx2, .Lfunc_end0-multiply_constant_int32_int32_avx2
-                                        # -- End function
-	.globl	divide_constant_int32_int32_avx2 # -- Begin function divide_constant_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int32_avx2,@function
-divide_constant_int32_int32_avx2:       # @divide_constant_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB1_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB1_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB1_3:
-	test	r9b, 1
-	je	.LBB1_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB1_7
-.LBB1_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB1_10
-	.p2align	4, 0x90
-.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB1_3
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_11
-# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB1_15
-# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB1_16
-.LBB1_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	divide_constant_int32_int32_avx2, .Lfunc_end1-divide_constant_int32_int32_avx2
-                                        # -- End function
-	.globl	multiply_constant_int32_int64_avx2 # -- Begin function multiply_constant_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int64_avx2,@function
-multiply_constant_int32_int64_avx2:     # @multiply_constant_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB2_7
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	ja	.LBB2_3
-# %bb.2:
-	xor	edx, edx
-	jmp	.LBB2_6
-.LBB2_3:
-	mov	edx, r8d
-	and	edx, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	xor	eax, eax
-	vpsrlq	ymm1, ymm0, 32
-	.p2align	4, 0x90
-.LBB2_4:                                # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm2, xmmword ptr [rdi + 4*rax]
-	vpmovsxdq	ymm3, xmmword ptr [rdi + 4*rax + 16]
-	vpmovsxdq	ymm4, xmmword ptr [rdi + 4*rax + 32]
-	vpmovsxdq	ymm5, xmmword ptr [rdi + 4*rax + 48]
-	vpmuludq	ymm6, ymm1, ymm2
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm0, ymm2
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm1, ymm3
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm0, ymm3
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm1, ymm4
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm0, ymm4
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm1, ymm5
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm0, ymm5
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
-	add	rax, 16
-	cmp	rdx, rax
-	jne	.LBB2_4
-# %bb.5:
-	cmp	rdx, r8
-	je	.LBB2_7
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*rdx]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*rdx], rax
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB2_6
-.LBB2_7:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	multiply_constant_int32_int64_avx2, .Lfunc_end2-multiply_constant_int32_int64_avx2
-                                        # -- End function
-	.globl	divide_constant_int32_int64_avx2 # -- Begin function divide_constant_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int64_avx2,@function
-divide_constant_int32_int64_avx2:       # @divide_constant_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB3_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB3_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB3_3:
-	test	r9b, 1
-	je	.LBB3_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB3_7
-.LBB3_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB3_10
-	.p2align	4, 0x90
-.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB3_3
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_11
-# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB3_13
-	.p2align	4, 0x90
-.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB3_15
-# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB3_16
-.LBB3_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB3_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	divide_constant_int32_int64_avx2, .Lfunc_end3-divide_constant_int32_int64_avx2
-                                        # -- End function
-	.globl	multiply_constant_int64_int32_avx2 # -- Begin function multiply_constant_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int32_avx2,@function
-multiply_constant_int64_int32_avx2:     # @multiply_constant_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB4_7
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	ja	.LBB4_3
-# %bb.2:
-	xor	edx, edx
-	jmp	.LBB4_6
-.LBB4_3:
-	mov	edx, r8d
-	and	edx, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	xor	eax, eax
-	vextracti128	xmm1, ymm0, 1
-	.p2align	4, 0x90
-.LBB4_4:                                # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rdi + 8*rax]
-	vmovups	xmm3, xmmword ptr [rdi + 8*rax + 32]
-	vmovups	xmm4, xmmword ptr [rdi + 8*rax + 64]
-	vmovups	xmm5, xmmword ptr [rdi + 8*rax + 96]
-	vshufps	xmm2, xmm2, xmmword ptr [rdi + 8*rax + 16], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm2, xmm2, xmm6
-	vshufps	xmm3, xmm3, xmmword ptr [rdi + 8*rax + 48], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm3, xmm3, xmm6
-	vshufps	xmm4, xmm4, xmmword ptr [rdi + 8*rax + 80], 136 # xmm4 = xmm4[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm4, xmm4, xmm6
-	vshufps	xmm5, xmm5, xmmword ptr [rdi + 8*rax + 112], 136 # xmm5 = xmm5[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm5, xmm5, xmm6
-	vmovdqu	xmmword ptr [rsi + 4*rax], xmm2
-	vmovdqu	xmmword ptr [rsi + 4*rax + 16], xmm3
-	vmovdqu	xmmword ptr [rsi + 4*rax + 32], xmm4
-	vmovdqu	xmmword ptr [rsi + 4*rax + 48], xmm5
-	add	rax, 16
-	cmp	rdx, rax
-	jne	.LBB4_4
-# %bb.5:
-	cmp	rdx, r8
-	je	.LBB4_7
-	.p2align	4, 0x90
-.LBB4_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 8*rdx]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*rdx], eax
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB4_6
-.LBB4_7:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	multiply_constant_int64_int32_avx2, .Lfunc_end4-multiply_constant_int64_int32_avx2
-                                        # -- End function
-	.globl	divide_constant_int64_int32_avx2 # -- Begin function divide_constant_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int32_avx2,@function
-divide_constant_int64_int32_avx2:       # @divide_constant_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB5_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB5_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB5_3:
-	test	r9b, 1
-	je	.LBB5_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB5_7
-.LBB5_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB5_10
-	.p2align	4, 0x90
-.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB5_3
-.LBB5_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_11
-# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB5_13
-	.p2align	4, 0x90
-.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB5_15
-# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB5_16
-.LBB5_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB5_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	divide_constant_int64_int32_avx2, .Lfunc_end5-divide_constant_int64_int32_avx2
-                                        # -- End function
-	.globl	multiply_constant_int64_int64_avx2 # -- Begin function multiply_constant_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int64_avx2,@function
-multiply_constant_int64_int64_avx2:     # @multiply_constant_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB6_16
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	jbe	.LBB6_2
-# %bb.7:
-	lea	rax, [rdi + 8*r8]
-	cmp	rax, rsi
-	jbe	.LBB6_9
-# %bb.8:
-	lea	rax, [rsi + 8*r8]
-	cmp	rax, rdi
-	jbe	.LBB6_9
-.LBB6_2:
-	xor	r11d, r11d
-.LBB6_3:
-	mov	r9, r11
-	not	r9
-	add	r9, r8
-	mov	rax, r8
-	and	rax, 3
-	je	.LBB6_5
-	.p2align	4, 0x90
-.LBB6_4:                                # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rdi + 8*r11]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*r11], rdx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB6_4
-.LBB6_5:
-	cmp	r9, 3
-	jb	.LBB6_16
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r11]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 8]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 8], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 16]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 16], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 24]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 24], rax
-	add	r11, 4
-	cmp	r8, r11
-	jne	.LBB6_6
-	jmp	.LBB6_16
-.LBB6_9:
-	mov	r11d, r8d
-	and	r11d, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [r11 - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rax, rax
-	je	.LBB6_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB6_12:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax + 128]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 160]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 192]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax + 128], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 160], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 192], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 224], ymm5
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB6_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB6_15
-.LBB6_14:
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm0
-.LBB6_15:
-	cmp	r11, r8
-	jne	.LBB6_3
-.LBB6_16:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB6_10:
-	xor	eax, eax
-	test	r9b, 1
-	jne	.LBB6_14
-	jmp	.LBB6_15
-.Lfunc_end6:
-	.size	multiply_constant_int64_int64_avx2, .Lfunc_end6-multiply_constant_int64_int64_avx2
-                                        # -- End function
-	.globl	divide_constant_int64_int64_avx2 # -- Begin function divide_constant_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int64_avx2,@function
-divide_constant_int64_int64_avx2:       # @divide_constant_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB7_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB7_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB7_3:
-	test	r9b, 1
-	je	.LBB7_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB7_7
-.LBB7_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB7_10
-	.p2align	4, 0x90
-.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB7_3
-.LBB7_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_11
-# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB7_13
-	.p2align	4, 0x90
-.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB7_15
-# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB7_16
-.LBB7_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB7_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	divide_constant_int64_int64_avx2, .Lfunc_end7-divide_constant_int64_int64_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
deleted file mode 100644
index 9106840a735ed..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
+++ /dev/null
@@ -1,654 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"constant_factor.c"
-	.globl	multiply_constant_int32_int32_sse4 # -- Begin function multiply_constant_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int32_sse4,@function
-multiply_constant_int32_int32_sse4:     # @multiply_constant_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB0_16
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 7
-	jbe	.LBB0_2
-# %bb.7:
-	lea	rax, [rdi + 4*r9]
-	cmp	rax, rsi
-	jbe	.LBB0_9
-# %bb.8:
-	lea	rax, [rsi + 4*r9]
-	cmp	rax, rdi
-	jbe	.LBB0_9
-.LBB0_2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 4*r11]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*r11], edx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 4]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 4], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 8]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 8], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 12]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 12], eax
-	add	r11, 4
-	cmp	r9, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_9:
-	mov	r11d, r9d
-	and	r11d, -8
-	movd	xmm0, ecx
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax + 32], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 48], xmm2
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r8b, 1
-	je	.LBB0_15
-.LBB0_14:
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
-.LBB0_15:
-	cmp	r11, r9
-	jne	.LBB0_3
-.LBB0_16:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_10:
-	xor	eax, eax
-	test	r8b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	multiply_constant_int32_int32_sse4, .Lfunc_end0-multiply_constant_int32_int32_sse4
-                                        # -- End function
-	.globl	divide_constant_int32_int32_sse4 # -- Begin function divide_constant_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int32_sse4,@function
-divide_constant_int32_int32_sse4:       # @divide_constant_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB1_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB1_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB1_3:
-	test	r9b, 1
-	je	.LBB1_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB1_7
-.LBB1_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB1_10
-	.p2align	4, 0x90
-.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB1_3
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_11
-# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB1_15
-# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB1_16
-.LBB1_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	divide_constant_int32_int32_sse4, .Lfunc_end1-divide_constant_int32_int32_sse4
-                                        # -- End function
-	.globl	multiply_constant_int32_int64_sse4 # -- Begin function multiply_constant_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int64_sse4,@function
-multiply_constant_int32_int64_sse4:     # @multiply_constant_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB2_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB2_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB2_3
-.LBB2_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_8:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rdx, dword ptr [rdi + 4*rax]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 4]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 8]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 12]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 24], rdx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB2_8
-.LBB2_3:
-	test	r8, r8
-	je	.LBB2_6
-# %bb.4:
-	lea	rdx, [rsi + 8*rax]
-	lea	rax, [rdi + 4*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rdi, dword ptr [rax + 4*rsi]
-	imul	rdi, rcx
-	mov	qword ptr [rdx + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB2_5
-.LBB2_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	multiply_constant_int32_int64_sse4, .Lfunc_end2-multiply_constant_int32_int64_sse4
-                                        # -- End function
-	.globl	divide_constant_int32_int64_sse4 # -- Begin function divide_constant_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int64_sse4,@function
-divide_constant_int32_int64_sse4:       # @divide_constant_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB3_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB3_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB3_3:
-	test	r9b, 1
-	je	.LBB3_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB3_7
-.LBB3_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB3_10
-	.p2align	4, 0x90
-.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB3_3
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_11
-# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB3_13
-	.p2align	4, 0x90
-.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB3_15
-# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB3_16
-.LBB3_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB3_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	divide_constant_int32_int64_sse4, .Lfunc_end3-divide_constant_int32_int64_sse4
-                                        # -- End function
-	.globl	multiply_constant_int64_int32_sse4 # -- Begin function multiply_constant_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int32_sse4,@function
-multiply_constant_int64_int32_sse4:     # @multiply_constant_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB4_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB4_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB4_3
-.LBB4_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB4_8:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 8*rax]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax], edx
-	mov	edx, dword ptr [rdi + 8*rax + 8]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 4], edx
-	mov	edx, dword ptr [rdi + 8*rax + 16]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 8], edx
-	mov	edx, dword ptr [rdi + 8*rax + 24]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 12], edx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB4_8
-.LBB4_3:
-	test	r8, r8
-	je	.LBB4_6
-# %bb.4:
-	lea	rdx, [rsi + 4*rax]
-	lea	rax, [rdi + 8*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rax + 8*rsi]
-	imul	edi, ecx
-	mov	dword ptr [rdx + 4*rsi], edi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB4_5
-.LBB4_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	multiply_constant_int64_int32_sse4, .Lfunc_end4-multiply_constant_int64_int32_sse4
-                                        # -- End function
-	.globl	divide_constant_int64_int32_sse4 # -- Begin function divide_constant_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int32_sse4,@function
-divide_constant_int64_int32_sse4:       # @divide_constant_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB5_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB5_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB5_3:
-	test	r9b, 1
-	je	.LBB5_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB5_7
-.LBB5_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB5_10
-	.p2align	4, 0x90
-.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB5_3
-.LBB5_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_11
-# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB5_13
-	.p2align	4, 0x90
-.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB5_15
-# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB5_16
-.LBB5_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB5_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	divide_constant_int64_int32_sse4, .Lfunc_end5-divide_constant_int64_int32_sse4
-                                        # -- End function
-	.globl	multiply_constant_int64_int64_sse4 # -- Begin function multiply_constant_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int64_sse4,@function
-multiply_constant_int64_int64_sse4:     # @multiply_constant_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB6_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB6_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB6_3
-.LBB6_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB6_8:                                # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rdi + 8*rax]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 8]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 8], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 16]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 16], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 24]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 24], rdx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB6_8
-.LBB6_3:
-	test	r8, r8
-	je	.LBB6_6
-# %bb.4:
-	lea	rdx, [rsi + 8*rax]
-	lea	rax, [rdi + 8*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rax + 8*rsi]
-	imul	rdi, rcx
-	mov	qword ptr [rdx + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB6_5
-.LBB6_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	multiply_constant_int64_int64_sse4, .Lfunc_end6-multiply_constant_int64_int64_sse4
-                                        # -- End function
-	.globl	divide_constant_int64_int64_sse4 # -- Begin function divide_constant_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int64_sse4,@function
-divide_constant_int64_int64_sse4:       # @divide_constant_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB7_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB7_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB7_3:
-	test	r9b, 1
-	je	.LBB7_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB7_7
-.LBB7_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB7_10
-	.p2align	4, 0x90
-.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB7_3
-.LBB7_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_11
-# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB7_13
-	.p2align	4, 0x90
-.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB7_15
-# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB7_16
-.LBB7_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB7_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	divide_constant_int64_int64_sse4, .Lfunc_end7-divide_constant_int64_int64_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc b/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
deleted file mode 100644
index 09540f367973b..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
+++ /dev/null
@@ -1,241 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include "types.h"
-
-// pack integers into a bitmap in batches of 8
-template <int batch_size>
-inline void pack_bits(const uint32_t* values, uint8_t* out) {
-    for (int i = 0; i < batch_size / 8; ++i) {
-        *out++ = (values[0] | values[1]<<1 | values[2]<<2 | values[3]<<3 |
-                values[4]<<4 | values[5]<<5 | values[6]<<6 | values[7]<<7);
-        values += 8;
-    }
-}
-
-struct Equal {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left == right;
-    }
-};
-
-struct NotEqual {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left != right;
-    }
-};
-
-struct Greater {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left > right;
-    }
-};
-
-struct GreaterEqual {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left >= right;
-    }
-};
-
-static inline void set_bit_to(uint8_t* bits, int64_t i, bool bit_is_set) {
-    bits[i/8] ^= static_cast<uint8_t>(-static_cast<uint8_t>(bit_is_set) ^ bits[i / 8]) & static_cast<uint8_t>(1 << (i % 8));
-}
-
-template <typename T, typename Op>
-struct compare_primitive_arr_arr {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T* left = reinterpret_cast<const T*>(left_void);
-        const T* right = reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, *right++));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(*left++, *right++);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, *right++));
-        }
-    }
-};
-
-template <typename T, typename Op>
-struct compare_primitive_arr_scalar {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T* left = reinterpret_cast<const T*>(left_void);
-        const T right = *reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, right));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(*left++, right);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, right));
-        }
-    }
-};
-
-template <typename T, typename Op>
-struct compare_primitive_scalar_arr {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T left = *reinterpret_cast<const T*>(left_void);
-        const T* right = reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(left, *right++));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(left, *right++);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(left, *right++));
-        }
-    }
-};
-
-enum class cmpop : int8_t {
-    EQUAL,
-    NOT_EQUAL,
-    GREATER,
-    GREATER_EQUAL,
-    // LESS and LESS_EQUAL are handled by doing flipped
-    // versions of GREATER and GREATER_EQUAL
-};
-
-template <typename Op, template <typename...> typename Impl>
-static inline void comparison_exec(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    const auto ty = static_cast<arrtype>(type);
-
-    switch (ty) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::Exec(left, right, length, out, offset);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::Exec(left, right, length, out, offset);
-    default:
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(comparison_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
deleted file mode 100644
index b29d6694a1641..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
+++ /dev/null
@@ -1,67763 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"scalar_comparison.cc"
-	.globl	comparison_equal_arr_arr_avx2   # -- Begin function comparison_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_arr_avx2,@function
-comparison_equal_arr_arr_avx2:          # @comparison_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB0_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB0_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB0_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_20
-# %bb.21:
-	add	r14, 1
-.LBB0_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_28
-	jmp	.LBB0_123
-.LBB0_29:
-	cmp	edi, 8
-	jle	.LBB0_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB0_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB0_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB0_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_48
-# %bb.49:
-	add	r14, 1
-.LBB0_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	sete	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	sete	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	sete	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	sete	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_56
-	jmp	.LBB0_123
-.LBB0_2:
-	cmp	edi, 2
-	je	.LBB0_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB0_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_6
-# %bb.7:
-	add	r14, 1
-.LBB0_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_14
-	jmp	.LBB0_123
-.LBB0_30:
-	cmp	edi, 7
-	je	.LBB0_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB0_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_34
-# %bb.35:
-	add	r14, 1
-.LBB0_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_42
-	jmp	.LBB0_123
-.LBB0_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_70
-# %bb.71:
-	add	r14, 1
-.LBB0_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_78
-	jmp	.LBB0_123
-.LBB0_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_81
-# %bb.82:
-	add	r14, 1
-.LBB0_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_89
-	jmp	.LBB0_123
-.LBB0_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_103
-# %bb.104:
-	add	r14, 1
-.LBB0_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_111
-	jmp	.LBB0_123
-.LBB0_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_114
-# %bb.115:
-	add	r14, 1
-.LBB0_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	sete	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	sete	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	sete	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	sete	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_122
-	jmp	.LBB0_123
-.LBB0_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_59
-# %bb.60:
-	add	r14, 1
-.LBB0_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_67
-	jmp	.LBB0_123
-.LBB0_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_92
-# %bb.93:
-	add	r14, 1
-.LBB0_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_100
-.LBB0_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	comparison_equal_arr_arr_avx2, .Lfunc_end0-comparison_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_equal_arr_scalar_avx2
-.LCPI1_0:
-	.zero	32,1
-.LCPI1_1:
-	.zero	32,4
-.LCPI1_2:
-	.zero	32,8
-.LCPI1_3:
-	.zero	32,16
-.LCPI1_4:
-	.zero	32,32
-.LCPI1_5:
-	.zero	32,64
-.LCPI1_6:
-	.zero	32,128
-	.text
-	.globl	comparison_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_scalar_avx2,@function
-comparison_equal_arr_scalar_avx2:       # @comparison_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB1_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB1_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB1_49
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB1_57
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB1_164
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_7
-# %bb.8:
-	add	r11, 1
-.LBB1_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_101
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_102
-	jmp	.LBB1_164
-.LBB1_13:
-	cmp	edi, 8
-	jle	.LBB1_39
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB1_65
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB1_73
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB1_164
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB1_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_19
-# %bb.20:
-	add	r11, 1
-.LBB1_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_105
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	sete	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	sete	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	sete	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	sete	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	sete	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	sete	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	sete	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_106
-	jmp	.LBB1_164
-.LBB1_25:
-	cmp	edi, 2
-	je	.LBB1_81
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB1_164
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	mov	r15, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_31
-# %bb.28:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_29:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_29
-# %bb.30:
-	add	r11, 1
-.LBB1_31:
-	sar	r13, 5
-	cmp	r15, 32
-	jl	.LBB1_108
-# %bb.32:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r13      # 8-byte Spill
-	jb	.LBB1_35
-# %bb.33:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB1_165
-# %bb.34:
-	lea	rax, [r11 + 4*r13]
-	cmp	rsi, rax
-	jae	.LBB1_165
-.LBB1_35:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB1_36:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_37:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	sete	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	sete	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	sete	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	sete	al
-	cmp	byte ptr [r12 + 7], r14b
-	sete	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	sete	dl
-	cmp	byte ptr [r12 + 10], r14b
-	sete	sil
-	cmp	byte ptr [r12 + 11], r14b
-	sete	dil
-	cmp	byte ptr [r12 + 12], r14b
-	sete	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	sete	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	sete	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	sete	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_37
-# %bb.38:
-	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB1_109
-.LBB1_39:
-	cmp	edi, 7
-	je	.LBB1_93
-# %bb.40:
-	cmp	edi, 8
-	jne	.LBB1_164
-# %bb.41:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_45
-# %bb.42:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_43:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_43
-# %bb.44:
-	add	r11, 1
-.LBB1_45:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_112
-# %bb.46:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_47:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_47
-# %bb.48:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_113
-	jmp	.LBB1_164
-.LBB1_49:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_53
-# %bb.50:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_51:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_51
-# %bb.52:
-	add	r11, 1
-.LBB1_53:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_116
-# %bb.54:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_55:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	cmp	word ptr [rsi + 2], r13w
-	sete	dil
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	dl
-	cmp	word ptr [rsi + 20], r13w
-	sete	r9b
-	cmp	word ptr [rsi + 22], r13w
-	sete	r10b
-	cmp	word ptr [rsi + 24], r13w
-	sete	r11b
-	cmp	word ptr [rsi + 26], r13w
-	sete	r12b
-	cmp	word ptr [rsi + 28], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	sete	cl
-	cmp	word ptr [rsi + 32], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	sete	r15b
-	cmp	word ptr [rsi + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	sete	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_55
-# %bb.56:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_117
-	jmp	.LBB1_164
-.LBB1_57:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_59
-# %bb.60:
-	add	r11, 1
-.LBB1_61:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_120
-# %bb.62:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_63:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	dil
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	dl
-	cmp	word ptr [rsi + 20], r13w
-	sete	r9b
-	cmp	word ptr [rsi + 22], r13w
-	sete	r10b
-	cmp	word ptr [rsi + 24], r13w
-	sete	r11b
-	cmp	word ptr [rsi + 26], r13w
-	sete	r12b
-	cmp	word ptr [rsi + 28], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	sete	cl
-	cmp	word ptr [rsi + 32], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	sete	r15b
-	cmp	word ptr [rsi + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_63
-# %bb.64:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_121
-	jmp	.LBB1_164
-.LBB1_65:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_69
-# %bb.66:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_67:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_67
-# %bb.68:
-	add	r11, 1
-.LBB1_69:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_123
-# %bb.70:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_71
-# %bb.72:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_124
-	jmp	.LBB1_164
-.LBB1_73:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB1_77
-# %bb.74:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_75:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_75
-# %bb.76:
-	add	r11, 1
-.LBB1_77:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_126
-# %bb.78:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_79:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	sete	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	sete	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	sete	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	sete	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	sete	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	sete	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	sete	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_79
-# %bb.80:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_127
-	jmp	.LBB1_164
-.LBB1_81:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_83:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_83
-# %bb.84:
-	add	r11, 1
-.LBB1_85:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_129
-# %bb.86:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB1_89
-# %bb.87:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB1_168
-# %bb.88:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_168
-.LBB1_89:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB1_90:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_91:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	sete	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	sete	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	sete	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	sete	al
-	cmp	byte ptr [r12 + 7], r14b
-	sete	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	sete	dl
-	cmp	byte ptr [r12 + 10], r14b
-	sete	sil
-	cmp	byte ptr [r12 + 11], r14b
-	sete	dil
-	cmp	byte ptr [r12 + 12], r14b
-	sete	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	sete	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	sete	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	sete	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_91
-# %bb.92:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB1_130
-.LBB1_93:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_97
-# %bb.94:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_95:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_95
-# %bb.96:
-	add	r11, 1
-.LBB1_97:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_133
-# %bb.98:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_99:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_99
-# %bb.100:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_134
-	jmp	.LBB1_164
-.LBB1_101:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_102:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_135
-# %bb.103:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_104:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_104
-	jmp	.LBB1_161
-.LBB1_105:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_106:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_136
-# %bb.107:
-	xor	r11d, r11d
-	jmp	.LBB1_138
-.LBB1_108:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB1_109:
-	shl	r13, 5
-	cmp	r13, r15
-	jge	.LBB1_164
-# %bb.110:
-	mov	r8, r15
-	sub	r8, r13
-	not	r13
-	add	r13, r15
-	je	.LBB1_132
-# %bb.140:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB1_141
-	jmp	.LBB1_156
-.LBB1_112:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_113:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_125
-# %bb.114:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_115
-	jmp	.LBB1_148
-.LBB1_116:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_117:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_122
-# %bb.118:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_119
-	jmp	.LBB1_144
-.LBB1_120:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_121:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_142
-.LBB1_122:
-	xor	r11d, r11d
-	jmp	.LBB1_144
-.LBB1_123:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_124:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_146
-.LBB1_125:
-	xor	r11d, r11d
-	jmp	.LBB1_148
-.LBB1_126:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_127:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_150
-# %bb.128:
-	xor	r11d, r11d
-	jmp	.LBB1_152
-.LBB1_129:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB1_130:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_154
-.LBB1_132:
-	xor	esi, esi
-	jmp	.LBB1_157
-.LBB1_133:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_159
-.LBB1_135:
-	xor	r11d, r11d
-	jmp	.LBB1_161
-.LBB1_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_137
-.LBB1_138:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB1_163
-.LBB1_142:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_143:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_143
-.LBB1_144:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.145:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB1_163
-.LBB1_146:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_147
-.LBB1_148:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.149:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB1_163
-.LBB1_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_151:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_151
-.LBB1_152:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.153:
-	vucomiss	xmm0, dword ptr [rsi]
-	jmp	.LBB1_163
-.LBB1_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB1_155
-.LBB1_156:
-	add	r12, rsi
-.LBB1_157:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.158:
-	cmp	byte ptr [r12], r14b
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB1_164
-.LBB1_159:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_160:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_160
-.LBB1_161:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.162:
-	cmp	dword ptr [rsi], r13d
-.LBB1_163:
-	sete	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB1_164:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB1_165:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r11 + 4*r13]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 672
-	mov	qword ptr [rsp + 200], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 704
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 192], rdx      # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 216], r12      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 800
-	mov	qword ptr [rsp + 184], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 832
-	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 864
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 928
-	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	mov	r8, r9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r14, r15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r9, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	mov	r13, rcx
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	r10, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
-	mov	rbx, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r14, rdi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
-	mov	r9, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
-	mov	r10, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r10 + 20]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + r11 + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 24]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
-	movzx	edi, byte ptr [rsi + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	movzx	edi, byte ptr [rsi + r12 + 29]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
-	mov	r14, rdx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
-	movzx	edi, byte ptr [rsi + r8 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
-	mov	rax, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB1_166
-# %bb.167:
-	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB1_36
-	jmp	.LBB1_109
-.LBB1_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 248], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 208], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 5
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 12
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 15
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r11 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 9
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 11
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 3
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 6
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rax + 8], 1
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 15
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 12
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 6
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 7
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 4
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 5
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 7
-	mov	r12, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 11], 13
-	mov	r13, r10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 15
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 11], 1
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 11], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 11], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 7
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rdx + 12], 1
-	mov	rdi, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 15
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 5
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 4
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 15
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 13
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 16]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 3
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 15
-	movzx	edi, byte ptr [rsi + r10 + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 2
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 5
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 7
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
-	movzx	edi, byte ptr [rsi + rbx + 17]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
-	movzx	edi, byte ptr [rsi + rbx + 18]
-	vmovd	xmm1, edi
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 3
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 4
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 6
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 19], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 12
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 15
-	movzx	edi, byte ptr [rsi + rbx + 19]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 1
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 20]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 3
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 20]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 1
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 10
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r15 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 5
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 21], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 22], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 22]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 10
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 15
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 12
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
-	movzx	edi, byte ptr [rsi + rbx + 23]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 7
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 24]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 5
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 8
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 15
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 25]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 3
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 7
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 15
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 9
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	movzx	edi, byte ptr [rsi + r8 + 26]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 11
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	rcx, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 15
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 26], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 10
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 5
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 15
-	movzx	edi, byte ptr [rsi + r12 + 27]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm0, edi
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 6
-	mov	r14, r15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 10
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 1
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 5
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 7
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rdx, r8
-	movzx	eax, byte ptr [rsi + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 1
-	movzx	eax, byte ptr [rsi + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB1_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB1_90
-	jmp	.LBB1_130
-.Lfunc_end1:
-	.size	comparison_equal_arr_scalar_avx2, .Lfunc_end1-comparison_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_equal_scalar_arr_avx2
-.LCPI2_0:
-	.zero	32,1
-.LCPI2_1:
-	.zero	32,4
-.LCPI2_2:
-	.zero	32,8
-.LCPI2_3:
-	.zero	32,16
-.LCPI2_4:
-	.zero	32,32
-.LCPI2_5:
-	.zero	32,64
-.LCPI2_6:
-	.zero	32,128
-	.text
-	.globl	comparison_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_scalar_arr_avx2,@function
-comparison_equal_scalar_arr_avx2:       # @comparison_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB2_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB2_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB2_60
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB2_72
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB2_157
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_7
-# %bb.8:
-	add	r11, 1
-.LBB2_9:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_13
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_13:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_127
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_16
-	jmp	.LBB2_154
-.LBB2_17:
-	cmp	edi, 8
-	jle	.LBB2_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB2_83
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB2_94
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB2_157
-# %bb.21:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB2_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r15, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_23
-# %bb.24:
-	add	r11, 1
-.LBB2_25:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_29
-# %bb.26:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	sete	r8b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	sete	al
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r11b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	sete	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	sete	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	sete	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	sete	r15b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	mov	r11, r14
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB2_29:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_136
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB2_138
-.LBB2_32:
-	cmp	edi, 2
-	je	.LBB2_105
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB2_157
-# %bb.34:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r12, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_36
-# %bb.37:
-	add	r11, 1
-.LBB2_38:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_128
-# %bb.39:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB2_42
-# %bb.40:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB2_165
-# %bb.41:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_165
-.LBB2_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB2_43:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	sete	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	sete	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	sete	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	sete	al
-	cmp	r14b, byte ptr [r12 + 7]
-	sete	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	sete	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	sete	r14b
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB2_129
-.LBB2_46:
-	cmp	edi, 7
-	je	.LBB2_117
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB2_157
-# %bb.48:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_50
-# %bb.51:
-	add	r11, 1
-.LBB2_52:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_56
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_56:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_93
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_59
-	jmp	.LBB2_146
-.LBB2_60:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_62
-# %bb.63:
-	add	r11, 1
-.LBB2_64:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_68
-# %bb.65:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_66:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	cmp	r13w, word ptr [rdx + 2]
-	sete	dil
-	cmp	r13w, word ptr [rdx + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 14]
-	sete	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	sete	sil
-	cmp	r13w, word ptr [rdx + 20]
-	sete	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	sete	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	sete	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	sete	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	sete	cl
-	cmp	r13w, word ptr [rdx + 32]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	sete	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	sete	bl
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 64
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_66
-# %bb.67:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_68:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.69:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_82
-# %bb.70:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_71
-	jmp	.LBB2_142
-.LBB2_72:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_74
-# %bb.75:
-	add	r11, 1
-.LBB2_76:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_80
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	sete	dil
-	cmp	r13w, word ptr [rdx + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	sete	al
-	cmp	r13w, word ptr [rdx + 14]
-	sete	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	sete	sil
-	cmp	r13w, word ptr [rdx + 20]
-	sete	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	sete	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	sete	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	sete	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	sete	cl
-	cmp	r13w, word ptr [rdx + 32]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	sete	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 64
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_80:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_140
-.LBB2_82:
-	xor	edi, edi
-	jmp	.LBB2_142
-.LBB2_83:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_85
-# %bb.86:
-	add	r11, 1
-.LBB2_87:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_91
-# %bb.88:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_89:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_91:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_144
-.LBB2_93:
-	xor	edi, edi
-	jmp	.LBB2_146
-.LBB2_94:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB2_98
-# %bb.95:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_96:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r15, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_96
-# %bb.97:
-	add	r11, 1
-.LBB2_98:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_102
-# %bb.99:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_100:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	sete	r8b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	sete	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	sete	al
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	sete	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	sete	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	sete	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	sete	r15b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r14b, 7
-	or	r14b, al
-	shl	r11b, 2
-	or	r11b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r14b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r11], r14b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_100
-# %bb.101:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB2_102:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.103:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_148
-# %bb.104:
-	xor	edi, edi
-	jmp	.LBB2_150
-.LBB2_105:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_109
-# %bb.106:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_107:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r12, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_107
-# %bb.108:
-	add	r11, 1
-.LBB2_109:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_132
-# %bb.110:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB2_113
-# %bb.111:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB2_168
-# %bb.112:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_168
-.LBB2_113:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB2_114:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_115:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	sete	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	sete	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	sete	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	sete	al
-	cmp	r14b, byte ptr [r12 + 7]
-	sete	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	sete	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	sete	r14b
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_115
-# %bb.116:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB2_133
-.LBB2_117:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_121
-# %bb.118:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_119
-# %bb.120:
-	add	r11, 1
-.LBB2_121:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_125
-# %bb.122:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_123
-# %bb.124:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_125:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_152
-.LBB2_127:
-	xor	edi, edi
-	jmp	.LBB2_154
-.LBB2_128:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB2_129:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_157
-# %bb.130:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB2_135
-# %bb.158:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB2_159
-	jmp	.LBB2_162
-.LBB2_132:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB2_133:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_157
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_160
-.LBB2_135:
-	xor	esi, esi
-	jmp	.LBB2_163
-.LBB2_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_137
-.LBB2_138:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_141
-.LBB2_142:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.143:
-	cmp	r13w, word ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_145
-.LBB2_146:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.147:
-	cmp	r13, qword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_149
-.LBB2_150:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_152:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_153
-.LBB2_154:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.155:
-	cmp	r13d, dword ptr [rdx]
-.LBB2_156:
-	sete	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r11 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r11 + rdx], bl
-.LBB2_157:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB2_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB2_161
-.LBB2_162:
-	add	r12, rsi
-.LBB2_163:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.164:
-	cmp	r14b, byte ptr [r12]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB2_157
-.LBB2_165:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	mov	rdi, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	r14, r8
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	mov	r13, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rax, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm0, esi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
-	movzx	esi, byte ptr [rdx + rbx + 17]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	esi, byte ptr [rdx + rbx + 18]
-	vmovd	xmm1, esi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
-	movzx	esi, byte ptr [rdx + rbx + 19]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 21]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 22]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
-	movzx	esi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
-	movzx	esi, byte ptr [rdx + r10 + 23]
-	vmovd	xmm3, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 24]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
-	movzx	esi, byte ptr [rdx + r9 + 25]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 26]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm2, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	movzx	esi, byte ptr [rdx + rbx + 27]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm2, esi
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, esi
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
-	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rsi, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB2_166
-# %bb.167:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB2_43
-	jmp	.LBB2_129
-.LBB2_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	mov	rdi, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	r14, r8
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	mov	r13, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rax, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm0, esi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
-	movzx	esi, byte ptr [rdx + rbx + 17]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	esi, byte ptr [rdx + rbx + 18]
-	vmovd	xmm1, esi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
-	movzx	esi, byte ptr [rdx + rbx + 19]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 21]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 22]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
-	movzx	esi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
-	movzx	esi, byte ptr [rdx + r10 + 23]
-	vmovd	xmm3, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 24]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
-	movzx	esi, byte ptr [rdx + r9 + 25]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 26]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm2, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	movzx	esi, byte ptr [rdx + rbx + 27]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm2, esi
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, esi
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
-	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rsi, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB2_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB2_114
-	jmp	.LBB2_133
-.Lfunc_end2:
-	.size	comparison_equal_scalar_arr_avx2, .Lfunc_end2-comparison_equal_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_not_equal_arr_arr_avx2 # -- Begin function comparison_not_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_arr_avx2,@function
-comparison_not_equal_arr_arr_avx2:      # @comparison_not_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB3_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB3_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB3_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB3_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB3_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_20
-# %bb.21:
-	add	r14, 1
-.LBB3_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_28
-	jmp	.LBB3_123
-.LBB3_29:
-	cmp	edi, 8
-	jle	.LBB3_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB3_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB3_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB3_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_48
-# %bb.49:
-	add	r14, 1
-.LBB3_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	setne	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setne	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setne	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setne	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_56
-	jmp	.LBB3_123
-.LBB3_2:
-	cmp	edi, 2
-	je	.LBB3_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB3_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_6
-# %bb.7:
-	add	r14, 1
-.LBB3_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_14
-	jmp	.LBB3_123
-.LBB3_30:
-	cmp	edi, 7
-	je	.LBB3_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB3_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_34
-# %bb.35:
-	add	r14, 1
-.LBB3_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_42
-	jmp	.LBB3_123
-.LBB3_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_70
-# %bb.71:
-	add	r14, 1
-.LBB3_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_78
-	jmp	.LBB3_123
-.LBB3_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_81
-# %bb.82:
-	add	r14, 1
-.LBB3_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_89
-	jmp	.LBB3_123
-.LBB3_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_103
-# %bb.104:
-	add	r14, 1
-.LBB3_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_111
-	jmp	.LBB3_123
-.LBB3_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_114
-# %bb.115:
-	add	r14, 1
-.LBB3_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	setne	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setne	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setne	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setne	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_122
-	jmp	.LBB3_123
-.LBB3_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_59
-# %bb.60:
-	add	r14, 1
-.LBB3_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_67
-	jmp	.LBB3_123
-.LBB3_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_92
-# %bb.93:
-	add	r14, 1
-.LBB3_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_100
-.LBB3_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	comparison_not_equal_arr_arr_avx2, .Lfunc_end3-comparison_not_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_not_equal_arr_scalar_avx2
-.LCPI4_0:
-	.zero	32,2
-.LCPI4_1:
-	.zero	32,4
-.LCPI4_2:
-	.zero	32,8
-.LCPI4_3:
-	.zero	32,16
-.LCPI4_4:
-	.zero	32,32
-.LCPI4_5:
-	.zero	32,64
-.LCPI4_6:
-	.zero	32,128
-	.text
-	.globl	comparison_not_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_scalar_avx2,@function
-comparison_not_equal_arr_scalar_avx2:   # @comparison_not_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB4_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB4_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB4_48
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB4_56
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB4_159
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_7
-# %bb.8:
-	add	r11, 1
-.LBB4_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_100
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_101
-	jmp	.LBB4_159
-.LBB4_13:
-	cmp	edi, 8
-	jle	.LBB4_38
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB4_64
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB4_72
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB4_159
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB4_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_19
-# %bb.20:
-	add	r11, 1
-.LBB4_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_104
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setne	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setne	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setne	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setne	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setne	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setne	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setne	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_105
-	jmp	.LBB4_159
-.LBB4_25:
-	cmp	edi, 2
-	je	.LBB4_80
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB4_159
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_131
-# %bb.28:
-	movsxd	rax, r9d
-	mov	r13, r11
-	.p2align	4, 0x90
-.LBB4_29:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_29
-# %bb.30:
-	add	r13, 1
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_132
-.LBB4_31:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB4_34
-# %bb.32:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r13, rax
-	jae	.LBB4_165
-# %bb.33:
-	lea	rax, [4*r15]
-	add	rax, r13
-	cmp	rsi, rax
-	jae	.LBB4_165
-.LBB4_34:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
-.LBB4_35:
-	mov	r13, r15
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 144], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_36:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setne	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setne	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setne	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setne	al
-	cmp	byte ptr [r12 + 7], r14b
-	setne	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setne	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setne	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setne	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setne	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setne	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setne	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setne	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_36
-# %bb.37:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB4_133
-.LBB4_38:
-	cmp	edi, 7
-	je	.LBB4_92
-# %bb.39:
-	cmp	edi, 8
-	jne	.LBB4_159
-# %bb.40:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_44
-# %bb.41:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_42:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_42
-# %bb.43:
-	add	r11, 1
-.LBB4_44:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_107
-# %bb.45:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_46:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_46
-# %bb.47:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_108
-	jmp	.LBB4_159
-.LBB4_48:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_50
-# %bb.51:
-	add	r11, 1
-.LBB4_52:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_111
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_54:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	cmp	word ptr [rsi + 2], r13w
-	setne	dil
-	cmp	word ptr [rsi + 4], r13w
-	setne	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	setne	bl
-	cmp	word ptr [rsi + 16], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setne	dl
-	cmp	word ptr [rsi + 20], r13w
-	setne	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setne	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setne	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setne	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setne	cl
-	cmp	word ptr [rsi + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setne	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setne	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_54
-# %bb.55:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_112
-	jmp	.LBB4_159
-.LBB4_56:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_58:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_58
-# %bb.59:
-	add	r11, 1
-.LBB4_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_115
-# %bb.61:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	dil
-	cmp	word ptr [rsi + 4], r13w
-	setne	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setne	al
-	cmp	word ptr [rsi + 14], r13w
-	setne	bl
-	cmp	word ptr [rsi + 16], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setne	dl
-	cmp	word ptr [rsi + 20], r13w
-	setne	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setne	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setne	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setne	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setne	cl
-	cmp	word ptr [rsi + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setne	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_62
-# %bb.63:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_116
-	jmp	.LBB4_159
-.LBB4_64:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_68
-# %bb.65:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_66:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_66
-# %bb.67:
-	add	r11, 1
-.LBB4_68:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_118
-# %bb.69:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_70:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_70
-# %bb.71:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_119
-	jmp	.LBB4_159
-.LBB4_72:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB4_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_74:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_74
-# %bb.75:
-	add	r11, 1
-.LBB4_76:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_121
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_78:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setne	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setne	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setne	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setne	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setne	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setne	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setne	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_78
-# %bb.79:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_122
-	jmp	.LBB4_159
-.LBB4_80:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_84
-# %bb.81:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_82:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_82
-# %bb.83:
-	add	r11, 1
-.LBB4_84:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_124
-# %bb.85:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB4_88
-# %bb.86:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB4_168
-# %bb.87:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB4_168
-.LBB4_88:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB4_89:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_90:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setne	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setne	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setne	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setne	al
-	cmp	byte ptr [r12 + 7], r14b
-	setne	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setne	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setne	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setne	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setne	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setne	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setne	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setne	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB4_125
-.LBB4_92:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_94
-# %bb.95:
-	add	r11, 1
-.LBB4_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_128
-# %bb.97:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_98:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_98
-# %bb.99:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_129
-	jmp	.LBB4_159
-.LBB4_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_101:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_130
-# %bb.102:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_103:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_103
-	jmp	.LBB4_156
-.LBB4_104:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_105:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_136
-# %bb.106:
-	xor	r11d, r11d
-	jmp	.LBB4_138
-.LBB4_107:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_108:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_120
-# %bb.109:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_110:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_110
-	jmp	.LBB4_146
-.LBB4_111:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_112:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_117
-# %bb.113:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_114:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_114
-	jmp	.LBB4_142
-.LBB4_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_140
-.LBB4_117:
-	xor	r11d, r11d
-	jmp	.LBB4_142
-.LBB4_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_144
-.LBB4_120:
-	xor	r11d, r11d
-	jmp	.LBB4_146
-.LBB4_121:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_122:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_148
-# %bb.123:
-	xor	r11d, r11d
-	jmp	.LBB4_150
-.LBB4_124:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB4_125:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_127
-# %bb.152:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setne	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB4_153
-	jmp	.LBB4_162
-.LBB4_128:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_154
-.LBB4_130:
-	xor	r11d, r11d
-	jmp	.LBB4_156
-.LBB4_131:
-	mov	r13, r11
-	sar	r15, 5
-	cmp	r10, 32
-	jge	.LBB4_31
-.LBB4_132:
-	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
-	mov	r12, rsi
-.LBB4_133:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_160
-.LBB4_127:
-	xor	esi, esi
-	jmp	.LBB4_163
-.LBB4_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_137
-.LBB4_138:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB4_158
-.LBB4_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_141
-.LBB4_142:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.143:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB4_158
-.LBB4_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_145
-.LBB4_146:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.147:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB4_158
-.LBB4_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_149
-.LBB4_150:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rsi]
-	jmp	.LBB4_158
-.LBB4_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_155
-.LBB4_156:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.157:
-	cmp	dword ptr [rsi], r13d
-.LBB4_158:
-	setne	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB4_159:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB4_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setne	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB4_161
-.LBB4_162:
-	add	r12, rsi
-.LBB4_163:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.164:
-	cmp	byte ptr [r12], r14b
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB4_159
-.LBB4_165:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [4*r15]
-	add	rax, r13
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	mov	rdx, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 640
-	mov	qword ptr [rsp + 128], r10      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 672
-	mov	r12, rax
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 704
-	mov	qword ptr [rsp + 216], rdi      # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 224], rdx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 768
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 800
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 832
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 864
-	mov	qword ptr [rsp + 264], r8       # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 896
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 928
-	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	mov	rbx, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	mov	r15, rax
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, r14
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
-	mov	rax, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
-	mov	r8, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
-	mov	r13, r15
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	r9, rax
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
-	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
-	mov	r15, r11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 16]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 18]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	r11, rdx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
-	movzx	edi, byte ptr [rsi + rcx + 27]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + r15 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + r15 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB4_166
-# %bb.167:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB4_35
-	jmp	.LBB4_133
-.LBB4_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	rbx, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 576
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 608
-	mov	qword ptr [rsp + 184], r12      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 640
-	mov	r13, rax
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 704
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	qword ptr [rsp + 152], rdi      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 768
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 800
-	mov	qword ptr [rsp + 216], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 864
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 200], r8       # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 168], rdx      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	mov	r9, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 2
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 9
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 4
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r10, rcx
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r12, rax
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, rdi
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 3], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 9]
-	vmovd	xmm8, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 3
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, r8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 6
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 9
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 12
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	mov	r14, r13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 9
-	mov	r10, r8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 5], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r8 + 6], 1
-	mov	rcx, r9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 2
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 5
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 9
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 11
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 13
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 7
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 2
-	mov	rbx, rcx
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 6
-	mov	r13, r9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 8
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 14
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 11]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 11]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 3
-	mov	rdx, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 8], 6
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 12
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 15
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 8], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 10
-	mov	r8, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 12
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 14
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 15
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 6
-	mov	rcx, r13
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 14
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + r10 + 9], 1
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 6
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 3
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 5
-	mov	rdx, rcx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 15
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 14
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rcx, r13
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 3
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
-	mov	rbx, rax
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm1, edi
-	mov	rax, rcx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 2
-	mov	rcx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 3
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 6
-	mov	r11, r8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 15
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r14 + 12], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 9
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 8
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 9
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 11
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 12
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + r12 + 13], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 14]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 15
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 5
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 7
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 5
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r11 + 16]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 3
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 6
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	movzx	edi, byte ptr [rsi + r14 + 16]
-	vmovd	xmm1, edi
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 13
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 2
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 4
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 7
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 13
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r13 + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rbx + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm1, edi
-	mov	r8, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 1
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 12
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 1
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 12
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 20]
-	vmovd	xmm0, edi
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 4
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 5
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 13
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 1
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 3
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 12
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 13
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 22]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 6
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 14
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 2
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 14
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 23]
-	vmovd	xmm2, edi
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 11
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 13
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 23]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 4
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	movzx	edi, byte ptr [rsi + r13 + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 1
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 15
-	movzx	edi, byte ptr [rsi + r11 + 24]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 2
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 25]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 1
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 12
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 15
-	movzx	edi, byte ptr [rsi + r14 + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 15
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 3
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 5
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 15
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r9 + 27]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 4
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 9
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 14
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 15
-	movzx	edi, byte ptr [rsi + r9 + 28]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 12
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 13
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 7
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 13
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r9 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r15 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 1
-	movzx	edi, byte ptr [rsi + rbx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 31], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 13
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB4_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB4_89
-	jmp	.LBB4_125
-.Lfunc_end4:
-	.size	comparison_not_equal_arr_scalar_avx2, .Lfunc_end4-comparison_not_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_not_equal_scalar_arr_avx2
-.LCPI5_0:
-	.zero	32,2
-.LCPI5_1:
-	.zero	32,4
-.LCPI5_2:
-	.zero	32,8
-.LCPI5_3:
-	.zero	32,16
-.LCPI5_4:
-	.zero	32,32
-.LCPI5_5:
-	.zero	32,64
-.LCPI5_6:
-	.zero	32,128
-	.text
-	.globl	comparison_not_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_scalar_arr_avx2,@function
-comparison_not_equal_scalar_arr_avx2:   # @comparison_not_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB5_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB5_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB5_60
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB5_72
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB5_157
-# %bb.5:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_7
-# %bb.8:
-	add	r15, 1
-.LBB5_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_13
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setne	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setne	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setne	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setne	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setne	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setne	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setne	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setne	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setne	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setne	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setne	r12b
-	cmp	r14d, dword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setne	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_127
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_16
-	jmp	.LBB5_154
-.LBB5_17:
-	cmp	edi, 8
-	jle	.LBB5_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB5_83
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB5_94
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB5_157
-# %bb.21:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB5_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_23
-# %bb.24:
-	add	r15, 1
-.LBB5_25:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_29
-# %bb.26:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	setne	r11b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	setne	bl
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setne	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	setne	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r8b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setne	r15b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setne	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-.LBB5_29:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_136
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB5_138
-.LBB5_32:
-	cmp	edi, 2
-	je	.LBB5_105
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB5_157
-# %bb.34:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_36
-# %bb.37:
-	add	r15, 1
-.LBB5_38:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB5_128
-# %bb.39:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	jb	.LBB5_42
-# %bb.40:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB5_165
-# %bb.41:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB5_165
-.LBB5_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB5_43:
-	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_44:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setne	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setne	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setne	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setne	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setne	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setne	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setne	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setne	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB5_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	jmp	.LBB5_129
-.LBB5_46:
-	cmp	edi, 7
-	je	.LBB5_117
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB5_157
-# %bb.48:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_50
-# %bb.51:
-	add	r15, 1
-.LBB5_52:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_56
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setne	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setne	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setne	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setne	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setne	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setne	al
-	cmp	r14, qword ptr [rdx + 48]
-	setne	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setne	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setne	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setne	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setne	r12b
-	cmp	r14, qword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setne	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_56:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_93
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_59
-	jmp	.LBB5_146
-.LBB5_60:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_62
-# %bb.63:
-	add	r15, 1
-.LBB5_64:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_68
-# %bb.65:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_66:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setne	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setne	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setne	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setne	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setne	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setne	al
-	cmp	r14w, word ptr [rdx + 12]
-	setne	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setne	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setne	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setne	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setne	r12b
-	cmp	r14w, word ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setne	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_66
-# %bb.67:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_68:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.69:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_82
-# %bb.70:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_71
-	jmp	.LBB5_142
-.LBB5_72:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_74
-# %bb.75:
-	add	r15, 1
-.LBB5_76:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_80
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setne	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setne	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setne	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setne	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setne	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setne	al
-	cmp	r14w, word ptr [rdx + 12]
-	setne	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setne	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setne	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setne	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setne	r12b
-	cmp	r14w, word ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setne	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_80:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_140
-.LBB5_82:
-	xor	edi, edi
-	jmp	.LBB5_142
-.LBB5_83:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_85
-# %bb.86:
-	add	r15, 1
-.LBB5_87:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_91
-# %bb.88:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_89:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setne	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setne	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setne	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setne	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setne	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setne	al
-	cmp	r14, qword ptr [rdx + 48]
-	setne	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setne	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setne	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setne	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setne	r12b
-	cmp	r14, qword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setne	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_91:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_144
-.LBB5_93:
-	xor	edi, edi
-	jmp	.LBB5_146
-.LBB5_94:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB5_98
-# %bb.95:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_96:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_96
-# %bb.97:
-	add	r15, 1
-.LBB5_98:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_102
-# %bb.99:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_100:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	setne	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	setne	bl
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setne	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	setne	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r8b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setne	r15b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setne	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 128
-	add	r15, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_100
-# %bb.101:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-.LBB5_102:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.103:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_148
-# %bb.104:
-	xor	edi, edi
-	jmp	.LBB5_150
-.LBB5_105:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_109
-# %bb.106:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_107:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_107
-# %bb.108:
-	add	r15, 1
-.LBB5_109:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB5_132
-# %bb.110:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	jb	.LBB5_113
-# %bb.111:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB5_168
-# %bb.112:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB5_168
-.LBB5_113:
-	xor	eax, eax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB5_114:
-	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setne	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setne	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setne	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setne	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setne	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setne	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setne	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setne	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB5_115
-# %bb.116:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	jmp	.LBB5_133
-.LBB5_117:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_121
-# %bb.118:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_119
-# %bb.120:
-	add	r15, 1
-.LBB5_121:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_125
-# %bb.122:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setne	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setne	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setne	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setne	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setne	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setne	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setne	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setne	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setne	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setne	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setne	r12b
-	cmp	r14d, dword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setne	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_123
-# %bb.124:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_125:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_152
-.LBB5_127:
-	xor	edi, edi
-	jmp	.LBB5_154
-.LBB5_128:
-	mov	r13, r15
-.LBB5_129:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB5_157
-# %bb.130:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB5_135
-# %bb.158:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setne	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_159
-	jmp	.LBB5_162
-.LBB5_132:
-	mov	r13, r15
-.LBB5_133:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB5_157
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB5_160
-.LBB5_135:
-	xor	esi, esi
-	jmp	.LBB5_163
-.LBB5_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_137
-.LBB5_138:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_141
-.LBB5_142:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.143:
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_145
-.LBB5_146:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.147:
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_149
-.LBB5_150:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_152:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_153
-.LBB5_154:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.155:
-	cmp	r14d, dword ptr [rdx]
-.LBB5_156:
-	setne	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB5_157:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB5_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setne	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_161
-.LBB5_162:
-	add	rdx, rsi
-.LBB5_163:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.164:
-	cmp	r11b, byte ptr [rdx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB5_157
-.LBB5_165:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	esi, esi
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_166:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 408], rsi      # 8-byte Spill
-	shl	rsi, 5
-	mov	rax, rsi
-	or	rax, 32
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 64
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 96
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 128
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 160
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 192
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 224
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 256
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 288
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rsi
-	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
-	or	rax, 320
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rsi]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rsi + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rsi + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rsi + 7]
-	vmovd	xmm1, eax
-	mov	rax, rsi
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 448
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 480
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 544
-	mov	r13, rax
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	r12, rsi
-	or	r12, 576
-	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 608
-	mov	r14, rax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	r15, rsi
-	or	r15, 640
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	mov	r10, rsi
-	or	r10, 672
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 704
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	r8, rsi
-	or	r8, 736
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 768
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 800
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r9, rsi
-	or	r9, 832
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 864
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	mov	rcx, rsi
-	or	rcx, 896
-	mov	qword ptr [rsp + 136], rcx      # 8-byte Spill
-	mov	r11, rsi
-	or	r11, 928
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 960
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	or	rsi, 992
-	mov	qword ptr [rsp + 80], rsi       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + r12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 7
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 2
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 14
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 3
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r12 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 1], 2
-	mov	rcx, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	r11, rax
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 2], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 3
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 4
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 10
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 11
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rax, rcx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 2
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 14
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + rsi + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 6
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 7
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rcx + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 5
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rdi + 3], 14
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 9]
-	vmovd	xmm8, edi
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 1
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 2
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 4], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 10
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 12
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + r10 + 4], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r12 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 6
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 7
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 11
-	mov	r15, r11
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 5], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + r10 + 5], 1
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r13 + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r11 + 6], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 6], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 11
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 12
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 13
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 7
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 9
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 14
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 7], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rax + 8], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 3
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 15
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r15 + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 7
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r11 + 9], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 3
-	mov	rbx, rcx
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 4
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r15 + 9], 1
-	mov	r12, r15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 8
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 3
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 8
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 10
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 11
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 7
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 14
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 3
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 4
-	mov	r11, r13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 9
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 2
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 7
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 4
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 5
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 6
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 13
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 4
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 14
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 2
-	mov	r13, rsi
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 3
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	r14, r12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 8
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 13
-	mov	r15, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 13], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 14]
-	vmovd	xmm0, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 11
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 14
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r9 + 16]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 16], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 15
-	movzx	edi, byte ptr [rdx + r10 + 16]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 2
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 15
-	movzx	edi, byte ptr [rdx + r9 + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 15
-	movzx	edi, byte ptr [rdx + r10 + 17]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 7
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 12
-	mov	r11, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rbx + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	edi, byte ptr [rdx + r10 + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	r12, r8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 4
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 5
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 15
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 3
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 19], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 6
-	mov	r14, r8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 13
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 14
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 2
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 15
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 14
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 3
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 7
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 10
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 11
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 11
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r12 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 15
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 12
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 23]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 5
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 23], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 11
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 13
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 23], 15
-	movzx	edi, byte ptr [rdx + r11 + 23]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	movzx	edi, byte ptr [rdx + rbx + 24]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 6
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 9
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 7
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 8
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 24], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 12
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 14
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 25]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 25], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 11
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 4
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rdi + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 3
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 12
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 15
-	movzx	edi, byte ptr [rdx + rcx + 26]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 9
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 27]
-	vmovd	xmm2, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 27]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 12
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 13
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 3
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 11
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 12
-	mov	rcx, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 14
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 29]
-	vmovd	xmm2, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 4
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 29]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r11 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rax + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 1
-	movzx	edi, byte ptr [rdx + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + r8 + 31], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rdi + 30]
-	vmovd	xmm1, eax
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 1
-	movzx	eax, byte ptr [rdx + rdi + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
-	mov	rax, rcx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rsi, rcx
-	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	jne	.LBB5_166
-# %bb.167:
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB5_43
-	jmp	.LBB5_129
-.LBB5_168:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_169:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 408], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 544
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 576
-	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	r13, rax
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 640
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 704
-	mov	qword ptr [rsp + 232], r9       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 736
-	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 112], r12      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 800
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 832
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 864
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	rdi, rax
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 928
-	mov	rsi, rax
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	or	rbx, 992
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
-	mov	r12, rbx
-	mov	qword ptr [rsp + 152], rbx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	mov	r13, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, r13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
-	mov	rbx, r10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
-	mov	r9, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	mov	r13, r11
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
-	mov	r14, rsi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
-	mov	rdi, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	r14, rsi
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
-	mov	r10, r12
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 15]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 16]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
-	mov	r12, r13
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	movzx	edi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
-	movzx	edi, byte ptr [rdx + r11 + 19]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 20]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 20]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
-	mov	r13, r12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r14, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r14 + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
-	mov	r10, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
-	movzx	edi, byte ptr [rdx + r14 + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + r10 + 29]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
-	movzx	edi, byte ptr [rdx + rcx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rcx, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	jne	.LBB5_169
-# %bb.170:
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB5_114
-	jmp	.LBB5_133
-.Lfunc_end5:
-	.size	comparison_not_equal_scalar_arr_avx2, .Lfunc_end5-comparison_not_equal_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_greater_arr_arr_avx2 # -- Begin function comparison_greater_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_arr_avx2,@function
-comparison_greater_arr_arr_avx2:        # @comparison_greater_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB6_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB6_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB6_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB6_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB6_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx]
-	add	rdx, 4
-	cmp	ecx, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_20
-# %bb.21:
-	add	r14, 1
-.LBB6_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	mov	eax, dword ptr [rsi + 8]
-	seta	r13b
-	cmp	eax, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	mov	eax, dword ptr [rsi + 16]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	mov	eax, dword ptr [rsi + 24]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 24]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	mov	eax, dword ptr [rsi + 32]
-	seta	r15b
-	cmp	eax, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	mov	eax, dword ptr [rsi + 40]
-	seta	r8b
-	cmp	eax, dword ptr [rdx + 40]
-	seta	bl
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	mov	eax, dword ptr [rsi + 48]
-	seta	r9b
-	cmp	eax, dword ptr [rdx + 48]
-	seta	r12b
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	mov	eax, dword ptr [rsi + 56]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	mov	r11d, dword ptr [rsi + 64]
-	seta	r10b
-	mov	ecx, dword ptr [rsi + 68]
-	mov	eax, dword ptr [rsi + 72]
-	cmp	r11d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	seta	r14b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 76]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 76]
-	mov	eax, dword ptr [rsi + 80]
-	mov	ecx, dword ptr [rsi + 84]
-	seta	r11b
-	cmp	eax, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 92]
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	seta	dil
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 104]
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 116]
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rdx + 4*rcx]
-	cmp	edi, dword ptr [rsi + 4*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_28
-	jmp	.LBB6_123
-.LBB6_29:
-	cmp	edi, 8
-	jle	.LBB6_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB6_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB6_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB6_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	r10b
-	add	rdx, 8
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_48
-# %bb.49:
-	add	r14, 1
-.LBB6_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	cl
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	seta	dil
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	seta	r10b
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r14b
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	seta	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	seta	r12b
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	seta	r13b
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r9b
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_56
-	jmp	.LBB6_123
-.LBB6_2:
-	cmp	edi, 2
-	je	.LBB6_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB6_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_6
-# %bb.7:
-	add	r14, 1
-.LBB6_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setg	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setg	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setg	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setg	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setg	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setg	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setg	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setg	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setg	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setg	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_14
-	jmp	.LBB6_123
-.LBB6_30:
-	cmp	edi, 7
-	je	.LBB6_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB6_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx]
-	add	rdx, 8
-	cmp	rcx, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_34
-# %bb.35:
-	add	r14, 1
-.LBB6_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	mov	rax, qword ptr [rsi + 16]
-	seta	r13b
-	cmp	rax, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	mov	rax, qword ptr [rsi + 32]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	mov	rax, qword ptr [rsi + 48]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 48]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	mov	rax, qword ptr [rsi + 64]
-	seta	r15b
-	cmp	rax, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	mov	rax, qword ptr [rsi + 80]
-	seta	r8b
-	cmp	rax, qword ptr [rdx + 80]
-	seta	bl
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	mov	rax, qword ptr [rsi + 96]
-	seta	r9b
-	cmp	rax, qword ptr [rdx + 96]
-	seta	r12b
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	mov	rax, qword ptr [rsi + 112]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	mov	r11, qword ptr [rsi + 128]
-	seta	r10b
-	mov	rcx, qword ptr [rsi + 136]
-	mov	rax, qword ptr [rsi + 144]
-	cmp	r11, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	seta	r14b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 152]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 152]
-	mov	rax, qword ptr [rsi + 160]
-	mov	rcx, qword ptr [rsi + 168]
-	seta	r11b
-	cmp	rax, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 184]
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	seta	dil
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 208]
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 232]
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rdx + 8*rcx]
-	cmp	rdi, qword ptr [rsi + 8*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_42
-	jmp	.LBB6_123
-.LBB6_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx]
-	add	rdx, 2
-	cmp	cx, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_70
-# %bb.71:
-	add	r14, 1
-.LBB6_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	movzx	eax, word ptr [rsi + 4]
-	seta	r13b
-	cmp	ax, word ptr [rdx + 4]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	movzx	eax, word ptr [rsi + 8]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	movzx	eax, word ptr [rsi + 12]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	movzx	eax, word ptr [rsi + 16]
-	seta	r15b
-	cmp	ax, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	movzx	eax, word ptr [rsi + 20]
-	seta	r8b
-	cmp	ax, word ptr [rdx + 20]
-	seta	bl
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	movzx	eax, word ptr [rsi + 24]
-	seta	r9b
-	cmp	ax, word ptr [rdx + 24]
-	seta	r12b
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	movzx	eax, word ptr [rsi + 28]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	movzx	r11d, word ptr [rsi + 32]
-	seta	r10b
-	movzx	ecx, word ptr [rsi + 34]
-	movzx	eax, word ptr [rsi + 36]
-	cmp	r11w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	seta	r14b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 38]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 38]
-	movzx	eax, word ptr [rsi + 40]
-	movzx	ecx, word ptr [rsi + 42]
-	seta	r11b
-	cmp	ax, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 46]
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	seta	dil
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 52]
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 58]
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rdx + 2*rcx]
-	cmp	di, word ptr [rsi + 2*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_78
-	jmp	.LBB6_123
-.LBB6_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_81
-# %bb.82:
-	add	r14, 1
-.LBB6_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setg	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setg	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setg	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setg	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setg	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setg	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setg	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setg	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setg	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_89
-	jmp	.LBB6_123
-.LBB6_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_103
-# %bb.104:
-	add	r14, 1
-.LBB6_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setg	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setg	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setg	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setg	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setg	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setg	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setg	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setg	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setg	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_111
-	jmp	.LBB6_123
-.LBB6_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	r10b
-	add	rdx, 4
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_114
-# %bb.115:
-	add	r14, 1
-.LBB6_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	cl
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	seta	dil
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	seta	r10b
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r14b
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	seta	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	seta	r12b
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	seta	r13b
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r9b
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_122
-	jmp	.LBB6_123
-.LBB6_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx]
-	add	rdx, 1
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_59
-# %bb.60:
-	add	r14, 1
-.LBB6_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	seta	r13b
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	movzx	eax, byte ptr [rsi + 3]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 3]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	movzx	eax, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 5]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	movzx	eax, byte ptr [rsi + 7]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 7]
-	seta	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	movzx	eax, byte ptr [rsi + 9]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 9]
-	seta	cl
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	movzx	eax, byte ptr [rsi + 11]
-	seta	r9b
-	cmp	al, byte ptr [rdx + 11]
-	seta	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	movzx	eax, byte ptr [rsi + 13]
-	seta	r10b
-	cmp	al, byte ptr [rdx + 13]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	movzx	eax, byte ptr [rsi + 15]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 15]
-	seta	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	movzx	eax, byte ptr [rsi + 17]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 17]
-	seta	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	movzx	eax, byte ptr [rsi + 19]
-	seta	r14b
-	cmp	al, byte ptr [rdx + 19]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	movzx	eax, byte ptr [rsi + 21]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 21]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	movzx	eax, byte ptr [rsi + 23]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 23]
-	seta	r8b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	movzx	eax, byte ptr [rsi + 25]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 25]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	movzx	eax, byte ptr [rsi + 27]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 27]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	movzx	eax, byte ptr [rsi + 29]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 29]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	seta	dil
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
-	mov	eax, r13d
-	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r12b
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rdx + rcx]
-	cmp	bl, byte ptr [rsi + rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_67
-	jmp	.LBB6_123
-.LBB6_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_92
-# %bb.93:
-	add	r14, 1
-.LBB6_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setg	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setg	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setg	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setg	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setg	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setg	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setg	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setg	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setg	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_100
-.LBB6_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	comparison_greater_arr_arr_avx2, .Lfunc_end6-comparison_greater_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_arr_scalar_avx2
-.LCPI7_0:
-	.zero	32,1
-.LCPI7_1:
-	.zero	32,4
-.LCPI7_2:
-	.zero	32,8
-.LCPI7_3:
-	.zero	32,16
-.LCPI7_4:
-	.zero	32,32
-.LCPI7_5:
-	.zero	32,64
-.LCPI7_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_scalar_avx2,@function
-comparison_greater_arr_scalar_avx2:     # @comparison_greater_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1344
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB7_19
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB7_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB7_79
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB7_95
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB7_192
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_15
-# %bb.16:
-	add	r11, 1
-.LBB7_17:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_18
-# %bb.112:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	seta	dil
-	cmp	dword ptr [rsi + 8], r13d
-	seta	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	seta	al
-	cmp	dword ptr [rsi + 28], r13d
-	seta	bl
-	cmp	dword ptr [rsi + 32], r13d
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	seta	dl
-	cmp	dword ptr [rsi + 40], r13d
-	seta	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	seta	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	seta	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	seta	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	seta	cl
-	cmp	dword ptr [rsi + 64], r13d
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	seta	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_113
-# %bb.114:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_116
-	jmp	.LBB7_192
-.LBB7_19:
-	cmp	edi, 8
-	jle	.LBB7_20
-# %bb.28:
-	cmp	edi, 9
-	je	.LBB7_148
-# %bb.29:
-	cmp	edi, 11
-	je	.LBB7_164
-# %bb.30:
-	cmp	edi, 12
-	jne	.LBB7_192
-# %bb.31:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB7_35
-# %bb.32:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_33:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_33
-# %bb.34:
-	add	r11, 1
-.LBB7_35:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_36
-# %bb.180:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_181:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setb	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setb	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setb	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setb	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setb	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setb	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setb	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setb	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setb	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setb	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setb	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setb	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_181
-# %bb.182:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_184
-	jmp	.LBB7_192
-.LBB7_2:
-	cmp	edi, 2
-	je	.LBB7_37
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB7_192
-# %bb.4:
-	mov	r14b, byte ptr [rdx]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	mov	r15, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_6
-# %bb.7:
-	add	r11, 1
-.LBB7_8:
-	sar	r13, 5
-	cmp	r15, 32
-	jl	.LBB7_9
-# %bb.61:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	jb	.LBB7_62
-# %bb.63:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB7_65
-# %bb.64:
-	lea	rax, [r11 + 4*r13]
-	cmp	rsi, rax
-	jae	.LBB7_65
-.LBB7_62:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB7_68:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 120], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_69:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setg	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setg	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setg	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setg	al
-	cmp	byte ptr [r12 + 7], r14b
-	setg	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setg	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setg	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setg	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setg	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setg	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setg	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setg	r14b
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setg	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setg	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_69
-# %bb.70:
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	jmp	.LBB7_71
-.LBB7_20:
-	cmp	edi, 7
-	je	.LBB7_122
-# %bb.21:
-	cmp	edi, 8
-	jne	.LBB7_192
-# %bb.22:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_26
-# %bb.23:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_24:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_24
-# %bb.25:
-	add	r11, 1
-.LBB7_26:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_27
-# %bb.138:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_139:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	seta	dil
-	cmp	qword ptr [rsi + 16], r13
-	seta	r14b
-	cmp	qword ptr [rsi + 24], r13
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	seta	al
-	cmp	qword ptr [rsi + 56], r13
-	seta	bl
-	cmp	qword ptr [rsi + 64], r13
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	seta	dl
-	cmp	qword ptr [rsi + 80], r13
-	seta	r9b
-	cmp	qword ptr [rsi + 88], r13
-	seta	r10b
-	cmp	qword ptr [rsi + 96], r13
-	seta	r11b
-	cmp	qword ptr [rsi + 104], r13
-	seta	r12b
-	cmp	qword ptr [rsi + 112], r13
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	seta	cl
-	cmp	qword ptr [rsi + 128], r13
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	seta	r15b
-	cmp	qword ptr [rsi + 192], r13
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_139
-# %bb.140:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_142
-	jmp	.LBB7_192
-.LBB7_79:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_81:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_81
-# %bb.82:
-	add	r11, 1
-.LBB7_83:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_84
-# %bb.85:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_86:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	seta	al
-	cmp	word ptr [rsi + 2], r13w
-	seta	dil
-	cmp	word ptr [rsi + 4], r13w
-	seta	r14b
-	cmp	word ptr [rsi + 6], r13w
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	seta	bl
-	cmp	word ptr [rsi + 16], r13w
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	seta	dl
-	cmp	word ptr [rsi + 20], r13w
-	seta	r9b
-	cmp	word ptr [rsi + 22], r13w
-	seta	r10b
-	cmp	word ptr [rsi + 24], r13w
-	seta	r11b
-	cmp	word ptr [rsi + 26], r13w
-	seta	r12b
-	cmp	word ptr [rsi + 28], r13w
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	seta	cl
-	cmp	word ptr [rsi + 32], r13w
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	seta	r15b
-	cmp	word ptr [rsi + 48], r13w
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	seta	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_86
-# %bb.87:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_89
-	jmp	.LBB7_192
-.LBB7_95:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_99
-# %bb.96:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_97
-# %bb.98:
-	add	r11, 1
-.LBB7_99:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_100
-# %bb.101:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_102:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setg	dil
-	cmp	word ptr [rsi + 4], r13w
-	setg	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setg	al
-	cmp	word ptr [rsi + 14], r13w
-	setg	bl
-	cmp	word ptr [rsi + 16], r13w
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setg	dl
-	cmp	word ptr [rsi + 20], r13w
-	setg	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setg	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setg	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setg	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setg	cl
-	cmp	word ptr [rsi + 32], r13w
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setg	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_102
-# %bb.103:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_105
-	jmp	.LBB7_192
-.LBB7_148:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_152
-# %bb.149:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_150
-# %bb.151:
-	add	r11, 1
-.LBB7_152:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_153
-# %bb.154:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setg	dil
-	cmp	qword ptr [rsi + 16], r13
-	setg	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setg	al
-	cmp	qword ptr [rsi + 56], r13
-	setg	bl
-	cmp	qword ptr [rsi + 64], r13
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setg	dl
-	cmp	qword ptr [rsi + 80], r13
-	setg	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setg	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setg	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setg	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setg	cl
-	cmp	qword ptr [rsi + 128], r13
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setg	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_155
-# %bb.156:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_158
-	jmp	.LBB7_192
-.LBB7_164:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB7_168
-# %bb.165:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_166:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_166
-# %bb.167:
-	add	r11, 1
-.LBB7_168:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_169
-# %bb.170:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_171:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setb	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setb	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setb	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setb	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setb	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setb	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setb	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setb	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setb	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setb	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setb	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setb	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_171
-# %bb.172:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_174
-	jmp	.LBB7_192
-.LBB7_37:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_41
-# %bb.38:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_39:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_39
-# %bb.40:
-	add	r11, 1
-.LBB7_41:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_42
-# %bb.43:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r15      # 8-byte Spill
-	jb	.LBB7_44
-# %bb.45:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB7_47
-# %bb.46:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB7_47
-.LBB7_44:
-	xor	eax, eax
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB7_50:
-	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_51:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	seta	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	seta	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	seta	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	seta	al
-	cmp	byte ptr [r12 + 7], r14b
-	seta	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	seta	dl
-	cmp	byte ptr [r12 + 10], r14b
-	seta	sil
-	cmp	byte ptr [r12 + 11], r14b
-	seta	dil
-	cmp	byte ptr [r12 + 12], r14b
-	seta	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	seta	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	seta	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	seta	r14b
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	seta	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
-	jmp	.LBB7_53
-.LBB7_122:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_126
-# %bb.123:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_124:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_124
-# %bb.125:
-	add	r11, 1
-.LBB7_126:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_127
-# %bb.128:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_129:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setg	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setg	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setg	al
-	cmp	dword ptr [rsi + 28], r13d
-	setg	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setg	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setg	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setg	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setg	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setg	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setg	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setg	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_129
-# %bb.130:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_132
-	jmp	.LBB7_192
-.LBB7_18:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_120
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB7_118
-.LBB7_36:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_184:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_186
-# %bb.185:
-	xor	r11d, r11d
-	jmp	.LBB7_188
-.LBB7_9:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB7_71:
-	shl	r13, 5
-	cmp	r13, r15
-	jge	.LBB7_192
-# %bb.72:
-	mov	r8, r15
-	sub	r8, r13
-	not	r13
-	add	r13, r15
-	jne	.LBB7_74
-# %bb.73:
-	xor	esi, esi
-	jmp	.LBB7_77
-.LBB7_27:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_142:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_146
-# %bb.143:
-	xor	r11d, r11d
-	jmp	.LBB7_144
-.LBB7_84:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_89:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_93
-# %bb.90:
-	xor	r11d, r11d
-	jmp	.LBB7_91
-.LBB7_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_105:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_110
-# %bb.106:
-	xor	r11d, r11d
-	jmp	.LBB7_107
-.LBB7_153:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_158:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_162
-# %bb.159:
-	xor	r11d, r11d
-	jmp	.LBB7_160
-.LBB7_169:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_174:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_178
-# %bb.175:
-	xor	r11d, r11d
-	jmp	.LBB7_176
-.LBB7_42:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB7_53:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_56
-# %bb.55:
-	xor	eax, eax
-	jmp	.LBB7_59
-.LBB7_127:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_132:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_136
-# %bb.133:
-	xor	r11d, r11d
-	jmp	.LBB7_134
-.LBB7_120:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_121:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13d, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_121
-.LBB7_118:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.119:
-	cmp	r13d, dword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_186:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_187:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_187
-.LBB7_188:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.189:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_74:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_75:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setg	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB7_75
-# %bb.76:
-	add	r12, rsi
-.LBB7_77:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.78:
-	cmp	byte ptr [r12], r14b
-	setg	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB7_192
-.LBB7_146:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_147
-.LBB7_144:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.145:
-	cmp	r13, qword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_93:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_94
-.LBB7_91:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.92:
-	cmp	r13w, word ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_110:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_111:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_111
-.LBB7_107:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.108:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB7_109
-.LBB7_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_163:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_163
-.LBB7_160:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.161:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB7_109
-.LBB7_178:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_179:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_179
-.LBB7_176:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.177:
-	vucomiss	xmm0, dword ptr [rsi]
-.LBB7_190:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB7_191
-.LBB7_56:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_57:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rax]
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r10 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r10 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rax + 1]
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r10 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB7_57
-# %bb.58:
-	add	r12, rax
-.LBB7_59:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.60:
-	cmp	r14b, byte ptr [r12]
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB7_192
-.LBB7_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_137:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_137
-.LBB7_134:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.135:
-	cmp	dword ptr [rsi], r13d
-.LBB7_109:
-	setg	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB7_191:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB7_192:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB7_65:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 576], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r11 + 4*r13]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_66:                               # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 672
-	mov	qword ptr [rsp + 184], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 704
-	mov	qword ptr [rsp + 136], r8       # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 176], rdx      # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 800
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 832
-	mov	qword ptr [rsp + 40], r10       # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 864
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 928
-	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 224], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	mov	r8, r9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r14, r15
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r9, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	mov	r13, rcx
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	r10, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
-	mov	rbx, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r14, rdi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
-	mov	r9, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
-	mov	r10, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r10 + 20]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + r11 + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 24]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
-	movzx	edi, byte ptr [rsi + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	movzx	edi, byte ptr [rsi + r12 + 29]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
-	mov	r14, rdx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
-	movzx	edi, byte ptr [rsi + r8 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
-	mov	rax, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vmovdqa	ymm1, ymmword ptr [rsp + 1280]  # 32-byte Reload
-	vpcmpgtb	ymm2, ymm1, ymm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI7_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpgtb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vmovdqa	ymm2, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpcmpgtb	ymm12, ymm2, ymm0
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm2, ymm0
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm3
-	vpcmpgtb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 416]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_4] # ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm2
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI7_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 1216] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm11, ymm0
-	vpand	ymm12, ymm12, ymm1
-	vmovdqa	ymm11, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm3
-	vmovdqa	ymm12, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpand	ymm12, ymm12, ymm2
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm5
-	vmovdqa	ymm12, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm1
-	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 896]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm3
-	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm2
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vmovdqa	ymm11, ymmword ptr [rsp + 768]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpgtb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpcmpgtb	ymm5, ymm1, ymm0
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpcmpgtb	ymm6, ymm1, ymm0
-	vpand	ymm6, ymm6, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpcmpgtb	ymm3, ymm1, ymm0
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpcmpgtb	ymm4, ymm1, ymm0
-	vpand	ymm4, ymm4, ymm2
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpcmpgtb	ymm1, ymm1, ymm0
-	vpand	ymm1, ymm14, ymm1
-	vmovdqa	ymm2, ymmword ptr [rsp + 256]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm2, ymm0
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB7_66
-# %bb.67:
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 576]      # 8-byte Reload
-	jne	.LBB7_68
-	jmp	.LBB7_71
-.LBB7_47:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	vmovdqa	ymm14, ymmword ptr [rsp + 576]  # 32-byte Reload
-	.p2align	4, 0x90
-.LBB7_48:                               # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 184], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 576
-	mov	r14, rbx
-	or	r14, 608
-	mov	qword ptr [rsp + 72], r14       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	or	rbx, 672
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 704
-	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 768
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 800
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 832
-	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 864
-	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 896
-	mov	qword ptr [rsp + 160], rdx      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 928
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r11], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 8
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 1
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 5
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vpminub	ymm3, ymm14, ymm0
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 2
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 3
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 4
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 1], 7
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 3
-	mov	r10, r15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
-	mov	r13, r8
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 14
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 6
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 9
-	mov	r9, r15
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 2
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 3], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 512]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 3
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 5
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 7
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 9
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 12
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	rcx, r10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 2
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 4
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 11
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r11 + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 2
-	mov	r9, r14
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r10 + 5], 14
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 10]
-	vmovd	xmm3, edi
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 5], 15
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 2
-	mov	r8, r12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 12
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r11 + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 2
-	mov	r11, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 5
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 6
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 5
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 9
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	r14, r10
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm0, edi
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm2, xmm9, byte ptr [rsi + r8 + 8], 1
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 8], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 5
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 6
-	mov	r11, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 7
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 9
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 15
-	mov	rcx, r15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r15 + 8], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 8
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 9
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vpminub	ymm5, ymm14, ymm2
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r8 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 8
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 11
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 12
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	r12, rax
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vpcmpeqb	ymm2, ymm2, ymm5
-	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm2, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r13, r15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	r14, r10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 7
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 8
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 13
-	mov	r9, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 6
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 8
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 4
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 6
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 11], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 14
-	mov	r10, r9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 9
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 11
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 14
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 13]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 13]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm2, byte ptr [rsi + rdi + 12], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 2
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 5
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 12], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 10
-	mov	r9, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 15
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rcx + 12], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 10
-	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 12
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 12
-	mov	rbx, r13
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 13], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 13], 7
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 11
-	mov	r9, r10
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 13], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 13], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 15
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 8
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 11
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 3
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 15]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 4
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 9
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 12
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 14
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 6
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 15
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 17]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 11
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 17]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 2
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r11 + 17], 15
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r15 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 2
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 5
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
-	movzx	edi, byte ptr [rsi + r12 + 18]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 1
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 5
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 11
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 2
-	mov	r13, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 3
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 19], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 20]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 6
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 7
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 12
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 5
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 5
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 13
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	r9, rax
-	movzx	edi, byte ptr [rsi + r8 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 7
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
-	vinserti128	ymm11, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 2
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 10
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 23]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 5
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 6
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 7
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 9
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 23], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 7
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 15
-	movzx	edi, byte ptr [rsi + r10 + 24]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 8
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 11
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r9 + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 9
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 25], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 12
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 14
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 5
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 13
-	vinserti128	ymm0, ymm1, xmm0, 1
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + rcx + 25], 14
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r9 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 2
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 3
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 8
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 15
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 27]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 3
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	r9, rdx
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 9
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 9
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 11
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 28]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 8
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 15
-	movzx	edi, byte ptr [rsi + r8 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r10 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 30]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
-	movzx	edi, byte ptr [rsi + r11 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + r14 + 31], 15
-	mov	rdx, r8
-	movzx	eax, byte ptr [rsi + r8 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rdx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm1, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpminub	ymm0, ymm14, ymm1
-	vpcmpeqb	ymm0, ymm1, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_0] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpandn	ymm7, ymm0, ymm4
-	vpaddb	ymm0, ymm7, ymm0
-	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpminub	ymm7, ymm14, ymm2
-	vpcmpeqb	ymm7, ymm2, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 1280]  # 32-byte Reload
-	vpandn	ymm12, ymm2, ymm4
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 416]   # 32-byte Reload
-	vpminub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm12, ymm2
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm5
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpor	ymm0, ymm0, ymm7
-	vpminub	ymm7, ymm13, ymm14
-	vpcmpeqb	ymm7, ymm13, ymm7
-	vpminub	ymm12, ymm15, ymm14
-	vpcmpeqb	ymm12, ymm15, ymm12
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_3] # ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm7, ymm7, ymm3
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI7_4] # ymm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm12, ymm12, ymm10
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 512]  # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_5] # ymm2 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm2
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vpxor	ymm12, ymm12, ymm1
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI7_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
-	vpminub	ymm7, ymm12, ymm14
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vpandn	ymm12, ymm7, ymm4
-	vpaddb	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm13, ymmword ptr [rsp + 1216] # 32-byte Reload
-	vpandn	ymm13, ymm13, ymm4
-	vpandn	ymm12, ymm12, ymm6
-	vpor	ymm12, ymm13, ymm12
-	vmovdqa	ymm15, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm13, ymm13, ymm5
-	vpor	ymm12, ymm12, ymm13
-	vpsubb	ymm7, ymm7, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm15, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm12, ymm12, ymm3
-	vpandn	ymm13, ymm13, ymm10
-	vpor	ymm12, ymm12, ymm13
-	vmovdqa	ymm15, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm13, ymm13, ymm2
-	vpor	ymm12, ymm12, ymm13
-	vmovdqa	ymm15, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpxor	ymm13, ymm13, ymm1
-	vpsllw	ymm13, ymm13, 7
-	vpand	ymm13, ymm13, ymm9
-	vpor	ymm12, ymm12, ymm13
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 928]  # 32-byte Reload
-	vpminub	ymm7, ymm13, ymm14
-	vpcmpeqb	ymm7, ymm13, ymm7
-	vpandn	ymm13, ymm7, ymm4
-	vpaddb	ymm7, ymm13, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vmovdqa	ymm15, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpandn	ymm15, ymm15, ymm4
-	vpandn	ymm13, ymm13, ymm6
-	vpor	ymm13, ymm15, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
-	vpminub	ymm15, ymm14, ymm0
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm5
-	vpor	ymm13, ymm13, ymm15
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm7, ymm7, ymm1
-	vpor	ymm7, ymm13, ymm7
-	vpminub	ymm13, ymm11, ymm14
-	vpcmpeqb	ymm11, ymm11, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpandn	ymm11, ymm11, ymm3
-	vmovdqa	ymm15, ymm10
-	vpandn	ymm13, ymm13, ymm10
-	vpor	ymm11, ymm11, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm8, ymm13, ymm0
-	vpandn	ymm8, ymm8, ymm2
-	vpor	ymm8, ymm11, ymm8
-	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpminub	ymm11, ymm14, ymm0
-	vpcmpeqb	ymm10, ymm11, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpeqd	ymm11, ymm11, ymm11
-	vpsllw	ymm10, ymm10, 7
-	vmovdqa	ymm13, ymm9
-	vpand	ymm10, ymm10, ymm9
-	vpor	ymm8, ymm8, ymm10
-	vpor	ymm8, ymm8, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpminub	ymm7, ymm14, ymm0
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpandn	ymm9, ymm7, ymm4
-	vpaddb	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpminub	ymm9, ymm14, ymm0
-	vpcmpeqb	ymm5, ymm9, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
-	vpandn	ymm9, ymm0, ymm4
-	vpandn	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpminub	ymm9, ymm14, ymm0
-	vpcmpeqb	ymm6, ymm9, ymm0
-	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI7_2]
-	vpor	ymm5, ymm5, ymm6
-	vpsubb	ymm6, ymm7, ymm11
-	vpor	ymm5, ymm6, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpminub	ymm6, ymm14, ymm0
-	vpcmpeqb	ymm3, ymm0, ymm6
-	vmovdqa	ymm0, ymmword ptr [rsp + 768]   # 32-byte Reload
-	vpminub	ymm6, ymm14, ymm0
-	vpcmpeqb	ymm4, ymm0, ymm6
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI7_3]
-	vpandn	ymm4, ymm4, ymm15
-	vpor	ymm3, ymm3, ymm4
-	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpminub	ymm4, ymm14, ymm0
-	vpcmpeqb	ymm1, ymm0, ymm4
-	vpandn	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 256]   # 32-byte Reload
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm3
-	vpxor	ymm2, ymm11, ymm2
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm13, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm5, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm8, ymm1        # ymm3 = ymm8[0],ymm1[0],ymm8[1],ymm1[1],ymm8[2],ymm1[2],ymm8[3],ymm1[3],ymm8[4],ymm1[4],ymm8[5],ymm1[5],ymm8[6],ymm1[6],ymm8[7],ymm1[7],ymm8[16],ymm1[16],ymm8[17],ymm1[17],ymm8[18],ymm1[18],ymm8[19],ymm1[19],ymm8[20],ymm1[20],ymm8[21],ymm1[21],ymm8[22],ymm1[22],ymm8[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm8, ymm1        # ymm1 = ymm8[8],ymm1[8],ymm8[9],ymm1[9],ymm8[10],ymm1[10],ymm8[11],ymm1[11],ymm8[12],ymm1[12],ymm8[13],ymm1[13],ymm8[14],ymm1[14],ymm8[15],ymm1[15],ymm8[24],ymm1[24],ymm8[25],ymm1[25],ymm8[26],ymm1[26],ymm8[27],ymm1[27],ymm8[28],ymm1[28],ymm8[29],ymm1[29],ymm8[30],ymm1[30],ymm8[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	jne	.LBB7_48
-# %bb.49:
-	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
-	jne	.LBB7_50
-	jmp	.LBB7_53
-.Lfunc_end7:
-	.size	comparison_greater_arr_scalar_avx2, .Lfunc_end7-comparison_greater_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_scalar_arr_avx2
-.LCPI8_0:
-	.zero	32,1
-.LCPI8_1:
-	.zero	32,4
-.LCPI8_2:
-	.zero	32,8
-.LCPI8_3:
-	.zero	32,16
-.LCPI8_4:
-	.zero	32,32
-.LCPI8_5:
-	.zero	32,64
-.LCPI8_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_scalar_arr_avx2,@function
-comparison_greater_scalar_arr_avx2:     # @comparison_greater_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1312
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB8_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB8_28
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB8_51
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB8_59
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB8_179
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	lea	rdx, [rdx + 4]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_7
-# %bb.8:
-	add	r11, 1
-.LBB8_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_115
-# %bb.10:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	seta	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	seta	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	seta	al
-	cmp	r13d, dword ptr [rdx + 28]
-	seta	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	seta	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	seta	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	seta	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	seta	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	seta	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	seta	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	seta	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_116
-	jmp	.LBB8_179
-.LBB8_13:
-	cmp	edi, 8
-	jle	.LBB8_41
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB8_70
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB8_81
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB8_179
-# %bb.17:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB8_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	bl
-	add	rdx, 8
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_19
-# %bb.20:
-	add	r11, 1
-.LBB8_21:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_25
-# %bb.22:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r8b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	seta	r14b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	seta	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r11b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	seta	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	seta	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r9b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	seta	r12b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	seta	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r15b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_23
-# %bb.24:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB8_25:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.26:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_133
-# %bb.27:
-	xor	edi, edi
-	jmp	.LBB8_135
-.LBB8_28:
-	cmp	edi, 2
-	je	.LBB8_92
-# %bb.29:
-	cmp	edi, 3
-	jne	.LBB8_179
-# %bb.30:
-	mov	r14b, byte ptr [rsi]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_128
-# %bb.31:
-	movsxd	rax, r9d
-	mov	r15, r11
-	.p2align	4, 0x90
-.LBB8_32:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_32
-# %bb.33:
-	add	r15, 1
-	sar	r13, 5
-	cmp	r10, 32
-	jl	.LBB8_129
-.LBB8_34:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	jb	.LBB8_37
-# %bb.35:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB8_180
-# %bb.36:
-	lea	rax, [r15 + 4*r13]
-	cmp	rdx, rax
-	jae	.LBB8_180
-.LBB8_37:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
-.LBB8_38:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 128], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_39:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	setg	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	setg	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	setg	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	setg	al
-	cmp	r14b, byte ptr [r12 + 7]
-	setg	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	setg	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	setg	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	setg	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	setg	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	setg	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	setg	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	setg	r14b
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	setg	byte ptr [rsp + 232]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	setg	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 288]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_39
-# %bb.40:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	jmp	.LBB8_130
-.LBB8_41:
-	cmp	edi, 7
-	je	.LBB8_104
-# %bb.42:
-	cmp	edi, 8
-	jne	.LBB8_179
-# %bb.43:
-	mov	r13, qword ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_47
-# %bb.44:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_45:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	lea	rdx, [rdx + 8]
-	sbb	r9d, r9d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	r9b, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r9b
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_45
-# %bb.46:
-	add	r11, 1
-.LBB8_47:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_118
-# %bb.48:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_49:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	seta	dil
-	cmp	r13, qword ptr [rdx + 16]
-	seta	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	seta	al
-	cmp	r13, qword ptr [rdx + 56]
-	seta	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	seta	sil
-	cmp	r13, qword ptr [rdx + 80]
-	seta	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	seta	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	seta	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	seta	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	seta	cl
-	cmp	r13, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	seta	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_49
-# %bb.50:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_119
-	jmp	.LBB8_179
-.LBB8_51:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_55
-# %bb.52:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_53:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	lea	rdx, [rdx + 2]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_53
-# %bb.54:
-	add	r11, 1
-.LBB8_55:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_121
-# %bb.56:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_57:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	seta	al
-	cmp	r13w, word ptr [rdx + 2]
-	seta	dil
-	cmp	r13w, word ptr [rdx + 4]
-	seta	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 14]
-	seta	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	seta	sil
-	cmp	r13w, word ptr [rdx + 20]
-	seta	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	seta	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	seta	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	seta	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	seta	cl
-	cmp	r13w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	seta	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	seta	bl
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 64
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_57
-# %bb.58:
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_122
-	jmp	.LBB8_179
-.LBB8_59:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_63
-# %bb.60:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_61:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_61
-# %bb.62:
-	add	r11, 1
-.LBB8_63:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_67
-# %bb.64:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_65:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	setg	dil
-	cmp	r13w, word ptr [rdx + 4]
-	setg	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	setg	al
-	cmp	r13w, word ptr [rdx + 14]
-	setg	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	setg	sil
-	cmp	r13w, word ptr [rdx + 20]
-	setg	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	setg	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	setg	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	setg	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	setg	cl
-	cmp	r13w, word ptr [rdx + 32]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	setg	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 64
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_65
-# %bb.66:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_67:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.68:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_137
-# %bb.69:
-	xor	edi, edi
-	jmp	.LBB8_139
-.LBB8_70:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_72:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_72
-# %bb.73:
-	add	r11, 1
-.LBB8_74:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_78
-# %bb.75:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_76:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	setg	dil
-	cmp	r13, qword ptr [rdx + 16]
-	setg	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	setg	al
-	cmp	r13, qword ptr [rdx + 56]
-	setg	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	setg	sil
-	cmp	r13, qword ptr [rdx + 80]
-	setg	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	setg	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	setg	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	setg	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	setg	cl
-	cmp	r13, qword ptr [rdx + 128]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	setg	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_76
-# %bb.77:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_78:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_141
-# %bb.80:
-	xor	edi, edi
-	jmp	.LBB8_143
-.LBB8_81:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB8_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_83:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	bl
-	add	rdx, 4
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_83
-# %bb.84:
-	add	r11, 1
-.LBB8_85:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_89
-# %bb.86:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_87:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	r8b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	seta	r14b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	seta	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r11b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	seta	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	seta	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r9b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	seta	r12b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	seta	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r15b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_87
-# %bb.88:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB8_89:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_145
-# %bb.91:
-	xor	edi, edi
-	jmp	.LBB8_147
-.LBB8_92:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx], r14b
-	lea	rdx, [rdx + 1]
-	sbb	esi, esi
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_94
-# %bb.95:
-	add	r11, 1
-.LBB8_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_124
-# %bb.97:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
-	jb	.LBB8_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB8_183
-# %bb.99:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_183
-.LBB8_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB8_101:
-	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_102:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	seta	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	seta	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	seta	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	seta	al
-	cmp	r14b, byte ptr [r12 + 7]
-	seta	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	seta	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	seta	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	seta	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	seta	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	seta	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	seta	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	seta	r14b
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	seta	byte ptr [rsp + 232]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	seta	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	jmp	.LBB8_125
-.LBB8_104:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_106:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_106
-# %bb.107:
-	add	r11, 1
-.LBB8_108:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_112
-# %bb.109:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	setg	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	setg	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	setg	al
-	cmp	r13d, dword ptr [rdx + 28]
-	setg	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	setg	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	setg	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	setg	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	setg	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	setg	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	setg	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	setg	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_112:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_150
-# %bb.114:
-	xor	edi, edi
-	jmp	.LBB8_152
-.LBB8_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_156
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB8_158
-.LBB8_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_160
-# %bb.120:
-	xor	r11d, r11d
-	jmp	.LBB8_162
-.LBB8_121:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_122:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_164
-# %bb.123:
-	xor	r11d, r11d
-	jmp	.LBB8_166
-.LBB8_124:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB8_125:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_169
-# %bb.127:
-	xor	eax, eax
-	jmp	.LBB8_172
-.LBB8_128:
-	mov	r15, r11
-	sar	r13, 5
-	cmp	r10, 32
-	jge	.LBB8_34
-.LBB8_129:
-	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
-	mov	r12, rdx
-.LBB8_130:
-	shl	r13, 5
-	cmp	r13, r10
-	jge	.LBB8_179
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r13
-	not	r13
-	add	r13, r10
-	jne	.LBB8_174
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB8_177
-.LBB8_133:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_134:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r9b
-	add	rdx, 16
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_134
-.LBB8_135:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.136:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB8_149
-.LBB8_137:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_138:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_138
-.LBB8_139:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.140:
-	cmp	r13w, word ptr [rdx]
-	jmp	.LBB8_154
-.LBB8_141:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_142:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_142
-.LBB8_143:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.144:
-	cmp	r13, qword ptr [rdx]
-	jmp	.LBB8_154
-.LBB8_145:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_146:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	r9b
-	add	rdx, 8
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_146
-.LBB8_147:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.148:
-	vucomiss	xmm0, dword ptr [rdx]
-.LBB8_149:
-	seta	al
-	jmp	.LBB8_155
-.LBB8_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_151:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_151
-.LBB8_152:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.153:
-	cmp	r13d, dword ptr [rdx]
-.LBB8_154:
-	setg	al
-.LBB8_155:
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r11 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r11 + rdx], bl
-	jmp	.LBB8_179
-.LBB8_156:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	dword ptr [rdx + 4], r13d
-	lea	rdx, [rdx + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_157
-.LBB8_158:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.159:
-	cmp	dword ptr [rdx], r13d
-	jmp	.LBB8_168
-.LBB8_160:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	qword ptr [rdx + 8], r13
-	lea	rdx, [rdx + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_161
-.LBB8_162:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.163:
-	cmp	qword ptr [rdx], r13
-	jmp	.LBB8_168
-.LBB8_164:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_165:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	word ptr [rdx + 2], r13w
-	lea	rdx, [rdx + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_165
-.LBB8_166:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.167:
-	cmp	word ptr [rdx], r13w
-.LBB8_168:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB8_179
-.LBB8_169:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_170:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rax], r14b
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r10 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r10 + rdi], dl
-	cmp	byte ptr [r12 + rax + 1], r14b
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r10 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB8_170
-# %bb.171:
-	add	r12, rax
-.LBB8_172:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.173:
-	cmp	byte ptr [r12], r14b
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB8_179
-.LBB8_174:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_175:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	setg	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB8_175
-# %bb.176:
-	add	r12, rsi
-.LBB8_177:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.178:
-	cmp	r14b, byte ptr [r12]
-	setg	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-.LBB8_179:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB8_180:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r15 + 4*r13]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_181:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	mov	rsi, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rsi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rsi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rsi + 6]
-	mov	qword ptr [rsp + 216], rsi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rsi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 704
-	mov	qword ptr [rsp + 104], r10      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 864
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 200], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 152], rcx      # 8-byte Spill
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	mov	r13, r12
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 4
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 2
-	mov	rdi, r11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 9
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 4
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 10
-	mov	r8, r9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r12, r15
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 14
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 5
-	mov	r15, rdi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 15
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rsi + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 4
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 15
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r10 + 5], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 11
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rax + 5], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 7
-	mov	r12, rbx
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r10 + 6], 1
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 15
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 4
-	mov	r14, rax
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 12
-	mov	rbx, r8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 7], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 8
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 15
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 8], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 13
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r11 + 9], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r14 + 9], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
-	mov	rcx, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 11
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 15
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 15
-	mov	r12, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 12
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	mov	r14, rsi
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 4
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 9
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 6
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r8 + 12], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 4
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	mov	r8, rsi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 4
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 11
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + r12 + 13], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 14]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 12
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 2
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 8
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 14], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 11
-	mov	rdi, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 3
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 13
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
-	mov	r12, r14
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 16]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 1
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 16], 2
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 9
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	mov	r13, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rcx, r15
-	movzx	esi, byte ptr [rdx + r15 + 17]
-	vmovd	xmm2, esi
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 5
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 8
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 15
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm3, esi
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r13 + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 18]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 11
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 12
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 19]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, esi
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 2
-	mov	r8, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
-	mov	r11, rdi
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 7
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 15
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 20]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 13
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	esi, byte ptr [rdx + r15 + 21]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	movzx	esi, byte ptr [rdx + rbx + 21]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 6
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 6
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 14
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 22]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 14
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 23]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 5
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 7
-	mov	r12, rbx
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 15
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 23]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 4
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	vmovd	xmm0, esi
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 24], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 15
-	movzx	esi, byte ptr [rdx + r8 + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 9
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
-	movzx	esi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 1
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 25]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 26]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 11
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 26], 13
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 14
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
-	movzx	esi, byte ptr [rdx + r15 + 27]
-	vmovd	xmm2, esi
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 12
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 15
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 4
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 6
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 1
-	mov	rdi, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 4
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 29]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 11
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 12
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 30]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + r15 + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	movzx	eax, byte ptr [rdx + r13 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + r13 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI8_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpgtb	ymm7, ymm0, ymm15
-	vpand	ymm7, ymm7, ymm1
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI8_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpgtb	ymm12, ymm0, ymm14
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI8_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI8_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm10, ymm0, ymm10
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm8, ymm0, ymm8
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpgtb	ymm9, ymm0, ymm9
-	vpand	ymm9, ymm9, ymm1
-	vpcmpgtb	ymm5, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpgtb	ymm6, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpgtb	ymm3, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpgtb	ymm4, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI8_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpgtb	ymm1, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB8_181
-# %bb.182:
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
-	jne	.LBB8_38
-	jmp	.LBB8_130
-.LBB8_183:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_184:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	mov	rdi, rcx
-	vmovd	xmm5, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	rbx, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 640
-	mov	r14, rax
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 40], r9        # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	r13, rax
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 800
-	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 864
-	mov	qword ptr [rsp + 216], r8       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 896
-	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 136], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm9, xmm3, byte ptr [rdx + r12], 1
-	vpinsrb	xmm3, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 2
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 4
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 5
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 3
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 4
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 7
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 8
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 9
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 10
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 1], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 8
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vmovdqa	xmm4, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 13
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 14
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 15
-	vpinsrb	xmm5, xmm11, byte ptr [rdx + rbx + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 3
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 4
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 7
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 3], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rcx + 3], 14
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm3   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 9]
-	vmovd	xmm11, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 1
-	mov	r11, r9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 3
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 4
-	mov	rcx, r8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 15
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rdx + rsi + 4], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 4], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 8
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 4], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 13
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 15
-	mov	r14, r12
-	vpinsrb	xmm5, xmm14, byte ptr [rdx + rbx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 2
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 10
-	mov	r13, r9
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm12, byte ptr [rdx + rax + 5], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 2
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 5], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 5], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 6
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 7
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 5], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm15, ymm4, xmm3, 1
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + r14 + 5], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm12, esi
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	r14, r11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 3
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 14
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 15
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm7, byte ptr [rdx + r13 + 6], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 8
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 9
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 11
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 6], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 13
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 15
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 12
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 13
-	vinserti128	ymm3, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm1, byte ptr [rdx + rsi + 7], 14
-	mov	r13, rsi
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 11]
-	vmovd	xmm1, esi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 7], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm2  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 11]
-	vmovd	xmm2, esi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 8
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 12
-	mov	r10, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + rcx + 8], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 2
-	mov	r12, r8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 7
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 8
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 8], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 15
-	vpinsrb	xmm7, xmm8, byte ptr [rdx + rdi + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 4
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 6
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 13
-	mov	rcx, r10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm11, byte ptr [rdx + rax + 9], 1
-	mov	r10, rax
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 9], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 9], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 5
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 9], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 9], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 9], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	vinserti128	ymm3, ymm3, xmm7, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm6, esi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm12, byte ptr [rdx + r9 + 10], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 3
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 6
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 6
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 14
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 7
-	mov	r8, r11
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 11], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, esi
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r11 + 12], 1
-	mov	r10, r9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 2
-	mov	rcx, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 10
-	mov	r8, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 11
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 12
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 15
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rsi + 12], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 12], 2
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 8
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	mov	r9, rsi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 14
-	vinserti128	ymm2, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm2  # 32-byte Spill
-	mov	r12, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r14 + 14]
-	vmovd	xmm2, esi
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 3
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 14], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 15
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 13
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	movzx	esi, byte ptr [rdx + r14 + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 3
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 15], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 5
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 15], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 15], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 13
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 15
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 1
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 6
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 7
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 16], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 12
-	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 15
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, esi
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 3
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 4
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 1
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 2
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 17], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 17], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + rdi + 18]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 6
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 15
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 18]
-	vmovd	xmm2, esi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 18], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 6
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 13
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 14
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 18], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 19]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 15
-	movzx	esi, byte ptr [rdx + r9 + 19]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 19], 2
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 7
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 19], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 19], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 20]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 4
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 12
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 13
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 15
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 20], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 20], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 13
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 14
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 15
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 15
-	movzx	esi, byte ptr [rdx + r15 + 21]
-	mov	rbx, r15
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 2
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 7
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 21], 8
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 21], 9
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 11
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 21], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 8
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 22], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 15
-	movzx	esi, byte ptr [rdx + rbx + 22]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 22], 12
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 13
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 15
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 23]
-	vmovd	xmm3, esi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 1
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	movzx	esi, byte ptr [rdx + rbx + 23]
-	vmovd	xmm4, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 2
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 23], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 23], 14
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 15
-	vinserti128	ymm11, ymm2, xmm1, 1
-	vinserti128	ymm12, ymm4, xmm3, 1
-	movzx	esi, byte ptr [rdx + r15 + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 3
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 24]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 25]
-	vmovd	xmm4, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 1
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 25], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 5
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 8
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 25], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 13
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 384], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 26]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 5
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
-	movzx	esi, byte ptr [rdx + r10 + 26]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 26], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 15
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 27]
-	vmovd	xmm3, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 1
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 7
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 27], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 1
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 27], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 6
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 27], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 27], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 13
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 28]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 5
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 8
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 28]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 28], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 5
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 7
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 28], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 28], 9
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 28], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 13
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 29]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 29]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 29], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 29], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
-	mov	r13, rdi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 29], 15
-	mov	r12, rax
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + r8 + 31]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rsi + 30]
-	vmovd	xmm3, eax
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + rsi + 31]
-	vmovd	xmm4, eax
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 30], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 31], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 30], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 31], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 30], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 31], 11
-	mov	rax, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 30], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 31], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm1, ymm3, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm1   # 32-byte Spill
-	vpminub	ymm1, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI8_0] # ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpandn	ymm2, ymm1, ymm7
-	vpaddb	ymm1, ymm2, ymm1
-	vpminub	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vpandn	ymm2, ymm2, ymm7
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI8_1] # ymm9 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm14, ymm14, ymm9
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI8_2] # ymm8 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm14, ymm14, ymm8
-	vpor	ymm2, ymm14, ymm2
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpsubb	ymm1, ymm1, ymm3
-	vpor	ymm1, ymm1, ymm2
-	vpminub	ymm2, ymm15, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm2, ymm2, ymm6
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_4] # ymm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm14, ymm14, ymm4
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm14, ymm14, ymm5
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpxor	ymm14, ymm14, ymm3
-	vpsllw	ymm14, ymm14, 7
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI8_6] # ymm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm14, ymm14, ymm10
-	vpor	ymm2, ymm14, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
-	vpminub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpandn	ymm14, ymm1, ymm7
-	vpaddb	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm7
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm3, ymm9
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpsubb	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm6
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm5
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpxor	ymm15, ymm15, ymm2
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpsllw	ymm15, ymm15, 7
-	vpand	ymm15, ymm15, ymm10
-	vpor	ymm14, ymm14, ymm15
-	vpor	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm15, ymm14, ymm7
-	vpaddb	ymm14, ymm15, ymm14
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm7
-	vpminub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpandn	ymm13, ymm13, ymm9
-	vpor	ymm13, ymm15, ymm13
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm13, ymm13, ymm15
-	vpsubb	ymm14, ymm14, ymm2
-	vpor	ymm13, ymm14, ymm13
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm6
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm11, ymm11, ymm0
-	vpcmpeqb	ymm11, ymm11, ymm0
-	vmovdqa	ymm15, ymm5
-	vpandn	ymm11, ymm11, ymm5
-	vpor	ymm11, ymm14, ymm11
-	vpminub	ymm12, ymm12, ymm0
-	vpcmpeqb	ymm12, ymm12, ymm0
-	vpxor	ymm12, ymm12, ymm2
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm14, ymm10
-	vpand	ymm12, ymm12, ymm10
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm11, ymm13, ymm11
-	vpminub	ymm9, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpandn	ymm12, ymm9, ymm7
-	vpaddb	ymm9, ymm12, ymm9
-	vpminub	ymm10, ymm0, ymmword ptr [rsp + 384] # 32-byte Folded Reload
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vpandn	ymm10, ymm10, ymm7
-	vpminub	ymm7, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpandn	ymm7, ymm7, ymm3
-	vpor	ymm7, ymm10, ymm7
-	vpminub	ymm8, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpandn	ymm8, ymm8, ymmword ptr [rip + .LCPI8_2]
-	vpor	ymm7, ymm8, ymm7
-	vpsubb	ymm8, ymm9, ymm2
-	vpor	ymm7, ymm8, ymm7
-	vpminub	ymm5, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpcmpeqb	ymm5, ymm0, ymm5
-	vpandn	ymm5, ymm5, ymm6
-	vpminub	ymm6, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpcmpeqb	ymm6, ymm0, ymm6
-	vpandn	ymm6, ymm6, ymm4
-	vpor	ymm5, ymm5, ymm6
-	vpminub	ymm3, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpcmpeqb	ymm3, ymm0, ymm3
-	vpandn	ymm3, ymm3, ymm15
-	vpor	ymm3, ymm5, ymm3
-	vpminub	ymm4, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
-	vpcmpeqb	ymm4, ymm0, ymm4
-	vpxor	ymm4, ymm4, ymm2
-	vpsllw	ymm4, ymm4, 7
-	vpand	ymm4, ymm14, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm7, ymm3
-	vmovdqa	ymm2, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
-	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
-	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
-	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
-	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
-	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
-	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
-	vinserti128	ymm3, ymm5, xmm2, 1
-	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
-	vinserti128	ymm5, ymm4, xmm1, 1
-	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm1
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm5
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm3
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	jne	.LBB8_184
-# %bb.185:
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
-	jne	.LBB8_101
-	jmp	.LBB8_125
-.Lfunc_end8:
-	.size	comparison_greater_scalar_arr_avx2, .Lfunc_end8-comparison_greater_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_greater_equal_arr_arr_avx2 # -- Begin function comparison_greater_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_arr_avx2,@function
-comparison_greater_equal_arr_arr_avx2:  # @comparison_greater_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB9_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB9_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB9_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB9_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB9_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_20
-# %bb.21:
-	add	r14, 1
-.LBB9_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setae	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setae	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setae	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setae	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setae	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setae	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setae	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setae	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setae	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_28:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rsi + 4*rcx]
-	cmp	eax, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_28
-	jmp	.LBB9_123
-.LBB9_29:
-	cmp	edi, 8
-	jle	.LBB9_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB9_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB9_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB9_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_48
-# %bb.49:
-	add	r14, 1
-.LBB9_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	setae	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setae	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setae	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setae	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setae	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setae	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setae	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setae	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setae	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_56
-	jmp	.LBB9_123
-.LBB9_2:
-	cmp	edi, 2
-	je	.LBB9_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB9_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_6
-# %bb.7:
-	add	r14, 1
-.LBB9_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setge	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setge	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setge	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setge	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setge	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setge	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setge	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setge	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setge	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setge	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setge	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_14
-	jmp	.LBB9_123
-.LBB9_30:
-	cmp	edi, 7
-	je	.LBB9_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB9_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_34
-# %bb.35:
-	add	r14, 1
-.LBB9_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setae	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setae	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setae	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setae	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setae	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setae	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setae	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setae	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setae	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_42:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rsi + 8*rcx]
-	cmp	rax, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_42
-	jmp	.LBB9_123
-.LBB9_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_70
-# %bb.71:
-	add	r14, 1
-.LBB9_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setae	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setae	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setae	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setae	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setae	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setae	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setae	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setae	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setae	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rsi + 2*rcx]
-	cmp	ax, word ptr [rdx + 2*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_78
-	jmp	.LBB9_123
-.LBB9_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_81
-# %bb.82:
-	add	r14, 1
-.LBB9_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setge	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setge	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setge	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setge	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setge	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setge	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setge	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setge	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setge	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_89
-	jmp	.LBB9_123
-.LBB9_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_103
-# %bb.104:
-	add	r14, 1
-.LBB9_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setge	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setge	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setge	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setge	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setge	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setge	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setge	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setge	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setge	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_111
-	jmp	.LBB9_123
-.LBB9_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_114
-# %bb.115:
-	add	r14, 1
-.LBB9_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	setae	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setae	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setae	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setae	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setae	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setae	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setae	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setae	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setae	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_122
-	jmp	.LBB9_123
-.LBB9_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_59
-# %bb.60:
-	add	r14, 1
-.LBB9_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setae	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setae	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setae	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setae	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setae	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setae	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setae	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setae	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setae	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setae	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setae	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_67:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + rcx]
-	cmp	al, byte ptr [rdx + rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_67
-	jmp	.LBB9_123
-.LBB9_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_92
-# %bb.93:
-	add	r14, 1
-.LBB9_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setge	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setge	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setge	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setge	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setge	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setge	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setge	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setge	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setge	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_100
-.LBB9_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	comparison_greater_equal_arr_arr_avx2, .Lfunc_end9-comparison_greater_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_equal_arr_scalar_avx2
-.LCPI10_0:
-	.zero	32,2
-.LCPI10_1:
-	.zero	32,4
-.LCPI10_2:
-	.zero	32,8
-.LCPI10_3:
-	.zero	32,16
-.LCPI10_4:
-	.zero	32,32
-.LCPI10_5:
-	.zero	32,64
-.LCPI10_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_scalar_avx2,@function
-comparison_greater_equal_arr_scalar_avx2: # @comparison_greater_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1344
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB10_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB10_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB10_48
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB10_56
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB10_175
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_7:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_7
-# %bb.8:
-	add	r11, 1
-.LBB10_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_100
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_11:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setae	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setae	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setae	al
-	cmp	dword ptr [rsi + 28], r13d
-	setae	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setae	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setae	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setae	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setae	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setae	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setae	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setae	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_101
-	jmp	.LBB10_175
-.LBB10_13:
-	cmp	edi, 8
-	jle	.LBB10_38
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB10_64
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB10_72
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB10_175
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB10_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_19:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	dl
-	add	rsi, 8
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_19
-# %bb.20:
-	add	r11, 1
-.LBB10_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_103
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_23:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setbe	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setbe	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setbe	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setbe	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setbe	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setbe	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setbe	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setbe	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setbe	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setbe	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setbe	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_104
-	jmp	.LBB10_175
-.LBB10_25:
-	cmp	edi, 2
-	je	.LBB10_80
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB10_175
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_128
-# %bb.28:
-	movsxd	rax, r9d
-	mov	r13, r11
-	.p2align	4, 0x90
-.LBB10_29:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_29
-# %bb.30:
-	add	r13, 1
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_129
-.LBB10_31:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 608], r15      # 8-byte Spill
-	jb	.LBB10_34
-# %bb.32:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r13, rax
-	jae	.LBB10_182
-# %bb.33:
-	lea	rax, [4*r15]
-	add	rax, r13
-	cmp	rsi, rax
-	jae	.LBB10_182
-.LBB10_34:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-.LBB10_35:
-	mov	r13, r15
-	sub	r13, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_36:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setge	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setge	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setge	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setge	al
-	cmp	byte ptr [r12 + 7], r14b
-	setge	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setge	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setge	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setge	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setge	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setge	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setge	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setge	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setge	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_36
-# %bb.37:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
-	jmp	.LBB10_130
-.LBB10_38:
-	cmp	edi, 7
-	je	.LBB10_92
-# %bb.39:
-	cmp	edi, 8
-	jne	.LBB10_175
-# %bb.40:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_44
-# %bb.41:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_42:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_42
-# %bb.43:
-	add	r11, 1
-.LBB10_44:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_106
-# %bb.45:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_46:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setae	dil
-	cmp	qword ptr [rsi + 16], r13
-	setae	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setae	al
-	cmp	qword ptr [rsi + 56], r13
-	setae	bl
-	cmp	qword ptr [rsi + 64], r13
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setae	dl
-	cmp	qword ptr [rsi + 80], r13
-	setae	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setae	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setae	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setae	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setae	cl
-	cmp	qword ptr [rsi + 128], r13
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setae	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_46
-# %bb.47:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_107
-	jmp	.LBB10_175
-.LBB10_48:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_50:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_50
-# %bb.51:
-	add	r11, 1
-.LBB10_52:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_109
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_54:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setae	al
-	cmp	word ptr [rsi + 2], r13w
-	setae	dil
-	cmp	word ptr [rsi + 4], r13w
-	setae	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	setae	bl
-	cmp	word ptr [rsi + 16], r13w
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setae	dl
-	cmp	word ptr [rsi + 20], r13w
-	setae	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setae	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setae	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setae	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setae	cl
-	cmp	word ptr [rsi + 32], r13w
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setae	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setae	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_54
-# %bb.55:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_110
-	jmp	.LBB10_175
-.LBB10_56:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_58
-# %bb.59:
-	add	r11, 1
-.LBB10_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_112
-# %bb.61:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_62:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setge	dil
-	cmp	word ptr [rsi + 4], r13w
-	setge	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setge	al
-	cmp	word ptr [rsi + 14], r13w
-	setge	bl
-	cmp	word ptr [rsi + 16], r13w
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setge	dl
-	cmp	word ptr [rsi + 20], r13w
-	setge	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setge	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setge	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setge	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setge	cl
-	cmp	word ptr [rsi + 32], r13w
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setge	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_62
-# %bb.63:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_113
-	jmp	.LBB10_175
-.LBB10_64:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_68
-# %bb.65:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_66:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_66
-# %bb.67:
-	add	r11, 1
-.LBB10_68:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_115
-# %bb.69:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setge	dil
-	cmp	qword ptr [rsi + 16], r13
-	setge	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setge	al
-	cmp	qword ptr [rsi + 56], r13
-	setge	bl
-	cmp	qword ptr [rsi + 64], r13
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setge	dl
-	cmp	qword ptr [rsi + 80], r13
-	setge	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setge	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setge	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setge	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setge	cl
-	cmp	qword ptr [rsi + 128], r13
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setge	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_70
-# %bb.71:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_116
-	jmp	.LBB10_175
-.LBB10_72:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB10_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_74:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	dl
-	add	rsi, 4
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_74
-# %bb.75:
-	add	r11, 1
-.LBB10_76:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_118
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_78:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setbe	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setbe	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setbe	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setbe	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setbe	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setbe	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setbe	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setbe	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setbe	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setbe	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setbe	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setbe	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_78
-# %bb.79:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_119
-	jmp	.LBB10_175
-.LBB10_80:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_84
-# %bb.81:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_82:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_82
-# %bb.83:
-	add	r11, 1
-.LBB10_84:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_121
-# %bb.85:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
-	jb	.LBB10_88
-# %bb.86:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB10_185
-# %bb.87:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_185
-.LBB10_88:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
-.LBB10_89:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_90:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setae	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setae	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setae	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setae	al
-	cmp	byte ptr [r12 + 7], r14b
-	setae	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setae	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setae	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setae	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setae	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setae	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setae	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setae	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setae	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	jmp	.LBB10_122
-.LBB10_92:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_94:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_94
-# %bb.95:
-	add	r11, 1
-.LBB10_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_125
-# %bb.97:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_98:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setge	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setge	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setge	al
-	cmp	dword ptr [rsi + 28], r13d
-	setge	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setge	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setge	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setge	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setge	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setge	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setge	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setge	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_98
-# %bb.99:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_126
-	jmp	.LBB10_175
-.LBB10_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_101:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_133
-# %bb.102:
-	xor	r11d, r11d
-	jmp	.LBB10_135
-.LBB10_103:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_104:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_137
-# %bb.105:
-	xor	r11d, r11d
-	jmp	.LBB10_139
-.LBB10_106:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_107:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_141
-# %bb.108:
-	xor	r11d, r11d
-	jmp	.LBB10_143
-.LBB10_109:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_110:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_145
-# %bb.111:
-	xor	r11d, r11d
-	jmp	.LBB10_147
-.LBB10_112:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_113:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_150
-# %bb.114:
-	xor	r11d, r11d
-	jmp	.LBB10_152
-.LBB10_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_154
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB10_156
-.LBB10_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_158
-# %bb.120:
-	xor	r11d, r11d
-	jmp	.LBB10_160
-.LBB10_121:
-	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB10_122:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-# %bb.123:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_163
-# %bb.124:
-	xor	esi, esi
-	jmp	.LBB10_166
-.LBB10_125:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_168
-# %bb.127:
-	xor	r11d, r11d
-	jmp	.LBB10_170
-.LBB10_128:
-	mov	r13, r11
-	sar	r15, 5
-	cmp	r10, 32
-	jge	.LBB10_31
-.LBB10_129:
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	mov	r12, rsi
-.LBB10_130:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_176
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB10_179
-.LBB10_133:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_134:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_134
-.LBB10_135:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.136:
-	xor	eax, eax
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_149
-.LBB10_137:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_138:                             # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	al
-	add	rsi, 16
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_138
-.LBB10_139:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.140:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB10_162
-.LBB10_141:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_142:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_142
-.LBB10_143:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.144:
-	xor	eax, eax
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_149
-.LBB10_145:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_146:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_146
-.LBB10_147:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.148:
-	xor	eax, eax
-	cmp	word ptr [rsi], r13w
-.LBB10_149:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB10_174
-.LBB10_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_151:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_151
-.LBB10_152:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.153:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB10_172
-.LBB10_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_155:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_155
-.LBB10_156:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.157:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_172
-.LBB10_158:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_159:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setbe	al
-	add	rsi, 8
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_159
-.LBB10_160:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.161:
-	vucomiss	xmm0, dword ptr [rsi]
-.LBB10_162:
-	setbe	al
-	jmp	.LBB10_173
-.LBB10_163:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_164:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_164
-# %bb.165:
-	add	r12, rsi
-.LBB10_166:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.167:
-	xor	eax, eax
-	cmp	byte ptr [r12], r14b
-	adc	al, -1
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB10_181
-.LBB10_168:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_169:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_169
-.LBB10_170:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.171:
-	cmp	dword ptr [rsi], r13d
-.LBB10_172:
-	setge	al
-.LBB10_173:
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB10_174:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB10_175:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB10_176:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_177:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setge	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_177
-# %bb.178:
-	add	r12, rsi
-.LBB10_179:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.180:
-	cmp	byte ptr [r12], r14b
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB10_181:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB10_175
-.LBB10_182:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
-	lea	rax, [4*r15]
-	add	rax, r13
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_183:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	mov	rdx, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 576], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	or	rbx, 544
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 576
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 640
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 672
-	mov	r12, rax
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 704
-	mov	qword ptr [rsp + 240], rdi      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 736
-	mov	qword ptr [rsp + 216], rdx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 832
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 864
-	mov	qword ptr [rsp + 264], r9       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 928
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	mov	rbx, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 576]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	mov	r15, rax
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, r14
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
-	mov	rax, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
-	mov	r8, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
-	mov	r13, r15
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	r9, rax
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
-	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
-	mov	r15, r11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 16]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 18]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	r11, rdx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
-	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
-	movzx	edi, byte ptr [rsi + rcx + 27]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + r15 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + r15 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpcmpgtb	ymm0, ymm2, ymm13
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymm14
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm2, ymm15
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI10_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpgtb	ymm10, ymm2, ymm10
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpgtb	ymm11, ymm2, ymm11
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm9, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpgtb	ymm8, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpgtb	ymm5, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpgtb	ymm6, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpgtb	ymm3, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI10_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpgtb	ymm4, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpgtb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpgtb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB10_183
-# %bb.184:
-	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
-	jne	.LBB10_35
-	jmp	.LBB10_130
-.LBB10_185:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 536], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_186:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm5, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 264], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	rax, rbx
-	or	rax, 576
-	mov	r12, rax
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 608
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	or	rbx, 640
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 768
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 800
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 864
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 896
-	mov	r15, rax
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 40], rdx       # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 216], rcx      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 1
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 10
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymm10, ymmword ptr [rsp + 608]  # 32-byte Reload
-	vpmaxub	ymm3, ymm10, ymm0
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 9
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 14
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	mov	r14, r15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rbx, rax
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 1], 14
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm6, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 7
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 8
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 2], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	mov	r15, r8
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 9
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 10
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 3], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 2
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 5
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 9
-	mov	r10, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 10
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 11
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 6
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rsi + rax + 5], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 8
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 13
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rdx + 5], 14
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 10]
-	vmovd	xmm3, edi
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 5], 15
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 10]
-	vmovd	xmm4, edi
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r12 + 6], 1
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 2
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 3
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 10
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 15
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rdi + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 7
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 8
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 2
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm0, edi
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	vpinsrb	xmm2, xmm9, byte ptr [rsi + r12 + 8], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 2
-	mov	r8, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 6
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 8], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 10
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 8], 11
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 8], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 8], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 8], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 10
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 14
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vpmaxub	ymm5, ymm10, ymm2
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 7
-	mov	r12, r10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 8
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 9], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vpcmpeqb	ymm2, ymm2, ymm5
-	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm2, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 3
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 14
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 2
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 11], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 8
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 11], 10
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 14
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm0, edi
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm2, byte ptr [rsi + r12 + 12], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 2
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 12], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 12], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 15
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r10 + 12], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 14
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 13], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 13], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 9
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 13], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 1
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 2
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 6
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 13
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 14], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 6
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 8
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 10
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 15], 11
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r15 + 16]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 15
-	movzx	edi, byte ptr [rsi + rbx + 16]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 8
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 11
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r9 + 17], 15
-	vpmaxub	ymm3, ymm10, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 6
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 7
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 8
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 10
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 14
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 18]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 14
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 4
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 11
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 6
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 8
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r9 + 19], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 20]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 9
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 6
-	mov	r10, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 7
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 20], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 15
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 21]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 5
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 6
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 21]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 8
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 11
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 13
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
-	vinserti128	ymm11, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r14 + 22]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 1
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 2
-	mov	r15, rdx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 11
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + rbx + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 11
-	mov	rbx, r10
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 8
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 9
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 8
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 9
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 12
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 23], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 24]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 2
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 13
-	vinserti128	ymm0, ymm1, xmm0, 1
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r10 + 25], 14
-	vpmaxub	ymm3, ymm10, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdi + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r8 + 26]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 10
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 15
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 26]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 14
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm2, edi
-	mov	r10, r8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 15
-	movzx	edi, byte ptr [rsi + r14 + 27]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 28]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 5
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 14
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 5
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 11
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 29]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 8
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rbx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r11 + 29], 15
-	mov	rbx, r11
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 30]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
-	movzx	edi, byte ptr [rsi + r11 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, rcx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + rdx + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rdx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymm10
-	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpmaxub	ymm0, ymm10, ymm1
-	vpcmpeqb	ymm0, ymm1, ymm0
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_0] # ymm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpand	ymm0, ymm0, ymm6
-	vpsubb	ymm0, ymm0, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rsp + 480]   # 32-byte Reload
-	vpmaxub	ymm7, ymm10, ymm1
-	vpcmpeqb	ymm7, ymm1, ymm7
-	vmovdqa	ymm1, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpmaxub	ymm12, ymm10, ymm1
-	vpcmpeqb	ymm12, ymm12, ymm1
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm7, ymm8, ymm7
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI10_2] # ymm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpmaxub	ymm7, ymm14, ymm10
-	vpcmpeqb	ymm7, ymm14, ymm7
-	vpmaxub	ymm12, ymm15, ymm10
-	vpcmpeqb	ymm12, ymm15, ymm12
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_3] # ymm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm7, ymm7, ymm5
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 544]  # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm10
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpmaxub	ymm7, ymm12, ymm10
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_6] # ymm13 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm7, ymm13, ymm7
-	vpor	ymm10, ymm0, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
-	vpmaxub	ymm7, ymm12, ymm2
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vpand	ymm7, ymm7, ymm6
-	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm14, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm14, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm12, ymm12, ymm8
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm14, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm12, ymm12, ymm5
-	vpand	ymm15, ymm15, ymm1
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vpand	ymm12, ymm12, ymm13
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 928]  # 32-byte Reload
-	vpmaxub	ymm7, ymm14, ymm2
-	vpcmpeqb	ymm7, ymm14, ymm7
-	vpand	ymm7, ymm7, ymm6
-	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
-	vpmaxub	ymm15, ymm0, ymm2
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
-	vpmaxub	ymm14, ymm0, ymm2
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm14, ymm15, ymm14
-	vpor	ymm7, ymm14, ymm7
-	vpmaxub	ymm14, ymm11, ymm2
-	vpcmpeqb	ymm11, ymm11, ymm14
-	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
-	vpmaxub	ymm14, ymm0, ymm2
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm15, ymm5
-	vpand	ymm11, ymm11, ymm5
-	vpand	ymm14, ymm14, ymm1
-	vpor	ymm11, ymm11, ymm14
-	vpmaxub	ymm14, ymm9, ymm2
-	vpcmpeqb	ymm9, ymm9, ymm14
-	vmovdqa	ymm14, ymm3
-	vpand	ymm9, ymm9, ymm3
-	vpor	ymm9, ymm11, ymm9
-	vpor	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm13
-	vpor	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 416]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm8, ymm9, ymm0
-	vpand	ymm8, ymm8, ymm6
-	vpsubb	ymm8, ymm8, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm5, ymm9, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm6, ymm9, ymm0
-	vpand	ymm5, ymm5, ymmword ptr [rip + .LCPI10_1]
-	vpand	ymm6, ymm6, ymm4
-	vpor	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm8, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpmaxub	ymm6, ymm0, ymm2
-	vpcmpeqb	ymm3, ymm0, ymm6
-	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpmaxub	ymm6, ymm0, ymm2
-	vpcmpeqb	ymm4, ymm0, ymm6
-	vpand	ymm3, ymm15, ymm3
-	vpand	ymm4, ymm4, ymm1
-	vpor	ymm3, ymm3, ymm4
-	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpmaxub	ymm4, ymm0, ymm2
-	vpcmpeqb	ymm1, ymm0, ymm4
-	vpand	ymm1, ymm14, ymm1
-	vpor	ymm1, ymm3, ymm1
-	vpor	ymm1, ymm5, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpmaxub	ymm3, ymm0, ymm2
-	vpcmpeqb	ymm2, ymm0, ymm3
-	vpand	ymm2, ymm13, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpunpcklbw	ymm2, ymm10, ymm12      # ymm2 = ymm10[0],ymm12[0],ymm10[1],ymm12[1],ymm10[2],ymm12[2],ymm10[3],ymm12[3],ymm10[4],ymm12[4],ymm10[5],ymm12[5],ymm10[6],ymm12[6],ymm10[7],ymm12[7],ymm10[16],ymm12[16],ymm10[17],ymm12[17],ymm10[18],ymm12[18],ymm10[19],ymm12[19],ymm10[20],ymm12[20],ymm10[21],ymm12[21],ymm10[22],ymm12[22],ymm10[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm10, ymm12      # ymm0 = ymm10[8],ymm12[8],ymm10[9],ymm12[9],ymm10[10],ymm12[10],ymm10[11],ymm12[11],ymm10[12],ymm12[12],ymm10[13],ymm12[13],ymm10[14],ymm12[14],ymm10[15],ymm12[15],ymm10[24],ymm12[24],ymm10[25],ymm12[25],ymm10[26],ymm12[26],ymm10[27],ymm12[27],ymm10[28],ymm12[28],ymm10[29],ymm12[29],ymm10[30],ymm12[30],ymm10[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB10_186
-# %bb.187:
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 536]      # 8-byte Reload
-	jne	.LBB10_89
-	jmp	.LBB10_122
-.Lfunc_end10:
-	.size	comparison_greater_equal_arr_scalar_avx2, .Lfunc_end10-comparison_greater_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_equal_scalar_arr_avx2
-.LCPI11_0:
-	.zero	32,2
-.LCPI11_1:
-	.zero	32,4
-.LCPI11_2:
-	.zero	32,8
-.LCPI11_3:
-	.zero	32,16
-.LCPI11_4:
-	.zero	32,32
-.LCPI11_5:
-	.zero	32,64
-.LCPI11_6:
-	.zero	32,128
-.LCPI11_7:
-	.zero	32,255
-	.text
-	.globl	comparison_greater_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_scalar_arr_avx2,@function
-comparison_greater_equal_scalar_arr_avx2: # @comparison_greater_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB11_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB11_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB11_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB11_114
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB11_185
-# %bb.13:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_15:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_15
-# %bb.16:
-	add	r15, 1
-.LBB11_17:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_21
-# %bb.18:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_19:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setae	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setae	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setae	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setae	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setae	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setae	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setae	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setae	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setae	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setae	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setae	r12b
-	cmp	r14d, dword ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setae	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_19
-# %bb.20:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_21:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.22:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_130
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB11_24
-.LBB11_26:
-	cmp	edi, 8
-	jle	.LBB11_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB11_149
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB11_164
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB11_185
-# %bb.45:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB11_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_47:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_47
-# %bb.48:
-	add	r15, 1
-.LBB11_49:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_53
-# %bb.50:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_51:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	setae	r9b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	setae	r11b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setae	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	setae	bl
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r12b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setae	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	setae	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r8b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	setae	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setae	r15b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setae	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	setae	r14b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB11_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB11_53:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_179
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB11_181
-.LBB11_2:
-	cmp	edi, 2
-	je	.LBB11_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB11_185
-# %bb.4:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_6:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_6
-# %bb.7:
-	add	r15, 1
-.LBB11_8:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB11_9
-# %bb.81:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	jb	.LBB11_82
-# %bb.83:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_85
-# %bb.84:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB11_85
-.LBB11_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_88:
-	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_89:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setge	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setge	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setge	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setge	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setge	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setge	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setge	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setge	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setge	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setge	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setge	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB11_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	jmp	.LBB11_91
-.LBB11_27:
-	cmp	edi, 7
-	je	.LBB11_132
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB11_185
-# %bb.29:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_31:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_31
-# %bb.32:
-	add	r15, 1
-.LBB11_33:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_37
-# %bb.34:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_35:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setae	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setae	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setae	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setae	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setae	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setae	al
-	cmp	r14, qword ptr [rdx + 48]
-	setae	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setae	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setae	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setae	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setae	r12b
-	cmp	r14, qword ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setae	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_35
-# %bb.36:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_37:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.38:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_147
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB11_40
-.LBB11_99:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_103
-# %bb.100:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_101:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_101
-# %bb.102:
-	add	r15, 1
-.LBB11_103:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_107
-# %bb.104:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_105:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setae	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setae	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setae	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setae	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setae	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setae	al
-	cmp	r14w, word ptr [rdx + 12]
-	setae	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setae	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setae	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setae	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setae	r12b
-	cmp	r14w, word ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setae	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_105
-# %bb.106:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_107:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.108:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_112
-# %bb.109:
-	xor	r11d, r11d
-	jmp	.LBB11_110
-.LBB11_114:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_118
-# %bb.115:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_116:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_116
-# %bb.117:
-	add	r15, 1
-.LBB11_118:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_122
-# %bb.119:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_120:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setge	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setge	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setge	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setge	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setge	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setge	al
-	cmp	r14w, word ptr [rdx + 12]
-	setge	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setge	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setge	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setge	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setge	r12b
-	cmp	r14w, word ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setge	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_120
-# %bb.121:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_122:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.123:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_128
-# %bb.124:
-	xor	edi, edi
-	jmp	.LBB11_125
-.LBB11_149:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_153
-# %bb.150:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_151:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_151
-# %bb.152:
-	add	r15, 1
-.LBB11_153:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_157
-# %bb.154:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_155:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setge	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setge	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setge	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setge	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setge	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setge	al
-	cmp	r14, qword ptr [rdx + 48]
-	setge	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setge	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setge	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setge	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setge	r12b
-	cmp	r14, qword ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setge	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_155
-# %bb.156:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_157:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.158:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_162
-# %bb.159:
-	xor	edi, edi
-	jmp	.LBB11_160
-.LBB11_164:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB11_168
-# %bb.165:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_166:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_166
-# %bb.167:
-	add	r15, 1
-.LBB11_168:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_172
-# %bb.169:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_170:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	setae	r9b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	setae	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setae	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	setae	bl
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r12b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setae	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	setae	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r8b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	setae	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setae	r15b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setae	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	setae	r14b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB11_170
-# %bb.171:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB11_172:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.173:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_177
-# %bb.174:
-	xor	r11d, r11d
-	jmp	.LBB11_175
-.LBB11_56:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_58
-# %bb.59:
-	add	r15, 1
-.LBB11_60:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB11_61
-# %bb.62:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	jb	.LBB11_63
-# %bb.64:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_66
-# %bb.65:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB11_66
-.LBB11_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	rdi, rdx
-	mov	r13, r15
-.LBB11_69:
-	sub	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdi + 31]
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 30]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 29]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 28]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 27]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 26]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 25]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 23]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 22]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 21]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 20]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 19]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 18]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 17]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 15]
-	setae	r14b
-	cmp	r11b, byte ptr [rdi + 14]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 13]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 12]
-	setae	r12b
-	cmp	r11b, byte ptr [rdi + 11]
-	setae	r15b
-	cmp	r11b, byte ptr [rdi + 10]
-	setae	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 9]
-	setae	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 7]
-	setae	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 6]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 5]
-	setae	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 4]
-	setae	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 3]
-	setae	dl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 2]
-	setae	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 1]
-	setae	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdi + 8]
-	mov	r13, rbx
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdi + 16]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdi + 24]
-	setae	bl
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dl, 3
-	or	dl, cl
-	shl	r8b, 4
-	or	r8b, dl
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 128]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdi, 32
-	add	r13, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	jmp	.LBB11_72
-.LBB11_132:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_136
-# %bb.133:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_134:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_134
-# %bb.135:
-	add	r15, 1
-.LBB11_136:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_140
-# %bb.137:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_138:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setge	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setge	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setge	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setge	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setge	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setge	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setge	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setge	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setge	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setge	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setge	r12b
-	cmp	r14d, dword ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setge	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_138
-# %bb.139:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_145
-# %bb.142:
-	xor	edi, edi
-	jmp	.LBB11_143
-.LBB11_9:
-	mov	r13, r15
-.LBB11_91:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB11_185
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB11_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB11_97
-.LBB11_61:
-	mov	r13, r15
-	mov	rdi, rdx
-.LBB11_72:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB11_185
-# %bb.73:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB11_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB11_78
-.LBB11_130:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_131:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_131
-.LBB11_24:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.25:
-	xor	eax, eax
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_179:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_180:                             # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_180
-.LBB11_181:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.182:
-	xor	eax, eax
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_147:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_148:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_148
-.LBB11_40:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.41:
-	xor	eax, eax
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_112:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_113:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_113
-.LBB11_110:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.111:
-	xor	eax, eax
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_128:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_129:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_129
-.LBB11_125:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.126:
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB11_127
-.LBB11_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_163:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_163
-.LBB11_160:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.161:
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_127
-.LBB11_177:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_178:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_178
-.LBB11_175:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.176:
-	xor	eax, eax
-	vucomiss	xmm0, dword ptr [rdx]
-.LBB11_183:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB11_184
-.LBB11_145:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_146:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_146
-.LBB11_143:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.144:
-	cmp	r14d, dword ptr [rdx]
-.LBB11_127:
-	setge	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB11_184:
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB11_185:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB11_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_95:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setge	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB11_95
-# %bb.96:
-	add	rdx, rsi
-.LBB11_97:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.98:
-	cmp	r11b, byte ptr [rdx]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB11_80
-.LBB11_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	.p2align	4, 0x90
-.LBB11_76:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r11b, byte ptr [rdi + r9]
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rsi, r9
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r13 + rsi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r13 + rsi], dl
-	cmp	r11b, byte ptr [rdi + rax + 1]
-	lea	r9, [rax + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r13 + rsi], al
-	cmp	r10, r9
-	jne	.LBB11_76
-# %bb.77:
-	add	rdi, r9
-.LBB11_78:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.79:
-	xor	eax, eax
-	cmp	r11b, byte ptr [rdi]
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB11_80:
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB11_185
-.LBB11_85:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_86:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 544
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 576
-	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	r13, rax
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 640
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 704
-	mov	qword ptr [rsp + 240], r9       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 736
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 768
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 800
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 832
-	mov	qword ptr [rsp + 136], r12      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 864
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	rdi, rax
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 928
-	mov	rsi, rax
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	or	rbx, 992
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
-	mov	r12, rbx
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	mov	r13, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, r13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
-	mov	rbx, r10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
-	mov	r9, r14
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	mov	r13, r11
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
-	mov	r14, rsi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
-	mov	rdi, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	r14, rsi
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
-	mov	r10, r12
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 15]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 16]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
-	mov	r12, r13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	movzx	edi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
-	movzx	edi, byte ptr [rdx + r11 + 19]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 20]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 20]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
-	mov	r13, r12
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r14, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r14 + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
-	mov	r10, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
-	movzx	edi, byte ptr [rdx + r14 + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + r10 + 29]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
-	movzx	edi, byte ptr [rdx + rcx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rcx, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpcmpgtb	ymm0, ymm13, ymm2
-	vmovdqa	ymm1, ymmword ptr [rsp + 1216]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm1, ymm2
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vmovdqa	ymm3, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm3, ymm2
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI11_1] # ymm13 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm13
-	vmovdqa	ymm3, ymmword ptr [rsp + 480]   # 32-byte Reload
-	vpcmpgtb	ymm12, ymm3, ymm2
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_2] # ymm9 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm14, ymm2
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm12, ymm12, ymm12
-	vpsubb	ymm0, ymm0, ymm12
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm15, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_4] # ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm6
-	vmovdqa	ymm12, ymmword ptr [rsp + 448]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 512]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI11_6] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm2
-	vmovdqa	ymm12, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm6
-	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm1
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm2
-	vmovdqa	ymm14, ymmword ptr [rsp + 896]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm13
-	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm2
-	vpandn	ymm14, ymm14, ymm9
-	vpor	ymm14, ymm15, ymm14
-	vmovdqa	ymm15, ymmword ptr [rsp + 768]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm15, ymm2
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm8
-	vpor	ymm7, ymm14, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm2
-	vmovdqa	ymm15, ymm6
-	vpandn	ymm14, ymm14, ymm6
-	vpcmpgtb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm3
-	vpor	ymm10, ymm14, ymm10
-	vpcmpgtb	ymm11, ymm11, ymm2
-	vpandn	ymm11, ymm11, ymm1
-	vmovdqa	ymm14, ymm1
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpcmpgtb	ymm9, ymm1, ymm2
-	vmovdqa	ymm1, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vpcmpgtb	ymm8, ymm1, ymm2
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpcmpgtb	ymm5, ymm1, ymm2
-	vpandn	ymm5, ymm5, ymm13
-	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpcmpgtb	ymm6, ymm1, ymm2
-	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI11_2]
-	vpor	ymm5, ymm5, ymm6
-	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpcmpgtb	ymm3, ymm1, ymm2
-	vpandn	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymmword ptr [rip + .LCPI11_7]
-	vpor	ymm3, ymm5, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpcmpgtb	ymm4, ymm1, ymm2
-	vpandn	ymm4, ymm4, ymm15
-	vmovdqa	ymm1, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpcmpgtb	ymm1, ymm1, ymm2
-	vpandn	ymm1, ymm1, ymmword ptr [rip + .LCPI11_5]
-	vpor	ymm1, ymm4, ymm1
-	vmovdqa	ymm4, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm4, ymm2
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB11_86
-# %bb.87:
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB11_88
-	jmp	.LBB11_91
-.LBB11_66:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_67:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	or	rax, 320
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm5, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 544
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	r13, rax
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 608
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 640
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 160], r10      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 704
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 736
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 768
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 800
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 832
-	mov	qword ptr [rsp + 184], r9       # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 864
-	mov	qword ptr [rsp + 176], r12      # 8-byte Spill
-	mov	rsi, rbx
-	or	rsi, 896
-	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 928
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	or	rbx, 992
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	vpinsrb	xmm9, xmm3, byte ptr [rdx + rdi], 1
-	vpinsrb	xmm3, xmm9, byte ptr [rdx + r13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 15
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 1
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 2
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 14
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13], 15
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 15
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + r12 + 1], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 1], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 1], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
-	mov	r11, rax
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 9
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 15
-	vmovdqa	xmm4, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 14
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 15
-	vpinsrb	xmm5, xmm11, byte ptr [rdx + r9 + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 4
-	mov	r11, r15
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 12
-	mov	r13, rbx
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 14
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rcx + 3], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 3], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 3], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 3], 15
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 2
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 9
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 10
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 15
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rdx + r10 + 4], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 9
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 12
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 4], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 4], 15
-	vpinsrb	xmm5, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 5], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 12
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 13
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 15
-	vpinsrb	xmm6, xmm12, byte ptr [rdx + r10 + 5], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 4
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 11
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 14
-	vinserti128	ymm14, ymm4, xmm3, 1
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm12, edi
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rdx + r15 + 6], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 8
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 13
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 6], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 6], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 10
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 14
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 13
-	vinserti128	ymm3, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm1, byte ptr [rdx + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 7], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm9, byte ptr [rdx + rax + 8], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 3
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 8], 4
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 8
-	mov	rax, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 10
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 11
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 15
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + rsi + 8], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 2
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 3
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 8], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 8], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 7
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 14
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm8, byte ptr [rdx + rsi + 9], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
-	mov	r12, rcx
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 5
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm11, byte ptr [rdx + r13 + 9], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 6
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	vinserti128	ymm3, ymm3, xmm7, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm6, edi
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm12, byte ptr [rdx + r10 + 10], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	r9, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 4
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 11
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 15
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 7
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
-	mov	r13, rcx
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, r10
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r10 + 12], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 4
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 9
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 12], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 15
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 12], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 3
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 12], 6
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 12], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 12], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 12
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 14
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 15
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 14
-	vinserti128	ymm2, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm2   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm2, edi
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 14], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 14], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 14], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 14
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 3
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 15], 7
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 15
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 15], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 12
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 15], 15
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rcx + 16]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 9
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 15
-	movzx	edi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 16], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 16], 15
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 17]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 2
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm4, edi
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 17], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 6
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 11
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 12
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 4
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 18], 12
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 13
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 18], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, edi
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 6
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 10
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm4, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 19], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 5
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 14
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 20], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 15
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r12 + 21]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 6
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 15
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 21], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 9
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 21], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 11
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 21], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r12 + 22]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 12
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm2, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 22], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 3
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 22], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 5
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 6
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 23]
-	vmovd	xmm4, edi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 6
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 23], 15
-	vinserti128	ymm11, ymm2, xmm1, 1
-	vinserti128	ymm12, ymm4, xmm3, 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 24]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 10
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 24], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 24], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 9
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 24], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 24], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 14
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 24], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 2
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 5
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 14
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 25]
-	vmovd	xmm4, edi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 25], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 12
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm10, ymm2, xmm1, 1
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + r10 + 25], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm1   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 10
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 13
-	mov	rax, rcx
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	mov	rsi, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 15
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 26], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 3
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 26], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 6
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 14
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 27]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm4, edi
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 27], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 27], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 28]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 4
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 15
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 28]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 6
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 28], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 28], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 14
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 15
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 12
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 15
-	movzx	edi, byte ptr [rdx + rbx + 29]
-	vmovd	xmm4, edi
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 7
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 29], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 30]
-	vmovd	xmm1, edi
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	edi, byte ptr [rdx + rax + 31]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 31], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 31], 12
-	mov	rax, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 31], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rcx + 30]
-	vmovd	xmm3, eax
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + rcx + 31]
-	vmovd	xmm4, eax
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
-	mov	rax, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm1, ymm3, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
-	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI11_0] # ymm7 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpand	ymm2, ymm2, ymm7
-	vpsubb	ymm1, ymm2, ymm1
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI11_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm2, ymm8, ymm2
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm15, ymm15, ymm5
-	vpor	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpmaxub	ymm2, ymm14, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm2, ymm2, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_4] # ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm2, ymm15, ymm2
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_5] # ymm4 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm2, ymm9, ymm2
-	vpor	ymm2, ymm1, ymm2
-	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm7
-	vpsubb	ymm1, ymm15, ymm1
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm5
-	vpor	ymm14, ymm15, ymm14
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm14, ymm14, ymm15
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm9
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm7
-	vpsubb	ymm14, ymm15, ymm14
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpmaxub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpand	ymm13, ymm13, ymm5
-	vpor	ymm13, ymm15, ymm13
-	vpor	ymm13, ymm14, ymm13
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm14, ymm14, ymm15
-	vpmaxub	ymm11, ymm11, ymm0
-	vpcmpeqb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm4
-	vpor	ymm11, ymm14, ymm11
-	vpor	ymm11, ymm13, ymm11
-	vpmaxub	ymm12, ymm12, ymm0
-	vpcmpeqb	ymm12, ymm12, ymm0
-	vmovdqa	ymm13, ymm9
-	vpand	ymm12, ymm12, ymm9
-	vpor	ymm11, ymm11, ymm12
-	vpmaxub	ymm10, ymm10, ymm0
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vpmaxub	ymm9, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm7
-	vpsubb	ymm9, ymm9, ymm10
-	vpmaxub	ymm7, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpand	ymm7, ymm8, ymm7
-	vpmaxub	ymm8, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm8, ymm8, ymm5
-	vpor	ymm7, ymm8, ymm7
-	vpor	ymm7, ymm9, ymm7
-	vpmaxub	ymm5, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpeqb	ymm5, ymm0, ymm5
-	vpand	ymm5, ymm5, ymm6
-	vpmaxub	ymm6, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpcmpeqb	ymm6, ymm0, ymm6
-	vpand	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpmaxub	ymm3, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpcmpeqb	ymm3, ymm0, ymm3
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpor	ymm3, ymm7, ymm3
-	vpmaxub	ymm4, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpcmpeqb	ymm4, ymm0, ymm4
-	vpand	ymm4, ymm13, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
-	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
-	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
-	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
-	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
-	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
-	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
-	vinserti128	ymm3, ymm5, xmm2, 1
-	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
-	vinserti128	ymm5, ymm4, xmm1, 1
-	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm5
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm3
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB11_67
-# %bb.68:
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	rdi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB11_69
-	jmp	.LBB11_72
-.Lfunc_end11:
-	.size	comparison_greater_equal_scalar_arr_avx2, .Lfunc_end11-comparison_greater_equal_scalar_arr_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
deleted file mode 100644
index 762c9e85c5f0e..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
+++ /dev/null
@@ -1,59819 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"scalar_comparison.cc"
-	.globl	comparison_equal_arr_arr_sse4   # -- Begin function comparison_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_arr_sse4,@function
-comparison_equal_arr_arr_sse4:          # @comparison_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB0_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB0_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB0_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_20
-# %bb.21:
-	add	r14, 1
-.LBB0_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_28
-	jmp	.LBB0_123
-.LBB0_29:
-	cmp	edi, 8
-	jle	.LBB0_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB0_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB0_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB0_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_48
-# %bb.49:
-	add	r14, 1
-.LBB0_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	sete	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	sete	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	sete	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	sete	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_56
-	jmp	.LBB0_123
-.LBB0_2:
-	cmp	edi, 2
-	je	.LBB0_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB0_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_6
-# %bb.7:
-	add	r14, 1
-.LBB0_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_14
-	jmp	.LBB0_123
-.LBB0_30:
-	cmp	edi, 7
-	je	.LBB0_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB0_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_34
-# %bb.35:
-	add	r14, 1
-.LBB0_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_42
-	jmp	.LBB0_123
-.LBB0_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_70
-# %bb.71:
-	add	r14, 1
-.LBB0_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_78
-	jmp	.LBB0_123
-.LBB0_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_81
-# %bb.82:
-	add	r14, 1
-.LBB0_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_89
-	jmp	.LBB0_123
-.LBB0_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_103
-# %bb.104:
-	add	r14, 1
-.LBB0_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_111
-	jmp	.LBB0_123
-.LBB0_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_114
-# %bb.115:
-	add	r14, 1
-.LBB0_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	sete	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	sete	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	sete	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_122
-	jmp	.LBB0_123
-.LBB0_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_59
-# %bb.60:
-	add	r14, 1
-.LBB0_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_67
-	jmp	.LBB0_123
-.LBB0_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_92
-# %bb.93:
-	add	r14, 1
-.LBB0_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_100
-.LBB0_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	comparison_equal_arr_arr_sse4, .Lfunc_end0-comparison_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_equal_arr_scalar_sse4
-.LCPI1_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_1:
-	.zero	16,252
-.LCPI1_2:
-	.zero	16,248
-.LCPI1_3:
-	.zero	16,240
-.LCPI1_4:
-	.zero	16,224
-.LCPI1_5:
-	.zero	16,192
-.LCPI1_6:
-	.zero	16,128
-.LCPI1_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI1_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_10:
-	.zero	16,1
-.LCPI1_11:
-	.zero	16,4
-.LCPI1_12:
-	.zero	16,8
-.LCPI1_13:
-	.zero	16,16
-.LCPI1_14:
-	.zero	16,32
-.LCPI1_15:
-	.zero	16,64
-	.text
-	.globl	comparison_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_scalar_sse4,@function
-comparison_equal_arr_scalar_sse4:       # @comparison_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 320
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB1_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB1_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB1_100
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB1_123
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB1_202
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_15
-# %bb.16:
-	add	r14, 1
-.LBB1_17:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_21
-# %bb.18:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_19:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_19
-# %bb.20:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_21:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.22:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB1_23
-# %bb.146:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_147
-	jmp	.LBB1_24
-.LBB1_26:
-	cmp	edi, 8
-	jle	.LBB1_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB1_162
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB1_174
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB1_202
-# %bb.45:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB1_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_47
-# %bb.48:
-	add	r14, 1
-.LBB1_49:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_53
-# %bb.50:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_51:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	sete	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	sete	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	sete	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	sete	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	sete	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	sete	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	sete	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB1_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB1_53:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_197
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB1_199
-.LBB1_2:
-	cmp	edi, 2
-	je	.LBB1_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB1_202
-# %bb.4:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_6
-# %bb.7:
-	add	r14, 1
-.LBB1_8:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_9
-# %bb.82:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB1_83
-# %bb.84:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_86
-# %bb.85:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_86
-.LBB1_83:
-	xor	eax, eax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-.LBB1_89:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_90:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	sete	sil
-	cmp	byte ptr [rcx + 2], r11b
-	sete	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	sete	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	sete	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	sete	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	sete	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	sete	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	sete	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	sete	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB1_92
-.LBB1_27:
-	cmp	edi, 7
-	je	.LBB1_148
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB1_202
-# %bb.29:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_31
-# %bb.32:
-	add	r14, 1
-.LBB1_33:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_37
-# %bb.34:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_35:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_35
-# %bb.36:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_37:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.38:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB1_39
-# %bb.160:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_161
-	jmp	.LBB1_40
-.LBB1_56:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_58:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_58
-# %bb.59:
-	add	r14, 1
-.LBB1_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_61
-# %bb.62:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB1_63
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_66
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_66
-.LBB1_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-.LBB1_69:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	sete	sil
-	cmp	byte ptr [rcx + 2], r11b
-	sete	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	sete	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	sete	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	sete	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	sete	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	sete	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	sete	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	sete	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 80], rdx       # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB1_72
-.LBB1_148:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_152
-# %bb.149:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_150
-# %bb.151:
-	add	r14, 1
-.LBB1_152:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_156
-# %bb.153:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_154:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_154
-# %bb.155:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_156:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.157:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_158
-.LBB1_23:
-	xor	r11d, r11d
-	jmp	.LBB1_24
-.LBB1_100:
-	movzx	r13d, word ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_104
-# %bb.101:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_102:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_102
-# %bb.103:
-	add	r14, 1
-.LBB1_104:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_105
-# %bb.106:
-	cmp	r11, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	jb	.LBB1_107
-# %bb.108:
-	mov	rax, r11
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_110
-# %bb.109:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB1_110
-.LBB1_107:
-	xor	eax, eax
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-.LBB1_113:
-	sub	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_114:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	r8b
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	cl
-	cmp	word ptr [rsi + 20], r13w
-	sete	sil
-	cmp	word ptr [r11 + 22], r13w
-	sete	r9b
-	cmp	word ptr [r11 + 24], r13w
-	sete	r10b
-	cmp	word ptr [r11 + 26], r13w
-	sete	r12b
-	cmp	word ptr [r11 + 28], r13w
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	sete	dil
-	cmp	word ptr [r11 + 32], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	sete	r15b
-	cmp	word ptr [r11 + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	sete	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_114
-# %bb.115:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	jmp	.LBB1_116
-.LBB1_123:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_127
-# %bb.124:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_125:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_125
-# %bb.126:
-	add	r14, 1
-.LBB1_127:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_128
-# %bb.129:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	jb	.LBB1_130
-# %bb.131:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_133
-# %bb.132:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rsi
-	jbe	.LBB1_133
-.LBB1_130:
-	xor	eax, eax
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB1_136:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_137:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	r8b
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	cl
-	cmp	word ptr [rsi + 20], r13w
-	sete	sil
-	cmp	word ptr [r11 + 22], r13w
-	sete	r9b
-	cmp	word ptr [r11 + 24], r13w
-	sete	r10b
-	cmp	word ptr [r11 + 26], r13w
-	sete	r12b
-	cmp	word ptr [r11 + 28], r13w
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	sete	dil
-	cmp	word ptr [r11 + 32], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	sete	r15b
-	cmp	word ptr [r11 + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	sete	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_137
-# %bb.138:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB1_139
-.LBB1_162:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_166
-# %bb.163:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_164:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_164
-# %bb.165:
-	add	r14, 1
-.LBB1_166:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_170
-# %bb.167:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_168:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_168
-# %bb.169:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_170:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.171:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_172
-.LBB1_39:
-	xor	r11d, r11d
-	jmp	.LBB1_40
-.LBB1_174:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB1_178
-# %bb.175:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_176:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_176
-# %bb.177:
-	add	r14, 1
-.LBB1_178:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_179
-# %bb.180:
-	cmp	r11, 4
-	jb	.LBB1_181
-# %bb.182:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_184
-# %bb.183:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB1_184
-.LBB1_181:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r15, r14
-.LBB1_187:
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_188:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	sete	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	sete	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	sete	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	sete	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	sete	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	sete	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	sete	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB1_188
-# %bb.189:
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	jmp	.LBB1_190
-.LBB1_9:
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-.LBB1_92:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.93:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_95
-# %bb.94:
-	xor	r9d, r9d
-	jmp	.LBB1_98
-.LBB1_61:
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-.LBB1_72:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.73:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB1_78
-.LBB1_105:
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-.LBB1_116:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.117:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_121
-# %bb.118:
-	xor	r14d, r14d
-	jmp	.LBB1_119
-.LBB1_128:
-	mov	r12, r14
-.LBB1_139:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.140:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_144
-# %bb.141:
-	xor	r14d, r14d
-	jmp	.LBB1_142
-.LBB1_179:
-	mov	r15, r14
-	mov	rbx, rsi
-.LBB1_190:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.191:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_195
-# %bb.192:
-	xor	esi, esi
-	jmp	.LBB1_193
-.LBB1_158:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_159
-.LBB1_24:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.25:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB1_201
-.LBB1_95:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_96:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB1_96
-# %bb.97:
-	add	rsi, r9
-.LBB1_98:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.99:
-	cmp	byte ptr [rsi], r11b
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	jmp	.LBB1_80
-.LBB1_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_76:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB1_76
-# %bb.77:
-	add	rsi, r9
-.LBB1_78:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.79:
-	cmp	byte ptr [rsi], r11b
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-.LBB1_80:
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	jmp	.LBB1_81
-.LBB1_197:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_198:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_198
-.LBB1_199:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.200:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB1_201
-.LBB1_172:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_173:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_173
-.LBB1_40:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.41:
-	cmp	qword ptr [rsi], r13
-.LBB1_201:
-	sete	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_121:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_122:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r11 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r11 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r9, r14
-	jne	.LBB1_122
-.LBB1_119:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.120:
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-.LBB1_81:
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_144:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB1_145:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB1_145
-.LBB1_142:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.143:
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_195:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB1_196:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB1_196
-.LBB1_193:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.194:
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-.LBB1_202:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB1_86:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_87:                               # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	r11, rdi
-	mov	r14, rdi
-	mov	rbx, rdi
-	mov	r15, rdi
-	mov	r10, rdi
-	mov	r8, rdi
-	mov	r12, rdi
-	mov	r9, rdi
-	mov	rdx, rdi
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	mov	qword ptr [rsp + 56], rdi       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	or	r11, 96
-	or	rbx, 128
-	or	r14, 160
-	or	r15, 192
-	or	r10, 224
-	or	r12, 256
-	or	r9, 288
-	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
-	or	rdx, 320
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	or	rdx, 352
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	or	r8, 384
-	mov	rax, rdi
-	or	rax, 416
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 448
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 480
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + rcx], 2
-	mov	qword ptr [rsp + 104], r11      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 3
-	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + rbx], 4
-	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r14], 5
-	pinsrb	xmm15, byte ptr [rsi + r15], 6
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rsi + r10], 7
-	pinsrb	xmm15, byte ptr [rsi + r12], 8
-	pinsrb	xmm15, byte ptr [rsi + r9], 9
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 10
-	pinsrb	xmm15, byte ptr [rsi + rdx], 11
-	pinsrb	xmm15, byte ptr [rsi + r8], 12
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 14
-	pinsrb	xmm15, byte ptr [rsi + rax], 15
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 2
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 4
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 5
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 6
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 7
-	mov	r14, rdi
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 8
-	mov	rbx, r12
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 9
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 11
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 12
-	mov	r10, r8
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm14, edx
-	pcmpeqb	xmm15, xmm9
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 12
-	mov	r10, r9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 14
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm15, edx
-	mov	rdx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 1
-	mov	rax, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 3
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 4
-	mov	r11, rcx
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 10
-	mov	r14, r15
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 11
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 14
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
-	mov	r15, r10
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 14
-	mov	r10, r12
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 15
-	por	xmm6, xmm7
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 17]
-	movd	xmm0, edx
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	edx, byte ptr [rsi + rdi + 18]
-	movd	xmm5, edx
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 3
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 5
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 6
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 8
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 12
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 13
-	mov	r12, r15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 14
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm7, edx
-	por	xmm8, xmm6
-	movzx	edx, byte ptr [rsi + rcx + 20]
-	movd	xmm6, edx
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 3
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 5
-	mov	rcx, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 6
-	mov	rdi, r8
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 8
-	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 12
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 13
-	mov	r13, r12
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 14
-	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 1
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 7
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 12
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 14
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 21]
-	movd	xmm2, edx
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 5
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 7
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 8
-	mov	r14, r10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 9
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 11
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 12
-	mov	r10, r13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 13
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 224], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	edx, byte ptr [rsi + rbx + 22]
-	movd	xmm3, edx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 1
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 4
-	mov	r9, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 7
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
-	mov	rbx, r14
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 11
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 12
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 192]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
-	mov	r12, r8
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 6
-	mov	r8, r15
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 9
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 10
-	mov	rbx, rdx
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 13
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
-	por	xmm10, xmm4
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm8, edx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 192], xmm10  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 24]
-	movd	xmm10, edx
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 3
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 4
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 6
-	mov	rdi, r8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 7
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 8
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 10
-	mov	r14, r15
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 13
-	mov	r11, r10
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 15
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 1
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 2
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 3
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 4
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 13
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm1, edx
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
-	por	xmm12, xmm13
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm11, edx
-	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 1
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
-	mov	r10, r13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 3
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
-	por	xmm12, xmmword ptr [rsp + 192]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r12 + 27]
-	movd	xmm9, edx
-	movdqa	xmm13, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
-	por	xmm14, xmm4
-	movzx	edx, byte ptr [rsi + r12 + 28]
-	movd	xmm4, edx
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 192], xmm13  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r12 + 29]
-	movd	xmm13, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm12, edx
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
-	movzx	edx, byte ptr [rsi + rax + 31]
-	movd	xmm0, edx
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
-	por	xmm5, xmmword ptr [rsp + 192]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 224]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	jne	.LBB1_87
-# %bb.88:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB1_89
-	jmp	.LBB1_92
-.LBB1_66:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_67:                               # =>This Inner Loop Header: Depth=1
-	mov	r15, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r15, 5
-	mov	rdi, r15
-	mov	rcx, r15
-	mov	r10, r15
-	mov	r8, r15
-	mov	r12, r15
-	mov	r9, r15
-	mov	r11, r15
-	mov	rbx, r15
-	mov	r14, r15
-	mov	rax, r15
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	movzx	edx, byte ptr [rsi + r15]
-	movd	xmm15, edx
-	movzx	edx, byte ptr [rsi + r15 + 1]
-	movd	xmm5, edx
-	movzx	edx, byte ptr [rsi + r15 + 2]
-	movd	xmm6, edx
-	movzx	edx, byte ptr [rsi + r15 + 3]
-	movd	xmm2, edx
-	movzx	edx, byte ptr [rsi + r15 + 4]
-	movd	xmm1, edx
-	movzx	edx, byte ptr [rsi + r15 + 5]
-	movd	xmm8, edx
-	movzx	edx, byte ptr [rsi + r15 + 6]
-	movd	xmm3, edx
-	movzx	edx, byte ptr [rsi + r15 + 7]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 8]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 9]
-	movd	xmm10, edx
-	movzx	edx, byte ptr [rsi + r15 + 10]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 11]
-	movd	xmm11, edx
-	movzx	edx, byte ptr [rsi + r15 + 12]
-	movd	xmm13, edx
-	movzx	edx, byte ptr [rsi + r15 + 13]
-	movd	xmm12, edx
-	movzx	edx, byte ptr [rsi + r15 + 14]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	r13, r15
-	or	r13, 32
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	or	rdi, 64
-	or	rcx, 96
-	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
-	or	r10, 128
-	or	r8, 160
-	or	r12, 192
-	or	r9, 224
-	or	r11, 256
-	or	rbx, 288
-	or	r14, 320
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	or	rdx, 384
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	mov	rax, r15
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, r15
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, r15
-	or	rax, 480
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + rdi], 2
-	pinsrb	xmm15, byte ptr [rsi + rcx], 3
-	pinsrb	xmm15, byte ptr [rsi + r10], 4
-	mov	r15, r8
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r8], 5
-	mov	qword ptr [rsp + 104], r12      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r12], 6
-	mov	r8, r9
-	pinsrb	xmm15, byte ptr [rsi + r9], 7
-	mov	r9, r11
-	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 8
-	mov	qword ptr [rsp + 64], rbx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + rbx], 9
-	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r14], 10
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 11
-	pinsrb	xmm15, byte ptr [rsi + rdx], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 14
-	pinsrb	xmm15, byte ptr [rsi + rax], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 4
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 5
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 6
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 7
-	mov	r15, r8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 9
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 11
-	mov	r8, r13
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 13
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm14, edx
-	pcmpeqb	xmm15, xmm9
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 2
-	mov	r12, r11
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 3
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 5
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 6
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 7
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 10
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 11
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 12
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm15, edx
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 1
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 2
-	mov	rax, r12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 3
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 4
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 5
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 6
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 7
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 10
-	mov	r14, r9
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 11
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 5
-	mov	rcx, r11
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 6
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 7
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 10
-	mov	r12, r14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 11
-	mov	r14, r8
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 15
-	mov	r10, rdx
-	por	xmm6, xmm7
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 17]
-	movd	xmm0, edx
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	edx, byte ptr [rsi + rbx + 18]
-	movd	xmm5, edx
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 13
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 14
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	edx, byte ptr [rsi + rbx + 19]
-	movd	xmm7, edx
-	por	xmm8, xmm6
-	movzx	edx, byte ptr [rsi + rbx + 20]
-	movd	xmm6, edx
-	mov	rdx, r8
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 1
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 5
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 7
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 12
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 2
-	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 5
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 6
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 7
-	mov	r11, r12
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 10
-	mov	r12, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 13
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 14
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 21]
-	movd	xmm2, edx
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 2
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 3
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 7
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 9
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 10
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + r14 + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	edx, byte ptr [rsi + rbx + 22]
-	movd	xmm3, edx
-	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 1
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 3
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 6
-	mov	rbx, r11
-	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 7
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 8
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
-	mov	r10, rbx
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 8
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 11
-	mov	r13, r14
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
-	por	xmm10, xmm4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 23]
-	movd	xmm8, edx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rdi + 24]
-	movd	xmm10, edx
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 2
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 4
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 6
-	mov	r14, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 7
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 2
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 4
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 9
-	mov	rbx, r8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 10
-	mov	r8, r9
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 15
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 2
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 9
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 13
-	mov	r13, r9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
-	por	xmm13, xmm11
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm1, edx
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
-	por	xmm12, xmm13
-	movzx	edx, byte ptr [rsi + rcx + 26]
-	movd	xmm11, edx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	mov	rdi, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 7
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r12 + 27]
-	movd	xmm9, edx
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
-	por	xmm14, xmm4
-	movzx	edx, byte ptr [rsi + r12 + 28]
-	movd	xmm4, edx
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r12 + 29]
-	movd	xmm13, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm12, edx
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
-	movzx	edx, byte ptr [rsi + rax + 31]
-	movd	xmm0, edx
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	jne	.LBB1_67
-# %bb.68:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB1_69
-	jmp	.LBB1_72
-.LBB1_110:
-	and	r11, -8
-	mov	rax, r11
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
-	lea	rax, [r14 + 4*r11]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_111:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	edx, word ptr [rsi + r15 + 4]
-	movzx	r11d, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, edx
-	movzx	edx, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, r11d
-	movzx	eax, word ptr [rsi + r15 + 16]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r11d, word ptr [rsi + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, edx
-	movzx	edx, word ptr [rsi + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r11d
-	movzx	r11d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r11d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	r11d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, r10d
-	movzx	eax, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, edx
-	movzx	edx, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, eax
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, edx
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	jne	.LBB1_111
-# %bb.112:
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB1_113
-	jmp	.LBB1_116
-.LBB1_133:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_134:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	edx, word ptr [rsi + r15 + 4]
-	movzx	r11d, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, edx
-	movzx	edx, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, r11d
-	movzx	eax, word ptr [rsi + r15 + 16]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r11d, word ptr [rsi + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, edx
-	movzx	edx, word ptr [rsi + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r11d
-	movzx	r11d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r11d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	r11d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, r10d
-	movzx	eax, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, edx
-	movzx	edx, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, eax
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, edx
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	jne	.LBB1_134
-# %bb.135:
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB1_136
-	jmp	.LBB1_139
-.LBB1_184:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI1_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB1_185:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB1_185
-# %bb.186:
-	cmp	r11, r8
-	jne	.LBB1_187
-	jmp	.LBB1_190
-.Lfunc_end1:
-	.size	comparison_equal_arr_scalar_sse4, .Lfunc_end1-comparison_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_equal_scalar_arr_sse4
-.LCPI2_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_1:
-	.zero	16,252
-.LCPI2_2:
-	.zero	16,248
-.LCPI2_3:
-	.zero	16,240
-.LCPI2_4:
-	.zero	16,224
-.LCPI2_5:
-	.zero	16,192
-.LCPI2_6:
-	.zero	16,128
-.LCPI2_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI2_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_10:
-	.zero	16,1
-.LCPI2_11:
-	.zero	16,4
-.LCPI2_12:
-	.zero	16,8
-.LCPI2_13:
-	.zero	16,16
-.LCPI2_14:
-	.zero	16,32
-.LCPI2_15:
-	.zero	16,64
-	.text
-	.globl	comparison_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_scalar_arr_sse4,@function
-comparison_equal_scalar_arr_sse4:       # @comparison_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	cmp	edi, 6
-	jg	.LBB2_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB2_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB2_83
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB2_95
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB2_176
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_9
-# %bb.6:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_7
-# %bb.8:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_13
-# %bb.10:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB2_82
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_16
-	jmp	.LBB2_152
-.LBB2_17:
-	cmp	edi, 8
-	jle	.LBB2_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB2_107
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB2_118
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB2_176
-# %bb.21:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB2_25
-# %bb.22:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_23:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_23
-# %bb.24:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_25:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_29
-# %bb.26:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_27:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	sete	r8b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	sete	r11b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	sete	al
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	sete	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	sete	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	sete	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	sete	r15b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r14b, 7
-	or	r14b, al
-	shl	r11b, 2
-	or	r11b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r11d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r14b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r8], r14b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r8 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r8 + 2], r15b
-	mov	byte ptr [r8 + 3], bl
-	add	rdx, 256
-	add	r8, 4
-	mov	qword ptr [rsp], r8             # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB2_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB2_29:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_161
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB2_163
-.LBB2_32:
-	cmp	edi, 2
-	je	.LBB2_60
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB2_176
-# %bb.34:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_38
-# %bb.35:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_36
-# %bb.37:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_38:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_130
-# %bb.39:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB2_42
-# %bb.40:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_185
-# %bb.41:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_185
-.LBB2_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-.LBB2_43:
-	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r14b, byte ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 1]
-	sete	dil
-	cmp	r14b, byte ptr [rsi + 2]
-	sete	r11b
-	cmp	r14b, byte ptr [rsi + 3]
-	sete	r15b
-	cmp	r14b, byte ptr [rsi + 4]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 5]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 6]
-	sete	bl
-	cmp	r14b, byte ptr [rsi + 7]
-	sete	r13b
-	cmp	r14b, byte ptr [rsi + 8]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	sete	al
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	sete	r10b
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	jmp	.LBB2_131
-.LBB2_46:
-	cmp	edi, 7
-	je	.LBB2_72
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB2_176
-# %bb.48:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_52
-# %bb.49:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_50
-# %bb.51:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_52:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_56
-# %bb.53:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_54:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_56:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB2_117
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_59
-	jmp	.LBB2_167
-.LBB2_60:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_64
-# %bb.61:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_62
-# %bb.63:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_64:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_134
-# %bb.65:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB2_68
-# %bb.66:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_188
-# %bb.67:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_188
-.LBB2_68:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-.LBB2_69:
-	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r14b, byte ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 1]
-	sete	dil
-	cmp	r14b, byte ptr [rsi + 2]
-	sete	r11b
-	cmp	r14b, byte ptr [rsi + 3]
-	sete	r15b
-	cmp	r14b, byte ptr [rsi + 4]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 5]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 6]
-	sete	bl
-	cmp	r14b, byte ptr [rsi + 7]
-	sete	r13b
-	cmp	r14b, byte ptr [rsi + 8]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	sete	al
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	sete	r10b
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	jmp	.LBB2_135
-.LBB2_72:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_76
-# %bb.73:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_74
-# %bb.75:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_76:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_80
-# %bb.77:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_78:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_80:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB2_150
-.LBB2_82:
-	xor	edi, edi
-	jmp	.LBB2_152
-.LBB2_83:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_87
-# %bb.84:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_85
-# %bb.86:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_87:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_138
-# %bb.88:
-	cmp	r14, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	jb	.LBB2_91
-# %bb.89:
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_191
-# %bb.90:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r14]
-	cmp	rax, rdx
-	jbe	.LBB2_191
-.LBB2_91:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-.LBB2_92:
-	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_93:                               # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	sete	dil
-	cmp	r13w, word ptr [rsi + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	sete	al
-	cmp	r13w, word ptr [rsi + 14]
-	sete	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	sete	cl
-	cmp	r13w, word ptr [rsi + 20]
-	sete	dl
-	cmp	r13w, word ptr [rsi + 22]
-	sete	sil
-	cmp	r13w, word ptr [r11 + 24]
-	sete	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	sete	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	sete	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	sete	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_93
-# %bb.94:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	jmp	.LBB2_139
-.LBB2_95:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_99
-# %bb.96:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_97
-# %bb.98:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_99:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_142
-# %bb.100:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	jb	.LBB2_103
-# %bb.101:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_194
-# %bb.102:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rax, rdx
-	jbe	.LBB2_194
-.LBB2_103:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-.LBB2_104:
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-	sub	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_105:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	sete	dil
-	cmp	r13w, word ptr [rsi + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	sete	al
-	cmp	r13w, word ptr [rsi + 14]
-	sete	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	sete	cl
-	cmp	r13w, word ptr [rsi + 20]
-	sete	dl
-	cmp	r13w, word ptr [rsi + 22]
-	sete	sil
-	cmp	r13w, word ptr [r11 + 24]
-	sete	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	sete	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	sete	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	sete	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_105
-# %bb.106:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB2_143
-.LBB2_107:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_111
-# %bb.108:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_109:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_109
-# %bb.110:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_111:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_115
-# %bb.112:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_113
-# %bb.114:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_115:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.116:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB2_165
-.LBB2_117:
-	xor	edi, edi
-	jmp	.LBB2_167
-.LBB2_118:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB2_122
-# %bb.119:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_120:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_120
-# %bb.121:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_122:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_146
-# %bb.123:
-	cmp	r14, 4
-	jb	.LBB2_126
-# %bb.124:
-	mov	rax, r14
-	shl	rax, 7
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_197
-# %bb.125:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r14]
-	cmp	rax, rdx
-	jbe	.LBB2_197
-.LBB2_126:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-.LBB2_127:
-	mov	qword ptr [rsp], r11            # 8-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	sub	r14, r8
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_128:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	sete	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	sete	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	sete	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	sete	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	sete	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	sete	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	sete	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB2_128
-# %bb.129:
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	jmp	.LBB2_147
-.LBB2_130:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_131:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.132:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB2_137
-# %bb.154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_155:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rsi + r9]
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB2_155
-	jmp	.LBB2_158
-.LBB2_134:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_135:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.136:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_156
-.LBB2_137:
-	xor	r9d, r9d
-	test	r8b, 1
-	je	.LBB2_176
-	jmp	.LBB2_160
-.LBB2_138:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_139:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.140:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_170
-# %bb.141:
-	xor	r14d, r14d
-	jmp	.LBB2_172
-.LBB2_142:
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, rdx
-.LBB2_143:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.144:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_177
-# %bb.145:
-	xor	r15d, r15d
-	jmp	.LBB2_179
-.LBB2_146:
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	mov	rbx, rdx
-.LBB2_147:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.148:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_181
-# %bb.149:
-	xor	esi, esi
-	jmp	.LBB2_183
-.LBB2_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_151:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_151
-.LBB2_152:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.153:
-	cmp	r13d, dword ptr [rdx]
-	jmp	.LBB2_169
-.LBB2_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_157:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rsi + r9]
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB2_157
-.LBB2_158:
-	add	rsi, r9
-	test	r8b, 1
-	je	.LBB2_176
-.LBB2_160:
-	cmp	r14b, byte ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	jmp	.LBB2_174
-.LBB2_161:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_162:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_162
-.LBB2_163:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.164:
-	ucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB2_169
-.LBB2_165:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_166:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_166
-.LBB2_167:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.168:
-	cmp	r13, qword ptr [rdx]
-.LBB2_169:
-	sete	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	mov	sil, byte ptr [r8 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	jmp	.LBB2_175
-.LBB2_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_171:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r11 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r11 + rdi], bl
-	add	r14, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r9, r14
-	jne	.LBB2_171
-.LBB2_172:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.173:
-	cmp	r13w, word ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-.LBB2_174:
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-.LBB2_175:
-	mov	byte ptr [r8 + rdx], bl
-.LBB2_176:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB2_177:
-	mov	r9, r8
-	and	r9, -2
-	xor	r15d, r15d
-	.p2align	4, 0x90
-.LBB2_178:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	dl
-	neg	dl
-	mov	rdi, r15
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r14 + rdi]
-	mov	ecx, r15d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r14 + rdi], bl
-	add	r15, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r9, r15
-	jne	.LBB2_178
-.LBB2_179:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.180:
-	cmp	r13w, word ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r15
-	shr	rdx, 3
-	mov	dil, byte ptr [r14 + rdx]
-	and	r15b, 7
-	mov	bl, 1
-	mov	ecx, r15d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB2_176
-.LBB2_181:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB2_182:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB2_182
-.LBB2_183:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.184:
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-	jmp	.LBB2_176
-.LBB2_185:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_186:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	rsi, rdi
-	mov	r10, rdi
-	mov	r14, rdi
-	mov	r15, rdi
-	mov	r12, rdi
-	mov	r11, rdi
-	mov	rax, rdi
-	mov	r9, rdi
-	mov	rbx, rdi
-	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	or	rsi, 64
-	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
-	mov	rcx, rdi
-	or	rcx, 96
-	or	r14, 128
-	or	r15, 160
-	or	r10, 192
-	or	r11, 224
-	or	r12, 256
-	or	r9, 288
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	or	rbx, 320
-	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	or	rbx, 352
-	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	or	r8, 384
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	or	rax, 416
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 480
-	pinsrb	xmm15, byte ptr [rdx + r13], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi], 2
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rcx], 3
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14], 4
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r15], 5
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rdx + r10], 6
-	mov	r10, r11
-	mov	qword ptr [rsp + 88], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11], 7
-	pinsrb	xmm15, byte ptr [rdx + r12], 8
-	pinsrb	xmm15, byte ptr [rdx + r9], 9
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13], 10
-	pinsrb	xmm15, byte ptr [rdx + rbx], 11
-	pinsrb	xmm15, byte ptr [rdx + r8], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi], 14
-	pinsrb	xmm15, byte ptr [rdx + rax], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 2
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 4
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 8
-	mov	r14, r12
-	mov	qword ptr [rsp + 192], r12      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 9
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 10
-	mov	r15, r13
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 12
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 13
-	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 15]
-	movd	xmm14, esi
-	pcmpeqb	xmm15, xmm9
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 1
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 3
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 4
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 6
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 8
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 9
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 13
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 14
-	mov	r9, rax
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + r12 + 16]
-	movd	xmm15, esi
-	mov	rsi, r8
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 1
-	mov	rax, r10
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 3
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 5
-	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 6
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 7
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 8
-	pinsrb	xmm2, byte ptr [rdx + r13 + 3], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
-	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 14
-	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 15
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 1
-	pinsrb	xmm1, byte ptr [rdx + rax + 4], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 3
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 6
-	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 7
-	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 8
-	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
-	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 14
-	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 15
-	mov	rcx, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	por	xmm6, xmm7
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 17]
-	movd	xmm0, esi
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	esi, byte ptr [rdx + r9 + 18]
-	movd	xmm5, esi
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 2
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 3
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rdi + 5], 5
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 6
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 8
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 14
-	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	esi, byte ptr [rdx + r9 + 19]
-	movd	xmm7, esi
-	por	xmm8, xmm6
-	movzx	esi, byte ptr [rdx + r9 + 20]
-	movd	xmm6, esi
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 2
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 3
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 4
-	mov	rcx, rdi
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 5
-	mov	rdi, r8
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
-	mov	r10, rbx
-	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 8
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 9
-	mov	rbx, r14
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 10
-	mov	rsi, r15
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 11
-	mov	r15, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 2
-	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 3
-	mov	r13, r11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 7], 9
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 10
-	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	r15, r12
-	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 1
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 2
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 3
-	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 4
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 6
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 8
-	mov	r14, r10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 10
-	mov	r12, rbx
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm3, esi
-	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 1
-	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 8], 3
-	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 5
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 6
-	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 7
-	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 8
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 9
-	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 11
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 13
-	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 14
-	mov	r10, rdi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 1
-	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 10], 3
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 4
-	mov	rax, r9
-	mov	r11, r13
-	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 5
-	mov	r9, r15
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 6
-	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 7
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 9
-	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 12
-	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 13
-	mov	r13, rbx
-	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm10, esi
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 1
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 3
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 4
-	mov	rcx, r11
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 5
-	mov	rdi, r9
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 6
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 8
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 9
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 12
-	mov	r10, rbx
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 15
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 1
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 3
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 6
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 8
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 13
-	mov	r13, r10
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 14
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 3
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
-	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 9
-	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm1, esi
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rax + 26]
-	movd	xmm11, esi
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 1
-	mov	rsi, r10
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
-	pinsrb	xmm4, byte ptr [rdx + r8 + 14], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 14], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 15
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 4
-	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
-	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
-	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
-	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
-	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 9
-	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 15], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
-	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 4
-	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
-	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
-	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
-	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 9
-	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
-	pinsrb	xmm15, byte ptr [rdx + rax + 16], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rdx + r13 + 17], 4
-	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
-	mov	rax, r8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
-	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm9, esi
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm4, esi
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm13, esi
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
-	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
-	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm12, esi
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
-	movzx	esi, byte ptr [rdx + rax + 31]
-	movd	xmm0, esi
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
-	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
-	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
-	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 9
-	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
-	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 9
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
-	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
-	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
-	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 9
-	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
-	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
-	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
-	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
-	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
-	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
-	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
-	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
-	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
-	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
-	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 9
-	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
-	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
-	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
-	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
-	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
-	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 9
-	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
-	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
-	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
-	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
-	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
-	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 9
-	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
-	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 9
-	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
-	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB2_186
-# %bb.187:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB2_43
-	jmp	.LBB2_131
-.LBB2_188:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_189:                              # =>This Inner Loop Header: Depth=1
-	mov	r15, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r15, 5
-	mov	rbx, r15
-	mov	rax, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	r8, r15
-	mov	r9, r15
-	mov	r11, r15
-	mov	r12, r15
-	mov	r10, r15
-	mov	r13, r15
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	movzx	esi, byte ptr [rdx + r15]
-	movd	xmm15, esi
-	movzx	esi, byte ptr [rdx + r15 + 1]
-	movd	xmm5, esi
-	movzx	esi, byte ptr [rdx + r15 + 2]
-	movd	xmm6, esi
-	movzx	esi, byte ptr [rdx + r15 + 3]
-	movd	xmm2, esi
-	movzx	esi, byte ptr [rdx + r15 + 4]
-	movd	xmm1, esi
-	movzx	esi, byte ptr [rdx + r15 + 5]
-	movd	xmm8, esi
-	movzx	esi, byte ptr [rdx + r15 + 6]
-	movd	xmm3, esi
-	movzx	esi, byte ptr [rdx + r15 + 7]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 8]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 9]
-	movd	xmm10, esi
-	movzx	esi, byte ptr [rdx + r15 + 10]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 11]
-	movd	xmm11, esi
-	movzx	esi, byte ptr [rdx + r15 + 12]
-	movd	xmm13, esi
-	movzx	esi, byte ptr [rdx + r15 + 13]
-	movd	xmm12, esi
-	movzx	esi, byte ptr [rdx + r15 + 14]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	r14, r15
-	or	r14, 32
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	or	rbx, 64
-	mov	qword ptr [rsp + 72], rbx       # 8-byte Spill
-	or	rax, 96
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	or	rcx, 128
-	or	rdi, 160
-	or	r8, 192
-	or	r9, 224
-	or	r11, 256
-	or	r12, 288
-	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
-	or	r10, 320
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r10, r15
-	or	r10, 352
-	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	or	r12, 384
-	mov	rsi, r15
-	or	rsi, 416
-	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
-	or	r13, 448
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	mov	rsi, r15
-	or	rsi, 480
-	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14], 1
-	pinsrb	xmm15, byte ptr [rdx + rbx], 2
-	pinsrb	xmm15, byte ptr [rdx + rax], 3
-	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rcx], 4
-	pinsrb	xmm15, byte ptr [rdx + rdi], 5
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r8], 6
-	mov	qword ptr [rsp + 208], r9       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r9], 7
-	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r14], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r15], 10
-	pinsrb	xmm15, byte ptr [rdx + r10], 11
-	mov	qword ptr [rsp + 32], r12       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r12], 12
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10], 13
-	pinsrb	xmm15, byte ptr [rdx + r13], 14
-	pinsrb	xmm15, byte ptr [rdx + rsi], 15
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 2
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 8
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 9
-	mov	rax, r14
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 12
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	movd	xmm14, esi
-	pcmpeqb	xmm15, xmm9
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 1
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 5
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 6
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 7
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 8
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + r13 + 16]
-	movd	xmm15, esi
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 1
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 2
-	mov	rcx, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 3
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 4
-	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 5
-	mov	r11, r12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 7
-	mov	rsi, r15
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 10
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 15
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 2
-	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 3
-	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 4
-	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 5
-	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 6
-	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 7
-	mov	r8, r14
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 9
-	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 10
-	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 11
-	mov	r15, r10
-	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 14
-	pinsrb	xmm1, byte ptr [rdx + rax + 4], 15
-	mov	r10, rax
-	por	xmm6, xmm7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 17]
-	movd	xmm0, esi
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	esi, byte ptr [rdx + rdi + 18]
-	movd	xmm5, esi
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 2
-	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 4
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r9 + 5], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 6
-	mov	rcx, r8
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 7
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 10
-	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
-	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 14
-	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	esi, byte ptr [rdx + rdi + 19]
-	movd	xmm7, esi
-	por	xmm8, xmm6
-	movzx	esi, byte ptr [rdx + rdi + 20]
-	movd	xmm6, esi
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
-	mov	rsi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 3
-	mov	r11, r14
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 4
-	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 5
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 7
-	mov	r14, rcx
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 11
-	mov	rbx, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	r13, rsi
-	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 3
-	mov	r10, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 8
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 9
-	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 10
-	pinsrb	xmm2, byte ptr [rdx + rax + 7], 11
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	r11, r12
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 1
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 3
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 5
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 6
-	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm3, esi
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 1
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 2
-	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 3
-	mov	r8, r10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 4
-	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 5
-	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 7
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 9
-	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 8], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 12
-	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 13
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 2
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 3
-	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 4
-	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 5
-	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 6
-	mov	r8, r13
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 7
-	mov	r13, r14
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 9
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 10
-	mov	rbx, r15
-	pinsrb	xmm10, byte ptr [rdx + rax + 10], 11
-	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 12
-	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 13
-	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm10, esi
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 2
-	mov	rcx, r9
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 4
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 5
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 6
-	mov	r15, r8
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 8
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 9
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
-	mov	rbx, rax
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 12
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 3
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 4
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 8
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 12
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 13
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 14
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 15
-	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 2
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 3
-	mov	r10, rcx
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 4
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
-	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 8
-	mov	r14, r8
-	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 9
-	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 11
-	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 12
-	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 13
-	mov	r13, r9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 14
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
-	por	xmm13, xmm11
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 25]
-	movd	xmm1, esi
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	movd	xmm11, esi
-	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
-	mov	rax, rcx
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
-	mov	r8, r11
-	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 7
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
-	mov	rbx, r14
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 9
-	mov	r11, r15
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 14], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rdx + rax + 15], 4
-	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
-	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
-	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
-	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
-	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 9
-	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 10
-	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
-	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
-	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rdx + rax + 16], 4
-	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
-	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
-	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
-	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 9
-	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
-	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 14
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rdx + rax + 17], 4
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
-	mov	rax, r8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
-	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 9
-	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 10
-	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm9, esi
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm4, esi
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm13, esi
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
-	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
-	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 9
-	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm12, esi
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
-	movzx	esi, byte ptr [rdx + rax + 31]
-	movd	xmm0, esi
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
-	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
-	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
-	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 9
-	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
-	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 9
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
-	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
-	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
-	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 9
-	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
-	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
-	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
-	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 9
-	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
-	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
-	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
-	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
-	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 9
-	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 10
-	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
-	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
-	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
-	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
-	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 9
-	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
-	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
-	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
-	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
-	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
-	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 9
-	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
-	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
-	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
-	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 9
-	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
-	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
-	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
-	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 9
-	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
-	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
-	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 9
-	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
-	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB2_189
-# %bb.190:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB2_69
-	jmp	.LBB2_135
-.LBB2_191:
-	and	r14, -8
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
-	lea	rax, [rax + 4*r14]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	.p2align	4, 0x90
-.LBB2_192:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	eax, word ptr [rdx + r15]
-	movzx	r10d, word ptr [rdx + r15 + 2]
-	movzx	r14d, word ptr [rdx + r15 + 4]
-	movzx	esi, word ptr [rdx + r15 + 6]
-	movzx	r11d, word ptr [rdx + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, eax
-	pinsrw	xmm4, word ptr [rdx + r8], 1
-	pinsrw	xmm4, word ptr [rdx + r9], 2
-	pinsrw	xmm4, word ptr [rdx + r12], 3
-	pinsrw	xmm4, word ptr [rdx + r13], 4
-	pinsrw	xmm4, word ptr [rdx + rcx], 5
-	pinsrw	xmm4, word ptr [rdx + rdi], 6
-	pinsrw	xmm4, word ptr [rdx + rbx], 7
-	movzx	eax, word ptr [rdx + r15 + 10]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
-	movzx	eax, word ptr [rdx + r15 + 12]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
-	movd	xmm2, r14d
-	movzx	r14d, word ptr [rdx + r15 + 14]
-	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
-	movd	xmm5, esi
-	movzx	esi, word ptr [rdx + r15 + 16]
-	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
-	movd	xmm3, r11d
-	movzx	eax, word ptr [rdx + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r14d
-	movzx	r11d, word ptr [rdx + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r15 + 26]
-	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rdx + r15 + 30]
-	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rdx + r15 + 34]
-	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, esi
-	movzx	esi, word ptr [rdx + r15 + 36]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	esi, word ptr [rdx + r15 + 38]
-	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rdx + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r15 + 42]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rdx + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r15 + 46]
-	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r15 + 48]
-	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
-	movzx	eax, word ptr [rdx + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 52]
-	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rdx + r15 + 54]
-	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, esi
-	movzx	esi, word ptr [rdx + r15 + 56]
-	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rdx + r15 + 58]
-	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r15 + 60]
-	movzx	r15d, word ptr [rdx + r15 + 62]
-	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, esi
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB2_192
-# %bb.193:
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB2_92
-	jmp	.LBB2_139
-.LBB2_194:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	.p2align	4, 0x90
-.LBB2_195:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	eax, word ptr [rdx + r15]
-	movzx	r10d, word ptr [rdx + r15 + 2]
-	movzx	r14d, word ptr [rdx + r15 + 4]
-	movzx	esi, word ptr [rdx + r15 + 6]
-	movzx	r11d, word ptr [rdx + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, eax
-	pinsrw	xmm4, word ptr [rdx + r8], 1
-	pinsrw	xmm4, word ptr [rdx + r9], 2
-	pinsrw	xmm4, word ptr [rdx + r12], 3
-	pinsrw	xmm4, word ptr [rdx + r13], 4
-	pinsrw	xmm4, word ptr [rdx + rcx], 5
-	pinsrw	xmm4, word ptr [rdx + rdi], 6
-	pinsrw	xmm4, word ptr [rdx + rbx], 7
-	movzx	eax, word ptr [rdx + r15 + 10]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
-	movzx	eax, word ptr [rdx + r15 + 12]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
-	movd	xmm2, r14d
-	movzx	r14d, word ptr [rdx + r15 + 14]
-	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
-	movd	xmm5, esi
-	movzx	esi, word ptr [rdx + r15 + 16]
-	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
-	movd	xmm3, r11d
-	movzx	eax, word ptr [rdx + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r14d
-	movzx	r11d, word ptr [rdx + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r15 + 26]
-	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rdx + r15 + 30]
-	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rdx + r15 + 34]
-	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, esi
-	movzx	esi, word ptr [rdx + r15 + 36]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	esi, word ptr [rdx + r15 + 38]
-	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rdx + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r15 + 42]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rdx + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r15 + 46]
-	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r15 + 48]
-	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
-	movzx	eax, word ptr [rdx + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 52]
-	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rdx + r15 + 54]
-	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, esi
-	movzx	esi, word ptr [rdx + r15 + 56]
-	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rdx + r15 + 58]
-	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r15 + 60]
-	movzx	r15d, word ptr [rdx + r15 + 62]
-	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, esi
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB2_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB2_104
-	jmp	.LBB2_143
-.LBB2_197:
-	mov	r8, r14
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	r11, [rax + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI2_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_198:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB2_198
-# %bb.199:
-	cmp	r14, r8
-	jne	.LBB2_127
-	jmp	.LBB2_147
-.Lfunc_end2:
-	.size	comparison_equal_scalar_arr_sse4, .Lfunc_end2-comparison_equal_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_not_equal_arr_arr_sse4 # -- Begin function comparison_not_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_arr_sse4,@function
-comparison_not_equal_arr_arr_sse4:      # @comparison_not_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB3_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB3_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB3_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB3_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB3_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_20
-# %bb.21:
-	add	r14, 1
-.LBB3_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_28
-	jmp	.LBB3_123
-.LBB3_29:
-	cmp	edi, 8
-	jle	.LBB3_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB3_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB3_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB3_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_48
-# %bb.49:
-	add	r14, 1
-.LBB3_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	setne	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setne	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setne	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setne	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setne	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setne	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setne	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setne	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_56
-	jmp	.LBB3_123
-.LBB3_2:
-	cmp	edi, 2
-	je	.LBB3_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB3_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_6
-# %bb.7:
-	add	r14, 1
-.LBB3_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_14
-	jmp	.LBB3_123
-.LBB3_30:
-	cmp	edi, 7
-	je	.LBB3_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB3_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_34
-# %bb.35:
-	add	r14, 1
-.LBB3_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_42
-	jmp	.LBB3_123
-.LBB3_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_70
-# %bb.71:
-	add	r14, 1
-.LBB3_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_78
-	jmp	.LBB3_123
-.LBB3_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_81
-# %bb.82:
-	add	r14, 1
-.LBB3_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_89
-	jmp	.LBB3_123
-.LBB3_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_103
-# %bb.104:
-	add	r14, 1
-.LBB3_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_111
-	jmp	.LBB3_123
-.LBB3_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_114
-# %bb.115:
-	add	r14, 1
-.LBB3_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	setne	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	setne	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	setne	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_122
-	jmp	.LBB3_123
-.LBB3_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_59
-# %bb.60:
-	add	r14, 1
-.LBB3_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_67
-	jmp	.LBB3_123
-.LBB3_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_92
-# %bb.93:
-	add	r14, 1
-.LBB3_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_100
-.LBB3_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	comparison_not_equal_arr_arr_sse4, .Lfunc_end3-comparison_not_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_not_equal_arr_scalar_sse4
-.LCPI4_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_1:
-	.zero	16,252
-.LCPI4_2:
-	.zero	16,248
-.LCPI4_3:
-	.zero	16,240
-.LCPI4_4:
-	.zero	16,224
-.LCPI4_5:
-	.zero	16,192
-.LCPI4_6:
-	.zero	16,128
-.LCPI4_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI4_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_16:
-	.zero	16,2
-.LCPI4_17:
-	.zero	16,4
-.LCPI4_18:
-	.zero	16,8
-.LCPI4_19:
-	.zero	16,16
-.LCPI4_20:
-	.zero	16,32
-.LCPI4_21:
-	.zero	16,64
-.LCPI4_22:
-	.zero	16,255
-	.text
-	.globl	comparison_not_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_scalar_sse4,@function
-comparison_not_equal_arr_scalar_sse4:   # @comparison_not_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r15, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB4_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB4_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB4_83
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB4_95
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB4_179
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_7
-# %bb.8:
-	add	r14, 1
-.LBB4_9:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_13
-# %bb.10:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_11
-# %bb.12:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_13:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.14:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_82
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_16
-	jmp	.LBB4_153
-.LBB4_17:
-	cmp	edi, 8
-	jle	.LBB4_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB4_107
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB4_118
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB4_179
-# %bb.21:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB4_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_23:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_23
-# %bb.24:
-	add	r14, 1
-.LBB4_25:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_29
-# %bb.26:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setne	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setne	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setne	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setne	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setne	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setne	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setne	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setne	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setne	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setne	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setne	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB4_27
-# %bb.28:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB4_29:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.30:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_162
-# %bb.31:
-	xor	r11d, r11d
-	jmp	.LBB4_164
-.LBB4_32:
-	cmp	edi, 2
-	je	.LBB4_60
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB4_179
-# %bb.34:
-	mov	r11b, byte ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_36
-# %bb.37:
-	add	r14, 1
-.LBB4_38:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_130
-# %bb.39:
-	cmp	r10, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB4_42
-# %bb.40:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_180
-# %bb.41:
-	lea	rax, [r14 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB4_180
-.LBB4_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_43:
-	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setne	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setne	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setne	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setne	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setne	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setne	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setne	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setne	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setne	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setne	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setne	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB4_44
-# %bb.45:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB4_131
-.LBB4_46:
-	cmp	edi, 7
-	je	.LBB4_72
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB4_179
-# %bb.48:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_50
-# %bb.51:
-	add	r14, 1
-.LBB4_52:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_56
-# %bb.53:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_54
-# %bb.55:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_56:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.57:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_117
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_59
-	jmp	.LBB4_168
-.LBB4_60:
-	mov	r11b, byte ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_62
-# %bb.63:
-	add	r14, 1
-.LBB4_64:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_134
-# %bb.65:
-	cmp	r10, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	jb	.LBB4_68
-# %bb.66:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_183
-# %bb.67:
-	lea	rax, [r14 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB4_183
-.LBB4_68:
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_69:
-	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setne	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setne	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setne	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setne	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setne	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setne	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setne	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setne	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setne	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setne	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setne	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB4_70
-# %bb.71:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB4_135
-.LBB4_72:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_74
-# %bb.75:
-	add	r14, 1
-.LBB4_76:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_80
-# %bb.77:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_78
-# %bb.79:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_80:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.81:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_151
-.LBB4_82:
-	xor	r11d, r11d
-	jmp	.LBB4_153
-.LBB4_83:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_85
-# %bb.86:
-	add	r14, 1
-.LBB4_87:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_138
-# %bb.88:
-	cmp	r10, 8
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	jb	.LBB4_91
-# %bb.89:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_186
-# %bb.90:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_186
-.LBB4_91:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB4_92:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_93:                               # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	sil
-	cmp	word ptr [r11 + 4], r13w
-	setne	r15b
-	cmp	word ptr [r11 + 6], r13w
-	setne	r12b
-	cmp	word ptr [r11 + 8], r13w
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setne	al
-	cmp	word ptr [r11 + 14], r13w
-	setne	bl
-	cmp	word ptr [r11 + 16], r13w
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setne	cl
-	cmp	word ptr [r11 + 20], r13w
-	setne	r8b
-	cmp	word ptr [r11 + 22], r13w
-	setne	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setne	r14b
-	cmp	word ptr [r11 + 26], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 28], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setne	dil
-	cmp	word ptr [r11 + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setne	r10b
-	cmp	word ptr [r11 + 48], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setne	dl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	r8b, 2
-	or	r8b, cl
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r12b
-	mov	esi, ecx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, al
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r10b, 7
-	or	r10b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r10b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r10b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_93
-# %bb.94:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB4_139
-.LBB4_95:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_99
-# %bb.96:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_97
-# %bb.98:
-	add	r14, 1
-.LBB4_99:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_143
-# %bb.100:
-	cmp	r10, 8
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	jb	.LBB4_103
-# %bb.101:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_189
-# %bb.102:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_189
-.LBB4_103:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB4_104:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_105:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	sil
-	cmp	word ptr [r11 + 4], r13w
-	setne	r15b
-	cmp	word ptr [r11 + 6], r13w
-	setne	r12b
-	cmp	word ptr [r11 + 8], r13w
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setne	al
-	cmp	word ptr [r11 + 14], r13w
-	setne	bl
-	cmp	word ptr [r11 + 16], r13w
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setne	cl
-	cmp	word ptr [r11 + 20], r13w
-	setne	r8b
-	cmp	word ptr [r11 + 22], r13w
-	setne	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setne	r14b
-	cmp	word ptr [r11 + 26], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 28], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setne	dil
-	cmp	word ptr [r11 + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setne	r10b
-	cmp	word ptr [r11 + 48], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setne	dl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	r8b, 2
-	or	r8b, cl
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r12b
-	mov	esi, ecx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, al
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r10b, 7
-	or	r10b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r10b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r10b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_105
-# %bb.106:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB4_144
-.LBB4_107:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_111
-# %bb.108:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_109:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_109
-# %bb.110:
-	add	r14, 1
-.LBB4_111:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_115
-# %bb.112:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_113:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_113
-# %bb.114:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_115:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.116:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_166
-.LBB4_117:
-	xor	r11d, r11d
-	jmp	.LBB4_168
-.LBB4_118:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB4_122
-# %bb.119:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_120:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_120
-# %bb.121:
-	add	r14, 1
-.LBB4_122:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_147
-# %bb.123:
-	cmp	r10, 4
-	jb	.LBB4_126
-# %bb.124:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_192
-# %bb.125:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_192
-.LBB4_126:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r11, r14
-.LBB4_127:
-	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_128:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setne	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setne	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setne	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setne	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setne	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setne	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setne	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB4_128
-# %bb.129:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB4_148
-.LBB4_130:
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_131:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.132:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_137
-# %bb.155:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_156:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setne	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB4_156
-	jmp	.LBB4_159
-.LBB4_134:
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_135:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.136:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_157
-.LBB4_137:
-	xor	r9d, r9d
-	test	r8b, 1
-	je	.LBB4_179
-	jmp	.LBB4_161
-.LBB4_138:
-	mov	r12, r14
-.LBB4_139:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.140:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_146
-# %bb.141:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB4_142:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	setne	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB4_142
-	jmp	.LBB4_173
-.LBB4_143:
-	mov	r12, r14
-.LBB4_144:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.145:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_171
-.LBB4_146:
-	xor	r14d, r14d
-	jmp	.LBB4_173
-.LBB4_147:
-	mov	r11, r14
-	mov	rbx, rsi
-.LBB4_148:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.149:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_175
-# %bb.150:
-	xor	esi, esi
-	jmp	.LBB4_177
-.LBB4_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_152:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_152
-.LBB4_153:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.154:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB4_170
-.LBB4_157:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_158:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setne	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB4_158
-.LBB4_159:
-	add	rsi, r9
-	test	r8b, 1
-	je	.LBB4_179
-.LBB4_161:
-	cmp	byte ptr [rsi], r11b
-	setne	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_163:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_163
-.LBB4_164:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.165:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB4_170
-.LBB4_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_167:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_167
-.LBB4_168:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.169:
-	cmp	qword ptr [rsi], r13
-.LBB4_170:
-	setne	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_171:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB4_172:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	setne	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB4_172
-.LBB4_173:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.174:
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB4_176:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB4_176
-.LBB4_177:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.178:
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-.LBB4_179:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB4_180:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_181:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rcx, rax
-	shl	rcx, 5
-	mov	r11, rcx
-	mov	r8, rcx
-	mov	r14, rcx
-	mov	r13, rcx
-	mov	rbx, rcx
-	mov	r12, rcx
-	mov	r15, rcx
-	mov	rdi, rcx
-	mov	r9, rcx
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rax, rcx
-	mov	rdx, rcx
-	movzx	ecx, byte ptr [rsi + rcx]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 8]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 9]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 13]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 24], rdx       # 8-byte Spill
-	mov	rcx, rdx
-	or	rcx, 32
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	or	r11, 64
-	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
-	or	r8, 96
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	or	r14, 128
-	or	r13, 160
-	mov	r10, rbx
-	or	r10, 192
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	or	r12, 224
-	or	r15, 256
-	or	rdi, 288
-	mov	qword ptr [rsp + 192], rdi      # 8-byte Spill
-	or	r9, 320
-	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	or	rbx, 352
-	mov	qword ptr [rsp + 48], rbx       # 8-byte Spill
-	or	rax, 384
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rdx
-	or	rax, 416
-	mov	rcx, rdx
-	or	rcx, 448
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	rcx, rdx
-	or	rcx, 480
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx], 1
-	pinsrb	xmm4, byte ptr [rsi + r11], 2
-	pinsrb	xmm4, byte ptr [rsi + r8], 3
-	pinsrb	xmm4, byte ptr [rsi + r14], 4
-	pinsrb	xmm4, byte ptr [rsi + r13], 5
-	pinsrb	xmm4, byte ptr [rsi + r10], 6
-	pinsrb	xmm4, byte ptr [rsi + r12], 7
-	pinsrb	xmm4, byte ptr [rsi + r15], 8
-	pinsrb	xmm4, byte ptr [rsi + rdi], 9
-	pinsrb	xmm4, byte ptr [rsi + r9], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx], 11
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx], 12
-	pinsrb	xmm4, byte ptr [rsi + rax], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx], 14
-	pinsrb	xmm4, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 1
-	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 2
-	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 5
-	mov	r11, r13
-	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 6
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 7
-	mov	r13, r12
-	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 8
-	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 10
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 11
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 12
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 13
-	mov	r8, rax
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
-	movdqa	xmm6, xmmword ptr [rsp + 256]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm6
-	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 15
-	pcmpeqb	xmm3, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 1
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 4
-	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 6
-	mov	rbx, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 7
-	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 2], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 10
-	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 11
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 1
-	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 2
-	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 4
-	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
-	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
-	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 10
-	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 11
-	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
-	mov	rax, r11
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 7
-	mov	rdi, rbx
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 9
-	mov	rbx, rdx
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 10
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 15
-	pcmpeqb	xmm5, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm4, edx
-	pcmpeqb	xmm1, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm1, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm5, edx
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 1
-	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 3
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 4
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 5
-	mov	r12, r9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 6
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
-	mov	r9, rbx
-	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 10
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 11
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 12
-	mov	r8, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 14
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 2
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 5
-	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 10
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 11
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 13
-	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 14
-	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
-	mov	rcx, r11
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 3
-	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 5
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 7
-	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
-	mov	r12, r15
-	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
-	pinsrb	xmm14, byte ptr [rsi + rax + 7], 10
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 11
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 12
-	mov	r14, r13
-	mov	rdi, r8
-	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 14
-	pcmpeqb	xmm2, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r9 + 20]
-	movd	xmm3, edx
-	mov	rax, rcx
-	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 15
-	pcmpeqb	xmm14, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm14, xmm0
-	por	xmm14, xmm8
-	movzx	edx, byte ptr [rsi + r9 + 21]
-	movd	xmm2, edx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx + 8], 1
-	pinsrb	xmm9, byte ptr [rsi + r10 + 8], 2
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8 + 8], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 4
-	pinsrb	xmm9, byte ptr [rsi + r11 + 8], 5
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r15 + 8], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 8
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 9
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 10
-	pinsrb	xmm9, byte ptr [rsi + rbx + 8], 11
-	pinsrb	xmm9, byte ptr [rsi + r14 + 8], 12
-	pinsrb	xmm9, byte ptr [rsi + rdi + 8], 13
-	pinsrb	xmm9, byte ptr [rsi + r13 + 8], 14
-	pinsrb	xmm9, byte ptr [rsi + rax + 8], 15
-	por	xmm14, xmm1
-	movdqa	xmmword ptr [rsp + 272], xmm14  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r9 + 22]
-	movd	xmm1, edx
-	movdqa	xmm0, xmm6
-	pcmpeqb	xmm9, xmm6
-	movdqa	xmm14, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 9], 1
-	pinsrb	xmm14, byte ptr [rsi + r10 + 9], 2
-	pinsrb	xmm14, byte ptr [rsi + r8 + 9], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 4
-	pinsrb	xmm14, byte ptr [rsi + r11 + 9], 5
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 9], 6
-	mov	rdi, r15
-	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 8
-	mov	r9, r12
-	pinsrb	xmm14, byte ptr [rsi + r12 + 9], 9
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 9], 10
-	pinsrb	xmm14, byte ptr [rsi + rbx + 9], 11
-	mov	r12, r14
-	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 15
-	mov	r10, rcx
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 2
-	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 5
-	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 7
-	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 9
-	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 10
-	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 12
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 14
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 1
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 2
-	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 3
-	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 4
-	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 5
-	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 7
-	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 9
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 10
-	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 11
-	mov	r15, rbx
-	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 12
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 13
-	pinsrb	xmm13, byte ptr [rsi + r14 + 11], 14
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 15
-	pcmpeqb	xmm14, xmm6
-	pandn	xmm14, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm14, xmm9
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm8, edx
-	pcmpeqb	xmm12, xmm6
-	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm13, xmm6
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
-	por	xmm13, xmm12
-	movzx	edx, byte ptr [rsi + rax + 24]
-	movd	xmm12, edx
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rax + 12], 1
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 2
-	mov	rax, r8
-	pinsrb	xmm9, byte ptr [rsi + r8 + 12], 3
-	mov	r14, rcx
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 4
-	mov	r8, r11
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 5
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 6
-	mov	rbx, rdi
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 9
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 12], 11
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 12
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 1
-	pinsrb	xmm11, byte ptr [rsi + r10 + 13], 2
-	pinsrb	xmm11, byte ptr [rsi + rax + 13], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 13], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 13], 5
-	pinsrb	xmm11, byte ptr [rsi + r11 + 13], 6
-	pinsrb	xmm11, byte ptr [rsi + rbx + 13], 7
-	pinsrb	xmm11, byte ptr [rsi + rcx + 13], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 13], 9
-	pinsrb	xmm11, byte ptr [rsi + rdi + 13], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 13], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 13], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 13], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 1
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 2
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
-	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 5
-	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 6
-	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 7
-	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 9
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 10
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 11
-	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 12
-	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 14
-	pcmpeqb	xmm9, xmm6
-	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
-	por	xmm9, xmm13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm13, edx
-	psubb	xmm14, xmmword ptr [rip + .LCPI4_22]
-	por	xmm9, xmm14
-	movzx	edx, byte ptr [rsi + rcx + 26]
-	movd	xmm0, edx
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 15
-	pcmpeqb	xmm11, xmm6
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_20]
-	pcmpeqb	xmm15, xmm6
-	movdqa	xmm14, xmm6
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
-	por	xmm15, xmm11
-	movzx	edx, byte ptr [rsi + rcx + 27]
-	movd	xmm11, edx
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 1
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 2
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 5
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 10
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 11
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 14
-	pinsrb	xmm6, byte ptr [rsi + rax + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
-	por	xmm6, xmm15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm15, edx
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm9, edx
-	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 2
-	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 4
-	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 5
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 10
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 11
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 13
-	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 16], 15
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 1
-	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 2
-	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 3
-	mov	r10, r13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 4
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 6
-	mov	rbx, r12
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 7
-	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 10
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 11
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 12
-	mov	r13, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 13
-	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 14
-	mov	r12, r15
-	pinsrb	xmm4, byte ptr [rsi + rax + 17], 15
-	mov	r15, rax
-	movdqa	xmm6, xmm14
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	pandn	xmm4, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm4, xmm10
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 30]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
-	movzx	edx, byte ptr [rsi + rdi + 31]
-	movd	xmm6, edx
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
-	mov	r14, r10
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 9
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 10
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 12
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 13
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 15
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 13
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 15
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
-	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 7
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 12
-	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 13
-	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	pandn	xmm7, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm5, xmm14
-	pandn	xmm5, xmmword ptr [rip + .LCPI4_18]
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 15
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
-	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 7
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 10
-	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 12
-	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 13
-	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 14
-	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
-	movdqa	xmm4, xmm14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm2, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
-	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 6
-	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 7
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
-	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 12
-	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 13
-	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 14
-	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
-	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 6
-	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 7
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 12
-	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 13
-	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 14
-	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 15
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
-	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 6
-	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 7
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 10
-	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 12
-	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 13
-	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 14
-	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 15
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
-	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 6
-	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 7
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 13
-	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
-	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
-	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
-	mov	rdx, r11
-	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 6
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	mov	rdx, rbx
-	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 7
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 8
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 8
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 10
-	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 10
-	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 10
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 12
-	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 12
-	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 12
-	mov	rax, r13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 13
-	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 13
-	mov	rax, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 14
-	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 14
-	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 15
-	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 15
-	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	movdqa	xmm1, xmm4
-	movdqa	xmm3, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm1, xmm3              # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm4, xmm3              # xmm4 = xmm4[8],xmm3[8],xmm4[9],xmm3[9],xmm4[10],xmm3[10],xmm4[11],xmm3[11],xmm4[12],xmm3[12],xmm4[13],xmm3[13],xmm4[14],xmm3[14],xmm4[15],xmm3[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	jne	.LBB4_181
-# %bb.182:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB4_43
-	jmp	.LBB4_131
-.LBB4_183:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_184:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r9, 5
-	mov	r12, r9
-	mov	r13, r9
-	mov	r10, r9
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	mov	r15, r9
-	mov	r11, r9
-	mov	r14, r9
-	mov	rdx, r9
-	mov	r8, r9
-	mov	rbx, r9
-	mov	rdi, r9
-	movzx	eax, byte ptr [rsi + r9]
-	movd	xmm4, eax
-	movzx	eax, byte ptr [rsi + r9 + 1]
-	movd	xmm3, eax
-	movzx	eax, byte ptr [rsi + r9 + 2]
-	movd	xmm5, eax
-	movzx	eax, byte ptr [rsi + r9 + 3]
-	movd	xmm7, eax
-	movzx	eax, byte ptr [rsi + r9 + 4]
-	movd	xmm9, eax
-	movzx	eax, byte ptr [rsi + r9 + 5]
-	movd	xmm2, eax
-	movzx	eax, byte ptr [rsi + r9 + 6]
-	movd	xmm8, eax
-	movzx	eax, byte ptr [rsi + r9 + 7]
-	movd	xmm14, eax
-	movzx	eax, byte ptr [rsi + r9 + 8]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + r9 + 9]
-	movd	xmm11, eax
-	movzx	eax, byte ptr [rsi + r9 + 10]
-	movd	xmm12, eax
-	movzx	eax, byte ptr [rsi + r9 + 11]
-	movd	xmm13, eax
-	movzx	eax, byte ptr [rsi + r9 + 12]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + r9 + 13]
-	movd	xmm6, eax
-	movzx	eax, byte ptr [rsi + r9 + 14]
-	movd	xmm15, eax
-	movzx	eax, byte ptr [rsi + r9 + 15]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	rcx, r9
-	or	rcx, 32
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	or	r12, 64
-	or	r13, 96
-	or	r10, 128
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	or	r10, 160
-	mov	qword ptr [rsp + 64], r10       # 8-byte Spill
-	or	r15, 192
-	mov	qword ptr [rsp + 24], r15       # 8-byte Spill
-	or	r11, 224
-	or	r14, 256
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	or	rdx, 288
-	or	r8, 320
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	or	rbx, 352
-	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
-	or	rdi, 384
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	rax, r9
-	or	rax, 416
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, r9
-	or	rax, 448
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rdi, r9
-	or	rdi, 480
-	pinsrb	xmm4, byte ptr [rsi + rcx], 1
-	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + r12], 2
-	pinsrb	xmm4, byte ptr [rsi + r13], 3
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx], 4
-	pinsrb	xmm4, byte ptr [rsi + r10], 5
-	pinsrb	xmm4, byte ptr [rsi + r15], 6
-	pinsrb	xmm4, byte ptr [rsi + r11], 7
-	pinsrb	xmm4, byte ptr [rsi + r14], 8
-	pinsrb	xmm4, byte ptr [rsi + rdx], 9
-	pinsrb	xmm4, byte ptr [rsi + r8], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx], 12
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9], 13
-	pinsrb	xmm4, byte ptr [rsi + rax], 14
-	pinsrb	xmm4, byte ptr [rsi + rdi], 15
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 3
-	mov	r12, r13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 4
-	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 7
-	mov	r10, r11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 8
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 9
-	mov	r14, rdx
-	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 10
-	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 11
-	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 12
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 15
-	mov	rcx, rdi
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm10, edx
-	mov	rdx, r9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 2
-	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 3
-	mov	r8, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 4
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 6
-	mov	rbx, r10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 7
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
-	mov	r9, r14
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 9
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 14
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 15
-	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 1
-	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 2
-	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 3
-	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 4
-	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
-	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 9
-	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 14
-	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 15
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 1
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 2
-	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 3
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 4
-	mov	rdi, r8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 5
-	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 7
-	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rax + 4], 12
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 14
-	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm4, edx
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm5, edx
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 5], 1
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 3
-	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 4
-	mov	rdi, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 6
-	mov	qword ptr [rsp + 272], rbx      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
-	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 11
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 12
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 13
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
-	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 1
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 4
-	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 6
-	mov	r13, rax
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 11
-	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 12
-	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 13
-	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 14
-	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 1
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 7], 3
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 5
-	mov	rax, r13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 6
-	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 7
-	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
-	mov	rbx, r15
-	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
-	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 12
-	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 13
-	mov	r13, rcx
-	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 20]
-	movd	xmm3, edx
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	edx, byte ptr [rsi + rdi + 21]
-	movd	xmm2, edx
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 8], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 4
-	mov	r8, r11
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 7
-	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 8
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 8], 9
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 11
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 12
-	pinsrb	xmm0, byte ptr [rsi + r13 + 8], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 14
-	pinsrb	xmm0, byte ptr [rsi + rcx + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rdi + 22]
-	movd	xmm1, edx
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [rsi + rax + 9], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 9], 2
-	pinsrb	xmm11, byte ptr [rsi + r12 + 9], 3
-	pinsrb	xmm11, byte ptr [rsi + r8 + 9], 4
-	pinsrb	xmm11, byte ptr [rsi + r14 + 9], 5
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r13 + 9], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 9], 7
-	pinsrb	xmm11, byte ptr [rsi + rbx + 9], 8
-	mov	rcx, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 9
-	mov	r9, r15
-	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 11
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 12
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 15
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 1
-	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 2
-	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 3
-	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 4
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 5
-	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 6
-	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 7
-	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 8
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 10], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 12
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 14
-	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 15
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 1
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 2
-	mov	r14, rdi
-	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 3
-	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 5
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 6
-	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 7
-	mov	r12, r11
-	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 8
-	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 12
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 13
-	mov	r13, rdi
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm11, xmm0
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 23]
-	movd	xmm8, edx
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
-	por	xmm13, xmm12
-	movzx	edx, byte ptr [rsi + rdi + 24]
-	movd	xmm12, edx
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 1
-	mov	r8, r14
-	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 2
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 3
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 4
-	pinsrb	xmm9, byte ptr [rsi + rax + 12], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 6
-	mov	r15, r12
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 12], 8
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 10
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 12
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
-	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 15
-	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 1
-	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 2
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 4
-	pinsrb	xmm6, byte ptr [rsi + rax + 13], 5
-	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 6
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 8
-	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 9
-	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 12
-	mov	r13, r10
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 13
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 14
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 15
-	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 1
-	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 2
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 5
-	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 6
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 8
-	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 9
-	mov	r11, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 10
-	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 11
-	mov	r12, r13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 12
-	mov	r13, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 13
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm13, edx
-	psubb	xmm11, xmmword ptr [rip + .LCPI4_22]
-	por	xmm9, xmm11
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm0, edx
-	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
-	por	xmm15, xmm6
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm11, edx
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 1
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 2
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 6
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 7
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 10
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 11
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm15, edx
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm9, edx
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 2
-	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 3
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 5
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
-	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 8
-	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 9
-	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 10
-	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 16], 12
-	mov	rax, r13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 14
-	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 15
-	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 2
-	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 3
-	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 4
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
-	mov	r9, r12
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 7
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 8
-	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 9
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 12
-	pinsrb	xmm4, byte ptr [rsi + rax + 17], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 14
-	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 15
-	mov	rdi, r10
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 30]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
-	movzx	edx, byte ptr [rsi + rcx + 31]
-	movd	xmm6, edx
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
-	mov	rbx, r9
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 7
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 9
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
-	mov	rax, r12
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 15
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 15
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
-	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 6
-	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 8
-	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 12
-	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
-	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 6
-	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 7
-	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 8
-	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 10
-	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 12
-	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 14
-	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
-	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 6
-	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 7
-	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 8
-	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 12
-	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 13
-	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 14
-	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
-	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 6
-	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 7
-	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 8
-	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 12
-	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 13
-	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 14
-	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 15
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
-	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 6
-	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 8
-	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 10
-	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 14
-	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 15
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
-	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 6
-	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 7
-	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 8
-	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 12
-	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 13
-	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
-	mov	rdx, r8
-	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
-	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
-	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 6
-	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 7
-	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 7
-	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 7
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 8
-	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 8
-	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 8
-	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 9
-	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 9
-	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 9
-	mov	rdx, r9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 10
-	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 10
-	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 10
-	mov	rdx, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 12
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 12
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 12
-	mov	rax, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 13
-	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 14
-	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 14
-	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 14
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 15
-	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 15
-	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	jne	.LBB4_184
-# %bb.185:
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB4_69
-	jmp	.LBB4_135
-.LBB4_186:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB4_187:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r8, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rbx, r15
-	mov	rdi, r15
-	mov	r9, r15
-	movzx	eax, word ptr [rsi + r15]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rsi + r15 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rsi + r15 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rsi + r15 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rsi + r15 + 12]
-	movzx	r10d, word ptr [rsi + r15 + 14]
-	movzx	r11d, word ptr [rsi + r15 + 16]
-	movzx	edx, word ptr [rsi + r15 + 18]
-	movzx	r14d, word ptr [rsi + r15 + 20]
-	mov	rcx, r15
-	or	rcx, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rbx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rsi + rcx], 1
-	pinsrw	xmm5, word ptr [rsi + r8], 2
-	pinsrw	xmm5, word ptr [rsi + r12], 3
-	pinsrw	xmm5, word ptr [rsi + r13], 4
-	pinsrw	xmm5, word ptr [rsi + rbx], 5
-	pinsrw	xmm5, word ptr [rsi + rdi], 6
-	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
-	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 22]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r10d
-	movzx	r10d, word ptr [rsi + r15 + 24]
-	pinsrw	xmm5, word ptr [rsi + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	eax, word ptr [rsi + r15 + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, edx
-	movzx	r11d, word ptr [rsi + r15 + 28]
-	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 30]
-	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 32]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r10d
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r14d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 38]
-	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 46]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	edx, word ptr [rsi + r15 + 52]
-	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, edx
-	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r10d
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r14d
-	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rsi + r15 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB4_187
-# %bb.188:
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	jne	.LBB4_92
-	jmp	.LBB4_139
-.LBB4_189:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB4_190:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r8, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rbx, r15
-	mov	rdi, r15
-	mov	r9, r15
-	movzx	eax, word ptr [rsi + r15]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rsi + r15 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rsi + r15 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rsi + r15 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rsi + r15 + 12]
-	movzx	r10d, word ptr [rsi + r15 + 14]
-	movzx	r11d, word ptr [rsi + r15 + 16]
-	movzx	edx, word ptr [rsi + r15 + 18]
-	movzx	r14d, word ptr [rsi + r15 + 20]
-	mov	rcx, r15
-	or	rcx, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rbx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rsi + rcx], 1
-	pinsrw	xmm5, word ptr [rsi + r8], 2
-	pinsrw	xmm5, word ptr [rsi + r12], 3
-	pinsrw	xmm5, word ptr [rsi + r13], 4
-	pinsrw	xmm5, word ptr [rsi + rbx], 5
-	pinsrw	xmm5, word ptr [rsi + rdi], 6
-	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
-	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 22]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r10d
-	movzx	r10d, word ptr [rsi + r15 + 24]
-	pinsrw	xmm5, word ptr [rsi + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	eax, word ptr [rsi + r15 + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, edx
-	movzx	r11d, word ptr [rsi + r15 + 28]
-	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 30]
-	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 32]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r10d
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r14d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 38]
-	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 46]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	edx, word ptr [rsi + r15 + 52]
-	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, edx
-	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r10d
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r14d
-	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rsi + r15 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB4_190
-# %bb.191:
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	jne	.LBB4_104
-	jmp	.LBB4_144
-.LBB4_192:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r11, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI4_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI4_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB4_193:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB4_193
-# %bb.194:
-	cmp	r10, r8
-	jne	.LBB4_127
-	jmp	.LBB4_148
-.Lfunc_end4:
-	.size	comparison_not_equal_arr_scalar_sse4, .Lfunc_end4-comparison_not_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_not_equal_scalar_arr_sse4
-.LCPI5_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_1:
-	.zero	16,252
-.LCPI5_2:
-	.zero	16,248
-.LCPI5_3:
-	.zero	16,240
-.LCPI5_4:
-	.zero	16,224
-.LCPI5_5:
-	.zero	16,192
-.LCPI5_6:
-	.zero	16,128
-.LCPI5_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI5_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_16:
-	.zero	16,2
-.LCPI5_17:
-	.zero	16,4
-.LCPI5_18:
-	.zero	16,8
-.LCPI5_19:
-	.zero	16,16
-.LCPI5_20:
-	.zero	16,32
-.LCPI5_21:
-	.zero	16,64
-.LCPI5_22:
-	.zero	16,255
-	.text
-	.globl	comparison_not_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_scalar_arr_sse4,@function
-comparison_not_equal_scalar_arr_sse4:   # @comparison_not_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 288
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r15, r8
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	mov	r14, rdx
-	cmp	edi, 6
-	jg	.LBB5_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB5_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB5_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB5_122
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB5_199
-# %bb.13:
-	mov	r11d, dword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_17
-# %bb.14:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [rdx + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_15
-# %bb.16:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_17:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_21
-# %bb.18:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_19:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14 + 124]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 120]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 92]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 88]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 84]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 76]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 72]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 68]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 60]
-	setne	r8b
-	cmp	r11d, dword ptr [r14 + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 52]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 48]
-	setne	dil
-	cmp	r11d, dword ptr [r14 + 44]
-	setne	r10b
-	cmp	r11d, dword ptr [r14 + 40]
-	setne	r9b
-	cmp	r11d, dword ptr [r14 + 36]
-	setne	sil
-	cmp	r11d, dword ptr [r14 + 28]
-	setne	al
-	cmp	r11d, dword ptr [r14 + 24]
-	setne	bl
-	cmp	r11d, dword ptr [r14 + 20]
-	setne	dl
-	cmp	r11d, dword ptr [r14 + 16]
-	setne	cl
-	cmp	r11d, dword ptr [r14 + 12]
-	setne	r12b
-	cmp	r11d, dword ptr [r14 + 8]
-	setne	r15b
-	cmp	r11d, dword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 4]
-	mov	r13, r14
-	setne	r14b
-	cmp	r11d, dword ptr [r13 + 32]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r13 + 64]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r13 + 96]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r15b, 2
-	or	r15b, r14b
-	mov	r14, r13
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	cl, 4
-	or	cl, r12b
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	dl, 5
-	or	dl, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, dl
-	mov	byte ptr [r15], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	r14, -128
-	add	r15, 4
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_19
-# %bb.20:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_21:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.22:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_23
-# %bb.142:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_143:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11d, dword ptr [r14 + 4]
-	lea	r14, [r14 + 8]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_143
-	jmp	.LBB5_24
-.LBB5_26:
-	cmp	edi, 8
-	jle	.LBB5_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB5_158
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB5_170
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB5_199
-# %bb.45:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB5_49
-# %bb.46:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_47
-# %bb.48:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_49:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_53
-# %bb.50:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_51:                               # =>This Inner Loop Header: Depth=1
-	mov	rdx, r14
-	ucomisd	xmm0, qword ptr [r14]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 8]
-	setne	r9b
-	ucomisd	xmm0, qword ptr [r14 + 16]
-	setne	r11b
-	ucomisd	xmm0, qword ptr [r14 + 24]
-	setne	r13b
-	ucomisd	xmm0, qword ptr [r14 + 32]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 40]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 48]
-	setne	bl
-	ucomisd	xmm0, qword ptr [r14 + 56]
-	setne	r12b
-	ucomisd	xmm0, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 72]
-	setne	sil
-	ucomisd	xmm0, qword ptr [r14 + 80]
-	setne	dil
-	ucomisd	xmm0, qword ptr [r14 + 88]
-	setne	r8b
-	ucomisd	xmm0, qword ptr [r14 + 96]
-	setne	r10b
-	ucomisd	xmm0, qword ptr [r14 + 104]
-	setne	r15b
-	ucomisd	xmm0, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 120]
-	setne	cl
-	ucomisd	xmm0, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 184]
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	r9d, ebx
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r9b
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	edi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	r12b, bl
-	or	cl, r15b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, dil
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [rsi + 2], r14b
-	mov	byte ptr [rsi + 3], al
-	lea	r14, [rdx + 256]
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB5_51
-# %bb.52:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB5_53:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.54:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_193
-# %bb.55:
-	xor	edi, edi
-	jmp	.LBB5_195
-.LBB5_2:
-	cmp	edi, 2
-	je	.LBB5_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB5_199
-# %bb.4:
-	mov	al, byte ptr [rsi]
-	mov	byte ptr [rsp + 64], al         # 1-byte Spill
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_8
-# %bb.5:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [r14]
-	lea	r14, [r14 + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_6
-# %bb.7:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_8:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_9
-# %bb.81:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB5_82
-# %bb.83:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_85
-# %bb.84:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	r14, rax
-	jae	.LBB5_85
-.LBB5_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-.LBB5_88:
-	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_89:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	al, byte ptr [r14 + 31]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 30]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 29]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 27]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 23]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 22]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 21]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 20]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 19]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 18]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 17]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 15]
-	setne	r10b
-	cmp	al, byte ptr [r14 + 14]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 13]
-	setne	r13b
-	cmp	al, byte ptr [r14 + 12]
-	setne	r12b
-	cmp	al, byte ptr [r14 + 11]
-	setne	r15b
-	cmp	al, byte ptr [r14 + 10]
-	setne	bl
-	cmp	al, byte ptr [r14 + 9]
-	setne	r11b
-	cmp	al, byte ptr [r14 + 7]
-	setne	sil
-	cmp	al, byte ptr [r14 + 6]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 5]
-	setne	r9b
-	cmp	al, byte ptr [r14 + 4]
-	setne	r8b
-	cmp	al, byte ptr [r14 + 3]
-	setne	dil
-	cmp	al, byte ptr [r14 + 2]
-	setne	dl
-	cmp	al, byte ptr [r14]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 1]
-	setne	cl
-	cmp	al, byte ptr [r14 + 8]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 16]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 24]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	cl, cl
-	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, cl
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	mov	byte ptr [rax], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, r11b
-	shl	r15b, 3
-	or	r15b, bl
-	shl	r12b, 4
-	or	r12b, r15b
-	shl	r13b, 5
-	or	r13b, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, r13b
-	mov	byte ptr [rax + 1], r10b
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 2], cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 3], cl
-	add	r14, 32
-	add	rax, 4
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB5_89
-# %bb.90:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB5_91
-.LBB5_27:
-	cmp	edi, 7
-	je	.LBB5_144
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB5_199
-# %bb.29:
-	mov	r11, qword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_33
-# %bb.30:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_31
-# %bb.32:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_33:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_37
-# %bb.34:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_35:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14 + 248]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 240]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 184]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 120]
-	setne	r8b
-	cmp	r11, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 104]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 96]
-	setne	dil
-	cmp	r11, qword ptr [r14 + 88]
-	setne	r10b
-	cmp	r11, qword ptr [r14 + 80]
-	setne	r9b
-	cmp	r11, qword ptr [r14 + 72]
-	setne	sil
-	cmp	r11, qword ptr [r14 + 56]
-	setne	al
-	cmp	r11, qword ptr [r14 + 48]
-	setne	bl
-	cmp	r11, qword ptr [r14 + 40]
-	setne	cl
-	cmp	r11, qword ptr [r14 + 32]
-	setne	dl
-	cmp	r11, qword ptr [r14 + 24]
-	setne	r15b
-	cmp	r11, qword ptr [r14 + 16]
-	setne	r13b
-	cmp	r11, qword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 8]
-	setne	r12b
-	cmp	r11, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 192]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 256
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_35
-# %bb.36:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_37:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.38:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_39
-# %bb.156:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_157
-	jmp	.LBB5_40
-.LBB5_56:
-	mov	al, byte ptr [rsi]
-	mov	byte ptr [rsp + 40], al         # 1-byte Spill
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_60
-# %bb.57:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_58:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [r14]
-	lea	r14, [r14 + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_58
-# %bb.59:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_60:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_61
-# %bb.62:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB5_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_66
-# %bb.65:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	r14, rax
-	jae	.LBB5_66
-.LBB5_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-.LBB5_69:
-	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	al, byte ptr [r14 + 31]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 30]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 29]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 27]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 23]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 22]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 21]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 20]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 19]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 18]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 17]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 15]
-	setne	r10b
-	cmp	al, byte ptr [r14 + 14]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 13]
-	setne	r13b
-	cmp	al, byte ptr [r14 + 12]
-	setne	r12b
-	cmp	al, byte ptr [r14 + 11]
-	setne	r15b
-	cmp	al, byte ptr [r14 + 10]
-	setne	bl
-	cmp	al, byte ptr [r14 + 9]
-	setne	r11b
-	cmp	al, byte ptr [r14 + 7]
-	setne	sil
-	cmp	al, byte ptr [r14 + 6]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 5]
-	setne	r9b
-	cmp	al, byte ptr [r14 + 4]
-	setne	r8b
-	cmp	al, byte ptr [r14 + 3]
-	setne	dil
-	cmp	al, byte ptr [r14 + 2]
-	setne	dl
-	cmp	al, byte ptr [r14]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 1]
-	setne	cl
-	cmp	al, byte ptr [r14 + 8]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 16]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 24]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	cl, cl
-	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, cl
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rax], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, r11b
-	shl	r15b, 3
-	or	r15b, bl
-	shl	r12b, 4
-	or	r12b, r15b
-	shl	r13b, 5
-	or	r13b, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, r13b
-	mov	byte ptr [rax + 1], r10b
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 2], cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 3], cl
-	add	r14, 32
-	add	rax, 4
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB5_70
-# %bb.71:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB5_72
-.LBB5_144:
-	mov	r11d, dword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_148
-# %bb.145:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_146:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_146
-# %bb.147:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_148:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_152
-# %bb.149:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14 + 124]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 120]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 92]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 88]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 84]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 76]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 72]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 68]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 60]
-	setne	r8b
-	cmp	r11d, dword ptr [r14 + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 52]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 48]
-	setne	dil
-	cmp	r11d, dword ptr [r14 + 44]
-	setne	r10b
-	cmp	r11d, dword ptr [r14 + 40]
-	setne	r9b
-	cmp	r11d, dword ptr [r14 + 36]
-	setne	sil
-	cmp	r11d, dword ptr [r14 + 28]
-	setne	al
-	cmp	r11d, dword ptr [r14 + 24]
-	setne	bl
-	cmp	r11d, dword ptr [r14 + 20]
-	setne	cl
-	cmp	r11d, dword ptr [r14 + 16]
-	setne	dl
-	cmp	r11d, dword ptr [r14 + 12]
-	setne	r15b
-	cmp	r11d, dword ptr [r14 + 8]
-	setne	r13b
-	cmp	r11d, dword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 4]
-	setne	r12b
-	cmp	r11d, dword ptr [r14 + 32]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 64]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 96]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	sub	r14, -128
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_150
-# %bb.151:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_152:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.153:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_154
-.LBB5_23:
-	xor	edi, edi
-	jmp	.LBB5_24
-.LBB5_99:
-	movzx	r11d, word ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_103
-# %bb.100:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_101:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	lea	r14, [r14 + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_101
-# %bb.102:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_103:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_104
-# %bb.105:
-	cmp	r10, 8
-	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	jb	.LBB5_106
-# %bb.107:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_109
-# %bb.108:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_109
-.LBB5_106:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_112:
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14 + 62]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 60]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 58]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 54]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 46]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 44]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 42]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 38]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 36]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 34]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 30]
-	setne	r9b
-	cmp	r11w, word ptr [r14 + 28]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 26]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 24]
-	setne	r13b
-	cmp	r11w, word ptr [r14 + 22]
-	setne	r15b
-	cmp	r11w, word ptr [r14 + 20]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 18]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 14]
-	setne	dl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 12]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 10]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 8]
-	setne	dil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 6]
-	setne	sil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 4]
-	setne	cl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 2]
-	setne	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
-	cmp	r12w, word ptr [r14 + 16]
-	mov	r12, rbx
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 48]
-	setne	bl
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	dil, 4
-	or	dil, sil
-	shl	r8b, 5
-	or	r8b, dil
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dl, 7
-	or	dl, al
-	or	dl, r8b
-	mov	byte ptr [r12], dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	or	r9b, al
-	mov	byte ptr [r12 + 1], r9b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 64
-	add	r12, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_113
-# %bb.114:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB5_115
-.LBB5_122:
-	movzx	r11d, word ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_126
-# %bb.123:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_124:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	lea	r14, [r14 + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_124
-# %bb.125:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_126:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_127
-# %bb.128:
-	cmp	r10, 8
-	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	jb	.LBB5_129
-# %bb.130:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_132
-# %bb.131:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_132
-.LBB5_129:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_135:
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_136:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14 + 62]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 60]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 58]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 54]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 46]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 44]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 42]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 38]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 36]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 34]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 30]
-	setne	r9b
-	cmp	r11w, word ptr [r14 + 28]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 26]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 24]
-	setne	r13b
-	cmp	r11w, word ptr [r14 + 22]
-	setne	r15b
-	cmp	r11w, word ptr [r14 + 20]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 18]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 14]
-	setne	dl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 12]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 10]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 8]
-	setne	dil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 6]
-	setne	sil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 4]
-	setne	cl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 2]
-	setne	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
-	cmp	r12w, word ptr [r14 + 16]
-	mov	r12, rbx
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 48]
-	setne	bl
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	dil, 4
-	or	dil, sil
-	shl	r8b, 5
-	or	r8b, dil
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dl, 7
-	or	dl, al
-	or	dl, r8b
-	mov	byte ptr [r12], dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	or	r9b, al
-	mov	byte ptr [r12 + 1], r9b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 64
-	add	r12, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_136
-# %bb.137:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB5_138
-.LBB5_158:
-	mov	r11, qword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_162
-# %bb.159:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_160:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_160
-# %bb.161:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_162:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_166
-# %bb.163:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_164:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14 + 248]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 240]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 184]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 120]
-	setne	r8b
-	cmp	r11, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 104]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 96]
-	setne	dil
-	cmp	r11, qword ptr [r14 + 88]
-	setne	r10b
-	cmp	r11, qword ptr [r14 + 80]
-	setne	r9b
-	cmp	r11, qword ptr [r14 + 72]
-	setne	sil
-	cmp	r11, qword ptr [r14 + 56]
-	setne	al
-	cmp	r11, qword ptr [r14 + 48]
-	setne	bl
-	cmp	r11, qword ptr [r14 + 40]
-	setne	cl
-	cmp	r11, qword ptr [r14 + 32]
-	setne	dl
-	cmp	r11, qword ptr [r14 + 24]
-	setne	r15b
-	cmp	r11, qword ptr [r14 + 16]
-	setne	r13b
-	cmp	r11, qword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 8]
-	setne	r12b
-	cmp	r11, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 192]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 256
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_164
-# %bb.165:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_166:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.167:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_168
-.LBB5_39:
-	xor	edi, edi
-	jmp	.LBB5_40
-.LBB5_170:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB5_174
-# %bb.171:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_172:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_172
-# %bb.173:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_174:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_175
-# %bb.176:
-	cmp	r10, 4
-	jb	.LBB5_177
-# %bb.178:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_180
-# %bb.179:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_180
-.LBB5_177:
-	xor	r8d, r8d
-	mov	rbx, r14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_183:
-	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_184:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setne	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setne	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setne	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setne	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setne	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setne	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setne	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB5_184
-# %bb.185:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	jmp	.LBB5_186
-.LBB5_9:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-.LBB5_91:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.92:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB5_97
-.LBB5_61:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-.LBB5_72:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.73:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_75
-# %bb.74:
-	xor	esi, esi
-	jmp	.LBB5_78
-.LBB5_104:
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_115:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.116:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_117
-# %bb.120:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_121:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r11w, word ptr [r14 + 2]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, rsi
-	jne	.LBB5_121
-	jmp	.LBB5_118
-.LBB5_127:
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_138:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.139:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_140
-.LBB5_117:
-	xor	esi, esi
-	jmp	.LBB5_118
-.LBB5_175:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rbx, r14
-.LBB5_186:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.187:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_191
-# %bb.188:
-	xor	esi, esi
-	jmp	.LBB5_189
-.LBB5_154:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11d, dword ptr [r14 + 4]
-	lea	r14, [r14 + 8]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_155
-.LBB5_24:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.25:
-	cmp	r11d, dword ptr [r14]
-	jmp	.LBB5_197
-.LBB5_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_95:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	sil, byte ptr [r14 + rax]
-	setne	bl
-	neg	bl
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	sil, byte ptr [r14 + rax + 1]
-	lea	rsi, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_95
-# %bb.96:
-	add	r14, rsi
-.LBB5_97:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.98:
-	mov	al, byte ptr [rsp + 64]         # 1-byte Reload
-	cmp	al, byte ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	jmp	.LBB5_80
-.LBB5_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_76:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	movzx	esi, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	sil, byte ptr [r14 + rax]
-	setne	bl
-	neg	bl
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	sil, byte ptr [r14 + rax + 1]
-	lea	rsi, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_76
-# %bb.77:
-	add	r14, rsi
-.LBB5_78:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.79:
-	mov	al, byte ptr [rsp + 40]         # 1-byte Reload
-	cmp	al, byte ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-.LBB5_80:
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	jmp	.LBB5_198
-.LBB5_193:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_194:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r11 + rsi]
-	xor	al, r10b
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r11 + rsi], dl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r11 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_194
-.LBB5_195:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.196:
-	ucomisd	xmm0, qword ptr [r14]
-	jmp	.LBB5_197
-.LBB5_168:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_169:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_169
-.LBB5_40:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.41:
-	cmp	r11, qword ptr [r14]
-.LBB5_197:
-	setne	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	sil, byte ptr [r8 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-.LBB5_198:
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB5_199
-.LBB5_140:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r11w, word ptr [r14 + 2]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, rsi
-	jne	.LBB5_141
-.LBB5_118:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.119:
-	cmp	r11w, word ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB5_199
-.LBB5_191:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB5_192:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB5_192
-.LBB5_189:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.190:
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-.LBB5_199:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB5_85:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB5_86:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r9, rax
-	mov	rbx, rax
-	mov	r15, rax
-	mov	rdx, rax
-	mov	r13, rax
-	mov	r8, rax
-	mov	r12, rax
-	mov	r10, rax
-	mov	r11, rax
-	mov	rsi, rax
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [r14 + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [r14 + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [r14 + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [r14 + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [r14 + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [r14 + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [r14 + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [r14 + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [r14 + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [r14 + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [r14 + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [r14 + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [r14 + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [r14 + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	rcx, rax
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 32
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	or	r9, 64
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	or	rbx, 96
-	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
-	or	r15, 128
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	or	rdx, 160
-	or	r13, 192
-	or	r8, 224
-	or	r12, 256
-	or	r10, 288
-	or	r11, 320
-	or	rsi, 352
-	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	or	rsi, 384
-	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
-	or	rax, 416
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 448
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	or	rcx, 480
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + rdi], 1
-	pinsrb	xmm4, byte ptr [r14 + r9], 2
-	pinsrb	xmm4, byte ptr [r14 + rbx], 3
-	pinsrb	xmm4, byte ptr [r14 + r15], 4
-	mov	rdi, rdx
-	pinsrb	xmm4, byte ptr [r14 + rdx], 5
-	mov	rdx, r13
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + r13], 6
-	mov	r13, r8
-	pinsrb	xmm4, byte ptr [r14 + r8], 7
-	mov	r8, r12
-	pinsrb	xmm4, byte ptr [r14 + r12], 8
-	pinsrb	xmm4, byte ptr [r14 + r10], 9
-	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + r11], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 11
-	pinsrb	xmm4, byte ptr [r14 + rsi], 12
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rcx], 13
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r12], 14
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rbx], 15
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 1
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 5
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 6
-	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 7
-	mov	rbx, r13
-	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 8
-	mov	r13, r8
-	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 9
-	mov	rdx, r10
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 10
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
-	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 12
-	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 13
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 15
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 16]
-	movd	xmm10, esi
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 1
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
-	mov	r11, r9
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 4
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 5
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 6
-	mov	r8, rbx
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 7
-	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 8
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 12
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 15
-	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 1
-	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 2
-	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
-	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 5
-	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 6
-	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 7
-	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 8
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 9
-	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 10
-	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 12
-	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 13
-	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 14
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 15
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 1
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 2
-	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
-	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 4
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 5
-	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 6
-	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 7
-	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 8
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 9
-	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 10
-	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
-	pinsrb	xmm9, byte ptr [r14 + rax + 4], 12
-	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 13
-	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 14
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rdx + 17]
-	movd	xmm4, esi
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [r14 + rdx + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [r14 + rdx + 19]
-	movd	xmm5, esi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 2
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 3
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 4
-	mov	r9, r12
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 5
-	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
-	mov	r13, r8
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 7
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 8
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 11
-	mov	rcx, rax
-	pinsrb	xmm2, byte ptr [r14 + rax + 5], 12
-	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 13
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 14
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 15
-	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 4
-	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 7
-	mov	r10, r13
-	mov	qword ptr [rsp + 136], r13      # 8-byte Spill
-	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 8
-	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 9
-	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 11
-	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 14
-	mov	r8, r15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 15
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
-	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 3
-	mov	rdx, rax
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 4
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 5
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 6
-	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 7
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
-	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 9
-	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 11
-	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
-	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 13
-	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + r10 + 20]
-	movd	xmm3, esi
-	pinsrb	xmm1, byte ptr [r14 + r15 + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [r14 + r10 + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 1
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 2
-	mov	r13, rdx
-	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 3
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 4
-	mov	rdx, r11
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 5
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 6
-	mov	r15, r9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 7
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 8
-	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 10
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 12
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 13
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 14
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + r10 + 22]
-	movd	xmm1, esi
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rax + 9], 2
-	pinsrb	xmm11, byte ptr [r14 + r13 + 9], 3
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 4
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 5
-	mov	r10, r15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 9], 6
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 7
-	mov	r15, rdi
-	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 8
-	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
-	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 13
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 14
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 15
-	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 1
-	pinsrb	xmm12, byte ptr [r14 + rax + 10], 2
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 5
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 6
-	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 7
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 8
-	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 9
-	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 10
-	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 13
-	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 14
-	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 15
-	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 1
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
-	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 6
-	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 7
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 8
-	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 9
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 10
-	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
-	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 13
-	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 14
-	mov	rax, r11
-	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm11, xmm0
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rbx + 23]
-	movd	xmm8, esi
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [r14 + rbx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 1
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 12], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 5
-	mov	r8, r10
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 6
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
-	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 8
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 9
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 10
-	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
-	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
-	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
-	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
-	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 5
-	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 6
-	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 7
-	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 8
-	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 9
-	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
-	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
-	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
-	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 2
-	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
-	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
-	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 5
-	mov	rbx, r9
-	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 6
-	mov	r12, r8
-	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 7
-	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 8
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 9
-	mov	r11, rcx
-	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 10
-	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
-	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
-	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [r14 + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [r14 + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 4
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
-	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 7
-	mov	r15, r13
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 8
-	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 9
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 11
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [r14 + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + rax + 29]
-	movd	xmm9, esi
-	mov	rsi, rdi
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
-	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
-	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 4
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 5
-	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 7
-	mov	rax, r15
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 8
-	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 9
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 11
-	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
-	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
-	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 2
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 4
-	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 5
-	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 7
-	pinsrb	xmm4, byte ptr [r14 + rax + 17], 8
-	mov	r9, r11
-	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 9
-	mov	r10, r15
-	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 11
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
-	mov	r11, rcx
-	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
-	movzx	eax, byte ptr [r14 + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
-	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
-	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 7
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 8
-	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 9
-	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 10
-	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
-	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
-	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
-	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 14
-	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
-	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
-	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
-	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 6
-	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 7
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 8
-	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 9
-	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 10
-	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
-	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
-	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 14
-	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
-	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
-	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
-	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 6
-	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 7
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 8
-	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 9
-	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 10
-	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
-	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
-	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
-	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
-	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 6
-	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 7
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 8
-	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 10
-	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
-	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
-	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 14
-	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
-	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
-	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
-	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 6
-	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 7
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 8
-	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 9
-	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 10
-	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
-	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
-	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
-	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 14
-	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
-	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
-	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 6
-	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 7
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 8
-	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
-	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
-	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
-	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
-	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 6
-	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 7
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 8
-	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 9
-	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 10
-	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
-	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
-	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 14
-	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
-	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
-	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 6
-	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 7
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 8
-	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 9
-	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 10
-	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
-	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
-	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 14
-	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
-	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
-	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
-	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 6
-	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 7
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 8
-	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 9
-	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 10
-	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
-	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
-	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
-	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 14
-	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
-	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
-	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 6
-	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 7
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 8
-	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 9
-	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 10
-	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
-	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
-	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
-	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
-	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
-	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
-	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
-	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
-	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
-	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
-	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 6
-	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 6
-	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 6
-	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 6
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 7
-	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 7
-	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 7
-	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 7
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 8
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 8
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 8
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 8
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 9
-	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 9
-	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 9
-	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 9
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 10
-	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 10
-	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 10
-	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 10
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
-	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
-	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
-	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
-	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
-	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
-	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
-	mov	rax, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
-	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
-	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
-	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
-	mov	rax, r11
-	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 14
-	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 14
-	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 14
-	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 14
-	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
-	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
-	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [rax + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	jne	.LBB5_86
-# %bb.87:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	jne	.LBB5_88
-	jmp	.LBB5_91
-.LBB5_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB5_67:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r8, rax
-	mov	r11, rax
-	mov	r9, rax
-	mov	r13, rax
-	mov	r15, rax
-	mov	rdi, rax
-	mov	r10, rax
-	mov	r12, rax
-	mov	rbx, rax
-	mov	rdx, rax
-	mov	rsi, rax
-	movzx	ecx, byte ptr [r14 + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [r14 + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [r14 + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [r14 + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [r14 + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [r14 + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [r14 + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [r14 + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [r14 + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [r14 + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [r14 + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [r14 + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [r14 + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [r14 + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 32
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	or	r8, 64
-	mov	qword ptr [rsp + 32], r8        # 8-byte Spill
-	or	r11, 96
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	or	r9, 128
-	mov	qword ptr [rsp + 24], r9        # 8-byte Spill
-	or	r13, 160
-	or	r15, 192
-	or	rdi, 224
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	or	r10, 256
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	or	r12, 288
-	or	rbx, 320
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	or	rdx, 352
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 384
-	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
-	mov	rdx, rax
-	or	rdx, 416
-	mov	rcx, rax
-	or	rcx, 448
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	or	rsi, 480
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 1
-	pinsrb	xmm4, byte ptr [r14 + r8], 2
-	pinsrb	xmm4, byte ptr [r14 + r11], 3
-	pinsrb	xmm4, byte ptr [r14 + r9], 4
-	pinsrb	xmm4, byte ptr [r14 + r13], 5
-	pinsrb	xmm4, byte ptr [r14 + r15], 6
-	pinsrb	xmm4, byte ptr [r14 + rdi], 7
-	pinsrb	xmm4, byte ptr [r14 + r10], 8
-	pinsrb	xmm4, byte ptr [r14 + r12], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 10
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 11
-	pinsrb	xmm4, byte ptr [r14 + rbx], 12
-	pinsrb	xmm4, byte ptr [r14 + rdx], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx], 14
-	pinsrb	xmm4, byte ptr [r14 + rsi], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 1
-	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 2
-	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 3
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 5
-	mov	r9, r13
-	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 6
-	mov	r11, r15
-	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 7
-	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 8
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 9
-	mov	rdi, r12
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 10
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
-	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 13
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 15
-	mov	r8, rsi
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 16]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 4
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 5
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + r11 + 2], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 7
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 8
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 9
-	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 10
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 14
-	pinsrb	xmm5, byte ptr [r14 + r8 + 2], 15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 1
-	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 2
-	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
-	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 4
-	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 5
-	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 6
-	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 7
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 8
-	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 9
-	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 10
-	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
-	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 12
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 14
-	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 1
-	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 2
-	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
-	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 4
-	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 5
-	mov	r15, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 6
-	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 7
-	mov	r9, r10
-	pinsrb	xmm9, byte ptr [r14 + rax + 4], 8
-	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 9
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 10
-	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
-	mov	rdi, rsi
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 14
-	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rdx + 17]
-	movd	xmm4, esi
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [r14 + rdx + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [r14 + rdx + 19]
-	movd	xmm5, esi
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 2
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r13 + 5], 3
-	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 5
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
-	pinsrb	xmm2, byte ptr [r14 + r9 + 5], 7
-	pinsrb	xmm2, byte ptr [r14 + rax + 5], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 9
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 10
-	mov	r9, rdi
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 11
-	pinsrb	xmm2, byte ptr [r14 + rcx + 5], 12
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 13
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 14
-	mov	qword ptr [rsp + 72], r8        # 8-byte Spill
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 15
-	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 2
-	mov	r11, r13
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 3
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 4
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 8
-	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 9
-	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 10
-	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 11
-	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 13
-	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 14
-	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 15
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 2
-	mov	r8, r11
-	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 3
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 4
-	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 7
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
-	mov	r13, rax
-	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 9
-	pinsrb	xmm14, byte ptr [r14 + r15 + 7], 10
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 11
-	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
-	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 13
-	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + r15 + 20]
-	movd	xmm3, esi
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [r14 + rax + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [r14 + r15 + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 1
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 2
-	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 3
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 5
-	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 6
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 7
-	pinsrb	xmm0, byte ptr [r14 + r13 + 8], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 9
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 10
-	pinsrb	xmm0, byte ptr [r14 + r10 + 8], 11
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 13
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 14
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + r15 + 22]
-	movd	xmm1, esi
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 1
-	mov	r15, r11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r10 + 9], 2
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 3
-	mov	r13, r8
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 5
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 6
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 7
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 8
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 9
-	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 10
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
-	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rax + 9], 14
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 15
-	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 1
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 2
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 4
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 6
-	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 7
-	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 8
-	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 9
-	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 10
-	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 13
-	pinsrb	xmm12, byte ptr [r14 + rax + 10], 14
-	mov	rbx, rax
-	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 15
-	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
-	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
-	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 6
-	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 7
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 8
-	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 9
-	mov	rax, r8
-	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 10
-	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 13
-	pinsrb	xmm13, byte ptr [r14 + rbx + 11], 14
-	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm11, xmm0
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rcx + 23]
-	movd	xmm8, esi
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [r14 + rcx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 5
-	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 6
-	mov	r8, r11
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 8
-	mov	r12, rax
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 10
-	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
-	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
-	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
-	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
-	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 5
-	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 6
-	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 7
-	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 8
-	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 9
-	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
-	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
-	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
-	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 2
-	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
-	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
-	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 5
-	mov	rbx, r10
-	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 6
-	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 7
-	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 8
-	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 9
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 10
-	mov	r12, rcx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
-	mov	r10, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
-	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [r14 + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [r14 + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
-	mov	rdx, r13
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 4
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 6
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 7
-	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 8
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 9
-	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 10
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 11
-	mov	r15, r10
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [r14 + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + rax + 29]
-	movd	xmm9, esi
-	mov	rsi, rdi
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
-	mov	rax, rdx
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
-	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 7
-	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 8
-	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 9
-	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 10
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 11
-	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
-	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
-	pinsrb	xmm4, byte ptr [r14 + rax + 17], 2
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
-	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 4
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 5
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r10 + 17], 6
-	mov	r9, rbx
-	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 7
-	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 8
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 9
-	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 10
-	mov	r8, r15
-	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
-	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
-	movzx	eax, byte ptr [r14 + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
-	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 6
-	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 7
-	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 9
-	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 10
-	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
-	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
-	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
-	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 14
-	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
-	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
-	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
-	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 6
-	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 7
-	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 8
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 9
-	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 10
-	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
-	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
-	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 14
-	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
-	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
-	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
-	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 6
-	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 7
-	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 8
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 9
-	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 10
-	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
-	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
-	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
-	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
-	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 6
-	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 7
-	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 8
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 9
-	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 10
-	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
-	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
-	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 14
-	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
-	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
-	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
-	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 6
-	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 7
-	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 8
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 9
-	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 10
-	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
-	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
-	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
-	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 14
-	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
-	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 6
-	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 7
-	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 9
-	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
-	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
-	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
-	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
-	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 6
-	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 7
-	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 8
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 9
-	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 10
-	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
-	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
-	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 14
-	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
-	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
-	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 6
-	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 7
-	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 8
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 9
-	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 10
-	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
-	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
-	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 14
-	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
-	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
-	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
-	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 6
-	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 7
-	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 8
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 9
-	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 10
-	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
-	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
-	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
-	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 14
-	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
-	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
-	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 6
-	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 7
-	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 8
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 9
-	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 10
-	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
-	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
-	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
-	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
-	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
-	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
-	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
-	mov	rax, rbx
-	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
-	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
-	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 6
-	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 6
-	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 6
-	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 6
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 7
-	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 7
-	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 7
-	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 7
-	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 8
-	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 8
-	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 8
-	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 8
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 9
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 9
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 9
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 9
-	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 10
-	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 10
-	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 10
-	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 10
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
-	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
-	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
-	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
-	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
-	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
-	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
-	mov	rax, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
-	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
-	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
-	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 14
-	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 14
-	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 14
-	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
-	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
-	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [rax + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	jne	.LBB5_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	jne	.LBB5_69
-	jmp	.LBB5_72
-.LBB5_109:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r11d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	edi, edi
-	pxor	xmm9, xmm9
-	.p2align	4, 0x90
-.LBB5_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	shl	rdi, 6
-	mov	r15, rdi
-	mov	rsi, rdi
-	mov	rdx, rdi
-	mov	r13, rdi
-	mov	rbx, rdi
-	mov	r9, rdi
-	movzx	eax, word ptr [r14 + rdi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [r14 + rdi + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [r14 + rdi + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [r14 + rdi + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [r14 + rdi + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [r14 + rdi + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [r14 + rdi + 12]
-	movzx	r8d, word ptr [r14 + rdi + 14]
-	movzx	r10d, word ptr [r14 + rdi + 16]
-	movzx	r12d, word ptr [r14 + rdi + 18]
-	movzx	ecx, word ptr [r14 + rdi + 20]
-	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	or	r15, 128
-	or	rsi, 192
-	or	rdx, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [r14 + rcx], 1
-	pinsrw	xmm5, word ptr [r14 + r15], 2
-	pinsrw	xmm5, word ptr [r14 + rsi], 3
-	pinsrw	xmm5, word ptr [r14 + rdx], 4
-	pinsrw	xmm5, word ptr [r14 + r13], 5
-	pinsrw	xmm5, word ptr [r14 + rbx], 6
-	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [r14 + rdi + 22]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm14
-	pblendvb	xmm3, xmm9, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 24]
-	pinsrw	xmm5, word ptr [r14 + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
-	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
-	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
-	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
-	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
-	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
-	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm9, xmm0
-	movd	xmm7, r10d
-	movzx	r8d, word ptr [r14 + rdi + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm6, r12d
-	movzx	r12d, word ptr [r14 + rdi + 28]
-	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 30]
-	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 32]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r11d
-	movzx	eax, word ptr [r14 + rdi + 34]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
-	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
-	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
-	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
-	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
-	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm12, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm9, xmm0
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 36]
-	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm0, xmm4
-	pblendvb	xmm15, xmm9, xmm0
-	movd	xmm4, r12d
-	movzx	r12d, word ptr [r14 + rdi + 38]
-	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r8d, word ptr [r14 + rdi + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 42]
-	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm5, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 44]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [r14 + rdi + 46]
-	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r12d
-	movzx	eax, word ptr [r14 + rdi + 48]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm13, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm9, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm2, r8d
-	movzx	r12d, word ptr [r14 + rdi + 50]
-	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [r14 + rdi + 52]
-	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pcmpeqd	xmm14, xmm14
-	pxor	xmm7, xmm14
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [r14 + rdi + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [r14 + rdi + 56]
-	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [r14 + rdi + 58]
-	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r12d
-	movzx	r12d, word ptr [r14 + rdi + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm10
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmm14
-	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm9, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r12d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm9, xmm0
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [r14 + rdi + 62]
-	por	xmm2, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
-	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm6
-	pblendvb	xmm10, xmm9, xmm0
-	por	xmm10, xmm2
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
-	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
-	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	rdi, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB5_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB5_112
-	jmp	.LBB5_115
-.LBB5_132:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r11d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	edi, edi
-	pxor	xmm9, xmm9
-	.p2align	4, 0x90
-.LBB5_133:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	shl	rdi, 6
-	mov	r15, rdi
-	mov	rsi, rdi
-	mov	rdx, rdi
-	mov	r13, rdi
-	mov	rbx, rdi
-	mov	r9, rdi
-	movzx	eax, word ptr [r14 + rdi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [r14 + rdi + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [r14 + rdi + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [r14 + rdi + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [r14 + rdi + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [r14 + rdi + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [r14 + rdi + 12]
-	movzx	r8d, word ptr [r14 + rdi + 14]
-	movzx	r10d, word ptr [r14 + rdi + 16]
-	movzx	r12d, word ptr [r14 + rdi + 18]
-	movzx	ecx, word ptr [r14 + rdi + 20]
-	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	or	r15, 128
-	or	rsi, 192
-	or	rdx, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [r14 + rcx], 1
-	pinsrw	xmm5, word ptr [r14 + r15], 2
-	pinsrw	xmm5, word ptr [r14 + rsi], 3
-	pinsrw	xmm5, word ptr [r14 + rdx], 4
-	pinsrw	xmm5, word ptr [r14 + r13], 5
-	pinsrw	xmm5, word ptr [r14 + rbx], 6
-	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [r14 + rdi + 22]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm14
-	pblendvb	xmm3, xmm9, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 24]
-	pinsrw	xmm5, word ptr [r14 + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
-	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
-	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
-	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
-	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
-	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
-	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm9, xmm0
-	movd	xmm7, r10d
-	movzx	r8d, word ptr [r14 + rdi + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm6, r12d
-	movzx	r12d, word ptr [r14 + rdi + 28]
-	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 30]
-	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 32]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r11d
-	movzx	eax, word ptr [r14 + rdi + 34]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
-	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
-	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
-	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
-	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
-	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm12, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm9, xmm0
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 36]
-	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm0, xmm4
-	pblendvb	xmm15, xmm9, xmm0
-	movd	xmm4, r12d
-	movzx	r12d, word ptr [r14 + rdi + 38]
-	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r8d, word ptr [r14 + rdi + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 42]
-	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm5, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 44]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [r14 + rdi + 46]
-	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r12d
-	movzx	eax, word ptr [r14 + rdi + 48]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm13, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm9, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm2, r8d
-	movzx	r12d, word ptr [r14 + rdi + 50]
-	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [r14 + rdi + 52]
-	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pcmpeqd	xmm14, xmm14
-	pxor	xmm7, xmm14
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [r14 + rdi + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [r14 + rdi + 56]
-	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [r14 + rdi + 58]
-	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r12d
-	movzx	r12d, word ptr [r14 + rdi + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm10
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmm14
-	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm9, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r12d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm9, xmm0
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [r14 + rdi + 62]
-	por	xmm2, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
-	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm6
-	pblendvb	xmm10, xmm9, xmm0
-	por	xmm10, xmm2
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
-	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
-	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	rdi, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB5_133
-# %bb.134:
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB5_135
-	jmp	.LBB5_138
-.LBB5_180:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, r14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	r11, [rax + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	r14, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI5_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI5_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_181:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [r14 - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [r14 - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [r14 - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [r14 - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [r14 - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [r14 - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [r14 - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [r14 - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [r14 - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [r14 - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [r14 - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [r14 - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14 - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [r14 - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [r14 - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [r14 - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [r14 - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [r14 - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [r14 - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [r14 - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [r14 - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [r14 - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [r14 - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [r14 - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [r14 - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [r14 - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [r14 - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [r14 - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [r14 - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [r14 - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [r14 - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [r14 - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [r14 - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [r14 - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [r14 - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [r14 - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [r14 - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [r14 - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [r14 - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14 - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [r14 - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [r14 - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [r14 - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [r14 - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [r14 - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 4
-	add	r14, 512
-	cmp	r8, rcx
-	jne	.LBB5_181
-# %bb.182:
-	cmp	r10, r8
-	jne	.LBB5_183
-	jmp	.LBB5_186
-.Lfunc_end5:
-	.size	comparison_not_equal_scalar_arr_sse4, .Lfunc_end5-comparison_not_equal_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_greater_arr_arr_sse4 # -- Begin function comparison_greater_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_arr_sse4,@function
-comparison_greater_arr_arr_sse4:        # @comparison_greater_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB6_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB6_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB6_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB6_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB6_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx]
-	add	rdx, 4
-	cmp	ecx, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_20
-# %bb.21:
-	add	r14, 1
-.LBB6_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	mov	eax, dword ptr [rsi + 8]
-	seta	r13b
-	cmp	eax, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	mov	eax, dword ptr [rsi + 16]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	mov	eax, dword ptr [rsi + 24]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 24]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	mov	eax, dword ptr [rsi + 32]
-	seta	r15b
-	cmp	eax, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	mov	eax, dword ptr [rsi + 40]
-	seta	r8b
-	cmp	eax, dword ptr [rdx + 40]
-	seta	bl
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	mov	eax, dword ptr [rsi + 48]
-	seta	r9b
-	cmp	eax, dword ptr [rdx + 48]
-	seta	r12b
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	mov	eax, dword ptr [rsi + 56]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	mov	r11d, dword ptr [rsi + 64]
-	seta	r10b
-	mov	ecx, dword ptr [rsi + 68]
-	mov	eax, dword ptr [rsi + 72]
-	cmp	r11d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	seta	r14b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 76]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 76]
-	mov	eax, dword ptr [rsi + 80]
-	mov	ecx, dword ptr [rsi + 84]
-	seta	r11b
-	cmp	eax, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 92]
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	seta	dil
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 104]
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 116]
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rdx + 4*rcx]
-	cmp	edi, dword ptr [rsi + 4*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_28
-	jmp	.LBB6_123
-.LBB6_29:
-	cmp	edi, 8
-	jle	.LBB6_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB6_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB6_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB6_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	r10b
-	add	rdx, 8
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_48
-# %bb.49:
-	add	r14, 1
-.LBB6_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	cl
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	seta	dil
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	seta	r10b
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r14b
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	seta	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	seta	r12b
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	seta	r13b
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r9b
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_56
-	jmp	.LBB6_123
-.LBB6_2:
-	cmp	edi, 2
-	je	.LBB6_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB6_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_6
-# %bb.7:
-	add	r14, 1
-.LBB6_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setg	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setg	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setg	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setg	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setg	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setg	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setg	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setg	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setg	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setg	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_14
-	jmp	.LBB6_123
-.LBB6_30:
-	cmp	edi, 7
-	je	.LBB6_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB6_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx]
-	add	rdx, 8
-	cmp	rcx, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_34
-# %bb.35:
-	add	r14, 1
-.LBB6_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	mov	rax, qword ptr [rsi + 16]
-	seta	r13b
-	cmp	rax, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	mov	rax, qword ptr [rsi + 32]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	mov	rax, qword ptr [rsi + 48]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 48]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	mov	rax, qword ptr [rsi + 64]
-	seta	r15b
-	cmp	rax, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	mov	rax, qword ptr [rsi + 80]
-	seta	r8b
-	cmp	rax, qword ptr [rdx + 80]
-	seta	bl
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	mov	rax, qword ptr [rsi + 96]
-	seta	r9b
-	cmp	rax, qword ptr [rdx + 96]
-	seta	r12b
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	mov	rax, qword ptr [rsi + 112]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	mov	r11, qword ptr [rsi + 128]
-	seta	r10b
-	mov	rcx, qword ptr [rsi + 136]
-	mov	rax, qword ptr [rsi + 144]
-	cmp	r11, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	seta	r14b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 152]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 152]
-	mov	rax, qword ptr [rsi + 160]
-	mov	rcx, qword ptr [rsi + 168]
-	seta	r11b
-	cmp	rax, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 184]
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	seta	dil
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 208]
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 232]
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rdx + 8*rcx]
-	cmp	rdi, qword ptr [rsi + 8*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_42
-	jmp	.LBB6_123
-.LBB6_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx]
-	add	rdx, 2
-	cmp	cx, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_70
-# %bb.71:
-	add	r14, 1
-.LBB6_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	movzx	eax, word ptr [rsi + 4]
-	seta	r13b
-	cmp	ax, word ptr [rdx + 4]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	movzx	eax, word ptr [rsi + 8]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	movzx	eax, word ptr [rsi + 12]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	movzx	eax, word ptr [rsi + 16]
-	seta	r15b
-	cmp	ax, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	movzx	eax, word ptr [rsi + 20]
-	seta	r8b
-	cmp	ax, word ptr [rdx + 20]
-	seta	bl
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	movzx	eax, word ptr [rsi + 24]
-	seta	r9b
-	cmp	ax, word ptr [rdx + 24]
-	seta	r12b
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	movzx	eax, word ptr [rsi + 28]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	movzx	r11d, word ptr [rsi + 32]
-	seta	r10b
-	movzx	ecx, word ptr [rsi + 34]
-	movzx	eax, word ptr [rsi + 36]
-	cmp	r11w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	seta	r14b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 38]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 38]
-	movzx	eax, word ptr [rsi + 40]
-	movzx	ecx, word ptr [rsi + 42]
-	seta	r11b
-	cmp	ax, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 46]
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	seta	dil
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 52]
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 58]
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rdx + 2*rcx]
-	cmp	di, word ptr [rsi + 2*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_78
-	jmp	.LBB6_123
-.LBB6_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_81
-# %bb.82:
-	add	r14, 1
-.LBB6_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setg	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setg	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setg	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setg	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setg	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setg	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setg	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setg	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setg	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_89
-	jmp	.LBB6_123
-.LBB6_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_103
-# %bb.104:
-	add	r14, 1
-.LBB6_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setg	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setg	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setg	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setg	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setg	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setg	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setg	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setg	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setg	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_111
-	jmp	.LBB6_123
-.LBB6_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	r10b
-	add	rdx, 4
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_114
-# %bb.115:
-	add	r14, 1
-.LBB6_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4]
-	seta	cl
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	seta	dil
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	seta	r10b
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r14b
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	seta	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	seta	r12b
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	seta	r13b
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r9b
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_122
-	jmp	.LBB6_123
-.LBB6_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx]
-	add	rdx, 1
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_59
-# %bb.60:
-	add	r14, 1
-.LBB6_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	seta	r13b
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	movzx	eax, byte ptr [rsi + 3]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 3]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	movzx	eax, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 5]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	movzx	eax, byte ptr [rsi + 7]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 7]
-	seta	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	movzx	eax, byte ptr [rsi + 9]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 9]
-	seta	cl
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	movzx	eax, byte ptr [rsi + 11]
-	seta	r9b
-	cmp	al, byte ptr [rdx + 11]
-	seta	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	movzx	eax, byte ptr [rsi + 13]
-	seta	r10b
-	cmp	al, byte ptr [rdx + 13]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	movzx	eax, byte ptr [rsi + 15]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 15]
-	seta	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	movzx	eax, byte ptr [rsi + 17]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 17]
-	seta	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	movzx	eax, byte ptr [rsi + 19]
-	seta	r14b
-	cmp	al, byte ptr [rdx + 19]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	movzx	eax, byte ptr [rsi + 21]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 21]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	movzx	eax, byte ptr [rsi + 23]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 23]
-	seta	r8b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	movzx	eax, byte ptr [rsi + 25]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 25]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	movzx	eax, byte ptr [rsi + 27]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 27]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	movzx	eax, byte ptr [rsi + 29]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 29]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	seta	dil
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
-	mov	eax, r13d
-	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r12b
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rdx + rcx]
-	cmp	bl, byte ptr [rsi + rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_67
-	jmp	.LBB6_123
-.LBB6_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_92
-# %bb.93:
-	add	r14, 1
-.LBB6_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setg	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setg	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setg	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setg	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setg	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setg	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setg	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setg	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setg	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_100
-.LBB6_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	comparison_greater_arr_arr_sse4, .Lfunc_end6-comparison_greater_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_arr_scalar_sse4
-.LCPI7_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_1:
-	.zero	16,252
-.LCPI7_2:
-	.zero	16,248
-.LCPI7_3:
-	.zero	16,240
-.LCPI7_4:
-	.zero	16,224
-.LCPI7_5:
-	.zero	16,192
-.LCPI7_6:
-	.zero	16,128
-.LCPI7_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI7_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_10:
-	.zero	16,1
-.LCPI7_11:
-	.zero	16,4
-.LCPI7_12:
-	.zero	16,8
-.LCPI7_13:
-	.zero	16,16
-.LCPI7_14:
-	.zero	16,32
-.LCPI7_15:
-	.zero	16,64
-.LCPI7_16:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_scalar_sse4,@function
-comparison_greater_arr_scalar_sse4:     # @comparison_greater_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 336
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r12, rcx
-	cmp	edi, 6
-	jg	.LBB7_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB7_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB7_98
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB7_113
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB7_200
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_15
-# %bb.16:
-	add	r12, 1
-.LBB7_17:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_21
-# %bb.18:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_19:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	seta	dil
-	cmp	dword ptr [rsi + 8], r13d
-	seta	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	seta	al
-	cmp	dword ptr [rsi + 28], r13d
-	seta	bl
-	cmp	dword ptr [rsi + 32], r13d
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	seta	dl
-	cmp	dword ptr [rsi + 40], r13d
-	seta	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	seta	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	seta	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	seta	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	seta	cl
-	cmp	dword ptr [rsi + 64], r13d
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	seta	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 128
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_19
-# %bb.20:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_21:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.22:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_135
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB7_24
-.LBB7_26:
-	cmp	edi, 8
-	jle	.LBB7_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB7_155
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB7_170
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB7_200
-# %bb.45:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB7_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_47
-# %bb.48:
-	add	r12, 1
-.LBB7_49:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_53
-# %bb.50:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_51:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setb	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setb	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setb	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setb	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setb	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setb	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setb	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setb	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setb	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setb	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setb	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setb	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setb	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [rax], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rax + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [rax + 2], r15b
-	mov	byte ptr [rax + 3], r8b
-	add	rsi, 256
-	add	rax, 4
-	mov	r12, rax
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB7_51
-# %bb.52:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB7_53:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.54:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_193
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB7_195
-.LBB7_2:
-	cmp	edi, 2
-	je	.LBB7_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB7_200
-# %bb.4:
-	mov	r14b, byte ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r15, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_6
-# %bb.7:
-	add	r12, 1
-.LBB7_8:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_9
-# %bb.80:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 288], r10      # 8-byte Spill
-	jb	.LBB7_81
-# %bb.82:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_84
-# %bb.83:
-	lea	rax, [r12 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB7_84
-.LBB7_81:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
-.LBB7_87:
-	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_88:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r14b
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r14b
-	setg	sil
-	cmp	byte ptr [rcx + 2], r14b
-	setg	r15b
-	cmp	byte ptr [rcx + 3], r14b
-	setg	r12b
-	cmp	byte ptr [rcx + 4], r14b
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 5], r14b
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 6], r14b
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 7], r14b
-	setg	r9b
-	cmp	byte ptr [rcx + 8], r14b
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 9], r14b
-	setg	dl
-	cmp	byte ptr [rcx + 10], r14b
-	setg	dil
-	cmp	byte ptr [rcx + 11], r14b
-	setg	r10b
-	cmp	byte ptr [rcx + 12], r14b
-	setg	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setg	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setg	r8b
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setg	r11b
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setg	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	add	qword ptr [rsp + 240], -1       # 8-byte Folded Spill
-	jne	.LBB7_88
-# %bb.89:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	jmp	.LBB7_90
-.LBB7_27:
-	cmp	edi, 7
-	je	.LBB7_137
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB7_200
-# %bb.29:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_31
-# %bb.32:
-	add	r12, 1
-.LBB7_33:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_37
-# %bb.34:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_35:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	seta	dil
-	cmp	qword ptr [rsi + 16], r13
-	seta	r14b
-	cmp	qword ptr [rsi + 24], r13
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	seta	al
-	cmp	qword ptr [rsi + 56], r13
-	seta	bl
-	cmp	qword ptr [rsi + 64], r13
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	seta	dl
-	cmp	qword ptr [rsi + 80], r13
-	seta	r9b
-	cmp	qword ptr [rsi + 88], r13
-	seta	r10b
-	cmp	qword ptr [rsi + 96], r13
-	seta	r11b
-	cmp	qword ptr [rsi + 104], r13
-	seta	r12b
-	cmp	qword ptr [rsi + 112], r13
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	seta	cl
-	cmp	qword ptr [rsi + 128], r13
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	seta	r15b
-	cmp	qword ptr [rsi + 192], r13
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 256
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_35
-# %bb.36:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_37:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.38:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_153
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB7_40
-.LBB7_56:
-	mov	al, byte ptr [rdx]
-	mov	byte ptr [rsp + 40], al         # 1-byte Spill
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_58:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_58
-# %bb.59:
-	add	r12, 1
-.LBB7_60:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_61
-# %bb.62:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 264], r10      # 8-byte Spill
-	jb	.LBB7_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_66
-# %bb.65:
-	lea	rax, [r12 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB7_66
-.LBB7_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	r14, rsi
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-.LBB7_69:
-	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r14
-	movzx	r14d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	cmp	byte ptr [rcx], r14b
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 1], r14b
-	seta	sil
-	cmp	byte ptr [rcx + 2], r14b
-	seta	r11b
-	cmp	byte ptr [rcx + 3], r14b
-	seta	r15b
-	cmp	byte ptr [rcx + 4], r14b
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 5], r14b
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 6], r14b
-	seta	al
-	cmp	byte ptr [rcx + 7], r14b
-	seta	r8b
-	cmp	byte ptr [rcx + 8], r14b
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 9], r14b
-	seta	dl
-	cmp	byte ptr [rcx + 10], r14b
-	seta	dil
-	cmp	byte ptr [rcx + 11], r14b
-	seta	r9b
-	cmp	byte ptr [rcx + 12], r14b
-	seta	r10b
-	cmp	byte ptr [rcx + 13], r14b
-	seta	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	seta	bl
-	cmp	byte ptr [rcx + 16], r14b
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	seta	r13b
-	cmp	byte ptr [rcx + 18], r14b
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 24], r14b
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 25], r14b
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 26], r14b
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 27], r14b
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 28], r14b
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 29], r14b
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 30], r14b
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 31], r14b
-	seta	r14b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r8b, 7
-	or	r8b, al
-	shl	r11b, 2
-	or	r11b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	edx, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	r8b, al
-	or	bl, r12b
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 104]      # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, r13b
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	byte ptr [rax], r8b
-	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dil, 6
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 7
-	or	dl, dil
-	mov	byte ptr [rax + 1], bl
-	or	dl, sil
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	movzx	esi, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	or	r14b, bl
-	mov	byte ptr [rax + 2], dl
-	mov	byte ptr [rax + 3], r14b
-	lea	r14, [rcx + 32]
-	add	rax, 4
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_70
-# %bb.71:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	jmp	.LBB7_72
-.LBB7_137:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_141
-# %bb.138:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_139:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_139
-# %bb.140:
-	add	r12, 1
-.LBB7_141:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_145
-# %bb.142:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_143:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setg	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setg	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setg	al
-	cmp	dword ptr [rsi + 28], r13d
-	setg	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setg	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setg	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setg	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setg	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setg	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setg	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setg	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 128
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_143
-# %bb.144:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_145:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.146:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_151
-# %bb.147:
-	xor	r11d, r11d
-	jmp	.LBB7_148
-.LBB7_98:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_102
-# %bb.99:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_100:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r9d, r9d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	rdx, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	r9b, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r9b
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_100
-# %bb.101:
-	add	r12, 1
-.LBB7_102:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_106
-# %bb.103:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_104:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	word ptr [rsi], r13w
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	seta	dil
-	cmp	word ptr [rsi + 4], r13w
-	seta	r14b
-	cmp	word ptr [rsi + 6], r13w
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	seta	al
-	cmp	word ptr [rsi + 14], r13w
-	seta	bl
-	cmp	word ptr [rsi + 16], r13w
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	seta	dl
-	cmp	word ptr [rsi + 20], r13w
-	seta	r9b
-	cmp	word ptr [rsi + 22], r13w
-	seta	r10b
-	cmp	word ptr [rsi + 24], r13w
-	seta	r11b
-	cmp	word ptr [rsi + 26], r13w
-	seta	r12b
-	cmp	word ptr [rsi + 28], r13w
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	seta	cl
-	cmp	word ptr [rsi + 32], r13w
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	seta	r15b
-	cmp	word ptr [rsi + 48], r13w
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 16]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp]              # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 64
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_104
-# %bb.105:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_106:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.107:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_111
-# %bb.108:
-	xor	r11d, r11d
-	jmp	.LBB7_109
-.LBB7_113:
-	movzx	eax, word ptr [rdx]
-	mov	dword ptr [rsp + 240], eax      # 4-byte Spill
-	lea	r14, [r11 + 31]
-	test	r11, r11
-	cmovns	r14, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_117
-# %bb.114:
-	movsxd	rax, r9d
-	mov	r10d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r10w
-	lea	rsi, [rsi + 2]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r15, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_115
-# %bb.116:
-	add	r12, 1
-.LBB7_117:
-	sar	r14, 5
-	cmp	r11, 32
-	jl	.LBB7_128
-# %bb.118:
-	cmp	r14, 8
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r14      # 8-byte Spill
-	jb	.LBB7_119
-# %bb.120:
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_122
-# %bb.121:
-	lea	rax, [r12 + 4*r14]
-	cmp	rax, rsi
-	jbe	.LBB7_122
-.LBB7_119:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-.LBB7_125:
-	mov	qword ptr [rsp], r12            # 8-byte Spill
-	sub	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	r13d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_126:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setg	r8b
-	cmp	word ptr [rsi + 4], r13w
-	setg	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setg	al
-	cmp	word ptr [rsi + 14], r13w
-	setg	bl
-	cmp	word ptr [rsi + 16], r13w
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setg	cl
-	cmp	word ptr [rsi + 20], r13w
-	setg	sil
-	cmp	word ptr [r11 + 22], r13w
-	setg	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setg	r10b
-	cmp	word ptr [r11 + 26], r13w
-	setg	r12b
-	cmp	word ptr [r11 + 28], r13w
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setg	dil
-	cmp	word ptr [r11 + 32], r13w
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setg	r15b
-	cmp	word ptr [r11 + 48], r13w
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setg	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_126
-# %bb.127:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-.LBB7_128:
-	shl	r14, 5
-	cmp	r14, r11
-	jge	.LBB7_200
-# %bb.129:
-	mov	r8, r11
-	sub	r8, r14
-	not	r14
-	add	r14, r11
-	jne	.LBB7_133
-# %bb.130:
-	xor	r14d, r14d
-	jmp	.LBB7_131
-.LBB7_155:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_159
-# %bb.156:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_157
-# %bb.158:
-	add	r12, 1
-.LBB7_159:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_163
-# %bb.160:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_161:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setg	dil
-	cmp	qword ptr [rsi + 16], r13
-	setg	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setg	al
-	cmp	qword ptr [rsi + 56], r13
-	setg	bl
-	cmp	qword ptr [rsi + 64], r13
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setg	dl
-	cmp	qword ptr [rsi + 80], r13
-	setg	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setg	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setg	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setg	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setg	cl
-	cmp	qword ptr [rsi + 128], r13
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setg	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 256
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_161
-# %bb.162:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_163:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.164:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_168
-# %bb.165:
-	xor	r11d, r11d
-	jmp	.LBB7_166
-.LBB7_170:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB7_174
-# %bb.171:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_172:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_172
-# %bb.173:
-	add	r12, 1
-.LBB7_174:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_175
-# %bb.176:
-	cmp	r10, 4
-	jb	.LBB7_177
-# %bb.178:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_180
-# %bb.179:
-	lea	rax, [r12 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB7_180
-.LBB7_177:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r14, r12
-.LBB7_183:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_184:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp], r14            # 8-byte Spill
-	ucomiss	xmm11, dword ptr [rbx]
-	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setb	r8b
-	ucomiss	xmm11, dword ptr [rbx + 8]
-	setb	r14b
-	ucomiss	xmm11, dword ptr [rbx + 12]
-	setb	r13b
-	ucomiss	xmm11, dword ptr [rbx + 16]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 20]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 24]
-	setb	al
-	ucomiss	xmm11, dword ptr [rbx + 28]
-	setb	r11b
-	ucomiss	xmm11, dword ptr [rbx + 32]
-	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 36]
-	setb	dl
-	ucomiss	xmm11, dword ptr [rbx + 40]
-	setb	sil
-	ucomiss	xmm11, dword ptr [rbx + 44]
-	setb	r9b
-	ucomiss	xmm11, dword ptr [rbx + 48]
-	setb	r10b
-	ucomiss	xmm11, dword ptr [rbx + 52]
-	setb	r12b
-	ucomiss	xmm11, dword ptr [rbx + 56]
-	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 60]
-	setb	dil
-	ucomiss	xmm11, dword ptr [rbx + 64]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 68]
-	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 72]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 76]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 80]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 84]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 88]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 92]
-	setb	r15b
-	ucomiss	xmm11, dword ptr [rbx + 96]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 100]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 104]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 108]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 112]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 116]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 120]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 124]
-	setb	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	r11b, dl
-	or	dil, r12b
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], dil
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], cl
-	add	rbx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB7_184
-# %bb.185:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	jmp	.LBB7_186
-.LBB7_9:
-	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
-.LBB7_90:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.91:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_93
-# %bb.92:
-	xor	r9d, r9d
-	jmp	.LBB7_96
-.LBB7_61:
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	mov	r14, rsi
-.LBB7_72:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.73:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_75
-# %bb.74:
-	xor	eax, eax
-	jmp	.LBB7_78
-.LBB7_175:
-	mov	r14, r12
-	mov	rbx, rsi
-.LBB7_186:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.187:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_191
-# %bb.188:
-	xor	r11d, r11d
-	jmp	.LBB7_189
-.LBB7_153:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_154:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_154
-.LBB7_40:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.41:
-	cmp	r13, qword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_152:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_152
-.LBB7_148:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.149:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB7_150
-.LBB7_93:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_94:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r14b
-	setg	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r14b
-	lea	r9, [rax + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB7_94
-# %bb.95:
-	add	rsi, r9
-.LBB7_96:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.97:
-	cmp	byte ptr [rsi], r14b
-	setg	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB7_200
-.LBB7_75:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r10b, byte ptr [rsp + 40]       # 1-byte Reload
-	.p2align	4, 0x90
-.LBB7_76:                               # =>This Inner Loop Header: Depth=1
-	cmp	r10b, byte ptr [r14 + rax]
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r11 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10b, byte ptr [r14 + rax + 1]
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r11 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB7_76
-# %bb.77:
-	add	r14, rax
-.LBB7_78:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.79:
-	mov	cl, byte ptr [rsp + 40]         # 1-byte Reload
-	cmp	cl, byte ptr [r14]
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB7_200
-.LBB7_135:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_136:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13d, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_136
-.LBB7_24:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.25:
-	cmp	r13d, dword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_193:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_194:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_194
-.LBB7_195:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.196:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_111:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_112:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_112
-.LBB7_109:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.110:
-	cmp	r13w, word ptr [rsi]
-.LBB7_197:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r12 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB7_198
-.LBB7_133:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_134:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r11w
-	setg	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r11w
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB7_134
-.LBB7_131:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.132:
-	mov	eax, dword ptr [rsp + 240]      # 4-byte Reload
-	cmp	word ptr [rsi], ax
-	setg	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	jmp	.LBB7_199
-.LBB7_168:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_169:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_169
-.LBB7_166:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.167:
-	cmp	qword ptr [rsi], r13
-.LBB7_150:
-	setg	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r12 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB7_198:
-	xor	bl, sil
-.LBB7_199:
-	mov	byte ptr [r12 + rdx], bl
-.LBB7_200:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB7_191:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_192:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	sbb	edx, edx
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	r11, 2
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sbb	esi, esi
-	xor	sil, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, sil
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_192
-.LBB7_189:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.190:
-	ucomiss	xmm11, dword ptr [rbx]
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB7_200
-.LBB7_84:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
-	lea	rax, [r12 + 4*r10]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_85:                               # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	r8, rdi
-	mov	rdx, rdi
-	mov	r9, rdi
-	mov	r12, rdi
-	mov	r11, rdi
-	mov	rax, rdi
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	r14, rdi
-	mov	r10, rdi
-	mov	r15, rdi
-	mov	rbx, rdi
-	movzx	ecx, byte ptr [rsi + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	or	r8, 64
-	or	rdx, 96
-	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
-	or	r9, 128
-	or	r12, 160
-	or	r11, 192
-	mov	qword ptr [rsp + 64], r11       # 8-byte Spill
-	or	rax, 224
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	or	r11, 256
-	or	r14, 288
-	or	r10, 320
-	or	r15, 352
-	mov	qword ptr [rsp + 80], r15       # 8-byte Spill
-	or	rbx, 384
-	mov	rax, rdi
-	or	rax, 416
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rdi
-	mov	rcx, rdi
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	or	rcx, 480
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + r8], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx], 3
-	mov	rdi, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r9], 4
-	pinsrb	xmm15, byte ptr [rsi + r12], 5
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9], 6
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 7
-	mov	qword ptr [rsp + 32], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 8
-	pinsrb	xmm15, byte ptr [rsi + r14], 9
-	pinsrb	xmm15, byte ptr [rsi + r10], 10
-	pinsrb	xmm15, byte ptr [rsi + r15], 11
-	pinsrb	xmm15, byte ptr [rsi + rbx], 12
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx], 13
-	pinsrb	xmm15, byte ptr [rsi + rax], 14
-	pinsrb	xmm15, byte ptr [rsi + rcx], 15
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 2
-	mov	r11, r8
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 4
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 5
-	mov	rdi, r12
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 6
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 7
-	mov	r12, r13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 8
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 9
-	mov	r9, r14
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 11
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 12
-	mov	r13, rbx
-	mov	qword ptr [rsp + 192], rbx      # 8-byte Spill
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpgtb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 15]
-	movd	xmm14, ebx
-	pcmpgtb	xmm15, xmm9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
-	mov	rcx, r8
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 4
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 7
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 12
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 15
-	pand	xmm15, xmm4
-	pcmpgtb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	ebx, byte ptr [rsi + rax + 16]
-	movd	xmm15, ebx
-	mov	rax, rdx
-	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 1
-	mov	r13, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
-	mov	r11, rcx
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 4
-	mov	rdx, rdi
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 6
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 10
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 11
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 2
-	mov	qword ptr [rsp + 96], r13       # 8-byte Spill
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 9
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 10
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 13
-	mov	r8, r15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 15
-	por	xmm6, xmm7
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 17]
-	movd	xmm0, ebx
-	pcmpgtb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpgtb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	ebx, byte ptr [rsi + rax + 18]
-	movd	xmm5, ebx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 4
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 6
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 7
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 8
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 11
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 13
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 15
-	pcmpgtb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI7_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	ebx, byte ptr [rsi + rax + 19]
-	movd	xmm7, ebx
-	por	xmm8, xmm6
-	movzx	ebx, byte ptr [rsi + rax + 20]
-	movd	xmm6, ebx
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 1
-	mov	r10, rcx
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 4
-	mov	r8, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 6
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 8
-	mov	r9, r12
-	mov	rax, r13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 10
-	mov	rbx, r15
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 11
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 12
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 14
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 1
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 2
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 3
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 5
-	mov	rdx, r8
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 7
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 10
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 12
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 13
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 14
-	mov	rdi, r14
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
-	pcmpgtb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpgtb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 21]
-	movd	xmm2, ebx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 2
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 3
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 4
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 5
-	mov	r14, rdx
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 6
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 7
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 9
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 12
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpgtb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	ebx, byte ptr [rsi + rax + 22]
-	movd	xmm3, ebx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 1
-	mov	r11, rcx
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 6
-	mov	rdx, r9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 7
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 9
-	mov	rbx, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 12
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 14
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 15
-	pcmpgtb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 4
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 7
-	mov	r11, r14
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 10
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 15
-	pcmpgtb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI7_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rcx + 23]
-	movd	xmm8, ebx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm10  # 16-byte Spill
-	movzx	ebx, byte ptr [rsi + rcx + 24]
-	movd	xmm10, ebx
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
-	mov	r14, r13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 4
-	mov	r13, rcx
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
-	mov	rcx, r8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 6
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 7
-	mov	r8, r11
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 8
-	mov	r9, rax
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 9
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 2
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 4
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 10
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 13
-	mov	r13, rax
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 14
-	mov	rax, r11
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 15
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 2
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 3
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 4
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 12
-	mov	rdi, r13
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 13
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 15
-	pcmpgtb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI7_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 25]
-	movd	xmm1, ebx
-	pcmpgtb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI7_14]
-	por	xmm12, xmm13
-	movzx	ebx, byte ptr [rsi + rax + 26]
-	movd	xmm11, ebx
-	movdqa	xmm4, xmmword ptr [rsp + 304]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 1
-	mov	r13, r11
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 2
-	mov	r11, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 4
-	mov	rax, rdx
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	mov	rbx, r10
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 12
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 15
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 15
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r13 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 144]  # 16-byte Folded Reload
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 27]
-	movd	xmm9, ebx
-	movdqa	xmm13, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpgtb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI7_15]
-	pcmpgtb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI7_6]
-	por	xmm14, xmm4
-	movzx	ebx, byte ptr [rsi + rax + 28]
-	movd	xmm4, ebx
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 15
-	por	xmm14, xmm12
-	pcmpgtb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm13  # 16-byte Spill
-	movzx	ebx, byte ptr [rsi + rax + 29]
-	movd	xmm13, ebx
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpgtb	xmm15, xmm0
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 1
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 12
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 13
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 15
-	pcmpgtb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI7_11]
-	por	xmm5, xmm15
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rdi + 30]
-	movd	xmm12, ebx
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 1
-	movzx	edi, byte ptr [rsi + rdi + 31]
-	movd	xmm0, edi
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 7
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 14
-	por	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpgtb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI7_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 15
-	pcmpgtb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI7_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 15
-	pcmpgtb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpgtb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI7_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 15
-	por	xmm8, xmm2
-	pcmpgtb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 15
-	pcmpgtb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 15
-	pcmpgtb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI7_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpgtb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI7_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 15
-	pcmpgtb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 13
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 15
-	por	xmm13, xmm11
-	pcmpgtb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpgtb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB7_85
-# %bb.86:
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB7_87
-	jmp	.LBB7_90
-.LBB7_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
-	lea	rax, [r12 + 4*r10]
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_67:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	rax, 5
-	mov	rdx, rax
-	mov	r12, rax
-	mov	r11, rax
-	mov	rdi, rax
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	r9, rax
-	mov	r15, rax
-	mov	r10, rax
-	mov	r14, rax
-	mov	r8, rax
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rax]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rax + 1]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rax + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rax + 3]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + rax + 5]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + rax + 6]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rsi + rax + 7]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 8]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rax + 9]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 10]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rax + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rax + 12]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 16]
-	movd	xmm13, ecx
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 24]
-	movd	xmm15, ecx
-	mov	r13, rax
-	or	r13, 32
-	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
-	or	rdx, 64
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	or	r12, 96
-	mov	qword ptr [rsp + 16], r12       # 8-byte Spill
-	or	r11, 128
-	or	rdi, 160
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	or	rcx, 192
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	or	r9, 224
-	or	r15, 256
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	or	r10, 288
-	mov	qword ptr [rsp + 120], r10      # 8-byte Spill
-	or	r14, 320
-	or	r8, 352
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	or	r8, 384
-	mov	rbx, rax
-	or	rbx, 416
-	mov	qword ptr [rsp], rbx            # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 448
-	mov	qword ptr [rsp + 24], rbx       # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 480
-	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + r13], 1
-	pinsrb	xmm10, byte ptr [rsi + rdx], 2
-	pinsrb	xmm10, byte ptr [rsi + r12], 3
-	mov	r12, r11
-	mov	qword ptr [rsp + 48], r11       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + r11], 4
-	pinsrb	xmm10, byte ptr [rsi + rdi], 5
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + rcx], 6
-	pinsrb	xmm10, byte ptr [rsi + r9], 7
-	mov	r11, r9
-	pinsrb	xmm10, byte ptr [rsi + r15], 8
-	pinsrb	xmm10, byte ptr [rsi + r10], 9
-	pinsrb	xmm10, byte ptr [rsi + r14], 10
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13], 11
-	pinsrb	xmm10, byte ptr [rsi + r8], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax], 13
-	mov	r15, rax
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax], 14
-	pinsrb	xmm10, byte ptr [rsi + rbx], 15
-	movdqa	xmm8, xmm10
-	movdqa	xmm12, xmmword ptr [rsp + 288]  # 16-byte Reload
-	pminub	xmm8, xmm12
-	pcmpeqb	xmm8, xmm10
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 1], 1
-	pinsrb	xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 3
-	pinsrb	xmm4, byte ptr [rsi + r12 + 1], 4
-	pinsrb	xmm4, byte ptr [rsi + rdi + 1], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 1], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 1], 7
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 1], 8
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 9
-	pinsrb	xmm4, byte ptr [rsi + r14 + 1], 10
-	pinsrb	xmm4, byte ptr [rsi + r13 + 1], 11
-	pinsrb	xmm4, byte ptr [rsi + r8 + 1], 12
-	pinsrb	xmm4, byte ptr [rsi + r15 + 1], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 1], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 1], 15
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 2
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 3
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 4
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 7
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 8
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 13
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 14
-	pinsrb	xmm6, byte ptr [rsi + rax + 2], 15
-	pinsrb	xmm14, byte ptr [rsi + r9 + 8], 1
-	pinsrb	xmm14, byte ptr [rsi + rdx + 8], 2
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 8], 3
-	pinsrb	xmm14, byte ptr [rsi + r12 + 8], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 8], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 8], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 8], 7
-	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 8
-	pinsrb	xmm14, byte ptr [rsi + rbx + 8], 9
-	pinsrb	xmm14, byte ptr [rsi + r14 + 8], 10
-	pinsrb	xmm14, byte ptr [rsi + r13 + 8], 11
-	pinsrb	xmm14, byte ptr [rsi + r8 + 8], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 8], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 8], 14
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 15
-	movdqa	xmm10, xmm14
-	pminub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm14
-	pinsrb	xmm13, byte ptr [rsi + r9 + 16], 1
-	pinsrb	xmm13, byte ptr [rsi + rdx + 16], 2
-	mov	r9, r15
-	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 3
-	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 4
-	pinsrb	xmm13, byte ptr [rsi + rdi + 16], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm13, byte ptr [rsi + r11 + 16], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 8
-	pinsrb	xmm13, byte ptr [rsi + rbx + 16], 9
-	pinsrb	xmm13, byte ptr [rsi + r14 + 16], 10
-	pinsrb	xmm13, byte ptr [rsi + r13 + 16], 11
-	pinsrb	xmm13, byte ptr [rsi + r8 + 16], 12
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 14
-	pinsrb	xmm13, byte ptr [rsi + r10 + 16], 15
-	movdqa	xmm3, xmm13
-	pminub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm13
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm15, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 4
-	pinsrb	xmm15, byte ptr [rsi + rdi + 24], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 24], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 24], 7
-	pinsrb	xmm15, byte ptr [rsi + r15 + 24], 8
-	pinsrb	xmm15, byte ptr [rsi + rbx + 24], 9
-	pinsrb	xmm15, byte ptr [rsi + r14 + 24], 10
-	pinsrb	xmm15, byte ptr [rsi + r13 + 24], 11
-	pinsrb	xmm15, byte ptr [rsi + r8 + 24], 12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 24], 13
-	mov	r15, r12
-	pinsrb	xmm15, byte ptr [rsi + rcx + 24], 14
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [rsi + r10 + 24], 15
-	movdqa	xmm3, xmm15
-	pminub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
-	movdqa	xmm14, xmm4
-	pminub	xmm14, xmm12
-	pcmpeqb	xmm14, xmm4
-	movdqa	xmm13, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm13, xmm4
-	paddb	xmm13, xmm14
-	movdqa	xmm14, xmm6
-	pminub	xmm14, xmm12
-	pcmpeqb	xmm14, xmm6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 13]
-	movd	xmm6, edx
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 2
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 3
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 4
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 5
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 6
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 9
-	mov	qword ptr [rsp + 160], r14      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 10
-	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 11
-	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 3], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 15
-	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 1
-	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 2
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 4
-	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 5
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 7
-	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 8
-	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 9
-	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 10
-	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 11
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 4], 14
-	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 15
-	pinsrb	xmm7, byte ptr [rsi + r12 + 5], 1
-	pinsrb	xmm7, byte ptr [rsi + rcx + 5], 2
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 4
-	pinsrb	xmm7, byte ptr [rsi + r10 + 5], 5
-	pinsrb	xmm7, byte ptr [rsi + rdx + 5], 6
-	pinsrb	xmm7, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm7, byte ptr [rsi + r9 + 5], 8
-	pinsrb	xmm7, byte ptr [rsi + rbx + 5], 9
-	pinsrb	xmm7, byte ptr [rsi + r14 + 5], 10
-	pinsrb	xmm7, byte ptr [rsi + r13 + 5], 11
-	pinsrb	xmm7, byte ptr [rsi + r8 + 5], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 13
-	pinsrb	xmm7, byte ptr [rsi + rax + 5], 14
-	pinsrb	xmm7, byte ptr [rsi + r15 + 5], 15
-	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 1
-	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 2
-	mov	r15, rcx
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 3
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 6], 5
-	pinsrb	xmm0, byte ptr [rsi + rdx + 6], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 6], 7
-	pinsrb	xmm0, byte ptr [rsi + r9 + 6], 8
-	mov	r11, r9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 6], 9
-	pinsrb	xmm0, byte ptr [rsi + r14 + 6], 10
-	pinsrb	xmm0, byte ptr [rsi + r13 + 6], 11
-	mov	r14, r13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 12
-	mov	r13, r8
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 13
-	pandn	xmm8, xmm4
-	pinsrb	xmm0, byte ptr [rsi + rax + 6], 14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_11] # xmm4 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm14, xmm4
-	por	xmm14, xmm8
-	movdqa	xmm15, xmm5
-	pminub	xmm15, xmm12
-	pcmpeqb	xmm15, xmm5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 14]
-	movd	xmm5, edx
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm15, xmm4
-	por	xmm15, xmm14
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm8, edx
-	pcmpeqd	xmm3, xmm3
-	psubb	xmm13, xmm3
-	pcmpeqd	xmm14, xmm14
-	por	xmm15, xmm13
-	movdqa	xmm4, xmm9
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm9
-	movdqa	xmm9, xmm7
-	pminub	xmm9, xmm12
-	pcmpeqb	xmm9, xmm7
-	movzx	edx, byte ptr [rsi + rax + 17]
-	movd	xmm7, edx
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 6], 15
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_13] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm4, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_14] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm9, xmm1
-	por	xmm9, xmm4
-	movdqa	xmm4, xmm0
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm0
-	movzx	edx, byte ptr [rsi + rax + 18]
-	movd	xmm1, edx
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 1
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 2
-	mov	rbx, r12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 5
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 6
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 9
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 12
-	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 14
-	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 15
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm4, xmm3
-	por	xmm4, xmm9
-	movdqa	xmm9, xmm0
-	pminub	xmm9, xmm12
-	pcmpeqb	xmm9, xmm0
-	movzx	edx, byte ptr [rsi + rax + 19]
-	movd	xmm3, edx
-	pxor	xmm9, xmm14
-	psllw	xmm9, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm0
-	por	xmm9, xmm4
-	movdqa	xmm4, xmm9
-	movzx	edx, byte ptr [rsi + rax + 20]
-	movd	xmm9, edx
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 1
-	mov	rax, rcx
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 2
-	pinsrb	xmm0, byte ptr [rsi + rbx + 9], 3
-	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 9], 5
-	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 6
-	mov	r8, r15
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 9], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 9
-	mov	r10, r12
-	pinsrb	xmm0, byte ptr [rsi + r11 + 9], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 9], 11
-	pinsrb	xmm0, byte ptr [rsi + r13 + 9], 12
-	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 13
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 9], 15
-	pinsrb	xmm2, byte ptr [rsi + rax + 10], 1
-	pinsrb	xmm2, byte ptr [rsi + rcx + 10], 2
-	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 10], 5
-	pinsrb	xmm2, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 10], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 10], 9
-	pinsrb	xmm2, byte ptr [rsi + r11 + 10], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 10], 11
-	pinsrb	xmm2, byte ptr [rsi + r13 + 10], 12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 10], 13
-	pinsrb	xmm2, byte ptr [rsi + r9 + 10], 14
-	mov	r11, r9
-	pinsrb	xmm2, byte ptr [rsi + rdx + 10], 15
-	mov	r12, rdx
-	por	xmm4, xmm15
-	movdqa	xmmword ptr [rsp + 192], xmm4   # 16-byte Spill
-	movdqa	xmm4, xmm0
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm0
-	movdqa	xmm13, xmm4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_10] # xmm14 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm13, xmm14
-	paddb	xmm13, xmm4
-	movdqa	xmm0, xmm2
-	pminub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm2
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 21]
-	movd	xmm4, edx
-	pandn	xmm10, xmm14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 1
-	mov	r13, rcx
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 6
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 7
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 8
-	mov	r9, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 9
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 11
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 12
-	mov	rbx, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 13
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 14
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 15
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_11]
-	por	xmm0, xmm10
-	movdqa	xmm10, xmm11
-	pminub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm11
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm15, edx
-	pandn	xmm10, xmmword ptr [rip + .LCPI7_12]
-	por	xmm10, xmm0
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm11, edx
-	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 12], 1
-	mov	rax, r13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 2
-	mov	rdx, rcx
-	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 12], 4
-	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 12], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 12], 9
-	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 10
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 12], 12
-	pinsrb	xmm0, byte ptr [rsi + rbx + 12], 13
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 12], 15
-	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 13], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 3
-	mov	rax, r15
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 4
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 10
-	pinsrb	xmm6, byte ptr [rsi + r13 + 13], 11
-	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 12
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 13
-	mov	r8, r10
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI7_16]
-	por	xmm10, xmm13
-	movdqa	xmm2, xmm0
-	movdqa	xmm13, xmm12
-	pminub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm0
-	movdqa	xmm0, xmm6
-	pminub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm12, edx
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 14], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 2
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 14], 3
-	mov	rdx, rax
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 4
-	mov	r9, r15
-	pinsrb	xmm5, byte ptr [rsi + r15 + 14], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 6
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 14], 7
-	mov	r15, r11
-	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 8
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 9
-	pinsrb	xmm5, byte ptr [rsi + rdi + 14], 10
-	mov	r14, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 11
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 13
-	pinsrb	xmm5, byte ptr [rsi + r8 + 14], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 15
-	pinsrb	xmm8, byte ptr [rsi + rbx + 15], 1
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 2
-	pinsrb	xmm8, byte ptr [rsi + r12 + 15], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 15], 4
-	pinsrb	xmm8, byte ptr [rsi + r9 + 15], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm8, byte ptr [rsi + r10 + 15], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 15], 8
-	pinsrb	xmm8, byte ptr [rsi + r11 + 15], 9
-	pinsrb	xmm8, byte ptr [rsi + rdi + 15], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm8, byte ptr [rsi + r13 + 15], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 15], 13
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 15], 15
-	pinsrb	xmm7, byte ptr [rsi + rbx + 17], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 2
-	pinsrb	xmm7, byte ptr [rsi + r12 + 17], 3
-	pinsrb	xmm7, byte ptr [rsi + rdx + 17], 4
-	pinsrb	xmm7, byte ptr [rsi + r9 + 17], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm7, byte ptr [rsi + r10 + 17], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 17], 8
-	pinsrb	xmm7, byte ptr [rsi + r11 + 17], 9
-	pinsrb	xmm7, byte ptr [rsi + rdi + 17], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm7, byte ptr [rsi + r13 + 17], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 13
-	pinsrb	xmm7, byte ptr [rsi + r8 + 17], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 15
-	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 1
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 2
-	pinsrb	xmm1, byte ptr [rsi + r12 + 18], 3
-	pinsrb	xmm1, byte ptr [rsi + rdx + 18], 4
-	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm1, byte ptr [rsi + r10 + 18], 7
-	pinsrb	xmm1, byte ptr [rsi + r15 + 18], 8
-	mov	r12, r15
-	pinsrb	xmm1, byte ptr [rsi + r11 + 18], 9
-	pinsrb	xmm1, byte ptr [rsi + rdi + 18], 10
-	mov	r10, rdi
-	pinsrb	xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	r15, r14
-	pinsrb	xmm1, byte ptr [rsi + r13 + 18], 12
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 13
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_13]
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_14]
-	por	xmm0, xmm2
-	movdqa	xmm2, xmm5
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm5, edx
-	pinsrb	xmm1, byte ptr [rsi + r8 + 18], 14
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_15]
-	por	xmm2, xmm0
-	movdqa	xmm6, xmm8
-	pminub	xmm6, xmm13
-	pcmpeqb	xmm6, xmm8
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm0, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 15
-	pxor	xmm6, xmmword ptr [rip + .LCPI7_16]
-	psllw	xmm6, 7
-	pand	xmm6, xmmword ptr [rip + .LCPI7_6]
-	por	xmm6, xmm2
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm8, edx
-	por	xmm6, xmm10
-	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
-	movdqa	xmm2, xmm7
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm7
-	movdqa	xmm14, xmm2
-	pandn	xmm14, xmmword ptr [rip + .LCPI7_10]
-	paddb	xmm14, xmm2
-	movdqa	xmm10, xmm1
-	pminub	xmm10, xmm13
-	pcmpeqb	xmm10, xmm1
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm6, edx
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movzx	edi, byte ptr [rsi + rax + 31]
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm4, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 29], 1
-	movd	xmm1, edx
-	pinsrb	xmm1, byte ptr [rsi + rax + 30], 1
-	movd	xmm7, edi
-	pinsrb	xmm7, byte ptr [rsi + rax + 31], 1
-	mov	rax, rbx
-	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 2
-	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 2
-	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 2
-	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 2
-	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 2
-	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 2
-	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 2
-	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 2
-	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 2
-	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 2
-	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 2
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 19], 4
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 19], 5
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 19], 6
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 19], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 19], 8
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 19], 9
-	pinsrb	xmm3, byte ptr [rsi + r10 + 19], 10
-	pinsrb	xmm3, byte ptr [rsi + r15 + 19], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 12
-	pinsrb	xmm3, byte ptr [rsi + r9 + 19], 13
-	pinsrb	xmm3, byte ptr [rsi + r8 + 19], 14
-	pinsrb	xmm3, byte ptr [rsi + rcx + 19], 15
-	pinsrb	xmm9, byte ptr [rsi + rax + 20], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 20], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm9, byte ptr [rsi + rdi + 20], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 20], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm9, byte ptr [rsi + r14 + 20], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 20], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 20], 11
-	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 12
-	pinsrb	xmm9, byte ptr [rsi + r9 + 20], 13
-	pinsrb	xmm9, byte ptr [rsi + r8 + 20], 14
-	pinsrb	xmm9, byte ptr [rsi + rcx + 20], 15
-	pinsrb	xmm4, byte ptr [rsi + rax + 21], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm4, byte ptr [rsi + rdi + 21], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 21], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm4, byte ptr [rsi + r14 + 21], 9
-	pinsrb	xmm4, byte ptr [rsi + r10 + 21], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 21], 11
-	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 12
-	pinsrb	xmm4, byte ptr [rsi + r9 + 21], 13
-	pinsrb	xmm4, byte ptr [rsi + r8 + 21], 14
-	pinsrb	xmm4, byte ptr [rsi + rcx + 21], 15
-	pinsrb	xmm15, byte ptr [rsi + rax + 22], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm15, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm15, byte ptr [rsi + rdi + 22], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 22], 7
-	pinsrb	xmm15, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm15, byte ptr [rsi + r14 + 22], 9
-	pinsrb	xmm15, byte ptr [rsi + r10 + 22], 10
-	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_10]
-	pinsrb	xmm15, byte ptr [rsi + r15 + 22], 11
-	pandn	xmm10, xmmword ptr [rip + .LCPI7_11]
-	por	xmm10, xmm2
-	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 12
-	movdqa	xmm2, xmm3
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm3
-	pinsrb	xmm15, byte ptr [rsi + r9 + 22], 13
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
-	por	xmm2, xmm10
-	pinsrb	xmm15, byte ptr [rsi + r8 + 22], 14
-	psubb	xmm14, xmmword ptr [rip + .LCPI7_16]
-	por	xmm2, xmm14
-	movdqa	xmm10, xmm9
-	pminub	xmm10, xmm13
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm3, xmm4
-	movdqa	xmm9, xmm13
-	pminub	xmm3, xmm13
-	pcmpeqb	xmm3, xmm4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 22], 15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI7_13] # xmm13 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm10, xmm13
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_14] # xmm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm3, xmm4
-	por	xmm3, xmm10
-	movdqa	xmm4, xmm15
-	pminub	xmm4, xmm9
-	movdqa	xmm13, xmm9
-	pcmpeqb	xmm4, xmm15
-	pinsrb	xmm11, byte ptr [rsi + rax + 23], 3
-	pinsrb	xmm11, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm11, byte ptr [rsi + rdi + 23], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 23], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm11, byte ptr [rsi + r14 + 23], 9
-	pinsrb	xmm11, byte ptr [rsi + r10 + 23], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 23], 11
-	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 12
-	pinsrb	xmm11, byte ptr [rsi + r9 + 23], 13
-	pinsrb	xmm11, byte ptr [rsi + r8 + 23], 14
-	pinsrb	xmm11, byte ptr [rsi + rcx + 23], 15
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_15] # xmm15 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm4, xmm15
-	por	xmm4, xmm3
-	movdqa	xmm3, xmm11
-	pminub	xmm3, xmm9
-	pcmpeqb	xmm3, xmm11
-	pxor	xmm3, xmmword ptr [rip + .LCPI7_16]
-	psllw	xmm3, 7
-	movdqa	xmm11, xmmword ptr [rip + .LCPI7_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm3, xmm11
-	por	xmm3, xmm4
-	pinsrb	xmm12, byte ptr [rsi + rax + 25], 3
-	pinsrb	xmm12, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm12, byte ptr [rsi + rdi + 25], 6
-	pinsrb	xmm12, byte ptr [rsi + r11 + 25], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm12, byte ptr [rsi + r14 + 25], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 25], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 25], 11
-	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 12
-	pinsrb	xmm12, byte ptr [rsi + r9 + 25], 13
-	pinsrb	xmm12, byte ptr [rsi + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rsi + rcx + 25], 15
-	pinsrb	xmm5, byte ptr [rsi + rax + 26], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 26], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 26], 7
-	pinsrb	xmm5, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm5, byte ptr [rsi + r14 + 26], 9
-	pinsrb	xmm5, byte ptr [rsi + r10 + 26], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 26], 11
-	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 12
-	pinsrb	xmm5, byte ptr [rsi + r9 + 26], 13
-	pinsrb	xmm5, byte ptr [rsi + r8 + 26], 14
-	pinsrb	xmm5, byte ptr [rsi + rcx + 26], 15
-	por	xmm3, xmm2
-	movdqa	xmm2, xmm12
-	pminub	xmm2, xmm9
-	pcmpeqb	xmm2, xmm12
-	movdqa	xmm9, xmm2
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm9, xmm10
-	paddb	xmm9, xmm2
-	movdqa	xmm4, xmm5
-	pminub	xmm4, xmm13
-	pcmpeqb	xmm4, xmm5
-	movdqa	xmm2, xmmword ptr [rsp + 240]   # 16-byte Reload
-	pandn	xmm2, xmm10
-	pinsrb	xmm0, byte ptr [rsi + rax + 27], 3
-	pinsrb	xmm0, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm0, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm0, byte ptr [rsi + rdi + 27], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 27], 7
-	pinsrb	xmm0, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm0, byte ptr [rsi + r14 + 27], 9
-	pinsrb	xmm0, byte ptr [rsi + r10 + 27], 10
-	pinsrb	xmm0, byte ptr [rsi + r15 + 27], 11
-	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 12
-	pinsrb	xmm0, byte ptr [rsi + r9 + 27], 13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 27], 14
-	pinsrb	xmm0, byte ptr [rsi + rcx + 27], 15
-	pandn	xmm4, xmmword ptr [rip + .LCPI7_11]
-	por	xmm4, xmm2
-	movdqa	xmm2, xmm0
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
-	por	xmm2, xmm4
-	pinsrb	xmm8, byte ptr [rsi + rax + 28], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm8, byte ptr [rsi + rdi + 28], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 28], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm8, byte ptr [rsi + r14 + 28], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 28], 10
-	pinsrb	xmm8, byte ptr [rsi + r15 + 28], 11
-	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 12
-	pinsrb	xmm8, byte ptr [rsi + r9 + 28], 13
-	pinsrb	xmm8, byte ptr [rsi + r8 + 28], 14
-	pinsrb	xmm8, byte ptr [rsi + rcx + 28], 15
-	pinsrb	xmm6, byte ptr [rsi + rax + 29], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm6, byte ptr [rsi + rdi + 29], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 29], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm6, byte ptr [rsi + r14 + 29], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 29], 10
-	pinsrb	xmm6, byte ptr [rsi + r15 + 29], 11
-	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 12
-	pinsrb	xmm6, byte ptr [rsi + r9 + 29], 13
-	pinsrb	xmm6, byte ptr [rsi + r8 + 29], 14
-	pinsrb	xmm6, byte ptr [rsi + rcx + 29], 15
-	pcmpeqd	xmm10, xmm10
-	psubb	xmm9, xmm10
-	por	xmm2, xmm9
-	movdqa	xmm0, xmm8
-	pminub	xmm0, xmm13
-	pcmpeqb	xmm0, xmm8
-	movdqa	xmm4, xmm6
-	pminub	xmm4, xmm13
-	pcmpeqb	xmm4, xmm6
-	pinsrb	xmm1, byte ptr [rsi + rax + 30], 3
-	pinsrb	xmm7, byte ptr [rsi + rax + 31], 3
-	pinsrb	xmm1, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm7, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm7, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm1, byte ptr [rsi + rdi + 30], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 31], 6
-	pinsrb	xmm1, byte ptr [rsi + r11 + 30], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 31], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm7, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm1, byte ptr [rsi + r14 + 30], 9
-	pinsrb	xmm7, byte ptr [rsi + r14 + 31], 9
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r10 + 30], 10
-	pinsrb	xmm7, byte ptr [rsi + r10 + 31], 10
-	pinsrb	xmm1, byte ptr [rsi + r15 + 30], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 31], 11
-	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 12
-	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 12
-	pinsrb	xmm1, byte ptr [rsi + r9 + 30], 13
-	pinsrb	xmm7, byte ptr [rsi + r9 + 31], 13
-	pinsrb	xmm1, byte ptr [rsi + r8 + 30], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 31], 14
-	pinsrb	xmm1, byte ptr [rsi + rcx + 30], 15
-	pinsrb	xmm7, byte ptr [rsi + rcx + 31], 15
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_13]
-	pandn	xmm4, xmmword ptr [rip + .LCPI7_14]
-	por	xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pminub	xmm0, xmm13
-	pcmpeqb	xmm0, xmm1
-	pandn	xmm0, xmm15
-	por	xmm0, xmm4
-	movdqa	xmm1, xmm7
-	pminub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm7
-	pxor	xmm1, xmm10
-	psllw	xmm1, 7
-	pand	xmm1, xmm11
-	por	xmm1, xmm0
-	por	xmm1, xmm2
-	movdqa	xmm0, xmm3
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm2, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm2, xmm6              # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3],xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
-	movdqa	xmm4, xmm2
-	punpcklwd	xmm4, xmm0              # xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1],xmm4[2],xmm0[2],xmm4[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm3, xmm1              # xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm0, xmm5
-	punpcklwd	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	punpckhwd	xmm5, xmm3              # xmm5 = xmm5[4],xmm3[4],xmm5[5],xmm3[5],xmm5[6],xmm3[6],xmm5[7],xmm3[7]
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB7_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	jne	.LBB7_69
-	jmp	.LBB7_72
-.LBB7_180:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r14, [r12 + 4*r8]
-	movaps	xmm13, xmm11
-	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB7_181:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
-	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
-	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
-	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
-	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
-	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
-	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
-	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
-	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
-	movaps	xmm12, xmm13
-	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
-	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	cmpltps	xmm12, xmm3
-	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	packssdw	xmm12, xmm12
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	packsswb	xmm12, xmm12
-	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	movaps	xmm7, xmm13
-	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	cmpltps	xmm7, xmm4
-	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	movaps	xmm6, xmm13
-	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	cmpltps	xmm6, xmm5
-	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm0
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm10
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm14, xmm0
-	pand	xmm14, xmm15
-	psubb	xmm14, xmm0
-	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	pand	xmm12, xmm15
-	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	por	xmm14, xmm12
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm9
-	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm5, xmm0
-	por	xmm5, xmm14
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm1
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm8
-	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm14
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm14
-	por	xmm1, xmm0
-	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
-	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
-	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
-	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm3
-	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	packssdw	xmm7, xmm7
-	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm5, xmm3
-	por	xmm5, xmm0
-	movaps	xmm8, xmm13
-	cmpltps	xmm8, xmm10
-	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm8, xmm8
-	packsswb	xmm8, xmm8
-	psllw	xmm8, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm0
-	por	xmm8, xmm5
-	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	packsswb	xmm7, xmm7
-	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	por	xmm8, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm9
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	pand	xmm7, xmm15
-	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	por	xmm1, xmm7
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm12
-	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI7_1]
-	por	xmm5, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm3
-	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmmword ptr [rip + .LCPI7_3]
-	por	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm10
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm9
-	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm6, xmm6
-	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	pand	xmm5, xmmword ptr [rip + .LCPI7_5]
-	por	xmm5, xmm0
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm3
-	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm10
-	por	xmm0, xmm5
-	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm0, xmm1
-	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	packsswb	xmm6, xmm6
-	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	pand	xmm6, xmm15
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	por	xmm1, xmm6
-	movaps	xmm6, xmm13
-	cmpltps	xmm6, xmm7
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm6, xmm0
-	por	xmm6, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm3
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm5
-	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm12
-	por	xmm1, xmm0
-	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm1, xmm6
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm9
-	movaps	xmm6, xmm13
-	cmpltps	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm4, xmm4
-	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 6
-	movdqa	xmm9, xmmword ptr [rip + .LCPI7_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm6, xmm9
-	por	xmm6, xmm0
-	movaps	xmm2, xmm13
-	cmpltps	xmm2, xmm3
-	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm10
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	packsswb	xmm4, xmm4
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	por	xmm2, xmm1
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	pand	xmm4, xmm15
-	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	por	xmm5, xmm4
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm7
-	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 2
-	pand	xmm4, xmmword ptr [rip + .LCPI7_1]
-	por	xmm4, xmm5
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm0
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm6
-	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmmword ptr [rip + .LCPI7_2]
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	por	xmm1, xmm5
-	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	por	xmm1, xmm4
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm3
-	movaps	xmm3, xmm13
-	cmpltps	xmm3, xmm0
-	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 5
-	pand	xmm4, xmm14
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm9
-	por	xmm3, xmm4
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm10
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
-	pshufb	xmm8, xmmword ptr [rip + .LCPI7_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	movdqu	xmmword ptr [r12 + 4*rcx], xmm8
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB7_181
-# %bb.182:
-	cmp	r10, r8
-	jne	.LBB7_183
-	jmp	.LBB7_186
-.LBB7_122:
-	and	r14, -8
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
-	lea	rax, [r12 + 4*r14]
-	mov	qword ptr [rsp], rax            # 8-byte Spill
-	movd	xmm0, dword ptr [rsp + 240]     # 4-byte Folded Reload
-                                        # xmm0 = mem[0],zero,zero,zero
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI7_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI7_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI7_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	r11d, word ptr [rsi + r15 + 4]
-	movzx	edx, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, r11d
-	movzx	r11d, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, edx
-	movzx	edx, word ptr [rsi + r15 + 16]
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r10d, word ptr [rsi + r15 + 20]
-	pcmpgtw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 24]
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, edx
-	movzx	edx, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpgtw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpgtw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rsi + r15 + 34]
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, edx
-	movzx	edx, word ptr [rsi + r15 + 36]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 40], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 42]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rsi + r15 + 44]
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	eax, word ptr [rsi + r15 + 50]
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, edx
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI7_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB7_123
-# %bb.124:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB7_125
-	jmp	.LBB7_128
-.Lfunc_end7:
-	.size	comparison_greater_arr_scalar_sse4, .Lfunc_end7-comparison_greater_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_scalar_arr_sse4
-.LCPI8_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_1:
-	.zero	16,252
-.LCPI8_2:
-	.zero	16,248
-.LCPI8_3:
-	.zero	16,240
-.LCPI8_4:
-	.zero	16,224
-.LCPI8_5:
-	.zero	16,192
-.LCPI8_6:
-	.zero	16,128
-.LCPI8_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI8_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_10:
-	.zero	16,1
-.LCPI8_11:
-	.zero	16,4
-.LCPI8_12:
-	.zero	16,8
-.LCPI8_13:
-	.zero	16,16
-.LCPI8_14:
-	.zero	16,32
-.LCPI8_15:
-	.zero	16,64
-.LCPI8_16:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_scalar_arr_sse4,@function
-comparison_greater_scalar_arr_sse4:     # @comparison_greater_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 336
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB8_16
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB8_31
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB8_81
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB8_92
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB8_182
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	lea	rdx, [rdx + 4]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_7
-# %bb.8:
-	add	r14, 1
-.LBB8_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_13
-# %bb.10:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	seta	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	seta	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	seta	al
-	cmp	r13d, dword ptr [rdx + 28]
-	seta	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	seta	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	seta	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	seta	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	seta	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	seta	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	seta	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	seta	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_162
-# %bb.15:
-	xor	r11d, r11d
-	jmp	.LBB8_164
-.LBB8_16:
-	cmp	edi, 8
-	jle	.LBB8_45
-# %bb.17:
-	cmp	edi, 9
-	je	.LBB8_104
-# %bb.18:
-	cmp	edi, 11
-	je	.LBB8_115
-# %bb.19:
-	cmp	edi, 12
-	jne	.LBB8_182
-# %bb.20:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB8_24
-# %bb.21:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_22:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	bl
-	add	rdx, 8
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_22
-# %bb.23:
-	add	r14, 1
-.LBB8_24:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_28
-# %bb.25:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_26:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r8b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	seta	r14b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	seta	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r11b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	seta	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	seta	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r9b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	seta	r12b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	seta	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r15b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB8_26
-# %bb.27:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB8_28:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.29:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_166
-# %bb.30:
-	xor	edi, edi
-	jmp	.LBB8_168
-.LBB8_31:
-	cmp	edi, 2
-	je	.LBB8_58
-# %bb.32:
-	cmp	edi, 3
-	jne	.LBB8_182
-# %bb.33:
-	mov	r11b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_37
-# %bb.34:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_35:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_35
-# %bb.36:
-	add	r14, 1
-.LBB8_37:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_127
-# %bb.38:
-	cmp	r15, 16
-	mov	byte ptr [rsp], r11b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB8_41
-# %bb.39:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_191
-# %bb.40:
-	lea	rax, [r14 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_191
-.LBB8_41:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
-.LBB8_42:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_43:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r11b, byte ptr [rsi]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rsi + 1]
-	setg	dil
-	cmp	r11b, byte ptr [rsi + 2]
-	setg	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 3]
-	setg	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 4]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 5]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 6]
-	setg	bl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 7]
-	setg	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 8]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 9]
-	setg	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 10]
-	setg	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 11]
-	setg	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	setg	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	setg	al
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	setg	r10b
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	setg	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_43
-# %bb.44:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB8_128
-.LBB8_45:
-	cmp	edi, 7
-	je	.LBB8_70
-# %bb.46:
-	cmp	edi, 8
-	jne	.LBB8_182
-# %bb.47:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_51
-# %bb.48:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_49:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	lea	rdx, [rdx + 8]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_49
-# %bb.50:
-	add	r14, 1
-.LBB8_51:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_55
-# %bb.52:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_53:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	seta	dil
-	cmp	r13, qword ptr [rdx + 16]
-	seta	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	seta	al
-	cmp	r13, qword ptr [rdx + 56]
-	seta	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	seta	sil
-	cmp	r13, qword ptr [rdx + 80]
-	seta	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	seta	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	seta	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	seta	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	seta	cl
-	cmp	r13, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	seta	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_53
-# %bb.54:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_55:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.56:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_143
-# %bb.57:
-	xor	r11d, r11d
-	jmp	.LBB8_145
-.LBB8_58:
-	mov	r11b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_62
-# %bb.59:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_60:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx], r11b
-	lea	rdx, [rdx + 1]
-	sbb	esi, esi
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_60
-# %bb.61:
-	add	r14, 1
-.LBB8_62:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_131
-# %bb.63:
-	cmp	r15, 16
-	mov	byte ptr [rsp], r11b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB8_66
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_194
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_194
-.LBB8_66:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-.LBB8_67:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_68:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r11b, byte ptr [rsi]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rsi + 1]
-	seta	dil
-	cmp	r11b, byte ptr [rsi + 2]
-	seta	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 3]
-	seta	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 4]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 6]
-	seta	bl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 7]
-	seta	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 8]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 9]
-	seta	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 10]
-	seta	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 11]
-	seta	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 12]
-	seta	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	seta	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	seta	al
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	seta	r10b
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	seta	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 48], rdi       # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_68
-# %bb.69:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB8_132
-.LBB8_70:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_72:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r14 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_72
-# %bb.73:
-	add	r14, 1
-.LBB8_74:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_78
-# %bb.75:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_76:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	setg	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	setg	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	setg	al
-	cmp	r13d, dword ptr [rdx + 28]
-	setg	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	setg	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	setg	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	setg	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	setg	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	setg	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	setg	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	setg	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_76
-# %bb.77:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_78:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_147
-# %bb.80:
-	xor	edi, edi
-	jmp	.LBB8_149
-.LBB8_81:
-	movzx	r13d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_83:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	lea	rdx, [rdx + 2]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_83
-# %bb.84:
-	add	r14, 1
-.LBB8_85:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_89
-# %bb.86:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_87:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	seta	dil
-	cmp	r13w, word ptr [rdx + 4]
-	seta	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	seta	al
-	cmp	r13w, word ptr [rdx + 14]
-	seta	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	seta	sil
-	cmp	r13w, word ptr [rdx + 20]
-	seta	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	seta	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	seta	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	seta	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	seta	cl
-	cmp	r13w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	seta	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp]              # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_87
-# %bb.88:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_89:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_170
-# %bb.91:
-	xor	r11d, r11d
-	jmp	.LBB8_172
-.LBB8_92:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_94
-# %bb.95:
-	add	r14, 1
-.LBB8_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_135
-# %bb.97:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB8_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_197
-# %bb.99:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rdx
-	jbe	.LBB8_197
-.LBB8_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	r12, r14
-.LBB8_101:
-	mov	qword ptr [rsp], r12            # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_102:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	setg	dil
-	cmp	r13w, word ptr [rsi + 4]
-	setg	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	setg	al
-	cmp	r13w, word ptr [rsi + 14]
-	setg	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	setg	cl
-	cmp	r13w, word ptr [rsi + 20]
-	setg	dl
-	cmp	r13w, word ptr [rsi + 22]
-	setg	sil
-	cmp	r13w, word ptr [r11 + 24]
-	setg	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	setg	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	setg	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	setg	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	jmp	.LBB8_136
-.LBB8_104:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_106:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r14 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_106
-# %bb.107:
-	add	r14, 1
-.LBB8_108:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_112
-# %bb.109:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	setg	dil
-	cmp	r13, qword ptr [rdx + 16]
-	setg	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	setg	al
-	cmp	r13, qword ptr [rdx + 56]
-	setg	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	setg	sil
-	cmp	r13, qword ptr [rdx + 80]
-	setg	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	setg	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	setg	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	setg	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	setg	cl
-	cmp	r13, qword ptr [rdx + 128]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	setg	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_112:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_175
-# %bb.114:
-	xor	edi, edi
-	jmp	.LBB8_177
-.LBB8_115:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB8_119
-# %bb.116:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_117:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	bl
-	add	rdx, 4
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_117
-# %bb.118:
-	add	r14, 1
-.LBB8_119:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_139
-# %bb.120:
-	cmp	r11, 4
-	jb	.LBB8_123
-# %bb.121:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_200
-# %bb.122:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB8_200
-.LBB8_123:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r15, r14
-.LBB8_124:
-	mov	qword ptr [rsp], r15            # 8-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_125:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	seta	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	seta	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	seta	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	seta	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	seta	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	seta	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	seta	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	seta	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	seta	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	seta	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	seta	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	seta	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	seta	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB8_125
-# %bb.126:
-	mov	r15, qword ptr [rsp]            # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	jmp	.LBB8_140
-.LBB8_127:
-	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
-	mov	rsi, rdx
-.LBB8_128:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_151
-# %bb.130:
-	xor	r9d, r9d
-	jmp	.LBB8_154
-.LBB8_131:
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rsi, rdx
-.LBB8_132:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.133:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_156
-# %bb.134:
-	xor	r9d, r9d
-	jmp	.LBB8_159
-.LBB8_135:
-	mov	r12, r14
-	mov	rsi, rdx
-.LBB8_136:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.137:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_183
-# %bb.138:
-	xor	r14d, r14d
-	jmp	.LBB8_185
-.LBB8_139:
-	mov	r15, r14
-	mov	rbx, rdx
-.LBB8_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_187
-# %bb.142:
-	xor	esi, esi
-	jmp	.LBB8_189
-.LBB8_143:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_144:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	qword ptr [rdx + 8], r13
-	lea	rdx, [rdx + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_144
-.LBB8_145:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.146:
-	cmp	qword ptr [rdx], r13
-	jmp	.LBB8_174
-.LBB8_147:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_148:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_148
-.LBB8_149:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.150:
-	cmp	r13d, dword ptr [rdx]
-	jmp	.LBB8_179
-.LBB8_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_152:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r11b, byte ptr [rsi + r9]
-	setg	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r11b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB8_152
-# %bb.153:
-	add	rsi, r9
-.LBB8_154:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.155:
-	cmp	r11b, byte ptr [rsi]
-	setg	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB8_161
-.LBB8_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_157:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sbb	edi, edi
-	mov	rbx, r9
-	shr	rbx, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	dl, dil
-	xor	dl, r9b
-	mov	byte ptr [r14 + rbx], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sbb	edi, edi
-	xor	dil, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, dl
-	mov	byte ptr [r14 + rbx], al
-	cmp	r10, r9
-	jne	.LBB8_157
-# %bb.158:
-	add	rsi, r9
-.LBB8_159:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.160:
-	cmp	byte ptr [rsi], r11b
-	sbb	eax, eax
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB8_161:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_162:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_163:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	dword ptr [rdx + 4], r13d
-	lea	rdx, [rdx + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_163
-.LBB8_164:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.165:
-	cmp	dword ptr [rdx], r13d
-	jmp	.LBB8_174
-.LBB8_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_167:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r9b
-	add	rdx, 16
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_167
-.LBB8_168:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.169:
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	jmp	.LBB8_180
-.LBB8_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_171:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	word ptr [rdx + 2], r13w
-	lea	rdx, [rdx + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_171
-.LBB8_172:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.173:
-	cmp	word ptr [rdx], r13w
-.LBB8_174:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB8_181
-.LBB8_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_176:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_176
-.LBB8_177:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.178:
-	cmp	r13, qword ptr [rdx]
-.LBB8_179:
-	setg	al
-.LBB8_180:
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB8_181:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB8_182:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB8_183:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB8_184:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	setg	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB8_184
-.LBB8_185:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.186:
-	cmp	r13w, word ptr [rsi]
-	setg	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_187:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB8_188:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	seta	r9b
-	add	rbx, 8
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB8_188
-.LBB8_189:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.190:
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_191:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_192:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	r11, rax
-	mov	r9, rax
-	mov	r12, rax
-	mov	r14, rax
-	mov	r13, rax
-	mov	rsi, rax
-	mov	r10, rax
-	mov	r15, rax
-	mov	rbx, rax
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 16]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 24]
-	movd	xmm4, ecx
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 32
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	or	r8, 64
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	or	r11, 96
-	or	r9, 128
-	or	r12, 160
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	or	r14, 192
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 224
-	or	r13, 256
-	mov	qword ptr [rsp + 32], r13       # 8-byte Spill
-	or	r10, 288
-	or	r15, 320
-	or	rbx, 352
-	or	qword ptr [rsp + 72], 384       # 8-byte Folded Spill
-	mov	rcx, rax
-	or	rcx, 416
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	or	rsi, 448
-	mov	rcx, rax
-	or	rcx, 480
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax], 1
-	pinsrb	xmm8, byte ptr [rdx + r8], 2
-	pinsrb	xmm8, byte ptr [rdx + r11], 3
-	pinsrb	xmm8, byte ptr [rdx + r9], 4
-	pinsrb	xmm8, byte ptr [rdx + r12], 5
-	pinsrb	xmm8, byte ptr [rdx + r14], 6
-	pinsrb	xmm8, byte ptr [rdx + rdi], 7
-	pinsrb	xmm8, byte ptr [rdx + r13], 8
-	pinsrb	xmm8, byte ptr [rdx + r10], 9
-	mov	r12, r15
-	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r15], 10
-	pinsrb	xmm8, byte ptr [rdx + rbx], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax], 13
-	pinsrb	xmm8, byte ptr [rdx + rsi], 14
-	pinsrb	xmm8, byte ptr [rdx + rcx], 15
-	movdqa	xmm13, xmmword ptr [rsp + 288]  # 16-byte Reload
-	movdqa	xmm3, xmm13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 1
-	pinsrb	xmm7, byte ptr [rdx + r8 + 1], 2
-	pinsrb	xmm7, byte ptr [rdx + r11 + 1], 3
-	pinsrb	xmm7, byte ptr [rdx + r9 + 1], 4
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r13 + 1], 5
-	pinsrb	xmm7, byte ptr [rdx + r14 + 1], 6
-	pinsrb	xmm7, byte ptr [rdx + rdi + 1], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 8
-	pinsrb	xmm7, byte ptr [rdx + r10 + 1], 9
-	pinsrb	xmm7, byte ptr [rdx + r12 + 1], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 1], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 1], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 13
-	pinsrb	xmm7, byte ptr [rdx + rsi + 1], 14
-	pinsrb	xmm7, byte ptr [rdx + rcx + 1], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 1
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 2
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 4
-	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 5
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 6
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 8
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 9
-	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 13
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 1
-	pinsrb	xmm12, byte ptr [rdx + r8 + 8], 2
-	pinsrb	xmm12, byte ptr [rdx + r11 + 8], 3
-	pinsrb	xmm12, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm12, byte ptr [rdx + r13 + 8], 5
-	pinsrb	xmm12, byte ptr [rdx + r14 + 8], 6
-	pinsrb	xmm12, byte ptr [rdx + rdi + 8], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 8
-	pinsrb	xmm12, byte ptr [rdx + r10 + 8], 9
-	pinsrb	xmm12, byte ptr [rdx + r12 + 8], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 8], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 8], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 13
-	pinsrb	xmm12, byte ptr [rdx + rsi + 8], 14
-	pinsrb	xmm12, byte ptr [rdx + rcx + 8], 15
-	pcmpgtb	xmm3, xmm8
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm12
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 1
-	pinsrb	xmm14, byte ptr [rdx + r8 + 16], 2
-	pinsrb	xmm14, byte ptr [rdx + r11 + 16], 3
-	pinsrb	xmm14, byte ptr [rdx + r9 + 16], 4
-	pinsrb	xmm14, byte ptr [rdx + r13 + 16], 5
-	pinsrb	xmm14, byte ptr [rdx + r14 + 16], 6
-	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 7
-	mov	r14, rdi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 8
-	pinsrb	xmm14, byte ptr [rdx + r10 + 16], 9
-	pinsrb	xmm14, byte ptr [rdx + r12 + 16], 10
-	pinsrb	xmm14, byte ptr [rdx + rbx + 16], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 16], 12
-	mov	rcx, rax
-	pinsrb	xmm14, byte ptr [rdx + rax + 16], 13
-	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rdx + rsi + 16], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 15
-	movdqa	xmm3, xmm13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 1
-	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 2
-	pinsrb	xmm4, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm4, byte ptr [rdx + r9 + 24], 4
-	pinsrb	xmm4, byte ptr [rdx + r13 + 24], 5
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 24], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 8
-	pinsrb	xmm4, byte ptr [rdx + r10 + 24], 9
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 10
-	pinsrb	xmm4, byte ptr [rdx + rbx + 24], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm4, byte ptr [rdx + rcx + 24], 13
-	pinsrb	xmm4, byte ptr [rdx + rsi + 24], 14
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + rdi + 24], 15
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm4
-	movdqa	xmmword ptr [rsp + 208], xmm3   # 16-byte Spill
-	movdqa	xmm4, xmm13
-	pcmpgtb	xmm4, xmm7
-	movdqa	xmm12, xmm4
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm12, xmm8
-	psubb	xmm12, xmm4
-	movdqa	xmm4, xmm13
-	movdqa	xmm14, xmm13
-	pcmpgtb	xmm4, xmm6
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	movd	xmm7, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 3], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 3], 2
-	mov	qword ptr [rsp + 40], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11 + 3], 3
-	mov	rcx, r9
-	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 4
-	pinsrb	xmm15, byte ptr [rdx + r13 + 3], 5
-	pinsrb	xmm15, byte ptr [rdx + r8 + 3], 6
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14 + 3], 7
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r12 + 3], 8
-	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 10
-	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rbx + 3], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 3], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 15
-	pinsrb	xmm5, byte ptr [rdx + rsi + 4], 1
-	mov	r10, rsi
-	pinsrb	xmm5, byte ptr [rdx + rax + 4], 2
-	pinsrb	xmm5, byte ptr [rdx + r11 + 4], 3
-	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 4
-	pinsrb	xmm5, byte ptr [rdx + r13 + 4], 5
-	pinsrb	xmm5, byte ptr [rdx + r8 + 4], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 4], 7
-	pinsrb	xmm5, byte ptr [rdx + r12 + 4], 8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 9
-	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 10
-	mov	r11, r9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 4], 12
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 4], 14
-	movdqa	xmm3, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pand	xmm3, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_11] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm4, xmm6
-	por	xmm4, xmm3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 14]
-	movd	xmm6, esi
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 15
-	por	xmm4, xmm12
-	movdqa	xmm12, xmm13
-	pcmpgtb	xmm12, xmm15
-	pcmpgtb	xmm13, xmm5
-	movzx	esi, byte ptr [rdx + rdi + 15]
-	movd	xmm5, esi
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 2
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 6
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 7
-	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 10
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 12
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 13
-	mov	r11, r9
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 15
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_12] # xmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm12, xmm3
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_13] # xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm13, xmm3
-	por	xmm13, xmm12
-	movdqa	xmm12, xmm14
-	pcmpgtb	xmm12, xmm2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	movd	xmm2, esi
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_14] # xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm12, xmm3
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rax + 18]
-	movd	xmm15, esi
-	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 1
-	mov	r9, r8
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 2
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 3
-	mov	rcx, r13
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 4
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 5
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 8
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rsi + 6], 9
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 10
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 11
-	mov	qword ptr [rsp + 72], r15       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 12
-	mov	rdi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 13
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 15
-	pinsrb	xmm1, byte ptr [rdx + rax + 7], 1
-	pinsrb	xmm1, byte ptr [rdx + r9 + 7], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 7], 3
-	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 4
-	pinsrb	xmm1, byte ptr [rdx + r13 + 7], 5
-	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm1, byte ptr [rdx + r12 + 7], 8
-	pinsrb	xmm1, byte ptr [rdx + rsi + 7], 9
-	pinsrb	xmm1, byte ptr [rdx + r8 + 7], 10
-	pinsrb	xmm1, byte ptr [rdx + rbx + 7], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 7], 12
-	pinsrb	xmm1, byte ptr [rdx + rdi + 7], 13
-	pinsrb	xmm1, byte ptr [rdx + r11 + 7], 14
-	pinsrb	xmm1, byte ptr [rdx + r10 + 7], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 1
-	pinsrb	xmm0, byte ptr [rdx + r9 + 9], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 3
-	pinsrb	xmm0, byte ptr [rdx + rcx + 9], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 7
-	pinsrb	xmm0, byte ptr [rdx + r12 + 9], 8
-	pinsrb	xmm0, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm0, byte ptr [rdx + r8 + 9], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 9], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 9], 12
-	pinsrb	xmm0, byte ptr [rdx + rdi + 9], 13
-	pinsrb	xmm0, byte ptr [rdx + r11 + 9], 14
-	mov	r14, r11
-	pinsrb	xmm0, byte ptr [rdx + r10 + 9], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 10], 1
-	pinsrb	xmm9, byte ptr [rdx + r9 + 10], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 10], 3
-	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 4
-	pinsrb	xmm9, byte ptr [rdx + r13 + 10], 5
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r11 + 10], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 7
-	pinsrb	xmm9, byte ptr [rdx + r12 + 10], 8
-	pinsrb	xmm9, byte ptr [rdx + rsi + 10], 9
-	pinsrb	xmm9, byte ptr [rdx + r8 + 10], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 10], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 10], 12
-	pinsrb	xmm9, byte ptr [rdx + rdi + 10], 13
-	por	xmm12, xmm4
-	movdqa	xmm13, xmm14
-	movdqa	xmm4, xmm14
-	pcmpgtb	xmm4, xmm3
-	pcmpgtb	xmm14, xmm1
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 19]
-	movd	xmm1, esi
-	pinsrb	xmm9, byte ptr [rdx + r14 + 10], 14
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm4, xmm3
-	psllw	xmm14, 7
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm14, xmm3
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + rdi + 20]
-	movd	xmm4, esi
-	mov	r13, r10
-	pinsrb	xmm9, byte ptr [rdx + r10 + 10], 15
-	por	xmm14, xmm12
-	movdqa	xmmword ptr [rsp + 192], xmm14  # 16-byte Spill
-	movdqa	xmm14, xmm13
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm0
-	movdqa	xmm12, xmm3
-	pand	xmm12, xmm8
-	psubb	xmm12, xmm3
-	pcmpgtb	xmm13, xmm9
-	movzx	esi, byte ptr [rdx + rdi + 21]
-	movd	xmm0, esi
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r10 + 11], 1
-	mov	rax, r9
-	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 2
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 11], 3
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 11], 4
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 5
-	pinsrb	xmm10, byte ptr [rdx + r11 + 11], 6
-	mov	rbx, rcx
-	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 7
-	pinsrb	xmm10, byte ptr [rdx + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 9
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 11], 10
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 11], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 12
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 14
-	pinsrb	xmm10, byte ptr [rdx + r13 + 11], 15
-	pinsrb	xmm11, byte ptr [rdx + r10 + 12], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 12], 2
-	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 3
-	pinsrb	xmm11, byte ptr [rdx + r8 + 12], 4
-	pinsrb	xmm11, byte ptr [rdx + r9 + 12], 5
-	pinsrb	xmm11, byte ptr [rdx + r11 + 12], 6
-	pinsrb	xmm11, byte ptr [rdx + rbx + 12], 7
-	pinsrb	xmm11, byte ptr [rdx + r12 + 12], 8
-	pinsrb	xmm11, byte ptr [rdx + rcx + 12], 9
-	mov	r12, rcx
-	mov	r8, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 12], 10
-	mov	rbx, r15
-	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 13
-	pinsrb	xmm11, byte ptr [rdx + rsi + 12], 14
-	mov	r10, rsi
-	movdqa	xmm3, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pand	xmm3, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI8_11]
-	por	xmm13, xmm3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm8, esi
-	pinsrb	xmm11, byte ptr [rdx + r13 + 12], 15
-	por	xmm13, xmm12
-	movdqa	xmm12, xmm14
-	pcmpgtb	xmm12, xmm10
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm11
-	movzx	esi, byte ptr [rdx + rax + 23]
-	movd	xmm9, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 13], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 2
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r11 + 13], 3
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 13], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r14 + 13], 6
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 7
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 8
-	pinsrb	xmm7, byte ptr [rdx + r12 + 13], 9
-	pinsrb	xmm7, byte ptr [rdx + r8 + 13], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 13], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 13], 12
-	pinsrb	xmm7, byte ptr [rdx + rdi + 13], 13
-	pinsrb	xmm7, byte ptr [rdx + r10 + 13], 14
-	pinsrb	xmm7, byte ptr [rdx + r13 + 13], 15
-	pand	xmm12, xmmword ptr [rip + .LCPI8_12]
-	pand	xmm3, xmmword ptr [rip + .LCPI8_13]
-	por	xmm3, xmm12
-	movdqa	xmm10, xmm14
-	pcmpgtb	xmm10, xmm7
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 25]
-	movd	xmm11, esi
-	pand	xmm10, xmmword ptr [rip + .LCPI8_14]
-	por	xmm10, xmm3
-	movzx	esi, byte ptr [rdx + r12 + 26]
-	movd	xmm7, esi
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 14], 2
-	mov	r10, r11
-	pinsrb	xmm6, byte ptr [rdx + r11 + 14], 3
-	mov	r12, rcx
-	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 4
-	mov	rdi, r9
-	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 5
-	mov	r11, r14
-	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 7
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 8
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 9
-	pinsrb	xmm6, byte ptr [rdx + r8 + 14], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 14], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 14], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 14
-	pinsrb	xmm6, byte ptr [rdx + r13 + 14], 15
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 15], 1
-	pinsrb	xmm5, byte ptr [rdx + rsi + 15], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm5, byte ptr [rdx + r12 + 15], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 15], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 15], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 15], 7
-	pinsrb	xmm5, byte ptr [rdx + rcx + 15], 8
-	pinsrb	xmm5, byte ptr [rdx + r9 + 15], 9
-	pinsrb	xmm5, byte ptr [rdx + r8 + 15], 10
-	pinsrb	xmm5, byte ptr [rdx + rbx + 15], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 15], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 15
-	pinsrb	xmm2, byte ptr [rdx + r13 + 17], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 17], 2
-	pinsrb	xmm2, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm2, byte ptr [rdx + r12 + 17], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 17], 5
-	pinsrb	xmm2, byte ptr [rdx + r11 + 17], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 17], 7
-	pinsrb	xmm2, byte ptr [rdx + rcx + 17], 8
-	pinsrb	xmm2, byte ptr [rdx + r9 + 17], 9
-	pinsrb	xmm2, byte ptr [rdx + r8 + 17], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 17], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 15
-	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 3
-	mov	r13, r10
-	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 4
-	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 5
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 6
-	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 7
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
-	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 9
-	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 10
-	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 11
-	mov	rdi, rbx
-	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 12
-	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 13
-	por	xmm10, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm6
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm5
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	movd	xmm5, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 14
-	pand	xmm13, xmmword ptr [rip + .LCPI8_15]
-	psllw	xmm3, 7
-	pand	xmm3, xmmword ptr [rip + .LCPI8_6]
-	por	xmm3, xmm13
-	movzx	esi, byte ptr [rdx + rax + 28]
-	movd	xmm6, esi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 15
-	por	xmm3, xmm10
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm2
-	movdqa	xmm13, xmm3
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_10] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm2
-	psubb	xmm13, xmm3
-	movdqa	xmm10, xmm14
-	pcmpgtb	xmm10, xmm15
-	movzx	esi, byte ptr [rdx + rax + 29]
-	movd	xmm3, esi
-	movdqa	xmm15, xmmword ptr [rsp + 240]  # 16-byte Reload
-	pand	xmm15, xmm2
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_11] # xmm2 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm10, xmm2
-	por	xmm10, xmm15
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm2, esi
-	movzx	eax, byte ptr [rdx + rax + 31]
-	mov	dword ptr [rsp + 56], eax       # 4-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 19], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rcx + 19], 2
-	pinsrb	xmm1, byte ptr [rdx + r13 + 19], 3
-	pinsrb	xmm1, byte ptr [rdx + r12 + 19], 4
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r8 + 19], 5
-	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 6
-	mov	rbx, r11
-	pinsrb	xmm1, byte ptr [rdx + r14 + 19], 7
-	mov	r15, r14
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 19], 8
-	pinsrb	xmm1, byte ptr [rdx + r9 + 19], 9
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 10
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 12
-	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 13
-	mov	r14, r10
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 15
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
-	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 2
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 3
-	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 4
-	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 5
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 6
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 7
-	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 8
-	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 9
-	mov	r8, r11
-	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 10
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 13
-	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 14
-	mov	r9, r10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 15
-	por	xmm10, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm1
-	movdqa	xmm15, xmm14
-	pcmpgtb	xmm15, xmm4
-	movd	xmm1, dword ptr [rsp + 56]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	pinsrb	xmm0, byte ptr [rdx + rax + 21], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 22], 1
-	pinsrb	xmm9, byte ptr [rdx + rax + 23], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 25], 1
-	pinsrb	xmm7, byte ptr [rdx + rax + 26], 1
-	pinsrb	xmm5, byte ptr [rdx + rax + 27], 1
-	pinsrb	xmm6, byte ptr [rdx + rax + 28], 1
-	pinsrb	xmm3, byte ptr [rdx + rax + 29], 1
-	pinsrb	xmm2, byte ptr [rdx + rax + 30], 1
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
-	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 2
-	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 2
-	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 2
-	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 2
-	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 2
-	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 2
-	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 2
-	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 2
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 2
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r13 + 21], 3
-	pinsrb	xmm0, byte ptr [rdx + r12 + 21], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 21], 5
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r11 + 21], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r14 + 21], 7
-	pinsrb	xmm0, byte ptr [rdx + rsi + 21], 8
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r10 + 21], 9
-	pinsrb	xmm0, byte ptr [rdx + r8 + 21], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 21], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 21], 14
-	pinsrb	xmm0, byte ptr [rdx + r9 + 21], 15
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm13, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_13] # xmm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm15, xmm4
-	por	xmm15, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI8_14] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm13, xmm0
-	por	xmm13, xmm15
-	pinsrb	xmm8, byte ptr [rdx + r13 + 22], 3
-	pinsrb	xmm8, byte ptr [rdx + r12 + 22], 4
-	pinsrb	xmm8, byte ptr [rdx + rdi + 22], 5
-	pinsrb	xmm8, byte ptr [rdx + r11 + 22], 6
-	pinsrb	xmm8, byte ptr [rdx + r14 + 22], 7
-	pinsrb	xmm8, byte ptr [rdx + rsi + 22], 8
-	pinsrb	xmm8, byte ptr [rdx + r10 + 22], 9
-	pinsrb	xmm8, byte ptr [rdx + r8 + 22], 10
-	pinsrb	xmm8, byte ptr [rdx + rbx + 22], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 13
-	pinsrb	xmm8, byte ptr [rdx + rax + 22], 14
-	pinsrb	xmm8, byte ptr [rdx + r9 + 22], 15
-	pinsrb	xmm9, byte ptr [rdx + r13 + 23], 3
-	pinsrb	xmm9, byte ptr [rdx + r12 + 23], 4
-	pinsrb	xmm9, byte ptr [rdx + rdi + 23], 5
-	pinsrb	xmm9, byte ptr [rdx + r11 + 23], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 23], 7
-	pinsrb	xmm9, byte ptr [rdx + rsi + 23], 8
-	pinsrb	xmm9, byte ptr [rdx + r10 + 23], 9
-	pinsrb	xmm9, byte ptr [rdx + r8 + 23], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 23], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 13
-	pinsrb	xmm9, byte ptr [rdx + rax + 23], 14
-	pinsrb	xmm9, byte ptr [rdx + r9 + 23], 15
-	pinsrb	xmm11, byte ptr [rdx + r13 + 25], 3
-	pinsrb	xmm11, byte ptr [rdx + r12 + 25], 4
-	pinsrb	xmm11, byte ptr [rdx + rdi + 25], 5
-	pinsrb	xmm11, byte ptr [rdx + r11 + 25], 6
-	pinsrb	xmm11, byte ptr [rdx + r14 + 25], 7
-	pinsrb	xmm11, byte ptr [rdx + rsi + 25], 8
-	pinsrb	xmm11, byte ptr [rdx + r10 + 25], 9
-	pinsrb	xmm11, byte ptr [rdx + r8 + 25], 10
-	pinsrb	xmm11, byte ptr [rdx + rbx + 25], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 13
-	pinsrb	xmm11, byte ptr [rdx + rax + 25], 14
-	pinsrb	xmm11, byte ptr [rdx + r9 + 25], 15
-	pinsrb	xmm7, byte ptr [rdx + r13 + 26], 3
-	pinsrb	xmm7, byte ptr [rdx + r12 + 26], 4
-	pinsrb	xmm7, byte ptr [rdx + rdi + 26], 5
-	pinsrb	xmm7, byte ptr [rdx + r11 + 26], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 26], 7
-	pinsrb	xmm7, byte ptr [rdx + rsi + 26], 8
-	pinsrb	xmm7, byte ptr [rdx + r10 + 26], 9
-	pinsrb	xmm7, byte ptr [rdx + r8 + 26], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 26], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 13
-	pinsrb	xmm7, byte ptr [rdx + rax + 26], 14
-	por	xmm13, xmm10
-	movdqa	xmm12, xmm14
-	movdqa	xmm4, xmm14
-	pcmpgtb	xmm4, xmm8
-	movdqa	xmm0, xmm14
-	pcmpgtb	xmm0, xmm9
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_15] # xmm14 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm4, xmm14
-	psllw	xmm0, 7
-	movdqa	xmm15, xmmword ptr [rip + .LCPI8_6] # xmm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm15
-	por	xmm0, xmm4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 26], 15
-	por	xmm0, xmm13
-	movdqa	xmm4, xmm12
-	pcmpgtb	xmm4, xmm11
-	movdqa	xmm8, xmm4
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_10] # xmm11 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm8, xmm11
-	psubb	xmm8, xmm4
-	movdqa	xmm4, xmm12
-	pcmpgtb	xmm4, xmm7
-	pinsrb	xmm5, byte ptr [rdx + r13 + 27], 3
-	pinsrb	xmm5, byte ptr [rdx + r12 + 27], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 27], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 27], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 27], 7
-	pinsrb	xmm5, byte ptr [rdx + rsi + 27], 8
-	pinsrb	xmm5, byte ptr [rdx + r10 + 27], 9
-	pinsrb	xmm5, byte ptr [rdx + r8 + 27], 10
-	pinsrb	xmm5, byte ptr [rdx + rbx + 27], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 13
-	pinsrb	xmm5, byte ptr [rdx + rax + 27], 14
-	pinsrb	xmm5, byte ptr [rdx + r9 + 27], 15
-	pinsrb	xmm6, byte ptr [rdx + r13 + 28], 3
-	pinsrb	xmm6, byte ptr [rdx + r12 + 28], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 28], 5
-	pinsrb	xmm6, byte ptr [rdx + r11 + 28], 6
-	pinsrb	xmm6, byte ptr [rdx + r14 + 28], 7
-	pinsrb	xmm6, byte ptr [rdx + rsi + 28], 8
-	pinsrb	xmm6, byte ptr [rdx + r10 + 28], 9
-	pinsrb	xmm6, byte ptr [rdx + r8 + 28], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 28], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 13
-	movdqa	xmm7, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pand	xmm7, xmm11
-	pinsrb	xmm6, byte ptr [rdx + rax + 28], 14
-	pand	xmm4, xmmword ptr [rip + .LCPI8_11]
-	por	xmm4, xmm7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 28], 15
-	por	xmm4, xmm8
-	movdqa	xmm7, xmm12
-	pcmpgtb	xmm7, xmm5
-	movdqa	xmm5, xmm12
-	pcmpgtb	xmm5, xmm6
-	pinsrb	xmm3, byte ptr [rdx + r13 + 29], 3
-	pinsrb	xmm3, byte ptr [rdx + r12 + 29], 4
-	pinsrb	xmm3, byte ptr [rdx + rdi + 29], 5
-	pinsrb	xmm3, byte ptr [rdx + r11 + 29], 6
-	pinsrb	xmm3, byte ptr [rdx + r14 + 29], 7
-	pinsrb	xmm3, byte ptr [rdx + rsi + 29], 8
-	pinsrb	xmm3, byte ptr [rdx + r10 + 29], 9
-	pinsrb	xmm3, byte ptr [rdx + r8 + 29], 10
-	pinsrb	xmm3, byte ptr [rdx + rbx + 29], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 13
-	pinsrb	xmm3, byte ptr [rdx + rax + 29], 14
-	pinsrb	xmm3, byte ptr [rdx + r9 + 29], 15
-	pand	xmm7, xmmword ptr [rip + .LCPI8_12]
-	pand	xmm5, xmmword ptr [rip + .LCPI8_13]
-	por	xmm5, xmm7
-	movdqa	xmm6, xmm12
-	pcmpgtb	xmm6, xmm3
-	pand	xmm6, xmmword ptr [rip + .LCPI8_14]
-	por	xmm6, xmm5
-	pinsrb	xmm2, byte ptr [rdx + r13 + 30], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 3
-	pinsrb	xmm2, byte ptr [rdx + r12 + 30], 4
-	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 30], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 5
-	pinsrb	xmm2, byte ptr [rdx + r11 + 30], 6
-	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 30], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 31], 7
-	pinsrb	xmm2, byte ptr [rdx + rsi + 30], 8
-	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 8
-	pinsrb	xmm2, byte ptr [rdx + r10 + 30], 9
-	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 9
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 30], 10
-	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 30], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 13
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 13
-	pinsrb	xmm2, byte ptr [rdx + rax + 30], 14
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 14
-	pinsrb	xmm2, byte ptr [rdx + r9 + 30], 15
-	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 15
-	por	xmm6, xmm4
-	movdqa	xmm3, xmm12
-	pcmpgtb	xmm3, xmm2
-	pand	xmm3, xmm14
-	pcmpgtb	xmm12, xmm1
-	psllw	xmm12, 7
-	pand	xmm12, xmm15
-	por	xmm12, xmm3
-	por	xmm12, xmm6
-	movdqa	xmm1, xmm0
-	punpcklbw	xmm1, xmm12             # xmm1 = xmm1[0],xmm12[0],xmm1[1],xmm12[1],xmm1[2],xmm12[2],xmm1[3],xmm12[3],xmm1[4],xmm12[4],xmm1[5],xmm12[5],xmm1[6],xmm12[6],xmm1[7],xmm12[7]
-	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 272]   # 16-byte Reload
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
-	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
-	punpckhbw	xmm0, xmm12             # xmm0 = xmm0[8],xmm12[8],xmm0[9],xmm12[9],xmm0[10],xmm12[10],xmm0[11],xmm12[11],xmm0[12],xmm12[12],xmm0[13],xmm12[13],xmm0[14],xmm12[14],xmm0[15],xmm12[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm1, xmm5
-	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
-	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB8_192
-# %bb.193:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB8_42
-	jmp	.LBB8_128
-.LBB8_194:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_195:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rcx, rax
-	shl	rcx, 5
-	mov	r14, rcx
-	mov	rbx, rcx
-	mov	rax, rcx
-	mov	r11, rcx
-	mov	r10, rcx
-	mov	r8, rcx
-	mov	r9, rcx
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	mov	r12, rcx
-	mov	r15, rcx
-	mov	rdi, rcx
-	mov	rsi, rcx
-	movzx	ecx, byte ptr [rdx + rcx]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 11]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 13]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 14]
-	movd	xmm13, ecx
-	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
-	mov	r13, rsi
-	or	r13, 32
-	mov	qword ptr [rsp + 8], r13        # 8-byte Spill
-	or	r14, 64
-	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
-	or	rbx, 96
-	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
-	or	rax, 128
-	mov	rbx, r11
-	or	rbx, 160
-	mov	r11, r10
-	or	r11, 192
-	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
-	or	r8, 224
-	or	r9, 256
-	mov	qword ptr [rsp + 80], r9        # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	or	rcx, 288
-	or	r12, 320
-	or	r15, 352
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	mov	r10, rdi
-	or	r10, 384
-	mov	rdi, rsi
-	or	rdi, 416
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 448
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 480
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 1
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 2
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 4
-	mov	r14, rax
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 9
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 10
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 12
-	mov	r9, r10
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 15
-	movdqa	xmm10, xmmword ptr [rsp + 288]  # 16-byte Reload
-	pminub	xmm5, xmm10
-	pcmpeqb	xmm5, xmm10
-	movdqa	xmm6, xmm5
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_10] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm6, xmm1
-	paddb	xmm6, xmm5
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax], 1
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r10], 2
-	pinsrb	xmm9, byte ptr [rdx + r13], 3
-	mov	rsi, r14
-	pinsrb	xmm9, byte ptr [rdx + r14], 4
-	mov	r14, rbx
-	pinsrb	xmm9, byte ptr [rdx + rbx], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rbx], 6
-	pinsrb	xmm9, byte ptr [rdx + r8], 7
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r15], 8
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + rcx], 9
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + r12], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rdi], 11
-	pinsrb	xmm9, byte ptr [rdx + r9], 12
-	pinsrb	xmm9, byte ptr [rdx + r11], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax], 14
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13], 15
-	pminub	xmm9, xmm10
-	pcmpeqb	xmm9, xmm10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 1
-	pinsrb	xmm7, byte ptr [rdx + r10 + 2], 2
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r13 + 2], 3
-	pinsrb	xmm7, byte ptr [rdx + rsi + 2], 4
-	pinsrb	xmm7, byte ptr [rdx + r14 + 2], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 2], 6
-	pinsrb	xmm7, byte ptr [rdx + r8 + 2], 7
-	pinsrb	xmm7, byte ptr [rdx + r15 + 2], 8
-	pinsrb	xmm7, byte ptr [rdx + rcx + 2], 9
-	pinsrb	xmm7, byte ptr [rdx + r12 + 2], 10
-	pinsrb	xmm7, byte ptr [rdx + rdi + 2], 11
-	pinsrb	xmm7, byte ptr [rdx + r9 + 2], 12
-	pinsrb	xmm7, byte ptr [rdx + r11 + 2], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 15
-	movdqa	xmm0, xmm15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 1
-	pinsrb	xmm0, byte ptr [rdx + r10 + 3], 2
-	pinsrb	xmm0, byte ptr [rdx + r13 + 3], 3
-	pinsrb	xmm0, byte ptr [rdx + rsi + 3], 4
-	pinsrb	xmm0, byte ptr [rdx + r14 + 3], 5
-	pinsrb	xmm0, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 3], 7
-	pinsrb	xmm0, byte ptr [rdx + r15 + 3], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 3], 9
-	pinsrb	xmm0, byte ptr [rdx + r12 + 3], 10
-	pinsrb	xmm0, byte ptr [rdx + rdi + 3], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 3], 12
-	pinsrb	xmm0, byte ptr [rdx + r11 + 3], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 1
-	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 2
-	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 3
-	pinsrb	xmm3, byte ptr [rdx + rsi + 4], 4
-	pinsrb	xmm3, byte ptr [rdx + r14 + 4], 5
-	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
-	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 7
-	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 8
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 9
-	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 10
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 11
-	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 1
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 2
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 3
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 4
-	mov	r10, rsi
-	mov	qword ptr [rsp + 192], rsi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 5
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 7
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
-	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 10
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 12
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 13
-	mov	rdi, r11
-	pandn	xmm9, xmm1
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pminub	xmm7, xmm10
-	pcmpeqb	xmm7, xmm10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_11] # xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm1
-	por	xmm7, xmm9
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 16]
-	movd	xmm5, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 15
-	pminub	xmm0, xmm10
-	pcmpeqb	xmm0, xmm10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_12] # xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm0, xmm1
-	por	xmm0, xmm7
-	movzx	esi, byte ptr [rdx + r12 + 17]
-	movd	xmm1, esi
-	pcmpeqd	xmm7, xmm7
-	psubb	xmm6, xmm7
-	pcmpeqd	xmm9, xmm9
-	por	xmm0, xmm6
-	movzx	esi, byte ptr [rdx + r12 + 18]
-	movd	xmm7, esi
-	pminub	xmm3, xmm10
-	pcmpeqb	xmm3, xmm10
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_13] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm6
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_14] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm6
-	por	xmm2, xmm3
-	movzx	esi, byte ptr [rdx + r12 + 19]
-	movd	xmm15, esi
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 1
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 2
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 4
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 5
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 6
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 7
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 10
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 11
-	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 12
-	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
-	pminub	xmm8, xmm10
-	pcmpeqb	xmm8, xmm10
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm3
-	por	xmm8, xmm2
-	movzx	esi, byte ptr [rdx + r12 + 20]
-	movd	xmm4, esi
-	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 1
-	pinsrb	xmm6, byte ptr [rdx + r11 + 7], 2
-	pinsrb	xmm6, byte ptr [rdx + r13 + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 4
-	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 6
-	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 7
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 7], 8
-	pinsrb	xmm6, byte ptr [rdx + r15 + 7], 9
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 10
-	pinsrb	xmm6, byte ptr [rdx + r10 + 7], 11
-	pinsrb	xmm6, byte ptr [rdx + r9 + 7], 12
-	pinsrb	xmm6, byte ptr [rdx + rdi + 7], 13
-	mov	r15, rdi
-	pinsrb	xmm6, byte ptr [rdx + rbx + 7], 14
-	pinsrb	xmm6, byte ptr [rdx + rax + 7], 15
-	pminub	xmm6, xmm10
-	pcmpeqb	xmm6, xmm10
-	pxor	xmm6, xmm9
-	pcmpeqd	xmm3, xmm3
-	psllw	xmm6, 7
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm6, xmm2
-	por	xmm6, xmm8
-	movdqa	xmm8, xmm6
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm6, esi
-	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 1
-	mov	rax, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 2
-	mov	rdi, r13
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 3
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 5
-	mov	r13, r14
-	pinsrb	xmm2, byte ptr [rdx + r14 + 8], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
-	mov	r14, r12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 9
-	mov	r12, r8
-	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 11
-	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + r9 + 8], 12
-	mov	r8, r15
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 14
-	pinsrb	xmm11, byte ptr [rdx + rcx + 9], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 9], 2
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 4
-	mov	rbx, r10
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 5
-	mov	rdi, r11
-	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 6
-	mov	r10, r13
-	pinsrb	xmm11, byte ptr [rdx + rsi + 9], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 9], 9
-	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 11
-	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 12
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 13
-	mov	r13, r8
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 14
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 15
-	por	xmm8, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm8   # 16-byte Spill
-	pminub	xmm11, xmm10
-	pcmpeqb	xmm11, xmm10
-	movdqa	xmm0, xmm11
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm8
-	paddb	xmm0, xmm11
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 22]
-	movd	xmm9, esi
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 15
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmm8
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 2
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 4
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 5
-	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 9
-	mov	r14, rax
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 10
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 12
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 13
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 14
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 15
-	mov	r12, r15
-	pminub	xmm12, xmm10
-	pcmpeqb	xmm12, xmm10
-	pandn	xmm12, xmmword ptr [rip + .LCPI8_11]
-	por	xmm12, xmm2
-	mov	rax, r9
-	movzx	esi, byte ptr [rdx + r9 + 23]
-	movd	xmm8, esi
-	movdqa	xmm2, xmmword ptr [rsp + 144]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 11], 1
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 11], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 11], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 11], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 5
-	pinsrb	xmm2, byte ptr [rdx + r10 + 11], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 11], 7
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 8
-	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 9
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 11], 12
-	pinsrb	xmm2, byte ptr [rdx + r13 + 11], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 14
-	pinsrb	xmm2, byte ptr [rdx + r12 + 11], 15
-	mov	r13, r12
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_12]
-	por	xmm2, xmm12
-	movzx	esi, byte ptr [rdx + rax + 24]
-	movd	xmm11, esi
-	psubb	xmm0, xmm3
-	por	xmm2, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm3, esi
-	movdqa	xmm2, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 1
-	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 2
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 3
-	mov	r10, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 4
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 12], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 12], 9
-	pinsrb	xmm2, byte ptr [rdx + r14 + 12], 10
-	pinsrb	xmm2, byte ptr [rdx + rdi + 12], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 12], 12
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 12], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 12], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 12], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 13], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 2
-	pinsrb	xmm14, byte ptr [rdx + r8 + 13], 3
-	pinsrb	xmm14, byte ptr [rdx + r10 + 13], 4
-	pinsrb	xmm14, byte ptr [rdx + rsi + 13], 5
-	pinsrb	xmm14, byte ptr [rdx + r15 + 13], 6
-	pinsrb	xmm14, byte ptr [rdx + rbx + 13], 7
-	pinsrb	xmm14, byte ptr [rdx + r11 + 13], 8
-	pinsrb	xmm14, byte ptr [rdx + rcx + 13], 9
-	pinsrb	xmm14, byte ptr [rdx + r14 + 13], 10
-	pinsrb	xmm14, byte ptr [rdx + rdi + 13], 11
-	pinsrb	xmm14, byte ptr [rdx + r9 + 13], 12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 13], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 2
-	pinsrb	xmm13, byte ptr [rdx + r8 + 14], 3
-	pinsrb	xmm13, byte ptr [rdx + r10 + 14], 4
-	pinsrb	xmm13, byte ptr [rdx + rsi + 14], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 14], 6
-	pinsrb	xmm13, byte ptr [rdx + rbx + 14], 7
-	pinsrb	xmm13, byte ptr [rdx + r11 + 14], 8
-	pinsrb	xmm13, byte ptr [rdx + rcx + 14], 9
-	pinsrb	xmm13, byte ptr [rdx + r14 + 14], 10
-	pinsrb	xmm13, byte ptr [rdx + rdi + 14], 11
-	pinsrb	xmm13, byte ptr [rdx + r9 + 14], 12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 14], 13
-	pinsrb	xmm13, byte ptr [rdx + r13 + 14], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 2
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 4
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 5
-	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 6
-	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 7
-	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 9
-	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 10
-	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 12
-	pinsrb	xmm0, byte ptr [rdx + r12 + 15], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 2
-	pinsrb	xmm1, byte ptr [rdx + r8 + 17], 3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 17], 4
-	pinsrb	xmm1, byte ptr [rdx + rsi + 17], 5
-	pinsrb	xmm1, byte ptr [rdx + r15 + 17], 6
-	pinsrb	xmm1, byte ptr [rdx + rbx + 17], 7
-	pinsrb	xmm1, byte ptr [rdx + r11 + 17], 8
-	pinsrb	xmm1, byte ptr [rdx + rcx + 17], 9
-	pinsrb	xmm1, byte ptr [rdx + r14 + 17], 10
-	pinsrb	xmm1, byte ptr [rdx + rdi + 17], 11
-	mov	r14, rdi
-	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 17], 13
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_13]
-	pminub	xmm14, xmm10
-	pcmpeqb	xmm14, xmm10
-	pandn	xmm14, xmmword ptr [rip + .LCPI8_14]
-	por	xmm14, xmm2
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 26]
-	movd	xmm2, esi
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 14
-	pminub	xmm13, xmm10
-	pcmpeqb	xmm13, xmm10
-	pandn	xmm13, xmmword ptr [rip + .LCPI8_15]
-	por	xmm13, xmm14
-	movzx	esi, byte ptr [rdx + rdi + 27]
-	movd	xmm12, esi
-	pminub	xmm0, xmm10
-	pcmpeqb	xmm0, xmm10
-	pxor	xmm0, xmmword ptr [rip + .LCPI8_16]
-	psllw	xmm0, 7
-	pand	xmm0, xmmword ptr [rip + .LCPI8_6]
-	por	xmm0, xmm13
-	movzx	esi, byte ptr [rdx + rdi + 28]
-	movd	xmm13, esi
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 15
-	por	xmm0, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	pminub	xmm1, xmm10
-	pcmpeqb	xmm1, xmm10
-	movdqa	xmm0, xmm10
-	movdqa	xmm14, xmm1
-	movdqa	xmm10, xmmword ptr [rip + .LCPI8_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm14, xmm10
-	paddb	xmm14, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm14  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rdi + 29]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 1
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 1
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 1
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
-	pinsrb	xmm6, byte ptr [rdx + rax + 21], 1
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 1
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 1
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 1
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 1
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 1
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 1
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	movd	xmm14, esi
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	movd	xmm1, esi
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 2
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 2
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 2
-	pinsrb	xmm6, byte ptr [rdx + rax + 21], 2
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 2
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 2
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 2
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 2
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 2
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 2
-	pinsrb	xmm5, byte ptr [rdx + r8 + 16], 3
-	pinsrb	xmm5, byte ptr [rdx + r10 + 16], 4
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 16], 5
-	pinsrb	xmm5, byte ptr [rdx + r15 + 16], 6
-	pinsrb	xmm5, byte ptr [rdx + rbx + 16], 7
-	pinsrb	xmm5, byte ptr [rdx + r11 + 16], 8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 16], 9
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 16], 11
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 16], 13
-	pinsrb	xmm5, byte ptr [rdx + r9 + 16], 14
-	pinsrb	xmm5, byte ptr [rdx + r13 + 16], 15
-	pminub	xmm5, xmm0
-	pcmpeqb	xmm5, xmm0
-	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 3
-	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 4
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 5
-	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 6
-	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 7
-	pinsrb	xmm7, byte ptr [rdx + r11 + 18], 8
-	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 9
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 12
-	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 13
-	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
-	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 15
-	pinsrb	xmm15, byte ptr [rdx + r8 + 19], 3
-	pinsrb	xmm15, byte ptr [rdx + r10 + 19], 4
-	pinsrb	xmm15, byte ptr [rdx + rsi + 19], 5
-	pinsrb	xmm15, byte ptr [rdx + r15 + 19], 6
-	pinsrb	xmm15, byte ptr [rdx + rbx + 19], 7
-	pinsrb	xmm15, byte ptr [rdx + r11 + 19], 8
-	pinsrb	xmm15, byte ptr [rdx + rcx + 19], 9
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm15, byte ptr [rdx + r12 + 19], 12
-	pinsrb	xmm15, byte ptr [rdx + rdi + 19], 13
-	pinsrb	xmm15, byte ptr [rdx + r9 + 19], 14
-	pinsrb	xmm15, byte ptr [rdx + r13 + 19], 15
-	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 3
-	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 4
-	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 5
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 6
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 7
-	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 8
-	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 9
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 12
-	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 13
-	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 14
-	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 15
-	pinsrb	xmm6, byte ptr [rdx + r8 + 21], 3
-	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 4
-	mov	rax, r10
-	pinsrb	xmm6, byte ptr [rdx + rsi + 21], 5
-	pinsrb	xmm6, byte ptr [rdx + r15 + 21], 6
-	pinsrb	xmm6, byte ptr [rdx + rbx + 21], 7
-	pinsrb	xmm6, byte ptr [rdx + r11 + 21], 8
-	pinsrb	xmm6, byte ptr [rdx + rcx + 21], 9
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 21], 12
-	pinsrb	xmm6, byte ptr [rdx + rdi + 21], 13
-	pinsrb	xmm6, byte ptr [rdx + r9 + 21], 14
-	pandn	xmm5, xmmword ptr [rip + .LCPI8_10]
-	pminub	xmm7, xmm0
-	pcmpeqb	xmm7, xmm0
-	pandn	xmm7, xmmword ptr [rip + .LCPI8_11]
-	por	xmm7, xmm5
-	pminub	xmm15, xmm0
-	pcmpeqb	xmm15, xmm0
-	movdqa	xmm5, xmmword ptr [rip + .LCPI8_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm15, xmm5
-	por	xmm15, xmm7
-	pinsrb	xmm6, byte ptr [rdx + r13 + 21], 15
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm7, xmmword ptr [rsp + 144]   # 16-byte Reload
-	psubb	xmm7, xmm5
-	por	xmm15, xmm7
-	pminub	xmm4, xmm0
-	pcmpeqb	xmm4, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_13] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm4, xmm7
-	pminub	xmm6, xmm0
-	pcmpeqb	xmm6, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm6, xmm7
-	por	xmm6, xmm4
-	pinsrb	xmm9, byte ptr [rdx + r8 + 22], 3
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 4
-	pinsrb	xmm9, byte ptr [rdx + rsi + 22], 5
-	pinsrb	xmm9, byte ptr [rdx + r15 + 22], 6
-	pinsrb	xmm9, byte ptr [rdx + rbx + 22], 7
-	pinsrb	xmm9, byte ptr [rdx + r11 + 22], 8
-	pinsrb	xmm9, byte ptr [rdx + rcx + 22], 9
-	pinsrb	xmm9, byte ptr [rdx + r10 + 22], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm9, byte ptr [rdx + r12 + 22], 12
-	pinsrb	xmm9, byte ptr [rdx + rdi + 22], 13
-	pinsrb	xmm9, byte ptr [rdx + r9 + 22], 14
-	pinsrb	xmm9, byte ptr [rdx + r13 + 22], 15
-	pminub	xmm9, xmm0
-	pcmpeqb	xmm9, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_15] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm9, xmm7
-	por	xmm9, xmm6
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 15
-	pminub	xmm8, xmm0
-	pcmpeqb	xmm8, xmm0
-	pxor	xmm8, xmm5
-	pcmpeqd	xmm5, xmm5
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm9
-	pinsrb	xmm11, byte ptr [rdx + r8 + 24], 3
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 4
-	pinsrb	xmm11, byte ptr [rdx + rsi + 24], 5
-	pinsrb	xmm11, byte ptr [rdx + r15 + 24], 6
-	pinsrb	xmm11, byte ptr [rdx + rbx + 24], 7
-	pinsrb	xmm11, byte ptr [rdx + r11 + 24], 8
-	pinsrb	xmm11, byte ptr [rdx + rcx + 24], 9
-	pinsrb	xmm11, byte ptr [rdx + r10 + 24], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm11, byte ptr [rdx + r12 + 24], 12
-	pinsrb	xmm11, byte ptr [rdx + rdi + 24], 13
-	pinsrb	xmm11, byte ptr [rdx + r9 + 24], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 25], 3
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 4
-	pinsrb	xmm3, byte ptr [rdx + rsi + 25], 5
-	pinsrb	xmm3, byte ptr [rdx + r15 + 25], 6
-	pinsrb	xmm3, byte ptr [rdx + rbx + 25], 7
-	pinsrb	xmm3, byte ptr [rdx + r11 + 25], 8
-	pinsrb	xmm3, byte ptr [rdx + rcx + 25], 9
-	pinsrb	xmm3, byte ptr [rdx + r10 + 25], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm3, byte ptr [rdx + r12 + 25], 12
-	pinsrb	xmm3, byte ptr [rdx + rdi + 25], 13
-	pinsrb	xmm3, byte ptr [rdx + r9 + 25], 14
-	pinsrb	xmm3, byte ptr [rdx + r13 + 25], 15
-	por	xmm8, xmm15
-	movdqa	xmm4, xmm0
-	pminub	xmm3, xmm0
-	pcmpeqb	xmm3, xmm0
-	movdqa	xmm0, xmm3
-	movdqa	xmm9, xmmword ptr [rip + .LCPI8_10] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm9
-	paddb	xmm0, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 24], 15
-	pminub	xmm11, xmm4
-	pcmpeqb	xmm11, xmm4
-	pandn	xmm11, xmm9
-	pinsrb	xmm2, byte ptr [rdx + r8 + 26], 3
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 4
-	pinsrb	xmm2, byte ptr [rdx + rsi + 26], 5
-	pinsrb	xmm2, byte ptr [rdx + r15 + 26], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 26], 7
-	pinsrb	xmm2, byte ptr [rdx + r11 + 26], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 26], 9
-	pinsrb	xmm2, byte ptr [rdx + r10 + 26], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm2, byte ptr [rdx + r12 + 26], 12
-	pinsrb	xmm2, byte ptr [rdx + rdi + 26], 13
-	pinsrb	xmm2, byte ptr [rdx + r9 + 26], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 26], 15
-	pminub	xmm2, xmm4
-	pcmpeqb	xmm2, xmm4
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_11]
-	por	xmm2, xmm11
-	pinsrb	xmm12, byte ptr [rdx + r8 + 27], 3
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 4
-	pinsrb	xmm12, byte ptr [rdx + rsi + 27], 5
-	pinsrb	xmm12, byte ptr [rdx + r15 + 27], 6
-	pinsrb	xmm12, byte ptr [rdx + rbx + 27], 7
-	pinsrb	xmm12, byte ptr [rdx + r11 + 27], 8
-	pinsrb	xmm12, byte ptr [rdx + rcx + 27], 9
-	pinsrb	xmm12, byte ptr [rdx + r10 + 27], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm12, byte ptr [rdx + r12 + 27], 12
-	pinsrb	xmm12, byte ptr [rdx + rdi + 27], 13
-	pinsrb	xmm12, byte ptr [rdx + r9 + 27], 14
-	pinsrb	xmm12, byte ptr [rdx + r13 + 27], 15
-	pminub	xmm12, xmm4
-	pcmpeqb	xmm12, xmm4
-	movdqa	xmm3, xmm4
-	pandn	xmm12, xmmword ptr [rip + .LCPI8_12]
-	por	xmm12, xmm2
-	psubb	xmm0, xmm5
-	por	xmm12, xmm0
-	pinsrb	xmm13, byte ptr [rdx + r8 + 28], 3
-	pinsrb	xmm10, byte ptr [rdx + r8 + 29], 3
-	pinsrb	xmm14, byte ptr [rdx + r8 + 30], 3
-	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 3
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 4
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 4
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 4
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 4
-	pinsrb	xmm13, byte ptr [rdx + rsi + 28], 5
-	pinsrb	xmm10, byte ptr [rdx + rsi + 29], 5
-	pinsrb	xmm14, byte ptr [rdx + rsi + 30], 5
-	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 28], 6
-	pinsrb	xmm10, byte ptr [rdx + r15 + 29], 6
-	pinsrb	xmm14, byte ptr [rdx + r15 + 30], 6
-	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 28], 7
-	pinsrb	xmm10, byte ptr [rdx + rbx + 29], 7
-	pinsrb	xmm14, byte ptr [rdx + rbx + 30], 7
-	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 7
-	pinsrb	xmm13, byte ptr [rdx + r11 + 28], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 29], 8
-	pinsrb	xmm14, byte ptr [rdx + r11 + 30], 8
-	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 8
-	pinsrb	xmm13, byte ptr [rdx + rcx + 28], 9
-	pinsrb	xmm10, byte ptr [rdx + rcx + 29], 9
-	pinsrb	xmm14, byte ptr [rdx + rcx + 30], 9
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 9
-	mov	rax, r10
-	pinsrb	xmm13, byte ptr [rdx + r10 + 28], 10
-	pinsrb	xmm10, byte ptr [rdx + r10 + 29], 10
-	pinsrb	xmm14, byte ptr [rdx + r10 + 30], 10
-	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 11
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 11
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 11
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, r12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 28], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 29], 12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 30], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 12
-	pinsrb	xmm13, byte ptr [rdx + rdi + 28], 13
-	pinsrb	xmm10, byte ptr [rdx + rdi + 29], 13
-	pinsrb	xmm14, byte ptr [rdx + rdi + 30], 13
-	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 13
-	pinsrb	xmm13, byte ptr [rdx + r9 + 28], 14
-	pinsrb	xmm10, byte ptr [rdx + r9 + 29], 14
-	pinsrb	xmm14, byte ptr [rdx + r9 + 30], 14
-	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 14
-	mov	rax, r13
-	pinsrb	xmm13, byte ptr [rdx + r13 + 28], 15
-	pinsrb	xmm10, byte ptr [rdx + r13 + 29], 15
-	pinsrb	xmm14, byte ptr [rdx + r13 + 30], 15
-	movdqa	xmm0, xmm4
-	pminub	xmm13, xmm4
-	pcmpeqb	xmm13, xmm4
-	pandn	xmm13, xmmword ptr [rip + .LCPI8_13]
-	pminub	xmm10, xmm4
-	pcmpeqb	xmm10, xmm4
-	pandn	xmm10, xmmword ptr [rip + .LCPI8_14]
-	por	xmm10, xmm13
-	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 15
-	pminub	xmm14, xmm4
-	pcmpeqb	xmm14, xmm4
-	pandn	xmm14, xmm7
-	por	xmm14, xmm10
-	pminub	xmm1, xmm4
-	pcmpeqb	xmm1, xmm4
-	pxor	xmm1, xmm5
-	psllw	xmm1, 7
-	pand	xmm1, xmm6
-	por	xmm1, xmm14
-	por	xmm1, xmm12
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	movdqa	xmm5, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm2, xmm5              # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3],xmm2[4],xmm5[4],xmm2[5],xmm5[5],xmm2[6],xmm5[6],xmm2[7],xmm5[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm8, xmm1              # xmm8 = xmm8[8],xmm1[8],xmm8[9],xmm1[9],xmm8[10],xmm1[10],xmm8[11],xmm1[11],xmm8[12],xmm1[12],xmm8[13],xmm1[13],xmm8[14],xmm1[14],xmm8[15],xmm1[15]
-	punpckhbw	xmm4, xmm5              # xmm4 = xmm4[8],xmm5[8],xmm4[9],xmm5[9],xmm4[10],xmm5[10],xmm4[11],xmm5[11],xmm4[12],xmm5[12],xmm4[13],xmm5[13],xmm4[14],xmm5[14],xmm4[15],xmm5[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB8_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB8_67
-	jmp	.LBB8_132
-.LBB8_197:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp], rax            # 8-byte Spill
-	mov	dword ptr [rsp + 48], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm15, xmm0, 0                  # xmm15 = xmm0[0,0,0,0]
-	xor	r9d, r9d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_8] # xmm8 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB8_198:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r9        # 8-byte Spill
-	shl	r9, 6
-	mov	r8, r9
-	mov	r12, r9
-	mov	r13, r9
-	mov	rcx, r9
-	mov	rdi, r9
-	mov	rbx, r9
-	movzx	eax, word ptr [rdx + r9]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r9 + 2]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rdx + r9 + 4]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r9 + 6]
-	movd	xmm4, eax
-	movzx	r10d, word ptr [rdx + r9 + 8]
-	movzx	esi, word ptr [rdx + r9 + 10]
-	movzx	r11d, word ptr [rdx + r9 + 12]
-	movzx	eax, word ptr [rdx + r9 + 14]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	movzx	eax, word ptr [rdx + r9 + 16]
-	movd	xmm6, eax
-	movzx	eax, word ptr [rdx + r9 + 32]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r9 + 48]
-	mov	r15, r9
-	or	r15, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rdx + r15], 1
-	pinsrw	xmm5, word ptr [rdx + r8], 2
-	pinsrw	xmm5, word ptr [rdx + r12], 3
-	pinsrw	xmm5, word ptr [rdx + r13], 4
-	pinsrw	xmm5, word ptr [rdx + rcx], 5
-	pinsrw	xmm5, word ptr [rdx + rdi], 6
-	or	rbx, 448
-	pinsrw	xmm5, word ptr [rdx + rbx], 7
-	movd	xmm9, eax
-	movzx	eax, word ptr [rdx + r9 + 18]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm5
-	pinsrw	xmm3, word ptr [rdx + r15 + 2], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 2], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 2], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 2], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 2], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 2], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 2], 7
-	pinsrw	xmm6, word ptr [rdx + r15 + 16], 1
-	pinsrw	xmm6, word ptr [rdx + r8 + 16], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 16], 7
-	movdqa	xmm10, xmm15
-	pinsrw	xmm1, word ptr [rdx + r15 + 32], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 32], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 32], 7
-	pcmpgtw	xmm10, xmm6
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm1
-	pinsrw	xmm9, word ptr [rdx + r15 + 48], 1
-	pinsrw	xmm9, word ptr [rdx + r8 + 48], 2
-	pinsrw	xmm9, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm9, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm9, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm9, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm9, word ptr [rdx + rbx + 48], 7
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm9
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	movdqa	xmm3, xmm1
-	pand	xmm3, xmm8
-	psubb	xmm3, xmm1
-	movd	xmm1, r10d
-	movzx	r14d, word ptr [rdx + r9 + 20]
-	packsswb	xmm0, xmm0
-	pinsrw	xmm2, word ptr [rdx + r15 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 6], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 6], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm1, word ptr [rdx + r15 + 8], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 8], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 8], 6
-	pand	xmm0, xmm8
-	por	xmm3, xmm0
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm2
-	movd	xmm2, esi
-	movzx	esi, word ptr [rdx + r9 + 22]
-	pinsrw	xmm1, word ptr [rdx + rbx + 8], 7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 2
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_1] # xmm11 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm7, xmm11
-	por	xmm7, xmm3
-	movdqa	xmm3, xmm15
-	pcmpgtw	xmm3, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm1
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rdx + r9 + 24]
-	pinsrw	xmm2, word ptr [rdx + r15 + 10], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 10], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm1, word ptr [rdx + r15 + 12], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 12], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 12], 6
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm8
-	psllw	xmm3, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm3, xmm12
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm8
-	psllw	xmm0, 4
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_3] # xmm13 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm0, xmm13
-	por	xmm0, xmm3
-	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r9 + 26]
-	pinsrw	xmm1, word ptr [rdx + rbx + 12], 7
-	por	xmm0, xmm7
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm2
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm1
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r9 + 28]
-	pinsrw	xmm3, word ptr [rdx + r15 + 14], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 14], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 14], 7
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm4, xmm14
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 6
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_5] # xmm11 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movdqa	xmm9, xmm15
-	pcmpgtw	xmm9, xmm3
-	movd	xmm3, r14d
-	movzx	r14d, word ptr [rdx + r9 + 30]
-	packsswb	xmm9, xmm9
-	psllw	xmm9, 7
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm2
-	por	xmm9, xmm7
-	movd	xmm4, esi
-	movzx	esi, word ptr [rdx + r9 + 34]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + r15 + 18], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 18], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 18], 7
-	por	xmm9, xmm0
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm1
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm8
-	psubb	xmm1, xmm0
-	movd	xmm7, r11d
-	movzx	esi, word ptr [rdx + r9 + 36]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	packsswb	xmm10, xmm10
-	pinsrw	xmm3, word ptr [rdx + r15 + 20], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 20], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 20], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 22], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 22], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm7, word ptr [rdx + r15 + 24], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 24], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 24], 7
-	pand	xmm10, xmm8
-	por	xmm1, xmm10
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm3
-	movd	xmm3, eax
-	movzx	r11d, word ptr [rdx + r9 + 38]
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 2
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_1] # xmm13 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm2, xmm13
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm7
-	movd	xmm4, r10d
-	movzx	r10d, word ptr [rdx + r9 + 40]
-	pinsrw	xmm3, word ptr [rdx + r15 + 26], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 26], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 28], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 28], 7
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 3
-	movdqa	xmm11, xmm12
-	pand	xmm1, xmm12
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm8
-	psllw	xmm0, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm0, xmm12
-	por	xmm0, xmm1
-	movd	xmm1, r14d
-	movzx	eax, word ptr [rdx + r9 + 42]
-	por	xmm0, xmm2
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm3
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm4
-	movd	xmm4, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r9 + 44]
-	pinsrw	xmm1, word ptr [rdx + r15 + 30], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 30], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 30], 7
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 5
-	pand	xmm2, xmm14
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm7, xmm3
-	por	xmm7, xmm2
-	movdqa	xmm10, xmm15
-	pcmpgtw	xmm10, xmm1
-	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r9 + 46]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	packsswb	xmm10, xmm10
-	psllw	xmm10, 7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm10, xmm14
-	por	xmm10, xmm7
-	movd	xmm2, r11d
-	movzx	r11d, word ptr [rdx + r9 + 50]
-	pinsrw	xmm4, word ptr [rdx + r15 + 34], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 34], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 34], 7
-	por	xmm10, xmm0
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmm0
-	pand	xmm4, xmm8
-	psubb	xmm4, xmm0
-	movd	xmm0, r10d
-	movzx	esi, word ptr [rdx + r9 + 52]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r15 + 36], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 36], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm2, word ptr [rdx + r15 + 38], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 38], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 38], 7
-	pinsrw	xmm0, word ptr [rdx + r15 + 40], 1
-	pinsrw	xmm0, word ptr [rdx + r8 + 40], 2
-	pinsrw	xmm0, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm0, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm0, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm0, word ptr [rdx + rdi + 40], 6
-	pand	xmm6, xmm8
-	por	xmm4, xmm6
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm1
-	movd	xmm7, eax
-	movzx	r10d, word ptr [rdx + r9 + 54]
-	pinsrw	xmm0, word ptr [rdx + rbx + 40], 7
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm8
-	psllw	xmm6, 2
-	pand	xmm6, xmm13
-	por	xmm6, xmm4
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm2
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm0
-	movd	xmm0, r14d
-	movzx	eax, word ptr [rdx + r9 + 56]
-	pinsrw	xmm7, word ptr [rdx + r15 + 42], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 42], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm0, word ptr [rdx + r15 + 44], 1
-	pinsrw	xmm0, word ptr [rdx + r8 + 44], 2
-	pinsrw	xmm0, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm0, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm0, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm0, word ptr [rdx + rdi + 44], 6
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 3
-	pand	xmm4, xmm11
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	movdqa	xmm13, xmm12
-	por	xmm1, xmm4
-	movd	xmm2, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r9 + 58]
-	pinsrw	xmm0, word ptr [rdx + rbx + 44], 7
-	por	xmm1, xmm6
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm7
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rdx + r9 + 60]
-	pinsrw	xmm2, word ptr [rdx + r15 + 46], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 46], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 46], 6
-	movzx	r9d, word ptr [rdx + r9 + 62]
-	pinsrw	xmm2, word ptr [rdx + rbx + 46], 7
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 5
-	pand	xmm4, xmmword ptr [rip + .LCPI8_4]
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm8
-	psllw	xmm6, 6
-	pand	xmm6, xmm3
-	movdqa	xmm12, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm2
-	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	pinsrw	xmm7, word ptr [rdx + r15 + 50], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 50], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 50], 7
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm14
-	por	xmm0, xmm6
-	movd	xmm6, r10d
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm7
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm8
-	psubb	xmm7, xmm1
-	movd	xmm3, eax
-	packsswb	xmm5, xmm5
-	pinsrw	xmm2, word ptr [rdx + r15 + 52], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 52], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 52], 6
-	pand	xmm5, xmm8
-	pinsrw	xmm2, word ptr [rdx + rbx + 52], 7
-	por	xmm7, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm2
-	movd	xmm4, esi
-	pinsrw	xmm6, word ptr [rdx + r15 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm3, word ptr [rdx + r15 + 56], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 56], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 56], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 58], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 58], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 58], 7
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm8
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI8_1]
-	por	xmm5, xmm7
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm6
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm3
-	movd	xmm3, r11d
-	pinsrw	xmm3, word ptr [rdx + r15 + 60], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 60], 7
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 3
-	pand	xmm2, xmm11
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 4
-	pand	xmm1, xmm13
-	por	xmm1, xmm2
-	movd	xmm2, r9d
-	pinsrw	xmm2, word ptr [rdx + r15 + 62], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 62], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm2, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 62], 7
-	por	xmm1, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm4
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm3
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm8
-	psllw	xmm5, 5
-	pand	xmm5, xmmword ptr [rip + .LCPI8_4]
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 6
-	pand	xmm4, xmm12
-	por	xmm4, xmm5
-	movdqa	xmm3, xmm15
-	pcmpgtw	xmm3, xmm2
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm4
-	por	xmm3, xmm1
-	movdqa	xmm1, xmm9
-	punpcklqdq	xmm1, xmm10             # xmm1 = xmm1[0],xmm10[0]
-	movdqa	xmm2, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_9] # xmm4 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm4
-	pshufb	xmm1, xmm4
-	punpcklwd	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	punpcklbw	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
-	punpcklbw	xmm9, xmm10             # xmm9 = xmm9[0],xmm10[0],xmm9[1],xmm10[1],xmm9[2],xmm10[2],xmm9[3],xmm10[3],xmm9[4],xmm10[4],xmm9[5],xmm10[5],xmm9[6],xmm10[6],xmm9[7],xmm10[7]
-	punpcklwd	xmm9, xmm0              # xmm9 = xmm9[0],xmm0[0],xmm9[1],xmm0[1],xmm9[2],xmm0[2],xmm9[3],xmm0[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r9, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB8_198
-# %bb.199:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 48]      # 4-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	jne	.LBB8_101
-	jmp	.LBB8_136
-.LBB8_200:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI8_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI8_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI8_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB8_201:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpltps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpltps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB8_201
-# %bb.202:
-	cmp	r11, r8
-	jne	.LBB8_124
-	jmp	.LBB8_140
-.Lfunc_end8:
-	.size	comparison_greater_scalar_arr_sse4, .Lfunc_end8-comparison_greater_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_greater_equal_arr_arr_sse4 # -- Begin function comparison_greater_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_arr_sse4,@function
-comparison_greater_equal_arr_arr_sse4:  # @comparison_greater_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB9_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB9_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB9_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB9_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB9_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_20
-# %bb.21:
-	add	r14, 1
-.LBB9_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setae	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setae	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setae	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setae	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setae	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setae	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setae	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setae	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setae	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_28:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rsi + 4*rcx]
-	cmp	eax, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_28
-	jmp	.LBB9_123
-.LBB9_29:
-	cmp	edi, 8
-	jle	.LBB9_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB9_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB9_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB9_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_48
-# %bb.49:
-	add	r14, 1
-.LBB9_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	setae	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setae	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setae	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setae	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setae	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setae	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setae	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setae	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setae	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_56
-	jmp	.LBB9_123
-.LBB9_2:
-	cmp	edi, 2
-	je	.LBB9_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB9_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_6
-# %bb.7:
-	add	r14, 1
-.LBB9_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setge	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setge	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setge	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setge	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setge	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setge	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setge	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setge	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setge	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setge	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setge	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_14
-	jmp	.LBB9_123
-.LBB9_30:
-	cmp	edi, 7
-	je	.LBB9_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB9_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_34
-# %bb.35:
-	add	r14, 1
-.LBB9_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setae	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setae	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setae	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setae	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setae	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setae	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setae	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setae	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setae	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_42:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rsi + 8*rcx]
-	cmp	rax, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_42
-	jmp	.LBB9_123
-.LBB9_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_70
-# %bb.71:
-	add	r14, 1
-.LBB9_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setae	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setae	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setae	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setae	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setae	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setae	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setae	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setae	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setae	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rsi + 2*rcx]
-	cmp	ax, word ptr [rdx + 2*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_78
-	jmp	.LBB9_123
-.LBB9_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_81
-# %bb.82:
-	add	r14, 1
-.LBB9_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setge	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setge	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setge	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setge	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setge	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setge	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setge	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setge	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setge	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_89
-	jmp	.LBB9_123
-.LBB9_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_103
-# %bb.104:
-	add	r14, 1
-.LBB9_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setge	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setge	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setge	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setge	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setge	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setge	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setge	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setge	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setge	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_111
-	jmp	.LBB9_123
-.LBB9_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_114
-# %bb.115:
-	add	r14, 1
-.LBB9_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	setae	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setae	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	setae	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setae	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setae	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	setae	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setae	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setae	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setae	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_122
-	jmp	.LBB9_123
-.LBB9_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_59
-# %bb.60:
-	add	r14, 1
-.LBB9_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setae	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setae	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setae	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setae	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setae	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setae	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setae	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setae	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setae	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setae	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setae	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_67:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + rcx]
-	cmp	al, byte ptr [rdx + rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_67
-	jmp	.LBB9_123
-.LBB9_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_92
-# %bb.93:
-	add	r14, 1
-.LBB9_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setge	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setge	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setge	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setge	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setge	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setge	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setge	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setge	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setge	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_100
-.LBB9_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	comparison_greater_equal_arr_arr_sse4, .Lfunc_end9-comparison_greater_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_equal_arr_scalar_sse4
-.LCPI10_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_1:
-	.zero	16,252
-.LCPI10_2:
-	.zero	16,248
-.LCPI10_3:
-	.zero	16,240
-.LCPI10_4:
-	.zero	16,224
-.LCPI10_5:
-	.zero	16,192
-.LCPI10_6:
-	.zero	16,128
-.LCPI10_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI10_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_16:
-	.zero	16,2
-.LCPI10_17:
-	.zero	16,4
-.LCPI10_18:
-	.zero	16,8
-.LCPI10_19:
-	.zero	16,16
-.LCPI10_20:
-	.zero	16,32
-.LCPI10_21:
-	.zero	16,64
-.LCPI10_22:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_scalar_sse4,@function
-comparison_greater_equal_arr_scalar_sse4: # @comparison_greater_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 496
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB10_16
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB10_31
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB10_81
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB10_92
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB10_182
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_7:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_7
-# %bb.8:
-	add	r14, 1
-.LBB10_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_13
-# %bb.10:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_11:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setae	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setae	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setae	al
-	cmp	dword ptr [rsi + 28], r13d
-	setae	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setae	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setae	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setae	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setae	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setae	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setae	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setae	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_162
-# %bb.15:
-	xor	r11d, r11d
-	jmp	.LBB10_164
-.LBB10_16:
-	cmp	edi, 8
-	jle	.LBB10_45
-# %bb.17:
-	cmp	edi, 9
-	je	.LBB10_104
-# %bb.18:
-	cmp	edi, 11
-	je	.LBB10_115
-# %bb.19:
-	cmp	edi, 12
-	jne	.LBB10_182
-# %bb.20:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB10_24
-# %bb.21:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_22:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	dl
-	add	rsi, 8
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_22
-# %bb.23:
-	add	r14, 1
-.LBB10_24:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_28
-# %bb.25:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_26:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setbe	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setbe	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setbe	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setbe	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setbe	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setbe	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setbe	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setbe	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setbe	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setbe	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setbe	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setbe	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB10_26
-# %bb.27:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-.LBB10_28:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.29:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_166
-# %bb.30:
-	xor	r11d, r11d
-	jmp	.LBB10_168
-.LBB10_31:
-	cmp	edi, 2
-	je	.LBB10_58
-# %bb.32:
-	cmp	edi, 3
-	jne	.LBB10_182
-# %bb.33:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_37
-# %bb.34:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_35:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_35
-# %bb.36:
-	add	r14, 1
-.LBB10_37:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_127
-# %bb.38:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 432], r15      # 8-byte Spill
-	jb	.LBB10_41
-# %bb.39:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_191
-# %bb.40:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_191
-.LBB10_41:
-	xor	eax, eax
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-.LBB10_42:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_43:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setge	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setge	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setge	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setge	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setge	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setge	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setge	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setge	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setge	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setge	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setge	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setge	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
-	jne	.LBB10_43
-# %bb.44:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
-	jmp	.LBB10_128
-.LBB10_45:
-	cmp	edi, 7
-	je	.LBB10_70
-# %bb.46:
-	cmp	edi, 8
-	jne	.LBB10_182
-# %bb.47:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_51
-# %bb.48:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_49:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_49
-# %bb.50:
-	add	r14, 1
-.LBB10_51:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_55
-# %bb.52:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_53:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setae	dil
-	cmp	qword ptr [rsi + 16], r13
-	setae	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setae	al
-	cmp	qword ptr [rsi + 56], r13
-	setae	bl
-	cmp	qword ptr [rsi + 64], r13
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setae	dl
-	cmp	qword ptr [rsi + 80], r13
-	setae	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setae	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setae	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setae	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setae	cl
-	cmp	qword ptr [rsi + 128], r13
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setae	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_53
-# %bb.54:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_55:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.56:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_143
-# %bb.57:
-	xor	r11d, r11d
-	jmp	.LBB10_145
-.LBB10_58:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_62
-# %bb.59:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_60:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_60
-# %bb.61:
-	add	r14, 1
-.LBB10_62:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_131
-# %bb.63:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 464], r15      # 8-byte Spill
-	jb	.LBB10_66
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_194
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_194
-.LBB10_66:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-.LBB10_67:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_68:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setae	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setae	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setae	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setae	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setae	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setae	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setae	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setae	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setae	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setae	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setae	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setae	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setae	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
-	jne	.LBB10_68
-# %bb.69:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
-	jmp	.LBB10_132
-.LBB10_70:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_72:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_72
-# %bb.73:
-	add	r14, 1
-.LBB10_74:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_78
-# %bb.75:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_76:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setge	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setge	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setge	al
-	cmp	dword ptr [rsi + 28], r13d
-	setge	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setge	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setge	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setge	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setge	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setge	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setge	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setge	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_76
-# %bb.77:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_78:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_147
-# %bb.80:
-	xor	r11d, r11d
-	jmp	.LBB10_149
-.LBB10_81:
-	movzx	r13d, word ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_83:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_83
-# %bb.84:
-	add	r14, 1
-.LBB10_85:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_89
-# %bb.86:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_87:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	word ptr [rsi], r13w
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setae	dil
-	cmp	word ptr [rsi + 4], r13w
-	setae	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setae	al
-	cmp	word ptr [rsi + 14], r13w
-	setae	bl
-	cmp	word ptr [rsi + 16], r13w
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setae	dl
-	cmp	word ptr [rsi + 20], r13w
-	setae	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setae	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setae	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setae	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setae	cl
-	cmp	word ptr [rsi + 32], r13w
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setae	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 64
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_87
-# %bb.88:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_89:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_170
-# %bb.91:
-	xor	r11d, r11d
-	jmp	.LBB10_172
-.LBB10_92:
-	movzx	r11d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_94:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r11w
-	lea	rsi, [rsi + 2]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_94
-# %bb.95:
-	add	r14, 1
-.LBB10_96:
-	sar	r15, 5
-	cmp	r10, 32
-	mov	dword ptr [rsp + 392], r11d     # 4-byte Spill
-	jl	.LBB10_135
-# %bb.97:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 456], r15      # 8-byte Spill
-	jb	.LBB10_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_197
-# %bb.99:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rsi
-	jbe	.LBB10_197
-.LBB10_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	r11, rsi
-	mov	r12, r14
-.LBB10_101:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 320], r14      # 8-byte Spill
-	mov	r13d, dword ptr [rsp + 392]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB10_102:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [r11], r13w
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 2], r13w
-	setge	r8b
-	cmp	word ptr [r11 + 4], r13w
-	setge	r14b
-	cmp	word ptr [r11 + 6], r13w
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 8], r13w
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setge	al
-	cmp	word ptr [r11 + 14], r13w
-	setge	bl
-	cmp	word ptr [r11 + 16], r13w
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setge	cl
-	cmp	word ptr [r11 + 20], r13w
-	setge	sil
-	cmp	word ptr [r11 + 22], r13w
-	setge	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setge	r10b
-	cmp	word ptr [r11 + 26], r13w
-	setge	r12b
-	cmp	word ptr [r11 + 28], r13w
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setge	dil
-	cmp	word ptr [r11 + 32], r13w
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setge	r15b
-	cmp	word ptr [r11 + 48], r13w
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setge	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	add	r11, 64
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB10_136
-.LBB10_104:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_106:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_106
-# %bb.107:
-	add	r14, 1
-.LBB10_108:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_112
-# %bb.109:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_110:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setge	dil
-	cmp	qword ptr [rsi + 16], r13
-	setge	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setge	al
-	cmp	qword ptr [rsi + 56], r13
-	setge	bl
-	cmp	qword ptr [rsi + 64], r13
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setge	dl
-	cmp	qword ptr [rsi + 80], r13
-	setge	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setge	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setge	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setge	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setge	cl
-	cmp	qword ptr [rsi + 128], r13
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setge	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_112:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_175
-# %bb.114:
-	xor	r11d, r11d
-	jmp	.LBB10_177
-.LBB10_115:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB10_119
-# %bb.116:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_117:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rsi]
-	setbe	dl
-	add	rsi, 4
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_117
-# %bb.118:
-	add	r14, 1
-.LBB10_119:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_139
-# %bb.120:
-	cmp	r11, 4
-	jb	.LBB10_123
-# %bb.121:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_200
-# %bb.122:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB10_200
-.LBB10_123:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r15, r14
-.LBB10_124:
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_125:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setbe	r8b
-	ucomiss	xmm11, dword ptr [rbx + 8]
-	setbe	r14b
-	ucomiss	xmm11, dword ptr [rbx + 12]
-	setbe	r13b
-	ucomiss	xmm11, dword ptr [rbx + 16]
-	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 20]
-	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 24]
-	setbe	al
-	ucomiss	xmm11, dword ptr [rbx + 28]
-	setbe	r11b
-	ucomiss	xmm11, dword ptr [rbx + 32]
-	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 36]
-	setbe	dl
-	ucomiss	xmm11, dword ptr [rbx + 40]
-	setbe	sil
-	ucomiss	xmm11, dword ptr [rbx + 44]
-	setbe	dil
-	ucomiss	xmm11, dword ptr [rbx + 48]
-	setbe	r10b
-	ucomiss	xmm11, dword ptr [rbx + 52]
-	setbe	r12b
-	ucomiss	xmm11, dword ptr [rbx + 56]
-	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 60]
-	setbe	r9b
-	ucomiss	xmm11, dword ptr [rbx + 64]
-	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 68]
-	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 72]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 76]
-	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 80]
-	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 84]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 88]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 92]
-	setbe	r15b
-	ucomiss	xmm11, dword ptr [rbx + 96]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 100]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 104]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 108]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 112]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 116]
-	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 120]
-	setbe	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 124]
-	setbe	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB10_125
-# %bb.126:
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	jmp	.LBB10_140
-.LBB10_127:
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-.LBB10_128:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_151
-# %bb.130:
-	xor	r9d, r9d
-	jmp	.LBB10_154
-.LBB10_131:
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-.LBB10_132:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.133:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_156
-# %bb.134:
-	xor	r9d, r9d
-	jmp	.LBB10_159
-.LBB10_135:
-	mov	r12, r14
-	mov	r11, rsi
-.LBB10_136:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.137:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_183
-# %bb.138:
-	xor	esi, esi
-	jmp	.LBB10_185
-.LBB10_139:
-	mov	r15, r14
-	mov	rbx, rsi
-.LBB10_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_187
-# %bb.142:
-	xor	esi, esi
-	jmp	.LBB10_189
-.LBB10_143:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_144:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_144
-.LBB10_145:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.146:
-	xor	eax, eax
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_174
-.LBB10_147:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_148:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_148
-.LBB10_149:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.150:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_179
-.LBB10_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_152:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setge	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB10_152
-# %bb.153:
-	add	rsi, r9
-.LBB10_154:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.155:
-	cmp	byte ptr [rsi], r11b
-	setge	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB10_161
-.LBB10_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_157:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rdi, r9
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB10_157
-# %bb.158:
-	add	rsi, r9
-.LBB10_159:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.160:
-	xor	eax, eax
-	cmp	byte ptr [rsi], r11b
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB10_161:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_162:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_163:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_163
-.LBB10_164:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.165:
-	xor	eax, eax
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_174
-.LBB10_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_167:                             # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	al
-	add	rsi, 16
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_167
-.LBB10_168:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.169:
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	jmp	.LBB10_180
-.LBB10_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_171:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_171
-.LBB10_172:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.173:
-	xor	eax, eax
-	cmp	word ptr [rsi], r13w
-.LBB10_174:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB10_181
-.LBB10_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_176:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_176
-.LBB10_177:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.178:
-	cmp	qword ptr [rsi], r13
-.LBB10_179:
-	setge	al
-.LBB10_180:
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB10_181:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB10_182:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB10_183:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14d, dword ptr [rsp + 392]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB10_184:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [r11], r14w
-	setge	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r12 + rdi], dl
-	add	rsi, 2
-	cmp	word ptr [r11 + 2], r14w
-	lea	r11, [r11 + 4]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_184
-.LBB10_185:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.186:
-	mov	eax, dword ptr [rsp + 392]      # 4-byte Reload
-	cmp	word ptr [r11], ax
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_187:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB10_188:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setbe	r9b
-	add	rbx, 8
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB10_188
-.LBB10_189:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.190:
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_191:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 320], xmm1   # 16-byte Spill
-	xor	r8d, r8d
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_192:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 288], r8       # 8-byte Spill
-	shl	r8, 5
-	mov	r9, r8
-	mov	rdi, r8
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	r12, r8
-	mov	r15, r8
-	mov	qword ptr [rsp + 16], r8        # 8-byte Spill
-	mov	r11, r8
-	mov	r10, r8
-	mov	rax, r8
-	mov	rdx, r8
-	mov	r14, r8
-	movzx	ecx, byte ptr [rsi + r8]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 1]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 2]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 3]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 4]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 5]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 6]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 8]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 9]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 10]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 11]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 12]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 16]
-	movd	xmm14, ecx
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 24]
-	movd	xmm5, ecx
-	mov	rcx, r8
-	or	rcx, 32
-	mov	r13, rcx
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	or	r9, 64
-	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
-	mov	rcx, r9
-	mov	r9, r8
-	or	r9, 96
-	or	qword ptr [rsp + 128], 128      # 8-byte Folded Spill
-	or	r12, 160
-	or	r15, 192
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	or	rbx, 224
-	or	r11, 256
-	or	r10, 288
-	or	rax, 320
-	or	rdx, 352
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	or	r14, 384
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	or	rdi, 416
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	mov	rdi, r8
-	or	rdi, 448
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, r8
-	or	rdi, 480
-	pinsrb	xmm9, byte ptr [rsi + r13], 1
-	pinsrb	xmm9, byte ptr [rsi + rcx], 2
-	pinsrb	xmm9, byte ptr [rsi + r9], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8], 4
-	pinsrb	xmm9, byte ptr [rsi + r12], 5
-	pinsrb	xmm9, byte ptr [rsi + r15], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx], 7
-	pinsrb	xmm9, byte ptr [rsi + r11], 8
-	pinsrb	xmm9, byte ptr [rsi + r10], 9
-	pinsrb	xmm9, byte ptr [rsi + rax], 10
-	pinsrb	xmm9, byte ptr [rsi + rdx], 11
-	pinsrb	xmm9, byte ptr [rsi + r14], 12
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r13], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx], 14
-	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rsi + rdi], 15
-	movdqa	xmm15, xmmword ptr [rsp + 320]  # 16-byte Reload
-	movdqa	xmm11, xmm15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 2
-	pinsrb	xmm2, byte ptr [rsi + r9 + 1], 3
-	pinsrb	xmm2, byte ptr [rsi + r8 + 1], 4
-	pinsrb	xmm2, byte ptr [rsi + r12 + 1], 5
-	pinsrb	xmm2, byte ptr [rsi + r15 + 1], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 1], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 1], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 1], 9
-	pinsrb	xmm2, byte ptr [rsi + rax + 1], 10
-	pinsrb	xmm2, byte ptr [rsi + rdx + 1], 11
-	pinsrb	xmm2, byte ptr [rsi + r14 + 1], 12
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 1], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 14
-	pinsrb	xmm2, byte ptr [rsi + rdi + 1], 15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 2], 2
-	pinsrb	xmm3, byte ptr [rsi + r9 + 2], 3
-	pinsrb	xmm3, byte ptr [rsi + r8 + 2], 4
-	pinsrb	xmm3, byte ptr [rsi + r12 + 2], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 2], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 2], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 2], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 2], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 2], 10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 2], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 2], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 14
-	pinsrb	xmm3, byte ptr [rsi + rdi + 2], 15
-	movdqa	xmm0, xmm3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 1
-	pinsrb	xmm4, byte ptr [rsi + r13 + 3], 2
-	pinsrb	xmm4, byte ptr [rsi + r9 + 3], 3
-	pinsrb	xmm4, byte ptr [rsi + r8 + 3], 4
-	pinsrb	xmm4, byte ptr [rsi + r12 + 3], 5
-	pinsrb	xmm4, byte ptr [rsi + r15 + 3], 6
-	pinsrb	xmm4, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm4, byte ptr [rsi + r11 + 3], 8
-	pinsrb	xmm4, byte ptr [rsi + r10 + 3], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 3], 10
-	pinsrb	xmm4, byte ptr [rsi + rdx + 3], 11
-	pinsrb	xmm4, byte ptr [rsi + r14 + 3], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 14
-	pinsrb	xmm4, byte ptr [rsi + rdi + 3], 15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 1
-	pinsrb	xmm6, byte ptr [rsi + r13 + 4], 2
-	pinsrb	xmm6, byte ptr [rsi + r9 + 4], 3
-	pinsrb	xmm6, byte ptr [rsi + r8 + 4], 4
-	pinsrb	xmm6, byte ptr [rsi + r12 + 4], 5
-	pinsrb	xmm6, byte ptr [rsi + r15 + 4], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 4], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 4], 8
-	pinsrb	xmm6, byte ptr [rsi + r10 + 4], 9
-	pinsrb	xmm6, byte ptr [rsi + rax + 4], 10
-	pinsrb	xmm6, byte ptr [rsi + rdx + 4], 11
-	pinsrb	xmm6, byte ptr [rsi + r14 + 4], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 14
-	pinsrb	xmm6, byte ptr [rsi + rdi + 4], 15
-	movdqa	xmm3, xmmword ptr [rsp + 144]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 1
-	pinsrb	xmm3, byte ptr [rsi + r13 + 5], 2
-	pinsrb	xmm3, byte ptr [rsi + r9 + 5], 3
-	pinsrb	xmm3, byte ptr [rsi + r8 + 5], 4
-	pinsrb	xmm3, byte ptr [rsi + r12 + 5], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 5], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 5], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 5], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 5], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 5], 10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 5], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 5], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 14
-	pinsrb	xmm3, byte ptr [rsi + rdi + 5], 15
-	movdqa	xmmword ptr [rsp + 144], xmm3   # 16-byte Spill
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 1
-	mov	rcx, r13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 2
-	pinsrb	xmm7, byte ptr [rsi + r9 + 6], 3
-	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 4
-	pinsrb	xmm7, byte ptr [rsi + r12 + 6], 5
-	pinsrb	xmm7, byte ptr [rsi + r15 + 6], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 6], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 6], 8
-	pinsrb	xmm7, byte ptr [rsi + r10 + 6], 9
-	pinsrb	xmm7, byte ptr [rsi + rax + 6], 10
-	pinsrb	xmm7, byte ptr [rsi + rdx + 6], 11
-	pinsrb	xmm7, byte ptr [rsi + r14 + 6], 12
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 1
-	mov	r13, rdi
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 2
-	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 3
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 4
-	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 5
-	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 6
-	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 7
-	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 8
-	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
-	pinsrb	xmm13, byte ptr [rsi + rax + 8], 10
-	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 11
-	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 12
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
-	pcmpgtb	xmm11, xmm9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 15
-	movdqa	xmm9, xmm15
-	pcmpgtb	xmm9, xmm13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 2
-	pinsrb	xmm14, byte ptr [rsi + r9 + 16], 3
-	mov	r14, r9
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 4
-	pinsrb	xmm14, byte ptr [rsi + r12 + 16], 5
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + r15 + 16], 6
-	pinsrb	xmm14, byte ptr [rsi + rbx + 16], 7
-	pinsrb	xmm14, byte ptr [rsi + r11 + 16], 8
-	pinsrb	xmm14, byte ptr [rsi + r10 + 16], 9
-	pinsrb	xmm14, byte ptr [rsi + rax + 16], 10
-	mov	r9, rax
-	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 12
-	pinsrb	xmm14, byte ptr [rsi + r8 + 16], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 14
-	pinsrb	xmm14, byte ptr [rsi + rdi + 16], 15
-	movdqa	xmm3, xmm15
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 2
-	pinsrb	xmm5, byte ptr [rsi + r14 + 24], 3
-	pinsrb	xmm5, byte ptr [rsi + rcx + 24], 4
-	pinsrb	xmm5, byte ptr [rsi + r12 + 24], 5
-	pinsrb	xmm5, byte ptr [rsi + r15 + 24], 6
-	mov	r14, r15
-	pinsrb	xmm5, byte ptr [rsi + rbx + 24], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 24], 8
-	pinsrb	xmm5, byte ptr [rsi + r10 + 24], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 24], 10
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 11
-	pinsrb	xmm5, byte ptr [rsi + rdx + 24], 12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 24], 13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 24], 14
-	pinsrb	xmm5, byte ptr [rsi + rdi + 24], 15
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm15
-	pcmpgtb	xmm3, xmm5
-	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
-	movdqa	xmm5, xmm15
-	pcmpgtb	xmm5, xmm2
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 13]
-	movd	xmm2, edx
-	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 13
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_16] # xmm3 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm5, xmm3
-	paddb	xmm5, xmm11
-	movdqa	xmm13, xmm15
-	pcmpgtb	xmm13, xmm0
-	movdqa	xmm3, xmm15
-	pcmpgtb	xmm3, xmm4
-	movzx	edx, byte ptr [rsi + rcx + 14]
-	movd	xmm4, edx
-	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm13, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm3, xmm0
-	por	xmm3, xmm13
-	movdqa	xmm14, xmm15
-	pcmpgtb	xmm14, xmm6
-	movzx	edx, byte ptr [rsi + rcx + 15]
-	movd	xmm6, edx
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm14, xmm0
-	por	xmm14, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm3, edx
-	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 15
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm5, xmm0
-	por	xmm14, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmm13, xmm15
-	movdqa	xmm11, xmm15
-	pcmpgtb	xmm13, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm5, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm13, xmm0
-	por	xmm13, xmm5
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm15, edx
-	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 7], 4
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 5
-	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 6
-	pinsrb	xmm0, byte ptr [rsi + rbx + 7], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
-	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 10
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 12
-	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 14
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 15
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 9], 2
-	pinsrb	xmm8, byte ptr [rsi + rcx + 9], 3
-	pinsrb	xmm8, byte ptr [rsi + rax + 9], 4
-	pinsrb	xmm8, byte ptr [rsi + r15 + 9], 5
-	pinsrb	xmm8, byte ptr [rsi + r14 + 9], 6
-	pinsrb	xmm8, byte ptr [rsi + rbx + 9], 7
-	pinsrb	xmm8, byte ptr [rsi + r11 + 9], 8
-	pinsrb	xmm8, byte ptr [rsi + r10 + 9], 9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 9], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 11
-	pinsrb	xmm8, byte ptr [rsi + rdx + 9], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 9], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm8, byte ptr [rsi + r12 + 9], 15
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 3
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 5
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 15
-	pinsrb	xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 2
-	pinsrb	xmm1, byte ptr [rsi + rcx + 11], 3
-	pinsrb	xmm1, byte ptr [rsi + rax + 11], 4
-	pinsrb	xmm1, byte ptr [rsi + r15 + 11], 5
-	pinsrb	xmm1, byte ptr [rsi + r14 + 11], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 11], 7
-	pinsrb	xmm1, byte ptr [rsi + r11 + 11], 8
-	pinsrb	xmm1, byte ptr [rsi + r10 + 11], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 11], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 11
-	pinsrb	xmm1, byte ptr [rsi + rdx + 11], 12
-	pinsrb	xmm1, byte ptr [rsi + r8 + 11], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 14
-	pinsrb	xmm1, byte ptr [rsi + r12 + 11], 15
-	pinsrb	xmm12, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 2
-	pinsrb	xmm12, byte ptr [rsi + rcx + 12], 3
-	pinsrb	xmm12, byte ptr [rsi + rax + 12], 4
-	pinsrb	xmm12, byte ptr [rsi + r15 + 12], 5
-	pinsrb	xmm12, byte ptr [rsi + r14 + 12], 6
-	pinsrb	xmm12, byte ptr [rsi + rbx + 12], 7
-	pinsrb	xmm12, byte ptr [rsi + r11 + 12], 8
-	pinsrb	xmm12, byte ptr [rsi + r10 + 12], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 12], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 11
-	pinsrb	xmm12, byte ptr [rsi + rdx + 12], 12
-	pinsrb	xmm12, byte ptr [rsi + r8 + 12], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 14
-	pinsrb	xmm12, byte ptr [rsi + r12 + 12], 15
-	pinsrb	xmm2, byte ptr [rsi + r13 + 13], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 2
-	pinsrb	xmm2, byte ptr [rsi + rcx + 13], 3
-	pinsrb	xmm2, byte ptr [rsi + rax + 13], 4
-	pinsrb	xmm2, byte ptr [rsi + r15 + 13], 5
-	pinsrb	xmm2, byte ptr [rsi + r14 + 13], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 13], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 13], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 13], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 13], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 11
-	pinsrb	xmm2, byte ptr [rsi + rdx + 13], 12
-	pinsrb	xmm2, byte ptr [rsi + r8 + 13], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 14
-	pinsrb	xmm2, byte ptr [rsi + r12 + 13], 15
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 2
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 3
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 4
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 6
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 12
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 15
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 2
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + rax + 15], 4
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 5
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 8
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 11
-	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 15
-	pinsrb	xmm3, byte ptr [rsi + r13 + 17], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 2
-	pinsrb	xmm3, byte ptr [rsi + rcx + 17], 3
-	pinsrb	xmm3, byte ptr [rsi + rax + 17], 4
-	pinsrb	xmm3, byte ptr [rsi + r15 + 17], 5
-	pinsrb	xmm3, byte ptr [rsi + r14 + 17], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 17], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 17], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 17], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 17], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 11
-	pinsrb	xmm3, byte ptr [rsi + rdx + 17], 12
-	pinsrb	xmm3, byte ptr [rsi + r8 + 17], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 14
-	pinsrb	xmm3, byte ptr [rsi + r12 + 17], 15
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 2
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 3
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 5
-	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 9
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
-	mov	qword ptr [rsp + 336], r9       # 8-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 11
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 12
-	mov	r15, rdx
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 13
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 15
-	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 2
-	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 3
-	pinsrb	xmm15, byte ptr [rsi + rax + 19], 4
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 5
-	pinsrb	xmm15, byte ptr [rsi + r14 + 19], 6
-	pinsrb	xmm15, byte ptr [rsi + rbx + 19], 7
-	pinsrb	xmm15, byte ptr [rsi + r11 + 19], 8
-	pinsrb	xmm15, byte ptr [rsi + r10 + 19], 9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm15, byte ptr [rsi + rdi + 19], 11
-	movdqa	xmm5, xmm11
-	pcmpgtb	xmm5, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm5, xmm0
-	por	xmm5, xmm13
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 20]
-	movd	xmm0, edx
-	por	xmm5, xmm14
-	movdqa	xmmword ptr [rsp + 144], xmm5   # 16-byte Spill
-	movdqa	xmm13, xmm11
-	pcmpgtb	xmm13, xmm8
-	movzx	edx, byte ptr [rsi + rax + 21]
-	movd	xmm8, edx
-	pinsrb	xmm15, byte ptr [rsi + r15 + 19], 12
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm13, xmm9
-	movdqa	xmm5, xmm11
-	pcmpgtb	xmm5, xmm10
-	movdqa	xmm9, xmm11
-	pcmpgtb	xmm9, xmm1
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm10, edx
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 19], 13
-	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm9, xmmword ptr [rip + .LCPI10_18]
-	por	xmm9, xmm5
-	movdqa	xmm1, xmm11
-	pcmpgtb	xmm1, xmm12
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm5, edx
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
-	por	xmm1, xmm9
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm9, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 19], 14
-	psubb	xmm13, xmmword ptr [rip + .LCPI10_22]
-	por	xmm1, xmm13
-	movdqa	xmm14, xmm11
-	pcmpgtb	xmm14, xmm2
-	movdqa	xmm13, xmm11
-	pcmpgtb	xmm13, xmm4
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm12, edx
-	pinsrb	xmm15, byte ptr [rsi + r12 + 19], 15
-	pandn	xmm14, xmmword ptr [rip + .LCPI10_20]
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_21]
-	por	xmm13, xmm14
-	movdqa	xmm4, xmm11
-	movdqa	xmm14, xmm11
-	pcmpgtb	xmm14, xmm6
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm2, edx
-	pandn	xmm14, xmmword ptr [rip + .LCPI10_6]
-	por	xmm14, xmm13
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm6, edx
-	por	xmm14, xmm1
-	pcmpgtb	xmm11, xmm3
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm3, edx
-	pandn	xmm11, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm11, xmmword ptr [rsp + 304]  # 16-byte Folded Reload
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm7
-	movdqa	xmm13, xmm4
-	movdqa	xmm7, xmm4
-	pcmpgtb	xmm13, xmm15
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm4, edx
-	movzx	edx, byte ptr [rsi + rax + 31]
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_18]
-	por	xmm13, xmm1
-	movd	xmm15, edx
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 31], 1
-	pinsrb	xmm0, byte ptr [rsi + r13 + 20], 2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 21], 2
-	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 2
-	pinsrb	xmm5, byte ptr [rsi + r13 + 23], 2
-	pinsrb	xmm9, byte ptr [rsi + r13 + 25], 2
-	pinsrb	xmm12, byte ptr [rsi + r13 + 26], 2
-	pinsrb	xmm2, byte ptr [rsi + r13 + 27], 2
-	pinsrb	xmm6, byte ptr [rsi + r13 + 28], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 29], 2
-	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 2
-	pinsrb	xmm15, byte ptr [rsi + r13 + 31], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 4
-	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm0, byte ptr [rsi + rcx + 20], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 21], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 23], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 25], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 26], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 27], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 28], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 29], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 31], 5
-	pinsrb	xmm0, byte ptr [rsi + r14 + 20], 6
-	pinsrb	xmm8, byte ptr [rsi + r14 + 21], 6
-	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 6
-	pinsrb	xmm5, byte ptr [rsi + r14 + 23], 6
-	pinsrb	xmm9, byte ptr [rsi + r14 + 25], 6
-	pinsrb	xmm12, byte ptr [rsi + r14 + 26], 6
-	pinsrb	xmm2, byte ptr [rsi + r14 + 27], 6
-	pinsrb	xmm6, byte ptr [rsi + r14 + 28], 6
-	pinsrb	xmm3, byte ptr [rsi + r14 + 29], 6
-	pinsrb	xmm4, byte ptr [rsi + r14 + 30], 6
-	pinsrb	xmm15, byte ptr [rsi + r14 + 31], 6
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rbx + 20], 7
-	pinsrb	xmm8, byte ptr [rsi + rbx + 21], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 7
-	pinsrb	xmm5, byte ptr [rsi + rbx + 23], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 25], 7
-	pinsrb	xmm12, byte ptr [rsi + rbx + 26], 7
-	pinsrb	xmm2, byte ptr [rsi + rbx + 27], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 28], 7
-	pinsrb	xmm3, byte ptr [rsi + rbx + 29], 7
-	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 7
-	pinsrb	xmm15, byte ptr [rsi + rbx + 31], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 20], 8
-	pinsrb	xmm8, byte ptr [rsi + r11 + 21], 8
-	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 8
-	pinsrb	xmm5, byte ptr [rsi + r11 + 23], 8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 25], 8
-	pinsrb	xmm12, byte ptr [rsi + r11 + 26], 8
-	pinsrb	xmm2, byte ptr [rsi + r11 + 27], 8
-	pinsrb	xmm6, byte ptr [rsi + r11 + 28], 8
-	pinsrb	xmm3, byte ptr [rsi + r11 + 29], 8
-	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 8
-	pinsrb	xmm15, byte ptr [rsi + r11 + 31], 8
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 9
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 9
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 9
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 9
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 9
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 9
-	mov	r10, qword ptr [rsp + 336]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 10
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 10
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 10
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 10
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 10
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm8, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm9, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm12, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm2, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm6, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm3, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm15, byte ptr [rsi + r15 + 31], 12
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 20], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 21], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 23], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 25], 13
-	pinsrb	xmm12, byte ptr [rsi + rax + 26], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 27], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 28], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 29], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 13
-	pinsrb	xmm15, byte ptr [rsi + rax + 31], 13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 20], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 21], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 14
-	pinsrb	xmm5, byte ptr [rsi + r8 + 23], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 26], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 27], 14
-	pinsrb	xmm6, byte ptr [rsi + r8 + 28], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 29], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 14
-	pinsrb	xmm15, byte ptr [rsi + r8 + 31], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 20], 15
-	pinsrb	xmm8, byte ptr [rsi + r12 + 21], 15
-	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 15
-	pinsrb	xmm5, byte ptr [rsi + r12 + 23], 15
-	pinsrb	xmm9, byte ptr [rsi + r12 + 25], 15
-	pinsrb	xmm12, byte ptr [rsi + r12 + 26], 15
-	movdqa	xmm1, xmm7
-	pcmpgtb	xmm1, xmm0
-	pinsrb	xmm2, byte ptr [rsi + r12 + 27], 15
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
-	por	xmm1, xmm13
-	pcmpeqd	xmm13, xmm13
-	psubb	xmm11, xmm13
-	por	xmm1, xmm11
-	movdqa	xmm0, xmm7
-	pcmpgtb	xmm0, xmm8
-	movdqa	xmm8, xmm7
-	pcmpgtb	xmm7, xmm10
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_20] # xmm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm0, xmm10
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_21] # xmm11 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm7, xmm11
-	por	xmm7, xmm0
-	movdqa	xmm0, xmm8
-	pcmpgtb	xmm0, xmm5
-	pinsrb	xmm6, byte ptr [rsi + r12 + 28], 15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_6] # xmm5 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm0, xmm5
-	por	xmm0, xmm7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 29], 15
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm9
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm1, xmmword ptr [rsp + 256]   # 16-byte Folded Reload
-	movdqa	xmm5, xmm8
-	pcmpgtb	xmm5, xmm12
-	movdqa	xmm7, xmm8
-	pcmpgtb	xmm7, xmm2
-	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm7, xmmword ptr [rip + .LCPI10_18]
-	por	xmm7, xmm5
-	movdqa	xmm2, xmm8
-	pcmpgtb	xmm2, xmm6
-	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 15
-	pandn	xmm2, xmmword ptr [rip + .LCPI10_19]
-	por	xmm2, xmm7
-	psubb	xmm1, xmm13
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm3
-	movdqa	xmm3, xmm8
-	pcmpgtb	xmm3, xmm4
-	pinsrb	xmm15, byte ptr [rsi + r12 + 31], 15
-	pandn	xmm1, xmm10
-	pandn	xmm3, xmm11
-	por	xmm3, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm15
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_6]
-	por	xmm1, xmm3
-	por	xmm1, xmm2
-	movdqa	xmm2, xmm0
-	punpcklbw	xmm2, xmm1              # xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	movdqa	xmm5, xmmword ptr [rsp + 144]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	punpcklbw	xmm3, xmm14             # xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
-	punpckhwd	xmm3, xmm2              # xmm3 = xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
-	punpckhbw	xmm0, xmm1              # xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
-	punpckhbw	xmm5, xmm14             # xmm5 = xmm5[8],xmm14[8],xmm5[9],xmm14[9],xmm5[10],xmm14[10],xmm5[11],xmm14[11],xmm5[12],xmm14[12],xmm5[13],xmm14[13],xmm5[14],xmm14[14],xmm5[15],xmm14[15]
-	movdqa	xmm1, xmm5
-	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
-	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	r8, rcx
-	cmp	rcx, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	jne	.LBB10_192
-# %bb.193:
-	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	jne	.LBB10_42
-	jmp	.LBB10_128
-.LBB10_194:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 400], xmm1   # 16-byte Spill
-	xor	edx, edx
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_195:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 336], rdx      # 8-byte Spill
-	shl	rdx, 5
-	mov	rbx, rdx
-	mov	r11, rdx
-	mov	r12, rdx
-	mov	qword ptr [rsp + 144], rdx      # 8-byte Spill
-	mov	r8, rdx
-	mov	r13, rdx
-	mov	r9, rdx
-	mov	r10, rdx
-	mov	r14, rdx
-	mov	rdi, rdx
-	mov	r15, rdx
-	movzx	ecx, byte ptr [rsi + rdx]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 1]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 2]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 3]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 5]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 6]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 7]
-	movd	xmm2, ecx
-	movdqa	xmmword ptr [rsp + 368], xmm2   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 8]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 9]
-	movd	xmm2, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm2   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 10]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 11]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 12]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 16]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 24]
-	movd	xmm2, ecx
-	mov	qword ptr [rsp + 128], rdx      # 8-byte Spill
-	mov	rax, rdx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	or	rbx, 64
-	or	r11, 96
-	mov	qword ptr [rsp + 288], r11      # 8-byte Spill
-	or	r12, 128
-	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
-	or	qword ptr [rsp + 144], 160      # 8-byte Folded Spill
-	or	r8, 192
-	or	r13, 224
-	mov	qword ptr [rsp + 304], r13      # 8-byte Spill
-	or	r9, 256
-	or	r10, 288
-	mov	qword ptr [rsp + 272], r10      # 8-byte Spill
-	or	r14, 320
-	or	rdi, 352
-	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
-	or	r15, 384
-	mov	rax, rdx
-	or	rax, 416
-	mov	rcx, rdx
-	mov	qword ptr [rsp + 16], rdx       # 8-byte Spill
-	or	qword ptr [rsp + 16], 448       # 8-byte Folded Spill
-	or	rdx, 480
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 1
-	pinsrb	xmm0, byte ptr [rsi + rbx], 2
-	pinsrb	xmm0, byte ptr [rsi + r11], 3
-	pinsrb	xmm0, byte ptr [rsi + r12], 4
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11], 5
-	mov	rdx, r8
-	pinsrb	xmm0, byte ptr [rsi + r8], 6
-	pinsrb	xmm0, byte ptr [rsi + r13], 7
-	pinsrb	xmm0, byte ptr [rsi + r9], 8
-	mov	r8, r9
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	pinsrb	xmm0, byte ptr [rsi + r10], 9
-	mov	r9, r14
-	pinsrb	xmm0, byte ptr [rsi + r14], 10
-	pinsrb	xmm0, byte ptr [rsi + rdi], 11
-	pinsrb	xmm0, byte ptr [rsi + r15], 12
-	pinsrb	xmm0, byte ptr [rsi + rax], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 15
-	movdqa	xmm9, xmm0
-	movdqa	xmm7, xmmword ptr [rsp + 400]   # 16-byte Reload
-	pmaxub	xmm9, xmm7
-	movdqa	xmm15, xmm7
-	pcmpeqb	xmm9, xmm0
-	movdqa	xmm0, xmm9
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 1], 1
-	pinsrb	xmm11, byte ptr [rsi + rbx + 1], 2
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r14 + 1], 3
-	pinsrb	xmm11, byte ptr [rsi + r12 + 1], 4
-	pinsrb	xmm11, byte ptr [rsi + r11 + 1], 5
-	pinsrb	xmm11, byte ptr [rsi + rdx + 1], 6
-	pinsrb	xmm11, byte ptr [rsi + r13 + 1], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 8
-	pinsrb	xmm11, byte ptr [rsi + r10 + 1], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 1], 10
-	pinsrb	xmm11, byte ptr [rsi + rdi + 1], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 1], 12
-	pinsrb	xmm11, byte ptr [rsi + rax + 1], 13
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 14
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 15
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 1
-	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 2
-	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 3
-	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 4
-	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 5
-	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 6
-	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 8
-	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 10
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 12
-	pinsrb	xmm13, byte ptr [rsi + rax + 8], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 15
-	movdqa	xmm9, xmm13
-	pmaxub	xmm9, xmm7
-	pcmpeqb	xmm9, xmm13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 16], 1
-	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 2
-	mov	r10, rbx
-	pinsrb	xmm12, byte ptr [rsi + r14 + 16], 3
-	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 5
-	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 6
-	mov	rcx, rdx
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 304]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 7
-	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 8
-	mov	r8, r13
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 16], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 16], 12
-	pinsrb	xmm12, byte ptr [rsi + rax + 16], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 14
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 15
-	movdqa	xmm7, xmm12
-	pmaxub	xmm7, xmm15
-	pcmpeqb	xmm7, xmm12
-	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 1
-	pinsrb	xmm2, byte ptr [rsi + r10 + 24], 2
-	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 4
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm2, byte ptr [rsi + r11 + 24], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 24], 8
-	pinsrb	xmm2, byte ptr [rsi + r13 + 24], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 24], 10
-	pinsrb	xmm2, byte ptr [rsi + rdx + 24], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm2, byte ptr [rsi + rax + 24], 13
-	pinsrb	xmm2, byte ptr [rsi + rbx + 24], 14
-	pinsrb	xmm2, byte ptr [rsi + r12 + 24], 15
-	movdqa	xmm7, xmm2
-	pmaxub	xmm7, xmm15
-	pcmpeqb	xmm7, xmm2
-	movdqa	xmmword ptr [rsp + 320], xmm7   # 16-byte Spill
-	movdqa	xmm12, xmm11
-	movdqa	xmm13, xmm15
-	pmaxub	xmm12, xmm15
-	pcmpeqb	xmm12, xmm11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdx + 13]
-	movd	xmm15, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 2], 1
-	mov	rbx, r10
-	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 3
-	mov	rdx, rdi
-	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 4
-	mov	rcx, r14
-	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 2], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 2], 8
-	pinsrb	xmm14, byte ptr [rsi + r13 + 2], 9
-	pinsrb	xmm14, byte ptr [rsi + r9 + 2], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 2], 12
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 2], 14
-	pinsrb	xmm14, byte ptr [rsi + r12 + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 3], 1
-	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 4
-	mov	rax, rdx
-	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 3], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 12
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 14
-	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 15
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_16] # xmm2 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pand	xmm12, xmm2
-	psubb	xmm12, xmm0
-	movdqa	xmm11, xmm14
-	pmaxub	xmm11, xmm13
-	pcmpeqb	xmm11, xmm14
-	movdqa	xmm2, xmm5
-	pmaxub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdx + 14]
-	movd	xmm14, edx
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 4], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 4], 2
-	pinsrb	xmm3, byte ptr [rsi + r10 + 4], 3
-	pinsrb	xmm3, byte ptr [rsi + rax + 4], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 4], 5
-	pinsrb	xmm3, byte ptr [rsi + rdi + 4], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 4], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 4], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 4], 11
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 4], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 15
-	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 1
-	pinsrb	xmm1, byte ptr [rsi + rbx + 5], 2
-	pinsrb	xmm1, byte ptr [rsi + r10 + 5], 3
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 4
-	pinsrb	xmm1, byte ptr [rsi + rcx + 5], 5
-	pinsrb	xmm1, byte ptr [rsi + rdi + 5], 6
-	pinsrb	xmm1, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 5], 8
-	pinsrb	xmm1, byte ptr [rsi + r13 + 5], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 5], 10
-	pinsrb	xmm1, byte ptr [rsi + rax + 5], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 5], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 5], 13
-	pinsrb	xmm1, byte ptr [rsi + rdx + 5], 14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_17] # xmm5 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm11, xmm5
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_18] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	por	xmm2, xmm11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r15 + 15]
-	movd	xmm11, edx
-	pinsrb	xmm1, byte ptr [rsi + r14 + 5], 15
-	por	xmm2, xmm12
-	movdqa	xmm12, xmm3
-	pmaxub	xmm12, xmm13
-	pcmpeqb	xmm12, xmm3
-	movdqa	xmm5, xmm1
-	pmaxub	xmm5, xmm13
-	pcmpeqb	xmm5, xmm1
-	movzx	edx, byte ptr [rsi + r15 + 17]
-	movd	xmm0, edx
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 6], 1
-	mov	qword ptr [rsp + 176], rbx      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + rbx + 6], 2
-	pinsrb	xmm4, byte ptr [rsi + r10 + 6], 3
-	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 4
-	pinsrb	xmm4, byte ptr [rsi + rcx + 6], 5
-	pinsrb	xmm4, byte ptr [rsi + rdi + 6], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 6], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 6], 8
-	pinsrb	xmm4, byte ptr [rsi + r13 + 6], 9
-	mov	qword ptr [rsp + 256], r9       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + r9 + 6], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 11
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 6], 12
-	pinsrb	xmm4, byte ptr [rsi + rax + 6], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 15
-	movdqa	xmm3, xmmword ptr [rsp + 368]   # 16-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 7], 2
-	pinsrb	xmm3, byte ptr [rsi + r10 + 7], 3
-	mov	rbx, r10
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 7], 5
-	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 7], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 7], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 7], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 7], 10
-	pinsrb	xmm3, byte ptr [rsi + r12 + 7], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 7], 12
-	pinsrb	xmm3, byte ptr [rsi + rax + 7], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 14
-	mov	rcx, r15
-	pinsrb	xmm3, byte ptr [rsi + r15 + 7], 15
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_19] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm12, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_20] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm5, xmm1
-	por	xmm5, xmm12
-	movdqa	xmm1, xmm4
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm4
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r8 + 18]
-	movd	xmm4, edx
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm1, xmm7
-	por	xmm1, xmm5
-	movzx	edx, byte ptr [rsi + r8 + 19]
-	movd	xmm5, edx
-	por	xmm1, xmm2
-	movdqa	xmm2, xmm3
-	pmaxub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm3
-	movdqa	xmm12, xmm2
-	movzx	edx, byte ptr [rsi + r8 + 20]
-	movd	xmm2, edx
-	movdqa	xmm3, xmmword ptr [rsp + 160]   # 16-byte Reload
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 9], 1
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r10 + 9], 2
-	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 9], 4
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 9], 5
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 9], 6
-	mov	rbx, qword ptr [rsp + 304]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 9], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 9], 9
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 9], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 13
-	pinsrb	xmm3, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm3, byte ptr [rsi + rcx + 9], 15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm12, xmm7
-	por	xmm12, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm12  # 16-byte Spill
-	movdqa	xmm7, xmm3
-	pmaxub	xmm7, xmm13
-	pcmpeqb	xmm7, xmm3
-	movzx	edx, byte ptr [rsi + r8 + 21]
-	movd	xmm3, edx
-	pinsrb	xmm8, byte ptr [rsi + r14 + 10], 1
-	mov	r14, r10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 3
-	pinsrb	xmm8, byte ptr [rsi + rax + 10], 4
-	mov	rcx, r9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 10], 5
-	mov	rdi, r11
-	pinsrb	xmm8, byte ptr [rsi + r11 + 10], 6
-	mov	r11, rbx
-	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 7
-	mov	r8, r15
-	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm8, byte ptr [rsi + r13 + 10], 9
-	mov	r9, r12
-	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 11
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 10], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 10], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 11], 1
-	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 2
-	pinsrb	xmm10, byte ptr [rsi + r10 + 11], 3
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 11], 5
-	pinsrb	xmm10, byte ptr [rsi + rdi + 11], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 11], 7
-	pinsrb	xmm10, byte ptr [rsi + r8 + 11], 8
-	pinsrb	xmm10, byte ptr [rsi + r13 + 11], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm10, byte ptr [rsi + r12 + 11], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 11], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 11], 13
-	pinsrb	xmm10, byte ptr [rsi + rbx + 11], 14
-	pinsrb	xmm10, byte ptr [rsi + rdx + 11], 15
-	pand	xmm7, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm7, xmm9
-	movdqa	xmm1, xmm8
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm8
-	movdqa	xmm9, xmm10
-	pmaxub	xmm9, xmm13
-	pcmpeqb	xmm9, xmm10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 12], 2
-	pinsrb	xmm6, byte ptr [rsi + r10 + 12], 3
-	mov	rdx, r14
-	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 4
-	pinsrb	xmm6, byte ptr [rsi + rcx + 12], 5
-	pinsrb	xmm6, byte ptr [rsi + rdi + 12], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 12], 7
-	pinsrb	xmm6, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm6, byte ptr [rsi + r13 + 12], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 12], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 12], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 12], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 13], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 13], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 13], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 13], 5
-	pinsrb	xmm15, byte ptr [rsi + rdi + 13], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 13], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm15, byte ptr [rsi + r13 + 13], 9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 13], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 13], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 12
-	mov	rax, r15
-	pinsrb	xmm15, byte ptr [rsi + rbx + 13], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 14
-	pand	xmm1, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm9, xmmword ptr [rip + .LCPI10_18]
-	por	xmm9, xmm1
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 23]
-	movd	xmm8, edx
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 15
-	por	xmm9, xmm7
-	movdqa	xmm1, xmm6
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm6
-	movdqa	xmm7, xmm15
-	pmaxub	xmm7, xmm13
-	pcmpeqb	xmm7, xmm15
-	movzx	edx, byte ptr [rsi + rbx + 25]
-	movd	xmm15, edx
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rbx + 14], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 14], 3
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 4
-	pinsrb	xmm14, byte ptr [rsi + rcx + 14], 5
-	pinsrb	xmm14, byte ptr [rsi + rdi + 14], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 14], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 14], 8
-	mov	rdx, r13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 9
-	pinsrb	xmm14, byte ptr [rsi + r9 + 14], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm14, byte ptr [rsi + rax + 14], 12
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 13
-	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 15
-	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 2
-	pinsrb	xmm11, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm11, byte ptr [rsi + r12 + 15], 4
-	pinsrb	xmm11, byte ptr [rsi + rcx + 15], 5
-	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 15], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm11, byte ptr [rsi + rdx + 15], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 15], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm11, byte ptr [rsi + rax + 15], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm11, byte ptr [rsi + r15 + 15], 15
-	mov	r12, r15
-	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm7, xmmword ptr [rip + .LCPI10_20]
-	por	xmm7, xmm1
-	movdqa	xmm1, xmm14
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r13 + 26]
-	movd	xmm6, edx
-	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
-	por	xmm1, xmm7
-	movzx	edx, byte ptr [rsi + r13 + 27]
-	movd	xmm7, edx
-	por	xmm1, xmm9
-	movdqa	xmm14, xmm11
-	pmaxub	xmm14, xmm13
-	pcmpeqb	xmm14, xmm11
-	movzx	edx, byte ptr [rsi + r13 + 28]
-	movd	xmm9, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 4
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 7
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 8
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 9
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 13
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 15
-	pand	xmm14, xmmword ptr [rip + .LCPI10_6]
-	por	xmm14, xmm1
-	movdqa	xmm1, xmm0
-	movdqa	xmm12, xmm13
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm0
-	movzx	edx, byte ptr [rsi + r13 + 29]
-	movd	xmm0, edx
-	pinsrb	xmm4, byte ptr [rsi + rcx + 18], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 18], 2
-	pinsrb	xmm4, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm4, byte ptr [rsi + rax + 18], 4
-	mov	rcx, r8
-	pinsrb	xmm4, byte ptr [rsi + r8 + 18], 5
-	mov	rdi, r9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 18], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 18], 7
-	mov	r8, rbx
-	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 8
-	mov	rbx, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 9
-	mov	r9, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 18], 10
-	mov	r14, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 11
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 18], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 18], 14
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 18], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 13
-	mov	rdi, rdx
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 15
-	pand	xmm1, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm1, xmmword ptr [rsp + 432]   # 16-byte Folded Reload
-	movdqa	xmm13, xmm4
-	pmaxub	xmm13, xmm12
-	pcmpeqb	xmm13, xmm4
-	movdqa	xmm11, xmm5
-	pmaxub	xmm11, xmm12
-	pcmpeqb	xmm11, xmm5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 30]
-	movd	xmm4, edx
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 1
-	movzx	edx, byte ptr [rsi + rcx + 31]
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
-	movd	xmm5, edx
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 2
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 2
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 2
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 2
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 2
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 2
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 2
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 2
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 2
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 2
-	pinsrb	xmm2, byte ptr [rsi + r10 + 20], 3
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 20], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 20], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 6
-	pinsrb	xmm2, byte ptr [rsi + r11 + 20], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 20], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 20], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 20], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm2, byte ptr [rsi + rdi + 20], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 20], 14
-	pinsrb	xmm2, byte ptr [rsi + r13 + 20], 15
-	pinsrb	xmm3, byte ptr [rsi + r10 + 21], 3
-	mov	r9, r10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 21], 5
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 21], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 8
-	pinsrb	xmm3, byte ptr [rsi + rbx + 21], 9
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	r10, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 21], 13
-	pinsrb	xmm3, byte ptr [rsi + r12 + 21], 14
-	pand	xmm13, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm11, xmmword ptr [rip + .LCPI10_18]
-	por	xmm11, xmm13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 21], 15
-	por	xmm11, xmm1
-	movdqa	xmm1, xmm2
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm2
-	movdqa	xmm2, xmm3
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm3
-	pinsrb	xmm10, byte ptr [rsi + r9 + 22], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 22], 8
-	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 9
-	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 13
-	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 14
-	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 13
-	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm2, xmmword ptr [rip + .LCPI10_20]
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm10
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm10
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
-	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 15
-	por	xmm1, xmm11
-	movdqa	xmm10, xmm8
-	pmaxub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 25], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 25], 5
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 25], 7
-	pinsrb	xmm15, byte ptr [rsi + rdi + 25], 8
-	pinsrb	xmm15, byte ptr [rsi + rbx + 25], 9
-	pinsrb	xmm15, byte ptr [rsi + r8 + 25], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm15, byte ptr [rsi + r10 + 25], 13
-	pinsrb	xmm15, byte ptr [rsi + r12 + 25], 14
-	pinsrb	xmm15, byte ptr [rsi + r13 + 25], 15
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm10, xmm11
-	por	xmm10, xmm1
-	movdqa	xmm3, xmm15
-	pmaxub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm15
-	pinsrb	xmm6, byte ptr [rsi + r9 + 26], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm6, byte ptr [rsi + rcx + 26], 5
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 26], 7
-	pinsrb	xmm6, byte ptr [rsi + rdi + 26], 8
-	pinsrb	xmm6, byte ptr [rsi + rbx + 26], 9
-	pinsrb	xmm6, byte ptr [rsi + r8 + 26], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm6, byte ptr [rsi + r10 + 26], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 26], 14
-	pinsrb	xmm6, byte ptr [rsi + r13 + 26], 15
-	pinsrb	xmm7, byte ptr [rsi + r9 + 27], 3
-	pinsrb	xmm7, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm7, byte ptr [rsi + rcx + 27], 5
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 6
-	pinsrb	xmm7, byte ptr [rsi + r11 + 27], 7
-	pinsrb	xmm7, byte ptr [rsi + rdi + 27], 8
-	pinsrb	xmm7, byte ptr [rsi + rbx + 27], 9
-	pinsrb	xmm7, byte ptr [rsi + r8 + 27], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm7, byte ptr [rsi + r10 + 27], 13
-	pinsrb	xmm7, byte ptr [rsi + r12 + 27], 14
-	pinsrb	xmm7, byte ptr [rsi + r13 + 27], 15
-	pand	xmm3, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm3, xmmword ptr [rsp + 320]   # 16-byte Folded Reload
-	movdqa	xmm2, xmm6
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm6
-	movdqa	xmm1, xmm7
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm7
-	pinsrb	xmm9, byte ptr [rsi + r9 + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + rcx + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + rdi + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + rbx + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + r8 + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + r10 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r12 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r13 + 28], 15
-	pinsrb	xmm0, byte ptr [rsi + r9 + 29], 3
-	pinsrb	xmm0, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm0, byte ptr [rsi + rcx + 29], 5
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 29], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 29], 8
-	pinsrb	xmm0, byte ptr [rsi + rbx + 29], 9
-	pinsrb	xmm0, byte ptr [rsi + r8 + 29], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm0, byte ptr [rsi + r10 + 29], 13
-	pinsrb	xmm0, byte ptr [rsi + r12 + 29], 14
-	pinsrb	xmm0, byte ptr [rsi + r13 + 29], 15
-	pand	xmm2, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm1, xmmword ptr [rip + .LCPI10_18]
-	por	xmm1, xmm2
-	por	xmm1, xmm3
-	movdqa	xmm2, xmm9
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm3, xmm0
-	pmaxub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm0
-	pinsrb	xmm4, byte ptr [rsi + r9 + 30], 3
-	pinsrb	xmm5, byte ptr [rsi + r9 + 31], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm5, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 31], 5
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 6
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 31], 7
-	mov	rax, rdi
-	pinsrb	xmm4, byte ptr [rsi + rdi + 30], 8
-	pinsrb	xmm5, byte ptr [rsi + rdi + 31], 8
-	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 31], 9
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	rax, r8
-	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 10
-	pinsrb	xmm5, byte ptr [rsi + r8 + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 11
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 13
-	pinsrb	xmm5, byte ptr [rsi + r10 + 31], 13
-	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 14
-	pinsrb	xmm5, byte ptr [rsi + r12 + 31], 14
-	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 15
-	pand	xmm2, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm3, xmmword ptr [rip + .LCPI10_20]
-	por	xmm3, xmm2
-	movdqa	xmm0, xmm4
-	pmaxub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 31], 15
-	pand	xmm0, xmmword ptr [rip + .LCPI10_21]
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm5
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm5
-	pand	xmm1, xmm11
-	por	xmm1, xmm0
-	movdqa	xmm0, xmm10
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm10, xmm1             # xmm10 = xmm10[8],xmm1[8],xmm10[9],xmm1[9],xmm10[10],xmm1[10],xmm10[11],xmm1[11],xmm10[12],xmm1[12],xmm10[13],xmm1[13],xmm10[14],xmm1[14],xmm10[15],xmm1[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3]
-	punpckhwd	xmm4, xmm10             # xmm4 = xmm4[4],xmm10[4],xmm4[5],xmm10[5],xmm4[6],xmm10[6],xmm4[7],xmm10[7]
-	mov	rcx, qword ptr [rsp + 336]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rdx, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB10_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	jne	.LBB10_67
-	jmp	.LBB10_132
-.LBB10_197:
-	mov	rax, r15
-	and	rax, -8
-	mov	r11, rax
-	shl	r11, 6
-	add	r11, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	lea	rax, [r14 + 4*rax]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	movd	xmm0, dword ptr [rsp + 392]     # 4-byte Folded Reload
-                                        # xmm0 = mem[0],zero,zero,zero
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	movdqa	xmmword ptr [rsp + 464], xmm0   # 16-byte Spill
-	xor	r10d, r10d
-	.p2align	4, 0x90
-.LBB10_198:                             # =>This Inner Loop Header: Depth=1
-	mov	r9, r10
-	shl	r9, 6
-	mov	r8, r9
-	mov	rdi, r9
-	mov	rbx, r9
-	mov	r15, r9
-	mov	r12, r9
-	mov	r13, r9
-	movzx	ecx, word ptr [rsi + r9]
-	movd	xmm11, ecx
-	movzx	ecx, word ptr [rsi + r9 + 2]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 16], xmm0    # 16-byte Spill
-	movzx	ecx, word ptr [rsi + r9 + 4]
-	movd	xmm9, ecx
-	movzx	ecx, word ptr [rsi + r9 + 6]
-	movd	xmm10, ecx
-	movzx	ecx, word ptr [rsi + r9 + 8]
-	movd	xmm12, ecx
-	movzx	ecx, word ptr [rsi + r9 + 10]
-	movd	xmm13, ecx
-	movzx	ecx, word ptr [rsi + r9 + 12]
-	movd	xmm14, ecx
-	movzx	ecx, word ptr [rsi + r9 + 14]
-	movd	xmm8, ecx
-	movzx	ecx, word ptr [rsi + r9 + 16]
-	movd	xmm1, ecx
-	movzx	ecx, word ptr [rsi + r9 + 18]
-	movd	xmm2, ecx
-	movzx	ecx, word ptr [rsi + r9 + 20]
-	movd	xmm3, ecx
-	movzx	ecx, word ptr [rsi + r9 + 22]
-	movd	xmm4, ecx
-	movzx	ecx, word ptr [rsi + r9 + 24]
-	movd	xmm5, ecx
-	movzx	ecx, word ptr [rsi + r9 + 26]
-	movd	xmm6, ecx
-	movzx	eax, word ptr [rsi + r9 + 28]
-	movzx	edx, word ptr [rsi + r9 + 30]
-	mov	rcx, r9
-	or	rcx, 64
-	or	r8, 128
-	or	rdi, 192
-	or	rbx, 256
-	or	r15, 320
-	or	r12, 384
-	or	r13, 448
-	pinsrw	xmm11, word ptr [rsi + rcx], 1
-	pinsrw	xmm11, word ptr [rsi + r8], 2
-	pinsrw	xmm11, word ptr [rsi + rdi], 3
-	pinsrw	xmm11, word ptr [rsi + rbx], 4
-	pinsrw	xmm11, word ptr [rsi + r15], 5
-	pinsrw	xmm11, word ptr [rsi + r12], 6
-	pinsrw	xmm11, word ptr [rsi + r13], 7
-	movd	xmm15, eax
-	movdqa	xmm0, xmmword ptr [rsp + 464]   # 16-byte Reload
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm11
-	movdqa	xmmword ptr [rsp + 352], xmm7   # 16-byte Spill
-	movdqa	xmm7, xmmword ptr [rsp + 16]    # 16-byte Reload
-	pinsrw	xmm7, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm7, word ptr [rsi + rdi + 2], 3
-	pinsrw	xmm7, word ptr [rsi + rbx + 2], 4
-	pinsrw	xmm7, word ptr [rsi + r15 + 2], 5
-	pinsrw	xmm7, word ptr [rsi + r12 + 2], 6
-	pinsrw	xmm7, word ptr [rsi + r13 + 2], 7
-	movdqa	xmm11, xmm0
-	pinsrw	xmm9, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm9, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm9, word ptr [rsi + rdi + 4], 3
-	pinsrw	xmm9, word ptr [rsi + rbx + 4], 4
-	pinsrw	xmm9, word ptr [rsi + r15 + 4], 5
-	pinsrw	xmm9, word ptr [rsi + r12 + 4], 6
-	pcmpgtw	xmm11, xmm7
-	pinsrw	xmm9, word ptr [rsi + r13 + 4], 7
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm9
-	movdqa	xmmword ptr [rsp + 80], xmm7    # 16-byte Spill
-	pinsrw	xmm10, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm10, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm10, word ptr [rsi + rdi + 6], 3
-	pinsrw	xmm10, word ptr [rsi + rbx + 6], 4
-	pinsrw	xmm10, word ptr [rsi + r15 + 6], 5
-	pinsrw	xmm10, word ptr [rsi + r12 + 6], 6
-	pinsrw	xmm10, word ptr [rsi + r13 + 6], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm12, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm12, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm12, word ptr [rsi + rdi + 8], 3
-	pinsrw	xmm12, word ptr [rsi + rbx + 8], 4
-	pinsrw	xmm12, word ptr [rsi + r15 + 8], 5
-	pinsrw	xmm12, word ptr [rsi + r12 + 8], 6
-	pinsrw	xmm12, word ptr [rsi + r13 + 8], 7
-	pcmpgtw	xmm7, xmm10
-	movdqa	xmmword ptr [rsp + 112], xmm7   # 16-byte Spill
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm12
-	movdqa	xmmword ptr [rsp + 32], xmm7    # 16-byte Spill
-	pinsrw	xmm13, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm13, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm13, word ptr [rsi + rdi + 10], 3
-	pinsrw	xmm13, word ptr [rsi + rbx + 10], 4
-	pinsrw	xmm13, word ptr [rsi + r15 + 10], 5
-	pinsrw	xmm13, word ptr [rsi + r12 + 10], 6
-	pinsrw	xmm13, word ptr [rsi + r13 + 10], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm14, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm14, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm14, word ptr [rsi + rdi + 12], 3
-	pinsrw	xmm14, word ptr [rsi + rbx + 12], 4
-	pinsrw	xmm14, word ptr [rsi + r15 + 12], 5
-	pinsrw	xmm14, word ptr [rsi + r12 + 12], 6
-	pcmpgtw	xmm7, xmm13
-	movdqa	xmmword ptr [rsp + 128], xmm7   # 16-byte Spill
-	pinsrw	xmm14, word ptr [rsi + r13 + 12], 7
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm14
-	movdqa	xmm14, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm8, word ptr [rsi + rdi + 14], 3
-	pinsrw	xmm8, word ptr [rsi + rbx + 14], 4
-	pinsrw	xmm8, word ptr [rsi + r15 + 14], 5
-	pinsrw	xmm8, word ptr [rsi + r12 + 14], 6
-	pinsrw	xmm8, word ptr [rsi + r13 + 14], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 16], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 7
-	pcmpgtw	xmm7, xmm8
-	movdqa	xmmword ptr [rsp + 96], xmm7    # 16-byte Spill
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm1
-	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 18], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 18], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 18], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 18], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 18], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm3, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm3, word ptr [rsi + rdi + 20], 3
-	pinsrw	xmm3, word ptr [rsi + rbx + 20], 4
-	pinsrw	xmm3, word ptr [rsi + r15 + 20], 5
-	pinsrw	xmm3, word ptr [rsi + r12 + 20], 6
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	pinsrw	xmm3, word ptr [rsi + r13 + 20], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm3
-	movdqa	xmmword ptr [rsp + 48], xmm1    # 16-byte Spill
-	pinsrw	xmm4, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm4, word ptr [rsi + rdi + 22], 3
-	pinsrw	xmm4, word ptr [rsi + rbx + 22], 4
-	pinsrw	xmm4, word ptr [rsi + r15 + 22], 5
-	pinsrw	xmm4, word ptr [rsi + r12 + 22], 6
-	pinsrw	xmm4, word ptr [rsi + r13 + 22], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm5, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm5, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm5, word ptr [rsi + rdi + 24], 3
-	pinsrw	xmm5, word ptr [rsi + rbx + 24], 4
-	pinsrw	xmm5, word ptr [rsi + r15 + 24], 5
-	pinsrw	xmm5, word ptr [rsi + r12 + 24], 6
-	pinsrw	xmm5, word ptr [rsi + r13 + 24], 7
-	pcmpgtw	xmm1, xmm4
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm5
-	movdqa	xmmword ptr [rsp + 16], xmm1    # 16-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 3
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 4
-	pinsrw	xmm6, word ptr [rsi + r15 + 26], 5
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 6
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm15, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm15, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm15, word ptr [rsi + rdi + 28], 3
-	pinsrw	xmm15, word ptr [rsi + rbx + 28], 4
-	pinsrw	xmm15, word ptr [rsi + r15 + 28], 5
-	pinsrw	xmm15, word ptr [rsi + r12 + 28], 6
-	pcmpgtw	xmm1, xmm6
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pinsrw	xmm15, word ptr [rsi + r13 + 28], 7
-	movd	xmm1, edx
-	pinsrw	xmm1, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 30], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 30], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 30], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 30], 6
-	movdqa	xmm2, xmm0
-	pcmpgtw	xmm2, xmm15
-	movdqa	xmmword ptr [rsp + 240], xmm2   # 16-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r13 + 30], 7
-	movdqa	xmm2, xmm0
-	pcmpgtw	xmm2, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 32]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 32], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 32], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 32], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 32], 7
-	movzx	eax, word ptr [rsi + r9 + 34]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 34], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 7
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 224], xmm3   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 36]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 36], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 36], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 36], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 36], 6
-	movzx	eax, word ptr [rsi + r9 + 38]
-	pinsrw	xmm1, word ptr [rsi + r13 + 36], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 38], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 38], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 38], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 38], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 38], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 272], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 40]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 40], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 40], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 40], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 40], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 40], 7
-	movzx	eax, word ptr [rsi + r9 + 42]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 42], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 42], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 42], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 42], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 42], 7
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 336], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 44]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 44], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 6
-	movzx	eax, word ptr [rsi + r9 + 46]
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 46], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 46], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 46], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 46], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 320], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 46], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 48]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 48], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 48], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 48], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 48], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 48], 7
-	movzx	eax, word ptr [rsi + r9 + 50]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 50], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 50], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 50], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 50], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 50], 7
-	movdqa	xmm13, xmm0
-	pcmpgtw	xmm13, xmm1
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 368], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 52]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 52], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 6
-	movzx	eax, word ptr [rsi + r9 + 54]
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 54], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 54], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 54], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 54], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 416], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 54], 7
-	movdqa	xmm15, xmm0
-	pcmpgtw	xmm15, xmm2
-	movzx	eax, word ptr [rsi + r9 + 56]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 56], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 7
-	movzx	eax, word ptr [rsi + r9 + 58]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 58], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 7
-	movdqa	xmm9, xmm0
-	pcmpgtw	xmm9, xmm1
-	movdqa	xmm12, xmm0
-	pcmpgtw	xmm12, xmm2
-	movzx	eax, word ptr [rsi + r9 + 60]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 60], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 60], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 60], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 60], 6
-	movzx	eax, word ptr [rsi + r9 + 62]
-	pinsrw	xmm2, word ptr [rsi + r13 + 60], 7
-	movd	xmm7, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm7, word ptr [rsi + rdi + 62], 3
-	pinsrw	xmm7, word ptr [rsi + rbx + 62], 4
-	pinsrw	xmm7, word ptr [rsi + r15 + 62], 5
-	pinsrw	xmm7, word ptr [rsi + r12 + 62], 6
-	movdqa	xmm5, xmm0
-	pcmpgtw	xmm5, xmm2
-	pinsrw	xmm7, word ptr [rsi + r13 + 62], 7
-	movdqa	xmm6, xmm0
-	pcmpgtw	xmm6, xmm7
-	packsswb	xmm11, xmm11
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_8] # xmm1 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm7, xmm1
-	movdqa	xmm3, xmm1
-	movdqa	xmm0, xmm11
-	pxor	xmm4, xmm4
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rsp + 80]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm4, xmm0
-	pcmpeqd	xmm2, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 352]   # 16-byte Reload
-	pxor	xmm0, xmm2
-	pcmpeqd	xmm8, xmm8
-	packsswb	xmm0, xmm0
-	psubb	xmm7, xmm0
-	movdqa	xmm2, xmmword ptr [rsp + 112]   # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_10] # xmm11 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm11, xmm4, xmm0
-	por	xmm11, xmm1
-	movdqa	xmm2, xmmword ptr [rsp + 32]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm11, xmm7
-	movdqa	xmm2, xmmword ptr [rsp + 128]   # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_12] # xmm10 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm7, xmm10
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm7, xmm1
-	packsswb	xmm14, xmm14
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm14
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm7
-	movdqa	xmm2, xmmword ptr [rsp + 96]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm14, xmm4, xmm0
-	por	xmm1, xmm11
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmm3
-	movdqa	xmm7, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm14, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 432]   # 16-byte Reload
-	pxor	xmm0, xmm8
-	packsswb	xmm0, xmm0
-	psubb	xmm7, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 48]    # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_9] # xmm3 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm1, xmm3
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI10_10] # xmm8 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm8
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm2, xmm1
-	por	xmm2, xmm7
-	movdqa	xmm0, xmmword ptr [rsp + 16]    # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	pblendvb	xmm10, xmm4, xmm0
-	por	xmm10, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 240]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm10
-	por	xmm1, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 144]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	pblendvb	xmm10, xmm4, xmm0
-	por	xmm10, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 288]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm11
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm2, xmm3
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pxor	xmm0, xmmword ptr [rip + .LCPI10_22]
-	pcmpeqd	xmm3, xmm3
-	packsswb	xmm0, xmm0
-	psubb	xmm1, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm7, xmm8
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm7, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmmword ptr [rsp + 336]  # 16-byte Reload
-	packsswb	xmm11, xmm11
-	por	xmm7, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm11
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 320]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmmword ptr [rsp + 368]  # 16-byte Reload
-	packsswb	xmm11, xmm11
-	por	xmm1, xmm7
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_14] # xmm7 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_8] # xmm2 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm11
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm7, xmm1
-	pxor	xmm13, xmm3
-	packsswb	xmm13, xmm13
-	movdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	packsswb	xmm15, xmm15
-	psubb	xmm2, xmm13
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmm15
-	pblendvb	xmm8, xmm4, xmm0
-	por	xmm8, xmm1
-	packsswb	xmm9, xmm9
-	packsswb	xmm12, xmm12
-	por	xmm8, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm9
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm12
-	pblendvb	xmm2, xmm4, xmm0
-	packsswb	xmm5, xmm5
-	por	xmm2, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm5
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm2
-	packsswb	xmm6, xmm6
-	por	xmm1, xmm8
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_14] # xmm2 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm6
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm2, xmm1
-	movdqa	xmm0, xmm14
-	punpcklqdq	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0]
-	movdqa	xmm1, xmm7
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm1, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
-	punpcklbw	xmm7, xmm2              # xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1],xmm7[2],xmm2[2],xmm7[3],xmm2[3],xmm7[4],xmm2[4],xmm7[5],xmm2[5],xmm7[6],xmm2[6],xmm7[7],xmm2[7]
-	punpcklbw	xmm14, xmm10            # xmm14 = xmm14[0],xmm10[0],xmm14[1],xmm10[1],xmm14[2],xmm10[2],xmm14[3],xmm10[3],xmm14[4],xmm10[4],xmm14[5],xmm10[5],xmm14[6],xmm10[6],xmm14[7],xmm10[7]
-	punpcklwd	xmm14, xmm7             # xmm14 = xmm14[0],xmm7[0],xmm14[1],xmm7[1],xmm14[2],xmm7[2],xmm14[3],xmm7[3]
-	movdqu	xmmword ptr [r14 + 4*r10], xmm14
-	movdqu	xmmword ptr [r14 + 4*r10 + 16], xmm0
-	add	r10, 8
-	cmp	r10, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	jne	.LBB10_198
-# %bb.199:
-	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jne	.LBB10_101
-	jmp	.LBB10_136
-.LBB10_200:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm13, xmm11
-	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI10_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB10_201:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
-	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
-	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
-	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
-	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
-	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
-	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
-	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
-	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
-	movaps	xmm12, xmm13
-	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
-	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	cmpleps	xmm12, xmm3
-	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	packssdw	xmm12, xmm12
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	packsswb	xmm12, xmm12
-	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	movaps	xmm7, xmm13
-	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	cmpleps	xmm7, xmm4
-	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	movaps	xmm6, xmm13
-	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	cmpleps	xmm6, xmm5
-	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm0
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm10
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm14, xmm0
-	pand	xmm14, xmm15
-	psubb	xmm14, xmm0
-	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	pand	xmm12, xmm15
-	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	por	xmm14, xmm12
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm9
-	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm5, xmm0
-	por	xmm5, xmm14
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm1
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm8
-	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm14
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm14
-	por	xmm1, xmm0
-	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
-	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
-	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
-	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm3
-	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	packssdw	xmm7, xmm7
-	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm5, xmm3
-	por	xmm5, xmm0
-	movaps	xmm8, xmm13
-	cmpleps	xmm8, xmm10
-	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm8, xmm8
-	packsswb	xmm8, xmm8
-	psllw	xmm8, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm0
-	por	xmm8, xmm5
-	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	packsswb	xmm7, xmm7
-	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	por	xmm8, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm9
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	pand	xmm7, xmm15
-	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	por	xmm1, xmm7
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm12
-	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI10_1]
-	por	xmm5, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm3
-	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI10_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmmword ptr [rip + .LCPI10_3]
-	por	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm10
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm9
-	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm6, xmm6
-	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	pand	xmm5, xmmword ptr [rip + .LCPI10_5]
-	por	xmm5, xmm0
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm3
-	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm10
-	por	xmm0, xmm5
-	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm0, xmm1
-	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	packsswb	xmm6, xmm6
-	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	pand	xmm6, xmm15
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	por	xmm1, xmm6
-	movaps	xmm6, xmm13
-	cmpleps	xmm6, xmm7
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm6, xmm0
-	por	xmm6, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm3
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm5
-	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI10_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm12
-	por	xmm1, xmm0
-	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm1, xmm6
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm9
-	movaps	xmm6, xmm13
-	cmpleps	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm4, xmm4
-	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 6
-	movdqa	xmm9, xmmword ptr [rip + .LCPI10_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm6, xmm9
-	por	xmm6, xmm0
-	movaps	xmm2, xmm13
-	cmpleps	xmm2, xmm3
-	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm10
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	packsswb	xmm4, xmm4
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	por	xmm2, xmm1
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	pand	xmm4, xmm15
-	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	por	xmm5, xmm4
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm7
-	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 2
-	pand	xmm4, xmmword ptr [rip + .LCPI10_1]
-	por	xmm4, xmm5
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm0
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm6
-	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmmword ptr [rip + .LCPI10_2]
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	por	xmm1, xmm5
-	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	por	xmm1, xmm4
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm3
-	movaps	xmm3, xmm13
-	cmpleps	xmm3, xmm0
-	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 5
-	pand	xmm4, xmm14
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm9
-	por	xmm3, xmm4
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm10
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
-	pshufb	xmm8, xmmword ptr [rip + .LCPI10_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm8
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB10_201
-# %bb.202:
-	cmp	r11, r8
-	jne	.LBB10_124
-	jmp	.LBB10_140
-.Lfunc_end10:
-	.size	comparison_greater_equal_arr_scalar_sse4, .Lfunc_end10-comparison_greater_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_equal_scalar_arr_sse4
-.LCPI11_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_1:
-	.zero	16,252
-.LCPI11_2:
-	.zero	16,248
-.LCPI11_3:
-	.zero	16,240
-.LCPI11_4:
-	.zero	16,224
-.LCPI11_5:
-	.zero	16,192
-.LCPI11_6:
-	.zero	16,128
-.LCPI11_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI11_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_16:
-	.zero	16,2
-.LCPI11_17:
-	.zero	16,4
-.LCPI11_18:
-	.zero	16,8
-.LCPI11_19:
-	.zero	16,16
-.LCPI11_20:
-	.zero	16,32
-.LCPI11_21:
-	.zero	16,64
-.LCPI11_22:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_scalar_arr_sse4,@function
-comparison_greater_equal_scalar_arr_sse4: # @comparison_greater_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB11_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB11_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB11_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB11_114
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB11_201
-# %bb.13:
-	mov	r14d, dword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_15:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_15
-# %bb.16:
-	add	r15, 1
-.LBB11_17:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_21
-# %bb.18:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_19:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setae	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setae	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setae	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setae	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setae	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setae	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setae	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setae	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setae	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setae	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setae	r12b
-	cmp	r14d, dword ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setae	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_19
-# %bb.20:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_21:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.22:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_137
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB11_24
-.LBB11_26:
-	cmp	edi, 8
-	jle	.LBB11_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB11_157
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB11_172
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB11_201
-# %bb.45:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB11_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_47:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_47
-# %bb.48:
-	add	r15, 1
-.LBB11_49:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_53
-# %bb.50:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_51:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	setae	r9b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	setae	r11b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setae	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	setae	bl
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r12b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setae	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	setae	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r8b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	setae	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setae	r15b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setae	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	setae	r14b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB11_51
-# %bb.52:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB11_53:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.54:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_195
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB11_197
-.LBB11_2:
-	cmp	edi, 2
-	je	.LBB11_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB11_201
-# %bb.4:
-	mov	r14b, byte ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_6:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_6
-# %bb.7:
-	add	r15, 1
-.LBB11_8:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_9
-# %bb.81:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB11_82
-# %bb.83:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_85
-# %bb.84:
-	lea	rax, [r15 + 4*r10]
-	cmp	rdx, rax
-	jae	.LBB11_85
-.LBB11_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_88:
-	sub	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_89:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + 31]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 23]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 18]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 17]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 15]
-	setge	r10b
-	cmp	r14b, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 12]
-	setge	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 11]
-	setge	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 10]
-	setge	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 9]
-	setge	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 7]
-	setge	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 5]
-	setge	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 4]
-	setge	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 3]
-	setge	dil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 2]
-	setge	cl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 1]
-	setge	al
-	mov	rbx, r13
-	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dil, 3
-	or	dil, cl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, al
-	mov	byte ptr [r13 + 1], r10b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_89
-# %bb.90:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB11_91
-.LBB11_27:
-	cmp	edi, 7
-	je	.LBB11_139
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB11_201
-# %bb.29:
-	mov	r14, qword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_31:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_31
-# %bb.32:
-	add	r15, 1
-.LBB11_33:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_37
-# %bb.34:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_35:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setae	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setae	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setae	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setae	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setae	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setae	al
-	cmp	r14, qword ptr [rdx + 48]
-	setae	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setae	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setae	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setae	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setae	r12b
-	cmp	r14, qword ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setae	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_35
-# %bb.36:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_37:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.38:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_155
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB11_40
-.LBB11_56:
-	mov	r14b, byte ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_58
-# %bb.59:
-	add	r15, 1
-.LBB11_60:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_61
-# %bb.62:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB11_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_66
-# %bb.65:
-	lea	rax, [r15 + 4*r10]
-	cmp	rdx, rax
-	jae	.LBB11_66
-.LBB11_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_69:
-	sub	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + 31]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 23]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 18]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 17]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 15]
-	setae	r10b
-	cmp	r14b, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 12]
-	setae	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 11]
-	setae	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 10]
-	setae	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 9]
-	setae	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 7]
-	setae	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 5]
-	setae	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 4]
-	setae	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 3]
-	setae	dil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 2]
-	setae	cl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 1]
-	setae	al
-	mov	rbx, r13
-	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dil, 3
-	or	dil, cl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, al
-	mov	byte ptr [r13 + 1], r10b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_70
-# %bb.71:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB11_72
-.LBB11_139:
-	mov	r14d, dword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_143
-# %bb.140:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_141:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_141
-# %bb.142:
-	add	r15, 1
-.LBB11_143:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_147
-# %bb.144:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_145:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setge	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setge	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setge	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setge	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setge	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setge	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setge	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setge	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setge	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setge	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setge	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setge	r12b
-	cmp	r14d, dword ptr [rdx]
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setge	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_145
-# %bb.146:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_147:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.148:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_153
-# %bb.149:
-	xor	edi, edi
-	jmp	.LBB11_150
-.LBB11_99:
-	movzx	r14d, word ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_103
-# %bb.100:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_101:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_101
-# %bb.102:
-	add	r15, 1
-.LBB11_103:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_107
-# %bb.104:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_105:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setae	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setae	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setae	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setae	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setae	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setae	al
-	cmp	r14w, word ptr [rdx + 12]
-	setae	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setae	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setae	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setae	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setae	r12b
-	cmp	r14w, word ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setae	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_105
-# %bb.106:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_107:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.108:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_112
-# %bb.109:
-	xor	r11d, r11d
-	jmp	.LBB11_110
-.LBB11_114:
-	movzx	r14d, word ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_118
-# %bb.115:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_116:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_116
-# %bb.117:
-	add	r15, 1
-.LBB11_118:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_119
-# %bb.120:
-	cmp	r10, 8
-	mov	dword ptr [rsp], r14d           # 4-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	jb	.LBB11_121
-# %bb.122:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_124
-# %bb.123:
-	lea	rax, [r15 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB11_124
-.LBB11_121:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rdx
-	mov	r12, r15
-.LBB11_127:
-	sub	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_128:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rax + 62]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 60]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 56]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 54]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 52]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 50]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 46]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 44]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 42]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 40]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 38]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 36]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 34]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 30]
-	setge	r10b
-	cmp	r14w, word ptr [rax + 28]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 26]
-	mov	rcx, rax
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 24]
-	setge	r13b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 22]
-	setge	r15b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 20]
-	setge	r14b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 18]
-	setge	r11b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 14]
-	setge	sil
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 12]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 10]
-	setge	r9b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 8]
-	setge	r8b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 6]
-	setge	dil
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 4]
-	setge	dl
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx]
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 2]
-	setge	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp]           # 4-byte Reload
-	cmp	r12w, word ptr [rcx + 16]
-	mov	r12, rbx
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp]            # 4-byte Reload
-	cmp	bx, word ptr [rcx + 32]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp]            # 4-byte Reload
-	cmp	bx, word ptr [rcx + 48]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r12], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	mov	r14d, dword ptr [rsp]           # 4-byte Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r10b, 7
-	or	r10b, dl
-	or	r10b, al
-	mov	rax, rcx
-	mov	byte ptr [r12 + 1], r10b
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [r12 + 2], cl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [r12 + 3], cl
-	add	rax, 64
-	add	r12, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_128
-# %bb.129:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB11_130
-.LBB11_157:
-	mov	r14, qword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_161
-# %bb.158:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_159:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_159
-# %bb.160:
-	add	r15, 1
-.LBB11_161:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_165
-# %bb.162:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_163:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setge	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setge	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setge	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setge	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setge	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setge	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setge	al
-	cmp	r14, qword ptr [rdx + 48]
-	setge	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setge	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setge	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setge	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setge	r12b
-	cmp	r14, qword ptr [rdx]
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setge	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_163
-# %bb.164:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_165:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.166:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_170
-# %bb.167:
-	xor	edi, edi
-	jmp	.LBB11_168
-.LBB11_172:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB11_176
-# %bb.173:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_174:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_174
-# %bb.175:
-	add	r15, 1
-.LBB11_176:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_177
-# %bb.178:
-	cmp	r10, 4
-	jb	.LBB11_179
-# %bb.180:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_182
-# %bb.181:
-	lea	rax, [r15 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB11_182
-.LBB11_179:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r14, r15
-.LBB11_185:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_186:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp], r14            # 8-byte Spill
-	ucomiss	xmm0, dword ptr [rbx]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setae	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setae	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setae	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setae	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setae	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setae	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setae	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setae	r9b
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setae	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setae	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setae	dil
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setae	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setae	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	r11b, dl
-	or	dil, r12b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], dil
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], cl
-	add	rbx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB11_186
-# %bb.187:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	jmp	.LBB11_188
-.LBB11_9:
-	mov	r13, r15
-.LBB11_91:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.92:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB11_97
-.LBB11_61:
-	mov	r13, r15
-.LBB11_72:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.73:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB11_78
-.LBB11_119:
-	mov	r12, r15
-	mov	rax, rdx
-.LBB11_130:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.131:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_135
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB11_133
-.LBB11_177:
-	mov	r14, r15
-	mov	rbx, rdx
-.LBB11_188:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.189:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_193
-# %bb.190:
-	xor	r11d, r11d
-	jmp	.LBB11_191
-.LBB11_155:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_156:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_156
-.LBB11_40:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.41:
-	xor	eax, eax
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_153:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_154:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_154
-.LBB11_150:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.151:
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_152
-.LBB11_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_95:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + rsi]
-	setge	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r14b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB11_95
-# %bb.96:
-	add	rdx, rsi
-.LBB11_97:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.98:
-	cmp	r14b, byte ptr [rdx]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB11_80
-.LBB11_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	.p2align	4, 0x90
-.LBB11_76:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rdx + r9]
-	mov	esi, 0
-	adc	sil, -1
-	mov	rdi, r9
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	sil, r9b
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r14b, byte ptr [rdx + rax + 1]
-	lea	r9, [rax + 2]
-	mov	esi, 0
-	adc	sil, -1
-	xor	sil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, sil
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, r9
-	jne	.LBB11_76
-# %bb.77:
-	add	rdx, r9
-.LBB11_78:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.79:
-	xor	eax, eax
-	cmp	r14b, byte ptr [rdx]
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB11_80:
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_137:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_138:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_138
-.LBB11_24:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.25:
-	xor	eax, eax
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_195:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_196:                             # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_196
-.LBB11_197:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.198:
-	xor	eax, eax
-	ucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_112:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_113:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_113
-.LBB11_110:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.111:
-	xor	eax, eax
-	cmp	r14w, word ptr [rdx]
-.LBB11_199:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB11_200
-.LBB11_170:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_171:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_171
-.LBB11_168:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.169:
-	cmp	r14, qword ptr [rdx]
-.LBB11_152:
-	setge	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB11_200:
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB11_201:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB11_135:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_136:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rax]
-	setge	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r14w, word ptr [rax + 2]
-	lea	rax, [rax + 4]
-	setge	r10b
-	neg	r10b
-	xor	r10b, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r10b
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r9, rsi
-	jne	.LBB11_136
-.LBB11_133:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.134:
-	cmp	r14w, word ptr [rax]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_193:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_194:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	mov	edx, 0
-	adc	dl, -1
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	r11, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	xor	sil, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, sil
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB11_194
-.LBB11_191:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.192:
-	xor	eax, eax
-	ucomiss	xmm0, dword ptr [rbx]
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_85:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_86:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	rdi, rax
-	mov	rsi, rax
-	mov	r9, rax
-	mov	r10, rax
-	mov	r12, rax
-	mov	r14, rax
-	mov	r15, rax
-	mov	r13, rax
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	r11, rax
-	mov	r8, rax
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 32
-	mov	qword ptr [rsp + 8], rbx        # 8-byte Spill
-	or	rdi, 64
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	or	rsi, 96
-	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
-	or	r9, 128
-	or	r10, 160
-	or	r12, 192
-	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
-	or	r14, 224
-	or	r15, 256
-	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
-	or	r13, 288
-	mov	qword ptr [rsp + 80], r13       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	or	r12, 320
-	or	r11, 352
-	or	r8, 384
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 416
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 448
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	mov	rsi, rax
-	or	rsi, 480
-	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + rbx], 1
-	pinsrb	xmm4, byte ptr [rdx + rdi], 2
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx], 3
-	pinsrb	xmm4, byte ptr [rdx + r9], 4
-	pinsrb	xmm4, byte ptr [rdx + r10], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax], 6
-	pinsrb	xmm4, byte ptr [rdx + r14], 7
-	pinsrb	xmm4, byte ptr [rdx + r15], 8
-	pinsrb	xmm4, byte ptr [rdx + r13], 9
-	mov	r15, r12
-	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + r12], 10
-	pinsrb	xmm4, byte ptr [rdx + r11], 11
-	pinsrb	xmm4, byte ptr [rdx + r8], 12
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax], 13
-	pinsrb	xmm4, byte ptr [rdx + rcx], 14
-	pinsrb	xmm4, byte ptr [rdx + rsi], 15
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 1], 1
-	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 2
-	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 3
-	pinsrb	xmm3, byte ptr [rdx + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [rdx + r10 + 1], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 6
-	pinsrb	xmm3, byte ptr [rdx + r14 + 1], 7
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 8
-	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 9
-	pinsrb	xmm3, byte ptr [rdx + r15 + 1], 10
-	pinsrb	xmm3, byte ptr [rdx + r11 + 1], 11
-	mov	r15, r11
-	pinsrb	xmm3, byte ptr [rdx + r8 + 1], 12
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 13
-	pinsrb	xmm3, byte ptr [rdx + rcx + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 144]   # 16-byte Reload
-	pcmpgtb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 1], 15
-	pcmpgtb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 2
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 2], 3
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 4
-	pinsrb	xmm5, byte ptr [rdx + r10 + 2], 5
-	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 6
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 7
-	mov	r12, rdi
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 8
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r8 + 2], 9
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 10
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 11
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
-	mov	rsi, r13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 2
-	pinsrb	xmm7, byte ptr [rdx + r11 + 3], 3
-	pinsrb	xmm7, byte ptr [rdx + r9 + 3], 4
-	pinsrb	xmm7, byte ptr [rdx + r10 + 3], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 3], 7
-	pinsrb	xmm7, byte ptr [rdx + r12 + 3], 8
-	pinsrb	xmm7, byte ptr [rdx + r8 + 3], 9
-	pinsrb	xmm7, byte ptr [rdx + rdi + 3], 10
-	pinsrb	xmm7, byte ptr [rdx + r15 + 3], 11
-	pinsrb	xmm7, byte ptr [rdx + rcx + 3], 12
-	pinsrb	xmm7, byte ptr [rdx + rsi + 3], 13
-	pinsrb	xmm7, byte ptr [rdx + r13 + 3], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 2
-	pinsrb	xmm9, byte ptr [rdx + r11 + 4], 3
-	pinsrb	xmm9, byte ptr [rdx + r9 + 4], 4
-	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + r10 + 4], 5
-	pinsrb	xmm9, byte ptr [rdx + rbx + 4], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 4], 7
-	pinsrb	xmm9, byte ptr [rdx + r12 + 4], 8
-	pinsrb	xmm9, byte ptr [rdx + r8 + 4], 9
-	pinsrb	xmm9, byte ptr [rdx + rdi + 4], 10
-	pinsrb	xmm9, byte ptr [rdx + r15 + 4], 11
-	pinsrb	xmm9, byte ptr [rdx + rcx + 4], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 4], 13
-	pinsrb	xmm9, byte ptr [rdx + r13 + 4], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 15
-	mov	r13, rax
-	pcmpgtb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpgtb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	movd	xmm4, esi
-	pcmpgtb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [rdx + rax + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [rdx + rax + 19]
-	movd	xmm5, esi
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 2
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 3
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 4
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 5
-	mov	r12, r10
-	mov	r14, rbx
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 7
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 9
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 10
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 12
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 15
-	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 1
-	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 2
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 4
-	pinsrb	xmm8, byte ptr [rdx + r12 + 6], 5
-	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 6
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rdx + rsi + 6], 10
-	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 11
-	mov	r15, r11
-	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 13
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 14
-	mov	r10, rax
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
-	pinsrb	xmm14, byte ptr [rdx + r8 + 7], 1
-	pinsrb	xmm14, byte ptr [rdx + rdi + 7], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 7], 3
-	mov	r9, r13
-	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 4
-	mov	rdi, r12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 5
-	pinsrb	xmm14, byte ptr [rdx + r14 + 7], 6
-	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 7
-	mov	r11, rbx
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 8
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 9
-	pinsrb	xmm14, byte ptr [rdx + rsi + 7], 10
-	pinsrb	xmm14, byte ptr [rdx + r15 + 7], 11
-	pinsrb	xmm14, byte ptr [rdx + rcx + 7], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 13
-	pinsrb	xmm14, byte ptr [rdx + r10 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pcmpgtb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpgtb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	movd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 15
-	pcmpgtb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 1
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r14 + 8], 2
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 3
-	pinsrb	xmm0, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 5
-	mov	r10, rdi
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 6
-	pinsrb	xmm0, byte ptr [rdx + r11 + 8], 7
-	pinsrb	xmm0, byte ptr [rdx + r12 + 8], 8
-	pinsrb	xmm0, byte ptr [rdx + r13 + 8], 9
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 10
-	pinsrb	xmm0, byte ptr [rdx + r15 + 8], 11
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 12
-	pinsrb	xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 14
-	pinsrb	xmm0, byte ptr [rdx + rcx + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm1, esi
-	pcmpgtb	xmm0, xmm14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 1
-	mov	rbx, r11
-	mov	rax, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 2
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 3
-	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 4
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 7
-	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 8
-	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 9
-	mov	rsi, r8
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 10
-	mov	rcx, r15
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 11
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 12
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 15
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 1
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 2
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + r9 + 10], 4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 6
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 7
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 8
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 10], 10
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 11
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 12
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 13
-	mov	r11, r15
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 14
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 15
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 11], 1
-	pinsrb	xmm13, byte ptr [rdx + rax + 11], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 11], 3
-	pinsrb	xmm13, byte ptr [rdx + r9 + 11], 4
-	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 11], 7
-	pinsrb	xmm13, byte ptr [rdx + r12 + 11], 8
-	pinsrb	xmm13, byte ptr [rdx + r13 + 11], 9
-	pinsrb	xmm13, byte ptr [rdx + rsi + 11], 10
-	pinsrb	xmm13, byte ptr [rdx + rcx + 11], 11
-	pinsrb	xmm13, byte ptr [rdx + r8 + 11], 12
-	pinsrb	xmm13, byte ptr [rdx + r11 + 11], 13
-	pinsrb	xmm13, byte ptr [rdx + r15 + 11], 14
-	pinsrb	xmm13, byte ptr [rdx + rdi + 11], 15
-	pcmpgtb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI11_16]
-	paddb	xmm11, xmm0
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	pcmpgtb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI11_17]
-	pcmpgtb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI11_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r15 + 12], 2
-	mov	r11, rax
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 3
-	mov	rdi, r9
-	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 4
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 5
-	mov	rbx, r10
-	pinsrb	xmm9, byte ptr [rdx + r10 + 12], 6
-	mov	r10, r14
-	pinsrb	xmm9, byte ptr [rdx + r14 + 12], 7
-	mov	r14, r12
-	pinsrb	xmm9, byte ptr [rdx + r12 + 12], 8
-	mov	r12, r13
-	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 9
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rcx + 12], 11
-	pinsrb	xmm9, byte ptr [rdx + r8 + 12], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rsi + 12], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 1
-	pinsrb	xmm6, byte ptr [rdx + r15 + 13], 2
-	pinsrb	xmm6, byte ptr [rdx + r11 + 13], 3
-	pinsrb	xmm6, byte ptr [rdx + rdi + 13], 4
-	pinsrb	xmm6, byte ptr [rdx + r9 + 13], 5
-	pinsrb	xmm6, byte ptr [rdx + rbx + 13], 6
-	pinsrb	xmm6, byte ptr [rdx + r10 + 13], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 13], 8
-	pinsrb	xmm6, byte ptr [rdx + r12 + 13], 9
-	pinsrb	xmm6, byte ptr [rdx + r13 + 13], 10
-	pinsrb	xmm6, byte ptr [rdx + rcx + 13], 11
-	pinsrb	xmm6, byte ptr [rdx + r8 + 13], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 14], 1
-	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 2
-	pinsrb	xmm15, byte ptr [rdx + r11 + 14], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 14], 4
-	mov	r11, rdi
-	pinsrb	xmm15, byte ptr [rdx + r9 + 14], 5
-	pinsrb	xmm15, byte ptr [rdx + rbx + 14], 6
-	pinsrb	xmm15, byte ptr [rdx + r10 + 14], 7
-	pinsrb	xmm15, byte ptr [rdx + r14 + 14], 8
-	pinsrb	xmm15, byte ptr [rdx + r12 + 14], 9
-	pinsrb	xmm15, byte ptr [rdx + r13 + 14], 10
-	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 11
-	mov	r13, rcx
-	pinsrb	xmm15, byte ptr [rdx + r8 + 14], 12
-	mov	r12, r8
-	pinsrb	xmm15, byte ptr [rdx + rsi + 14], 13
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 14
-	pcmpgtb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI11_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI11_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [rdx + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 15
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI11_20]
-	pcmpgtb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI11_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [rdx + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 15], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rdi + 15], 2
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 15], 3
-	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 4
-	pinsrb	xmm6, byte ptr [rdx + r9 + 15], 5
-	mov	r9, rbx
-	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 6
-	pinsrb	xmm6, byte ptr [rdx + r10 + 15], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 15], 8
-	mov	r10, r14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 9
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm6, byte ptr [rdx + r13 + 15], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 13
-	pinsrb	xmm6, byte ptr [rdx + r15 + 15], 14
-	pinsrb	xmm6, byte ptr [rdx + rcx + 15], 15
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI11_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 160], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 29]
-	movd	xmm9, esi
-	mov	rax, r8
-	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 1
-	mov	r14, rdi
-	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 5
-	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 16], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 16], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 16], 10
-	pinsrb	xmm10, byte ptr [rdx + r13 + 16], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 16], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 16], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 14
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 16], 15
-	pinsrb	xmm4, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 2
-	mov	r14, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 3
-	pinsrb	xmm4, byte ptr [rdx + rdi + 17], 4
-	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [rdx + r9 + 17], 7
-	pinsrb	xmm4, byte ptr [rdx + r10 + 17], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 17], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 17], 10
-	pinsrb	xmm4, byte ptr [rdx + r13 + 17], 11
-	mov	rbx, r15
-	pinsrb	xmm4, byte ptr [rdx + r15 + 17], 12
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 13
-	pinsrb	xmm4, byte ptr [rdx + rcx + 17], 14
-	mov	r9, rcx
-	pinsrb	xmm4, byte ptr [rdx + rsi + 17], 15
-	mov	r15, rsi
-	pcmpgtb	xmm10, xmm14
-	pcmpgtb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 1
-	movzx	eax, byte ptr [rdx + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + rax + 19], 2
-	pinsrb	xmm3, byte ptr [rdx + rax + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 2
-	pinsrb	xmm1, byte ptr [rdx + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
-	pinsrb	xmm12, byte ptr [rdx + rax + 24], 2
-	pinsrb	xmm13, byte ptr [rdx + rax + 25], 2
-	pinsrb	xmm0, byte ptr [rdx + rax + 26], 2
-	pinsrb	xmm11, byte ptr [rdx + rax + 27], 2
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 2
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 2
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 2
-	mov	r11, r14
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 3
-	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 7
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 8
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 9
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 10
-	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 11
-	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 12
-	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 13
-	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
-	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 15
-	pinsrb	xmm5, byte ptr [rdx + r11 + 19], 3
-	pinsrb	xmm5, byte ptr [rdx + rdi + 19], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm5, byte ptr [rdx + r12 + 19], 6
-	pinsrb	xmm5, byte ptr [rdx + r10 + 19], 7
-	pinsrb	xmm5, byte ptr [rdx + r14 + 19], 8
-	pinsrb	xmm5, byte ptr [rdx + rax + 19], 9
-	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 10
-	pinsrb	xmm5, byte ptr [rdx + r13 + 19], 11
-	pinsrb	xmm5, byte ptr [rdx + rbx + 19], 12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 19], 13
-	pinsrb	xmm5, byte ptr [rdx + r9 + 19], 14
-	pinsrb	xmm5, byte ptr [rdx + r15 + 19], 15
-	pinsrb	xmm3, byte ptr [rdx + r11 + 20], 3
-	pinsrb	xmm3, byte ptr [rdx + rdi + 20], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm3, byte ptr [rdx + r12 + 20], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 20], 7
-	pinsrb	xmm3, byte ptr [rdx + r14 + 20], 8
-	pinsrb	xmm3, byte ptr [rdx + rax + 20], 9
-	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 10
-	pinsrb	xmm3, byte ptr [rdx + r13 + 20], 11
-	pinsrb	xmm3, byte ptr [rdx + rbx + 20], 12
-	pinsrb	xmm3, byte ptr [rdx + r8 + 20], 13
-	pinsrb	xmm3, byte ptr [rdx + r9 + 20], 14
-	pcmpgtb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rdx + r15 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 15
-	pinsrb	xmm1, byte ptr [rdx + r11 + 22], 3
-	pinsrb	xmm1, byte ptr [rdx + rdi + 22], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm1, byte ptr [rdx + r12 + 22], 6
-	pinsrb	xmm1, byte ptr [rdx + r10 + 22], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 22], 8
-	pinsrb	xmm1, byte ptr [rdx + rax + 22], 9
-	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 10
-	pinsrb	xmm1, byte ptr [rdx + r13 + 22], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 22], 12
-	pinsrb	xmm1, byte ptr [rdx + r8 + 22], 13
-	pinsrb	xmm1, byte ptr [rdx + r9 + 22], 14
-	pinsrb	xmm1, byte ptr [rdx + r15 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
-	pcmpgtb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpgtb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 15
-	pcmpgtb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm12, byte ptr [rdx + rdi + 24], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm12, byte ptr [rdx + r12 + 24], 6
-	pinsrb	xmm12, byte ptr [rdx + r10 + 24], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 24], 8
-	pinsrb	xmm12, byte ptr [rdx + rax + 24], 9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 10
-	pinsrb	xmm12, byte ptr [rdx + r13 + 24], 11
-	pinsrb	xmm12, byte ptr [rdx + rbx + 24], 12
-	pinsrb	xmm12, byte ptr [rdx + r8 + 24], 13
-	pinsrb	xmm12, byte ptr [rdx + r9 + 24], 14
-	pinsrb	xmm12, byte ptr [rdx + r15 + 24], 15
-	por	xmm8, xmm3
-	pcmpgtb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rdx + r11 + 25], 3
-	pinsrb	xmm13, byte ptr [rdx + rdi + 25], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm13, byte ptr [rdx + r12 + 25], 6
-	pinsrb	xmm13, byte ptr [rdx + r10 + 25], 7
-	pinsrb	xmm13, byte ptr [rdx + r14 + 25], 8
-	pinsrb	xmm13, byte ptr [rdx + rax + 25], 9
-	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 10
-	pinsrb	xmm13, byte ptr [rdx + r13 + 25], 11
-	pinsrb	xmm13, byte ptr [rdx + rbx + 25], 12
-	pinsrb	xmm13, byte ptr [rdx + r8 + 25], 13
-	pinsrb	xmm13, byte ptr [rdx + r9 + 25], 14
-	pinsrb	xmm13, byte ptr [rdx + r15 + 25], 15
-	pinsrb	xmm0, byte ptr [rdx + r11 + 26], 3
-	pinsrb	xmm0, byte ptr [rdx + rdi + 26], 4
-	pinsrb	xmm0, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm0, byte ptr [rdx + r12 + 26], 6
-	pinsrb	xmm0, byte ptr [rdx + r10 + 26], 7
-	pinsrb	xmm0, byte ptr [rdx + r14 + 26], 8
-	pinsrb	xmm0, byte ptr [rdx + rax + 26], 9
-	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 10
-	pinsrb	xmm0, byte ptr [rdx + r13 + 26], 11
-	pinsrb	xmm0, byte ptr [rdx + rbx + 26], 12
-	pinsrb	xmm0, byte ptr [rdx + r8 + 26], 13
-	pinsrb	xmm0, byte ptr [rdx + r9 + 26], 14
-	pinsrb	xmm0, byte ptr [rdx + r15 + 26], 15
-	pinsrb	xmm11, byte ptr [rdx + r11 + 27], 3
-	pinsrb	xmm11, byte ptr [rdx + rdi + 27], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm11, byte ptr [rdx + r12 + 27], 6
-	pinsrb	xmm11, byte ptr [rdx + r10 + 27], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 27], 8
-	pinsrb	xmm11, byte ptr [rdx + rax + 27], 9
-	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 10
-	pinsrb	xmm11, byte ptr [rdx + r13 + 27], 11
-	pinsrb	xmm11, byte ptr [rdx + rbx + 27], 12
-	pinsrb	xmm11, byte ptr [rdx + r8 + 27], 13
-	pinsrb	xmm11, byte ptr [rdx + r9 + 27], 14
-	pcmpgtb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI11_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rdx + r15 + 27], 15
-	pcmpgtb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI11_17]
-	pcmpgtb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI11_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rdx + r11 + 28], 3
-	pinsrb	xmm9, byte ptr [rdx + r11 + 29], 3
-	pinsrb	xmm10, byte ptr [rdx + r11 + 30], 3
-	pinsrb	xmm6, byte ptr [rdx + r11 + 31], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 28], 4
-	pinsrb	xmm9, byte ptr [rdx + rdi + 29], 4
-	pinsrb	xmm10, byte ptr [rdx + rdi + 30], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 31], 4
-	mov	rdi, rcx
-	pinsrb	xmm15, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm9, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm10, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm6, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm15, byte ptr [rdx + r12 + 28], 6
-	pinsrb	xmm9, byte ptr [rdx + r12 + 29], 6
-	pinsrb	xmm10, byte ptr [rdx + r12 + 30], 6
-	pinsrb	xmm6, byte ptr [rdx + r12 + 31], 6
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rdx + r10 + 28], 7
-	pinsrb	xmm9, byte ptr [rdx + r10 + 29], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 30], 7
-	pinsrb	xmm6, byte ptr [rdx + r10 + 31], 7
-	mov	rdi, r14
-	pinsrb	xmm15, byte ptr [rdx + r14 + 28], 8
-	pinsrb	xmm9, byte ptr [rdx + r14 + 29], 8
-	pinsrb	xmm10, byte ptr [rdx + r14 + 30], 8
-	pinsrb	xmm6, byte ptr [rdx + r14 + 31], 8
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 9
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 9
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 9
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 9
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 10
-	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 10
-	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 10
-	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 10
-	pinsrb	xmm15, byte ptr [rdx + r13 + 28], 11
-	pinsrb	xmm9, byte ptr [rdx + r13 + 29], 11
-	pinsrb	xmm10, byte ptr [rdx + r13 + 30], 11
-	pinsrb	xmm6, byte ptr [rdx + r13 + 31], 11
-	pinsrb	xmm15, byte ptr [rdx + rbx + 28], 12
-	pinsrb	xmm9, byte ptr [rdx + rbx + 29], 12
-	pinsrb	xmm10, byte ptr [rdx + rbx + 30], 12
-	pinsrb	xmm6, byte ptr [rdx + rbx + 31], 12
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [rdx + r8 + 28], 13
-	pinsrb	xmm9, byte ptr [rdx + r8 + 29], 13
-	pinsrb	xmm10, byte ptr [rdx + r8 + 30], 13
-	pinsrb	xmm6, byte ptr [rdx + r8 + 31], 13
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [rdx + r9 + 28], 14
-	pinsrb	xmm9, byte ptr [rdx + r9 + 29], 14
-	pinsrb	xmm10, byte ptr [rdx + r9 + 30], 14
-	pinsrb	xmm6, byte ptr [rdx + r9 + 31], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 15
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 15
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 15
-	pcmpgtb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI11_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI11_22]
-	por	xmm15, xmm13
-	pcmpgtb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpgtb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	jne	.LBB11_86
-# %bb.87:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB11_88
-	jmp	.LBB11_91
-.LBB11_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	movdqa	xmm8, xmmword ptr [rsp + 256]   # 16-byte Reload
-	.p2align	4, 0x90
-.LBB11_67:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r14, rax
-	mov	rbx, rax
-	mov	r15, rax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	r12, rax
-	mov	r8, rax
-	mov	r11, rax
-	mov	r9, rax
-	mov	r10, rax
-	mov	rsi, rax
-	mov	rdi, rax
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rax + 13]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rdx + rax + 14]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 15]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r13, rax
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	or	r14, 64
-	or	rbx, 96
-	or	r15, 128
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	or	rcx, 160
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	or	r12, 192
-	or	r8, 224
-	or	r11, 256
-	or	r9, 288
-	or	r10, 320
-	or	rsi, 352
-	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
-	mov	rsi, rax
-	or	rsi, 384
-	mov	qword ptr [rsp + 112], rsi      # 8-byte Spill
-	or	rdi, 416
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 448
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 480
-	mov	qword ptr [rsp + 8], rdi        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r13], 1
-	pinsrb	xmm6, byte ptr [rdx + r14], 2
-	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + rbx], 3
-	pinsrb	xmm6, byte ptr [rdx + r15], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx], 5
-	pinsrb	xmm6, byte ptr [rdx + r12], 6
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r8], 7
-	mov	qword ptr [rsp + 72], r11       # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r11], 8
-	mov	r11, r9
-	mov	qword ptr [rsp + 96], r9        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r9], 9
-	mov	r9, r10
-	pinsrb	xmm6, byte ptr [rdx + r10], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10], 11
-	pinsrb	xmm6, byte ptr [rdx + rsi], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r13], 14
-	pinsrb	xmm6, byte ptr [rdx + rdi], 15
-	pmaxub	xmm6, xmm8
-	pcmpeqb	xmm6, xmm8
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 1], 1
-	pinsrb	xmm15, byte ptr [rdx + r14 + 1], 2
-	pinsrb	xmm15, byte ptr [rdx + rbx + 1], 3
-	pinsrb	xmm15, byte ptr [rdx + r15 + 1], 4
-	mov	rbx, r15
-	pinsrb	xmm15, byte ptr [rdx + rcx + 1], 5
-	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 6
-	mov	r15, r12
-	pinsrb	xmm15, byte ptr [rdx + r8 + 1], 7
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13 + 1], 8
-	pinsrb	xmm15, byte ptr [rdx + r11 + 1], 9
-	pinsrb	xmm15, byte ptr [rdx + r9 + 1], 10
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r10 + 1], 11
-	mov	rcx, r10
-	pinsrb	xmm15, byte ptr [rdx + rsi + 1], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 1], 14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 1], 15
-	pmaxub	xmm15, xmm8
-	pcmpeqb	xmm15, xmm8
-	movdqa	xmm1, xmmword ptr [rip + .LCPI11_16] # xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pand	xmm15, xmm1
-	psubb	xmm15, xmm6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	movd	xmm1, esi
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 1
-	mov	r8, r14
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 2
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 3
-	mov	r10, rbx
-	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 4
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 5
-	mov	rbx, r15
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 6
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 2], 7
-	mov	r11, r13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 8
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 9
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 10
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 11
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
-	mov	r13, r12
-	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 13
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 14
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 15
-	pinsrb	xmm4, byte ptr [rdx + rdi + 3], 1
-	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 2
-	pinsrb	xmm4, byte ptr [rdx + r14 + 3], 3
-	pinsrb	xmm4, byte ptr [rdx + r10 + 3], 4
-	pinsrb	xmm4, byte ptr [rdx + rax + 3], 5
-	pinsrb	xmm4, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm4, byte ptr [rdx + rsi + 3], 7
-	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 8
-	pinsrb	xmm4, byte ptr [rdx + r15 + 3], 9
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 11
-	pinsrb	xmm4, byte ptr [rdx + rcx + 3], 12
-	pinsrb	xmm4, byte ptr [rdx + r13 + 3], 13
-	pinsrb	xmm4, byte ptr [rdx + r9 + 3], 14
-	pinsrb	xmm4, byte ptr [rdx + r12 + 3], 15
-	pmaxub	xmm5, xmm8
-	pcmpeqb	xmm5, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_17] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm5, xmm6
-	pmaxub	xmm4, xmm8
-	pcmpeqb	xmm4, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_18] # xmm6 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm4, xmm6
-	por	xmm4, xmm5
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 17]
-	movd	xmm5, esi
-	por	xmm4, xmm15
-	movzx	esi, byte ptr [rdx + rcx + 18]
-	movd	xmm15, esi
-	mov	r14, rdi
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 1
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 2
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 3
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 4
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 5
-	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 7
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 8
-	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 9
-	mov	rsi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 10
-	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 15
-	pinsrb	xmm7, byte ptr [rdx + r14 + 5], 1
-	pinsrb	xmm7, byte ptr [rdx + r13 + 5], 2
-	pinsrb	xmm7, byte ptr [rdx + r12 + 5], 3
-	pinsrb	xmm7, byte ptr [rdx + r10 + 5], 4
-	pinsrb	xmm7, byte ptr [rdx + rax + 5], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 5], 6
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 7
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 8
-	pinsrb	xmm7, byte ptr [rdx + r15 + 5], 9
-	pinsrb	xmm7, byte ptr [rdx + rsi + 5], 10
-	pinsrb	xmm7, byte ptr [rdx + r8 + 5], 11
-	pinsrb	xmm7, byte ptr [rdx + r9 + 5], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 13
-	pinsrb	xmm7, byte ptr [rdx + rdi + 5], 14
-	pinsrb	xmm7, byte ptr [rdx + r11 + 5], 15
-	pinsrb	xmm2, byte ptr [rdx + r14 + 6], 1
-	pinsrb	xmm2, byte ptr [rdx + r13 + 6], 2
-	pinsrb	xmm2, byte ptr [rdx + r12 + 6], 3
-	pinsrb	xmm2, byte ptr [rdx + r10 + 6], 4
-	pinsrb	xmm2, byte ptr [rdx + rax + 6], 5
-	mov	r10, rax
-	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 6
-	mov	r13, rbx
-	mov	qword ptr [rsp + 160], rbx      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 6], 7
-	mov	r14, rax
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 8
-	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 9
-	mov	r11, r15
-	pinsrb	xmm2, byte ptr [rdx + rsi + 6], 10
-	pinsrb	xmm2, byte ptr [rdx + r8 + 6], 11
-	mov	r12, r8
-	pinsrb	xmm2, byte ptr [rdx + r9 + 6], 12
-	pinsrb	xmm2, byte ptr [rdx + rcx + 6], 13
-	pinsrb	xmm2, byte ptr [rdx + rdi + 6], 14
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 15
-	pmaxub	xmm3, xmm8
-	pcmpeqb	xmm3, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_19] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm3, xmm6
-	pmaxub	xmm7, xmm8
-	pcmpeqb	xmm7, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_20] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm7, xmm6
-	por	xmm7, xmm3
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 19]
-	movd	xmm3, esi
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm2, xmm6
-	por	xmm2, xmm7
-	movzx	esi, byte ptr [rdx + rax + 20]
-	movd	xmm6, esi
-	por	xmm2, xmm4
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm4, esi
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rdi + 7], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 7], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 7], 3
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r8 + 7], 4
-	pinsrb	xmm9, byte ptr [rdx + r10 + 7], 5
-	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm9, byte ptr [rdx + rbx + 7], 8
-	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 9
-	mov	rcx, r11
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 10
-	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 11
-	pinsrb	xmm9, byte ptr [rdx + r9 + 7], 12
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 14
-	pinsrb	xmm9, byte ptr [rdx + r15 + 7], 15
-	pmaxub	xmm9, xmm8
-	pcmpeqb	xmm9, xmm8
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm7
-	por	xmm9, xmm2
-	movdqa	xmmword ptr [rsp + 208], xmm9   # 16-byte Spill
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 22]
-	movd	xmm7, esi
-	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 1
-	mov	r14, rdi
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 8], 3
-	mov	r15, rax
-	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 4
-	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 8], 6
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 11
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 12
-	mov	rsi, r13
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 14
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 15
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 1
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 2
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 3
-	mov	r14, r15
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 4
-	mov	r15, r8
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 5
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 6
-	mov	r8, rax
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 10
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 11
-	mov	rcx, r11
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 15
-	pmaxub	xmm10, xmm8
-	pcmpeqb	xmm10, xmm8
-	pand	xmm10, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm10, xmm2
-	movzx	esi, byte ptr [rdx + r9 + 23]
-	movd	xmm2, esi
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 1
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 2
-	mov	r10, rdi
-	mov	rsi, r14
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 4
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 5
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 6
-	mov	rbx, r8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 7
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 9
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 11
-	mov	r9, rcx
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 14
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 15
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 1
-	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 3
-	mov	r10, rsi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 4
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 5
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 6
-	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 7
-	mov	r14, r15
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 8
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 11
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 12
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 15
-	pmaxub	xmm12, xmm8
-	pcmpeqb	xmm12, xmm8
-	pand	xmm12, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm11, xmm8
-	pcmpeqb	xmm11, xmm8
-	pand	xmm11, xmmword ptr [rip + .LCPI11_18]
-	por	xmm11, xmm12
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 24]
-	movd	xmm9, esi
-	por	xmm11, xmm10
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm12, esi
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 1
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
-	mov	r11, r10
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 5
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 9
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 14
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 13], 2
-	pinsrb	xmm0, byte ptr [rdx + r11 + 13], 3
-	pinsrb	xmm0, byte ptr [rdx + rdi + 13], 4
-	pinsrb	xmm0, byte ptr [rdx + r15 + 13], 5
-	pinsrb	xmm0, byte ptr [rdx + r10 + 13], 6
-	pinsrb	xmm0, byte ptr [rdx + r14 + 13], 7
-	pinsrb	xmm0, byte ptr [rdx + r13 + 13], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 13], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 13], 10
-	pinsrb	xmm0, byte ptr [rdx + r8 + 13], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 13], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 14
-	pinsrb	xmm0, byte ptr [rdx + rsi + 13], 15
-	mov	rax, rsi
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 14], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 14], 2
-	pinsrb	xmm14, byte ptr [rdx + r11 + 14], 3
-	pinsrb	xmm14, byte ptr [rdx + rdi + 14], 4
-	pinsrb	xmm14, byte ptr [rdx + r15 + 14], 5
-	pinsrb	xmm14, byte ptr [rdx + r10 + 14], 6
-	pinsrb	xmm14, byte ptr [rdx + r14 + 14], 7
-	mov	r15, r14
-	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 8
-	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 9
-	mov	r14, rcx
-	pinsrb	xmm14, byte ptr [rdx + rbx + 14], 10
-	pinsrb	xmm14, byte ptr [rdx + r8 + 14], 11
-	pinsrb	xmm14, byte ptr [rdx + r9 + 14], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 14
-	pinsrb	xmm14, byte ptr [rdx + rax + 14], 15
-	pmaxub	xmm13, xmm8
-	pcmpeqb	xmm13, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI11_19]
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmmword ptr [rip + .LCPI11_20]
-	por	xmm0, xmm13
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 26]
-	movd	xmm13, esi
-	pmaxub	xmm14, xmm8
-	pcmpeqb	xmm14, xmm8
-	pand	xmm14, xmmword ptr [rip + .LCPI11_21]
-	por	xmm14, xmm0
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm10, esi
-	por	xmm14, xmm11
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm11, esi
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 1
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 3
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 4
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 6
-	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 7
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 8
-	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 11
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 13
-	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 15
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmmword ptr [rip + .LCPI11_6]
-	por	xmm0, xmm14
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm14, esi
-	pinsrb	xmm1, byte ptr [rdx + rcx + 16], 1
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	r12, rsi
-	pinsrb	xmm1, byte ptr [rdx + rdi + 16], 3
-	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 4
-	pinsrb	xmm1, byte ptr [rdx + r10 + 16], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 6
-	pinsrb	xmm1, byte ptr [rdx + r15 + 16], 7
-	pinsrb	xmm1, byte ptr [rdx + rax + 16], 8
-	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 16], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm1, byte ptr [rdx + r8 + 16], 12
-	mov	r10, r8
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 16], 13
-	pinsrb	xmm1, byte ptr [rdx + r13 + 16], 14
-	mov	rsi, r11
-	pinsrb	xmm1, byte ptr [rdx + r11 + 16], 15
-	pmaxub	xmm1, xmm8
-	pcmpeqb	xmm1, xmm8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 1
-	pinsrb	xmm5, byte ptr [rdx + r12 + 17], 2
-	mov	r11, r12
-	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 4
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm5, byte ptr [rdx + r9 + 17], 6
-	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 7
-	mov	r9, r15
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 8
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 17], 10
-	mov	r8, r14
-	pinsrb	xmm5, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm5, byte ptr [rdx + r10 + 17], 12
-	mov	r12, r10
-	pinsrb	xmm5, byte ptr [rdx + rax + 17], 13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 17], 14
-	pinsrb	xmm5, byte ptr [rdx + rsi + 17], 15
-	pmaxub	xmm5, xmm8
-	pcmpeqb	xmm5, xmm8
-	pand	xmm5, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm5, xmm1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 1
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 1
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 1
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 1
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 1
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 1
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 1
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 1
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 1
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 1
-	movzx	eax, byte ptr [rdx + rax + 31]
-	movd	xmm0, eax
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 1
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 4
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 5
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 6
-	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 7
-	mov	rsi, rcx
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
-	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 10
-	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 11
-	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 18], 13
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 14
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 15
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 19], 2
-	pinsrb	xmm3, byte ptr [rdx + r11 + 19], 3
-	pinsrb	xmm3, byte ptr [rdx + rdi + 19], 4
-	pinsrb	xmm3, byte ptr [rdx + r14 + 19], 5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 19], 6
-	mov	r13, r10
-	pinsrb	xmm3, byte ptr [rdx + r9 + 19], 7
-	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 8
-	mov	r10, rsi
-	pinsrb	xmm3, byte ptr [rdx + r15 + 19], 9
-	pinsrb	xmm3, byte ptr [rdx + rcx + 19], 10
-	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 11
-	mov	rcx, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 19], 12
-	pinsrb	xmm3, byte ptr [rdx + rax + 19], 13
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 19], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 2
-	pmaxub	xmm15, xmm8
-	pcmpeqb	xmm15, xmm8
-	pand	xmm15, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm3, xmm8
-	pcmpeqb	xmm3, xmm8
-	pand	xmm3, xmmword ptr [rip + .LCPI11_18]
-	por	xmm3, xmm15
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	por	xmm3, xmm5
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 4
-	mov	r9, r14
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 6
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 14
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 15
-	pinsrb	xmm4, byte ptr [rdx + r11 + 21], 3
-	pinsrb	xmm4, byte ptr [rdx + rdi + 21], 4
-	pinsrb	xmm4, byte ptr [rdx + r9 + 21], 5
-	pinsrb	xmm4, byte ptr [rdx + r13 + 21], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 21], 7
-	pinsrb	xmm4, byte ptr [rdx + r10 + 21], 8
-	pinsrb	xmm4, byte ptr [rdx + r15 + 21], 9
-	pinsrb	xmm4, byte ptr [rdx + rax + 21], 10
-	pinsrb	xmm4, byte ptr [rdx + rbx + 21], 11
-	pinsrb	xmm4, byte ptr [rdx + rcx + 21], 12
-	pinsrb	xmm4, byte ptr [rdx + r12 + 21], 13
-	pinsrb	xmm4, byte ptr [rdx + r8 + 21], 14
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 15
-	pinsrb	xmm7, byte ptr [rdx + r11 + 22], 3
-	pinsrb	xmm7, byte ptr [rdx + rdi + 22], 4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 22], 5
-	pinsrb	xmm7, byte ptr [rdx + r13 + 22], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 22], 7
-	pinsrb	xmm7, byte ptr [rdx + r10 + 22], 8
-	pinsrb	xmm7, byte ptr [rdx + r15 + 22], 9
-	pinsrb	xmm7, byte ptr [rdx + rax + 22], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 22], 11
-	pinsrb	xmm7, byte ptr [rdx + rcx + 22], 12
-	pinsrb	xmm7, byte ptr [rdx + r12 + 22], 13
-	pinsrb	xmm7, byte ptr [rdx + r8 + 22], 14
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 15
-	pmaxub	xmm6, xmm8
-	pcmpeqb	xmm6, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_19] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm6, xmm5
-	pmaxub	xmm4, xmm8
-	pcmpeqb	xmm4, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI11_20] # xmm15 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm4, xmm15
-	por	xmm4, xmm6
-	pmaxub	xmm7, xmm8
-	pcmpeqb	xmm7, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm7, xmm6
-	por	xmm7, xmm4
-	por	xmm7, xmm3
-	pinsrb	xmm2, byte ptr [rdx + r11 + 23], 3
-	pinsrb	xmm2, byte ptr [rdx + rdi + 23], 4
-	pinsrb	xmm2, byte ptr [rdx + r9 + 23], 5
-	pinsrb	xmm2, byte ptr [rdx + r13 + 23], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 23], 7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 23], 8
-	pinsrb	xmm2, byte ptr [rdx + r15 + 23], 9
-	pinsrb	xmm2, byte ptr [rdx + rax + 23], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 23], 11
-	pinsrb	xmm2, byte ptr [rdx + rcx + 23], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 23], 13
-	pinsrb	xmm2, byte ptr [rdx + r8 + 23], 14
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 15
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	movdqa	xmm3, xmmword ptr [rip + .LCPI11_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm3
-	por	xmm2, xmm7
-	pinsrb	xmm9, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm9, byte ptr [rdx + rdi + 24], 4
-	pinsrb	xmm9, byte ptr [rdx + r9 + 24], 5
-	pinsrb	xmm9, byte ptr [rdx + r13 + 24], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 24], 7
-	pinsrb	xmm9, byte ptr [rdx + r10 + 24], 8
-	pinsrb	xmm9, byte ptr [rdx + r15 + 24], 9
-	pinsrb	xmm9, byte ptr [rdx + rax + 24], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 24], 11
-	pinsrb	xmm9, byte ptr [rdx + rcx + 24], 12
-	pinsrb	xmm9, byte ptr [rdx + r12 + 24], 13
-	pinsrb	xmm9, byte ptr [rdx + r8 + 24], 14
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 15
-	pmaxub	xmm9, xmm8
-	pcmpeqb	xmm9, xmm8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 25], 3
-	pinsrb	xmm12, byte ptr [rdx + rdi + 25], 4
-	pinsrb	xmm12, byte ptr [rdx + r9 + 25], 5
-	pinsrb	xmm12, byte ptr [rdx + r13 + 25], 6
-	pinsrb	xmm12, byte ptr [rdx + r14 + 25], 7
-	pinsrb	xmm12, byte ptr [rdx + r10 + 25], 8
-	pinsrb	xmm12, byte ptr [rdx + r15 + 25], 9
-	pinsrb	xmm12, byte ptr [rdx + rax + 25], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 25], 11
-	pinsrb	xmm12, byte ptr [rdx + rcx + 25], 12
-	pinsrb	xmm12, byte ptr [rdx + r12 + 25], 13
-	pinsrb	xmm12, byte ptr [rdx + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 15
-	pmaxub	xmm12, xmm8
-	pcmpeqb	xmm12, xmm8
-	pand	xmm12, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm12, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r11 + 26], 3
-	pinsrb	xmm13, byte ptr [rdx + rdi + 26], 4
-	pinsrb	xmm13, byte ptr [rdx + r9 + 26], 5
-	pinsrb	xmm13, byte ptr [rdx + r13 + 26], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 26], 7
-	pinsrb	xmm13, byte ptr [rdx + r10 + 26], 8
-	pinsrb	xmm13, byte ptr [rdx + r15 + 26], 9
-	pinsrb	xmm13, byte ptr [rdx + rax + 26], 10
-	pinsrb	xmm13, byte ptr [rdx + rbx + 26], 11
-	pinsrb	xmm13, byte ptr [rdx + rcx + 26], 12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 26], 13
-	pinsrb	xmm13, byte ptr [rdx + r8 + 26], 14
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 15
-	pinsrb	xmm10, byte ptr [rdx + r11 + 27], 3
-	pinsrb	xmm10, byte ptr [rdx + rdi + 27], 4
-	pinsrb	xmm10, byte ptr [rdx + r9 + 27], 5
-	pinsrb	xmm10, byte ptr [rdx + r13 + 27], 6
-	pinsrb	xmm10, byte ptr [rdx + r14 + 27], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 27], 8
-	pinsrb	xmm10, byte ptr [rdx + r15 + 27], 9
-	pinsrb	xmm10, byte ptr [rdx + rax + 27], 10
-	pinsrb	xmm10, byte ptr [rdx + rbx + 27], 11
-	pinsrb	xmm10, byte ptr [rdx + rcx + 27], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 27], 13
-	pinsrb	xmm10, byte ptr [rdx + r8 + 27], 14
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 15
-	pmaxub	xmm13, xmm8
-	pcmpeqb	xmm13, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm10, xmm8
-	pcmpeqb	xmm10, xmm8
-	pand	xmm10, xmmword ptr [rip + .LCPI11_18]
-	por	xmm10, xmm13
-	por	xmm10, xmm12
-	pinsrb	xmm11, byte ptr [rdx + r11 + 28], 3
-	pinsrb	xmm14, byte ptr [rdx + r11 + 29], 3
-	pinsrb	xmm1, byte ptr [rdx + r11 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 3
-	pinsrb	xmm11, byte ptr [rdx + rdi + 28], 4
-	pinsrb	xmm14, byte ptr [rdx + rdi + 29], 4
-	pinsrb	xmm1, byte ptr [rdx + rdi + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 4
-	pinsrb	xmm11, byte ptr [rdx + r9 + 28], 5
-	pinsrb	xmm14, byte ptr [rdx + r9 + 29], 5
-	pinsrb	xmm1, byte ptr [rdx + r9 + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 5
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r13 + 28], 6
-	pinsrb	xmm14, byte ptr [rdx + r13 + 29], 6
-	pinsrb	xmm1, byte ptr [rdx + r13 + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 6
-	mov	rax, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 28], 7
-	pinsrb	xmm14, byte ptr [rdx + r14 + 29], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 7
-	pinsrb	xmm11, byte ptr [rdx + r10 + 28], 8
-	pinsrb	xmm14, byte ptr [rdx + r10 + 29], 8
-	pinsrb	xmm1, byte ptr [rdx + r10 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 28], 9
-	pinsrb	xmm14, byte ptr [rdx + rax + 29], 9
-	pinsrb	xmm1, byte ptr [rdx + rax + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 28], 10
-	pinsrb	xmm14, byte ptr [rdx + rax + 29], 10
-	pinsrb	xmm1, byte ptr [rdx + rax + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 10
-	mov	rax, rbx
-	pinsrb	xmm11, byte ptr [rdx + rbx + 28], 11
-	pinsrb	xmm14, byte ptr [rdx + rbx + 29], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 11
-	pinsrb	xmm11, byte ptr [rdx + rcx + 28], 12
-	pinsrb	xmm14, byte ptr [rdx + rcx + 29], 12
-	pinsrb	xmm1, byte ptr [rdx + rcx + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 12
-	mov	rax, r12
-	pinsrb	xmm11, byte ptr [rdx + r12 + 28], 13
-	pinsrb	xmm14, byte ptr [rdx + r12 + 29], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 13
-	mov	rax, r8
-	pinsrb	xmm11, byte ptr [rdx + r8 + 28], 14
-	pinsrb	xmm14, byte ptr [rdx + r8 + 29], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 14
-	mov	rax, rsi
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 15
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 15
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 15
-	pmaxub	xmm11, xmm8
-	pcmpeqb	xmm11, xmm8
-	pand	xmm11, xmm5
-	pmaxub	xmm14, xmm8
-	pcmpeqb	xmm14, xmm8
-	pand	xmm14, xmm15
-	por	xmm14, xmm11
-	pmaxub	xmm1, xmm8
-	pcmpeqb	xmm1, xmm8
-	pand	xmm1, xmm6
-	por	xmm1, xmm14
-	por	xmm1, xmm10
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmm3
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm2
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm5, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
-	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
-	punpckhbw	xmm2, xmm0              # xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm0, xmm5
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpckhwd	xmm5, xmm2              # xmm5 = xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	jne	.LBB11_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB11_69
-	jmp	.LBB11_72
-.LBB11_124:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r10       # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r14d, r14d
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB11_125:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r14       # 8-byte Spill
-	shl	r14, 6
-	mov	rdi, r14
-	mov	r15, r14
-	mov	r12, r14
-	mov	r13, r14
-	mov	rbx, r14
-	mov	r9, r14
-	movzx	eax, word ptr [rdx + r14]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r14 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rdx + r14 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r14 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rdx + r14 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rdx + r14 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rdx + r14 + 12]
-	movzx	esi, word ptr [rdx + r14 + 14]
-	movzx	ecx, word ptr [rdx + r14 + 16]
-	mov	dword ptr [rsp + 24], ecx       # 4-byte Spill
-	movzx	r10d, word ptr [rdx + r14 + 18]
-	movzx	r11d, word ptr [rdx + r14 + 20]
-	mov	rcx, r14
-	or	rcx, 64
-	or	rdi, 128
-	or	r15, 192
-	or	r12, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [rdx + rcx], 1
-	pinsrw	xmm5, word ptr [rdx + rdi], 2
-	pinsrw	xmm5, word ptr [rdx + r15], 3
-	pinsrw	xmm5, word ptr [rdx + r12], 4
-	pinsrw	xmm5, word ptr [rdx + r13], 5
-	pinsrw	xmm5, word ptr [rdx + rbx], 6
-	pinsrw	xmm0, word ptr [rdx + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rdx + rdi + 2], 2
-	pinsrw	xmm0, word ptr [rdx + r15 + 2], 3
-	pinsrw	xmm0, word ptr [rdx + r12 + 2], 4
-	pinsrw	xmm0, word ptr [rdx + r13 + 2], 5
-	pinsrw	xmm0, word ptr [rdx + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rdx + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r14 + 22]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pcmpgtw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rdx + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 4], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 4], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 4], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 4], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 4], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpgtw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, esi
-	movzx	r8d, word ptr [rdx + r14 + 24]
-	pinsrw	xmm5, word ptr [rdx + r9], 7
-	pcmpgtw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rdx + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 6], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 6], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 6], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 6], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 6], 6
-	pinsrw	xmm7, word ptr [rdx + r9 + 6], 7
-	pcmpgtw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rdx + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rdx + rdi + 8], 2
-	pinsrw	xmm8, word ptr [rdx + r15 + 8], 3
-	pinsrw	xmm8, word ptr [rdx + r12 + 8], 4
-	pinsrw	xmm8, word ptr [rdx + r13 + 8], 5
-	pinsrw	xmm8, word ptr [rdx + rbx + 8], 6
-	pinsrw	xmm8, word ptr [rdx + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r14 + 26]
-	pcmpgtw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rdx + r14 + 28]
-	pinsrw	xmm4, word ptr [rdx + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 10], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 10], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 10], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 10], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 10], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 10], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rdx + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 12], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 12], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 12], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 12], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	esi, word ptr [rdx + r14 + 30]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r9 + 12], 7
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r14 + 32]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 14], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 14], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 14], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 14], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r8d
-	movzx	esi, word ptr [rdx + r14 + 34]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + r9 + 14], 7
-	pcmpgtw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rdx + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rdx + rdi + 18], 2
-	pinsrw	xmm6, word ptr [rdx + r15 + 18], 3
-	pinsrw	xmm6, word ptr [rdx + r12 + 18], 4
-	pinsrw	xmm6, word ptr [rdx + r13 + 18], 5
-	pinsrw	xmm6, word ptr [rdx + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rdx + r9 + 18], 7
-	pcmpgtw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r11d, word ptr [rdx + r14 + 36]
-	pinsrw	xmm7, word ptr [rdx + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 16], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 16], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 16], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 16], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 16], 6
-	pinsrw	xmm4, word ptr [rdx + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 20], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 20], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 20], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 20], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 20], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 20], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r10d
-	movzx	esi, word ptr [rdx + r14 + 38]
-	pinsrw	xmm7, word ptr [rdx + r9 + 16], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rdx + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 22], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 22], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 22], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 22], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 22], 6
-	pinsrw	xmm3, word ptr [rdx + r9 + 22], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rdx + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 24], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 24], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 24], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 24], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 24], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r14 + 40]
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r14 + 42]
-	pinsrw	xmm1, word ptr [rdx + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 26], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 26], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 26], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 26], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 26], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 26], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rdx + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 28], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 28], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 28], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 28], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [rdx + r14 + 44]
-	pinsrw	xmm4, word ptr [rdx + r9 + 28], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rdx + r14 + 46]
-	pinsrw	xmm3, word ptr [rdx + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 30], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 30], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 30], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 30], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r14 + 48]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	pinsrw	xmm3, word ptr [rdx + r9 + 30], 7
-	pcmpgtw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rdx + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 34], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 34], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 34], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 34], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rdx + r9 + 34], 7
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI11_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	esi, word ptr [rdx + r14 + 50]
-	pinsrw	xmm7, word ptr [rdx + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 32], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 32], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 32], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 32], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 32], 6
-	pinsrw	xmm4, word ptr [rdx + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 36], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 36], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 36], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 36], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 36], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 36], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [rdx + r14 + 52]
-	pinsrw	xmm7, word ptr [rdx + r9 + 32], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rdx + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 38], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 38], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 38], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 38], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 38], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 38], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rdx + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 40], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 40], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 40], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 40], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 40], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, r8d
-	movzx	r8d, word ptr [rdx + r14 + 54]
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [rdx + r14 + 56]
-	pinsrw	xmm3, word ptr [rdx + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 42], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 42], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 42], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 42], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 42], 6
-	pinsrw	xmm3, word ptr [rdx + r9 + 42], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rdx + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 44], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 44], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 44], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 44], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r14 + 58]
-	pinsrw	xmm1, word ptr [rdx + r9 + 44], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r14 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [rdx + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 46], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 46], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 46], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 46], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 46], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 46], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rdx + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 48], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 48], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 48], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 48], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 48], 6
-	pinsrw	xmm7, word ptr [rdx + r9 + 48], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	pinsrw	xmm2, word ptr [rdx + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 52], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 52], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 52], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 52], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rdx + r9 + 52], 7
-	pcmpgtw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rdx + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 54], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 54], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 54], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 54], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rdx + r9 + 54], 7
-	pcmpgtw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rdx + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 56], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 56], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 56], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 56], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rdx + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpgtw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rdx + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 58], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 58], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 58], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 58], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 58], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpgtw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, esi
-	pinsrw	xmm3, word ptr [rdx + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 60], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 60], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 60], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 60], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rdx + r9 + 60], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rdx + r14 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rdx + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rdx + rdi + 62], 2
-	pinsrw	xmm0, word ptr [rdx + r15 + 62], 3
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rdx + r12 + 62], 4
-	pinsrw	xmm0, word ptr [rdx + r13 + 62], 5
-	pinsrw	xmm0, word ptr [rdx + rbx + 62], 6
-	pinsrw	xmm0, word ptr [rdx + r9 + 62], 7
-	pcmpgtw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI11_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r14, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB11_125
-# %bb.126:
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp]           # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB11_127
-	jmp	.LBB11_130
-.LBB11_182:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	lea	r14, [r15 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI11_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI11_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI11_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB11_183:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpleps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpleps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB11_183
-# %bb.184:
-	cmp	r10, r8
-	jne	.LBB11_185
-	jmp	.LBB11_188
-.Lfunc_end11:
-	.size	comparison_greater_equal_scalar_arr_sse4, .Lfunc_end11-comparison_greater_equal_scalar_arr_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
deleted file mode 100644
index 4a8d637d9727a..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/types.h
+++ /dev/null
@@ -1,708 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#pragma once
-
-// corresponds to datatype.go's arrow.Type
-enum class arrtype : int {
-    NULL,
-    BOOL,
-    UINT8,
-    INT8,
-    UINT16,
-    INT16,
-    UINT32,
-    INT32,
-    UINT64,
-    INT64,
-    FLOAT16,
-    FLOAT32,
-    FLOAT64
-};
-
-
-#define _LIBCPP_TEMPLATE_VIS
-#define _LIBCPP_CONSTEXPR constexpr
-#define _LIBCPP_INLINE_VISIBILITY
-#define _LIBCPP_STD_VER 17
-#define _LIBCPP_NODEBUG
-#define _LIBCPP_HAS_NO_CHAR8_T
-#define _NOEXCEPT noexcept
-#define _NOEXCEPT_(x) noexcept(x)
-#define _LIBCPP_HIDE_FROM_ABI
-
-using size_t = uint64_t;
-
-// copied from libcxx/include/__type_traits/integral_constant.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, _Tp __v>
-struct _LIBCPP_TEMPLATE_VIS integral_constant
-{
-  static _LIBCPP_CONSTEXPR const _Tp      value = __v;
-  typedef _Tp               value_type;
-  typedef integral_constant type;
-  _LIBCPP_INLINE_VISIBILITY
-  _LIBCPP_CONSTEXPR operator value_type() const _NOEXCEPT {return value;}
-#if _LIBCPP_STD_VER > 11
-  _LIBCPP_INLINE_VISIBILITY
-  constexpr value_type operator ()() const _NOEXCEPT {return value;}
-#endif
-};
-
-template <class _Tp, _Tp __v>
-_LIBCPP_CONSTEXPR const _Tp integral_constant<_Tp, __v>::value;
-
-typedef integral_constant<bool, true>  true_type;
-typedef integral_constant<bool, false> false_type;
-
-template <bool _Val>
-using _BoolConstant _LIBCPP_NODEBUG = integral_constant<bool, _Val>;
-
-#if _LIBCPP_STD_VER > 14
-template <bool __b>
-using bool_constant = integral_constant<bool, __b>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_const.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_const)
-template <class _Tp>
-struct remove_const {
-  using type _LIBCPP_NODEBUG = __remove_const(_Tp);
-};
-
-template <class _Tp>
-using __remove_const_t = __remove_const(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const            {typedef _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const<const _Tp> {typedef _Tp type;};
-
-template <class _Tp>
-using __remove_const_t = typename remove_const<_Tp>::type;
-#endif // __has_builtin(__remove_const)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_const_t = __remove_const_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_volatile.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_volatile)
-template <class _Tp>
-struct remove_volatile {
-  using type _LIBCPP_NODEBUG = __remove_volatile(_Tp);
-};
-
-template <class _Tp>
-using __remove_volatile_t = __remove_volatile(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile               {typedef _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile<volatile _Tp> {typedef _Tp type;};
-
-template <class _Tp>
-using __remove_volatile_t = typename remove_volatile<_Tp>::type;
-#endif // __has_builtin(__remove_volatile)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_volatile_t = __remove_volatile_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_cv)
-template <class _Tp>
-struct remove_cv {
-  using type _LIBCPP_NODEBUG = __remove_cv(_Tp);
-};
-
-template <class _Tp>
-using __remove_cv_t = __remove_cv(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_cv
-{typedef __remove_volatile_t<__remove_const_t<_Tp> > type;};
-
-template <class _Tp>
-using __remove_cv_t = __remove_volatile_t<__remove_const_t<_Tp> >;
-#endif // __has_builtin(__remove_cv)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_cv_t = __remove_cv_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/is_floating_point.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct __libcpp_is_floating_point              : public false_type {};
-template <>          struct __libcpp_is_floating_point<float>       : public true_type {};
-template <>          struct __libcpp_is_floating_point<double>      : public true_type {};
-template <>          struct __libcpp_is_floating_point<long double> : public true_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_floating_point
-    : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
-#endif
-
-// copied from libcxx/include/__type_traits/is_integral.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct __libcpp_is_integral                     { enum { value = 0 }; };
-template <>          struct __libcpp_is_integral<bool>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<char>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<signed char>        { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned char>      { enum { value = 1 }; };
-#ifndef _LIBCPP_HAS_NO_WIDE_CHARACTERS
-template <>          struct __libcpp_is_integral<wchar_t>            { enum { value = 1 }; };
-#endif
-#ifndef _LIBCPP_HAS_NO_CHAR8_T
-template <>          struct __libcpp_is_integral<char8_t>            { enum { value = 1 }; };
-#endif
-template <>          struct __libcpp_is_integral<char16_t>           { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<char32_t>           { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<short>              { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned short>     { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<int>                { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned int>       { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<long>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned long>      { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<long long>          { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned long long> { enum { value = 1 }; };
-#ifndef _LIBCPP_HAS_NO_INT128
-template <>          struct __libcpp_is_integral<__int128_t>         { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<__uint128_t>        { enum { value = 1 }; };
-#endif
-
-#if __has_builtin(__is_integral)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_integral : _BoolConstant<__is_integral(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_integral_v = __is_integral(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_integral
-    : public _BoolConstant<__libcpp_is_integral<__remove_cv_t<_Tp> >::value> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_integral_v = is_integral<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_integral)
-
-// copied from libcxx/include/__type_traits/is_arithmetic.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_arithmetic
-    : public integral_constant<bool, is_integral<_Tp>::value      ||
-                                     is_floating_point<_Tp>::value> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
-#endif
-
-// copied from libcxx/include/__type_traits/is_signed.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_signed)
-
-template<class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_signed : _BoolConstant<__is_signed(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_signed_v = __is_signed(_Tp);
-#endif
-
-#else // __has_builtin(__is_signed)
-
-template <class _Tp, bool = is_integral<_Tp>::value>
-struct __libcpp_is_signed_impl : public _BoolConstant<(_Tp(-1) < _Tp(0))> {};
-
-template <class _Tp>
-struct __libcpp_is_signed_impl<_Tp, false> : public true_type {};  // floating point
-
-template <class _Tp, bool = is_arithmetic<_Tp>::value>
-struct __libcpp_is_signed : public __libcpp_is_signed_impl<_Tp> {};
-
-template <class _Tp> struct __libcpp_is_signed<_Tp, false> : public false_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_signed : public __libcpp_is_signed<_Tp> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_signed_v = is_signed<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_signed)
-
-
-// copied from libcxx/include/__type_traits/is_unsigned.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-// Before AppleClang 14, __is_unsigned returned true for enums with signed underlying type.
-#if __has_builtin(__is_unsigned) && !(defined(_LIBCPP_APPLE_CLANG_VER) && _LIBCPP_APPLE_CLANG_VER < 1400)
-
-template<class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
-#endif
-
-#else // __has_builtin(__is_unsigned)
-
-template <class _Tp, bool = is_integral<_Tp>::value>
-struct __libcpp_is_unsigned_impl : public _BoolConstant<(_Tp(0) < _Tp(-1))> {};
-
-template <class _Tp>
-struct __libcpp_is_unsigned_impl<_Tp, false> : public false_type {};  // floating point
-
-template <class _Tp, bool = is_arithmetic<_Tp>::value>
-struct __libcpp_is_unsigned : public __libcpp_is_unsigned_impl<_Tp> {};
-
-template <class _Tp> struct __libcpp_is_unsigned<_Tp, false> : public false_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_unsigned : public __libcpp_is_unsigned<_Tp> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_unsigned)
-
-// copied from libcxx/include/__type_traits/is_same.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_same : _BoolConstant<__is_same(_Tp, _Up)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp, class _Up>
-inline constexpr bool is_same_v = __is_same(_Tp, _Up);
-#endif
-
-// copied from libcxx/include/__type_traits/conditional.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <bool>
-struct _IfImpl;
-
-template <>
-struct _IfImpl<true> {
-  template <class _IfRes, class _ElseRes>
-  using _Select _LIBCPP_NODEBUG = _IfRes;
-};
-
-template <>
-struct _IfImpl<false> {
-  template <class _IfRes, class _ElseRes>
-  using _Select _LIBCPP_NODEBUG = _ElseRes;
-};
-
-template <bool _Cond, class _IfRes, class _ElseRes>
-using _If _LIBCPP_NODEBUG = typename _IfImpl<_Cond>::template _Select<_IfRes, _ElseRes>;
-
-template <bool _Bp, class _If, class _Then>
-    struct _LIBCPP_TEMPLATE_VIS conditional {typedef _If type;};
-template <class _If, class _Then>
-    struct _LIBCPP_TEMPLATE_VIS conditional<false, _If, _Then> {typedef _Then type;};
-
-#if _LIBCPP_STD_VER > 11
-template <bool _Bp, class _IfRes, class _ElseRes>
-using conditional_t = typename conditional<_Bp, _IfRes, _ElseRes>::type;
-#endif
-
-// Helper so we can use "conditional_t" in all language versions.
-template <bool _Bp, class _If, class _Then> using __conditional_t = typename conditional<_Bp, _If, _Then>::type;
-
-// copied from libcxx/include/__type_traits/is_const.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_const)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_const : _BoolConstant<__is_const(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_const_v = __is_const(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const            : public false_type {};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const<_Tp const> : public true_type {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_const_v = is_const<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_const)
-
-// copied from libcxx/include/__type_traits/is_volatile.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_volatile)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_volatile : _BoolConstant<__is_volatile(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_volatile_v = __is_volatile(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile               : public false_type {};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile<_Tp volatile> : public true_type {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_volatile_v = is_volatile<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_volatile)
-
-// copied from libcxx/include/__type_traits/remove_reference.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_reference_t)
-template <class _Tp>
-struct remove_reference {
-  using type _LIBCPP_NODEBUG = __remove_reference_t(_Tp);
-};
-
-template <class _Tp>
-using __libcpp_remove_reference_t = __remove_reference_t(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference        {typedef _LIBCPP_NODEBUG _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&>  {typedef _LIBCPP_NODEBUG _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&&> {typedef _LIBCPP_NODEBUG _Tp type;};
-
-template <class _Tp>
-using __libcpp_remove_reference_t = typename remove_reference<_Tp>::type;
-#endif // __has_builtin(__remove_reference_t)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_reference_t = __libcpp_remove_reference_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/apply_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, class _Up, bool = is_const<__libcpp_remove_reference_t<_Tp> >::value,
-                             bool = is_volatile<__libcpp_remove_reference_t<_Tp> >::value>
-struct __apply_cv
-{
-    typedef _LIBCPP_NODEBUG _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, true, false>
-{
-    typedef _LIBCPP_NODEBUG const _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, false, true>
-{
-    typedef volatile _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, true, true>
-{
-    typedef const volatile _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, false, false>
-{
-    typedef _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, true, false>
-{
-    typedef const _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, false, true>
-{
-    typedef volatile _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, true, true>
-{
-    typedef const volatile _Up& type;
-};
-
-// copied from libcxx/include/__type_traits/apply_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-struct __nat
-{
-#ifndef _LIBCPP_CXX03_LANG
-    __nat() = delete;
-    __nat(const __nat&) = delete;
-    __nat& operator=(const __nat&) = delete;
-    ~__nat() = delete;
-#endif
-};
-
-// copied from libcxx/include/__type_traits/type_list.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Hp, class _Tp>
-struct __type_list
-{
-    typedef _Hp _Head;
-    typedef _Tp _Tail;
-};
-
-template <class _TypeList, size_t _Size, bool = _Size <= sizeof(typename _TypeList::_Head)> struct __find_first;
-
-template <class _Hp, class _Tp, size_t _Size>
-struct __find_first<__type_list<_Hp, _Tp>, _Size, true>
-{
-    typedef _LIBCPP_NODEBUG _Hp type;
-};
-
-template <class _Hp, class _Tp, size_t _Size>
-struct __find_first<__type_list<_Hp, _Tp>, _Size, false>
-{
-    typedef _LIBCPP_NODEBUG typename __find_first<_Tp, _Size>::type type;
-};
-
-// copied from libcxx/include/__type_traits/is_enum.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_enum
-    : public integral_constant<bool, __is_enum(_Tp)> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_enum_v = __is_enum(_Tp);
-#endif
-
-// copied from libcxx/include/__type_traits/make_unsigned.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__make_unsigned)
-
-template <class _Tp>
-using __make_unsigned_t = __make_unsigned(_Tp);
-
-#else
-typedef
-    __type_list<unsigned char,
-    __type_list<unsigned short,
-    __type_list<unsigned int,
-    __type_list<unsigned long,
-    __type_list<unsigned long long,
-#  ifndef _LIBCPP_HAS_NO_INT128
-    __type_list<__uint128_t,
-#  endif
-    __nat
-#  ifndef _LIBCPP_HAS_NO_INT128
-    >
-#  endif
-    > > > > > __unsigned_types;
-
-template <class _Tp, bool = is_integral<_Tp>::value || is_enum<_Tp>::value>
-struct __make_unsigned {};
-
-template <class _Tp>
-struct __make_unsigned<_Tp, true>
-{
-    typedef typename __find_first<__unsigned_types, sizeof(_Tp)>::type type;
-};
-
-template <> struct __make_unsigned<bool,               true> {};
-template <> struct __make_unsigned<  signed short,     true> {typedef unsigned short     type;};
-template <> struct __make_unsigned<unsigned short,     true> {typedef unsigned short     type;};
-template <> struct __make_unsigned<  signed int,       true> {typedef unsigned int       type;};
-template <> struct __make_unsigned<unsigned int,       true> {typedef unsigned int       type;};
-template <> struct __make_unsigned<  signed long,      true> {typedef unsigned long      type;};
-template <> struct __make_unsigned<unsigned long,      true> {typedef unsigned long      type;};
-template <> struct __make_unsigned<  signed long long, true> {typedef unsigned long long type;};
-template <> struct __make_unsigned<unsigned long long, true> {typedef unsigned long long type;};
-#  ifndef _LIBCPP_HAS_NO_INT128
-template <> struct __make_unsigned<__int128_t,         true> {typedef __uint128_t        type;};
-template <> struct __make_unsigned<__uint128_t,        true> {typedef __uint128_t        type;};
-#  endif
-
-template <class _Tp>
-using __make_unsigned_t = typename __apply_cv<_Tp, typename __make_unsigned<__remove_cv_t<_Tp> >::type>::type;
-
-#endif // __has_builtin(__make_unsigned)
-
-template <class _Tp>
-struct make_unsigned {
-  using type _LIBCPP_NODEBUG = __make_unsigned_t<_Tp>;
-};
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using make_unsigned_t = __make_unsigned_t<_Tp>;
-#endif
-
-#ifndef _LIBCPP_CXX03_LANG
-template <class _Tp>
-_LIBCPP_HIDE_FROM_ABI constexpr
-__make_unsigned_t<_Tp> __to_unsigned_like(_Tp __x) noexcept {
-    return static_cast<__make_unsigned_t<_Tp> >(__x);
-}
-#endif
-
-template <class _Tp, class _Up>
-using __copy_unsigned_t = __conditional_t<is_unsigned<_Tp>::value, __make_unsigned_t<_Up>, _Up>;
diff --git a/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h b/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
deleted file mode 100644
index 7f6426ac76571..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
+++ /dev/null
@@ -1,1072 +0,0 @@
-/* Overflow-safe math functions
- * Portable Snippets - https://github.com/nemequ/portable-snippets
- * Created by Evan Nemerson <evan@nemerson.com>
- *
- *   To the extent possible under law, the authors have waived all
- *   copyright and related or neighboring rights to this code.  For
- *   details, see the Creative Commons Zero 1.0 Universal license at
- *   https://creativecommons.org/publicdomain/zero/1.0/
- */
-
-#if !defined(PSNIP_SAFE_H)
-#define PSNIP_SAFE_H
-
-#if !defined(PSNIP_SAFE_FORCE_PORTABLE)
-#  if defined(__has_builtin)
-#    if __has_builtin(__builtin_add_overflow) && !defined(__ibmxl__)
-#      define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
-#    endif
-#  elif defined(__GNUC__) && (__GNUC__ >= 5) && !defined(__INTEL_COMPILER)
-#    define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
-#  endif
-#  if defined(__has_include)
-#    if __has_include(<intsafe.h>)
-#      define PSNIP_SAFE_HAVE_INTSAFE_H
-#    endif
-#  elif defined(_WIN32)
-#    define PSNIP_SAFE_HAVE_INTSAFE_H
-#  endif
-#endif /* !defined(PSNIP_SAFE_FORCE_PORTABLE) */
-
-#if defined(__GNUC__)
-#  define PSNIP_SAFE_LIKELY(expr)   __builtin_expect(!!(expr), 1)
-#  define PSNIP_SAFE_UNLIKELY(expr) __builtin_expect(!!(expr), 0)
-#else
-#  define PSNIP_SAFE_LIKELY(expr) !!(expr)
-#  define PSNIP_SAFE_UNLIKELY(expr) !!(expr)
-#endif /* defined(__GNUC__) */
-
-#if !defined(PSNIP_SAFE_STATIC_INLINE)
-#  if defined(__GNUC__)
-#    define PSNIP_SAFE__COMPILER_ATTRIBUTES __attribute__((__unused__))
-#  else
-#    define PSNIP_SAFE__COMPILER_ATTRIBUTES
-#  endif
-
-#  if defined(HEDLEY_INLINE)
-#    define PSNIP_SAFE__INLINE HEDLEY_INLINE
-#  elif defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
-#    define PSNIP_SAFE__INLINE inline
-#  elif defined(__GNUC_STDC_INLINE__)
-#    define PSNIP_SAFE__INLINE __inline__
-#  elif defined(_MSC_VER) && _MSC_VER >= 1200
-#    define PSNIP_SAFE__INLINE __inline
-#  else
-#    define PSNIP_SAFE__INLINE
-#  endif
-
-#  define PSNIP_SAFE__FUNCTION PSNIP_SAFE__COMPILER_ATTRIBUTES static PSNIP_SAFE__INLINE
-#endif
-
-// !defined(__cplusplus) added for Solaris support
-#if !defined(__cplusplus) && defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
-#  define psnip_safe_bool _Bool
-#else
-#  define psnip_safe_bool int
-#endif
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-/* For maximum portability include the exact-int module from
-   portable snippets. */
-#  if \
-    !defined(psnip_int64_t) || !defined(psnip_uint64_t) || \
-    !defined(psnip_int32_t) || !defined(psnip_uint32_t) || \
-    !defined(psnip_int16_t) || !defined(psnip_uint16_t) || \
-    !defined(psnip_int8_t)  || !defined(psnip_uint8_t)
-#    include <stdint.h>
-#    if !defined(psnip_int64_t)
-#      define psnip_int64_t int64_t
-#    endif
-#    if !defined(psnip_uint64_t)
-#      define psnip_uint64_t uint64_t
-#    endif
-#    if !defined(psnip_int32_t)
-#      define psnip_int32_t int32_t
-#    endif
-#    if !defined(psnip_uint32_t)
-#      define psnip_uint32_t uint32_t
-#    endif
-#    if !defined(psnip_int16_t)
-#      define psnip_int16_t int16_t
-#    endif
-#    if !defined(psnip_uint16_t)
-#      define psnip_uint16_t uint16_t
-#    endif
-#    if !defined(psnip_int8_t)
-#      define psnip_int8_t int8_t
-#    endif
-#    if !defined(psnip_uint8_t)
-#      define psnip_uint8_t uint8_t
-#    endif
-#  endif
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-#include <limits.h>
-#include <stdlib.h>
-
-#if !defined(PSNIP_SAFE_SIZE_MAX)
-#  if defined(__SIZE_MAX__)
-#    define PSNIP_SAFE_SIZE_MAX __SIZE_MAX__
-#  elif defined(PSNIP_EXACT_INT_HAVE_STDINT)
-#    include <stdint.h>
-#  endif
-#endif
-
-#if defined(PSNIP_SAFE_SIZE_MAX)
-#  define PSNIP_SAFE__SIZE_MAX_RT PSNIP_SAFE_SIZE_MAX
-#else
-#  define PSNIP_SAFE__SIZE_MAX_RT (~((size_t) 0))
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-/* In VS 10, stdint.h and intsafe.h both define (U)INTN_MIN/MAX, which
-   triggers warning C4005 (level 1). */
-#  if defined(_MSC_VER) && (_MSC_VER == 1600)
-#    pragma warning(push)
-#    pragma warning(disable:4005)
-#  endif
-#  include <intsafe.h>
-#  if defined(_MSC_VER) && (_MSC_VER == 1600)
-#    pragma warning(pop)
-#  endif
-#endif /* defined(PSNIP_SAFE_HAVE_INTSAFE_H) */
-
-/* If there is a type larger than the one we're concerned with it's
- * likely much faster to simply promote the operands, perform the
- * requested operation, verify that the result falls within the
- * original type, then cast the result back to the original type. */
-
-#if !defined(PSNIP_SAFE_NO_PROMOTIONS)
-
-#define PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, op_name, op) \
-  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
-  psnip_safe_larger_##name##_##op_name (T a, T b) { \
-    return ((psnip_safe_##name##_larger) a) op ((psnip_safe_##name##_larger) b); \
-  }
-
-#define PSNIP_SAFE_DEFINE_LARGER_UNARY_OP(T, name, op_name, op) \
-  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
-  psnip_safe_larger_##name##_##op_name (T value) { \
-    return (op ((psnip_safe_##name##_larger) value)); \
-  }
-
-#define PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(T, name) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %) \
-  PSNIP_SAFE_DEFINE_LARGER_UNARY_OP (T, name, neg, -)
-
-#define PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(T, name) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %)
-
-#define PSNIP_SAFE_IS_LARGER(ORIG_MAX, DEST_MAX) ((DEST_MAX / ORIG_MAX) >= ORIG_MAX)
-
-#if defined(__GNUC__) && ((__GNUC__ >= 4) || (__GNUC__ == 4 && __GNUC_MINOR__ >= 6)) && defined(__SIZEOF_INT128__) && !defined(__ibmxl__)
-#define PSNIP_SAFE_HAVE_128
-typedef __int128  psnip_safe_int128_t;
-typedef unsigned __int128 psnip_safe_uint128_t;
-#endif /* defined(__GNUC__) */
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-#define PSNIP_SAFE_HAVE_INT8_LARGER
-#define PSNIP_SAFE_HAVE_UINT8_LARGER
-typedef psnip_int16_t  psnip_safe_int8_larger;
-typedef psnip_uint16_t psnip_safe_uint8_larger;
-
-#define PSNIP_SAFE_HAVE_INT16_LARGER
-typedef psnip_int32_t  psnip_safe_int16_larger;
-typedef psnip_uint32_t psnip_safe_uint16_larger;
-
-#define PSNIP_SAFE_HAVE_INT32_LARGER
-typedef psnip_int64_t  psnip_safe_int32_larger;
-typedef psnip_uint64_t psnip_safe_uint32_larger;
-
-#if defined(PSNIP_SAFE_HAVE_128)
-#define PSNIP_SAFE_HAVE_INT64_LARGER
-typedef psnip_safe_int128_t psnip_safe_int64_larger;
-typedef psnip_safe_uint128_t psnip_safe_uint64_larger;
-#endif /* defined(PSNIP_SAFE_HAVE_128) */
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-
-#define PSNIP_SAFE_HAVE_LARGER_SCHAR
-#if PSNIP_SAFE_IS_LARGER(SCHAR_MAX, SHRT_MAX)
-typedef short psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, INT_MAX)
-typedef int psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LONG_MAX)
-typedef long psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LLONG_MAX)
-typedef long long psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SCHAR_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_schar_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SCHAR
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_UCHAR
-#if PSNIP_SAFE_IS_LARGER(UCHAR_MAX, USHRT_MAX)
-typedef unsigned short psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffU)
-typedef psnip_uint16_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UCHAR_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_uchar_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_UCHAR
-#endif
-
-#if CHAR_MIN == 0 && defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-#define PSNIP_SAFE_HAVE_LARGER_CHAR
-typedef psnip_safe_uchar_larger psnip_safe_char_larger;
-#elif CHAR_MIN < 0 && defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-#define PSNIP_SAFE_HAVE_LARGER_CHAR
-typedef psnip_safe_schar_larger psnip_safe_char_larger;
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_SHRT
-#if PSNIP_SAFE_IS_LARGER(SHRT_MAX, INT_MAX)
-typedef int psnip_safe_short_larger;
-#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LONG_MAX)
-typedef long psnip_safe_short_larger;
-#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LLONG_MAX)
-typedef long long psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SHRT_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_short_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SHRT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_USHRT
-#if PSNIP_SAFE_IS_LARGER(USHRT_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_ushort_larger;
-#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_ushort_larger;
-#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (USHRT_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ushort_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_USHRT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_INT
-#if PSNIP_SAFE_IS_LARGER(INT_MAX, LONG_MAX)
-typedef long psnip_safe_int_larger;
-#elif PSNIP_SAFE_IS_LARGER(INT_MAX, LLONG_MAX)
-typedef long long psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (INT_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_int_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_INT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_UINT
-#if PSNIP_SAFE_IS_LARGER(UINT_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_uint_larger;
-#elif PSNIP_SAFE_IS_LARGER(UINT_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UINT_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_uint_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_UINT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_LONG
-#if PSNIP_SAFE_IS_LARGER(LONG_MAX, LLONG_MAX)
-typedef long long psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LONG_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_long_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_LONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_ULONG
-#if PSNIP_SAFE_IS_LARGER(ULONG_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULONG_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ulong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_ULONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_LLONG
-#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LLONG_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_llong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_LLONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_ULLONG
-#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULLONG_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ullong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_ULLONG
-#endif
-
-#if defined(PSNIP_SAFE_SIZE_MAX)
-#define PSNIP_SAFE_HAVE_LARGER_SIZE
-#if PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, USHRT_MAX)
-typedef unsigned short psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (PSNIP_SAFE_SIZE_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_size_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SIZE
-#endif
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(signed char, schar)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned char, uchar)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-#if CHAR_MIN == 0
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(char, char)
-#else
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(char, char)
-#endif
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(short, short)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned short, ushort)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_INT)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(int, int)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_UINT)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned int, uint)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_LONG)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long, long)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long, ulong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long long, llong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long long, ullong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(size_t, size)
-#endif
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int8_t,   int8)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint8_t,  uint8)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int16_t,  int16)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint16_t, uint16)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int32_t,  int32)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint32_t, uint32)
-#if defined(PSNIP_SAFE_HAVE_128)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int64_t,  int64)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint64_t, uint64)
-#endif
-#endif
-
-#endif /* !defined(PSNIP_SAFE_NO_PROMOTIONS) */
-
-#define PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(T, name, op_name) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    return !__builtin_##op_name##_overflow(a, b, res); \
-  }
-
-#define PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(T, name, op_name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
-    *res = (T) r; \
-    return (r >= min) && (r <= max); \
-  }
-
-#define PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(T, name, op_name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
-    *res = (T) r; \
-    return (r <= max); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_ADD(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_add (T* res, T a, T b) { \
-    psnip_safe_bool r = !( ((b > 0) && (a > (max - b))) ||   \
-                 ((b < 0) && (a < (min - b))) ); \
-    if(PSNIP_SAFE_LIKELY(r)) \
-        *res = a + b; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_ADD(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_add (T* res, T a, T b) { \
-    *res = (T) (a + b); \
-    return !PSNIP_SAFE_UNLIKELY((b > 0) && (a > (max - b))); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_SUB(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_sub (T* res, T a, T b) { \
-      psnip_safe_bool r = !((b > 0 && a < (min + b)) || \
-                  (b < 0 && a > (max + b))); \
-      if(PSNIP_SAFE_LIKELY(r)) \
-          *res = a - b; \
-      return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_SUB(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_sub (T* res, T a, T b) { \
-      *res = a - b; \
-      return !PSNIP_SAFE_UNLIKELY(b > a); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_MUL(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mul (T* res, T a, T b) { \
-    psnip_safe_bool r = 1;  \
-    if (a > 0) { \
-      if (b > 0) { \
-        if (a > (max / b)) { \
-          r = 0; \
-        } \
-      } else { \
-        if (b < (min / a)) { \
-          r = 0; \
-        } \
-      } \
-    } else { \
-      if (b > 0) { \
-        if (a < (min / b)) { \
-          r = 0; \
-        } \
-      } else { \
-        if ( (a != 0) && (b < (max / a))) { \
-          r = 0; \
-        } \
-      } \
-    } \
-    if(PSNIP_SAFE_LIKELY(r)) \
-        *res = a * b; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_MUL(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mul (T* res, T a, T b) { \
-    *res = (T) (a * b); \
-    return !PSNIP_SAFE_UNLIKELY((a > 0) && (b > 0) && (a > (max / b))); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_DIV(T, name, min, max)   \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_div (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) {    \
-      *res = min; \
-      return 0; \
-    } else { \
-      *res = (T) (a / b); \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_DIV(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_div (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else { \
-      *res = a / b; \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_MOD(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mod (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) { \
-      *res = min; \
-      return 0; \
-    } else { \
-      *res = (T) (a % b); \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_MOD(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mod (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else { \
-      *res = a % b; \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_NEG(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_neg (T* res, T value) { \
-    psnip_safe_bool r = value != min; \
-    *res = PSNIP_SAFE_LIKELY(r) ? -value : max; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_INTSAFE(T, name, op, isf) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op (T* res, T a, T b) { \
-    return isf(a, b, res) == S_OK; \
-  }
-
-#if CHAR_MIN == 0
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, add, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, sub, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, mul, CHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(char, char, CHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(char, char, CHAR_MAX)
-#else /* CHAR_MIN != 0 */
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, add, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, sub, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, mul, CHAR_MIN, CHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(char, char, CHAR_MIN, CHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(char, char, CHAR_MIN, CHAR_MAX)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, add, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, sub, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, mul, SCHAR_MIN, SCHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, add, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, sub, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, mul, UCHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned char, uchar, UCHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned char, uchar, UCHAR_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, add, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, sub, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, mul, SHRT_MIN, SHRT_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(short, short, SHRT_MIN, SHRT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(short, short, SHRT_MIN, SHRT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, add, UShortAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, sub, UShortSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, mul, UShortMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, add, USHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, sub, USHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, mul, USHRT_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned short, ushort, USHRT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned short, ushort, USHRT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, add, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, sub, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, mul, INT_MIN, INT_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(int, int, INT_MIN, INT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(int, int, INT_MIN, INT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, add, UIntAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, sub, UIntSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, mul, UIntMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, add, UINT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, sub, UINT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, mul, UINT_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned int, uint, UINT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned int, uint, UINT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_LONG)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, add, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, sub, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, mul, LONG_MIN, LONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(long, long, LONG_MIN, LONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(long, long, LONG_MIN, LONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, add, ULongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, sub, ULongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, mul, ULongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, add, ULONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, sub, ULONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, mul, ULONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long, ulong, ULONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long, ulong, ULONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, add, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, sub, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, mul, LLONG_MIN, LLONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(long long, llong, LLONG_MIN, LLONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(long long, llong, LLONG_MIN, LLONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, add, ULongLongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, sub, ULongLongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, mul, ULongLongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, add, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, sub, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, mul, ULLONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long long, ullong, ULLONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long long, ullong, ULLONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, add, SizeTAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, sub, SizeTSub)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, mul, SizeTMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, add, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, sub, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, mul, PSNIP_SAFE__SIZE_MAX_RT)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT8)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, add, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, sub, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, mul, (-0x7fLL-1), 0x7f)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT8)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, add, 0xff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, sub, 0xff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, mul, 0xff)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint8_t, uint8, 0xff)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint8_t, uint8, 0xff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT16)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, add, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, sub, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, mul, (-32767-1), 0x7fff)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int16_t, int16, (-32767-1), 0x7fff)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int16_t, int16, (-32767-1), 0x7fff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, add, UShortAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, sub, UShortSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, mul, UShortMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT16)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, add, 0xffff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, sub, 0xffff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, mul, 0xffff)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint16_t, uint16, 0xffff)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint16_t, uint16, 0xffff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT32)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, add, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, sub, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, mul, (-0x7fffffffLL-1), 0x7fffffffLL)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, add, UIntAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, sub, UIntSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, mul, UIntMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT32)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, add, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, sub, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, mul, 0xffffffffUL)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint32_t, uint32, 0xffffffffUL)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint32_t, uint32, 0xffffffffUL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT64)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, add, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, sub, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, mul, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, add, ULongLongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, sub, ULongLongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, mul, ULongLongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT64)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, add, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, sub, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, mul, 0xffffffffffffffffULL)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-
-#define PSNIP_SAFE_C11_GENERIC_SELECTION(res, op) \
-  _Generic((*res), \
-	   char: psnip_safe_char_##op, \
-	   unsigned char: psnip_safe_uchar_##op, \
-	   short: psnip_safe_short_##op, \
-	   unsigned short: psnip_safe_ushort_##op, \
-	   int: psnip_safe_int_##op, \
-	   unsigned int: psnip_safe_uint_##op, \
-	   long: psnip_safe_long_##op, \
-	   unsigned long: psnip_safe_ulong_##op, \
-	   long long: psnip_safe_llong_##op, \
-	   unsigned long long: psnip_safe_ullong_##op)
-
-#define PSNIP_SAFE_C11_GENERIC_BINARY_OP(op, res, a, b) \
-  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, a, b)
-#define PSNIP_SAFE_C11_GENERIC_UNARY_OP(op, res, v) \
-  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, v)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-#define psnip_safe_add(res, a, b) !__builtin_add_overflow(a, b, res)
-#define psnip_safe_sub(res, a, b) !__builtin_sub_overflow(a, b, res)
-#define psnip_safe_mul(res, a, b) !__builtin_mul_overflow(a, b, res)
-#define psnip_safe_div(res, a, b) !__builtin_div_overflow(a, b, res)
-#define psnip_safe_mod(res, a, b) !__builtin_mod_overflow(a, b, res)
-#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
-
-#elif defined(__STDC_VERSION__) && (__STDC_VERSION__ >= 201112L)
-/* The are no fixed-length or size selections because they cause an
- * error about _Generic specifying two compatible types.  Hopefully
- * this doesn't cause problems on exotic platforms, but if it does
- * please let me know and I'll try to figure something out. */
-
-#define psnip_safe_add(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(add, res, a, b)
-#define psnip_safe_sub(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(sub, res, a, b)
-#define psnip_safe_mul(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mul, res, a, b)
-#define psnip_safe_div(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(div, res, a, b)
-#define psnip_safe_mod(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mod, res, a, b)
-#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
-#endif
-
-#if !defined(PSNIP_SAFE_HAVE_BUILTINS) && (defined(PSNIP_SAFE_EMULATE_NATIVE) || defined(PSNIP_BUILTIN_EMULATE_NATIVE))
-#  define __builtin_sadd_overflow(a, b, res)   (!psnip_safe_int_add(res, a, b))
-#  define __builtin_saddl_overflow(a, b, res)  (!psnip_safe_long_add(res, a, b))
-#  define __builtin_saddll_overflow(a, b, res) (!psnip_safe_llong_add(res, a, b))
-#  define __builtin_uadd_overflow(a, b, res)   (!psnip_safe_uint_add(res, a, b))
-#  define __builtin_uaddl_overflow(a, b, res)  (!psnip_safe_ulong_add(res, a, b))
-#  define __builtin_uaddll_overflow(a, b, res) (!psnip_safe_ullong_add(res, a, b))
-
-#  define __builtin_ssub_overflow(a, b, res)   (!psnip_safe_int_sub(res, a, b))
-#  define __builtin_ssubl_overflow(a, b, res)  (!psnip_safe_long_sub(res, a, b))
-#  define __builtin_ssubll_overflow(a, b, res) (!psnip_safe_llong_sub(res, a, b))
-#  define __builtin_usub_overflow(a, b, res)   (!psnip_safe_uint_sub(res, a, b))
-#  define __builtin_usubl_overflow(a, b, res)  (!psnip_safe_ulong_sub(res, a, b))
-#  define __builtin_usubll_overflow(a, b, res) (!psnip_safe_ullong_sub(res, a, b))
-
-#  define __builtin_smul_overflow(a, b, res)   (!psnip_safe_int_mul(res, a, b))
-#  define __builtin_smull_overflow(a, b, res)  (!psnip_safe_long_mul(res, a, b))
-#  define __builtin_smulll_overflow(a, b, res) (!psnip_safe_llong_mul(res, a, b))
-#  define __builtin_umul_overflow(a, b, res)   (!psnip_safe_uint_mul(res, a, b))
-#  define __builtin_umull_overflow(a, b, res)  (!psnip_safe_ulong_mul(res, a, b))
-#  define __builtin_umulll_overflow(a, b, res) (!psnip_safe_ullong_mul(res, a, b))
-#endif
-
-#endif /* !defined(PSNIP_SAFE_H) */
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic.go b/go/arrow/compute/internal/kernels/base_arithmetic.go
deleted file mode 100644
index 169fbba2f02af..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic.go
+++ /dev/null
@@ -1,897 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-	"math/bits"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/constraints"
-)
-
-type ArithmeticOp int8
-
-const (
-	OpAdd ArithmeticOp = iota
-	OpSub
-	OpMul
-	OpDiv
-	OpAbsoluteValue
-	OpNegate
-	// NO SIMD for the following yet
-	OpSqrt
-	OpPower
-	OpSin
-	OpCos
-	OpTan
-	OpAsin
-	OpAcos
-	OpAtan
-	OpAtan2
-	OpLn
-	OpLog10
-	OpLog2
-	OpLog1p
-	OpLogb
-	// End NO SIMD
-	OpSign
-
-	// Checked versions will not use SIMD except for float32/float64 impls
-	OpAddChecked
-	OpSubChecked
-	OpMulChecked
-	OpDivChecked
-	OpAbsoluteValueChecked
-	OpNegateChecked
-	// No SIMD impls for the rest of these yet
-	OpSqrtChecked
-	OpPowerChecked
-	OpSinChecked
-	OpCosChecked
-	OpTanChecked
-	OpAsinChecked
-	OpAcosChecked
-	OpLnChecked
-	OpLog10Checked
-	OpLog2Checked
-	OpLog1pChecked
-	OpLogbChecked
-)
-
-func mulWithOverflow[T arrow.IntType | arrow.UintType](a, b T) (T, error) {
-	min, max := MinOf[T](), MaxOf[T]()
-	switch {
-	case a > 0:
-		if b > 0 {
-			if a > (max / b) {
-				return 0, errOverflow
-			}
-		} else {
-			if b < (min / a) {
-				return 0, errOverflow
-			}
-		}
-	case b > 0:
-		if a < (min / b) {
-			return 0, errOverflow
-		}
-	default:
-		if (a != 0) && (b < (max / a)) {
-			return 0, errOverflow
-		}
-	}
-
-	return a * b, nil
-}
-
-func getGoArithmeticBinary[OutT, Arg0T, Arg1T arrow.NumericType](op func(a Arg0T, b Arg1T, e *error) OutT) binaryOps[OutT, Arg0T, Arg1T] {
-	return binaryOps[OutT, Arg0T, Arg1T]{
-		arrArr: func(_ *exec.KernelCtx, left []Arg0T, right []Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left[i], right[i], &err)
-			}
-			return err
-		},
-		arrScalar: func(_ *exec.KernelCtx, left []Arg0T, right Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left[i], right, &err)
-			}
-			return err
-		},
-		scalarArr: func(_ *exec.KernelCtx, left Arg0T, right []Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left, right[i], &err)
-			}
-			return err
-		},
-	}
-}
-
-var (
-	errOverflow      = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
-	errDivByZero     = fmt.Errorf("%w: divide by zero", arrow.ErrInvalid)
-	errNegativeSqrt  = fmt.Errorf("%w: square root of negative number", arrow.ErrInvalid)
-	errNegativePower = fmt.Errorf("%w: integers to negative integer powers are not allowed", arrow.ErrInvalid)
-	errDomainErr     = fmt.Errorf("%w: domain error", arrow.ErrInvalid)
-	errLogZero       = fmt.Errorf("%w: logarithm of zero", arrow.ErrInvalid)
-	errLogNeg        = fmt.Errorf("%w: logarithm of negative number", arrow.ErrInvalid)
-)
-
-func getGoArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
-	case OpMul:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
-	case OpDiv:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) OutT {
-			if b == 0 {
-				*e = errDivByZero
-				return 0
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValue:
-		if ones := ^InT(0); ones < 0 {
-			shiftBy := (SizeOf[InT]() * 8) - 1
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				// get abs without branching
-				for i, v := range arg {
-					// right shift (sign check)
-					mask := v >> shiftBy
-					// add the mask '+' and '-' balance
-					v = v + mask
-					// invert and return
-					out[i] = OutT(v ^ mask)
-				}
-				return nil
-			})
-		}
-
-		if SizeOf[InT]() == SizeOf[OutT]() {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				in, output := arrow.GetBytes(arg), arrow.GetBytes(out)
-				copy(output, in)
-				return nil
-			})
-		} else {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				DoStaticCast(arg, out)
-				return nil
-			})
-		}
-	case OpNegate:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(-v)
-			}
-			return nil
-		})
-	case OpSign:
-		if ^InT(0) < 0 {
-			var neg int8 = -1
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				neg := OutT(neg)
-				for i, v := range arg {
-					switch {
-					case v > 0:
-						out[i] = 1
-					case v < 0:
-						out[i] = neg
-					default:
-						out[i] = 0
-					}
-				}
-				return nil
-			})
-		}
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				if v > 0 {
-					out[i] = 1
-				} else {
-					out[i] = 0
-				}
-			}
-			return nil
-		})
-	case OpPower:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, err *error) OutT {
-			if b < 0 {
-				*err = errNegativePower
-				return 0
-			}
-			// integer power
-			var (
-				base        = uint64(a)
-				exp         = uint64(b)
-				pow  uint64 = 1
-			)
-
-			// right to left 0(logn) power
-			for exp != 0 {
-				if exp&1 != 0 {
-					pow *= base
-				}
-				base *= base
-				exp >>= 1
-			}
-			return OutT(pow)
-		}))
-	case OpAddChecked:
-		shiftBy := (SizeOf[InT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^InT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			out = OutT(a + b)
-			// see math/bits/bits.go Add64 for explanation of logic
-			carry := (OutT(a&b) | (OutT(a|b) &^ out)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-			}
-			return
-		})
-	case OpSubChecked:
-		shiftBy := (SizeOf[InT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^InT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			out = OutT(a - b)
-			// see math/bits/bits.go Sub64 for explanation of bit logic
-			carry := (OutT(^a&b) | (^OutT(a^b) & out)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-			}
-			return
-		})
-	case OpMulChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, e *error) (out OutT) {
-			o, err := mulWithOverflow(a, b)
-			if err != nil {
-				*e = err
-			}
-			return OutT(o)
-		}))
-	case OpDivChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			if b == 0 {
-				*e = errDivByZero
-				return
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValueChecked:
-		if ones := ^InT(0); ones < 0 {
-			shiftBy := (SizeOf[InT]() * 8) - 1
-			min := MinOf[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				for i, v := range arg {
-					if v == min {
-						return errOverflow
-					}
-
-					// right shift (sign check)
-					mask := v >> shiftBy
-					// add the mask '+' and '-' balance
-					v = v + mask
-					// invert and return
-					out[i] = OutT(v ^ mask)
-				}
-				return nil
-			})
-		}
-		if SizeOf[InT]() == SizeOf[OutT]() {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				in, output := arrow.GetBytes(arg), arrow.GetBytes(out)
-				copy(output, in)
-				return nil
-			})
-		} else {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				DoStaticCast(arg, out)
-				return nil
-			})
-		}
-	case OpNegateChecked:
-		if ones := ^InT(0); ones < 0 {
-			min := MinOf[InT]()
-			// signed
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				for i, v := range arg {
-					if v != min {
-						out[i] = OutT(-v)
-					} else {
-						return errOverflow
-					}
-				}
-				return nil
-			})
-		}
-	case OpPowerChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, base, exp InT, e *error) OutT {
-			if exp < 0 {
-				*e = errNegativePower
-				return 0
-			} else if exp == 0 {
-				return 1
-			}
-
-			// left to right 0(logn) power with overflow checks
-			var (
-				overflow bool
-				bitmask      = uint64(1) << (63 - bits.LeadingZeros64(uint64(exp)))
-				pow      InT = 1
-				err      error
-			)
-
-			for bitmask != 0 {
-				pow, err = mulWithOverflow(pow, pow)
-				overflow = overflow || (err != nil)
-				if uint64(exp)&bitmask != 0 {
-					pow, err = mulWithOverflow(pow, base)
-					overflow = overflow || (err != nil)
-				}
-				bitmask >>= 1
-			}
-			if overflow {
-				*e = errOverflow
-			}
-			return OutT(pow)
-		})
-	}
-	debug.Assert(false, "invalid arithmetic op")
-	return nil
-}
-
-func getGoArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd, OpAddChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
-	case OpSub, OpSubChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
-	case OpMul, OpMulChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
-	case OpDiv:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			return OutT(a / b)
-		})
-	case OpDivChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			if b == 0 {
-				*e = errDivByZero
-				return
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValue, OpAbsoluteValueChecked:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(math.Abs(float64(v)))
-			}
-			return nil
-		})
-	case OpNegate, OpNegateChecked:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(-v)
-			}
-			return nil
-		})
-	case OpSqrt:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(math.Sqrt(float64(v)))
-			}
-			return nil
-		})
-	case OpSqrtChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < 0 {
-				*e = errNegativeSqrt
-				return OutT(math.NaN())
-			}
-			return OutT(math.Sqrt(float64(arg)))
-		})
-	case OpSign:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				switch {
-				case math.IsNaN(float64(v)):
-					out[i] = OutT(v)
-				case v == 0:
-					out[i] = 0
-				case math.Signbit(float64(v)):
-					out[i] = -1
-				default:
-					out[i] = 1
-				}
-			}
-			return nil
-		})
-	case OpPower, OpPowerChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
-			return OutT(math.Pow(float64(a), float64(b)))
-		}))
-	case OpSin:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Sin(float64(v)))
-			}
-			return nil
-		})
-	case OpSinChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Sin(float64(arg)))
-		})
-	case OpCos:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Cos(float64(v)))
-			}
-			return nil
-		})
-	case OpCosChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Cos(float64(arg)))
-		})
-	case OpTan:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Tan(float64(v)))
-			}
-			return nil
-		})
-	case OpTanChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Tan(float64(arg)))
-		})
-	case OpAsin:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Asin(float64(v)))
-			}
-			return nil
-		})
-	case OpAsinChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < -1 || arg > 1 {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Asin(float64(arg)))
-		})
-	case OpAcos:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Acos(float64(v)))
-			}
-			return nil
-		})
-	case OpAcosChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < -1 || arg > 1 {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Acos(float64(arg)))
-		})
-	case OpAtan:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Atan(float64(v)))
-			}
-			return nil
-		})
-	case OpAtan2:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
-			return OutT(math.Atan2(float64(a), float64(b)))
-		}))
-	case OpLn:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log(float64(v)))
-			}
-			return nil
-		})
-	case OpLnChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log(float64(arg)))
-		})
-	case OpLog10:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log10(float64(v)))
-			}
-			return nil
-		})
-	case OpLog10Checked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log10(float64(arg)))
-		})
-	case OpLog2:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log2(float64(v)))
-			}
-			return nil
-		})
-	case OpLog2Checked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log2(float64(arg)))
-		})
-	case OpLog1p:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log1p(float64(v)))
-			}
-			return nil
-		})
-	case OpLog1pChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == -1:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < -1:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log1p(float64(arg)))
-		})
-	case OpLogb:
-		return ScalarBinary(getGoArithmeticBinary(func(x, base InT, _ *error) OutT {
-			if x == 0 {
-				if base == 0 || base < 0 {
-					return OutT(math.NaN())
-				} else {
-					return OutT(math.Inf(-1))
-				}
-			} else if x < 0 {
-				return OutT(math.NaN())
-			}
-			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
-		}))
-	case OpLogbChecked:
-		return ScalarBinaryNotNull((func(_ *exec.KernelCtx, x, base InT, e *error) OutT {
-			if x == 0 || base == 0 {
-				*e = errLogZero
-				return OutT(x)
-			} else if x < 0 || base < 0 {
-				*e = errLogNeg
-				return OutT(x)
-			}
-			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
-		}))
-	}
-	debug.Assert(false, "invalid arithmetic op")
-	return nil
-}
-
-func timeDurationOp[OutT, Arg0T, Arg1T ~int32 | ~int64](multiple int64, op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd:
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
-			result := OutT(a) + OutT(b)
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return result
-		}))
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
-			result := OutT(a) - OutT(b)
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return result
-		}))
-	case OpAddChecked:
-		shiftBy := (SizeOf[OutT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^OutT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
-			left, right := OutT(a), OutT(b)
-			result = left + right
-			carry := ((left & right) | ((left | right) &^ result)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-				return
-			}
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return
-		}))
-	case OpSubChecked:
-		shiftBy := (SizeOf[OutT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^OutT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
-			left, right := OutT(a), OutT(b)
-			result = left - right
-			carry := ((^left & right) | (^(left ^ right) & result)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-				return
-			}
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return
-		}))
-	}
-	return nil
-}
-
-func SubtractDate32(op ArithmeticOp) exec.ArrayKernelExec {
-	const secondsPerDay = 86400
-	switch op {
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
-			return arrow.Duration((a - b) * secondsPerDay)
-		}))
-	case OpSubChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
-			result = arrow.Duration(a) - arrow.Duration(b)
-			val, ok := overflow.Mul64(int64(result), secondsPerDay)
-			if !ok {
-				*e = errOverflow
-			}
-			return arrow.Duration(val)
-		}))
-	}
-	panic("invalid op for subtractDate32")
-}
-
-type decOps[T decimal128.Num | decimal256.Num] struct {
-	Add  func(T, T) T
-	Sub  func(T, T) T
-	Div  func(T, T) T
-	Mul  func(T, T) T
-	Abs  func(T) T
-	Neg  func(T) T
-	Sign func(T) int
-}
-
-var dec128Ops = decOps[decimal128.Num]{
-	Add: func(a, b decimal128.Num) decimal128.Num { return a.Add(b) },
-	Sub: func(a, b decimal128.Num) decimal128.Num { return a.Sub(b) },
-	Mul: func(a, b decimal128.Num) decimal128.Num { return a.Mul(b) },
-	Div: func(a, b decimal128.Num) decimal128.Num {
-		a, _ = a.Div(b)
-		return a
-	},
-	Abs:  func(a decimal128.Num) decimal128.Num { return a.Abs() },
-	Neg:  func(a decimal128.Num) decimal128.Num { return a.Negate() },
-	Sign: func(a decimal128.Num) int { return a.Sign() },
-}
-
-var dec256Ops = decOps[decimal256.Num]{
-	Add: func(a, b decimal256.Num) decimal256.Num { return a.Add(b) },
-	Sub: func(a, b decimal256.Num) decimal256.Num { return a.Sub(b) },
-	Mul: func(a, b decimal256.Num) decimal256.Num { return a.Mul(b) },
-	Div: func(a, b decimal256.Num) decimal256.Num {
-		a, _ = a.Div(b)
-		return a
-	},
-	Abs:  func(a decimal256.Num) decimal256.Num { return a.Abs() },
-	Neg:  func(a decimal256.Num) decimal256.Num { return a.Negate() },
-	Sign: func(a decimal256.Num) int { return a.Sign() },
-}
-
-func getArithmeticOpDecimalImpl[T decimal128.Num | decimal256.Num](op ArithmeticOp, fns decOps[T]) exec.ArrayKernelExec {
-	if op >= OpAddChecked {
-		op -= OpAddChecked // decimal128/256 checked is the same as unchecked
-	}
-
-	switch op {
-	case OpAdd:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Add(arg0, arg1)
-		})
-	case OpSub:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Sub(arg0, arg1)
-		})
-	case OpMul:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Mul(arg0, arg1)
-		})
-	case OpDiv:
-		var z T
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, e *error) (out T) {
-			if arg1 == z {
-				*e = errDivByZero
-				return
-			}
-			return fns.Div(arg0, arg1)
-		})
-	case OpAbsoluteValue:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
-			return fns.Abs(arg)
-		})
-	case OpNegate:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
-			return fns.Neg(arg)
-		})
-	case OpSign:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) int64 {
-			return int64(fns.Sign(arg))
-		})
-	}
-	debug.Assert(false, "unimplemented arithmetic op")
-	return nil
-}
-
-func getArithmeticDecimal[T decimal128.Num | decimal256.Num](op ArithmeticOp) exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return getArithmeticOpDecimalImpl(op, dec128Ops)
-	case decimal256.Num:
-		return getArithmeticOpDecimalImpl(op, dec256Ops)
-	}
-	panic("should never get here")
-}
-
-func ArithmeticExecSameType(ty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.INT8:
-		return getArithmeticOpIntegral[int8, int8](op)
-	case arrow.UINT8:
-		return getArithmeticOpIntegral[uint8, uint8](op)
-	case arrow.INT16:
-		return getArithmeticOpIntegral[int16, int16](op)
-	case arrow.UINT16:
-		return getArithmeticOpIntegral[uint16, uint16](op)
-	case arrow.INT32, arrow.TIME32:
-		return getArithmeticOpIntegral[int32, int32](op)
-	case arrow.UINT32:
-		return getArithmeticOpIntegral[uint32, uint32](op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return getArithmeticOpIntegral[int64, int64](op)
-	case arrow.UINT64:
-		return getArithmeticOpIntegral[uint64, uint64](op)
-	case arrow.FLOAT32:
-		return getArithmeticOpFloating[float32, float32](op)
-	case arrow.FLOAT64:
-		return getArithmeticOpFloating[float64, float64](op)
-	}
-	debug.Assert(false, "invalid arithmetic type")
-	return nil
-}
-
-func arithmeticExec[InT arrow.IntType | arrow.UintType](oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	switch oty {
-	case arrow.INT8:
-		return getArithmeticOpIntegral[InT, int8](op)
-	case arrow.UINT8:
-		return getArithmeticOpIntegral[InT, uint8](op)
-	case arrow.INT16:
-		return getArithmeticOpIntegral[InT, int16](op)
-	case arrow.UINT16:
-		return getArithmeticOpIntegral[InT, uint16](op)
-	case arrow.INT32, arrow.TIME32:
-		return getArithmeticOpIntegral[InT, int32](op)
-	case arrow.UINT32:
-		return getArithmeticOpIntegral[InT, uint32](op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return getArithmeticOpIntegral[InT, int64](op)
-	case arrow.UINT64:
-		return getArithmeticOpIntegral[InT, uint64](op)
-	}
-	debug.Assert(false, "arithmetic integral to floating not implemented")
-	return nil
-}
-
-func ArithmeticExec(ity, oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	if ity == oty {
-		return ArithmeticExecSameType(ity, op)
-	}
-
-	switch ity {
-	case arrow.INT8:
-		return arithmeticExec[int8](oty, op)
-	case arrow.UINT8:
-		return arithmeticExec[uint8](oty, op)
-	case arrow.INT16:
-		return arithmeticExec[int16](oty, op)
-	case arrow.UINT16:
-		return arithmeticExec[uint16](oty, op)
-	case arrow.INT32, arrow.TIME32:
-		return arithmeticExec[int32](oty, op)
-	case arrow.UINT32:
-		return arithmeticExec[uint32](oty, op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return arithmeticExec[int64](oty, op)
-	case arrow.UINT64:
-		return arithmeticExec[uint64](oty, op)
-	case arrow.FLOAT32:
-		if oty == arrow.FLOAT32 {
-			return getArithmeticOpFloating[float32, float32](op)
-		}
-		return getArithmeticOpFloating[float32, float64](op)
-	case arrow.FLOAT64:
-		if oty == arrow.FLOAT32 {
-			return getArithmeticOpFloating[float64, float32](op)
-		}
-		return getArithmeticOpFloating[float64, float64](op)
-	}
-	return nil
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
deleted file mode 100644
index b818e45dc1bb4..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
+++ /dev/null
@@ -1,152 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/sys/cpu"
-)
-
-func getAvx2ArithmeticBinaryNumeric[T arrow.NumericType](op ArithmeticOp) binaryOps[T, T, T] {
-	typ := arrow.GetType[T]()
-	return binaryOps[T, T, T]{
-		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
-			arithmeticAvx2(typ, op, arrow.GetBytes(Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
-			arithmeticArrScalarAvx2(typ, op, arrow.GetBytes(Arg0), unsafe.Pointer(&Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
-			arithmeticScalarArrAvx2(typ, op, unsafe.Pointer(&Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg1))
-			return nil
-		},
-	}
-}
-
-func getSSE4ArithmeticBinaryNumeric[T arrow.NumericType](op ArithmeticOp) binaryOps[T, T, T] {
-	typ := arrow.GetType[T]()
-	return binaryOps[T, T, T]{
-		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
-			arithmeticSSE4(typ, op, arrow.GetBytes(Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
-			arithmeticArrScalarSSE4(typ, op, arrow.GetBytes(Arg0), unsafe.Pointer(&Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
-			arithmeticScalarArrSSE4(typ, op, unsafe.Pointer(&Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg1))
-			return nil
-		},
-	}
-}
-
-func getArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	if cpu.X86.HasAVX2 {
-		switch op {
-		case OpAdd, OpSub, OpMul:
-			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpNegate:
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnaryAvx2(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		case OpSign:
-			inType, outType := arrow.GetType[InT](), arrow.GetType[OutT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				arithmeticUnaryDiffTypesAvx2(inType, outType, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	} else if cpu.X86.HasSSE42 {
-		switch op {
-		case OpAdd, OpSub, OpMul:
-			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpNegate:
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(ctx *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnarySSE4(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		case OpSign:
-			inType, outType := arrow.GetType[InT](), arrow.GetType[OutT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				arithmeticUnaryDiffTypesSSE4(inType, outType, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	}
-
-	// no SIMD for POWER or SQRT functions
-	// integral checked funcs need to use NotNull versions
-	return getGoArithmeticOpIntegral[InT, OutT](op)
-}
-
-func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	if cpu.X86.HasAVX2 {
-		switch op {
-		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnaryAvx2(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	} else if cpu.X86.HasSSE42 {
-		switch op {
-		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnarySSE4(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	}
-
-	// no SIMD for POWER or SQRT functions
-	return getGoArithmeticOpFloating[InT, OutT](op)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
deleted file mode 100644
index 89384aa09fc73..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
+++ /dev/null
@@ -1,60 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _arithmetic_unary_same_types_avx2(typ int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryAvx2(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
-	_arithmetic_unary_same_types_avx2(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_binary_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticAvx2(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
-	_arithmetic_binary_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_arr_scalar_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticArrScalarAvx2(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
-	_arithmetic_arr_scalar_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_scalar_arr_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticScalarArrAvx2(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
-	_arithmetic_scalar_arr_avx2(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_unary_diff_type_avx2(itype, otype int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryDiffTypesAvx2(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
-	_arithmetic_unary_diff_type_avx2(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
deleted file mode 100644
index 420b64d59b23a..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
+++ /dev/null
@@ -1,35529 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $32
-
-TEXT ·_arithmetic_binary_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA1<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB0_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_21
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB0_287
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB0_825
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_559
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_6
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_602
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_614
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_631:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_633
-
-LBB0_632:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_632
-
-LBB0_633:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_634:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_634
-	JMP  LBB0_825
-
-LBB0_11:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB0_154
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB0_420
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB0_825
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_695
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_16
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_738
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_750
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_762
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_767:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_769
-
-LBB0_768:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_768
-
-LBB0_769:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_770:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_770
-	JMP  LBB0_825
-
-LBB0_21:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_34
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_23
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_67
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_91
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_96
-
-LBB0_287:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_300
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_289
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_333
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_345
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_357
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_362:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_364
-
-LBB0_363:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_363
-
-LBB0_364:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_365:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_365
-	JMP  LBB0_825
-
-LBB0_154:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_167
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_156
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_200
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_212
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_224
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_229
-
-LBB0_420:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_433
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_422
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_466
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_478
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_490
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_495:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_497
-
-LBB0_496:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_496
-
-LBB0_497:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_498:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_498
-	JMP  LBB0_825
-
-LBB0_559:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_560
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_656
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_668
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_680
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_685:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_687
-
-LBB0_686:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_686
-
-LBB0_687:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_688:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_688
-	JMP  LBB0_825
-
-LBB0_695:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_696
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_792
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_804
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_816
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_821:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_823
-
-LBB0_822:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_822
-
-LBB0_823:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_824:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_824
-	JMP  LBB0_825
-
-LBB0_34:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_121
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_133
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_145
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_150
-
-LBB0_300:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_301
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_387
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_399
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_411
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_416:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_418
-
-LBB0_417:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_417
-
-LBB0_418:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_419:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_419
-	JMP  LBB0_825
-
-LBB0_167:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_168
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_254
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_266
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_278
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_283
-
-LBB0_433:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_434
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_520
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_532
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_544
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_549:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_551
-
-LBB0_550:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_550
-
-LBB0_551:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_552:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_552
-	JMP  LBB0_825
-
-LBB0_6:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_571
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_588
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_598
-
-LBB0_16:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_707
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_724
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_734
-
-LBB0_23:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_46
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_58
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_63
-
-LBB0_289:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_312
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_324
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_329
-
-LBB0_156:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_179
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_191
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_196
-
-LBB0_422:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_445
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_457
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_462
-
-LBB0_560:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_635
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_647
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_652
-
-LBB0_696:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_771
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_783
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_788
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_100
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_112
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_117
-
-LBB0_301:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_366
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_378
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_383
-
-LBB0_168:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_233
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_245
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_250
-
-LBB0_434:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_499
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_511
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_516
-
-LBB0_602:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_605
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_610:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_612
-
-LBB0_611:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_611
-
-LBB0_612:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_613:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_613
-	JMP  LBB0_825
-
-LBB0_614:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_617
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_622:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_624
-
-LBB0_623:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_623
-
-LBB0_624:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_625:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_625
-	JMP  LBB0_825
-
-LBB0_738:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_741
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_746:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_748
-
-LBB0_747:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_747
-
-LBB0_748:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_749:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_749
-	JMP  LBB0_825
-
-LBB0_750:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_753
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_758:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_760
-
-LBB0_759:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_759
-
-LBB0_760:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_761:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_761
-	JMP  LBB0_825
-
-LBB0_67:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_70
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_75
-
-LBB0_79:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_82
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_87
-
-LBB0_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_336
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_341:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_343
-
-LBB0_342:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_342
-
-LBB0_343:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_344:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_344
-	JMP  LBB0_825
-
-LBB0_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_348
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_353:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_355
-
-LBB0_354:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_354
-
-LBB0_355:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_356:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_356
-	JMP  LBB0_825
-
-LBB0_200:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_203
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_208
-
-LBB0_212:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_215
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_220
-
-LBB0_466:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_469
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_474:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_476
-
-LBB0_475:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_475
-
-LBB0_476:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_477:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_477
-	JMP  LBB0_825
-
-LBB0_478:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_481
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_486:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_488
-
-LBB0_487:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_487
-
-LBB0_488:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_489:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_489
-	JMP  LBB0_825
-
-LBB0_656:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_659
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_664:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_666
-
-LBB0_665:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_665
-
-LBB0_666:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_667:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_667
-	JMP  LBB0_825
-
-LBB0_668:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_676:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_678
-
-LBB0_677:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_677
-
-LBB0_678:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_679:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_679
-	JMP  LBB0_825
-
-LBB0_792:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_795
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_800:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_802
-
-LBB0_801:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_801
-
-LBB0_802:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_803:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_803
-	JMP  LBB0_825
-
-LBB0_804:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_807
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_812:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_814
-
-LBB0_813:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_813
-
-LBB0_814:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_815:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_815
-	JMP  LBB0_825
-
-LBB0_121:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_124
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_129
-
-LBB0_133:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_136
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_141
-
-LBB0_387:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_390
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_395:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_397
-
-LBB0_396:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_396
-
-LBB0_397:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_398:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_398
-	JMP  LBB0_825
-
-LBB0_399:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_402
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_407:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_409
-
-LBB0_408:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_408
-
-LBB0_409:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_410:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_410
-	JMP  LBB0_825
-
-LBB0_254:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_257
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_262
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_269
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_274
-
-LBB0_520:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_523
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_528:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_530
-
-LBB0_529:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_529
-
-LBB0_530:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_531:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_531
-	JMP  LBB0_825
-
-LBB0_532:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_535
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_540:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_542
-
-LBB0_541:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_541
-
-LBB0_542:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_543:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_543
-	JMP  LBB0_825
-
-LBB0_571:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_574
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_584
-
-LBB0_707:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_710
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_720
-
-LBB0_46:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_49
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_54
-
-LBB0_312:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_315
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_320
-
-LBB0_179:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_182
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_187
-
-LBB0_445:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_448
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_453
-
-LBB0_635:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_638
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_643
-
-LBB0_771:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_774
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_779
-
-LBB0_100:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_103
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_108
-
-LBB0_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_369
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_374
-
-LBB0_233:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_236
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_241
-
-LBB0_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_502
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_507
-
-LBB0_91:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_96
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_96
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_94:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_94
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_96:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_98
-
-LBB0_97:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_97
-
-LBB0_98:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_99:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_99
-	JMP  LBB0_825
-
-LBB0_224:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_229
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_229
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_227:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_227
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_229:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_231
-
-LBB0_230:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_230
-
-LBB0_231:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_232:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_232
-	JMP  LBB0_825
-
-LBB0_145:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_150
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_150
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_148:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_148
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_150:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_152
-
-LBB0_151:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_151
-
-LBB0_152:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_153:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_153
-	JMP  LBB0_825
-
-LBB0_278:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_283
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_283
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_281:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_281
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_283:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_285
-
-LBB0_284:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_284
-
-LBB0_285:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_286:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_286
-	JMP  LBB0_825
-
-LBB0_588:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_598
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_598
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_592
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_594
-
-LBB0_724:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_734
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_734
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_728
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_730
-
-LBB0_58:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_63
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_63
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_61:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_61
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_63:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_65
-
-LBB0_64:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_64
-
-LBB0_65:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_66:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_66
-	JMP  LBB0_825
-
-LBB0_324:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_329
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_329
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_327:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_327
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_329:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_331
-
-LBB0_330:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_330
-
-LBB0_331:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_332:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_332
-	JMP  LBB0_825
-
-LBB0_191:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_196
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_196
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_194:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_194
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_196:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_198
-
-LBB0_197:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_197
-
-LBB0_198:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_199:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_199
-	JMP  LBB0_825
-
-LBB0_457:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_462
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_462
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_460:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_460
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_462:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_464
-
-LBB0_463:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_463
-
-LBB0_464:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_465:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_465
-	JMP  LBB0_825
-
-LBB0_647:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_652
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_652
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_650:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_650
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_652:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_654
-
-LBB0_653:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_653
-
-LBB0_654:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_655:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_655
-	JMP  LBB0_825
-
-LBB0_783:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_788
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_788
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_786:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_786
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_788:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_790
-
-LBB0_789:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_789
-
-LBB0_790:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_791:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_791
-	JMP  LBB0_825
-
-LBB0_112:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_117
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_117
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_115:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_115
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_117:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_119
-
-LBB0_118:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_118
-
-LBB0_119:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_120:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_120
-	JMP  LBB0_825
-
-LBB0_378:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_383
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_383
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_381:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_381
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_383:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_385
-
-LBB0_384:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_384
-
-LBB0_385:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_386:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_386
-	JMP  LBB0_825
-
-LBB0_245:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_250
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_250
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_248:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_248
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_250:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_252
-
-LBB0_251:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_251
-
-LBB0_252:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_253:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_253
-	JMP  LBB0_825
-
-LBB0_511:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_516
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_516
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_514:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_514
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_516:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_518
-
-LBB0_517:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_517
-
-LBB0_518:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_519:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_519
-	JMP  LBB0_825
-
-LBB0_70:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_75
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_75
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_73:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_73
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_75:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_77
-
-LBB0_76:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_76
-
-LBB0_77:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_78:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_78
-	JMP  LBB0_825
-
-LBB0_82:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_87
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_87
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_85:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_85
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_87:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_89
-
-LBB0_88:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_88
-
-LBB0_89:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_90:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_90
-	JMP  LBB0_825
-
-LBB0_203:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_208
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_208
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_206:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_206
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_208:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_210
-
-LBB0_209:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_209
-
-LBB0_210:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_211:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_211
-	JMP  LBB0_825
-
-LBB0_215:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_220
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_220
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_218:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_218
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_220:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_222
-
-LBB0_221:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_221
-
-LBB0_222:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_223:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_223
-	JMP  LBB0_825
-
-LBB0_124:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_129
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_129
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_127:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_127
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_129:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_131
-
-LBB0_130:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_130
-
-LBB0_131:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_132:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_132
-	JMP  LBB0_825
-
-LBB0_136:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_141
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_141
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_139:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_139
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_141:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_143
-
-LBB0_142:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_142
-
-LBB0_143:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_144:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_144
-	JMP  LBB0_825
-
-LBB0_257:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_262
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_262
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_260:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_260
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_262:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_264
-
-LBB0_263:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_263
-
-LBB0_264:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_265:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_265
-	JMP  LBB0_825
-
-LBB0_269:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_274
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_274
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_272:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_272
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_274:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_276
-
-LBB0_275:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_275
-
-LBB0_276:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_277:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_277
-	JMP  LBB0_825
-
-LBB0_574:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_584
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_584
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_578
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_580
-
-LBB0_710:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_720
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_720
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_714
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_716
-
-LBB0_49:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_54
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_54
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_52:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_52
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_54:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_56
-
-LBB0_55:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_55
-
-LBB0_56:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_57:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_57
-	JMP  LBB0_825
-
-LBB0_315:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_320
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_320
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_318:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_318
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_320:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_322
-
-LBB0_321:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_321
-
-LBB0_322:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_323:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_323
-	JMP  LBB0_825
-
-LBB0_182:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_187
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_187
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_185:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_185
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_187:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_189
-
-LBB0_188:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_188
-
-LBB0_189:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_190:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_190
-	JMP  LBB0_825
-
-LBB0_448:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_453
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_453
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_451:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_451
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_453:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_455
-
-LBB0_454:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_454
-
-LBB0_455:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_456:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_456
-	JMP  LBB0_825
-
-LBB0_638:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_643
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_643
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_641:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_641
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_643:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_645
-
-LBB0_644:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_644
-
-LBB0_645:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_646:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_646
-	JMP  LBB0_825
-
-LBB0_774:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_779
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_779
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_777:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_777
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_779:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_781
-
-LBB0_780:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_780
-
-LBB0_781:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_782:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_782
-	JMP  LBB0_825
-
-LBB0_103:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_108
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_108
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_106:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_106
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_108:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_110
-
-LBB0_109:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_109
-
-LBB0_110:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_111:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_111
-	JMP  LBB0_825
-
-LBB0_369:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_374
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_374
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_372:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_372
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_374:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_376
-
-LBB0_375:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_375
-
-LBB0_376:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_377:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_377
-	JMP  LBB0_825
-
-LBB0_236:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_241
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_241
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_239:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_239
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_241:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_243
-
-LBB0_242:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_242
-
-LBB0_243:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_244:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_244
-	JMP  LBB0_825
-
-LBB0_502:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_507
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_507
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_505:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_505
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_507:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_509
-
-LBB0_508:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_508
-
-LBB0_509:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_510:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_510
-	JMP  LBB0_825
-
-LBB0_626:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_631
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_631
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_629:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_629
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_631
-	JMP  LBB0_825
-
-LBB0_762:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_767
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_767
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_765:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_765
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_767
-	JMP  LBB0_825
-
-LBB0_357:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_362
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_362
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_360:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_360
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_362
-	JMP  LBB0_825
-
-LBB0_490:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_495
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_495
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_493:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_493
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_495
-	JMP  LBB0_825
-
-LBB0_680:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_685
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_685
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_683:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_683
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_685
-	JMP  LBB0_825
-
-LBB0_816:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_821
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_821
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_819:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_819
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_821
-	JMP  LBB0_825
-
-LBB0_411:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_416
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_416
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_414:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_414
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_416
-	JMP  LBB0_825
-
-LBB0_544:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_549
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_549
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_547:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_547
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_549
-	JMP  LBB0_825
-
-LBB0_605:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_610
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_610
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_608:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_608
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_610
-	JMP  LBB0_825
-
-LBB0_617:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_622
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_622
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_620:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_620
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_622
-	JMP  LBB0_825
-
-LBB0_741:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_746
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_746
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_744:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_744
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_746
-	JMP  LBB0_825
-
-LBB0_753:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_758
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_758
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_756
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_758
-	JMP  LBB0_825
-
-LBB0_336:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_341
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_341
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_339:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_339
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_341
-	JMP  LBB0_825
-
-LBB0_348:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_353
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_353
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_351:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_351
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_353
-	JMP  LBB0_825
-
-LBB0_469:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_474
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_474
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_472:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_472
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_474
-	JMP  LBB0_825
-
-LBB0_481:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_486
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_486
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_484:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_484
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_486
-	JMP  LBB0_825
-
-LBB0_659:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_664
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_664
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_662:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_662
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_664
-	JMP  LBB0_825
-
-LBB0_671:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_676
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_676
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_674:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_674
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_676
-	JMP  LBB0_825
-
-LBB0_795:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_800
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_800
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_798:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_798
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_800
-	JMP  LBB0_825
-
-LBB0_807:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_812
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_812
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_810:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_810
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_812
-	JMP  LBB0_825
-
-LBB0_390:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_395
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_395
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_393:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_393
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_395
-	JMP  LBB0_825
-
-LBB0_402:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_407
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_407
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_405:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_405
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_407
-	JMP  LBB0_825
-
-LBB0_523:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_528
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_528
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_526:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_526
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_528
-	JMP  LBB0_825
-
-LBB0_535:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_540
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_540
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_538:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_538
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_540
-	JMP  LBB0_825
-
-LBB0_592:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_593:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_593
-
-LBB0_594:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_597
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_596:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_596
-
-LBB0_597:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_598:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_600
-
-LBB0_599:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_599
-
-LBB0_600:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_601:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_601
-	JMP  LBB0_825
-
-LBB0_728:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_729:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_729
-
-LBB0_730:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_733
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_732:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_732
-
-LBB0_733:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_734:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_736
-
-LBB0_735:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_735
-
-LBB0_736:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_737:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_737
-	JMP  LBB0_825
-
-LBB0_578:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_579:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_579
-
-LBB0_580:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_583
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_582:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_582
-
-LBB0_583:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_584:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_586
-
-LBB0_585:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_585
-
-LBB0_586:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_587:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_587
-	JMP  LBB0_825
-
-LBB0_714:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_715:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_715
-
-LBB0_716:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_719
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_718:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_718
-
-LBB0_719:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_720:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_722
-
-LBB0_721:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_721
-
-LBB0_722:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_723:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_723
-
-LBB0_825:
-	VZEROUPPER
-	RET
-
-DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA2<>(SB), 8, $32
-
-TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA2<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB1_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB1_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB1_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_11
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_445
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_445
-
-LBB1_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_667
-
-LBB1_666:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_666
-
-LBB1_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_668:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_668
-	JMP  LBB1_1109
-
-LBB1_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB1_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB1_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB1_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_22
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_448
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_448
-
-LBB1_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_673:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_675
-
-LBB1_674:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_674
-
-LBB1_675:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_676:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_676
-	JMP  LBB1_1109
-
-LBB1_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_30
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_451
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_451
-
-LBB1_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_681:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_683
-
-LBB1_682:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_682
-
-LBB1_683:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_684:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_684
-	JMP  LBB1_1109
-
-LBB1_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_38
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_454
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_454
-
-LBB1_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_689:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_691
-
-LBB1_690:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_690
-
-LBB1_691:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_692:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_692
-	JMP  LBB1_1109
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_46
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_457
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_457
-
-LBB1_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_697:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_699
-
-LBB1_698:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_698
-
-LBB1_699:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_700:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_700
-	JMP  LBB1_1109
-
-LBB1_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_54
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_460
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_460
-
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_705:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_707
-
-LBB1_706:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_706
-
-LBB1_707:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_708:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_708
-	JMP  LBB1_1109
-
-LBB1_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_61
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_463
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_463
-
-LBB1_61:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_713:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_715
-
-LBB1_714:
-	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_714
-
-LBB1_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_716:
-	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_716
-	JMP  LBB1_1109
-
-LBB1_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_68
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_466
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_466
-
-LBB1_68:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_721:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_723
-
-LBB1_722:
-	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_722
-
-LBB1_723:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_724:
-	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_724
-	JMP  LBB1_1109
-
-LBB1_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_75
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_469
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_469
-
-LBB1_75:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_729:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_731
-
-LBB1_730:
-	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_730
-
-LBB1_731:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_732:
-	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_732
-	JMP  LBB1_1109
-
-LBB1_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_82
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_472
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_472
-
-LBB1_82:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_737:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_739
-
-LBB1_738:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_738
-
-LBB1_739:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_740:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_740
-	JMP  LBB1_1109
-
-LBB1_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_89
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_475
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_475
-
-LBB1_89:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_745:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_747
-
-LBB1_746:
-	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_746
-
-LBB1_747:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_748:
-	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_748
-	JMP  LBB1_1109
-
-LBB1_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_96
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_478
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_478
-
-LBB1_96:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_753:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_755
-
-LBB1_754:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_754
-
-LBB1_755:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_756:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_756
-	JMP  LBB1_1109
-
-LBB1_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_101
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_481
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_481
-
-LBB1_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_627:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_629
-
-LBB1_628:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_628
-
-LBB1_629:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_630:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_630
-	JMP  LBB1_1109
-
-LBB1_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_106
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_483
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_483
-
-LBB1_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_637:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_639
-
-LBB1_638:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_638
-
-LBB1_639:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_640:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_640
-	JMP  LBB1_1109
-
-LBB1_107:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_235
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_111
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_485
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_485
-
-LBB1_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_763
-
-LBB1_762:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_762
-
-LBB1_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_764:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_764
-	JMP  LBB1_1109
-
-LBB1_112:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_238
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_116
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_488
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_488
-
-LBB1_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_771
-
-LBB1_770:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_770
-
-LBB1_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_772:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_772
-	JMP  LBB1_1109
-
-LBB1_117:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_241
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_121
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_491
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_491
-
-LBB1_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_779
-
-LBB1_778:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_778
-
-LBB1_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_780:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_780
-	JMP  LBB1_1109
-
-LBB1_122:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_244
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_126
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_494
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_494
-
-LBB1_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_787
-
-LBB1_786:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_786
-
-LBB1_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_788:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_788
-	JMP  LBB1_1109
-
-LBB1_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_131
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_497
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_497
-
-LBB1_131:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_795
-
-LBB1_794:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_794
-
-LBB1_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_796:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_796
-	JMP  LBB1_1109
-
-LBB1_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_136
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_500
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_500
-
-LBB1_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_803
-
-LBB1_802:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_802
-
-LBB1_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_804:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_804
-	JMP  LBB1_1109
-
-LBB1_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_141
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_503
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_503
-
-LBB1_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_811
-
-LBB1_810:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_810
-
-LBB1_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_812:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_812
-	JMP  LBB1_1109
-
-LBB1_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_146
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_506
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_506
-
-LBB1_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_819
-
-LBB1_818:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_818
-
-LBB1_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_820:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_820
-	JMP  LBB1_1109
-
-LBB1_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_151
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_509
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_509
-
-LBB1_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_827
-
-LBB1_826:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_826
-
-LBB1_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_828:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_828
-	JMP  LBB1_1109
-
-LBB1_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_156
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_512
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_512
-
-LBB1_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_835
-
-LBB1_834:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_834
-
-LBB1_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_836:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_836
-	JMP  LBB1_1109
-
-LBB1_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_159
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_515
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_515
-
-LBB1_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_843
-
-LBB1_842:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_842
-
-LBB1_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_844:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_844
-	JMP  LBB1_1109
-
-LBB1_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_162
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_518
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_518
-
-LBB1_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_851
-
-LBB1_850:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_850
-
-LBB1_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_852:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_852
-	JMP  LBB1_1109
-
-LBB1_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_165
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_521
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_521
-
-LBB1_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_859
-
-LBB1_858:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_858
-
-LBB1_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_860:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_860
-	JMP  LBB1_1109
-
-LBB1_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_168
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_524
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_524
-
-LBB1_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_867
-
-LBB1_866:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_866
-
-LBB1_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_868:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_868
-	JMP  LBB1_1109
-
-LBB1_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_171
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_527
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_527
-
-LBB1_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_875
-
-LBB1_874:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_874
-
-LBB1_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_876:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_876
-	JMP  LBB1_1109
-
-LBB1_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_174
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_530
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_530
-
-LBB1_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_883
-
-LBB1_882:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_882
-
-LBB1_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_884:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_884
-	JMP  LBB1_1109
-
-LBB1_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_177
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_533
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_533
-
-LBB1_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_891
-
-LBB1_890:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_890
-
-LBB1_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_892:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_892
-	JMP  LBB1_1109
-
-LBB1_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_180
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_536
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_536
-
-LBB1_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_897:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_899
-
-LBB1_898:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_898
-
-LBB1_899:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_900:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_900
-	JMP  LBB1_1109
-
-LBB1_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_183
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_539
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_539
-
-LBB1_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_905:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_907
-
-LBB1_906:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_906
-
-LBB1_907:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_908:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_908
-	JMP  LBB1_1109
-
-LBB1_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_186
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_542
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_542
-
-LBB1_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_915
-
-LBB1_914:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_914
-
-LBB1_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_916:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_916
-	JMP  LBB1_1109
-
-LBB1_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_189
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_545
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_545
-
-LBB1_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_921:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_923
-
-LBB1_922:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_922
-
-LBB1_923:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_924:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_924
-	JMP  LBB1_1109
-
-LBB1_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_192
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_548
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_548
-
-LBB1_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_931
-
-LBB1_930:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_930
-
-LBB1_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_932:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_932
-	JMP  LBB1_1109
-
-LBB1_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_195
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_551
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_551
-
-LBB1_195:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_937:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_939
-
-LBB1_938:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_938
-
-LBB1_939:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_940:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_940
-	JMP  LBB1_1109
-
-LBB1_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_198
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_554
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_554
-
-LBB1_198:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_945:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_947
-
-LBB1_946:
-	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_946
-
-LBB1_947:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_948:
-	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_948
-	JMP  LBB1_1109
-
-LBB1_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_201
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_557
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_557
-
-LBB1_201:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_953:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_955
-
-LBB1_954:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_954
-
-LBB1_955:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_956:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_956
-	JMP  LBB1_1109
-
-LBB1_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_204
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_560
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_560
-
-LBB1_204:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_961:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_963
-
-LBB1_962:
-	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_962
-
-LBB1_963:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_964:
-	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_964
-	JMP  LBB1_1109
-
-LBB1_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_207
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_563
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_563
-
-LBB1_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_969:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_971
-
-LBB1_970:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_970
-
-LBB1_971:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_972:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_972
-	JMP  LBB1_1109
-
-LBB1_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_210
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_566
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_566
-
-LBB1_210:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_977:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_979
-
-LBB1_978:
-	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_978
-
-LBB1_979:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_980:
-	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_980
-	JMP  LBB1_1109
-
-LBB1_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_213
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_569
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_569
-
-LBB1_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_985:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_987
-
-LBB1_986:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_986
-
-LBB1_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_988:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_988
-	JMP  LBB1_1109
-
-LBB1_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_216
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_572
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_572
-
-LBB1_216:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_993:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_995
-
-LBB1_994:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_994
-
-LBB1_995:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_996:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_996
-	JMP  LBB1_1109
-
-LBB1_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_219
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_575
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_575
-
-LBB1_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1003
-
-LBB1_1002:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1002
-
-LBB1_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1004:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1004
-	JMP  LBB1_1109
-
-LBB1_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_222
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_578
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_578
-
-LBB1_222:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_1009:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1011
-
-LBB1_1010:
-	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_1010
-
-LBB1_1011:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_1012:
-	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_1012
-	JMP  LBB1_1109
-
-LBB1_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_225
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_581
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_581
-
-LBB1_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1017:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1019
-
-LBB1_1018:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1018
-
-LBB1_1019:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1020:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1020
-	JMP  LBB1_1109
-
-LBB1_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_228
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_584
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_584
-
-LBB1_228:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_1025:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1027
-
-LBB1_1026:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_1026
-
-LBB1_1027:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_1028:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_1028
-	JMP  LBB1_1109
-
-LBB1_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_231
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_587
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_587
-
-LBB1_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_647:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_649
-
-LBB1_648:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_648
-
-LBB1_649:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_650:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_650
-	JMP  LBB1_1109
-
-LBB1_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_234
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_589
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_589
-
-LBB1_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_657:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_659
-
-LBB1_658:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_658
-
-LBB1_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_660:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_660
-	JMP  LBB1_1109
-
-LBB1_235:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_237
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_591
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_591
-
-LBB1_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1035
-
-LBB1_1034:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1034
-
-LBB1_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1036:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1036
-	JMP  LBB1_1109
-
-LBB1_238:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_240
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_594
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_594
-
-LBB1_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1043
-
-LBB1_1042:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1042
-
-LBB1_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1044:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1044
-	JMP  LBB1_1109
-
-LBB1_241:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_243
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_597
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_597
-
-LBB1_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1051
-
-LBB1_1050:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1050
-
-LBB1_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1052:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1052
-	JMP  LBB1_1109
-
-LBB1_244:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_246
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_600
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_600
-
-LBB1_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1059
-
-LBB1_1058:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1058
-
-LBB1_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1060:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1060
-	JMP  LBB1_1109
-
-LBB1_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_249
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_603
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_603
-
-LBB1_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1067
-
-LBB1_1066:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1066
-
-LBB1_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1068:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1068
-	JMP  LBB1_1109
-
-LBB1_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_252
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_606
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_606
-
-LBB1_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1073:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1075
-
-LBB1_1074:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1074
-
-LBB1_1075:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1076:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1076
-	JMP  LBB1_1109
-
-LBB1_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_255
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_609
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_609
-
-LBB1_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1081:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1083
-
-LBB1_1082:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1082
-
-LBB1_1083:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1084:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1084
-	JMP  LBB1_1109
-
-LBB1_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_258
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_612
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_612
-
-LBB1_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1089:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1091
-
-LBB1_1090:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1090
-
-LBB1_1091:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1092:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1092
-	JMP  LBB1_1109
-
-LBB1_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_261
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_615
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_615
-
-LBB1_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1097:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1099
-
-LBB1_1098:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1098
-
-LBB1_1099:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1100:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1100
-	JMP  LBB1_1109
-
-LBB1_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_264
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_618
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_618
-
-LBB1_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1105:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1107
-
-LBB1_1106:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1106
-
-LBB1_1107:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1108:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1108
-	JMP  LBB1_1109
-
-LBB1_445:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_661
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_447:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_447
-	JMP  LBB1_662
-
-LBB1_448:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_669
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_450:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_450
-	JMP  LBB1_670
-
-LBB1_451:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_677
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_453:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_453
-	JMP  LBB1_678
-
-LBB1_454:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_685
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_456:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_456
-	JMP  LBB1_686
-
-LBB1_457:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_693
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_459:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_459
-	JMP  LBB1_694
-
-LBB1_460:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_701
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_462:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_462
-	JMP  LBB1_702
-
-LBB1_463:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_709
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_465:
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_465
-	JMP  LBB1_710
-
-LBB1_466:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_468:
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_468
-	JMP  LBB1_718
-
-LBB1_469:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_471:
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_471
-	JMP  LBB1_726
-
-LBB1_472:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_733
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_474:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
-	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
-	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
-	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
-	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
-	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
-	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_474
-	JMP  LBB1_734
-
-LBB1_475:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_741
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_477:
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_477
-	JMP  LBB1_742
-
-LBB1_478:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_749
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_480:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
-	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
-	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
-	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
-	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
-	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
-	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_480
-	JMP  LBB1_750
-
-LBB1_481:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_621
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_623
-
-LBB1_483:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_631
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_633
-
-LBB1_485:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_757
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_487:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_487
-	JMP  LBB1_758
-
-LBB1_488:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_765
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_490:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_490
-	JMP  LBB1_766
-
-LBB1_491:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_773
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_493:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_493
-	JMP  LBB1_774
-
-LBB1_494:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_781
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_496:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_496
-	JMP  LBB1_782
-
-LBB1_497:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_789
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_499:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_499
-	JMP  LBB1_790
-
-LBB1_500:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_797
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_502:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_502
-	JMP  LBB1_798
-
-LBB1_503:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_805
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_505:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_505
-	JMP  LBB1_806
-
-LBB1_506:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_813
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_508:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_508
-	JMP  LBB1_814
-
-LBB1_509:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_821
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_511:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_511
-	JMP  LBB1_822
-
-LBB1_512:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_829
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_514:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_514
-	JMP  LBB1_830
-
-LBB1_515:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_837
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_517:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_517
-	JMP  LBB1_838
-
-LBB1_518:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_845
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_520:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_520
-	JMP  LBB1_846
-
-LBB1_521:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_853
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_523:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_523
-	JMP  LBB1_854
-
-LBB1_524:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_861
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_526:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_526
-	JMP  LBB1_862
-
-LBB1_527:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_869
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_529:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_529
-	JMP  LBB1_870
-
-LBB1_530:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_877
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_532:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_532
-	JMP  LBB1_878
-
-LBB1_533:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_885
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_535:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_535
-	JMP  LBB1_886
-
-LBB1_536:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_893
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_538:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_538
-	JMP  LBB1_894
-
-LBB1_539:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_901
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_541:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_541
-	JMP  LBB1_902
-
-LBB1_542:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_909
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_544:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_544
-	JMP  LBB1_910
-
-LBB1_545:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_917
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_547:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_547
-	JMP  LBB1_918
-
-LBB1_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_925
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_550:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_550
-	JMP  LBB1_926
-
-LBB1_551:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_933
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_553:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_553
-	JMP  LBB1_934
-
-LBB1_554:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_941
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_556:
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_556
-	JMP  LBB1_942
-
-LBB1_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_949
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_559:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_559
-	JMP  LBB1_950
-
-LBB1_560:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_957
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_562:
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_562
-	JMP  LBB1_958
-
-LBB1_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_965
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_565:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_565
-	JMP  LBB1_966
-
-LBB1_566:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_568:
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_568
-	JMP  LBB1_974
-
-LBB1_569:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_981
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_571:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_571
-	JMP  LBB1_982
-
-LBB1_572:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_989
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_574:
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
-	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
-	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
-	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
-	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
-	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
-	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_574
-	JMP  LBB1_990
-
-LBB1_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_997
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_577:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_577
-	JMP  LBB1_998
-
-LBB1_578:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_1005
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_580:
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_580
-	JMP  LBB1_1006
-
-LBB1_581:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1013
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_583:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_583
-	JMP  LBB1_1014
-
-LBB1_584:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_1021
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_586:
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
-	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
-	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
-	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
-	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
-	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
-	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_586
-	JMP  LBB1_1022
-
-LBB1_587:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_641
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_643
-
-LBB1_589:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_651
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_653
-
-LBB1_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1029
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_593:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_593
-	JMP  LBB1_1030
-
-LBB1_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1037
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_596:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_596
-	JMP  LBB1_1038
-
-LBB1_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1045
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_599:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_599
-	JMP  LBB1_1046
-
-LBB1_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1053
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_602:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_602
-	JMP  LBB1_1054
-
-LBB1_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1061
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_605:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_605
-	JMP  LBB1_1062
-
-LBB1_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1069
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_608:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_608
-	JMP  LBB1_1070
-
-LBB1_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1077
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_611:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_611
-	JMP  LBB1_1078
-
-LBB1_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1085
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_614:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_614
-	JMP  LBB1_1086
-
-LBB1_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1093
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_617:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_617
-	JMP  LBB1_1094
-
-LBB1_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1101
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_620:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_620
-	JMP  LBB1_1102
-
-LBB1_621:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_622:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_622
-
-LBB1_623:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_626
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_625:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_625
-
-LBB1_626:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_627
-
-LBB1_631:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_632:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_632
-
-LBB1_633:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_636
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_635:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_635
-
-LBB1_636:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_637
-
-LBB1_641:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_642:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_642
-
-LBB1_643:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_646
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_645:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_645
-
-LBB1_646:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_647
-
-LBB1_651:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_652:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_652
-
-LBB1_653:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_656
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_655:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_655
-
-LBB1_656:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_657
-
-LBB1_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_664
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_665
-
-LBB1_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_672
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_672:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_673
-
-LBB1_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_680
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_680:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_681
-
-LBB1_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_688
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_688:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_689
-
-LBB1_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_696
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_696:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_697
-
-LBB1_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_704
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_704:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_705
-
-LBB1_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_712
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_712:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_713
-
-LBB1_717:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_720
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_720:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_721
-
-LBB1_725:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_728
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_728:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_729
-
-LBB1_733:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_736
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-
-LBB1_736:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_737
-
-LBB1_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_744
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_744:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_745
-
-LBB1_749:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_752
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-
-LBB1_752:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_753
-
-LBB1_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_760
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_761
-
-LBB1_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_768
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_769
-
-LBB1_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_776
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_777
-
-LBB1_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_784
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_785
-
-LBB1_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_792
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_793
-
-LBB1_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_800
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_801
-
-LBB1_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_808
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_809
-
-LBB1_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_816
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_817
-
-LBB1_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_824
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_825
-
-LBB1_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_832
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_833
-
-LBB1_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_840
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_841
-
-LBB1_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_848
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_849
-
-LBB1_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_856
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_857
-
-LBB1_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_864
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_865
-
-LBB1_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_872
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_873
-
-LBB1_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_880
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_881
-
-LBB1_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_888
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_889
-
-LBB1_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_894:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_896
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_896:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_897
-
-LBB1_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_902:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_904
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_904:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_905
-
-LBB1_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_912
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_913
-
-LBB1_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_918:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_920
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_920:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_921
-
-LBB1_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_928
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_929
-
-LBB1_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_934:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_936
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_936:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_937
-
-LBB1_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_944
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_944:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_945
-
-LBB1_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_950:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_952
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_952:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_953
-
-LBB1_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_960
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_960:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_961
-
-LBB1_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_966:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_968
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_968:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_969
-
-LBB1_973:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_976
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_976:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_977
-
-LBB1_981:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_984
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_984:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_985
-
-LBB1_989:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_992
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-
-LBB1_992:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_993
-
-LBB1_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1000
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1001
-
-LBB1_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1008
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_1008:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_1009
-
-LBB1_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1016
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1017
-
-LBB1_1021:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1024
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-
-LBB1_1024:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_1025
-
-LBB1_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1032
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1033
-
-LBB1_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1040
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1041
-
-LBB1_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1048
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1049
-
-LBB1_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1056
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1057
-
-LBB1_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1064
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1065
-
-LBB1_1069:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1070:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1072
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1072:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1073
-
-LBB1_1077:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1078:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1080
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1080:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1081
-
-LBB1_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1086:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1088
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1088:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1089
-
-LBB1_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1094:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1096
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1096:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1097
-
-LBB1_1101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1102:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1104
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1104:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB1_1105
-
-LBB1_1109:
-	VZEROUPPER
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA3<>(SB), 8, $32
-
-TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA3<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB2_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB2_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB2_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_11
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_445
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_445
-
-LBB2_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_667
-
-LBB2_666:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_666
-
-LBB2_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_668:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_668
-	JMP  LBB2_1109
-
-LBB2_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB2_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB2_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB2_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_22
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_448
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_448
-
-LBB2_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_673:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_675
-
-LBB2_674:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_674
-
-LBB2_675:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_676:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_676
-	JMP  LBB2_1109
-
-LBB2_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_30
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_451
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_451
-
-LBB2_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_681:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_683
-
-LBB2_682:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_682
-
-LBB2_683:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_684:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_684
-	JMP  LBB2_1109
-
-LBB2_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_38
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_454
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_454
-
-LBB2_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_689:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_691
-
-LBB2_690:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_690
-
-LBB2_691:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_692:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_692
-	JMP  LBB2_1109
-
-LBB2_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_46
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_457
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_457
-
-LBB2_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_697:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_699
-
-LBB2_698:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_698
-
-LBB2_699:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_700:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_700
-	JMP  LBB2_1109
-
-LBB2_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_54
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_460
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_460
-
-LBB2_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_705:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_707
-
-LBB2_706:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_706
-
-LBB2_707:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_708:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_708
-	JMP  LBB2_1109
-
-LBB2_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_61
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_463
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_463
-
-LBB2_61:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_713:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_715
-
-LBB2_714:
-	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_714
-
-LBB2_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_716:
-	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_716
-	JMP  LBB2_1109
-
-LBB2_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_68
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_466
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_466
-
-LBB2_68:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_721:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_723
-
-LBB2_722:
-	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_722
-
-LBB2_723:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_724:
-	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_724
-	JMP  LBB2_1109
-
-LBB2_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_75
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_469
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_469
-
-LBB2_75:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_729:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_731
-
-LBB2_730:
-	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_730
-
-LBB2_731:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_732:
-	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_732
-	JMP  LBB2_1109
-
-LBB2_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_82
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_472
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_472
-
-LBB2_82:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_737:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_739
-
-LBB2_738:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_738
-
-LBB2_739:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_740:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_740
-	JMP  LBB2_1109
-
-LBB2_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_89
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_475
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_475
-
-LBB2_89:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_745:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_747
-
-LBB2_746:
-	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_746
-
-LBB2_747:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_748:
-	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_748
-	JMP  LBB2_1109
-
-LBB2_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_96
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_478
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_478
-
-LBB2_96:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_753:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_755
-
-LBB2_754:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_754
-
-LBB2_755:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_756:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_756
-	JMP  LBB2_1109
-
-LBB2_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_101
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_481
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_481
-
-LBB2_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_627:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_629
-
-LBB2_628:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_628
-
-LBB2_629:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_630:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_630
-	JMP  LBB2_1109
-
-LBB2_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_106
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_483
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_483
-
-LBB2_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_637:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_639
-
-LBB2_638:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_638
-
-LBB2_639:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_640:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_640
-	JMP  LBB2_1109
-
-LBB2_107:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_235
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_111
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_485
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_485
-
-LBB2_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_763
-
-LBB2_762:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_762
-
-LBB2_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_764:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_764
-	JMP  LBB2_1109
-
-LBB2_112:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_238
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_116
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_488
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_488
-
-LBB2_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_771
-
-LBB2_770:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_770
-
-LBB2_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_772:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_772
-	JMP  LBB2_1109
-
-LBB2_117:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_241
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_121
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_491
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_491
-
-LBB2_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_779
-
-LBB2_778:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_778
-
-LBB2_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_780:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_780
-	JMP  LBB2_1109
-
-LBB2_122:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_244
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_126
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_494
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_494
-
-LBB2_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_787
-
-LBB2_786:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_786
-
-LBB2_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_788:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_788
-	JMP  LBB2_1109
-
-LBB2_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_131
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_497
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_497
-
-LBB2_131:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_795
-
-LBB2_794:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_794
-
-LBB2_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_796:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_796
-	JMP  LBB2_1109
-
-LBB2_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_136
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_500
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_500
-
-LBB2_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_803
-
-LBB2_802:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_802
-
-LBB2_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_804:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_804
-	JMP  LBB2_1109
-
-LBB2_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_141
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_503
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_503
-
-LBB2_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_811
-
-LBB2_810:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_810
-
-LBB2_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_812:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_812
-	JMP  LBB2_1109
-
-LBB2_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_146
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_506
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_506
-
-LBB2_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_817:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_819
-
-LBB2_818:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_818
-
-LBB2_819:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_820:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_820
-	JMP  LBB2_1109
-
-LBB2_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_151
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_509
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_509
-
-LBB2_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_827
-
-LBB2_826:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_826
-
-LBB2_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_828:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_828
-	JMP  LBB2_1109
-
-LBB2_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_156
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_512
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_512
-
-LBB2_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_833:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_835
-
-LBB2_834:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_834
-
-LBB2_835:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_836:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_836
-	JMP  LBB2_1109
-
-LBB2_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_159
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_515
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_515
-
-LBB2_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_843
-
-LBB2_842:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_842
-
-LBB2_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_844:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_844
-	JMP  LBB2_1109
-
-LBB2_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_162
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_518
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_518
-
-LBB2_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_851
-
-LBB2_850:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_850
-
-LBB2_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_852:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_852
-	JMP  LBB2_1109
-
-LBB2_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_165
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_521
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_521
-
-LBB2_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_859
-
-LBB2_858:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_858
-
-LBB2_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_860:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_860
-	JMP  LBB2_1109
-
-LBB2_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_168
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_524
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_524
-
-LBB2_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_867
-
-LBB2_866:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_866
-
-LBB2_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_868:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_868
-	JMP  LBB2_1109
-
-LBB2_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_171
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_527
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_527
-
-LBB2_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_875
-
-LBB2_874:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_874
-
-LBB2_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_876:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_876
-	JMP  LBB2_1109
-
-LBB2_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_174
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_530
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_530
-
-LBB2_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_883
-
-LBB2_882:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_882
-
-LBB2_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_884:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_884
-	JMP  LBB2_1109
-
-LBB2_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_177
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_533
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_533
-
-LBB2_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_891
-
-LBB2_890:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_890
-
-LBB2_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_892:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_892
-	JMP  LBB2_1109
-
-LBB2_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_180
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_536
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_536
-
-LBB2_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_897:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_899
-
-LBB2_898:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_898
-
-LBB2_899:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_900:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_900
-	JMP  LBB2_1109
-
-LBB2_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_183
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_539
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_539
-
-LBB2_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_905:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_907
-
-LBB2_906:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_906
-
-LBB2_907:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_908:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_908
-	JMP  LBB2_1109
-
-LBB2_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_186
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_542
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_542
-
-LBB2_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_915
-
-LBB2_914:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_914
-
-LBB2_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_916:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_916
-	JMP  LBB2_1109
-
-LBB2_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_189
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_545
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_545
-
-LBB2_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_921:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_923
-
-LBB2_922:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_922
-
-LBB2_923:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_924:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_924
-	JMP  LBB2_1109
-
-LBB2_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_192
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_548
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_548
-
-LBB2_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_931
-
-LBB2_930:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_930
-
-LBB2_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_932:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_932
-	JMP  LBB2_1109
-
-LBB2_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_195
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_551
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_551
-
-LBB2_195:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_937:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_939
-
-LBB2_938:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_938
-
-LBB2_939:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_940:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_940
-	JMP  LBB2_1109
-
-LBB2_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_198
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_554
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_554
-
-LBB2_198:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_945:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_947
-
-LBB2_946:
-	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_946
-
-LBB2_947:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_948:
-	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_948
-	JMP  LBB2_1109
-
-LBB2_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_201
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_557
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_557
-
-LBB2_201:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_953:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_955
-
-LBB2_954:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_954
-
-LBB2_955:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_956:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_956
-	JMP  LBB2_1109
-
-LBB2_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_560
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_560
-
-LBB2_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_961:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_963
-
-LBB2_962:
-	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_962
-
-LBB2_963:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_964:
-	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_964
-	JMP  LBB2_1109
-
-LBB2_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_207
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_563
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_563
-
-LBB2_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_969:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_971
-
-LBB2_970:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_970
-
-LBB2_971:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_972:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_972
-	JMP  LBB2_1109
-
-LBB2_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_210
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_566
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_566
-
-LBB2_210:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_977:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_979
-
-LBB2_978:
-	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_978
-
-LBB2_979:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_980:
-	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_980
-	JMP  LBB2_1109
-
-LBB2_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_213
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_569
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_569
-
-LBB2_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_985:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_987
-
-LBB2_986:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_986
-
-LBB2_987:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_988:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_988
-	JMP  LBB2_1109
-
-LBB2_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_216
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_572
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_572
-
-LBB2_216:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_993:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_995
-
-LBB2_994:
-	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_994
-
-LBB2_995:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_996:
-	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_996
-	JMP  LBB2_1109
-
-LBB2_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_219
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_575
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_575
-
-LBB2_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1003
-
-LBB2_1002:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1002
-
-LBB2_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1004:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1004
-	JMP  LBB2_1109
-
-LBB2_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_222
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_578
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_578
-
-LBB2_222:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_1009:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1011
-
-LBB2_1010:
-	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_1010
-
-LBB2_1011:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_1012:
-	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_1012
-	JMP  LBB2_1109
-
-LBB2_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_225
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_581
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_581
-
-LBB2_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1017:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1019
-
-LBB2_1018:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1018
-
-LBB2_1019:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1020:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1020
-	JMP  LBB2_1109
-
-LBB2_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_228
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_584
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_584
-
-LBB2_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_1025:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1027
-
-LBB2_1026:
-	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_1026
-
-LBB2_1027:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_1028:
-	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_1028
-	JMP  LBB2_1109
-
-LBB2_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_231
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_587
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_587
-
-LBB2_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_647:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_649
-
-LBB2_648:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_648
-
-LBB2_649:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_650:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_650
-	JMP  LBB2_1109
-
-LBB2_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_234
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_589
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_589
-
-LBB2_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_657:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_659
-
-LBB2_658:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_658
-
-LBB2_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_660:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_660
-	JMP  LBB2_1109
-
-LBB2_235:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_237
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_591
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_591
-
-LBB2_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1035
-
-LBB2_1034:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1034
-
-LBB2_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1036:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1036
-	JMP  LBB2_1109
-
-LBB2_238:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_240
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_594
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_594
-
-LBB2_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1043
-
-LBB2_1042:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1042
-
-LBB2_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1044:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1044
-	JMP  LBB2_1109
-
-LBB2_241:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_243
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_597
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_597
-
-LBB2_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1051
-
-LBB2_1050:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1050
-
-LBB2_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1052:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1052
-	JMP  LBB2_1109
-
-LBB2_244:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_246
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_600
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_600
-
-LBB2_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1059
-
-LBB2_1058:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1058
-
-LBB2_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1060:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1060
-	JMP  LBB2_1109
-
-LBB2_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_603
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_603
-
-LBB2_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1067
-
-LBB2_1066:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1066
-
-LBB2_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1068:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1068
-	JMP  LBB2_1109
-
-LBB2_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_252
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_606
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_606
-
-LBB2_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1073:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1075
-
-LBB2_1074:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1074
-
-LBB2_1075:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1076:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1076
-	JMP  LBB2_1109
-
-LBB2_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_255
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_609
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_609
-
-LBB2_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1081:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1083
-
-LBB2_1082:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1082
-
-LBB2_1083:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1084:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1084
-	JMP  LBB2_1109
-
-LBB2_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_258
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_612
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_612
-
-LBB2_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1089:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1091
-
-LBB2_1090:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1090
-
-LBB2_1091:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1092:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1092
-	JMP  LBB2_1109
-
-LBB2_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_261
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_615
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_615
-
-LBB2_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1097:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1099
-
-LBB2_1098:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1098
-
-LBB2_1099:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1100:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1100
-	JMP  LBB2_1109
-
-LBB2_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_264
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_618
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_618
-
-LBB2_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1105:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1107
-
-LBB2_1106:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1106
-
-LBB2_1107:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1108:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1108
-	JMP  LBB2_1109
-
-LBB2_445:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_661
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_447:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_447
-	JMP  LBB2_662
-
-LBB2_448:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_669
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_450:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_450
-	JMP  LBB2_670
-
-LBB2_451:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_677
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_453:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_453
-	JMP  LBB2_678
-
-LBB2_454:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_685
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_456:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_456
-	JMP  LBB2_686
-
-LBB2_457:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_693
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_459:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_459
-	JMP  LBB2_694
-
-LBB2_460:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_701
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_462:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_462
-	JMP  LBB2_702
-
-LBB2_463:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_709
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_465:
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_465
-	JMP  LBB2_710
-
-LBB2_466:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_468:
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_468
-	JMP  LBB2_718
-
-LBB2_469:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_471:
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_471
-	JMP  LBB2_726
-
-LBB2_472:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_733
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_474:
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_474
-	JMP  LBB2_734
-
-LBB2_475:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_741
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_477:
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_477
-	JMP  LBB2_742
-
-LBB2_478:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_749
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_480:
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_480
-	JMP  LBB2_750
-
-LBB2_481:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_621
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_623
-
-LBB2_483:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_631
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_633
-
-LBB2_485:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_757
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_487:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_487
-	JMP  LBB2_758
-
-LBB2_488:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_765
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_490:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_490
-	JMP  LBB2_766
-
-LBB2_491:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_773
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_493:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_493
-	JMP  LBB2_774
-
-LBB2_494:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_781
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_496:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_496
-	JMP  LBB2_782
-
-LBB2_497:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_789
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_499:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_499
-	JMP  LBB2_790
-
-LBB2_500:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_797
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_502:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_502
-	JMP  LBB2_798
-
-LBB2_503:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_805
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_505:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_505
-	JMP  LBB2_806
-
-LBB2_506:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_813
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_508:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_508
-	JMP  LBB2_814
-
-LBB2_509:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_821
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_511:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_511
-	JMP  LBB2_822
-
-LBB2_512:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_829
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_514:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_514
-	JMP  LBB2_830
-
-LBB2_515:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_837
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_517:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_517
-	JMP  LBB2_838
-
-LBB2_518:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_845
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_520:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_520
-	JMP  LBB2_846
-
-LBB2_521:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_853
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_523:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_523
-	JMP  LBB2_854
-
-LBB2_524:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_861
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_526:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_526
-	JMP  LBB2_862
-
-LBB2_527:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_869
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_529:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_529
-	JMP  LBB2_870
-
-LBB2_530:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_877
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_532:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_532
-	JMP  LBB2_878
-
-LBB2_533:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_885
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_535:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_535
-	JMP  LBB2_886
-
-LBB2_536:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_893
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_538:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_538
-	JMP  LBB2_894
-
-LBB2_539:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_901
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_541:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_541
-	JMP  LBB2_902
-
-LBB2_542:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_909
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_544:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_544
-	JMP  LBB2_910
-
-LBB2_545:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_917
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_547:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_547
-	JMP  LBB2_918
-
-LBB2_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_925
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_550:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_550
-	JMP  LBB2_926
-
-LBB2_551:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_933
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_553:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_553
-	JMP  LBB2_934
-
-LBB2_554:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_941
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_556:
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_556
-	JMP  LBB2_942
-
-LBB2_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_949
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_559:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_559
-	JMP  LBB2_950
-
-LBB2_560:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_957
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_562:
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_562
-	JMP  LBB2_958
-
-LBB2_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_965
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_565:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_565
-	JMP  LBB2_966
-
-LBB2_566:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_568:
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_568
-	JMP  LBB2_974
-
-LBB2_569:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_981
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_571:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_571
-	JMP  LBB2_982
-
-LBB2_572:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_989
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_574:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_574
-	JMP  LBB2_990
-
-LBB2_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_997
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_577:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_577
-	JMP  LBB2_998
-
-LBB2_578:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_1005
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_580:
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_580
-	JMP  LBB2_1006
-
-LBB2_581:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1013
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_583:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_583
-	JMP  LBB2_1014
-
-LBB2_584:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_1021
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_586:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_586
-	JMP  LBB2_1022
-
-LBB2_587:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_641
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_643
-
-LBB2_589:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_651
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_653
-
-LBB2_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1029
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_593:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_593
-	JMP  LBB2_1030
-
-LBB2_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1037
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_596:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_596
-	JMP  LBB2_1038
-
-LBB2_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1045
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_599:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_599
-	JMP  LBB2_1046
-
-LBB2_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1053
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_602:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_602
-	JMP  LBB2_1054
-
-LBB2_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1061
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_605:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_605
-	JMP  LBB2_1062
-
-LBB2_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1069
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_608:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_608
-	JMP  LBB2_1070
-
-LBB2_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1077
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_611:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_611
-	JMP  LBB2_1078
-
-LBB2_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1085
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_614:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_614
-	JMP  LBB2_1086
-
-LBB2_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1093
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_617:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_617
-	JMP  LBB2_1094
-
-LBB2_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1101
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_620:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_620
-	JMP  LBB2_1102
-
-LBB2_621:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_622:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_622
-
-LBB2_623:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_626
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_625:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_625
-
-LBB2_626:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_627
-
-LBB2_631:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_632:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_632
-
-LBB2_633:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_636
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_635:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_635
-
-LBB2_636:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_637
-
-LBB2_641:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_642:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_642
-
-LBB2_643:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_646
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_645:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_645
-
-LBB2_646:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_647
-
-LBB2_651:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_652:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_652
-
-LBB2_653:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_656
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_655:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_655
-
-LBB2_656:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_657
-
-LBB2_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_664
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_665
-
-LBB2_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_672
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_672:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_673
-
-LBB2_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_680
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_680:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_681
-
-LBB2_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_688
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_688:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_689
-
-LBB2_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_696
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_696:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_697
-
-LBB2_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_704
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_704:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_705
-
-LBB2_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_712
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_712:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_713
-
-LBB2_717:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_720
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_720:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_721
-
-LBB2_725:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_728
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_728:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_729
-
-LBB2_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_736
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_736:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_737
-
-LBB2_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_744
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_744:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_745
-
-LBB2_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_752
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_752:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_753
-
-LBB2_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_760
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_761
-
-LBB2_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_768
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_769
-
-LBB2_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_776
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_777
-
-LBB2_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_784
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_785
-
-LBB2_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_792
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_793
-
-LBB2_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_800
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_801
-
-LBB2_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_808
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_809
-
-LBB2_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_816
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_817
-
-LBB2_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_824
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_825
-
-LBB2_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_832
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_833
-
-LBB2_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_840
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_841
-
-LBB2_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_848
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_849
-
-LBB2_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_856
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_857
-
-LBB2_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_864
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_865
-
-LBB2_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_872
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_873
-
-LBB2_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_880
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_881
-
-LBB2_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_888
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_889
-
-LBB2_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_894:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_896
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_896:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_897
-
-LBB2_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_902:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_904
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_904:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_905
-
-LBB2_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_912
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_913
-
-LBB2_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_918:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_920
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_920:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_921
-
-LBB2_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_928
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_929
-
-LBB2_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_934:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_936
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_936:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_937
-
-LBB2_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_944
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_944:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_945
-
-LBB2_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_950:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_952
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_952:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_953
-
-LBB2_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_960
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_960:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_961
-
-LBB2_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_966:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_968
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_968:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_969
-
-LBB2_973:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_976
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_976:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_977
-
-LBB2_981:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_984
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_984:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_985
-
-LBB2_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_992
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_992:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_993
-
-LBB2_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1000
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1001
-
-LBB2_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1008
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_1008:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_1009
-
-LBB2_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1016
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1017
-
-LBB2_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1024
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_1024:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_1025
-
-LBB2_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1032
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1033
-
-LBB2_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1040
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1041
-
-LBB2_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1048
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1049
-
-LBB2_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1056
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1057
-
-LBB2_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1064
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1065
-
-LBB2_1069:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1070:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1072
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1072:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1073
-
-LBB2_1077:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1078:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1080
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1080:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1081
-
-LBB2_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1086:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1088
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1088:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1089
-
-LBB2_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1094:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1096
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1096:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1097
-
-LBB2_1101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1102:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1104
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1104:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB2_1105
-
-LBB2_1109:
-	VZEROUPPER
-	RET
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x018(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x020(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x028(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x030(SB)/8, $0x000000000c080400
-DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x040(SB)/8, $0x8000000000000001
-DATA LCDATA4<>+0x048(SB)/8, $0x000000007fffffff
-DATA LCDATA4<>+0x050(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x060(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x068(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x070(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x078(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x088(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x090(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x098(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x0a0(SB)/8, $0x0d0c090805040100
-DATA LCDATA4<>+0x0a8(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA4<>+0x0b0(SB)/8, $0x1d1c191815141110
-DATA LCDATA4<>+0x0b8(SB)/8, $0x1f1e1d1c1d1c1918
-GLOBL LCDATA4<>(SB), 8, $192
-
-TEXT ·_arithmetic_unary_same_types_avx2(SB), $0-40
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ input+16(FP), DX
-	MOVQ output+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA4<>(SB), BP
-
-	LONG $0x13fe8040         // cmp    sil, 19
-	JLE  LBB3_12
-	LONG $0x14fe8040         // cmp    sil, 20
-	JE   LBB3_22
-	LONG $0x19fe8040         // cmp    sil, 25
-	JE   LBB3_30
-	LONG $0x1afe8040         // cmp    sil, 26
-	JNE  LBB3_865
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_81
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_131
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_134
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB3_221
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_373
-
-LBB3_12:
-	LONG $0x04fe8040         // cmp    sil, 4
-	JE   LBB3_38
-	LONG $0x05fe8040         // cmp    sil, 5
-	JNE  LBB3_865
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_53
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_86
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_137
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_140
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_21
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_374
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_374
-
-LBB3_21:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_616:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_618
-
-LBB3_617:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_617
-
-LBB3_618:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_619:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_619
-	JMP  LBB3_865
-
-LBB3_22:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_91
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_143
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_146
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_29
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_377
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_377
-
-LBB3_29:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_380:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_382
-
-LBB3_381:
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
-	LONG $0xd7950f40         // setne    dil
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_381
-
-LBB3_382:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_383:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_383
-	JMP  LBB3_865
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_67
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_96
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_149
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_152
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_37
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_384
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_384
-
-LBB3_37:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_624:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_626
-
-LBB3_625:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_625
-
-LBB3_626:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_627:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_627
-	JMP  LBB3_865
-
-LBB3_38:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_74
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_101
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_155
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_158
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_45
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_387
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_387
-
-LBB3_45:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_632:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_634
-
-LBB3_633:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_633
-
-LBB3_634:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_635:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_635
-	JMP  LBB3_865
-
-LBB3_46:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_106
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_161
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_52
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_390
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_390
-
-LBB3_52:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_640:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_643
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_642:
-	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_642
-
-LBB3_643:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_645:
-	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_645
-	JMP  LBB3_865
-
-LBB3_53:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_111
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_167
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_59
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_393
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_393
-
-LBB3_59:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_650:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_653
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_652:
-	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_652
-
-LBB3_653:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_655:
-	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_655
-	JMP  LBB3_865
-
-LBB3_60:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_116
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_173
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_176
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_66
-	LONG $0xc2348d48         // lea    rsi, [rdx + 8*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_396
-	LONG $0xc1348d48         // lea    rsi, [rcx + 8*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_396
-
-LBB3_66:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_399:
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7     // not    rdi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_401
-	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x4d54f9c5; BYTE $0x20 // vandpd    xmm1, xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xc956e9c5             // vorpd    xmm1, xmm2, xmm1
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xc2c2fbc5; BYTE $0x00 // vcmpeqsd    xmm0, xmm0, xmm2
-	LONG $0xc155f9c5             // vandnpd    xmm0, xmm0, xmm1
-	LONG $0x0413f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_401:
-	WORD $0x0148; BYTE $0xc7     // add    rdi, rax
-	JE   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB3_403:
-	LONG $0x1c10fbc5; BYTE $0xf2   // vmovsd    xmm3, qword [rdx + 8*rsi]
-	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm3
-	LONG $0x5c10fbc5; WORD $0x08f2 // vmovsd    xmm3, qword [rdx + 8*rsi + 8]
-	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x5c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm3
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_403
-	JMP  LBB3_865
-
-LBB3_67:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_121
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_179
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_182
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_73
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_404
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_404
-
-LBB3_73:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_660:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_662
-
-LBB3_661:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_661
-
-LBB3_662:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_663:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_663
-	JMP  LBB3_865
-
-LBB3_74:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_126
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_185
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_188
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_80
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_407
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_407
-
-LBB3_80:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_668:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_670
-
-LBB3_669:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_669
-
-LBB3_670:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_671:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_671
-	JMP  LBB3_865
-
-LBB3_81:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_191
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_85
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_410
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_410
-
-LBB3_85:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_676:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_678
-
-LBB3_677:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_677
-
-LBB3_678:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_679:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_679
-	JMP  LBB3_865
-
-LBB3_86:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_194
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_90
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_413
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_413
-
-LBB3_90:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_684:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_686
-
-LBB3_685:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_685
-
-LBB3_686:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_687:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_687
-	JMP  LBB3_865
-
-LBB3_91:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_197
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3                   // mov    r11d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_95
-	LONG $0x1a348d4a                           // lea    rsi, [rdx + r11]
-	WORD $0x3948; BYTE $0xce                   // cmp    rsi, rcx
-	JBE  LBB3_416
-	LONG $0x19348d4a                           // lea    rsi, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6                   // cmp    rsi, rdx
-	JBE  LBB3_416
-
-LBB3_95:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_419:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_421
-	LONG $0x32048a44             // mov    r8b, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
-	LONG $0xc1b60f45             // movzx    r8d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf84e0f41             // cmovle    edi, r8d
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_421:
-	WORD $0x014d; BYTE $0xda     // add    r10, r11
-	JE   LBB3_865
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB3_423:
-	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB3_423
-	JMP  LBB3_865
-
-LBB3_96:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_200
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_100
-	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_424
-	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_424
-
-LBB3_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_427:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_429
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
-	LONG $0x07f9c141         // sar    r9d, 7
-	WORD $0x0144; BYTE $0xcf // add    edi, r9d
-	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_429:
-	WORD $0x014d; BYTE $0xd0 // add    r8, r10
-	JE   LBB3_865
-
-LBB3_430:
-	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
-	WORD $0xf889                 // mov    eax, edi
-	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
-	WORD $0xc701                 // add    edi, eax
-	WORD $0xc731                 // xor    edi, eax
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_430
-	JMP  LBB3_865
-
-LBB3_101:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_203
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_105
-	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_431
-	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_431
-
-LBB3_105:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_434:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_436
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
-	LONG $0x07f9c141         // sar    r9d, 7
-	WORD $0x0144; BYTE $0xcf // add    edi, r9d
-	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_436:
-	WORD $0x014d; BYTE $0xd0 // add    r8, r10
-	JE   LBB3_865
-
-LBB3_437:
-	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
-	WORD $0xf889                 // mov    eax, edi
-	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
-	WORD $0xc701                 // add    edi, eax
-	WORD $0xc731                 // xor    edi, eax
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_437
-	JMP  LBB3_865
-
-LBB3_106:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_206
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB3_265
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_444
-
-LBB3_111:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_209
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_115
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_445
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_445
-
-LBB3_115:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_692:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_694
-
-LBB3_693:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_693
-
-LBB3_694:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_695:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_695
-	JMP  LBB3_865
-
-LBB3_116:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_212
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_120
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_448
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_448
-
-LBB3_120:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_451:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_453
-
-LBB3_452:
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
-	LONG $0xd7950f40             // setne    dil
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB3_452
-
-LBB3_453:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_454:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_454
-	JMP  LBB3_865
-
-LBB3_121:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_215
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_125
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_455
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_455
-
-LBB3_125:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_700:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_702
-
-LBB3_701:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_701
-
-LBB3_702:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_703:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_703
-	JMP  LBB3_865
-
-LBB3_126:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_218
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_130
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_458
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_458
-
-LBB3_130:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_708:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_710
-
-LBB3_709:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_709
-
-LBB3_710:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_711:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_711
-	JMP  LBB3_865
-
-LBB3_131:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JAE  LBB3_279
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_467
-
-LBB3_134:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_136
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_468
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_468
-
-LBB3_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_716:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_718
-
-LBB3_717:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_717
-
-LBB3_718:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_719:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_719
-	JMP  LBB3_865
-
-LBB3_137:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_139
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_471
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_471
-
-LBB3_139:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_724:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_726
-
-LBB3_725:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_725
-
-LBB3_726:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_727:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_727
-	JMP  LBB3_865
-
-LBB3_140:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_142
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_474
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_474
-
-LBB3_142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_732:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_734
-
-LBB3_733:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_733
-
-LBB3_734:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_735:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_735
-	JMP  LBB3_865
-
-LBB3_143:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_145
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_477
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_477
-
-LBB3_145:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_740:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_742
-
-LBB3_741:
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
-	LONG $0xd7950f40             // setne    dil
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB3_741
-
-LBB3_742:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_743:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_743
-	JMP  LBB3_865
-
-LBB3_146:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_148
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_480
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_480
-
-LBB3_148:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_748:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_750
-	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_750:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_752:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc04f0f41             // cmovg    eax, r8d
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xf84f0f41             // cmovg    edi, r8d
-	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_752
-	JMP  LBB3_865
-
-LBB3_149:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_151
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_483
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_483
-
-LBB3_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_598:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_600
-
-LBB3_599:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_599
-
-LBB3_600:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_601:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_601
-	JMP  LBB3_865
-
-LBB3_152:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_154
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_485
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_485
-
-LBB3_154:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_757:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_759
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_759:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_865
-
-LBB3_760:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_760
-	JMP  LBB3_865
-
-LBB3_155:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_157
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_488
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_488
-
-LBB3_157:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_608:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_610
-
-LBB3_609:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_609
-
-LBB3_610:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_611:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_611
-	JMP  LBB3_865
-
-LBB3_158:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_160
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_490
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_490
-
-LBB3_160:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_765:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_767
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_767:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_865
-
-LBB3_768:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_768
-	JMP  LBB3_865
-
-LBB3_161:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_163
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_493
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_493
-
-LBB3_163:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_773:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_775
-
-LBB3_774:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_774
-
-LBB3_775:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_776:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_776
-	JMP  LBB3_865
-
-LBB3_164:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_166
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_496
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_496
-
-LBB3_166:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_781:
-	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0       // not    rax
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_784
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_783:
-	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_783
-
-LBB3_784:
-	LONG $0x03f88348               // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_786:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_786
-	JMP  LBB3_865
-
-LBB3_167:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_169
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_499
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_499
-
-LBB3_169:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_791:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_793
-
-LBB3_792:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_792
-
-LBB3_793:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_794:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_794
-	JMP  LBB3_865
-
-LBB3_170:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_172
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_502
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_502
-
-LBB3_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_799:
-	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0       // not    rax
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_802
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_801:
-	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_801
-
-LBB3_802:
-	LONG $0x03f88348               // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_804:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_804
-	JMP  LBB3_865
-
-LBB3_173:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_175
-	LONG $0xda348d4a         // lea    rsi, [rdx + 8*r11]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_505
-	LONG $0xd9348d4a         // lea    rsi, [rcx + 8*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_505
-
-LBB3_175:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_508:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_510
-	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f49             // cmovle    rdi, r9
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_510:
-	WORD $0x014d; BYTE $0xda       // add    r10, r11
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_512:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB3_512
-	JMP  LBB3_865
-
-LBB3_176:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_178
-	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_513
-	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_513
-
-LBB3_178:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_516:
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0     // not    r8
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_518
-	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xf850f8c5             // vmovmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	LONG $0xcf2aaac5             // vcvtsi2ss    xmm1, xmm10, edi
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fac5; BYTE $0x00 // vcmpeqss    xmm0, xmm0, xmm2
-	LONG $0xc155f8c5             // vandnps    xmm0, xmm0, xmm1
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_518:
-	WORD $0x0149; BYTE $0xc0 // add    r8, rax
-	JE   LBB3_865
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB3_520:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
-	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
-	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_520
-	JMP  LBB3_865
-
-LBB3_179:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_181
-	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_521
-	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_521
-
-LBB3_181:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_524:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_526
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_526:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_527:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_527
-	JMP  LBB3_865
-
-LBB3_182:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_184
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_528
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_528
-
-LBB3_184:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_809:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_812
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_811:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_811
-
-LBB3_812:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_865
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_814:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_814
-	JMP  LBB3_865
-
-LBB3_185:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_187
-	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_531
-	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_531
-
-LBB3_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_534:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_536
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_536:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_537:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_537
-	JMP  LBB3_865
-
-LBB3_188:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_190
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_538
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_538
-
-LBB3_190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_819:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_822
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_821:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_821
-
-LBB3_822:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_865
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_824:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_824
-	JMP  LBB3_865
-
-LBB3_191:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JAE  LBB3_338
-	WORD $0xd231                               // xor    edx, edx
-	JMP  LBB3_547
-
-LBB3_194:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_196
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_548
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_548
-
-LBB3_196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_829:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_831
-
-LBB3_830:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_830
-
-LBB3_831:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_832:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_832
-	JMP  LBB3_865
-
-LBB3_197:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_199
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_551
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_551
-
-LBB3_199:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_554:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xcf // add    rdi, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_556
-
-LBB3_555:
-	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f // setne    byte [rcx + rsi]
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_555
-
-LBB3_556:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB3_865
-
-LBB3_557:
-	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f             // setne    byte [rcx + rsi]
-	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
-	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
-	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
-	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
-	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
-	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_557
-	JMP  LBB3_865
-
-LBB3_200:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_202
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_558
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_558
-
-LBB3_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_837:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_839
-
-LBB3_838:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_838
-
-LBB3_839:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_840:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_840
-	JMP  LBB3_865
-
-LBB3_203:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_205
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_561
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_561
-
-LBB3_205:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_845:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_847
-
-LBB3_846:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_846
-
-LBB3_847:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_848:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_848
-	JMP  LBB3_865
-
-LBB3_206:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_208
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_564
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_564
-
-LBB3_208:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_853:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_855
-
-LBB3_854:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_854
-
-LBB3_855:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_856:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_856
-	JMP  LBB3_865
-
-LBB3_209:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_211
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_567
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_567
-
-LBB3_211:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_861:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_863
-
-LBB3_862:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_862
-
-LBB3_863:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_864:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_864
-	JMP  LBB3_865
-
-LBB3_212:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_214
-	LONG $0x9a348d4a         // lea    rsi, [rdx + 4*r11]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_570
-	LONG $0x99348d4a         // lea    rsi, [rcx + 4*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_570
-
-LBB3_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_573:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_575
-	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf741; BYTE $0xd9     // neg    r9d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_575:
-	WORD $0x014d; BYTE $0xda       // add    r10, r11
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_577:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3 // cmp    r11, rsi
-	JNE  LBB3_577
-	JMP  LBB3_865
-
-LBB3_215:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_217
-	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_578
-	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_578
-
-LBB3_217:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_581:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_583
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_583:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_584:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JNE  LBB3_584
-	JMP  LBB3_865
-
-LBB3_218:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_220
-	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_585
-	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_585
-
-LBB3_220:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_588:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_590
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_590:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_591:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JNE  LBB3_591
-	JMP  LBB3_865
-
-LBB3_221:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0428d48         // lea    rax, [rdx - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x03 // and    esi, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_367
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_369
-
-LBB3_265:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0428d48         // lea    rax, [rdx - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x03 // and    esi, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_438
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_440
-
-LBB3_279:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0xc0       // and    edx, -64
-	LONG $0xc0428d48               // lea    rax, [rdx - 64]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x06efc148               // shr    rdi, 6
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x03       // and    esi, 3
-	LONG $0x00c03d48; WORD $0x0000 // cmp    rax, 192
-	JAE  LBB3_461
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_463
-
-LBB3_338:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0x80       // and    edx, -128
-	LONG $0x80428d48               // lea    rax, [rdx - 128]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x07efc148               // shr    rdi, 7
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x03       // and    esi, 3
-	LONG $0x01803d48; WORD $0x0000 // cmp    rax, 384
-	JAE  LBB3_541
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_543
-
-LBB3_374:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_612
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_376:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_376
-	JMP  LBB3_613
-
-LBB3_377:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_378:
-	LONG $0x1476fdc5; BYTE $0xba   // vpcmpeqd    ymm2, ymm0, yword [rdx + 4*rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20ba // vpcmpeqd    ymm3, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40ba // vpcmpeqd    ymm4, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6c76fdc5; WORD $0x60ba // vpcmpeqd    ymm5, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm5
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_378
-	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_380
-
-LBB3_384:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_620
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_386:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_386
-	JMP  LBB3_621
-
-LBB3_387:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_628
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_389:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_389
-	JMP  LBB3_629
-
-LBB3_390:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_636
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_392:
-	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_392
-	JMP  LBB3_637
-
-LBB3_393:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_646
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_395:
-	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_395
-	JMP  LBB3_647
-
-LBB3_396:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI3_1] */
-
-LBB3_397:
-	LONG $0x1c10fdc5; BYTE $0xfa   // vmovupd    ymm3, yword [rdx + 8*rdi]
-	LONG $0x6410fdc5; WORD $0x20fa // vmovupd    ymm4, yword [rdx + 8*rdi + 32]
-	LONG $0x6c10fdc5; WORD $0x40fa // vmovupd    ymm5, yword [rdx + 8*rdi + 64]
-	LONG $0x7410fdc5; WORD $0x60fa // vmovupd    ymm6, yword [rdx + 8*rdi + 96]
-	LONG $0xf954e5c5               // vandpd    ymm7, ymm3, ymm1
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc1545dc5               // vandpd    ymm8, ymm4, ymm1
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xc95455c5               // vandpd    ymm9, ymm5, ymm1
-	LONG $0xca5635c5               // vorpd    ymm9, ymm9, ymm2
-	LONG $0xd1544dc5               // vandpd    ymm10, ymm6, ymm1
-	LONG $0xd2562dc5               // vorpd    ymm10, ymm10, ymm2
-	LONG $0xd8c2e5c5; BYTE $0x04   // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdf54e5c5               // vandpd    ymm3, ymm3, ymm7
-	LONG $0xe0c2ddc5; BYTE $0x04   // vcmpneqpd    ymm4, ymm4, ymm0
-	LONG $0xe454bdc5               // vandpd    ymm4, ymm8, ymm4
-	LONG $0xe8c2d5c5; BYTE $0x04   // vcmpneqpd    ymm5, ymm5, ymm0
-	LONG $0xed54b5c5               // vandpd    ymm5, ymm9, ymm5
-	LONG $0xf0c2cdc5; BYTE $0x04   // vcmpneqpd    ymm6, ymm6, ymm0
-	LONG $0xf654adc5               // vandpd    ymm6, ymm10, ymm6
-	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
-	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
-	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
-	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_397
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_865
-	JMP  LBB3_399
-
-LBB3_404:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_656
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_406:
-	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_406
-	JMP  LBB3_657
-
-LBB3_407:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_664
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_409:
-	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_409
-	JMP  LBB3_665
-
-LBB3_410:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_672
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_412:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_412
-	JMP  LBB3_673
-
-LBB3_413:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_680
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_415:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_415
-	JMP  LBB3_681
-
-LBB3_416:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ffdc5 // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_417:
-	LONG $0x1c6ffec5; BYTE $0x3a   // vmovdqu    ymm3, yword [rdx + rdi]
-	LONG $0x646ffec5; WORD $0x203a // vmovdqu    ymm4, yword [rdx + rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x403a // vmovdqu    ymm5, yword [rdx + rdi + 64]
-	LONG $0x746ffec5; WORD $0x603a // vmovdqu    ymm6, yword [rdx + rdi + 96]
-	LONG $0xf874e5c5               // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5               // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5               // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5               // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5               // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5               // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5               // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5               // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0 // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9 // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2 // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm3
-	LONG $0x647ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm4
-	LONG $0x6c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm5
-	LONG $0x747ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm6
-	LONG $0x80ef8348               // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_417
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_419
-
-LBB3_424:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
-
-LBB3_425:
-	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
-	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
-	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
-	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
-	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
-	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
-	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
-	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
-	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
-	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
-	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
-	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
-	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
-	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_425
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_427
-
-LBB3_431:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
-
-LBB3_432:
-	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
-	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
-	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
-	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
-	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
-	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
-	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
-	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
-	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
-	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
-	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
-	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
-	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
-	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_432
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_434
-
-LBB3_445:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_688
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_447:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_447
-	JMP  LBB3_689
-
-LBB3_448:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x104d // vpbroadcastq    ymm1, qword 16[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_449:
-	LONG $0x297de2c4; WORD $0xfa14             // vpcmpeqq    ymm2, ymm0, yword [rdx + 8*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xfa5c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xfa64; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x297de2c4; WORD $0xfa6c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm5
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_449
-	WORD $0x394c; BYTE $0xce                   // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_451
-
-LBB3_455:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_696
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_457:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_457
-	JMP  LBB3_697
-
-LBB3_458:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_704
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_460:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_460
-	JMP  LBB3_705
-
-LBB3_468:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_712
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_470:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_470
-	JMP  LBB3_713
-
-LBB3_471:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_720
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_473:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_473
-	JMP  LBB3_721
-
-LBB3_474:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_728
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_476:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_476
-	JMP  LBB3_729
-
-LBB3_477:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_736
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x4d6ffdc5; BYTE $0x60 // vmovdqa    ymm1, yword 96[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_479:
-	LONG $0x1475fdc5; BYTE $0x7a   // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x207a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x147ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x407a // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x607a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x547ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_479
-	JMP  LBB3_737
-
-LBB3_480:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_744
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ffdc5; BYTE $0x60 // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_482:
-	LONG $0x1c6ffec5; BYTE $0x7a   // vmovdqu    ymm3, yword [rdx + 2*rdi]
-	LONG $0x646ffec5; WORD $0x207a // vmovdqu    ymm4, yword [rdx + 2*rdi + 32]
-	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x1c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm3
-	LONG $0x647ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x407a // vmovdqu    ymm3, yword [rdx + 2*rdi + 64]
-	LONG $0x646ffec5; WORD $0x607a // vmovdqu    ymm4, yword [rdx + 2*rdi + 96]
-	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x5c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm4
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_482
-	JMP  LBB3_745
-
-LBB3_483:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_592
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_594
-
-LBB3_485:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_753
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_487:
-	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_487
-	JMP  LBB3_754
-
-LBB3_488:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_602
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_604
-
-LBB3_490:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_761
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_492:
-	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_492
-	JMP  LBB3_762
-
-LBB3_493:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_769
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_495:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_495
-	JMP  LBB3_770
-
-LBB3_496:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_777
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_498:
-	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_498
-	JMP  LBB3_778
-
-LBB3_499:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_787
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_501:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_501
-	JMP  LBB3_788
-
-LBB3_502:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_795
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_504:
-	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_504
-	JMP  LBB3_796
-
-LBB3_505:
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_506:
-	LONG $0x1c6ffec5; BYTE $0xfa   // vmovdqu    ymm3, yword [rdx + 8*rdi]
-	LONG $0x646ffec5; WORD $0x20fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40fa // vmovdqu    ymm5, yword [rdx + 8*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60fa // vmovdqu    ymm6, yword [rdx + 8*rdi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0   // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8   // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0   // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb   // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4   // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed   // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6   // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0 // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9 // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2 // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
-	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
-	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
-	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_506
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_508
-
-LBB3_513:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc057f8c5               // vxorps    xmm0, xmm0, xmm0
-	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_514:
-	LONG $0x146ffec5; BYTE $0xba   // vmovdqu    ymm2, yword [rdx + 4*rdi]
-	LONG $0x5c6ffec5; WORD $0x20ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f   // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5               // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f   // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5               // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f   // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5               // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f   // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5               // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5               // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5               // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0   // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9   // vcvtdq2ps    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04   // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5               // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04   // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5               // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04   // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5               // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04   // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5               // vandps    ymm5, ymm9, ymm5
-	LONG $0x1411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm2
-	LONG $0x5c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm3
-	LONG $0x6411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm4
-	LONG $0x6c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm5
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_514
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_865
-	JMP  LBB3_516
-
-LBB3_521:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_522:
-	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
-	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
-	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
-	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
-	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
-	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
-	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
-	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_522
-	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_524
-
-LBB3_528:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_805
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_530:
-	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_530
-	JMP  LBB3_806
-
-LBB3_531:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_532:
-	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
-	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
-	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
-	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
-	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
-	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
-	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
-	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_532
-	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_534
-
-LBB3_538:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_815
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_540:
-	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_540
-	JMP  LBB3_816
-
-LBB3_548:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_825
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_550:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_550
-	JMP  LBB3_826
-
-LBB3_551:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000808d6ffdc5 // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_552:
-	LONG $0x1474fdc5; BYTE $0x3a   // vpcmpeqb    ymm2, ymm0, yword [rdx + rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x203a // vpcmpeqb    ymm3, ymm0, yword [rdx + rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x403a // vpcmpeqb    ymm4, ymm0, yword [rdx + rdi + 64]
-	LONG $0x6c74fdc5; WORD $0x603a // vpcmpeqb    ymm5, ymm0, yword [rdx + rdi + 96]
-	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm5
-	LONG $0x80ef8348               // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_552
-	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_554
-
-LBB3_558:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_833
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_560:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_560
-	JMP  LBB3_834
-
-LBB3_561:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_841
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_563:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_563
-	JMP  LBB3_842
-
-LBB3_564:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_849
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_566:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_566
-	JMP  LBB3_850
-
-LBB3_567:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_857
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_569:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_569
-	JMP  LBB3_858
-
-LBB3_570:
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x587de2c4; WORD $0x4055 // vpbroadcastd    ymm2, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_571:
-	LONG $0x1c6ffec5; BYTE $0xba   // vmovdqu    ymm3, yword [rdx + 4*rdi]
-	LONG $0x646ffec5; WORD $0x20ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60ba // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
-	LONG $0xf876e5c5               // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5               // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5               // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5               // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5               // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5               // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5               // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5               // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0 // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9 // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2 // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c11fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm3
-	LONG $0x6411fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm4
-	LONG $0x6c11fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm5
-	LONG $0x7411fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm6
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_571
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_573
-
-LBB3_578:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_579:
-	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_579
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_581
-
-LBB3_585:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_586:
-	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_586
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_588
-
-LBB3_367:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_368:
-	LONG $0x0411fdc5; BYTE $0x81         // vmovupd    yword [rcx + 4*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2081       // vmovupd    yword [rcx + 4*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4081       // vmovupd    yword [rcx + 4*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6081       // vmovupd    yword [rcx + 4*rax + 96], ymm0
-	QUAD $0x000080818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 128], ymm0
-	QUAD $0x0000a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 160], ymm0
-	QUAD $0x0000c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 192], ymm0
-	QUAD $0x0000e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 224], ymm0
-	QUAD $0x000100818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 256], ymm0
-	QUAD $0x000120818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 288], ymm0
-	QUAD $0x000140818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 320], ymm0
-	QUAD $0x000160818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 352], ymm0
-	QUAD $0x000180818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 384], ymm0
-	QUAD $0x0001a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 416], ymm0
-	QUAD $0x0001c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 448], ymm0
-	QUAD $0x0001e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 480], ymm0
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_368
-
-LBB3_369:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_372
-	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_371:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_371
-
-LBB3_372:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_373:
-	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
-	LONG $0x01c28348                           // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
-	JNE  LBB3_373
-	JMP  LBB3_865
-
-LBB3_438:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_439:
-	LONG $0x0411fdc5; BYTE $0xc1         // vmovupd    yword [rcx + 8*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x20c1       // vmovupd    yword [rcx + 8*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x40c1       // vmovupd    yword [rcx + 8*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x60c1       // vmovupd    yword [rcx + 8*rax + 96], ymm0
-	QUAD $0x000080c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 128], ymm0
-	QUAD $0x0000a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 160], ymm0
-	QUAD $0x0000c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 192], ymm0
-	QUAD $0x0000e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 224], ymm0
-	QUAD $0x000100c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 256], ymm0
-	QUAD $0x000120c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 288], ymm0
-	QUAD $0x000140c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 320], ymm0
-	QUAD $0x000160c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 352], ymm0
-	QUAD $0x000180c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 384], ymm0
-	QUAD $0x0001a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 416], ymm0
-	QUAD $0x0001c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 448], ymm0
-	QUAD $0x0001e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 480], ymm0
-	LONG $0x40c08348                     // add    rax, 64
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_439
-
-LBB3_440:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_443
-	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_442:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_442
-
-LBB3_443:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_444:
-	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_444
-	JMP  LBB3_865
-
-LBB3_461:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_462:
-	LONG $0x0411fdc5; BYTE $0x41         // vmovupd    yword [rcx + 2*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2041       // vmovupd    yword [rcx + 2*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4041       // vmovupd    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6041       // vmovupd    yword [rcx + 2*rax + 96], ymm0
-	QUAD $0x000080418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 160], ymm0
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm0
-	QUAD $0x000100418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 256], ymm0
-	QUAD $0x000120418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 288], ymm0
-	QUAD $0x000140418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 320], ymm0
-	QUAD $0x000160418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 352], ymm0
-	QUAD $0x000180418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 384], ymm0
-	QUAD $0x0001a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 416], ymm0
-	QUAD $0x0001c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 448], ymm0
-	QUAD $0x0001e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 480], ymm0
-	LONG $0x01000548; WORD $0x0000       // add    rax, 256
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_462
-
-LBB3_463:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_466
-	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_465:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_465
-
-LBB3_466:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_467:
-	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
-	JNE  LBB3_467
-	JMP  LBB3_865
-
-LBB3_541:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_542:
-	LONG $0x0411fdc5; BYTE $0x01         // vmovupd    yword [rcx + rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2001       // vmovupd    yword [rcx + rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4001       // vmovupd    yword [rcx + rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6001       // vmovupd    yword [rcx + rax + 96], ymm0
-	QUAD $0x000080018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 128], ymm0
-	QUAD $0x0000a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 160], ymm0
-	QUAD $0x0000c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 192], ymm0
-	QUAD $0x0000e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 224], ymm0
-	QUAD $0x000100018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 256], ymm0
-	QUAD $0x000120018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 288], ymm0
-	QUAD $0x000140018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 320], ymm0
-	QUAD $0x000160018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 352], ymm0
-	QUAD $0x000180018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 384], ymm0
-	QUAD $0x0001a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 416], ymm0
-	QUAD $0x0001c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 448], ymm0
-	QUAD $0x0001e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 480], ymm0
-	LONG $0x02000548; WORD $0x0000       // add    rax, 512
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_542
-
-LBB3_543:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_546
-	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_545:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_545
-
-LBB3_546:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_547:
-	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_547
-
-LBB3_865:
-	VZEROUPPER
-	RET
-
-LBB3_592:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_593:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_593
-
-LBB3_594:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_597
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_596:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_596
-
-LBB3_597:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_598
-
-LBB3_602:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_603:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_603
-
-LBB3_604:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_607
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_606:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_606
-
-LBB3_607:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_608
-
-LBB3_612:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_613:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_615
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_615:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_616
-
-LBB3_620:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_621:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_623
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB3_623:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_624
-
-LBB3_628:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_629:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_631
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB3_631:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_632
-
-LBB3_636:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_637:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_639
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_639:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_640
-
-LBB3_646:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_647:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_649
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_649:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_650
-
-LBB3_656:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_657:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_659
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_659:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_660
-
-LBB3_664:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_665:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_667
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_667:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_668
-
-LBB3_672:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_673:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_675
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_675:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_676
-
-LBB3_680:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_681:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_683
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_683:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_684
-
-LBB3_688:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_689:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_691
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_691:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_692
-
-LBB3_696:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_697:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_699
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB3_699:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_700
-
-LBB3_704:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_705:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_707
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB3_707:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_708
-
-LBB3_712:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_713:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_715
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_715:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_716
-
-LBB3_720:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_721:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_723
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_723:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_724
-
-LBB3_728:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_729:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_731
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_731:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_732
-
-LBB3_736:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_737:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_739
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x7a   // vpcmpeqw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x556ffdc5; BYTE $0x60   // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
-	LONG $0x4475fdc5; WORD $0x207a // vpcmpeqw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0xcadff5c5               // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5               // vpandn    ymm0, ymm0, ymm2
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_739:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_740
-
-LBB3_744:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_745:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_747
-	LONG $0x046ffec5; BYTE $0x7a   // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0xd2efe9c5               // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5               // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5               // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5               // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5               // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5               // vpxor    ymm2, ymm2, ymm4
-	LONG $0x656ffdc5; BYTE $0x60   // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc065ddc5               // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5               // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3 // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-
-LBB3_747:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_748
-
-LBB3_753:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_754:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_756
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
-	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
-	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
-	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
-	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
-	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
-	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
-
-LBB3_756:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_757
-
-LBB3_761:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_762:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_764
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
-	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
-	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
-	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
-	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
-	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
-	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
-
-LBB3_764:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_765
-
-LBB3_769:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_770:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_772
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_772:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_773
-
-LBB3_777:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_778:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_780
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_780:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_781
-
-LBB3_787:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_788:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_790
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_790:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_791
-
-LBB3_795:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_796:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_798
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_798:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_799
-
-LBB3_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_806:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_808
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_808:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_809
-
-LBB3_815:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_816:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_818
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_818:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_819
-
-LBB3_825:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_826:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_828
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_828:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_829
-
-LBB3_833:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_834:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_836
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB3_836:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_837
-
-LBB3_841:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_842:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_844
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB3_844:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_845
-
-LBB3_849:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_850:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_852
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_852:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_853
-
-LBB3_857:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_858:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_860
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_860:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_861
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0x43e0000000000000
-DATA LCDATA5<>+0x018(SB)/8, $0x41e0000000000000
-DATA LCDATA5<>+0x020(SB)/8, $0xbff0000000000000
-DATA LCDATA5<>+0x028(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x030(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x038(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x040(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x048(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x050(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x060(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x068(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x070(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x090(SB)/8, $0x800000007fffffff
-DATA LCDATA5<>+0x098(SB)/8, $0x000000013f800000
-DATA LCDATA5<>+0x0a0(SB)/8, $0x4f0000005f000000
-DATA LCDATA5<>+0x0a8(SB)/8, $0x00000000bf800000
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0d0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0d8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0e0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0e8(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f8(SB)/8, $0x0101010101010101
-GLOBL LCDATA5<>(SB), 8, $256
-
-TEXT ·_arithmetic_unary_diff_type_avx2(SB), $0-48
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ op+16(FP), DX
-	MOVQ input+24(FP), CX
-	MOVQ output+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
-	JNE  LBB4_1351
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_14
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_26
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_46
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_54
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_94
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_164
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_267
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_270
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_13
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_870
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_870
-
-LBB4_13:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_873:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_875
-
-LBB4_874:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_874
-
-LBB4_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_876:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_876
-	JMP  LBB4_1351
-
-LBB4_14:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_36
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_62
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_70
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_101
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_169
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_273
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_276
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_450
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1292
-
-LBB4_26:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_78
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_108
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_174
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_279
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_282
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_35
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_877
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_877
-
-LBB4_35:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_880:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_882
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_882:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_884:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_884
-	JMP  LBB4_1351
-
-LBB4_36:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_86
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_115
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_179
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_285
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_288
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_456
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_459
-
-LBB4_46:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_122
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_184
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_291
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_294
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_460
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_463
-
-LBB4_54:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_129
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_189
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_297
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_300
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_464
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_467
-
-LBB4_62:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_136
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_194
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_303
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_306
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_469
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_472
-
-LBB4_70:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_143
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_199
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_309
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_312
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_474
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1298
-
-LBB4_78:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_150
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_204
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_315
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_318
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_85
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_885
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_885
-
-LBB4_85:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_888:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_890
-
-LBB4_889:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_889
-
-LBB4_890:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_891:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_891
-	JMP  LBB4_1351
-
-LBB4_86:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_157
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_209
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_321
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_324
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_93
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_892
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_892
-
-LBB4_93:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_895:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_897
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_897:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_899:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_899
-	JMP  LBB4_1351
-
-LBB4_94:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_214
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_327
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_330
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_483
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_486
-
-LBB4_101:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_219
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_333
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_336
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_107
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_900
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_900
-
-LBB4_107:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_903:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_905
-	LONG $0x0410fbc5; BYTE $0xd1   // vmovsd    xmm0, qword [rcx + 8*rdx]
-	LONG $0x4d54f9c5; BYTE $0x30   // vandpd    xmm1, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08   // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc956e9c5               // vorpd    xmm1, xmm2, xmm1
-	LONG $0xd257e9c5               // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xc2c2fbc5; BYTE $0x00   // vcmpeqsd    xmm0, xmm0, xmm2
-	LONG $0xc155f9c5               // vandnpd    xmm0, xmm0, xmm1
-	LONG $0x1379c1c4; WORD $0xd004 // vmovlpd    qword [r8 + 8*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_905:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0x4528f9c5; BYTE $0x30 // vmovapd    xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_907:
-	LONG $0x1c10fbc5; BYTE $0xd1               // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1379c1c4; WORD $0xd01c             // vmovlpd    qword [r8 + 8*rdx], xmm3
-	LONG $0x5c10fbc5; WORD $0x08d1             // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1379c1c4; WORD $0xd05c; BYTE $0x08 // vmovlpd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_907
-	JMP  LBB4_1351
-
-LBB4_108:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_224
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_339
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_342
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_114
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_908
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_908
-
-LBB4_114:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_911:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1254
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1250
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1251
-
-LBB4_115:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_229
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_345
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_348
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_496
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_499
-
-LBB4_122:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_234
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_351
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_354
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_503
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_506
-
-LBB4_129:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_239
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_357
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_360
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_510
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_513
-
-LBB4_136:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_244
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_363
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_366
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_519
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_522
-
-LBB4_143:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_249
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_369
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_372
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_528
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_531
-
-LBB4_150:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_257
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_375
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_378
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_156
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_914
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_914
-
-LBB4_156:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_917:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB4_922
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_920
-
-LBB4_919:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_922
-
-LBB4_920:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_919
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_919
-
-LBB4_157:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_262
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_381
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_384
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_538
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_541
-
-LBB4_164:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_387
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_168
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_933
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_933
-
-LBB4_168:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_936:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_938
-
-LBB4_937:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_937
-
-LBB4_938:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_939:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_939
-	JMP  LBB4_1351
-
-LBB4_169:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_390
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_173
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_940
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_940
-
-LBB4_173:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_943:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_945
-	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
-	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
-	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
-	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_945:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_947:
-	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_947
-	JMP  LBB4_1351
-
-LBB4_174:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB4_393
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_178
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_948
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_948
-
-LBB4_178:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_951:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_953
-	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_953:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_955:
-	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_955
-	JMP  LBB4_1351
-
-LBB4_179:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_396
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_183
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_956
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_956
-
-LBB4_183:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_959:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_961
-
-LBB4_960:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_960
-
-LBB4_961:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_962:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_962
-	JMP  LBB4_1351
-
-LBB4_184:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_399
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_188
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_963
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_963
-
-LBB4_188:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_966:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_968
-
-LBB4_967:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_967
-
-LBB4_968:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_969:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_969
-	JMP  LBB4_1351
-
-LBB4_189:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_402
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_193
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_970
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_970
-
-LBB4_193:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_973:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_975
-	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_975:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_977:
-	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_977
-	JMP  LBB4_1351
-
-LBB4_194:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_405
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_198
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_978
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_978
-
-LBB4_198:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_981:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_983
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_983:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_985:
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_985
-	JMP  LBB4_1351
-
-LBB4_199:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_408
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_203
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_986
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_986
-
-LBB4_203:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_989:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_991
-	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77ef9c5             // vmovd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x0040; BYTE $0xff     // add    dil, dil
-	LONG $0xffc78040             // add    dil, -1
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	LONG $0xffb60f40             // movzx    edi, dil
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_991:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1351
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_993:
-	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
-	WORD $0xff85                   // test    edi, edi
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87ef9c5               // vmovd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_993
-	JMP  LBB4_1351
-
-LBB4_204:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB4_411
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_208
-	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_994
-	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_994
-
-LBB4_208:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_997:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_999
-
-LBB4_998:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_998
-
-LBB4_999:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1000:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1000
-	JMP  LBB4_1351
-
-LBB4_209:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_414
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_213
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1001
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1001
-
-LBB4_213:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1004:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1006
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1006:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1008:
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1008
-	JMP  LBB4_1351
-
-LBB4_214:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_417
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_577
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_580
-
-LBB4_219:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB4_420
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x04f98341                       // cmp    r9d, 4
-	JAE  LBB4_581
-	WORD $0xf631                           // xor    esi, esi
-	JMP  LBB4_1286
-
-LBB4_224:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_423
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_228
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1009
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1009
-
-LBB4_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1012:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1014
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1014:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1016:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1016
-	JMP  LBB4_1351
-
-LBB4_229:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_426
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_233
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1017
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1017
-
-LBB4_233:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1020:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1022
-
-LBB4_1021:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1021
-
-LBB4_1022:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1023:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1023
-	JMP  LBB4_1351
-
-LBB4_234:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_429
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_590
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_593
-
-LBB4_239:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_432
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_594
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_597
-
-LBB4_244:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_435
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_248
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1024
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1024
-
-LBB4_248:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1027:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1029
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1029:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1031:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1031
-	JMP  LBB4_1351
-
-LBB4_249:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_438
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_602
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_254
-
-LBB4_257:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_441
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_261
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1032
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1032
-
-LBB4_261:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1035:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1037
-
-LBB4_1036:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1036
-
-LBB4_1037:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1038:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1038
-	JMP  LBB4_1351
-
-LBB4_262:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_444
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_613
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_616
-
-LBB4_267:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_618
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_621
-
-LBB4_270:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_622
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_625
-
-LBB4_273:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_626
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_629
-
-LBB4_276:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_631
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_634
-
-LBB4_279:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_281
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1039
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1039
-
-LBB4_281:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1042:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1044
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1044:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1046:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1046
-	JMP  LBB4_1351
-
-LBB4_282:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_284
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1047
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1047
-
-LBB4_284:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1050:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1052
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1052:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1054:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1054
-	JMP  LBB4_1351
-
-LBB4_285:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_642
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_645
-
-LBB4_288:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_646
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_649
-
-LBB4_291:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_293
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1055
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1055
-
-LBB4_293:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1321:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1323
-
-LBB4_1322:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1322
-
-LBB4_1323:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1324:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1324
-	JMP  LBB4_1351
-
-LBB4_294:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_296
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1058
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1058
-
-LBB4_296:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1329:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1331
-
-LBB4_1330:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1330
-
-LBB4_1331:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1332:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1332
-	JMP  LBB4_1351
-
-LBB4_297:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_299
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1061
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1061
-
-LBB4_299:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1337:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1339
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1339:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1341:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1341
-	JMP  LBB4_1351
-
-LBB4_300:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_302
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1064
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1064
-
-LBB4_302:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1346:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1348
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1348:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1350:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1350
-	JMP  LBB4_1351
-
-LBB4_303:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_662
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_665
-
-LBB4_306:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_667
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_670
-
-LBB4_309:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_672
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_675
-
-LBB4_312:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_677
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_680
-
-LBB4_315:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_317
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1067
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1067
-
-LBB4_317:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1070:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1072
-
-LBB4_1071:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1071
-
-LBB4_1072:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1073:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1073
-	JMP  LBB4_1351
-
-LBB4_318:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_320
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1074
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1074
-
-LBB4_320:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1077:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1079
-
-LBB4_1078:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1078
-
-LBB4_1079:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1080:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1080
-	JMP  LBB4_1351
-
-LBB4_321:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_688
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_691
-
-LBB4_324:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_693
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_696
-
-LBB4_327:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_698
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_701
-
-LBB4_330:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_702
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_705
-
-LBB4_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_709
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1306
-
-LBB4_336:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_712
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_715
-
-LBB4_339:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_341
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1081
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1081
-
-LBB4_341:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1084:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1086
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1086:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1088:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1088
-	JMP  LBB4_1351
-
-LBB4_342:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_344
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1089
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1089
-
-LBB4_344:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1092:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1269
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1265
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1266
-
-LBB4_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_347
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1095
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1095
-
-LBB4_347:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1098:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1100
-
-LBB4_1099:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1099
-
-LBB4_1100:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1101:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1101
-	JMP  LBB4_1351
-
-LBB4_348:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_728
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_731
-
-LBB4_351:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_735
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_738
-
-LBB4_354:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_739
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_742
-
-LBB4_357:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_746
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_749
-
-LBB4_360:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_751
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_754
-
-LBB4_363:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_365
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1102
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1102
-
-LBB4_365:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1105:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1107
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1107:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1109:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1109
-	JMP  LBB4_1351
-
-LBB4_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_763
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_766
-
-LBB4_369:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_772
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1312
-
-LBB4_372:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_374
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1110
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1110
-
-LBB4_374:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1113:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_1115
-	LONG $0x0410fac5; BYTE $0x91   // vmovss    xmm0, dword [rcx + 4*rdx]
-	LONG $0xf850f8c5               // vmovmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xcf2aaac5               // vcvtsi2ss    xmm1, xmm10, edi
-	LONG $0xd257e8c5               // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fac5; BYTE $0x00   // vcmpeqss    xmm0, xmm0, xmm2
-	LONG $0xc155f8c5               // vandnps    xmm0, xmm0, xmm1
-	LONG $0x117ac1c4; WORD $0x9004 // vmovss    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1115:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_1117:
-	LONG $0x0c10fac5; BYTE $0x91               // vmovss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
-	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c10fac5; WORD $0x0491             // vmovss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
-	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_1117
-	JMP  LBB4_1351
-
-LBB4_375:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_377
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1118
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1118
-
-LBB4_377:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1121:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1123
-
-LBB4_1122:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1122
-
-LBB4_1123:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1124:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1124
-	JMP  LBB4_1351
-
-LBB4_378:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_380
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1125
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1125
-
-LBB4_380:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1128:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1133
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1131
-
-LBB4_1130:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_1133
-
-LBB4_1131:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1130
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_1130
-
-LBB4_381:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_784
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_787
-
-LBB4_384:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_789
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_792
-
-LBB4_387:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_389
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1144
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1144
-
-LBB4_389:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1147:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1149
-
-LBB4_1148:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1148
-
-LBB4_1149:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1150:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1150
-	JMP  LBB4_1351
-
-LBB4_390:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_392
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1151
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1151
-
-LBB4_392:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1154:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1156
-	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
-	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
-	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
-	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1156:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1158:
-	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1158
-	JMP  LBB4_1351
-
-LBB4_393:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_395
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_1159
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_1159
-
-LBB4_395:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1162:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1164
-	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1164:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1166:
-	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_1166
-	JMP  LBB4_1351
-
-LBB4_396:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_398
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1167
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1167
-
-LBB4_398:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1170:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1172
-
-LBB4_1171:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1171
-
-LBB4_1172:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1173:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1173
-	JMP  LBB4_1351
-
-LBB4_399:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_401
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1174
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1174
-
-LBB4_401:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1177:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1179
-
-LBB4_1178:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1178
-
-LBB4_1179:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1180:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1180
-	JMP  LBB4_1351
-
-LBB4_402:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_404
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1181
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1181
-
-LBB4_404:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1184:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1186
-	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1186:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1188:
-	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_1188
-	JMP  LBB4_1351
-
-LBB4_405:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_407
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1189
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1189
-
-LBB4_407:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1192:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1194
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1194:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1196:
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1196
-	JMP  LBB4_1351
-
-LBB4_408:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_410
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1197
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1197
-
-LBB4_410:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1200:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1202
-	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77ef9c5             // vmovd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x0040; BYTE $0xff     // add    dil, dil
-	LONG $0xffc78040             // add    dil, -1
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	LONG $0xffb60f40             // movzx    edi, dil
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1202:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1351
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_1204:
-	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
-	WORD $0xff85                   // test    edi, edi
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87ef9c5               // vmovd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1204
-	JMP  LBB4_1351
-
-LBB4_411:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_413
-	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_1205
-	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_1205
-
-LBB4_413:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1208:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1210
-
-LBB4_1209:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1209
-
-LBB4_1210:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1211:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1211
-	JMP  LBB4_1351
-
-LBB4_414:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_416
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1212
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1212
-
-LBB4_416:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1215:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1217
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1217:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1219:
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1219
-	JMP  LBB4_1351
-
-LBB4_417:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_419
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1220
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1220
-
-LBB4_419:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1223:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1225
-
-LBB4_1224:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1224
-
-LBB4_1225:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1226:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1226
-	JMP  LBB4_1351
-
-LBB4_420:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_831
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_834
-
-LBB4_423:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_425
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1227
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1227
-
-LBB4_425:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1230:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1232
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1232:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1234:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1234
-	JMP  LBB4_1351
-
-LBB4_426:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_839
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_842
-
-LBB4_429:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_843
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_846
-
-LBB4_432:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_847
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_850
-
-LBB4_435:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_852
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_855
-
-LBB4_438:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_857
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_860
-
-LBB4_441:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_443
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1235
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1235
-
-LBB4_443:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1238:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1240
-
-LBB4_1239:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1239
-
-LBB4_1240:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1241:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1241
-	JMP  LBB4_1351
-
-LBB4_444:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_446
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1242
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1242
-
-LBB4_446:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1245:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1247
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1247:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1249:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1249
-	JMP  LBB4_1351
-
-LBB4_922:
-	LONG $0x03fe8348             // cmp    rsi, 3
-	JB   LBB4_1351
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_925
-
-LBB4_924:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x18 // vmovq    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_925:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_926
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JE   LBB4_930
-
-LBB4_927:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_928
-
-LBB4_931:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_924
-	JMP  LBB4_932
-
-LBB4_926:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_927
-
-LBB4_930:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JE   LBB4_931
-
-LBB4_928:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_924
-
-LBB4_932:
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_924
-
-LBB4_1133:
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JB   LBB4_1351
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1136
-
-LBB4_1135:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x0c // vmovd    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1136:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1137
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JE   LBB4_1141
-
-LBB4_1138:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1139
-
-LBB4_1142:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1135
-	JMP  LBB4_1143
-
-LBB4_1137:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1138
-
-LBB4_1141:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JE   LBB4_1142
-
-LBB4_1139:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1135
-
-LBB4_1143:
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_1135
-
-LBB4_450:
-	WORD $0xc689                         // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc             // and    esi, -4
-	LONG $0xfc568d48                     // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1             // mov    r9, rdx
-	LONG $0x02e9c149                     // shr    r9, 2
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xd2             // test    rdx, rdx
-	JE   LBB4_1288
-	WORD $0x894c; BYTE $0xca             // mov    rdx, r9
-	LONG $0xfee28348                     // and    rdx, -2
-	WORD $0xf748; BYTE $0xda             // neg    rdx
-	WORD $0xff31                         // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045       // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x084d       // vbroadcastsd    ymm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x185d       // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI4_7] */
-	QUAD $0x000094a51879e2c4; BYTE $0x00 // vbroadcastss    xmm4, dword 148[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_452:
-	LONG $0x2c10fdc5; BYTE $0xf9               // vmovupd    ymm5, yword [rcx + 8*rdi]
-	LONG $0xf5c2bdc5; BYTE $0x00               // vcmpeqpd    ymm6, ymm8, ymm5
-	LONG $0xe854d5c5                           // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56f5c5                           // vorpd    ymm5, ymm1, ymm5
-	LONG $0xfbc2d5c5; BYTE $0x01               // vcmpltpd    ymm7, ymm5, ymm3
-	LONG $0x197de3c4; WORD $0x01fa             // vextractf128    xmm2, ymm7, 1
-	LONG $0xd26bc1c5                           // vpackssdw    xmm2, xmm7, xmm2
-	LONG $0xfb5cd5c5                           // vsubpd    ymm7, ymm5, ymm3
-	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
-	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
-	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
-	LONG $0x4a41e3c4; WORD $0x20d5             // vblendvps    xmm2, xmm7, xmm5, xmm2
-	LONG $0x197de3c4; WORD $0x01f5             // vextractf128    xmm5, ymm6, 1
-	LONG $0xed6bc9c5                           // vpackssdw    xmm5, xmm6, xmm5
-	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb814             // vmovdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x5410fdc5; WORD $0x20f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 32]
-	LONG $0xeac2bdc5; BYTE $0x00               // vcmpeqpd    ymm5, ymm8, ymm2
-	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd054edc5                           // vandpd    ymm2, ymm2, ymm0
-	LONG $0xd256f5c5                           // vorpd    ymm2, ymm1, ymm2
-	LONG $0xf3c2edc5; BYTE $0x01               // vcmpltpd    ymm6, ymm2, ymm3
-	LONG $0x197de3c4; WORD $0x01f7             // vextractf128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xfb5cedc5                           // vsubpd    ymm7, ymm2, ymm3
-	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
-	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
-	LONG $0xd2e6fdc5                           // vcvttpd2dq    xmm2, ymm2
-	LONG $0x4a41e3c4; WORD $0x60d2             // vblendvps    xmm2, xmm7, xmm2, xmm6
-	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb854; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_452
-	JMP  LBB4_1289
-
-LBB4_456:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_457:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_457
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_459:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_459
-	JMP  LBB4_1351
-
-LBB4_460:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_461:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_461
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_463:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_463
-	JMP  LBB4_1351
-
-LBB4_464:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_465:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_465
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_467:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_468:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_468
-	JMP  LBB4_1351
-
-LBB4_469:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_470:
-	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
-	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
-	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
-	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
-	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
-	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
-	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
-	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
-	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_470
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_472:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_473:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_473
-	JMP  LBB4_1351
-
-LBB4_474:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8             // and    edx, -8
-	LONG $0xf8728d48                     // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
-	LONG $0x03e9c149                     // shr    r9, 3
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
-	JE   LBB4_1294
-	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
-	LONG $0xfee78348                     // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf             // neg    rdi
-	WORD $0xf631                         // xor    esi, esi
-	QUAD $0x00009c85587de2c4; BYTE $0x00 // vpbroadcastd    ymm0, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc957f0c5                     // vxorps    xmm1, xmm1, xmm1
-	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
-	QUAD $0x0000949d187de2c4; BYTE $0x00 // vbroadcastss    ymm3, dword 148[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_476:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
-	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
-	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
-	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
-	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
-	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
-	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
-	LONG $0x117cc1c4; WORD $0xb024             // vmovups    yword [r8 + 4*rsi], ymm4
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
-	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
-	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
-	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
-	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
-	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
-	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_476
-	JMP  LBB4_1295
-
-LBB4_483:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_484:
-	LONG $0x1476f9c5; BYTE $0xb1               // vpcmpeqd    xmm2, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd1dfe9c5                           // vpandn    xmm2, xmm2, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0x5c76f9c5; WORD $0x10b1             // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xd9dfe1c5                           // vpandn    xmm3, xmm3, xmm1
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x20b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe1dfd9c5                           // vpandn    xmm4, xmm4, xmm1
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x6c76f9c5; WORD $0x30b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xe9dfd1c5                           // vpandn    xmm5, xmm5, xmm1
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_484
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_486:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_488
-
-LBB4_487:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_488:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_487
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_487
-
-LBB4_496:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_497:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_497
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_499:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_501
-
-LBB4_500:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_501:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_500
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_500
-
-LBB4_503:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_504:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x3379e2c4; BYTE $0xdb               // vpmovzxwd    xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x3379e2c4; BYTE $0xe4               // vpmovzxwd    xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x3379e2c4; BYTE $0xed               // vpmovzxwd    xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x3379e2c4; BYTE $0xf6               // vpmovzxwd    xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_504
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_506:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_508
-
-LBB4_507:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_508:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_507
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_507
-
-LBB4_510:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_511:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x2379e2c4; BYTE $0xdb               // vpmovsxwd    xmm3, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x2379e2c4; BYTE $0xe4               // vpmovsxwd    xmm4, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x2379e2c4; BYTE $0xed               // vpmovsxwd    xmm5, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x2379e2c4; BYTE $0xf6               // vpmovsxwd    xmm6, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_511
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_513:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_515
-
-LBB4_514:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_515:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
-	JNE  LBB4_517
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_517:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_514
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_514
-
-LBB4_519:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x762541c4; BYTE $0xdb   // vpcmpeqd    ymm11, ymm11, ymm11
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_520:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x3765e2c4; BYTE $0xf8               // vpcmpgtq    ymm7, ymm3, ymm0
-	LONG $0x375d62c4; BYTE $0xc0               // vpcmpgtq    ymm8, ymm4, ymm0
-	LONG $0x375562c4; BYTE $0xc8               // vpcmpgtq    ymm9, ymm5, ymm0
-	LONG $0x374d62c4; BYTE $0xd0               // vpcmpgtq    ymm10, ymm6, ymm0
-	LONG $0x2965e2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm3, ymm0
-	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efa5c5                           // vpxor    ymm4, ymm11, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefa5c5                           // vpxor    ymm5, ymm11, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x4b75e3c4; WORD $0x70ca             // vblendvpd    ymm1, ymm1, ymm2, ymm7
-	LONG $0x4b65e3c4; WORD $0x80da             // vblendvpd    ymm3, ymm3, ymm2, ymm8
-	LONG $0x4b5de3c4; WORD $0x90e2             // vblendvpd    ymm4, ymm4, ymm2, ymm9
-	LONG $0x4b55e3c4; WORD $0xa0ea             // vblendvpd    ymm5, ymm5, ymm2, ymm10
-	LONG $0x117dc1c4; WORD $0xf00c             // vmovupd    yword [r8 + 8*rsi], ymm1
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_520
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_522:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_524
-
-LBB4_523:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_524:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
-	JNE  LBB4_526
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_526:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_523
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_523
-
-LBB4_528:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0x573841c4; BYTE $0xc0         // vxorps    xmm8, xmm8, xmm8
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_529:
-	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c10f8c5; WORD $0x10b1             // vmovups    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0x6410f8c5; WORD $0x20b1             // vmovups    xmm4, oword [rcx + 4*rsi + 32]
-	LONG $0x6c10f8c5; WORD $0x30b1             // vmovups    xmm5, oword [rcx + 4*rsi + 48]
-	LONG $0xf2c2b8c5; BYTE $0x00               // vcmpeqps    xmm6, xmm8, xmm2
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0xfbc2b8c5; BYTE $0x00               // vcmpeqps    xmm7, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc4c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm4
-	LONG $0x257d62c4; BYTE $0xc8               // vpmovsxdq    ymm9, xmm0
-	LONG $0xc5c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xc0               // vpmovsxdq    ymm0, xmm0
-	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
-	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
-	LONG $0xe372e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm3, 31
-	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
-	LONG $0xe472d9c5; BYTE $0x1f               // vpsrad    xmm4, xmm4, 31
-	LONG $0xe1ebd9c5                           // vpor    xmm4, xmm4, xmm1
-	LONG $0xe572d1c5; BYTE $0x1f               // vpsrad    xmm5, xmm5, 31
-	LONG $0xe9ebd1c5                           // vpor    xmm5, xmm5, xmm1
-	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
-	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
-	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
-	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
-	LONG $0xd25afcc5                           // vcvtps2pd    ymm2, xmm2
-	LONG $0xd2dfcdc5                           // vpandn    ymm2, ymm6, ymm2
-	LONG $0xdb5afcc5                           // vcvtps2pd    ymm3, xmm3
-	LONG $0xdbdfc5c5                           // vpandn    ymm3, ymm7, ymm3
-	LONG $0xe45afcc5                           // vcvtps2pd    ymm4, xmm4
-	LONG $0xed5afcc5                           // vcvtps2pd    ymm5, xmm5
-	LONG $0xe4dfb5c5                           // vpandn    ymm4, ymm9, ymm4
-	LONG $0xc5dffdc5                           // vpandn    ymm0, ymm0, ymm5
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm0
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_529
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_531:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_533
-
-LBB4_532:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_533:
-	LONG $0x1410fac5; BYTE $0x91 // vmovss    xmm2, dword [rcx + 4*rdx]
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
-	JE   LBB4_532
-	LONG $0xf250f8c5             // vmovmskps    esi, xmm2
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
-	LONG $0xc95af2c5             // vcvtss2sd    xmm1, xmm1, xmm1
-	JMP  LBB4_532
-
-LBB4_538:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_539:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_539
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_541:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_543
-
-LBB4_542:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_543:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
-	JNE  LBB4_545
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_545:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_542
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_542
-
-LBB4_577:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_578:
-	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_578
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_580:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_580
-	JMP  LBB4_1351
-
-LBB4_581:
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc       // and    esi, -4
-	LONG $0xfc468d48               // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1       // mov    r9, rax
-	LONG $0x02e9c149               // shr    r9, 2
-	LONG $0x01c18349               // add    r9, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB4_1282
-	WORD $0x894d; BYTE $0xce       // mov    r14, r9
-	LONG $0xfee68349               // and    r14, -2
-	WORD $0xf749; BYTE $0xde       // neg    r14
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x5d10fbc5; BYTE $0x10   // vmovsd    xmm3, qword 16[rbp] /* [rip + .LCPI4_6] */
-
-LBB4_583:
-	LONG $0x2410fdc5; BYTE $0xf9               // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0xe854ddc5                           // vandpd    ymm5, ymm4, ymm0
-	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
-	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
-	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xd6               // vcvttsd2si    rdx, xmm6
-	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
-	LONG $0xd3430f48                           // cmovae    rdx, rbx
-	LONG $0x0479e3c4; WORD $0x4ef6             // vpermilps    xmm6, xmm6, 78
-	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	LONG $0xc3430f48                           // cmovae    rax, rbx
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xcb5cd3c5                           // vsubsd    xmm1, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc1               // vcvttsd2si    rax, xmm1
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4ecd             // vpermilps    xmm1, xmm5, 78
-	LONG $0xeb5cf3c5                           // vsubsd    xmm5, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc5               // vcvttsd2si    rax, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xcf6cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm7
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	LONG $0xee6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm6
-	LONG $0x3855e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm5, xmm1, 1
-	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
-	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
-	LONG $0x117dc1c4; WORD $0xf80c             // vmovupd    yword [r8 + 8*rdi], ymm1
-	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
-	LONG $0xc854ddc5                           // vandpd    ymm1, ymm4, ymm0
-	LONG $0xc956edc5                           // vorpd    ymm1, ymm2, ymm1
-	LONG $0x197de3c4; WORD $0x01cd             // vextractf128    xmm5, ymm1, 1
-	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
-	LONG $0xfb5cf3c5                           // vsubsd    xmm7, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc7               // vcvttsd2si    rax, xmm7
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4ec9             // vpermilps    xmm1, xmm1, 78
-	LONG $0xf35cf3c5                           // vsubsd    xmm6, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xca               // vmovq    xmm1, rdx
-	LONG $0xc96cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm1
-	LONG $0x3875e3c4; WORD $0x01cd             // vinserti128    ymm1, ymm1, xmm5, 1
-	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
-	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68349                           // add    r14, 2
-	JNE  LBB4_583
-	JMP  LBB4_1283
-
-LBB4_590:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_591:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_591
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_593:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_593
-	JMP  LBB4_1351
-
-LBB4_594:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_595:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_595
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_597:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_598:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_598
-	JMP  LBB4_1351
-
-LBB4_602:
-	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe               // and    esi, -2
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0xc057f8c5                       // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-	JMP  LBB4_605
-
-LBB4_603:
-	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
-	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
-	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
-	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_254
-
-LBB4_605:
-	LONG $0x1410fac5; BYTE $0x81 // vmovss    xmm2, dword [rcx + 4*rax]
-	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
-	JNE  LBB4_607
-	WORD $0xd231                 // xor    edx, edx
-	JMP  LBB4_608
-
-LBB4_607:
-	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
-	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
-	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
-	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-
-LBB4_608:
-	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
-	LONG $0x5410fac5; WORD $0x0481 // vmovss    xmm2, dword [rcx + 4*rax + 4]
-	LONG $0xc22ef8c5               // vucomiss    xmm0, xmm2
-	JNE  LBB4_603
-	WORD $0xd231                   // xor    edx, edx
-	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_605
-
-LBB4_254:
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1351
-	LONG $0x0410fac5; BYTE $0x81 // vmovss    xmm0, dword [rcx + 4*rax]
-	LONG $0xc957f0c5             // vxorps    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	JNE  LBB4_1280
-	WORD $0xc931                 // xor    ecx, ecx
-	JMP  LBB4_1281
-
-LBB4_613:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_614:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_614
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_616:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_617:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_617
-	JMP  LBB4_1351
-
-LBB4_618:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-
-LBB4_619:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
-	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
-	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_619
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_621:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_621
-	JMP  LBB4_1351
-
-LBB4_622:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-
-LBB4_623:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
-	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
-	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_623
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_625:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_625
-	JMP  LBB4_1351
-
-LBB4_626:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB4_627:
-	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
-	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
-	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
-	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
-	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
-	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
-	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB4_627
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_629:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_630:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_630
-	JMP  LBB4_1351
-
-LBB4_631:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB4_632:
-	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
-	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
-	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
-	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
-	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB4_632
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_634:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_635:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_635
-	JMP  LBB4_1351
-
-LBB4_642:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_643:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_643
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_645:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_645
-	JMP  LBB4_1351
-
-LBB4_646:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_647:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_647
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_649:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_649
-	JMP  LBB4_1351
-
-LBB4_662:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_663:
-	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
-	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_663
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_665:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_666:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_666
-	JMP  LBB4_1351
-
-LBB4_667:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_668:
-	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
-	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_668
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_670:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_671:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_671
-	JMP  LBB4_1351
-
-LBB4_672:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
-	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
-	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
-
-LBB4_673:
-	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
-	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
-	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
-	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
-	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
-	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
-	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
-	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
-	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
-	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
-	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
-	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
-	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
-	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
-	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
-	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
-	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_673
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_675:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-
-LBB4_676:
-	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd2     // setns    dl
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_676
-	JMP  LBB4_1351
-
-LBB4_677:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
-	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
-	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
-
-LBB4_678:
-	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
-	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
-	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
-	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
-	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
-	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
-	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
-	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
-	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
-	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
-	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
-	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
-	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
-	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
-	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
-	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
-	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_678
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_680:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-
-LBB4_681:
-	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd2     // setns    dl
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_681
-	JMP  LBB4_1351
-
-LBB4_688:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_689:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
-	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
-	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_689
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_691:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_692:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_692
-	JMP  LBB4_1351
-
-LBB4_693:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_694:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
-	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
-	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_694
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_696:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_697:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_697
-	JMP  LBB4_1351
-
-LBB4_698:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_699:
-	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_699
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_701:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_701
-	JMP  LBB4_1351
-
-LBB4_702:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x0000988d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_703:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_703
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_705:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_707
-
-LBB4_706:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_707:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_706
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_706
-
-LBB4_709:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc       // and    edx, -4
-	LONG $0xfc728d48               // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1       // mov    r9, rsi
-	LONG $0x02e9c149               // shr    r9, 2
-	LONG $0x01c18349               // add    r9, 1
-	WORD $0x8548; BYTE $0xf6       // test    rsi, rsi
-	JE   LBB4_1302
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0xfee78348               // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf       // neg    rdi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_711:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
-	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x5c10fdc5; WORD $0x20f1             // vmovupd    ymm3, yword [rcx + 8*rsi + 32]
-	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
-	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_711
-	JMP  LBB4_1303
-
-LBB4_712:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0x197de2c4; WORD $0x0845       // vbroadcastsd    ymm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd05afdc5                     // vcvtpd2ps    xmm2, ymm0
-	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
-	QUAD $0x0000908d1879e2c4; BYTE $0x00 // vbroadcastss    xmm1, dword 144[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xd154e9c5                     // vandpd    xmm2, xmm2, xmm1
-
-LBB4_713:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
-	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
-	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
-	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
-	LONG $0xdb5afdc5                           // vcvtpd2ps    xmm3, ymm3
-	LONG $0xdb55f1c5                           // vandnpd    xmm3, xmm1, xmm3
-	LONG $0xdb56e9c5                           // vorpd    xmm3, xmm2, xmm3
-	LONG $0xe45afdc5                           // vcvtpd2ps    xmm4, ymm4
-	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
-	LONG $0xe455f1c5                           // vandnpd    xmm4, xmm1, xmm4
-	LONG $0xe456e9c5                           // vorpd    xmm4, xmm2, xmm4
-	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
-	LONG $0xed5afdc5                           // vcvtpd2ps    xmm5, ymm5
-	LONG $0xed55f1c5                           // vandnpd    xmm5, xmm1, xmm5
-	LONG $0xed56e9c5                           // vorpd    xmm5, xmm2, xmm5
-	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
-	LONG $0xf65afdc5                           // vcvtpd2ps    xmm6, ymm6
-	LONG $0xf655f1c5                           // vandnpd    xmm6, xmm1, xmm6
-	LONG $0xf656e9c5                           // vorpd    xmm6, xmm2, xmm6
-	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb044; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm0
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_713
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_715:
-	LONG $0xc057f9c5                     // vxorpd    xmm0, xmm0, xmm0
-	QUAD $0x0000948d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 148[rbp] /* [rip + .LCPI4_4] */
-	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_717
-
-LBB4_716:
-	LONG $0x7e79c1c4; WORD $0x901c // vmovd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_717:
-	LONG $0x2410fbc5; BYTE $0xd1 // vmovsd    xmm4, qword [rcx + 8*rdx]
-	LONG $0xc42ef9c5             // vucomisd    xmm0, xmm4
-	LONG $0xdbefe1c5             // vpxor    xmm3, xmm3, xmm3
-	JE   LBB4_716
-	LONG $0xdc5adbc5             // vcvtsd2ss    xmm3, xmm4, xmm4
-	LONG $0xd9dbe1c5             // vpand    xmm3, xmm3, xmm1
-	LONG $0xdbebe9c5             // vpor    xmm3, xmm2, xmm3
-	JMP  LBB4_716
-
-LBB4_728:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_729:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_729
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_731:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_733
-
-LBB4_732:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_733:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_732
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_732
-
-LBB4_735:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_736:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_736
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_738:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_738
-	JMP  LBB4_1351
-
-LBB4_739:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_740:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_740
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_742:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_744
-
-LBB4_743:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_744:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_743
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_743
-
-LBB4_746:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_747:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_747
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_749:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_750:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_750
-	JMP  LBB4_1351
-
-LBB4_751:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_752:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_752
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_754:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_756
-
-LBB4_755:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_756:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
-	JNE  LBB4_758
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-
-LBB4_758:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_755
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_755
-
-LBB4_763:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9         // vpcmpeqd    ymm9, ymm9, ymm9
-	QUAD $0x000098951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_764:
-	LONG $0x346ffec5; BYTE $0xf1               // vmovdqu    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c6ffec5; WORD $0x20f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x446f7ec5; WORD $0x40f1             // vmovdqu    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0xd56b61c5                           // vpackssdw    xmm10, xmm3, xmm5
-	LONG $0x3745e2c4; BYTE $0xe8               // vpcmpgtq    ymm5, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01e9             // vextracti128    xmm1, ymm5, 1
-	LONG $0xd96b51c5                           // vpackssdw    xmm11, xmm5, xmm1
-	LONG $0x373de2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xe36b71c5                           // vpackssdw    xmm12, xmm1, xmm3
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5                           // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5                           // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efb5c5                           // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf65bf8c5                           // vcvtdq2ps    xmm6, xmm6
-	LONG $0x293de2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5                           // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01f9             // vextracti128    xmm1, ymm7, 1
-	LONG $0xc96bc1c5                           // vpackssdw    xmm1, xmm7, xmm1
-	LONG $0xc95bf8c5                           // vcvtdq2ps    xmm1, xmm1
-	LONG $0x295de2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5                           // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7             // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5                           // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
-	LONG $0x4a51e3c4; WORD $0xa0ea             // vblendvps    xmm5, xmm5, xmm2, xmm10
-	LONG $0x4a49e3c4; WORD $0xb0f2             // vblendvps    xmm6, xmm6, xmm2, xmm11
-	LONG $0x4a71e3c4; WORD $0xc0ca             // vblendvps    xmm1, xmm1, xmm2, xmm12
-	LONG $0x4a59e3c4; WORD $0x30da             // vblendvps    xmm3, xmm4, xmm2, xmm3
-	LONG $0x1178c1c4; WORD $0xb02c             // vmovups    oword [r8 + 4*rsi], xmm5
-	LONG $0x1178c1c4; WORD $0xb074; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm1
-	LONG $0x1178c1c4; WORD $0xb05c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_764
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_766:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_768
-
-LBB4_767:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_768:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
-	JNE  LBB4_770
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-
-LBB4_770:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_767
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_767
-
-LBB4_772:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc             // and    edx, -4
-	LONG $0xfc728d48                     // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
-	LONG $0x02e9c149                     // shr    r9, 2
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
-	JE   LBB4_1308
-	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
-	LONG $0xfee78348                     // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf             // neg    rdi
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_774:
-	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
-	LONG $0xd8c2e8c5; BYTE $0x00               // vcmpeqps    xmm3, xmm2, xmm0
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
-	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
-	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
-	LONG $0x0479e3c4; WORD $0xe7e2             // vpermilps    xmm4, xmm2, 231
-	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x0579e3c4; WORD $0x01ea             // vpermilpd    xmm5, xmm2, 1
-	LONG $0x2cfae1c4; BYTE $0xc5               // vcvttss2si    rax, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xd216fac5                           // vmovshdup    xmm2, xmm2
-	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xd26cd1c5                           // vpunpcklqdq    xmm2, xmm5, xmm2
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0xd2dfe5c5                           // vpandn    ymm2, ymm3, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x546ffac5; WORD $0x10b1             // vmovdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xe272e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm2, 31
-	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
-	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
-	LONG $0x0479e3c4; WORD $0xe7e3             // vpermilps    xmm4, xmm3, 231
-	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
-	LONG $0x0579e3c4; WORD $0x01e3             // vpermilpd    xmm4, xmm3, 1
-	LONG $0x2cfa61c4; BYTE $0xdc               // vcvttss2si    r11, xmm4
-	LONG $0x2cfae1c4; BYTE $0xdb               // vcvttss2si    rbx, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb16fac5                           // vmovshdup    xmm3, xmm3
-	LONG $0x2cfae1c4; BYTE $0xc3               // vcvttss2si    rax, xmm3
-	LONG $0x6ef9c1c4; BYTE $0xdb               // vmovq    xmm3, r11
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xd0c2e8c5; BYTE $0x00               // vcmpeqps    xmm2, xmm2, xmm0
-	LONG $0x257de2c4; BYTE $0xd2               // vpmovsxdq    ymm2, xmm2
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0xd3dfedc5                           // vpandn    ymm2, ymm2, ymm3
-	LONG $0x7f7ec1c4; WORD $0xf054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_774
-	JMP  LBB4_1309
-
-LBB4_784:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_785:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_785
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_787:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_788:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_788
-	JMP  LBB4_1351
-
-LBB4_789:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_790:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf866e5c5                           // vpcmpgtd    ymm7, ymm3, ymm0
-	LONG $0xc0665dc5                           // vpcmpgtd    ymm8, ymm4, ymm0
-	LONG $0xc86655c5                           // vpcmpgtd    ymm9, ymm5, ymm0
-	LONG $0xd0664dc5                           // vpcmpgtd    ymm10, ymm6, ymm0
-	LONG $0xd876e5c5                           // vpcmpeqd    ymm3, ymm3, ymm0
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe076ddc5                           // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe876d5c5                           // vpcmpeqd    ymm5, ymm5, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf076cdc5                           // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x70da             // vblendvps    ymm3, ymm3, ymm2, ymm7
-	LONG $0x4a5de3c4; WORD $0x80e2             // vblendvps    ymm4, ymm4, ymm2, ymm8
-	LONG $0x4a55e3c4; WORD $0x90ea             // vblendvps    ymm5, ymm5, ymm2, ymm9
-	LONG $0x4a4de3c4; WORD $0xa0f2             // vblendvps    ymm6, ymm6, ymm2, ymm10
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_790
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_792:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_794
-
-LBB4_793:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_794:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
-	JNE  LBB4_796
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-
-LBB4_796:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_793
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_793
-
-LBB4_831:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_832:
-	LONG $0x1c10fdc5; BYTE $0xf9               // vmovupd    ymm3, yword [rcx + 8*rdi]
-	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f9             // vmovupd    ymm5, yword [rcx + 8*rdi + 64]
-	LONG $0x7410fdc5; WORD $0x60f9             // vmovupd    ymm6, yword [rcx + 8*rdi + 96]
-	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
-	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
-	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
-	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
-	LONG $0xd954e5c5                           // vandpd    ymm3, ymm3, ymm1
-	LONG $0xdb56edc5                           // vorpd    ymm3, ymm2, ymm3
-	LONG $0xe154ddc5                           // vandpd    ymm4, ymm4, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe954d5c5                           // vandpd    ymm5, ymm5, ymm1
-	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf154cdc5                           // vandpd    ymm6, ymm6, ymm1
-	LONG $0xf656edc5                           // vorpd    ymm6, ymm2, ymm6
-	LONG $0xdbe6fdc5                           // vcvttpd2dq    xmm3, ymm3
-	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
-	LONG $0xe4e6fdc5                           // vcvttpd2dq    xmm4, ymm4
-	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
-	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
-	LONG $0xf6e6fdc5                           // vcvttpd2dq    xmm6, ymm6
-	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
-	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
-	LONG $0x7f7ac1c4; WORD $0xb81c             // vmovdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb864; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb86c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rdi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb844; BYTE $0x30 // vmovdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_832
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_834:
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_835:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0xb03c8941             // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_835
-	JMP  LBB4_1351
-
-LBB4_839:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_840:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_840
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_842:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_842
-	JMP  LBB4_1351
-
-LBB4_843:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_844:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_844
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_846:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_846
-	JMP  LBB4_1351
-
-LBB4_847:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_848:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_848
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_850:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_851:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_851
-	JMP  LBB4_1351
-
-LBB4_852:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_853:
-	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
-	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
-	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
-	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
-	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
-	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
-	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
-	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
-	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_853
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_855:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_856:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_856
-	JMP  LBB4_1351
-
-LBB4_857:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_858:
-	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
-	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
-	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
-	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
-	LONG $0xf65bfec5                           // vcvttps2dq    ymm6, ymm6
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0x5b7e41c4; BYTE $0xc0               // vcvttps2dq    ymm8, ymm8
-	LONG $0x5b7e41c4; BYTE $0xc9               // vcvttps2dq    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_858
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_860:
-	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
-	JMP  LBB4_862
-
-LBB4_861:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_862:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JE   LBB4_861
-	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
-	LONG $0xf12cfac5             // vcvttss2si    esi, xmm1
-	JMP  LBB4_861
-
-LBB4_870:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_871:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_871
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_873
-
-LBB4_877:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_878:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_878
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_880
-
-LBB4_885:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_886:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_886
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_888
-
-LBB4_892:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_893:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_893
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_895
-
-LBB4_900:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_901:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0xf954e5c5                           // vandpd    ymm7, ymm3, ymm1
-	LONG $0xff56edc5                           // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc1545dc5                           // vandpd    ymm8, ymm4, ymm1
-	LONG $0xc2563dc5                           // vorpd    ymm8, ymm8, ymm2
-	LONG $0xc95455c5                           // vandpd    ymm9, ymm5, ymm1
-	LONG $0xca5635c5                           // vorpd    ymm9, ymm9, ymm2
-	LONG $0xd1544dc5                           // vandpd    ymm10, ymm6, ymm1
-	LONG $0xd2562dc5                           // vorpd    ymm10, ymm10, ymm2
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdf54e5c5                           // vandpd    ymm3, ymm3, ymm7
-	LONG $0xe0c2ddc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm4, ymm0
-	LONG $0xe454bdc5                           // vandpd    ymm4, ymm8, ymm4
-	LONG $0xe8c2d5c5; BYTE $0x04               // vcmpneqpd    ymm5, ymm5, ymm0
-	LONG $0xed54b5c5                           // vandpd    ymm5, ymm9, ymm5
-	LONG $0xf0c2cdc5; BYTE $0x04               // vcmpneqpd    ymm6, ymm6, ymm0
-	LONG $0xf654adc5                           // vandpd    ymm6, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_901
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_903
-
-LBB4_908:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_909:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x2179e2c4; BYTE $0xdb               // vpmovsxbd    xmm3, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x2179e2c4; BYTE $0xe4               // vpmovsxbd    xmm4, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x2179e2c4; BYTE $0xed               // vpmovsxbd    xmm5, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x2179e2c4; BYTE $0xf6               // vpmovsxbd    xmm6, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_909
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_911
-
-LBB4_914:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_915:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x3179e2c4; BYTE $0xdb               // vpmovzxbd    xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x3179e2c4; BYTE $0xe4               // vpmovzxbd    xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x3179e2c4; BYTE $0xed               // vpmovzxbd    xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x3179e2c4; BYTE $0xf6               // vpmovzxbd    xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_915
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_917
-
-LBB4_933:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_934:
-	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
-	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
-	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_934
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_936
-
-LBB4_940:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
-
-LBB4_941:
-	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
-	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
-	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
-	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
-	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
-	LONG $0xff63c1c5               // vpacksswb    xmm7, xmm7, xmm7
-	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
-	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
-	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
-	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
-	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
-	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
-	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_941
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_943
-
-LBB4_948:
-	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
-	LONG $0x80e38341         // and    r11d, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_949:
-	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
-	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
-	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_949
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_951
-
-LBB4_956:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_957:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
-	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_957
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_959
-
-LBB4_963:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_964:
-	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_964
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_966
-
-LBB4_970:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xc0e38341             // and    r11d, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_971:
-	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
-	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
-	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
-	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
-	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
-	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
-	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
-	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_971
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_973
-
-LBB4_978:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xf0e38341             // and    r11d, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_979:
-	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
-	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
-	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
-	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
-	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
-	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
-	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
-	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_979
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_981
-
-LBB4_986:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
-	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
-	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
-
-LBB4_987:
-	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
-	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
-	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
-	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
-	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
-	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
-	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
-	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
-	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
-	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
-	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
-	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
-	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
-	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
-	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
-	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_987
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-	JMP  LBB4_989
-
-LBB4_994:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0x80 // and    edx, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_995:
-	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
-	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_995
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_997
-
-LBB4_1001:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xe0e38341             // and    r11d, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1002:
-	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
-	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
-	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
-	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1002
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1004
-
-LBB4_1009:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1010:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1010
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1012
-
-LBB4_1017:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1018:
-	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1018
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1020
-
-LBB4_1024:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1025:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1025
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1027
-
-LBB4_1032:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1033:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1033
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1035
-
-LBB4_1039:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xc0     // and    edx, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1040:
-	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
-	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
-	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
-	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
-	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
-	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
-	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
-	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
-	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
-	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
-	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1040
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1042
-
-LBB4_1047:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xc0     // and    edx, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1048:
-	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
-	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
-	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
-	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
-	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
-	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
-	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
-	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
-	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
-	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
-	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1048
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1050
-
-LBB4_1055:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1317
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1057:
-	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB4_1057
-	JMP  LBB4_1318
-
-LBB4_1058:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1325
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1060:
-	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB4_1060
-	JMP  LBB4_1326
-
-LBB4_1061:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1333
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1063:
-	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
-	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
-	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_1063
-	JMP  LBB4_1334
-
-LBB4_1064:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1342
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1066:
-	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
-	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
-	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_1066
-	JMP  LBB4_1343
-
-LBB4_1067:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1068:
-	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
-	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1068
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1070
-
-LBB4_1074:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1075:
-	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
-	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1075
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1077
-
-LBB4_1081:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1082:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1082
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1084
-
-LBB4_1089:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1090:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1090
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1092
-
-LBB4_1095:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1096:
-	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1096
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1098
-
-LBB4_1102:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1103:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1103
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1105
-
-LBB4_1110:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1111:
-	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
-	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
-	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
-	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1111
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1113
-
-LBB4_1118:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1119:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1119
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1121
-
-LBB4_1125:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1126:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1126
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1128
-
-LBB4_1144:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1145:
-	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
-	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
-	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1145
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1147
-
-LBB4_1151:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
-
-LBB4_1152:
-	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
-	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
-	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
-	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
-	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
-	LONG $0xe467d9c5               // vpackuswb    xmm4, xmm4, xmm4
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
-	LONG $0xf667c9c5               // vpackuswb    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
-	LONG $0xff67c1c5               // vpackuswb    xmm7, xmm7, xmm7
-	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
-	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
-	LONG $0xed67d1c5               // vpackuswb    xmm5, xmm5, xmm5
-	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
-	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
-	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
-	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
-	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
-	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
-	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1152
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1154
-
-LBB4_1159:
-	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
-	LONG $0x80e38341         // and    r11d, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_1160:
-	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
-	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
-	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_1160
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1162
-
-LBB4_1167:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_1168:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
-	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1168
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1170
-
-LBB4_1174:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_1175:
-	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1175
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1177
-
-LBB4_1181:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xc0e38341             // and    r11d, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_1182:
-	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
-	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
-	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
-	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
-	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
-	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
-	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
-	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_1182
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1184
-
-LBB4_1189:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xf0e38341             // and    r11d, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_1190:
-	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
-	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
-	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
-	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
-	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
-	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
-	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
-	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1190
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1192
-
-LBB4_1197:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
-	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
-	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
-
-LBB4_1198:
-	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
-	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
-	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
-	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
-	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
-	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
-	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
-	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
-	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
-	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
-	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
-	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
-	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
-	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
-	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
-	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1198
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-	JMP  LBB4_1200
-
-LBB4_1205:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0x80 // and    edx, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_1206:
-	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
-	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1206
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1208
-
-LBB4_1212:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xe0e38341             // and    r11d, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1213:
-	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
-	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
-	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
-	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1213
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1215
-
-LBB4_1220:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1221:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1221
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1223
-
-LBB4_1227:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1228:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1228
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1230
-
-LBB4_1235:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1236:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1236
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1238
-
-LBB4_1242:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1243:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1243
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1245
-
-LBB4_1250:
-	LONG $0x457efac5; BYTE $0x20 // vmovq    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-
-LBB4_1251:
-	JLE  LBB4_1253
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1253:
-	LONG $0xd679c1c4; WORD $0xd004 // vmovq    qword [r8 + 8*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1254:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_1257
-
-LBB4_1256:
-	LONG $0x117bc1c4; WORD $0xd05c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1257:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
-	JNE  LBB4_1258
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JLE  LBB4_1262
-
-LBB4_1259:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
-	JNE  LBB4_1260
-
-LBB4_1263:
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1256
-	JMP  LBB4_1264
-
-LBB4_1258:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1259
-
-LBB4_1262:
-	LONG $0xda28f9c5               // vmovapd    xmm3, xmm2
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
-	JE   LBB4_1263
-
-LBB4_1260:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1256
-
-LBB4_1264:
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_1256
-
-LBB4_1265:
-	QUAD $0x000000a8856ef9c5 // vmovd    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_1266:
-	JLE  LBB4_1268
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1268:
-	LONG $0x7e79c1c4; WORD $0x9004 // vmovd    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1269:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1351
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1272
-
-LBB4_1271:
-	LONG $0x117ac1c4; WORD $0x905c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1272:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
-	JNE  LBB4_1273
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JLE  LBB4_1277
-
-LBB4_1274:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
-	JNE  LBB4_1275
-
-LBB4_1278:
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1271
-	JMP  LBB4_1279
-
-LBB4_1273:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1274
-
-LBB4_1277:
-	LONG $0xda28f8c5               // vmovaps    xmm3, xmm2
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
-	JE   LBB4_1278
-
-LBB4_1275:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1271
-
-LBB4_1279:
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_1271
-
-LBB4_1282:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1283:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1285
-	LONG $0x0410fdc5; BYTE $0xf9   // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
-	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
-	LONG $0xda56e5c5               // vorpd    ymm3, ymm3, ymm2
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0x5510fbc5; BYTE $0x10   // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xea5cdbc5               // vsubsd    xmm5, xmm4, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
-	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
-	LONG $0x0479e3c4; WORD $0x4ee4 // vpermilps    xmm4, xmm4, 78
-	LONG $0xf25cdbc5               // vsubsd    xmm6, xmm4, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
-	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xe2   // vmovq    xmm4, rdx
-	LONG $0xe46cd1c5               // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0xea5ce3c5               // vsubsd    xmm5, xmm3, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
-	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
-	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
-	LONG $0xf25ce3c5               // vsubsd    xmm6, xmm3, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
-	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xd2   // vmovq    xmm2, rdx
-	LONG $0xd26cd1c5               // vpunpcklqdq    xmm2, xmm5, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
-	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
-	LONG $0x117dc1c4; WORD $0xf804 // vmovupd    yword [r8 + 8*rdi], ymm0
-
-LBB4_1285:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1351
-
-LBB4_1286:
-	LONG $0x4512fbc5; BYTE $0x08 // vmovddup    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5510fbc5; BYTE $0x10 // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xdb57e1c5             // vxorpd    xmm3, xmm3, xmm3
-
-LBB4_1287:
-	LONG $0x2410fbc5; BYTE $0xf1 // vmovsd    xmm4, qword [rcx + 8*rsi]
-	LONG $0xe954d9c5             // vandpd    xmm5, xmm4, xmm1
-	LONG $0xed56f9c5             // vorpd    xmm5, xmm0, xmm5
-	LONG $0xf25cd3c5             // vsubsd    xmm6, xmm5, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xd6 // vcvttsd2si    rdx, xmm6
-	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
-	LONG $0x2cfbe1c4; BYTE $0xfd // vcvttsd2si    rdi, xmm5
-	LONG $0xea2ef9c5             // vucomisd    xmm5, xmm2
-	LONG $0xfa430f48             // cmovae    rdi, rdx
-	LONG $0xdc2ef9c5             // vucomisd    xmm3, xmm4
-	LONG $0xf8440f48             // cmove    rdi, rax
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1287
-	JMP  LBB4_1351
-
-LBB4_1280:
-	LONG $0xc850f8c5                       // vmovmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01               // and    ecx, 1
-	WORD $0xd9f7                           // neg    ecx
-	WORD $0xc983; BYTE $0x01               // or    ecx, 1
-	LONG $0xc12adac5                       // vcvtsi2ss    xmm0, xmm4, ecx
-	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xd15cfac5                       // vsubss    xmm2, xmm0, xmm1
-	LONG $0x2cfae1c4; BYTE $0xca           // vcvttss2si    rcx, xmm2
-	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
-	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
-	LONG $0x2cfae1c4; BYTE $0xc8           // vcvttss2si    rcx, xmm0
-	LONG $0xc12ef8c5                       // vucomiss    xmm0, xmm1
-	LONG $0xca430f48                       // cmovae    rcx, rdx
-
-LBB4_1281:
-	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1351
-
-LBB4_1288:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1289:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1291
-	LONG $0x0410fdc5; BYTE $0xf9         // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0xc957f1c5                     // vxorpd    xmm1, xmm1, xmm1
-	LONG $0xc9c2fdc5; BYTE $0x00         // vcmpeqpd    ymm1, ymm0, ymm1
-	LONG $0x197de3c4; WORD $0x01ca       // vextractf128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x197de2c4; WORD $0x0055       // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc254fdc5                     // vandpd    ymm0, ymm0, ymm2
-	LONG $0x197de2c4; WORD $0x0855       // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056edc5                     // vorpd    ymm0, ymm2, ymm0
-	LONG $0x197de2c4; WORD $0x1855       // vbroadcastsd    ymm2, qword 24[rbp] /* [rip + .LCPI4_7] */
-	LONG $0xdac2fdc5; BYTE $0x01         // vcmpltpd    ymm3, ymm0, ymm2
-	LONG $0x197de3c4; WORD $0x01dc       // vextractf128    xmm4, ymm3, 1
-	LONG $0xd25cfdc5                     // vsubpd    ymm2, ymm0, ymm2
-	LONG $0xd2e6fdc5                     // vcvttpd2dq    xmm2, ymm2
-	QUAD $0x000094ad1879e2c4; BYTE $0x00 // vbroadcastss    xmm5, dword 148[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd557e9c5                     // vxorpd    xmm2, xmm2, xmm5
-	LONG $0xc0e6fdc5                     // vcvttpd2dq    xmm0, ymm0
-	LONG $0x4a69e3c4; WORD $0x30c0       // vblendvps    xmm0, xmm2, xmm0, xmm3
-	LONG $0xc0dff1c5                     // vpandn    xmm0, xmm1, xmm0
-	LONG $0x7f7ac1c4; WORD $0xb804       // vmovdqu    oword [r8 + 4*rdi], xmm0
-
-LBB4_1291:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_1292:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1293:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xd3 // vcvttsd2si    rdx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1293
-	JMP  LBB4_1351
-
-LBB4_1294:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1295:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1297
-	LONG $0x046ffec5; BYTE $0xb1         // vmovdqu    ymm0, yword [rcx + 4*rsi]
-	LONG $0xe072f5c5; BYTE $0x1f         // vpsrad    ymm1, ymm0, 31
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xcaebf5c5                     // vpor    ymm1, ymm1, ymm2
-	LONG $0xc95bfcc5                     // vcvtdq2ps    ymm1, ymm1
-	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xdac2f4c5; BYTE $0x01         // vcmpltps    ymm3, ymm1, ymm2
-	LONG $0xd25cf4c5                     // vsubps    ymm2, ymm1, ymm2
-	LONG $0xd25bfec5                     // vcvttps2dq    ymm2, ymm2
-	QUAD $0x000094a5187de2c4; BYTE $0x00 // vbroadcastss    ymm4, dword 148[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xd457ecc5                     // vxorps    ymm2, ymm2, ymm4
-	LONG $0xc95bfec5                     // vcvttps2dq    ymm1, ymm1
-	LONG $0x4a6de3c4; WORD $0x30c9       // vblendvps    ymm1, ymm2, ymm1, ymm3
-	LONG $0xd257e8c5                     // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fcc5; BYTE $0x04         // vcmpneqps    ymm0, ymm0, ymm2
-	LONG $0xc154fcc5                     // vandps    ymm0, ymm0, ymm1
-	LONG $0x117cc1c4; WORD $0xb004       // vmovups    yword [r8 + 4*rsi], ymm0
-
-LBB4_1297:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_1298:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1300
-
-LBB4_1299:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1300:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JE   LBB4_1299
-	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2abac5             // vcvtsi2ss    xmm1, xmm8, esi
-	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
-	JMP  LBB4_1299
-
-LBB4_1302:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1303:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1305
-	LONG $0x0410fdc5; BYTE $0xf1   // vmovupd    ymm0, yword [rcx + 8*rsi]
-	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
-	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
-	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd256e5c5               // vorpd    ymm2, ymm3, ymm2
-	LONG $0x197de3c4; WORD $0x01d3 // vextractf128    xmm3, ymm2, 1
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
-	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xdb6cd9c5               // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
-	LONG $0x0479e3c4; WORD $0x4ed2 // vpermilps    xmm2, xmm2, 78
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd26cd9c5               // vpunpcklqdq    xmm2, xmm4, xmm2
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
-	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
-	LONG $0x117dc1c4; WORD $0xf004 // vmovupd    yword [r8 + 8*rsi], ymm0
-
-LBB4_1305:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_1306:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1307:
-	LONG $0x1c10fbc5; BYTE $0xd1 // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xfb // vcvttsd2si    rdi, xmm3
-	LONG $0xfe440f48             // cmove    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1307
-	JMP  LBB4_1351
-
-LBB4_1308:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1309:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1311
-	LONG $0x0410f8c5; BYTE $0xb1         // vmovups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xc9eff1c5                     // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc9c2f8c5; BYTE $0x00         // vcmpeqps    xmm1, xmm0, xmm1
-	LONG $0x257de2c4; BYTE $0xc9         // vpmovsxdq    ymm1, xmm1
-	LONG $0xe072f9c5; BYTE $0x1f         // vpsrad    xmm0, xmm0, 31
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc2ebf9c5                     // vpor    xmm0, xmm0, xmm2
-	LONG $0xc05bf8c5                     // vcvtdq2ps    xmm0, xmm0
-	LONG $0x0479e3c4; WORD $0xe7d0       // vpermilps    xmm2, xmm0, 231
-	LONG $0x2cfae1c4; BYTE $0xc2         // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd0         // vmovq    xmm2, rax
-	LONG $0x0579e3c4; WORD $0x01d8       // vpermilpd    xmm3, xmm0, 1
-	LONG $0x2cfae1c4; BYTE $0xc3         // vcvttss2si    rax, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                     // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
-	LONG $0xc016fac5                     // vmovshdup    xmm0, xmm0
-	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xc0         // vmovq    xmm0, rax
-	LONG $0xc06ce1c5                     // vpunpcklqdq    xmm0, xmm3, xmm0
-	LONG $0x387de3c4; WORD $0x01c2       // vinserti128    ymm0, ymm0, xmm2, 1
-	LONG $0xc0dff5c5                     // vpandn    ymm0, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf004       // vmovdqu    yword [r8 + 8*rsi], ymm0
-
-LBB4_1311:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_1312:
-	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
-	JMP  LBB4_1315
-
-LBB4_1313:
-	LONG $0xc150f8c5             // vmovmskps    eax, xmm1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xc883; BYTE $0x01     // or    eax, 1
-	LONG $0xc82acac5             // vcvtsi2ss    xmm1, xmm6, eax
-	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JE   LBB4_1351
-
-LBB4_1315:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JNE  LBB4_1313
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1315
-	JMP  LBB4_1351
-
-LBB4_1317:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1318:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1320
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
-	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB4_1320:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1321
-
-LBB4_1325:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1326:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1328
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
-	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB4_1328:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1329
-
-LBB4_1333:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1334:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1336
-	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
-	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
-	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
-	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-
-LBB4_1336:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1337
-
-LBB4_1342:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1343:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1345
-	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
-	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
-	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
-	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-
-LBB4_1345:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JNE  LBB4_1346
-
-LBB4_1351:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
deleted file mode 100644
index fff54292e3b4b..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
+++ /dev/null
@@ -1,60 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _arithmetic_unary_same_types_sse4(typ int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnarySSE4(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
-	_arithmetic_unary_same_types_sse4(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_binary_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticSSE4(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
-	_arithmetic_binary_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_arr_scalar_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticArrScalarSSE4(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
-	_arithmetic_arr_scalar_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_scalar_arr_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticScalarArrSSE4(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
-	_arithmetic_scalar_arr_sse4(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_unary_diff_type_sse4(itype, otype int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryDiffTypesSSE4(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
-	_arithmetic_unary_diff_type_sse4(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
deleted file mode 100644
index 82c279ebfdebc..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
+++ /dev/null
@@ -1,39139 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $16
-
-TEXT ·_arithmetic_binary_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA1<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB0_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_21
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB0_367
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB0_1013
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_719
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_6
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_760
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_776
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_792
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_803
-
-LBB0_802:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_802
-
-LBB0_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_804:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_804
-	JMP  LBB0_1013
-
-LBB0_11:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB0_194
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB0_540
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB0_1013
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_869
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_16
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_910
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_926
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_942
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_951:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_953
-
-LBB0_952:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_952
-
-LBB0_953:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_954:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_954
-	JMP  LBB0_1013
-
-LBB0_21:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_34
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_23
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_75
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_91
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_107
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_116:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_118
-
-LBB0_117:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_117
-
-LBB0_118:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_119:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_119
-	JMP  LBB0_1013
-
-LBB0_367:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_380
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_369
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_421
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_437
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_453
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_462:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_464
-
-LBB0_463:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_463
-
-LBB0_464:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_465:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_465
-	JMP  LBB0_1013
-
-LBB0_194:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_207
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_196
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_248
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_264
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_280
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_289:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_291
-
-LBB0_290:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_290
-
-LBB0_291:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_292:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_292
-	JMP  LBB0_1013
-
-LBB0_540:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_553
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_542
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_594
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_610
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_635:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_637
-
-LBB0_636:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_636
-
-LBB0_637:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_638:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_638
-	JMP  LBB0_1013
-
-LBB0_719:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_720
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_826
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_834
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_850
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_859:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_861
-
-LBB0_860:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_860
-
-LBB0_861:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_862:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_862
-	JMP  LBB0_1013
-
-LBB0_869:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_870
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_976
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_984
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_1000
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_1009:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1011
-
-LBB0_1010:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_1010
-
-LBB0_1011:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_1012:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_1012
-	JMP  LBB0_1013
-
-LBB0_34:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_149
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_165
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_181
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_190:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_192
-
-LBB0_191:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_191
-
-LBB0_192:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_193:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_193
-	JMP  LBB0_1013
-
-LBB0_380:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_381
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_495
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_511
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_527
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_536:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_538
-
-LBB0_537:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_537
-
-LBB0_538:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_539:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_539
-	JMP  LBB0_1013
-
-LBB0_207:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_208
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_322
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_338
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_354
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_363:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_365
-
-LBB0_364:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_364
-
-LBB0_365:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_366:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_366
-	JMP  LBB0_1013
-
-LBB0_553:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_554
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_668
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_684
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_700
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_709:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_711
-
-LBB0_710:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_710
-
-LBB0_711:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_712:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_712
-	JMP  LBB0_1013
-
-LBB0_6:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_731
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_747
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_758
-
-LBB0_757:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_757
-
-LBB0_758:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_759:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_759
-	JMP  LBB0_1013
-
-LBB0_16:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_881
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_897
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_906:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_908
-
-LBB0_907:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_907
-
-LBB0_908:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_909:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_909
-	JMP  LBB0_1013
-
-LBB0_23:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_62
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_71:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_73
-
-LBB0_72:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_72
-
-LBB0_73:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_74:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_74
-	JMP  LBB0_1013
-
-LBB0_369:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_392
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_408
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_417:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_419
-
-LBB0_418:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_418
-
-LBB0_419:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_420:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_420
-	JMP  LBB0_1013
-
-LBB0_196:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_219
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_235
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_244:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_246
-
-LBB0_245:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_245
-
-LBB0_246:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_247:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_247
-	JMP  LBB0_1013
-
-LBB0_542:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_565
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_581
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_590:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_592
-
-LBB0_591:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_591
-
-LBB0_592:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_593:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_593
-	JMP  LBB0_1013
-
-LBB0_720:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_805
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_821
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_823
-
-LBB0_870:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_955
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_971
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_973
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_120
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_136
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_145:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_147
-
-LBB0_146:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_146
-
-LBB0_147:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_148:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_148
-	JMP  LBB0_1013
-
-LBB0_381:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_466
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_482
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_491:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_493
-
-LBB0_492:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_492
-
-LBB0_493:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_494:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_494
-	JMP  LBB0_1013
-
-LBB0_208:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_293
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_309
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_318:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_320
-
-LBB0_319:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_319
-
-LBB0_320:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_321:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_321
-	JMP  LBB0_1013
-
-LBB0_554:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_639
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_655
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_664:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_666
-
-LBB0_665:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_665
-
-LBB0_666:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_667:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_667
-	JMP  LBB0_1013
-
-LBB0_760:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_763
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_772:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_774
-
-LBB0_773:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_773
-
-LBB0_774:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_775:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_775
-	JMP  LBB0_1013
-
-LBB0_776:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_779
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_788:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_790
-
-LBB0_789:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_789
-
-LBB0_790:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_791:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_791
-	JMP  LBB0_1013
-
-LBB0_910:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_913
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_922:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_924
-
-LBB0_923:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_923
-
-LBB0_924:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_925:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_925
-	JMP  LBB0_1013
-
-LBB0_926:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_929
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_938:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_940
-
-LBB0_939:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_939
-
-LBB0_940:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_941:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_941
-	JMP  LBB0_1013
-
-LBB0_75:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_78
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_87:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_89
-
-LBB0_88:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_88
-
-LBB0_89:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_90:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_90
-	JMP  LBB0_1013
-
-LBB0_91:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_94
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_103:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_105
-
-LBB0_104:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_104
-
-LBB0_105:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_106:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_106
-	JMP  LBB0_1013
-
-LBB0_421:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_424
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_433:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_435
-
-LBB0_434:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_434
-
-LBB0_435:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_436:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_436
-	JMP  LBB0_1013
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_440
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_449:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_451
-
-LBB0_450:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_450
-
-LBB0_451:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_452:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_452
-	JMP  LBB0_1013
-
-LBB0_248:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_251
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_260:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_262
-
-LBB0_261:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_261
-
-LBB0_262:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_263:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_263
-	JMP  LBB0_1013
-
-LBB0_264:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_267
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_276:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_278
-
-LBB0_277:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_277
-
-LBB0_278:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_279:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_279
-	JMP  LBB0_1013
-
-LBB0_594:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_597
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_606:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_608
-
-LBB0_607:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_607
-
-LBB0_608:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_609:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_609
-	JMP  LBB0_1013
-
-LBB0_610:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_613
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_622:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_624
-
-LBB0_623:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_623
-
-LBB0_624:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_625:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_625
-	JMP  LBB0_1013
-
-LBB0_826:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_829
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_831
-
-LBB0_834:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_837
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_846:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_848
-
-LBB0_847:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_847
-
-LBB0_848:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_849:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_849
-	JMP  LBB0_1013
-
-LBB0_976:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_979
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_981
-
-LBB0_984:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_987
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_996:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_998
-
-LBB0_997:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_997
-
-LBB0_998:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_999:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1013
-
-LBB0_149:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_152
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_161:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_163
-
-LBB0_162:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_162
-
-LBB0_163:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_164:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_164
-	JMP  LBB0_1013
-
-LBB0_165:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_168
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_177:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_179
-
-LBB0_178:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_178
-
-LBB0_179:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_180:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_180
-	JMP  LBB0_1013
-
-LBB0_495:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_498
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_507:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_509
-
-LBB0_508:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_508
-
-LBB0_509:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_510:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_510
-	JMP  LBB0_1013
-
-LBB0_511:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_514
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_523:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_525
-
-LBB0_524:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_524
-
-LBB0_525:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_526:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_526
-	JMP  LBB0_1013
-
-LBB0_322:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_325
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_334:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_336
-
-LBB0_335:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_335
-
-LBB0_336:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_337:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_337
-	JMP  LBB0_1013
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_341
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_350:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_352
-
-LBB0_351:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_351
-
-LBB0_352:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_353:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_353
-	JMP  LBB0_1013
-
-LBB0_668:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_680:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_682
-
-LBB0_681:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_681
-
-LBB0_682:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_683:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_683
-	JMP  LBB0_1013
-
-LBB0_684:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_687
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_696:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_698
-
-LBB0_697:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_697
-
-LBB0_698:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_699:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_699
-	JMP  LBB0_1013
-
-LBB0_731:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_734
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_743:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_745
-
-LBB0_744:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_744
-
-LBB0_745:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_746:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_746
-	JMP  LBB0_1013
-
-LBB0_881:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_884
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_893:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_895
-
-LBB0_894:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_894
-
-LBB0_895:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_896:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_896
-	JMP  LBB0_1013
-
-LBB0_46:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_49
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_58:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_60
-
-LBB0_59:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_59
-
-LBB0_60:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_61:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_61
-	JMP  LBB0_1013
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_395
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_404:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_406
-
-LBB0_405:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_405
-
-LBB0_406:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_407:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_407
-	JMP  LBB0_1013
-
-LBB0_219:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_222
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_231:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_233
-
-LBB0_232:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_232
-
-LBB0_233:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_234:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_234
-	JMP  LBB0_1013
-
-LBB0_565:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_568
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_577:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_579
-
-LBB0_578:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_578
-
-LBB0_579:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_580:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_580
-	JMP  LBB0_1013
-
-LBB0_805:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_808
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_819
-
-LBB0_818:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_818
-
-LBB0_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_820:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_820
-	JMP  LBB0_1013
-
-LBB0_955:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_958
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_967:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_969
-
-LBB0_968:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_968
-
-LBB0_969:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_970:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_970
-	JMP  LBB0_1013
-
-LBB0_120:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_123
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_132:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_134
-
-LBB0_133:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_133
-
-LBB0_134:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_135:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_135
-	JMP  LBB0_1013
-
-LBB0_466:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_469
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_478:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_480
-
-LBB0_479:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_479
-
-LBB0_480:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_481:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_481
-	JMP  LBB0_1013
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_296
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_305:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_307
-
-LBB0_306:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_306
-
-LBB0_307:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_308:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_308
-	JMP  LBB0_1013
-
-LBB0_639:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_642
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_651:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_653
-
-LBB0_652:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_652
-
-LBB0_653:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_654:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_654
-	JMP  LBB0_1013
-
-LBB0_792:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_801
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_801
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_795
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_797:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_797
-	JMP  LBB0_798
-
-LBB0_942:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_951
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_951
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_945
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_947:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_947
-	JMP  LBB0_948
-
-LBB0_107:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_116
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_116
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_110
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_112:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_112
-	JMP  LBB0_113
-
-LBB0_453:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_462
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_462
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_456
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_458:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_458
-	JMP  LBB0_459
-
-LBB0_280:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_289
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_289
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_283
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_285:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_285
-	JMP  LBB0_286
-
-LBB0_626:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_635
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_635
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_629
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_631:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_631
-	JMP  LBB0_632
-
-LBB0_850:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_859
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_859
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_853
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_855:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_855
-	JMP  LBB0_856
-
-LBB0_1000:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_1009
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_1009
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1003
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_1005:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_1005
-	JMP  LBB0_1006
-
-LBB0_181:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_190
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_190
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_184
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_186:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_186
-	JMP  LBB0_187
-
-LBB0_527:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_536
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_536
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_530
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_532:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_532
-	JMP  LBB0_533
-
-LBB0_354:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_363
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_363
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_357
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_359:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_359
-	JMP  LBB0_360
-
-LBB0_700:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_709
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_709
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_703
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_705:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_705
-	JMP  LBB0_706
-
-LBB0_747:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_756
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_756
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_750
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_752:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_752
-	JMP  LBB0_753
-
-LBB0_897:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_906
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_906
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_900
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_902:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_902
-	JMP  LBB0_903
-
-LBB0_62:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_71
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_71
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_65
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_67:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_67
-	JMP  LBB0_68
-
-LBB0_408:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_417
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_417
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_411
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_413:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_413
-	JMP  LBB0_414
-
-LBB0_235:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_244
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_244
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_238
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_240:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_240
-	JMP  LBB0_241
-
-LBB0_581:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_590
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_590
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_584
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_586:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_586
-	JMP  LBB0_587
-
-LBB0_821:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_822:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_822
-
-LBB0_823:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_825:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_825
-	JMP  LBB0_1013
-
-LBB0_971:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_972:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_972
-
-LBB0_973:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_975:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_975
-	JMP  LBB0_1013
-
-LBB0_136:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_145
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_145
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_139
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_141:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_141
-	JMP  LBB0_142
-
-LBB0_482:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_491
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_491
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_485
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_487:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_487
-	JMP  LBB0_488
-
-LBB0_309:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_318
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_318
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_312
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_314:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_314
-	JMP  LBB0_315
-
-LBB0_655:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_664
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_664
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_658
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_660:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_660
-	JMP  LBB0_661
-
-LBB0_763:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_772
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_772
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_766
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_769
-
-LBB0_779:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_788
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_788
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_782
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_784:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_784
-	JMP  LBB0_785
-
-LBB0_913:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_922
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_922
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_916
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_918:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_918
-	JMP  LBB0_919
-
-LBB0_929:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_938
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_938
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_932
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_934:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_934
-	JMP  LBB0_935
-
-LBB0_78:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_87
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_87
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_81
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_83:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_83
-	JMP  LBB0_84
-
-LBB0_94:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_103
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_103
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_97
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_99:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_99
-	JMP  LBB0_100
-
-LBB0_424:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_433
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_433
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_427
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_429:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_429
-	JMP  LBB0_430
-
-LBB0_440:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_449
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_449
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_443
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_445:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_445
-	JMP  LBB0_446
-
-LBB0_251:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_260
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_260
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_254
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_256:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_256
-	JMP  LBB0_257
-
-LBB0_267:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_276
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_276
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_270
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_272:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_272
-	JMP  LBB0_273
-
-LBB0_597:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_606
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_606
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_600
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_602:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_602
-	JMP  LBB0_603
-
-LBB0_613:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_622
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_622
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_616
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_618:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_618
-	JMP  LBB0_619
-
-LBB0_829:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_830:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_830
-
-LBB0_831:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_833:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_833
-	JMP  LBB0_1013
-
-LBB0_837:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_846
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_846
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_840
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_842:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_842
-	JMP  LBB0_843
-
-LBB0_979:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_980:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_980
-
-LBB0_981:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_983:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_983
-
-LBB0_1013:
-	RET
-
-LBB0_987:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_996
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_996
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_992:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_992
-	JMP  LBB0_993
-
-LBB0_152:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_161
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_161
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_155
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_157:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_157
-	JMP  LBB0_158
-
-LBB0_168:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_177
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_177
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_171
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_173:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_173
-	JMP  LBB0_174
-
-LBB0_498:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_507
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_507
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_501
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_503:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_503
-	JMP  LBB0_504
-
-LBB0_514:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_523
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_523
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_517
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_519:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_519
-	JMP  LBB0_520
-
-LBB0_325:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_334
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_334
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_328
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_330:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_330
-	JMP  LBB0_331
-
-LBB0_341:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_350
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_350
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_344
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_346:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_346
-	JMP  LBB0_347
-
-LBB0_671:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_680
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_680
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_674
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_676:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_676
-	JMP  LBB0_677
-
-LBB0_687:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_696
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_696
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_690
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_692:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_692
-	JMP  LBB0_693
-
-LBB0_734:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_743
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_743
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_737
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_739:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_739
-	JMP  LBB0_740
-
-LBB0_884:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_893
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_893
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_887
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_889:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_889
-	JMP  LBB0_890
-
-LBB0_49:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_58
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_58
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_52
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_54:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_54
-	JMP  LBB0_55
-
-LBB0_395:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_404
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_404
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_398
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_400:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_400
-	JMP  LBB0_401
-
-LBB0_222:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_231
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_231
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_225
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_227:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_227
-	JMP  LBB0_228
-
-LBB0_568:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_577
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_577
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_571
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_573:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_573
-	JMP  LBB0_574
-
-LBB0_808:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_817
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_817
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_811
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_813:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_813
-	JMP  LBB0_814
-
-LBB0_958:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_967
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_967
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_961
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_963:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_963
-	JMP  LBB0_964
-
-LBB0_123:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_132
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_132
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_126
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_128:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_128
-	JMP  LBB0_129
-
-LBB0_469:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_478
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_478
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_472
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_474:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_474
-	JMP  LBB0_475
-
-LBB0_296:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_305
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_305
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_299
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_301:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_301
-	JMP  LBB0_302
-
-LBB0_642:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_651
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_651
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_645
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_647:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_647
-	JMP  LBB0_648
-
-LBB0_795:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_800
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_801
-	JMP  LBB0_1013
-
-LBB0_945:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_948:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_950
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_950:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_951
-	JMP  LBB0_1013
-
-LBB0_110:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_113:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_115
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_115:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_116
-
-LBB0_456:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_459:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_461
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_462
-	JMP  LBB0_1013
-
-LBB0_283:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_286:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_288
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_288:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_289
-
-LBB0_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_632:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_634
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_634:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_635
-	JMP  LBB0_1013
-
-LBB0_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_856:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_858
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_858:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_859
-	JMP  LBB0_1013
-
-LBB0_1003:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_1008
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_1009
-	JMP  LBB0_1013
-
-LBB0_184:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_187:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_189
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_189:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_190
-
-LBB0_530:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_533:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_535
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_535:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_536
-	JMP  LBB0_1013
-
-LBB0_357:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_360:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_362
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_362:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_363
-	JMP  LBB0_1013
-
-LBB0_703:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_706:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_708
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_708:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_709
-	JMP  LBB0_1013
-
-LBB0_750:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_753:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_755
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_755:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_756
-	JMP  LBB0_1013
-
-LBB0_900:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_903:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_905
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_905:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_906
-	JMP  LBB0_1013
-
-LBB0_65:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_68:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_70
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_70:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_71
-
-LBB0_411:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_414:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_416
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_416:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_417
-	JMP  LBB0_1013
-
-LBB0_238:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_241:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_243
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_243:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_244
-
-LBB0_584:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_587:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_589
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_590
-	JMP  LBB0_1013
-
-LBB0_139:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_142:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_144
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_144:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_145
-
-LBB0_485:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_488:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_490
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_490:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_491
-	JMP  LBB0_1013
-
-LBB0_312:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_315:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_317
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_317:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_318
-	JMP  LBB0_1013
-
-LBB0_658:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_661:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_663
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_663:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_664
-	JMP  LBB0_1013
-
-LBB0_766:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_769:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_771
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_771:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_772
-	JMP  LBB0_1013
-
-LBB0_782:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_785:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_787
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_787:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_788
-	JMP  LBB0_1013
-
-LBB0_916:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_919:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_921
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_921:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_922
-	JMP  LBB0_1013
-
-LBB0_932:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_935:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_937
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_937:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_938
-	JMP  LBB0_1013
-
-LBB0_81:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_84:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_86
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_86:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_87
-
-LBB0_97:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_100:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_102
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_102:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_103
-
-LBB0_427:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_430:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_432
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_432:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_433
-	JMP  LBB0_1013
-
-LBB0_443:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_446:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_448
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_448:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_449
-	JMP  LBB0_1013
-
-LBB0_254:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_257:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_259
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_259:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_260
-
-LBB0_270:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_273:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_275
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_275:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_276
-
-LBB0_600:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_603:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_605
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_605:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_606
-	JMP  LBB0_1013
-
-LBB0_616:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_619:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_621
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_621:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_622
-	JMP  LBB0_1013
-
-LBB0_840:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_843:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_845
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_845:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_846
-	JMP  LBB0_1013
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_993:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_995
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_995:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_996
-	JMP  LBB0_1013
-
-LBB0_155:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_158:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_160
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_160:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_161
-
-LBB0_171:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_174:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_176
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_176:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_177
-
-LBB0_501:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_504:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_506
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_506:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_507
-	JMP  LBB0_1013
-
-LBB0_517:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_520:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_522
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_522:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_523
-	JMP  LBB0_1013
-
-LBB0_328:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_331:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_333
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_333:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_334
-	JMP  LBB0_1013
-
-LBB0_344:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_347:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_349
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_349:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_350
-	JMP  LBB0_1013
-
-LBB0_674:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_677:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_679
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_679:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_680
-	JMP  LBB0_1013
-
-LBB0_690:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_693:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_695
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_695:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_696
-	JMP  LBB0_1013
-
-LBB0_737:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_740:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_742
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_742:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_743
-	JMP  LBB0_1013
-
-LBB0_887:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_890:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_892
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_892:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_893
-	JMP  LBB0_1013
-
-LBB0_52:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_55:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_57
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_57:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_58
-
-LBB0_398:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_401:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_403
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_403:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_404
-	JMP  LBB0_1013
-
-LBB0_225:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_228:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_230
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_230:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_231
-
-LBB0_571:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_574:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_576
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_576:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_577
-	JMP  LBB0_1013
-
-LBB0_811:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_816
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_817
-	JMP  LBB0_1013
-
-LBB0_961:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_964:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_966
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_966:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_967
-	JMP  LBB0_1013
-
-LBB0_126:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_129:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_131
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_131:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_132
-
-LBB0_472:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_475:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_477
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_477:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_478
-	JMP  LBB0_1013
-
-LBB0_299:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_302:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_304
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_304:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_305
-
-LBB0_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_648:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_650
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_650:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_651
-	JMP  LBB0_1013
-
-DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA2<>(SB), 8, $16
-
-TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA2<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB1_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB1_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB1_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_11
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_453
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_453
-
-LBB1_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_625:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_627
-
-LBB1_626:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_626
-
-LBB1_627:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_628:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_628
-	JMP  LBB1_1069
-
-LBB1_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB1_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB1_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB1_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_22
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_456
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_456
-
-LBB1_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_633:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_635
-
-LBB1_634:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_634
-
-LBB1_635:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_636:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_636
-	JMP  LBB1_1069
-
-LBB1_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_30
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_459
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_459
-
-LBB1_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_641:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_643
-
-LBB1_642:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_642
-
-LBB1_643:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_644:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_644
-	JMP  LBB1_1069
-
-LBB1_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_38
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_462
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_462
-
-LBB1_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_649:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_651
-
-LBB1_650:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_650
-
-LBB1_651:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_652:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_652
-	JMP  LBB1_1069
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_46
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_465
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_465
-
-LBB1_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_657:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_659
-
-LBB1_658:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_658
-
-LBB1_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_660:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_660
-	JMP  LBB1_1069
-
-LBB1_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_54
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_468
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_468
-
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_667
-
-LBB1_666:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_666
-
-LBB1_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_668:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_668
-	JMP  LBB1_1069
-
-LBB1_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_61
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_471
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_471
-
-LBB1_61:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_673:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_675
-
-LBB1_674:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_674
-
-LBB1_675:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_676:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_676
-	JMP  LBB1_1069
-
-LBB1_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_68
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_474
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_474
-
-LBB1_68:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_681:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_683
-
-LBB1_682:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_682
-
-LBB1_683:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_684:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_684
-	JMP  LBB1_1069
-
-LBB1_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_75
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_477
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_477
-
-LBB1_75:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_689:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_691
-
-LBB1_690:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_690
-
-LBB1_691:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_692:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_692
-	JMP  LBB1_1069
-
-LBB1_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_82
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_480
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_480
-
-LBB1_82:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_697:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_699
-
-LBB1_698:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_698
-
-LBB1_699:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_700:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_700
-	JMP  LBB1_1069
-
-LBB1_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_89
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_483
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_483
-
-LBB1_89:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_705:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_707
-
-LBB1_706:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_706
-
-LBB1_707:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_708:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_708
-	JMP  LBB1_1069
-
-LBB1_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_96
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_486
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_486
-
-LBB1_96:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_713:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_715
-
-LBB1_714:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_714
-
-LBB1_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_716:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_716
-	JMP  LBB1_1069
-
-LBB1_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_101
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_489
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_489
-
-LBB1_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_721:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_723
-
-LBB1_722:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_722
-
-LBB1_723:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_724:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_724
-	JMP  LBB1_1069
-
-LBB1_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_106
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_492
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_492
-
-LBB1_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_729:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_731
-
-LBB1_730:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_730
-
-LBB1_731:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_732:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_732
-	JMP  LBB1_1069
-
-LBB1_107:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_235
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_111
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_495
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_495
-
-LBB1_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_737:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_739
-
-LBB1_738:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_738
-
-LBB1_739:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_740:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_740
-	JMP  LBB1_1069
-
-LBB1_112:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_238
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_116
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_498
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_498
-
-LBB1_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_745:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_747
-
-LBB1_746:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_746
-
-LBB1_747:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_748:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_748
-	JMP  LBB1_1069
-
-LBB1_117:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_241
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_121
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_501
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_501
-
-LBB1_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_753:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_755
-
-LBB1_754:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_754
-
-LBB1_755:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_756:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_756
-	JMP  LBB1_1069
-
-LBB1_122:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_244
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_126
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_504
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_504
-
-LBB1_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_763
-
-LBB1_762:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_762
-
-LBB1_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_764:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_764
-	JMP  LBB1_1069
-
-LBB1_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_319
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_321
-
-LBB1_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_324
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_326
-
-LBB1_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_141
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_507
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_507
-
-LBB1_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_771
-
-LBB1_770:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_770
-
-LBB1_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_772:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_772
-	JMP  LBB1_1069
-
-LBB1_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_146
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_510
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_510
-
-LBB1_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_779
-
-LBB1_778:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_778
-
-LBB1_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_780:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_780
-	JMP  LBB1_1069
-
-LBB1_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_151
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_513
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_513
-
-LBB1_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_787
-
-LBB1_786:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_786
-
-LBB1_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_788:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_788
-	JMP  LBB1_1069
-
-LBB1_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_156
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_516
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_516
-
-LBB1_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_795
-
-LBB1_794:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_794
-
-LBB1_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_796:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_796
-	JMP  LBB1_1069
-
-LBB1_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_159
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_519
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_519
-
-LBB1_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_803
-
-LBB1_802:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_802
-
-LBB1_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_804:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_804
-	JMP  LBB1_1069
-
-LBB1_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_162
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_522
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_522
-
-LBB1_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_811
-
-LBB1_810:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_810
-
-LBB1_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_812:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_812
-	JMP  LBB1_1069
-
-LBB1_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_165
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_525
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_525
-
-LBB1_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_819
-
-LBB1_818:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_818
-
-LBB1_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_820:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_820
-	JMP  LBB1_1069
-
-LBB1_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_168
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_528
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_528
-
-LBB1_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_827
-
-LBB1_826:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_826
-
-LBB1_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_828:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_828
-	JMP  LBB1_1069
-
-LBB1_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_171
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_531
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_531
-
-LBB1_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_835
-
-LBB1_834:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_834
-
-LBB1_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_836:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_836
-	JMP  LBB1_1069
-
-LBB1_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_174
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_534
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_534
-
-LBB1_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_843
-
-LBB1_842:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_842
-
-LBB1_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_844:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_844
-	JMP  LBB1_1069
-
-LBB1_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_177
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_537
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_537
-
-LBB1_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_851
-
-LBB1_850:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_850
-
-LBB1_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_852:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_852
-	JMP  LBB1_1069
-
-LBB1_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_180
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_540
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_540
-
-LBB1_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_859
-
-LBB1_858:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_858
-
-LBB1_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_860:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_860
-	JMP  LBB1_1069
-
-LBB1_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_183
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_543
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_543
-
-LBB1_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_867
-
-LBB1_866:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_866
-
-LBB1_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_868:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_868
-	JMP  LBB1_1069
-
-LBB1_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_186
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_546
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_546
-
-LBB1_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_875
-
-LBB1_874:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_874
-
-LBB1_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_876:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_876
-	JMP  LBB1_1069
-
-LBB1_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_189
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_549
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_549
-
-LBB1_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_883
-
-LBB1_882:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_882
-
-LBB1_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_884:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_884
-	JMP  LBB1_1069
-
-LBB1_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_192
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_552
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_552
-
-LBB1_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_891
-
-LBB1_890:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_890
-
-LBB1_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_892:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_892
-	JMP  LBB1_1069
-
-LBB1_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_377
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_379
-
-LBB1_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_198
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_555
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_555
-
-LBB1_198:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_897:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_899
-
-LBB1_898:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_898
-
-LBB1_899:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_900:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_900
-	JMP  LBB1_1069
-
-LBB1_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_385
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_387
-
-LBB1_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_204
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_558
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_558
-
-LBB1_204:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_905:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_907
-
-LBB1_906:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_906
-
-LBB1_907:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_908:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_908
-	JMP  LBB1_1069
-
-LBB1_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_207
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_561
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_561
-
-LBB1_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_915
-
-LBB1_914:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_914
-
-LBB1_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_916:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_916
-	JMP  LBB1_1069
-
-LBB1_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_210
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_564
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_564
-
-LBB1_210:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_921:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_923
-
-LBB1_922:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_922
-
-LBB1_923:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_924:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_924
-	JMP  LBB1_1069
-
-LBB1_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_213
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_567
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_567
-
-LBB1_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_931
-
-LBB1_930:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_930
-
-LBB1_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_932:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_932
-	JMP  LBB1_1069
-
-LBB1_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_216
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_570
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_570
-
-LBB1_216:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_937:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_939
-
-LBB1_938:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_938
-
-LBB1_939:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_940:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_940
-	JMP  LBB1_1069
-
-LBB1_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_219
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_573
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_573
-
-LBB1_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_945:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_947
-
-LBB1_946:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_946
-
-LBB1_947:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_948:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_948
-	JMP  LBB1_1069
-
-LBB1_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_222
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_576
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_576
-
-LBB1_222:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_953:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_955
-
-LBB1_954:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_954
-
-LBB1_955:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_956:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_956
-	JMP  LBB1_1069
-
-LBB1_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_225
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_579
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_579
-
-LBB1_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_961:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_963
-
-LBB1_962:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_962
-
-LBB1_963:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_964:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_964
-	JMP  LBB1_1069
-
-LBB1_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_228
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_582
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_582
-
-LBB1_228:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_969:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_971
-
-LBB1_970:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_970
-
-LBB1_971:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_972:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_972
-	JMP  LBB1_1069
-
-LBB1_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_231
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_585
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_585
-
-LBB1_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_977:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_979
-
-LBB1_978:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_978
-
-LBB1_979:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_980:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_980
-	JMP  LBB1_1069
-
-LBB1_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_234
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_588
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_588
-
-LBB1_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_985:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_987
-
-LBB1_986:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_986
-
-LBB1_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_988:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_988
-	JMP  LBB1_1069
-
-LBB1_235:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_237
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_591
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_591
-
-LBB1_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_993:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_995
-
-LBB1_994:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_994
-
-LBB1_995:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_996:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_996
-	JMP  LBB1_1069
-
-LBB1_238:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_240
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_594
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_594
-
-LBB1_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1003
-
-LBB1_1002:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1002
-
-LBB1_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1004:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1004
-	JMP  LBB1_1069
-
-LBB1_241:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_243
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_597
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_597
-
-LBB1_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1009:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1011
-
-LBB1_1010:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1010
-
-LBB1_1011:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1012:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1012
-	JMP  LBB1_1069
-
-LBB1_244:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_246
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_600
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_600
-
-LBB1_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1017:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1019
-
-LBB1_1018:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1018
-
-LBB1_1019:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1020:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1020
-	JMP  LBB1_1069
-
-LBB1_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_249
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_603
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_603
-
-LBB1_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1025:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1027
-
-LBB1_1026:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1026
-
-LBB1_1027:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1028:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1028
-	JMP  LBB1_1069
-
-LBB1_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_252
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_606
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_606
-
-LBB1_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1035
-
-LBB1_1034:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1034
-
-LBB1_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1036:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1036
-	JMP  LBB1_1069
-
-LBB1_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_255
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_609
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_609
-
-LBB1_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1043
-
-LBB1_1042:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1042
-
-LBB1_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1044:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1044
-	JMP  LBB1_1069
-
-LBB1_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_258
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_612
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_612
-
-LBB1_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1051
-
-LBB1_1050:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1050
-
-LBB1_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1052:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1052
-	JMP  LBB1_1069
-
-LBB1_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_261
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_615
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_615
-
-LBB1_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1059
-
-LBB1_1058:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1058
-
-LBB1_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1060:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1060
-	JMP  LBB1_1069
-
-LBB1_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_264
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_618
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_618
-
-LBB1_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1067
-
-LBB1_1066:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1066
-
-LBB1_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1068:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1068
-	JMP  LBB1_1069
-
-LBB1_319:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_320:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_320
-
-LBB1_321:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_323:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_323
-	JMP  LBB1_1069
-
-LBB1_324:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_325:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_325
-
-LBB1_326:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_328:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_328
-	JMP  LBB1_1069
-
-LBB1_377:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_378:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_378
-
-LBB1_379:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_381:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_381
-	JMP  LBB1_1069
-
-LBB1_385:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_386:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_386
-
-LBB1_387:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_389:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_389
-
-LBB1_1069:
-	RET
-
-LBB1_453:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_621
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_455:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_455
-	JMP  LBB1_622
-
-LBB1_456:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_629
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_458:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_458
-	JMP  LBB1_630
-
-LBB1_459:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_637
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_461:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_461
-	JMP  LBB1_638
-
-LBB1_462:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_645
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_464:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_464
-	JMP  LBB1_646
-
-LBB1_465:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_653
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_467:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_467
-	JMP  LBB1_654
-
-LBB1_468:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_661
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_470:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_470
-	JMP  LBB1_662
-
-LBB1_471:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_669
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_473:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_473
-	JMP  LBB1_670
-
-LBB1_474:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_677
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_476:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_476
-	JMP  LBB1_678
-
-LBB1_477:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_685
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_479:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_479
-	JMP  LBB1_686
-
-LBB1_480:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_693
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_482:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_482
-	JMP  LBB1_694
-
-LBB1_483:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_701
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_485:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_485
-	JMP  LBB1_702
-
-LBB1_486:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_709
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_488:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_488
-	JMP  LBB1_710
-
-LBB1_489:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_491:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_491
-	JMP  LBB1_718
-
-LBB1_492:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_494:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_494
-	JMP  LBB1_726
-
-LBB1_495:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_733
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_497:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_497
-	JMP  LBB1_734
-
-LBB1_498:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_741
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_500:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_500
-	JMP  LBB1_742
-
-LBB1_501:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_749
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_503:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_503
-	JMP  LBB1_750
-
-LBB1_504:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_757
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_506:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_506
-	JMP  LBB1_758
-
-LBB1_507:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_765
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_509:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_509
-	JMP  LBB1_766
-
-LBB1_510:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_773
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_512:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_512
-	JMP  LBB1_774
-
-LBB1_513:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_781
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_515:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_515
-	JMP  LBB1_782
-
-LBB1_516:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_789
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_518:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_518
-	JMP  LBB1_790
-
-LBB1_519:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_797
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_521:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_521
-	JMP  LBB1_798
-
-LBB1_522:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_805
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_524:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_524
-	JMP  LBB1_806
-
-LBB1_525:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_813
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_527:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_527
-	JMP  LBB1_814
-
-LBB1_528:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_821
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_530:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_530
-	JMP  LBB1_822
-
-LBB1_531:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_829
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_533:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_533
-	JMP  LBB1_830
-
-LBB1_534:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_837
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_536:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_536
-	JMP  LBB1_838
-
-LBB1_537:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_845
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_539:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_539
-	JMP  LBB1_846
-
-LBB1_540:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_853
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_542:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_542
-	JMP  LBB1_854
-
-LBB1_543:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_861
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_545:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_545
-	JMP  LBB1_862
-
-LBB1_546:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_869
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_548:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_548
-	JMP  LBB1_870
-
-LBB1_549:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_877
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_551:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_551
-	JMP  LBB1_878
-
-LBB1_552:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_885
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_554:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_554
-	JMP  LBB1_886
-
-LBB1_555:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_893
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_557:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_557
-	JMP  LBB1_894
-
-LBB1_558:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_901
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_560:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_560
-	JMP  LBB1_902
-
-LBB1_561:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_909
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_563:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_563
-	JMP  LBB1_910
-
-LBB1_564:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_917
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_566:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_566
-	JMP  LBB1_918
-
-LBB1_567:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_925
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_569:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_569
-	JMP  LBB1_926
-
-LBB1_570:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_933
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_572:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_572
-	JMP  LBB1_934
-
-LBB1_573:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_941
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_575:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_575
-	JMP  LBB1_942
-
-LBB1_576:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_949
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_578:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_578
-	JMP  LBB1_950
-
-LBB1_579:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_957
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_581:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_581
-	JMP  LBB1_958
-
-LBB1_582:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_965
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_584:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_584
-	JMP  LBB1_966
-
-LBB1_585:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_587:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_587
-	JMP  LBB1_974
-
-LBB1_588:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_981
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_590:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_590
-	JMP  LBB1_982
-
-LBB1_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_989
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_593:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_593
-	JMP  LBB1_990
-
-LBB1_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_997
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_596:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_596
-	JMP  LBB1_998
-
-LBB1_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1005
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_599:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_599
-	JMP  LBB1_1006
-
-LBB1_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1013
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_602:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_602
-	JMP  LBB1_1014
-
-LBB1_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1021
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_605:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_605
-	JMP  LBB1_1022
-
-LBB1_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1029
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_608:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_608
-	JMP  LBB1_1030
-
-LBB1_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1037
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_611:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_611
-	JMP  LBB1_1038
-
-LBB1_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1045
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_614:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_614
-	JMP  LBB1_1046
-
-LBB1_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1053
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_617:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_617
-	JMP  LBB1_1054
-
-LBB1_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1061
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_620:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_620
-	JMP  LBB1_1062
-
-LBB1_621:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_624
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_624:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_625
-
-LBB1_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_630:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_632
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_632:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_633
-
-LBB1_637:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_638:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_640
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_640:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_641
-
-LBB1_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_646:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_648
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_648:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_649
-
-LBB1_653:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_654:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_656
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_656:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_657
-
-LBB1_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_664
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_665
-
-LBB1_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_672
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_672:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_673
-
-LBB1_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_680
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_680:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_681
-
-LBB1_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_688
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_688:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_689
-
-LBB1_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_696
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_696:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_697
-
-LBB1_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_704
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_704:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_705
-
-LBB1_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_712
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_712:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_713
-
-LBB1_717:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_720
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_720:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_721
-
-LBB1_725:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_728
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_728:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_729
-
-LBB1_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_736
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_736:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_737
-
-LBB1_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_744
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_744:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_745
-
-LBB1_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_752
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_752:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_753
-
-LBB1_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_760
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_761
-
-LBB1_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_768
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_769
-
-LBB1_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_776
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_777
-
-LBB1_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_784
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_785
-
-LBB1_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_792
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_793
-
-LBB1_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_800
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_801
-
-LBB1_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_808
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_809
-
-LBB1_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_816
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_817
-
-LBB1_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_824
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_825
-
-LBB1_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_832
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_833
-
-LBB1_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_840
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_841
-
-LBB1_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_848
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_849
-
-LBB1_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_856
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_857
-
-LBB1_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_864
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_865
-
-LBB1_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_872
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_873
-
-LBB1_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_880
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_881
-
-LBB1_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_888
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_889
-
-LBB1_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_894:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_896
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_896:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_897
-
-LBB1_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_902:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_904
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_904:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_905
-
-LBB1_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_912
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_913
-
-LBB1_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_918:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_920
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_920:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_921
-
-LBB1_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_928
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_929
-
-LBB1_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_934:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_936
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_936:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_937
-
-LBB1_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_944
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_944:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_945
-
-LBB1_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_950:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_952
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_952:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_953
-
-LBB1_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_960
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_960:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_961
-
-LBB1_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_966:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_968
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_968:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_969
-
-LBB1_973:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_976
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_976:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_977
-
-LBB1_981:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_984
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_984:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_985
-
-LBB1_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_992
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_992:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_993
-
-LBB1_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1000
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1001
-
-LBB1_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1008
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1009
-
-LBB1_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1016
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1017
-
-LBB1_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1024
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1024:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1025
-
-LBB1_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1032
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1033
-
-LBB1_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1040
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1041
-
-LBB1_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1048
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1049
-
-LBB1_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1056
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1057
-
-LBB1_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1064
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1065
-
-DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA3<>(SB), 8, $16
-
-TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA3<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB2_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB2_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB2_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_11
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_453
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_453
-
-LBB2_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_625:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_627
-
-LBB2_626:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_626
-
-LBB2_627:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_628:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_628
-	JMP  LBB2_1069
-
-LBB2_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB2_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB2_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB2_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_22
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_456
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_456
-
-LBB2_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_633:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_635
-
-LBB2_634:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_634
-
-LBB2_635:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_636:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_636
-	JMP  LBB2_1069
-
-LBB2_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_30
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_459
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_459
-
-LBB2_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_641:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_643
-
-LBB2_642:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_642
-
-LBB2_643:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_644:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_644
-	JMP  LBB2_1069
-
-LBB2_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_38
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_462
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_462
-
-LBB2_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_649:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_651
-
-LBB2_650:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_650
-
-LBB2_651:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_652:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_652
-	JMP  LBB2_1069
-
-LBB2_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_46
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_465
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_465
-
-LBB2_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_657:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_659
-
-LBB2_658:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_658
-
-LBB2_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_660:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_660
-	JMP  LBB2_1069
-
-LBB2_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_54
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_468
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_468
-
-LBB2_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_665:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_667
-
-LBB2_666:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_666
-
-LBB2_667:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_668:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_668
-	JMP  LBB2_1069
-
-LBB2_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_61
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_471
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_471
-
-LBB2_61:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_673:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_675
-
-LBB2_674:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_674
-
-LBB2_675:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_676:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_676
-	JMP  LBB2_1069
-
-LBB2_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_68
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_474
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_474
-
-LBB2_68:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_681:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_683
-
-LBB2_682:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_682
-
-LBB2_683:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_684:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_684
-	JMP  LBB2_1069
-
-LBB2_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_75
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_477
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_477
-
-LBB2_75:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_689:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_691
-
-LBB2_690:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_690
-
-LBB2_691:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_692:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_692
-	JMP  LBB2_1069
-
-LBB2_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_82
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_480
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_480
-
-LBB2_82:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_697:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_699
-
-LBB2_698:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_698
-
-LBB2_699:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_700:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_700
-	JMP  LBB2_1069
-
-LBB2_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_89
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_483
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_483
-
-LBB2_89:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_705:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_707
-
-LBB2_706:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_706
-
-LBB2_707:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_708:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_708
-	JMP  LBB2_1069
-
-LBB2_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_96
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_486
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_486
-
-LBB2_96:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_713:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_715
-
-LBB2_714:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_714
-
-LBB2_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_716:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_716
-	JMP  LBB2_1069
-
-LBB2_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_101
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_489
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_489
-
-LBB2_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_721:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_723
-
-LBB2_722:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_722
-
-LBB2_723:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_724:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_724
-	JMP  LBB2_1069
-
-LBB2_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_106
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_492
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_492
-
-LBB2_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_729:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_731
-
-LBB2_730:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_730
-
-LBB2_731:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_732:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_732
-	JMP  LBB2_1069
-
-LBB2_107:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_235
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_111
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_495
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_495
-
-LBB2_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_737:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_739
-
-LBB2_738:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_738
-
-LBB2_739:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_740:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_740
-	JMP  LBB2_1069
-
-LBB2_112:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_238
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_116
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_498
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_498
-
-LBB2_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_745:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_747
-
-LBB2_746:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_746
-
-LBB2_747:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_748:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_748
-	JMP  LBB2_1069
-
-LBB2_117:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_241
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_121
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_501
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_501
-
-LBB2_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_753:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_755
-
-LBB2_754:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_754
-
-LBB2_755:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_756:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_756
-	JMP  LBB2_1069
-
-LBB2_122:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_244
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_126
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_504
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_504
-
-LBB2_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_761:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_763
-
-LBB2_762:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_762
-
-LBB2_763:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_764:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_764
-	JMP  LBB2_1069
-
-LBB2_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_319
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_321
-
-LBB2_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_324
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_326
-
-LBB2_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_141
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_507
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_507
-
-LBB2_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_771
-
-LBB2_770:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_770
-
-LBB2_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_772:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_772
-	JMP  LBB2_1069
-
-LBB2_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_146
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_510
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_510
-
-LBB2_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_777:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_779
-
-LBB2_778:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_778
-
-LBB2_779:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_780:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_780
-	JMP  LBB2_1069
-
-LBB2_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_151
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_513
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_513
-
-LBB2_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_787
-
-LBB2_786:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_786
-
-LBB2_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_788:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_788
-	JMP  LBB2_1069
-
-LBB2_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_156
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_516
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_516
-
-LBB2_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_793:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_795
-
-LBB2_794:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_794
-
-LBB2_795:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_796:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_796
-	JMP  LBB2_1069
-
-LBB2_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_159
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_519
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_519
-
-LBB2_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_803
-
-LBB2_802:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_802
-
-LBB2_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_804:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_804
-	JMP  LBB2_1069
-
-LBB2_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_162
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_522
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_522
-
-LBB2_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_811
-
-LBB2_810:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_810
-
-LBB2_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_812:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_812
-	JMP  LBB2_1069
-
-LBB2_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_165
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_525
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_525
-
-LBB2_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_819
-
-LBB2_818:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_818
-
-LBB2_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_820:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_820
-	JMP  LBB2_1069
-
-LBB2_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_168
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_528
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_528
-
-LBB2_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_827
-
-LBB2_826:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_826
-
-LBB2_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_828:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_828
-	JMP  LBB2_1069
-
-LBB2_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_171
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_531
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_531
-
-LBB2_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_835
-
-LBB2_834:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_834
-
-LBB2_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_836:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_836
-	JMP  LBB2_1069
-
-LBB2_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_174
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_534
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_534
-
-LBB2_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_843
-
-LBB2_842:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_842
-
-LBB2_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_844:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_844
-	JMP  LBB2_1069
-
-LBB2_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_177
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_537
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_537
-
-LBB2_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_851
-
-LBB2_850:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_850
-
-LBB2_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_852:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_852
-	JMP  LBB2_1069
-
-LBB2_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_180
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_540
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_540
-
-LBB2_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_859
-
-LBB2_858:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_858
-
-LBB2_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_860:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_860
-	JMP  LBB2_1069
-
-LBB2_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_183
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_543
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_543
-
-LBB2_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_867
-
-LBB2_866:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_866
-
-LBB2_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_868:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_868
-	JMP  LBB2_1069
-
-LBB2_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_186
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_546
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_546
-
-LBB2_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_875
-
-LBB2_874:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_874
-
-LBB2_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_876:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_876
-	JMP  LBB2_1069
-
-LBB2_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_189
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_549
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_549
-
-LBB2_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_883
-
-LBB2_882:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_882
-
-LBB2_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_884:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_884
-	JMP  LBB2_1069
-
-LBB2_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_192
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_552
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_552
-
-LBB2_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_891
-
-LBB2_890:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_890
-
-LBB2_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_892:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_892
-	JMP  LBB2_1069
-
-LBB2_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_377
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_379
-
-LBB2_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_198
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_555
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_555
-
-LBB2_198:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_897:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_899
-
-LBB2_898:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_898
-
-LBB2_899:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_900:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_900
-	JMP  LBB2_1069
-
-LBB2_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_385
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_387
-
-LBB2_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_558
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_558
-
-LBB2_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_905:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_907
-
-LBB2_906:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_906
-
-LBB2_907:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_908:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_908
-	JMP  LBB2_1069
-
-LBB2_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_207
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_561
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_561
-
-LBB2_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_915
-
-LBB2_914:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_914
-
-LBB2_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_916:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_916
-	JMP  LBB2_1069
-
-LBB2_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_210
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_564
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_564
-
-LBB2_210:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_921:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_923
-
-LBB2_922:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_922
-
-LBB2_923:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_924:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_924
-	JMP  LBB2_1069
-
-LBB2_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_213
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_567
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_567
-
-LBB2_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_929:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_931
-
-LBB2_930:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_930
-
-LBB2_931:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_932:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_932
-	JMP  LBB2_1069
-
-LBB2_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_216
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_570
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_570
-
-LBB2_216:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_937:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_939
-
-LBB2_938:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_938
-
-LBB2_939:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_940:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_940
-	JMP  LBB2_1069
-
-LBB2_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_219
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_573
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_573
-
-LBB2_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_945:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_947
-
-LBB2_946:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_946
-
-LBB2_947:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_948:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_948
-	JMP  LBB2_1069
-
-LBB2_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_222
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_576
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_576
-
-LBB2_222:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_953:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_955
-
-LBB2_954:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_954
-
-LBB2_955:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_956:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_956
-	JMP  LBB2_1069
-
-LBB2_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_225
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_579
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_579
-
-LBB2_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_961:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_963
-
-LBB2_962:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_962
-
-LBB2_963:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_964:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_964
-	JMP  LBB2_1069
-
-LBB2_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_228
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_582
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_582
-
-LBB2_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_969:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_971
-
-LBB2_970:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_970
-
-LBB2_971:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_972:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_972
-	JMP  LBB2_1069
-
-LBB2_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_231
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_585
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_585
-
-LBB2_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_977:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_979
-
-LBB2_978:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_978
-
-LBB2_979:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_980:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_980
-	JMP  LBB2_1069
-
-LBB2_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_234
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_588
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_588
-
-LBB2_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_985:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_987
-
-LBB2_986:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_986
-
-LBB2_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_988:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_988
-	JMP  LBB2_1069
-
-LBB2_235:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_237
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_591
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_591
-
-LBB2_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_993:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_995
-
-LBB2_994:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_994
-
-LBB2_995:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_996:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_996
-	JMP  LBB2_1069
-
-LBB2_238:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_240
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_594
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_594
-
-LBB2_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1001:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1003
-
-LBB2_1002:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1002
-
-LBB2_1003:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1004:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1004
-	JMP  LBB2_1069
-
-LBB2_241:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_243
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_597
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_597
-
-LBB2_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1009:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1011
-
-LBB2_1010:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1010
-
-LBB2_1011:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1012:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1012
-	JMP  LBB2_1069
-
-LBB2_244:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_246
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_600
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_600
-
-LBB2_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1017:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1019
-
-LBB2_1018:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1018
-
-LBB2_1019:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1020:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1020
-	JMP  LBB2_1069
-
-LBB2_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_603
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_603
-
-LBB2_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1025:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1027
-
-LBB2_1026:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1026
-
-LBB2_1027:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1028:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1028
-	JMP  LBB2_1069
-
-LBB2_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_252
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_606
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_606
-
-LBB2_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1035
-
-LBB2_1034:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1034
-
-LBB2_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1036:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1036
-	JMP  LBB2_1069
-
-LBB2_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_255
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_609
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_609
-
-LBB2_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1043
-
-LBB2_1042:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1042
-
-LBB2_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1044:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1044
-	JMP  LBB2_1069
-
-LBB2_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_258
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_612
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_612
-
-LBB2_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1049:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1051
-
-LBB2_1050:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1050
-
-LBB2_1051:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1052:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1052
-	JMP  LBB2_1069
-
-LBB2_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_261
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_615
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_615
-
-LBB2_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1059
-
-LBB2_1058:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1058
-
-LBB2_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1060:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1060
-	JMP  LBB2_1069
-
-LBB2_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_264
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_618
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_618
-
-LBB2_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1065:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1067
-
-LBB2_1066:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1066
-
-LBB2_1067:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1068:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1068
-	JMP  LBB2_1069
-
-LBB2_319:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_320:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_320
-
-LBB2_321:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_323:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_323
-	JMP  LBB2_1069
-
-LBB2_324:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_325:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_325
-
-LBB2_326:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_328:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_328
-	JMP  LBB2_1069
-
-LBB2_377:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_378:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_378
-
-LBB2_379:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_381:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_381
-	JMP  LBB2_1069
-
-LBB2_385:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_386:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_386
-
-LBB2_387:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_389:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_389
-
-LBB2_1069:
-	RET
-
-LBB2_453:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_621
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_455:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_455
-	JMP  LBB2_622
-
-LBB2_456:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_629
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_458:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_458
-	JMP  LBB2_630
-
-LBB2_459:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_637
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_461:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_461
-	JMP  LBB2_638
-
-LBB2_462:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_645
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_464:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_464
-	JMP  LBB2_646
-
-LBB2_465:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_653
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_467:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_467
-	JMP  LBB2_654
-
-LBB2_468:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_661
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_470:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_470
-	JMP  LBB2_662
-
-LBB2_471:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_669
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_473:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_473
-	JMP  LBB2_670
-
-LBB2_474:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_677
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_476:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_476
-	JMP  LBB2_678
-
-LBB2_477:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_685
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_479:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_479
-	JMP  LBB2_686
-
-LBB2_480:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_693
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_482:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_482
-	JMP  LBB2_694
-
-LBB2_483:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_701
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_485:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_485
-	JMP  LBB2_702
-
-LBB2_486:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_709
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_488:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_488
-	JMP  LBB2_710
-
-LBB2_489:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_491:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_491
-	JMP  LBB2_718
-
-LBB2_492:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_494:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_494
-	JMP  LBB2_726
-
-LBB2_495:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_733
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_497:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_497
-	JMP  LBB2_734
-
-LBB2_498:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_741
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_500:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_500
-	JMP  LBB2_742
-
-LBB2_501:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_749
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_503:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_503
-	JMP  LBB2_750
-
-LBB2_504:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_757
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_506:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_506
-	JMP  LBB2_758
-
-LBB2_507:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_765
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_509:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_509
-	JMP  LBB2_766
-
-LBB2_510:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_773
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_512:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_512
-	JMP  LBB2_774
-
-LBB2_513:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_781
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_515:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_515
-	JMP  LBB2_782
-
-LBB2_516:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_789
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_518:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_518
-	JMP  LBB2_790
-
-LBB2_519:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_797
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_521:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_521
-	JMP  LBB2_798
-
-LBB2_522:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_805
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_524:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_524
-	JMP  LBB2_806
-
-LBB2_525:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_813
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_527:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_527
-	JMP  LBB2_814
-
-LBB2_528:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_821
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_530:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_530
-	JMP  LBB2_822
-
-LBB2_531:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_829
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_533:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_533
-	JMP  LBB2_830
-
-LBB2_534:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_837
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_536:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_536
-	JMP  LBB2_838
-
-LBB2_537:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_845
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_539:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_539
-	JMP  LBB2_846
-
-LBB2_540:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_853
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_542:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_542
-	JMP  LBB2_854
-
-LBB2_543:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_861
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_545:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_545
-	JMP  LBB2_862
-
-LBB2_546:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_869
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_548:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_548
-	JMP  LBB2_870
-
-LBB2_549:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_877
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_551:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_551
-	JMP  LBB2_878
-
-LBB2_552:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_885
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_554:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_554
-	JMP  LBB2_886
-
-LBB2_555:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_893
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_557:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_557
-	JMP  LBB2_894
-
-LBB2_558:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_901
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_560:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_560
-	JMP  LBB2_902
-
-LBB2_561:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_909
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_563:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_563
-	JMP  LBB2_910
-
-LBB2_564:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_917
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_566:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_566
-	JMP  LBB2_918
-
-LBB2_567:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_925
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_569:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_569
-	JMP  LBB2_926
-
-LBB2_570:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_933
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_572:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_572
-	JMP  LBB2_934
-
-LBB2_573:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_941
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_575:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_575
-	JMP  LBB2_942
-
-LBB2_576:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_949
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_578:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_578
-	JMP  LBB2_950
-
-LBB2_579:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_957
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_581:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_581
-	JMP  LBB2_958
-
-LBB2_582:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_965
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_584:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_584
-	JMP  LBB2_966
-
-LBB2_585:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_587:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_587
-	JMP  LBB2_974
-
-LBB2_588:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_981
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_590:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_590
-	JMP  LBB2_982
-
-LBB2_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_989
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_593:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_593
-	JMP  LBB2_990
-
-LBB2_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_997
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_596:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_596
-	JMP  LBB2_998
-
-LBB2_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1005
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_599:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_599
-	JMP  LBB2_1006
-
-LBB2_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1013
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_602:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_602
-	JMP  LBB2_1014
-
-LBB2_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1021
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_605:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_605
-	JMP  LBB2_1022
-
-LBB2_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1029
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_608:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_608
-	JMP  LBB2_1030
-
-LBB2_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1037
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_611:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_611
-	JMP  LBB2_1038
-
-LBB2_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1045
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_614:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_614
-	JMP  LBB2_1046
-
-LBB2_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1053
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_617:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_617
-	JMP  LBB2_1054
-
-LBB2_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1061
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_620:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_620
-	JMP  LBB2_1062
-
-LBB2_621:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_624
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_624:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_625
-
-LBB2_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_630:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_632
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_632:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_633
-
-LBB2_637:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_638:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_640
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_640:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_641
-
-LBB2_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_646:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_648
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_648:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_649
-
-LBB2_653:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_654:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_656
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_656:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_657
-
-LBB2_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_664
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_665
-
-LBB2_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_672
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_672:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_673
-
-LBB2_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_680
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_680:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_681
-
-LBB2_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_688
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_688:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_689
-
-LBB2_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_696
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB2_696:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_697
-
-LBB2_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_704
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_704:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_705
-
-LBB2_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_712
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB2_712:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_713
-
-LBB2_717:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_720
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_720:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_721
-
-LBB2_725:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_728
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_728:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_729
-
-LBB2_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_736
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_736:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_737
-
-LBB2_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_744
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_744:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_745
-
-LBB2_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_752
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_752:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_753
-
-LBB2_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_760
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_761
-
-LBB2_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_768
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_769
-
-LBB2_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_776
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_777
-
-LBB2_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_784
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_785
-
-LBB2_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_792
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_793
-
-LBB2_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_800
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_801
-
-LBB2_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_808
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_809
-
-LBB2_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_816
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_817
-
-LBB2_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_824
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_825
-
-LBB2_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_832
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_833
-
-LBB2_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_840
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_841
-
-LBB2_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_848
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_849
-
-LBB2_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_856
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_857
-
-LBB2_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_864
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_865
-
-LBB2_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_872
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_873
-
-LBB2_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_880
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_881
-
-LBB2_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_888
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_889
-
-LBB2_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_894:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_896
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_896:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_897
-
-LBB2_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_902:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_904
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_904:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_905
-
-LBB2_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_912
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_913
-
-LBB2_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_918:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_920
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_920:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_921
-
-LBB2_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_928
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_929
-
-LBB2_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_934:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_936
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB2_936:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_937
-
-LBB2_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_944
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_944:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_945
-
-LBB2_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_950:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_952
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_952:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_953
-
-LBB2_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_960
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_960:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_961
-
-LBB2_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_966:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_968
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB2_968:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_969
-
-LBB2_973:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_976
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_976:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_977
-
-LBB2_981:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_984
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_984:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_985
-
-LBB2_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_992
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_992:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_993
-
-LBB2_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1000
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1001
-
-LBB2_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1008
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1009
-
-LBB2_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1016
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1017
-
-LBB2_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1024
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1024:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1025
-
-LBB2_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1032
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1033
-
-LBB2_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1040
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1041
-
-LBB2_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1048
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1049
-
-LBB2_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1056
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1057
-
-LBB2_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1064
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1065
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x018(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x020(SB)/8, $0x0000000100000001
-DATA LCDATA4<>+0x028(SB)/8, $0x0000000100000001
-DATA LCDATA4<>+0x030(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x040(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x048(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x050(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x058(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x060(SB)/8, $0x8000000080000000
-DATA LCDATA4<>+0x068(SB)/8, $0x8000000080000000
-DATA LCDATA4<>+0x070(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x078(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x080(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA4<>+0x088(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA4<>+0x090(SB)/8, $0x000000ff000000ff
-DATA LCDATA4<>+0x098(SB)/8, $0x000000ff000000ff
-DATA LCDATA4<>+0x0a0(SB)/8, $0x3ff0000000000000
-GLOBL LCDATA4<>(SB), 8, $168
-
-TEXT ·_arithmetic_unary_same_types_sse4(SB), $0-40
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ input+16(FP), DX
-	MOVQ output+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA4<>(SB), BP
-
-	LONG $0x13fe8040         // cmp    sil, 19
-	JLE  LBB3_12
-	LONG $0x14fe8040         // cmp    sil, 20
-	JE   LBB3_22
-	LONG $0x19fe8040         // cmp    sil, 25
-	JE   LBB3_30
-	LONG $0x1afe8040         // cmp    sil, 26
-	JNE  LBB3_923
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_81
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_131
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_134
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB3_221
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_373
-
-LBB3_12:
-	LONG $0x04fe8040         // cmp    sil, 4
-	JE   LBB3_38
-	LONG $0x05fe8040         // cmp    sil, 5
-	JNE  LBB3_923
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_53
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_86
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_137
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_140
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_21
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_374
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_374
-
-LBB3_21:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_614:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_616
-
-LBB3_615:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_615
-
-LBB3_616:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_617:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_617
-	JMP  LBB3_923
-
-LBB3_22:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_91
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_143
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_146
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_29
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_377
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_377
-
-LBB3_29:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_622:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_624
-
-LBB3_623:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_623
-
-LBB3_624:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_625:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_625
-	JMP  LBB3_923
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_67
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_96
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_149
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_152
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_37
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_380
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_380
-
-LBB3_37:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_536:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_538
-
-LBB3_537:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_537
-
-LBB3_538:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_539:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_539
-	JMP  LBB3_923
-
-LBB3_38:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_74
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_101
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_155
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_158
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_45
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_382
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_382
-
-LBB3_45:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_546:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_548
-
-LBB3_547:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_547
-
-LBB3_548:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_549:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_549
-	JMP  LBB3_923
-
-LBB3_46:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_106
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_161
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_52
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_384
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_384
-
-LBB3_52:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_630:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_633
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_632:
-	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_632
-
-LBB3_633:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_635:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_635
-	JMP  LBB3_923
-
-LBB3_53:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_111
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_167
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_59
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_387
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_387
-
-LBB3_59:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_640:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_643
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_642:
-	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_642
-
-LBB3_643:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_645:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_645
-	JMP  LBB3_923
-
-LBB3_60:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_116
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_173
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_176
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_66
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_390
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_390
-
-LBB3_66:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_650:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_652
-	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc8540f66             // andpd    xmm1, xmm0
-	QUAD $0x000000a095100ff2     // movsd    xmm2, qword 160[rbp] /* [rip + .LCPI3_2] */
-	LONG $0xd1560f66             // orpd    xmm2, xmm1
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0xc8c20ff2; BYTE $0x00 // cmpeqsd    xmm1, xmm0
-	LONG $0xca550f66             // andnpd    xmm1, xmm2
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_652:
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	JE   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-	QUAD $0x000000a08d100ff2     // movsd    xmm1, qword 160[rbp] /* [rip + .LCPI3_2] */
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-
-LBB3_654:
-	LONG $0x1c100ff2; BYTE $0xf2   // movsd    xmm3, qword [rdx + 8*rsi]
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0xe0540f66               // andpd    xmm4, xmm0
-	LONG $0xe1560f66               // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66               // andnpd    xmm3, xmm4
-	LONG $0x1c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm3
-	LONG $0x5c100ff2; WORD $0x08f2 // movsd    xmm3, qword [rdx + 8*rsi + 8]
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0xe0540f66               // andpd    xmm4, xmm0
-	LONG $0xe1560f66               // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66               // andnpd    xmm3, xmm4
-	LONG $0x5c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm3
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_654
-	JMP  LBB3_923
-
-LBB3_67:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_121
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_179
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_182
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_73
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_393
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_393
-
-LBB3_73:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_659:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_661
-
-LBB3_660:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_660
-
-LBB3_661:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_662:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_662
-	JMP  LBB3_923
-
-LBB3_74:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_126
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_185
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_188
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_80
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_396
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_396
-
-LBB3_80:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_667:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_669
-
-LBB3_668:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_668
-
-LBB3_669:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_670:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_670
-	JMP  LBB3_923
-
-LBB3_81:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_191
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_85
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_399
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_399
-
-LBB3_85:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_675:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_677
-
-LBB3_676:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_676
-
-LBB3_677:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_678:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_678
-	JMP  LBB3_923
-
-LBB3_86:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_194
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_90
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_402
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_402
-
-LBB3_90:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_683:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_685
-
-LBB3_684:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_684
-
-LBB3_685:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_686:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_686
-	JMP  LBB3_923
-
-LBB3_91:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_197
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_95
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_405
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_405
-
-LBB3_95:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_691:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_693
-	LONG $0x323c8a40             // mov    dil, byte [rdx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd0950f41             // setne    r8b
-	WORD $0xf641; BYTE $0xd8     // neg    r8b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf84e0f41             // cmovle    edi, r8d
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_693:
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	JE   LBB3_923
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB3_695:
-	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_695
-	JMP  LBB3_923
-
-LBB3_96:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_200
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_100
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_408
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_408
-
-LBB3_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_700:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_702
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x07f8c141         // sar    r8d, 7
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_702:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_703:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_703
-	JMP  LBB3_923
-
-LBB3_101:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_203
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_105
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_411
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_411
-
-LBB3_105:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_708:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_710
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x07f8c141         // sar    r8d, 7
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_710:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_711:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_711
-	JMP  LBB3_923
-
-LBB3_106:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_206
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB3_265
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_420
-
-LBB3_111:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_209
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_115
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_421
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_421
-
-LBB3_115:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_716:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_718
-
-LBB3_717:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_717
-
-LBB3_718:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_719:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_719
-	JMP  LBB3_923
-
-LBB3_116:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_212
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_120
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_424
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_424
-
-LBB3_120:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_724:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_726
-
-LBB3_725:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_725
-
-LBB3_726:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_727:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_727
-	JMP  LBB3_923
-
-LBB3_121:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_215
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_125
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_427
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_427
-
-LBB3_125:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_556:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_558
-
-LBB3_557:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_557
-
-LBB3_558:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_559:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_559
-	JMP  LBB3_923
-
-LBB3_126:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_218
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_130
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_429
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_429
-
-LBB3_130:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_566:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_568
-
-LBB3_567:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_567
-
-LBB3_568:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_569:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_569
-	JMP  LBB3_923
-
-LBB3_131:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB3_279
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_437
-
-LBB3_134:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_136
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_438
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_438
-
-LBB3_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_732:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_734
-
-LBB3_733:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_733
-
-LBB3_734:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_735:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_735
-	JMP  LBB3_923
-
-LBB3_137:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_139
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_441
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_441
-
-LBB3_139:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_740:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_742
-
-LBB3_741:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_741
-
-LBB3_742:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_743:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_743
-	JMP  LBB3_923
-
-LBB3_140:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_142
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_444
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_444
-
-LBB3_142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_748:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_750
-
-LBB3_749:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_749
-
-LBB3_750:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_751:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_751
-	JMP  LBB3_923
-
-LBB3_143:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_145
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_447
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_447
-
-LBB3_145:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_756:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_758
-
-LBB3_757:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_757
-
-LBB3_758:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_759:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_759
-	JMP  LBB3_923
-
-LBB3_146:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_148
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_450
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_450
-
-LBB3_148:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_764:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_766
-	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_766:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_768:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc04f0f41             // cmovg    eax, r8d
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xf84f0f41             // cmovg    edi, r8d
-	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_768
-	JMP  LBB3_923
-
-LBB3_149:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_151
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_453
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_453
-
-LBB3_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_576:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_578
-
-LBB3_577:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_577
-
-LBB3_578:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_579:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_579
-	JMP  LBB3_923
-
-LBB3_152:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_154
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_455
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_455
-
-LBB3_154:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_773:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_775
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_775:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_776:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_776
-	JMP  LBB3_923
-
-LBB3_155:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_157
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_458
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_458
-
-LBB3_157:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_586:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_588
-
-LBB3_587:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_587
-
-LBB3_588:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_589:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_589
-	JMP  LBB3_923
-
-LBB3_158:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_160
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_460
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_460
-
-LBB3_160:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_781:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_783
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_783:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_784:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_784
-	JMP  LBB3_923
-
-LBB3_161:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_163
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_463
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_463
-
-LBB3_163:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_789:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_791
-
-LBB3_790:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_790
-
-LBB3_791:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_792:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_792
-	JMP  LBB3_923
-
-LBB3_164:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_166
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_466
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_466
-
-LBB3_166:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_797:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_800
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_799:
-	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_799
-
-LBB3_800:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_802:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_802
-	JMP  LBB3_923
-
-LBB3_167:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_169
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_469
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_469
-
-LBB3_169:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_807:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_809
-
-LBB3_808:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_808
-
-LBB3_809:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_810:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_810
-	JMP  LBB3_923
-
-LBB3_170:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_172
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_472
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_472
-
-LBB3_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_815:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_818
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_817:
-	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_817
-
-LBB3_818:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_820:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_820
-	JMP  LBB3_923
-
-LBB3_173:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_175
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_475
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_475
-
-LBB3_175:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_825:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_827
-	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_827:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_829:
-	LONG $0xf23c8b48             // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc04f0f49             // cmovg    rax, r8
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_829
-	JMP  LBB3_923
-
-LBB3_176:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_178
-	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_478
-	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_478
-
-LBB3_178:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_481:
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0     // not    r8
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_483
-	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
-	WORD $0x500f; BYTE $0xf8     // movmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd0c20ff3; BYTE $0x00 // cmpeqss    xmm2, xmm0
-	WORD $0x550f; BYTE $0xd1     // andnps    xmm2, xmm1
-	LONG $0x14110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm2
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_483:
-	WORD $0x0149; BYTE $0xc0 // add    r8, rax
-	JE   LBB3_923
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB3_485:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
-	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
-	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_485
-	JMP  LBB3_923
-
-LBB3_179:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_181
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_486
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_486
-
-LBB3_181:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_834:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_836
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_836:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_837:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_837
-	JMP  LBB3_923
-
-LBB3_182:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_184
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_489
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_489
-
-LBB3_184:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_842:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_845
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_844:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_844
-
-LBB3_845:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_923
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_847:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_847
-	JMP  LBB3_923
-
-LBB3_185:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_187
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_492
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_492
-
-LBB3_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_852:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_854
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_854:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_855:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_855
-	JMP  LBB3_923
-
-LBB3_188:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_190
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_495
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_495
-
-LBB3_190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_860:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_863
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_862:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_862
-
-LBB3_863:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_923
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_865:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_865
-	JMP  LBB3_923
-
-LBB3_191:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB3_338
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_504
-
-LBB3_194:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_196
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_505
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_505
-
-LBB3_196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_870:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_872
-
-LBB3_871:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_871
-
-LBB3_872:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_873:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_873
-	JMP  LBB3_923
-
-LBB3_197:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_199
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_508
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_508
-
-LBB3_199:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_878:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_880
-
-LBB3_879:
-	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f // setne    byte [rcx + rsi]
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_879
-
-LBB3_880:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB3_923
-
-LBB3_881:
-	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f             // setne    byte [rcx + rsi]
-	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
-	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
-	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
-	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
-	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
-	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_881
-	JMP  LBB3_923
-
-LBB3_200:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_202
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_511
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_511
-
-LBB3_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_596:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_598
-
-LBB3_597:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_597
-
-LBB3_598:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_599:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_599
-	JMP  LBB3_923
-
-LBB3_203:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_205
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_513
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_513
-
-LBB3_205:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_606:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_608
-
-LBB3_607:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_607
-
-LBB3_608:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_609:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_609
-	JMP  LBB3_923
-
-LBB3_206:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_208
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_515
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_515
-
-LBB3_208:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_886:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_888
-
-LBB3_887:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_887
-
-LBB3_888:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_889:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_889
-	JMP  LBB3_923
-
-LBB3_209:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_211
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_518
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_518
-
-LBB3_211:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_894:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_896
-
-LBB3_895:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_895
-
-LBB3_896:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_897:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_897
-	JMP  LBB3_923
-
-LBB3_212:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_214
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_521
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_521
-
-LBB3_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_902:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_904
-	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_904:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_906:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc04f0f41         // cmovg    eax, r8d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_906
-	JMP  LBB3_923
-
-LBB3_215:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_217
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_524
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_524
-
-LBB3_217:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_911:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_913
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_913:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_914:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_914
-	JMP  LBB3_923
-
-LBB3_218:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_220
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_527
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_527
-
-LBB3_220:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_919:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_921
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_921:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_922:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_922
-	JMP  LBB3_923
-
-LBB3_221:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8428d48         // lea    rax, [rdx - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x38f88348         // cmp    rax, 56
-	JAE  LBB3_367
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_369
-
-LBB3_265:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc428d48         // lea    rax, [rdx - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x1cf88348         // cmp    rax, 28
-	JAE  LBB3_414
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_416
-
-LBB3_279:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0428d48         // lea    rax, [rdx - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x70f88348         // cmp    rax, 112
-	JAE  LBB3_431
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_433
-
-LBB3_338:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0xe0       // and    edx, -32
-	LONG $0xe0428d48               // lea    rax, [rdx - 32]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x05efc148               // shr    rdi, 5
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x07       // and    esi, 7
-	LONG $0x00e03d48; WORD $0x0000 // cmp    rax, 224
-	JAE  LBB3_498
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_500
-
-LBB3_374:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_610
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_376:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_376
-	JMP  LBB3_611
-
-LBB3_377:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_618
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_379:
-	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20ba // movdqu    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30ba // movdqu    xmm3, oword [rdx + 4*rdi + 48]
-	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_379
-	JMP  LBB3_619
-
-LBB3_380:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB3_530
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_532
-
-LBB3_382:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB3_540
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_542
-
-LBB3_384:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_626
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_386:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_386
-	JMP  LBB3_627
-
-LBB3_387:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_636
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_389:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_389
-	JMP  LBB3_637
-
-LBB3_390:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_646
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI3_1] */
-
-LBB3_392:
-	LONG $0x1c100f66; BYTE $0xfa   // movupd    xmm3, oword [rdx + 8*rdi]
-	LONG $0x64100f66; WORD $0x10fa // movupd    xmm4, oword [rdx + 8*rdi + 16]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66               // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66               // andpd    xmm4, xmm6
-	LONG $0x1c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm3
-	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20fa // movupd    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x64100f66; WORD $0x30fa // movupd    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66               // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66               // andpd    xmm4, xmm6
-	LONG $0x5c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x64110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm4
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_392
-	JMP  LBB3_647
-
-LBB3_393:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_655
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_395:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_395
-	JMP  LBB3_656
-
-LBB3_396:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_663
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_398:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_398
-	JMP  LBB3_664
-
-LBB3_399:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_671
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_401:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_401
-	JMP  LBB3_672
-
-LBB3_402:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_679
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_404:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_404
-	JMP  LBB3_680
-
-LBB3_405:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_687
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_407:
-	LONG $0x2c6f0ff3; BYTE $0x3a   // movdqu    xmm5, oword [rdx + rdi]
-	LONG $0x746f0ff3; WORD $0x103a // movdqu    xmm6, oword [rdx + rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x3c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm7
-	LONG $0x6c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x203a // movdqu    xmm5, oword [rdx + rdi + 32]
-	LONG $0x746f0ff3; WORD $0x303a // movdqu    xmm6, oword [rdx + rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7c7f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm7
-	LONG $0x6c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm5
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_407
-	JMP  LBB3_688
-
-LBB3_408:
-	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0             // and    esi, -16
-	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
-	LONG $0x04e8c149                     // shr    r8, 4
-	LONG $0x01c08349                     // add    r8, 1
-	WORD $0x8548; BYTE $0xc0             // test    rax, rax
-	JE   LBB3_696
-	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
-	LONG $0xfee08348                     // and    rax, -2
-	WORD $0xf748; BYTE $0xd8             // neg    rax
-	WORD $0xff31                         // xor    edi, edi
-	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_410:
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
-	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
-	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
-	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
-	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
-	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
-	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xceef0f66                           // pxor    xmm1, xmm6
-	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_410
-	JMP  LBB3_697
-
-LBB3_411:
-	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0             // and    esi, -16
-	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
-	LONG $0x04e8c149                     // shr    r8, 4
-	LONG $0x01c08349                     // add    r8, 1
-	WORD $0x8548; BYTE $0xc0             // test    rax, rax
-	JE   LBB3_704
-	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
-	LONG $0xfee08348                     // and    rax, -2
-	WORD $0xf748; BYTE $0xd8             // neg    rax
-	WORD $0xff31                         // xor    edi, edi
-	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_413:
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
-	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
-	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
-	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
-	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
-	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
-	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xceef0f66                           // pxor    xmm1, xmm6
-	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_413
-	JMP  LBB3_705
-
-LBB3_421:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_712
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_423:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_423
-	JMP  LBB3_713
-
-LBB3_424:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_720
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x30 // movdqa    xmm1, oword 48[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_426:
-	LONG $0x146f0ff3; BYTE $0xfa   // movdqu    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10fa // movdqu    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20fa // movdqu    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30fa // movdqu    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_426
-	JMP  LBB3_721
-
-LBB3_427:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB3_550
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_552
-
-LBB3_429:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB3_560
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_562
-
-LBB3_438:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_728
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_440:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_440
-	JMP  LBB3_729
-
-LBB3_441:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_736
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_443:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_443
-	JMP  LBB3_737
-
-LBB3_444:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_744
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_446:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_446
-	JMP  LBB3_745
-
-LBB3_447:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_752
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x40 // movdqa    xmm1, oword 64[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_449:
-	LONG $0x146f0ff3; BYTE $0x7a   // movdqu    xmm2, oword [rdx + 2*rdi]
-	LONG $0x5c6f0ff3; WORD $0x107a // movdqu    xmm3, oword [rdx + 2*rdi + 16]
-	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x207a // movdqu    xmm2, oword [rdx + 2*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x307a // movdqu    xmm3, oword [rdx + 2*rdi + 48]
-	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm3
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_449
-	JMP  LBB3_753
-
-LBB3_450:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_760
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x40 // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_452:
-	LONG $0x2c6f0ff3; BYTE $0x7a   // movdqu    xmm5, oword [rdx + 2*rdi]
-	LONG $0x746f0ff3; WORD $0x107a // movdqu    xmm6, oword [rdx + 2*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x3c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm7
-	LONG $0x6c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x207a // movdqu    xmm5, oword [rdx + 2*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x307a // movdqu    xmm6, oword [rdx + 2*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7c7f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm7
-	LONG $0x6c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm5
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_452
-	JMP  LBB3_761
-
-LBB3_453:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_570
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_572
-
-LBB3_455:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_769
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-
-LBB3_457:
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_457
-	JMP  LBB3_770
-
-LBB3_458:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_580
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_582
-
-LBB3_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_777
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-
-LBB3_462:
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_462
-	JMP  LBB3_778
-
-LBB3_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_785
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_465:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_465
-	JMP  LBB3_786
-
-LBB3_466:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_793
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_468:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_468
-	JMP  LBB3_794
-
-LBB3_469:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_803
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_471:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_471
-	JMP  LBB3_804
-
-LBB3_472:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_811
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_474:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_474
-	JMP  LBB3_812
-
-LBB3_475:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_821
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x30 // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_477:
-	LONG $0x2c6f0ff3; BYTE $0xfa   // movdqu    xmm5, oword [rdx + 8*rdi]
-	LONG $0x746f0ff3; WORD $0x10fa // movdqu    xmm6, oword [rdx + 8*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x3c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm7
-	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20fa // movdqu    xmm5, oword [rdx + 8*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x30fa // movdqu    xmm6, oword [rdx + 8*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x7c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm7
-	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_477
-	JMP  LBB3_822
-
-LBB3_478:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_479:
-	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
-	LONG $0xb95c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_479
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_923
-	JMP  LBB3_481
-
-LBB3_486:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_830
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_488:
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_488
-	JMP  LBB3_831
-
-LBB3_489:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_838
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_491:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_491
-	JMP  LBB3_839
-
-LBB3_492:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_848
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_494:
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_494
-	JMP  LBB3_849
-
-LBB3_495:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_856
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_497:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_497
-	JMP  LBB3_857
-
-LBB3_505:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_866
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_507:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_507
-	JMP  LBB3_867
-
-LBB3_508:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_874
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_510:
-	LONG $0x146f0ff3; BYTE $0x3a   // movdqu    xmm2, oword [rdx + rdi]
-	LONG $0x5c6f0ff3; WORD $0x103a // movdqu    xmm3, oword [rdx + rdi + 16]
-	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x203a // movdqu    xmm2, oword [rdx + rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x303a // movdqu    xmm3, oword [rdx + rdi + 48]
-	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm3
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_510
-	JMP  LBB3_875
-
-LBB3_511:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_590
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_592
-
-LBB3_513:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_600
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_602
-
-LBB3_515:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_882
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_517:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_517
-	JMP  LBB3_883
-
-LBB3_518:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_890
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_520:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_520
-	JMP  LBB3_891
-
-LBB3_521:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_898
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x20 // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_523:
-	LONG $0x2c6f0ff3; BYTE $0xba   // movdqu    xmm5, oword [rdx + 4*rdi]
-	LONG $0x746f0ff3; WORD $0x10ba // movdqu    xmm6, oword [rdx + 4*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0xb93c110f               // movups    oword [rcx + 4*rdi], xmm7
-	LONG $0xb96c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20ba // movdqu    xmm5, oword [rdx + 4*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x30ba // movdqu    xmm6, oword [rdx + 4*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0xb97c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm7
-	LONG $0xb96c110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm5
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_523
-	JMP  LBB3_899
-
-LBB3_524:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_907
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_526:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_526
-	JMP  LBB3_908
-
-LBB3_527:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_915
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_529:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_529
-	JMP  LBB3_916
-
-LBB3_367:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_368:
-	LONG $0x04110f66; BYTE $0x81         // movupd    oword [rcx + 4*rax], xmm0
-	LONG $0x44110f66; WORD $0x1081       // movupd    oword [rcx + 4*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2081       // movupd    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3081       // movupd    oword [rcx + 4*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4081       // movupd    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5081       // movupd    oword [rcx + 4*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6081       // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7081       // movupd    oword [rcx + 4*rax + 112], xmm0
-	QUAD $0x0000808184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 128], xmm0
-	QUAD $0x0000908184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 144], xmm0
-	QUAD $0x0000a08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 160], xmm0
-	QUAD $0x0000b08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 176], xmm0
-	QUAD $0x0000c08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 192], xmm0
-	QUAD $0x0000d08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 208], xmm0
-	QUAD $0x0000e08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 224], xmm0
-	QUAD $0x0000f08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 240], xmm0
-	LONG $0x40c08348                     // add    rax, 64
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_368
-
-LBB3_369:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_372
-	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_371:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_371
-
-LBB3_372:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_373:
-	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
-	LONG $0x01c28348                           // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
-	JNE  LBB3_373
-	JMP  LBB3_923
-
-LBB3_414:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_415:
-	LONG $0x04110f66; BYTE $0xc1         // movupd    oword [rcx + 8*rax], xmm0
-	LONG $0x44110f66; WORD $0x10c1       // movupd    oword [rcx + 8*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x20c1       // movupd    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x30c1       // movupd    oword [rcx + 8*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x40c1       // movupd    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x50c1       // movupd    oword [rcx + 8*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x60c1       // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x70c1       // movupd    oword [rcx + 8*rax + 112], xmm0
-	QUAD $0x000080c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 128], xmm0
-	QUAD $0x000090c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 144], xmm0
-	QUAD $0x0000a0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 160], xmm0
-	QUAD $0x0000b0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 176], xmm0
-	QUAD $0x0000c0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 192], xmm0
-	QUAD $0x0000d0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 208], xmm0
-	QUAD $0x0000e0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 224], xmm0
-	QUAD $0x0000f0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 240], xmm0
-	LONG $0x20c08348                     // add    rax, 32
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_415
-
-LBB3_416:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_419
-	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_418:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_418
-
-LBB3_419:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_420:
-	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_420
-	JMP  LBB3_923
-
-LBB3_431:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_432:
-	LONG $0x04110f66; BYTE $0x41         // movupd    oword [rcx + 2*rax], xmm0
-	LONG $0x44110f66; WORD $0x1041       // movupd    oword [rcx + 2*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2041       // movupd    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3041       // movupd    oword [rcx + 2*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4041       // movupd    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5041       // movupd    oword [rcx + 2*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6041       // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7041       // movupd    oword [rcx + 2*rax + 112], xmm0
-	QUAD $0x0000804184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 128], xmm0
-	QUAD $0x0000904184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 144], xmm0
-	QUAD $0x0000a04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 160], xmm0
-	QUAD $0x0000b04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 176], xmm0
-	QUAD $0x0000c04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 192], xmm0
-	QUAD $0x0000d04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 208], xmm0
-	QUAD $0x0000e04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 224], xmm0
-	QUAD $0x0000f04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 240], xmm0
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_432
-
-LBB3_433:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_436
-	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_435:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_435
-
-LBB3_436:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_437:
-	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
-	JNE  LBB3_437
-	JMP  LBB3_923
-
-LBB3_498:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_499:
-	LONG $0x04110f66; BYTE $0x01         // movupd    oword [rcx + rax], xmm0
-	LONG $0x44110f66; WORD $0x1001       // movupd    oword [rcx + rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2001       // movupd    oword [rcx + rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3001       // movupd    oword [rcx + rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4001       // movupd    oword [rcx + rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5001       // movupd    oword [rcx + rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6001       // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7001       // movupd    oword [rcx + rax + 112], xmm0
-	QUAD $0x0000800184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 128], xmm0
-	QUAD $0x0000900184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 144], xmm0
-	QUAD $0x0000a00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 160], xmm0
-	QUAD $0x0000b00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 176], xmm0
-	QUAD $0x0000c00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 192], xmm0
-	QUAD $0x0000d00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 208], xmm0
-	QUAD $0x0000e00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 224], xmm0
-	QUAD $0x0000f00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 240], xmm0
-	LONG $0x01000548; WORD $0x0000       // add    rax, 256
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_499
-
-LBB3_500:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_503
-	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_502:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_502
-
-LBB3_503:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_504:
-	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_504
-
-LBB3_923:
-	RET
-
-LBB3_530:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_531:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_531
-
-LBB3_532:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_535
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_534:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_534
-
-LBB3_535:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_536
-
-LBB3_540:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_541:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_541
-
-LBB3_542:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_545
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_544:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_544
-
-LBB3_545:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_546
-
-LBB3_550:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_551:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_551
-
-LBB3_552:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_555
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_554:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_554
-
-LBB3_555:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_556
-
-LBB3_560:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_561:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_561
-
-LBB3_562:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_565
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_564:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_564
-
-LBB3_565:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_566
-
-LBB3_570:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_571:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_571
-
-LBB3_572:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_575
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_574:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_574
-
-LBB3_575:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_576
-
-LBB3_580:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_581:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_581
-
-LBB3_582:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_585
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_584:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_584
-
-LBB3_585:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_586
-
-LBB3_590:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_591:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_591
-
-LBB3_592:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_595
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_594:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_594
-
-LBB3_595:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_596
-
-LBB3_600:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_601:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_601
-
-LBB3_602:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_605
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_604:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_604
-
-LBB3_605:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_606
-
-LBB3_610:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_611:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_613
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_613:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_614
-
-LBB3_618:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_619:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_621
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x20   // movdqa    xmm3, oword 32[rbp] /* [rip + .LCPI3_3] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_621:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_622
-
-LBB3_626:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_627:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_629
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_629:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_630
-
-LBB3_636:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_637:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_639
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_639:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_640
-
-LBB3_646:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_647:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_649
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2570f66               // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00   // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xe0280f66               // movapd    xmm4, xmm0
-	LONG $0xe3540f66               // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xe5560f66               // orpd    xmm4, xmm5
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xdd560f66               // orpd    xmm3, xmm5
-	LONG $0xc2c20f66; BYTE $0x04   // cmpneqpd    xmm0, xmm2
-	LONG $0xc4540f66               // andpd    xmm0, xmm4
-	LONG $0xcac20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm2
-	LONG $0xcb540f66               // andpd    xmm1, xmm3
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_649:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_650
-
-LBB3_655:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_656:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_658
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_658:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_659
-
-LBB3_663:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_664:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_666
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_666:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_667
-
-LBB3_671:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_672:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_674
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_674:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_675
-
-LBB3_679:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_680:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_682
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_682:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_683
-
-LBB3_687:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_688:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_690
-	LONG $0x0c6f0ff3; BYTE $0x3a   // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1640f66               // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb740f66               // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda740f66               // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x647f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm4
-
-LBB3_690:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_691
-
-LBB3_696:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_697:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_699
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
-	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
-	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
-	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
-
-LBB3_699:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_700
-
-LBB3_704:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_705:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_707
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
-	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
-	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
-	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
-
-LBB3_707:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_708
-
-LBB3_712:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_713:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_715
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_715:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_716
-
-LBB3_720:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_721:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_723
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x30   // movdqa    xmm3, oword 48[rbp] /* [rip + .LCPI3_4] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_723:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_724
-
-LBB3_728:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_729:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_731
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_731:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_732
-
-LBB3_736:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_737:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_739
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_739:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_740
-
-LBB3_744:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_745:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_747
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_747:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_748
-
-LBB3_752:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_753:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_755
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x40   // movdqa    xmm3, oword 64[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB3_755:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_756
-
-LBB3_760:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_761:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_763
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x40   // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1650f66               // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb750f66               // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda750f66               // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x647f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm4
-
-LBB3_763:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_764
-
-LBB3_769:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_770:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_772
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
-	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
-	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
-	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
-	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
-
-LBB3_772:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_773
-
-LBB3_777:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_778:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_780
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
-	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
-	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
-	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
-	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
-
-LBB3_780:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_781
-
-LBB3_785:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_786:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_788
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_788:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_789
-
-LBB3_793:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_794:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_796
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_796:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_797
-
-LBB3_803:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_804:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_806
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_806:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_807
-
-LBB3_811:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_812:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_814
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_814:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_815
-
-LBB3_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_822:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_824
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x30   // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb   // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda   // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5   // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3   // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x14110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm2
-	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
-
-LBB3_824:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_825
-
-LBB3_830:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_831:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_833
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_833:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_834
-
-LBB3_838:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_839:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_841
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_841:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_842
-
-LBB3_848:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_849:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_851
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_851:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_852
-
-LBB3_856:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_857:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_859
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_859:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_860
-
-LBB3_866:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_867:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_869
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_869:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_870
-
-LBB3_874:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_875:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_877
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50   // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI3_6] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-
-LBB3_877:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_878
-
-LBB3_882:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_883:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_885
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_885:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_886
-
-LBB3_890:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_891:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_893
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_893:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_894
-
-LBB3_898:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_899:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_901
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x20   // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
-	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
-
-LBB3_901:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_902
-
-LBB3_907:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_908:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_910
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_910:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_911
-
-LBB3_915:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_916:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_918
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_918:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_919
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x018(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x020(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA5<>+0x028(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA5<>+0x030(SB)/8, $0x8000000080000000
-DATA LCDATA5<>+0x038(SB)/8, $0x8000000080000000
-DATA LCDATA5<>+0x040(SB)/8, $0x0000000000000400
-DATA LCDATA5<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x050(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x058(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x060(SB)/8, $0x4f0000004f000000
-DATA LCDATA5<>+0x068(SB)/8, $0x4f0000004f000000
-DATA LCDATA5<>+0x070(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x080(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x090(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x0a0(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000010001
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0000000000000101
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0d0(SB)/8, $0x3f8000003f800000
-DATA LCDATA5<>+0x0d8(SB)/8, $0x3f8000003f800000
-DATA LCDATA5<>+0x0e0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0e8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x100(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x108(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x110(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x118(SB)/8, $0x43e0000000000000
-DATA LCDATA5<>+0x120(SB)/8, $0xbff0000000000000
-DATA LCDATA5<>+0x128(SB)/8, $0x5f0000003f800000
-DATA LCDATA5<>+0x130(SB)/8, $0x00000000bf800000
-GLOBL LCDATA5<>(SB), 8, $312
-
-TEXT ·_arithmetic_unary_diff_type_sse4(SB), $0-48
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ op+16(FP), DX
-	MOVQ input+24(FP), CX
-	MOVQ output+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
-	JNE  LBB4_1655
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_14
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_26
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_46
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_54
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_94
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_200
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_303
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_306
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_13
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_496
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_496
-
-LBB4_13:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1232:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1234
-
-LBB4_1233:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1233
-
-LBB4_1234:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1235:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1235
-	JMP  LBB4_1655
-
-LBB4_14:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_36
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_62
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_70
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_106
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_205
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_309
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_312
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_499
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1110
-
-LBB4_26:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_78
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_113
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_210
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_315
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_318
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_35
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_504
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_504
-
-LBB4_35:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1240:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1242
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1242:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1244:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1244
-	JMP  LBB4_1655
-
-LBB4_36:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_86
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_123
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_215
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_321
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_324
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_507
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_998
-
-LBB4_46:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_220
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_327
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_330
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_510
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1116
-
-LBB4_54:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_147
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_225
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_333
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_336
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_513
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1121
-
-LBB4_62:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_157
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_230
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_339
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_342
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_516
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1127
-
-LBB4_70:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_167
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_235
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_345
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_348
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_519
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1133
-
-LBB4_78:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_178
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_240
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_351
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_354
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_85
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_524
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_524
-
-LBB4_85:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1249:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1251
-
-LBB4_1250:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1250
-
-LBB4_1251:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1252:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1252
-	JMP  LBB4_1655
-
-LBB4_86:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_190
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_245
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_357
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_360
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_93
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_529
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_529
-
-LBB4_93:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1257:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1259
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1259:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1261:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1261
-	JMP  LBB4_1655
-
-LBB4_94:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_250
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_363
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_366
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_532
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_101:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0xb10c8d48         // lea    rcx, [rcx + 4*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_104
-
-LBB4_103:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_104:
-	LONG $0x00b13c83 // cmp    dword [rcx + 4*rsi], 0
-	LONG $0xc8280f66 // movapd    xmm1, xmm0
-	JNE  LBB4_103
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_103
-
-LBB4_106:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_255
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_369
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_372
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_112
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_544
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_544
-
-LBB4_112:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1266:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_1268
-	LONG $0x04100ff2; BYTE $0xd1   // movsd    xmm0, qword [rcx + 8*rdx]
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	QUAD $0x0000011095100ff2       // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xd1560f66               // orpd    xmm2, xmm1
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xc8c20ff2; BYTE $0x00   // cmpeqsd    xmm1, xmm0
-	LONG $0xca550f66               // andnpd    xmm1, xmm2
-	LONG $0x130f4166; WORD $0xd00c // movlpd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1268:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-
-LBB4_1270:
-	LONG $0x1c100ff2; BYTE $0xd1               // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xe3280f66                           // movapd    xmm4, xmm3
-	LONG $0xe0540f66                           // andpd    xmm4, xmm0
-	LONG $0xe1560f66                           // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
-	LONG $0x130f4166; WORD $0xd01c             // movlpd    qword [r8 + 8*rdx], xmm3
-	LONG $0x5c100ff2; WORD $0x08d1             // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xe3280f66                           // movapd    xmm4, xmm3
-	LONG $0xe0540f66                           // andpd    xmm4, xmm0
-	LONG $0xe1560f66                           // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
-	LONG $0x130f4166; WORD $0xd05c; BYTE $0x08 // movlpd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_1270
-	JMP  LBB4_1655
-
-LBB4_113:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_260
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_375
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_378
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_547
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_120:
-	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x00013c80         // cmp    byte [rcx + rax], 0
-	JNE  LBB4_982
-
-LBB4_122:
-	LONG $0xc0570f66 // xorpd    xmm0, xmm0
-	JMP  LBB4_983
-
-LBB4_123:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_265
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_381
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_384
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_557
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_130:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_133
-
-LBB4_132:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_133:
-	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_132
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_132
-
-LBB4_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_270
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_392
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_395
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_567
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_142:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0x710c8d48         // lea    rcx, [rcx + 2*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_145
-
-LBB4_144:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_145:
-	LONG $0x713c8366; BYTE $0x00 // cmp    word [rcx + 2*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_144
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_144
-
-LBB4_147:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_275
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_398
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_401
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_577
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_154:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
-	JE   LBB4_122
-
-LBB4_982:
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-
-LBB4_983:
-	JLE  LBB4_985
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_985:
-	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_157:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_280
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_404
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_407
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_587
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_164:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	JE   LBB4_122
-	JMP  LBB4_982
-
-LBB4_167:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_285
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_413
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_419
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_597
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_174:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	JE   LBB4_177
-	WORD $0x500f; BYTE $0xc9     // movmskps    ecx, xmm1
-	WORD $0xe183; BYTE $0x01     // and    ecx, 1
-	WORD $0xd9f7                 // neg    ecx
-	WORD $0xc983; BYTE $0x01     // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
-	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
-
-LBB4_177:
-	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_178:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_293
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_422
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_425
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_603
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_185:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	WORD $0x0148; BYTE $0xf1 // add    rcx, rsi
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_188
-
-LBB4_187:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_188:
-	LONG $0x00313c80 // cmp    byte [rcx + rsi], 0
-	LONG $0xc8280f66 // movapd    xmm1, xmm0
-	JNE  LBB4_187
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_187
-
-LBB4_190:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_298
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_428
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_431
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_613
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_197:
-	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x00813c83         // cmp    dword [rcx + 4*rax], 0
-	JE   LBB4_122
-	JMP  LBB4_982
-
-LBB4_200:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_434
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_625
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_625
-
-LBB4_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1275:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1277
-
-LBB4_1276:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1276
-
-LBB4_1277:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1278:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1278
-	JMP  LBB4_1655
-
-LBB4_205:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_437
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_209
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_630
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_630
-
-LBB4_209:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1283:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1285
-	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
-	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xc8560f66             // orpd    xmm1, xmm0
-	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1285:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1287:
-	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1287
-	JMP  LBB4_1655
-
-LBB4_210:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_440
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_214
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_635
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_635
-
-LBB4_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1292:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1294
-	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1294:
-	WORD $0x014c; BYTE $0xd0     // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1296:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1296
-	JMP  LBB4_1655
-
-LBB4_215:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_443
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_219
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_640
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_640
-
-LBB4_219:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1301:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1303
-
-LBB4_1302:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1302
-
-LBB4_1303:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1304:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1304
-	JMP  LBB4_1655
-
-LBB4_220:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_446
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_224
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_645
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_645
-
-LBB4_224:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1309:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1311
-
-LBB4_1310:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1310
-
-LBB4_1311:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1312:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1312
-	JMP  LBB4_1655
-
-LBB4_225:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_449
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_229
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_650
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_650
-
-LBB4_229:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1317:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1319
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1319:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1321:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1321
-	JMP  LBB4_1655
-
-LBB4_230:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_452
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_234
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_655
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_655
-
-LBB4_234:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1326:
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2     // not    rdx
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1328
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1328:
-	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1330:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1330
-	JMP  LBB4_1655
-
-LBB4_235:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_455
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_239
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_660
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_660
-
-LBB4_239:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1335:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1337
-	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77e0f66             // movd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd0     // setns    al
-	WORD $0xc000                 // add    al, al
-	WORD $0xff04                 // add    al, -1
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
-	LONG $0x10048841             // mov    byte [r8 + rdx], al
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1337:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1655
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_1339:
-	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1339
-	JMP  LBB4_1655
-
-LBB4_240:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_458
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_244
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_665
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_665
-
-LBB4_244:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1344:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1346
-
-LBB4_1345:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1345
-
-LBB4_1346:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1347:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1347
-	JMP  LBB4_1655
-
-LBB4_245:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_461
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_670
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_670
-
-LBB4_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1352:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1354
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1354:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1356:
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1356
-	JMP  LBB4_1655
-
-LBB4_250:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_464
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_673
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1003
-
-LBB4_255:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB4_467
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x01f98341                       // cmp    r9d, 1
-	JNE  LBB4_676
-	WORD $0xf631                           // xor    esi, esi
-	JMP  LBB4_1008
-
-LBB4_260:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_470
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_264
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_681
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_681
-
-LBB4_264:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1361:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1363
-	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	LONG $0xc74e0f48             // cmovle    rax, rdi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1363:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1365:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1365
-	JMP  LBB4_1655
-
-LBB4_265:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_473
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_269
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_686
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_686
-
-LBB4_269:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1370:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1372
-
-LBB4_1371:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1371
-
-LBB4_1372:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1373:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1373
-	JMP  LBB4_1655
-
-LBB4_270:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_476
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_689
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1014
-
-LBB4_275:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_479
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_692
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1019
-
-LBB4_280:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_482
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_284
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_697
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_697
-
-LBB4_284:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1378:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1380
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1380:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1382:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1382
-	JMP  LBB4_1655
-
-LBB4_285:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_485
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_700
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_290
-
-LBB4_293:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_488
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_297
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_710
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_710
-
-LBB4_297:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1387:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1389
-
-LBB4_1388:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1388
-
-LBB4_1389:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1390:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1390
-	JMP  LBB4_1655
-
-LBB4_298:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_491
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_713
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1025
-
-LBB4_303:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_716
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1141
-
-LBB4_306:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_719
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1146
-
-LBB4_309:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_722
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1151
-
-LBB4_312:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_725
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1157
-
-LBB4_315:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_317
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_730
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_730
-
-LBB4_317:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1395:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1397
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1397:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1399:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1399
-	JMP  LBB4_1655
-
-LBB4_318:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_320
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_735
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_735
-
-LBB4_320:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1404:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1406
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1406:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1408:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1408
-	JMP  LBB4_1655
-
-LBB4_321:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_738
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1031
-
-LBB4_324:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_741
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1036
-
-LBB4_327:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_329
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_746
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_746
-
-LBB4_329:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1413:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1415
-
-LBB4_1414:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1414
-
-LBB4_1415:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1416:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1416
-	JMP  LBB4_1655
-
-LBB4_330:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_332
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_751
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_751
-
-LBB4_332:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1421:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1423
-
-LBB4_1422:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1422
-
-LBB4_1423:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1424:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1424
-	JMP  LBB4_1655
-
-LBB4_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_335
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_756
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_756
-
-LBB4_335:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1429:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1431
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1431:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1433:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1433
-	JMP  LBB4_1655
-
-LBB4_336:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_338
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_761
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_761
-
-LBB4_338:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1438:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1440
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1440:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1442:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1442
-	JMP  LBB4_1655
-
-LBB4_339:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_764
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1041
-
-LBB4_342:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_767
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1163
-
-LBB4_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_770
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1169
-
-LBB4_348:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_773
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1175
-
-LBB4_351:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_353
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_778
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_778
-
-LBB4_353:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1447:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1449
-
-LBB4_1448:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1448
-
-LBB4_1449:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1450:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1450
-	JMP  LBB4_1655
-
-LBB4_354:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_356
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_783
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_783
-
-LBB4_356:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1455:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1457
-
-LBB4_1456:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1456
-
-LBB4_1457:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1458:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1458
-	JMP  LBB4_1655
-
-LBB4_357:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_786
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1047
-
-LBB4_360:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_789
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1053
-
-LBB4_363:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_792
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1181
-
-LBB4_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_795
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1186
-
-LBB4_369:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_798
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1194
-
-LBB4_372:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_801
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1200
-
-LBB4_375:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_377
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_806
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_806
-
-LBB4_377:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1463:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1465
-	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	LONG $0xc74e0f48             // cmovle    rax, rdi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1465:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1467:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1467
-	JMP  LBB4_1655
-
-LBB4_378:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_380
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_811
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_811
-
-LBB4_380:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1472:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1479
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1475
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	JMP  LBB4_1476
-
-LBB4_381:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_383
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_816
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_816
-
-LBB4_383:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1494:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1496
-
-LBB4_1495:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1495
-
-LBB4_1496:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1497:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1497
-	JMP  LBB4_1655
-
-LBB4_384:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_819
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_387:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xb0148d49         // lea    rdx, [r8 + 4*rsi]
-	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_390
-
-LBB4_389:
-	LONG $0x0c110ff3; BYTE $0xb2 // movss    dword [rdx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_390:
-	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_389
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_389
-
-LBB4_392:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_829
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1059
-
-LBB4_395:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_832
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1208
-
-LBB4_398:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_835
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1216
-
-LBB4_401:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_838
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1222
-
-LBB4_404:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_406
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_843
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_843
-
-LBB4_406:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1502:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1504
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1504:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1506:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1506
-	JMP  LBB4_1655
-
-LBB4_407:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_846
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_410:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	JNE  LBB4_989
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	JMP  LBB4_990
-
-LBB4_413:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_856
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_416
-
-LBB4_419:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_421
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_866
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_866
-
-LBB4_421:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_869:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_871
-	LONG $0x04100ff3; BYTE $0x91   // movss    xmm0, dword [rcx + 4*rdx]
-	WORD $0x500f; BYTE $0xf8       // movmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd0c20ff3; BYTE $0x00   // cmpeqss    xmm2, xmm0
-	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
-	LONG $0x110f41f3; WORD $0x9014 // movss    dword [r8 + 4*rdx], xmm2
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_871:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_873:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
-	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
-	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_873
-	JMP  LBB4_1655
-
-LBB4_422:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_424
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_876
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_876
-
-LBB4_424:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1511:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1513
-
-LBB4_1512:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1512
-
-LBB4_1513:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1514:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1514
-	JMP  LBB4_1655
-
-LBB4_425:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_427
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_881
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_881
-
-LBB4_427:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1519:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1524
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1522
-
-LBB4_1521:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_1524
-
-LBB4_1522:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
-	JNE  LBB4_1521
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1521
-
-LBB4_428:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_884
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1064
-
-LBB4_431:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_887
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1070
-
-LBB4_434:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_436
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_892
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_892
-
-LBB4_436:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1539:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1541
-
-LBB4_1540:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1540
-
-LBB4_1541:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1542:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1542
-	JMP  LBB4_1655
-
-LBB4_437:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_439
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_897
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_897
-
-LBB4_439:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1547:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1549
-	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
-	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xc8560f66             // orpd    xmm1, xmm0
-	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1549:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1551:
-	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1551
-	JMP  LBB4_1655
-
-LBB4_440:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_442
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_902
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_902
-
-LBB4_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1556:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1558
-	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1558:
-	WORD $0x014c; BYTE $0xd0     // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1560:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1560
-	JMP  LBB4_1655
-
-LBB4_443:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_445
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_907
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_907
-
-LBB4_445:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1565:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1567
-
-LBB4_1566:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1566
-
-LBB4_1567:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1568:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1568
-	JMP  LBB4_1655
-
-LBB4_446:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_448
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_912
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_912
-
-LBB4_448:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1573:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1575
-
-LBB4_1574:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1574
-
-LBB4_1575:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1576:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1576
-	JMP  LBB4_1655
-
-LBB4_449:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_451
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_917
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_917
-
-LBB4_451:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1581:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1583
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1583:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1585:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1585
-	JMP  LBB4_1655
-
-LBB4_452:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_454
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_922
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_922
-
-LBB4_454:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1590:
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2     // not    rdx
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1592
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1592:
-	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1594:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1594
-	JMP  LBB4_1655
-
-LBB4_455:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_457
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_927
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_927
-
-LBB4_457:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1599:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1601
-	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77e0f66             // movd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd0     // setns    al
-	WORD $0xc000                 // add    al, al
-	WORD $0xff04                 // add    al, -1
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
-	LONG $0x10048841             // mov    byte [r8 + rdx], al
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1601:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1655
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_1603:
-	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1603
-	JMP  LBB4_1655
-
-LBB4_458:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_460
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_932
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_932
-
-LBB4_460:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1608:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1610
-
-LBB4_1609:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1609
-
-LBB4_1610:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1611:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1611
-	JMP  LBB4_1655
-
-LBB4_461:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_463
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_937
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_937
-
-LBB4_463:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1616:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1618
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1618:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1620:
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1620
-	JMP  LBB4_1655
-
-LBB4_464:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_466
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_942
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_942
-
-LBB4_466:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1625:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1627
-
-LBB4_1626:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1626
-
-LBB4_1627:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1628:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1628
-	JMP  LBB4_1655
-
-LBB4_467:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_945
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1080
-
-LBB4_470:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_472
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_950
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_950
-
-LBB4_472:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1633:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1635
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1635:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1637:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1637
-	JMP  LBB4_1655
-
-LBB4_473:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_953
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1086
-
-LBB4_476:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_956
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1091
-
-LBB4_479:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_959
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1096
-
-LBB4_482:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_962
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1102
-
-LBB4_485:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_965
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_968
-
-LBB4_488:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_490
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_974
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_974
-
-LBB4_490:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1642:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1644
-
-LBB4_1643:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1643
-
-LBB4_1644:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1645:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1645
-	JMP  LBB4_1655
-
-LBB4_491:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_493
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_979
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_979
-
-LBB4_493:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1650:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1652
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1652:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1654:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1654
-	JMP  LBB4_1655
-
-LBB4_1524:
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JB   LBB4_1655
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1527
-
-LBB4_1526:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x0c // movd    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1527:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JNE  LBB4_1528
-	LONG $0xc9ef0f66               // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JE   LBB4_1532
-
-LBB4_1529:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1530
-
-LBB4_1533:
-	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1526
-	JMP  LBB4_1534
-
-LBB4_1528:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JNE  LBB4_1529
-
-LBB4_1532:
-	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JE   LBB4_1533
-
-LBB4_1530:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1526
-
-LBB4_1534:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1526
-
-LBB4_499:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1106
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_501:
-	LONG $0x2c100f66; BYTE $0xf9   // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9 // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xdd280f66               // movapd    xmm3, xmm5
-	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xe6280f66               // movapd    xmm4, xmm6
-	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	LONG $0xfe700f66; BYTE $0xee   // pshufd    xmm7, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	LONG $0xf36e0f66               // movd    xmm6, ebx
-	LONG $0x223a0f66; WORD $0x01f0 // pinsrd    xmm6, eax, 1
-	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
-	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
-	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
-	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
-	LONG $0x6c100f66; WORD $0x20f9 // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9 // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xdd280f66               // movapd    xmm3, xmm5
-	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xe6280f66               // movapd    xmm4, xmm6
-	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
-	LONG $0xee700f66; BYTE $0xee   // pshufd    xmm5, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xc5   // cvttsd2si    rax, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	WORD $0x550f; BYTE $0xe5       // andnps    xmm4, xmm5
-	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c28348               // add    rdx, 2
-	JNE  LBB4_501
-	JMP  LBB4_1107
-
-LBB4_507:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_994
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_509:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_509
-	JMP  LBB4_995
-
-LBB4_510:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1112
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_512:
-	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_512
-	JMP  LBB4_1113
-
-LBB4_513:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1117
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_515:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_515
-	JMP  LBB4_1118
-
-LBB4_516:
-	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
-	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x02e9c149                           // shr    r9, 2
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1123
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_518:
-	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_518
-	JMP  LBB4_1124
-
-LBB4_519:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1129
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x3065280f             // movaps    xmm4, oword 48[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_521:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
-	LONG $0xc2eb0f66               // por    xmm0, xmm2
-	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
-	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
-	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
-	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
-	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
-	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
-	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
-	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
-	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
-	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x10b1 // movdqu    xmm5, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
-	LONG $0xc2eb0f66               // por    xmm0, xmm2
-	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
-	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
-	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
-	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
-	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
-	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
-	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
-	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
-	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
-	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_521
-	JMP  LBB4_1130
-
-LBB4_532:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_534
-
-LBB4_533:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_101
-
-LBB4_534:
-	LONG $0x00b13c83               // cmp    dword [rcx + 4*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_535
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_539
-
-LBB4_536:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_537
-
-LBB4_540:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_533
-	JMP  LBB4_541
-
-LBB4_535:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_536
-
-LBB4_539:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_540
-
-LBB4_537:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_533
-
-LBB4_541:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_533
-
-LBB4_547:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_549
-
-LBB4_548:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_120
-
-LBB4_549:
-	LONG $0x00013c80 // cmp    byte [rcx + rax], 0
-	LONG $0xd0280f66 // movapd    xmm2, xmm0
-	JNE  LBB4_550
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JLE  LBB4_554
-
-LBB4_551:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_552
-
-LBB4_555:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_548
-	JMP  LBB4_556
-
-LBB4_550:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_551
-
-LBB4_554:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_555
-
-LBB4_552:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_548
-
-LBB4_556:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_548
-
-LBB4_557:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_559
-
-LBB4_558:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_130
-
-LBB4_559:
-	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_560
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_564
-
-LBB4_561:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_562
-
-LBB4_565:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_558
-	JMP  LBB4_566
-
-LBB4_560:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_561
-
-LBB4_564:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_565
-
-LBB4_562:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_558
-
-LBB4_566:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_558
-
-LBB4_567:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_569
-
-LBB4_568:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_142
-
-LBB4_569:
-	LONG $0x713c8366; BYTE $0x00   // cmp    word [rcx + 2*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_570
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_574
-
-LBB4_571:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_572
-
-LBB4_575:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_568
-	JMP  LBB4_576
-
-LBB4_570:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_571
-
-LBB4_574:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_575
-
-LBB4_572:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_568
-
-LBB4_576:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_568
-
-LBB4_577:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_579
-
-LBB4_578:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_154
-
-LBB4_579:
-	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_580
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_584
-
-LBB4_581:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_582
-
-LBB4_585:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_578
-	JMP  LBB4_586
-
-LBB4_580:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_581
-
-LBB4_584:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_585
-
-LBB4_582:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_578
-
-LBB4_586:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_578
-
-LBB4_587:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_589
-
-LBB4_588:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_164
-
-LBB4_589:
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_590
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_594
-
-LBB4_591:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_592
-
-LBB4_595:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_588
-	JMP  LBB4_596
-
-LBB4_590:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_591
-
-LBB4_594:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_595
-
-LBB4_592:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_588
-
-LBB4_596:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_588
-
-LBB4_597:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_599
-
-LBB4_598:
-	LONG $0x110f41f2; WORD $0xc04c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm1
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_174
-
-LBB4_599:
-	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
-	LONG $0xdb570f66             // xorpd    xmm3, xmm3
-	JE   LBB4_601
-	WORD $0x500f; BYTE $0xfa     // movmskps    edi, xmm2
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3             // cvtsi2ss    xmm2, edi
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	LONG $0xda5a0ff3             // cvtss2sd    xmm3, xmm2
-
-LBB4_601:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
-	JE   LBB4_598
-	WORD $0x500f; BYTE $0xfa       // movmskps    edi, xmm2
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
-	LONG $0xc95a0ff3               // cvtss2sd    xmm1, xmm1
-	JMP  LBB4_598
-
-LBB4_603:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_605
-
-LBB4_604:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_185
-
-LBB4_605:
-	LONG $0x00313c80               // cmp    byte [rcx + rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_606
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_610
-
-LBB4_607:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_608
-
-LBB4_611:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_604
-	JMP  LBB4_612
-
-LBB4_606:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_607
-
-LBB4_610:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_611
-
-LBB4_608:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_604
-
-LBB4_612:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_604
-
-LBB4_613:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_615
-
-LBB4_614:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_197
-
-LBB4_615:
-	LONG $0x00813c83 // cmp    dword [rcx + 4*rax], 0
-	LONG $0xd0280f66 // movapd    xmm2, xmm0
-	JNE  LBB4_616
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JLE  LBB4_620
-
-LBB4_617:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_618
-
-LBB4_621:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_614
-	JMP  LBB4_622
-
-LBB4_616:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_617
-
-LBB4_620:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_621
-
-LBB4_618:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_614
-
-LBB4_622:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_614
-
-LBB4_673:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_999
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_675:
-	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
-	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_675
-	JMP  LBB4_1000
-
-LBB4_676:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe     // and    esi, -2
-	LONG $0xfe468d48             // lea    rax, [rsi - 2]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	WORD $0xd149; BYTE $0xe9     // shr    r9, 1
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB4_1004
-	WORD $0x894d; BYTE $0xce     // mov    r14, r9
-	LONG $0xfee68349             // and    r14, -2
-	WORD $0xf749; BYTE $0xde     // neg    r14
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-	QUAD $0x000001189d100ff2     // movsd    xmm3, qword 280[rbp] /* [rip + .LCPI4_6] */
-
-LBB4_678:
-	LONG $0x24100f66; BYTE $0xf9               // movupd    xmm4, oword [rcx + 8*rdi]
-	LONG $0xec280f66                           // movapd    xmm5, xmm4
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf5280f66                           // movapd    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd3430f48                           // cmovae    rdx, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2c0f48f2; BYTE $0xc5               // cvttsd2si    rax, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xc3430f48                           // cmovae    rax, rbx
-	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
-	LONG $0x6e0f4866; BYTE $0xf0               // movq    xmm6, rax
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x64100f66; WORD $0x10f9             // movupd    xmm4, oword [rcx + 8*rdi + 16]
-	LONG $0xec280f66                           // movapd    xmm5, xmm4
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf5280f66                           // movapd    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd8430f48                           // cmovae    rbx, rax
-	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm4
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x02c68349                           // add    r14, 2
-	JNE  LBB4_678
-	JMP  LBB4_1005
-
-LBB4_689:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1010
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_691:
-	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
-	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_691
-	JMP  LBB4_1011
-
-LBB4_692:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1015
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_694:
-	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
-	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_694
-	JMP  LBB4_1016
-
-LBB4_700:
-	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe               // and    esi, -2
-	WORD $0xc031                           // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
-	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-	JMP  LBB4_703
-
-LBB4_701:
-	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
-	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
-	LONG $0xd95c0ff3             // subss    xmm3, xmm1
-	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_290
-
-LBB4_703:
-	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
-	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
-	JNE  LBB4_705
-	WORD $0xd231                 // xor    edx, edx
-	JMP  LBB4_706
-
-LBB4_705:
-	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
-	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
-	LONG $0xd95c0ff3             // subss    xmm3, xmm1
-	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-
-LBB4_706:
-	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
-	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
-	JNE  LBB4_701
-	WORD $0xd231                   // xor    edx, edx
-	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_703
-
-LBB4_290:
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1655
-	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	JNE  LBB4_993
-	WORD $0xc931                 // xor    ecx, ecx
-	LONG $0xc00c8949             // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1655
-
-LBB4_713:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1021
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_715:
-	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
-	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_715
-	JMP  LBB4_1022
-
-LBB4_716:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1137
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_718:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_718
-	JMP  LBB4_1138
-
-LBB4_719:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1142
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_721:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_721
-	JMP  LBB4_1143
-
-LBB4_722:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1147
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_724:
-	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
-	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_724
-	JMP  LBB4_1148
-
-LBB4_725:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1153
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_727:
-	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
-	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_727
-	JMP  LBB4_1154
-
-LBB4_738:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1027
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_740:
-	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_740
-	JMP  LBB4_1028
-
-LBB4_741:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1032
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_743:
-	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_743
-	JMP  LBB4_1033
-
-LBB4_764:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1037
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_766:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_766
-	JMP  LBB4_1038
-
-LBB4_767:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1159
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_769:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_769
-	JMP  LBB4_1160
-
-LBB4_770:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1165
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_772:
-	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
-	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
-	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
-	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_772
-	JMP  LBB4_1166
-
-LBB4_773:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1171
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_775:
-	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
-	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
-	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
-	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_775
-	JMP  LBB4_1172
-
-LBB4_786:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1043
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_788:
-	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_788
-	JMP  LBB4_1044
-
-LBB4_789:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1049
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_791:
-	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_791
-	JMP  LBB4_1050
-
-LBB4_792:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1177
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_794:
-	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
-	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_794
-	JMP  LBB4_1178
-
-LBB4_795:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1182
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000d08d6f0f66 // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_797:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_797
-	JMP  LBB4_1183
-
-LBB4_798:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1190
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_800:
-	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdf540f66                           // andpd    xmm3, xmm7
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdf540f66                           // andpd    xmm3, xmm7
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_800
-	JMP  LBB4_1191
-
-LBB4_801:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1196
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x570f4566; BYTE $0xc0 // xorpd    xmm8, xmm8
-	LONG $0x4d5a0f66; BYTE $0x10 // cvtpd2ps    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x4d280f44; BYTE $0x20 // movaps    xmm9, oword 32[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xd9160ff3             // movshdup    xmm3, xmm1
-	LONG $0xd9540f41             // andps    xmm3, xmm9
-	LONG $0xc9540f41             // andps    xmm1, xmm9
-
-LBB4_803:
-	LONG $0x24100f66; BYTE $0xf1   // movupd    xmm4, oword [rcx + 8*rsi]
-	LONG $0x74100f66; WORD $0x10f1 // movupd    xmm6, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
-	LONG $0xec5a0ff2               // cvtsd2ss    xmm5, xmm4
-	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	WORD $0x570f; BYTE $0xff       // xorps    xmm7, xmm7
-	LONG $0xfe5a0ff2               // cvtsd2ss    xmm7, xmm6
-	LONG $0xc20f4166; WORD $0x00f0 // cmpeqpd    xmm6, xmm8
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0x44100ff2; WORD $0x08f1 // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
-	LONG $0xc1280f41               // movaps    xmm0, xmm9
-	WORD $0x550f; BYTE $0xc5       // andnps    xmm0, xmm5
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
-	WORD $0x550f; BYTE $0xe0       // andnps    xmm4, xmm0
-	LONG $0x44100ff2; WORD $0x18f1 // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
-	LONG $0xc1280f41               // movaps    xmm0, xmm9
-	WORD $0x550f; BYTE $0xc7       // andnps    xmm0, xmm7
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
-	WORD $0x550f; BYTE $0xf0       // andnps    xmm6, xmm0
-	WORD $0x160f; BYTE $0xe6       // movlhps    xmm4, xmm6
-	LONG $0x24110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm4
-	LONG $0x64100f66; WORD $0x20f1 // movupd    xmm4, oword [rcx + 8*rsi + 32]
-	LONG $0x44100f66; WORD $0x30f1 // movupd    xmm0, oword [rcx + 8*rsi + 48]
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd45a0ff2               // cvtsd2ss    xmm2, xmm4
-	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
-	LONG $0xe85a0ff2               // cvtsd2ss    xmm5, xmm0
-	LONG $0xc20f4166; WORD $0x00c0 // cmpeqpd    xmm0, xmm8
-	LONG $0x74100ff2; WORD $0x28f1 // movsd    xmm6, qword [rcx + 8*rsi + 40]
-	LONG $0xf65a0ff2               // cvtsd2ss    xmm6, xmm6
-	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
-	LONG $0xf9280f41               // movaps    xmm7, xmm9
-	WORD $0x550f; BYTE $0xfe       // andnps    xmm7, xmm6
-	WORD $0x560f; BYTE $0xfb       // orps    xmm7, xmm3
-	LONG $0xf1280f41               // movaps    xmm6, xmm9
-	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
-	WORD $0x560f; BYTE $0xf1       // orps    xmm6, xmm1
-	WORD $0x140f; BYTE $0xf7       // unpcklps    xmm6, xmm7
-	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
-	LONG $0x54100ff2; WORD $0x38f1 // movsd    xmm2, qword [rcx + 8*rsi + 56]
-	LONG $0xd25a0ff2               // cvtsd2ss    xmm2, xmm2
-	LONG $0xf1280f41               // movaps    xmm6, xmm9
-	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
-	WORD $0x560f; BYTE $0xf3       // orps    xmm6, xmm3
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd5       // andnps    xmm2, xmm5
-	WORD $0x560f; BYTE $0xd1       // orps    xmm2, xmm1
-	WORD $0x140f; BYTE $0xd6       // unpcklps    xmm2, xmm6
-	WORD $0x550f; BYTE $0xc2       // andnps    xmm0, xmm2
-	WORD $0x160f; BYTE $0xe0       // movlhps    xmm4, xmm0
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_803
-	JMP  LBB4_1197
-
-LBB4_819:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_821
-
-LBB4_820:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_387
-
-LBB4_821:
-	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_822
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_826
-
-LBB4_823:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_824
-
-LBB4_827:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_820
-	JMP  LBB4_828
-
-LBB4_822:
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_823
-
-LBB4_826:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_827
-
-LBB4_824:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_820
-
-LBB4_828:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_820
-
-LBB4_829:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1055
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_831:
-	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
-	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_831
-	JMP  LBB4_1056
-
-LBB4_832:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1204
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_834:
-	LONG $0x1c7e0ff3; BYTE $0x71   // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871 // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071 // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871 // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_834
-	JMP  LBB4_1205
-
-LBB4_835:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1212
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_837:
-	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
-	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_837
-	JMP  LBB4_1213
-
-LBB4_838:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1218
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_840:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_840
-	JMP  LBB4_1219
-
-LBB4_846:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d100ff3 // movss    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_848
-
-LBB4_847:
-	LONG $0x110f41f3; WORD $0x805c; BYTE $0x04 // movss    dword [r8 + 4*rax + 4], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_410
-
-LBB4_848:
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_849
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_853
-
-LBB4_850:
-	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_851
-
-LBB4_854:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_847
-	JMP  LBB4_855
-
-LBB4_849:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_850
-
-LBB4_853:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_854
-
-LBB4_851:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_847
-
-LBB4_855:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_847
-
-LBB4_856:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_859
-
-LBB4_857:
-	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
-	LONG $0xc07c8949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdi
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_416
-
-LBB4_859:
-	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JNE  LBB4_861
-	WORD $0xff31                 // xor    edi, edi
-	JMP  LBB4_862
-
-LBB4_861:
-	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
-
-LBB4_862:
-	LONG $0xc03c8949               // mov    qword [r8 + 8*rax], rdi
-	LONG $0x4c100ff3; WORD $0x0481 // movss    xmm1, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	JNE  LBB4_857
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc07c8949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdi
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_859
-
-LBB4_416:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	JNE  LBB4_1104
-	WORD $0xc931                 // xor    ecx, ecx
-	JMP  LBB4_1105
-
-LBB4_884:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1060
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_886:
-	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
-	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_886
-	JMP  LBB4_1061
-
-LBB4_887:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1066
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_889:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_889
-	JMP  LBB4_1067
-
-LBB4_945:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1076
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_947:
-	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
-	LONG $0x64100f66; WORD $0x10f9 // movupd    xmm4, oword [rcx + 8*rdi + 16]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
-	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xe1540f66               // andpd    xmm4, xmm1
-	LONG $0xe2560f66               // orpd    xmm4, xmm2
-	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
-	LONG $0xe4e60f66               // cvttpd2dq    xmm4, xmm4
-	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
-	WORD $0x550f; BYTE $0xf4       // andnps    xmm6, xmm4
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm5
-	LONG $0x5c100f66; WORD $0x20f9 // movupd    xmm3, oword [rcx + 8*rdi + 32]
-	LONG $0x64100f66; WORD $0x30f9 // movupd    xmm4, oword [rcx + 8*rdi + 48]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
-	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xe1540f66               // andpd    xmm4, xmm1
-	LONG $0xe2560f66               // orpd    xmm4, xmm2
-	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
-	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
-	LONG $0xdce60f66               // cvttpd2dq    xmm3, xmm4
-	WORD $0x550f; BYTE $0xf3       // andnps    xmm6, xmm3
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c28348               // add    rdx, 2
-	JNE  LBB4_947
-	JMP  LBB4_1077
-
-LBB4_953:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1082
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_955:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_955
-	JMP  LBB4_1083
-
-LBB4_956:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1087
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_958:
-	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_958
-	JMP  LBB4_1088
-
-LBB4_959:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1092
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_961:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_961
-	JMP  LBB4_1093
-
-LBB4_962:
-	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
-	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x02e9c149                           // shr    r9, 2
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1098
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_964:
-	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_964
-	JMP  LBB4_1099
-
-LBB4_965:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_966:
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xe45b0ff3               // cvttps2dq    xmm4, xmm4
-	LONG $0xed5b0ff3               // cvttps2dq    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_966
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_968:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_970
-
-LBB4_969:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_970:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JE   LBB4_969
-	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
-	LONG $0xf12c0ff3             // cvttss2si    esi, xmm1
-	JMP  LBB4_969
-
-LBB4_496:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1228
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_498:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_498
-	JMP  LBB4_1229
-
-LBB4_504:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1236
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_506:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_506
-	JMP  LBB4_1237
-
-LBB4_524:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1245
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_526:
-	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_526
-	JMP  LBB4_1246
-
-LBB4_529:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1253
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_531:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
-	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_531
-	JMP  LBB4_1254
-
-LBB4_544:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1262
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_546:
-	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66                           // andpd    xmm4, xmm6
-	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66                           // andpd    xmm4, xmm6
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_546
-	JMP  LBB4_1263
-
-LBB4_625:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1271
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_627:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_627
-	JMP  LBB4_1272
-
-LBB4_630:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1279
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_632:
-	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
-	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
-	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
-	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
-	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
-	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_632
-	JMP  LBB4_1280
-
-LBB4_635:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1288
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_637:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_637
-	JMP  LBB4_1289
-
-LBB4_640:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1297
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_642:
-	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_642
-	JMP  LBB4_1298
-
-LBB4_645:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1305
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_647:
-	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_647
-	JMP  LBB4_1306
-
-LBB4_650:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1313
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_652:
-	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
-	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_652
-	JMP  LBB4_1314
-
-LBB4_655:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1322
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_657:
-	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
-	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
-	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
-	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
-	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
-	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
-	LONG $0x08c08348                     // add    rax, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_657
-	JMP  LBB4_1323
-
-LBB4_660:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1331
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_662:
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_662
-	JMP  LBB4_1332
-
-LBB4_665:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1340
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_667:
-	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
-	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_667
-	JMP  LBB4_1341
-
-LBB4_670:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1348
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_672:
-	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
-	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_672
-	JMP  LBB4_1349
-
-LBB4_681:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1357
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_683:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_683
-	JMP  LBB4_1358
-
-LBB4_686:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1366
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_688:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_688
-	JMP  LBB4_1367
-
-LBB4_697:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1374
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_699:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_699
-	JMP  LBB4_1375
-
-LBB4_710:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1383
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_712:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_712
-	JMP  LBB4_1384
-
-LBB4_730:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1391
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_732:
-	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
-	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_732
-	JMP  LBB4_1392
-
-LBB4_735:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1400
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_737:
-	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
-	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_737
-	JMP  LBB4_1401
-
-LBB4_746:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1409
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_748:
-	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
-	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_748
-	JMP  LBB4_1410
-
-LBB4_751:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1417
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_753:
-	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
-	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_753
-	JMP  LBB4_1418
-
-LBB4_756:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1425
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_758:
-	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
-	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_758
-	JMP  LBB4_1426
-
-LBB4_761:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1434
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_763:
-	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
-	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_763
-	JMP  LBB4_1435
-
-LBB4_778:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1443
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_780:
-	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
-	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_780
-	JMP  LBB4_1444
-
-LBB4_783:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1451
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_785:
-	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
-	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_785
-	JMP  LBB4_1452
-
-LBB4_806:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1459
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_808:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_808
-	JMP  LBB4_1460
-
-LBB4_811:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1468
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_813:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_813
-	JMP  LBB4_1469
-
-LBB4_816:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1490
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_818:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_818
-	JMP  LBB4_1491
-
-LBB4_843:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1498
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_845:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_845
-	JMP  LBB4_1499
-
-LBB4_989:
-	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_990:
-	JLE  LBB4_992
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_992:
-	LONG $0x110f41f3; WORD $0x8004 // movss    dword [r8 + 4*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_866:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_867:
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_867
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_869
-
-LBB4_876:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1507
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_878:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_878
-	JMP  LBB4_1508
-
-LBB4_881:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1515
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_883:
-	LONG $0x1c6e0f66; BYTE $0x31   // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431 // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831 // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31 // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_883
-	JMP  LBB4_1516
-
-LBB4_892:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1535
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_894:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_894
-	JMP  LBB4_1536
-
-LBB4_897:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1543
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_899:
-	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
-	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
-	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
-	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
-	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
-	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_899
-	JMP  LBB4_1544
-
-LBB4_902:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1552
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_904:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_904
-	JMP  LBB4_1553
-
-LBB4_907:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1561
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_909:
-	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_909
-	JMP  LBB4_1562
-
-LBB4_912:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1569
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_914:
-	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_914
-	JMP  LBB4_1570
-
-LBB4_917:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1577
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_919:
-	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
-	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_919
-	JMP  LBB4_1578
-
-LBB4_922:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1586
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_924:
-	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
-	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
-	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
-	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
-	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
-	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
-	LONG $0x08c08348                     // add    rax, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_924
-	JMP  LBB4_1587
-
-LBB4_927:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1595
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_929:
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_929
-	JMP  LBB4_1596
-
-LBB4_932:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1604
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_934:
-	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
-	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_934
-	JMP  LBB4_1605
-
-LBB4_937:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1612
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_939:
-	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
-	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_939
-	JMP  LBB4_1613
-
-LBB4_942:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1621
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_944:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_944
-	JMP  LBB4_1622
-
-LBB4_950:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1629
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_952:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_952
-	JMP  LBB4_1630
-
-LBB4_974:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1638
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_976:
-	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_976
-	JMP  LBB4_1639
-
-LBB4_979:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1646
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_981:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
-	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_981
-	JMP  LBB4_1647
-
-LBB4_1475:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_1476:
-	JLE  LBB4_1478
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1478:
-	LONG $0x7e0f4166; WORD $0x9004 // movd    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1479:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1655
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1482
-
-LBB4_1481:
-	LONG $0x7e0f4166; WORD $0x905c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1482:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
-	JNE  LBB4_1483
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JLE  LBB4_1487
-
-LBB4_1484:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
-	JNE  LBB4_1485
-
-LBB4_1488:
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1481
-	JMP  LBB4_1489
-
-LBB4_1483:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1484
-
-LBB4_1487:
-	LONG $0xda6f0f66               // movdqa    xmm3, xmm2
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
-	JE   LBB4_1488
-
-LBB4_1485:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1481
-
-LBB4_1489:
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1481
-
-LBB4_994:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_995:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_997
-	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
-
-LBB4_997:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_998:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_998
-	JMP  LBB4_1655
-
-LBB4_999:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1000:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1002
-	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
-	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1002:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1003:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_1003
-	JMP  LBB4_1655
-
-LBB4_1004:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1005:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1007
-	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0x4d560f66; BYTE $0x10   // orpd    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
-	QUAD $0x0000011895100ff2       // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xd9280f66               // movapd    xmm3, xmm1
-	LONG $0xda5c0ff2               // subsd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc3   // cvttsd2si    rax, xmm3
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
-	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6e0f4866; BYTE $0xda   // movq    xmm3, rdx
-	LONG $0xc9700f66; BYTE $0xee   // pshufd    xmm1, xmm1, 238
-	LONG $0xe16f0f66               // movdqa    xmm4, xmm1
-	LONG $0xe25c0ff2               // subsd    xmm4, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
-	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6e0f4866; BYTE $0xd2   // movq    xmm2, rdx
-	LONG $0xda6c0f66               // punpcklqdq    xmm3, xmm2
-	LONG $0xc8c20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm0
-	LONG $0xcb540f66               // andpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf80c // movupd    oword [r8 + 8*rdi], xmm1
-
-LBB4_1007:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-
-LBB4_1008:
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	QUAD $0x0000011895100ff2     // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xdb570f66             // xorpd    xmm3, xmm3
-
-LBB4_1009:
-	LONG $0x24100ff2; BYTE $0xf1 // movsd    xmm4, qword [rcx + 8*rsi]
-	LONG $0xec280f66             // movapd    xmm5, xmm4
-	LONG $0xe8540f66             // andpd    xmm5, xmm0
-	LONG $0xe9560f66             // orpd    xmm5, xmm1
-	LONG $0xf5280f66             // movapd    xmm6, xmm5
-	LONG $0xf25c0ff2             // subsd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xd6 // cvttsd2si    rdx, xmm6
-	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
-	LONG $0x2c0f48f2; BYTE $0xfd // cvttsd2si    rdi, xmm5
-	LONG $0xea2e0f66             // ucomisd    xmm5, xmm2
-	LONG $0xfa430f48             // cmovae    rdi, rdx
-	LONG $0xdc2e0f66             // ucomisd    xmm3, xmm4
-	LONG $0xf8440f48             // cmove    rdi, rax
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1009
-	JMP  LBB4_1655
-
-LBB4_1010:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1011:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1013
-	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
-	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1013:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1014:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1014
-	JMP  LBB4_1655
-
-LBB4_1015:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1016:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1018
-	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
-	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1018:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1019:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1020:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1020
-	JMP  LBB4_1655
-
-LBB4_993:
-	WORD $0x500f; BYTE $0xc8               // movmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01               // and    ecx, 1
-	WORD $0xd9f7                           // neg    ecx
-	WORD $0xc983; BYTE $0x01               // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3                       // cvtsi2ss    xmm0, ecx
-	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
-	WORD $0x280f; BYTE $0xd0               // movaps    xmm2, xmm0
-	LONG $0xd15c0ff3                       // subss    xmm2, xmm1
-	LONG $0x2c0f48f3; BYTE $0xca           // cvttss2si    rcx, xmm2
-	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
-	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
-	LONG $0x2c0f48f3; BYTE $0xc8           // cvttss2si    rcx, xmm0
-	WORD $0x2e0f; BYTE $0xc1               // ucomiss    xmm0, xmm1
-	LONG $0xca430f48                       // cmovae    rcx, rdx
-	LONG $0xc00c8949                       // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1655
-
-LBB4_1021:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1024
-	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
-	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1024:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1025:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1026:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1026
-	JMP  LBB4_1655
-
-LBB4_1027:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1028:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1030
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
-
-LBB4_1030:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1031:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1031
-	JMP  LBB4_1655
-
-LBB4_1032:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1033:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1035
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
-
-LBB4_1035:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1036:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1036
-	JMP  LBB4_1655
-
-LBB4_1037:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1040
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
-
-LBB4_1040:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1041:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1042:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1042
-	JMP  LBB4_1655
-
-LBB4_1043:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1044:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1046
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
-
-LBB4_1046:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1047:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1048:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1048
-	JMP  LBB4_1655
-
-LBB4_1049:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1050:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1052
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
-
-LBB4_1052:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1053:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1054:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1054
-	JMP  LBB4_1655
-
-LBB4_1055:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1056:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1058
-	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
-	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1058:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1059:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1059
-	JMP  LBB4_1655
-
-LBB4_1060:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1061:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1063
-	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
-	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1063:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1064:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1065:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1065
-	JMP  LBB4_1655
-
-LBB4_1066:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1067:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1069
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1069:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1070:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1072
-
-LBB4_1071:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1072:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
-	JNE  LBB4_1074
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-
-LBB4_1074:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1071
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1071
-
-LBB4_1076:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1077:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1079
-	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10f9 // movupd    xmm1, oword [rcx + 8*rdi + 16]
-	LONG $0xd2570f66               // xorpd    xmm2, xmm2
-	LONG $0xd8280f66               // movapd    xmm3, xmm0
-	LONG $0xdac20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm2
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xd1c20f66; BYTE $0x00   // cmpeqpd    xmm2, xmm1
-	LONG $0xe8d2c60f               // shufps    xmm2, xmm2, 232
-	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc4540f66               // andpd    xmm0, xmm4
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc5560f66               // orpd    xmm0, xmm5
-	LONG $0xcc540f66               // andpd    xmm1, xmm4
-	LONG $0xcd560f66               // orpd    xmm1, xmm5
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	WORD $0x550f; BYTE $0xd8       // andnps    xmm3, xmm0
-	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
-	WORD $0x160f; BYTE $0xda       // movlhps    xmm3, xmm2
-	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
-
-LBB4_1079:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1080:
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1081:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1081
-	JMP  LBB4_1655
-
-LBB4_1082:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1083:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1085
-	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
-
-LBB4_1085:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1086:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1086
-	JMP  LBB4_1655
-
-LBB4_1087:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1088:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1090
-	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1090:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1091:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1091
-	JMP  LBB4_1655
-
-LBB4_1092:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1093:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1095
-	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1095:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1096:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1097:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1097
-	JMP  LBB4_1655
-
-LBB4_1098:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1099:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1101
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1101:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1102:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1103:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1103
-	JMP  LBB4_1655
-
-LBB4_1106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1107:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1109
-	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10f9 // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0xc1c20f66; BYTE $0x00   // cmpeqpd    xmm0, xmm1
-	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
-	LONG $0xcac20f66; BYTE $0x00   // cmpeqpd    xmm1, xmm2
-	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdc540f66               // andpd    xmm3, xmm4
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xdd560f66               // orpd    xmm3, xmm5
-	LONG $0xd4540f66               // andpd    xmm2, xmm4
-	LONG $0xd5560f66               // orpd    xmm2, xmm5
-	LONG $0xe3700f66; BYTE $0xee   // pshufd    xmm4, xmm3, 238
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	LONG $0x2c0f48f2; BYTE $0xd3   // cvttsd2si    rdx, xmm3
-	LONG $0xda6e0f66               // movd    xmm3, edx
-	LONG $0x223a0f66; WORD $0x01d8 // pinsrd    xmm3, eax, 1
-	LONG $0xe2700f66; BYTE $0xee   // pshufd    xmm4, xmm2, 238
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	LONG $0x2c0f48f2; BYTE $0xd2   // cvttsd2si    rdx, xmm2
-	LONG $0xe8c9c60f               // shufps    xmm1, xmm1, 232
-	LONG $0xd26e0f66               // movd    xmm2, edx
-	LONG $0x223a0f66; WORD $0x01d0 // pinsrd    xmm2, eax, 1
-	WORD $0x550f; BYTE $0xc3       // andnps    xmm0, xmm3
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	WORD $0x160f; BYTE $0xc1       // movlhps    xmm0, xmm1
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-
-LBB4_1109:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB4_1655
-
-LBB4_1110:
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1111:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc3 // cvttsd2si    rax, xmm3
-	LONG $0xc2440f41             // cmove    eax, r10d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB4_1111
-	JMP  LBB4_1655
-
-LBB4_1112:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1113:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1115
-	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1115:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1116:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1116
-	JMP  LBB4_1655
-
-LBB4_1117:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1118:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1120
-	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1120:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1121:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1122:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1122
-	JMP  LBB4_1655
-
-LBB4_1123:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1124:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1126
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1126:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1127:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1128:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1128
-	JMP  LBB4_1655
-
-LBB4_1129:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1130:
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB4_1132
-	LONG $0xb104100f             // movups    xmm0, oword [rcx + 4*rsi]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0x04c8c20f             // cmpneqps    xmm1, xmm0
-	LONG $0xe0720f66; BYTE $0x1f // psrad    xmm0, 31
-	LONG $0x45eb0f66; BYTE $0x50 // por    xmm0, oword 80[rbp] /* [rip + .LCPI4_8] */
-	WORD $0x5b0f; BYTE $0xd0     // cvtdq2ps    xmm2, xmm0
-	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
-	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
-	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
-	LONG $0x3055570f             // xorps    xmm2, oword 48[rbp] /* [rip + .LCPI4_4] */
-	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
-	WORD $0x540f; BYTE $0xca     // andps    xmm1, xmm2
-	LONG $0x0c110f41; BYTE $0xb0 // movups    oword [r8 + 4*rsi], xmm1
-
-LBB4_1132:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1133:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_1135
-
-LBB4_1134:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1135:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JE   LBB4_1134
-	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
-	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
-	JMP  LBB4_1134
-
-LBB4_1137:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1138:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1140
-	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
-
-LBB4_1140:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1141:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1141
-	JMP  LBB4_1655
-
-LBB4_1142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1143:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1145
-	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
-
-LBB4_1145:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1146:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1146
-	JMP  LBB4_1655
-
-LBB4_1147:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1148:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1150
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc2280f66                           // movapd    xmm0, xmm2
-	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb280f66                           // movapd    xmm1, xmm3
-	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd5540f66                           // andpd    xmm2, xmm5
-	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd6560f66                           // orpd    xmm2, xmm6
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xde560f66                           // orpd    xmm3, xmm6
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
-	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
-	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
-	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
-
-LBB4_1150:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1151:
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1152:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1152
-	JMP  LBB4_1655
-
-LBB4_1153:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1154:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1156
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc2280f66                           // movapd    xmm0, xmm2
-	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb280f66                           // movapd    xmm1, xmm3
-	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd5540f66                           // andpd    xmm2, xmm5
-	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd6560f66                           // orpd    xmm2, xmm6
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xde560f66                           // orpd    xmm3, xmm6
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
-	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
-	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
-	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
-
-LBB4_1156:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1157:
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1158:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1158
-	JMP  LBB4_1655
-
-LBB4_1159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1160:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1162
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
-
-LBB4_1162:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1163:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1164:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1164
-	JMP  LBB4_1655
-
-LBB4_1165:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1166:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1168
-	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
-	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
-	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
-
-LBB4_1168:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1169:
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-
-LBB4_1170:
-	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xca7e0f66             // movd    edx, xmm1
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xd285                 // test    edx, edx
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1170
-	JMP  LBB4_1655
-
-LBB4_1171:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1172:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1174
-	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
-	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
-	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
-
-LBB4_1174:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1175:
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-
-LBB4_1176:
-	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xca7e0f66             // movd    edx, xmm1
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xd285                 // test    edx, edx
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1176
-	JMP  LBB4_1655
-
-LBB4_1177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1178:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1180
-	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
-	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1180:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1181:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_1181
-	JMP  LBB4_1655
-
-LBB4_1182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1183:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1185
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1185:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1186:
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1188
-
-LBB4_1187:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1188:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
-	JNE  LBB4_1187
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1187
-
-LBB4_1190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1191:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1193
-	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0280f66                           // movapd    xmm4, xmm0
-	LONG $0xe3540f66                           // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xe5560f66                           // orpd    xmm4, xmm5
-	LONG $0xd9540f66                           // andpd    xmm3, xmm1
-	LONG $0xdd560f66                           // orpd    xmm3, xmm5
-	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
-	LONG $0x6e0f4866; BYTE $0xef               // movq    xmm5, rdi
-	LONG $0xe4700f66; BYTE $0xee               // pshufd    xmm4, xmm4, 238
-	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
-	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
-	LONG $0xec6c0f66                           // punpcklqdq    xmm5, xmm4
-	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
-	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
-	LONG $0xdb700f66; BYTE $0xee               // pshufd    xmm3, xmm3, 238
-	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
-	LONG $0x6e0f4866; BYTE $0xdf               // movq    xmm3, rdi
-	LONG $0xe36c0f66                           // punpcklqdq    xmm4, xmm3
-	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
-	LONG $0xc5540f66                           // andpd    xmm0, xmm5
-	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
-	LONG $0xcc540f66                           // andpd    xmm1, xmm4
-	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
-	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1193:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1194:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1195:
-	LONG $0x1c100ff2; BYTE $0xd1 // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xfb // cvttsd2si    rdi, xmm3
-	LONG $0xfe440f48             // cmove    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1195
-	JMP  LBB4_1655
-
-LBB4_1196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1197:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1199
-	LONG $0x14100f66; BYTE $0xf1               // movupd    xmm2, oword [rcx + 8*rsi]
-	LONG $0x100f4466; WORD $0xf144; BYTE $0x10 // movupd    xmm8, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0xda5a0ff2                           // cvtsd2ss    xmm3, xmm2
-	LONG $0xd0c20f66; BYTE $0x00               // cmpeqpd    xmm2, xmm0
-	LONG $0xe8d2c60f                           // shufps    xmm2, xmm2, 232
-	LONG $0x655a0f66; BYTE $0x10               // cvtpd2ps    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc20f4166; WORD $0x00c0             // cmpeqpd    xmm0, xmm8
-	LONG $0x6c100ff2; WORD $0x08f1             // movsd    xmm5, qword [rcx + 8*rsi + 8]
-	LONG $0xed5a0ff2                           // cvtsd2ss    xmm5, xmm5
-	LONG $0xe8c0c60f                           // shufps    xmm0, xmm0, 232
-	LONG $0x2075280f                           // movaps    xmm6, oword 32[rbp] /* [rip + .LCPI4_3] */
-	WORD $0x280f; BYTE $0xfe                   // movaps    xmm7, xmm6
-	WORD $0x550f; BYTE $0xfd                   // andnps    xmm7, xmm5
-	LONG $0xec160ff3                           // movshdup    xmm5, xmm4
-	WORD $0x540f; BYTE $0xee                   // andps    xmm5, xmm6
-	WORD $0x560f; BYTE $0xfd                   // orps    xmm7, xmm5
-	WORD $0x280f; BYTE $0xce                   // movaps    xmm1, xmm6
-	WORD $0x550f; BYTE $0xcb                   // andnps    xmm1, xmm3
-	WORD $0x540f; BYTE $0xe6                   // andps    xmm4, xmm6
-	WORD $0x560f; BYTE $0xcc                   // orps    xmm1, xmm4
-	WORD $0x140f; BYTE $0xcf                   // unpcklps    xmm1, xmm7
-	WORD $0x550f; BYTE $0xd1                   // andnps    xmm2, xmm1
-	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
-	LONG $0xc95a0ff2                           // cvtsd2ss    xmm1, xmm1
-	WORD $0x280f; BYTE $0xde                   // movaps    xmm3, xmm6
-	WORD $0x550f; BYTE $0xd9                   // andnps    xmm3, xmm1
-	WORD $0x560f; BYTE $0xdd                   // orps    xmm3, xmm5
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x5a0f41f2; BYTE $0xc8               // cvtsd2ss    xmm1, xmm8
-	WORD $0x550f; BYTE $0xf1                   // andnps    xmm6, xmm1
-	WORD $0x560f; BYTE $0xf4                   // orps    xmm6, xmm4
-	WORD $0x140f; BYTE $0xf3                   // unpcklps    xmm6, xmm3
-	WORD $0x550f; BYTE $0xc6                   // andnps    xmm0, xmm6
-	WORD $0x160f; BYTE $0xd0                   // movlhps    xmm2, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1199:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1200:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	LONG $0x304d280f         // movaps    xmm1, oword 48[rbp] /* [rip + .LCPI4_4] */
-	QUAD $0x0000012895100ff3 // movss    xmm2, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1202
-
-LBB4_1201:
-	LONG $0x110f41f3; WORD $0x901c // movss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1202:
-	LONG $0x24100ff2; BYTE $0xd1 // movsd    xmm4, qword [rcx + 8*rdx]
-	LONG $0xc42e0f66             // ucomisd    xmm0, xmm4
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	JE   LBB4_1201
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	LONG $0xdc5a0ff2             // cvtsd2ss    xmm3, xmm4
-	WORD $0x540f; BYTE $0xd9     // andps    xmm3, xmm1
-	WORD $0x560f; BYTE $0xda     // orps    xmm3, xmm2
-	JMP  LBB4_1201
-
-LBB4_1204:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1205:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1207
-	LONG $0x047e0ff3; BYTE $0x71   // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871 // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0   // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9   // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
-	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
-	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1207:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1208:
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1210
-
-LBB4_1209:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1210:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	JNE  LBB4_1209
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	JMP  LBB4_1209
-
-LBB4_1212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1213:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1215
-	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
-	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1215:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1216:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1217:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1217
-	JMP  LBB4_1655
-
-LBB4_1218:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1219:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1221
-	LONG $0x147e0ff3; BYTE $0x71               // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871             // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0               // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9               // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2               // pmovsxwd    xmm2, xmm2
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb               // pmovsxwd    xmm3, xmm3
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1221:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1222:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1224
-
-LBB4_1223:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1224:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	JNE  LBB4_1226
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-
-LBB4_1226:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1223
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1223
-
-LBB4_1104:
-	WORD $0x500f; BYTE $0xc8     // movmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01     // and    ecx, 1
-	WORD $0xd9f7                 // neg    ecx
-	WORD $0xc983; BYTE $0x01     // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
-	LONG $0x2c0f48f3; BYTE $0xc8 // cvttss2si    rcx, xmm0
-
-LBB4_1105:
-	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
-
-LBB4_1655:
-	RET
-
-LBB4_1228:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1229:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1231
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1231:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1232
-
-LBB4_1236:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1237:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1239
-	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
-	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1239:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1240
-
-LBB4_1245:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1246:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1248
-	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1248:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1249
-
-LBB4_1253:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1254:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1256
-	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
-	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-
-LBB4_1256:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1257
-
-LBB4_1262:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1263:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1265
-	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0280f66                           // movapd    xmm4, xmm0
-	LONG $0xe3540f66                           // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xe5560f66                           // orpd    xmm4, xmm5
-	LONG $0xd9540f66                           // andpd    xmm3, xmm1
-	LONG $0xdd560f66                           // orpd    xmm3, xmm5
-	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
-	LONG $0xc4540f66                           // andpd    xmm0, xmm4
-	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
-	LONG $0xcb540f66                           // andpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
-	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1265:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1266
-
-LBB4_1271:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1272:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1274
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
-
-LBB4_1274:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1275
-
-LBB4_1279:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1280:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1282
-	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
-	LONG $0xc3280f66                     // movapd    xmm0, xmm3
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcc280f66                     // movapd    xmm1, xmm4
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdd540f66                     // andpd    xmm3, xmm5
-	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xde560f66                     // orpd    xmm3, xmm6
-	LONG $0xe5540f66                     // andpd    xmm4, xmm5
-	LONG $0xe6560f66                     // orpd    xmm4, xmm6
-	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
-	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
-	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
-	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
-	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-
-LBB4_1282:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1283
-
-LBB4_1288:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1289:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1291
-	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB4_1291:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1292
-
-LBB4_1297:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1298:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1300
-	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc4db0f66                     // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
-	LONG $0xccdb0f66                     // pand    xmm1, xmm4
-	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
-
-LBB4_1300:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1301
-
-LBB4_1305:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1306:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1308
-	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
-
-LBB4_1308:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1309
-
-LBB4_1313:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1314:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1316
-	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd2630f66               // packsswb    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb630f66               // packsswb    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
-
-LBB4_1316:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1317
-
-LBB4_1322:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1323:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1325
-	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
-	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                     // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
-	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
-	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
-
-LBB4_1325:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1326
-
-LBB4_1331:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1332:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1334
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-
-LBB4_1334:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1335
-
-LBB4_1340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1341:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1343
-	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
-	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
-
-LBB4_1343:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1344
-
-LBB4_1348:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1349:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1351
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
-	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
-
-LBB4_1351:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1352
-
-LBB4_1357:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1358:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1360
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1360:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1361
-
-LBB4_1366:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1367:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1369
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1369:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1370
-
-LBB4_1374:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1375:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1377
-	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
-	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-
-LBB4_1377:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1378
-
-LBB4_1383:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1384:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1386
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1386:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1387
-
-LBB4_1391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1392:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1394
-	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
-	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-
-LBB4_1394:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1395
-
-LBB4_1400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1401:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1403
-	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
-	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-
-LBB4_1403:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1404
-
-LBB4_1409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1410:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1412
-	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1412:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1413
-
-LBB4_1417:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1418:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1420
-	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1420:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1421
-
-LBB4_1425:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1426:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1428
-	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
-	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-
-LBB4_1428:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1429
-
-LBB4_1434:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1435:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1437
-	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
-	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-
-LBB4_1437:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1438
-
-LBB4_1443:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1444:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1446
-	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
-	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1446:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1447
-
-LBB4_1451:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1452:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1454
-	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
-	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1454:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1455
-
-LBB4_1459:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1460:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1462
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1462:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1463
-
-LBB4_1468:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1469:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1471
-	LONG $0x146e0f66; BYTE $0x31               // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431             // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0               // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9               // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2               // pmovsxbd    xmm2, xmm2
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb               // pmovsxbd    xmm3, xmm3
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1471:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1472
-
-LBB4_1490:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1491:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1493
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1493:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1494
-
-LBB4_1498:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1499:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1501
-	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
-	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-
-LBB4_1501:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1502
-
-LBB4_1507:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1508:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1510
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1510:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1511
-
-LBB4_1515:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1516:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1518
-	LONG $0x046e0f66; BYTE $0x31   // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431 // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0   // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
-	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9   // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
-	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
-	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1518:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1519
-
-LBB4_1535:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1536:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1538
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
-
-LBB4_1538:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1539
-
-LBB4_1543:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1544:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1546
-	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
-	LONG $0xc3280f66                     // movapd    xmm0, xmm3
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcc280f66                     // movapd    xmm1, xmm4
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdd540f66                     // andpd    xmm3, xmm5
-	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xde560f66                     // orpd    xmm3, xmm6
-	LONG $0xe5540f66                     // andpd    xmm4, xmm5
-	LONG $0xe6560f66                     // orpd    xmm4, xmm6
-	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
-	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
-	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
-	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
-	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-
-LBB4_1546:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1547
-
-LBB4_1552:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1553:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1555
-	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB4_1555:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1556
-
-LBB4_1561:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1562:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1564
-	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc4db0f66                     // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
-	LONG $0xccdb0f66                     // pand    xmm1, xmm4
-	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
-
-LBB4_1564:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1565
-
-LBB4_1569:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1570:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1572
-	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
-
-LBB4_1572:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1573
-
-LBB4_1577:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1578:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1580
-	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd2630f66               // packsswb    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb630f66               // packsswb    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
-
-LBB4_1580:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1581
-
-LBB4_1586:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1587:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1589
-	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
-	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                     // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
-	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
-	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
-
-LBB4_1589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1590
-
-LBB4_1595:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1596:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1598
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-
-LBB4_1598:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1599
-
-LBB4_1604:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1605:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1607
-	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
-	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
-
-LBB4_1607:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1608
-
-LBB4_1612:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1613:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1615
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
-	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
-
-LBB4_1615:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1616
-
-LBB4_1621:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1624
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1624:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1625
-
-LBB4_1629:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1630:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1632
-	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
-	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1632:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1633
-
-LBB4_1638:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1639:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1641
-	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1641:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1642
-
-LBB4_1646:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1647:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1649
-	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
-	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-
-LBB4_1649:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1650
diff --git a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
deleted file mode 100644
index 36619106c93cf..0000000000000
--- a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && (noasm || !amd64)
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"golang.org/x/exp/constraints"
-)
-
-func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	return getGoArithmeticOpFloating[InT, OutT](op)
-}
-
-func getArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	return getGoArithmeticOpIntegral[InT, OutT](op)
-}
diff --git a/go/arrow/compute/internal/kernels/boolean_cast.go b/go/arrow/compute/internal/kernels/boolean_cast.go
deleted file mode 100644
index 66a49f2be0294..0000000000000
--- a/go/arrow/compute/internal/kernels/boolean_cast.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-func isNonZero[T arrow.FixedWidthType](ctx *exec.KernelCtx, in []T, out []byte) error {
-	var zero T
-	for i, v := range in {
-		bitutil.SetBitTo(out, i, v != zero)
-	}
-	return nil
-}
-
-// GetBooleanCastKernels returns the slice of scalar kernels for casting
-// values *to* a boolean type.
-func GetBooleanCastKernels() []exec.ScalarKernel {
-	kernels := GetCommonCastKernels(arrow.BOOL, exec.NewOutputType(arrow.FixedWidthTypes.Boolean))
-	kernels = append(kernels, GetZeroCastKernel(arrow.BOOL,
-		exec.NewExactInput(arrow.FixedWidthTypes.Boolean), exec.NewOutputType(arrow.FixedWidthTypes.Boolean)))
-
-	out := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
-	for _, ty := range numericTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.INT8:
-			ex = ScalarUnaryBoolOutput(isNonZero[int8])
-		case arrow.UINT8:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint8])
-		case arrow.INT16:
-			ex = ScalarUnaryBoolOutput(isNonZero[int16])
-		case arrow.UINT16:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint16])
-		case arrow.INT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[int32])
-		case arrow.UINT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint32])
-		case arrow.INT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[int64])
-		case arrow.UINT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint64])
-		case arrow.FLOAT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[float32])
-		case arrow.FLOAT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[float64])
-		}
-		k := exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
-		k.NullHandling = exec.NullIntersection
-		k.MemAlloc = exec.MemPrealloc
-		kernels = append(kernels, k)
-	}
-
-	for _, ty := range baseBinaryTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.BINARY, arrow.STRING:
-			ex = ScalarUnaryNotNullBinaryArgBoolOut[int32](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
-				v := *(*string)(unsafe.Pointer(&b))
-				o, e := strconv.ParseBool(v)
-				if e != nil {
-					*err = e
-				}
-				return o
-			})
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			ex = ScalarUnaryNotNullBinaryArgBoolOut[int64](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
-				v := *(*string)(unsafe.Pointer(&b))
-				o, e := strconv.ParseBool(v)
-				if e != nil {
-					*err = e
-				}
-				return o
-			})
-		}
-		k := exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
-		k.NullHandling = exec.NullIntersection
-		k.MemAlloc = exec.MemPrealloc
-		kernels = append(kernels, k)
-	}
-
-	return kernels
-}
diff --git a/go/arrow/compute/internal/kernels/cast.go b/go/arrow/compute/internal/kernels/cast.go
deleted file mode 100644
index 8603d3ad1891f..0000000000000
--- a/go/arrow/compute/internal/kernels/cast.go
+++ /dev/null
@@ -1,116 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-type CastOptions struct {
-	ToType               arrow.DataType `compute:"to_type"`
-	AllowIntOverflow     bool           `compute:"allow_int_overflow"`
-	AllowTimeTruncate    bool           `compute:"allow_time_truncate"`
-	AllowTimeOverflow    bool           `compute:"allow_time_overflow"`
-	AllowDecimalTruncate bool           `compute:"allow_decimal_truncate"`
-	AllowFloatTruncate   bool           `compute:"allow_float_truncate"`
-	AllowInvalidUtf8     bool           `compute:"allow_invalid_utf8"`
-}
-
-func (CastOptions) TypeName() string { return "CastOptions" }
-
-// CastState is the kernel state for Cast functions, it is an alias to
-// the CastOptions object.
-type CastState = CastOptions
-
-// ZeroCopyCastExec is a kernel for performing a cast which can be executed
-// as a zero-copy operation. It simply forwards the buffers to the output.
-//
-// This can be used for casting a type to itself, or for casts between
-// equivalent representations such as Int32 and Date32.
-func ZeroCopyCastExec(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	out.Release()
-	dt := out.Type
-	*out = batch.Values[0].Array
-	out.Type = dt
-	return nil
-}
-
-func recursiveSetSelfAlloc(arr *exec.ArraySpan) {
-	for i := range arr.Buffers {
-		if len(arr.Buffers[i].Buf) > 0 {
-			arr.Buffers[i].SelfAlloc = true
-			if arr.Buffers[i].Owner != nil {
-				arr.Buffers[i].Owner.Retain()
-			}
-		}
-	}
-
-	for i := range arr.Children {
-		recursiveSetSelfAlloc(&arr.Children[i])
-	}
-}
-
-// CastFromNull is a simple kernel for constructing an array of null values
-// for the requested data type, allowing casting of an arrow.Null typed value
-// to any other arbitrary data type.
-func CastFromNull(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	arr := array.MakeArrayOfNull(exec.GetAllocator(ctx.Ctx), out.Type, int(batch.Len))
-	defer arr.Release()
-
-	out.SetMembers(arr.Data())
-	recursiveSetSelfAlloc(out)
-	return nil
-}
-
-// OutputAllNull is a simple kernel that initializes the output as an array
-// whose output is all null by setting nulls to the length.
-func OutputAllNull(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	out.Nulls = batch.Len
-	return nil
-}
-
-func CanCastFromDict(id arrow.Type) bool {
-	return arrow.IsPrimitive(id) || arrow.IsBaseBinary(id) || arrow.IsFixedSizeBinary(id)
-}
-
-// GetZeroCastKernel returns a kernel for performing ZeroCast execution using
-// the ZeroCopyCastExec kernel function.
-func GetZeroCastKernel(inID arrow.Type, inType exec.InputType, out exec.OutputType) exec.ScalarKernel {
-	k := exec.NewScalarKernel([]exec.InputType{inType}, out, ZeroCopyCastExec, nil)
-	k.NullHandling = exec.NullComputedNoPrealloc
-	k.MemAlloc = exec.MemNoPrealloc
-	return k
-}
-
-// GetCommonCastKernels returns the list of kernels common to all types
-// such as casting from null or from Extension types of the appropriate
-// underlying type.
-func GetCommonCastKernels(outID arrow.Type, outType exec.OutputType) (out []exec.ScalarKernel) {
-	out = make([]exec.ScalarKernel, 0, 2)
-
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.Null)}, outType,
-		CastFromNull, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	kernel.MemAlloc = exec.MemNoPrealloc
-	out = append(out, kernel)
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric.go b/go/arrow/compute/internal/kernels/cast_numeric.go
deleted file mode 100644
index 41ad94d83e68b..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-var castNumericUnsafe func(itype, otype arrow.Type, in, out []byte, len int) = castNumericGo
-
-func DoStaticCast[InT, OutT numeric](in []InT, out []OutT) {
-	for i, v := range in {
-		out[i] = OutT(v)
-	}
-}
-
-func reinterpret[T numeric](b []byte, len int) (res []T) {
-	return unsafe.Slice((*T)(unsafe.Pointer(&b[0])), len)
-}
-
-func castNumberToNumberUnsafeImpl[T numeric](outT arrow.Type, in []T, out []byte) {
-	switch outT {
-	case arrow.INT8:
-		DoStaticCast(in, reinterpret[int8](out, len(in)))
-	case arrow.UINT8:
-		DoStaticCast(in, reinterpret[uint8](out, len(in)))
-	case arrow.INT16:
-		DoStaticCast(in, reinterpret[int16](out, len(in)))
-	case arrow.UINT16:
-		DoStaticCast(in, reinterpret[uint16](out, len(in)))
-	case arrow.INT32:
-		DoStaticCast(in, reinterpret[int32](out, len(in)))
-	case arrow.UINT32:
-		DoStaticCast(in, reinterpret[uint32](out, len(in)))
-	case arrow.INT64:
-		DoStaticCast(in, reinterpret[int64](out, len(in)))
-	case arrow.UINT64:
-		DoStaticCast(in, reinterpret[uint64](out, len(in)))
-	case arrow.FLOAT32:
-		DoStaticCast(in, reinterpret[float32](out, len(in)))
-	case arrow.FLOAT64:
-		DoStaticCast(in, reinterpret[float64](out, len(in)))
-	}
-}
-
-func castNumericGo(itype, otype arrow.Type, in, out []byte, len int) {
-	switch itype {
-	case arrow.INT8:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int8](in, len), out)
-	case arrow.UINT8:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint8](in, len), out)
-	case arrow.INT16:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int16](in, len), out)
-	case arrow.UINT16:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint16](in, len), out)
-	case arrow.INT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int32](in, len), out)
-	case arrow.UINT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint32](in, len), out)
-	case arrow.INT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int64](in, len), out)
-	case arrow.UINT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint64](in, len), out)
-	case arrow.FLOAT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[float32](in, len), out)
-	case arrow.FLOAT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[float64](in, len), out)
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
deleted file mode 100644
index 68ef28a97f8fd..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		castNumericUnsafe = castNumericAvx2
-	} else if cpu.X86.HasSSE42 {
-		castNumericUnsafe = castNumericSSE4
-	} else {
-		castNumericUnsafe = castNumericGo
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
deleted file mode 100644
index 925b4328002d0..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _cast_type_numeric_avx2(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericAvx2(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_avx2(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
deleted file mode 100644
index ffedf7a4f5f3a..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
+++ /dev/null
@@ -1,11545 +0,0 @@
-//go:build !noasm && !appengine && go1.18
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x018(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x020(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x028(SB)/8, $0x4f0000005f000000
-DATA LCDATA1<>+0x030(SB)/8, $0x4b00000080000000
-DATA LCDATA1<>+0x038(SB)/8, $0x5300008053000000
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
-DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x050(SB)/8, $0x4530000043300000
-DATA LCDATA1<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x060(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x070(SB)/8, $0x000000000c080400
-DATA LCDATA1<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x080(SB)/8, $0x0d0c090805040100
-DATA LCDATA1<>+0x088(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA1<>+0x090(SB)/8, $0x1d1c191815141110
-DATA LCDATA1<>+0x098(SB)/8, $0x1f1e1d1c1d1c1918
-DATA LCDATA1<>+0x0a0(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0a8(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0b0(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0b8(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $192
-
-TEXT ·_cast_type_numeric_avx2(SB), $0-40
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ in+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_45
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_53
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_93
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_163
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_263
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_266
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_12
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_742
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_742
-
-LBB0_12:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1189:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1191
-
-LBB0_1190:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1190
-
-LBB0_1191:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1192:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1192
-	JMP  LBB0_1553
-
-LBB0_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_61
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_69
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_100
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_168
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_269
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_272
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_446
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_448
-
-LBB0_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_77
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_107
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_173
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_275
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_278
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_34
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_745
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_745
-
-LBB0_34:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1197:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1199
-
-LBB0_1198:
-	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1198
-
-LBB0_1199:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1200:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1200
-	JMP  LBB0_1553
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_114
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_178
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_281
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_284
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_454
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_918
-
-LBB0_45:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_121
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_183
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_287
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_290
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_457
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1024
-
-LBB0_53:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_128
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_188
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_293
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_296
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_460
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1029
-
-LBB0_61:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_193
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_299
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_302
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_463
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1034
-
-LBB0_69:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_142
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_198
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_305
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_308
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_466
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1039
-
-LBB0_77:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_149
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_203
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_311
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_314
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_84
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_748
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_748
-
-LBB0_84:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1205:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1207
-
-LBB0_1206:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1206
-
-LBB0_1207:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1208:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1208
-	JMP  LBB0_1553
-
-LBB0_85:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_156
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_208
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_317
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_320
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_92
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_751
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_751
-
-LBB0_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1213:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1215
-
-LBB0_1214:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1214
-
-LBB0_1215:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1216:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1216
-	JMP  LBB0_1553
-
-LBB0_93:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_213
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_323
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_326
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_475
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1044
-
-LBB0_100:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_218
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_329
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_332
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_106
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_754
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_754
-
-LBB0_106:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1221:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1223
-
-LBB0_1222:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c8948 // mov    qword [rcx + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1222
-
-LBB0_1223:
-	LONG $0x07f88348 // cmp    rax, 7
-	JB   LBB0_1553
-
-LBB0_1224:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
-	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
-	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
-	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
-	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
-	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
-	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
-	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1224
-	JMP  LBB0_1553
-
-LBB0_107:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_223
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_335
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_338
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_113
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_757
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_757
-
-LBB0_113:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1229:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1231
-
-LBB0_1230:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1230
-
-LBB0_1231:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1232:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1232
-	JMP  LBB0_1553
-
-LBB0_114:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_228
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_341
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_344
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_484
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_923
-
-LBB0_121:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_233
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_347
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_350
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_487
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1049
-
-LBB0_128:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_238
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_353
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_356
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_490
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1054
-
-LBB0_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_243
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_359
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_362
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_493
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1059
-
-LBB0_142:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_248
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_365
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_368
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_496
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1064
-
-LBB0_149:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_253
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_371
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_374
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_155
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_760
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_760
-
-LBB0_155:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1237:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1239
-
-LBB0_1238:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1238
-
-LBB0_1239:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1240:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1240
-	JMP  LBB0_1553
-
-LBB0_156:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_258
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_377
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_380
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_502
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_929
-
-LBB0_163:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_383
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_167
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_763
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_763
-
-LBB0_167:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1245:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1247
-
-LBB0_1246:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1246
-
-LBB0_1247:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1248:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1248
-	JMP  LBB0_1553
-
-LBB0_168:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_386
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_172
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_766
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_766
-
-LBB0_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1253:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1255
-
-LBB0_1254:
-	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
-	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1254
-
-LBB0_1255:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1553
-
-LBB0_1256:
-	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1256
-	JMP  LBB0_1553
-
-LBB0_173:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB0_389
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_177
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_769
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_769
-
-LBB0_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1261:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1263
-
-LBB0_1262:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1262
-
-LBB0_1263:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1264:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1264
-	JMP  LBB0_1553
-
-LBB0_178:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_392
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_182
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_772
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_772
-
-LBB0_182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1269:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1271
-
-LBB0_1270:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1270
-
-LBB0_1271:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1272:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1272
-	JMP  LBB0_1553
-
-LBB0_183:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_395
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_187
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_775
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_775
-
-LBB0_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1277:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1279
-
-LBB0_1278:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1278
-
-LBB0_1279:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1280:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1280
-	JMP  LBB0_1553
-
-LBB0_188:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_398
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_192
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_778
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_778
-
-LBB0_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1285:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1287
-
-LBB0_1286:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1286
-
-LBB0_1287:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1288:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1288
-	JMP  LBB0_1553
-
-LBB0_193:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_401
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_197
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_781
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_781
-
-LBB0_197:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1293:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1295
-
-LBB0_1294:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1294
-
-LBB0_1295:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1296:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1296
-	JMP  LBB0_1553
-
-LBB0_198:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_404
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_202
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_784
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_784
-
-LBB0_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1301:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1303
-
-LBB0_1302:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1302
-
-LBB0_1303:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1304:
-	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1304
-	JMP  LBB0_1553
-
-LBB0_203:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB0_407
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_207
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_787
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_787
-
-LBB0_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1309:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1311
-
-LBB0_1310:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1310
-
-LBB0_1311:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1312:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1312
-	JMP  LBB0_1553
-
-LBB0_208:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_410
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_212
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_790
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_790
-
-LBB0_212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1317:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1319
-
-LBB0_1318:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1318
-
-LBB0_1319:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1320:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1320
-	JMP  LBB0_1553
-
-LBB0_213:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_413
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_535
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_934
-
-LBB0_218:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB0_416
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x04f88341                       // cmp    r8d, 4
-	JAE  LBB0_538
-	WORD $0x3145; BYTE $0xf6               // xor    r14d, r14d
-	JMP  LBB0_799
-
-LBB0_223:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_419
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_227
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_801
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_801
-
-LBB0_227:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1325:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1327
-
-LBB0_1326:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1326
-
-LBB0_1327:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1328:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1328
-	JMP  LBB0_1553
-
-LBB0_228:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_422
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_232
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_804
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_804
-
-LBB0_232:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1333:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1335
-
-LBB0_1334:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1334
-
-LBB0_1335:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1336:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1336
-	JMP  LBB0_1553
-
-LBB0_233:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_425
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_546
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_939
-
-LBB0_238:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_428
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_549
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_944
-
-LBB0_243:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_431
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_247
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_807
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_807
-
-LBB0_247:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1341:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1343
-
-LBB0_1342:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1342
-
-LBB0_1343:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1344:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1344
-	JMP  LBB0_1553
-
-LBB0_248:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_434
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_555
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB0_816
-
-LBB0_253:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_437
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_257
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_818
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_818
-
-LBB0_257:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1349:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1351
-
-LBB0_1350:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1350
-
-LBB0_1351:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1352:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1352
-	JMP  LBB0_1553
-
-LBB0_258:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_440
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_560
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_949
-
-LBB0_263:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_563
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1069
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_566
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1074
-
-LBB0_269:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_569
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1079
-
-LBB0_272:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_572
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1084
-
-LBB0_275:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_277
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_821
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_821
-
-LBB0_277:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1357:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1359
-
-LBB0_1358:
-	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1358
-
-LBB0_1359:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1360:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1360
-	JMP  LBB0_1553
-
-LBB0_278:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_280
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_824
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_824
-
-LBB0_280:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1365:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1367
-
-LBB0_1366:
-	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1366
-
-LBB0_1367:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1368:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1368
-	JMP  LBB0_1553
-
-LBB0_281:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_581
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_954
-
-LBB0_284:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_584
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_959
-
-LBB0_287:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_289
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_827
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_827
-
-LBB0_289:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1151:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1153
-
-LBB0_1152:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1152
-
-LBB0_1153:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1154:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1154
-	JMP  LBB0_1553
-
-LBB0_290:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_292
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_829
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_829
-
-LBB0_292:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1161:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1163
-
-LBB0_1162:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1162
-
-LBB0_1163:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1164:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1164
-	JMP  LBB0_1553
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_295
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_831
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_831
-
-LBB0_295:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1171:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1173
-
-LBB0_1172:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1172
-
-LBB0_1173:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1174:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1174
-	JMP  LBB0_1553
-
-LBB0_296:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_298
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_833
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_833
-
-LBB0_298:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1181:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1183
-
-LBB0_1182:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1182
-
-LBB0_1183:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1184:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1184
-	JMP  LBB0_1553
-
-LBB0_299:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_599
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_964
-
-LBB0_302:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_602
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1089
-
-LBB0_305:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_605
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1094
-
-LBB0_308:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_608
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1099
-
-LBB0_311:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_313
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_835
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_835
-
-LBB0_313:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1373:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1375
-
-LBB0_1374:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1374
-
-LBB0_1375:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1376:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1376
-	JMP  LBB0_1553
-
-LBB0_314:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_316
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_838
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_838
-
-LBB0_316:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1381:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1383
-
-LBB0_1382:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1382
-
-LBB0_1383:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1384:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1384
-	JMP  LBB0_1553
-
-LBB0_317:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_617
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_969
-
-LBB0_320:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_620
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_974
-
-LBB0_323:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_623
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1104
-
-LBB0_326:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1109
-
-LBB0_329:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_629
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1114
-
-LBB0_332:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_632
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1119
-
-LBB0_335:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_337
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_841
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_841
-
-LBB0_337:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1389:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1391
-
-LBB0_1390:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1390
-
-LBB0_1391:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1392:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1392
-	JMP  LBB0_1553
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_340
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_844
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_844
-
-LBB0_340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1397:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1399
-
-LBB0_1398:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1398
-
-LBB0_1399:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1400:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1400
-	JMP  LBB0_1553
-
-LBB0_341:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_343
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_847
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_847
-
-LBB0_343:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1405:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1407
-
-LBB0_1406:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1406
-
-LBB0_1407:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1408:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1408
-	JMP  LBB0_1553
-
-LBB0_344:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_644
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_858
-
-LBB0_347:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_646
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_979
-
-LBB0_350:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_649
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1124
-
-LBB0_353:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_652
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1129
-
-LBB0_356:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_655
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1134
-
-LBB0_359:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_361
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_860
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_860
-
-LBB0_361:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1413:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1415
-
-LBB0_1414:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1414
-
-LBB0_1415:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1416:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1416
-	JMP  LBB0_1553
-
-LBB0_362:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_661
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1139
-
-LBB0_365:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_664
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1144
-
-LBB0_368:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_370
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_863
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_863
-
-LBB0_370:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1421:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1423
-
-LBB0_1422:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1422
-
-LBB0_1423:
-	LONG $0x07f88348 // cmp    rax, 7
-	JB   LBB0_1553
-
-LBB0_1424:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
-	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
-	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
-	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
-	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
-	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
-	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
-	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1424
-	JMP  LBB0_1553
-
-LBB0_371:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_373
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_866
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_866
-
-LBB0_373:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1429:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1431
-
-LBB0_1430:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1430
-
-LBB0_1431:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1432:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1432
-	JMP  LBB0_1553
-
-LBB0_374:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_376
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_869
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_869
-
-LBB0_376:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1437:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1439
-
-LBB0_1438:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1438
-
-LBB0_1439:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1440:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1440
-	JMP  LBB0_1553
-
-LBB0_377:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_676
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_984
-
-LBB0_380:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_679
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_989
-
-LBB0_383:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_385
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_872
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_872
-
-LBB0_385:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1445:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1447
-
-LBB0_1446:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1446
-
-LBB0_1447:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1448:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1448
-	JMP  LBB0_1553
-
-LBB0_386:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_388
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_875
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_875
-
-LBB0_388:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1453:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1455
-
-LBB0_1454:
-	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
-	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1454
-
-LBB0_1455:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1553
-
-LBB0_1456:
-	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1456
-	JMP  LBB0_1553
-
-LBB0_389:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_391
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_878
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_878
-
-LBB0_391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1461:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1463
-
-LBB0_1462:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1462
-
-LBB0_1463:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1464:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1464
-	JMP  LBB0_1553
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_394
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_881
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_881
-
-LBB0_394:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1469:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1471
-
-LBB0_1470:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1470
-
-LBB0_1471:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1472:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1472
-	JMP  LBB0_1553
-
-LBB0_395:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_397
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_884
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_884
-
-LBB0_397:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1477:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1479
-
-LBB0_1478:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1478
-
-LBB0_1479:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1480:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1480
-	JMP  LBB0_1553
-
-LBB0_398:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_400
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_887
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_887
-
-LBB0_400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1485:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1487
-
-LBB0_1486:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1486
-
-LBB0_1487:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1488:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1488
-	JMP  LBB0_1553
-
-LBB0_401:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_403
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_890
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_890
-
-LBB0_403:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1493:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1495
-
-LBB0_1494:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1494
-
-LBB0_1495:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1496:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1496
-	JMP  LBB0_1553
-
-LBB0_404:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_406
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_893
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_893
-
-LBB0_406:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1501:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1503
-
-LBB0_1502:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1502
-
-LBB0_1503:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1504:
-	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1504
-	JMP  LBB0_1553
-
-LBB0_407:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_409
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_896
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_896
-
-LBB0_409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1509:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1511
-
-LBB0_1510:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1510
-
-LBB0_1511:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1512:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1512
-	JMP  LBB0_1553
-
-LBB0_410:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_412
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_899
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_899
-
-LBB0_412:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1517:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1519
-
-LBB0_1518:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1518
-
-LBB0_1519:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1520:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1520
-	JMP  LBB0_1553
-
-LBB0_413:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_415
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_902
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_902
-
-LBB0_415:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1525:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1527
-
-LBB0_1526:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1526
-
-LBB0_1527:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1528:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1528
-	JMP  LBB0_1553
-
-LBB0_416:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_715
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_994
-
-LBB0_419:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_421
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_905
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_905
-
-LBB0_421:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1533:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1535
-
-LBB0_1534:
-	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1534
-
-LBB0_1535:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1536:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1536
-	JMP  LBB0_1553
-
-LBB0_422:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_721
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_999
-
-LBB0_425:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_724
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1004
-
-LBB0_428:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_727
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1009
-
-LBB0_431:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_730
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1014
-
-LBB0_434:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_733
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1019
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_439
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_908
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_908
-
-LBB0_439:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1541:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1543
-
-LBB0_1542:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1542
-
-LBB0_1543:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1544:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1544
-	JMP  LBB0_1553
-
-LBB0_440:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_442
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_911
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_911
-
-LBB0_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1549:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1551
-
-LBB0_1550:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1550
-
-LBB0_1551:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1552:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1552
-	JMP  LBB0_1553
-
-LBB0_446:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_447:
-	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
-	WORD $0x1c89; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
-	LONG $0x04b95c89                           // mov    dword [rcx + 4*rdi + 4], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x10 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 16]
-	LONG $0x08b95c89                           // mov    dword [rcx + 4*rdi + 8], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
-	LONG $0x0cb95c89                           // mov    dword [rcx + 4*rdi + 12], ebx
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_447
-
-LBB0_448:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1553
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_450:
-	LONG $0x2cfbe1c4; WORD $0xf23c // vcvttsd2si    rdi, qword [rdx + 8*rsi]
-	WORD $0x3c89; BYTE $0xb1       // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_450
-	JMP  LBB0_1553
-
-LBB0_454:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_914
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_456:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_456
-	JMP  LBB0_915
-
-LBB0_457:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1020
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_459:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_459
-	JMP  LBB0_1021
-
-LBB0_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1025
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_462:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_462
-	JMP  LBB0_1026
-
-LBB0_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1030
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_465:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_465
-	JMP  LBB0_1031
-
-LBB0_466:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1035
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x1879e2c4; WORD $0x2c45 // vbroadcastss    xmm0, dword 44[rbp] /* [rip + .LCPI0_2] */
-	LONG $0x1879e2c4; WORD $0x304d // vbroadcastss    xmm1, dword 48[rbp] /* [rip + .LCPI0_3] */
-
-LBB0_468:
-	LONG $0x1410f8c5; BYTE $0xba   // vmovups    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c10f8c5; WORD $0x10ba // vmovups    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0x6410f8c5; WORD $0x20ba // vmovups    xmm4, oword [rdx + 4*rdi + 32]
-	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
-	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
-	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
-	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
-	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
-	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
-	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
-	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
-	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
-	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
-	LONG $0x1411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm2
-	LONG $0x5c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x6411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm4
-	LONG $0x6c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm5
-	LONG $0x5410f8c5; WORD $0x40ba // vmovups    xmm2, oword [rdx + 4*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x50ba // vmovups    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x6410f8c5; WORD $0x60ba // vmovups    xmm4, oword [rdx + 4*rdi + 96]
-	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
-	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
-	LONG $0x6c10f8c5; WORD $0x70ba // vmovups    xmm5, oword [rdx + 4*rdi + 112]
-	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
-	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
-	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
-	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
-	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
-	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
-	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
-	LONG $0x5411f8c5; WORD $0x40b9 // vmovups    oword [rcx + 4*rdi + 64], xmm2
-	LONG $0x5c11f8c5; WORD $0x50b9 // vmovups    oword [rcx + 4*rdi + 80], xmm3
-	LONG $0x6411f8c5; WORD $0x60b9 // vmovups    oword [rcx + 4*rdi + 96], xmm4
-	LONG $0x6c11f8c5; WORD $0x70b9 // vmovups    oword [rcx + 4*rdi + 112], xmm5
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_468
-	JMP  LBB0_1036
-
-LBB0_475:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1040
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_477:
-	LONG $0x357de2c4; WORD $0xba0c             // vpmovzxdq    ymm1, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x10 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x20 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba64; BYTE $0x30 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 48]
-	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
-	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
-	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
-	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
-	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
-	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
-	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
-	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
-	LONG $0x0c11fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x40 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x50 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x60 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba64; BYTE $0x70 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 112]
-	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
-	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
-	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
-	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
-	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
-	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
-	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
-	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
-	QUAD $0x000080f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_477
-	JMP  LBB0_1041
-
-LBB0_484:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_919
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI0_6] */
-	LONG $0x197de2c4; WORD $0x185d // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI0_7] */
-
-LBB0_486:
-	LONG $0x246ffec5; BYTE $0xfa         // vmovdqu    ymm4, yword [rdx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20fa       // vmovdqu    ymm5, yword [rdx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40fa       // vmovdqu    ymm6, yword [rdx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60fa       // vmovdqu    ymm7, yword [rdx + 8*rdi + 96]
-	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
-	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
-	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
-	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
-	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
-	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
-	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
-	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
-	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
-	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
-	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
-	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
-	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
-	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
-	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
-	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
-	LONG $0x2411fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm4
-	LONG $0x6c11fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm5
-	LONG $0x7411fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm6
-	LONG $0x7c11fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm7
-	QUAD $0x000080faa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0faac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fabc6ffec5; BYTE $0x00 // vmovdqu    ymm7, yword [rdx + 8*rdi + 224]
-	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
-	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
-	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
-	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
-	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
-	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
-	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
-	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
-	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
-	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
-	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
-	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
-	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
-	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
-	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
-	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
-	QUAD $0x000080f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm4
-	QUAD $0x0000a0f9ac11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm5
-	QUAD $0x0000c0f9b411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm6
-	QUAD $0x0000e0f9bc11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm7
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_486
-	JMP  LBB0_920
-
-LBB0_487:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1045
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_489:
-	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x3379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwd    xmm0, qword [rdx + 2*rdi + 32]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 40]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 48]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 56]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_489
-	JMP  LBB0_1046
-
-LBB0_490:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1050
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_492:
-	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x2379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwd    xmm0, qword [rdx + 2*rdi + 32]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 40]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 48]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 56]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_492
-	JMP  LBB0_1051
-
-LBB0_493:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1055
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_495:
-	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
-	LONG $0x646ffac5; WORD $0x50fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 80]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
-	LONG $0x6c6ffac5; WORD $0x40fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7c6ffac5; WORD $0x70fa       // vmovdqu    xmm7, oword [rdx + 8*rdi + 112]
-	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
-	LONG $0x546ffac5; WORD $0x60fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
-	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
-	LONG $0x541179c5; WORD $0x10f9       // vmovupd    oword [rcx + 8*rdi + 16], xmm10
-	LONG $0x041179c5; BYTE $0xf9         // vmovupd    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c11f9c5; WORD $0x20f9       // vmovupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x4c1179c5; WORD $0x30f9       // vmovupd    oword [rcx + 8*rdi + 48], xmm9
-	LONG $0x6c11f9c5; WORD $0x40f9       // vmovupd    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x6411f9c5; WORD $0x50f9       // vmovupd    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x4c11f9c5; WORD $0x60f9       // vmovupd    oword [rcx + 8*rdi + 96], xmm1
-	LONG $0x4411f9c5; WORD $0x70f9       // vmovupd    oword [rcx + 8*rdi + 112], xmm0
-	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	QUAD $0x0000b0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 176]
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
-	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
-	QUAD $0x0000c0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 192]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	QUAD $0x0000f0fabc6ffac5; BYTE $0x00 // vmovdqu    xmm7, oword [rdx + 8*rdi + 240]
-	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
-	QUAD $0x0000e0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 224]
-	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
-	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
-	QUAD $0x000090f9941179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 144], xmm10
-	QUAD $0x000080f9841179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f98c1179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 176], xmm9
-	QUAD $0x0000c0f9ac11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f98c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 224], xmm1
-	QUAD $0x0000f0f98411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 240], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB0_495
-	JMP  LBB0_1056
-
-LBB0_496:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1060
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_498:
-	LONG $0x045afcc5; BYTE $0xba         // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4c5afcc5; WORD $0x10ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x545afcc5; WORD $0x20ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c5afcc5; WORD $0x30ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x445afcc5; WORD $0x40ba       // vcvtps2pd    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x4c5afcc5; WORD $0x50ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x545afcc5; WORD $0x60ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x5c5afcc5; WORD $0x70ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_498
-	JMP  LBB0_1061
-
-LBB0_502:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_925
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_504:
-	LONG $0x04e6fec5; BYTE $0xba         // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4ce6fec5; WORD $0x10ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x54e6fec5; WORD $0x20ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5ce6fec5; WORD $0x30ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x44e6fec5; WORD $0x40ba       // vcvtdq2pd    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x4ce6fec5; WORD $0x50ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x54e6fec5; WORD $0x60ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x5ce6fec5; WORD $0x70ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_504
-	JMP  LBB0_926
-
-LBB0_535:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_930
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_537:
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_537
-	JMP  LBB0_931
-
-LBB0_538:
-	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
-	LONG $0xfce68341         // and    r14d, -4
-	LONG $0xfc468d49         // lea    rax, [r14 - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_793
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_795
-
-LBB0_546:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_935
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_548:
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_548
-	JMP  LBB0_936
-
-LBB0_549:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_940
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_551:
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_551
-	JMP  LBB0_941
-
-LBB0_555:
-	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
-	LONG $0xfce68341         // and    r14d, -4
-	LONG $0xfc468d49         // lea    rax, [r14 - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_810
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_812
-
-LBB0_560:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_945
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_562:
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_562
-	JMP  LBB0_946
-
-LBB0_563:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1065
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_565:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_565
-	JMP  LBB0_1066
-
-LBB0_566:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1070
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_568:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_568
-	JMP  LBB0_1071
-
-LBB0_569:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1075
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_571:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_571
-	JMP  LBB0_1076
-
-LBB0_572:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1080
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_574:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_574
-	JMP  LBB0_1081
-
-LBB0_581:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_950
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_583:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_583
-	JMP  LBB0_951
-
-LBB0_584:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_955
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_586:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_586
-	JMP  LBB0_956
-
-LBB0_599:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_960
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_601:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_601
-	JMP  LBB0_961
-
-LBB0_602:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1085
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_604:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_604
-	JMP  LBB0_1086
-
-LBB0_605:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1090
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_607:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
-	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
-	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
-	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_607
-	JMP  LBB0_1091
-
-LBB0_608:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1095
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_610:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
-	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
-	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
-	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_610
-	JMP  LBB0_1096
-
-LBB0_617:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_965
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_619:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_619
-	JMP  LBB0_966
-
-LBB0_620:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_970
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_622:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_622
-	JMP  LBB0_971
-
-LBB0_623:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1100
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_625:
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_625
-	JMP  LBB0_1101
-
-LBB0_626:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1105
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	LONG $0x587de2c4; WORD $0x3445 // vpbroadcastd    ymm0, dword 52[rbp] /* [rip + .LCPI0_13] */
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x587de2c4; WORD $0x384d // vpbroadcastd    ymm1, dword 56[rbp] /* [rip + .LCPI0_14] */
-	LONG $0x187de2c4; WORD $0x3c55 // vbroadcastss    ymm2, dword 60[rbp] /* [rip + .LCPI0_15] */
-
-LBB0_628:
-	LONG $0x1c6ffec5; BYTE $0xba         // vmovdqu    ymm3, yword [rdx + 4*rdi]
-	LONG $0x646ffec5; WORD $0x20ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40ba       // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60ba       // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
-	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
-	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
-	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
-	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
-	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
-	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
-	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
-	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
-	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
-	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
-	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
-	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
-	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
-	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
-	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
-	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
-	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
-	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
-	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
-	LONG $0x1c11fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm3
-	LONG $0x6411fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm4
-	LONG $0x6c11fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm5
-	LONG $0x7411fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm6
-	QUAD $0x000080ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0bab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 4*rdi + 224]
-	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
-	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
-	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
-	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
-	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
-	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
-	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
-	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
-	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
-	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
-	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
-	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
-	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
-	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
-	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
-	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
-	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
-	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
-	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
-	QUAD $0x000080b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm3
-	QUAD $0x0000a0b9a411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm4
-	QUAD $0x0000c0b9ac11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm5
-	QUAD $0x0000e0b9b411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm6
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_628
-	JMP  LBB0_1106
-
-LBB0_629:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1110
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_631:
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x38 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 56]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x30 // vcvttsd2si    rax, qword [rdx + 8*rdi + 48]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x20 // vcvttsd2si    rax, qword [rdx + 8*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x40 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x60 // vcvttsd2si    rax, qword [rdx + 8*rdi + 96]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-	QUAD $0x0088fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 136]
-	QUAD $0x0080fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 128]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	QUAD $0x0098fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 152]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	QUAD $0x0090fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 144]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
-	QUAD $0x00b8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 184]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	QUAD $0x00b0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 176]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	QUAD $0x00a8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 168]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	QUAD $0x00a0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 160]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	QUAD $0x00d8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 216]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	QUAD $0x00d0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 208]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	QUAD $0x00c8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 200]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	QUAD $0x00c0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 192]
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
-	QUAD $0x00f8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 248]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	QUAD $0x00f0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 240]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	QUAD $0x00e8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 232]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	QUAD $0x00e0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 224]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
-	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
-	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
-	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_631
-	JMP  LBB0_1111
-
-LBB0_632:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1115
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_634:
-	LONG $0x045afdc5; BYTE $0xfa         // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4c5afdc5; WORD $0x20fa       // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x545afdc5; WORD $0x40fa       // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c5afdc5; WORD $0x60fa       // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa845afdc5; BYTE $0x00 // vcvtpd2ps    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa945afdc5; BYTE $0x00 // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_634
-	JMP  LBB0_1116
-
-LBB0_644:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_850
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_852
-
-LBB0_646:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_975
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_648:
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_648
-	JMP  LBB0_976
-
-LBB0_649:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1120
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_651:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_651
-	JMP  LBB0_1121
-
-LBB0_652:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1125
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_654:
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_654
-	JMP  LBB0_1126
-
-LBB0_655:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1130
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_657:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_657
-	JMP  LBB0_1131
-
-LBB0_661:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_663:
-	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x646ffac5; WORD $0x20fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
-	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x2159e3c4; WORD $0x10d6       // vinsertps    xmm2, xmm4, xmm6, 16
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x50fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x20d7       // vinsertps    xmm2, xmm2, xmm7, 32
-	LONG $0x2169e3c4; WORD $0x30c9       // vinsertps    xmm1, xmm2, xmm1, 48
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2161e3c4; WORD $0x10d4       // vinsertps    xmm2, xmm3, xmm4, 16
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x20d6       // vinsertps    xmm2, xmm2, xmm6, 32
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x746ffac5; WORD $0x70fa       // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
-	LONG $0x7ef9e1c4; BYTE $0xf0         // vmovq    rax, xmm6
-	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x2159e3c4; WORD $0x10dd       // vinsertps    xmm3, xmm4, xmm5, 16
-	LONG $0x16f9e3c4; WORD $0x01f0       // vpextrq    rax, xmm6, 1
-	LONG $0x2161e3c4; WORD $0x20df       // vinsertps    xmm3, xmm3, xmm7, 32
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x30dc       // vinsertps    xmm3, xmm3, xmm4, 48
-	LONG $0x0411f8c5; BYTE $0xb9         // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9       // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9       // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9       // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	QUAD $0x0000a0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 160]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
-	QUAD $0x0000b0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 176]
-	LONG $0x16f9c3c4; WORD $0x01d3       // vpextrq    r11, xmm2, 1
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
-	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
-	QUAD $0x0000c0fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 192]
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2159e3c4; WORD $0x10e5       // vinsertps    xmm4, xmm4, xmm5, 16
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x2159e3c4; WORD $0x20d2       // vinsertps    xmm2, xmm4, xmm2, 32
-	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
-	LONG $0x16f9c3c4; WORD $0x01e3       // vpextrq    r11, xmm4, 1
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
-	LONG $0x2171e3c4; WORD $0x10cd       // vinsertps    xmm1, xmm1, xmm5, 16
-	QUAD $0x0000e0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 224]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2171e3c4; WORD $0x20cc       // vinsertps    xmm1, xmm1, xmm4, 32
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x30cb       // vinsertps    xmm1, xmm1, xmm3, 48
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x16f9c3c4; WORD $0x01db       // vpextrq    r11, xmm3, 1
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2151e3c4; WORD $0x10e4       // vinsertps    xmm4, xmm5, xmm4, 16
-	LONG $0x2abac1c4; BYTE $0xeb         // vcvtsi2ss    xmm5, xmm8, r11
-	LONG $0x2159e3c4; WORD $0x20db       // vinsertps    xmm3, xmm4, xmm3, 32
-	LONG $0x2161e3c4; WORD $0x30dd       // vinsertps    xmm3, xmm3, xmm5, 48
-	LONG $0x4411f8c5; WORD $0x40b9       // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x5411f8c5; WORD $0x50b9       // vmovups    oword [rcx + 4*rdi + 80], xmm2
-	LONG $0x4c11f8c5; WORD $0x60b9       // vmovups    oword [rcx + 4*rdi + 96], xmm1
-	LONG $0x5c11f8c5; WORD $0x70b9       // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB0_663
-	JMP  LBB0_1136
-
-LBB0_664:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1140
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_666:
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x04 // vcvttss2si    rbx, dword [rdx + 4*rdi + 4]
-	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
-	LONG $0x2cfae1c4; WORD $0xba1c             // vcvttss2si    rbx, dword [rdx + 4*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x0c // vcvttss2si    rbx, dword [rdx + 4*rdi + 12]
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x1c // vcvttss2si    rbx, dword [rdx + 4*rdi + 28]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x18 // vcvttss2si    rax, dword [rdx + 4*rdi + 24]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x10 // vcvttss2si    rax, dword [rdx + 4*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x20 // vcvttss2si    rbx, dword [rdx + 4*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x30 // vcvttss2si    rax, dword [rdx + 4*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x44 // vcvttss2si    rax, dword [rdx + 4*rdi + 68]
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x40 // vcvttss2si    rbx, dword [rdx + 4*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x4c // vcvttss2si    rax, dword [rdx + 4*rdi + 76]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x48 // vcvttss2si    rbx, dword [rdx + 4*rdi + 72]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x5c // vcvttss2si    rax, dword [rdx + 4*rdi + 92]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x58 // vcvttss2si    rax, dword [rdx + 4*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x54 // vcvttss2si    rax, dword [rdx + 4*rdi + 84]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x50 // vcvttss2si    rax, dword [rdx + 4*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x6c // vcvttss2si    rax, dword [rdx + 4*rdi + 108]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x68 // vcvttss2si    rax, dword [rdx + 4*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x64 // vcvttss2si    rax, dword [rdx + 4*rdi + 100]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x60 // vcvttss2si    rax, dword [rdx + 4*rdi + 96]
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x7c // vcvttss2si    rax, dword [rdx + 4*rdi + 124]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x78 // vcvttss2si    rax, dword [rdx + 4*rdi + 120]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x74 // vcvttss2si    rax, dword [rdx + 4*rdi + 116]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x70 // vcvttss2si    rax, dword [rdx + 4*rdi + 112]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
-	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
-	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
-	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_666
-	JMP  LBB0_1141
-
-LBB0_676:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_980
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_678:
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_678
-	JMP  LBB0_981
-
-LBB0_679:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_985
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_681:
-	LONG $0x045bfcc5; BYTE $0xba         // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfcc5; WORD $0x20ba       // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfcc5; WORD $0x40ba       // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfcc5; WORD $0x60ba       // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba845bfcc5; BYTE $0x00 // vcvtdq2ps    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba945bfcc5; BYTE $0x00 // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_681
-	JMP  LBB0_986
-
-LBB0_715:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_717:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_717
-	JMP  LBB0_991
-
-LBB0_721:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_995
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_723:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_723
-	JMP  LBB0_996
-
-LBB0_724:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1000
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_726:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_726
-	JMP  LBB0_1001
-
-LBB0_727:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1005
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_729:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_729
-	JMP  LBB0_1006
-
-LBB0_730:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1010
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_732:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_732
-	JMP  LBB0_1011
-
-LBB0_733:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1015
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_735:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_735
-	JMP  LBB0_1016
-
-LBB0_742:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1185
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_744:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_744
-	JMP  LBB0_1186
-
-LBB0_745:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1193
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_747:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_747
-	JMP  LBB0_1194
-
-LBB0_748:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1201
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_750:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_750
-	JMP  LBB0_1202
-
-LBB0_751:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1209
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_753:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_753
-	JMP  LBB0_1210
-
-LBB0_754:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1217
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_756
-	JMP  LBB0_1218
-
-LBB0_757:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1225
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_759:
-	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x2179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbd    xmm0, dword [rdx + rdi + 16]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbd    xmm1, dword [rdx + rdi + 20]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbd    xmm2, dword [rdx + rdi + 24]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbd    xmm3, dword [rdx + rdi + 28]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_759
-	JMP  LBB0_1226
-
-LBB0_760:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1233
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_762:
-	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x3179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbd    xmm0, dword [rdx + rdi + 16]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbd    xmm1, dword [rdx + rdi + 20]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbd    xmm2, dword [rdx + rdi + 24]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbd    xmm3, dword [rdx + rdi + 28]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_762
-	JMP  LBB0_1234
-
-LBB0_763:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1241
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_765:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_765
-	JMP  LBB0_1242
-
-LBB0_766:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1249
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_1250
-
-LBB0_769:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1257
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_771:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_771
-	JMP  LBB0_1258
-
-LBB0_772:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1265
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_774:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_774
-	JMP  LBB0_1266
-
-LBB0_775:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1273
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_777:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_777
-	JMP  LBB0_1274
-
-LBB0_778:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1281
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_780:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_780
-	JMP  LBB0_1282
-
-LBB0_781:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1289
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_783:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_783
-	JMP  LBB0_1290
-
-LBB0_784:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1297
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_786:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_786
-	JMP  LBB0_1298
-
-LBB0_787:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1305
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_789:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_789
-	JMP  LBB0_1306
-
-LBB0_790:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1313
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_792:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_792
-	JMP  LBB0_1314
-
-LBB0_801:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1321
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_803:
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_803
-	JMP  LBB0_1322
-
-LBB0_804:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1329
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_806:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_806
-	JMP  LBB0_1330
-
-LBB0_807:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1337
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_809:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_809
-	JMP  LBB0_1338
-
-LBB0_818:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1345
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_820:
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_820
-	JMP  LBB0_1346
-
-LBB0_821:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1353
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_823:
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_823
-	JMP  LBB0_1354
-
-LBB0_824:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1361
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_826:
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_826
-	JMP  LBB0_1362
-
-LBB0_827:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1145
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1147
-
-LBB0_829:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1155
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1157
-
-LBB0_831:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1165
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1167
-
-LBB0_833:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1175
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1177
-
-LBB0_835:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1369
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_837:
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_837
-	JMP  LBB0_1370
-
-LBB0_838:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1377
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_840:
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_840
-	JMP  LBB0_1378
-
-LBB0_841:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1385
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_843:
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_843
-	JMP  LBB0_1386
-
-LBB0_844:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1393
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_846:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_846
-	JMP  LBB0_1394
-
-LBB0_847:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1401
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_849:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_849
-	JMP  LBB0_1402
-
-LBB0_860:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1409
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_862:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_862
-	JMP  LBB0_1410
-
-LBB0_863:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1417
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_865:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_865
-	JMP  LBB0_1418
-
-LBB0_866:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1425
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_868:
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_868
-	JMP  LBB0_1426
-
-LBB0_869:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1433
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_871:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_871
-	JMP  LBB0_1434
-
-LBB0_872:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1441
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_874:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_874
-	JMP  LBB0_1442
-
-LBB0_875:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1449
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_877:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_877
-	JMP  LBB0_1450
-
-LBB0_878:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1457
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_880:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_880
-	JMP  LBB0_1458
-
-LBB0_881:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1465
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_883:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_883
-	JMP  LBB0_1466
-
-LBB0_884:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1473
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_886:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_886
-	JMP  LBB0_1474
-
-LBB0_887:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1481
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_889:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_889
-	JMP  LBB0_1482
-
-LBB0_890:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1489
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_892:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_892
-	JMP  LBB0_1490
-
-LBB0_893:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1497
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_895:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_895
-	JMP  LBB0_1498
-
-LBB0_896:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1505
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_898:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_898
-	JMP  LBB0_1506
-
-LBB0_899:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1513
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_901:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_901
-	JMP  LBB0_1514
-
-LBB0_902:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1521
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_904:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_904
-	JMP  LBB0_1522
-
-LBB0_905:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1529
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_907:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_907
-	JMP  LBB0_1530
-
-LBB0_908:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1537
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_910:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_910
-	JMP  LBB0_1538
-
-LBB0_911:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1545
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_913:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_913
-	JMP  LBB0_1546
-
-LBB0_793:
-	LONG $0xfce28349             // and    r10, -4
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_794:
-	LONG $0x4c10fbc5; WORD $0x08c2 // vmovsd    xmm1, qword [rdx + 8*rax + 8]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0x1410fbc5; BYTE $0xc2   // vmovsd    xmm2, qword [rdx + 8*rax]
-	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xf3430f48               // cmovae    rsi, rbx
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xce   // vmovq    xmm1, rsi
-	LONG $0xfb430f48               // cmovae    rdi, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x18c2 // vmovsd    xmm3, qword [rdx + 8*rax + 24]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x10c2 // vmovsd    xmm2, qword [rdx + 8*rax + 16]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
-	LONG $0x4c10fbc5; WORD $0x28c2 // vmovsd    xmm1, qword [rdx + 8*rax + 40]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	LONG $0x5410fbc5; WORD $0x20c2 // vmovsd    xmm2, qword [rdx + 8*rax + 32]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fbc5; WORD $0x38c2 // vmovsd    xmm3, qword [rdx + 8*rax + 56]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x30c2 // vmovsd    xmm2, qword [rdx + 8*rax + 48]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
-	LONG $0x4c10fbc5; WORD $0x48c2 // vmovsd    xmm1, qword [rdx + 8*rax + 72]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	LONG $0x5410fbc5; WORD $0x40c2 // vmovsd    xmm2, qword [rdx + 8*rax + 64]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fbc5; WORD $0x58c2 // vmovsd    xmm3, qword [rdx + 8*rax + 88]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x50c2 // vmovsd    xmm2, qword [rdx + 8*rax + 80]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
-	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
-	LONG $0x4c10fbc5; WORD $0x68c2 // vmovsd    xmm1, qword [rdx + 8*rax + 104]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x4c10fbc5; WORD $0x60c2 // vmovsd    xmm1, qword [rdx + 8*rax + 96]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fbc5; WORD $0x78c2 // vmovsd    xmm2, qword [rdx + 8*rax + 120]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x70c2 // vmovsd    xmm3, qword [rdx + 8*rax + 112]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
-	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_794
-
-LBB0_795:
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	JE   LBB0_798
-	LONG $0x03e0c148             // shl    rax, 3
-	WORD $0xf749; BYTE $0xd8     // neg    r8
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_797:
-	LONG $0x4c10fbc5; WORD $0x0802 // vmovsd    xmm1, qword [rdx + rax + 8]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x0c10fbc5; BYTE $0x02   // vmovsd    xmm1, qword [rdx + rax]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fbc5; WORD $0x1802 // vmovsd    xmm2, qword [rdx + rax + 24]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x1002 // vmovsd    xmm3, qword [rdx + rax + 16]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x1001 // vmovdqu    oword [rcx + rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x01   // vmovdqu    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_797
-
-LBB0_798:
-	WORD $0x394d; BYTE $0xce // cmp    r14, r9
-	JE   LBB0_1553
-
-LBB0_799:
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_800:
-	LONG $0x107ba1c4; WORD $0xf20c // vmovsd    xmm1, qword [rdx + 8*r14]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xc2   // vcvttsd2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	LONG $0xc12ef9c5               // vucomisd    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf134894a               // mov    qword [rcx + 8*r14], rsi
-	LONG $0x01c68349               // add    r14, 1
-	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
-	JNE  LBB0_800
-	JMP  LBB0_1553
-
-LBB0_810:
-	LONG $0xfce28349                       // and    r10, -4
-	WORD $0xf749; BYTE $0xda               // neg    r10
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-
-LBB0_811:
-	LONG $0x4c10fac5; WORD $0x0482 // vmovss    xmm1, dword [rdx + 4*rax + 4]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0x1410fac5; BYTE $0x82   // vmovss    xmm2, dword [rdx + 4*rax]
-	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xdf430f48               // cmovae    rbx, rdi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
-	LONG $0xf7430f48               // cmovae    rsi, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd6   // vmovq    xmm2, rsi
-	LONG $0x5c10fac5; WORD $0x0c82 // vmovss    xmm3, dword [rdx + 4*rax + 12]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x0882 // vmovss    xmm2, dword [rdx + 4*rax + 8]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
-	LONG $0x4c10fac5; WORD $0x1482 // vmovss    xmm1, dword [rdx + 4*rax + 20]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0x5410fac5; WORD $0x1082 // vmovss    xmm2, dword [rdx + 4*rax + 16]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fac5; WORD $0x1c82 // vmovss    xmm3, dword [rdx + 4*rax + 28]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x1882 // vmovss    xmm2, dword [rdx + 4*rax + 24]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
-	LONG $0x4c10fac5; WORD $0x2482 // vmovss    xmm1, dword [rdx + 4*rax + 36]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0x5410fac5; WORD $0x2082 // vmovss    xmm2, dword [rdx + 4*rax + 32]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fac5; WORD $0x2c82 // vmovss    xmm3, dword [rdx + 4*rax + 44]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x2882 // vmovss    xmm2, dword [rdx + 4*rax + 40]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
-	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
-	LONG $0x4c10fac5; WORD $0x3482 // vmovss    xmm1, dword [rdx + 4*rax + 52]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x4c10fac5; WORD $0x3082 // vmovss    xmm1, dword [rdx + 4*rax + 48]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fac5; WORD $0x3c82 // vmovss    xmm2, dword [rdx + 4*rax + 60]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fac5; WORD $0x3882 // vmovss    xmm3, dword [rdx + 4*rax + 56]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
-	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_811
-
-LBB0_812:
-	WORD $0x854d; BYTE $0xc0               // test    r8, r8
-	JE   LBB0_815
-	LONG $0x02e0c148                       // shl    rax, 2
-	WORD $0xf749; BYTE $0xd8               // neg    r8
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-
-LBB0_814:
-	LONG $0x4c10fac5; WORD $0x0402 // vmovss    xmm1, dword [rdx + rax + 4]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x0c10fac5; BYTE $0x02   // vmovss    xmm1, dword [rdx + rax]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fac5; WORD $0x0c02 // vmovss    xmm2, dword [rdx + rax + 12]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fac5; WORD $0x0802 // vmovss    xmm3, dword [rdx + rax + 8]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x1041 // vmovdqu    oword [rcx + 2*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x41   // vmovdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_814
-
-LBB0_815:
-	WORD $0x394d; BYTE $0xce // cmp    r14, r9
-	JE   LBB0_1553
-
-LBB0_816:
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000b848; WORD $0x8000 // mov    rax, -9223372036854775808
-
-LBB0_817:
-	LONG $0x107aa1c4; WORD $0xb20c // vmovss    xmm1, dword [rdx + 4*r14]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x3148; BYTE $0xc6       // xor    rsi, rax
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xf13c894a               // mov    qword [rcx + 8*r14], rdi
-	LONG $0x01c68349               // add    r14, 1
-	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
-	JNE  LBB0_817
-	JMP  LBB0_1553
-
-LBB0_850:
-	LONG $0xfce28349               // and    r10, -4
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_851:
-	LONG $0x0c6ffec5; BYTE $0xc2   // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x146ffac5; BYTE $0xc2   // vmovdqu    xmm2, oword [rdx + 8*rax]
-	LONG $0x546be9c5; WORD $0x10c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 16]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x0c11f8c5; BYTE $0x81   // vmovups    oword [rcx + 4*rax], xmm1
-	LONG $0x4c6ffec5; WORD $0x20c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x546ffac5; WORD $0x20c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 32]
-	LONG $0x546be9c5; WORD $0x30c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 48]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x4c11f8c5; WORD $0x1081 // vmovups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x4c6ffec5; WORD $0x40c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 64]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x546ffac5; WORD $0x40c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 64]
-	LONG $0x546be9c5; WORD $0x50c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 80]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x4c11f8c5; WORD $0x2081 // vmovups    oword [rcx + 4*rax + 32], xmm1
-	LONG $0x4c6ffec5; WORD $0x60c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 96]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x16f9c3c4; WORD $0x01cb // vpextrq    r11, xmm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x2ad2c1c4; BYTE $0xdb   // vcvtsi2ss    xmm3, xmm5, r11
-	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
-	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
-	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
-	LONG $0x5c6ffac5; WORD $0x60c2 // vmovdqu    xmm3, oword [rdx + 8*rax + 96]
-	LONG $0x5c6be1c5; WORD $0x70c2 // vpackssdw    xmm3, xmm3, oword [rdx + 8*rax + 112]
-	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
-	LONG $0x4c11f8c5; WORD $0x3081 // vmovups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_851
-
-LBB0_852:
-	WORD $0x854d; BYTE $0xc0       // test    r8, r8
-	JE   LBB0_855
-	LONG $0x02e0c148               // shl    rax, 2
-	WORD $0xf749; BYTE $0xd8       // neg    r8
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_854:
-	LONG $0x0c6ffec5; BYTE $0x42   // vmovdqu    ymm1, yword [rdx + 2*rax]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x16f9c3c4; WORD $0x01ca // vpextrq    r10, xmm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x2ad2c1c4; BYTE $0xda   // vcvtsi2ss    xmm3, xmm5, r10
-	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
-	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
-	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
-	LONG $0x1c6ffac5; BYTE $0x42   // vmovdqu    xmm3, oword [rdx + 2*rax]
-	LONG $0x5c6be1c5; WORD $0x1042 // vpackssdw    xmm3, xmm3, oword [rdx + 2*rax + 16]
-	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
-	LONG $0x0c11f8c5; BYTE $0x01   // vmovups    oword [rcx + rax], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_854
-
-LBB0_855:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JNE  LBB0_858
-	JMP  LBB0_1553
-
-LBB0_856:
-	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JE   LBB0_1553
-
-LBB0_858:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JNS  LBB0_856
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
-	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
-	LONG $0xc058fac5             // vaddss    xmm0, xmm0, xmm0
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_858
-	JMP  LBB0_1553
-
-LBB0_914:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_915:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_917
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_917:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_918:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_918
-	JMP  LBB0_1553
-
-LBB0_919:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_920:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_922
-	LONG $0x046ffec5; BYTE $0xfa   // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0xe457d9c5               // vxorpd    xmm4, xmm4, xmm4
-	LONG $0x027de3c4; WORD $0xaaec // vpblendd    ymm5, ymm0, ymm4, 170
-	LONG $0x597de2c4; WORD $0x0875 // vpbroadcastq    ymm6, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd073fdc5; BYTE $0x20   // vpsrlq    ymm0, ymm0, 32
-	LONG $0x597de2c4; WORD $0x107d // vpbroadcastq    ymm7, qword 16[rbp] /* [rip + .LCPI0_6] */
-	LONG $0xc7ebfdc5               // vpor    ymm0, ymm0, ymm7
-	LONG $0x197d62c4; WORD $0x1845 // vbroadcastsd    ymm8, qword 24[rbp] /* [rip + .LCPI0_7] */
-	LONG $0x5c7dc1c4; BYTE $0xc0   // vsubpd    ymm0, ymm0, ymm8
-	LONG $0xc058d5c5               // vaddpd    ymm0, ymm5, ymm0
-	LONG $0x0275e3c4; WORD $0xaaec // vpblendd    ymm5, ymm1, ymm4, 170
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd173f5c5; BYTE $0x20   // vpsrlq    ymm1, ymm1, 32
-	LONG $0xcfebf5c5               // vpor    ymm1, ymm1, ymm7
-	LONG $0x5c75c1c4; BYTE $0xc8   // vsubpd    ymm1, ymm1, ymm8
-	LONG $0xc958d5c5               // vaddpd    ymm1, ymm5, ymm1
-	LONG $0x026de3c4; WORD $0xaaec // vpblendd    ymm5, ymm2, ymm4, 170
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd273edc5; BYTE $0x20   // vpsrlq    ymm2, ymm2, 32
-	LONG $0xd7ebedc5               // vpor    ymm2, ymm2, ymm7
-	LONG $0x5c6dc1c4; BYTE $0xd0   // vsubpd    ymm2, ymm2, ymm8
-	LONG $0xd258d5c5               // vaddpd    ymm2, ymm5, ymm2
-	LONG $0x0265e3c4; WORD $0xaae4 // vpblendd    ymm4, ymm3, ymm4, 170
-	LONG $0xe6ebddc5               // vpor    ymm4, ymm4, ymm6
-	LONG $0xd373e5c5; BYTE $0x20   // vpsrlq    ymm3, ymm3, 32
-	LONG $0xdfebe5c5               // vpor    ymm3, ymm3, ymm7
-	LONG $0x5c65c1c4; BYTE $0xd8   // vsubpd    ymm3, ymm3, ymm8
-	LONG $0xdb58ddc5               // vaddpd    ymm3, ymm4, ymm3
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_922:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_923:
-	LONG $0x4528f9c5; BYTE $0x50 // vmovapd    xmm0, oword 80[rbp] /* [rip + .LCPI0_8] */
-	LONG $0x4d28f9c5; BYTE $0x60 // vmovapd    xmm1, oword 96[rbp] /* [rip + .LCPI0_9] */
-
-LBB0_924:
-	LONG $0x1410fbc5; BYTE $0xf2   // vmovsd    xmm2, qword [rdx + 8*rsi]
-	LONG $0xd014e8c5               // vunpcklps    xmm2, xmm2, xmm0
-	LONG $0xd15ce9c5               // vsubpd    xmm2, xmm2, xmm1
-	LONG $0x0579e3c4; WORD $0x01da // vpermilpd    xmm3, xmm2, 1
-	LONG $0xd258e3c5               // vaddsd    xmm2, xmm3, xmm2
-	LONG $0x1411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm2
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_924
-	JMP  LBB0_1553
-
-LBB0_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_926:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_928
-	LONG $0x04e6fec5; BYTE $0xba   // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4ce6fec5; WORD $0x10ba // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x54e6fec5; WORD $0x20ba // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5ce6fec5; WORD $0x30ba // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_928:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_929:
-	LONG $0x042adbc5; BYTE $0xb2 // vcvtsi2sd    xmm0, xmm4, dword [rdx + 4*rsi]
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_929
-	JMP  LBB0_1553
-
-LBB0_930:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_931:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_933
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_933:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_934:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_934
-	JMP  LBB0_1553
-
-LBB0_935:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_936:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_938
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_938:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_939:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_939
-	JMP  LBB0_1553
-
-LBB0_940:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_941:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_943
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_943:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_944:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_944
-	JMP  LBB0_1553
-
-LBB0_945:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_946:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_948
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_948:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_949:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_949
-	JMP  LBB0_1553
-
-LBB0_950:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_951:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_953
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_953:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_954:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_954
-	JMP  LBB0_1553
-
-LBB0_955:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_956:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_958
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_958:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_959:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_959
-	JMP  LBB0_1553
-
-LBB0_960:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_961:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_963
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_963:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_964:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_964
-	JMP  LBB0_1553
-
-LBB0_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_966:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_968
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_968:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_969:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_969
-	JMP  LBB0_1553
-
-LBB0_970:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_971:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_973
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_973:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_974:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_974
-	JMP  LBB0_1553
-
-LBB0_975:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_976:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_978
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_978:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_979:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_979
-	JMP  LBB0_1553
-
-LBB0_980:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_981:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_983
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_983:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_984:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_984
-	JMP  LBB0_1553
-
-LBB0_985:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_986:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_988
-	LONG $0x045bfcc5; BYTE $0xba   // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfcc5; WORD $0x20ba // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfcc5; WORD $0x40ba // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfcc5; WORD $0x60ba // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_988:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_989:
-	LONG $0x042adac5; BYTE $0xb2 // vcvtsi2ss    xmm0, xmm4, dword [rdx + 4*rsi]
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_989
-	JMP  LBB0_1553
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_991:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_993
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_993:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_994:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_994
-	JMP  LBB0_1553
-
-LBB0_995:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_996:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_998
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_998:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_999:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1553
-
-LBB0_1000:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1001:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1003
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1003:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1004:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1004
-	JMP  LBB0_1553
-
-LBB0_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1008
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1009:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1009
-	JMP  LBB0_1553
-
-LBB0_1010:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1011:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1013
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1013:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1014:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1014
-	JMP  LBB0_1553
-
-LBB0_1015:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1016:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1018
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1018:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1019:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1019
-	JMP  LBB0_1553
-
-LBB0_1020:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1021:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1023
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1023:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1024:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1024
-	JMP  LBB0_1553
-
-LBB0_1025:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1026:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1028
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1028:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1029:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1029
-	JMP  LBB0_1553
-
-LBB0_1030:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1031:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1033
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1033:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1034:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1034
-	JMP  LBB0_1553
-
-LBB0_1035:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1036:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1038
-	LONG $0x0410f8c5; BYTE $0xba   // vmovups    xmm0, oword [rdx + 4*rdi]
-	LONG $0x1879e2c4; WORD $0x2c4d // vbroadcastss    xmm1, dword 44[rbp] /* [rip + .LCPI0_2] */
-	LONG $0xd1c2f8c5; BYTE $0x01   // vcmpltps    xmm2, xmm0, xmm1
-	LONG $0xd95cf8c5               // vsubps    xmm3, xmm0, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x1879e2c4; WORD $0x3065 // vbroadcastss    xmm4, dword 48[rbp] /* [rip + .LCPI0_3] */
-	LONG $0xdc57e0c5               // vxorps    xmm3, xmm3, xmm4
-	LONG $0xc05bfac5               // vcvttps2dq    xmm0, xmm0
-	LONG $0x4a61e3c4; WORD $0x20c0 // vblendvps    xmm0, xmm3, xmm0, xmm2
-	LONG $0x5410f8c5; WORD $0x10ba // vmovups    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xd9c2e8c5; BYTE $0x01   // vcmpltps    xmm3, xmm2, xmm1
-	LONG $0xe95ce8c5               // vsubps    xmm5, xmm2, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0xec57d0c5               // vxorps    xmm5, xmm5, xmm4
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a51e3c4; WORD $0x30d2 // vblendvps    xmm2, xmm5, xmm2, xmm3
-	LONG $0x5c10f8c5; WORD $0x20ba // vmovups    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0xe9c2e0c5; BYTE $0x01   // vcmpltps    xmm5, xmm3, xmm1
-	LONG $0xf15ce0c5               // vsubps    xmm6, xmm3, xmm1
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf457c8c5               // vxorps    xmm6, xmm6, xmm4
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a49e3c4; WORD $0x50db // vblendvps    xmm3, xmm6, xmm3, xmm5
-	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
-	LONG $0xf1c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm1
-	LONG $0xc95cd0c5               // vsubps    xmm1, xmm5, xmm1
-	LONG $0xc95bfac5               // vcvttps2dq    xmm1, xmm1
-	LONG $0xcc57f0c5               // vxorps    xmm1, xmm1, xmm4
-	LONG $0xe55bfac5               // vcvttps2dq    xmm4, xmm5
-	LONG $0x4a71e3c4; WORD $0x60cc // vblendvps    xmm1, xmm1, xmm4, xmm6
-	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x5411f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x5c11f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0x4c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm1
-
-LBB0_1038:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1039:
-	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1039
-	JMP  LBB0_1553
-
-LBB0_1040:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1041:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1043
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x597de2c4; WORD $0x0865             // vpbroadcastq    ymm4, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xc4ebfdc5                           // vpor    ymm0, ymm0, ymm4
-	LONG $0xc45cfdc5                           // vsubpd    ymm0, ymm0, ymm4
-	LONG $0xccebf5c5                           // vpor    ymm1, ymm1, ymm4
-	LONG $0xcc5cf5c5                           // vsubpd    ymm1, ymm1, ymm4
-	LONG $0xd4ebedc5                           // vpor    ymm2, ymm2, ymm4
-	LONG $0xd45cedc5                           // vsubpd    ymm2, ymm2, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdc5ce5c5                           // vsubpd    ymm3, ymm3, ymm4
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1043:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1044:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	LONG $0x2ad3e1c4; BYTE $0xc0 // vcvtsi2sd    xmm0, xmm5, rax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1044
-	JMP  LBB0_1553
-
-LBB0_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1046:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1048
-	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1048:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1049:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1049
-	JMP  LBB0_1553
-
-LBB0_1050:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1051:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1053
-	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1053:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1054:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1054
-	JMP  LBB0_1553
-
-LBB0_1055:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1056:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1058
-	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x546ffac5; WORD $0x30fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0xc41479c5               // vunpcklpd    xmm8, xmm0, xmm4
-	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8   // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xcc14f1c5               // vunpcklpd    xmm1, xmm1, xmm4
-	LONG $0x16f9e3c4; WORD $0x01d0 // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xd0   // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0   // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xd414e9c5               // vunpcklpd    xmm2, xmm2, xmm4
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8   // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8   // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7c6ffac5; WORD $0x40fa // vmovdqu    xmm7, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01f8 // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0xdc14e1c5               // vunpcklpd    xmm3, xmm3, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xf8   // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xee14d1c5               // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x746ffac5; WORD $0x70fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
-	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
-	LONG $0xc014d9c5               // vunpcklpd    xmm0, xmm4, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xe414c9c5               // vunpcklpd    xmm4, xmm6, xmm4
-	LONG $0x746ffac5; WORD $0x60fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
-	LONG $0x2aa3e1c4; BYTE $0xf8   // vcvtsi2sd    xmm7, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xf714c9c5               // vunpcklpd    xmm6, xmm6, xmm7
-	LONG $0x4c11f9c5; WORD $0x10f9 // vmovupd    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x041179c5; BYTE $0xf9   // vmovupd    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c11f9c5; WORD $0x20f9 // vmovupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x5411f9c5; WORD $0x30f9 // vmovupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x4411f9c5; WORD $0x40f9 // vmovupd    oword [rcx + 8*rdi + 64], xmm0
-	LONG $0x6c11f9c5; WORD $0x50f9 // vmovupd    oword [rcx + 8*rdi + 80], xmm5
-	LONG $0x7411f9c5; WORD $0x60f9 // vmovupd    oword [rcx + 8*rdi + 96], xmm6
-	LONG $0x6411f9c5; WORD $0x70f9 // vmovupd    oword [rcx + 8*rdi + 112], xmm4
-
-LBB0_1058:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1059:
-	LONG $0x2aa3e1c4; WORD $0xf204 // vcvtsi2sd    xmm0, xmm11, qword [rdx + 8*rsi]
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1059
-	JMP  LBB0_1553
-
-LBB0_1060:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1061:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1063
-	LONG $0x045afcc5; BYTE $0xba   // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4c5afcc5; WORD $0x10ba // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x545afcc5; WORD $0x20ba // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c5afcc5; WORD $0x30ba // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1063:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1064:
-	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xc05afac5             // vcvtss2sd    xmm0, xmm0, xmm0
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1064
-	JMP  LBB0_1553
-
-LBB0_1065:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1066:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1068
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1068:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1069:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1069
-	JMP  LBB0_1553
-
-LBB0_1070:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1071:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1073
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1073:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1074:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1074
-	JMP  LBB0_1553
-
-LBB0_1075:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1076:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1078
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0   // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0   // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1078:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1079:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1079
-	JMP  LBB0_1553
-
-LBB0_1080:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1081:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1083
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5               // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5               // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1083:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1084:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1084
-	JMP  LBB0_1553
-
-LBB0_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1086:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1088
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1088:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1089:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1089
-	JMP  LBB0_1553
-
-LBB0_1090:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1091:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1093
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1   // vpackusdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3   // vpackusdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc   // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1093:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1094:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1094
-	JMP  LBB0_1553
-
-LBB0_1095:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1096:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1098
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1098:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1099:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1099
-	JMP  LBB0_1553
-
-LBB0_1100:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1101:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1103
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1103:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1104:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1104
-	JMP  LBB0_1553
-
-LBB0_1105:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1106:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1108
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x587de2c4; WORD $0x345d // vpbroadcastd    ymm3, dword 52[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x646ffec5; WORD $0x60ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0e7de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm0, ymm3, 170
-	LONG $0x587de2c4; WORD $0x3875 // vpbroadcastd    ymm6, dword 56[rbp] /* [rip + .LCPI0_14] */
-	LONG $0xd072fdc5; BYTE $0x10   // vpsrld    ymm0, ymm0, 16
-	LONG $0x0e7de3c4; WORD $0xaac6 // vpblendw    ymm0, ymm0, ymm6, 170
-	LONG $0x187de2c4; WORD $0x3c7d // vbroadcastss    ymm7, dword 60[rbp] /* [rip + .LCPI0_15] */
-	LONG $0xc75cfcc5               // vsubps    ymm0, ymm0, ymm7
-	LONG $0xc058d4c5               // vaddps    ymm0, ymm5, ymm0
-	LONG $0x0e75e3c4; WORD $0xaaeb // vpblendw    ymm5, ymm1, ymm3, 170
-	LONG $0xd172f5c5; BYTE $0x10   // vpsrld    ymm1, ymm1, 16
-	LONG $0x0e75e3c4; WORD $0xaace // vpblendw    ymm1, ymm1, ymm6, 170
-	LONG $0xcf5cf4c5               // vsubps    ymm1, ymm1, ymm7
-	LONG $0xc958d4c5               // vaddps    ymm1, ymm5, ymm1
-	LONG $0x0e6de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm2, ymm3, 170
-	LONG $0xd272edc5; BYTE $0x10   // vpsrld    ymm2, ymm2, 16
-	LONG $0x0e6de3c4; WORD $0xaad6 // vpblendw    ymm2, ymm2, ymm6, 170
-	LONG $0xd75cecc5               // vsubps    ymm2, ymm2, ymm7
-	LONG $0xd258d4c5               // vaddps    ymm2, ymm5, ymm2
-	LONG $0x0e5de3c4; WORD $0xaadb // vpblendw    ymm3, ymm4, ymm3, 170
-	LONG $0xd472ddc5; BYTE $0x10   // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae6 // vpblendw    ymm4, ymm4, ymm6, 170
-	LONG $0xe75cdcc5               // vsubps    ymm4, ymm4, ymm7
-	LONG $0xdc58e4c5               // vaddps    ymm3, ymm3, ymm4
-	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1108:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1109:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	LONG $0x2abae1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1109
-	JMP  LBB0_1553
-
-LBB0_1110:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1111:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1113
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x08 // vcvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfbe1c4; WORD $0xfa04             // vcvttsd2si    rax, qword [rdx + 8*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x18 // vcvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x38 // vcvttsd2si    rax, qword [rdx + 8*rdi + 56]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x30 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x20 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 32]
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x40 // vcvttsd2si    rax, qword [rdx + 8*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x60 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 96]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-
-LBB0_1113:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1114:
-	LONG $0x2cfbe1c4; WORD $0xf204 // vcvttsd2si    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1114
-	JMP  LBB0_1553
-
-LBB0_1115:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1116:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1118
-	LONG $0x045afdc5; BYTE $0xfa   // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4c5afdc5; WORD $0x20fa // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x545afdc5; WORD $0x40fa // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c5afdc5; WORD $0x60fa // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1118:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1119:
-	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0xc05afbc5             // vcvtsd2ss    xmm0, xmm0, xmm0
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1119
-	JMP  LBB0_1553
-
-LBB0_1120:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1121:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1123
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1123:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1124:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1124
-	JMP  LBB0_1553
-
-LBB0_1125:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1126:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1128
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1128:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1129:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1129
-	JMP  LBB0_1553
-
-LBB0_1130:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1131:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1133
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1133:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1134:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1134
-	JMP  LBB0_1553
-
-LBB0_1135:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1136:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1138
-	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
-	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0   // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8   // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x646ffac5; WORD $0x20fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x6c6ffac5; WORD $0x30fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x16f9e3c4; WORD $0x01e0 // vpextrq    rax, xmm4, 1
-	LONG $0x2179e3c4; WORD $0x10c2 // vinsertps    xmm0, xmm0, xmm2, 16
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0   // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x20c3 // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x2179e3c4; WORD $0x30c1 // vinsertps    xmm0, xmm0, xmm1, 48
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2159e3c4; WORD $0x10ca // vinsertps    xmm1, xmm4, xmm2, 16
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x20ce // vinsertps    xmm1, xmm1, xmm6, 32
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x2161e3c4; WORD $0x10d4 // vinsertps    xmm2, xmm3, xmm4, 16
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2169e3c4; WORD $0x20d6 // vinsertps    xmm2, xmm2, xmm6, 32
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3 // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x5c6ffac5; WORD $0x60fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x70fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 112]
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x10dc // vinsertps    xmm3, xmm3, xmm4, 16
-	LONG $0x2161e3c4; WORD $0x20de // vinsertps    xmm3, xmm3, xmm6, 32
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x30dc // vinsertps    xmm3, xmm3, xmm4, 48
-	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1138:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1139:
-	LONG $0x2abae1c4; WORD $0xf204 // vcvtsi2ss    xmm0, xmm8, qword [rdx + 8*rsi]
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1139
-	JMP  LBB0_1553
-
-LBB0_1140:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1141:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1143
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x04 // vcvttss2si    rax, dword [rdx + 4*rdi + 4]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfae1c4; WORD $0xba04             // vcvttss2si    rax, dword [rdx + 4*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x0c // vcvttss2si    rax, dword [rdx + 4*rdi + 12]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x1c // vcvttss2si    rax, dword [rdx + 4*rdi + 28]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x18 // vcvttss2si    rbx, dword [rdx + 4*rdi + 24]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
-	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x10 // vcvttss2si    rbx, dword [rdx + 4*rdi + 16]
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x20 // vcvttss2si    rax, dword [rdx + 4*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x30 // vcvttss2si    rbx, dword [rdx + 4*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-
-LBB0_1143:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1144:
-	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1144
-
-LBB0_1553:
-	VZEROUPPER
-	RET
-
-LBB0_1145:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1146:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1146
-
-LBB0_1147:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1150
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1149:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1149
-
-LBB0_1150:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1151
-
-LBB0_1155:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1156:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1156
-
-LBB0_1157:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1160
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1159:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1159
-
-LBB0_1160:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1161
-
-LBB0_1165:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1166:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1166
-
-LBB0_1167:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1170
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1169:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1169
-
-LBB0_1170:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1171
-
-LBB0_1175:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1176:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1176
-
-LBB0_1177:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1180
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1179:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1179
-
-LBB0_1180:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1181
-
-LBB0_1185:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1186:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1188
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1188:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1189
-
-LBB0_1193:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1194:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1196
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1196:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1197
-
-LBB0_1201:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1202:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1204
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1204:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1205
-
-LBB0_1209:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1210:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1212
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1212:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1213
-
-LBB0_1217:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1218:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1220
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1220:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1221
-
-LBB0_1225:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1226:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1228
-	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1228:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1229
-
-LBB0_1233:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1234:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1236
-	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1236:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1237
-
-LBB0_1241:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1242:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1244
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1244:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1245
-
-LBB0_1249:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1250:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1252
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0xc06bf9c5               // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0xca6be9c5               // vpackssdw    xmm1, xmm2, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1252:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1253
-
-LBB0_1257:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1258:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1260
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1260:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1261
-
-LBB0_1265:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1266:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1268
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1268:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1269
-
-LBB0_1273:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1274:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1276
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1276:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1277
-
-LBB0_1281:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1282:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1284
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1284:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1285
-
-LBB0_1289:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1290:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1292
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1292:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1293
-
-LBB0_1297:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1298:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1300
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5               // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5               // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1300:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1301
-
-LBB0_1305:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1306:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1308
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1308:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1309
-
-LBB0_1313:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1314:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1316
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1316:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1317
-
-LBB0_1321:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1322:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1324
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1324:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1325
-
-LBB0_1329:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1330:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1332
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1332:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1333
-
-LBB0_1337:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1338:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1340
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1340:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1341
-
-LBB0_1345:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1346:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1348
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1348:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1349
-
-LBB0_1353:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1354:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1356
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1356:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1357
-
-LBB0_1361:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1362:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1364
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1364:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1365
-
-LBB0_1369:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1370:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1372
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1372:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1373
-
-LBB0_1377:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1378:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1380
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1380:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1381
-
-LBB0_1385:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1386:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1388
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1388:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1389
-
-LBB0_1393:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1394:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1396
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1396:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1397
-
-LBB0_1401:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1402:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1404
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1404:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1405
-
-LBB0_1409:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1410:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1412
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1412:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1413
-
-LBB0_1417:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1418:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1420
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1420:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1421
-
-LBB0_1425:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1426:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1428
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1428:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1429
-
-LBB0_1433:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1434:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1436
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1436:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1437
-
-LBB0_1441:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1442:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1444
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1444:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1445
-
-LBB0_1449:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1450:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1452
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x2b79e2c4; BYTE $0xc0   // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0xc067f9c5               // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x2b71e2c4; BYTE $0xc9   // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x2b69e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm2, xmm2
-	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0x2b69e2c4; BYTE $0xd2   // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5               // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1452:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1453
-
-LBB0_1457:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1458:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1460
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1460:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1461
-
-LBB0_1465:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1466:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1468
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1468:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1469
-
-LBB0_1473:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1474:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1476
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1476:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1477
-
-LBB0_1481:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1482:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1484
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1484:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1485
-
-LBB0_1489:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1490:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1492
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1492:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1493
-
-LBB0_1497:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1498:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1500
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5               // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5               // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1500:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1501
-
-LBB0_1505:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1506:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1508
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1508:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1509
-
-LBB0_1513:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1514:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1516
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1516:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1517
-
-LBB0_1521:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1522:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1524
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1524:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1525
-
-LBB0_1529:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1530:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1532
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1532:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1533
-
-LBB0_1537:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1538:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1540
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1540:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1541
-
-LBB0_1545:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1546:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1548
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1548:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1549
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
deleted file mode 100644
index 0b491244dcc44..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"golang.org/x/sys/cpu"
-)
-
-//go:noescape
-func _cast_type_numeric_neon(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericNeon(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_neon(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		castNumericUnsafe = castNumericNeon
-	} else {
-		castNumericUnsafe = castNumericGo
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
deleted file mode 100644
index c54eac4403c43..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
+++ /dev/null
@@ -1,6087 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_cast_type_numeric_neon(SB), $0-40
-
-    MOVD itype+0(FP), R0
-    MOVD otype+8(FP), R1
-    MOVD in+16(FP), R2
-    MOVD out+24(FP), R3
-    MOVD len+32(FP), R4
-
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100181f // cmp    w0, #6
-    WORD $0x910003fd // mov    x29, sp
-    BGT LBB0_17
-
-    WORD $0x71000c1f // cmp    w0, #3
-    BLE LBB0_29    
-
-    WORD $0x7100101f // cmp    w0, #4
-    BEQ LBB0_53    
-
-    WORD $0x7100141f // cmp    w0, #5
-    BEQ LBB0_61
-    
-    WORD $0x7100181f // cmp    w0, #6
-    BNE LBB0_893    
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_109    
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_191    
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_347
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_350
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_14
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_894
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_894
-LBB0_14:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_15:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_16:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_16
-    JMP LBB0_893
-LBB0_17:
-    WORD $0x7100201f // cmp    w0, #8
-    BLE LBB0_43
-
-    WORD $0x7100241f // cmp    w0, #9
-    BEQ LBB0_69
-
-    WORD $0x71002c1f // cmp    w0, #11
-    BEQ LBB0_77
-
-    WORD $0x7100301f // cmp    w0, #12
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_116
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_200
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_353
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_356
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_643
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_646
-LBB0_29:
-    WORD $0x7100081f // cmp    w0, #2
-    BEQ LBB0_85
-
-    WORD $0x71000c1f // cmp    w0, #3
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_127
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_209
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_359
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_366
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_40
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_897
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_897
-LBB0_40:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_41:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_42:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_42
-    JMP LBB0_893
-LBB0_43:
-    WORD $0x71001c1f // cmp    w0, #7
-    BEQ LBB0_97
-
-    WORD $0x7100201f // cmp    w0, #8
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_138
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_218
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_373
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_376
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_648
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_651
-LBB0_53:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_145
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_227
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_379
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_386
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_653
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_656
-LBB0_61:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_152
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_236
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_393
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_400
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_658
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_661
-LBB0_69:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_159
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_245
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_407
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_410
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_663
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_666
-LBB0_77:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_166
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_254
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_413
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_416
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_668
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_671
-LBB0_85:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_173
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_263
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_419
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_426
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_94
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_900
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_900
-LBB0_94:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_95:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_96:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_96
-    JMP LBB0_893
-LBB0_97:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_184
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_272
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_433
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_436
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_106
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_903
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_903
-LBB0_106:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_107:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_108:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_108
-    JMP LBB0_893
-LBB0_109:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_281
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_439
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_442
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_673
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_676
-LBB0_116:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_286
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_445
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_448
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_124
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_906
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_906
-LBB0_124:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_125:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_126:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_126
-    JMP LBB0_893
-LBB0_127:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_291
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_451
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_458
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_135
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_909
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_909
-LBB0_135:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_136:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_137:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_137
-    JMP LBB0_893
-LBB0_138:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_300
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_465
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_472
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_678
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_681
-LBB0_145:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_309
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_475
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_478
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_683
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_686
-LBB0_152:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_314
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_481
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_484
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_688
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_691
-LBB0_159:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_319
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_487
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_494
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_693
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_696
-LBB0_166:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_328
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_497
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_500
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_698
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_701
-LBB0_173:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_333
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_507
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_514
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_181
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_912
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_912
-LBB0_181:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_182:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_183:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_183
-    JMP LBB0_893
-LBB0_184:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_342
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_521
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_524
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_703
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_706
-LBB0_191:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_527
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_197
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_915
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_915
-LBB0_197:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_198:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_199:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_199
-    JMP LBB0_893
-LBB0_200:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_534
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_206
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_918
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_918
-LBB0_206:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_207:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_208:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_208
-    JMP LBB0_893
-LBB0_209:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_541
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_215
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_921
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_921
-LBB0_215:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_216:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_217:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_217
-    JMP LBB0_893
-LBB0_218:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_548
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_224
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_924
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_924
-LBB0_224:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_225:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_226:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_226
-    JMP LBB0_893
-LBB0_227:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_555
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_233
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_927
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_927
-LBB0_233:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_234:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_235:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_235
-    JMP LBB0_893
-LBB0_236:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_562
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_242
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_930
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_930
-LBB0_242:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_243:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_244:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_244
-    JMP LBB0_893
-LBB0_245:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_569
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_251
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_933
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_933
-LBB0_251:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_252:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_253:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_253
-    JMP LBB0_893
-LBB0_254:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_576
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_260
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_936
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_936
-LBB0_260:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_261:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_262:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_262
-    JMP LBB0_893
-LBB0_263:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_583
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_269
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_939
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_939
-LBB0_269:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_270:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_271:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_271
-    JMP LBB0_893
-LBB0_272:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_590
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_278
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_942
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_942
-LBB0_278:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_279:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_280:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_280
-    JMP LBB0_893
-LBB0_281:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_597
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_708
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_711
-LBB0_286:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_604
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_713
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_716
-LBB0_291:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_607
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_297
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_945
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_945
-LBB0_297:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_298:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_299:
-    WORD $0x3880152b // ldrsb    x11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_299
-    JMP LBB0_893
-LBB0_300:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_614
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_306
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_948
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_948
-LBB0_306:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_307:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_308:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_308
-    JMP LBB0_893
-LBB0_309:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_617
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_718
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_721
-LBB0_314:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_620
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_723
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_726
-LBB0_319:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_623
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_325
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_951
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_951
-LBB0_325:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_326:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_327:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_327
-    JMP LBB0_893
-LBB0_328:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_626
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_728
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_731
-LBB0_333:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_629
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_339
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_954
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_954
-LBB0_339:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_340:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_341:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_341
-    JMP LBB0_893
-LBB0_342:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_636
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_733
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_736
-LBB0_347:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_738
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_741
-LBB0_350:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_743
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_746
-LBB0_353:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_748
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_751
-LBB0_356:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_753
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_756
-LBB0_359:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_363
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_957
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_957
-LBB0_363:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_364:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_365:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_365
-    JMP LBB0_893
-LBB0_366:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_370
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_960
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_960
-LBB0_370:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_371:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_372:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_372
-    JMP LBB0_893
-LBB0_373:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_758
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_761
-LBB0_376:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_763
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_766
-LBB0_379:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_383
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_963
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_963
-LBB0_383:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_384:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_385:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_385
-    JMP LBB0_893
-LBB0_386:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_390
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_966
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_966
-LBB0_390:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_391:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_392:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_392
-    JMP LBB0_893
-LBB0_393:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_397
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_969
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_969
-LBB0_397:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_398:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_399:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_399
-    JMP LBB0_893
-LBB0_400:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_404
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_972
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_972
-LBB0_404:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_405:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_406:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_406
-    JMP LBB0_893
-LBB0_407:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_768
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_771
-LBB0_410:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_773
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_776
-LBB0_413:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_778
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_781
-LBB0_416:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_783
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_786
-LBB0_419:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_423
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_975
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_975
-LBB0_423:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_424:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_425:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_425
-    JMP LBB0_893
-LBB0_426:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_430
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_978
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_978
-LBB0_430:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_431:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_432:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_432
-    JMP LBB0_893
-LBB0_433:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_788
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_791
-LBB0_436:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_793
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_796
-LBB0_439:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_798
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_801
-LBB0_442:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_803
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_806
-LBB0_445:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_808
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_811
-LBB0_448:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_813
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_816
-LBB0_451:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_455
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_981
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_981
-LBB0_455:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_456:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_457:
-    WORD $0x3880152b // ldrsb    x11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_457
-    JMP LBB0_893
-LBB0_458:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_462
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_984
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_984
-LBB0_462:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_463:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_464:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e220160 // scvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_464
-    JMP LBB0_893
-LBB0_465:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_469
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_987
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_987
-LBB0_469:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_470:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_471:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_471
-    JMP LBB0_893
-LBB0_472:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_818
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_821
-LBB0_475:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_823
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_826
-LBB0_478:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_828
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_831
-LBB0_481:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_833
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_836
-LBB0_484:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_838
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_841
-LBB0_487:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_491
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_990
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_990
-LBB0_491:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_492:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_493:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_493
-    JMP LBB0_893
-LBB0_494:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_843
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_846
-LBB0_497:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_848
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_851
-LBB0_500:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_504
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_993
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_993
-LBB0_504:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_505:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_506:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_506
-    JMP LBB0_893
-LBB0_507:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_511
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_996
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_996
-LBB0_511:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_512:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_513:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_513
-    JMP LBB0_893
-LBB0_514:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_518
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_999
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_999
-LBB0_518:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_519:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_520:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e230160 // ucvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_520
-    JMP LBB0_893
-LBB0_521:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_853
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_856
-LBB0_524:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_858
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_861
-LBB0_527:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_531
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1002
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1002
-LBB0_531:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_532:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_533:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_533
-    JMP LBB0_893
-LBB0_534:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_538
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1005
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1005
-LBB0_538:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_539:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_540:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_540
-    JMP LBB0_893
-LBB0_541:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_545
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1008
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1008
-LBB0_545:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_546:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_547:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_547
-    JMP LBB0_893
-LBB0_548:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_552
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1011
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1011
-LBB0_552:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_553:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_554:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_554
-    JMP LBB0_893
-LBB0_555:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_559
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1014
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1014
-LBB0_559:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_560:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_561:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_561
-    JMP LBB0_893
-LBB0_562:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_566
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1017
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1017
-LBB0_566:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_567:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_568:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_568
-    JMP LBB0_893
-LBB0_569:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_573
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1020
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1020
-LBB0_573:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_574:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_575:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_575
-    JMP LBB0_893
-LBB0_576:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_580
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1023
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1023
-LBB0_580:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_581:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_582:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_582
-    JMP LBB0_893
-LBB0_583:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_587
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1026
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1026
-LBB0_587:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_588:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_589:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_589
-    JMP LBB0_893
-LBB0_590:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_594
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1029
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1029
-LBB0_594:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_595:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_596:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_596
-    JMP LBB0_893
-LBB0_597:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_601
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_1032
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1032
-LBB0_601:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_602:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_603:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_603
-    JMP LBB0_893
-LBB0_604:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_863
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_866
-LBB0_607:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_611
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1035
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1035
-LBB0_611:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_612:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_613:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_613
-    JMP LBB0_893
-LBB0_614:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_868
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_871
-LBB0_617:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_873
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_876
-LBB0_620:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_878
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_881
-LBB0_623:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_883
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_886
-LBB0_626:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_888
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_891
-LBB0_629:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_633
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1038
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1038
-LBB0_633:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_634:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_635:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_635
-    JMP LBB0_893
-LBB0_636:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_640
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_1041
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1041
-LBB0_640:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_641:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_642:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_642
-    JMP LBB0_893
-LBB0_643:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_644:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_644
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_646:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_647:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e79000b // fcvtzu    w11, d0
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_647
-    JMP LBB0_893
-LBB0_648:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_649:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_649
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_651:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_652:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_652
-    JMP LBB0_893
-LBB0_653:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_654:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_654
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_656:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_657:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_657
-    JMP LBB0_893
-LBB0_658:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_659:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_659
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_661:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_662:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_662
-    JMP LBB0_893
-LBB0_663:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_664:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_664
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_666:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_667:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_667
-    JMP LBB0_893
-LBB0_668:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_669:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
-    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
-    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
-    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
-    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
-    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
-    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
-    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_669
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_671:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_672:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e39000b // fcvtzu    w11, s0
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_672
-    JMP LBB0_893
-LBB0_673:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_674:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_674
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_676:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_677:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_677
-    JMP LBB0_893
-LBB0_678:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_679:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_679
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_681:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_682:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7e61d800 // ucvtf    d0, d0
-    WORD $0xfc008520 // str    d0, [x9], #8
-    BNE LBB0_682
-    JMP LBB0_893
-LBB0_683:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0x2f01e660 // movi    d0, #0x00ffff0000ffff
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_684:
-    WORD $0xacc10984 // ldp    q4, q2, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x6e044081 // ext    v1.16b, v4.16b, v4.16b, #8
-    WORD $0x0e023c8d // umov    w13, v4.h[0]
-    WORD $0x0e0a3c8f // umov    w15, v4.h[2]
-    WORD $0x6e024043 // ext    v3.16b, v2.16b, v2.16b, #8
-    WORD $0x0e063c8e // umov    w14, v4.h[1]
-    WORD $0x0e0e3c90 // umov    w16, v4.h[3]
-    WORD $0x0e023c51 // umov    w17, v2.h[0]
-    WORD $0x0e063c52 // umov    w18, v2.h[1]
-    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
-    WORD $0x1e2701a4 // fmov    s4, w13
-    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
-    WORD $0x1e2701e2 // fmov    s2, w15
-    WORD $0x0e023c2f // umov    w15, v1.h[0]
-    WORD $0x1e270006 // fmov    s6, w0
-    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
-    WORD $0x1e2701e7 // fmov    s7, w15
-    WORD $0x0e023c6f // umov    w15, v3.h[0]
-    WORD $0x1e270010 // fmov    s16, w0
-    WORD $0x0e0a3c60 // umov    w0, v3.h[2]
-    WORD $0x1e2701f1 // fmov    s17, w15
-    WORD $0x4e0c1da6 // mov    v6.s[1], w13
-    WORD $0x0e063c6d // umov    w13, v3.h[1]
-    WORD $0x1e270225 // fmov    s5, w17
-    WORD $0x0e063c31 // umov    w17, v1.h[1]
-    WORD $0x0e0e3c2f // umov    w15, v1.h[3]
-    WORD $0x1e270001 // fmov    s1, w0
-    WORD $0x4e0c1db1 // mov    v17.s[1], w13
-    WORD $0x0e0e3c6d // umov    w13, v3.h[3]
-    WORD $0x4e0c1dc4 // mov    v4.s[1], w14
-    WORD $0x4e0c1e02 // mov    v2.s[1], w16
-    WORD $0x4e0c1e45 // mov    v5.s[1], w18
-    WORD $0x4e0c1e27 // mov    v7.s[1], w17
-    WORD $0x4e0c1df0 // mov    v16.s[1], w15
-    WORD $0x4e0c1da1 // mov    v1.s[1], w13
-    WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
-    WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
-    WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
-    WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
-    WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
-    WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
-    WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
-    WORD $0x0e201c21 // and    v1.8b, v1.8b, v0.8b
-    WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
-    WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
-    WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
-    WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
-    WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
-    WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-    WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-    WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0xad021564 // stp    q4, q5, [x11, #64]
-    WORD $0xad000963 // stp    q3, q2, [x11]
-    WORD $0xad030570 // stp    q16, q1, [x11, #96]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0x9102016b // add    x11, x11, #128
-    BNE LBB0_684
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_686:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_687:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_687
-    JMP LBB0_893
-LBB0_688:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_689:
-    WORD $0xacc10583 // ldp    q3, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x6e034060 // ext    v0.16b, v3.16b, v3.16b, #8
-    WORD $0x0e023c6d // umov    w13, v3.h[0]
-    WORD $0x0e0a3c6f // umov    w15, v3.h[2]
-    WORD $0x6e014022 // ext    v2.16b, v1.16b, v1.16b, #8
-    WORD $0x0e063c6e // umov    w14, v3.h[1]
-    WORD $0x0e0e3c70 // umov    w16, v3.h[3]
-    WORD $0x0e023c31 // umov    w17, v1.h[0]
-    WORD $0x0e063c32 // umov    w18, v1.h[1]
-    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
-    WORD $0x1e2701a3 // fmov    s3, w13
-    WORD $0x0e0e3c2d // umov    w13, v1.h[3]
-    WORD $0x1e2701e1 // fmov    s1, w15
-    WORD $0x0e023c0f // umov    w15, v0.h[0]
-    WORD $0x1e270005 // fmov    s5, w0
-    WORD $0x0e0a3c00 // umov    w0, v0.h[2]
-    WORD $0x1e2701e6 // fmov    s6, w15
-    WORD $0x0e023c4f // umov    w15, v2.h[0]
-    WORD $0x1e270007 // fmov    s7, w0
-    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
-    WORD $0x1e2701f0 // fmov    s16, w15
-    WORD $0x4e0c1da5 // mov    v5.s[1], w13
-    WORD $0x0e063c4d // umov    w13, v2.h[1]
-    WORD $0x1e270224 // fmov    s4, w17
-    WORD $0x0e063c11 // umov    w17, v0.h[1]
-    WORD $0x0e0e3c0f // umov    w15, v0.h[3]
-    WORD $0x1e270000 // fmov    s0, w0
-    WORD $0x4e0c1db0 // mov    v16.s[1], w13
-    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
-    WORD $0x4e0c1dc3 // mov    v3.s[1], w14
-    WORD $0x4e0c1e01 // mov    v1.s[1], w16
-    WORD $0x4e0c1e44 // mov    v4.s[1], w18
-    WORD $0x4e0c1e26 // mov    v6.s[1], w17
-    WORD $0x4e0c1de7 // mov    v7.s[1], w15
-    WORD $0x4e0c1da0 // mov    v0.s[1], w13
-    WORD $0x0f305462 // shl    v2.2s, v3.2s, #16
-    WORD $0x0f305421 // shl    v1.2s, v1.2s, #16
-    WORD $0x0f305483 // shl    v3.2s, v4.2s, #16
-    WORD $0x0f3054a4 // shl    v4.2s, v5.2s, #16
-    WORD $0x0f3054c5 // shl    v5.2s, v6.2s, #16
-    WORD $0x0f3054e6 // shl    v6.2s, v7.2s, #16
-    WORD $0x0f305607 // shl    v7.2s, v16.2s, #16
-    WORD $0x0f305400 // shl    v0.2s, v0.2s, #16
-    WORD $0x0f300442 // sshr    v2.2s, v2.2s, #16
-    WORD $0x0f300421 // sshr    v1.2s, v1.2s, #16
-    WORD $0x0f300463 // sshr    v3.2s, v3.2s, #16
-    WORD $0x0f300484 // sshr    v4.2s, v4.2s, #16
-    WORD $0x0f3004a5 // sshr    v5.2s, v5.2s, #16
-    WORD $0x0f3004c6 // sshr    v6.2s, v6.2s, #16
-    WORD $0x0f3004e7 // sshr    v7.2s, v7.2s, #16
-    WORD $0x0f300400 // sshr    v0.2s, v0.2s, #16
-    WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
-    WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
-    WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
-    WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
-    WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
-    WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
-    WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
-    WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0xad021163 // stp    q3, q4, [x11, #64]
-    WORD $0xad000562 // stp    q2, q1, [x11]
-    WORD $0xad030167 // stp    q7, q0, [x11, #96]
-    WORD $0xad011965 // stp    q5, q6, [x11, #32]
-    WORD $0x9102016b // add    x11, x11, #128
-    BNE LBB0_689
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_691:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_692:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_692
-    JMP LBB0_893
-LBB0_693:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_694:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_694
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_696:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_697:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x5e61d800 // scvtf    d0, d0
-    WORD $0xfc008520 // str    d0, [x9], #8
-    BNE LBB0_697
-    JMP LBB0_893
-LBB0_698:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_699:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_699
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_701:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_702:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e22c000 // fcvt    d0, s0
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_702
-    JMP LBB0_893
-LBB0_703:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_704:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_704
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_706:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_707:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_707
-    JMP LBB0_893
-LBB0_708:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_709:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_709
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_711:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_712:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_712
-    JMP LBB0_893
-LBB0_713:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_714:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_714
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_716:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_717:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e79000b // fcvtzu    x11, d0
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_717
-    JMP LBB0_893
-LBB0_718:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_719:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
-    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_719
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_721:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_722:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_722
-    JMP LBB0_893
-LBB0_723:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_724:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
-    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_724
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_726:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_727:
-    WORD $0x7880252b // ldrsh    x11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_727
-    JMP LBB0_893
-LBB0_728:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_729:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_729
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_731:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_732:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e39000b // fcvtzu    x11, s0
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_732
-    JMP LBB0_893
-LBB0_733:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_734:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_734
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_736:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_737:
-    WORD $0xb880452b // ldrsw    x11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_737
-    JMP LBB0_893
-LBB0_738:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_739:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_739
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_741:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_742:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_742
-    JMP LBB0_893
-LBB0_743:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_744:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_744
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_746:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_747:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_747
-    JMP LBB0_893
-LBB0_748:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_749:
-    WORD $0xad400983 // ldp    q3, q2, [x12]
-    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-    WORD $0x1e26004f // fmov    w15, s2
-    WORD $0x4e061da3 // mov    v3.h[1], w13
-    WORD $0x0e0c3ced // mov    w13, v7.s[1]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
-    WORD $0x4e061da7 // mov    v7.h[1], w13
-    WORD $0x4e0a1de3 // mov    v3.h[2], w15
-    WORD $0x1e2600cf // fmov    w15, s6
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
-    WORD $0x4e0a1de7 // mov    v7.h[2], w15
-    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
-    WORD $0x1e2600ae // fmov    w14, s5
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-    WORD $0x0e0c3caf // mov    w15, v5.s[1]
-    WORD $0x4e0e1da7 // mov    v7.h[3], w13
-    WORD $0x4e121dc3 // mov    v3.h[4], w14
-    WORD $0x1e26002e // fmov    w14, s1
-    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
-    WORD $0x4e121dc7 // mov    v7.h[4], w14
-    WORD $0x4e161de3 // mov    v3.h[5], w15
-    WORD $0x1e26008f // fmov    w15, s4
-    WORD $0x4e161da7 // mov    v7.h[5], w13
-    WORD $0x4e1a1de3 // mov    v3.h[6], w15
-    WORD $0x1e26000f // fmov    w15, s0
-    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
-    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
-    WORD $0x4e1a1de7 // mov    v7.h[6], w15
-    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
-    WORD $0x4e1e1da7 // mov    v7.h[7], w13
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac811d63 // stp    q3, q7, [x11], #32
-    BNE LBB0_749
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_751:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_752:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_752
-    JMP LBB0_893
-LBB0_753:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_754:
-    WORD $0xad400983 // ldp    q3, q2, [x12]
-    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-    WORD $0x1e26004f // fmov    w15, s2
-    WORD $0x4e061da3 // mov    v3.h[1], w13
-    WORD $0x0e0c3ced // mov    w13, v7.s[1]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
-    WORD $0x4e061da7 // mov    v7.h[1], w13
-    WORD $0x4e0a1de3 // mov    v3.h[2], w15
-    WORD $0x1e2600cf // fmov    w15, s6
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
-    WORD $0x4e0a1de7 // mov    v7.h[2], w15
-    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
-    WORD $0x1e2600ae // fmov    w14, s5
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-    WORD $0x0e0c3caf // mov    w15, v5.s[1]
-    WORD $0x4e0e1da7 // mov    v7.h[3], w13
-    WORD $0x4e121dc3 // mov    v3.h[4], w14
-    WORD $0x1e26002e // fmov    w14, s1
-    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
-    WORD $0x4e121dc7 // mov    v7.h[4], w14
-    WORD $0x4e161de3 // mov    v3.h[5], w15
-    WORD $0x1e26008f // fmov    w15, s4
-    WORD $0x4e161da7 // mov    v7.h[5], w13
-    WORD $0x4e1a1de3 // mov    v3.h[6], w15
-    WORD $0x1e26000f // fmov    w15, s0
-    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
-    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
-    WORD $0x4e1a1de7 // mov    v7.h[6], w15
-    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
-    WORD $0x4e1e1da7 // mov    v7.h[7], w13
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac811d63 // stp    q3, q7, [x11], #32
-    BNE LBB0_754
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_756:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_757:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_757
-    JMP LBB0_893
-LBB0_758:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_759:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_759
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_761:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_762:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_762
-    JMP LBB0_893
-LBB0_763:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_764:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_764
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_766:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_767:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_767
-    JMP LBB0_893
-LBB0_768:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_769:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_769
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_771:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_772:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_772
-    JMP LBB0_893
-LBB0_773:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_774:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_774
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_776:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_777:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_777
-    JMP LBB0_893
-LBB0_778:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_779:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
-    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
-    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
-    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
-    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
-    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
-    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
-    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_779
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_781:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_782:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_782
-    JMP LBB0_893
-LBB0_783:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_784:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
-    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_784
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_786:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_787:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_787
-    JMP LBB0_893
-LBB0_788:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_789:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_789
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_791:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_792:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_792
-    JMP LBB0_893
-LBB0_793:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_794:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_794
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_796:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_797:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_797
-    JMP LBB0_893
-LBB0_798:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_799:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_799
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_801:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_802:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_802
-    JMP LBB0_893
-LBB0_803:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_804:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
-    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
-    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
-    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_804
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_806:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_807:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7e21d800 // ucvtf    s0, s0
-    WORD $0xbc004520 // str    s0, [x9], #4
-    BNE LBB0_807
-    JMP LBB0_893
-LBB0_808:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_809:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_809
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_811:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_812:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e78000b // fcvtzs    x11, d0
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_812
-    JMP LBB0_893
-LBB0_813:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_814:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_814
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_816:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_817:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e624000 // fcvt    s0, d0
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_817
-    JMP LBB0_893
-LBB0_818:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_819:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_819
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_821:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_822:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e230160 // ucvtf    s0, x11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_822
-    JMP LBB0_893
-LBB0_823:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_824:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
-    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_824
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_826:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_827:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_827
-    JMP LBB0_893
-LBB0_828:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_829:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
-    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
-    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
-    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
-    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_829
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_831:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_832:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e230160 // ucvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_832
-    JMP LBB0_893
-LBB0_833:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_834:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
-    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_834
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_836:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_837:
-    WORD $0x7880252b // ldrsh    x11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_837
-    JMP LBB0_893
-LBB0_838:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_839:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
-    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
-    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
-    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
-    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_839
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_841:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_842:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e220160 // scvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_842
-    JMP LBB0_893
-LBB0_843:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_844:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_844
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_846:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_847:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e220160 // scvtf    s0, x11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_847
-    JMP LBB0_893
-LBB0_848:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_849:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_849
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_851:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_852:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e38000b // fcvtzs    x11, s0
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_852
-    JMP LBB0_893
-LBB0_853:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_854:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_854
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_856:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_857:
-    WORD $0xb880452b // ldrsw    x11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_857
-    JMP LBB0_893
-LBB0_858:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_859:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
-    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
-    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
-    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_859
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_861:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_862:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x5e21d800 // scvtf    s0, s0
-    WORD $0xbc004520 // str    s0, [x9], #4
-    BNE LBB0_862
-    JMP LBB0_893
-LBB0_863:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_864:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_864
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_866:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_867:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_867
-    JMP LBB0_893
-LBB0_868:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_869:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_869
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_871:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_872:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_872
-    JMP LBB0_893
-LBB0_873:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_874:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_874
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_876:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_877:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_877
-    JMP LBB0_893
-LBB0_878:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_879:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_879
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_881:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_882:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_882
-    JMP LBB0_893
-LBB0_883:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_884:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_884
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_886:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_887:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_887
-    JMP LBB0_893
-LBB0_888:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_889:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
-    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_889
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_891:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_892:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_892
-LBB0_893:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    RET
-LBB0_894:
-    WORD $0x927b6909 // and x9, x8, #0xffffffe0
-	WORD $0x9101004a // add x10, x2, #64
-	WORD $0x9101006b // add x11, x3, #64
-	WORD $0xaa0903ec // mov x12, x9
-LBB0_895:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_895
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_15
-LBB0_897:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_898:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
-	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_898
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_41
-LBB0_900:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_901:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
-	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_901
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_95
-LBB0_903:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_904:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_904
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_107
-LBB0_906:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_907:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_907
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_125
-LBB0_909:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_910:
-	WORD $0x3cc10581 // ldr    q1, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e014020 // ext    v0.16b, v1.16b, v1.16b, #8
-	WORD $0x0e013c2d // umov    w13, v1.b[0]
-	WORD $0x0e053c2f // umov    w15, v1.b[2]
-	WORD $0x0e093c31 // umov    w17, v1.b[4]
-	WORD $0x1e2701a2 // fmov    s2, w13
-	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
-	WORD $0x1e2701e3 // fmov    s3, w15
-	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
-	WORD $0x1e270224 // fmov    s4, w17
-	WORD $0x0e013c11 // umov    w17, v0.b[0]
-	WORD $0x1e2701e5 // fmov    s5, w15
-	WORD $0x0e053c0f // umov    w15, v0.b[2]
-	WORD $0x1e270226 // fmov    s6, w17
-	WORD $0x4e0c1da4 // mov    v4.s[1], w13
-	WORD $0x0e033c0d // umov    w13, v0.b[1]
-	WORD $0x0e093c11 // umov    w17, v0.b[4]
-	WORD $0x1e2701e7 // fmov    s7, w15
-	WORD $0x4e0c1da6 // mov    v6.s[1], w13
-	WORD $0x0e073c0d // umov    w13, v0.b[3]
-	WORD $0x0e0d3c0f // umov    w15, v0.b[6]
-	WORD $0x1e270230 // fmov    s16, w17
-	WORD $0x4e0c1da7 // mov    v7.s[1], w13
-	WORD $0x0e0b3c0d // umov    w13, v0.b[5]
-	WORD $0x0e033c2e // umov    w14, v1.b[1]
-	WORD $0x0e073c30 // umov    w16, v1.b[3]
-	WORD $0x0e0f3c31 // umov    w17, v1.b[7]
-	WORD $0x1e2701e1 // fmov    s1, w15
-	WORD $0x4e0c1db0 // mov    v16.s[1], w13
-	WORD $0x0e0f3c0d // umov    w13, v0.b[7]
-	WORD $0x4e0c1dc2 // mov    v2.s[1], w14
-	WORD $0x4e0c1e03 // mov    v3.s[1], w16
-	WORD $0x4e0c1e25 // mov    v5.s[1], w17
-	WORD $0x4e0c1da1 // mov    v1.s[1], w13
-	WORD $0x0f385440 // shl    v0.2s, v2.2s, #24
-	WORD $0x0f385462 // shl    v2.2s, v3.2s, #24
-	WORD $0x0f385483 // shl    v3.2s, v4.2s, #24
-	WORD $0x0f3854a4 // shl    v4.2s, v5.2s, #24
-	WORD $0x0f3854c5 // shl    v5.2s, v6.2s, #24
-	WORD $0x0f3854e6 // shl    v6.2s, v7.2s, #24
-	WORD $0x0f385607 // shl    v7.2s, v16.2s, #24
-	WORD $0x0f385421 // shl    v1.2s, v1.2s, #24
-	WORD $0x0f280400 // sshr    v0.2s, v0.2s, #24
-	WORD $0x0f280442 // sshr    v2.2s, v2.2s, #24
-	WORD $0x0f280463 // sshr    v3.2s, v3.2s, #24
-	WORD $0x0f280484 // sshr    v4.2s, v4.2s, #24
-	WORD $0x0f2804a5 // sshr    v5.2s, v5.2s, #24
-	WORD $0x0f2804c6 // sshr    v6.2s, v6.2s, #24
-	WORD $0x0f2804e7 // sshr    v7.2s, v7.2s, #24
-	WORD $0x0f280421 // sshr    v1.2s, v1.2s, #24
-	WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
-	WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
-	WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
-	WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
-	WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
-	WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
-	WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
-	WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
-	WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-	WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-	WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-	WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-	WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-	WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-	WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-	WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-	WORD $0xad011163 // stp    q3, q4, [x11, #32]
-	WORD $0xad000960 // stp    q0, q2, [x11]
-	WORD $0xad030567 // stp    q7, q1, [x11, #96]
-	WORD $0xad021965 // stp    q5, q6, [x11, #64]
-	WORD $0x9102016b // add    x11, x11, #128
-	BNE LBB0_910
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_136
-LBB0_912:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0x2f00e620 // movi    d0, #0x0000ff000000ff
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_913:
-	WORD $0x3cc10582 // ldr    q2, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e024041 // ext    v1.16b, v2.16b, v2.16b, #8
-	WORD $0x0e013c4d // umov    w13, v2.b[0]
-	WORD $0x0e053c4f // umov    w15, v2.b[2]
-	WORD $0x0e093c51 // umov    w17, v2.b[4]
-	WORD $0x1e2701a3 // fmov    s3, w13
-	WORD $0x0e0b3c4d // umov    w13, v2.b[5]
-	WORD $0x1e2701e4 // fmov    s4, w15
-	WORD $0x0e0d3c4f // umov    w15, v2.b[6]
-	WORD $0x1e270225 // fmov    s5, w17
-	WORD $0x0e013c31 // umov    w17, v1.b[0]
-	WORD $0x1e2701e6 // fmov    s6, w15
-	WORD $0x0e053c2f // umov    w15, v1.b[2]
-	WORD $0x1e270227 // fmov    s7, w17
-	WORD $0x4e0c1da5 // mov    v5.s[1], w13
-	WORD $0x0e033c2d // umov    w13, v1.b[1]
-	WORD $0x0e093c31 // umov    w17, v1.b[4]
-	WORD $0x1e2701f0 // fmov    s16, w15
-	WORD $0x4e0c1da7 // mov    v7.s[1], w13
-	WORD $0x0e073c2d // umov    w13, v1.b[3]
-	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
-	WORD $0x1e270231 // fmov    s17, w17
-	WORD $0x4e0c1db0 // mov    v16.s[1], w13
-	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
-	WORD $0x0e033c4e // umov    w14, v2.b[1]
-	WORD $0x0e073c50 // umov    w16, v2.b[3]
-	WORD $0x0e0f3c51 // umov    w17, v2.b[7]
-	WORD $0x1e2701e2 // fmov    s2, w15
-	WORD $0x4e0c1db1 // mov    v17.s[1], w13
-	WORD $0x0e0f3c2d // umov    w13, v1.b[7]
-	WORD $0x4e0c1dc3 // mov    v3.s[1], w14
-	WORD $0x4e0c1e04 // mov    v4.s[1], w16
-	WORD $0x4e0c1e26 // mov    v6.s[1], w17
-	WORD $0x4e0c1da2 // mov    v2.s[1], w13
-	WORD $0x0e201c61 // and    v1.8b, v3.8b, v0.8b
-	WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
-	WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
-	WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
-	WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
-	WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
-	WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
-	WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
-	WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
-	WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
-	WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
-	WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
-	WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
-	WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-	WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-	WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
-	WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-	WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-	WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-	WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-	WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-	WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-	WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
-	WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-	WORD $0xad011564 // stp    q4, q5, [x11, #32]
-	WORD $0xad000d61 // stp    q1, q3, [x11]
-	WORD $0xad030970 // stp    q16, q2, [x11, #96]
-	WORD $0xad021d66 // stp    q6, q7, [x11, #64]
-	WORD $0x9102016b // add    x11, x11, #128
-	BNE LBB0_913
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_182
-LBB0_915:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_916:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_916
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_198
-LBB0_918:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_919:
-	WORD $0xad401d84 // ldp    q4, q7, [x12]
-	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
-	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
-	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-	WORD $0x0e023c8d // umov    w13, v4.h[0]
-	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
-	WORD $0x0e063c8e // umov    w14, v4.h[1]
-	WORD $0x1e2701a1 // fmov    s1, w13
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
-	WORD $0x4e031dc1 // mov    v1.b[1], w14
-	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
-	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
-	WORD $0x4e051da1 // mov    v1.b[2], w13
-	WORD $0x0e023cad // umov    w13, v5.h[0]
-	WORD $0x4e071dc1 // mov    v1.b[3], w14
-	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-	WORD $0x0e063cae // umov    w14, v5.h[1]
-	WORD $0x4e091da1 // mov    v1.b[4], w13
-	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-	WORD $0x0e0a3cad // umov    w13, v5.h[2]
-	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
-	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
-	WORD $0x0e0e3cae // umov    w14, v5.h[3]
-	WORD $0x4e0d1da1 // mov    v1.b[6], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e111da1 // mov    v1.b[8], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e131dc1 // mov    v1.b[9], w14
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e151da1 // mov    v1.b[10], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e171dc1 // mov    v1.b[11], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e191da1 // mov    v1.b[12], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e1d1da1 // mov    v1.b[14], w13
-	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x3c810561 // str    q1, [x11], #16
-	WORD $0x9102018c // add    x12, x12, #128
-	BNE LBB0_919
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_207
-LBB0_921:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_922:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_922
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_216
-LBB0_924:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_925:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_925
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_225
-LBB0_927:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_928:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_928
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_234
-LBB0_930:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_931:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_931
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_243
-LBB0_933:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_934:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_934
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_252
-LBB0_936:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_937:
-	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
-	WORD $0xad400545 // ldp    q5, q1, [x10]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-	WORD $0x0e612887 // xtn    v7.4h, v4.4s
-	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x0e023cce // umov    w14, v6.h[0]
-	WORD $0x1e2701a4 // fmov    s4, w13
-	WORD $0x0e063cef // umov    w15, v7.h[1]
-	WORD $0x1e2701c5 // fmov    s5, w14
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x4e031de4 // mov    v4.b[1], w15
-	WORD $0x0e063cce // umov    w14, v6.h[1]
-	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-	WORD $0x4e031dc5 // mov    v5.b[1], w14
-	WORD $0x0e0e3cee // umov    w14, v7.h[3]
-	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
-	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-	WORD $0x0e612800 // xtn    v0.4h, v0.4s
-	WORD $0x4e051da4 // mov    v4.b[2], w13
-	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x4e051da5 // mov    v5.b[2], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e071dc4 // mov    v4.b[3], w14
-	WORD $0x0e0e3cce // umov    w14, v6.h[3]
-	WORD $0x4e071dc5 // mov    v5.b[3], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e091da4 // mov    v4.b[4], w13
-	WORD $0x0e023c2d // umov    w13, v1.h[0]
-	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-	WORD $0x4e091da5 // mov    v5.b[4], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
-	WORD $0x0e063c2e // umov    w14, v1.h[1]
-	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e0d1da4 // mov    v4.b[6], w13
-	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
-	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
-	WORD $0x4e0d1da5 // mov    v5.b[6], w13
-	WORD $0x0e023c6d // umov    w13, v3.h[0]
-	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
-	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
-	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
-	WORD $0x0e063c6e // umov    w14, v3.h[1]
-	WORD $0x4e111da4 // mov    v4.b[8], w13
-	WORD $0x0e023e0d // umov    w13, v16.h[0]
-	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-	WORD $0x4e111da5 // mov    v5.b[8], w13
-	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
-	WORD $0x4e131dc4 // mov    v4.b[9], w14
-	WORD $0x0e063e0e // umov    w14, v16.h[1]
-	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-	WORD $0x0e612842 // xtn    v2.4h, v2.4s
-	WORD $0x4e131dc5 // mov    v5.b[9], w14
-	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
-	WORD $0x4e151da4 // mov    v4.b[10], w13
-	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x4e151da5 // mov    v5.b[10], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e171dc4 // mov    v4.b[11], w14
-	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
-	WORD $0x4e171dc5 // mov    v5.b[11], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e191da4 // mov    v4.b[12], w13
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x4e191da5 // mov    v5.b[12], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
-	WORD $0x0e063cee // umov    w14, v7.h[1]
-	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
-	WORD $0x4e1d1da4 // mov    v4.b[14], w13
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e1d1da5 // mov    v5.b[14], w13
-	WORD $0x0e0e3ced // umov    w13, v7.h[3]
-	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
-	WORD $0x4e1f1da5 // mov    v5.b[15], w13
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_937
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_261
-LBB0_939:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_940:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_940
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_270
-LBB0_942:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_943:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_943
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_279
-LBB0_945:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_946:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
-	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
-	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_946
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_298
-LBB0_948:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_949:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_949
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_307
-LBB0_951:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_952:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_952
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_326
-LBB0_954:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_955:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
-	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
-	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_955
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_340
-LBB0_957:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_958:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_958
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_364
-LBB0_960:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_961:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_961
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_371
-LBB0_963:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_964:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_964
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_384
-LBB0_966:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_967:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_967
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_391
-LBB0_969:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_970:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_970
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_398
-LBB0_972:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_973:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_973
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_405
-LBB0_975:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_976:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_976
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_424
-LBB0_978:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_979:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_979
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_431
-LBB0_981:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_982:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
-	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
-	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_982
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_456
-LBB0_984:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_985:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
-	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
-	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
-	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
-	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
-	WORD $0x0f185442 // shl    v2.4h, v2.4h, #8
-	WORD $0x0f185400 // shl    v0.4h, v0.4h, #8
-	WORD $0x0f185463 // shl    v3.4h, v3.4h, #8
-	WORD $0x0f185421 // shl    v1.4h, v1.4h, #8
-	WORD $0x0f180442 // sshr    v2.4h, v2.4h, #8
-	WORD $0x0f180400 // sshr    v0.4h, v0.4h, #8
-	WORD $0x0f180463 // sshr    v3.4h, v3.4h, #8
-	WORD $0x0f180421 // sshr    v1.4h, v1.4h, #8
-	WORD $0x0f10a442 // sshll    v2.4s, v2.4h, #0
-	WORD $0x0f10a400 // sshll    v0.4s, v0.4h, #0
-	WORD $0x0f10a463 // sshll    v3.4s, v3.4h, #0
-	WORD $0x0f10a421 // sshll    v1.4s, v1.4h, #0
-	WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-	WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-	WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-	WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-	WORD $0xad000162 // stp    q2, q0, [x11]
-	WORD $0xad010563 // stp    q3, q1, [x11, #32]
-	WORD $0x9101016b // add    x11, x11, #64
-	BNE LBB0_985
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_463
-LBB0_987:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_988:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_988
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_470
-LBB0_990:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_991:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_991
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_492
-LBB0_993:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_994:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_994
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_505
-LBB0_996:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_997:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
-	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
-	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_997
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_512
-LBB0_999:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_1000:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
-	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
-	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
-	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
-	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
-	WORD $0x2f07b7e2 // bic    v2.4h, #255, lsl #8
-	WORD $0x2f07b7e0 // bic    v0.4h, #255, lsl #8
-	WORD $0x2f07b7e3 // bic    v3.4h, #255, lsl #8
-	WORD $0x2f07b7e1 // bic    v1.4h, #255, lsl #8
-	WORD $0x2f10a442 // ushll    v2.4s, v2.4h, #0
-	WORD $0x2f10a400 // ushll    v0.4s, v0.4h, #0
-	WORD $0x2f10a463 // ushll    v3.4s, v3.4h, #0
-	WORD $0x2f10a421 // ushll    v1.4s, v1.4h, #0
-	WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-	WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-	WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-	WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-	WORD $0xad000162 // stp    q2, q0, [x11]
-	WORD $0xad010563 // stp    q3, q1, [x11, #32]
-	WORD $0x9101016b // add    x11, x11, #64
-	BNE LBB0_1000
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_519
-LBB0_1002:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1003:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1003
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_532
-LBB0_1005:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_1006:
-	WORD $0xad401d84 // ldp    q4, q7, [x12]
-	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
-	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
-	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-	WORD $0x0e023c8d // umov    w13, v4.h[0]
-	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
-	WORD $0x0e063c8e // umov    w14, v4.h[1]
-	WORD $0x1e2701a1 // fmov    s1, w13
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
-	WORD $0x4e031dc1 // mov    v1.b[1], w14
-	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
-	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
-	WORD $0x4e051da1 // mov    v1.b[2], w13
-	WORD $0x0e023cad // umov    w13, v5.h[0]
-	WORD $0x4e071dc1 // mov    v1.b[3], w14
-	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-	WORD $0x0e063cae // umov    w14, v5.h[1]
-	WORD $0x4e091da1 // mov    v1.b[4], w13
-	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-	WORD $0x0e0a3cad // umov    w13, v5.h[2]
-	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
-	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
-	WORD $0x0e0e3cae // umov    w14, v5.h[3]
-	WORD $0x4e0d1da1 // mov    v1.b[6], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e111da1 // mov    v1.b[8], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e131dc1 // mov    v1.b[9], w14
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e151da1 // mov    v1.b[10], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e171dc1 // mov    v1.b[11], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e191da1 // mov    v1.b[12], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e1d1da1 // mov    v1.b[14], w13
-	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x3c810561 // str    q1, [x11], #16
-	WORD $0x9102018c // add    x12, x12, #128
-	BNE LBB0_1006
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_539
-LBB0_1008:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1009:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1009
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_546
-LBB0_1011:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1012:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1012
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_553
-LBB0_1014:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1015:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1015
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_560
-LBB0_1017:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1018:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1018
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_567
-LBB0_1020:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1021:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1021
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_574
-LBB0_1023:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1024:
-	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
-	WORD $0xad400545 // ldp    q5, q1, [x10]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-	WORD $0x0e612887 // xtn    v7.4h, v4.4s
-	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x0e023cce // umov    w14, v6.h[0]
-	WORD $0x1e2701a4 // fmov    s4, w13
-	WORD $0x0e063cef // umov    w15, v7.h[1]
-	WORD $0x1e2701c5 // fmov    s5, w14
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x4e031de4 // mov    v4.b[1], w15
-	WORD $0x0e063cce // umov    w14, v6.h[1]
-	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-	WORD $0x4e031dc5 // mov    v5.b[1], w14
-	WORD $0x0e0e3cee // umov    w14, v7.h[3]
-	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
-	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-	WORD $0x0e612800 // xtn    v0.4h, v0.4s
-	WORD $0x4e051da4 // mov    v4.b[2], w13
-	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x4e051da5 // mov    v5.b[2], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e071dc4 // mov    v4.b[3], w14
-	WORD $0x0e0e3cce // umov    w14, v6.h[3]
-	WORD $0x4e071dc5 // mov    v5.b[3], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e091da4 // mov    v4.b[4], w13
-	WORD $0x0e023c2d // umov    w13, v1.h[0]
-	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-	WORD $0x4e091da5 // mov    v5.b[4], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
-	WORD $0x0e063c2e // umov    w14, v1.h[1]
-	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e0d1da4 // mov    v4.b[6], w13
-	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
-	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
-	WORD $0x4e0d1da5 // mov    v5.b[6], w13
-	WORD $0x0e023c6d // umov    w13, v3.h[0]
-	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
-	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
-	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
-	WORD $0x0e063c6e // umov    w14, v3.h[1]
-	WORD $0x4e111da4 // mov    v4.b[8], w13
-	WORD $0x0e023e0d // umov    w13, v16.h[0]
-	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-	WORD $0x4e111da5 // mov    v5.b[8], w13
-	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
-	WORD $0x4e131dc4 // mov    v4.b[9], w14
-	WORD $0x0e063e0e // umov    w14, v16.h[1]
-	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-	WORD $0x0e612842 // xtn    v2.4h, v2.4s
-	WORD $0x4e131dc5 // mov    v5.b[9], w14
-	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
-	WORD $0x4e151da4 // mov    v4.b[10], w13
-	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x4e151da5 // mov    v5.b[10], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e171dc4 // mov    v4.b[11], w14
-	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
-	WORD $0x4e171dc5 // mov    v5.b[11], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e191da4 // mov    v4.b[12], w13
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x4e191da5 // mov    v5.b[12], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
-	WORD $0x0e063cee // umov    w14, v7.h[1]
-	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
-	WORD $0x4e1d1da4 // mov    v4.b[14], w13
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e1d1da5 // mov    v5.b[14], w13
-	WORD $0x0e0e3ced // umov    w13, v7.h[3]
-	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
-	WORD $0x4e1f1da5 // mov    v5.b[15], w13
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1024
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_581
-LBB0_1026:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1027:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1027
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_588
-LBB0_1029:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1030:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1030
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_595
-LBB0_1032:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1033:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_1033
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_602
-LBB0_1035:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100404a // add    x10, x2, #16
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1036:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
-	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_1036
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_612
-LBB0_1038:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100404a // add    x10, x2, #16
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1039:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
-	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_1039
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_634
-LBB0_1041:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1042:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-    WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-    WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_1042
-
-    WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_641
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
deleted file mode 100644
index 4c19e06dc704e..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _cast_type_numeric_sse4(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericSSE4(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_sse4(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
deleted file mode 100644
index 778118ffeeb4b..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
+++ /dev/null
@@ -1,9045 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0x0000000000000400
-DATA LCDATA1<>+0x018(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x020(SB)/8, $0x4f0000004f000000
-DATA LCDATA1<>+0x028(SB)/8, $0x4f0000004f000000
-DATA LCDATA1<>+0x030(SB)/8, $0x8000000080000000
-DATA LCDATA1<>+0x038(SB)/8, $0x8000000080000000
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
-DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x050(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x058(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x060(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x070(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x078(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x080(SB)/8, $0x4530000043300000
-DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x090(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x098(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x0a0(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x0a8(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x0b0(SB)/8, $0x0d0c090805040100
-DATA LCDATA1<>+0x0b8(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA1<>+0x0c0(SB)/8, $0x000000000c080400
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x0d0(SB)/8, $0x4b0000004b000000
-DATA LCDATA1<>+0x0d8(SB)/8, $0x4b0000004b000000
-DATA LCDATA1<>+0x0e0(SB)/8, $0x5300000053000000
-DATA LCDATA1<>+0x0e8(SB)/8, $0x5300000053000000
-DATA LCDATA1<>+0x0f0(SB)/8, $0x5300008053000080
-DATA LCDATA1<>+0x0f8(SB)/8, $0x5300008053000080
-DATA LCDATA1<>+0x100(SB)/8, $0x0e0c0a0806040200
-DATA LCDATA1<>+0x108(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x110(SB)/8, $0x000000005f000000
-GLOBL LCDATA1<>(SB), 8, $280
-
-TEXT ·_cast_type_numeric_sse4(SB), $0-40
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ in+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_45
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_53
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_93
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_163
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_263
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_266
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_12
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_761
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_761
-
-LBB0_12:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1104:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1106
-
-LBB0_1105:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1105
-
-LBB0_1106:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1107:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1107
-	JMP  LBB0_1526
-
-LBB0_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_61
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_69
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_100
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_168
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_269
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_272
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_446
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_448
-
-LBB0_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_77
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_107
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_173
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_275
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_278
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_34
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_763
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_763
-
-LBB0_34:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1482:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1484
-
-LBB0_1483:
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1483
-
-LBB0_1484:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1485:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1485
-	JMP  LBB0_1526
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_114
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_178
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_281
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_284
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_454
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_948
-
-LBB0_45:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_121
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_183
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_287
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_290
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_457
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_953
-
-LBB0_53:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_128
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_188
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_293
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_296
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_460
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_958
-
-LBB0_61:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_193
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_299
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_302
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_463
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_963
-
-LBB0_69:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_142
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_198
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_305
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_308
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_466
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_968
-
-LBB0_77:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_149
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_203
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_311
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_314
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_84
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_766
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_766
-
-LBB0_84:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1490:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1492
-
-LBB0_1491:
-	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1491
-
-LBB0_1492:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1493:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1493
-	JMP  LBB0_1526
-
-LBB0_85:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_156
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_208
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_317
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_320
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_92
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_769
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_769
-
-LBB0_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1114:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1116
-
-LBB0_1115:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1115
-
-LBB0_1116:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1117:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1117
-	JMP  LBB0_1526
-
-LBB0_93:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_213
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_323
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_326
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_475
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_477
-
-LBB0_100:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_218
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_329
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_332
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_106
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_771
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_771
-
-LBB0_106:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1124:
-	WORD $0x8944; BYTE $0xcf // mov    edi, r9d
-	WORD $0xf729             // sub    edi, esi
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1126
-
-LBB0_1125:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1125
-
-LBB0_1126:
-	LONG $0x07f88349 // cmp    r8, 7
-	JB   LBB0_1526
-
-LBB0_1127:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
-	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
-	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
-	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
-	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
-	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
-	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
-	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1127
-	JMP  LBB0_1526
-
-LBB0_107:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_223
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_335
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_338
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_483
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_485
-
-LBB0_114:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_228
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_341
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_344
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_488
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_973
-
-LBB0_121:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_233
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_347
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_350
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_491
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_493
-
-LBB0_128:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_238
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_353
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_356
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_496
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_498
-
-LBB0_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_243
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_359
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_362
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_501
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_503
-
-LBB0_142:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_248
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_365
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_368
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_506
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_979
-
-LBB0_149:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_253
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_371
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_374
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_509
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_511
-
-LBB0_156:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_258
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_377
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_380
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_514
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_516
-
-LBB0_163:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_383
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_167
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_773
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_773
-
-LBB0_167:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1498:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1500
-
-LBB0_1499:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1499
-
-LBB0_1500:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1501:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1501
-	JMP  LBB0_1526
-
-LBB0_168:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_386
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_172
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_776
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_776
-
-LBB0_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1506:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1508
-
-LBB0_1507:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1507
-
-LBB0_1508:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1509:
-	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1509
-	JMP  LBB0_1526
-
-LBB0_173:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_389
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_177
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_779
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_779
-
-LBB0_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1134:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1136
-
-LBB0_1135:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1135
-
-LBB0_1136:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1137:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1137
-	JMP  LBB0_1526
-
-LBB0_178:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_392
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_182
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_781
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_781
-
-LBB0_182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1322:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1324
-
-LBB0_1323:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1323
-
-LBB0_1324:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1325:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1325
-	JMP  LBB0_1526
-
-LBB0_183:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_395
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_187
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_784
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_784
-
-LBB0_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1330:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1332
-
-LBB0_1331:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1331
-
-LBB0_1332:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1333:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1333
-	JMP  LBB0_1526
-
-LBB0_188:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_398
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_192
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_787
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_787
-
-LBB0_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1514:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1516
-
-LBB0_1515:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1515
-
-LBB0_1516:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1517:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1517
-	JMP  LBB0_1526
-
-LBB0_193:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_401
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_197
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_790
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_790
-
-LBB0_197:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1338:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1340
-
-LBB0_1339:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1339
-
-LBB0_1340:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1341:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1341
-	JMP  LBB0_1526
-
-LBB0_198:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_404
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_202
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_793
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_793
-
-LBB0_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1522:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1524
-
-LBB0_1523:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1523
-
-LBB0_1524:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1525:
-	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1525
-	JMP  LBB0_1526
-
-LBB0_203:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_407
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_207
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_796
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_796
-
-LBB0_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1144:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1146
-
-LBB0_1145:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1145
-
-LBB0_1146:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1147:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1147
-	JMP  LBB0_1526
-
-LBB0_208:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_410
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_212
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_798
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_798
-
-LBB0_212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1346:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1348
-
-LBB0_1347:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1347
-
-LBB0_1348:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1349:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1349
-	JMP  LBB0_1526
-
-LBB0_213:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_413
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_549
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_807
-
-LBB0_218:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB0_416
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
-	LONG $0xff418d49                       // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8               // mov    r8d, r9d
-	LONG $0x03e08341                       // and    r8d, 3
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-	LONG $0x03f88348                       // cmp    rax, 3
-	JAE  LBB0_551
-	WORD $0xc031                           // xor    eax, eax
-	JMP  LBB0_553
-
-LBB0_223:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_419
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_227
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_808
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_808
-
-LBB0_227:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1154:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1156
-
-LBB0_1155:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1155
-
-LBB0_1156:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1157:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1157
-	JMP  LBB0_1526
-
-LBB0_228:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_422
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_232
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_810
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_810
-
-LBB0_232:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1164:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1166
-
-LBB0_1165:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1165
-
-LBB0_1166:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1167:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1167
-	JMP  LBB0_1526
-
-LBB0_233:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_425
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_562
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_818
-
-LBB0_238:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_428
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_564
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_825
-
-LBB0_243:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_431
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_247
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_826
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_826
-
-LBB0_247:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1174:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1176
-
-LBB0_1175:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1175
-
-LBB0_1176:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1177:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1177
-	JMP  LBB0_1526
-
-LBB0_248:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_434
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB0_569
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_571
-
-LBB0_253:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_437
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_257
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_828
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_828
-
-LBB0_257:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1184:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1186
-
-LBB0_1185:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1185
-
-LBB0_1186:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1187:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1187
-	JMP  LBB0_1526
-
-LBB0_258:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_440
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_577
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_836
-
-LBB0_263:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_579
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_984
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_582
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_989
-
-LBB0_269:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_585
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_994
-
-LBB0_272:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_588
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_999
-
-LBB0_275:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_277
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_837
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_837
-
-LBB0_277:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1354:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1356
-
-LBB0_1355:
-	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1355
-
-LBB0_1356:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1357:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1357
-	JMP  LBB0_1526
-
-LBB0_278:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_280
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_840
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_840
-
-LBB0_280:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1362:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1364
-
-LBB0_1363:
-	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1363
-
-LBB0_1364:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1365:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1365
-	JMP  LBB0_1526
-
-LBB0_281:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_597
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1004
-
-LBB0_284:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_600
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1009
-
-LBB0_287:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_289
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_843
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_843
-
-LBB0_289:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1194:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1196
-
-LBB0_1195:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1195
-
-LBB0_1196:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1197:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1197
-	JMP  LBB0_1526
-
-LBB0_290:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_292
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_845
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_845
-
-LBB0_292:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1204:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1206
-
-LBB0_1205:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1205
-
-LBB0_1206:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1207:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1207
-	JMP  LBB0_1526
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_295
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_847
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_847
-
-LBB0_295:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1214:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1216
-
-LBB0_1215:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1215
-
-LBB0_1216:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1217:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1217
-	JMP  LBB0_1526
-
-LBB0_296:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_298
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_849
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_849
-
-LBB0_298:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1224:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1226
-
-LBB0_1225:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1225
-
-LBB0_1226:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1227:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1227
-	JMP  LBB0_1526
-
-LBB0_299:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_615
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1014
-
-LBB0_302:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_618
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1019
-
-LBB0_305:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_621
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1024
-
-LBB0_308:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_624
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1029
-
-LBB0_311:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_313
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_851
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_851
-
-LBB0_313:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1370:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1372
-
-LBB0_1371:
-	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1371
-
-LBB0_1372:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1373:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1373
-	JMP  LBB0_1526
-
-LBB0_314:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_316
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_854
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_854
-
-LBB0_316:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1378:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1380
-
-LBB0_1379:
-	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1379
-
-LBB0_1380:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1381:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1381
-	JMP  LBB0_1526
-
-LBB0_317:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_633
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1034
-
-LBB0_320:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_636
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1039
-
-LBB0_323:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_639
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_863
-
-LBB0_326:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_641
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1044
-
-LBB0_329:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_644
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_646
-
-LBB0_332:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_649
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1049
-
-LBB0_335:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_337
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_864
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_864
-
-LBB0_337:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1234:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1236
-
-LBB0_1235:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1235
-
-LBB0_1236:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1237:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1237
-	JMP  LBB0_1526
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_340
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_866
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_866
-
-LBB0_340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1386:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1388
-
-LBB0_1387:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1387
-
-LBB0_1388:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1389:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1389
-	JMP  LBB0_1526
-
-LBB0_341:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_343
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_869
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_869
-
-LBB0_343:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1244:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1246
-
-LBB0_1245:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1245
-
-LBB0_1246:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1247:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1247
-	JMP  LBB0_1526
-
-LBB0_344:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_661
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1056
-
-LBB0_347:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_664
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_877
-
-LBB0_350:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_666
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1062
-
-LBB0_353:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_669
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_884
-
-LBB0_356:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1067
-
-LBB0_359:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_361
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_885
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_885
-
-LBB0_361:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1254:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1256
-
-LBB0_1255:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1255
-
-LBB0_1256:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1257:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1257
-	JMP  LBB0_1526
-
-LBB0_362:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_677
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_679
-
-LBB0_365:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_682
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_684
-
-LBB0_368:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_370
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_887
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_887
-
-LBB0_370:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1264:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1266
-
-LBB0_1265:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1265
-
-LBB0_1266:
-	LONG $0x07f88349 // cmp    r8, 7
-	JB   LBB0_1526
-
-LBB0_1267:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
-	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
-	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
-	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
-	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
-	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
-	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
-	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1267
-	JMP  LBB0_1526
-
-LBB0_371:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_373
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_889
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_889
-
-LBB0_373:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1274:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1276
-
-LBB0_1275:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1275
-
-LBB0_1276:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1277:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1277
-	JMP  LBB0_1526
-
-LBB0_374:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_376
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_891
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_891
-
-LBB0_376:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1394:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1396
-
-LBB0_1395:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1395
-
-LBB0_1396:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1397:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1397
-	JMP  LBB0_1526
-
-LBB0_377:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_696
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_900
-
-LBB0_380:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_698
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1072
-
-LBB0_383:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_385
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_901
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_901
-
-LBB0_385:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1402:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1404
-
-LBB0_1403:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1403
-
-LBB0_1404:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1405:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1405
-	JMP  LBB0_1526
-
-LBB0_386:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_388
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_904
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_904
-
-LBB0_388:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1410:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1412
-
-LBB0_1411:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1411
-
-LBB0_1412:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1413:
-	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1413
-	JMP  LBB0_1526
-
-LBB0_389:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_391
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_907
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_907
-
-LBB0_391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1284:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1286
-
-LBB0_1285:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1285
-
-LBB0_1286:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1287:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1287
-	JMP  LBB0_1526
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_394
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_909
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_909
-
-LBB0_394:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1418:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1420
-
-LBB0_1419:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1419
-
-LBB0_1420:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1421:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1421
-	JMP  LBB0_1526
-
-LBB0_395:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_397
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_912
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_912
-
-LBB0_397:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1426:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1428
-
-LBB0_1427:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1427
-
-LBB0_1428:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1429:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1429
-	JMP  LBB0_1526
-
-LBB0_398:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_400
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_915
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_915
-
-LBB0_400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1434:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1436
-
-LBB0_1435:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1435
-
-LBB0_1436:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1437:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1437
-	JMP  LBB0_1526
-
-LBB0_401:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_403
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_918
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_918
-
-LBB0_403:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1442:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1444
-
-LBB0_1443:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1443
-
-LBB0_1444:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1445:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1445
-	JMP  LBB0_1526
-
-LBB0_404:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_406
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_921
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_921
-
-LBB0_406:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1450:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1452
-
-LBB0_1451:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1451
-
-LBB0_1452:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1453:
-	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1453
-	JMP  LBB0_1526
-
-LBB0_407:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_409
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_924
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_924
-
-LBB0_409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1294:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1296
-
-LBB0_1295:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1295
-
-LBB0_1296:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1297:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1297
-	JMP  LBB0_1526
-
-LBB0_410:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_412
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_926
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_926
-
-LBB0_412:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1458:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1460
-
-LBB0_1459:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1459
-
-LBB0_1460:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1461:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1461
-	JMP  LBB0_1526
-
-LBB0_413:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_415
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_929
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_929
-
-LBB0_415:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1304:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1306
-
-LBB0_1305:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1305
-
-LBB0_1306:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1307:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1307
-	JMP  LBB0_1526
-
-LBB0_416:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_734
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1077
-
-LBB0_419:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_421
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_931
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_931
-
-LBB0_421:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1466:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1468
-
-LBB0_1467:
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1467
-
-LBB0_1468:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1469:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1469
-	JMP  LBB0_1526
-
-LBB0_422:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_740
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_943
-
-LBB0_425:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_743
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1082
-
-LBB0_428:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_746
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1087
-
-LBB0_431:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_749
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1092
-
-LBB0_434:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_752
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1097
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_439
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_934
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_934
-
-LBB0_439:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1474:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1476
-
-LBB0_1475:
-	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1475
-
-LBB0_1476:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1477:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1477
-	JMP  LBB0_1526
-
-LBB0_440:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_442
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_937
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_937
-
-LBB0_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1314:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1316
-
-LBB0_1315:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1315
-
-LBB0_1316:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1317:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1317
-	JMP  LBB0_1526
-
-LBB0_446:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_447:
-	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
-	WORD $0x0489; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0x04b94489                           // mov    dword [rcx + 4*rdi + 4], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x08b94489                           // mov    dword [rcx + 4*rdi + 8], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0x0cb94489                           // mov    dword [rcx + 4*rdi + 12], eax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_447
-
-LBB0_448:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_450:
-	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_450
-	JMP  LBB0_1526
-
-LBB0_454:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_944
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_456:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_456
-	JMP  LBB0_945
-
-LBB0_457:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_949
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_459:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_459
-	JMP  LBB0_950
-
-LBB0_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_954
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_462:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_462
-	JMP  LBB0_955
-
-LBB0_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_959
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_465:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_465
-	JMP  LBB0_960
-
-LBB0_466:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_964
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x204d280f         // movaps    xmm1, oword 32[rbp] /* [rip + .LCPI0_3] */
-	LONG $0x3055280f         // movaps    xmm2, oword 48[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_468:
-	LONG $0xba1c100f             // movups    xmm3, oword [rdx + 4*rdi]
-	LONG $0xba64100f; BYTE $0x10 // movups    xmm4, oword [rdx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xeb5b0ff3             // cvttps2dq    xmm5, xmm3
-	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
-	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
-	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
-	LONG $0x14380f66; BYTE $0xdd // blendvps    xmm3, xmm5, xmm0
-	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
-	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
-	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
-	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
-	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
-	LONG $0xb91c110f             // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0xb964110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm4
-	LONG $0xba5c100f; BYTE $0x20 // movups    xmm3, oword [rdx + 4*rdi + 32]
-	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xe35b0ff3             // cvttps2dq    xmm4, xmm3
-	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
-	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
-	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
-	LONG $0x14380f66; BYTE $0xdc // blendvps    xmm3, xmm4, xmm0
-	LONG $0xba64100f; BYTE $0x30 // movups    xmm4, oword [rdx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
-	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
-	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
-	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
-	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
-	LONG $0xb95c110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0xb964110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm4
-	LONG $0x10c78348             // add    rdi, 16
-	LONG $0x02c08348             // add    rax, 2
-	JNE  LBB0_468
-	JMP  LBB0_965
-
-LBB0_475:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_476:
-	WORD $0x048b; BYTE $0xba       // mov    eax, dword [rdx + 4*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x04ba448b               // mov    eax, dword [rdx + 4*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x08ba448b               // mov    eax, dword [rdx + 4*rdi + 8]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x0cba448b               // mov    eax, dword [rdx + 4*rdi + 12]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_476
-
-LBB0_477:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_479:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0 // cvtsi2sd    xmm0, rax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_479
-	JMP  LBB0_1526
-
-LBB0_483:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_484:
-	LONG $0x3a04be0f               // movsx    eax, byte [rdx + rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x3a44be0f; BYTE $0x01   // movsx    eax, byte [rdx + rdi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x3a44be0f; BYTE $0x02   // movsx    eax, byte [rdx + rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x3a44be0f; BYTE $0x03   // movsx    eax, byte [rdx + rdi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_484
-
-LBB0_485:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_487:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_487
-	JMP  LBB0_1526
-
-LBB0_488:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_969
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI0_6] */
-	LONG $0x556f0f66; BYTE $0x60 // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI0_7] */
-	LONG $0x5d280f66; BYTE $0x70 // movapd    xmm3, oword 112[rbp] /* [rip + .LCPI0_8] */
-
-LBB0_490:
-	LONG $0x246f0ff3; BYTE $0xfa   // movdqu    xmm4, oword [rdx + 8*rdi]
-	LONG $0x6c6f0ff3; WORD $0x10fa // movdqu    xmm5, oword [rdx + 8*rdi + 16]
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
-	LONG $0xe2eb0f66               // por    xmm4, xmm2
-	LONG $0xe35c0f66               // subpd    xmm4, xmm3
-	LONG $0xe6580f66               // addpd    xmm4, xmm6
-	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
-	LONG $0xeaeb0f66               // por    xmm5, xmm2
-	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
-	LONG $0xee580f66               // addpd    xmm5, xmm6
-	LONG $0x24110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm4
-	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
-	LONG $0x646f0ff3; WORD $0x20fa // movdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x6c6f0ff3; WORD $0x30fa // movdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
-	LONG $0xe2eb0f66               // por    xmm4, xmm2
-	LONG $0xe35c0f66               // subpd    xmm4, xmm3
-	LONG $0xe6580f66               // addpd    xmm4, xmm6
-	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
-	LONG $0xeaeb0f66               // por    xmm5, xmm2
-	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
-	LONG $0xee580f66               // addpd    xmm5, xmm6
-	LONG $0x64110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm4
-	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_490
-	JMP  LBB0_970
-
-LBB0_491:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_492:
-	LONG $0x7a04b70f               // movzx    eax, word [rdx + 2*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x7a44b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x7a44b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x7a44b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rdi + 6]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_492
-
-LBB0_493:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_495:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_495
-	JMP  LBB0_1526
-
-LBB0_496:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_497:
-	LONG $0x7a04bf0f               // movsx    eax, word [rdx + 2*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x7a44bf0f; BYTE $0x02   // movsx    eax, word [rdx + 2*rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x7a44bf0f; BYTE $0x04   // movsx    eax, word [rdx + 2*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x7a44bf0f; BYTE $0x06   // movsx    eax, word [rdx + 2*rdi + 6]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_497
-
-LBB0_498:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_500:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_500
-	JMP  LBB0_1526
-
-LBB0_501:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_502:
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa04             // cvtsi2sd    xmm0, qword [rdx + 8*rdi]
-	LONG $0x04110ff2; BYTE $0xf9               // movsd    qword [rcx + 8*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x08 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 8]
-	LONG $0x44110ff2; WORD $0x08f9             // movsd    qword [rcx + 8*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x10 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 16]
-	LONG $0x44110ff2; WORD $0x10f9             // movsd    qword [rcx + 8*rdi + 16], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x18 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 24]
-	LONG $0x44110ff2; WORD $0x18f9             // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_502
-
-LBB0_503:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_505:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xf204 // cvtsi2sd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x04110ff2; BYTE $0xf1   // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_505
-	JMP  LBB0_1526
-
-LBB0_506:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_975
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_508:
-	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
-	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
-	LONG $0xf904110f               // movups    oword [rcx + 8*rdi], xmm0
-	LONG $0xf94c110f; BYTE $0x10   // movups    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0xba445a0f; BYTE $0x10   // cvtps2pd    xmm0, qword [rdx + 4*rdi + 16]
-	LONG $0xba4c5a0f; BYTE $0x18   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 24]
-	LONG $0x44110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm0
-	LONG $0x4c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_508
-	JMP  LBB0_976
-
-LBB0_509:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_510:
-	LONG $0x3a04b60f               // movzx    eax, byte [rdx + rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x3a44b60f; BYTE $0x01   // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x3a44b60f; BYTE $0x02   // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x3a44b60f; BYTE $0x03   // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_510
-
-LBB0_511:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_513:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_513
-	JMP  LBB0_1526
-
-LBB0_514:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_515:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x042a0ff2; BYTE $0xba   // cvtsi2sd    xmm0, dword [rdx + 4*rdi]
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x04ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 4]
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x08ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 8]
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x0cba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 12]
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_515
-
-LBB0_516:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_518:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x042a0ff2; BYTE $0xb2 // cvtsi2sd    xmm0, dword [rdx + 4*rsi]
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB0_518
-	JMP  LBB0_1526
-
-LBB0_549:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_801
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_803
-
-LBB0_551:
-	LONG $0xfce18341             // and    r9d, -4
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_552:
-	LONG $0x0c100ff2; BYTE $0xc2   // movsd    xmm1, qword [rdx + 8*rax]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xfa   // cvttsd2si    rdi, xmm2
-	WORD $0x314c; BYTE $0xd7       // xor    rdi, r10
-	LONG $0x2c0f48f2; BYTE $0xf1   // cvttsd2si    rsi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xf7460f48               // cmovbe    rsi, rdi
-	LONG $0xc1348948               // mov    qword [rcx + 8*rax], rsi
-	LONG $0x4c100ff2; WORD $0x08c2 // movsd    xmm1, qword [rdx + 8*rax + 8]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x08   // mov    qword [rcx + 8*rax + 8], rdi
-	LONG $0x4c100ff2; WORD $0x10c2 // movsd    xmm1, qword [rdx + 8*rax + 16]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x10   // mov    qword [rcx + 8*rax + 16], rdi
-	LONG $0x4c100ff2; WORD $0x18c2 // movsd    xmm1, qword [rdx + 8*rax + 24]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x18   // mov    qword [rcx + 8*rax + 24], rdi
-	LONG $0x04c08348               // add    rax, 4
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB0_552
-
-LBB0_553:
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xc10c8d48             // lea    rcx, [rcx + 8*rax]
-	LONG $0xc2048d48             // lea    rax, [rdx + 8*rax]
-	WORD $0xd231                 // xor    edx, edx
-	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_555:
-	LONG $0x0c100ff2; BYTE $0xd0 // movsd    xmm1, qword [rax + 8*rdx]
-	LONG $0xd1280f66             // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2             // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2 // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6     // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9 // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66             // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48             // cmovbe    rdi, rsi
-	LONG $0xd13c8948             // mov    qword [rcx + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
-	JNE  LBB0_555
-	JMP  LBB0_1526
-
-LBB0_562:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_812
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_814
-
-LBB0_564:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_819
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_821
-
-LBB0_569:
-	LONG $0xfce18341                       // and    r9d, -4
-	WORD $0xff31                           // xor    edi, edi
-	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-
-LBB0_570:
-	LONG $0x0c100ff3; BYTE $0xba   // movss    xmm1, dword [rdx + 4*rdi]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xf2   // cvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f3; BYTE $0xc1   // cvttss2si    rax, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xc6460f48               // cmovbe    rax, rsi
-	LONG $0xf9048948               // mov    qword [rcx + 8*rdi], rax
-	LONG $0x4c100ff3; WORD $0x04ba // movss    xmm1, dword [rdx + 4*rdi + 4]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x08   // mov    qword [rcx + 8*rdi + 8], rsi
-	LONG $0x4c100ff3; WORD $0x08ba // movss    xmm1, dword [rdx + 4*rdi + 8]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x10   // mov    qword [rcx + 8*rdi + 16], rsi
-	LONG $0x4c100ff3; WORD $0x0cba // movss    xmm1, dword [rdx + 4*rdi + 12]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x18   // mov    qword [rcx + 8*rdi + 24], rsi
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
-	JNE  LBB0_570
-
-LBB0_571:
-	WORD $0x854d; BYTE $0xc0               // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf9048d48                       // lea    rax, [rcx + 8*rdi]
-	LONG $0xba0c8d48                       // lea    rcx, [rdx + 4*rdi]
-	WORD $0xd231                           // xor    edx, edx
-	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-
-LBB0_573:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0x280f; BYTE $0xd1     // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3             // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xfa // cvttss2si    rdi, xmm2
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xf7460f48             // cmovbe    rsi, rdi
-	LONG $0xd0348948             // mov    qword [rax + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
-	JNE  LBB0_573
-	JMP  LBB0_1526
-
-LBB0_577:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_830
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_832
-
-LBB0_579:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_980
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_581:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_581
-	JMP  LBB0_981
-
-LBB0_582:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_985
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_584:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_584
-	JMP  LBB0_986
-
-LBB0_585:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_587:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_587
-	JMP  LBB0_991
-
-LBB0_588:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_995
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_590:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_590
-	JMP  LBB0_996
-
-LBB0_597:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1000
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_599:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_599
-	JMP  LBB0_1001
-
-LBB0_600:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1005
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_602:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_602
-	JMP  LBB0_1006
-
-LBB0_615:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1010
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_617:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_617
-	JMP  LBB0_1011
-
-LBB0_618:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1015
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_620:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_620
-	JMP  LBB0_1016
-
-LBB0_621:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1020
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_623:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_623
-	JMP  LBB0_1021
-
-LBB0_624:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1025
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_626:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_626
-	JMP  LBB0_1026
-
-LBB0_633:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1030
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_635:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_635
-	JMP  LBB0_1031
-
-LBB0_636:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1035
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_638:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_638
-	JMP  LBB0_1036
-
-LBB0_639:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_857
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_859
-
-LBB0_641:
-	WORD $0x8944; BYTE $0xce                   // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8                   // and    esi, -8
-	LONG $0xf8468d48                           // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x03e8c149                           // shr    r8, 3
-	LONG $0x01c08349                           // add    r8, 1
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	JE   LBB0_1040
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	LONG $0xfee08348                           // and    rax, -2
-	WORD $0xf748; BYTE $0xd8                   // neg    rax
-	WORD $0xff31                               // xor    edi, edi
-	QUAD $0x000000d0856f0f66                   // movdqa    xmm0, oword 208[rbp] /* [rip + .LCPI0_14] */
-	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI0_15] */
-	LONG $0xf095280f; WORD $0x0000; BYTE $0x00 // movaps    xmm2, oword 240[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_643:
-	LONG $0x1c6f0ff3; BYTE $0xba   // movdqu    xmm3, oword [rdx + 4*rdi]
-	LONG $0x646f0ff3; WORD $0x10ba // movdqu    xmm4, oword [rdx + 4*rdi + 16]
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
-	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
-	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
-	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
-	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
-	LONG $0xb91c110f               // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20ba // movdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646f0ff3; WORD $0x30ba // movdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
-	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
-	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
-	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
-	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
-	LONG $0xb95c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0xb964110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm4
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_643
-	JMP  LBB0_1041
-
-LBB0_644:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_645:
-	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
-	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_645
-
-LBB0_646:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_648:
-	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_648
-	JMP  LBB0_1526
-
-LBB0_649:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1045
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_651:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_651
-	JMP  LBB0_1046
-
-LBB0_661:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1050
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0956f0f66 // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_663:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcadb0f66                           // pand    xmm1, xmm2
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
-	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
-	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
-	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
-	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
-	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
-	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
-	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
-	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
-	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xc2db0f66                           // pand    xmm0, xmm2
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
-	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
-	LONG $0xb91c110f                           // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcadb0f66                           // pand    xmm1, xmm2
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
-	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
-	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
-	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
-	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
-	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
-	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
-	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
-	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
-	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xc2db0f66                           // pand    xmm0, xmm2
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
-	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
-	LONG $0xb95c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_663
-	JMP  LBB0_1051
-
-LBB0_664:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_871
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_873
-
-LBB0_666:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1058
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_668:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_668
-	JMP  LBB0_1059
-
-LBB0_669:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_878
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_880
-
-LBB0_671:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1063
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_673:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_673
-	JMP  LBB0_1064
-
-LBB0_677:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_678:
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa04             // cvtsi2ss    xmm0, qword [rdx + 8*rdi]
-	LONG $0x04110ff3; BYTE $0xb9               // movss    dword [rcx + 4*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x08 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 8]
-	LONG $0x44110ff3; WORD $0x04b9             // movss    dword [rcx + 4*rdi + 4], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x10 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 16]
-	LONG $0x44110ff3; WORD $0x08b9             // movss    dword [rcx + 4*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x18 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 24]
-	LONG $0x44110ff3; WORD $0x0cb9             // movss    dword [rcx + 4*rdi + 12], xmm0
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_678
-
-LBB0_679:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_681:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xf204 // cvtsi2ss    xmm0, qword [rdx + 8*rsi]
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_681
-	JMP  LBB0_1526
-
-LBB0_682:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_683:
-	LONG $0x2c0f48f3; WORD $0xba04             // cvttss2si    rax, dword [rdx + 4*rdi]
-	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x04 // cvttss2si    rax, dword [rdx + 4*rdi + 4]
-	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x08 // cvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x0c // cvttss2si    rax, dword [rdx + 4*rdi + 12]
-	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_683
-
-LBB0_684:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_686:
-	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_686
-	JMP  LBB0_1526
-
-LBB0_696:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_894
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_896
-
-LBB0_698:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1068
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_700:
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20 // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30 // movups    xmm1, oword [rdx + 4*rdi + 48]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348             // add    rdi, 16
-	LONG $0x02c08348             // add    rax, 2
-	JNE  LBB0_700
-	JMP  LBB0_1069
-
-LBB0_734:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1073
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_736:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_736
-	JMP  LBB0_1074
-
-LBB0_740:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_939
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_742:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_742
-	JMP  LBB0_940
-
-LBB0_743:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1078
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_745:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_745
-	JMP  LBB0_1079
-
-LBB0_746:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1083
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_748:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_748
-	JMP  LBB0_1084
-
-LBB0_749:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1088
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_751:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_751
-	JMP  LBB0_1089
-
-LBB0_752:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1093
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_754:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xb904110f               // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x44110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_754
-	JMP  LBB0_1094
-
-LBB0_761:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1098
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1100
-
-LBB0_763:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1478
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_765:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_765
-	JMP  LBB0_1479
-
-LBB0_766:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1486
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_1487
-
-LBB0_769:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1108
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1110
-
-LBB0_771:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1118
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1120
-
-LBB0_773:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1494
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_775:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_775
-	JMP  LBB0_1495
-
-LBB0_776:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1502
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-
-LBB0_778:
-	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_778
-	JMP  LBB0_1503
-
-LBB0_779:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1128
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1130
-
-LBB0_781:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1318
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_783:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_783
-	JMP  LBB0_1319
-
-LBB0_784:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1326
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_786:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_786
-	JMP  LBB0_1327
-
-LBB0_787:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1510
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_789:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_789
-	JMP  LBB0_1511
-
-LBB0_790:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1334
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_792:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_792
-	JMP  LBB0_1335
-
-LBB0_793:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1518
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_795:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_795
-	JMP  LBB0_1519
-
-LBB0_796:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1138
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1140
-
-LBB0_798:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1342
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_800:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_800
-	JMP  LBB0_1343
-
-LBB0_808:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1148
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1150
-
-LBB0_810:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1158
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1160
-
-LBB0_826:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1168
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1170
-
-LBB0_828:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1178
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1180
-
-LBB0_837:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1350
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_839:
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_839
-	JMP  LBB0_1351
-
-LBB0_840:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1358
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_842:
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_842
-	JMP  LBB0_1359
-
-LBB0_843:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1188
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1190
-
-LBB0_845:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1198
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1200
-
-LBB0_847:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1208
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1210
-
-LBB0_849:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1218
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1220
-
-LBB0_851:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1366
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_853:
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_853
-	JMP  LBB0_1367
-
-LBB0_854:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1374
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_856:
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_856
-	JMP  LBB0_1375
-
-LBB0_864:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1228
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1230
-
-LBB0_866:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1382
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_868:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_868
-	JMP  LBB0_1383
-
-LBB0_869:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1238
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1240
-
-LBB0_885:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1248
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1250
-
-LBB0_887:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1258
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1260
-
-LBB0_889:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1268
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1270
-
-LBB0_891:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1390
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_893:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_893
-	JMP  LBB0_1391
-
-LBB0_901:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1398
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_903:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_903
-	JMP  LBB0_1399
-
-LBB0_904:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1406
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-
-LBB0_906:
-	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_906
-	JMP  LBB0_1407
-
-LBB0_907:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1278
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1280
-
-LBB0_909:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1414
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_911:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_911
-	JMP  LBB0_1415
-
-LBB0_912:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1422
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_914:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_914
-	JMP  LBB0_1423
-
-LBB0_915:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1430
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_917:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_917
-	JMP  LBB0_1431
-
-LBB0_918:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1438
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_920:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_920
-	JMP  LBB0_1439
-
-LBB0_921:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1446
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_923:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_923
-	JMP  LBB0_1447
-
-LBB0_924:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1288
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1290
-
-LBB0_926:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1454
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_928:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_928
-	JMP  LBB0_1455
-
-LBB0_929:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1298
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1300
-
-LBB0_931:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1462
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_933:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_933
-	JMP  LBB0_1463
-
-LBB0_934:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1470
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_936:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_936
-	JMP  LBB0_1471
-
-LBB0_937:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1308
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1310
-
-LBB0_801:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_802:
-	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_802
-
-LBB0_803:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_806
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_805:
-	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_805
-
-LBB0_806:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_807:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_807
-	JMP  LBB0_1526
-
-LBB0_812:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_813:
-	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_813
-
-LBB0_814:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_817
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_816:
-	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_816
-
-LBB0_817:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_818:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_818
-	JMP  LBB0_1526
-
-LBB0_819:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_820:
-	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_820
-
-LBB0_821:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_824
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_823:
-	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_823
-
-LBB0_824:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_825:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_825
-	JMP  LBB0_1526
-
-LBB0_830:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_831:
-	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_831
-
-LBB0_832:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_835
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_834:
-	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_834
-
-LBB0_835:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_836:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_836
-	JMP  LBB0_1526
-
-LBB0_857:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_858:
-	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_858
-
-LBB0_859:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_862
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_861:
-	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_861
-
-LBB0_862:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_863:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_863
-	JMP  LBB0_1526
-
-LBB0_871:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_872:
-	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_872
-
-LBB0_873:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_876
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_875:
-	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_875
-
-LBB0_876:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_877:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_877
-	JMP  LBB0_1526
-
-LBB0_878:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_879:
-	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_879
-
-LBB0_880:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_883
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_882:
-	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_882
-
-LBB0_883:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_884:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_884
-	JMP  LBB0_1526
-
-LBB0_894:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_895:
-	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_895
-
-LBB0_896:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_899
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_898:
-	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_898
-
-LBB0_899:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_900:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_900
-	JMP  LBB0_1526
-
-LBB0_939:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_940:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_942
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_942:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_943:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_943
-	JMP  LBB0_1526
-
-LBB0_944:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_945:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_947
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_947:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_948:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_948
-	JMP  LBB0_1526
-
-LBB0_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_950:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_952
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_952:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_953:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_953
-	JMP  LBB0_1526
-
-LBB0_954:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_955:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_957
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_957:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_958:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_958
-	JMP  LBB0_1526
-
-LBB0_959:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_960:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_962
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_962:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_963:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_963
-	JMP  LBB0_1526
-
-LBB0_964:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_965:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_967
-	LONG $0xba0c100f             // movups    xmm1, oword [rdx + 4*rdi]
-	LONG $0xba54100f; BYTE $0x10 // movups    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x205d280f             // movaps    xmm3, oword 32[rbp] /* [rip + .LCPI0_3] */
-	WORD $0x280f; BYTE $0xc1     // movaps    xmm0, xmm1
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe15b0ff3             // cvttps2dq    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xcb     // subps    xmm1, xmm3
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0x306d280f             // movaps    xmm5, oword 48[rbp] /* [rip + .LCPI0_4] */
-	WORD $0x570f; BYTE $0xcd     // xorps    xmm1, xmm5
-	LONG $0x14380f66; BYTE $0xcc // blendvps    xmm1, xmm4, xmm0
-	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
-	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
-	WORD $0x570f; BYTE $0xd5     // xorps    xmm2, xmm5
-	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
-	LONG $0xb90c110f             // movups    oword [rcx + 4*rdi], xmm1
-	LONG $0xb954110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm2
-
-LBB0_967:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_968:
-	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_968
-	JMP  LBB0_1526
-
-LBB0_969:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_970:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_972
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd86f0f66               // movdqa    xmm3, xmm0
-	LONG $0x0e3a0f66; WORD $0xccda // pblendw    xmm3, xmm2, 204
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI0_6] */
-	LONG $0xdceb0f66               // por    xmm3, xmm4
-	LONG $0xd0730f66; BYTE $0x20   // psrlq    xmm0, 32
-	LONG $0x6d6f0f66; BYTE $0x60   // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI0_7] */
-	LONG $0xc5eb0f66               // por    xmm0, xmm5
-	LONG $0x75280f66; BYTE $0x70   // movapd    xmm6, oword 112[rbp] /* [rip + .LCPI0_8] */
-	LONG $0xc65c0f66               // subpd    xmm0, xmm6
-	LONG $0xc3580f66               // addpd    xmm0, xmm3
-	LONG $0x0e3a0f66; WORD $0x33d1 // pblendw    xmm2, xmm1, 51
-	LONG $0xd4eb0f66               // por    xmm2, xmm4
-	LONG $0xd1730f66; BYTE $0x20   // psrlq    xmm1, 32
-	LONG $0xcdeb0f66               // por    xmm1, xmm5
-	LONG $0xce5c0f66               // subpd    xmm1, xmm6
-	LONG $0xca580f66               // addpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB0_972:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_973:
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI0_9] */
-	QUAD $0x000000908d280f66 // movapd    xmm1, oword 144[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_974:
-	LONG $0x14100ff2; BYTE $0xf2 // movsd    xmm2, qword [rdx + 8*rsi]
-	WORD $0x140f; BYTE $0xd0     // unpcklps    xmm2, xmm0
-	LONG $0xd15c0f66             // subpd    xmm2, xmm1
-	LONG $0xda280f66             // movapd    xmm3, xmm2
-	LONG $0xda150f66             // unpckhpd    xmm3, xmm2
-	LONG $0xda580ff2             // addsd    xmm3, xmm2
-	LONG $0x1c110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm3
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_974
-	JMP  LBB0_1526
-
-LBB0_975:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_976:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_978
-	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
-	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB0_978:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_979:
-	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_979
-	JMP  LBB0_1526
-
-LBB0_980:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_981:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_983
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_983:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_984:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_984
-	JMP  LBB0_1526
-
-LBB0_985:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_986:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_988
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_988:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_989:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_989
-	JMP  LBB0_1526
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_991:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_993
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_993:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_994:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_994
-	JMP  LBB0_1526
-
-LBB0_995:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_996:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_998
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_998:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_999:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1526
-
-LBB0_1000:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1001:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1003
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1003:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1004:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1004
-	JMP  LBB0_1526
-
-LBB0_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1008
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1009:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1009
-	JMP  LBB0_1526
-
-LBB0_1010:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1011:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1013
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1013:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1014:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1014
-	JMP  LBB0_1526
-
-LBB0_1015:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1016:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1018
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1018:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1019:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1019
-	JMP  LBB0_1526
-
-LBB0_1020:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1021:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1023
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1 // packusdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1023:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1024:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1024
-	JMP  LBB0_1526
-
-LBB0_1025:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1026:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1028
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66             // packssdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1028:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1029:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1029
-	JMP  LBB0_1526
-
-LBB0_1030:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1031:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1033
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1033:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1034:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1034
-	JMP  LBB0_1526
-
-LBB0_1035:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1036:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1038
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1038:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1039:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1039
-	JMP  LBB0_1526
-
-LBB0_1040:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1041:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1043
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000d0956f0f66                   // movdqa    xmm2, oword 208[rbp] /* [rip + .LCPI0_14] */
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0x0e3a0f66; WORD $0xaada             // pblendw    xmm3, xmm2, 170
-	LONG $0xd0720f66; BYTE $0x10               // psrld    xmm0, 16
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI0_15] */
-	LONG $0x0e3a0f66; WORD $0xaac4             // pblendw    xmm0, xmm4, 170
-	LONG $0xf0ad280f; WORD $0x0000; BYTE $0x00 // movaps    xmm5, oword 240[rbp] /* [rip + .LCPI0_16] */
-	WORD $0x5c0f; BYTE $0xc5                   // subps    xmm0, xmm5
-	WORD $0x580f; BYTE $0xc3                   // addps    xmm0, xmm3
-	LONG $0x0e3a0f66; WORD $0x55d1             // pblendw    xmm2, xmm1, 85
-	LONG $0xd1720f66; BYTE $0x10               // psrld    xmm1, 16
-	LONG $0x0e3a0f66; WORD $0xaacc             // pblendw    xmm1, xmm4, 170
-	WORD $0x5c0f; BYTE $0xcd                   // subps    xmm1, xmm5
-	WORD $0x580f; BYTE $0xca                   // addps    xmm1, xmm2
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1043:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1044:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1044
-	JMP  LBB0_1526
-
-LBB0_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1046:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1048
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-
-LBB0_1048:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1049:
-	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0xc05a0ff2             // cvtsd2ss    xmm0, xmm0
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1049
-	JMP  LBB0_1526
-
-LBB0_1050:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1051:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1053
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI0_11] */
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe3db0f66                           // pand    xmm4, xmm3
-	LONG $0xd1730f66; BYTE $0x01               // psrlq    xmm1, 1
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x15380f66; BYTE $0xd1               // blendvpd    xmm2, xmm1, xmm0
-	LONG $0x3a0f4866; WORD $0xd016; BYTE $0x01 // pextrq    rax, xmm2, 1
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0x2a0f48f3; BYTE $0xe0               // cvtsi2ss    xmm4, rax
-	LONG $0x7e0f4866; BYTE $0xd0               // movq    rax, xmm2
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0x2a0f48f3; BYTE $0xd0               // cvtsi2ss    xmm2, rax
-	LONG $0xedef0f66                           // pxor    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe8               // pcmpgtq    xmm5, xmm0
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x213a0f66; WORD $0x1cd4             // insertps    xmm2, xmm4, 28
-	WORD $0x280f; BYTE $0xe2                   // movaps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe2                   // addps    xmm4, xmm2
-	LONG $0xf6ef0f66                           // pxor    xmm6, xmm6
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x37380f66; BYTE $0xf1               // pcmpgtq    xmm6, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	WORD $0x580f; BYTE $0xd9                   // addps    xmm3, xmm1
-	LONG $0xc6700f66; BYTE $0xed               // pshufd    xmm0, xmm6, 237
-	LONG $0x14380f66; BYTE $0xcb               // blendvps    xmm1, xmm3, xmm0
-	WORD $0x160f; BYTE $0xd1                   // movlhps    xmm2, xmm1
-	LONG $0xb914110f                           // movups    oword [rcx + 4*rdi], xmm2
-
-LBB0_1053:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JNE  LBB0_1056
-	JMP  LBB0_1526
-
-LBB0_1054:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JE   LBB0_1526
-
-LBB0_1056:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JNS  LBB0_1054
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0xc0580ff3             // addss    xmm0, xmm0
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1056
-	JMP  LBB0_1526
-
-LBB0_1058:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1059:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1061
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1061:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1062:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1062
-	JMP  LBB0_1526
-
-LBB0_1063:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1064:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1066
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1066:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1067:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1067
-	JMP  LBB0_1526
-
-LBB0_1068:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1069:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1071
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1071:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1072:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x042a0ff3; BYTE $0xb2 // cvtsi2ss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1072
-	JMP  LBB0_1526
-
-LBB0_1073:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1074:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1076
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-
-LBB0_1076:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1077:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1077
-	JMP  LBB0_1526
-
-LBB0_1078:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1079:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1081
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1081:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1082:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1082
-	JMP  LBB0_1526
-
-LBB0_1083:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1084:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1086
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1086:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1087:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1087
-	JMP  LBB0_1526
-
-LBB0_1088:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1089:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1091
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_1091:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1092:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1092
-	JMP  LBB0_1526
-
-LBB0_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1094:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1096
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1096:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1097:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1097
-
-LBB0_1526:
-	RET
-
-LBB0_1098:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1099:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1099
-
-LBB0_1100:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1103
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1102:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1102
-
-LBB0_1103:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1104
-
-LBB0_1108:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1109:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1109
-
-LBB0_1110:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1113
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1112:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1112
-
-LBB0_1113:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1114
-
-LBB0_1118:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1119:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1119
-
-LBB0_1120:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1123
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1122:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1122
-
-LBB0_1123:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1124
-
-LBB0_1128:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1129:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1129
-
-LBB0_1130:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1133
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1132:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1132
-
-LBB0_1133:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1134
-
-LBB0_1138:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1139:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1139
-
-LBB0_1140:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1143
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1142:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1142
-
-LBB0_1143:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1144
-
-LBB0_1148:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1149:
-	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1149
-
-LBB0_1150:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1153
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1152:
-	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1152
-
-LBB0_1153:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1154
-
-LBB0_1158:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1159:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1159
-
-LBB0_1160:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1163
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1162:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1162
-
-LBB0_1163:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1164
-
-LBB0_1168:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1169:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1169
-
-LBB0_1170:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1173
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1172:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1172
-
-LBB0_1173:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1174
-
-LBB0_1178:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1179:
-	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1179
-
-LBB0_1180:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1183
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1182:
-	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1182
-
-LBB0_1183:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1184
-
-LBB0_1188:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1189:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1189
-
-LBB0_1190:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1193
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1192:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1192
-
-LBB0_1193:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1194
-
-LBB0_1198:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1199:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1199
-
-LBB0_1200:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1203
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1202:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1202
-
-LBB0_1203:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1204
-
-LBB0_1208:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1209:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1209
-
-LBB0_1210:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1213
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1212:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1212
-
-LBB0_1213:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1214
-
-LBB0_1218:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1219:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1219
-
-LBB0_1220:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1223
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1222:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1222
-
-LBB0_1223:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1224
-
-LBB0_1228:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1229:
-	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1229
-
-LBB0_1230:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1233
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1232:
-	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1232
-
-LBB0_1233:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1234
-
-LBB0_1238:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1239:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1239
-
-LBB0_1240:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1243
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1242:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1242
-
-LBB0_1243:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1244
-
-LBB0_1248:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1249:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1249
-
-LBB0_1250:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1253
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1252:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1252
-
-LBB0_1253:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1254
-
-LBB0_1258:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1259:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1259
-
-LBB0_1260:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1263
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1262:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1262
-
-LBB0_1263:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1264
-
-LBB0_1268:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1269:
-	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1269
-
-LBB0_1270:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1273
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1272:
-	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1272
-
-LBB0_1273:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1274
-
-LBB0_1278:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1279:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1279
-
-LBB0_1280:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1283
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1282:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1282
-
-LBB0_1283:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1284
-
-LBB0_1288:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1289:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1289
-
-LBB0_1290:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1293
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1292:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1292
-
-LBB0_1293:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1294
-
-LBB0_1298:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1299:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1299
-
-LBB0_1300:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1303
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1302:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1302
-
-LBB0_1303:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1304
-
-LBB0_1308:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1309:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1309
-
-LBB0_1310:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1313
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1312:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1312
-
-LBB0_1313:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1314
-
-LBB0_1318:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1319:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1321
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1321:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1322
-
-LBB0_1326:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1327:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1329
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1329:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1330
-
-LBB0_1334:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1335:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1337
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1337:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1338
-
-LBB0_1342:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1343:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1345
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1345:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1346
-
-LBB0_1350:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1351:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1353
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1353:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1354
-
-LBB0_1358:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1359:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1361
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1361:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1362
-
-LBB0_1366:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1367:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1369
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1369:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1370
-
-LBB0_1374:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1375:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1377
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1377:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1378
-
-LBB0_1382:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1383:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1385
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1385:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1386
-
-LBB0_1390:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1391:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1393
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1393:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1394
-
-LBB0_1398:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1399:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1401
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1401:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1402
-
-LBB0_1406:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1407:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1409
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1409:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1410
-
-LBB0_1414:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1415:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1417
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1417:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1418
-
-LBB0_1422:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1423:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1425
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1425:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1426
-
-LBB0_1430:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1431:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1433
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1433:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1434
-
-LBB0_1438:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1439:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1441
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1441:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1442
-
-LBB0_1446:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1447:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1449
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1449:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1450
-
-LBB0_1454:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1455:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1457
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1457:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1458
-
-LBB0_1462:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1463:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1465
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1465:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1466
-
-LBB0_1470:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1471:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1473
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1473:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1474
-
-LBB0_1478:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1479:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1481
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1481:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1482
-
-LBB0_1486:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1487:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1489
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1489:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1490
-
-LBB0_1494:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1495:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1497
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1497:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1498
-
-LBB0_1502:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1503:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1505
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1505:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1506
-
-LBB0_1510:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1511:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1513
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1513:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1514
-
-LBB0_1518:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1519:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1521
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1521:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1522
diff --git a/go/arrow/compute/internal/kernels/cast_temporal.go b/go/arrow/compute/internal/kernels/cast_temporal.go
deleted file mode 100644
index 183d47654ec64..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_temporal.go
+++ /dev/null
@@ -1,463 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const millisecondsInDay = 86400000
-
-func ShiftTime[InT, OutT int32 | int64](ctx *exec.KernelCtx, op arrow.TimestampConvertOp, factor int64, input, output *exec.ArraySpan) error {
-	opts := ctx.State.(CastState)
-	inData := exec.GetSpanValues[InT](input, 1)
-	outData := exec.GetSpanValues[OutT](output, 1)
-
-	switch {
-	case factor == 1:
-		for i, v := range inData {
-			outData[i] = OutT(v)
-		}
-		return nil
-
-	case op == arrow.ConvMULTIPLY:
-		if opts.AllowTimeOverflow {
-			multiplyConstant(inData, outData, factor)
-			return nil
-		}
-
-		maxVal, minVal := math.MaxInt64/factor, math.MinInt64/factor
-		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
-			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
-			for i, v := range inData {
-				if bitReader.Set() && (int64(v) < minVal || int64(v) > maxVal) {
-					return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
-						arrow.ErrInvalid, input.Type, output.Type, v)
-				}
-				outData[i] = OutT(v) * OutT(factor)
-				bitReader.Next()
-			}
-			return nil
-		}
-
-		for i, v := range inData {
-			if int64(v) < minVal || int64(v) > maxVal {
-				return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
-					arrow.ErrInvalid, input.Type, output.Type, v)
-			}
-			outData[i] = OutT(v) * OutT(factor)
-		}
-		return nil
-	default:
-		if opts.AllowTimeTruncate {
-			divideConstant(inData, outData, factor)
-			return nil
-		}
-
-		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
-			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
-			for i, v := range inData {
-				outData[i] = OutT(v / InT(factor))
-				if bitReader.Set() && (InT(outData[i])*InT(factor) != v) {
-					return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
-						arrow.ErrInvalid, input.Type, output.Type, v)
-				}
-				bitReader.Next()
-			}
-			return nil
-		}
-
-		for i, v := range inData {
-			outData[i] = OutT(v / InT(factor))
-			if InT(outData[i])*InT(factor) != v {
-				return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
-					arrow.ErrInvalid, input.Type, output.Type, v)
-			}
-		}
-
-		return nil
-	}
-}
-
-func TimestampToDate32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date32 {
-		tm := fnToTime(arg0)
-		if _, offset := tm.Zone(); offset != 0 {
-			// normalize the tm
-			tm = tm.Add(time.Duration(offset) * time.Second).UTC()
-		}
-		return arrow.Date32FromTime(tm)
-	})(ctx, batch, out)
-}
-
-func TimestampToDate64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date64 {
-		tm := fnToTime(arg0)
-		if _, offset := tm.Zone(); offset != 0 {
-			// normalize the tm
-			tm = tm.Add(time.Duration(offset) * time.Second).UTC()
-		}
-		return arrow.Date64FromTime(tm)
-	})(ctx, batch, out)
-}
-
-func SimpleTemporalCast[I, O arrow.Duration | arrow.Time32 | arrow.Time64 | arrow.Timestamp](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input   = &batch.Values[0].Array
-		inType  = input.Type.(arrow.TemporalWithUnit)
-		outType = out.Type.(arrow.TemporalWithUnit)
-	)
-
-	if inType.TimeUnit() == outType.TimeUnit() && inType.BitWidth() == outType.BitWidth() {
-		dt := out.Type
-		for i := range out.Buffers {
-			if out.Buffers[i].SelfAlloc && out.Buffers[i].Owner != nil {
-				out.Buffers[i].Owner.Release()
-			}
-		}
-
-		*out = *input
-		out.Type = dt
-		return nil
-	}
-
-	op, factor := arrow.GetTimestampConvert(inType.TimeUnit(), outType.TimeUnit())
-	inSz := unsafe.Sizeof(I(0))
-	outSz := unsafe.Sizeof(O(0))
-	switch inSz {
-	case 4:
-		switch outSz {
-		case 4:
-			return ShiftTime[int32, int32](ctx, op, factor, input, out)
-		default:
-			return ShiftTime[int32, int64](ctx, op, factor, input, out)
-		}
-	default:
-		switch outSz {
-		case 4:
-			return ShiftTime[int64, int32](ctx, op, factor, input, out)
-		default:
-			return ShiftTime[int64, int64](ctx, op, factor, input, out)
-		}
-	}
-}
-
-func StringToTimestamp[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	outType := out.Type.(*arrow.TimestampType)
-	zn, err := outType.GetZone()
-	if err != nil {
-		return err
-	}
-
-	expectTimezone := outType.TimeZone != ""
-
-	return ScalarUnaryNotNullBinaryArg[arrow.Timestamp, OffsetT](func(_ *exec.KernelCtx, input []byte, err *error) arrow.Timestamp {
-		v := *(*string)(unsafe.Pointer(&input))
-		o, zonePresent, e := arrow.TimestampFromStringInLocation(v, outType.Unit, zn)
-		if e != nil {
-			*err = e
-		}
-
-		if zonePresent != expectTimezone {
-			if expectTimezone {
-				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s,"+
-					"expected a zone offset. If these timestamps are in local time, cast to timestamp without timezone",
-					arrow.ErrInvalid, v, outType)
-			} else {
-				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s, expected no zone offset",
-					arrow.ErrInvalid, v, outType)
-			}
-		}
-
-		return o
-	})(ctx, batch, out)
-}
-
-func TimestampToTime32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		inType  = batch.Values[0].Type().(*arrow.TimestampType)
-		outType = out.Type.(*arrow.Time32Type)
-		opts    = ctx.State.(CastState)
-	)
-
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
-		origFn := fnToTime
-		fnToTime = func(t arrow.Timestamp) time.Time {
-			v := origFn(t)
-			_, offset := v.Zone()
-			return v.Add(time.Duration(offset) * time.Second).UTC()
-		}
-	}
-
-	var fn func(time.Duration, *error) arrow.Time32
-	switch outType.Unit {
-	case arrow.Second:
-		fn = func(d time.Duration, _ *error) arrow.Time32 {
-			return arrow.Time32(d.Seconds())
-		}
-	case arrow.Millisecond:
-		fn = func(d time.Duration, _ *error) arrow.Time32 {
-			return arrow.Time32(d.Milliseconds())
-		}
-	default:
-		return fmt.Errorf("%w: bad unit type for cast to time32: %s",
-			arrow.ErrInvalid, outType.Unit)
-	}
-
-	op, factor := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
-	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
-		origFn := fn
-		switch inType.Unit {
-		case arrow.Millisecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Milliseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Milliseconds())
-				}
-				return v
-			}
-		case arrow.Microsecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Microseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Microseconds())
-				}
-				return v
-			}
-		case arrow.Nanosecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Nanoseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
-				}
-				return v
-			}
-		}
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time32 {
-		t := fnToTime(arg0)
-		dur := t.Sub(t.Truncate(24 * time.Hour))
-		return fn(dur, err)
-	})(ctx, batch, out)
-}
-
-func TimestampToTime64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		inType  = batch.Values[0].Type().(*arrow.TimestampType)
-		outType = out.Type.(*arrow.Time64Type)
-		opts    = ctx.State.(CastState)
-	)
-
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
-		origFn := fnToTime
-		fnToTime = func(t arrow.Timestamp) time.Time {
-			v := origFn(t)
-			_, offset := v.Zone()
-			return v.Add(time.Duration(offset) * time.Second).UTC()
-		}
-	}
-
-	var fn func(time.Duration, *error) arrow.Time64
-	op, _ := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
-	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
-		// only one case can happen here, microseconds. nanoseconds
-		// wouldn't be a downscale
-		fn = func(d time.Duration, err *error) arrow.Time64 {
-			if d.Nanoseconds() != d.Microseconds()*int64(time.Microsecond) {
-				*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
-			}
-			return arrow.Time64(d.Microseconds())
-		}
-	} else {
-		switch outType.Unit {
-		case arrow.Microsecond:
-			fn = func(d time.Duration, _ *error) arrow.Time64 {
-				return arrow.Time64(d.Microseconds())
-			}
-		case arrow.Nanosecond:
-			fn = func(d time.Duration, _ *error) arrow.Time64 {
-				return arrow.Time64(d.Nanoseconds())
-			}
-		default:
-			return fmt.Errorf("%w: bad unit type for cast to time64: %s",
-				arrow.ErrInvalid, outType.Unit)
-		}
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time64 {
-		t := fnToTime(arg0)
-		dur := t.Sub(t.Truncate(24 * time.Hour))
-		return fn(dur, err)
-	})(ctx, batch, out)
-}
-
-func GetDate32CastKernels() []exec.ScalarKernel {
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date32)
-	out := GetCommonCastKernels(arrow.DATE32, outType)
-	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), outType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date64)}, outType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			return ShiftTime[int64, int32](ctx, arrow.ConvDIVIDE, millisecondsInDay, &input.Values[0].Array, out)
-		}, nil))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
-		TimestampToDate32, nil))
-
-	return out
-}
-
-func GetDate64CastKernels() []exec.ScalarKernel {
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date64)
-	out := GetCommonCastKernels(arrow.DATE64, outType)
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), outType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date32)}, outType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			return ShiftTime[int32, int64](ctx, arrow.ConvMULTIPLY, millisecondsInDay, &input.Values[0].Array, out)
-		}, nil))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
-		TimestampToDate64, nil))
-	return out
-}
-
-func GetTime32CastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIME32, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time64, arrow.Time32], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time32, arrow.Time32], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		TimestampToTime32, nil))
-
-	return out
-}
-
-func GetTime64CastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIME64, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time64, arrow.Time64], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time32, arrow.Time64], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		TimestampToTime64, nil))
-
-	return out
-}
-
-func GetDurationCastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.DURATION, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT64,
-		exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DURATION)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Duration, arrow.Duration], nil))
-	return out
-}
-
-func GetIntervalCastKernels() []exec.ScalarKernel {
-	return GetCommonCastKernels(arrow.INTERVAL_MONTH_DAY_NANO, OutputTargetType)
-}
-
-func GetTimestampCastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIMESTAMP, OutputTargetType)
-
-	// same integer representation
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DATE32)}, OutputTargetType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			op, factor := arrow.GetTimestampConvert(arrow.Second, out.Type.(arrow.TemporalWithUnit).TimeUnit())
-			debug.Assert(op == arrow.ConvMULTIPLY, "date32 -> timestamp should be multiply operation")
-
-			// multiply to achieve days -> unit
-			factor *= millisecondsInDay / 1000
-			return ShiftTime[int32, int64](ctx, op, factor, &input.Values[0].Array, out)
-		}, nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DATE64)}, OutputTargetType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			// date64 is ms since epoch
-			op, factor := arrow.GetTimestampConvert(arrow.Millisecond, out.Type.(arrow.TemporalWithUnit).TimeUnit())
-			debug.Assert(op == arrow.ConvMULTIPLY, "date64 -> timestamp should be multiply operation")
-
-			return ShiftTime[int64, int64](ctx, op, factor, &input.Values[0].Array, out)
-		}, nil))
-
-	// string -> timestamp
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.String)}, OutputTargetType,
-		StringToTimestamp[int32], nil))
-	// large_string -> timestamp
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.LargeString)}, OutputTargetType,
-		StringToTimestamp[int64], nil))
-	// from one timestamp to another
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Timestamp, arrow.Timestamp], nil))
-	return out
-}
diff --git a/go/arrow/compute/internal/kernels/compareoperator_string.go b/go/arrow/compute/internal/kernels/compareoperator_string.go
deleted file mode 100644
index 036859815cf36..0000000000000
--- a/go/arrow/compute/internal/kernels/compareoperator_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by "stringer -type=CompareOperator -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package kernels
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[CmpEQ-0]
-	_ = x[CmpNE-1]
-	_ = x[CmpGT-2]
-	_ = x[CmpGE-3]
-	_ = x[CmpLT-4]
-	_ = x[CmpLE-5]
-}
-
-const _CompareOperator_name = "equalnot_equalgreatergreater_equallessless_equal"
-
-var _CompareOperator_index = [...]uint8{0, 5, 14, 21, 34, 38, 48}
-
-func (i CompareOperator) String() string {
-	if i < 0 || i >= CompareOperator(len(_CompareOperator_index)-1) {
-		return "CompareOperator(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _CompareOperator_name[_CompareOperator_index[i]:_CompareOperator_index[i+1]]
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor.go b/go/arrow/compute/internal/kernels/constant_factor.go
deleted file mode 100644
index c57902d6a80c6..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor.go
+++ /dev/null
@@ -1,81 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-var (
-	multiplyConstantInt32Int32 func([]int32, []int32, int64) = multiplyConstantGo[int32, int32]
-	multiplyConstantInt32Int64 func([]int32, []int64, int64) = multiplyConstantGo[int32, int64]
-	multiplyConstantInt64Int32 func([]int64, []int32, int64) = multiplyConstantGo[int64, int32]
-	multiplyConstantInt64Int64 func([]int64, []int64, int64) = multiplyConstantGo[int64, int64]
-
-	divideConstantInt32Int32 func([]int32, []int32, int64) = divideConstantGo[int32, int32]
-	divideConstantInt32Int64 func([]int32, []int64, int64) = divideConstantGo[int32, int64]
-	divideConstantInt64Int32 func([]int64, []int32, int64) = divideConstantGo[int64, int32]
-	divideConstantInt64Int64 func([]int64, []int64, int64) = divideConstantGo[int64, int64]
-)
-
-func multiplyConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
-	for i, v := range input {
-		output[i] = OutT(v) * OutT(factor)
-	}
-}
-
-func divideConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
-	for i, v := range input {
-		output[i] = OutT(v / InT(factor))
-	}
-}
-
-func multiplyConstant(input, output any, factor int64) {
-	switch in := input.(type) {
-	case []int32:
-		switch out := output.(type) {
-		case []int32:
-			multiplyConstantInt32Int32(in, out, factor)
-		case []int64:
-			multiplyConstantInt32Int64(in, out, factor)
-		}
-	case []int64:
-		switch out := output.(type) {
-		case []int32:
-			multiplyConstantInt64Int32(in, out, factor)
-		case []int64:
-			multiplyConstantInt64Int64(in, out, factor)
-		}
-	}
-}
-
-func divideConstant(input, output any, factor int64) {
-	switch in := input.(type) {
-	case []int32:
-		switch out := output.(type) {
-		case []int32:
-			divideConstantInt32Int32(in, out, factor)
-		case []int64:
-			divideConstantInt32Int64(in, out, factor)
-		}
-	case []int64:
-		switch out := output.(type) {
-		case []int32:
-			divideConstantInt64Int32(in, out, factor)
-		case []int64:
-			divideConstantInt64Int64(in, out, factor)
-		}
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_amd64.go
deleted file mode 100644
index 7229632eafb36..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_amd64.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		multiplyConstantInt32Int32 = multiplyConstantInt32Int32Avx2
-		multiplyConstantInt32Int64 = multiplyConstantInt32Int64Avx2
-		multiplyConstantInt64Int32 = multiplyConstantInt64Int32Avx2
-		multiplyConstantInt64Int64 = multiplyConstantInt64Int64Avx2
-
-		divideConstantInt32Int32 = divideConstantInt32Int32Avx2
-		divideConstantInt32Int64 = divideConstantInt32Int64Avx2
-		divideConstantInt64Int32 = divideConstantInt64Int32Avx2
-		divideConstantInt64Int64 = divideConstantInt64Int64Avx2
-	} else if cpu.X86.HasSSE42 {
-		multiplyConstantInt32Int32 = multiplyConstantInt32Int32SSE4
-		multiplyConstantInt32Int64 = multiplyConstantInt32Int64SSE4
-		multiplyConstantInt64Int32 = multiplyConstantInt64Int32SSE4
-		multiplyConstantInt64Int64 = multiplyConstantInt64Int64SSE4
-
-		divideConstantInt32Int32 = divideConstantInt32Int32SSE4
-		divideConstantInt32Int64 = divideConstantInt32Int64SSE4
-		divideConstantInt64Int32 = divideConstantInt64Int32SSE4
-		divideConstantInt64Int64 = divideConstantInt64Int64SSE4
-	} else {
-		multiplyConstantInt32Int32 = multiplyConstantGo[int32, int32]
-		multiplyConstantInt32Int64 = multiplyConstantGo[int32, int64]
-		multiplyConstantInt64Int32 = multiplyConstantGo[int64, int32]
-		multiplyConstantInt64Int64 = multiplyConstantGo[int64, int64]
-
-		divideConstantInt32Int32 = divideConstantGo[int32, int32]
-		divideConstantInt32Int64 = divideConstantGo[int32, int64]
-		divideConstantInt64Int32 = divideConstantGo[int64, int32]
-		divideConstantInt64Int64 = divideConstantGo[int64, int64]
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
deleted file mode 100644
index 7d3574655cdc0..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import "unsafe"
-
-//go:noescape
-func _multiply_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
-	_multiply_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
-	_multiply_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
-	_multiply_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
-	_multiply_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
-	_divide_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
-	_divide_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
-	_divide_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
-	_divide_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
deleted file mode 100644
index c7c747b19bbaa..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
+++ /dev/null
@@ -1,781 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_multiply_constant_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_16
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x1f // cmp    edx, 31
-	JBE  LBB0_2
-	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB0_9
-	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB0_9
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
-	LONG $0x01c38349         // add    r11, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
-	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
-	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
-	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_9:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xe0e38341             // and    r11d, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0438d49             // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_12:
-	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
-	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
-	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
-	LONG $0x407de2c4; WORD $0x8764; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 96]
-	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
-	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm4
-	QUAD $0x0080878c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdi + 4*rax + 128]
-	QUAD $0x00a08794407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 160]
-	QUAD $0x00c0879c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 192]
-	QUAD $0x00e087a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 224]
-	QUAD $0x000080868c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 128], ymm1
-	QUAD $0x0000a086947ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 160], ymm2
-	QUAD $0x0000c0869c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 192], ymm3
-	QUAD $0x0000e086a47ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 224], ymm4
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
-	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
-	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
-	LONG $0x407de2c4; WORD $0x8744; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdi + 4*rax + 96]
-	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
-	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm0
-
-LBB0_15:
-	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
-	JNE  LBB0_3
-
-LBB0_16:
-	VZEROUPPER
-	RET
-
-LBB0_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_divide_constant_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB1_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB1_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_7
-
-LBB1_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB1_10
-
-LBB1_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB1_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB1_3
-
-LBB1_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_13
-
-LBB1_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB1_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB1_16
-
-LBB1_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB1_8:
-	RET
-
-TEXT ·_multiply_constant_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_7
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JA   LBB2_3
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB2_6
-
-LBB2_3:
-	WORD $0x8944; BYTE $0xc2     // mov    edx, r8d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-
-LBB2_4:
-	LONG $0x257de2c4; WORD $0x8714             // vpmovsxdq    ymm2, oword [rdi + 4*rax]
-	LONG $0x257de2c4; WORD $0x875c; BYTE $0x10 // vpmovsxdq    ymm3, oword [rdi + 4*rax + 16]
-	LONG $0x257de2c4; WORD $0x8764; BYTE $0x20 // vpmovsxdq    ymm4, oword [rdi + 4*rax + 32]
-	LONG $0x257de2c4; WORD $0x876c; BYTE $0x30 // vpmovsxdq    ymm5, oword [rdi + 4*rax + 48]
-	LONG $0xf2f4f5c5                           // vpmuludq    ymm6, ymm1, ymm2
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd2f4fdc5                           // vpmuludq    ymm2, ymm0, ymm2
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf3f4f5c5                           // vpmuludq    ymm6, ymm1, ymm3
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xdbf4fdc5                           // vpmuludq    ymm3, ymm0, ymm3
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf4f4f5c5                           // vpmuludq    ymm6, ymm1, ymm4
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe4f4fdc5                           // vpmuludq    ymm4, ymm0, ymm4
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf5f4f5c5                           // vpmuludq    ymm6, ymm1, ymm5
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xedf4fdc5                           // vpmuludq    ymm5, ymm0, ymm5
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x147ffec5; BYTE $0xc6               // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6             // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6             // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60c6             // vmovdqu    yword [rsi + 8*rax + 96], ymm5
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JNE  LBB2_4
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JE   LBB2_7
-
-LBB2_6:
-	LONG $0x97046348         // movsxd    rax, dword [rdi + 4*rdx]
-	LONG $0xc1af0f48         // imul    rax, rcx
-	LONG $0xd6048948         // mov    qword [rsi + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
-	JNE  LBB2_6
-
-LBB2_7:
-	VZEROUPPER
-	RET
-
-TEXT ·_divide_constant_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB3_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_7
-
-LBB3_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB3_10
-
-LBB3_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB3_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB3_3
-
-LBB3_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_13
-
-LBB3_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB3_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB3_16
-
-LBB3_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB3_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_7
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JA   LBB4_3
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_6
-
-LBB4_3:
-	WORD $0x8944; BYTE $0xc2       // mov    edx, r8d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1   // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0   // vpbroadcastq    ymm0, xmm0
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-
-LBB4_4:
-	LONG $0x1410f8c5; BYTE $0xc7               // vmovups    xmm2, oword [rdi + 8*rax]
-	LONG $0x5c10f8c5; WORD $0x20c7             // vmovups    xmm3, oword [rdi + 8*rax + 32]
-	LONG $0x6410f8c5; WORD $0x40c7             // vmovups    xmm4, oword [rdi + 8*rax + 64]
-	LONG $0x6c10f8c5; WORD $0x60c7             // vmovups    xmm5, oword [rdi + 8*rax + 96]
-	LONG $0x54c6e8c5; WORD $0x10c7; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdi + 8*rax + 16], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4069e2c4; BYTE $0xd6               // vpmulld    xmm2, xmm2, xmm6
-	LONG $0x5cc6e0c5; WORD $0x30c7; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdi + 8*rax + 48], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4061e2c4; BYTE $0xde               // vpmulld    xmm3, xmm3, xmm6
-	LONG $0x64c6d8c5; WORD $0x50c7; BYTE $0x88 // vshufps    xmm4, xmm4, oword [rdi + 8*rax + 80], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4059e2c4; BYTE $0xe6               // vpmulld    xmm4, xmm4, xmm6
-	LONG $0x6cc6d0c5; WORD $0x70c7; BYTE $0x88 // vshufps    xmm5, xmm5, oword [rdi + 8*rax + 112], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4051e2c4; BYTE $0xee               // vpmulld    xmm5, xmm5, xmm6
-	LONG $0x147ffac5; BYTE $0x86               // vmovdqu    oword [rsi + 4*rax], xmm2
-	LONG $0x5c7ffac5; WORD $0x1086             // vmovdqu    oword [rsi + 4*rax + 16], xmm3
-	LONG $0x647ffac5; WORD $0x2086             // vmovdqu    oword [rsi + 4*rax + 32], xmm4
-	LONG $0x6c7ffac5; WORD $0x3086             // vmovdqu    oword [rsi + 4*rax + 48], xmm5
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JNE  LBB4_4
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JE   LBB4_7
-
-LBB4_6:
-	WORD $0x048b; BYTE $0xd7 // mov    eax, dword [rdi + 8*rdx]
-	WORD $0xaf0f; BYTE $0xc1 // imul    eax, ecx
-	WORD $0x0489; BYTE $0x96 // mov    dword [rsi + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
-	JNE  LBB4_6
-
-LBB4_7:
-	VZEROUPPER
-	RET
-
-TEXT ·_divide_constant_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB5_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB5_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_7
-
-LBB5_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB5_10
-
-LBB5_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB5_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB5_3
-
-LBB5_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_13
-
-LBB5_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB5_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB5_16
-
-LBB5_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB5_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_16
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JBE  LBB6_2
-	LONG $0xc7048d4a         // lea    rax, [rdi + 8*r8]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB6_9
-	LONG $0xc6048d4a         // lea    rax, [rsi + 8*r8]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB6_9
-
-LBB6_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB6_3:
-	WORD $0x894d; BYTE $0xd9 // mov    r9, r11
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xc1 // add    r9, r8
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB6_5
-
-LBB6_4:
-	LONG $0xdf148b4a // mov    rdx, qword [rdi + 8*r11]
-	LONG $0xd1af0f48 // imul    rdx, rcx
-	LONG $0xde14894a // mov    qword [rsi + 8*r11], rdx
-	LONG $0x01c38349 // add    r11, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB6_4
-
-LBB6_5:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB6_16
-
-LBB6_6:
-	LONG $0xdf048b4a             // mov    rax, qword [rdi + 8*r11]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde04894a             // mov    qword [rsi + 8*r11], rax
-	LONG $0xdf448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r11 + 8]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x08 // mov    qword [rsi + 8*r11 + 8], rax
-	LONG $0xdf448b4a; BYTE $0x10 // mov    rax, qword [rdi + 8*r11 + 16]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x10 // mov    qword [rsi + 8*r11 + 16], rax
-	LONG $0xdf448b4a; BYTE $0x18 // mov    rax, qword [rdi + 8*r11 + 24]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x18 // mov    qword [rsi + 8*r11 + 24], rax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd8     // cmp    r8, r11
-	JNE  LBB6_6
-	JMP  LBB6_16
-
-LBB6_9:
-	WORD $0x8945; BYTE $0xc3     // mov    r11d, r8d
-	LONG $0xf0e38341             // and    r11d, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0438d49             // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB6_10
-	WORD $0x894d; BYTE $0xca     // mov    r10, r9
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB6_12:
-	LONG $0x146ffec5; BYTE $0xc7         // vmovdqu    ymm2, yword [rdi + 8*rax]
-	LONG $0x5c6ffec5; WORD $0x20c7       // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
-	LONG $0x646ffec5; WORD $0x40c7       // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
-	LONG $0x6c6ffec5; WORD $0x60c7       // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
-	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x147ffec5; BYTE $0xc6         // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6       // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6       // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60c6       // vmovdqu    yword [rsi + 8*rax + 96], ymm5
-	QUAD $0x000080c7946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdi + 8*rax + 128]
-	QUAD $0x0000a0c79c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdi + 8*rax + 160]
-	QUAD $0x0000c0c7a46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdi + 8*rax + 192]
-	QUAD $0x0000e0c7ac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdi + 8*rax + 224]
-	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x000080c6947ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 128], ymm2
-	QUAD $0x0000a0c69c7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 160], ymm3
-	QUAD $0x0000c0c6a47ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 192], ymm4
-	QUAD $0x0000e0c6ac7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 224], ymm5
-	LONG $0x20c08348                     // add    rax, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB6_12
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB6_15
-
-LBB6_14:
-	LONG $0x146ffec5; BYTE $0xc7   // vmovdqu    ymm2, yword [rdi + 8*rax]
-	LONG $0x5c6ffec5; WORD $0x20c7 // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
-	LONG $0x646ffec5; WORD $0x40c7 // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
-	LONG $0x6c6ffec5; WORD $0x60c7 // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
-	LONG $0xf1f4edc5               // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5               // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5               // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5               // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5               // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5               // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5               // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5               // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5               // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20   // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5               // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5               // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20   // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5               // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x147ffec5; BYTE $0xc6   // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6 // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6 // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x447ffec5; WORD $0x60c6 // vmovdqu    yword [rsi + 8*rax + 96], ymm0
-
-LBB6_15:
-	WORD $0x394d; BYTE $0xc3 // cmp    r11, r8
-	JNE  LBB6_3
-
-LBB6_16:
-	VZEROUPPER
-	RET
-
-LBB6_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c1f641 // test    r9b, 1
-	JNE  LBB6_14
-	JMP  LBB6_15
-
-TEXT ·_divide_constant_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB7_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB7_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_7
-
-LBB7_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB7_10
-
-LBB7_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB7_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB7_3
-
-LBB7_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_13
-
-LBB7_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB7_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB7_16
-
-LBB7_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB7_8:
-	RET
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
deleted file mode 100644
index 1f42f3728cedd..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import "unsafe"
-
-//go:noescape
-func _multiply_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
-	_multiply_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
-	_multiply_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
-	_multiply_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
-	_multiply_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
-	_divide_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
-	_divide_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
-	_divide_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
-	_divide_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
deleted file mode 100644
index 2d42edfcec43c..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
+++ /dev/null
@@ -1,597 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_multiply_constant_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_16
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x07 // cmp    edx, 7
-	JBE  LBB0_2
-	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB0_9
-	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB0_9
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
-	LONG $0x01c38349         // add    r11, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
-	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
-	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
-	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_9:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf8e38341             // and    r11d, -8
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8438d49             // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_12:
-	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
-	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
-	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2087 // movdqu    xmm1, oword [rdi + 4*rax + 32]
-	LONG $0x546f0ff3; WORD $0x3087 // movdqu    xmm2, oword [rdi + 4*rax + 48]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x4c7f0ff3; WORD $0x2086 // movdqu    oword [rsi + 4*rax + 32], xmm1
-	LONG $0x547f0ff3; WORD $0x3086 // movdqu    oword [rsi + 4*rax + 48], xmm2
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
-	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
-	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
-
-LBB0_15:
-	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
-	JNE  LBB0_3
-
-LBB0_16:
-	RET
-
-LBB0_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_divide_constant_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB1_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB1_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_7
-
-LBB1_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB1_10
-
-LBB1_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB1_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB1_3
-
-LBB1_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_13
-
-LBB1_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB1_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB1_16
-
-LBB1_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB1_8:
-	RET
-
-TEXT ·_multiply_constant_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB2_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB2_3
-
-LBB2_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB2_8:
-	LONG $0x87146348             // movsxd    rdx, dword [rdi + 4*rax]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
-	LONG $0x87546348; BYTE $0x04 // movsxd    rdx, dword [rdi + 4*rax + 4]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
-	LONG $0x87546348; BYTE $0x08 // movsxd    rdx, dword [rdi + 4*rax + 8]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
-	LONG $0x87546348; BYTE $0x0c // movsxd    rdx, dword [rdi + 4*rax + 12]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
-	LONG $0x04c08348             // add    rax, 4
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB2_8
-
-LBB2_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB2_6
-	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
-	LONG $0x87048d48         // lea    rax, [rdi + 4*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB2_5:
-	LONG $0xb03c6348         // movsxd    rdi, dword [rax + 4*rsi]
-	LONG $0xf9af0f48         // imul    rdi, rcx
-	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB2_5
-
-LBB2_6:
-	RET
-
-TEXT ·_divide_constant_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB3_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_7
-
-LBB3_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB3_10
-
-LBB3_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB3_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB3_3
-
-LBB3_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_13
-
-LBB3_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB3_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB3_16
-
-LBB3_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB3_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB4_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_3
-
-LBB4_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB4_8:
-	WORD $0x148b; BYTE $0xc7 // mov    edx, dword [rdi + 8*rax]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	WORD $0x1489; BYTE $0x86 // mov    dword [rsi + 4*rax], edx
-	LONG $0x08c7548b         // mov    edx, dword [rdi + 8*rax + 8]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x04865489         // mov    dword [rsi + 4*rax + 4], edx
-	LONG $0x10c7548b         // mov    edx, dword [rdi + 8*rax + 16]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x08865489         // mov    dword [rsi + 4*rax + 8], edx
-	LONG $0x18c7548b         // mov    edx, dword [rdi + 8*rax + 24]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x0c865489         // mov    dword [rsi + 4*rax + 12], edx
-	LONG $0x04c08348         // add    rax, 4
-	WORD $0x3949; BYTE $0xc1 // cmp    r9, rax
-	JNE  LBB4_8
-
-LBB4_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB4_6
-	LONG $0x86148d48         // lea    rdx, [rsi + 4*rax]
-	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_5:
-	WORD $0x3c8b; BYTE $0xf0 // mov    edi, dword [rax + 8*rsi]
-	WORD $0xaf0f; BYTE $0xf9 // imul    edi, ecx
-	WORD $0x3c89; BYTE $0xb2 // mov    dword [rdx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB4_5
-
-LBB4_6:
-	RET
-
-TEXT ·_divide_constant_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB5_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB5_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_7
-
-LBB5_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB5_10
-
-LBB5_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB5_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB5_3
-
-LBB5_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_13
-
-LBB5_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB5_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB5_16
-
-LBB5_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB5_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB6_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB6_3
-
-LBB6_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB6_8:
-	LONG $0xc7148b48             // mov    rdx, qword [rdi + 8*rax]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
-	LONG $0xc7548b48; BYTE $0x08 // mov    rdx, qword [rdi + 8*rax + 8]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
-	LONG $0xc7548b48; BYTE $0x10 // mov    rdx, qword [rdi + 8*rax + 16]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
-	LONG $0xc7548b48; BYTE $0x18 // mov    rdx, qword [rdi + 8*rax + 24]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
-	LONG $0x04c08348             // add    rax, 4
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB6_8
-
-LBB6_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB6_6
-	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
-	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB6_5:
-	LONG $0xf03c8b48         // mov    rdi, qword [rax + 8*rsi]
-	LONG $0xf9af0f48         // imul    rdi, rcx
-	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB6_5
-
-LBB6_6:
-	RET
-
-TEXT ·_divide_constant_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB7_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB7_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_7
-
-LBB7_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB7_10
-
-LBB7_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB7_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB7_3
-
-LBB7_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_13
-
-LBB7_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB7_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB7_16
-
-LBB7_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB7_8:
-	RET
diff --git a/go/arrow/compute/internal/kernels/doc.go b/go/arrow/compute/internal/kernels/doc.go
deleted file mode 100644
index 4a9334bc44c85..0000000000000
--- a/go/arrow/compute/internal/kernels/doc.go
+++ /dev/null
@@ -1,19 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package kernels defines all of the computation kernels for the compute
-// library. This requires >= go1.18 since it utilizes Go generics.
-package kernels
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
deleted file mode 100644
index 230a8e9112c29..0000000000000
--- a/go/arrow/compute/internal/kernels/helpers.go
+++ /dev/null
@@ -1,989 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/constraints"
-)
-
-// ScalarUnary returns a kernel for performing a unary operation on
-// FixedWidth types which is implemented using the passed in function
-// which will receive a slice containing the raw input data along with
-// a slice to populate for the output data.
-//
-// Note that bool is not included in arrow.FixedWidthType since it is
-// represented as a bitmap, not as a slice of bool.
-func ScalarUnary[OutT, Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, []Arg0T, []OutT) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		arg0 := in.Values[0].Array
-		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
-		outData := exec.GetSpanValues[OutT](out, 1)
-		return op(ctx, inData, outData)
-	}
-}
-
-// ScalarUnaryNotNull is for generating a kernel to operate only on the
-// non-null values in the input array. The zerovalue of the output type
-// is used for any null input values.
-func ScalarUnaryNotNull[OutT, Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, Arg0T, *error) OutT) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0     = &in.Values[0].Array
-			arg0Data = exec.GetSpanValues[Arg0T](arg0, 1)
-			outPos   = 0
-			def      OutT
-			outData  = exec.GetSpanValues[OutT](out, 1)
-			bitmap   = arg0.Buffers[0].Buf
-			err      error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, arg0Data[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryBoolOutput is like ScalarUnary only it is for cases of boolean
-// output. The function should take in a slice of the input type and a slice
-// of bytes to fill with the output boolean bitmap.
-func ScalarUnaryBoolOutput[Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, []Arg0T, []byte) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		arg0 := in.Values[0].Array
-		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
-		return op(ctx, inData, out.Buffers[1].Buf)
-	}
-}
-
-// ScalarUnaryNotNullBinaryArgBoolOut creates a unary kernel that accepts
-// a binary type input (Binary [offset int32], String [offset int32],
-// LargeBinary [offset int64], LargeString [offset int64]) and returns
-// a boolean output which is never null.
-//
-// It implements the handling to iterate the offsets and values calling
-// the provided function on each byte slice. The provided default value
-// will be used as the output for elements of the input that are null.
-func ScalarUnaryNotNullBinaryArgBoolOut[OffsetT int32 | int64](defVal bool, op func(*exec.KernelCtx, []byte, *error) bool) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0        = in.Values[0].Array
-			outData     = out.Buffers[1].Buf
-			outPos      = 0
-			arg0Offsets = exec.GetSpanOffsets[OffsetT](&arg0, 1)
-			arg0Data    = arg0.Buffers[2].Buf
-			bitmap      = arg0.Buffers[0].Buf
-			err         error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
-				bitutil.SetBitTo(outData, int(out.Offset)+outPos, op(ctx, v, &err))
-				outPos++
-			}, func() {
-				bitutil.SetBitTo(outData, int(out.Offset)+outPos, defVal)
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryNotNullBinaryArg creates a unary kernel that accepts
-// a binary type input (Binary [offset int32], String [offset int32],
-// LargeBinary [offset int64], LargeString [offset int64]) and returns
-// a FixedWidthType output which is never null.
-//
-// It implements the handling to iterate the offsets and values calling
-// the provided function on each byte slice. The zero value of the OutT
-// will be used as the output for elements of the input that are null.
-func ScalarUnaryNotNullBinaryArg[OutT arrow.FixedWidthType, OffsetT int32 | int64](op func(*exec.KernelCtx, []byte, *error) OutT) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0        = &in.Values[0].Array
-			outData     = exec.GetSpanValues[OutT](out, 1)
-			outPos      = 0
-			arg0Offsets = exec.GetSpanOffsets[OffsetT](arg0, 1)
-			def         OutT
-			arg0Data    = arg0.Buffers[2].Buf
-			bitmap      = arg0.Buffers[0].Buf
-			err         error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
-				outData[outPos] = op(ctx, v, &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryBoolArg is like ScalarUnary except it specifically expects a
-// function that takes a byte slice since booleans arrays are represented
-// as a bitmap.
-func ScalarUnaryBoolArg[OutT arrow.FixedWidthType](op func(*exec.KernelCtx, []byte, []OutT) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-		outData := exec.GetSpanValues[OutT](out, 1)
-		return op(ctx, input.Values[0].Array.Buffers[1].Buf, outData)
-	}
-}
-
-func UnboxScalar[T arrow.FixedWidthType](val scalar.PrimitiveScalar) T {
-	return *(*T)(unsafe.Pointer(&val.Data()[0]))
-}
-
-func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
-	if !val.IsValid() {
-		return nil
-	}
-	return val.Data()
-}
-
-type arrArrFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
-type arrScalarFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
-type scalarArrFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
-
-type binaryOps[OutT, Arg0T, Arg1T arrow.FixedWidthType] struct {
-	arrArr    arrArrFn[OutT, Arg0T, Arg1T]
-	arrScalar arrScalarFn[OutT, Arg0T, Arg1T]
-	scalarArr scalarArrFn[OutT, Arg0T, Arg1T]
-}
-
-type binaryBoolOps struct {
-	arrArr    func(ctx *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error
-	arrScalar func(ctx *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error
-	scalarArr func(ctx *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error
-}
-
-func ScalarBinary[OutT, Arg0T, Arg1T arrow.FixedWidthType](ops binaryOps[OutT, Arg0T, Arg1T]) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.arrArr(ctx, a0, a1, outData)
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.arrScalar(ctx, a0, a1, outData)
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0      = UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.scalarArr(ctx, a0, a1, outData)
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func ScalarBinaryBools(ops *binaryBoolOps) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
-			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-
-		return ops.arrArr(ctx, a0Bm, a1Bm, outBm)
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
-			a1    = arg1.(*scalar.Boolean).Value
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-		return ops.arrScalar(ctx, a0Bm, a1, outBm)
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0    = arg0.(*scalar.Boolean).Value
-			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-		return ops.scalarArr(ctx, a0, a1Bm, outBm)
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func ScalarBinaryNotNull[OutT, Arg0T, Arg1T arrow.FixedWidthType](op func(*exec.KernelCtx, Arg0T, Arg1T, *error) OutT) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg0.UpdateNullCount() == arg0.Len || arg1.UpdateNullCount() == arg1.Len {
-			return nil
-		}
-
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		bitutils.VisitTwoBitBlocks(arg0.Buffers[0].Buf, arg1.Buffers[0].Buf, arg0.Offset, arg1.Offset, out.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0[pos], a1[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg0.UpdateNullCount() == arg0.Len || !arg1.IsValid() {
-			return nil
-		}
-
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		if !arg1.IsValid() {
-			return nil
-		}
-
-		a1 := UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
-		bitutils.VisitBitBlocks(arg0.Buffers[0].Buf, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0[pos], a1, &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg1.UpdateNullCount() == arg1.Len || !arg0.IsValid() {
-			return nil
-		}
-
-		var (
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		if !arg0.IsValid() {
-			return nil
-		}
-
-		a0 := UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
-		bitutils.VisitBitBlocks(arg1.Buffers[0].Buf, arg1.Offset, arg1.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0, a1[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-type binaryBinOp[T arrow.FixedWidthType | bool] func(ctx *exec.KernelCtx, arg0, arg1 []byte) T
-
-func ScalarBinaryBinaryArgsBoolOut(itrFn func(*exec.ArraySpan) exec.ArrayIter[[]byte], op binaryBinOp[bool]) exec.ArrayKernelExec {
-	arrArr := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			arg0It = itrFn(arg0)
-			arg1It = itrFn(arg1)
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, arg0It.Next(), arg1It.Next())
-		})
-		return nil
-	}
-
-	arrScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			arg0It = itrFn(arg0)
-			a1     = UnboxBinaryScalar(arg1.(scalar.BinaryScalar))
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, arg0It.Next(), a1)
-		})
-		return nil
-	}
-
-	scalarArr := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			arg1It = itrFn(arg1)
-			a0     = UnboxBinaryScalar(arg0.(scalar.BinaryScalar))
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, a0, arg1It.Next())
-		})
-		return nil
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrArr(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArr(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-// SizeOf determines the size in number of bytes for an integer
-// based on the generic value in a way that the compiler should
-// be able to easily evaluate and create as a constant.
-func SizeOf[T constraints.Integer]() uint {
-	x := uint16(1 << 8)
-	y := uint32(2 << 16)
-	z := uint64(4 << 32)
-	return 1 + uint(T(x))>>8 + uint(T(y))>>16 + uint(T(z))>>32
-}
-
-// MinOf returns the minimum value for a given type since there is not
-// currently a generic way to do this with Go generics yet.
-func MinOf[T constraints.Integer]() T {
-	if ones := ^T(0); ones < 0 {
-		return ones << (8*SizeOf[T]() - 1)
-	}
-	return 0
-}
-
-// MaxOf determines the max value for a given type since there is not
-// currently a generic way to do this for Go generics yet as all of the
-// math.Max/Min values are constants.
-func MaxOf[T constraints.Integer]() T {
-	ones := ^T(0)
-	if ones < 0 {
-		return ones ^ (ones << (8*SizeOf[T]() - 1))
-	}
-	return ones
-}
-
-func getSafeMinSameSign[I, O constraints.Integer]() I {
-	if SizeOf[I]() > SizeOf[O]() {
-		return I(MinOf[O]())
-	}
-	return MinOf[I]()
-}
-
-func getSafeMaxSameSign[I, O constraints.Integer]() I {
-	if SizeOf[I]() > SizeOf[O]() {
-		return I(MaxOf[O]())
-	}
-	return MaxOf[I]()
-}
-
-func getSafeMaxSignedUnsigned[I constraints.Signed, O constraints.Unsigned]() I {
-	if SizeOf[I]() <= SizeOf[O]() {
-		return MaxOf[I]()
-	}
-	return I(MaxOf[O]())
-}
-
-func getSafeMaxUnsignedSigned[I constraints.Unsigned, O constraints.Signed]() I {
-	if SizeOf[I]() < SizeOf[O]() {
-		return MaxOf[I]()
-	}
-	return I(MaxOf[O]())
-}
-
-func getSafeMinMaxSigned[T constraints.Signed](target arrow.Type) (min, max T) {
-	switch target {
-	case arrow.UINT8:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint8]()
-	case arrow.UINT16:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint16]()
-	case arrow.UINT32:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint32]()
-	case arrow.UINT64:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint64]()
-	case arrow.INT8:
-		min = getSafeMinSameSign[T, int8]()
-		max = getSafeMaxSameSign[T, int8]()
-	case arrow.INT16:
-		min = getSafeMinSameSign[T, int16]()
-		max = getSafeMaxSameSign[T, int16]()
-	case arrow.INT32:
-		min = getSafeMinSameSign[T, int32]()
-		max = getSafeMaxSameSign[T, int32]()
-	case arrow.INT64:
-		min = getSafeMinSameSign[T, int64]()
-		max = getSafeMaxSameSign[T, int64]()
-	}
-	return
-}
-
-func getSafeMinMaxUnsigned[T constraints.Unsigned](target arrow.Type) (min, max T) {
-	min = 0
-	switch target {
-	case arrow.UINT8:
-		max = getSafeMaxSameSign[T, uint8]()
-	case arrow.UINT16:
-		max = getSafeMaxSameSign[T, uint16]()
-	case arrow.UINT32:
-		max = getSafeMaxSameSign[T, uint32]()
-	case arrow.UINT64:
-		max = getSafeMaxSameSign[T, uint64]()
-	case arrow.INT8:
-		max = getSafeMaxUnsignedSigned[T, int8]()
-	case arrow.INT16:
-		max = getSafeMaxUnsignedSigned[T, int16]()
-	case arrow.INT32:
-		max = getSafeMaxUnsignedSigned[T, int32]()
-	case arrow.INT64:
-		max = getSafeMaxUnsignedSigned[T, int64]()
-	}
-	return
-}
-
-func intsCanFit(data *exec.ArraySpan, target arrow.Type) error {
-	if !arrow.IsInteger(target) {
-		return fmt.Errorf("%w: target type is not an integer type %s", arrow.ErrInvalid, target)
-	}
-
-	switch data.Type.ID() {
-	case arrow.INT8:
-		min, max := getSafeMinMaxSigned[int8](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT8:
-		min, max := getSafeMinMaxUnsigned[uint8](target)
-		return intsInRange(data, min, max)
-	case arrow.INT16:
-		min, max := getSafeMinMaxSigned[int16](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT16:
-		min, max := getSafeMinMaxUnsigned[uint16](target)
-		return intsInRange(data, min, max)
-	case arrow.INT32:
-		min, max := getSafeMinMaxSigned[int32](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT32:
-		min, max := getSafeMinMaxUnsigned[uint32](target)
-		return intsInRange(data, min, max)
-	case arrow.INT64:
-		min, max := getSafeMinMaxSigned[int64](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT64:
-		min, max := getSafeMinMaxUnsigned[uint64](target)
-		return intsInRange(data, min, max)
-	default:
-		return fmt.Errorf("%w: invalid type for int bounds checking", arrow.ErrInvalid)
-	}
-}
-
-func intsInRange[T arrow.IntType | arrow.UintType](data *exec.ArraySpan, lowerBound, upperBound T) error {
-	if MinOf[T]() >= lowerBound && MaxOf[T]() <= upperBound {
-		return nil
-	}
-
-	isOutOfBounds := func(val T) bool {
-		return val < lowerBound || val > upperBound
-	}
-	isOutOfBoundsMaybeNull := func(val T, isValid bool) bool {
-		return isValid && (val < lowerBound || val > upperBound)
-	}
-	getError := func(val T) error {
-		return fmt.Errorf("%w: integer value %d not in range: %d to %d",
-			arrow.ErrInvalid, val, lowerBound, upperBound)
-	}
-
-	values := exec.GetSpanValues[T](data, 1)
-	bitmap := data.Buffers[0].Buf
-
-	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, data.Offset, data.Len)
-	pos, offsetPos := 0, data.Offset
-	for pos < int(data.Len) {
-		block := bitCounter.NextBlock()
-		outOfBounds := false
-
-		if block.Popcnt == block.Len {
-			// fast path: branchless
-			i := 0
-			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
-				for j := 0; j < 8; j++ {
-					outOfBounds = outOfBounds || isOutOfBounds(values[i])
-					i++
-				}
-			}
-			for ; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || isOutOfBounds(values[i])
-			}
-		} else if block.Popcnt > 0 {
-			// values may be null, only bounds check non-null vals
-			i := 0
-			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
-				for j := 0; j < 8; j++ {
-					outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
-						values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-					i++
-				}
-			}
-			for ; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
-					values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-			}
-		}
-		if outOfBounds {
-			if data.Nulls > 0 {
-				for i := 0; i < int(block.Len); i++ {
-					if isOutOfBoundsMaybeNull(values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
-						return getError(values[i])
-					}
-				}
-			} else {
-				for i := 0; i < int(block.Len); i++ {
-					if isOutOfBounds(values[i]) {
-						return getError(values[i])
-					}
-				}
-			}
-		}
-
-		values = values[block.Len:]
-		pos += int(block.Len)
-		offsetPos += int64(block.Len)
-	}
-	return nil
-}
-
-type numeric interface {
-	arrow.IntType | arrow.UintType | constraints.Float
-}
-
-func memCpySpan[T numeric](in, out *exec.ArraySpan) {
-	inData := exec.GetSpanValues[T](in, 1)
-	outData := exec.GetSpanValues[T](out, 1)
-	copy(outData, inData)
-}
-
-func castNumberMemCpy(in, out *exec.ArraySpan) {
-	switch in.Type.ID() {
-	case arrow.INT8:
-		memCpySpan[int8](in, out)
-	case arrow.UINT8:
-		memCpySpan[uint8](in, out)
-	case arrow.INT16:
-		memCpySpan[int16](in, out)
-	case arrow.UINT16:
-		memCpySpan[uint16](in, out)
-	case arrow.INT32:
-		memCpySpan[int32](in, out)
-	case arrow.UINT32:
-		memCpySpan[uint32](in, out)
-	case arrow.INT64:
-		memCpySpan[int64](in, out)
-	case arrow.UINT64:
-		memCpySpan[uint64](in, out)
-	case arrow.FLOAT32:
-		memCpySpan[float32](in, out)
-	case arrow.FLOAT64:
-		memCpySpan[float64](in, out)
-	}
-}
-
-func castNumberToNumberUnsafe(in, out *exec.ArraySpan) {
-	if in.Type.ID() == out.Type.ID() {
-		castNumberMemCpy(in, out)
-		return
-	}
-
-	inputOffset := in.Type.(arrow.FixedWidthDataType).Bytes() * int(in.Offset)
-	outputOffset := out.Type.(arrow.FixedWidthDataType).Bytes() * int(out.Offset)
-	castNumericUnsafe(in.Type.ID(), out.Type.ID(), in.Buffers[1].Buf[inputOffset:], out.Buffers[1].Buf[outputOffset:], int(in.Len))
-}
-
-func MaxDecimalDigitsForInt(id arrow.Type) (int32, error) {
-	switch id {
-	case arrow.INT8, arrow.UINT8:
-		return 3, nil
-	case arrow.INT16, arrow.UINT16:
-		return 5, nil
-	case arrow.INT32, arrow.UINT32:
-		return 10, nil
-	case arrow.INT64:
-		return 19, nil
-	case arrow.UINT64:
-		return 20, nil
-	}
-	return -1, fmt.Errorf("%w: not an integer type: %s", arrow.ErrInvalid, id)
-}
-
-func ResolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
-	opts := ctx.State.(CastState)
-	return opts.ToType, nil
-}
-
-var OutputTargetType = exec.NewComputedOutputType(ResolveOutputFromOptions)
-
-var OutputFirstType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return args[0], nil
-})
-
-var OutputLastType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return args[len(args)-1], nil
-})
-
-func resolveDecimalBinaryOpOutput(types []arrow.DataType, resolver func(prec1, scale1, prec2, scale2 int32) (prec, scale int32)) (arrow.DataType, error) {
-	leftType, rightType := types[0].(arrow.DecimalType), types[1].(arrow.DecimalType)
-	debug.Assert(leftType.ID() == rightType.ID(), "decimal binary ops should have casted to the same type")
-
-	prec, scale := resolver(leftType.GetPrecision(), leftType.GetScale(),
-		rightType.GetPrecision(), rightType.GetScale())
-
-	return arrow.NewDecimalType(leftType.ID(), prec, scale)
-}
-
-func resolveDecimalAddOrSubtractType(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			debug.Assert(scale1 == scale2, "decimal operations should use the same scale")
-			scale = scale1
-			prec = exec.Max(prec1-scale1, prec2-scale2) + scale + 1
-			return
-		})
-}
-
-func resolveDecimalMultiplyOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			scale = scale1 + scale2
-			prec = prec1 + prec2 + 1
-			return
-		})
-}
-
-func resolveDecimalDivideOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			debug.Assert(scale1 >= scale2, "when dividing decimal values numerator scale should be greater/equal to denom scale")
-			scale = scale1 - scale2
-			prec = prec1
-			return
-		})
-}
-
-func resolveTemporalOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	debug.Assert(args[0].ID() == args[1].ID(), "should only be used on the same types")
-	leftType, rightType := args[0].(*arrow.TimestampType), args[1].(*arrow.TimestampType)
-	debug.Assert(leftType.Unit == rightType.Unit, "should match units")
-
-	if (leftType.TimeZone == "" || rightType.TimeZone == "") && (leftType.TimeZone != rightType.TimeZone) {
-		return nil, fmt.Errorf("%w: subtraction of zoned and non-zoned times is ambiguous (%s, %s)",
-			arrow.ErrInvalid, leftType.TimeZone, rightType.TimeZone)
-	}
-
-	return &arrow.DurationType{Unit: rightType.Unit}, nil
-}
-
-var OutputResolveTemporal = exec.NewComputedOutputType(resolveTemporalOutput)
-
-type validityBuilder struct {
-	mem    memory.Allocator
-	buffer *memory.Buffer
-
-	data       []byte
-	bitLength  int
-	falseCount int
-}
-
-func (v *validityBuilder) Resize(n int64) {
-	if v.buffer == nil {
-		v.buffer = memory.NewResizableBuffer(v.mem)
-	}
-
-	v.buffer.ResizeNoShrink(int(bitutil.BytesForBits(n)))
-	v.data = v.buffer.Bytes()
-}
-
-func (v *validityBuilder) Reserve(n int64) {
-	if v.buffer == nil {
-		v.buffer = memory.NewResizableBuffer(v.mem)
-	}
-
-	v.buffer.Reserve(v.buffer.Cap() + int(bitutil.BytesForBits(n)))
-	v.data = v.buffer.Buf()
-}
-
-func (v *validityBuilder) UnsafeAppend(val bool) {
-	bitutil.SetBitTo(v.data, v.bitLength, val)
-	if !val {
-		v.falseCount++
-	}
-	v.bitLength++
-}
-
-func (v *validityBuilder) UnsafeAppendN(n int64, val bool) {
-	bitutil.SetBitsTo(v.data, int64(v.bitLength), n, val)
-	if !val {
-		v.falseCount += int(n)
-	}
-	v.bitLength += int(n)
-}
-
-func (v *validityBuilder) Append(val bool) {
-	v.Reserve(1)
-	v.UnsafeAppend(val)
-}
-
-func (v *validityBuilder) AppendN(n int64, val bool) {
-	v.Reserve(n)
-	v.UnsafeAppendN(n, val)
-}
-
-func (v *validityBuilder) Finish() (buf *memory.Buffer) {
-	if v.bitLength > 0 {
-		v.buffer.Resize(int(bitutil.BytesForBits(int64(v.bitLength))))
-	}
-
-	v.bitLength, v.falseCount = 0, 0
-	buf = v.buffer
-	v.buffer = nil
-	return
-}
-
-type execBufBuilder struct {
-	mem    memory.Allocator
-	buffer *memory.Buffer
-	data   []byte
-	sz     int
-}
-
-func (bldr *execBufBuilder) reserve(additional int) {
-	if bldr.buffer == nil {
-		bldr.buffer = memory.NewResizableBuffer(bldr.mem)
-	}
-
-	mincap := bldr.sz + additional
-	if mincap <= cap(bldr.data) {
-		return
-	}
-	bldr.buffer.ResizeNoShrink(mincap)
-	bldr.data = bldr.buffer.Buf()
-}
-
-func (bldr *execBufBuilder) unsafeAppend(data []byte) {
-	copy(bldr.data[bldr.sz:], data)
-	bldr.sz += len(data)
-}
-
-func (bldr *execBufBuilder) finish() (buf *memory.Buffer) {
-	if bldr.buffer == nil {
-		buf = memory.NewBufferBytes(nil)
-		return
-	}
-	bldr.buffer.Resize(bldr.sz)
-	buf = bldr.buffer
-	bldr.buffer, bldr.sz = nil, 0
-	return
-}
-
-type bufferBuilder[T arrow.FixedWidthType] struct {
-	execBufBuilder
-	zero T
-}
-
-func newBufferBuilder[T arrow.FixedWidthType](mem memory.Allocator) *bufferBuilder[T] {
-	return &bufferBuilder[T]{
-		execBufBuilder: execBufBuilder{
-			mem: mem,
-		},
-	}
-}
-
-func (b *bufferBuilder[T]) reserve(additional int) {
-	b.execBufBuilder.reserve(additional * int(unsafe.Sizeof(b.zero)))
-}
-
-func (b *bufferBuilder[T]) unsafeAppend(value T) {
-	b.execBufBuilder.unsafeAppend(arrow.GetBytes([]T{value}))
-}
-
-func (b *bufferBuilder[T]) unsafeAppendSlice(values []T) {
-	b.execBufBuilder.unsafeAppend(arrow.GetBytes(values))
-}
-
-func (b *bufferBuilder[T]) len() int { return b.sz / int(unsafe.Sizeof(b.zero)) }
-
-func (b *bufferBuilder[T]) cap() int {
-	return cap(b.data) / int(unsafe.Sizeof(b.zero))
-}
-
-func checkIndexBoundsImpl[T arrow.IntType | arrow.UintType](values *exec.ArraySpan, upperLimit uint64) error {
-	// for unsigned integers, if the values array is larger
-	// than the maximum index value, then there's no need to bounds check
-	isSigned := !arrow.IsUnsignedInteger(values.Type.ID())
-	if !isSigned && upperLimit > uint64(MaxOf[T]()) {
-		return nil
-	}
-
-	valuesData := exec.GetSpanValues[T](values, 1)
-	bitmap := values.Buffers[0].Buf
-	isOutOfBounds := func(val T) bool {
-		return ((isSigned && val < 0) || val >= 0 && uint64(val) >= upperLimit)
-	}
-	return bitutils.VisitSetBitRuns(bitmap, values.Offset, values.Len,
-		func(pos, length int64) error {
-			outOfBounds := false
-			for i := int64(0); i < length; i++ {
-				outOfBounds = outOfBounds || isOutOfBounds(valuesData[pos+i])
-			}
-			if outOfBounds {
-				for i := int64(0); i < length; i++ {
-					if isOutOfBounds(valuesData[pos+i]) {
-						return fmt.Errorf("%w: %d out of bounds",
-							arrow.ErrIndex, valuesData[pos+i])
-					}
-				}
-			}
-			return nil
-		})
-}
-
-func checkIndexBounds(values *exec.ArraySpan, upperLimit uint64) error {
-	switch values.Type.ID() {
-	case arrow.INT8:
-		return checkIndexBoundsImpl[int8](values, upperLimit)
-	case arrow.UINT8:
-		return checkIndexBoundsImpl[uint8](values, upperLimit)
-	case arrow.INT16:
-		return checkIndexBoundsImpl[int16](values, upperLimit)
-	case arrow.UINT16:
-		return checkIndexBoundsImpl[uint16](values, upperLimit)
-	case arrow.INT32:
-		return checkIndexBoundsImpl[int32](values, upperLimit)
-	case arrow.UINT32:
-		return checkIndexBoundsImpl[uint32](values, upperLimit)
-	case arrow.INT64:
-		return checkIndexBoundsImpl[int64](values, upperLimit)
-	case arrow.UINT64:
-		return checkIndexBoundsImpl[uint64](values, upperLimit)
-	default:
-		return fmt.Errorf("%w: invalid index type for bounds checking", arrow.ErrInvalid)
-	}
-}
-
-func checkIndexBoundsChunked(values *arrow.Chunked, upperLimit uint64) error {
-	var span exec.ArraySpan
-	for _, v := range values.Chunks() {
-		span.SetMembers(v.Data())
-		if err := checkIndexBounds(&span, upperLimit); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func packBits(vals [32]uint32, out []byte) {
-	const batchSize = 32
-	for i := 0; i < batchSize; i += 8 {
-		out[0] = byte(vals[i] | vals[i+1]<<1 | vals[i+2]<<2 | vals[i+3]<<3 |
-			vals[i+4]<<4 | vals[i+5]<<5 | vals[i+6]<<6 | vals[i+7]<<7)
-		out = out[1:]
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/numeric_cast.go b/go/arrow/compute/internal/kernels/numeric_cast.go
deleted file mode 100644
index ca3a9937594aa..0000000000000
--- a/go/arrow/compute/internal/kernels/numeric_cast.go
+++ /dev/null
@@ -1,866 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/constraints"
-)
-
-func CastIntToInt(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	if !opts.AllowIntOverflow {
-		if err := intsCanFit(&batch.Values[0].Array, out.Type.ID()); err != nil {
-			return err
-		}
-	}
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-func CastFloatingToFloating(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-func CastFloatingToInteger(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	if !opts.AllowFloatTruncate {
-		return checkFloatToIntTrunc(&batch.Values[0].Array, out)
-	}
-	return nil
-}
-
-func CastIntegerToFloating(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	if !opts.AllowFloatTruncate {
-		if err := checkIntToFloatTrunc(&batch.Values[0].Array, out.Type.ID()); err != nil {
-			return err
-		}
-	}
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-type decimal[T decimal128.Num | decimal256.Num] interface {
-	Less(T) bool
-	GreaterEqual(T) bool
-	LowBits() uint64
-}
-
-func decimalToIntImpl[InT decimal128.Num | decimal256.Num, OutT arrow.IntType | arrow.UintType](allowOverflow bool, min, max InT, v decimal[InT], err *error) OutT {
-	if !allowOverflow && (v.Less(min) || v.GreaterEqual(max)) {
-		debug.Log("integer value out of bounds from decimal")
-		*err = fmt.Errorf("%w: integer value out of bounds", arrow.ErrInvalid)
-		return OutT(0)
-	}
-	return OutT(v.LowBits())
-}
-
-func CastDecimal256ToInteger[T arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(CastState)
-		inputType  = batch.Values[0].Type().(*arrow.Decimal256Type)
-		inScale    = inputType.Scale
-		ex         exec.ArrayKernelExec
-		minLowBits = uint64(MinOf[T]())
-		minHiBits  int64
-		max        = decimal256.FromU64(uint64(MaxOf[T]()))
-	)
-
-	if MinOf[T]() < 0 {
-		minHiBits = -1
-	}
-	min := decimal256.New(uint64(minHiBits), uint64(minHiBits), uint64(minHiBits), minLowBits)
-	if opts.AllowDecimalTruncate {
-		if inScale < 0 {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-				v := val.IncreaseScaleBy(-inScale)
-				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		} else {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-				v := val.ReduceScaleBy(inScale, true)
-				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		}
-	} else {
-		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-			v, e := val.Rescale(inScale, 0)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-				return T(0)
-			}
-			return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-		})
-	}
-
-	return ex(ctx, batch, out)
-}
-
-func CastDecimal128ToInteger[T arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(CastState)
-		inputType  = batch.Values[0].Type().(*arrow.Decimal128Type)
-		inScale    = inputType.Scale
-		ex         exec.ArrayKernelExec
-		minLowBits = uint64(MinOf[T]())
-		minHiBits  int64
-		max        = decimal128.FromU64(uint64(MaxOf[T]()))
-	)
-
-	if MinOf[T]() < 0 {
-		minHiBits = -1
-	}
-	min := decimal128.New(minHiBits, minLowBits)
-	if opts.AllowDecimalTruncate {
-		if inScale < 0 {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-				v := val.IncreaseScaleBy(-inScale)
-				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		} else {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-				v := val.ReduceScaleBy(inScale, true)
-				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		}
-	} else {
-		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-			v, e := val.Rescale(inScale, 0)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-				return T(0)
-			}
-			return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-		})
-	}
-
-	return ex(ctx, batch, out)
-}
-
-func integerToDecimal128[T arrow.IntType | arrow.UintType](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
-	var getDecimal func(v T) decimal128.Num
-	switch inType {
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		getDecimal = func(v T) decimal128.Num { return decimal128.FromU64(uint64(v)) }
-	default:
-		getDecimal = func(v T) decimal128.Num { return decimal128.FromI64(int64(v)) }
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal128.Num {
-		out, e := getDecimal(val).Rescale(0, outScale)
-		if e != nil {
-			*err = e
-		}
-		return out
-	})
-}
-
-func integerToDecimal256[T arrow.IntType | arrow.UintType](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
-	var getDecimal func(v T) decimal256.Num
-	switch inType {
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		getDecimal = func(v T) decimal256.Num { return decimal256.FromU64(uint64(v)) }
-	default:
-		getDecimal = func(v T) decimal256.Num { return decimal256.FromI64(int64(v)) }
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal256.Num {
-		out, e := getDecimal(val).Rescale(0, outScale)
-		if e != nil {
-			*err = e
-		}
-		return out
-	})
-}
-
-func CastIntegerToDecimal[OutT decimal128.Num | decimal256.Num, Arg0 arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		precision, scale int32
-		executor         exec.ArrayKernelExec
-	)
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		precision = dt.Precision
-		scale = dt.Scale
-		executor = integerToDecimal128[Arg0](batch.Values[0].Array.Type.ID(), scale)
-	case *arrow.Decimal256Type:
-		precision = dt.Precision
-		scale = dt.Scale
-		executor = integerToDecimal256[Arg0](batch.Values[0].Array.Type.ID(), scale)
-	}
-
-	if scale < 0 {
-		return fmt.Errorf("%w: scale must be non-negative", arrow.ErrInvalid)
-	}
-
-	minPrecision, err := MaxDecimalDigitsForInt(batch.Values[0].Type().ID())
-	if err != nil {
-		return err
-	}
-
-	minPrecision += scale
-	if precision < minPrecision {
-		return fmt.Errorf("%w: precision is not great enough for result. It should be at least %d",
-			arrow.ErrInvalid, minPrecision)
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func getCastIntToDecimal[T decimal128.Num | decimal256.Num](inType arrow.Type) exec.ArrayKernelExec {
-	switch inType {
-	case arrow.UINT8:
-		return CastIntegerToDecimal[T, uint8]
-	case arrow.INT8:
-		return CastIntegerToDecimal[T, int8]
-	case arrow.UINT16:
-		return CastIntegerToDecimal[T, uint16]
-	case arrow.INT16:
-		return CastIntegerToDecimal[T, int16]
-	case arrow.UINT32:
-		return CastIntegerToDecimal[T, uint32]
-	case arrow.INT32:
-		return CastIntegerToDecimal[T, int32]
-	case arrow.UINT64:
-		return CastIntegerToDecimal[T, uint64]
-	case arrow.INT64:
-		return CastIntegerToDecimal[T, int64]
-	}
-	debug.Assert(false, "invalid integer type")
-	return nil
-}
-
-func unsafeUpscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			return decimal256.FromDecimal128(val).IncreaseScaleBy(by)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		return val.IncreaseScaleBy(by)
-	})
-}
-
-func unsafeUpscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			return val.IncreaseScaleBy(by)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		vals := val.IncreaseScaleBy(by).Array()
-		return decimal128.New(int64(vals[1]), vals[0])
-	})
-}
-
-func unsafeDownscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			return decimal256.FromDecimal128(val).ReduceScaleBy(by, false)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		return val.ReduceScaleBy(by, false)
-	})
-}
-
-func unsafeDownscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			return val.ReduceScaleBy(by, false)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		vals := val.ReduceScaleBy(by, false).Array()
-		return decimal128.New(int64(vals[1]), vals[0])
-	})
-}
-
-func safeRescaleDecimal256Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			out, e := decimal256.FromDecimal128(val).Rescale(inScale, outScale)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-				return decimal256.Num{}
-			}
-
-			if out.FitsInPrecision(outPrecision) {
-				return out
-			}
-
-			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-			return decimal256.Num{}
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		out, e := val.Rescale(inScale, outScale)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-			return decimal256.Num{}
-		}
-
-		if out.FitsInPrecision(outPrecision) {
-			return out
-		}
-
-		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-		return decimal256.Num{}
-	})
-}
-
-func safeRescaleDecimal128Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			out, e := val.Rescale(inScale, outScale)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-				return decimal128.Num{}
-			}
-
-			if out.FitsInPrecision(outPrecision) {
-				return out
-			}
-
-			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-			return decimal128.Num{}
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		out, e := val.Rescale(inScale, outScale)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-			return decimal128.Num{}
-		}
-
-		if out.FitsInPrecision(outPrecision) {
-			arr := out.Array()
-			return decimal128.New(int64(arr[1]), arr[0])
-		}
-
-		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-		return decimal128.Num{}
-	})
-}
-
-func CastDecimalToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts              = ctx.State.(CastState)
-		inType            = batch.Values[0].Type()
-		outType           = out.Type
-		inScale, outScale int32
-		outPrecision      int32
-	)
-
-	switch dt := inType.(type) {
-	case *arrow.Decimal128Type:
-		inScale = dt.Scale
-	case *arrow.Decimal256Type:
-		inScale = dt.Scale
-	}
-
-	switch dt := outType.(type) {
-	case *arrow.Decimal128Type:
-		outScale = dt.Scale
-		outPrecision = dt.Precision
-	case *arrow.Decimal256Type:
-		outScale = dt.Scale
-		outPrecision = dt.Precision
-	}
-
-	if opts.AllowDecimalTruncate {
-		if inScale < outScale {
-			// unsafe upscale
-			if outType.ID() == arrow.DECIMAL128 {
-				ex := unsafeUpscaleDecimal128Out(inType.ID(), outScale-inScale)
-				return ex(ctx, batch, out)
-			}
-			ex := unsafeUpscaleDecimal256Out(inType.ID(), outScale-inScale)
-			return ex(ctx, batch, out)
-		} else {
-			// unsafe downscale
-			if outType.ID() == arrow.DECIMAL128 {
-				ex := unsafeDownscaleDecimal128Out(inType.ID(), inScale-outScale)
-				return ex(ctx, batch, out)
-			}
-			ex := unsafeDownscaleDecimal256Out(inType.ID(), inScale-outScale)
-			return ex(ctx, batch, out)
-		}
-	}
-
-	// safe rescale
-	if outType.ID() == arrow.DECIMAL128 {
-		ex := safeRescaleDecimal128Out(inType.ID(), outScale, outPrecision, inScale)
-		return ex(ctx, batch, out)
-	}
-	ex := safeRescaleDecimal256Out(inType.ID(), outScale, outPrecision, inScale)
-	return ex(ctx, batch, out)
-}
-
-func CastFloat32ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		prec, scale int32
-		allowTrunc  bool
-		executor    exec.ArrayKernelExec
-		opts        = ctx.State.(CastState)
-	)
-
-	allowTrunc = opts.AllowDecimalTruncate
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal128.Num {
-			out, e := decimal128.FromFloat32(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal128.Num{}
-		})
-	case *arrow.Decimal256Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal256.Num {
-			out, e := decimal256.FromFloat32(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal256.Num{}
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func CastFloat64ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		prec, scale int32
-		allowTrunc  bool
-		executor    exec.ArrayKernelExec
-		opts        = ctx.State.(CastState)
-	)
-
-	allowTrunc = opts.AllowDecimalTruncate
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal128.Num {
-			out, e := decimal128.FromFloat64(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal128.Num{}
-		})
-	case *arrow.Decimal256Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal256.Num {
-			out, e := decimal256.FromFloat64(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal256.Num{}
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func CastDecimalToFloating[OutT constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		executor exec.ArrayKernelExec
-	)
-
-	switch dt := batch.Values[0].Array.Type.(type) {
-	case *arrow.Decimal128Type:
-		scale := dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal128.Num, err *error) OutT {
-			return OutT(v.ToFloat64(scale))
-		})
-	case *arrow.Decimal256Type:
-		scale := dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal256.Num, err *error) OutT {
-			return OutT(v.ToFloat64(scale))
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func boolToNum[T numeric](_ *exec.KernelCtx, in []byte, out []T) error {
-	var (
-		zero T
-		one  = T(1)
-	)
-
-	for i := range out {
-		if bitutil.BitIsSet(in, i) {
-			out[i] = one
-		} else {
-			out[i] = zero
-		}
-	}
-	return nil
-}
-
-func checkFloatTrunc[InT constraints.Float, OutT arrow.IntType | arrow.UintType](in, out *exec.ArraySpan) error {
-	wasTrunc := func(out OutT, in InT) bool {
-		return InT(out) != in
-	}
-	wasTruncMaybeNull := func(out OutT, in InT, isValid bool) bool {
-		return isValid && (InT(out) != in)
-	}
-	getError := func(val InT) error {
-		return fmt.Errorf("%w: float value %f was truncated converting to %s",
-			arrow.ErrInvalid, val, out.Type)
-	}
-
-	inData := exec.GetSpanValues[InT](in, 1)
-	outData := exec.GetSpanValues[OutT](out, 1)
-
-	bitmap := in.Buffers[0].Buf
-	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, in.Offset, in.Len)
-	pos, offsetPos := int64(0), int64(0)
-	for pos < in.Len {
-		block := bitCounter.NextBlock()
-		outOfBounds := false
-		if block.Popcnt == block.Len {
-			// fast path: branchless
-			for i := 0; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || wasTrunc(outData[i], inData[i])
-			}
-		} else if block.Popcnt > 0 {
-			// must only bounds check non-null
-			for i := 0; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-			}
-		}
-		if outOfBounds {
-			if in.Nulls > 0 {
-				for i := 0; i < int(block.Len); i++ {
-					if wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
-						return getError(inData[i])
-					}
-				}
-			} else {
-				for i := 0; i < int(block.Len); i++ {
-					if wasTrunc(outData[i], inData[i]) {
-						return getError(inData[i])
-					}
-				}
-			}
-		}
-		inData = inData[block.Len:]
-		outData = outData[block.Len:]
-		pos += int64(block.Len)
-		offsetPos += int64(block.Len)
-	}
-	return nil
-}
-
-func checkFloatToIntTruncImpl[T constraints.Float](in, out *exec.ArraySpan) error {
-	switch out.Type.ID() {
-	case arrow.INT8:
-		return checkFloatTrunc[T, int8](in, out)
-	case arrow.UINT8:
-		return checkFloatTrunc[T, uint8](in, out)
-	case arrow.INT16:
-		return checkFloatTrunc[T, int16](in, out)
-	case arrow.UINT16:
-		return checkFloatTrunc[T, uint16](in, out)
-	case arrow.INT32:
-		return checkFloatTrunc[T, int32](in, out)
-	case arrow.UINT32:
-		return checkFloatTrunc[T, uint32](in, out)
-	case arrow.INT64:
-		return checkFloatTrunc[T, int64](in, out)
-	case arrow.UINT64:
-		return checkFloatTrunc[T, uint64](in, out)
-	}
-	debug.Assert(false, "float to int truncation only for integer output")
-	return nil
-}
-
-func checkFloatToIntTrunc(in, out *exec.ArraySpan) error {
-	switch in.Type.ID() {
-	case arrow.FLOAT32:
-		return checkFloatToIntTruncImpl[float32](in, out)
-	case arrow.FLOAT64:
-		return checkFloatToIntTruncImpl[float64](in, out)
-	}
-	debug.Assert(false, "float to int truncation only for float32 and float64")
-	return nil
-}
-
-func checkIntToFloatTrunc(in *exec.ArraySpan, outType arrow.Type) error {
-	switch in.Type.ID() {
-	case arrow.INT8, arrow.INT16, arrow.UINT8, arrow.UINT16:
-		// small integers are all exactly representable as whole numbers
-		return nil
-	case arrow.INT32:
-		if outType == arrow.FLOAT64 {
-			return nil
-		}
-		const limit = int32(1 << 24)
-		return intsInRange(in, -limit, limit)
-	case arrow.UINT32:
-		if outType == arrow.FLOAT64 {
-			return nil
-		}
-		return intsInRange(in, 0, uint32(1<<24))
-	case arrow.INT64:
-		if outType == arrow.FLOAT32 {
-			const limit = int64(1 << 24)
-			return intsInRange(in, -limit, limit)
-		}
-		const limit = int64(1 << 53)
-		return intsInRange(in, -limit, limit)
-	case arrow.UINT64:
-		if outType == arrow.FLOAT32 {
-			return intsInRange(in, 0, uint64(1<<24))
-		}
-		return intsInRange(in, 0, uint64(1<<53))
-	}
-	debug.Assert(false, "intToFloatTrunc should only be called with int input")
-	return nil
-}
-
-func parseStringToNumberImpl[T arrow.IntType | arrow.UintType | arrow.FloatType, OffsetT int32 | int64](parseFn func(string) (T, error)) exec.ArrayKernelExec {
-	return ScalarUnaryNotNullBinaryArg[T, OffsetT](func(_ *exec.KernelCtx, in []byte, err *error) T {
-		st := *(*string)(unsafe.Pointer(&in))
-		v, e := parseFn(st)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-		}
-		return v
-	})
-}
-
-func getParseStringExec[OffsetT int32 | int64](out arrow.Type) exec.ArrayKernelExec {
-	switch out {
-	case arrow.INT8:
-		return parseStringToNumberImpl[int8, OffsetT](func(s string) (int8, error) {
-			v, err := strconv.ParseInt(s, 0, 8)
-			return int8(v), err
-		})
-	case arrow.UINT8:
-		return parseStringToNumberImpl[uint8, OffsetT](func(s string) (uint8, error) {
-			v, err := strconv.ParseUint(s, 0, 8)
-			return uint8(v), err
-		})
-	case arrow.INT16:
-		return parseStringToNumberImpl[int16, OffsetT](func(s string) (int16, error) {
-			v, err := strconv.ParseInt(s, 0, 16)
-			return int16(v), err
-		})
-	case arrow.UINT16:
-		return parseStringToNumberImpl[uint16, OffsetT](func(s string) (uint16, error) {
-			v, err := strconv.ParseUint(s, 0, 16)
-			return uint16(v), err
-		})
-	case arrow.INT32:
-		return parseStringToNumberImpl[int32, OffsetT](func(s string) (int32, error) {
-			v, err := strconv.ParseInt(s, 0, 32)
-			return int32(v), err
-		})
-	case arrow.UINT32:
-		return parseStringToNumberImpl[uint32, OffsetT](func(s string) (uint32, error) {
-			v, err := strconv.ParseUint(s, 0, 32)
-			return uint32(v), err
-		})
-	case arrow.INT64:
-		return parseStringToNumberImpl[int64, OffsetT](func(s string) (int64, error) {
-			return strconv.ParseInt(s, 0, 64)
-		})
-	case arrow.UINT64:
-		return parseStringToNumberImpl[uint64, OffsetT](func(s string) (uint64, error) {
-			return strconv.ParseUint(s, 0, 64)
-		})
-	case arrow.FLOAT32:
-		return parseStringToNumberImpl[float32, OffsetT](func(s string) (float32, error) {
-			v, err := strconv.ParseFloat(s, 32)
-			return float32(v), err
-		})
-	case arrow.FLOAT64:
-		return parseStringToNumberImpl[float64, OffsetT](func(s string) (float64, error) {
-			return strconv.ParseFloat(s, 64)
-		})
-	}
-	panic("invalid type for getParseStringExec")
-}
-
-func addCommonNumberCasts[T numeric](outTy arrow.DataType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
-	kernels = append(kernels, GetCommonCastKernels(outTy.ID(), exec.NewOutputType(outTy))...)
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)},
-		exec.NewOutputType(outTy), ScalarUnaryBoolArg(boolToNum[T]), nil))
-
-	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.String} {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
-			getParseStringExec[int32](outTy.ID()), nil))
-	}
-	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeString} {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
-			getParseStringExec[int64](outTy.ID()), nil))
-	}
-	return kernels
-}
-
-func GetCastToInteger[T arrow.IntType | arrow.UintType](outType arrow.DataType) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	output := exec.NewOutputType(outType)
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastIntToInt, nil))
-	}
-
-	for _, inTy := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastFloatingToInteger, nil))
-	}
-
-	kernels = addCommonNumberCasts[T](outType, kernels)
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
-		CastDecimal128ToInteger[T], nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
-		CastDecimal256ToInteger[T], nil))
-	return kernels
-}
-
-func GetCastToFloating[T constraints.Float](outType arrow.DataType) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	output := exec.NewOutputType(outType)
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastIntegerToFloating, nil))
-	}
-
-	for _, inTy := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastFloatingToFloating, nil))
-	}
-
-	kernels = addCommonNumberCasts[T](outType, kernels)
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
-		CastDecimalToFloating[T], nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
-		CastDecimalToFloating[T], nil))
-	return kernels
-}
-
-func resolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
-	return ctx.State.(CastState).ToType, nil
-}
-
-func GetCastToDecimal128() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-
-	kernels := make([]exec.ScalarKernel, 0)
-	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL128, outputType)...)
-
-	// cast from floating point
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
-		outputType, CastFloat32ToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
-		outputType, CastFloat64ToDecimal, nil))
-
-	// cast from integer
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
-			getCastIntToDecimal[decimal128.Num](inTy.ID()), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
-		CastDecimalToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
-		CastDecimalToDecimal, nil))
-	return kernels
-}
-
-func GetCastToDecimal256() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-
-	kernels := make([]exec.ScalarKernel, 0)
-	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL256, outputType)...)
-
-	// cast from floating point
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
-		outputType, CastFloat32ToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
-		outputType, CastFloat64ToDecimal, nil))
-
-	// cast from integer
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
-			getCastIntToDecimal[decimal256.Num](inTy.ID()), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
-		CastDecimalToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
-		CastDecimalToDecimal, nil))
-	return kernels
-}
diff --git a/go/arrow/compute/internal/kernels/rounding.go b/go/arrow/compute/internal/kernels/rounding.go
deleted file mode 100644
index 1afe76065f4de..0000000000000
--- a/go/arrow/compute/internal/kernels/rounding.go
+++ /dev/null
@@ -1,809 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"golang.org/x/exp/constraints"
-)
-
-//go:generate stringer -type=RoundMode
-
-type RoundMode int8
-
-const (
-	// Round to nearest integer less than or equal in magnitude (aka "floor")
-	RoundDown RoundMode = iota
-	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
-	RoundUp
-	// Get integral part without fractional digits (aka "trunc")
-	TowardsZero
-	// Round negative values with DOWN and positive values with UP
-	AwayFromZero
-	// Round ties with DOWN (aka "round half towards negative infinity")
-	HalfDown
-	// Round ties with UP (aka "round half towards positive infinity")
-	HalfUp
-	// Round ties with TowardsZero (aka "round half away from infinity")
-	HalfTowardsZero
-	// Round ties with AwayFromZero (aka "round half towards infinity")
-	HalfAwayFromZero
-	// Round ties to nearest even integer
-	HalfToEven
-	// Round ties to nearest odd integer
-	HalfToOdd
-)
-
-type RoundOptions struct {
-	NDigits int64
-	Mode    RoundMode
-}
-
-func (RoundOptions) TypeName() string { return "RoundOptions" }
-
-type RoundState struct {
-	RoundOptions
-	Pow10 float64
-}
-
-func InitRoundState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	var rs RoundState
-
-	opts, ok := args.Options.(*RoundOptions)
-	if ok {
-		rs.RoundOptions = *opts
-	} else {
-		if rs.RoundOptions, ok = args.Options.(RoundOptions); !ok {
-			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-				arrow.ErrInvalid)
-		}
-	}
-
-	// Only positive exponents for powers of 10 are used because combining
-	// multiply and division operations produced more stable rounding than
-	// using multiply-only.  Refer to NumPy's round implementation:
-	// https://github.com/numpy/numpy/blob/7b2f20b406d27364c812f7a81a9c901afbd3600c/numpy/core/src/multiarray/calculation.c#L589
-	rs.Pow10 = math.Pow10(int(math.Abs(float64(rs.NDigits))))
-	return rs, nil
-}
-
-type RoundToMultipleOptions struct {
-	// Multiple is the multiple to round to.
-	//
-	// Should be a positive numeric scalar of a type compatible
-	// with the argument to be rounded. The cast kernel is used
-	// to convert the rounding multiple to match the result type.
-	Multiple scalar.Scalar
-	// Mode is the rounding and tie-breaking mode
-	Mode RoundMode
-}
-
-func (RoundToMultipleOptions) TypeName() string { return "RoundToMultipleOptions" }
-
-type RoundToMultipleState = RoundToMultipleOptions
-
-func isPositive(s scalar.Scalar) bool {
-	switch s := s.(type) {
-	case *scalar.Decimal128:
-		return s.Value.Greater(decimal128.Num{})
-	case *scalar.Decimal256:
-		return s.Value.Greater(decimal256.Num{})
-	case *scalar.Int8:
-		return s.Value > 0
-	case *scalar.Uint8, *scalar.Uint16, *scalar.Uint32, *scalar.Uint64:
-		return true
-	case *scalar.Int16:
-		return s.Value > 0
-	case *scalar.Int32:
-		return s.Value > 0
-	case *scalar.Int64:
-		return s.Value > 0
-	case *scalar.Float32:
-		return s.Value > 0
-	case *scalar.Float64:
-		return s.Value > 0
-	default:
-		return false
-	}
-}
-
-func InitRoundToMultipleState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	var rs RoundToMultipleState
-
-	opts, ok := args.Options.(*RoundToMultipleOptions)
-	if ok {
-		rs = *opts
-	} else {
-		if rs, ok = args.Options.(RoundToMultipleOptions); !ok {
-			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-				arrow.ErrInvalid)
-		}
-	}
-
-	mult := rs.Multiple
-	if mult == nil || !mult.IsValid() {
-		return nil, fmt.Errorf("%w: rounding multiple must be non-null and valid",
-			arrow.ErrInvalid)
-	}
-
-	if !isPositive(mult) {
-		return nil, fmt.Errorf("%w: rounding multiple must be positive", arrow.ErrInvalid)
-	}
-
-	// ensure the rounding multiple option matches the kernel's output type.
-	// the output type is not available here, so we use the following rule:
-	// if "multiple" is neither a floating-point nor decimal type,
-	// then cast to float64, else cast to the kernel's input type.
-	var toType arrow.DataType
-	if !arrow.IsFloating(mult.DataType().ID()) && !arrow.IsDecimal(mult.DataType().ID()) {
-		toType = arrow.PrimitiveTypes.Float64
-	} else {
-		toType = args.Inputs[0]
-	}
-
-	if !arrow.TypeEqual(mult.DataType(), toType) {
-		castedMultiple, err := mult.CastTo(toType)
-		if err != nil {
-			return nil, err
-		}
-
-		rs.Multiple = castedMultiple
-	}
-
-	return rs, nil
-}
-
-func getFloatRoundImpl[T constraints.Float](mode RoundMode) func(T) T {
-	switch mode {
-	case RoundDown:
-		return func(t T) T { return T(math.Floor(float64(t))) }
-	case RoundUp:
-		return func(t T) T { return T(math.Ceil(float64(t))) }
-	case TowardsZero: // truncate
-		return func(t T) T { return T(math.Trunc(float64(t))) }
-	case AwayFromZero:
-		return func(t T) T {
-			v := float64(t)
-			if math.Signbit(v) {
-				return T(math.Floor(v))
-			}
-			return T(math.Ceil(v))
-		}
-	// the Half variants are only called when the fractional portion
-	// was 0.5
-	case HalfDown:
-		return func(t T) T { return T(math.Floor(float64(t))) }
-	case HalfUp:
-		return func(t T) T { return T(math.Ceil(float64(t))) }
-	case HalfTowardsZero:
-		return func(t T) T { return T(math.Trunc(float64(t))) }
-	case HalfAwayFromZero:
-		return func(t T) T {
-			v := float64(t)
-			if math.Signbit(v) {
-				return T(math.Floor(v))
-			}
-			return T(math.Ceil(v))
-		}
-	case HalfToEven:
-		return func(t T) T { return T(math.RoundToEven(float64(t))) }
-	case HalfToOdd:
-		return func(t T) T {
-			v := float64(t)
-			return T(math.Floor(v*0.5) + math.Ceil(v*0.5))
-		}
-	}
-	panic("invalid rounding mode")
-}
-
-func getDecRounding[T decimal128.Num | decimal256.Num](mode RoundMode, opsImpl *roundDecImpl[T]) func(val, remainder T, pow10 T, scale int32) T {
-	var (
-		z   T
-		one = opsImpl.fromI64(1)
-		neg = opsImpl.fromI64(-1)
-	)
-
-	switch mode {
-	case RoundDown:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			}
-			return val
-		}
-	case RoundUp:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case TowardsZero:
-		return func(val, remainder, _ T, _ int32) T {
-			return opsImpl.Sub(val, remainder)
-		}
-	case AwayFromZero:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(remainder) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	// variants for Half_* modes are only invoked when the fractional part
-	// is equal to 0.5
-	case HalfDown:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			}
-			return val
-		}
-	case HalfUp:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case HalfTowardsZero:
-		return func(val, remainder, _ T, _ int32) T {
-			return opsImpl.Sub(val, remainder)
-		}
-	case HalfAwayFromZero:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(remainder) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case HalfToEven:
-		return func(val, remainder, _ T, scale int32) T {
-			scaled := opsImpl.reduceScale(val, scale, false)
-			if opsImpl.lowBits(scaled)%2 != 0 {
-				if opsImpl.Sign(remainder) >= 0 {
-					scaled = opsImpl.Add(scaled, one)
-				} else {
-					scaled = opsImpl.Add(scaled, neg)
-				}
-			}
-			return opsImpl.increaseScale(scaled, scale)
-		}
-	case HalfToOdd:
-		return func(val, remainder, _ T, scale int32) T {
-			scaled := opsImpl.reduceScale(val, scale, false)
-			if opsImpl.lowBits(scaled)%2 == 0 {
-				if opsImpl.Sign(remainder) != 0 {
-					scaled = opsImpl.Add(scaled, one)
-				} else {
-					scaled = opsImpl.Add(scaled, neg)
-				}
-			}
-			return opsImpl.increaseScale(scaled, scale)
-		}
-	}
-	panic("invalid rounding mode")
-}
-
-type round[T constraints.Float] struct {
-	pow10   T
-	ndigits int64
-	mode    RoundMode
-
-	fn func(T) T
-}
-
-func (rnd *round[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	val := float64(arg)
-	// do not process INF or NaN because they will trigger overflow errors
-	// at the end of this
-	if math.IsInf(val, 0) || math.IsNaN(val) {
-		return arg
-	}
-
-	var roundVal T
-	if rnd.ndigits >= 0 {
-		roundVal = arg * rnd.pow10
-	} else {
-		roundVal = arg / rnd.pow10
-	}
-
-	frac := roundVal - T(math.Floor(float64(roundVal)))
-	if frac == 0 {
-		// scaled value has no fractional component
-		// no rounding is needed.
-		return arg
-	}
-
-	if rnd.mode >= HalfDown && frac != 0.5 {
-		roundVal = T(math.Round(float64(roundVal)))
-	} else {
-		roundVal = rnd.fn(roundVal)
-	}
-
-	// equality check is omitted so that the common case of 10^0
-	// (integer rounding) uses multiply-only
-	if rnd.ndigits > 0 {
-		roundVal /= rnd.pow10
-	} else {
-		roundVal *= rnd.pow10
-	}
-	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
-		*e = errOverflow
-		return arg
-	}
-
-	return roundVal
-}
-
-func roundKernelFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundState)
-	rnd := round[T]{
-		pow10:   T(opts.Pow10),
-		ndigits: opts.NDigits,
-		mode:    opts.Mode,
-		fn:      getFloatRoundImpl[T](opts.Mode),
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-func roundToMultipleFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundToMultipleState)
-	rnd := roundToMultiple[T]{
-		mode:     opts.Mode,
-		multiple: UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
-		fn:       getFloatRoundImpl[T](opts.Mode),
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-type roundDecImpl[T decimal128.Num | decimal256.Num] struct {
-	*decOps[T]
-	scaleMultiplier     func(int) T
-	halfScaleMultiplier func(int) T
-	divide              func(a, b T) (res, rem T)
-	fitsInPrec          func(T, int32) bool
-	less                func(a, b T) bool
-	reduceScale         func(T, int32, bool) T
-	increaseScale       func(T, int32) T
-	lowBits             func(T) uint64
-	fromI64             func(int64) T
-	str                 func(T, int32) string
-}
-
-var (
-	roundDec128 = roundDecImpl[decimal128.Num]{
-		decOps:              &dec128Ops,
-		scaleMultiplier:     decimal128.GetScaleMultiplier,
-		halfScaleMultiplier: decimal128.GetHalfScaleMultiplier,
-		divide:              func(a, b decimal128.Num) (res, rem decimal128.Num) { return a.Div(b) },
-		fitsInPrec:          func(a decimal128.Num, prec int32) bool { return a.FitsInPrecision(prec) },
-		less:                func(a, b decimal128.Num) bool { return a.Less(b) },
-		reduceScale:         func(a decimal128.Num, scale int32, round bool) decimal128.Num { return a.ReduceScaleBy(scale, round) },
-		increaseScale:       func(a decimal128.Num, scale int32) decimal128.Num { return a.IncreaseScaleBy(scale) },
-		lowBits:             func(a decimal128.Num) uint64 { return a.LowBits() },
-		fromI64:             func(v int64) decimal128.Num { return decimal128.FromI64(v) },
-		str:                 func(a decimal128.Num, scale int32) string { return a.ToString(scale) },
-	}
-	roundDec256 = roundDecImpl[decimal256.Num]{
-		decOps:              &dec256Ops,
-		scaleMultiplier:     decimal256.GetScaleMultiplier,
-		halfScaleMultiplier: decimal256.GetHalfScaleMultiplier,
-		divide:              func(a, b decimal256.Num) (res, rem decimal256.Num) { return a.Div(b) },
-		fitsInPrec:          func(a decimal256.Num, prec int32) bool { return a.FitsInPrecision(prec) },
-		less:                func(a, b decimal256.Num) bool { return a.Less(b) },
-		reduceScale:         func(a decimal256.Num, scale int32, round bool) decimal256.Num { return a.ReduceScaleBy(scale, round) },
-		increaseScale:       func(a decimal256.Num, scale int32) decimal256.Num { return a.IncreaseScaleBy(scale) },
-		lowBits:             func(a decimal256.Num) uint64 { return a.LowBits() },
-		fromI64:             func(v int64) decimal256.Num { return decimal256.FromI64(v) },
-		str:                 func(a decimal256.Num, scale int32) string { return a.ToString(scale) },
-	}
-)
-
-type roundDec[T decimal128.Num | decimal256.Num] struct {
-	ty      arrow.DecimalType
-	mode    RoundMode
-	ndigits int64
-	pow     int32
-	// pow10 is "1" for the given decimal scale. Similarly halfPow10 is "0.5"
-	pow10, halfPow10, negHalfPow10 T
-
-	opsImpl *roundDecImpl[T]
-	fn      func(T, T, T, int32) T
-}
-
-func (rnd *roundDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	var def T
-	if rnd.pow >= rnd.ty.GetPrecision() {
-		*e = fmt.Errorf("%w: rounding to %d digits will not fit in precision of %s",
-			arrow.ErrInvalid, rnd.ndigits, rnd.ty)
-		return def
-	} else if rnd.pow < 0 {
-		// no-op copy output to input
-		return arg
-	}
-
-	_, remainder := rnd.opsImpl.divide(arg, rnd.pow10)
-	// the remainder is effectively the scaled fractional part after division
-	if remainder == def {
-		return arg
-	}
-
-	if rnd.mode >= HalfDown {
-		if remainder == rnd.halfPow10 || remainder == rnd.negHalfPow10 {
-			// on the halfway point, use tiebreaker
-			arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
-		} else if rnd.opsImpl.Sign(remainder) >= 0 {
-			// positive, round up/down
-			arg = rnd.opsImpl.Sub(arg, remainder)
-			if rnd.opsImpl.less(rnd.halfPow10, remainder) {
-				arg = rnd.opsImpl.Add(arg, rnd.pow10)
-			}
-		} else {
-			// negative, round up/down
-			arg = rnd.opsImpl.Sub(arg, remainder)
-			if rnd.opsImpl.less(remainder, rnd.negHalfPow10) {
-				arg = rnd.opsImpl.Sub(arg, rnd.pow10)
-			}
-		}
-	} else {
-		arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
-	}
-
-	if !rnd.opsImpl.fitsInPrec(arg, rnd.ty.GetPrecision()) {
-		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
-			arrow.ErrInvalid, rnd.opsImpl.str(arg, rnd.ty.GetScale()), rnd.ty)
-		return def
-	}
-	return arg
-}
-
-func getRoundKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundKernelDecimal(&roundDec128, ctx, batch, out)
-		}
-	case decimal256.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundKernelDecimal(&roundDec256, ctx, batch, out)
-		}
-	}
-	panic("should never get here")
-}
-
-func roundKernelDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundState)
-	rnd := roundDec[T]{
-		ty:      out.Type.(arrow.DecimalType),
-		ndigits: opts.NDigits,
-		mode:    opts.Mode,
-		opsImpl: opsImpl,
-		fn:      getDecRounding(opts.Mode, opsImpl),
-	}
-
-	rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
-	if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
-		rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
-		rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
-		rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-func getRoundToMultipleKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundToMultipleDecimal(&roundDec128, ctx, batch, out)
-		}
-	case decimal256.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundToMultipleDecimal(&roundDec256, ctx, batch, out)
-		}
-	}
-	panic("should never get here")
-}
-
-func roundToMultipleDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundToMultipleState)
-	rnd := roundToMultipleDec[T]{
-		ty:      out.Type.(arrow.DecimalType),
-		mode:    opts.Mode,
-		opsImpl: opsImpl,
-		fn:      getDecRounding(opts.Mode, opsImpl),
-		mult:    UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
-	}
-
-	rnd.halfMult = opsImpl.Div(rnd.mult, opsImpl.fromI64(2))
-	rnd.negHalfMult = opsImpl.Neg(rnd.halfMult)
-	rnd.hasHalfwayPoint = opsImpl.lowBits(rnd.mult)%2 == 0
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-type roundToMultiple[T constraints.Float] struct {
-	multiple T
-	mode     RoundMode
-
-	fn func(T) T
-}
-
-func (rnd *roundToMultiple[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	val := float64(arg)
-	// do not process Inf or NaN because they will trigger the overflow error
-	// at the end of this.
-	if math.IsInf(val, 0) || math.IsNaN(val) {
-		return arg
-	}
-
-	roundVal := arg / rnd.multiple
-	frac := roundVal - T(math.Floor(float64(roundVal)))
-	if frac == 0 {
-		// scaled value is an integer, no rounding needed
-		return arg
-	}
-
-	if rnd.mode >= HalfDown && frac != 0.5 {
-		roundVal = T(math.Round(float64(roundVal)))
-	} else {
-		roundVal = rnd.fn(roundVal)
-	}
-	roundVal *= rnd.multiple
-
-	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
-		*e = errOverflow
-		return arg
-	}
-
-	return roundVal
-}
-
-type roundToMultipleDec[T decimal128.Num | decimal256.Num] struct {
-	ty   arrow.DecimalType
-	mode RoundMode
-
-	mult, halfMult, negHalfMult T
-	hasHalfwayPoint             bool
-
-	opsImpl *roundDecImpl[T]
-	fn      func(T, T, T, int32) T
-}
-
-func (rnd *roundToMultipleDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	var def T
-
-	val, remainder := rnd.opsImpl.divide(arg, rnd.mult)
-	if remainder == def {
-		return arg
-	}
-
-	one := rnd.opsImpl.fromI64(1)
-	if rnd.mode >= HalfDown {
-		if rnd.hasHalfwayPoint && (remainder == rnd.halfMult || remainder == rnd.negHalfMult) {
-			// on the halfway point, use tiebreaker
-			// manually implement rounding since we aren't actually rounding
-			// a decimal value, but rather manipulating the multiple
-			switch rnd.mode {
-			case HalfDown:
-				if rnd.opsImpl.Sign(remainder) < 0 {
-					val = rnd.opsImpl.Sub(val, one)
-				}
-			case HalfUp:
-				if rnd.opsImpl.Sign(remainder) >= 0 {
-					val = rnd.opsImpl.Add(val, one)
-				}
-			case HalfTowardsZero:
-			case HalfAwayFromZero:
-				if rnd.opsImpl.Sign(remainder) >= 0 {
-					val = rnd.opsImpl.Add(val, one)
-				} else {
-					val = rnd.opsImpl.Sub(val, one)
-				}
-			case HalfToEven:
-				if rnd.opsImpl.lowBits(val)%2 != 0 {
-					if rnd.opsImpl.Sign(remainder) >= 0 {
-						val = rnd.opsImpl.Add(val, one)
-					} else {
-						val = rnd.opsImpl.Sub(val, one)
-					}
-				}
-			case HalfToOdd:
-				if rnd.opsImpl.lowBits(val)%2 == 0 {
-					if rnd.opsImpl.Sign(remainder) >= 0 {
-						val = rnd.opsImpl.Add(val, one)
-					} else {
-						val = rnd.opsImpl.Sub(val, one)
-					}
-				}
-			}
-		} else if rnd.opsImpl.Sign(remainder) >= 0 {
-			// positive, round up/down
-			if rnd.opsImpl.less(rnd.halfMult, remainder) {
-				val = rnd.opsImpl.Add(val, one)
-			}
-		} else {
-			// negative, round up/down
-			if rnd.opsImpl.less(remainder, rnd.negHalfMult) {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		}
-	} else {
-		// manually implement rounding since we aren't actually rounding
-		// a decimal value, but rather manipulating the multiple
-		switch rnd.mode {
-		case RoundDown:
-			if rnd.opsImpl.Sign(remainder) < 0 {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		case RoundUp:
-			if rnd.opsImpl.Sign(remainder) >= 0 {
-				val = rnd.opsImpl.Add(val, one)
-			}
-		case TowardsZero:
-		case AwayFromZero:
-			if rnd.opsImpl.Sign(remainder) >= 0 {
-				val = rnd.opsImpl.Add(val, one)
-			} else {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		}
-	}
-
-	roundVal := rnd.opsImpl.Mul(val, rnd.mult)
-	if !rnd.opsImpl.fitsInPrec(roundVal, rnd.ty.GetPrecision()) {
-		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
-			arrow.ErrInvalid, rnd.opsImpl.str(roundVal, rnd.ty.GetScale()), rnd.ty)
-		return def
-	}
-	return roundVal
-}
-
-func UnaryRoundExec(ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.FLOAT32:
-		return roundKernelFloating[float32]
-	case arrow.FLOAT64:
-		return roundKernelFloating[float64]
-	case arrow.DECIMAL128:
-		return getRoundKernelDecimal[decimal128.Num]()
-	case arrow.DECIMAL256:
-		return getRoundKernelDecimal[decimal256.Num]()
-	}
-	panic("should never get here")
-}
-
-func UnaryRoundToMultipleExec(ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.FLOAT32:
-		return roundToMultipleFloating[float32]
-	case arrow.FLOAT64:
-		return roundToMultipleFloating[float64]
-	case arrow.DECIMAL128:
-		return getRoundToMultipleKernelDecimal[decimal128.Num]()
-	case arrow.DECIMAL256:
-		return getRoundToMultipleKernelDecimal[decimal256.Num]()
-	}
-	panic("should never get here")
-}
-
-func GetRoundUnaryKernels(init exec.KernelInitFn, knFn func(arrow.Type) exec.ArrayKernelExec) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64,
-		&arrow.Decimal128Type{Precision: 1}, &arrow.Decimal256Type{Precision: 1}} {
-		tyID := ty.ID()
-
-		var out exec.OutputType
-		if arrow.IsDecimal(tyID) {
-			out = OutputFirstType
-		} else {
-			out = exec.NewOutputType(ty)
-		}
-
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewIDInput(tyID)}, out, knFn(tyID), init))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetSimpleRoundKernels(mode RoundMode) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.FLOAT32:
-			fn := getFloatRoundImpl[float32](mode)
-			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float32, out []float32) error {
-				for i, v := range in {
-					out[i] = fn(v)
-				}
-				return nil
-			})
-		case arrow.FLOAT64:
-			fn := getFloatRoundImpl[float64](mode)
-			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float64, out []float64) error {
-				for i, v := range in {
-					out[i] = fn(v)
-				}
-				return nil
-			})
-		}
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(1))
-}
-
-func fixedRoundDecimalExec[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], mode RoundMode) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		rnd := roundDec[T]{
-			ty:      out.Type.(arrow.DecimalType),
-			mode:    mode,
-			opsImpl: opsImpl,
-			fn:      getDecRounding(mode, opsImpl),
-		}
-
-		rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
-		if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
-			rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
-			rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
-			rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
-		}
-
-		return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-	}
-}
-
-func FixedRoundDecimalExec[T decimal128.Num | decimal256.Num](mode RoundMode) exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func() exec.ArrayKernelExec {
-			return fixedRoundDecimalExec(&roundDec128, mode)
-		}()
-	case decimal256.Num:
-		return func() exec.ArrayKernelExec {
-			return fixedRoundDecimalExec(&roundDec256, mode)
-		}()
-	}
-	panic("should never get here")
-}
diff --git a/go/arrow/compute/internal/kernels/roundmode_string.go b/go/arrow/compute/internal/kernels/roundmode_string.go
deleted file mode 100644
index 87c6a6e74a841..0000000000000
--- a/go/arrow/compute/internal/kernels/roundmode_string.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by "stringer -type=RoundMode"; DO NOT EDIT.
-
-//go:build go1.18
-
-package kernels
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[RoundDown-0]
-	_ = x[RoundUp-1]
-	_ = x[TowardsZero-2]
-	_ = x[AwayFromZero-3]
-	_ = x[HalfDown-4]
-	_ = x[HalfUp-5]
-	_ = x[HalfTowardsZero-6]
-	_ = x[HalfAwayFromZero-7]
-	_ = x[HalfToEven-8]
-	_ = x[HalfToOdd-9]
-}
-
-const _RoundMode_name = "RoundDownRoundUpTowardsZeroAwayFromZeroHalfDownHalfUpHalfTowardsZeroHalfAwayFromZeroHalfToEvenHalfToOdd"
-
-var _RoundMode_index = [...]uint8{0, 9, 16, 27, 39, 47, 53, 68, 84, 94, 103}
-
-func (i RoundMode) String() string {
-	if i < 0 || i >= RoundMode(len(_RoundMode_index)-1) {
-		return "RoundMode(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _RoundMode_name[_RoundMode_index[i]:_RoundMode_index[i+1]]
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_arithmetic.go b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
deleted file mode 100644
index f2b52a6bf7101..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_arithmetic.go
+++ /dev/null
@@ -1,412 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// scalar kernel that ignores (assumed all-null inputs) and returns null
-func NullToNullExec(_ *exec.KernelCtx, _ *exec.ExecSpan, _ *exec.ExecResult) error {
-	return nil
-}
-
-func NullExecKernel(nargs int) exec.ScalarKernel {
-	in := make([]exec.InputType, nargs)
-	for i := range in {
-		in[i] = exec.NewIDInput(arrow.NULL)
-	}
-	return exec.NewScalarKernel(in, exec.NewOutputType(arrow.Null), NullToNullExec, nil)
-}
-
-func GetArithmeticFunctionTimeDuration(op ArithmeticOp) []exec.ScalarKernel {
-	mult := (time.Hour * 24)
-	return []exec.ScalarKernel{exec.NewScalarKernel([]exec.InputType{
-		exec.NewExactInput(arrow.FixedWidthTypes.Time32s),
-		exec.NewExactInput(&arrow.DurationType{Unit: arrow.Second})}, OutputFirstType,
-		timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Seconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time32ms),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Millisecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Milliseconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time64us),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Microsecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Microseconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time64ns),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Nanosecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Nanoseconds()), op), nil)}
-}
-
-func GetDecimalBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	var outType exec.OutputType
-	switch op {
-	case OpAdd, OpSub, OpAddChecked, OpSubChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalAddOrSubtractType)
-	case OpMul, OpMulChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalMultiplyOutput)
-	case OpDiv, OpDivChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalDivideOutput)
-	}
-
-	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
-	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
-	return []exec.ScalarKernel{
-		exec.NewScalarKernel([]exec.InputType{in128, in128}, outType, exec128, nil),
-		exec.NewScalarKernel([]exec.InputType{in256, in256}, outType, exec256, nil),
-	}
-}
-
-func GetArithmeticBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range numericTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty), exec.NewExactInput(ty)},
-			exec.NewOutputType(ty), ArithmeticExecSameType(ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(2))
-}
-
-func GetDecimalUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	outType := OutputFirstType
-	in128 := exec.NewIDInput(arrow.DECIMAL128)
-	in256 := exec.NewIDInput(arrow.DECIMAL256)
-
-	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
-	return []exec.ScalarKernel{
-		exec.NewScalarKernel([]exec.InputType{in128}, outType, exec128, nil),
-		exec.NewScalarKernel([]exec.InputType{in256}, outType, exec256, nil),
-	}
-}
-
-func GetArithmeticUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range numericTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticUnarySignedKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range append(signedIntTypes, floatingTypes...) {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticUnaryFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		in := exec.NewExactInput(ty)
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{in, in}, exec.NewOutputType(ty),
-			ArithmeticExecSameType(ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(2))
-}
-
-func GetArithmeticUnaryFixedIntOutKernels(otype arrow.DataType, op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	out := exec.NewOutputType(otype)
-	for _, ty := range numericTypes {
-		otype := otype
-		out := out
-		if arrow.IsFloating(ty.ID()) {
-			otype = ty
-			out = exec.NewOutputType(ty)
-		}
-
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out,
-			ArithmeticExec(ty.ID(), otype.ID(), op), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
-		getArithmeticDecimal[decimal128.Num](op), nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
-		getArithmeticDecimal[decimal256.Num](op), nil))
-
-	return append(kernels, NullExecKernel(1))
-}
-
-type BitwiseOp int8
-
-const (
-	OpBitAnd BitwiseOp = iota
-	OpBitOr
-	OpBitXor
-)
-
-func bitwiseKernelOp(op BitwiseOp) exec.ArrayKernelExec {
-	var fn func([]byte, []byte, int64, int64, []byte, int64, int64)
-	switch op {
-	case OpBitOr:
-		fn = bitutil.BitmapOr
-	case OpBitAnd:
-		fn = bitutil.BitmapAnd
-	case OpBitXor:
-		fn = bitutil.BitmapXor
-	}
-
-	arrayArray := func(left, right *exec.ArraySpan, out *exec.ExecResult) error {
-		bits := int64(left.Type.(arrow.FixedWidthDataType).BitWidth())
-		fn(left.Buffers[1].Buf, right.Buffers[1].Buf,
-			bits*left.Offset, bits*right.Offset,
-			out.Buffers[1].Buf, bits*out.Offset, bits*left.Len)
-		return nil
-	}
-
-	arrayScalar := func(arr *exec.ArraySpan, sc scalar.Scalar, out *exec.ExecResult) error {
-		if !sc.IsValid() {
-			// no work to be done, everything is null
-			return nil
-		}
-
-		val := sc.(scalar.PrimitiveScalar).Data()
-		byteWidth := int64(len(val))
-		bitWidth := byteWidth * 8
-		arrBuf := arr.Buffers[1].Buf[byteWidth*arr.Offset:]
-		outBuf := out.Buffers[1].Buf[byteWidth*out.Offset:]
-
-		for i := int64(0); i < arr.Len; i++ {
-			fn(arrBuf, val, 0, 0, outBuf, 0, bitWidth)
-			arrBuf, outBuf = arrBuf[byteWidth:], outBuf[byteWidth:]
-		}
-		return nil
-	}
-
-	return func(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(&batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(&batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return arrayScalar(&batch.Values[1].Array, batch.Values[0].Scalar, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func GetBitwiseBinaryKernels(op BitwiseOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		ex := bitwiseKernelOp(op)
-		inType := exec.NewExactInput(ty)
-		kernels = append(kernels, exec.NewScalarKernel([]exec.InputType{
-			inType, inType}, exec.NewOutputType(ty), ex, nil))
-	}
-	return append(kernels, NullExecKernel(2))
-}
-
-func bitwiseNot[T arrow.IntType | arrow.UintType](_ *exec.KernelCtx, arg T, _ *error) T {
-	return ^arg
-}
-
-func getBitwiseNotExec(ty arrow.DataType) exec.ArrayKernelExec {
-	switch ty.ID() {
-	case arrow.INT8, arrow.UINT8:
-		return ScalarUnaryNotNull(bitwiseNot[uint8])
-	case arrow.INT16, arrow.UINT16:
-		return ScalarUnaryNotNull(bitwiseNot[uint16])
-	case arrow.INT32, arrow.UINT32:
-		return ScalarUnaryNotNull(bitwiseNot[uint32])
-	case arrow.INT64, arrow.UINT64:
-		return ScalarUnaryNotNull(bitwiseNot[uint64])
-	}
-	panic("only integral types for bitwise not kernels")
-}
-
-func GetBitwiseUnaryKernels() []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		ex := getBitwiseNotExec(ty)
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(1))
-}
-
-type ShiftDir int8
-
-const (
-	ShiftLeft ShiftDir = iota
-	ShiftRight
-)
-
-func shiftKernelSignedImpl[T arrow.IntType, Unsigned arrow.UintType](dir ShiftDir, checked bool) exec.ArrayKernelExec {
-	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
-	maxShift := T(8*SizeOf[T]() - 1)
-
-	switch dir {
-	case ShiftLeft:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return T(Unsigned(lhs) << Unsigned(rhs))
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-
-			return T(Unsigned(lhs) << Unsigned(rhs))
-		})
-	case ShiftRight:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs >> rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs >> rhs
-		})
-	}
-	return nil
-}
-
-func shiftKernelUnsignedImpl[T arrow.UintType](dir ShiftDir, checked bool) exec.ArrayKernelExec {
-	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
-	maxShift := T(8 * SizeOf[T]())
-
-	switch dir {
-	case ShiftLeft:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs << rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs << rhs
-		})
-	case ShiftRight:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs >> rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs >> rhs
-		})
-	}
-	return nil
-}
-
-func shiftKernel(dir ShiftDir, checked bool, ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.INT8:
-		return shiftKernelSignedImpl[int8, uint8](dir, checked)
-	case arrow.UINT8:
-		return shiftKernelUnsignedImpl[uint8](dir, checked)
-	case arrow.INT16:
-		return shiftKernelSignedImpl[int16, uint16](dir, checked)
-	case arrow.UINT16:
-		return shiftKernelUnsignedImpl[uint16](dir, checked)
-	case arrow.INT32:
-		return shiftKernelSignedImpl[int32, uint32](dir, checked)
-	case arrow.UINT32:
-		return shiftKernelUnsignedImpl[uint32](dir, checked)
-	case arrow.INT64:
-		return shiftKernelSignedImpl[int64, uint64](dir, checked)
-	case arrow.UINT64:
-		return shiftKernelUnsignedImpl[uint64](dir, checked)
-	}
-	panic("invalid type for shift kernels")
-}
-
-func GetShiftKernels(dir ShiftDir, checked bool) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		inType := exec.NewExactInput(ty)
-		ex := shiftKernel(dir, checked, ty.ID())
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{inType, inType}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(2))
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_boolean.go b/go/arrow/compute/internal/kernels/scalar_boolean.go
deleted file mode 100644
index f23a7f568b192..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_boolean.go
+++ /dev/null
@@ -1,334 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-type computeWordFN func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64)
-
-func computeKleene(computeWord computeWordFN, ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		inBMs = [4]bitutil.Bitmap{
-			{Data: left.Buffers[0].Buf, Offset: left.Offset, Len: left.Len},
-			{Data: left.Buffers[1].Buf, Offset: left.Offset, Len: left.Len},
-			{Data: right.Buffers[1].Buf, Offset: right.Offset, Len: right.Len},
-			{Data: right.Buffers[0].Buf, Offset: right.Offset, Len: right.Len},
-		}
-		outBMs = [2]bitutil.Bitmap{
-			{Data: out.Buffers[0].Buf, Offset: out.Offset, Len: out.Len},
-			{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len},
-		}
-		apply = func(leftValid, leftData uint64, rightValid, rightData uint64) (outValidity, outData uint64) {
-			leftTrue, leftFalse := leftValid&leftData, leftValid&^leftData
-			rightTrue, rightFalse := rightValid&rightData, rightValid&^rightData
-			return computeWord(leftTrue, leftFalse, rightTrue, rightFalse)
-		}
-	)
-
-	switch {
-	case right.UpdateNullCount() == 0:
-		return bitutil.VisitWordsAndWrite(inBMs[:3], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(in[0], in[1], ^uint64(0), in[2])
-			})
-	case left.UpdateNullCount() == 0:
-		return bitutil.VisitWordsAndWrite(inBMs[1:], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(^uint64(0), in[0], in[2], in[1])
-			})
-	default:
-		return bitutil.VisitWordsAndWrite(inBMs[:], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(in[0], in[1], in[3], in[2])
-			})
-	}
-}
-
-type AndOpKernel struct {
-	commutativeBinaryKernel[AndOpKernel]
-}
-
-func (AndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapAnd(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
-	return nil
-}
-
-func (AndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
-			int(right.Len), outBM, int(out.Offset))
-	} else {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
-	}
-	return nil
-}
-
-type KleeneAndOpKernel struct {
-	commutativeBinaryKernel[KleeneAndOpKernel]
-}
-
-func (KleeneAndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (AndOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftFalse | rightFalse | (leftTrue & rightTrue), leftTrue & rightTrue
-	}
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneAndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftFalse:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
-	case leftTrue:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was false
-		if right.UpdateNullCount() == 0 {
-			bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAndNot(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
-				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-type OrOpKernel struct {
-	commutativeBinaryKernel[OrOpKernel]
-}
-
-func (OrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapOr(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
-	return nil
-}
-
-func (OrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, true)
-	} else {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
-			int(right.Len), outBM, int(out.Offset))
-	}
-	return nil
-}
-
-type KleeneOrOpKernel struct {
-	commutativeBinaryKernel[KleeneOrOpKernel]
-}
-
-func (KleeneOrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (OrOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftTrue | rightTrue | (leftFalse & rightFalse), leftTrue | rightTrue
-	}
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneOrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftTrue:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, true) // all true case
-	case leftFalse:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was true
-		if right.UpdateNullCount() == 0 {
-			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
-				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-type XorOpKernel struct {
-	commutativeBinaryKernel[XorOpKernel]
-}
-
-func (XorOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapXor(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, out.Len)
-	return nil
-}
-
-func (XorOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	} else {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	}
-	return nil
-}
-
-func invertScalar(in scalar.Scalar) *scalar.Boolean {
-	if in.IsValid() {
-		return scalar.NewBooleanScalar(!in.(*scalar.Boolean).Value)
-	}
-	return in.(*scalar.Boolean)
-}
-
-type AndNotOpKernel struct{}
-
-func (AndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapAndNot(left.Buffers[1].Buf, right.Buffers[1].Buf, left.Offset, right.Offset,
-		out.Buffers[1].Buf, out.Offset, right.Len)
-	return nil
-}
-
-func (AndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	} else {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
-	}
-	return nil
-}
-
-func (AndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	return (AndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
-}
-
-type KleeneAndNotOpKernel struct{}
-
-func (KleeneAndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (AndNotOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftFalse | rightTrue | (leftTrue & rightFalse), leftTrue & rightFalse
-	}
-
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneAndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftFalse:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
-	case leftTrue:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was true
-		if right.UpdateNullCount() == 0 {
-			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset, right.Offset,
-				out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-func (KleeneAndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	return (KleeneAndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
deleted file mode 100644
index bf8594e8290f7..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"golang.org/x/sys/cpu"
-)
-
-var pureGo bool
-
-type cmpfn func(arrow.Type, []byte, []byte, []byte, int64, int)
-
-var comparisonMap map[CompareOperator][3]cmpfn
-
-func genCompareKernel[T arrow.NumericType](op CompareOperator) *CompareData {
-	if pureGo {
-		return genGoCompareKernel(getCmpOp[T](op))
-	}
-
-	ty := arrow.GetType[T]()
-	byteWidth := int(unsafe.Sizeof(T(0)))
-	comparisonFns := comparisonMap[op]
-	return &CompareData{
-		funcAA: func(left, right, out []byte, offset int) {
-			length := int64(len(left) / byteWidth)
-			comparisonFns[0](ty, left, right, out, length, offset)
-		},
-		funcAS: func(left, right, out []byte, offset int) {
-			length := int64(len(left) / byteWidth)
-			comparisonFns[1](ty, left, right, out, length, offset)
-		},
-		funcSA: func(left, right, out []byte, offset int) {
-			length := int64(len(right) / byteWidth)
-			comparisonFns[2](ty, left, right, out, length, offset)
-		},
-	}
-}
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		comparisonMap = map[CompareOperator][3]cmpfn{
-			CmpEQ: {
-				comparisonEqualArrArrAvx2,
-				comparisonEqualArrScalarAvx2,
-				comparisonEqualScalarArrAvx2,
-			},
-			CmpNE: {
-				comparisonNotEqualArrArrAvx2,
-				comparisonNotEqualArrScalarAvx2,
-				comparisonNotEqualScalarArrAvx2,
-			},
-			CmpGT: {
-				comparisonGreaterArrArrAvx2,
-				comparisonGreaterArrScalarAvx2,
-				comparisonGreaterScalarArrAvx2,
-			},
-			CmpGE: {
-				comparisonGreaterEqualArrArrAvx2,
-				comparisonGreaterEqualArrScalarAvx2,
-				comparisonGreaterEqualScalarArrAvx2,
-			},
-		}
-
-	} else if cpu.X86.HasSSE42 {
-		comparisonMap = map[CompareOperator][3]cmpfn{
-			CmpEQ: {
-				comparisonEqualArrArrSSE4,
-				comparisonEqualArrScalarSSE4,
-				comparisonEqualScalarArrSSE4,
-			},
-			CmpNE: {
-				comparisonNotEqualArrArrSSE4,
-				comparisonNotEqualArrScalarSSE4,
-				comparisonNotEqualScalarArrSSE4,
-			},
-			CmpGT: {
-				comparisonGreaterArrArrSSE4,
-				comparisonGreaterArrScalarSSE4,
-				comparisonGreaterScalarArrSSE4,
-			},
-			CmpGE: {
-				comparisonGreaterEqualArrArrSSE4,
-				comparisonGreaterEqualArrScalarSSE4,
-				comparisonGreaterEqualScalarArrSSE4,
-			},
-		}
-	} else {
-		pureGo = true
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
deleted file mode 100644
index 220e65cafe291..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _comparison_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
deleted file mode 100644
index bfc999b808ae1..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
+++ /dev/null
@@ -1,67310 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_comparison_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_28
-	JMP  LBB0_123
-
-LBB0_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6940f41                           // sete    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4940f41                           // sete    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0940f41                           // sete    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_56
-	JMP  LBB0_123
-
-LBB0_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_14
-	JMP  LBB0_123
-
-LBB0_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_42
-	JMP  LBB0_123
-
-LBB0_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_78
-	JMP  LBB0_123
-
-LBB0_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_89
-	JMP  LBB0_123
-
-LBB0_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_111
-	JMP  LBB0_123
-
-LBB0_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_122
-	JMP  LBB0_123
-
-LBB0_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_67
-	JMP  LBB0_123
-
-LBB0_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_100
-
-LBB0_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA1<>(SB), 8, $224
-
-TEXT ·_comparison_equal_arr_scalar_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_49
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_57
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_164
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_101
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_102
-	JMP  LBB1_164
-
-LBB1_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_39
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_65
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_73
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_164
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_105
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_106
-	JMP  LBB1_164
-
-LBB1_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_81
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_164
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_31
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_29:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_29
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_31:
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB1_108
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x0000011824bc894c     // mov    qword [rsp + 280], r15
-	QUAD $0x0000018824ac894c     // mov    qword [rsp + 392], r13
-	JB   LBB1_35
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB1_165
-	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_165
-
-LBB1_35:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB1_36:
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
-
-LBB1_37:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x30               // add    r8b, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x20               // movzx    edx, byte [rsp + 32]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_37
-	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
-	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
-	JMP  LBB1_109
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_93
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_164
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_45
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_43:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_43
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_45:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_112
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB1_47:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_47
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_113
-	JMP  LBB1_164
-
-LBB1_49:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_53
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_51:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_51
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_53:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_116
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_55:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x940f; BYTE $0xd1             // sete    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0940f41                     // sete    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	WORD $0x0840; BYTE $0xc7             // or    dil, al
-	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x68         // movzx    edi, byte [rsp + 104]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x48245402                     // add    dl, byte [rsp + 72]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB1_55
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB1_117
-	JMP  LBB1_164
-
-LBB1_57:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_59:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_59
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_61:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_120
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_63:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x940f; BYTE $0xd1             // sete    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0940f41                     // sete    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x68245402                     // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70         // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x48245402                     // add    dl, byte [rsp + 72]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB1_63
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB1_121
-	JMP  LBB1_164
-
-LBB1_65:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_69
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_67:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_67
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_69:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_123
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_71:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_71
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_124
-	JMP  LBB1_164
-
-LBB1_73:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_77
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_75:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_75
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_77:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_126
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_79:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_79
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_127
-	JMP  LBB1_164
-
-LBB1_81:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_83:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_83
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_85:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_129
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB1_89
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB1_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_168
-
-LBB1_89:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB1_90:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB1_91:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_91
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB1_130
-
-LBB1_93:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_97
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_95:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_95
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_97:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_133
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB1_99:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_99
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_134
-	JMP  LBB1_164
-
-LBB1_101:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_102:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_104:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_104
-	JMP  LBB1_161
-
-LBB1_105:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_106:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_138
-
-LBB1_108:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB1_109:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
-	JGE  LBB1_164
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xfd // add    r13, r15
-	JE   LBB1_132
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB1_141:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_141
-	JMP  LBB1_156
-
-LBB1_112:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_113:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_125
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_115:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_115
-	JMP  LBB1_148
-
-LBB1_116:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_117:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_122
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_119:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_119
-	JMP  LBB1_144
-
-LBB1_120:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_121:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_142
-
-LBB1_122:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_144
-
-LBB1_123:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_124:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_146
-
-LBB1_125:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_148
-
-LBB1_126:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_127:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_150
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_152
-
-LBB1_129:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB1_130:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_154
-
-LBB1_132:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB1_157
-
-LBB1_133:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_134:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_159
-
-LBB1_135:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_161
-
-LBB1_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_137:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_137
-
-LBB1_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB1_163
-
-LBB1_142:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_143:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_143
-
-LBB1_144:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB1_163
-
-LBB1_146:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_147:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_147
-
-LBB1_148:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB1_163
-
-LBB1_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_151:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_151
-
-LBB1_152:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-	JMP  LBB1_163
-
-LBB1_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB1_155:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_155
-
-LBB1_156:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB1_157:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB1_164
-
-LBB1_159:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_160:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_160
-
-LBB1_161:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB1_163:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB1_164:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB1_165:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB1_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
-	QUAD $0x000000c8249c894c                   // mov    qword [rsp + 200], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000c024948948                   // mov    qword [rsp + 192], rdx
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	QUAD $0x000000d824a4894c                   // mov    qword [rsp + 216], r12
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
-	QUAD $0x000000b824b4894c                   // mov    qword [rsp + 184], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
-	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
-	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
-	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
-	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
-	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
-	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
-	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
-	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
-	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
-	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
-	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
-	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
-	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
-	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
-	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
-	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
-	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
-	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
-	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
-	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
-	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
-	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
-	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
-	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
-	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
-	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
-	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
-	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
-	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
-	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
-	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
-	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
-	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
-	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
-	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
-	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
-	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
-	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
-	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
-	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
-	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
-	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
-	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
-	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
-	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
-	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
-	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
-	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
-	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
-	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
-	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
-	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
-	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
-	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
-	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
-	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
-	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
-	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
-	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
-	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
-	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
-	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
-	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
-	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
-	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
-	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
-	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
-	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
-	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
-	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
-	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
-	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
-	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
-	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
-	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
-	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
-	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
-	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB1_166
-	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB1_36
-	JMP  LBB1_109
-
-LBB1_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB1_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000f824948948                   // mov    qword [rsp + 248], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000d024a4894c                   // mov    qword [rsp + 208], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 4
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 5
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r10], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
-	QUAD $0x0301266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 3
-	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
-	QUAD $0x070316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
-	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0e030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x02031e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0503166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x09033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x070406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 7
-	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
-	QUAD $0x0e040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 14
-	QUAD $0x0f041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	QUAD $0x02041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0704165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 7
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	QUAD $0x09043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 10
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0b04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x010506642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r8 + 5], 1
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x06052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 12
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0d0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 15
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x03051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 3
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	QUAD $0x0705166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x09050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b05366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x01061e442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r11 + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x06062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 9
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0a0636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 12
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0806266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 8
-	QUAD $0x09060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0b060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 11
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0c06066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 3
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x04071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 6
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 9
-	QUAD $0x0a0736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 10
-	QUAD $0x0b0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 6
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x07072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 7
-	QUAD $0x0807264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	QUAD $0x0b070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 11
-	QUAD $0x0c07064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01080e442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rcx + 8], 1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x020806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x080836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x090816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c0826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 12
-	QUAD $0x0d0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 13
-	QUAD $0x0e083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0108066c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rax + 8], 1
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x02080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0508066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x06083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 6
-	QUAD $0x07082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 15
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
-	QUAD $0x04091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x06090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 7
-	QUAD $0x080936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 8
-	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
-	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 12
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x02090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x05091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 5
-	QUAD $0x06093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 6
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x07091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 7
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x09090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 10
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x010a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 1
-	QUAD $0x020a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 4
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x050a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x070a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 7
-	QUAD $0x080a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 8
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x0d0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 14
-	QUAD $0x0f0a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x020a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x060a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 6
-	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
-	QUAD $0x010b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 1
-	QUAD $0x020b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 2
-	QUAD $0x030b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 3
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
-	QUAD $0x050b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 5
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x060b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 6
-	QUAD $0x070b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 7
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	QUAD $0x080b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 12
-	QUAD $0x0d0b164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 11], 13
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0e0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 15
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x010b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 11], 1
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x020b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x050b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 5
-	QUAD $0x060b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x070b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 11], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x080b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 8
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 11], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x010c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x020c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x030c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 3
-	QUAD $0x040c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x050c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 5
-	QUAD $0x060c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 6
-	QUAD $0x070c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 7
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 12
-	QUAD $0x0d0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x010c16542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rdx + 12], 1
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x020c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x030c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x050c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x070c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x090c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0e0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 15
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x010d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 1
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x020d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 2
-	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
-	QUAD $0x050d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 5
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x070d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x090d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 11
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x0d0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 13
-	QUAD $0x0e0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x010d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x030d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 3
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	QUAD $0x050d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x070d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 7
-	QUAD $0x080d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 12
-	QUAD $0x0d0d0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 13], 13
-	QUAD $0x0e0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x020e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x040e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 4
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x050e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 5
-	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x080e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 8
-	QUAD $0x090e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 12
-	QUAD $0x0d0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0f0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 15
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x010e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x030e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
-	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x070e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x090e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 1
-	QUAD $0x020f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 3
-	QUAD $0x040f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 4
-	QUAD $0x050f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 5
-	QUAD $0x060f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x080f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 10
-	QUAD $0x0b0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 14
-	QUAD $0x0f0f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x020f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 2
-	QUAD $0x030f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x040f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x050f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0b0f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 13
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0e0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1016             // movzx    edi, byte [rsi + r10 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 3
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x04100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 6
-	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
-	QUAD $0x081006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 9
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0d1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 13
-	QUAD $0x0e102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x04102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 4
-	QUAD $0x0510164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0910164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 10
-	QUAD $0x0b10364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 11
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0d103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 13
-	QUAD $0x0e101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 14
-	QUAD $0x0f10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 15
-	LONG $0x7cb60f42; WORD $0x1116             // movzx    edi, byte [rsi + r10 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x021116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 2
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x04110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 5
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x06111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 7
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
-	QUAD $0x09110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 12
-	QUAD $0x0d1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
-	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 3
-	QUAD $0x04112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	QUAD $0x0d113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f113e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
-	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x04123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 5
-	QUAD $0x06121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 7
-	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 10
-	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
-	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x01122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 1
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x0312064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 3
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0412164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 4
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0512364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0612064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 6
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x07121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 7
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x0a120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x021326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
-	QUAD $0x0a1316542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 19], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 12
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 15
-	LONG $0x1e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rbx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 1
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0213165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0313165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 3
-	QUAD $0x0413165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 4
-	QUAD $0x0513365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 6
-	QUAD $0x07131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 7
-	QUAD $0x08130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 8
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0a131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0c132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x0f13365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x143e             // movzx    edi, byte [rsi + r15 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 1
-	QUAD $0x021426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 3
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x041426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x051416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 20], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	QUAD $0x0f1406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0114064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 1
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	QUAD $0x0314164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0414064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
-	QUAD $0x06141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0714164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0814164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0914164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 9
-	QUAD $0x0a141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 10
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0b141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 11
-	QUAD $0x0c142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0f14364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x153e             // movzx    edi, byte [rsi + r15 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 3
-	QUAD $0x041526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 4
-	QUAD $0x051516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 5
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x061516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x091516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x0d151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x01153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 1
-	QUAD $0x0215065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0615065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x07153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0915065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 10
-	QUAD $0x0b151e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 21], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 12
-	QUAD $0x0d152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1506442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x05162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 5
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x071626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 7
-	QUAD $0x08160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 8
-	QUAD $0x091616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 9
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0a1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 10
-	QUAD $0x0b1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 12
-	QUAD $0x0d161e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 22], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0116164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0316164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0416164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0516164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 5
-	QUAD $0x0616064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 6
-	QUAD $0x07163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0816164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0916364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 10
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 15
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x021706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x031716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x05172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 9
-	QUAD $0x0a1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 11
-	QUAD $0x0c171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 12
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x0d173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
-	LONG $0x1e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rbx + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0117165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 1
-	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x04171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0517165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 5
-	QUAD $0x0617065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 7
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0817065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 8
-	QUAD $0x0917365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
-	QUAD $0x0b170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 13
-	QUAD $0x0e173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x02183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 2
-	QUAD $0x031816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 3
-	QUAD $0x041806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 14
-	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0118064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0218064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 2
-	QUAD $0x03180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 3
-	QUAD $0x04181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 4
-	QUAD $0x0518164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 5
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0618164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0718064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 7
-	QUAD $0x0818064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 8
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x09182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 9
-	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
-	QUAD $0x0c181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 12
-	QUAD $0x0d18364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	QUAD $0x0f180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 15
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 1
-	QUAD $0x02193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 3
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 6
-	QUAD $0x071916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 7
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x08190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 15
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0119165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x0619165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x08193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 8
-	QUAD $0x09192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 9
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0a192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 10
-	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 13
-	QUAD $0x0e19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f193e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x021a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 3
-	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 5
-	QUAD $0x061a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 7
-	QUAD $0x081a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 9
-	QUAD $0x0a1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 10
-	QUAD $0x0b1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 11
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0c1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 12
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 15
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1a26             // movzx    edi, byte [rsi + r12 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x021a364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 26], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x051a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 9
-	QUAD $0x0a1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 10
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0b1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x031b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x051b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 5
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x061b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0a1b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 11
-	QUAD $0x0c1b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 12
-	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x011b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 1
-	QUAD $0x021b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 2
-	QUAD $0x031b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x041b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x051b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x061b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x071b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x081b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 10
-	QUAD $0x0b1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 13
-	QUAD $0x0e1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 4
-	QUAD $0x051c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 5
-	QUAD $0x061c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	QUAD $0x0a1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0b1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x0d1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 13
-	QUAD $0x0e1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x031c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x041c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x051c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 5
-	QUAD $0x061c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 6
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
-	QUAD $0x0a1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 10
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0b1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 1
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x021d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x071d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x081d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 8
-	QUAD $0x091d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
-	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 12
-	QUAD $0x0d1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	QUAD $0x0f1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x031d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
-	QUAD $0x051d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 5
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x061d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 6
-	QUAD $0x071d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 7
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x081d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	QUAD $0x0b1d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 11
-	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d06442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x021e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 2
-	QUAD $0x021f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 12
-	QUAD $0x0c1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f06             // movzx    eax, byte [rsi + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 4
-	QUAD $0x041f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x061e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 6
-	QUAD $0x061f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
-	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
-	QUAD $0x081e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 8
-	QUAD $0x081f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0b1e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 11
-	QUAD $0x0b1f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
-	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB1_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB1_90
-	JMP  LBB1_130
-
-DATA LCDATA2<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA2<>(SB), 8, $224
-
-TEXT ·_comparison_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_60
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_72
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_157
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_7:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_9:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_13
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_11:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_13:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_16:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_16
-	JMP  LBB2_154
-
-LBB2_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_83
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_94
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_157
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_23:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_23
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_25:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_29
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB2_27:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_27
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-
-LBB2_29:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_136
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_138
-
-LBB2_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_105
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_157
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_36:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_36
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_38:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_128
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB2_42
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB2_165
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_165
-
-LBB2_42:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB2_43:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB2_44:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_44
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB2_129
-
-LBB2_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_117
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_157
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_50:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_52:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_56
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_54:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_54
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_56:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_93
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_59:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_59
-	JMP  LBB2_146
-
-LBB2_60:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_62:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_62
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_64:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_68
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_66:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_66
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_68:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_71:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_71
-	JMP  LBB2_142
-
-LBB2_72:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_74:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_74
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_76:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_80
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_78:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_78
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_80:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_140
-
-LBB2_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_142
-
-LBB2_83:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_85:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_85
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_87:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_91
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_89:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_91:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_144
-
-LBB2_93:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_146
-
-LBB2_94:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_98
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_96:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_96
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_98:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_102
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB2_100:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x33                   // mov    byte [r11], r14b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_100
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-
-LBB2_102:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_148
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_150
-
-LBB2_105:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_109
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_107:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_107
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_109:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_132
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB2_113
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB2_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_168
-
-LBB2_113:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB2_114:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB2_115:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_115
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB2_133
-
-LBB2_117:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_121
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_119:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_119
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_121:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_123:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_123
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_125:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_152
-
-LBB2_127:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_154
-
-LBB2_128:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB2_129:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB2_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB2_159:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_159
-	JMP  LBB2_162
-
-LBB2_132:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB2_133:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_160
-
-LBB2_135:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB2_163
-
-LBB2_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_137:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_137
-
-LBB2_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB2_156
-
-LBB2_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_141:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_141
-
-LBB2_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
-	JMP  LBB2_156
-
-LBB2_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_145:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_145
-
-LBB2_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-	JMP  LBB2_156
-
-LBB2_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_149:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_149
-
-LBB2_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-	JMP  LBB2_156
-
-LBB2_152:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_153:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_153
-
-LBB2_154:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-
-LBB2_156:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB2_157:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB2_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB2_161:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_161
-
-LBB2_162:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB2_163:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB2_157
-
-LBB2_165:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB2_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
-	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
-	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
-	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
-	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
-	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
-	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
-	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
-	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
-	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
-	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
-	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
-	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
-	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
-	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
-	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
-	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
-	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
-	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
-	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
-	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
-	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
-	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
-	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
-	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
-	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
-	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
-	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
-	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
-	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
-	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
-	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
-	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
-	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
-	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
-	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
-	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
-	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
-	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
-	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
-	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
-	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
-	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
-	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
-	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
-	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
-	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
-	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
-	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
-	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
-	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
-	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
-	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
-	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
-	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
-	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
-	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
-	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
-	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
-	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
-	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
-	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
-	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
-	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
-	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
-	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
-	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
-	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
-	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
-	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
-	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
-	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
-	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
-	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
-	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
-	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
-	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
-	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
-	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
-	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
-	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
-	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
-	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
-	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
-	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
-	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
-	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
-	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
-	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
-	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
-	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
-	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
-	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
-	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
-	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
-	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
-	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
-	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
-	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
-	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
-	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
-	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
-	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
-	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
-	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
-	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
-	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
-	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
-	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
-	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
-	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
-	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
-	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
-	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
-	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
-	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
-	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
-	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB2_166
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB2_43
-	JMP  LBB2_129
-
-LBB2_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB2_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
-	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
-	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
-	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
-	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
-	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
-	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
-	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
-	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
-	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
-	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
-	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
-	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
-	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
-	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
-	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
-	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
-	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
-	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
-	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
-	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
-	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
-	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
-	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
-	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
-	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
-	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
-	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
-	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
-	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
-	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
-	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
-	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
-	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
-	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
-	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
-	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
-	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
-	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
-	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
-	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
-	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
-	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
-	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
-	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
-	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
-	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
-	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
-	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
-	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
-	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
-	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
-	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
-	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
-	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
-	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
-	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
-	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
-	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
-	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
-	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
-	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
-	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
-	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
-	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
-	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
-	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
-	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
-	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
-	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
-	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
-	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
-	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
-	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
-	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
-	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
-	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
-	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
-	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
-	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
-	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
-	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
-	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
-	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
-	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
-	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
-	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
-	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
-	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
-	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
-	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
-	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
-	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
-	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
-	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
-	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
-	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
-	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
-	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
-	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
-	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
-	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
-	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
-	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
-	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
-	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
-	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
-	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
-	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
-	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
-	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
-	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
-	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
-	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
-	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
-	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
-	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
-	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB2_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB2_114
-	JMP  LBB2_133
-
-TEXT ·_comparison_not_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_28
-	JMP  LBB3_123
-
-LBB3_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4950f41                           // setne    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0950f41                           // setne    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_56
-	JMP  LBB3_123
-
-LBB3_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_14
-	JMP  LBB3_123
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_42
-	JMP  LBB3_123
-
-LBB3_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_78
-	JMP  LBB3_123
-
-LBB3_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_89
-	JMP  LBB3_123
-
-LBB3_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_111
-	JMP  LBB3_123
-
-LBB3_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_122
-	JMP  LBB3_123
-
-LBB3_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_67
-	JMP  LBB3_123
-
-LBB3_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_100
-
-LBB3_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA3<>(SB), 8, $224
-
-TEXT ·_comparison_not_equal_arr_scalar_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_48
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_56
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_159
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_100
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_101
-	JMP  LBB4_159
-
-LBB4_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_38
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_64
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_72
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_159
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_104
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7950f41                           // setne    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_105
-	JMP  LBB4_159
-
-LBB4_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_80
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_159
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_131
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-
-LBB4_29:
-	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
-	LONG $0x01768d48               // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	LONG $0x07788d48               // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf8490f48               // cmovns    rdi, rax
-	LONG $0x03ffc148               // sar    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
-	WORD $0xe3d3                   // shl    ebx, cl
-	WORD $0xd320                   // and    bl, dl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB4_29
-	LONG $0x01c58349               // add    r13, 1
-	LONG $0x05ffc149               // sar    r15, 5
-	LONG $0x20fa8349               // cmp    r10, 32
-	JL   LBB4_132
-
-LBB4_31:
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB4_34
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
-	JAE  LBB4_165
-	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8     // add    rax, r13
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_165
-
-LBB4_34:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
-
-LBB4_35:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000009024ac894c // mov    qword [rsp + 144], r13
-
-LBB4_36:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000009824b4b60f                   // movzx    esi, byte [rsp + 152]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_36
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB4_133
-
-LBB4_38:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_92
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_159
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_44
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_42:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_42
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_44:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_107
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB4_46:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_46
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_108
-	JMP  LBB4_159
-
-LBB4_48:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_50:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_52:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_111
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_54:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_54
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_112
-	JMP  LBB4_159
-
-LBB4_56:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_58:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_58
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_60:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_115
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_62:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_62
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_116
-	JMP  LBB4_159
-
-LBB4_64:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_68
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_66:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_66
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_68:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_118
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_70:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_70
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_119
-	JMP  LBB4_159
-
-LBB4_72:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_74:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_74
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_76:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_121
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_78:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_78
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_122
-	JMP  LBB4_159
-
-LBB4_80:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_84
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_82:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_82
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_84:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB4_124
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB4_88
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB4_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_168
-
-LBB4_88:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB4_89:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-
-LBB4_90:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000982494b60f                   // movzx    edx, byte [rsp + 152]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_90
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB4_125
-
-LBB4_92:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_94:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_94
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_128
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB4_98:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_98
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_129
-	JMP  LBB4_159
-
-LBB4_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_101:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_130
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_103:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_103
-	JMP  LBB4_156
-
-LBB4_104:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_105:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_138
-
-LBB4_107:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_108:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_120
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_110:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_110
-	JMP  LBB4_146
-
-LBB4_111:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_112:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_114:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_114
-	JMP  LBB4_142
-
-LBB4_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_140
-
-LBB4_117:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_142
-
-LBB4_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_144
-
-LBB4_120:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_146
-
-LBB4_121:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_122:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_148
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_150
-
-LBB4_124:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB4_125:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB4_153:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_153
-	JMP  LBB4_162
-
-LBB4_128:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_129:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_154
-
-LBB4_130:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_156
-
-LBB4_131:
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB4_31
-
-LBB4_132:
-	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB4_133:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_160
-
-LBB4_127:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB4_163
-
-LBB4_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_137:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_137
-
-LBB4_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB4_158
-
-LBB4_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_141:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_141
-
-LBB4_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB4_158
-
-LBB4_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_145:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_145
-
-LBB4_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB4_158
-
-LBB4_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_149:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_149
-
-LBB4_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-	JMP  LBB4_158
-
-LBB4_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_155:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_155
-
-LBB4_156:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB4_158:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB4_159:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB4_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB4_161:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_161
-
-LBB4_162:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB4_163:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB4_159
-
-LBB4_165:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8             // add    rax, r13
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
-
-LBB4_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x80ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 640
-	QUAD $0x000000802494894c                   // mov    qword [rsp + 128], r10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
-	QUAD $0x000000d824bc8948                   // mov    qword [rsp + 216], rdi
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000e024948948                   // mov    qword [rsp + 224], rdx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000a024bc894c                   // mov    qword [rsp + 160], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000d0249c894c                   // mov    qword [rsp + 208], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000001082484894c                   // mov    qword [rsp + 264], r8
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x80ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 896
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xa0c98149; WORD $0x0003; BYTE $0x00 // or    r9, 928
-	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r10], 4
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r14], 12
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r9], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
-	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
-	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
-	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
-	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
-	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
-	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
-	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
-	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
-	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
-	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
-	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
-	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
-	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
-	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
-	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
-	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
-	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
-	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
-	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
-	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
-	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
-	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
-	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
-	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
-	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
-	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
-	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
-	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
-	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
-	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
-	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
-	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
-	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
-	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
-	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
-	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
-	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
-	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
-	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
-	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
-	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
-	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
-	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
-	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
-	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
-	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
-	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
-	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
-	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
-	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
-	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
-	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
-	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
-	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
-	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
-	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
-	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
-	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
-	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
-	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
-	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
-	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
-	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
-	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
-	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
-	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
-	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
-	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
-	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
-	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
-	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
-	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
-	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
-	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
-	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
-	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
-	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
-	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
-	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
-	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
-	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
-	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
-	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
-	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
-	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
-	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
-	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
-	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
-	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
-	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB4_166
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB4_35
-	JMP  LBB4_133
-
-LBB4_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB4_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x60cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 608
-	QUAD $0x000000b824a4894c                   // mov    qword [rsp + 184], r12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0xc0cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 704
-	QUAD $0x000000f824bc894c                   // mov    qword [rsp + 248], r15
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	QUAD $0x0000009824bc8948                   // mov    qword [rsp + 152], rdi
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x00ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 768
-	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
-	QUAD $0x000000d8249c894c                   // mov    qword [rsp + 216], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000c82484894c                   // mov    qword [rsp + 200], r8
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	QUAD $0x000000a824948948                   // mov    qword [rsp + 168], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 3
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 4
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 6
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 8
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r13], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0b012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0f012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x020216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 2
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x090226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 9
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x08020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 9
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	QUAD $0x020316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x040316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 4
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x050306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 5
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
-	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x0e033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	QUAD $0x09030e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 3], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rcx + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x01040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x030436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 3
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 5
-	QUAD $0x060416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 6
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x070416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 7
-	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x090406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
-	QUAD $0x0e043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
-	QUAD $0x0204265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0504065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x07041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 9
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0a043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 12
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0d04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x02050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 2
-	QUAD $0x030536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x070516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 7
-	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
-	QUAD $0x090506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 9
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 11
-	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0205066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x04051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0805066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 8
-	QUAD $0x09051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	QUAD $0x0c053e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 5], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x010606442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r8 + 6], 1
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x02060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 2
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x03063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 3
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x050636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 5
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x06060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	QUAD $0x090616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 9
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x0a0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 10
-	QUAD $0x0b062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 11
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0c061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 13
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 3
-	QUAD $0x04061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 7
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x08061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0f061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 15
-	QUAD $0x010706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 1
-	QUAD $0x02070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 2
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x03073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 4
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 6
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 8
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x09070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 9
-	QUAD $0x0a0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 11
-	QUAD $0x0c071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 12
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0e070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 14
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0f0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0207064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0407064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0607064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0707064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0807064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0716442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdx + 7], 14
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0716442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x010816442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rdx + 8], 1
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x030816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 3
-	WORD $0x894c; BYTE $0xfa                   // mov    rdx, r15
-	QUAD $0x04083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x06082e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 8], 6
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x070836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 8
-	QUAD $0x09080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0c081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 12
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0d080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 13
-	QUAD $0x0e080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 14
-	QUAD $0x0f0816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 15
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0108166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 8], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x0408066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 7
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 10
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0b08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 11
-	QUAD $0x0c081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 12
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0d081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 14
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0f080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 15
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x02090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x040916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x06092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 6
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x070936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
-	QUAD $0x0c091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 12
-	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0e0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 14
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 15
-	QUAD $0x0109167c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + r10 + 9], 1
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0309167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0509167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0609167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x07093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0809167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 8
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
-	QUAD $0x0b09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	QUAD $0x0d091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x030a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 3
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x050a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 5
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x060a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x090a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
-	QUAD $0x0f0a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 15
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x020a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x050a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 5
-	QUAD $0x060a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 6
-	QUAD $0x070a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x080a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 14
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0f0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x020b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 2
-	QUAD $0x030b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 3
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x040b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 4
-	QUAD $0x050b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 5
-	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x070b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x010b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x050b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x080b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0a0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x020c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 2
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x030c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 3
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x060c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 6
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	QUAD $0x070c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 7
-	QUAD $0x080c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b0c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 15
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x010c36542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r14 + 12], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x070c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x090c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 9
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
-	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
-	QUAD $0x060d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 6
-	QUAD $0x070d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x080d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 8
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x0d0d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
-	QUAD $0x010d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 9
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 11
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0c0d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 12
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0d0d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0f0d26442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + r12 + 13], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x020e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x040e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 4
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x060e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x090e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0b0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
-	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 15
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x020e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
-	QUAD $0x0b0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 11
-	QUAD $0x0c0e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 12
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0f0e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x0f1e             // movzx    edi, byte [rsi + r11 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 3
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x040f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x050f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 5
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x060f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x070f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 7
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x080f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	QUAD $0x0a0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 10
-	QUAD $0x0b0f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 11
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 14
-	QUAD $0x0f0f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x020f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x050f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 5
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x060f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x101e             // movzx    edi, byte [rsi + r11 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 3
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x04101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
-	QUAD $0x061006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 6
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
-	QUAD $0x081026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x091016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x0d101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 13
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	LONG $0x7cb60f42; WORD $0x1036             // movzx    edi, byte [rsi + r14 + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0110264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0210064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0310064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 3
-	QUAD $0x0410164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 4
-	QUAD $0x05103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 5
-	QUAD $0x06102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0710064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0910064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 9
-	QUAD $0x0a100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 10
-	QUAD $0x0b100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0d102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 13
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 2
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x03110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 3
-	QUAD $0x04111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 4
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x05113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 6
-	QUAD $0x071106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 7
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 13
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rcx + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	QUAD $0x0d112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 13
-	QUAD $0x0e11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0f112e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r13 + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x02123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 2
-	QUAD $0x03120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x04123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 4
-	QUAD $0x05123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x06123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x07123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 7
-	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 9
-	QUAD $0x0a1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0c1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 12
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e1206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0112264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 1
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 2
-	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x04121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0512264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0612164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
-	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 12
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0d120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 14
-	QUAD $0x0f122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x01130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 1
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x02130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x05130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x09130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x0f130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0113065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 1
-	QUAD $0x02131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
-	QUAD $0x04131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 4
-	QUAD $0x0513265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 5
-	QUAD $0x0613165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 8
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0a13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 12
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0d13065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 13
-	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x142e             // movzx    edi, byte [rsi + r13 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x01142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x031436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 3
-	QUAD $0x04143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 4
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x05143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 5
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x061416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x071416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x081416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 8
-	QUAD $0x09140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 13
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0e1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
-	QUAD $0x07141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 9
-	QUAD $0x0a14164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 11
-	QUAD $0x0c141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 12
-	QUAD $0x0d14064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 14
-	QUAD $0x0f14064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 1
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x02151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 2
-	QUAD $0x031536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 3
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x04150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 4
-	QUAD $0x05153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x07153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0c1516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 12
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0d1506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 13
-	QUAD $0x0e1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0215365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
-	QUAD $0x0515165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0615165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0715165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0815165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0915165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 13
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0e152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f1516442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x04160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 4
-	QUAD $0x05163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 5
-	QUAD $0x061606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 6
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x07163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x08161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0a1616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 11
-	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
-	QUAD $0x0d1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 14
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0f1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 1
-	QUAD $0x0216364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 2
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x03161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0716364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
-	QUAD $0x0e162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 14
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x172e             // movzx    edi, byte [rsi + r13 + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x01170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x041706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
-	QUAD $0x07173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 7
-	QUAD $0x08171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 8
-	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
-	QUAD $0x0a1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 11
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 13
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x0e173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 14
-	QUAD $0x0f1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x171e             // movzx    edi, byte [rsi + r11 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
-	QUAD $0x03171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 4
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
-	QUAD $0x0717365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	LONG $0x7cb60f42; WORD $0x182e             // movzx    edi, byte [rsi + r13 + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x01180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 1
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x02182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x041806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x081816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x091816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	QUAD $0x0e183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 15
-	LONG $0x7cb60f42; WORD $0x181e             // movzx    edi, byte [rsi + r11 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 2
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0318264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 1
-	QUAD $0x02192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x051906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 5
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x06192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 6
-	QUAD $0x07190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
-	QUAD $0x0a1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x0e190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1936             // movzx    edi, byte [rsi + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0119065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 1
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0219065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 2
-	QUAD $0x0319265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0519265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 5
-	QUAD $0x06191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x08191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0919065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 9
-	QUAD $0x0a191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 13
-	QUAD $0x0e19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x011a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x031a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 3
-	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x051a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 5
-	QUAD $0x061a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x081a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 11
-	QUAD $0x0c1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 12
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
-	QUAD $0x0e1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 15
-	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x021a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x031a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x041a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 4
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x061a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x091a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x0d1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0f1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 15
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 3
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x041b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x051b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 5
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x061b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x081b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 10
-	QUAD $0x0b1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0e1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 14
-	QUAD $0x0f1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 15
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1b0e             // movzx    edi, byte [rsi + r9 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x041b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 4
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x051b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 9
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	QUAD $0x0b1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
-	QUAD $0x0d1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 14
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0f1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x041c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 4
-	QUAD $0x051c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 5
-	QUAD $0x061c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
-	QUAD $0x081c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x091c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 11
-	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0d1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 13
-	QUAD $0x0e1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 15
-	LONG $0x7cb60f42; WORD $0x1c0e             // movzx    edi, byte [rsi + r9 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x011c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
-	QUAD $0x051c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x071c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x091c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b1c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 12
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0d1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 13
-	QUAD $0x0e1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 14
-	QUAD $0x0f1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x011d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 13
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0e1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	QUAD $0x031d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x051d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	QUAD $0x071d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 7
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x081d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 8
-	QUAD $0x091d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	QUAD $0x0b1d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 12
-	QUAD $0x0d1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 13
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0e1d0e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r9 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d3e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r15 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rbx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 1
-	LONG $0x1e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rbx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	QUAD $0x0b1e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 11
-	QUAD $0x0b1f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 14
-	QUAD $0x0e1f364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 31], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
-	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
-	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
-	QUAD $0x081e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 8
-	QUAD $0x081f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 13
-	QUAD $0x0d1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x0e1e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 14
-	QUAD $0x0e1f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 14
-	QUAD $0x0f1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 15
-	QUAD $0x0f1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB4_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB4_89
-	JMP  LBB4_125
-
-DATA LCDATA4<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA4<>(SB), 8, $224
-
-TEXT ·_comparison_not_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA4<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB5_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB5_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB5_60
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB5_72
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB5_157
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_7:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_7
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_13
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_11:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_16:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_16
-	JMP  LBB5_154
-
-LBB5_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB5_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB5_83
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB5_94
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB5_157
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_23:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_23
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_25:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_29
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
-
-LBB5_27:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_27
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-
-LBB5_29:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_136
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_138
-
-LBB5_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB5_105
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB5_157
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_36:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_36
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_38:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB5_128
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	JB   LBB5_42
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB5_165
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB5_165
-
-LBB5_42:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_43:
-	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB5_44:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB5_44
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	JMP  LBB5_129
-
-LBB5_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB5_117
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB5_157
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_50:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_50
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_52:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_56
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_54:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_54
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_56:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_93
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_59:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_59
-	JMP  LBB5_146
-
-LBB5_60:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_62:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_62
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_64:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_68
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_66:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_66
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_68:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_71:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_71
-	JMP  LBB5_142
-
-LBB5_72:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_74:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_74
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_76:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_80
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_78:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_78
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_80:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_140
-
-LBB5_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_142
-
-LBB5_83:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_85:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_85
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_87:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_91
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_89:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_91:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_144
-
-LBB5_93:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_146
-
-LBB5_94:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_98
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_96:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_96
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_98:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_102
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
-
-LBB5_100:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_100
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-
-LBB5_102:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_148
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_150
-
-LBB5_105:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_109
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_107:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_107
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_109:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB5_132
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	JB   LBB5_113
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB5_168
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB5_168
-
-LBB5_113:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_114:
-	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB5_115:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB5_115
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	JMP  LBB5_133
-
-LBB5_117:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_121
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_119:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_119
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_121:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_123:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_123
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_125:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_152
-
-LBB5_127:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_154
-
-LBB5_128:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_129:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB5_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_159:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd1950f41               // setne    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB5_159
-	JMP  LBB5_162
-
-LBB5_132:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_133:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB5_160
-
-LBB5_135:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB5_163
-
-LBB5_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_137:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_137
-
-LBB5_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB5_156
-
-LBB5_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_141:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_141
-
-LBB5_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB5_156
-
-LBB5_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_145:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_145
-
-LBB5_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB5_156
-
-LBB5_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_149:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_149
-
-LBB5_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-	JMP  LBB5_156
-
-LBB5_152:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_153:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_153
-
-LBB5_154:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-
-LBB5_156:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB5_157:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB5_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_161:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd1950f41               // setne    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB5_161
-
-LBB5_162:
-	WORD $0x0148; BYTE $0xf2 // add    rdx, rsi
-
-LBB5_163:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB5_157
-
-LBB5_165:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xf631                         // xor    esi, esi
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB5_166:
-	QUAD $0x0000019824b48948                   // mov    qword [rsp + 408], rsi
-	LONG $0x05e6c148                           // shl    rsi, 5
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x3204b60f                           // movzx    eax, byte [rdx + rsi]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x3244b60f; BYTE $0x01               // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
-	LONG $0x40cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 576
-	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
-	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x0000010024bc894c                   // mov    qword [rsp + 256], r15
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	LONG $0x80c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 896
-	QUAD $0x00000088248c8948                   // mov    qword [rsp + 136], rcx
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0xa0cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 928
-	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0xe0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 992
-	LONG $0x24748948; BYTE $0x50               // mov    qword [rsp + 80], rsi
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031a3c4; WORD $0x2204; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + r12], 2
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 3
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 7
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 9
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r9], 10
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 11
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 12
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + r11], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 2
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r10], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 14
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r13], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
-	QUAD $0x0101226c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r12 + 1], 1
-	QUAD $0x0201326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 1], 2
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x03011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x06011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	QUAD $0x0b01126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 2], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x030202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 3
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x04020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 4
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x05023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a0222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 10
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0b022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 11
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x02020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 2
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x03020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x09020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 9
-	QUAD $0x0a021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 14
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 15
-	QUAD $0x010332642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + rsi + 3], 1
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x030302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 3
-	QUAD $0x04030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 4
-	QUAD $0x05033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 6
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x07033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 7
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x08030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x09031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 9
-	QUAD $0x0a0322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 10
-	QUAD $0x0b032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01030a6c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rcx + 3], 1
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 5
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0603326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e033a442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rdi + 3], 14
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0f032a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x010422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x020402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 2
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x03041a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 4], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
-	QUAD $0x07043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 7
-	QUAD $0x08040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 10
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0b041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 11
-	QUAD $0x0c0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 12
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0d040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 14
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0104125c2001a3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + r10 + 4], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	QUAD $0x0304025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x05040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0a04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 14
-	QUAD $0x0f042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 15
-	QUAD $0x010522642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r12 + 5], 1
-	QUAD $0x020502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 2
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x040522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 6
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x07051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 7
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x08051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 9
-	QUAD $0x0a053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 10
-	QUAD $0x0b051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0c051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 12
-	QUAD $0x0d050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 13
-	QUAD $0x0e0532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 5], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 15
-	QUAD $0x0105126c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + r10 + 5], 1
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x02051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 2
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x06051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 9
-	QUAD $0x0a05326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 10
-	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	QUAD $0x0e050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f052a442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r13 + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01061a442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r11 + 6], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
-	QUAD $0x040622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 6], 4
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	QUAD $0x0b063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 11
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0c063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 12
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0d0632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 13
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0e061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 15
-	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0306026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
-	QUAD $0x05060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0706026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 7
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x08062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0906026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 9
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0a06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0e06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x01071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x060732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 6
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x080722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
-	QUAD $0x0c073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 12
-	QUAD $0x0d0732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 13
-	QUAD $0x0e071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
-	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x02071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 2
-	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	QUAD $0x08072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 8
-	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0a07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e0702442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 7], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f071a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010802442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rax + 8], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 3
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x040812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x070802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 7
-	QUAD $0x080822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a0822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 14
-	QUAD $0x0f083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 15
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x01083a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r15 + 8], 1
-	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x06080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x07082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 7
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x08081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
-	QUAD $0x0a08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0b08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
-	QUAD $0x0f081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01091a742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r11 + 9], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 3
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x040912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 4
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x050912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 5
-	QUAD $0x060932742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 9], 6
-	QUAD $0x070902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 8
-	QUAD $0x090902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 9
-	QUAD $0x0a0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 15
-	QUAD $0x01093a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0209027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0409027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x06090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 6
-	QUAD $0x07092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0809027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 8
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x09093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x010a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
-	QUAD $0x030a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 3
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x040a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 4
-	QUAD $0x050a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 5
-	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
-	QUAD $0x080a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 8
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 10
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0b0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 11
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0c0a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 12
-	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
-	QUAD $0x010a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x020a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x070a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 7
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
-	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 14
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 15
-	QUAD $0x010b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 1
-	QUAD $0x020b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 2
-	QUAD $0x030b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 3
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x040b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 4
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x050b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 5
-	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x070b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x080b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 8
-	QUAD $0x090b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 9
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x0a0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 10
-	QUAD $0x0b0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 11
-	QUAD $0x0c0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
-	QUAD $0x020b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 2
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x030b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
-	QUAD $0x070b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 7
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x020c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 2
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 4
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x050c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 5
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x060c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 6
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x070c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x090c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 9
-	QUAD $0x0a0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 13
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0e0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 15
-	QUAD $0x010c1a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rbx + 12], 1
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x020c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x040c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 4
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
-	QUAD $0x060c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0e0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 14
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0f0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x030d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x040d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 4
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	QUAD $0x060d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 6
-	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
-	QUAD $0x080d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 8
-	QUAD $0x090d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
-	QUAD $0x0e0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 14
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x040d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x050d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x060d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x080d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 8
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x090d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 13
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	QUAD $0x0e0d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f0d3a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 13], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x010e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 1
-	QUAD $0x020e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 2
-	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x060e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 6
-	QUAD $0x070e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x090e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 9
-	QUAD $0x0a0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 10
-	QUAD $0x0b0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 11
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0c0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d0e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e0e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 14
-	QUAD $0x0f0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x010e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x030e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 3
-	QUAD $0x040e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 7
-	QUAD $0x080e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 8
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x020f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x030f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 3
-	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x060f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x070f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 7
-	QUAD $0x080f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 11
-	QUAD $0x0c0f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 12
-	QUAD $0x0d0f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x0f12             // movzx    edi, byte [rdx + r10 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x020f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 2
-	QUAD $0x030f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x050f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0a0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
-	QUAD $0x0d0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 14
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x100a             // movzx    edi, byte [rdx + r9 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x031002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 5
-	QUAD $0x061022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 8
-	QUAD $0x09101a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 16], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a1022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 13
-	QUAD $0x0e1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 15
-	LONG $0x7cb60f42; WORD $0x1012             // movzx    edi, byte [rdx + r10 + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x0110324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 1
-	QUAD $0x02102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 2
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0510324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x06101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 6
-	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0810024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	QUAD $0x0a103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 10
-	QUAD $0x0b101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 14
-	QUAD $0x0f10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 15
-	LONG $0x7cb60f42; WORD $0x110a             // movzx    edi, byte [rdx + r9 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 1
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x031102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x051132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x061132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x08113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 9
-	QUAD $0x0a1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 15
-	LONG $0x7cb60f42; WORD $0x1112             // movzx    edi, byte [rdx + r10 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 5
-	QUAD $0x06111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 7
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x08110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x09110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 12
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	QUAD $0x0d111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0f111a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rbx + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rdi + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x03123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
-	QUAD $0x051232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 5
-	QUAD $0x061232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x08123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 11
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0c1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 12
-	QUAD $0x0d122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 14
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x7cb60f42; WORD $0x1212             // movzx    edi, byte [rdx + r10 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0412324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 4
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0512324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 5
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0612024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
-	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 12
-	QUAD $0x0d121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 14
-	QUAD $0x0f121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 15
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x133a             // movzx    edi, byte [rdx + r15 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 3
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x04131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x09131a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 19], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 1
-	QUAD $0x0213125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	QUAD $0x0513325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 5
-	QUAD $0x0613025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 6
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0813325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 13
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0e132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 14
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x143a             // movzx    edi, byte [rdx + r15 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x011402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 1
-	QUAD $0x02140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 2
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x03143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 3
-	QUAD $0x04141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x051432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x07140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x09141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 15
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 2
-	QUAD $0x0314224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x05141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 5
-	QUAD $0x0614324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 11
-	QUAD $0x0c14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 13
-	QUAD $0x0e142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 14
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0f14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rdi + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x02152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 2
-	QUAD $0x03153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 3
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x04153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 4
-	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x061532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 6
-	QUAD $0x07150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 7
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x08150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 10
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0b1512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 11
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0c1502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 13
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0115025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 1
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0315025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 5
-	QUAD $0x0615325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0715025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0815025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 8
-	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 11
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0c15325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1522442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r12 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rax + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
-	QUAD $0x02162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x031602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 3
-	QUAD $0x04163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x061632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x071632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 7
-	QUAD $0x08160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 10
-	QUAD $0x0b1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 11
-	QUAD $0x0c1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 15
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x01163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0716224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 10
-	QUAD $0x0b161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 11
-	QUAD $0x0c16324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 12
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0d16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 13
-	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	LONG $0x1a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rbx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 2
-	QUAD $0x031702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 5
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x061732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 23], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 7
-	QUAD $0x08170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 9
-	QUAD $0x0a1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 11
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0c1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 12
-	QUAD $0x0d172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 13
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0e172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 14
-	QUAD $0x0f1712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 23], 15
-	LONG $0x7cb60f42; WORD $0x171a             // movzx    edi, byte [rdx + r11 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0217325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x04173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 6
-	QUAD $0x0717225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0a17225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 12
-	QUAD $0x0d17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	LONG $0x1a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rbx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x031802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	QUAD $0x061832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 6
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x07181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 8
-	QUAD $0x09180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 9
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0a180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 13
-	QUAD $0x0e182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0118324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 1
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x03182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 3
-	QUAD $0x04183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0618324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x07181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 7
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0818324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 8
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0918324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 9
-	QUAD $0x0a18224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 24], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
-	QUAD $0x0c18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 12
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0e183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 14
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	LONG $0x327cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rsi + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x011912542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 25], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x021932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 2
-	QUAD $0x031902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 4
-	QUAD $0x051902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 6
-	QUAD $0x07191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x091902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 9
-	QUAD $0x0a190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 10
-	QUAD $0x0b190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 11
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0c190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0119325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 2
-	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0419325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 4
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x05192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	QUAD $0x07191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 9
-	QUAD $0x0a19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 13
-	QUAD $0x0e193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f193a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rdi + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 26], 1
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x031a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 3
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x041a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	QUAD $0x091a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 11
-	QUAD $0x0c1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 12
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0d1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 14
-	QUAD $0x0f1a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 15
-	LONG $0x0a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x031a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 3
-	QUAD $0x041a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 4
-	QUAD $0x051a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x061a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x071a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x091a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 9
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0a1a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 10
-	QUAD $0x0b1a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 11
-	QUAD $0x0c1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x011b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x021b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 3
-	QUAD $0x041b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x051b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 7
-	QUAD $0x081b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x091b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 9
-	QUAD $0x0a1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x0d1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 13
-	QUAD $0x0e1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x327cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rsi + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	QUAD $0x031b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x041b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x061b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 6
-	QUAD $0x071b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x091b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 9
-	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 12
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0d1b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 13
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0e1b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rdi + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x021c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 3
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x041c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x051c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x081c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 8
-	QUAD $0x091c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 11
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0c1c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 15
-	LONG $0x327cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rsi + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x041c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x061c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 11
-	QUAD $0x0c1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 12
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x0d1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 13
-	QUAD $0x0e1c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 14
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x011d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 1
-	QUAD $0x021d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x041d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 4
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x051d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x091d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 11
-	QUAD $0x0c1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 12
-	QUAD $0x0d1d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rdi + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x011d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x021d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x051d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 5
-	QUAD $0x061d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
-	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0e1d3a642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d1a442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r11 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 1
-	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x051e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 5
-	QUAD $0x051f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
-	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	QUAD $0x0e1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 14
-	QUAD $0x0e1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 14
-	QUAD $0x0f1e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 30], 15
-	QUAD $0x0f1f02542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + r8 + 31], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rdi + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x011e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 1
-	LONG $0x3a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rdi + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 1
-	QUAD $0x021e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 2
-	QUAD $0x021f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
-	QUAD $0x051e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 5
-	QUAD $0x051f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
-	QUAD $0x071f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 15
-	QUAD $0x0f1f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
-	JNE  LBB5_166
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
-	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB5_43
-	JMP  LBB5_129
-
-LBB5_168:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xdb31                         // xor    ebx, ebx
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB5_169:
-	QUAD $0x00000198249c8948                   // mov    qword [rsp + 408], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
-	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000000f82494894c                   // mov    qword [rsp + 248], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
-	QUAD $0x000000e8248c894c                   // mov    qword [rsp + 232], r9
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
-	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	LONG $0x2464894c; BYTE $0x70               // mov    qword [rsp + 112], r12
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x40cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 832
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
-	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
-	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 8
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r15], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x00000098249c8948                   // mov    qword [rsp + 152], rbx
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
-	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
-	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
-	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
-	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
-	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
-	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
-	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
-	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
-	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
-	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
-	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
-	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
-	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
-	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
-	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
-	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
-	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
-	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
-	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
-	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
-	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
-	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
-	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
-	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
-	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
-	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
-	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
-	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
-	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
-	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
-	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
-	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
-	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
-	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
-	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
-	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
-	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
-	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
-	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
-	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
-	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
-	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
-	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
-	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
-	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
-	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
-	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
-	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
-	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
-	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
-	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
-	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
-	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
-	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
-	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
-	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
-	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
-	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
-	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
-	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
-	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
-	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
-	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
-	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
-	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
-	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
-	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
-	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
-	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
-	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
-	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
-	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
-	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
-	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
-	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
-	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
-	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
-	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
-	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
-	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
-	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
-	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
-	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
-	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
-	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
-	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
-	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
-	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
-	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
-	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
-	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
-	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
-	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
-	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
-	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
-	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
-	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
-	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
-	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
-	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
-	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
-	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
-	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
-	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
-	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
-	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
-	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
-	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
-	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
-	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
-	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
-	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
-	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
-	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
-	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
-	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
-	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
-	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
-	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
-	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
-	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
-	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
-	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
-	JNE  LBB5_169
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
-	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB5_114
-	JMP  LBB5_133
-
-TEXT ·_comparison_greater_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB6_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB6_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB6_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB6_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_20:
-	WORD $0x0a8b                 // mov    ecx, dword [rdx]
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	LONG $0xd5970f41                           // seta    r13b
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	LONG $0xd7970f41                           // seta    r15b
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	LONG $0xd1970f41                           // seta    r9b
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0xd4970f41                           // seta    r12b
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
-	LONG $0xd2970f41                           // seta    r10b
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd3970f41                           // seta    r11b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd7970f40                           // seta    dil
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_28
-	JMP  LBB6_123
-
-LBB6_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB6_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB6_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB6_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x4610fbc5; BYTE $0x08               // vmovsd    xmm0, qword [rsi + 8]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0xd4970f41                           // seta    r12b
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0xd5970f41                           // seta    r13b
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd1970f41                           // seta    r9b
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_56
-	JMP  LBB6_123
-
-LBB6_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB6_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd1       // setg    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09f0f41               // setg    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_14
-	JMP  LBB6_123
-
-LBB6_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB6_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_34:
-	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
-	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_42
-	JMP  LBB6_123
-
-LBB6_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_70:
-	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0xd1970f41               // seta    r9b
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
-	LONG $0xd2970f41               // seta    r10b
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0xd6970f41               // seta    r14b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd7970f40               // seta    dil
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd0       // seta    al
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e1c041               // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x04e4c041               // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e2c041               // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0x0841; BYTE $0xda       // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
-	LONG $0x01568845               // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x13244c02               // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0xcb08                   // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
-	WORD $0xd808                   // or    al, bl
-	WORD $0xc808                   // or    al, cl
-	LONG $0x027e8841               // mov    byte [r14 + 2], dil
-	LONG $0x03468841               // mov    byte [r14 + 3], al
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
-	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_78
-	JMP  LBB6_123
-
-LBB6_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09f0f41               // setg    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB6_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB6_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_89
-	JMP  LBB6_123
-
-LBB6_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_111
-	JMP  LBB6_123
-
-LBB6_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x4610fac5; BYTE $0x04               // vmovss    xmm0, dword [rsi + 4]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_122
-	JMP  LBB6_123
-
-LBB6_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_59:
-	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	WORD $0x970f; BYTE $0xd1       // seta    cl
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	LONG $0xd1970f41               // seta    r9b
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	LONG $0xd2970f41               // seta    r10b
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	LONG $0xd6970f41               // seta    r14b
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd7970f40               // seta    dil
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
-	LONG $0x06e5c041               // shl    r13b, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x07244c02               // add    cl, byte [rsp + 7]
-	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x02e1c041               // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	LONG $0x04e2c041               // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xd0       // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
-	LONG $0x06e1c041               // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xc000                   // add    al, al
-	LONG $0x12244402               // add    al, byte [rsp + 18]
-	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x02468845               // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
-	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_67
-	JMP  LBB6_123
-
-LBB6_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59f0f41                           // setg    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39f0f41                           // setg    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79f0f41                           // setg    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29f0f41                           // setg    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69f0f41                           // setg    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49f0f41                           // setg    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19f0f41                           // setg    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_100
-
-LBB6_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA5<>(SB), 8, $224
-
-TEXT ·_comparison_greater_arr_scalar_avx2(SB), $1384-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1344(SP)
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB7_19
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB7_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB7_79
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB7_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB7_192
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_15:
-	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_15
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_17:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_18
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_113:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_113
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_116
-	JMP  LBB7_192
-
-LBB7_19:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB7_20
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB7_148
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB7_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB7_192
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_35
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_33:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_33
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_35:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_36
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
-
-LBB7_181:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7920f41                           // setb    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_181
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_184
-	JMP  LBB7_192
-
-LBB7_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB7_37
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB7_192
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_6:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_6
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_8:
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB7_9
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f824bc894c     // mov    qword [rsp + 248], r15
-	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
-	JB   LBB7_62
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB7_65
-	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB7_65
-
-LBB7_62:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB7_68:
-	QUAD $0x0000018024ac2b4c     // sub    r13, qword [rsp + 384]
-	LONG $0x246c894c; BYTE $0x78 // mov    qword [rsp + 120], r13
-
-LBB7_69:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000000f024949f0f                   // setg    byte [rsp + 240]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_69
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	JMP  LBB7_71
-
-LBB7_20:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB7_122
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB7_192
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_26
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_24:
-	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_24
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_26:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_27
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB7_139:
-	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_139
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_142
-	JMP  LBB7_192
-
-LBB7_79:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_81:
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_81
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_83:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_84
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_86:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x68               // movzx    edi, byte [rsp + 104]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_86
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_89
-	JMP  LBB7_192
-
-LBB7_95:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_97:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_97
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_99:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_100
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_102:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_102
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_105
-	JMP  LBB7_192
-
-LBB7_148:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_152
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_150:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_150
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_152:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_153
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_155:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_155
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_158
-	JMP  LBB7_192
-
-LBB7_164:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_168
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_166:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_166
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_168:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_169
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
-
-LBB7_171:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7920f41                           // setb    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_171
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_174
-	JMP  LBB7_192
-
-LBB7_37:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_41
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_39:
-	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_39
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_41:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_42
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000017824bc894c     // mov    qword [rsp + 376], r15
-	JB   LBB7_44
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB7_47
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB7_47
-
-LBB7_44:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB7_50:
-	QUAD $0x0000016824bc2b4c     // sub    r15, qword [rsp + 360]
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-
-LBB7_51:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000000f02494970f                   // seta    byte [rsp + 240]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_51
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
-	JMP  LBB7_53
-
-LBB7_122:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_126
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_124:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_124
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_126:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_127
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB7_129:
-	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_129
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_132
-	JMP  LBB7_192
-
-LBB7_18:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_120
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_118
-
-LBB7_36:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_184:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_186
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_188
-
-LBB7_9:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB7_71:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
-	JGE  LBB7_192
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xfd // add    r13, r15
-	JNE  LBB7_74
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB7_77
-
-LBB7_27:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_142:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_146
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_144
-
-LBB7_84:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_89:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_93
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_91
-
-LBB7_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_105:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_110
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_107
-
-LBB7_153:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_158:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_160
-
-LBB7_169:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_174:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_178
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_176
-
-LBB7_42:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB7_53:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_56
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB7_59
-
-LBB7_127:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_132:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_134
-
-LBB7_120:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_121:
-	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_121
-
-LBB7_118:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
-	JMP  LBB7_190
-
-LBB7_186:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_187:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_187
-
-LBB7_188:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB7_190
-
-LBB7_74:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
-
-LBB7_75:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB7_75
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB7_77:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB7_192
-
-LBB7_146:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_147:
-	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_147
-
-LBB7_144:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
-	JMP  LBB7_190
-
-LBB7_93:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_94:
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_94
-
-LBB7_91:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
-	JMP  LBB7_190
-
-LBB7_110:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_111:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_111
-
-LBB7_107:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB7_109
-
-LBB7_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_163:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_163
-
-LBB7_160:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB7_109
-
-LBB7_178:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_179:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_179
-
-LBB7_176:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-
-LBB7_190:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB7_191
-
-LBB7_56:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
-
-LBB7_57:
-	LONG $0x04343a45             // cmp    r14b, byte [r12 + rax]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
-	LONG $0x04743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rax + 1]
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB7_57
-	WORD $0x0149; BYTE $0xc4     // add    r12, rax
-
-LBB7_59:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0xd219             // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	LONG $0x03eec148         // shr    rsi, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
-	WORD $0x0724             // and    al, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa // xor    dl, dil
-	WORD $0xd320             // and    bl, dl
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	JMP  LBB7_192
-
-LBB7_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_137:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_137
-
-LBB7_134:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB7_109:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB7_191:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB7_192:
-	MOVQ 1344(SP), SP
-	VZEROUPPER
-	RET
-
-LBB7_65:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000024024848948             // mov    qword [rsp + 576], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
-
-LBB7_66:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x0000009024bc894c                   // mov    qword [rsp + 144], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
-	QUAD $0x000000b8249c894c                   // mov    qword [rsp + 184], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
-	QUAD $0x000000882484894c                   // mov    qword [rsp + 136], r8
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000b024948948                   // mov    qword [rsp + 176], rdx
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
-	QUAD $0x000000a824b4894c                   // mov    qword [rsp + 168], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x28               // mov    qword [rsp + 40], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
-	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000e0249c8948                   // mov    qword [rsp + 224], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
-	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
-	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
-	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
-	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
-	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
-	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
-	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
-	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
-	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
-	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
-	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
-	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
-	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
-	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
-	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
-	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
-	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
-	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
-	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000460248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
-	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
-	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
-	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
-	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
-	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
-	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
-	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
-	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
-	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
-	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
-	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
-	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
-	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
-	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
-	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
-	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
-	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
-	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
-	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
-	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
-	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
-	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
-	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
-	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
-	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
-	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
-	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
-	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
-	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
-	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
-	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
-	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
-	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
-	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
-	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
-	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
-	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
-	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
-	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
-	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
-	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
-	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
-	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
-	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
-	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
-	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
-	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
-	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
-	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
-	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
-	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
-	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
-	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
-	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
-	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
-	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
-	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
-	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
-	QUAD $0x000500248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1280]
-	LONG $0xd064f5c5                           // vpcmpgtb    ymm2, ymm1, ymm0
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf86485c5                           // vpcmpgtb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x00022024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 544]
-	LONG $0xe0646dc5                           // vpcmpgtb    ymm12, ymm2, ymm0
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
-	LONG $0xf864edc5                           // vpcmpgtb    ymm7, ymm2, ymm0
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xfbdbc5c5                           // vpand    ymm7, ymm7, ymm3
-	LONG $0xe0640dc5                           // vpcmpgtb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 416]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	QUAD $0x00000080956ffdc5                   // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x00020024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 512]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x0004c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1216]
-	LONG $0xe06425c5                           // vpcmpgtb    ymm12, ymm11, ymm0
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000480249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1152]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000460249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1120]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
-	QUAD $0x00044024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1088]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x0003e0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 992]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x00040024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1024]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x0003c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 960]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 896]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
-	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf2db0dc5                           // vpand    ymm14, ymm14, ymm2
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0642dc5                           // vpcmpgtb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x000300249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 768]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0643dc5                           // vpcmpgtb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc86435c5                           // vpcmpgtb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
-	LONG $0xe864f5c5                           // vpcmpgtb    ymm5, ymm1, ymm0
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
-	LONG $0xf064f5c5                           // vpcmpgtb    ymm6, ymm1, ymm0
-	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
-	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
-	LONG $0xd864f5c5                           // vpcmpgtb    ymm3, ymm1, ymm0
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
-	LONG $0xe064f5c5                           // vpcmpgtb    ymm4, ymm1, ymm0
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000120248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 288]
-	LONG $0xc864f5c5                           // vpcmpgtb    ymm1, ymm1, ymm0
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x00010024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 256]
-	LONG $0xd064edc5                           // vpcmpgtb    ymm2, ymm2, ymm0
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB7_66
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x0000024024a48b4c                   // mov    r12, qword [rsp + 576]
-	JNE  LBB7_68
-	JMP  LBB7_71
-
-LBB7_47:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x000001f824848948             // mov    qword [rsp + 504], rax
-	QUAD $0x0000016824bc894c             // mov    qword [rsp + 360], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
-	QUAD $0x00024024b46f7dc5; BYTE $0x00 // vmovdqa    ymm14, yword [rsp + 576]
-
-LBB7_48:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000b824948948                   // mov    qword [rsp + 184], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x40cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 576
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
-	LONG $0x2474894c; BYTE $0x48               // mov    qword [rsp + 72], r14
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x000000a824bc894c                   // mov    qword [rsp + 168], r15
-	LONG $0xa0cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 672
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0xc0cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 704
-	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x00c88149; WORD $0x0003; BYTE $0x00 // or    r8, 768
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
-	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0x80ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 896
-	QUAD $0x000000a024948948                   // mov    qword [rsp + 160], rdx
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
-	QUAD $0x000000882494894c                   // mov    qword [rsp + 136], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	LONG $0x2031a3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r11], 2
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 5
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 7
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 8
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 9
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r9], 10
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 11
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 12
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 1
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 5
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x01011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 1
-	QUAD $0x02011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 2
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x03011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 3
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x04011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 4
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x05011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
-	QUAD $0x070126642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 1], 7
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
-	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
-	QUAD $0x0101166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 1], 1
-	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
-	QUAD $0x03013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 3
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x05011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 5
-	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
-	QUAD $0x0701166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
-	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 14
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x040226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 4
-	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x060216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 6
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x07020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x09023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0c021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0001a0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 416]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0202365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 2
-	QUAD $0x0302165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 3
-	QUAD $0x04022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0702165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0c022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
-	QUAD $0x040326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x05032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 5
-	QUAD $0x060316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 6
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x09033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 9
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 11
-	QUAD $0x0c031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x0203366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 2
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0303166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x0703166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0803166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 8
-	QUAD $0x09030e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 3], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x00020024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 512]
-	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x020426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 2
-	QUAD $0x03041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 3
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x04041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 4
-	QUAD $0x05042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 5
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x060406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 7
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
-	QUAD $0x09043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 9
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0a040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 11
-	QUAD $0x0c041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 12
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0d041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	QUAD $0x0204365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 2
-	QUAD $0x0304165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0604165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x0804165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0e04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010506642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rsi + rax + 5], 1
-	QUAD $0x020526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 2
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x030526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 3
-	QUAD $0x04051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 4
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x05051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 5
-	QUAD $0x060506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	QUAD $0x08052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x0a050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 10
-	QUAD $0x0b053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 11
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0c053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 12
-	QUAD $0x0d051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x01051e6c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r11 + 5], 1
-	QUAD $0x0205366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 2
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
-	QUAD $0x0605166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0705166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 7
-	QUAD $0x08050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 9
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0a050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0e0516442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r10 + 5], 14
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f052e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 5], 15
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x020616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 2
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x030626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 4
-	QUAD $0x05061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x06060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x070626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x0c063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 12
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0d063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x01061e6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r11 + 6], 1
-	QUAD $0x02060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0506066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 5
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x06060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 6
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0706366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0806166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0906066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 14
-	QUAD $0x0f062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x020716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 2
-	QUAD $0x030706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 5
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
-	QUAD $0x070726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	QUAD $0x09071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 9
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x0d073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x01073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
-	QUAD $0x03071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 3
-	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
-	QUAD $0x06070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 6
-	QUAD $0x0707364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x0f072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x010806542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r8 + 8], 1
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x02080e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 8], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 5
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x060816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 6
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x070826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 7
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x080826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 8
-	QUAD $0x09081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 9
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0a082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0b081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0f080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x01083e6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r15 + 8], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
-	QUAD $0x0808366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 8
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0908366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 9
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0a08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0f083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	LONG $0xeada8dc5                           // vpminub    ymm5, ymm14, ymm2
-	QUAD $0x010906742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r8 + 9], 1
-	QUAD $0x02090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x04093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x060916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 6
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 8
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
-	QUAD $0x0a092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 10
-	QUAD $0x0b091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 11
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0c0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 12
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 15
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x0209067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0409067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x06091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 6
-	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	QUAD $0x0909367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
-	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x010a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x040a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x060a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 6
-	QUAD $0x070a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 7
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x080a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 8
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 12
-	QUAD $0x0d0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 13
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
-	QUAD $0x0f0a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x010a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 1
-	QUAD $0x020a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x040a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x050a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 5
-	QUAD $0x060a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 6
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x080a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 8
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x090a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 15
-	QUAD $0x010b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x020b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x030b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 3
-	QUAD $0x040b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 4
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x050b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 5
-	QUAD $0x060b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 6
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x070b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 7
-	QUAD $0x080b1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 11], 8
-	QUAD $0x090b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 13
-	QUAD $0x0e0b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 14
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 4
-	QUAD $0x050b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 7
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x090b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 9
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x0a0b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 11
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0c0b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 14
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x010c3e4c2069e3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + rdi + 12], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x020c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 2
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x030c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 3
-	QUAD $0x040c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x050c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 5
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x060c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 6
-	QUAD $0x070c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 7
-	QUAD $0x080c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 12], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x090c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 9
-	QUAD $0x0a0c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 10
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0c0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d0c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 13
-	QUAD $0x0e0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 15
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x010c0e542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rcx + 12], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 5
-	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0a0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 10
-	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
-	QUAD $0x0b0c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 11
-	QUAD $0x0c0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 12
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0d0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
-	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
-	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 7
-	QUAD $0x080d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 11
-	QUAD $0x0c0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 12
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 14
-	QUAD $0x0f0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 1
-	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 4
-	QUAD $0x050d0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 13], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x060d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 6
-	QUAD $0x070d16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 13], 7
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x080d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x090d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 11
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
-	QUAD $0x0d0d06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 13], 13
-	QUAD $0x0e0d26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x030e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 5
-	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x070e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x090e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 14
-	QUAD $0x0f0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 15
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x040e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
-	QUAD $0x080e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 8
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x090e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x0b0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 11
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0c0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 12
-	QUAD $0x0d0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0f0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x020f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 2
-	QUAD $0x030f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 3
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x040f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 4
-	QUAD $0x050f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	QUAD $0x0a0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 10
-	QUAD $0x0b0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
-	QUAD $0x0e0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x030f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 3
-	QUAD $0x040f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 4
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x050f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x080f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 8
-	QUAD $0x090f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 9
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x0a0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 11
-	QUAD $0x0c0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 12
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0d0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
-	QUAD $0x02102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
-	QUAD $0x041016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x06102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 6
-	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
-	QUAD $0x0e101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 14
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0f1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
-	QUAD $0x03101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 4
-	QUAD $0x0510364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 5
-	QUAD $0x0610064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 6
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0710364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x09101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 9
-	QUAD $0x0a10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0d100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0f101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 15
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x113e             // movzx    edi, byte [rsi + r15 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x01110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 3
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 5
-	QUAD $0x06112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 11
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c1116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1126             // movzx    edi, byte [rsi + r12 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0111165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0211165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 2
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0511065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
-	QUAD $0x0711365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
-	QUAD $0x09111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 13
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0f111e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r11 + 17], 15
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x7cb60f42; WORD $0x123e             // movzx    edi, byte [rsi + r15 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x02121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 2
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x031236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x05121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 5
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x09120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 9
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b122e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 18], 11
-	QUAD $0x0c1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
-	LONG $0x7cb60f42; WORD $0x1226             // movzx    edi, byte [rsi + r12 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0112064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 1
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0212264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0312064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0512064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 5
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0612064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0812164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 11
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0c120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x02131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 2
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x031336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 3
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x04131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 4
-	QUAD $0x05131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
-	QUAD $0x0213265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 5
-	QUAD $0x0613065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 7
-	QUAD $0x0813165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 10
-	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
-	QUAD $0x0c130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 12
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0e133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x0f130e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 19], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 2
-	QUAD $0x03142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 3
-	QUAD $0x04141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 5
-	QUAD $0x06141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 6
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x07143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 7
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x08141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x091426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
-	QUAD $0x0c1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 12
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0d1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1406             // movzx    edi, byte [rsi + r8 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x03141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 5
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x02152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x041516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x051516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 5
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x06153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 6
-	QUAD $0x07153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 7
-	QUAD $0x08151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 8
-	QUAD $0x091526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 10
-	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	QUAD $0x0d1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 13
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0e151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 14
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	LONG $0x7cb60f42; WORD $0x1506             // movzx    edi, byte [rsi + r8 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x03151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 6
-	QUAD $0x07150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 7
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0815265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
-	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x06162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 9
-	QUAD $0x0a163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
-	QUAD $0x0d1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 13
-	QUAD $0x0e161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 14
-	QUAD $0x0f160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x02163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 2
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x03160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 3
-	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0716064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 7
-	QUAD $0x0816264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 10
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x0b16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x01171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 5
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
-	QUAD $0x081706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 11
-	QUAD $0x0c1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 12
-	QUAD $0x0d1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1716             // movzx    edi, byte [rsi + r10 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
-	QUAD $0x02173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 2
-	QUAD $0x03170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0417165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 5
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x06173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 6
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0717065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 7
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x08171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 9
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x0a170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 10
-	QUAD $0x0b17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 12
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1706442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 23], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x01181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x02183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x07181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 7
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	QUAD $0x0b182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 15
-	LONG $0x7cb60f42; WORD $0x1816             // movzx    edi, byte [rsi + r10 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x02182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x0418164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0518164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 5
-	QUAD $0x06183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 6
-	QUAD $0x0718064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 7
-	QUAD $0x08181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 8
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0918164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 9
-	QUAD $0x0a180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 11
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0c18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 13
-	QUAD $0x0e18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 14
-	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x190e             // movzx    edi, byte [rsi + r9 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x051916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
-	QUAD $0x07191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x09190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 9
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0a1926542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 25], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 12
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 14
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0f193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x01190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 1
-	QUAD $0x02192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 5
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x08191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	QUAD $0x0b19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 11
-	QUAD $0x0c19065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 12
-	QUAD $0x0d193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 13
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e190e4c2061e3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f190e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00018024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm0
-	LONG $0x7cb60f42; WORD $0x1a0e             // movzx    edi, byte [rsi + r9 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x021a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 2
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x031a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 3
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 5
-	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
-	QUAD $0x0a1a26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 26], 10
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x0c1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 12
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x011a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x021a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x031a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x041a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
-	QUAD $0x081a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 8
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x091a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0f1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 15
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x021b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 2
-	QUAD $0x031b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 3
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x041b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x051b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x091b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 11
-	QUAD $0x0c1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 14
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	QUAD $0x021b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 2
-	QUAD $0x031b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x041b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x051b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
-	QUAD $0x081b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 8
-	QUAD $0x091b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 9
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0a1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
-	QUAD $0x021c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x041c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 4
-	QUAD $0x051c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x061c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x081c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 8
-	QUAD $0x091c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 9
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 11
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0c1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 12
-	QUAD $0x0d1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x0e1c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 14
-	QUAD $0x0f1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1c06             // movzx    edi, byte [rsi + r8 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x011c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x021c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
-	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x061c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 7
-	QUAD $0x081c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 8
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x091c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 9
-	QUAD $0x0a1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0f1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x061d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x081d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
-	QUAD $0x0b1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 11
-	QUAD $0x0c1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 13
-	QUAD $0x0e1d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x021d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x081d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 8
-	QUAD $0x091d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a1d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 10
-	QUAD $0x0b1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 11
-	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1d16442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r10 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	QUAD $0x0f1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 15
-	QUAD $0x0f1f36542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + r14 + 31], 15
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x021e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 2
-	QUAD $0x021f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 4
-	QUAD $0x041f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
-	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 30], 13
-	QUAD $0x0d1f0e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 31], 13
-	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
-	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x000220248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 544]
-	LONG $0xc1da8dc5                           // vpminub    ymm0, ymm14, ymm1
-	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
-	LONG $0x656ffdc5; BYTE $0x00               // vmovdqa    ymm4, yword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xfcdffdc5                           // vpandn    ymm7, ymm0, ymm4
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
-	LONG $0xfada8dc5                           // vpminub    ymm7, ymm14, ymm2
-	LONG $0xff74edc5                           // vpcmpeqb    ymm7, ymm2, ymm7
-	QUAD $0x00050024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 1280]
-	LONG $0xe4df6dc5                           // vpandn    ymm12, ymm2, ymm4
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 416]
-	LONG $0xe2da0dc5                           // vpminub    ymm12, ymm14, ymm2
-	LONG $0xe2741dc5                           // vpcmpeqb    ymm12, ymm12, ymm2
-	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
-	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
-	LONG $0xda0541c4; BYTE $0xe6               // vpminub    ymm12, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
-	LONG $0x5d6ffdc5; BYTE $0x60               // vmovdqa    ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
-	QUAD $0x00000080956f7dc5                   // vmovdqa    ymm10, yword 128[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xdf1d41c4; BYTE $0xe2               // vpandn    ymm12, ymm12, ymm10
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00020024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 512]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xe2df1dc5                           // vpandn    ymm12, ymm12, ymm2
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004e024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1248]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	LONG $0xe1ef1dc5                           // vpxor    ymm12, ymm12, ymm1
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
-	LONG $0xda1dc1c4; BYTE $0xfe               // vpminub    ymm7, ymm12, ymm14
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	LONG $0xe4df45c5                           // vpandn    ymm12, ymm7, ymm4
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00048024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1152]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x0004c024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1216]
-	LONG $0xecdf15c5                           // vpandn    ymm13, ymm13, ymm4
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	LONG $0xeb1541c4; BYTE $0xe4               // vpor    ymm12, ymm13, ymm12
-	QUAD $0x00046024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1120]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xeddf15c5                           // vpandn    ymm13, ymm13, ymm5
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00044024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1088]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x00042024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1056]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	QUAD $0x0003c024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 960]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xeadf15c5                           // vpandn    ymm13, ymm13, ymm2
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	QUAD $0x0003e024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 992]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xe9ef15c5                           // vpxor    ymm13, ymm13, ymm1
-	LONG $0x7115c1c4; WORD $0x07f5             // vpsllw    ymm13, ymm13, 7
-	LONG $0xdb1541c4; BYTE $0xe9               // vpand    ymm13, ymm13, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 928]
-	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
-	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
-	LONG $0xecdf45c5                           // vpandn    ymm13, ymm7, ymm4
-	LONG $0xfffc95c5                           // vpaddb    ymm7, ymm13, ymm7
-	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	QUAD $0x00040024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1024]
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeedf15c5                           // vpandn    ymm13, ymm13, ymm6
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
-	LONG $0xf8da0dc5                           // vpminub    ymm15, ymm14, ymm0
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
-	LONG $0xffeb95c5                           // vpor    ymm7, ymm13, ymm7
-	LONG $0xda2541c4; BYTE $0xee               // vpminub    ymm13, ymm11, ymm14
-	LONG $0x742541c4; BYTE $0xdd               // vpcmpeqb    ymm11, ymm11, ymm13
-	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xdbdf25c5                           // vpandn    ymm11, ymm11, ymm3
-	LONG $0x6f7d41c4; BYTE $0xfa               // vmovdqa    ymm15, ymm10
-	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
-	LONG $0xeb2541c4; BYTE $0xdd               // vpor    ymm11, ymm11, ymm13
-	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xc07415c5                           // vpcmpeqb    ymm8, ymm13, ymm0
-	LONG $0xc2df3dc5                           // vpandn    ymm8, ymm8, ymm2
-	LONG $0xeb2541c4; BYTE $0xc0               // vpor    ymm8, ymm11, ymm8
-	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
-	LONG $0xd8da0dc5                           // vpminub    ymm11, ymm14, ymm0
-	LONG $0xd07425c5                           // vpcmpeqb    ymm10, ymm11, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x762541c4; BYTE $0xdb               // vpcmpeqd    ymm11, ymm11, ymm11
-	LONG $0x712dc1c4; WORD $0x07f2             // vpsllw    ymm10, ymm10, 7
-	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
-	LONG $0xdb2d41c4; BYTE $0xd1               // vpand    ymm10, ymm10, ymm9
-	LONG $0xeb3d41c4; BYTE $0xc2               // vpor    ymm8, ymm8, ymm10
-	LONG $0xc7eb3dc5                           // vpor    ymm8, ymm8, ymm7
-	QUAD $0x00018024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 384]
-	LONG $0xf8da8dc5                           // vpminub    ymm7, ymm14, ymm0
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xccdf45c5                           // vpandn    ymm9, ymm7, ymm4
-	LONG $0xfffcb5c5                           // vpaddb    ymm7, ymm9, ymm7
-	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
-	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
-	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
-	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
-	LONG $0xccdf7dc5                           // vpandn    ymm9, ymm0, ymm4
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
-	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
-	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
-	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	LONG $0xf845c1c4; BYTE $0xf3               // vpsubb    ymm6, ymm7, ymm11
-	LONG $0xedebcdc5                           // vpor    ymm5, ymm6, ymm5
-	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
-	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
-	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
-	QUAD $0x00030024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 768]
-	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
-	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
-	LONG $0xe0da8dc5                           // vpminub    ymm4, ymm14, ymm0
-	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	QUAD $0x00010024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 256]
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
-	LONG $0xd2efa5c5                           // vpxor    ymm2, ymm11, ymm2
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
-	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960bdc5                           // vpunpcklbw    ymm3, ymm8, ymm1
-	LONG $0xc968bdc5                           // vpunpckhbw    ymm1, ymm8, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
-	JNE  LBB7_48
-	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
-	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
-	JNE  LBB7_50
-	JMP  LBB7_53
-
-DATA LCDATA6<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA6<>(SB), 8, $224
-
-TEXT ·_comparison_greater_scalar_arr_avx2(SB), $1352-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1312(SP)
-	LEAQ LCDATA6<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB8_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB8_28
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB8_51
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB8_59
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB8_179
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_7:
-	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_115
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_11:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_11
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_116
-	JMP  LBB8_179
-
-LBB8_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB8_41
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB8_70
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB8_81
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB8_179
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_19:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_21:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_25
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_23:
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_23
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB8_25:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_133
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_135
-
-LBB8_28:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB8_92
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB8_179
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_128
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdf // mov    r15, r11
-
-LBB8_32:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_32
-	LONG $0x01c78349             // add    r15, 1
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB8_129
-
-LBB8_34:
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
-	JB   LBB8_37
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB8_180
-	LONG $0xaf048d4b             // lea    rax, [r15 + 4*r13]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB8_180
-
-LBB8_37:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
-
-LBB8_38:
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000008024ac894c // mov    qword [rsp + 128], r13
-
-LBB8_39:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000000e824949f0f                   // setg    byte [rsp + 232]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000012024940244                   // add    r10b, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000140249cb60f                   // movzx    ebx, byte [rsp + 320]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_39
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	JMP  LBB8_130
-
-LBB8_41:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB8_104
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB8_179
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_47
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_45:
-	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_45
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_47:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_118
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB8_49:
-	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_49
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_119
-	JMP  LBB8_179
-
-LBB8_51:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_55
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_53:
-	LONG $0x2a394466                           // cmp    word [rdx], r13w
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_53
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_55:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_121
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_57:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_57
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_122
-	JMP  LBB8_179
-
-LBB8_59:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_63
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_61:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_61
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_63:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_67
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_65:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_65
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_67:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_137
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_139
-
-LBB8_70:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_72:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_72
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_74:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_78
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_76:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_76
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_78:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_141
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_143
-
-LBB8_81:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_83:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_83
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_85:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_89
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_87:
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_87
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB8_89:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_145
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_147
-
-LBB8_92:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_94:
-	WORD $0x3844; BYTE $0x32     // cmp    byte [rdx], r14b
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0xf619                 // sbb    esi, esi
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_94
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_96:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB8_124
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
-	JB   LBB8_100
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB8_183
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB8_183
-
-LBB8_100:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB8_101:
-	QUAD $0x0000016824bc2b4c // sub    r15, qword [rsp + 360]
-	QUAD $0x0000008024bc894c // mov    qword [rsp + 128], r15
-
-LBB8_102:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000000e82494970f                   // seta    byte [rsp + 232]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_102
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	JMP  LBB8_125
-
-LBB8_104:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_106:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_106
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_108:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_112
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-
-LBB8_110:
-	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_110
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_112:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_150
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_152
-
-LBB8_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_156
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_158
-
-LBB8_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_160
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_162
-
-LBB8_121:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_122:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_164
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_166
-
-LBB8_124:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB8_125:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_169
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB8_172
-
-LBB8_128:
-	WORD $0x894d; BYTE $0xdf // mov    r15, r11
-	LONG $0x05fdc149         // sar    r13, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB8_34
-
-LBB8_129:
-	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB8_130:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xd5 // cmp    r13, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xd5 // add    r13, r10
-	JNE  LBB8_174
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB8_177
-
-LBB8_133:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_134:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x10c28348             // add    rdx, 16
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_134
-
-LBB8_135:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB8_149
-
-LBB8_137:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_138:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_138
-
-LBB8_139:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
-	JMP  LBB8_154
-
-LBB8_141:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_142:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_142
-
-LBB8_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-	JMP  LBB8_154
-
-LBB8_145:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_146:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_146
-
-LBB8_147:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-
-LBB8_149:
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	JMP  LBB8_155
-
-LBB8_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_151:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_151
-
-LBB8_152:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-
-LBB8_154:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-
-LBB8_155:
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-	JMP  LBB8_179
-
-LBB8_156:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_157:
-	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_157
-
-LBB8_158:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
-	JMP  LBB8_168
-
-LBB8_160:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_161:
-	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_161
-
-LBB8_162:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
-	JMP  LBB8_168
-
-LBB8_164:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_165:
-	LONG $0x2a394466             // cmp    word [rdx], r13w
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_165
-
-LBB8_166:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x2a394466 // cmp    word [rdx], r13w
-
-LBB8_168:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB8_179
-
-LBB8_169:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
-
-LBB8_170:
-	LONG $0x04343845             // cmp    byte [r12 + rax], r14b
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
-	LONG $0x04743845; BYTE $0x01 // cmp    byte [r12 + rax + 1], r14b
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB8_170
-	WORD $0x0149; BYTE $0xc4     // add    r12, rax
-
-LBB8_172:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0xd219             // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	LONG $0x03eec148         // shr    rsi, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
-	WORD $0x0724             // and    al, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa // xor    dl, dil
-	WORD $0xd320             // and    bl, dl
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	JMP  LBB8_179
-
-LBB8_174:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
-
-LBB8_175:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB8_175
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB8_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-
-LBB8_179:
-	MOVQ 1312(SP), SP
-	VZEROUPPER
-	RET
-
-LBB8_180:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xaf048d4b                     // lea    rax, [r15 + 4*r13]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-
-LBB8_181:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
-	QUAD $0x000000d824b48948                   // mov    qword [rsp + 216], rsi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	LONG $0x2474894c; BYTE $0x18               // mov    qword [rsp + 24], r14
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xc0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 704
-	LONG $0x2454894c; BYTE $0x68               // mov    qword [rsp + 104], r10
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000c824b48948                   // mov    qword [rsp + 200], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x00000098248c8948                   // mov    qword [rsp + 152], rcx
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r9], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x04012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 4
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x05012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x02011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 2
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x0601126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x080222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0a020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	QUAD $0x02023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 9
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0a023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 4
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x05033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x06033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 7
-	QUAD $0x080322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 8
-	QUAD $0x09032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 9
-	QUAD $0x0a030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 10
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 14
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0f0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0503026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x08031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	QUAD $0x030412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 5
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
-	QUAD $0x07040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x090432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 9
-	QUAD $0x0a0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 12
-	QUAD $0x0d0422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 13
-	QUAD $0x0e041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 14
-	QUAD $0x0f0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 15
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0104325c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rsi + 4], 1
-	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0404225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 4
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x05040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x07041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x0e04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 15
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x010512642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r10 + 5], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x03050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x050502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 5
-	QUAD $0x06053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x0a052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 10
-	QUAD $0x0b0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 11
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0c0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0105026c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rax + 5], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 4
-	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x07051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 7
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x010612442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r10 + 6], 1
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x020632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 5
-	QUAD $0x06063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 6
-	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
-	QUAD $0x08063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 9
-	QUAD $0x0a062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 11
-	QUAD $0x0c0602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 15
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x02061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0306326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0406326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x0706226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 7
-	QUAD $0x08060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0e061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x01071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 1
-	QUAD $0x020732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 4
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x060702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 7
-	QUAD $0x08073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 8
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	QUAD $0x0c0702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 12
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
-	QUAD $0x02071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x09073a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 7], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	QUAD $0x0c07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 12
-	QUAD $0x0d072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	QUAD $0x040832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x08083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 8
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x090802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0c081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 15
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01081a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 8], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0808326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0d08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 13
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x07091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 7
-	QUAD $0x08093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 8
-	QUAD $0x090902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 9
-	QUAD $0x0a0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 13
-	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
-	QUAD $0x0f090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 15
-	QUAD $0x01091a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r11 + 9], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0509027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 5
-	QUAD $0x06093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 6
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b09227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f09326c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r14 + 9], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x020a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	QUAD $0x060a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x080a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	QUAD $0x0b0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 11
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 15
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x010a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 1
-	QUAD $0x020a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x060a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x0b0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x0e0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 14
-	QUAD $0x0f0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 15
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x030b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 3
-	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x080b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 11
-	QUAD $0x0c0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 12
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x0d0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x040b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 4
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
-	QUAD $0x060b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	QUAD $0x090b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 9
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0a0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	QUAD $0x0d0b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0f0b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 2
-	QUAD $0x030c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x040c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 6
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x070c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 8
-	QUAD $0x090c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 9
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
-	QUAD $0x0d0c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x010c02542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r8 + 12], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	QUAD $0x0a0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x0c0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 4
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	QUAD $0x070d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 7
-	QUAD $0x080d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
-	QUAD $0x0c0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 15
-	QUAD $0x010d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x030d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 3
-	QUAD $0x040d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 4
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x050d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x060d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x080d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 11
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	QUAD $0x0c0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 13
-	QUAD $0x0e0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0f0d22442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + r12 + 13], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x010e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x020e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
-	QUAD $0x050e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 6
-	QUAD $0x070e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x080e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 8
-	QUAD $0x090e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 12
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f0e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 1
-	QUAD $0x020e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 2
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x030e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x040e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 4
-	QUAD $0x050e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x060e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 6
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x080e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 8
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x090e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 14], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	QUAD $0x0b0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 11
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0c0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x010f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x020f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x030f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 6
-	QUAD $0x070f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x080f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x090f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 12
-	QUAD $0x0d0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
-	QUAD $0x030f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 3
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x050f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 5
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
-	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
-	QUAD $0x090f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 10
-	QUAD $0x0b0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 11
-	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
-	QUAD $0x0d0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 13
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x103a             // movzx    esi, byte [rdx + r15 + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 1
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x021032442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 16], 2
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x03103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0d101a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x02100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
-	QUAD $0x0410124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 4
-	QUAD $0x0510024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
-	QUAD $0x09102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 9
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0a100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x74b60f42; WORD $0x113a             // movzx    esi, byte [rdx + r15 + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x01113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 1
-	QUAD $0x021132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 2
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 5
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x061112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x081102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 8
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x09111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a1132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 12
-	QUAD $0x0d111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 15
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0211025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0311025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0411025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
-	QUAD $0x0a110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0f112a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r13 + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x01123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 3
-	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 5
-	QUAD $0x061212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 8
-	QUAD $0x09121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 9
-	QUAD $0x0a1232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b1202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 11
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0c120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 12
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0d1212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 13
-	QUAD $0x0e121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x02121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0512324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0712324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 7
-	QUAD $0x0812024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b12324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	QUAD $0x03132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x07132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
-	QUAD $0x0b1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 11
-	QUAD $0x0c130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 12
-	QUAD $0x0d1312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 13
-	QUAD $0x0e131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rcx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
-	QUAD $0x02131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 2
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0513225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 7
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x08133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 10
-	QUAD $0x0b13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x07142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
-	QUAD $0x0f141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 15
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	LONG $0x1a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rbx + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0214324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 2
-	QUAD $0x0314024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 3
-	QUAD $0x04141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 4
-	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0614124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 6
-	QUAD $0x07140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 7
-	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
-	QUAD $0x09140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 13
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x021502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	LONG $0x1a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rbx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0115325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 1
-	QUAD $0x0215325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0315325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
-	QUAD $0x0615125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 6
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0715125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	QUAD $0x0a150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 10
-	QUAD $0x0b15225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 11
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
-	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
-	QUAD $0x021602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x051622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 5
-	QUAD $0x06163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 6
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x07161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 12
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0d160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 14
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0f161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rcx + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
-	QUAD $0x0216324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	QUAD $0x0716124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 14
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0f162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rsi + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x051722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 5
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x06170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 6
-	QUAD $0x07171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 7
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x08173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 8
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	QUAD $0x0a1702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 14
-	QUAD $0x0f171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 15
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1702             // movzx    esi, byte [rdx + r8 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0117025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 1
-	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0317325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x04171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 4
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0617325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 6
-	QUAD $0x0717125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0917325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 10
-	QUAD $0x0b173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 11
-	QUAD $0x0c170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 14
-	QUAD $0x0f172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x01182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 5
-	QUAD $0x06180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 6
-	QUAD $0x071822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x091822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	QUAD $0x0e181a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 24], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 15
-	LONG $0x74b60f42; WORD $0x1802             // movzx    esi, byte [rdx + r8 + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 2
-	QUAD $0x0318324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 3
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	QUAD $0x05183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	QUAD $0x0718124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0918124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 9
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0a183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
-	LONG $0x0a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rcx + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 1
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x02192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x03191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x081932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 8
-	QUAD $0x091922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rsi + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0119325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 1
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0319325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0419325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0519325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0719325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 7
-	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1902442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x1a3a             // movzx    esi, byte [rdx + r15 + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 1
-	QUAD $0x021a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 2
-	QUAD $0x031a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 5
-	QUAD $0x061a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x081a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 10
-	QUAD $0x0b1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 11
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0c1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 12
-	QUAD $0x0d1a3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 26], 13
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0e1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 14
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0f1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x011a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x041a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x051a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x061a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x071a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x091a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 10
-	QUAD $0x0b1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
-	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x011b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 1
-	QUAD $0x021b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 11
-	QUAD $0x0c1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 12
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0d1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 13
-	QUAD $0x0e1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 14
-	QUAD $0x0f1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 15
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x011b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x021b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 2
-	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x041b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 4
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x061b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 6
-	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
-	QUAD $0x091b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 12
-	QUAD $0x0d1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 1
-	QUAD $0x021c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x031c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 4
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x051c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x061c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 6
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x071c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x081c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x091c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 12
-	QUAD $0x0d1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 14
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x011c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 1
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x021c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x041c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 4
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x061c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x071c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 7
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b1c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 4
-	QUAD $0x051d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 6
-	QUAD $0x071d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 9
-	QUAD $0x0a1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 10
-	QUAD $0x0b1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 11
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0c1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 12
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0d1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x011d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 1
-	QUAD $0x021d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x031d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 3
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x061d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x071d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x091d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1d02642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x1e3a             // movzx    esi, byte [rdx + r15 + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 1
-	LONG $0x74b60f42; WORD $0x1f3a             // movzx    esi, byte [rdx + r15 + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
-	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 12
-	QUAD $0x0c1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 12
-	QUAD $0x0d1e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 13
-	QUAD $0x0d1f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e2a             // movzx    eax, byte [rdx + r13 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x011e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f2a             // movzx    eax, byte [rdx + r13 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 31], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
-	QUAD $0x021f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 2
-	QUAD $0x031e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 3
-	QUAD $0x031f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 6
-	QUAD $0x061f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 6
-	QUAD $0x071e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 7
-	QUAD $0x071f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
-	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x00024024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 576]
-	QUAD $0x0004e0249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 1248]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0x647dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm0, ymm15
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x00022024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 544]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0x647d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm0, ymm14
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x00020024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 512]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x0004c024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1216]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00048024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 1152]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1184]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000460249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1120]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000440249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1088]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x00042024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1056]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x00040024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1024]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x0003c0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 960]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003e024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00038024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 896]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x0003a0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 928]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00034024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 832]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000360249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x00030024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x00032024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 800]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0x647d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm0, ymm10
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002e0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 736]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0x647d41c4; BYTE $0xc0               // vpcmpgtb    ymm8, ymm0, ymm8
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0x647d41c4; BYTE $0xc9               // vpcmpgtb    ymm9, ymm0, ymm9
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00026024ac64fdc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm0, yword [rsp + 608]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00028024b464fdc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm0, yword [rsp + 640]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x0002c0249c64fdc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm0, yword [rsp + 704]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x0002a024a464fdc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm0, yword [rsp + 672]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000120248c64fdc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm0, yword [rsp + 288]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000100249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 256]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB8_181
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
-	JNE  LBB8_38
-	JMP  LBB8_130
-
-LBB8_183:
-	LONG $0xe0e78349             // and    r15, -32
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	QUAD $0x000001f824848948     // mov    qword [rsp + 504], rax
-	QUAD $0x0000016824bc894c     // mov    qword [rsp + 360], r15
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016024848948     // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e8249c894c     // mov    qword [rsp + 232], r11
-
-LBB8_184:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x3a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rdi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	LONG $0x244c894c; BYTE $0x28               // mov    qword [rsp + 40], r9
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
-	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	QUAD $0x000000d02494894c                   // mov    qword [rsp + 208], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000000d82484894c                   // mov    qword [rsp + 216], r8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x80cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 896
-	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x0000008824b48948                   // mov    qword [rsp + 136], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	LONG $0x206123c4; WORD $0x220c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + r12], 1
-	LONG $0x2031e3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + rbx], 2
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 3
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 7
-	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r13], 8
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 9
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r10], 10
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r8], 11
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + r15], 12
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 13
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r10], 2
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 4
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 5
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 6
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rax], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 13
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 14
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 15
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 1
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x02013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 3
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x04012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 4
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x05013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 7
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x08013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 8
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x09012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 9
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0a012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 10
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0b013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 15
-	QUAD $0x010132742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x020112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 2
-	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
-	QUAD $0x040122742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 1], 4
-	QUAD $0x050102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 5
-	QUAD $0x06010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 7
-	QUAD $0x080132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 8
-	QUAD $0x090102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x01021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0302025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0402025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0802025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 8
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0902225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 9
-	QUAD $0x0a022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 10
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0b021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 11
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0c02325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 12
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0d023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e02125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 14
-	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0001a024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 416]
-	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x060232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x09023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 13
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0e023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 14
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0f023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 15
-	QUAD $0x01031a6c2021e3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + rbx + 3], 1
-	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
-	QUAD $0x0303026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 3
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x04033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 4
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0503026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 5
-	QUAD $0x06030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x08030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 8
-	QUAD $0x0903226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 11
-	QUAD $0x0c03326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 13
-	QUAD $0x0e03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 15
-	QUAD $0x010302742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x030312742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 3], 3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x04030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 6
-	QUAD $0x070332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 7
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x080332742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 3], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x09030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e030a5c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rcx + 3], 14
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0f03225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 3], 15
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x0001a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm3
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
-	QUAD $0x01041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 1
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 3
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x04042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x0504025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x08043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 12
-	QUAD $0x0d043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 15
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x010432642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + rsi + 4], 1
-	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
-	QUAD $0x030412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x040402642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 4], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x050412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x060432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 7
-	QUAD $0x080432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 8
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x09043a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 4], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 13
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0e0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 14
-	QUAD $0x0f0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 15
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x01051a6c2009e3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + rbx + 5], 1
-	QUAD $0x02051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 2
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x04052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0705026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 7
-	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
-	QUAD $0x0a050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 10
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010502742019e3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + rax + 5], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 2
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x03050a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 5], 3
-	QUAD $0x040502742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 5], 4
-	QUAD $0x050512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 5
-	QUAD $0x060532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 6
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x07050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 7
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x080512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 8
-	QUAD $0x09053a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 5], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 14
-	LONG $0x385d63c4; WORD $0x01fb             // vinserti128    ymm15, ymm4, xmm3, 1
-	QUAD $0x0f0532642049a3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + r14 + 5], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66e79c5                           // vmovd    xmm12, esi
-	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
-	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0106026c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + rax + 6], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x03061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 3
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0506026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0606026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0806326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 8
-	QUAD $0x09061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 9
-	QUAD $0x0a062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 14
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0f063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 15
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x01062a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r13 + 6], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 5
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x06061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 6
-	QUAD $0x07060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 7
-	QUAD $0x080612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 8
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x09060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 9
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0a0612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 10
-	QUAD $0x0b0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 11
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0c061a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 6], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 13
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0e061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 14
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0f061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 15
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x010722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x020702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 2
-	QUAD $0x030732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 3
-	QUAD $0x04070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x05070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 5
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 12
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0d0722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 14
-	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
-	QUAD $0x01072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0607324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0807324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 8
-	QUAD $0x09070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 9
-	QUAD $0x0a07124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d07324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 13
-	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
-	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e07326c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rsi + 7], 14
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0f071a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 7], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	QUAD $0x0004a024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm2
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01083a6c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x04083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0508326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0708326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0808326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 8
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x09080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 9
-	QUAD $0x0a080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 10
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 12
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x0d08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01080a742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rcx + 8], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 2
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x030802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x07080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 7
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x080802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 8
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x09081a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 8], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 10
-	QUAD $0x0b0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 13
-	QUAD $0x0e082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0f082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 15
-	QUAD $0x01093a7c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rdi + 9], 1
-	QUAD $0x02091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
-	QUAD $0x04093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 4
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 6
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x08091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 8
-	QUAD $0x09090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 12
-	QUAD $0x0d09127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 13
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0109025c2021e3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + rax + 9], 1
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
-	QUAD $0x0309225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 9], 3
-	QUAD $0x0409325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 9], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0509025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 5
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x06093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0709025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 7
-	QUAD $0x0809025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 9], 8
-	QUAD $0x09091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0b092a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 9], 11
-	QUAD $0x0c09325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 9], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
-	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xf66ef9c5                           // vmovd    xmm6, esi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x010a0a5c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r9 + 10], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x030a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 3
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
-	QUAD $0x050a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x060a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 6
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x070a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 12
-	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 14
-	QUAD $0x0f0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 15
-	QUAD $0x010a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
-	QUAD $0x060a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 6
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x090a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x0b0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0e0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 14
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0f0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 15
-	QUAD $0x010b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x020b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 2
-	QUAD $0x030b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 3
-	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x050b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 5
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 7
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x080b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 8
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x040b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	QUAD $0x090b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 11], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a0b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 10
-	QUAD $0x0b0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0d0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0f0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x010c1a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r11 + 12], 1
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x020c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 2
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x060c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x090c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 10
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0b0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 11
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0c0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 12
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 15
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x010c32642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rsi + 12], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020c32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 12], 2
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x030c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
-	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x060c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 12
-	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0e0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
-	QUAD $0x010d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 1
-	QUAD $0x020d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 2
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 4
-	QUAD $0x050d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x080d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 8
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 10
-	QUAD $0x0b0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 11
-	QUAD $0x0c0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 12
-	QUAD $0x0d0d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x030d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x040d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x050d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 8
-	QUAD $0x090d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 14
-	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
-	QUAD $0x00040024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm2
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x0e32             // movzx    esi, byte [rdx + r14 + 14]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0003e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x010e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 1
-	QUAD $0x020e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x030e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 3
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x040e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x060e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 6
-	QUAD $0x070e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0b0e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e0e3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 14], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 15
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x010e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 1
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x030e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 3
-	QUAD $0x040e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x060e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x090e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 13
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	LONG $0x74b60f42; WORD $0x0f32             // movzx    esi, byte [rdx + r14 + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
-	QUAD $0x030f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 3
-	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x060f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x070f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x080f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x090f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a0f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 10
-	QUAD $0x0b0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	QUAD $0x0e0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 14
-	QUAD $0x0f0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x010f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 2
-	QUAD $0x030f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 3
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x040f1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 15], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x050f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 5
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x060f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x070f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 7
-	QUAD $0x080f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x090f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 15], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 15], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 13
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0e0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 15
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0110024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 1
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x02103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0310024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x0610224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
-	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	QUAD $0x0a10024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x021032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 3
-	QUAD $0x04101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 4
-	QUAD $0x05100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 5
-	QUAD $0x06102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 6
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x07100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 7
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x08102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 8
-	QUAD $0x091012542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 16], 9
-	QUAD $0x0a103a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 16], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 11
-	QUAD $0x0c101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 12
-	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
-	QUAD $0x0d101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 13
-	QUAD $0x0e1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 15
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	QUAD $0x02113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0311325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 3
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x04111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 4
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x05113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0611125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 10
-	QUAD $0x0b11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 11
-	QUAD $0x0c110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 12
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 1
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x021122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 2
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x031132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 6
-	QUAD $0x07110a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 17], 7
-	QUAD $0x08112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 12
-	QUAD $0x0d111a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 17], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f11024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 17], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
-	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0112024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0212024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	QUAD $0x04121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 4
-	QUAD $0x05123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 5
-	QUAD $0x0612124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 6
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x09120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 15
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01123a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 18], 1
-	QUAD $0x021222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 2
-	QUAD $0x031232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 6
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x071222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 13
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0e123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 14
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0f121a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 18], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rsi + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0113325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 1
-	QUAD $0x0213025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 2
-	QUAD $0x0313025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0613025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 6
-	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0813025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0a130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 10
-	QUAD $0x0b131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 13
-	QUAD $0x0e13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 15
-	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x02132a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 19], 2
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x041302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 4
-	QUAD $0x051332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 6
-	QUAD $0x071322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 7
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x08130a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 19], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 13
-	QUAD $0x0e133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 14
-	QUAD $0x0f131a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 19], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rsi + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0114324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0314324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0414324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 4
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0614324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0914024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 11
-	QUAD $0x0c141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 12
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0d14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 13
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
-	QUAD $0x0f140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 15
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011432542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 20], 1
-	QUAD $0x02142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 2
-	QUAD $0x03143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 3
-	QUAD $0x041402542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 20], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x07140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 7
-	QUAD $0x08140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x09140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 11
-	QUAD $0x0c1432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 13
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 14
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0f140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 15
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0315025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
-	QUAD $0x0515225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 11
-	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
-	QUAD $0x0d15125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 13
-	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 15
-	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x021532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 2
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x031502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
-	QUAD $0x05152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x07152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 7
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x081522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 21], 8
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x09153a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 21], 9
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0a1512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 10
-	QUAD $0x0b150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 11
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0c150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f15024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 21], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 1
-	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
-	QUAD $0x0316024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0416024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x07160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0816324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 8
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c161a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 22], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0e16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 15
-	LONG $0x1a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rbx + 22]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 1
-	QUAD $0x021632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 6
-	QUAD $0x07162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 7
-	QUAD $0x081622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 8
-	QUAD $0x09163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 9
-	QUAD $0x0a1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b1622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 11
-	QUAD $0x0c160a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 22], 12
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0d162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 13
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0e1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 15
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x173a             // movzx    esi, byte [rdx + r15 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 1
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0317325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 3
-	QUAD $0x0417025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0517025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0617025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 6
-	QUAD $0x07170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0817025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 8
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
-	QUAD $0x0e17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x1a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rbx + 23]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x021732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 2
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x03171a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 23], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x06171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 10
-	QUAD $0x0b1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 12
-	QUAD $0x0d172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 13
-	QUAD $0x0e1712642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 23], 14
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0f1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 15
-	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
-	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
-	LONG $0x74b60f42; WORD $0x183a             // movzx    esi, byte [rdx + r15 + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x0218324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0318324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 3
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x0418024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x06183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0718324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 7
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0918324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 9
-	QUAD $0x0a183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 10
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0c180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 2
-	QUAD $0x03181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x05181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 5
-	QUAD $0x06181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x071802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 14
-	QUAD $0x0f1822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0119025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	QUAD $0x0419025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x06193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0819325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 8
-	QUAD $0x0919325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 11
-	QUAD $0x0c190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 13
-	QUAD $0x0e19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 14
-	QUAD $0x0f192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1912             // movzx    esi, byte [rdx + r10 + 25]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 1
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x02190a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 25], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x04193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 4
-	QUAD $0x05191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 5
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x06191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 8
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x091932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 9
-	QUAD $0x0a191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 10
-	QUAD $0x0b190a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 25], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 12
-	QUAD $0x0d193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 13
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0e1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000180248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm1
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0f190a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 25], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rcx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x021a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x051a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 5
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x061a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 6
-	QUAD $0x071a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x081a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x091a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 9
-	QUAD $0x0a1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0d1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
-	LONG $0x74b60f42; WORD $0x1a12             // movzx    esi, byte [rdx + r10 + 26]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 1
-	QUAD $0x021a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 3
-	QUAD $0x041a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 5
-	QUAD $0x061a1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 26], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 8
-	QUAD $0x091a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b1a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 11
-	QUAD $0x0c1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 13
-	QUAD $0x0e1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 15
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x011b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 1
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x021b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 2
-	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
-	QUAD $0x041b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x051b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 5
-	QUAD $0x061b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x071b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 7
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x081b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b1b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 11
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x0d1b025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 27], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 1
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x031b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x051b3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 27], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 6
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x071b2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 27], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 10
-	QUAD $0x0b1b0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 27], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 13
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
-	LONG $0x74b60f42; WORD $0x1c3a             // movzx    esi, byte [rdx + r15 + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 1
-	QUAD $0x021c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	QUAD $0x051c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 5
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x061c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x071c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 7
-	QUAD $0x081c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 8
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x091c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 9
-	QUAD $0x0a1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 10
-	QUAD $0x0b1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x0f1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x011c0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 28], 1
-	QUAD $0x021c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 4
-	QUAD $0x051c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 5
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x061c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 6
-	QUAD $0x071c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 7
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x081c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 28], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x091c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 28], 9
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0a1c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c1c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 28], 12
-	QUAD $0x0d1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 13
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0e1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x011d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x021d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x061d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x091d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b1d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 14
-	QUAD $0x0f1d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x011d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x021d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 2
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x031d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x041d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 5
-	QUAD $0x061d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 7
-	QUAD $0x081d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 8
-	QUAD $0x091d12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 29], 9
-	QUAD $0x0a1d2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 29], 10
-	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0c1d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 29], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
-	QUAD $0x0f1d024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 29], 15
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x1e02             // movzx    esi, byte [rdx + r8 + 30]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 1
-	LONG $0x74b60f42; WORD $0x1f02             // movzx    esi, byte [rdx + r8 + 31]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x011f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
-	QUAD $0x021f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 11
-	QUAD $0x0b1f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3244b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rsi + 30]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
-	LONG $0x3244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rsi + 31]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 2
-	QUAD $0x021f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 2
-	QUAD $0x031e0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 30], 3
-	QUAD $0x031f0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 31], 3
-	QUAD $0x041e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
-	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 6
-	QUAD $0x061f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
-	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
-	QUAD $0x081e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 8
-	QUAD $0x081f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 8
-	QUAD $0x091e125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 30], 9
-	QUAD $0x091f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 31], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 30], 11
-	QUAD $0x0b1f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 31], 11
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0c1e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 12
-	QUAD $0x0d1e3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 30], 13
-	QUAD $0x0d1f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 31], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
-	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
-	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	QUAD $0x000100248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm1
-	QUAD $0x000220248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 544]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0xd7dff5c5                           // vpandn    ymm2, ymm1, ymm7
-	LONG $0xc9fcedc5                           // vpaddb    ymm1, ymm2, ymm1
-	QUAD $0x0004e02494dafdc5; BYTE $0x00       // vpminub    ymm2, ymm0, yword [rsp + 1248]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0xd7dfedc5                           // vpandn    ymm2, ymm2, ymm7
-	QUAD $0x0001c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 448]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0x4d6f7dc5; BYTE $0x20               // vmovdqa    ymm9, yword 32[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0001a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 416]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0x456f7dc5; BYTE $0x40               // vmovdqa    ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xdf0d41c4; BYTE $0xf0               // vpandn    ymm14, ymm14, ymm8
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	LONG $0xdb76e5c5                           // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xcbf8f5c5                           // vpsubb    ymm1, ymm1, ymm3
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xd0da85c5                           // vpminub    ymm2, ymm15, ymm0
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xd6dfedc5                           // vpandn    ymm2, ymm2, ymm6
-	QUAD $0x00020024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 512]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x00000080a56ffdc5                   // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xf4df0dc5                           // vpandn    ymm14, ymm14, ymm4
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0004c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1216]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xf5df0dc5                           // vpandn    ymm14, ymm14, ymm5
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0004a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1184]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf3ef0dc5                           // vpxor    ymm14, ymm14, ymm3
-	LONG $0x710dc1c4; WORD $0x07f6             // vpsllw    ymm14, ymm14, 7
-	QUAD $0x000000c0956f7dc5                   // vmovdqa    ymm10, yword 192[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0d41c4; BYTE $0xf2               // vpand    ymm14, ymm14, ymm10
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
-	QUAD $0x000460248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 1120]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	LONG $0xf7df75c5                           // vpandn    ymm14, ymm1, ymm7
-	LONG $0xc9fc8dc5                           // vpaddb    ymm1, ymm14, ymm1
-	QUAD $0x00048024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1152]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf7df0dc5                           // vpandn    ymm14, ymm14, ymm7
-	QUAD $0x00044024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1088]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0x6f7dc1c4; BYTE $0xd9               // vmovdqa    ymm3, ymm9
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x00042024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1056]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xcaf8f5c5                           // vpsubb    ymm1, ymm1, ymm2
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00040024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1024]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	QUAD $0x0003e024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 992]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x0003a024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 928]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x0003c024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 960]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfaef05c5                           // vpxor    ymm15, ymm15, ymm2
-	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0x7105c1c4; WORD $0x07f7             // vpsllw    ymm15, ymm15, 7
-	LONG $0xdb0541c4; BYTE $0xfa               // vpand    ymm15, ymm15, ymm10
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00036024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 864]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xffdf0dc5                           // vpandn    ymm15, ymm14, ymm7
-	LONG $0xfc0541c4; BYTE $0xf6               // vpaddb    ymm14, ymm15, ymm14
-	QUAD $0x00038024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 896]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdf05c5                           // vpandn    ymm15, ymm15, ymm7
-	QUAD $0x00032024acda7dc5; BYTE $0x00       // vpminub    ymm13, ymm0, yword [rsp + 800]
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xdf1541c4; BYTE $0xe9               // vpandn    ymm13, ymm13, ymm9
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	QUAD $0x00034024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 832]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
-	LONG $0xf2f80dc5                           // vpsubb    ymm14, ymm14, ymm2
-	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
-	QUAD $0x0002e024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	QUAD $0x00030024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 768]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd8da25c5                           // vpminub    ymm11, ymm11, ymm0
-	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
-	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
-	LONG $0xdddf25c5                           // vpandn    ymm11, ymm11, ymm5
-	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
-	LONG $0xe0da1dc5                           // vpminub    ymm12, ymm12, ymm0
-	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
-	LONG $0xe2ef1dc5                           // vpxor    ymm12, ymm12, ymm2
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0x6f7d41c4; BYTE $0xf2               // vmovdqa    ymm14, ymm10
-	LONG $0xdb1d41c4; BYTE $0xe2               // vpand    ymm12, ymm12, ymm10
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
-	QUAD $0x000240248cda7dc5; BYTE $0x00       // vpminub    ymm9, ymm0, yword [rsp + 576]
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xe7df35c5                           // vpandn    ymm12, ymm9, ymm7
-	LONG $0xfc1d41c4; BYTE $0xc9               // vpaddb    ymm9, ymm12, ymm9
-	QUAD $0x0001802494da7dc5; BYTE $0x00       // vpminub    ymm10, ymm0, yword [rsp + 384]
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xd7df2dc5                           // vpandn    ymm10, ymm10, ymm7
-	QUAD $0x00026024bcdafdc5; BYTE $0x00       // vpminub    ymm7, ymm0, yword [rsp + 608]
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x0002802484da7dc5; BYTE $0x00       // vpminub    ymm8, ymm0, yword [rsp + 640]
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0x45df3dc5; BYTE $0x40               // vpandn    ymm8, ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	LONG $0xc2f835c5                           // vpsubb    ymm8, ymm9, ymm2
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	QUAD $0x0002a024acdafdc5; BYTE $0x00       // vpminub    ymm5, ymm0, yword [rsp + 672]
-	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x0002c024b4dafdc5; BYTE $0x00       // vpminub    ymm6, ymm0, yword [rsp + 704]
-	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
-	LONG $0xf4dfcdc5                           // vpandn    ymm6, ymm6, ymm4
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000120249cdafdc5; BYTE $0x00       // vpminub    ymm3, ymm0, yword [rsp + 288]
-	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
-	LONG $0xdf65c1c4; BYTE $0xdf               // vpandn    ymm3, ymm3, ymm15
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x00010024a4dafdc5; BYTE $0x00       // vpminub    ymm4, ymm0, yword [rsp + 256]
-	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
-	LONG $0xe2efddc5                           // vpxor    ymm4, ymm4, ymm2
-	LONG $0xf471ddc5; BYTE $0x07               // vpsllw    ymm4, ymm4, 7
-	LONG $0xe4db8dc5                           // vpand    ymm4, ymm14, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
-	QUAD $0x00014024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 320]
-	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
-	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
-	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
-	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
-	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
-	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
-	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
-	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
-	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
-	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
-	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
-	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8b4c; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b6c; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm5
-	LONG $0x7f7ec1c4; WORD $0x8b1c             // vmovdqu    yword [r11 + 4*rcx], ymm3
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
-	JNE  LBB8_184
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
-	JNE  LBB8_101
-	JMP  LBB8_125
-
-TEXT ·_comparison_greater_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB9_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB9_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB9_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB9_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_20:
-	WORD $0x0e8b                   // mov    ecx, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_20
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3930f41                           // setae    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7930f41                           // setae    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2930f41                           // setae    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6930f41                           // setae    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1930f41                           // setae    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_28:
-	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
-	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_28
-	JMP  LBB9_123
-
-LBB9_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB9_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB9_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB9_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_48:
-	LONG $0x0610fbc5               // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x022ef9c5               // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_48
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4930f41                           // setae    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0930f41                           // setae    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_56
-	JMP  LBB9_123
-
-LBB9_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB9_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd1       // setge    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09d0f41               // setge    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_14
-	JMP  LBB9_123
-
-LBB9_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB9_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_34:
-	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_34
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_42:
-	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
-	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_42
-	JMP  LBB9_123
-
-LBB9_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_70:
-	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
-	LONG $0x02528d48               // lea    rdx, [rdx + 2]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_70
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0930f41               // setae    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_78:
-	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
-	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_78
-	JMP  LBB9_123
-
-LBB9_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09d0f41               // setge    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_89
-	JMP  LBB9_123
-
-LBB9_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_111
-	JMP  LBB9_123
-
-LBB9_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_114:
-	LONG $0x0610fac5               // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	LONG $0x022ef8c5               // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_114
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_122
-	JMP  LBB9_123
-
-LBB9_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_59:
-	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x0a3a                   // cmp    cl, byte [rdx]
-	LONG $0x01528d48               // lea    rdx, [rdx + 1]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_59
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd1       // setae    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0930f41               // setae    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_67:
-	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
-	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_67
-	JMP  LBB9_123
-
-LBB9_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29d0f41                           // setge    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_100
-
-LBB9_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA7<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA7<>(SB), 8, $224
-
-TEXT ·_comparison_greater_equal_arr_scalar_avx2(SB), $1384-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1344(SP)
-	LEAQ LCDATA7<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB10_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB10_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB10_48
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB10_56
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB10_175
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_100
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_101
-	JMP  LBB10_175
-
-LBB10_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB10_38
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB10_64
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB10_72
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB10_175
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_103
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7960f41                           // setbe    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_104
-	JMP  LBB10_175
-
-LBB10_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB10_80
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB10_175
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_128
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-
-LBB10_29:
-	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
-	LONG $0x01768d48               // lea    rsi, [rsi + 1]
-	WORD $0x9d0f; BYTE $0xd2       // setge    dl
-	WORD $0xdaf6                   // neg    dl
-	LONG $0x07788d48               // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf8490f48               // cmovns    rdi, rax
-	LONG $0x03ffc148               // sar    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
-	WORD $0xe3d3                   // shl    ebx, cl
-	WORD $0xd320                   // and    bl, dl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB10_29
-	LONG $0x01c58349               // add    r13, 1
-	LONG $0x05ffc149               // sar    r15, 5
-	LONG $0x20fa8349               // cmp    r10, 32
-	JL   LBB10_129
-
-LBB10_31:
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000026024bc894c     // mov    qword [rsp + 608], r15
-	JB   LBB10_34
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
-	JAE  LBB10_182
-	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8     // add    rax, r13
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_182
-
-LBB10_34:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
-
-LBB10_35:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	QUAD $0x000001a024ac2b4c // sub    r13, qword [rsp + 416]
-	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
-
-LBB10_36:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_36
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
-	JMP  LBB10_130
-
-LBB10_38:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB10_92
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB10_175
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_44
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_42:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_42
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_44:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_106
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB10_46:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_46
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_107
-	JMP  LBB10_175
-
-LBB10_48:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_50:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_52:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_109
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_54:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	WORD $0x930f; BYTE $0xd0             // setae    al
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7930f40                     // setae    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6930f41                     // setae    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	QUAD $0x000000982494930f             // setae    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x930f; BYTE $0xd3             // setae    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x930f; BYTE $0xd2             // setae    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1930f41                     // setae    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2930f41                     // setae    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3930f41                     // setae    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4930f41                     // setae    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454930f; BYTE $0x78         // setae    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x930f; BYTE $0xd1             // setae    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000882494930f             // setae    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7930f41                     // setae    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494930f             // setae    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494930f             // setae    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454930f; BYTE $0x1c         // setae    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0930f41                     // setae    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	WORD $0x0840; BYTE $0xc7             // or    dil, al
-	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x50245402                     // add    dl, byte [rsp + 80]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB10_54
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB10_110
-	JMP  LBB10_175
-
-LBB10_56:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_58:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_58
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_60:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_112
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_62:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	QUAD $0x0000009824949d0f             // setge    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd79d0f40                     // setge    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd69d0f41                     // setge    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a024949d0f             // setge    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x0000009024949d0f             // setge    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x24549d0f; BYTE $0x60         // setge    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x9d0f; BYTE $0xd0             // setge    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x9d0f; BYTE $0xd3             // setge    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x24549d0f; BYTE $0x70         // setge    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x9d0f; BYTE $0xd2             // setge    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd19d0f41                     // setge    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd29d0f41                     // setge    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd39d0f41                     // setge    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd49d0f41                     // setge    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x24549d0f; BYTE $0x78         // setge    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x9d0f; BYTE $0xd1             // setge    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x24549d0f; BYTE $0x50         // setge    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x0000008024949d0f             // setge    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x0000008824949d0f             // setge    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x24549d0f; BYTE $0x48         // setge    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x24549d0f; BYTE $0x58         // setge    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x24549d0f; BYTE $0x68         // setge    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x24549d0f; BYTE $0x40         // setge    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd79d0f41                     // setge    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x24549d0f; BYTE $0x20         // setge    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x24549d0f; BYTE $0x28         // setge    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x24549d0f; BYTE $0x30         // setge    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x24549d0f; BYTE $0x38         // setge    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x0000014024949d0f             // setge    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x0000012024949d0f             // setge    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x24549d0f; BYTE $0x1c         // setge    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd09d0f41                     // setge    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x50245402                     // add    dl, byte [rsp + 80]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB10_62
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB10_113
-	JMP  LBB10_175
-
-LBB10_64:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_68
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_66:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_66
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_68:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_115
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_70:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_70
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_116
-	JMP  LBB10_175
-
-LBB10_72:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_74:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_74
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_76:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_118
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_78:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7960f41                           // setbe    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_78
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_119
-	JMP  LBB10_175
-
-LBB10_80:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_84
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_82:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_82
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_84:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_121
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
-	JB   LBB10_88
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB10_185
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_185
-
-LBB10_88:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
-
-LBB10_89:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB10_90:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_90
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	JMP  LBB10_122
-
-LBB10_92:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_94:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_94
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB10_98:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_98
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_126
-	JMP  LBB10_175
-
-LBB10_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_101:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_133
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_135
-
-LBB10_103:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_104:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_137
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_139
-
-LBB10_106:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_107:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_141
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_143
-
-LBB10_109:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_110:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_145
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_147
-
-LBB10_112:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_113:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_150
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_152
-
-LBB10_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_154
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_156
-
-LBB10_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_158
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_160
-
-LBB10_121:
-	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB10_122:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_163
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_166
-
-LBB10_125:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_126:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_168
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_170
-
-LBB10_128:
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB10_31
-
-LBB10_129:
-	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB10_130:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_176
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_179
-
-LBB10_133:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_134:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_134
-
-LBB10_135:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_149
-
-LBB10_137:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_138:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_138
-
-LBB10_139:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB10_162
-
-LBB10_141:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_142:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_142
-
-LBB10_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_149
-
-LBB10_145:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_146:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_146
-
-LBB10_147:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-
-LBB10_149:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_174
-
-LBB10_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_151:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_151
-
-LBB10_152:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB10_172
-
-LBB10_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_155:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_155
-
-LBB10_156:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_172
-
-LBB10_158:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_159:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_159
-
-LBB10_160:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-
-LBB10_162:
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	JMP  LBB10_173
-
-LBB10_163:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
-
-LBB10_164:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_164
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB10_166:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0xff14             // adc    al, -1
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_181
-
-LBB10_168:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_169:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_169
-
-LBB10_170:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB10_172:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-
-LBB10_173:
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB10_174:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB10_175:
-	MOVQ 1344(SP), SP
-	VZEROUPPER
-	RET
-
-LBB10_176:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
-
-LBB10_177:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_177
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB10_179:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-
-LBB10_181:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB10_175
-
-LBB10_182:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
-	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8             // add    rax, r13
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
-
-LBB10_183:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000240248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 576], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	LONG $0x20cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 544
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x80cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 640
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
-	QUAD $0x000000f024bc8948                   // mov    qword [rsp + 240], rdi
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000d824948948                   // mov    qword [rsp + 216], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x40ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 832
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	QUAD $0x00000108248c894c                   // mov    qword [rsp + 264], r9
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 4
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r14], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
-	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
-	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
-	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x00024024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 576]
-	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
-	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
-	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
-	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
-	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
-	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
-	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
-	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
-	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
-	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
-	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
-	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
-	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
-	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
-	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004c024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
-	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
-	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
-	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
-	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
-	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
-	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000480248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
-	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
-	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
-	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
-	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
-	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
-	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
-	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
-	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
-	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
-	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
-	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
-	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
-	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
-	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
-	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
-	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
-	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
-	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
-	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
-	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
-	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
-	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
-	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
-	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
-	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
-	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
-	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
-	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
-	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
-	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
-	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
-	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
-	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
-	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
-	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
-	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
-	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
-	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
-	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
-	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
-	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
-	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
-	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
-	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
-	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
-	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
-	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
-	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
-	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
-	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
-	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
-	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
-	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
-	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
-	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
-	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
-	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
-	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
-	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
-	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
-	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
-	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
-	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
-	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
-	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
-	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
-	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
-	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
-	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
-	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
-	LONG $0x646dc1c4; BYTE $0xc5               // vpcmpgtb    ymm0, ymm2, ymm13
-	QUAD $0x00050024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1280]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI10_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x00024024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 576]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001e024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 480]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0x646d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm2, ymm14
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0x646dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm2, ymm15
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 448]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00022024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 544]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1248]
-	QUAD $0x0004c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1216]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1184]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00048024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1152]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00044024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1088]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x00040024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1024]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00042024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 992]
-	QUAD $0x0003c024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00038024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 896]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x0003a024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 928]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x00034024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 832]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00036024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 864]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0x646d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm2, ymm10
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0x646d41c4; BYTE $0xdb               // vpcmpgtb    ymm11, ymm2, ymm11
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000280248c646dc5; BYTE $0x00       // vpcmpgtb    ymm9, ymm2, yword [rsp + 640]
-	QUAD $0x0002a02484646dc5; BYTE $0x00       // vpcmpgtb    ymm8, ymm2, yword [rsp + 672]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x0002c024ac64edc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm2, yword [rsp + 704]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x0002e024b464edc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm2, yword [rsp + 736]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000300249c64edc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm2, yword [rsp + 768]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x00032024a464edc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm2, yword [rsp + 800]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c64edc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249464edc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB10_183
-	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
-	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
-	JNE  LBB10_35
-	JMP  LBB10_130
-
-LBB10_185:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000021824848948             // mov    qword [rsp + 536], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB10_186:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010824948948                   // mov    qword [rsp + 264], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	LONG $0x80cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 640
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x00cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 768
-	QUAD $0x000000b0249c894c                   // mov    qword [rsp + 176], r11
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x20cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 800
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	LONG $0x24548948; BYTE $0x28               // mov    qword [rsp + 40], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x000000d8248c8948                   // mov    qword [rsp + 216], rcx
-	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x2031a3c4; WORD $0x2604; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r12], 2
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 4
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 7
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 8
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r15], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 1
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + r11], 10
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00026024946f7dc5; BYTE $0x00       // vmovdqa    ymm10, yword [rsp + 608]
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	QUAD $0x01012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 2
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x03012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x05011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x07011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 9
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0e011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 14
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
-	QUAD $0x0101066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 1
-	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
-	QUAD $0x0301166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0401166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 4
-	QUAD $0x05010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 5
-	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
-	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x0e0126442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 1], 14
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
-	QUAD $0x04022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x070206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x090206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0c0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0e0216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0f020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0402165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0502165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	QUAD $0x0702365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 7
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0802365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 8
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0902265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 2], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 12
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01033e642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r15 + 3], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
-	QUAD $0x04032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 4
-	QUAD $0x05031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 5
-	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x08032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 9
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0a031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 10
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0b031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 13
-	QUAD $0x0e0316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 14
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0203066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 3], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0703066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 7
-	QUAD $0x0803366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 8
-	QUAD $0x0903266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0c03166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x01040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x020416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 2
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x03040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 5
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x060436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 6
-	QUAD $0x07043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x09042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 9
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0a041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 10
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
-	QUAD $0x0204065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0604065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0704065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0b04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 11
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	QUAD $0x01050e642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + rcx + 5], 1
-	QUAD $0x020516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 2
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x060536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 6
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x07050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 7
-	QUAD $0x080526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 8
-	QUAD $0x09052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 9
-	QUAD $0x0a0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
-	QUAD $0x0d053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0f0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0105066c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rsi + rax + 5], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0805166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 8
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0905166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 13
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e0516442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rdx + 5], 14
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0f053e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 5], 15
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x010626442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r12 + 6], 1
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x02062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 2
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x030616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 3
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x040616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x05061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 6
-	QUAD $0x07060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 10
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0b063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	QUAD $0x0f0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 15
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01063e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rdi + 6], 1
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 5
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	QUAD $0x0706066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 7
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0806066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 8
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0906366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0d060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
-	QUAD $0x0f063e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 6], 15
-	QUAD $0x010726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 1
-	QUAD $0x02072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 2
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x03072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 3
-	QUAD $0x040716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 4
-	QUAD $0x05071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x09071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0c0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	QUAD $0x0307164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 3
-	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x0807064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 8
-	QUAD $0x0907364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 10
-	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
-	QUAD $0x0c071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 12
-	QUAD $0x0d070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 13
-	QUAD $0x0e070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0f073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x010826542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r12 + 8], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 2
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x03082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x05082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 6
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x070816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 8
-	QUAD $0x09081e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 8], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 10
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0b0816542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 8], 11
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0c0836542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 8], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0f083e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 8], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0108066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 8], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0208066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0408066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x05080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0608066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 10
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0b081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 11
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0c081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 14
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0f081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	LONG $0xeadeadc5                           // vpmaxub    ymm5, ymm10, ymm2
-	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x030906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x05092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 6
-	QUAD $0x070916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 7
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x08091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 8
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
-	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
-	QUAD $0x0c0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 12
-	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
-	QUAD $0x0f093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x02091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 4
-	QUAD $0x05090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0609167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 6
-	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0c092e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 9], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
-	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x010a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	QUAD $0x030a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 3
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x070a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x080a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 8
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0a0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0f0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
-	QUAD $0x020a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	QUAD $0x060a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x070a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x090a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 9
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0b0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 11
-	QUAD $0x0c0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 14
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
-	QUAD $0x010b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 1
-	QUAD $0x020b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 2
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x030b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 3
-	QUAD $0x040b06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 11], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x050b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 5
-	QUAD $0x060b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x070b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 7
-	QUAD $0x080b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 8
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x090b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 9
-	QUAD $0x0a0b26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 11], 10
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x0c0b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 14
-	QUAD $0x0f0b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 2
-	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x050b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x060b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 6
-	QUAD $0x070b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 7
-	QUAD $0x080b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	QUAD $0x0e0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 14
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x010c264c2069a3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + r12 + 12], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 2
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x030c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 3
-	QUAD $0x040c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 12], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 6
-	QUAD $0x070c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 8
-	QUAD $0x090c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 12], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 10
-	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
-	QUAD $0x0c0c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 14
-	QUAD $0x0f0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 15
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x010c16542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r10 + 12], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x040c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x060c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x090c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0e0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 14
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
-	QUAD $0x010d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x020d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 2
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x060d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0a0d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 15
-	QUAD $0x010d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
-	QUAD $0x040d1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 13], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x050d36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 13], 5
-	QUAD $0x060d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x070d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 8
-	QUAD $0x090d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 9
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0a0d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 13
-	QUAD $0x0e0d0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x010e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 1
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x020e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 2
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x060e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 6
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x080e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 13
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0e0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 4
-	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x060e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 6
-	QUAD $0x070e3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 14], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x090e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x0f3e             // movzx    edi, byte [rsi + r15 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 1
-	QUAD $0x020f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x050f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x060f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 6
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x070f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 7
-	QUAD $0x080f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 8
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x090f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 9
-	QUAD $0x0a0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 10
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0b0f36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 15], 11
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0c0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	QUAD $0x0e0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x030f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x050f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 5
-	QUAD $0x060f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x080f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 8
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x7cb60f42; WORD $0x103e             // movzx    edi, byte [rsi + r15 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x04103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 4
-	QUAD $0x051016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 6
-	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 8
-	QUAD $0x09102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	QUAD $0x0b1036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 11
-	QUAD $0x0c1026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 15
-	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x01101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 1
-	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
-	QUAD $0x03100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 3
-	QUAD $0x04101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 6
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x08101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 8
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0910264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 11
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 3
-	QUAD $0x04113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x06113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b1136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
-	QUAD $0x0f112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 4
-	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x06112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
-	QUAD $0x08111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 8
-	QUAD $0x0911265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 9
-	QUAD $0x0a11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 10
-	QUAD $0x0b11165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 11
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0c11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0f110e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r9 + 17], 15
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x01121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x031206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 5
-	QUAD $0x06123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 6
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x07120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 7
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x081216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 8
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0a1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 10
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0c1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 14
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0f1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0112164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0212164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 5
-	QUAD $0x06122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x08123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
-	QUAD $0x0c12264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 14
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 2
-	QUAD $0x031306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 3
-	QUAD $0x04131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 4
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x051326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
-	QUAD $0x07130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 7
-	QUAD $0x081316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 9
-	QUAD $0x0a1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 10
-	QUAD $0x0b133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 11
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x0c131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0313065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 3
-	QUAD $0x0413165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0513165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 5
-	QUAD $0x06132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 6
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0713365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0813165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 8
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x09133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f130e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r9 + 19], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdx + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x051426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 5
-	QUAD $0x06140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x07140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x08140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 8
-	QUAD $0x09141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 9
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x0c141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 12
-	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0f141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x0514164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 5
-	QUAD $0x06142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 6
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0714364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 7
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0a143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0d14264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 20], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	QUAD $0x0f140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 15
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1536             // movzx    edi, byte [rsi + r14 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 5
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x06151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 6
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x081506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0b153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 13
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rbx + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0115065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
-	QUAD $0x0615165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 7
-	QUAD $0x08150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 8
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0b15165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 11
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
-	QUAD $0x0d15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 13
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
-	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x1636             // movzx    edi, byte [rsi + r14 + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x01160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 1
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x02160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 2
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x041636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x06161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 6
-	QUAD $0x07162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 7
-	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 11
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0d162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0216064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0316064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x04161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 10
-	QUAD $0x0b16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 11
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
-	QUAD $0x0e160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
-	QUAD $0x03173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 3
-	QUAD $0x041736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 4
-	QUAD $0x051716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x061716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x08170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 8
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x09173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 9
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0b1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 11
-	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
-	QUAD $0x0d172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 13
-	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0117165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 1
-	QUAD $0x0217065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 2
-	QUAD $0x0317065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 3
-	QUAD $0x04171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0517065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0717165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0817065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 8
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x09171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 9
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
-	QUAD $0x0b171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 12
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0d17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0f171e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 23], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x07183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 7
-	QUAD $0x08180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 8
-	QUAD $0x09183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 9
-	QUAD $0x0a1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 10
-	QUAD $0x0b1816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0118164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 2
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x03183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x05180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x0718164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0818164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 8
-	QUAD $0x09181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 9
-	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 12
-	QUAD $0x0d18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 14
-	QUAD $0x0f181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x031936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0c192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0119165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 1
-	QUAD $0x02190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 2
-	QUAD $0x03193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 4
-	QUAD $0x05190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0619065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0c190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 13
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0e19164c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r10 + 25], 14
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f193e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdi + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
-	QUAD $0x031a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 3
-	QUAD $0x041a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 4
-	QUAD $0x051a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 5
-	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 10
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0b1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 11
-	QUAD $0x0c1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 15
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x011a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x021a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 2
-	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x051a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x061a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x091a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 13
-	QUAD $0x0e1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 14
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x031b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x051b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 10
-	QUAD $0x0b1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 11
-	QUAD $0x0c1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b36             // movzx    edi, byte [rsi + r14 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x011b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x041b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 4
-	QUAD $0x051b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
-	QUAD $0x091b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0c1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d1b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 14
-	QUAD $0x0f1b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 1
-	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x031c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0b1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d1c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	QUAD $0x0f1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdi + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x021c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x031c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x051c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 5
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x061c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 11
-	QUAD $0x0c1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 12
-	QUAD $0x0d1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 14
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0f1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x051d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 5
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x061d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 6
-	QUAD $0x071d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x081d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x091d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 9
-	QUAD $0x0a1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 10
-	QUAD $0x0b1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 11
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0c1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 12
-	QUAD $0x0d1d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdx + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x021d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 2
-	QUAD $0x031d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 3
-	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x081d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 8
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x091d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0c1d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0e1d1e642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rbx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1d1e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r11 + 29], 15
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 6
-	QUAD $0x061f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 12
-	QUAD $0x0c1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x0e1e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 14
-	QUAD $0x0e1f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x1644b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rdx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x021e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 2
-	QUAD $0x021f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
-	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
-	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	QUAD $0x091e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 9
-	QUAD $0x091f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	QUAD $0x0b1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 11
-	QUAD $0x0b1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 11
-	QUAD $0x0c1e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 12
-	QUAD $0x0c1f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0f1e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 15
-	QUAD $0x0f1f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x6f7dc1c4; BYTE $0xd2               // vmovdqa    ymm2, ymm10
-	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
-	LONG $0xc1deadc5                           // vpmaxub    ymm0, ymm10, ymm1
-	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
-	LONG $0x756ffdc5; BYTE $0x00               // vmovdqa    ymm6, yword 0[rbp] /* [rip + .LCPI10_0] */
-	LONG $0xc6dbfdc5                           // vpand    ymm0, ymm0, ymm6
-	QUAD $0x0005002484f8fdc5; BYTE $0x00       // vpsubb    ymm0, ymm0, yword [rsp + 1280]
-	QUAD $0x0001e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 480]
-	LONG $0xf9deadc5                           // vpmaxub    ymm7, ymm10, ymm1
-	LONG $0xff74f5c5                           // vpcmpeqb    ymm7, ymm1, ymm7
-	QUAD $0x0001c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 448]
-	LONG $0xe1de2dc5                           // vpmaxub    ymm12, ymm10, ymm1
-	LONG $0xe1741dc5                           // vpcmpeqb    ymm12, ymm12, ymm1
-	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
-	LONG $0x656ffdc5; BYTE $0x40               // vmovdqa    ymm4, yword 64[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xde0dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm14, ymm10
-	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
-	LONG $0xde0541c4; BYTE $0xe2               // vpmaxub    ymm12, ymm15, ymm10
-	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
-	LONG $0x6d6ffdc5; BYTE $0x60               // vmovdqa    ymm5, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00022024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 544]
-	LONG $0xde0d41c4; BYTE $0xe2               // vpmaxub    ymm12, ymm14, ymm10
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xe3db1dc5                           // vpand    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
-	LONG $0xde1dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm12, ymm10
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	QUAD $0x000000c0ad6f7dc5                   // vmovdqa    ymm13, yword 192[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xffdb95c5                           // vpand    ymm7, ymm13, ymm7
-	LONG $0xd7eb7dc5                           // vpor    ymm10, ymm0, ymm7
-	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
-	LONG $0xfade9dc5                           // vpmaxub    ymm7, ymm12, ymm2
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
-	QUAD $0x0004c024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1216]
-	QUAD $0x00048024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1152]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x00046024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1120]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xdb1d41c4; BYTE $0xe0               // vpand    ymm12, ymm12, ymm8
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x00042024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1056]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xe5db1dc5                           // vpand    ymm12, ymm12, ymm5
-	LONG $0xf9db05c5                           // vpand    ymm15, ymm15, ymm1
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 928]
-	LONG $0xfade8dc5                           // vpmaxub    ymm7, ymm14, ymm2
-	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
-	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
-	QUAD $0x00040024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1024]
-	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
-	LONG $0xfade7dc5                           // vpmaxub    ymm15, ymm0, ymm2
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
-	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	LONG $0xf2de25c5                           // vpmaxub    ymm14, ymm11, ymm2
-	LONG $0x742541c4; BYTE $0xde               // vpcmpeqb    ymm11, ymm11, ymm14
-	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
-	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	LONG $0xf1db0dc5                           // vpand    ymm14, ymm14, ymm1
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xf2de35c5                           // vpmaxub    ymm14, ymm9, ymm2
-	LONG $0x743541c4; BYTE $0xce               // vpcmpeqb    ymm9, ymm9, ymm14
-	LONG $0xf36f7dc5                           // vmovdqa    ymm14, ymm3
-	LONG $0xcbdb35c5                           // vpand    ymm9, ymm9, ymm3
-	LONG $0xeb2541c4; BYTE $0xc9               // vpor    ymm9, ymm11, ymm9
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xdb3541c4; BYTE $0xcd               // vpand    ymm9, ymm9, ymm13
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x0001a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 416]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xc07435c5                           // vpcmpeqb    ymm8, ymm9, ymm0
-	LONG $0xc6db3dc5                           // vpand    ymm8, ymm8, ymm6
-	QUAD $0x0003002484f83dc5; BYTE $0x00       // vpsubb    ymm8, ymm8, yword [rsp + 768]
-	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
-	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
-	LONG $0x6ddbd5c5; BYTE $0x20               // vpand    ymm5, ymm5, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xf4dbcdc5                           // vpand    ymm6, ymm6, ymm4
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
-	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
-	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
-	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
-	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
-	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
-	LONG $0xdbdb85c5                           // vpand    ymm3, ymm15, ymm3
-	LONG $0xe1dbddc5                           // vpand    ymm4, ymm4, ymm1
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
-	LONG $0xe2defdc5                           // vpmaxub    ymm4, ymm0, ymm2
-	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
-	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
-	LONG $0xdadefdc5                           // vpmaxub    ymm3, ymm0, ymm2
-	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
-	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0x602dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm10, ymm12
-	LONG $0x682dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm10, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB10_186
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000021824a48b4c                   // mov    r12, qword [rsp + 536]
-	JNE  LBB10_89
-	JMP  LBB10_122
-
-DATA LCDATA8<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0d8(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0e0(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0e8(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0f0(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0f8(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA8<>(SB), 8, $256
-
-TEXT ·_comparison_greater_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA8<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB11_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB11_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB11_99
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB11_114
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB11_185
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_15:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_15
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_17:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_21
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_19:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_19
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_21:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_130
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_24
-
-LBB11_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB11_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB11_149
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB11_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB11_185
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_47:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_47
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_49:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_53
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB11_51:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB11_51
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB11_53:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_179
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_181
-
-LBB11_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB11_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB11_185
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_6:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_6
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_8:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB11_9
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
-	JB   LBB11_82
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB11_85
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB11_85
-
-LBB11_82:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_88:
-	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB11_89:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000a824940244                   // add    r10b, byte [rsp + 168]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB11_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	JMP  LBB11_91
-
-LBB11_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB11_132
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB11_185
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_31:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_31
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_33:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_37
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_35:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_35
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_37:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_147
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_40
-
-LBB11_99:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_103
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_101:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_101
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_103:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_107
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_105:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_105
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_107:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_112
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_110
-
-LBB11_114:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_118
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_116:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_116
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_118:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_122
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_120:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_120
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_122:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_128
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_125
-
-LBB11_149:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_153
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_151:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_151
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_153:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_157
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_155:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_155
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_157:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_162
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_160
-
-LBB11_164:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_168
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_166:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_166
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_168:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_172
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB11_170:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB11_170
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB11_172:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_177
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_175
-
-LBB11_56:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_58:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_58
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_60:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB11_61
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
-	JB   LBB11_63
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB11_66
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB11_66
-
-LBB11_63:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_69:
-	QUAD $0x0000018024b42b4c // sub    r14, qword [rsp + 384]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB11_70:
-	LONG $0x1f5f3a44                           // cmp    r11b, byte [rdi + 31]
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x1e5f3a44                           // cmp    r11b, byte [rdi + 30]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x1d5f3a44                           // cmp    r11b, byte [rdi + 29]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x1c5f3a44                           // cmp    r11b, byte [rdi + 28]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x1b5f3a44                           // cmp    r11b, byte [rdi + 27]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1a5f3a44                           // cmp    r11b, byte [rdi + 26]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x195f3a44                           // cmp    r11b, byte [rdi + 25]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x175f3a44                           // cmp    r11b, byte [rdi + 23]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x165f3a44                           // cmp    r11b, byte [rdi + 22]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x155f3a44                           // cmp    r11b, byte [rdi + 21]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x145f3a44                           // cmp    r11b, byte [rdi + 20]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x135f3a44                           // cmp    r11b, byte [rdi + 19]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x125f3a44                           // cmp    r11b, byte [rdi + 18]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x115f3a44                           // cmp    r11b, byte [rdi + 17]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x0f5f3a44                           // cmp    r11b, byte [rdi + 15]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0e5f3a44                           // cmp    r11b, byte [rdi + 14]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x0d5f3a44                           // cmp    r11b, byte [rdi + 13]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x0c5f3a44                           // cmp    r11b, byte [rdi + 12]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x0b5f3a44                           // cmp    r11b, byte [rdi + 11]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x0a5f3a44                           // cmp    r11b, byte [rdi + 10]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x09                   // cmp    al, byte [rdi + 9]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x07                   // cmp    al, byte [rdi + 7]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x06                   // cmp    al, byte [rdi + 6]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x05                   // cmp    al, byte [rdi + 5]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x04                   // cmp    al, byte [rdi + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x03                   // cmp    al, byte [rdi + 3]
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x02                   // cmp    al, byte [rdi + 2]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x073a                               // cmp    al, byte [rdi]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x01                   // cmp    al, byte [rdi + 1]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086f3a44                           // cmp    r13b, byte [rdi + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5f3a; BYTE $0x10                   // cmp    bl, byte [rdi + 16]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5f3a; BYTE $0x18                   // cmp    bl, byte [rdi + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000008024940244                   // add    r10b, byte [rsp + 128]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_70
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	JMP  LBB11_72
-
-LBB11_132:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_136
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_134:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_134
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_136:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_140
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_138:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_138
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_145
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_143
-
-LBB11_9:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_91:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB11_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_97
-
-LBB11_61:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
-
-LBB11_72:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB11_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB11_78
-
-LBB11_130:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_131:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_131
-
-LBB11_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_183
-
-LBB11_179:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_180:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_180
-
-LBB11_181:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB11_183
-
-LBB11_147:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_148:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_148
-
-LBB11_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_183
-
-LBB11_112:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_113:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_113
-
-LBB11_110:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB11_183
-
-LBB11_128:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_129:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_129
-
-LBB11_125:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB11_127
-
-LBB11_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_163:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_163
-
-LBB11_160:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_127
-
-LBB11_177:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_178:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_178
-
-LBB11_175:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-
-LBB11_183:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB11_184
-
-LBB11_145:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_146:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_146
-
-LBB11_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-
-LBB11_127:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB11_184:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB11_185:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB11_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_95:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x9d0f; BYTE $0xd0       // setge    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd19d0f41               // setge    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB11_95
-	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
-
-LBB11_97:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB11_80
-
-LBB11_75:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB11_76:
-	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
-	LONG $0x0f1c3a46               // cmp    r11b, byte [rdi + r9]
-	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff       // adc    bl, -1
-	WORD $0x894c; BYTE $0xce       // mov    rsi, r9
-	LONG $0x03eec148               // shr    rsi, 3
-	LONG $0x4cb60f45; WORD $0x0035 // movzx    r9d, byte [r13 + rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b2                   // mov    dl, 1
-	WORD $0xe2d2                   // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	WORD $0xda20                   // and    dl, bl
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	LONG $0x35548841; BYTE $0x00   // mov    byte [r13 + rsi], dl
-	LONG $0x075c3a44; BYTE $0x01   // cmp    r11b, byte [rdi + rax + 1]
-	LONG $0x02488d4c               // lea    r9, [rax + 2]
-	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff       // adc    bl, -1
-	WORD $0xd330                   // xor    bl, dl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0xd820                   // and    al, bl
-	WORD $0xd030                   // xor    al, dl
-	LONG $0x35448841; BYTE $0x00   // mov    byte [r13 + rsi], al
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JNE  LBB11_76
-	WORD $0x014c; BYTE $0xcf       // add    rdi, r9
-
-LBB11_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x3a44; BYTE $0x1f     // cmp    r11b, byte [rdi]
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB11_80:
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB11_185
-
-LBB11_85:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	QUAD $0x000001a024b4894c             // mov    qword [rsp + 416], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
-	WORD $0xdb31                         // xor    ebx, ebx
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB11_86:
-	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
-	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000001002494894c                   // mov    qword [rsp + 256], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
-	QUAD $0x000000f0248c894c                   // mov    qword [rsp + 240], r9
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
-	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x40cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 832
-	QUAD $0x0000008824a4894c                   // mov    qword [rsp + 136], r12
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
-	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
-	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 8
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r12], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
-	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
-	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
-	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
-	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
-	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
-	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
-	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
-	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
-	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
-	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
-	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
-	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
-	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
-	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
-	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
-	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
-	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
-	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
-	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
-	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
-	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
-	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
-	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
-	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
-	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
-	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
-	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
-	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
-	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
-	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
-	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
-	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
-	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
-	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
-	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
-	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
-	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
-	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
-	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
-	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
-	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
-	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
-	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
-	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
-	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
-	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
-	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
-	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
-	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
-	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
-	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
-	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
-	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
-	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
-	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
-	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
-	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
-	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
-	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
-	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
-	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
-	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
-	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
-	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
-	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
-	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
-	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
-	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
-	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
-	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
-	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
-	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
-	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
-	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
-	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
-	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
-	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
-	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
-	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
-	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
-	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
-	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
-	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
-	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
-	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
-	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
-	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
-	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
-	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
-	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
-	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
-	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
-	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
-	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
-	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
-	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
-	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
-	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
-	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
-	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
-	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
-	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
-	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
-	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
-	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
-	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
-	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
-	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
-	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
-	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
-	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
-	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
-	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
-	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
-	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
-	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
-	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
-	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
-	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
-	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
-	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
-	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
-	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
-	LONG $0xc26495c5                           // vpcmpgtb    ymm0, ymm13, ymm2
-	QUAD $0x0004c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1216]
-	LONG $0xfa64f5c5                           // vpcmpgtb    ymm7, ymm1, ymm2
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x000220249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 544]
-	LONG $0xfa64e5c5                           // vpcmpgtb    ymm7, ymm3, ymm2
-	LONG $0x6d6f7dc5; BYTE $0x20               // vmovdqa    ymm13, yword 32[rbp] /* [rip + .LCPI11_1] */
-	LONG $0xdf45c1c4; BYTE $0xfd               // vpandn    ymm7, ymm7, ymm13
-	QUAD $0x0001e0249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 480]
-	LONG $0xe26465c5                           // vpcmpgtb    ymm12, ymm3, ymm2
-	LONG $0x4d6f7dc5; BYTE $0x40               // vmovdqa    ymm9, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2640dc5                           // vpcmpgtb    ymm12, ymm14, ymm2
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI11_3] */
-	LONG $0xe4df1dc5                           // vpandn    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0x761d41c4; BYTE $0xe4               // vpcmpeqd    ymm12, ymm12, ymm12
-	LONG $0xf87dc1c4; BYTE $0xc4               // vpsubb    ymm0, ymm0, ymm12
-	LONG $0x763d41c4; BYTE $0xc0               // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa6485c5                           // vpcmpgtb    ymm7, ymm15, ymm2
-	QUAD $0x00000080b56ffdc5                   // vmovdqa    ymm6, yword 128[rbp] /* [rip + .LCPI11_4] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 448]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00020024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 512]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	QUAD $0x000000c08d6ffdc5                   // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
-	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
-	QUAD $0x00048024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1152]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1120]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00040024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1024]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xf9df05c5                           // vpandn    ymm15, ymm15, ymm1
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
-	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
-	QUAD $0x00038024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 896]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
-	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
-	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x00030024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 768]
-	LONG $0xfa6405c5                           // vpcmpgtb    ymm15, ymm15, ymm2
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
-	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
-	LONG $0xfe6f7dc5                           // vmovdqa    ymm15, ymm6
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	LONG $0xd2642dc5                           // vpcmpgtb    ymm10, ymm10, ymm2
-	LONG $0xd3df2dc5                           // vpandn    ymm10, ymm10, ymm3
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda6425c5                           // vpcmpgtb    ymm11, ymm11, ymm2
-	LONG $0xd9df25c5                           // vpandn    ymm11, ymm11, ymm1
-	LONG $0xf16f7dc5                           // vmovdqa    ymm14, ymm1
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
-	LONG $0xca6475c5                           // vpcmpgtb    ymm9, ymm1, ymm2
-	QUAD $0x000260248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 608]
-	LONG $0xc26475c5                           // vpcmpgtb    ymm8, ymm1, ymm2
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
-	LONG $0xea64f5c5                           // vpcmpgtb    ymm5, ymm1, ymm2
-	LONG $0xdf55c1c4; BYTE $0xed               // vpandn    ymm5, ymm5, ymm13
-	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
-	LONG $0xf264f5c5                           // vpcmpgtb    ymm6, ymm1, ymm2
-	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
-	LONG $0xda64f5c5                           // vpcmpgtb    ymm3, ymm1, ymm2
-	LONG $0xdcdfe5c5                           // vpandn    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000000e0adf8bdc5                   // vpsubb    ymm5, ymm8, yword 224[rbp] /* [rip + .LCPI11_7] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
-	LONG $0xe264f5c5                           // vpcmpgtb    ymm4, ymm1, ymm2
-	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
-	QUAD $0x000140248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 320]
-	LONG $0xca64f5c5                           // vpcmpgtb    ymm1, ymm1, ymm2
-	QUAD $0x000000a08ddff5c5                   // vpandn    ymm1, ymm1, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x00012024a46ffdc5; BYTE $0x00       // vmovdqa    ymm4, yword [rsp + 288]
-	LONG $0xd264ddc5                           // vpcmpgtb    ymm2, ymm4, ymm2
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB11_86
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001a024b43b4c                   // cmp    r14, qword [rsp + 416]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
-	QUAD $0x0000016824948b48                   // mov    rdx, qword [rsp + 360]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB11_88
-	JMP  LBB11_91
-
-LBB11_66:
-	LONG $0xe0e68349             // and    r14, -32
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	QUAD $0x0000016824848948     // mov    qword [rsp + 360], rax
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000017024848948     // mov    qword [rsp + 368], rax
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	WORD $0xdb31                 // xor    ebx, ebx
-	QUAD $0x0000011024bc894c     // mov    qword [rsp + 272], r15
-
-LBB11_67:
-	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0x20cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 544
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x60cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 608
-	QUAD $0x000000a8249c894c                   // mov    qword [rsp + 168], r11
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x80ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 640
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000000a02494894c                   // mov    qword [rsp + 160], r10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	QUAD $0x000000b8248c894c                   // mov    qword [rsp + 184], r9
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x60cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 864
-	QUAD $0x000000b024a4894c                   // mov    qword [rsp + 176], r12
-	WORD $0x8948; BYTE $0xde                   // mov    rsi, rbx
-	LONG $0x80ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 896
-	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0xa0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 928
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	LONG $0x206163c4; WORD $0x3a0c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + rdi], 1
-	LONG $0x2031a3c4; WORD $0x2a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + r13], 2
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 6
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 7
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r9], 10
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r12], 11
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 12
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 15
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 1
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 2
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 4
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rax], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + r10], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 14
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	LONG $0x2059a3c4; WORD $0x2a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + r13], 15
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 9
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x0a010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x0c010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 15
-	QUAD $0x010122742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r12 + 1], 1
-	QUAD $0x020132742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 1], 2
-	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
-	QUAD $0x040102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 5
-	QUAD $0x06011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 6
-	QUAD $0x070132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 1], 9
-	QUAD $0x0a0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 10
-	QUAD $0x0b0112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x01020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0202325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0302025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0602125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
-	QUAD $0x08022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0902025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 9
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0a02225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0e02025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f02025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 15
-	QUAD $0x0001c024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 448]
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 6
-	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0b0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 12
-	QUAD $0x0d021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 14
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0f021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 15
-	QUAD $0x01030a6c2021a3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + r9 + 3], 1
-	QUAD $0x0203326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0303326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 3
-	QUAD $0x04033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 4
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0503326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 5
-	QUAD $0x0603126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
-	QUAD $0x0a03226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 10
-	QUAD $0x0b032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 11
-	QUAD $0x0c031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 12
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x0d030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 13
-	QUAD $0x0e03026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 14
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0f03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01030a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rcx + 3], 1
-	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060322742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 3], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 7
-	QUAD $0x08033a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 3], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0001e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e03025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f030a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 3], 15
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x0104025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0204025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 2
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x03041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 3
-	QUAD $0x04043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 4
-	QUAD $0x0504325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x07041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 7
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0904025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 9
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x0a043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 10
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x0c042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0f04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 15
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x010412642001a3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + r10 + 4], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 5
-	QUAD $0x060422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07043a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 4], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 8
-	QUAD $0x090432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 9
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0a0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 12
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0d040a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 4], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 14
-	QUAD $0x0f040a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 4], 15
-	QUAD $0x0105026c2009a3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 2
-	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0505026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 5], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 6
-	QUAD $0x07051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x08051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
-	QUAD $0x0a053a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0c052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 12
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x0d051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 13
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0e051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 15
-	QUAD $0x010512742019a3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + r10 + 5], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 3
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x04051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 4
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x05051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x06051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 6
-	QUAD $0x07053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 9
-	QUAD $0x0a0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 10
-	QUAD $0x0b0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 11
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0c0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 12
-	QUAD $0x0d050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 13
-	QUAD $0x0e0532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 14
-	LONG $0x385d63c4; WORD $0x01f3             // vinserti128    ymm14, ymm4, xmm3, 1
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f0502642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rax + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76e79c5                           // vmovd    xmm12, edi
-	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
-	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x01063a6c2011a3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + r15 + 6], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0306026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
-	QUAD $0x0506026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 5
-	QUAD $0x06060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0806026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 8
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0906026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
-	QUAD $0x0c062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 12
-	QUAD $0x0d061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 13
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0e06126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 6], 14
-	QUAD $0x0f06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01061a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r11 + 6], 1
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x020632742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 6], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06063a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 6], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x090602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 10
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0b060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 11
-	QUAD $0x0c0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0d0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 14
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 15
-	QUAD $0x01073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x06073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 6
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 8
-	QUAD $0x090702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
-	QUAD $0x0c072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 13
-	QUAD $0x0e0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	QUAD $0x0207324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 2
-	QUAD $0x03071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
-	QUAD $0x0d07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 13
-	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
-	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e07026c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f07026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 7], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	QUAD $0x00048024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm2
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0108026c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rax + 8], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0208026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 3
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0408126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 8], 4
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
-	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 8
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0908026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 9
-	QUAD $0x0a08326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 10
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0b08026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 11
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0c081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 12
-	QUAD $0x0d082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 15
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x010832742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rsi + 8], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 2
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x030832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 3
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x04083a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 8], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05083a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 8], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x060832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x070832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 7
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x080832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0b0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 14
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0109327c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rsi + 9], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0209327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 2
-	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x0409127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 4
-	QUAD $0x05091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 5
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 7
-	QUAD $0x08090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 9], 11
-	QUAD $0x0c091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 14
-	QUAD $0x0f09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x01092a5c2021a3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + r13 + 9], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0309025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 3
-	QUAD $0x04093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 4
-	QUAD $0x05093a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0609025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 6
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x07091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0809025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0909025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
-	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x010a125c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r10 + 10], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x030a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x040a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 4
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x050a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 5
-	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x080a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 9
-	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b0a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 11
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0c0a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
-	QUAD $0x010a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x020a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x060a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 6
-	QUAD $0x070a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x090a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 3
-	QUAD $0x040b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 4
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 11
-	QUAD $0x0c0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0e0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 15
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
-	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x070b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 7
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x080b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 8
-	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
-	QUAD $0x0b0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x010c12542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r10 + 12], 1
-	QUAD $0x020c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 2
-	QUAD $0x030c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x040c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 4
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x050c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x060c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x070c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 9
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0a0c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 12], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 13
-	QUAD $0x0e0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 14
-	QUAD $0x0f0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 15
-	QUAD $0x010c1a642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rbx + 12], 1
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x020c3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 12], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x030c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 3
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
-	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x060c32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 12], 6
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x070c22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 12], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 8
-	QUAD $0x090c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a0c1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 12], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0b0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0c0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 12
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 14
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 4
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x070d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 7
-	QUAD $0x080d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x0f0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 15
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x010d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 1
-	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x050d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 5
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x070d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x090d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 9
-	QUAD $0x0a0d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0e0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 14
-	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
-	QUAD $0x0003e024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm2
-	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x010e32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 14], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x020e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x030e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x060e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 6
-	QUAD $0x070e0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 14], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 11
-	QUAD $0x0c0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d0e2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 14], 13
-	QUAD $0x0e0e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 14
-	QUAD $0x0f0e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 15
-	QUAD $0x010e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x040e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0c0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 14
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0f0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rcx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x020f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x030f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 3
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x040f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x050f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 5
-	QUAD $0x060f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 6
-	QUAD $0x070f0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 15], 7
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 11
-	QUAD $0x0c0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 12
-	QUAD $0x0d0f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 15
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	LONG $0x327cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rsi + 15]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 5
-	QUAD $0x060f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 15], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x080f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x090f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
-	QUAD $0x0c0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 12
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0d0f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 14
-	QUAD $0x0f0f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 15], 15
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
-	LONG $0x0a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rcx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
-	QUAD $0x0210124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
-	QUAD $0x08101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 9
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0a10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
-	QUAD $0x0c101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 12
-	QUAD $0x0d102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 15
-	LONG $0x327cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rsi + 16]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x04100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x06100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 6
-	QUAD $0x071002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x091032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 10
-	QUAD $0x0b103a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 16], 11
-	QUAD $0x0c1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 12
-	QUAD $0x0d100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 14
-	QUAD $0x0f1002542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 16], 15
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1102             // movzx    edi, byte [rdx + r8 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0111025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 1
-	QUAD $0x0211125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 2
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x03111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x04110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x01113a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 17], 1
-	QUAD $0x02111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 5
-	QUAD $0x06110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 6
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x071132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 8
-	QUAD $0x091132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b1122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 11
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0c112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 12
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0d1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f11324c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rsi + 17], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
-	LONG $0x7cb60f42; WORD $0x1202             // movzx    edi, byte [rdx + r8 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
-	QUAD $0x03121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 3
-	QUAD $0x04120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 4
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x05121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x06123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x021202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 2
-	QUAD $0x03121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x06121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 6
-	QUAD $0x071232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 7
-	QUAD $0x08120a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 18], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 10
-	QUAD $0x0b1222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 11
-	QUAD $0x0c122a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 18], 12
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0d1232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 13
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x0e1202542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 18], 14
-	QUAD $0x0f1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x03133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
-	QUAD $0x05131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x06133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 6
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 10
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0b130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x041322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 5
-	QUAD $0x06131a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 19], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 8
-	QUAD $0x091302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 9
-	QUAD $0x0a133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 12
-	QUAD $0x0d1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 13
-	QUAD $0x0e1302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
-	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0314124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0514324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 5
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0614024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 6
-	QUAD $0x07141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0814024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
-	QUAD $0x0b140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 12
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 14
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0f141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 3
-	QUAD $0x041422542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 20], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x081432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0f143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 15
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1522             // movzx    edi, byte [rdx + r12 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 2
-	QUAD $0x0315125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 3
-	QUAD $0x04153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 4
-	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
-	QUAD $0x0615025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 6
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x07152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 8
-	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a15325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	QUAD $0x0f151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 15
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
-	QUAD $0x02150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 2
-	QUAD $0x03150a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 21], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x051512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x071502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 7
-	QUAD $0x081532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 9
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a1502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 21], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 11
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0c1532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f150a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 21], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
-	LONG $0x7cb60f42; WORD $0x1622             // movzx    edi, byte [rdx + r12 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	QUAD $0x07162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
-	QUAD $0x0c161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 12
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x01161a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 22], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x03163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 3
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x04162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 4
-	QUAD $0x051612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x061622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1602542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 22], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 11
-	QUAD $0x0c1632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x0217025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0517125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 5
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x06171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 6
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0717325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 7
-	QUAD $0x08170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x0a170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0e17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 14
-	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rcx + 23]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x01171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 2
-	QUAD $0x03173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 3
-	QUAD $0x04172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
-	QUAD $0x061722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 6
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x07173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x091722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e173a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 23], 14
-	QUAD $0x0f1702642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 23], 15
-	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
-	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rax + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
-	QUAD $0x0218024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0418024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 4
-	QUAD $0x0518124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 5
-	QUAD $0x06181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 6
-	QUAD $0x0718324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 9
-	QUAD $0x0a180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 10
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x0b181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 4
-	QUAD $0x051832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x061832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 6
-	QUAD $0x07183a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 24], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x081832542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 24], 8
-	QUAD $0x091822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 9
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a1802542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 24], 10
-	QUAD $0x0b182a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 24], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c1832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 12
-	QUAD $0x0d180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 14
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0f1812542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 24], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 2
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 5
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 7
-	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 10
-	QUAD $0x0b191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 14
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0f191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rdi + 25]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x01191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x03193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 7
-	QUAD $0x081932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 8
-	QUAD $0x091922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 9
-	QUAD $0x0a1902642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 25], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 12
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0d1932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 14
-	LONG $0x386d63c4; WORD $0x01d1             // vinserti128    ymm10, ymm2, xmm1, 1
-	QUAD $0x0f19124c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r10 + 25], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0001a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x031a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x041a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x071a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x0a1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 10
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x0f1a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 15
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x011a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x021a02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 26], 2
-	QUAD $0x031a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 3
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x041a12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 26], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x051a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x061a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 6
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x071a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x081a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 10
-	QUAD $0x0b1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 13
-	QUAD $0x0e1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 14
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0f1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x011b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x021b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x031b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 3
-	QUAD $0x041b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x051b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x061b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x091b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 9
-	QUAD $0x0a1b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 12
-	QUAD $0x0d1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0f1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x011b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 1
-	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x031b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 3
-	QUAD $0x041b12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 27], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x051b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x061b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 6
-	QUAD $0x071b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 7
-	QUAD $0x081b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x091b22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 27], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a1b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1c02             // movzx    edi, byte [rdx + r8 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x011c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 1
-	QUAD $0x021c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x041c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 4
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x061c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x081c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 8
-	QUAD $0x091c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 13
-	QUAD $0x0e1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 15
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	LONG $0x1a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rbx + 28]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x021c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 6
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x071c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 28], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 8
-	QUAD $0x091c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 9
-	QUAD $0x0a1c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 28], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 14
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0f1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x021d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x041d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 4
-	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
-	QUAD $0x061d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x0c1d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 12
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x0d1d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 14
-	QUAD $0x0f1d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 15
-	LONG $0x1a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rbx + 29]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x011d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x031d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x041d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x061d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 6
-	QUAD $0x071d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 7
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x081d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 9
-	QUAD $0x0a1d3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 29], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
-	QUAD $0x0c1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
-	QUAD $0x0f1d224c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 1
-	QUAD $0x021e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 2
-	QUAD $0x021f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 31], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
-	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
-	QUAD $0x071f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 11
-	QUAD $0x0b1f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 31], 11
-	QUAD $0x0c1e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 12
-	QUAD $0x0c1f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 31], 12
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0d1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 13
-	QUAD $0x0d1f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 31], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rcx + 30]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
-	LONG $0x0a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rcx + 31]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x021e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 2
-	QUAD $0x021f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 3
-	QUAD $0x031f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 3
-	QUAD $0x041e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 4
-	QUAD $0x041f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
-	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x061e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 6
-	QUAD $0x061f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
-	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
-	QUAD $0x081e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 8
-	QUAD $0x081f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 9
-	QUAD $0x091f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
-	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
-	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
-	QUAD $0x0004c0248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1216]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	QUAD $0x0002202494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 544]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0xd7dbedc5                           // vpand    ymm2, ymm2, ymm7
-	LONG $0xc9f8edc5                           // vpsubb    ymm1, ymm2, ymm1
-	QUAD $0x0001e02494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 480]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI11_1] */
-	LONG $0xd2dbbdc5                           // vpand    ymm2, ymm8, ymm2
-	QUAD $0x0001c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 448]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xfddb05c5                           // vpand    ymm15, ymm15, ymm5
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xd0de8dc5                           // vpmaxub    ymm2, ymm14, ymm0
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI11_3] */
-	LONG $0xd6dbedc5                           // vpand    ymm2, ymm2, ymm6
-	QUAD $0x00020024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 512]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x000000809d6ffdc5                   // vmovdqa    ymm3, yword 128[rbp] /* [rip + .LCPI11_4] */
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	QUAD $0x0004a024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1184]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x000000a0a56ffdc5                   // vmovdqa    ymm4, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	QUAD $0x0004802494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 1152]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xd2dbb5c5                           // vpand    ymm2, ymm9, ymm2
-	LONG $0xd2ebf5c5                           // vpor    ymm2, ymm1, ymm2
-	QUAD $0x000460248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1120]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	QUAD $0x00044024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1088]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
-	LONG $0xc9f885c5                           // vpsubb    ymm1, ymm15, ymm1
-	QUAD $0x00042024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1056]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	QUAD $0x00040024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 1024]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf5db0dc5                           // vpand    ymm14, ymm14, ymm5
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x0003e024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 992]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	QUAD $0x0003c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 960]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x00038024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 896]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x0003a024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 928]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xdb0d41c4; BYTE $0xf1               // vpand    ymm14, ymm14, ymm9
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00036024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 864]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x00034024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 832]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
-	LONG $0xf80541c4; BYTE $0xf6               // vpsubb    ymm14, ymm15, ymm14
-	QUAD $0x00030024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 768]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	QUAD $0x00032024acde7dc5; BYTE $0x00       // vpmaxub    ymm13, ymm0, yword [rsp + 800]
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xeddb15c5                           // vpand    ymm13, ymm13, ymm5
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
-	QUAD $0x0002c024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	QUAD $0x0002e024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 736]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd8de25c5                           // vpmaxub    ymm11, ymm11, ymm0
-	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
-	LONG $0xdcdb25c5                           // vpand    ymm11, ymm11, ymm4
-	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
-	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
-	LONG $0xe0de1dc5                           // vpmaxub    ymm12, ymm12, ymm0
-	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
-	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
-	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xd0de2dc5                           // vpmaxub    ymm10, ymm10, ymm0
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	QUAD $0x0001a0248cde7dc5; BYTE $0x00       // vpmaxub    ymm9, ymm0, yword [rsp + 416]
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xcfdb35c5                           // vpand    ymm9, ymm9, ymm7
-	LONG $0xf83541c4; BYTE $0xca               // vpsubb    ymm9, ymm9, ymm10
-	QUAD $0x00024024bcdefdc5; BYTE $0x00       // vpmaxub    ymm7, ymm0, yword [rsp + 576]
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
-	QUAD $0x0002602484de7dc5; BYTE $0x00       // vpmaxub    ymm8, ymm0, yword [rsp + 608]
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xc5db3dc5                           // vpand    ymm8, ymm8, ymm5
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x00028024acdefdc5; BYTE $0x00       // vpmaxub    ymm5, ymm0, yword [rsp + 640]
-	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	QUAD $0x0002a024b4defdc5; BYTE $0x00       // vpmaxub    ymm6, ymm0, yword [rsp + 672]
-	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
-	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000140249cdefdc5; BYTE $0x00       // vpmaxub    ymm3, ymm0, yword [rsp + 320]
-	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
-	QUAD $0x00012024a4defdc5; BYTE $0x00       // vpmaxub    ymm4, ymm0, yword [rsp + 288]
-	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
-	LONG $0xe4db95c5                           // vpand    ymm4, ymm13, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
-	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
-	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
-	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
-	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
-	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
-	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
-	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
-	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
-	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
-	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
-	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f4c; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f6c; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm5
-	LONG $0x7f7ec1c4; WORD $0x8f1c             // vmovdqu    yword [r15 + 4*rcx], ymm3
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB11_67
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x0000018024b43b4c                   // cmp    r14, qword [rsp + 384]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
-	QUAD $0x0000016824bc8b48                   // mov    rdi, qword [rsp + 360]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB11_69
-	JMP  LBB11_72
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go b/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
deleted file mode 100644
index e7b4bce2362ba..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && (noasm || !amd64)
-
-package kernels
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-func genCompareKernel[T arrow.NumericType](op CompareOperator) *CompareData {
-	return genGoCompareKernel(getCmpOp[T](op))
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
deleted file mode 100644
index 7eea2dd1abb73..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _comparison_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
deleted file mode 100644
index 00fdac38de749..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
+++ /dev/null
@@ -1,58288 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_comparison_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_28
-	JMP  LBB0_123
-
-LBB0_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6940f41                           // sete    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4940f41                           // sete    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0940f41                           // sete    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_56
-	JMP  LBB0_123
-
-LBB0_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_14
-	JMP  LBB0_123
-
-LBB0_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_42
-	JMP  LBB0_123
-
-LBB0_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_78
-	JMP  LBB0_123
-
-LBB0_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_89
-	JMP  LBB0_123
-
-LBB0_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_111
-	JMP  LBB0_123
-
-LBB0_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_122
-	JMP  LBB0_123
-
-LBB0_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_67
-	JMP  LBB0_123
-
-LBB0_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_100
-
-LBB0_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA1<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA1<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA1<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA1<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA1<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA1<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA1<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA1<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA1<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA1<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA1<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA1<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA1<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0f8(SB)/8, $0x4040404040404040
-GLOBL LCDATA1<>(SB), 8, $256
-
-TEXT ·_comparison_equal_arr_scalar_sse4(SB), $344-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 320(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_100
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_123
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_202
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_15:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_15
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_17:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_21
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_19:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_19
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_21:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB1_23
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_147:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_147
-	JMP  LBB1_24
-
-LBB1_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_162
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_174
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_202
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_47:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_47
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_49:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_53
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-	QUAD $0x000000e0249c894c // mov    qword [rsp + 224], r11
-
-LBB1_51:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB1_51
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-
-LBB1_53:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_197
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_199
-
-LBB1_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_202
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_6:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_9
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
-	JB   LBB1_83
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB1_86
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_86
-
-LBB1_83:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
-	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
-
-LBB1_89:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB1_90:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x38244402                           // add    al, byte [rsp + 56]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_90
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB1_92
-
-LBB1_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_148
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_202
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_31:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_31
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_33:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_37
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_35:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_35
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_37:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB1_39
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_161:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_161
-	JMP  LBB1_40
-
-LBB1_56:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_58:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_58
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_60:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_61
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
-	JB   LBB1_63
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB1_66
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_66
-
-LBB1_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
-	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
-
-LBB1_69:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB1_70:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x38244402                           // add    al, byte [rsp + 56]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x50               // mov    qword [rsp + 80], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_70
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB1_72
-
-LBB1_148:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_152
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_150:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_150
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_152:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_156
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_154:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_154
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_156:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_158
-
-LBB1_23:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_24
-
-LBB1_100:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_104
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_102:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_102
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_104:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_105
-	LONG $0x08fb8349         // cmp    r11, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	JB   LBB1_107
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_110
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_110
-
-LBB1_107:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-
-LBB1_113:
-	LONG $0x245c2b4c; BYTE $0x10 // sub    r11, qword [rsp + 16]
-	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
-
-LBB1_114:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_114
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	JMP  LBB1_116
-
-LBB1_123:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_127
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_125:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_125
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_127:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_128
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	JB   LBB1_130
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_133
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_133
-
-LBB1_130:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB1_136:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	LONG $0x24742b4c; BYTE $0x10 // sub    r14, qword [rsp + 16]
-	QUAD $0x000000c024b4894c     // mov    qword [rsp + 192], r14
-
-LBB1_137:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_137
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB1_139
-
-LBB1_162:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_166
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_164:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_164
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_166:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_170
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_168:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_168
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_170:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_172
-
-LBB1_39:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_40
-
-LBB1_174:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_178
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_176:
-	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_176
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_178:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_179
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB1_181
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_184
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_184
-
-LBB1_181:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_187:
-	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
-	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
-	QUAD $0x000000e0249c894c     // mov    qword [rsp + 224], r11
-
-LBB1_188:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB1_188
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	JMP  LBB1_190
-
-LBB1_9:
-	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
-
-LBB1_92:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_95
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB1_98
-
-LBB1_61:
-	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
-
-LBB1_72:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB1_78
-
-LBB1_105:
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-
-LBB1_116:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_121
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB1_119
-
-LBB1_128:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB1_139:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_144
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB1_142
-
-LBB1_179:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB1_190:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_195
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB1_193
-
-LBB1_158:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_159:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_159
-
-LBB1_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB1_201
-
-LBB1_95:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x78 // mov    r14, qword [rsp + 120]
-
-LBB1_96:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB1_96
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB1_98:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x78 // mov    r8, qword [rsp + 120]
-	JMP  LBB1_80
-
-LBB1_75:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x50 // mov    r14, qword [rsp + 80]
-
-LBB1_76:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB1_76
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB1_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x50 // mov    r8, qword [rsp + 80]
-
-LBB1_80:
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041         // and    r9b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
-	JMP  LBB1_81
-
-LBB1_197:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_198:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_198
-
-LBB1_199:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB1_201
-
-LBB1_172:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_173:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_173
-
-LBB1_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB1_201:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_121:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB1_122:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB1_122
-
-LBB1_119:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68041             // and    r14b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-
-LBB1_81:
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_144:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB1_145:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB1_145
-
-LBB1_142:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x2e394466         // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_195:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB1_196:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_196
-
-LBB1_193:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB1_202:
-	MOVQ 320(SP), SP
-	RET
-
-LBB1_86:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x78         // mov    qword [rsp + 120], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 208], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_87:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	LONG $0x247c8948; BYTE $0x38               // mov    qword [rsp + 56], rdi
-	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x80cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 128
-	LONG $0xa0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0xe0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
-	LONG $0x40ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 320
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x020e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 2
-	LONG $0x245c894c; BYTE $0x68               // mov    qword [rsp + 104], r11
-	QUAD $0x031e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 3
-	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
-	QUAD $0x041e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 4
-	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
-	QUAD $0x05363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 5
-	QUAD $0x063e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 6
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x07163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 7
-	QUAD $0x08263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 8
-	QUAD $0x090e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 9
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0a2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 10
-	QUAD $0x0b163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 11
-	QUAD $0x0c063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 12
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0d0e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
-	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x01166c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r10 + 1], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 2
-	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
-	QUAD $0x04011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 4
-	QUAD $0x01366c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r14 + 1], 5
-	QUAD $0x013e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 1], 6
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	QUAD $0x07013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 7
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	QUAD $0x01266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 1], 8
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x09010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 9
-	QUAD $0x012e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r13 + 1], 10
-	QUAD $0x0b01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 11
-	QUAD $0x01066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 1], 12
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	QUAD $0x010e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 1], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x01266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 1], 14
-	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x020674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 2], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x022e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r13 + 2], 3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x04020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	QUAD $0x023e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 2], 6
-	QUAD $0x023674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r14 + 2], 7
-	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x023e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 2], 11
-	QUAD $0x021674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 2], 12
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x020e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 2], 13
-	QUAD $0x022674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 2], 14
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x020e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x030654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r8 + 3], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
-	QUAD $0x032e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r13 + 3], 3
-	QUAD $0x04030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 4
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x06030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
-	QUAD $0x09031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 9
-	QUAD $0x033654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 3], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x033e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 3], 11
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
-	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
-	QUAD $0x032654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 3], 14
-	QUAD $0x030e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 3], 15
-	QUAD $0x0104164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 1
-	QUAD $0x0204064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 2
-	QUAD $0x042e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r13 + 4], 3
-	QUAD $0x041e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 4], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
-	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
-	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
-	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
-	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0a040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 10
-	QUAD $0x04364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 4], 11
-	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
-	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	QUAD $0x04264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 4], 14
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x040e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r9 + 4], 15
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x3e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rdi + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x3e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rdi + 18]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x050e44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r9 + 5], 1
-	QUAD $0x050644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 5], 2
-	QUAD $0x052e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r13 + 5], 3
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
-	QUAD $0x051e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r11 + 5], 5
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x053e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 5], 6
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x050644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r8 + 5], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x051644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdx + 5], 8
-	QUAD $0x051e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 5], 9
-	QUAD $0x050e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rcx + 5], 10
-	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 5], 12
-	QUAD $0x053e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r15 + 5], 13
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x051644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r10 + 5], 14
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x0e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rcx + 20]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x060e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 6], 1
-	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
-	QUAD $0x062e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 6], 3
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x063e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 6], 5
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	QUAD $0x06063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 6
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x06065c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r8 + 6], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0806165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 8
-	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x06065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 6], 10
-	QUAD $0x06365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 6], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0c06065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 12
-	QUAD $0x06265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 6], 13
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 14
-	QUAD $0x06165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 6], 15
-	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
-	QUAD $0x070e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r9 + 7], 1
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x072654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r12 + 7], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x03071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 3
-	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x073e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 7], 5
-	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
-	QUAD $0x07073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 7
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x071654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
-	QUAD $0x070654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r8 + 7], 10
-	QUAD $0x073654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 7], 11
-	QUAD $0x0c070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x072e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 7], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 14
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x070e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 9], 1
-	QUAD $0x092654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 9], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x090654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 9], 3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x090e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 9], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x093e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 9], 5
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x092654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 9], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x090654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rax + 9], 7
-	QUAD $0x091654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r10 + 9], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x090654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x090654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 9], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdx + 9], 11
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 9], 12
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x092e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 9], 13
-	QUAD $0x093e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 9], 14
-	QUAD $0x090e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000e0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x081e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 8], 1
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
-	QUAD $0x04080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 4
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x083e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 8], 5
-	QUAD $0x082664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 8], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x083e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 8], 7
-	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x09081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 9
-	QUAD $0x0a080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 11
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x083664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 8], 12
-	QUAD $0x081664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 8], 13
-	QUAD $0x0e083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00c024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 192]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
-	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
-	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0a0e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 10], 4
-	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a0e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 10], 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x0a3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 10], 7
-	QUAD $0x0a1e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 10], 8
-	QUAD $0x0a1654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdx + 10], 9
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdx + 10], 10
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
-	QUAD $0x0a3654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 10], 12
-	QUAD $0x0a1654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 10], 13
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
-	QUAD $0x0a0654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00c024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm10
-	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r11 + 11], 1
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
-	QUAD $0x0b265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 11], 3
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b065c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rax + 11], 4
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 11], 6
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x0b065c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r8 + 11], 7
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 11], 8
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 11], 9
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 11], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
-	QUAD $0x0b165c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r10 + 11], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x0b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 11], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0b165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 11], 15
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r11 + 12], 1
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r13 + 12], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rbx + 12], 3
-	QUAD $0x0c066c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0c066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 12], 5
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
-	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 12], 10
-	QUAD $0x0c366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 12], 11
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
-	QUAD $0x0c166c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r10 + 12], 13
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	QUAD $0x0c266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 12], 14
-	QUAD $0x0c166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 12], 15
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0d1664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r10 + 13], 1
-	QUAD $0x0d2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 13], 2
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0d2e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r13 + 13], 3
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0d1e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rbx + 13], 4
-	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
-	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
-	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
-	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
-	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0d1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 13], 10
-	QUAD $0x0d3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 13], 11
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
-	QUAD $0x0d1e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r11 + 13], 13
-	QUAD $0x0d2664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 13], 14
-	QUAD $0x0d1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
-	QUAD $0x0e1664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 14], 1
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0e2e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r13 + 14], 3
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	QUAD $0x070e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 7
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
-	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
-	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
-	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
-	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
-	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
-	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
-	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
-	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
-	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
-	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
-	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
-	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
-	QUAD $0x00c024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 192]
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x00d024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00c024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm13
-	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
-	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
-	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
-	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
-	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
-	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
-	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
-	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
-	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
-	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
-	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
-	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
-	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
-	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
-	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
-	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
-	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
-	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
-	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
-	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
-	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
-	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
-	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
-	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
-	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
-	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
-	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
-	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
-	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
-	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
-	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
-	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
-	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
-	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
-	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
-	QUAD $0x0000c024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 192]
-	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
-	QUAD $0x00d024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
-	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
-	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
-	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
-	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
-	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
-	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
-	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
-	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
-	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
-	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
-	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
-	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
-	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
-	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
-	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
-	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
-	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
-	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
-	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
-	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
-	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
-	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
-	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
-	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
-	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
-	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
-	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
-	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
-	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
-	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
-	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
-	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
-	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
-	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
-	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
-	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
-	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
-	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
-	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
-	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
-	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
-	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
-	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
-	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
-	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
-	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
-	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
-	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
-	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
-	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
-	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
-	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
-	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
-	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
-	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
-	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
-	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
-	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
-	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
-	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
-	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
-	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000e024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 224]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
-	JNE  LBB1_87
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB1_89
-	JMP  LBB1_92
-
-LBB1_66:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x50         // mov    qword [rsp + 80], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_67:
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	LONG $0x14b60f42; BYTE $0x3e               // movzx    edx, byte [rsi + r15]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x54b60f42; WORD $0x013e             // movzx    edx, byte [rsi + r15 + 1]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x54b60f42; WORD $0x023e             // movzx    edx, byte [rsi + r15 + 2]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x54b60f42; WORD $0x033e             // movzx    edx, byte [rsi + r15 + 3]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b60f42; WORD $0x043e             // movzx    edx, byte [rsi + r15 + 4]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x54b60f42; WORD $0x053e             // movzx    edx, byte [rsi + r15 + 5]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x54b60f42; WORD $0x063e             // movzx    edx, byte [rsi + r15 + 6]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b60f42; WORD $0x073e             // movzx    edx, byte [rsi + r15 + 7]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x54b60f42; WORD $0x083e             // movzx    edx, byte [rsi + r15 + 8]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
-	LONG $0x54b60f42; WORD $0x093e             // movzx    edx, byte [rsi + r15 + 9]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x54b60f42; WORD $0x0a3e             // movzx    edx, byte [rsi + r15 + 10]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x54b60f42; WORD $0x0b3e             // movzx    edx, byte [rsi + r15 + 11]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	LONG $0x54b60f42; WORD $0x0c3e             // movzx    edx, byte [rsi + r15 + 12]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	LONG $0x54b60f42; WORD $0x0d3e             // movzx    edx, byte [rsi + r15 + 13]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	LONG $0x54b60f42; WORD $0x0e3e             // movzx    edx, byte [rsi + r15 + 14]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	LONG $0x40cf8348                           // or    rdi, 64
-	LONG $0x60c98348                           // or    rcx, 96
-	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
-	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
-	LONG $0xa0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 160
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 288
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	LONG $0x80ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 384
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x023e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdi], 2
-	QUAD $0x030e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 3
-	QUAD $0x04163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 4
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	QUAD $0x05063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 5
-	LONG $0x2464894c; BYTE $0x68               // mov    qword [rsp + 104], r12
-	QUAD $0x06263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x070e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 7
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x245c894c; BYTE $0x10               // mov    qword [rsp + 16], r11
-	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
-	LONG $0x245c8948; BYTE $0x40               // mov    qword [rsp + 64], rbx
-	QUAD $0x091e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 9
-	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
-	QUAD $0x0a363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 10
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0b2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 11
-	QUAD $0x0c163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
-	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
-	QUAD $0x02013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
-	QUAD $0x01166c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r10 + 1], 4
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	QUAD $0x013e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 1], 5
-	QUAD $0x01266c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r12 + 1], 6
-	QUAD $0x01066c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r8 + 1], 7
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x010e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 1], 8
-	QUAD $0x09011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 9
-	QUAD $0x01366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 1], 10
-	QUAD $0x012e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 1], 11
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0c01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 13
-	QUAD $0x0e010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 14
-	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x01021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 1
-	QUAD $0x02023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 2
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	QUAD $0x021e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 2], 3
-	QUAD $0x021674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r10 + 2], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 5
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x021e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 2], 6
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	QUAD $0x023e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 2], 7
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x022e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r13 + 2], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x023674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x020e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 2], 10
-	QUAD $0x020674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r8 + 2], 11
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0c021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 12
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x021674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 2], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x01031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 1
-	QUAD $0x02033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 2
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x032654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r12 + 3], 3
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x032654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r12 + 3], 4
-	QUAD $0x05030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 5
-	QUAD $0x031e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 3], 6
-	QUAD $0x033e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 3], 7
-	QUAD $0x032e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r13 + 3], 8
-	QUAD $0x033654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r14 + 3], 9
-	QUAD $0x030e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 3], 10
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	QUAD $0x030654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r8 + 3], 11
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
-	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x032e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 3], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 15
-	QUAD $0x01041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 1
-	QUAD $0x02043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 2
-	QUAD $0x0304064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 3
-	QUAD $0x04264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 4], 4
-	QUAD $0x05040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x041e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 4], 6
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x041e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 4], 7
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x040e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r9 + 4], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
-	QUAD $0x04364c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r14 + 4], 10
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x04064c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r8 + 4], 11
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
-	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
-	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
-	QUAD $0x0f04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 15
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rbx + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x1e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rbx + 18]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x050644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r8 + 5], 1
-	QUAD $0x053e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 5], 2
-	QUAD $0x050644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 5], 3
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x051644203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdx + 5], 5
-	QUAD $0x050e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 5], 6
-	QUAD $0x051e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 5], 7
-	QUAD $0x050e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r9 + 5], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 5], 9
-	QUAD $0x052644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 5], 10
-	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
-	QUAD $0x053e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 5], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 5], 13
-	QUAD $0x052e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 5], 14
-	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x1e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rbx + 19]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x1e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rbx + 20]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x06065c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r8 + 6], 1
-	QUAD $0x02063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 2
-	QUAD $0x0306065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x060e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 6], 5
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x06065c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r8 + 6], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x06265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 6], 7
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0806065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x06365c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r14 + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 11
-	QUAD $0x063e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 6], 12
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x06165c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r10 + 6], 13
-	QUAD $0x062e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 6], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x01071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 1
-	QUAD $0x02073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 2
-	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 3
-	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x070e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r9 + 7], 5
-	QUAD $0x070654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 7], 6
-	QUAD $0x072654203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r12 + 7], 7
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x08070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 8
-	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
-	QUAD $0x073654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 7], 10
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 11
-	QUAD $0x073e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 7], 12
-	QUAD $0x071654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 7], 13
-	QUAD $0x072e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 7], 14
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x091654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 9], 1
-	QUAD $0x093e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 9], 2
-	QUAD $0x090e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 9], 3
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x093e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 9], 4
-	QUAD $0x090e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 9], 5
-	QUAD $0x090654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 9], 6
-	QUAD $0x091e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 9], 7
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x090e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 9], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x090e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 9], 9
-	QUAD $0x092654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r12 + 9], 10
-	QUAD $0x090654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rax + 9], 11
-	QUAD $0x093e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 9], 12
-	QUAD $0x091654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 9], 13
-	QUAD $0x092e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 9], 14
-	QUAD $0x093654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r14 + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x081664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 8], 1
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x082664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 8], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x03080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 3
-	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
-	QUAD $0x080e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r9 + 8], 5
-	QUAD $0x080664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r8 + 8], 6
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	QUAD $0x081e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 8], 7
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x08081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 8
-	QUAD $0x09080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x083664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 8], 11
-	QUAD $0x083e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 8], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 13
-	QUAD $0x082e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 8], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	QUAD $0x0a1654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r10 + 10], 1
-	QUAD $0x0a2654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 10], 2
-	QUAD $0x0a0654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 10], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 10], 4
-	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
-	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
-	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x0a1654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 10], 8
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0a0654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r8 + 10], 9
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rcx + 10], 10
-	QUAD $0x0a3654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 10], 11
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 10], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdx + 10], 14
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
-	QUAD $0x0b265c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r12 + 11], 2
-	QUAD $0x0b065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 11], 3
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 11], 4
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 11], 6
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0b165c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r10 + 11], 7
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0b165c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r10 + 11], 8
-	QUAD $0x0b065c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r8 + 11], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 11], 10
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r13 + 11], 11
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rcx + 11], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 11], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 11], 15
-	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
-	QUAD $0x0c266c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r12 + 12], 2
-	QUAD $0x0c066c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rax + 12], 3
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 12], 4
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 12], 6
-	QUAD $0x0c366c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r14 + 12], 7
-	QUAD $0x0c166c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r10 + 12], 8
-	QUAD $0x0c066c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r8 + 12], 9
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 12], 10
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 12], 11
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 12], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 12], 15
-	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
-	QUAD $0x0d2664203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r12 + 13], 2
-	QUAD $0x0d0664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 13], 3
-	QUAD $0x0d1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 13], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0d1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 13], 6
-	QUAD $0x0d3664203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r14 + 13], 7
-	QUAD $0x0d1664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r10 + 13], 8
-	QUAD $0x0d1e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rbx + 13], 9
-	QUAD $0x0d0664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r8 + 13], 10
-	QUAD $0x0d2e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r13 + 13], 11
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
-	QUAD $0x0d0e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rcx + 13], 13
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x0d0e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r9 + 13], 14
-	QUAD $0x0d3e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x010e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 1
-	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0e1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 14], 3
-	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
-	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0e3664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r14 + 14], 7
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
-	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
-	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
-	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
-	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
-	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
-	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
-	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
-	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
-	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
-	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
-	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
-	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
-	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
-	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
-	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
-	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
-	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
-	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
-	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
-	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
-	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
-	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
-	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
-	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
-	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
-	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
-	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
-	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
-	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
-	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
-	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
-	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
-	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
-	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
-	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
-	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
-	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
-	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
-	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
-	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
-	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
-	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
-	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
-	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
-	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
-	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
-	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
-	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
-	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
-	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
-	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
-	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
-	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
-	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
-	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
-	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
-	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
-	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
-	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
-	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
-	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
-	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
-	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
-	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
-	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
-	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
-	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
-	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
-	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
-	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
-	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
-	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
-	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
-	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
-	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
-	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
-	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
-	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
-	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
-	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
-	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
-	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
-	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
-	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
-	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
-	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
-	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
-	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
-	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
-	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
-	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
-	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
-	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
-	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
-	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
-	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
-	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
-	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
-	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
-	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
-	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
-	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
-	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
-	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
-	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
-	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
-	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
-	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
-	JNE  LBB1_67
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB1_69
-	JMP  LBB1_72
-
-LBB1_110:
-	LONG $0xf8e38349                     // and    r11, -8
-	WORD $0x894c; BYTE $0xd8             // mov    rax, r11
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x245c894c; BYTE $0x10         // mov    qword [rsp + 16], r11
-	LONG $0x9e048d4b                     // lea    rax, [r14 + 4*r11]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_111:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
-	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x30244489                           // mov    dword [rsp + 48], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x18245489                           // mov    dword [rsp + 24], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
-	JNE  LBB1_111
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	LONG $0x245c3b4c; BYTE $0x10               // cmp    r11, qword [rsp + 16]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB1_113
-	JMP  LBB1_116
-
-LBB1_133:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x247c894c; BYTE $0x10         // mov    qword [rsp + 16], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_134:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
-	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x30244489                           // mov    dword [rsp + 48], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x18245489                           // mov    dword [rsp + 24], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
-	JNE  LBB1_134
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x247c3b4c; BYTE $0x10               // cmp    r15, qword [rsp + 16]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB1_136
-	JMP  LBB1_139
-
-LBB1_184:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI1_7] */
-
-LBB1_185:
-	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
-	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
-	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
-	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
-	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
-	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
-	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
-	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
-	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
-	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
-	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
-	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
-	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
-	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
-	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
-	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
-	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
-	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
-	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
-	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
-	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
-	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
-	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
-	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
-	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
-	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
-	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
-	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
-	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
-	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
-	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
-	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
-	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
-	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
-	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
-	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
-	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
-	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
-	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
-	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
-	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
-	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
-	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
-	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
-	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
-	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
-	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
-	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
-	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
-	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
-	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
-	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
-	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
-	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
-	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
-	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
-	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
-	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
-	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
-	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
-	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
-	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
-	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
-	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
-	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
-	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
-	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
-	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
-	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
-	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
-	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
-	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
-	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB1_185
-	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
-	JNE  LBB1_187
-	JMP  LBB1_190
-
-DATA LCDATA2<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA2<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA2<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA2<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA2<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA2<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA2<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA2<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA2<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA2<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA2<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA2<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA2<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA2<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA2<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0f8(SB)/8, $0x4040404040404040
-GLOBL LCDATA2<>(SB), 8, $256
-
-TEXT ·_comparison_equal_scalar_arr_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0x240c8948         // mov    qword [rsp], rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_83
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_176
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_7:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_7
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_13
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_11:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_11
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB2_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_16:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_16
-	JMP  LBB2_152
-
-LBB2_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_107
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_118
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_176
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_23:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_23
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_25:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_29
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
-
-LBB2_27:
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x24048b4c                           // mov    r8, qword [rsp]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc3                   // mov    r11d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x30                   // mov    byte [r8], r14b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x01488841                           // mov    byte [r8 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02788845                           // mov    byte [r8 + 2], r15b
-	LONG $0x03588841                           // mov    byte [r8 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c08349                           // add    r8, 4
-	LONG $0x2404894c                           // mov    qword [rsp], r8
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB2_27
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB2_29:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_161
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_163
-
-LBB2_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_176
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_36:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_36
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_38:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_130
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
-	JB   LBB2_42
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	LONG $0x24043948             // cmp    qword [rsp], rax
-	JAE  LBB2_185
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_185
-
-LBB2_42:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-
-LBB2_43:
-	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB2_44:
-	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
-	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
-	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
-	LONG $0xd5940f41                     // sete    r13b
-	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
-	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
-	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
-	LONG $0xd6940f40                     // sete    sil
-	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
-	LONG $0xd0940f41                     // sete    r8b
-	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
-	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
-	LONG $0x2414940f                     // sete    byte [rsp]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e5c041                     // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	LONG $0x02e3c041                     // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
-	LONG $0x03e7c041                     // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x04e6c041                     // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
-	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
-	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0             // or    al, r12b
-	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
-	WORD $0xdb00                         // add    bl, bl
-	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
-	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda             // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                         // add    al, al
-	LONG $0x38244402                     // add    al, byte [rsp + 56]
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd808                         // or    al, bl
-	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
-	WORD $0xda08                         // or    dl, bl
-	WORD $0xc208                         // or    dl, al
-	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                     // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
-	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
-	JNE  LBB2_44
-	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	JMP  LBB2_131
-
-LBB2_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_72
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_176
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_50:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_50
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_52:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_56
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_54:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_54
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_56:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB2_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_59:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_59
-	JMP  LBB2_167
-
-LBB2_60:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_62:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_62
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_64:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_134
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
-	JB   LBB2_68
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	LONG $0x24043948             // cmp    qword [rsp], rax
-	JAE  LBB2_188
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_188
-
-LBB2_68:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-
-LBB2_69:
-	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB2_70:
-	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
-	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
-	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
-	LONG $0xd5940f41                     // sete    r13b
-	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
-	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
-	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
-	LONG $0xd6940f40                     // sete    sil
-	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
-	LONG $0xd0940f41                     // sete    r8b
-	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
-	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
-	LONG $0x2414940f                     // sete    byte [rsp]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e5c041                     // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	LONG $0x02e3c041                     // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
-	LONG $0x03e7c041                     // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x04e6c041                     // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
-	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
-	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0             // or    al, r12b
-	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
-	WORD $0xdb00                         // add    bl, bl
-	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
-	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda             // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                         // add    al, al
-	LONG $0x38244402                     // add    al, byte [rsp + 56]
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd808                         // or    al, bl
-	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
-	WORD $0xda08                         // or    dl, bl
-	WORD $0xc208                         // or    dl, al
-	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                     // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
-	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
-	JNE  LBB2_70
-	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	JMP  LBB2_135
-
-LBB2_72:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_74:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_74
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_76:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_80
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_78:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_78
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_80:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB2_150
-
-LBB2_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_152
-
-LBB2_83:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_85:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_85
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_87:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_138
-	LONG $0x08fe8349         // cmp    r14, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-	JB   LBB2_91
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_191
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_191
-
-LBB2_91:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
-
-LBB2_92:
-	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
-	QUAD $0x0000008824b4894c     // mov    qword [rsp + 136], r14
-
-LBB2_93:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
-	LONG $0x2414940f                           // sete    byte [rsp]
-	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e1c041                           // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_93
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	JMP  LBB2_139
-
-LBB2_95:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_97:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_97
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_99:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_142
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	JB   LBB2_103
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_194
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb8048d4a         // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_194
-
-LBB2_103:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24348b4c             // mov    r14, qword [rsp]
-
-LBB2_104:
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-	LONG $0x247c2b4c; BYTE $0x20 // sub    r15, qword [rsp + 32]
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-
-LBB2_105:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
-	LONG $0x2414940f                           // sete    byte [rsp]
-	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e1c041                           // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_105
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	JMP  LBB2_143
-
-LBB2_107:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_111
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_109:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_109
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_111:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_115
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_113:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_113
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_115:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB2_165
-
-LBB2_117:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_167
-
-LBB2_118:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_122
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_120:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_120
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_122:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_146
-	LONG $0x04fe8349         // cmp    r14, 4
-	JB   LBB2_126
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_197
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_197
-
-LBB2_126:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_127:
-	LONG $0x241c894c         // mov    qword [rsp], r11
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	WORD $0x294d; BYTE $0xc6 // sub    r14, r8
-	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
-
-LBB2_128:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB2_128
-	LONG $0x241c8b4c                           // mov    r11, qword [rsp]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	JMP  LBB2_147
-
-LBB2_130:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_131:
-	LONG $0x05e7c149             // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7     // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0     // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8     // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7     // not    r15
-	WORD $0x014d; BYTE $0xd7     // add    r15, r10
-	JE   LBB2_137
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
-
-LBB2_155:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB2_155
-	JMP  LBB2_158
-
-LBB2_134:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_135:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_156
-
-LBB2_137:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	JMP  LBB2_160
-
-LBB2_138:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_139:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_170
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB2_172
-
-LBB2_142:
-	LONG $0x24348b4c         // mov    r14, qword [rsp]
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-
-LBB2_143:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_177
-	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
-	JMP  LBB2_179
-
-LBB2_146:
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB2_147:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_181
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB2_183
-
-LBB2_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_151:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_151
-
-LBB2_152:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-	JMP  LBB2_169
-
-LBB2_156:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
-
-LBB2_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB2_157
-
-LBB2_158:
-	WORD $0x014c; BYTE $0xce // add    rsi, r9
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-
-LBB2_160:
-	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	JMP  LBB2_174
-
-LBB2_161:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_162:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_162
-
-LBB2_163:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
-	JMP  LBB2_169
-
-LBB2_165:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_166:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_166
-
-LBB2_167:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-
-LBB2_169:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x24048b4c         // mov    r8, qword [rsp]
-	LONG $0x10348a41         // mov    sil, byte [r8 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	JMP  LBB2_175
-
-LBB2_170:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB2_171:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB2_171
-
-LBB2_172:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68041             // and    r14b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-
-LBB2_174:
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-
-LBB2_175:
-	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
-
-LBB2_176:
-	MOVQ 304(SP), SP
-	RET
-
-LBB2_177:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
-
-LBB2_178:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3e // movzx    r10d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xf9     // mov    ecx, r15d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c78349             // add    r15, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xf9     // cmp    r9, r15
-	JNE  LBB2_178
-
-LBB2_179:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xfa // mov    rdx, r15
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x163c8a41         // mov    dil, byte [r14 + rdx]
-	LONG $0x07e78041         // and    r15b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf9 // mov    ecx, r15d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB2_176
-
-LBB2_181:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB2_182:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_182
-
-LBB2_183:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-	JMP  LBB2_176
-
-LBB2_185:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB2_186:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	LONG $0x3a0cb60f                           // movzx    ecx, byte [rdx + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3a4cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3a4cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3a4cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3a4cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3a4cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3a4cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3a4cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x3a4cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x3a4cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3a4cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x3a4cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3a4cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3a4cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3a4cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	LONG $0x40ce8348                           // or    rsi, 64
-	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x60c98348                           // or    rcx, 96
-	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
-	LONG $0xa0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 160
-	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
-	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x012a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 1
-	QUAD $0x02323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 2
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	QUAD $0x030a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 3
-	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
-	QUAD $0x04323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 4
-	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
-	QUAD $0x053a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 5
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x06123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 6
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	LONG $0x245c894c; BYTE $0x58               // mov    qword [rsp + 88], r11
-	QUAD $0x071a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 7
-	QUAD $0x08223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 8
-	QUAD $0x090a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 9
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0a2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 10
-	QUAD $0x0b1a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 11
-	QUAD $0x0c023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 14
-	QUAD $0x0f023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x011a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r11 + 1], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0201326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 2
-	QUAD $0x03010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 3
-	QUAD $0x01326c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r14 + 1], 4
-	QUAD $0x013a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r15 + 1], 5
-	QUAD $0x06013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 6
-	QUAD $0x01126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 1], 7
-	QUAD $0x01226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 1], 8
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x000000c024a4894c                   // mov    qword [rsp + 192], r12
-	QUAD $0x010a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 1], 9
-	QUAD $0x012a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r13 + 1], 10
-	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
-	QUAD $0x0b011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 11
-	QUAD $0x01026c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r8 + 1], 12
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 1], 13
-	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
-	QUAD $0x011a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r11 + 1], 14
-	QUAD $0x0f01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x0f22             // movzx    esi, byte [rdx + r12 + 15]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x020274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 2], 1
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x021274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r10 + 2], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x03020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 3
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x04021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 4
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x05023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 5
-	QUAD $0x06023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 6
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x07023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 7
-	QUAD $0x023274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x022a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r13 + 2], 9
-	QUAD $0x023a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r15 + 2], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x023274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 2], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
-	QUAD $0x020a74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r9 + 2], 13
-	QUAD $0x021a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r11 + 2], 14
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0f020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	QUAD $0x030254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 3], 1
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x031254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 3], 2
-	QUAD $0x03030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 3
-	QUAD $0x04031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 5
-	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
-	QUAD $0x06033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 6
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x030254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 3], 7
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x031254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 3], 8
-	QUAD $0x032a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r13 + 3], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 10
-	QUAD $0x033254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 3], 11
-	QUAD $0x033a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 3], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
-	QUAD $0x031a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r11 + 3], 14
-	QUAD $0x030a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 3], 15
-	QUAD $0x0104324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 1
-	QUAD $0x0204024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0304324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 3
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0404324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 4
-	QUAD $0x05040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 5
-	QUAD $0x06043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 6
-	QUAD $0x04024c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r8 + 4], 7
-	QUAD $0x04124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 4], 8
-	QUAD $0x042a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r13 + 4], 9
-	QUAD $0x0a041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 10
-	QUAD $0x04324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 4], 11
-	QUAD $0x043a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 4], 12
-	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
-	QUAD $0x041a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 4], 14
-	QUAD $0x040a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 4], 15
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x110a             // movzx    esi, byte [rdx + r9 + 17]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
-	QUAD $0x050244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 5], 2
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x051a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 5], 3
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 5], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x053a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 5], 5
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x050244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r8 + 5], 6
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x051244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 5], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x051a44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rbx + 5], 8
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x053244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r14 + 5], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x053244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rsi + 5], 14
-	QUAD $0x050a44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rcx + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x74b60f42; WORD $0x140a             // movzx    esi, byte [rdx + r9 + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x060a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r9 + 6], 2
-	QUAD $0x061a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 6], 3
-	QUAD $0x0406025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 4
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	QUAD $0x05063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 5
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x06025c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r8 + 6], 6
-	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x08061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 8
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0906025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 9
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x06325c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r14 + 6], 10
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	QUAD $0x063a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r15 + 6], 11
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x06325c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r14 + 6], 14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x06025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
-	QUAD $0x070a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r9 + 7], 2
-	QUAD $0x071a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 7], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x070a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 7], 4
-	QUAD $0x05070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 6
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x07070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x071254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 9
-	QUAD $0x0a071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 10
-	QUAD $0x0b073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 11
-	QUAD $0x073a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 7], 12
-	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x073254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r14 + 7], 14
-	QUAD $0x070254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x090a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rcx + 9], 1
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 9], 2
-	QUAD $0x092a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r13 + 9], 3
-	QUAD $0x090a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 9], 4
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x092a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 9], 5
-	QUAD $0x093a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 9], 6
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x090254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 9], 7
-	QUAD $0x091254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 9], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
-	QUAD $0x091a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 9], 10
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x091254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x091a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 9], 12
-	QUAD $0x093a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r15 + 9], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rdi + 9], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x093254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
-	QUAD $0x01080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 1
-	QUAD $0x081a64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r11 + 8], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x03080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 3
-	QUAD $0x080a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 8], 4
-	QUAD $0x082a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 8], 5
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x083a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 8], 6
-	QUAD $0x080264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 8], 7
-	QUAD $0x083264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r14 + 8], 8
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x09083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 9
-	QUAD $0x082264203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r12 + 8], 10
-	QUAD $0x081264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r10 + 8], 11
-	QUAD $0x0c081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0d081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 13
-	QUAD $0x0e083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 14
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0a3a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rdi + 10], 1
-	QUAD $0x0a1a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 10], 2
-	QUAD $0x0a0254203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rax + 10], 3
-	QUAD $0x0a0a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 10], 4
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x0a2a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 10], 5
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x0a3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 10], 6
-	QUAD $0x0a0254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 10], 7
-	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
-	QUAD $0x0a3254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 10], 9
-	QUAD $0x0a2254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r12 + 10], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0a3254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 10], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0a3a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 10], 12
-	QUAD $0x0a1a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rbx + 10], 13
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
-	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rdi + 11], 1
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rcx + 11], 3
-	QUAD $0x0b025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 11], 4
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 11], 5
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r9 + 11], 6
-	QUAD $0x0b025c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r8 + 11], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 11], 8
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 11], 9
-	QUAD $0x0b225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 11], 10
-	QUAD $0x0b325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 11], 11
-	QUAD $0x0b3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 11], 12
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rbx + 11], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0b325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 11], 15
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r13 + 12], 1
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rbx + 12], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rbx + 12], 3
-	QUAD $0x0c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 12], 4
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 12], 5
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 12], 6
-	QUAD $0x0c026c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r8 + 12], 7
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 12], 8
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 12], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
-	QUAD $0x0c326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 12], 11
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 12], 12
-	QUAD $0x0c126c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r10 + 12], 13
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0c226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 12], 14
-	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 13], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d3264203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rsi + 13], 3
-	QUAD $0x0d0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 13], 4
-	QUAD $0x0d0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 13], 5
-	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
-	QUAD $0x0d0264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r8 + 13], 7
-	QUAD $0x0d0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 13], 8
-	QUAD $0x0d1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 13], 9
-	QUAD $0x0d1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 13], 10
-	QUAD $0x0d3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 13], 11
-	QUAD $0x0d3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 13], 12
-	QUAD $0x0d2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 13], 13
-	QUAD $0x0d2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 13], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x0e1264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r10 + 14], 1
-	WORD $0x894c; BYTE $0xd6                   // mov    rsi, r10
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 14], 4
-	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
-	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
-	QUAD $0x0e0264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 14], 7
-	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
-	QUAD $0x0e1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 14], 9
-	QUAD $0x0a0e1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 14], 10
-	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0d0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 15
-	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
-	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
-	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
-	QUAD $0x0f2a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 15], 4
-	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
-	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
-	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
-	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
-	QUAD $0x0f1a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r11 + 15], 9
-	QUAD $0x0f1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 15], 10
-	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
-	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rax + 15], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
-	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
-	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
-	QUAD $0x102a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r13 + 16], 4
-	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
-	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
-	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
-	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
-	QUAD $0x101a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 16], 9
-	QUAD $0x101a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rbx + 16], 10
-	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
-	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
-	QUAD $0x10027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x01110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 1
-	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
-	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
-	QUAD $0x112a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 17], 4
-	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
-	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
-	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
-	QUAD $0x111a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 17], 9
-	QUAD $0x0a111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 10
-	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
-	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
-	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
-	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
-	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
-	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
-	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
-	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
-	QUAD $0x121a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r11 + 18], 9
-	QUAD $0x0a121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 10
-	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
-	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
-	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
-	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
-	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
-	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
-	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
-	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
-	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
-	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
-	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
-	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
-	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
-	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
-	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
-	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
-	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
-	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
-	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
-	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
-	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
-	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
-	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
-	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
-	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
-	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
-	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
-	QUAD $0x131a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r11 + 19], 9
-	QUAD $0x0a131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 10
-	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
-	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
-	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
-	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
-	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
-	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
-	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
-	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
-	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
-	QUAD $0x141a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 20], 9
-	QUAD $0x0a141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 10
-	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
-	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
-	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
-	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
-	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
-	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x151a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r11 + 21], 9
-	QUAD $0x0a151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 10
-	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
-	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
-	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
-	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
-	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
-	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
-	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
-	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
-	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
-	QUAD $0x161a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r11 + 22], 9
-	QUAD $0x0a161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 10
-	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
-	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
-	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
-	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
-	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
-	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
-	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
-	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
-	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
-	QUAD $0x171a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r11 + 23], 9
-	QUAD $0x171a44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rbx + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
-	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
-	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
-	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
-	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
-	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
-	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
-	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
-	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
-	QUAD $0x191a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r11 + 25], 9
-	QUAD $0x0a191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 10
-	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
-	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
-	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
-	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
-	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
-	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
-	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
-	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
-	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
-	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
-	QUAD $0x181a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 24], 9
-	QUAD $0x181a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 24], 10
-	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
-	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
-	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
-	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
-	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
-	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
-	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
-	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
-	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
-	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
-	QUAD $0x1a1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 26], 9
-	QUAD $0x1a1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 26], 10
-	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
-	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
-	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
-	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
-	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
-	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
-	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
-	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
-	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
-	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
-	QUAD $0x1b1a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 27], 9
-	QUAD $0x1b1a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rbx + 27], 10
-	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
-	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
-	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
-	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
-	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
-	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
-	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
-	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
-	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
-	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
-	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
-	QUAD $0x1c1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 28], 9
-	QUAD $0x0a1c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 10
-	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
-	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
-	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
-	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
-	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
-	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
-	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
-	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
-	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
-	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
-	QUAD $0x1d1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 29], 9
-	QUAD $0x1d1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 29], 10
-	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
-	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
-	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
-	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
-	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
-	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
-	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
-	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
-	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
-	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
-	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
-	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
-	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
-	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
-	QUAD $0x1e1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 30], 9
-	QUAD $0x1f1a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 31], 9
-	QUAD $0x1e1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 30], 10
-	QUAD $0x0a1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 10
-	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
-	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
-	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
-	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
-	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
-	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
-	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
-	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
-	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB2_186
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB2_43
-	JMP  LBB2_131
-
-LBB2_188:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB2_189:
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	LONG $0x247c894c; BYTE $0x20               // mov    qword [rsp + 32], r15
-	LONG $0x34b60f42; BYTE $0x3a               // movzx    esi, byte [rdx + r15]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0x74b60f42; WORD $0x013a             // movzx    esi, byte [rdx + r15 + 1]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b60f42; WORD $0x023a             // movzx    esi, byte [rdx + r15 + 2]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b60f42; WORD $0x033a             // movzx    esi, byte [rdx + r15 + 3]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x74b60f42; WORD $0x043a             // movzx    esi, byte [rdx + r15 + 4]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b60f42; WORD $0x053a             // movzx    esi, byte [rdx + r15 + 5]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x74b60f42; WORD $0x063a             // movzx    esi, byte [rdx + r15 + 6]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b60f42; WORD $0x073a             // movzx    esi, byte [rdx + r15 + 7]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x74b60f42; WORD $0x083a             // movzx    esi, byte [rdx + r15 + 8]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x74b60f42; WORD $0x093a             // movzx    esi, byte [rdx + r15 + 9]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x74b60f42; WORD $0x0a3a             // movzx    esi, byte [rdx + r15 + 10]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x74b60f42; WORD $0x0b3a             // movzx    esi, byte [rdx + r15 + 11]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	LONG $0x74b60f42; WORD $0x0c3a             // movzx    esi, byte [rdx + r15 + 12]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0x74b60f42; WORD $0x0d3a             // movzx    esi, byte [rdx + r15 + 13]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	LONG $0x74b60f42; WORD $0x0e3a             // movzx    esi, byte [rdx + r15 + 14]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x20ce8349                           // or    r14, 32
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x40cb8348                           // or    rbx, 64
-	LONG $0x245c8948; BYTE $0x48               // mov    qword [rsp + 72], rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	LONG $0x80c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 128
-	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
-	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
-	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	LONG $0x60ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 352
-	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	LONG $0xa0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 416
-	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
-	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
-	QUAD $0x01323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 1
-	QUAD $0x021a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 2
-	QUAD $0x03023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 3
-	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
-	QUAD $0x040a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 4
-	QUAD $0x053a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rdi], 5
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	QUAD $0x06023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 6
-	QUAD $0x000000d0248c894c                   // mov    qword [rsp + 208], r9
-	QUAD $0x070a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 7
-	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
-	QUAD $0x081a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x09323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a3a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 10
-	QUAD $0x0b123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 11
-	LONG $0x2464894c; BYTE $0x20               // mov    qword [rsp + 32], r12
-	QUAD $0x0c223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 12
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0d123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 13
-	QUAD $0x0e2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 14
-	QUAD $0x0f323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 15
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x01011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 2
-	QUAD $0x0301026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 3
-	QUAD $0x04010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 4
-	QUAD $0x05013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 5
-	QUAD $0x01026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 1], 6
-	QUAD $0x010a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r9 + 1], 7
-	QUAD $0x011a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 1], 8
-	QUAD $0x01326c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r14 + 1], 9
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x013a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r15 + 1], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x01226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 1], 12
-	QUAD $0x01126c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r10 + 1], 13
-	QUAD $0x012a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 1], 14
-	QUAD $0x0f01326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x01020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 1
-	QUAD $0x02021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x020274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r8 + 2], 4
-	QUAD $0x05023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 5
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x022274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 2], 6
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x023274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 2], 7
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x023a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r15 + 2], 8
-	QUAD $0x09020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x021274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 2], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x020a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 2], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f42; WORD $0x102a             // movzx    esi, byte [rdx + r13 + 16]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	QUAD $0x01030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 1
-	QUAD $0x02031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 2
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x031a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 3], 3
-	QUAD $0x030254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 3], 4
-	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
-	QUAD $0x05033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 5
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x032254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 3], 6
-	QUAD $0x033254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 3], 7
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	QUAD $0x033a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 3], 8
-	QUAD $0x09030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x033a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 3], 10
-	QUAD $0x031254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r10 + 3], 11
-	QUAD $0x030a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 3], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 15
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x042a4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r13 + 4], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 2
-	QUAD $0x03040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 3
-	QUAD $0x04024c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r8 + 4], 4
-	QUAD $0x05043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 5
-	QUAD $0x041a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 4], 6
-	QUAD $0x04324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 4], 7
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0804324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0904324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 9
-	QUAD $0x043a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r15 + 4], 10
-	QUAD $0x04124c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r10 + 4], 11
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	QUAD $0x040a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 4], 12
-	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x0e041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 14
-	QUAD $0x0f04024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 15
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x051a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 5], 2
-	QUAD $0x050a44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rdx + rcx + 5], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x053244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r14 + 5], 4
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x050a44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r9 + 5], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050244203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rax + 5], 6
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 5], 7
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x050244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r8 + 5], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x053244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 5], 10
-	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
-	QUAD $0x051a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 5], 14
-	QUAD $0x051244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x061a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r11 + 6], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x06125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 6], 3
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x06325c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r14 + 6], 4
-	QUAD $0x060a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r9 + 6], 5
-	QUAD $0x0606025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 6
-	QUAD $0x07060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 7
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x06025c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r8 + 6], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x09063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x063a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 6], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b06025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 11
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0e060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 15
-	QUAD $0x0000c024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 192]
-	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
-	QUAD $0x02073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 2
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x071254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 7], 3
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x071a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x070a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 7], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x073254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 7], 7
-	QUAD $0x070254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r8 + 7], 8
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x09073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 9
-	QUAD $0x073a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 7], 10
-	QUAD $0x0b070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 11
-	QUAD $0x0c071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 12
-	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x072254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 7], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x090a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 9], 1
-	QUAD $0x092a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r13 + 9], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x090254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 9], 3
-	QUAD $0x091254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r10 + 9], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x093a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 9], 5
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x092a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 9], 6
-	QUAD $0x093254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 9], 7
-	QUAD $0x090a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rcx + 9], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
-	QUAD $0x093a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 9], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x093254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rsi + 9], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x093254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 9], 12
-	QUAD $0x091a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 9], 13
-	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
-	QUAD $0x091a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rbx + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x080a64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r9 + 8], 1
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x082264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 8], 2
-	QUAD $0x080264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 8], 3
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x081264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 8], 4
-	QUAD $0x05083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 5
-	QUAD $0x082a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 8], 6
-	QUAD $0x083264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 8], 7
-	QUAD $0x08080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 9
-	QUAD $0x083a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 8], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 12
-	QUAD $0x081a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r11 + 8], 13
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x081264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r10 + 8], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	QUAD $0x0a0a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 10], 1
-	QUAD $0x0a2254203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r12 + 10], 2
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0a0a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r9 + 10], 3
-	QUAD $0x0a0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 10], 4
-	QUAD $0x0a3a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 10], 5
-	QUAD $0x0a2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 10], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0a3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 10], 7
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
-	QUAD $0x0a1a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 10], 9
-	QUAD $0x0a3a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 10], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x0a0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 10], 11
-	QUAD $0x0a3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 10], 12
-	QUAD $0x0a1a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 10], 13
-	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
-	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0b125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 11], 1
-	QUAD $0x0b225c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r12 + 11], 2
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r9 + 11], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r11 + 11], 4
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 11], 5
-	QUAD $0x0b025c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r8 + 11], 6
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r13 + 11], 7
-	QUAD $0x0b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 11], 8
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0b025c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r8 + 11], 9
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0b025c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rax + 11], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r13 + 11], 12
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r9 + 11], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0b325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 11], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b025c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rax + 11], 15
-	QUAD $0x0c126c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r10 + 12], 1
-	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rcx + 12], 3
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r11 + 12], 4
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rdi + 12], 5
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 12], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r11 + 12], 7
-	QUAD $0x0c326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 12], 8
-	QUAD $0x0c026c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r8 + 12], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r15 + 12], 10
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 12], 11
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r13 + 12], 12
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r9 + 12], 13
-	QUAD $0x0c326c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rsi + 12], 14
-	QUAD $0x0c026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 12], 15
-	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
-	QUAD $0x0d2264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r12 + 13], 2
-	QUAD $0x0d0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 13], 3
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0d0a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rcx + 13], 4
-	QUAD $0x0d3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 13], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
-	QUAD $0x0d1a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r11 + 13], 7
-	QUAD $0x0d3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 13], 8
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x0d0264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r8 + 13], 9
-	QUAD $0x0d3a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r15 + 13], 10
-	QUAD $0x0d1a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 13], 11
-	QUAD $0x0d2a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r13 + 13], 12
-	QUAD $0x0d0a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r9 + 13], 13
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x0d3264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 13], 14
-	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rbx + 25]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x010e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 1
-	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
-	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x040e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
-	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0e1a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r11 + 14], 7
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x0e3264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r14 + 14], 9
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 14], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
-	QUAD $0x0e2a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r13 + 14], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f0e3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 14], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
-	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
-	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
-	QUAD $0x0f0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 15], 4
-	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
-	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
-	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
-	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
-	QUAD $0x0f1a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rbx + 15], 9
-	QUAD $0x0f1a74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r11 + 15], 10
-	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
-	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
-	QUAD $0x0f2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 15], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
-	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
-	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
-	QUAD $0x10027c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rax + 16], 4
-	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
-	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
-	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
-	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
-	QUAD $0x101a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rbx + 16], 9
-	QUAD $0x101a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r11 + 16], 10
-	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
-	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
-	QUAD $0x102a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r13 + 16], 14
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x01113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 1
-	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
-	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
-	QUAD $0x04110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 4
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
-	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
-	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
-	QUAD $0x09111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 9
-	QUAD $0x111a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 17], 10
-	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
-	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
-	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
-	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
-	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
-	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
-	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
-	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
-	QUAD $0x09121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 9
-	QUAD $0x121a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r11 + 18], 10
-	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
-	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
-	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
-	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
-	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
-	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
-	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
-	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
-	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
-	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
-	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
-	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
-	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
-	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
-	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
-	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
-	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
-	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
-	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
-	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
-	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
-	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
-	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
-	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
-	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
-	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
-	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
-	QUAD $0x09131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 9
-	QUAD $0x131a7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r11 + 19], 10
-	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
-	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
-	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
-	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
-	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
-	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
-	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
-	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
-	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
-	QUAD $0x09141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 9
-	QUAD $0x141a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r11 + 20], 10
-	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
-	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
-	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
-	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
-	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
-	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x09151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 9
-	QUAD $0x151a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 21], 10
-	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
-	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
-	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
-	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
-	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
-	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
-	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
-	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
-	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
-	QUAD $0x09161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 9
-	QUAD $0x161a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 22], 10
-	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
-	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
-	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
-	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
-	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
-	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
-	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
-	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
-	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
-	QUAD $0x171a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rbx + 23], 9
-	QUAD $0x171a44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r11 + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
-	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
-	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
-	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
-	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
-	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
-	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
-	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
-	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
-	QUAD $0x09191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 9
-	QUAD $0x191a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 25], 10
-	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
-	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
-	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
-	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
-	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
-	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
-	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
-	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
-	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
-	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
-	QUAD $0x181a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 24], 9
-	QUAD $0x181a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r11 + 24], 10
-	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
-	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
-	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
-	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
-	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
-	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
-	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
-	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
-	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
-	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
-	QUAD $0x1a1a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rbx + 26], 9
-	QUAD $0x1a1a5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r11 + 26], 10
-	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
-	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
-	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
-	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
-	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
-	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
-	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
-	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
-	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
-	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
-	QUAD $0x1b1a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rbx + 27], 9
-	QUAD $0x1b1a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 27], 10
-	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
-	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
-	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
-	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
-	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
-	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
-	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
-	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
-	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
-	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
-	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
-	QUAD $0x091c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 9
-	QUAD $0x1c1a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 28], 10
-	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
-	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
-	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
-	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
-	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
-	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
-	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
-	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
-	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
-	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
-	QUAD $0x1d1a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rbx + 29], 9
-	QUAD $0x1d1a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r11 + 29], 10
-	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
-	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
-	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
-	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
-	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
-	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
-	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
-	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
-	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
-	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
-	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
-	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
-	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
-	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
-	QUAD $0x1e1a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rbx + 30], 9
-	QUAD $0x091f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 9
-	QUAD $0x1e1a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r11 + 30], 10
-	QUAD $0x1f1a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 31], 10
-	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
-	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
-	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
-	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
-	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
-	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
-	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
-	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
-	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB2_189
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB2_69
-	JMP  LBB2_135
-
-LBB2_191:
-	LONG $0xf8e68349                     // and    r14, -8
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0x2474894c; BYTE $0x20         // mov    qword [rsp + 32], r14
-	LONG $0xb0048d4a                     // lea    rax, [rax + 4*r14]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-
-LBB2_192:
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
-	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
-	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
-	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
-	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
-	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
-	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
-	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
-	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
-	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
-	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
-	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
-	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
-	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
-	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
-	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
-	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
-	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
-	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
-	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
-	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
-	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
-	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
-	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
-	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
-	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
-	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
-	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
-	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
-	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
-	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
-	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
-	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
-	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
-	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
-	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
-	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
-	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
-	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
-	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
-	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
-	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
-	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
-	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
-	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
-	LONG $0x10247489                           // mov    dword [rsp + 16], esi
-	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
-	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
-	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
-	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
-	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
-	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
-	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
-	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
-	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
-	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
-	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
-	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
-	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
-	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
-	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
-	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
-	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
-	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
-	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
-	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
-	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
-	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
-	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
-	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
-	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
-	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
-	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
-	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
-	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
-	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
-	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
-	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
-	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
-	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
-	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
-	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
-	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
-	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
-	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
-	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
-	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
-	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
-	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
-	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
-	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
-	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
-	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
-	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
-	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
-	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
-	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
-	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
-	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
-	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
-	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
-	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
-	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
-	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
-	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
-	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
-	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
-	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
-	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
-	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
-	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB2_192
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	LONG $0x24743b4c; BYTE $0x20               // cmp    r14, qword [rsp + 32]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB2_92
-	JMP  LBB2_139
-
-LBB2_194:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-
-LBB2_195:
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
-	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
-	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
-	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
-	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
-	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
-	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
-	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
-	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
-	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
-	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
-	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
-	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
-	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
-	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
-	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
-	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
-	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
-	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
-	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
-	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
-	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
-	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
-	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
-	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
-	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
-	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
-	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
-	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
-	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
-	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
-	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
-	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
-	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
-	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
-	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
-	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
-	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
-	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
-	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
-	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
-	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
-	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
-	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
-	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
-	LONG $0x10247489                           // mov    dword [rsp + 16], esi
-	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
-	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
-	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
-	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
-	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
-	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
-	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
-	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
-	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
-	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
-	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
-	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
-	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
-	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
-	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
-	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
-	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
-	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
-	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
-	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
-	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
-	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
-	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
-	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
-	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
-	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
-	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
-	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
-	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
-	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
-	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
-	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
-	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
-	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
-	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
-	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
-	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
-	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
-	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
-	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
-	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
-	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
-	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
-	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
-	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
-	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
-	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
-	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
-	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
-	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
-	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
-	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
-	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
-	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
-	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
-	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
-	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
-	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
-	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
-	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
-	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
-	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
-	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
-	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
-	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB2_195
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB2_104
-	JMP  LBB2_143
-
-LBB2_197:
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI2_7] */
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-
-LBB2_198:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB2_198
-	WORD $0x394d; BYTE $0xc6                   // cmp    r14, r8
-	JNE  LBB2_127
-	JMP  LBB2_147
-
-TEXT ·_comparison_not_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_28
-	JMP  LBB3_123
-
-LBB3_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4950f41                           // setne    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0950f41                           // setne    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_56
-	JMP  LBB3_123
-
-LBB3_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_14
-	JMP  LBB3_123
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_42
-	JMP  LBB3_123
-
-LBB3_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_78
-	JMP  LBB3_123
-
-LBB3_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_89
-	JMP  LBB3_123
-
-LBB3_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_111
-	JMP  LBB3_123
-
-LBB3_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_122
-	JMP  LBB3_123
-
-LBB3_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_67
-	JMP  LBB3_123
-
-LBB3_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_100
-
-LBB3_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA3<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA3<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA3<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA3<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA3<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA3<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA3<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA3<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA3<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA3<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA3<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA3<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA3<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA3<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA3<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA3<>(SB), 8, $368
-
-TEXT ·_comparison_not_equal_arr_scalar_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc7 // mov    r15, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_83
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_179
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_9:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_13
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_11:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_11
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_13:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_16:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_16
-	JMP  LBB4_153
-
-LBB4_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_107
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_118
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_179
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_23:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_23
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_25:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_29
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
-
-LBB4_27:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7950f41                           // setne    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000088248c0244                   // add    r9b, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB4_27
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB4_29:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_164
-
-LBB4_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_179
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_36:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_36
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_38:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB4_130
-	LONG $0x10fa8349             // cmp    r10, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB4_42
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB4_180
-	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_180
-
-LBB4_42:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_43:
-	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB4_44:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB4_44
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB4_131
-
-LBB4_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_72
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_179
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_50:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_50
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_52:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_56
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_54:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_54
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_56:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_59:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_59
-	JMP  LBB4_168
-
-LBB4_60:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_62:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_62
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_64:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB4_134
-	LONG $0x10fa8349             // cmp    r10, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000001002494894c     // mov    qword [rsp + 256], r10
-	JB   LBB4_68
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB4_183
-	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_183
-
-LBB4_68:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_69:
-	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB4_70:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB4_70
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	JMP  LBB4_135
-
-LBB4_72:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_74:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_74
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_76:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_80
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_78:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_78
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_80:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_151
-
-LBB4_82:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_153
-
-LBB4_83:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_85:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_85
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_87:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_138
-	LONG $0x08fa8349         // cmp    r10, 8
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	JB   LBB4_91
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_186
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_186
-
-LBB4_91:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB4_92:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-
-LBB4_93:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_93
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB4_139
-
-LBB4_95:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_97:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_97
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_99:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_143
-	LONG $0x08fa8349         // cmp    r10, 8
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	JB   LBB4_103
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_189
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_189
-
-LBB4_103:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB4_104:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-
-LBB4_105:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_105
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB4_144
-
-LBB4_107:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_111
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_109:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_109
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_111:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_115
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_113:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_113
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_115:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_166
-
-LBB4_117:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_168
-
-LBB4_118:
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_122
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_120:
-	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_120
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_122:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_147
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB4_126
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_192
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_192
-
-LBB4_126:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
-
-LBB4_127:
-	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
-	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
-
-LBB4_128:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000008824840244                   // add    r8b, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB4_128
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB4_148
-
-LBB4_130:
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_131:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB4_137
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
-
-LBB4_156:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB4_156
-	JMP  LBB4_159
-
-LBB4_134:
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_135:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_157
-
-LBB4_137:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	JMP  LBB4_161
-
-LBB4_138:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB4_139:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_146
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB4_142:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB4_142
-	JMP  LBB4_173
-
-LBB4_143:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB4_144:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_171
-
-LBB4_146:
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB4_173
-
-LBB4_147:
-	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB4_148:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_175
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_177
-
-LBB4_151:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_152:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_152
-
-LBB4_153:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB4_170
-
-LBB4_157:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
-
-LBB4_158:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB4_158
-
-LBB4_159:
-	WORD $0x014c; BYTE $0xce // add    rsi, r9
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-
-LBB4_161:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_163:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_163
-
-LBB4_164:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_179
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB4_170
-
-LBB4_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_167:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_167
-
-LBB4_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB4_170:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_171:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB4_172:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB4_172
-
-LBB4_173:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	LONG $0x2e394466         // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB4_176:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_176
-
-LBB4_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB4_179:
-	MOVQ 304(SP), SP
-	RET
-
-LBB4_180:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
-	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
-	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000100248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 256], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB4_181:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x05e1c148                           // shl    rcx, 5
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0x0e0cb60f                           // movzx    ecx, byte [rsi + rcx]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x164cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdx + 13]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x164cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdx + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x164cb60f; BYTE $0x0f               // movzx    ecx, byte [rsi + rdx + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x24548948; BYTE $0x18               // mov    qword [rsp + 24], rdx
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	LONG $0x40cb8349                           // or    r11, 64
-	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
-	LONG $0x60c88349                           // or    r8, 96
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
-	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
-	LONG $0x2454894c; BYTE $0x48               // mov    qword [rsp + 72], r10
-	LONG $0xe0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x20cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 288
-	QUAD $0x000000c024bc8948                   // mov    qword [rsp + 192], rdi
-	LONG $0x40c98149; WORD $0x0001; BYTE $0x00 // or    r9, 320
-	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x30               // mov    qword [rsp + 48], rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rdx], 1
-	QUAD $0x021e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 2
-	QUAD $0x030624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 3
-	QUAD $0x043624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 4
-	QUAD $0x052e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 5
-	QUAD $0x061624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 6
-	QUAD $0x072624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 7
-	QUAD $0x083e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 8
-	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdi], 9
-	QUAD $0x0a0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 10
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rdx], 12
-	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0d // pinsrb    xmm4, byte [rsi + rax], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rbx], 14
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rcx], 15
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 1
-	QUAD $0x011e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r11 + 1], 2
-	QUAD $0x01065c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r8 + 1], 3
-	QUAD $0x01365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 1], 4
-	QUAD $0x012e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 1], 5
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x01165c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r10 + 1], 6
-	QUAD $0x01265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 1], 7
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x013e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 1], 8
-	QUAD $0x09013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 9
-	QUAD $0x010e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 1], 10
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x01265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 1], 11
-	QUAD $0x0c01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 12
-	QUAD $0x0d01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 13
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
-	QUAD $0x00010024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 256]
-	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
-	QUAD $0x0f010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 15
-	LONG $0xde740f66                           // pcmpeqb    xmm3, xmm6
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0102066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 1
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x02166c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r10 + 2], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 3
-	QUAD $0x02366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 2], 4
-	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x020e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 2], 6
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x022e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 2], 7
-	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0902166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 2], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 10
-	QUAD $0x02266c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r12 + 2], 11
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0c020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 12
-	QUAD $0x02066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 2], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x022e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 2], 14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x02066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 2], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0103067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 1
-	QUAD $0x03167c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r10 + 3], 2
-	QUAD $0x03033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 3
-	QUAD $0x03367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 3], 4
-	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
-	QUAD $0x030e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 3], 6
-	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
-	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
-	QUAD $0x0903167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 10
-	QUAD $0x03267c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r12 + 3], 11
-	QUAD $0x0c030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
-	QUAD $0x032e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 3], 14
-	QUAD $0x03067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 3], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
-	QUAD $0x04164c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r10 + 4], 2
-	QUAD $0x03043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 3
-	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
-	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	QUAD $0x040e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r9 + 4], 6
-	QUAD $0x07041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 7
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	QUAD $0x043e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 4], 8
-	QUAD $0x0904164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 9
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0a04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 10
-	QUAD $0x04264c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r12 + 4], 11
-	QUAD $0x0c040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x041e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r11 + 4], 13
-	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
-	QUAD $0x04064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 4], 15
-	LONG $0xee740f66                           // pcmpeqb    xmm5, xmm6
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xfe740f66                           // pcmpeqb    xmm7, xmm6
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 1
-	QUAD $0x051654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 5], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x03050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 3
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	QUAD $0x053654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 5], 4
-	QUAD $0x05050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 5
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	QUAD $0x050e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r9 + 5], 6
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	QUAD $0x07053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 7
-	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x09051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 10
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0b050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 11
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x052e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 5], 12
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x051e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 5], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 14
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
-	QUAD $0x061644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdx + 6], 1
-	QUAD $0x061644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 6], 2
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x061e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rbx + 6], 3
-	QUAD $0x063644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 6], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x061e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rbx + 6], 5
-	QUAD $0x062644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r12 + 6], 6
-	QUAD $0x063e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 6], 7
-	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
-	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
-	QUAD $0x060644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 6], 10
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x061e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rbx + 6], 11
-	QUAD $0x062e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 6], 12
-	QUAD $0x060644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 6], 13
-	QUAD $0x060e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rcx + 6], 14
-	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x071674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 7], 1
-	QUAD $0x071674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 7], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x071674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rdx + 7], 3
-	QUAD $0x073674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 7], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x071e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 7], 5
-	QUAD $0x072674203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r12 + 7], 6
-	QUAD $0x073e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 7], 7
-	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
-	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
-	QUAD $0x070674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 7], 10
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x071e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 7], 11
-	QUAD $0x072e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r13 + 7], 12
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x070674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 7], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x072e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 7], 14
-	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4466; BYTE $0xc6               // pcmpeqb    xmm8, xmm6
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	LONG $0x54b60f42; WORD $0x140e             // movzx    edx, byte [rsi + r9 + 20]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x070e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rcx + 7], 15
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	LONG $0x54b60f42; WORD $0x150e             // movzx    edx, byte [rsi + r9 + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x080e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rcx + 8], 1
-	QUAD $0x08164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 8], 2
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x08064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 8], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x08164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 8], 4
-	QUAD $0x081e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 8], 5
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x08164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 8], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x083e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 8], 7
-	QUAD $0x08264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 8], 8
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x08264c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r12 + 8], 9
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x08164c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdx + 8], 10
-	QUAD $0x081e4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + rbx + 8], 11
-	QUAD $0x08364c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r14 + 8], 12
-	QUAD $0x083e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 8], 13
-	QUAD $0x082e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 8], 14
-	QUAD $0x08064c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rax + 8], 15
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	QUAD $0x011024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 272], xmm14
-	LONG $0x54b60f42; WORD $0x160e             // movzx    edx, byte [rsi + r9 + 22]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
-	QUAD $0x00d024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 208]
-	QUAD $0x090e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 9], 1
-	QUAD $0x091674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 9], 2
-	QUAD $0x090674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r8 + 9], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090674203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rax + 9], 4
-	QUAD $0x091e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 9], 5
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x091674203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdx + 9], 6
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	QUAD $0x093e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r15 + 9], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x093e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 9], 8
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x092674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r12 + 9], 9
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x092e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r13 + 9], 10
-	QUAD $0x091e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 9], 11
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x093674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r14 + 9], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x093674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r14 + 9], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x090674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rax + 9], 15
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x0a0e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a0e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rcx + 10], 2
-	QUAD $0x0a0664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r8 + 10], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a0e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rcx + 10], 4
-	QUAD $0x0a1e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 10], 5
-	QUAD $0x0a1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 10], 6
-	QUAD $0x0a3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 10], 7
-	QUAD $0x0a3e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r15 + 10], 8
-	QUAD $0x0a0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 10], 9
-	QUAD $0x0a2e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r13 + 10], 10
-	QUAD $0x0a1e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rbx + 10], 11
-	QUAD $0x0a2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 10], 12
-	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0a3664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r14 + 10], 14
-	QUAD $0x0a0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 10], 15
-	QUAD $0x0b166c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r10 + 11], 1
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0b166c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r10 + 11], 2
-	QUAD $0x0b066c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r8 + 11], 3
-	QUAD $0x0b0e6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rcx + 11], 4
-	QUAD $0x0b1e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 11], 5
-	QUAD $0x0b166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 11], 6
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 11], 7
-	QUAD $0x0b3e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 11], 8
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 11], 9
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r13 + 11], 10
-	QUAD $0x0b1e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rbx + 11], 11
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	QUAD $0x0b266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 11], 12
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 11], 13
-	QUAD $0x0b366c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r14 + 11], 14
-	QUAD $0x0b066c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rax + 11], 15
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	QUAD $0x000100b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xf1               // paddb    xmm14, xmm9
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x740f4466; BYTE $0xe6               // pcmpeqb    xmm12, xmm6
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4466; BYTE $0xee               // pcmpeqb    xmm13, xmm6
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 12], 1
-	QUAD $0x0c164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 12], 2
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0c064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 12], 3
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rcx + 12], 4
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 12], 5
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 12], 6
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 12], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rcx + 12], 8
-	QUAD $0x0c0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 12], 9
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 12], 10
-	QUAD $0x0c3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 12], 11
-	QUAD $0x0c264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 12], 12
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0c164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0c164c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdx + 12], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 13], 1
-	QUAD $0x0d165c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r10 + 13], 2
-	QUAD $0x0d065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 13], 3
-	QUAD $0x0d365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 13], 4
-	QUAD $0x0d065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 13], 5
-	QUAD $0x0d1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 13], 6
-	QUAD $0x0d1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 13], 7
-	QUAD $0x0d0e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rcx + 13], 8
-	QUAD $0x0d0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 13], 9
-	QUAD $0x0d3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 13], 10
-	QUAD $0x0d3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 13], 11
-	QUAD $0x0d265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 13], 12
-	QUAD $0x0d2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 13], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0d165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 13], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0d165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 13], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 14], 1
-	QUAD $0x0e167c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r10 + 14], 2
-	QUAD $0x0e067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 14], 3
-	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
-	QUAD $0x0e067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 14], 5
-	QUAD $0x0e1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 14], 6
-	QUAD $0x0e1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 14], 7
-	QUAD $0x0e0e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rcx + 14], 8
-	QUAD $0x0e0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 14], 9
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 14], 10
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 14], 11
-	QUAD $0x0e267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 14], 12
-	QUAD $0x0e2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 14], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 14], 14
-	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x000160b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xce               // por    xmm9, xmm14
-	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0e067c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rax + 14], 15
-	LONG $0x740f4466; BYTE $0xde               // pcmpeqb    xmm11, xmm6
-	QUAD $0x0001409ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x740f4466; BYTE $0xfe               // pcmpeqb    xmm15, xmm6
-	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	LONG $0x0e54b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rcx + 27]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0f1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 15], 1
-	QUAD $0x0f1674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r10 + 15], 2
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x030f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 3
-	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
-	QUAD $0x0f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 15], 5
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0f2674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r12 + 15], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 8
-	QUAD $0x0f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 15], 9
-	QUAD $0x0a0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 10
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0b0f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 11
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0f3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 15], 12
-	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
-	QUAD $0x0f3e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 15], 14
-	QUAD $0x0f0f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x101e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 16], 1
-	QUAD $0x101654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r10 + 16], 2
-	QUAD $0x101e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rbx + 16], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x102e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r13 + 16], 4
-	QUAD $0x100654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 16], 5
-	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x102654203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r12 + 16], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x101654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 16], 8
-	QUAD $0x100e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 16], 9
-	QUAD $0x103e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 16], 10
-	QUAD $0x100e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rcx + 16], 11
-	QUAD $0x103654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 16], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x103654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r14 + 16], 13
-	QUAD $0x103e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r15 + 16], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x100654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 16], 15
-	QUAD $0x111e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 17], 1
-	QUAD $0x111664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r10 + 17], 2
-	QUAD $0x03111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 3
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x112e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r13 + 17], 4
-	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x111e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r11 + 17], 6
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x112664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r12 + 17], 7
-	QUAD $0x08111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 8
-	QUAD $0x110e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 17], 9
-	QUAD $0x0a113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 10
-	QUAD $0x0b110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 11
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0c110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 12
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x113664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r14 + 17], 13
-	QUAD $0x113e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 17], 14
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x0f110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 15
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x6f0f4166; BYTE $0xf6               // movdqa    xmm6, xmm14
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100a5df0f66                   // pandn    xmm4, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	LONG $0x3e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
-	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
-	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
-	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
-	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
-	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
-	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
-	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
-	LONG $0x3e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rdi + 31]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
-	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
-	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
-	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
-	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
-	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
-	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
-	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x12167c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r10 + 18], 4
-	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
-	QUAD $0x121e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r11 + 18], 6
-	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0812067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 8
-	QUAD $0x120e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 18], 9
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0a123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 10
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
-	QUAD $0x0c120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 12
-	QUAD $0x122e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r13 + 18], 13
-	QUAD $0x12267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 18], 14
-	QUAD $0x123e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 18], 15
-	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
-	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
-	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
-	QUAD $0x131e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r11 + 19], 6
-	QUAD $0x07131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 7
-	QUAD $0x0813066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 8
-	QUAD $0x130e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 19], 9
-	QUAD $0x0a133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 10
-	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
-	QUAD $0x0c130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 12
-	QUAD $0x132e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r13 + 19], 13
-	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
-	QUAD $0x133e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 19], 15
-	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
-	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
-	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
-	QUAD $0x141e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 20], 6
-	QUAD $0x07141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 7
-	QUAD $0x0814065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 8
-	QUAD $0x140e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 20], 9
-	QUAD $0x0a143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 10
-	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
-	QUAD $0x0c140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 12
-	QUAD $0x142e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r13 + 20], 13
-	QUAD $0x14265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x00000110bddf0f66                   // pandn    xmm7, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4166; BYTE $0xee               // pcmpeqb    xmm5, xmm14
-	QUAD $0x00000120addf0f66                   // pandn    xmm5, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x143e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 20], 15
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
-	QUAD $0x151e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 21], 6
-	QUAD $0x07151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 7
-	QUAD $0x08150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
-	QUAD $0x0c150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 12
-	QUAD $0x152e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 21], 13
-	QUAD $0x152654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 21], 14
-	QUAD $0x153e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r15 + 21], 15
-	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
-	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
-	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
-	QUAD $0x161e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 22], 6
-	QUAD $0x07161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 7
-	QUAD $0x0816064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 8
-	QUAD $0x160e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 22], 9
-	QUAD $0x0a163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 10
-	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
-	QUAD $0x0c160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 12
-	QUAD $0x162e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r13 + 22], 13
-	QUAD $0x16264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 22], 14
-	QUAD $0x163e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r15 + 22], 15
-	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
-	QUAD $0x171e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 23], 6
-	QUAD $0x171e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 23], 7
-	QUAD $0x170644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rax + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x173e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 23], 10
-	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
-	QUAD $0x170e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 23], 12
-	QUAD $0x172e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r13 + 23], 13
-	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r15 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x6f0f4166; BYTE $0xd6               // movdqa    xmm2, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
-	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
-	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
-	QUAD $0x181e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r11 + 24], 6
-	QUAD $0x181e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 24], 7
-	QUAD $0x180664203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rax + 24], 8
-	QUAD $0x180e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 24], 9
-	QUAD $0x183e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rdi + 24], 10
-	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
-	QUAD $0x180e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rcx + 24], 12
-	QUAD $0x182e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 24], 13
-	QUAD $0x182664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 24], 14
-	QUAD $0x183e64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r15 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
-	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
-	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
-	QUAD $0x191e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r11 + 25], 6
-	QUAD $0x191e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 25], 7
-	QUAD $0x19066c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rax + 25], 8
-	QUAD $0x190e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 25], 9
-	QUAD $0x193e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rdi + 25], 10
-	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
-	QUAD $0x190e6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rcx + 25], 12
-	QUAD $0x192e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 25], 13
-	QUAD $0x19266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 25], 14
-	QUAD $0x193e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r15 + 25], 15
-	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
-	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
-	QUAD $0x1a1e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r11 + 26], 6
-	QUAD $0x071a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 7
-	QUAD $0x081a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x1a0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 26], 9
-	QUAD $0x0a1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 10
-	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
-	QUAD $0x0c1a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 12
-	QUAD $0x1a2e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 26], 13
-	QUAD $0x1a2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 26], 14
-	QUAD $0x1a3e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r15 + 26], 15
-	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
-	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
-	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
-	QUAD $0x1b1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 27], 6
-	QUAD $0x1b1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 27], 7
-	QUAD $0x1b065c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rax + 27], 8
-	QUAD $0x1b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 27], 9
-	QUAD $0x1b3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 27], 10
-	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
-	QUAD $0x1b0e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rcx + 27], 12
-	QUAD $0x1b2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 27], 13
-	QUAD $0x1b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
-	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
-	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
-	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
-	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
-	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
-	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
-	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
-	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
-	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
-	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
-	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
-	QUAD $0x1c1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 28], 6
-	QUAD $0x1d1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 29], 6
-	QUAD $0x1e1e54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r11 + 30], 6
-	QUAD $0x1f1e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 31], 6
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	QUAD $0x1c1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 28], 7
-	QUAD $0x1d1e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 29], 7
-	QUAD $0x1e1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 30], 7
-	QUAD $0x071f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 7
-	QUAD $0x1c067c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rax + 28], 8
-	QUAD $0x1d064c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rax + 29], 8
-	QUAD $0x1e0654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rax + 30], 8
-	QUAD $0x081f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 8
-	QUAD $0x1c0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 28], 9
-	QUAD $0x1d0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 29], 9
-	QUAD $0x1e0e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 31], 9
-	QUAD $0x1c3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 28], 10
-	QUAD $0x1d3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 29], 10
-	QUAD $0x1e3e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 30], 10
-	QUAD $0x0a1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 10
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
-	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
-	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
-	QUAD $0x1c0e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rcx + 28], 12
-	QUAD $0x1d0e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rcx + 29], 12
-	QUAD $0x1e0e54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rcx + 30], 12
-	QUAD $0x0c1f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x1c2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 28], 13
-	QUAD $0x1d2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 29], 13
-	QUAD $0x1e2e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 30], 13
-	QUAD $0x1f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 31], 13
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 28], 14
-	QUAD $0x1d264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 29], 14
-	QUAD $0x1e2654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 30], 14
-	QUAD $0x1f2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 31], 14
-	QUAD $0x1c3e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r15 + 28], 15
-	QUAD $0x1d3e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 29], 15
-	QUAD $0x1e3e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r15 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f3e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r15 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	QUAD $0x0000b0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 176]
-	LONG $0xcb600f66                           // punpcklbw    xmm1, xmm3
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xe3680f66                           // punpckhbw    xmm4, xmm3
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
-	JNE  LBB4_181
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	JNE  LBB4_43
-	JMP  LBB4_131
-
-LBB4_183:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
-	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB4_184:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e1c149                           // shl    r9, 5
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0x04b60f42; BYTE $0x0e               // movzx    eax, byte [rsi + r9]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b60f42; WORD $0x010e             // movzx    eax, byte [rsi + r9 + 1]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b60f42; WORD $0x020e             // movzx    eax, byte [rsi + r9 + 2]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b60f42; WORD $0x030e             // movzx    eax, byte [rsi + r9 + 3]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b60f42; WORD $0x040e             // movzx    eax, byte [rsi + r9 + 4]
-	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
-	LONG $0x44b60f42; WORD $0x050e             // movzx    eax, byte [rsi + r9 + 5]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b60f42; WORD $0x060e             // movzx    eax, byte [rsi + r9 + 6]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b60f42; WORD $0x070e             // movzx    eax, byte [rsi + r9 + 7]
-	LONG $0x6e0f4466; BYTE $0xf0               // movd    xmm14, eax
-	LONG $0x44b60f42; WORD $0x080e             // movzx    eax, byte [rsi + r9 + 8]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x44b60f42; WORD $0x090e             // movzx    eax, byte [rsi + r9 + 9]
-	LONG $0x6e0f4466; BYTE $0xd8               // movd    xmm11, eax
-	LONG $0x44b60f42; WORD $0x0a0e             // movzx    eax, byte [rsi + r9 + 10]
-	LONG $0x6e0f4466; BYTE $0xe0               // movd    xmm12, eax
-	LONG $0x44b60f42; WORD $0x0b0e             // movzx    eax, byte [rsi + r9 + 11]
-	LONG $0x6e0f4466; BYTE $0xe8               // movd    xmm13, eax
-	LONG $0x44b60f42; WORD $0x0c0e             // movzx    eax, byte [rsi + r9 + 12]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x44b60f42; WORD $0x0d0e             // movzx    eax, byte [rsi + r9 + 13]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0x44b60f42; WORD $0x0e0e             // movzx    eax, byte [rsi + r9 + 14]
-	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
-	LONG $0x44b60f42; WORD $0x0f0e             // movzx    eax, byte [rsi + r9 + 15]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	LONG $0x40cc8349                           // or    r12, 64
-	LONG $0x60cd8349                           // or    r13, 96
-	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
-	LONG $0x2454894c; BYTE $0x40               // mov    qword [rsp + 64], r10
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x247c894c; BYTE $0x18               // mov    qword [rsp + 24], r15
-	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
-	LONG $0x00ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 256
-	QUAD $0x000000b024b4894c                   // mov    qword [rsp + 176], r14
-	LONG $0x20ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 288
-	LONG $0x40c88149; WORD $0x0001; BYTE $0x00 // or    r8, 320
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rcx], 1
-	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
-	QUAD $0x022624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 2
-	QUAD $0x032e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 3
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x04 // pinsrb    xmm4, byte [rsi + rcx], 4
-	QUAD $0x051624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 5
-	QUAD $0x063e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 6
-	QUAD $0x071e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 7
-	QUAD $0x083624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 8
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdx], 9
-	QUAD $0x0a0624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 10
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rcx], 12
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x0d0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 13
-	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rax], 14
-	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rdi], 15
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 1], 1
-	QUAD $0x01265c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r12 + 1], 2
-	QUAD $0x012e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 1], 3
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x012e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r13 + 1], 4
-	QUAD $0x01165c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r10 + 1], 5
-	QUAD $0x013e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 1], 6
-	QUAD $0x011e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 1], 7
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x01365c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r14 + 1], 8
-	QUAD $0x0901165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 9
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x01065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 1], 10
-	QUAD $0x0b011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 11
-	QUAD $0x0c010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 12
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0d01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 13
-	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
-	QUAD $0x0000a0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 160]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	QUAD $0x0f013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 15
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x020e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r9 + 2], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x02023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 2
-	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
-	QUAD $0x02266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 2], 3
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x022e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r13 + 2], 4
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x022e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r13 + 2], 6
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x02166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 2], 7
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x02366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 2], 9
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x02166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 2], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x02366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 2], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 14
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x0f020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 15
-	QUAD $0x0103167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 1
-	QUAD $0x02033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 2
-	QUAD $0x03267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 3], 3
-	QUAD $0x03067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 3], 4
-	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
-	QUAD $0x032e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r13 + 3], 6
-	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
-	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
-	QUAD $0x030e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 3], 9
-	QUAD $0x03167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 3], 10
-	QUAD $0x03367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 14
-	QUAD $0x0f030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 15
-	QUAD $0x04164c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rdx + 4], 1
-	QUAD $0x043e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 4], 2
-	QUAD $0x04264c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r12 + 4], 3
-	QUAD $0x04064c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r8 + 4], 4
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x041e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 4], 5
-	QUAD $0x042e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r13 + 4], 6
-	QUAD $0x041e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 4], 7
-	QUAD $0x043e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r15 + 4], 8
-	QUAD $0x040e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 4], 9
-	QUAD $0x04164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 4], 10
-	QUAD $0x04364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x04064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 4], 12
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x04064c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r8 + 4], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x04164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 4], 14
-	QUAD $0x040e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x052654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 5], 1
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x052e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 5], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x03050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 3
-	QUAD $0x04053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 4
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x051e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r11 + 5], 5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x06050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 6
-	QUAD $0x00000110249c8948                   // mov    qword [rsp + 272], rbx
-	QUAD $0x07051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 7
-	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
-	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
-	QUAD $0x050e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 5], 9
-	QUAD $0x051654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 5], 10
-	QUAD $0x053654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 5], 11
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0c051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 12
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 5], 13
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x050654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 5], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
-	QUAD $0x062644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 6], 1
-	QUAD $0x062e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 6], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x060644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 6], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x062e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r13 + 6], 4
-	QUAD $0x063e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 6], 5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x060644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 6], 6
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x061e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 6], 7
-	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
-	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
-	QUAD $0x061644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 6], 10
-	QUAD $0x063644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 6], 11
-	QUAD $0x061644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 6], 12
-	QUAD $0x060e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 6], 13
-	QUAD $0x060644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 6], 14
-	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
-	QUAD $0x072674203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r12 + 7], 1
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x072674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 7], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x070674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rax + 7], 3
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x071e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 7], 4
-	QUAD $0x073e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 7], 5
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x072e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r13 + 7], 6
-	QUAD $0x071e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 7], 7
-	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
-	QUAD $0x071674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r10 + 7], 10
-	QUAD $0x073674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 7], 11
-	QUAD $0x071674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 7], 12
-	QUAD $0x070e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rcx + 7], 13
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x070674203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r8 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x3e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rdi + 20]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x3e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rdi + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x01080644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 8], 1
-	QUAD $0x082644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x082644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 8], 3
-	QUAD $0x081e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 8], 4
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x083644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r14 + 8], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x06081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x081e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x083e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 8], 8
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x081644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 8], 9
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x083e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r15 + 8], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 11
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0c081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 12
-	QUAD $0x082e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 8], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 14
-	QUAD $0x0f080e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x3e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rdi + 22]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x09065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 9], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x093e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 9], 2
-	QUAD $0x09265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 9], 3
-	QUAD $0x09065c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r8 + 9], 4
-	QUAD $0x09365c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r14 + 9], 5
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x092e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r13 + 9], 6
-	QUAD $0x091e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 9], 7
-	QUAD $0x091e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rbx + 9], 8
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x09165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 9], 9
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x093e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r15 + 9], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x09165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 9], 11
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x093e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 9], 12
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x09165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 9], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x09165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 9], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x09165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 9], 15
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 10], 1
-	QUAD $0x0a3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 10], 2
-	QUAD $0x0a2664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r12 + 10], 3
-	QUAD $0x0a0664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r8 + 10], 4
-	QUAD $0x0a3664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r14 + 10], 5
-	QUAD $0x0a2e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r13 + 10], 6
-	QUAD $0x0a1e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 10], 7
-	QUAD $0x0a1e64203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rbx + 10], 8
-	QUAD $0x0a0e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 10], 10
-	QUAD $0x0a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 10], 11
-	QUAD $0x0a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 10], 12
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 10], 14
-	QUAD $0x0a1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 10], 15
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 11], 1
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 11], 2
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0b266c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r12 + 11], 3
-	QUAD $0x0b066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 11], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 11], 5
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r13 + 11], 6
-	QUAD $0x0b1e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 11], 7
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	QUAD $0x0b1e6c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rbx + 11], 8
-	QUAD $0x0b0e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 11], 9
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 11], 10
-	QUAD $0x0b166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 11], 11
-	QUAD $0x0b3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 11], 12
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 11], 13
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 11], 14
-	QUAD $0x0b166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r11 + 12], 1
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0c364c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r14 + 12], 2
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 12], 3
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0c364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 12], 4
-	QUAD $0x0c064c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rax + 12], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0c164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 12], 6
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x0c264c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r12 + 12], 7
-	QUAD $0x0c1e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rbx + 12], 8
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 12], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0c264c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r12 + 12], 10
-	QUAD $0x0c164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 12], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c164c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r10 + 12], 12
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
-	QUAD $0x0c0e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r9 + 12], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 12], 15
-	QUAD $0x0d1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 13], 1
-	QUAD $0x0d0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 13], 2
-	QUAD $0x030d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 3
-	QUAD $0x0d3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 13], 4
-	QUAD $0x050d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 5
-	QUAD $0x060d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 6
-	QUAD $0x0d3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 13], 7
-	QUAD $0x080d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 8
-	QUAD $0x090d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 9
-	QUAD $0x0d2674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r12 + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 11
-	QUAD $0x0d1674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 13], 12
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0d1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 13], 13
-	QUAD $0x0d0e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r9 + 13], 14
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0d0e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 13], 15
-	QUAD $0x0e1e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r11 + 14], 1
-	QUAD $0x0e067c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r8 + 14], 2
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdi + 14], 3
-	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
-	QUAD $0x0e067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 14], 5
-	QUAD $0x0e167c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdx + 14], 6
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 14], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 14], 8
-	QUAD $0x0e0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 14], 9
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x0e267c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r12 + 14], 10
-	QUAD $0x0e1e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rbx + 14], 11
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0e2e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r13 + 14], 12
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0e167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 14], 13
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0e167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0e0e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r9 + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x010f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 1
-	QUAD $0x0f0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 15], 2
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x0f0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 15], 3
-	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x060f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 6
-	QUAD $0x0f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 15], 7
-	QUAD $0x080f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 8
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x090f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 9
-	QUAD $0x0f1e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r11 + 15], 10
-	QUAD $0x0b0f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 11
-	QUAD $0x0f2674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 15], 12
-	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
-	QUAD $0x0f1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 15], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f1674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x101654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 16], 1
-	QUAD $0x100654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r8 + 16], 2
-	QUAD $0x100e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 16], 3
-	QUAD $0x103654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 16], 4
-	QUAD $0x100e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 16], 5
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
-	QUAD $0x103e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 16], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x100e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 16], 8
-	QUAD $0x103e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdi + 16], 9
-	QUAD $0x101e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r11 + 16], 10
-	QUAD $0x101e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 16], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x100654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 16], 12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x102e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x102e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 16], 14
-	QUAD $0x101654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 16], 15
-	QUAD $0x01111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 1
-	QUAD $0x110664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r8 + 17], 2
-	QUAD $0x110e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 17], 3
-	QUAD $0x113664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 17], 4
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x112664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 17], 6
-	QUAD $0x113e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 17], 7
-	QUAD $0x08110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 8
-	QUAD $0x09113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 9
-	QUAD $0x111e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r11 + 17], 10
-	QUAD $0x0b111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x112664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 17], 12
-	QUAD $0x0d110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 13
-	QUAD $0x112e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 17], 14
-	QUAD $0x111664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 17], 15
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
-	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
-	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
-	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
-	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
-	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
-	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
-	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
-	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
-	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
-	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
-	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
-	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
-	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
-	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
-	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
-	QUAD $0x12367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 18], 4
-	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	QUAD $0x120e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 18], 6
-	QUAD $0x123e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r15 + 18], 7
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x09120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 9
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x12267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 18], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x12267c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r12 + 18], 13
-	QUAD $0x122e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 18], 14
-	QUAD $0x0f123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 15
-	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
-	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
-	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
-	QUAD $0x06131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 6
-	QUAD $0x133e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r15 + 19], 7
-	QUAD $0x131e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 19], 8
-	QUAD $0x09130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 9
-	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
-	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
-	QUAD $0x0c13066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 12
-	QUAD $0x13266c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r12 + 19], 13
-	QUAD $0x132e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 19], 14
-	QUAD $0x0f133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 15
-	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
-	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
-	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
-	QUAD $0x06141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 6
-	QUAD $0x143e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r15 + 20], 7
-	QUAD $0x141e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 20], 8
-	QUAD $0x09140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 9
-	QUAD $0x140e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 20], 10
-	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
-	QUAD $0x0c14065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 12
-	QUAD $0x14265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 20], 13
-	QUAD $0x142e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000a024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 160]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x0f143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 15
-	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
-	QUAD $0x06151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 6
-	QUAD $0x153e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 21], 7
-	QUAD $0x151e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 21], 8
-	QUAD $0x09150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 9
-	QUAD $0x150e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 21], 10
-	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
-	QUAD $0x0c150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 12
-	QUAD $0x152654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 21], 13
-	QUAD $0x152e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 21], 14
-	QUAD $0x0f153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
-	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
-	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
-	QUAD $0x06161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 6
-	QUAD $0x163e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r15 + 22], 7
-	QUAD $0x161e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 22], 8
-	QUAD $0x09160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 9
-	QUAD $0x160e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 22], 10
-	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
-	QUAD $0x0c16064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 12
-	QUAD $0x16264c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r12 + 22], 13
-	QUAD $0x162e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 22], 14
-	QUAD $0x0f163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
-	QUAD $0x171e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 23], 6
-	QUAD $0x173e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r15 + 23], 7
-	QUAD $0x171e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 23], 8
-	QUAD $0x170e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 23], 9
-	QUAD $0x170e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 23], 10
-	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
-	QUAD $0x170644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rax + 23], 12
-	QUAD $0x172644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r12 + 23], 13
-	QUAD $0x172e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdi + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
-	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
-	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
-	QUAD $0x181e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rbx + 24], 6
-	QUAD $0x183e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r15 + 24], 7
-	QUAD $0x181e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 24], 8
-	QUAD $0x180e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 24], 9
-	QUAD $0x180e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 24], 10
-	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
-	QUAD $0x180664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rax + 24], 12
-	QUAD $0x182664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r12 + 24], 13
-	QUAD $0x182e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r13 + 24], 14
-	QUAD $0x183e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
-	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
-	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
-	QUAD $0x191e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 25], 6
-	QUAD $0x193e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r15 + 25], 7
-	QUAD $0x191e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 25], 8
-	QUAD $0x190e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 25], 9
-	QUAD $0x190e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 25], 10
-	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
-	QUAD $0x19066c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rax + 25], 12
-	QUAD $0x19266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 25], 13
-	QUAD $0x192e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r13 + 25], 14
-	QUAD $0x193e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 25], 15
-	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
-	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
-	QUAD $0x061a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x1a3e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r15 + 26], 7
-	QUAD $0x1a1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 26], 8
-	QUAD $0x091a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x1a0e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 26], 10
-	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
-	QUAD $0x0c1a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 12
-	QUAD $0x1a2644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 26], 13
-	QUAD $0x1a2e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 26], 14
-	QUAD $0x0f1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 15
-	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
-	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
-	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
-	QUAD $0x1b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 27], 6
-	QUAD $0x1b3e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r15 + 27], 7
-	QUAD $0x1b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 27], 8
-	QUAD $0x1b0e5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rcx + 27], 9
-	QUAD $0x1b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 27], 10
-	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
-	QUAD $0x1b065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 27], 12
-	QUAD $0x1b265c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r12 + 27], 13
-	QUAD $0x1b2e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r13 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
-	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
-	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
-	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
-	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
-	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
-	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
-	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
-	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
-	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
-	QUAD $0x1c1e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rbx + 28], 6
-	QUAD $0x1d1e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rbx + 29], 6
-	QUAD $0x1e1e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rbx + 30], 6
-	QUAD $0x061f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 6
-	QUAD $0x1c3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 28], 7
-	QUAD $0x1d3e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 29], 7
-	QUAD $0x1e3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 30], 7
-	QUAD $0x1f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 31], 7
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1c1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 28], 8
-	QUAD $0x1d1e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 29], 8
-	QUAD $0x1e1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 30], 8
-	QUAD $0x1f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 31], 8
-	QUAD $0x1c0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 28], 9
-	QUAD $0x1d0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 29], 9
-	QUAD $0x1e0e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 30], 9
-	QUAD $0x091f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 9
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x1c0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 28], 10
-	QUAD $0x1d0e4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r9 + 29], 10
-	QUAD $0x1e0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 30], 10
-	QUAD $0x1f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 31], 10
-	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
-	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
-	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
-	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
-	QUAD $0x1c067c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rax + 28], 12
-	QUAD $0x1d064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 29], 12
-	QUAD $0x1e0654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 12
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 28], 13
-	QUAD $0x1d264c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r12 + 29], 13
-	QUAD $0x1e2654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r12 + 30], 13
-	QUAD $0x1f2674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r12 + 31], 13
-	QUAD $0x1c2e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 28], 14
-	QUAD $0x1d2e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 29], 14
-	QUAD $0x1e2e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 30], 14
-	QUAD $0x1f2e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r13 + 31], 14
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdi + 28], 15
-	QUAD $0x1d3e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdi + 29], 15
-	QUAD $0x1e3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x0f1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x0000d0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 208]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
-	JNE  LBB4_184
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	JNE  LBB4_69
-	JMP  LBB4_135
-
-LBB4_186:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
-	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
-	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB4_187:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
-	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
-	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
-	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
-	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
-	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
-	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
-	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
-	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
-	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
-	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
-	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
-	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
-	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
-	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
-	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
-	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
-	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
-	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
-	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
-	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
-	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
-	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
-	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
-	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
-	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
-	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
-	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
-	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
-	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
-	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
-	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
-	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
-	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
-	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
-	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
-	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
-	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
-	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
-	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
-	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
-	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
-	LONG $0x30245489                           // mov    dword [rsp + 48], edx
-	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
-	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
-	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
-	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
-	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
-	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
-	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
-	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
-	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
-	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
-	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
-	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
-	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
-	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
-	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
-	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
-	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
-	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
-	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
-	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
-	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
-	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
-	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
-	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
-	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
-	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
-	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
-	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
-	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
-	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
-	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
-	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
-	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
-	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
-	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
-	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
-	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
-	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
-	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
-	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
-	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
-	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
-	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
-	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
-	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
-	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
-	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
-	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
-	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
-	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
-	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
-	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
-	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
-	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
-	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
-	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
-	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
-	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
-	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
-	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
-	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
-	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
-	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
-	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
-	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
-	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
-	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
-	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
-	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
-	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
-	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
-	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
-	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
-	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
-	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
-	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
-	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
-	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
-	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
-	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
-	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
-	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
-	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
-	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
-	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
-	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
-	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
-	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
-	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
-	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
-	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
-	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
-	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
-	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
-	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
-	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
-	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
-	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
-	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
-	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
-	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
-	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
-	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
-	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
-	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB4_187
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	JNE  LBB4_92
-	JMP  LBB4_139
-
-LBB4_189:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
-	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
-	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB4_190:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
-	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
-	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
-	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
-	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
-	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
-	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
-	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
-	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
-	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
-	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
-	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
-	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
-	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
-	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
-	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
-	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
-	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
-	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
-	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
-	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
-	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
-	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
-	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
-	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
-	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
-	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
-	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
-	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
-	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
-	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
-	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
-	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
-	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
-	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
-	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
-	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
-	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
-	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
-	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
-	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
-	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
-	LONG $0x30245489                           // mov    dword [rsp + 48], edx
-	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
-	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
-	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
-	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
-	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
-	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
-	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
-	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
-	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
-	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
-	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
-	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
-	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
-	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
-	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
-	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
-	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
-	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
-	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
-	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
-	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
-	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
-	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
-	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
-	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
-	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
-	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
-	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
-	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
-	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
-	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
-	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
-	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
-	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
-	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
-	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
-	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
-	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
-	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
-	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
-	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
-	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
-	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
-	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
-	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
-	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
-	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
-	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
-	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
-	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
-	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
-	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
-	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
-	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
-	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
-	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
-	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
-	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
-	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
-	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
-	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
-	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
-	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
-	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
-	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
-	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
-	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
-	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
-	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
-	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
-	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
-	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
-	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
-	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
-	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
-	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
-	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
-	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
-	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
-	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
-	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
-	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
-	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
-	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
-	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
-	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
-	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
-	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
-	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
-	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
-	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
-	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
-	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
-	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
-	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
-	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
-	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
-	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
-	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
-	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
-	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
-	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
-	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
-	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
-	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB4_190
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	JNE  LBB4_104
-	JMP  LBB4_144
-
-LBB4_192:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x861c8d4f                           // lea    r11, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI4_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI4_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI4_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_193:
-	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
-	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
-	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
-	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
-	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
-	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
-	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
-	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
-	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
-	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
-	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
-	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
-	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
-	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
-	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
-	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
-	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
-	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
-	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
-	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
-	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
-	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
-	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
-	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
-	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
-	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
-	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
-	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
-	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
-	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
-	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
-	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
-	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
-	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
-	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
-	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
-	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
-	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
-	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
-	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
-	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
-	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
-	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
-	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
-	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
-	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
-	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
-	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
-	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
-	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
-	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
-	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
-	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
-	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
-	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
-	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
-	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
-	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
-	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
-	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
-	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
-	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
-	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
-	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
-	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
-	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
-	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
-	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
-	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
-	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
-	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
-	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
-	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
-	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB4_193
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB4_127
-	JMP  LBB4_148
-
-DATA LCDATA4<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA4<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA4<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA4<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA4<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA4<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA4<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA4<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA4<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA4<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA4<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA4<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA4<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA4<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA4<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA4<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $368
-
-TEXT ·_comparison_not_equal_scalar_arr_sse4(SB), $312-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 288(SP)
-	LEAQ LCDATA4<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc7     // mov    r15, r8
-	LONG $0x244c8948; BYTE $0x08 // mov    qword [rsp + 8], rcx
-	WORD $0x8949; BYTE $0xd6     // mov    r14, rdx
-	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
-	JG   LBB5_26
-	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
-	JLE  LBB5_2
-	WORD $0xff83; BYTE $0x04     // cmp    edi, 4
-	JE   LBB5_99
-	WORD $0xff83; BYTE $0x05     // cmp    edi, 5
-	JE   LBB5_122
-	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
-	JNE  LBB5_199
-	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_17
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_15:
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f44; BYTE $0x32               // movzx    r8d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x323c8840                           // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_15
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_21
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_19:
-	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x205d3b45                           // cmp    r11d, dword [r13 + 32]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x405d3b45                           // cmp    r11d, dword [r13 + 64]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x605d3b45                           // cmp    r11d, dword [r13 + 96]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	QUAD $0x0000009824b40244                   // add    r14b, byte [rsp + 152]
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xca08                               // or    dl, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xd008                               // or    al, dl
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ee8349                           // sub    r14, -128
-	LONG $0x04c78349                           // add    r15, 4
-	LONG $0x247c894c; BYTE $0x08               // mov    qword [rsp + 8], r15
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_19
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_21:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB5_23
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_143:
-	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
-	LONG $0x08768d4d             // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_143
-	JMP  LBB5_24
-
-LBB5_26:
-	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
-	JLE  LBB5_27
-	WORD $0xff83; BYTE $0x09     // cmp    edi, 9
-	JE   LBB5_158
-	WORD $0xff83; BYTE $0x0b     // cmp    edi, 11
-	JE   LBB5_170
-	WORD $0xff83; BYTE $0x0c     // cmp    edi, 12
-	JNE  LBB5_199
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_49
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_47:
-	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_47
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_53
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
-
-LBB5_51:
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2e0f4166; WORD $0x0846             // ucomisd    xmm0, qword [r14 + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2e0f4166; WORD $0x1046             // ucomisd    xmm0, qword [r14 + 16]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2e0f4166; WORD $0x1846             // ucomisd    xmm0, qword [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2e0f4166; WORD $0x2046             // ucomisd    xmm0, qword [r14 + 32]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x2e0f4166; WORD $0x2846             // ucomisd    xmm0, qword [r14 + 40]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x2e0f4166; WORD $0x3046             // ucomisd    xmm0, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x2e0f4166; WORD $0x3846             // ucomisd    xmm0, qword [r14 + 56]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2e0f4166; WORD $0x4046             // ucomisd    xmm0, qword [r14 + 64]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x2e0f4166; WORD $0x4846             // ucomisd    xmm0, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2e0f4166; WORD $0x5046             // ucomisd    xmm0, qword [r14 + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2e0f4166; WORD $0x5846             // ucomisd    xmm0, qword [r14 + 88]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x2e0f4166; WORD $0x6046             // ucomisd    xmm0, qword [r14 + 96]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2e0f4166; WORD $0x6846             // ucomisd    xmm0, qword [r14 + 104]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2e0f4166; WORD $0x7046             // ucomisd    xmm0, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2e0f4166; WORD $0x7846             // ucomisd    xmm0, qword [r14 + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x000080862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 128]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	QUAD $0x000088862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x000090862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000098862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	QUAD $0x0000a0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x0000a8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 168]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	QUAD $0x0000b0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 176]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x0000b8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 184]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000c0248c0244                   // add    r9b, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009024b40240                   // add    sil, byte [rsp + 144]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0x8941; BYTE $0xd9                   // mov    r9d, ebx
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008824bcb60f                   // movzx    edi, byte [rsp + 136]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x78245c02                           // add    bl, byte [rsp + 120]
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	WORD $0x4688; BYTE $0x03                   // mov    byte [rsi + 3], al
-	LONG $0x00b28d4c; WORD $0x0001; BYTE $0x00 // lea    r14, [rdx + 256]
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB5_51
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-
-LBB5_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_193
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_195
-
-LBB5_2:
-	WORD $0xff83; BYTE $0x02     // cmp    edi, 2
-	JE   LBB5_56
-	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
-	JNE  LBB5_199
-	WORD $0x068a                 // mov    al, byte [rsi]
-	LONG $0x40244488             // mov    byte [rsp + 64], al
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_8
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_6:
-	LONG $0x244cb60f; BYTE $0x40   // movzx    ecx, byte [rsp + 64]
-	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
-	LONG $0x01768d4d               // lea    r14, [r14 + 1]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_6
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_8:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_9
-	LONG $0x10fa8349             // cmp    r10, 16
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB5_82
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_85
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB5_85
-
-LBB5_82:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
-
-LBB5_88:
-	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB5_89:
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
-	LONG $0x01508844                           // mov    byte [rax + 1], r10b
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
-	LONG $0x20c68349                           // add    r14, 32
-	LONG $0x04c08348                           // add    rax, 4
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB5_89
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB5_91
-
-LBB5_27:
-	WORD $0xff83; BYTE $0x07     // cmp    edi, 7
-	JE   LBB5_144
-	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
-	JNE  LBB5_199
-	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_33
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_31:
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_31
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_37
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_35:
-	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_35
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_37:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB5_39
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_157:
-	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
-	LONG $0x10768d4d             // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_157
-	JMP  LBB5_40
-
-LBB5_56:
-	WORD $0x068a                 // mov    al, byte [rsi]
-	LONG $0x28244488             // mov    byte [rsp + 40], al
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_60
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_58:
-	LONG $0x244cb60f; BYTE $0x28   // movzx    ecx, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
-	LONG $0x01768d4d               // lea    r14, [r14 + 1]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_58
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_60:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_61
-	LONG $0x10fa8349             // cmp    r10, 16
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB5_63
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_66
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB5_66
-
-LBB5_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
-
-LBB5_69:
-	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB5_70:
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
-	LONG $0x01508844                           // mov    byte [rax + 1], r10b
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
-	LONG $0x20c68349                           // add    r14, 32
-	LONG $0x04c08348                           // add    rax, 4
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB5_70
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB5_72
-
-LBB5_144:
-	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_148
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_146:
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_146
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_148:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_152
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_150:
-	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x205e3b45                           // cmp    r11d, dword [r14 + 32]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x405e3b45                           // cmp    r11d, dword [r14 + 64]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x605e3b45                           // cmp    r11d, dword [r14 + 96]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x80ee8349                           // sub    r14, -128
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_150
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_152:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_154
-
-LBB5_23:
-	WORD $0xff31 // xor    edi, edi
-	JMP  LBB5_24
-
-LBB5_99:
-	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_103
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_101:
-	LONG $0x1e3b4566               // cmp    r11w, word [r14]
-	LONG $0x02768d4d               // lea    r14, [r14 + 2]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_101
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_103:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_104
-	LONG $0x08fa8349             // cmp    r10, 8
-	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	JB   LBB5_106
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_109
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_109
-
-LBB5_106:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_112:
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-
-LBB5_113:
-	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x063b4166                           // cmp    ax, word [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
-	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x05e0c041                           // shl    r8b, 5
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xc208                               // or    dl, al
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x24148841                           // mov    byte [r12], dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x40c68349                           // add    r14, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_113
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB5_115
-
-LBB5_122:
-	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_126
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_124:
-	LONG $0x1e3b4566               // cmp    r11w, word [r14]
-	LONG $0x02768d4d               // lea    r14, [r14 + 2]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_124
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_126:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_127
-	LONG $0x08fa8349             // cmp    r10, 8
-	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	JB   LBB5_129
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_132
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_132
-
-LBB5_129:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_135:
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-
-LBB5_136:
-	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x063b4166                           // cmp    ax, word [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
-	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x05e0c041                           // shl    r8b, 5
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xc208                               // or    dl, al
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x24148841                           // mov    byte [r12], dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x40c68349                           // add    r14, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_136
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB5_138
-
-LBB5_158:
-	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_162
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_160:
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_160
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_162:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_166
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_164:
-	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_164
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_166:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_168
-
-LBB5_39:
-	WORD $0xff31 // xor    edi, edi
-	JMP  LBB5_40
-
-LBB5_170:
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_174
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_172:
-	LONG $0x062e0f41                           // ucomiss    xmm0, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_172
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_174:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_175
-	LONG $0x04fa8349             // cmp    r10, 4
-	JB   LBB5_177
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x07e0c148             // shl    rax, 7
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_180
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_180
-
-LBB5_177:
-	WORD $0x3145; BYTE $0xc0     // xor    r8d, r8d
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB5_183:
-	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
-	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
-
-LBB5_184:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x78244402                           // add    al, byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB5_184
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	JMP  LBB5_186
-
-LBB5_9:
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
-
-LBB5_91:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_97
-
-LBB5_61:
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
-
-LBB5_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_75
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_78
-
-LBB5_104:
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_115:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB5_117
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_121:
-	LONG $0x1e3b4566             // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
-	LONG $0x04768d4d             // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB5_121
-	JMP  LBB5_118
-
-LBB5_127:
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_138:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_140
-
-LBB5_117:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB5_118
-
-LBB5_175:
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-
-LBB5_186:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_191
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_189
-
-LBB5_154:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_155:
-	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
-	LONG $0x08768d4d             // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_155
-
-LBB5_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x3b45; BYTE $0x1e // cmp    r11d, dword [r14]
-	JMP  LBB5_197
-
-LBB5_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000080249c8b4c // mov    r11, qword [rsp + 128]
-
-LBB5_95:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2474b60f; BYTE $0x40 // movzx    esi, byte [rsp + 64]
-	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
-	LONG $0x02708d48             // lea    rsi, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_95
-	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
-
-LBB5_97:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x4024448a         // mov    al, byte [rsp + 64]
-	WORD $0x3a41; BYTE $0x06 // cmp    al, byte [r14]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000008024848b4c // mov    r8, qword [rsp + 128]
-	JMP  LBB5_80
-
-LBB5_75:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
-
-LBB5_76:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2474b60f; BYTE $0x28 // movzx    esi, byte [rsp + 40]
-	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
-	LONG $0x02708d48             // lea    rsi, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_76
-	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
-
-LBB5_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x2824448a             // mov    al, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x06     // cmp    al, byte [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-
-LBB5_80:
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	JMP  LBB5_198
-
-LBB5_193:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB5_194:
-	LONG $0x2e0f4166; BYTE $0x06   // ucomisd    xmm0, qword [r14]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xfe       // mov    rsi, rdi
-	LONG $0x03eec148               // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x33   // movzx    r10d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xd0       // xor    al, r10b
-	WORD $0xf989                   // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b2                   // mov    dl, 1
-	WORD $0xe2d2                   // shl    dl, cl
-	WORD $0xc220                   // and    dl, al
-	WORD $0x3044; BYTE $0xd2       // xor    dl, r10b
-	LONG $0x33148841               // mov    byte [r11 + rsi], dl
-	LONG $0x02c78348               // add    rdi, 2
-	LONG $0x2e0f4166; WORD $0x0846 // ucomisd    xmm0, qword [r14 + 8]
-	LONG $0x10768d4d               // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0xd030                   // xor    al, dl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	WORD $0xc320                   // and    bl, al
-	WORD $0xd330                   // xor    bl, dl
-	LONG $0x331c8841               // mov    byte [r11 + rsi], bl
-	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
-	JNE  LBB5_194
-
-LBB5_195:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x2e0f4166; BYTE $0x06 // ucomisd    xmm0, qword [r14]
-	JMP  LBB5_197
-
-LBB5_168:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_169:
-	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
-	LONG $0x10768d4d             // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_169
-
-LBB5_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x3b4d; BYTE $0x1e // cmp    r11, qword [r14]
-
-LBB5_197:
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfa     // mov    rdx, rdi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x10348a41             // mov    sil, byte [r8 + rdx]
-	LONG $0x07e78040             // and    dil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0     // xor    al, sil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xf3     // xor    bl, sil
-
-LBB5_198:
-	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
-	JMP  LBB5_199
-
-LBB5_140:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_141:
-	LONG $0x1e3b4566             // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
-	LONG $0x04768d4d             // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB5_141
-
-LBB5_118:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x1e3b4566         // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB5_199
-
-LBB5_191:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB5_192:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_192
-
-LBB5_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB5_199:
-	MOVQ 288(SP), SP
-	RET
-
-LBB5_85:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0             // add    rax, r14
-	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
-	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
-	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
-	QUAD $0x0000008024848948             // mov    qword [rsp + 128], rax
-	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB5_86:
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x20cf8348                           // or    rdi, 32
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	LONG $0x40c98349                           // or    r9, 64
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0xa0ca8148; WORD $0x0000; BYTE $0x00 // or    rdx, 160
-	LONG $0xc0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 192
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x40cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 320
-	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
-	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
-	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	QUAD $0x013e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 1
-	QUAD $0x020e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 2
-	QUAD $0x031e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 3
-	QUAD $0x043e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 4
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	QUAD $0x051624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 5
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0000009824ac894c                   // mov    qword [rsp + 152], r13
-	QUAD $0x062e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 6
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x070624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 7
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x082624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 8
-	QUAD $0x091624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 9
-	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
-	QUAD $0x0a1e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
-	QUAD $0x0c3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 12
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0d0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 13
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0e2624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 14
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0f1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 15
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x013e5c203a0f4366; BYTE $0x01       // pinsrb    xmm3, byte [r14 + r15 + 1], 1
-	QUAD $0x010e5c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r9 + 1], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x011e5c203a0f4166; BYTE $0x03       // pinsrb    xmm3, byte [r14 + rbx + 1], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
-	QUAD $0x013e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rdi + 1], 5
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	QUAD $0x01165c203a0f4166; BYTE $0x06       // pinsrb    xmm3, byte [r14 + rdx + 1], 6
-	QUAD $0x012e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r13 + 1], 7
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x01065c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r8 + 1], 8
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x01165c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r10 + 1], 9
-	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
-	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
-	QUAD $0x011e5c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r11 + 1], 10
-	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
-	QUAD $0x01365c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rsi + 1], 12
-	QUAD $0x010e5c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rcx + 1], 13
-	QUAD $0x01265c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r12 + 1], 14
-	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01065c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rax + 1], 15
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x02266c203a0f4366; BYTE $0x01       // pinsrb    xmm5, byte [r14 + r12 + 2], 1
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x020e6c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rcx + 2], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x020e6c203a0f4366; BYTE $0x04       // pinsrb    xmm5, byte [r14 + r9 + 2], 4
-	QUAD $0x023e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rdi + 2], 5
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x02166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 2], 6
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	QUAD $0x021e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rbx + 2], 7
-	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
-	QUAD $0x022e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r13 + 2], 8
-	QUAD $0x02166c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdx + 2], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x023e6c203a0f4166; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + rdi + 2], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x02066c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rax + 2], 12
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x021e6c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rbx + 2], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x020e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r9 + 2], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x02166c203a0f4166; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + rdx + 2], 15
-	QUAD $0x03267c203a0f4366; BYTE $0x01       // pinsrb    xmm7, byte [r14 + r12 + 3], 1
-	QUAD $0x030e7c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rcx + 3], 2
-	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
-	QUAD $0x031e7c203a0f4366; BYTE $0x04       // pinsrb    xmm7, byte [r14 + r11 + 3], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x03067c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rax + 3], 5
-	QUAD $0x03167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 3], 6
-	QUAD $0x03067c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r8 + 3], 7
-	QUAD $0x032e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r13 + 3], 8
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x03067c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rax + 3], 9
-	QUAD $0x033e7c203a0f4166; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + rdi + 3], 10
-	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x03067c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rax + 3], 12
-	QUAD $0x031e7c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rbx + 3], 13
-	QUAD $0x030e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r9 + 3], 14
-	QUAD $0x03167c203a0f4166; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + rdx + 3], 15
-	QUAD $0x04264c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r12 + 4], 1
-	QUAD $0x040e4c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rcx + 4], 2
-	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
-	QUAD $0x041e4c203a0f4766; BYTE $0x04       // pinsrb    xmm9, byte [r14 + r11 + 4], 4
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x04264c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r12 + 4], 5
-	QUAD $0x04164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 4], 6
-	QUAD $0x04064c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r8 + 4], 7
-	QUAD $0x042e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 4], 8
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x040e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 4], 9
-	QUAD $0x043e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rdi + 4], 10
-	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
-	QUAD $0x04064c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rax + 4], 12
-	QUAD $0x041e4c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rbx + 4], 13
-	QUAD $0x040e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r9 + 4], 14
-	QUAD $0x04164c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rdx + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x053e54203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rdi + 5], 2
-	QUAD $0x053e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 5], 3
-	QUAD $0x051e54203a0f4366; BYTE $0x04       // pinsrb    xmm2, byte [r14 + r11 + 5], 4
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x052654203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r12 + 5], 5
-	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x050654203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r8 + 5], 7
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x051e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 5], 8
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x052654203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r12 + 5], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x053654203a0f4166; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + rsi + 5], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x050654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 5], 11
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x050654203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rax + 5], 12
-	QUAD $0x051e54203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rbx + 5], 13
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x053e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r15 + 5], 14
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x053e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r15 + 5], 15
-	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
-	QUAD $0x063e44203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rdi + 6], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x060644203a0f4566; BYTE $0x03       // pinsrb    xmm8, byte [r14 + rax + 6], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x060644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 6], 4
-	QUAD $0x060e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r9 + 6], 5
-	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
-	QUAD $0x062e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r13 + 6], 7
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0000008824ac894c                   // mov    qword [rsp + 136], r13
-	QUAD $0x061e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 6], 8
-	QUAD $0x062644203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r12 + 6], 9
-	QUAD $0x063644203a0f4566; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + rsi + 6], 10
-	QUAD $0x060644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 6], 11
-	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
-	QUAD $0x061e44203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rbx + 6], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x062e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r13 + 6], 14
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x063e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r15 + 6], 15
-	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
-	QUAD $0x073e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rdi + 7], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x070674203a0f4566; BYTE $0x03       // pinsrb    xmm14, byte [r14 + rax + 7], 3
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x071e74203a0f4766; BYTE $0x04       // pinsrb    xmm14, byte [r14 + r11 + 7], 4
-	QUAD $0x070e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r9 + 7], 5
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x070e74203a0f4766; BYTE $0x06       // pinsrb    xmm14, byte [r14 + r9 + 7], 6
-	QUAD $0x071674203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r10 + 7], 7
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
-	QUAD $0x072674203a0f4766; BYTE $0x09       // pinsrb    xmm14, byte [r14 + r12 + 7], 9
-	QUAD $0x073674203a0f4566; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + rsi + 7], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x070674203a0f4566; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + rax + 7], 11
-	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
-	QUAD $0x071e74203a0f4566; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + rbx + 7], 13
-	QUAD $0x072e74203a0f4766; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + r13 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x74b60f43; WORD $0x1416             // movzx    esi, byte [r14 + r10 + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x073e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r15 + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x74b60f43; WORD $0x1516             // movzx    esi, byte [r14 + r10 + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x080e44203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rcx + 8], 1
-	QUAD $0x083e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rdi + 8], 2
-	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
-	QUAD $0x081644203a0f4166; BYTE $0x03       // pinsrb    xmm0, byte [r14 + rdx + 8], 3
-	QUAD $0x081e44203a0f4366; BYTE $0x04       // pinsrb    xmm0, byte [r14 + r11 + 8], 4
-	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x080644203a0f4366; BYTE $0x05       // pinsrb    xmm0, byte [r14 + r8 + 8], 5
-	QUAD $0x080e44203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r9 + 8], 6
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x083e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rdi + 8], 7
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x081e44203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rbx + 8], 8
-	QUAD $0x082644203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r12 + 8], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x083644203a0f4166; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + rsi + 8], 10
-	QUAD $0x080644203a0f4166; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + rax + 8], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rax + 8], 12
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x080e44203a0f4366; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + r9 + 8], 13
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x081e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 8], 14
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x083644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rsi + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
-	LONG $0x74b60f43; WORD $0x1616             // movzx    esi, byte [r14 + r10 + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x090e5c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rcx + 9], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x09065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 9], 2
-	QUAD $0x092e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r13 + 9], 3
-	QUAD $0x09165c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rdx + 9], 4
-	QUAD $0x09065c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r8 + 9], 5
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x093e5c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r15 + 9], 6
-	QUAD $0x093e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rdi + 9], 7
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x091e5c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rbx + 9], 8
-	QUAD $0x09265c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r12 + 9], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x09365c203a0f4566; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + rsi + 9], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
-	QUAD $0x090e5c203a0f4766; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + r9 + 9], 13
-	QUAD $0x091e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 9], 14
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x09065c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r8 + 9], 15
-	QUAD $0x0a0e64203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rcx + 10], 1
-	QUAD $0x0a0664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 10], 2
-	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0a1e64203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rbx + 10], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a2e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r13 + 10], 5
-	QUAD $0x0a1664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 10], 6
-	QUAD $0x0a3e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r15 + 10], 7
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0a1e64203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rbx + 10], 8
-	QUAD $0x0a2664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r12 + 10], 9
-	QUAD $0x0a3664203a0f4566; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + rsi + 10], 10
-	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
-	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
-	QUAD $0x0a0e64203a0f4766; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + r9 + 10], 13
-	QUAD $0x0a1e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 10], 14
-	QUAD $0x0a0664203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r8 + 10], 15
-	QUAD $0x0b0e6c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rcx + 11], 1
-	QUAD $0x0b066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 11], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
-	QUAD $0x0b166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 11], 6
-	QUAD $0x0b3e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r15 + 11], 7
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0b2e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r13 + 11], 8
-	QUAD $0x0b266c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r12 + 11], 9
-	QUAD $0x0b366c203a0f4566; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + rsi + 11], 10
-	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
-	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
-	QUAD $0x0b0e6c203a0f4766; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + r9 + 11], 13
-	QUAD $0x0b1e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 11], 14
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0b066c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r8 + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x171e             // movzx    esi, byte [r14 + rbx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x74b60f41; WORD $0x181e             // movzx    esi, byte [r14 + rbx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rcx + 12], 1
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c264c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r12 + 12], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0c0e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 12], 5
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x0c164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 12], 6
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
-	QUAD $0x0c2e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 12], 8
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 12], 9
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0c164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 12], 10
-	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
-	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
-	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
-	QUAD $0x0d2674203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r12 + 13], 2
-	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
-	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
-	QUAD $0x0d0e74203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r9 + 13], 5
-	QUAD $0x0d0674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r8 + 13], 6
-	QUAD $0x0d1e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r11 + 13], 7
-	QUAD $0x0d2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 13], 8
-	QUAD $0x0d0e74203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rcx + 13], 9
-	QUAD $0x0d1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 13], 10
-	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
-	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
-	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
-	QUAD $0x0e267c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r12 + 14], 2
-	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
-	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
-	QUAD $0x0e0e7c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r9 + 14], 5
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	QUAD $0x0e067c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r8 + 14], 6
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0e1e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r11 + 14], 7
-	QUAD $0x0e2e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r13 + 14], 8
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rcx + 14], 9
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x0e167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 14], 10
-	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
-	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
-	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0f0e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r9 + 15], 2
-	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0f0674203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r8 + 15], 4
-	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
-	QUAD $0x0f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 15], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0f3674203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rsi + 15], 7
-	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
-	QUAD $0x0f2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 15], 8
-	QUAD $0x0f1e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r11 + 15], 9
-	QUAD $0x0f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 15], 10
-	QUAD $0x0f1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 15], 11
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rdx + 15], 14
-	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
-	QUAD $0x100e54203a0f4766; BYTE $0x02       // pinsrb    xmm10, byte [r14 + r9 + 16], 2
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
-	QUAD $0x100654203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r8 + 16], 4
-	QUAD $0x101e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 16], 5
-	QUAD $0x102654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 16], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x103e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rdi + 16], 7
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x103e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r15 + 16], 8
-	QUAD $0x101e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r11 + 16], 9
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x103e54203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r15 + 16], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x100e54203a0f4566; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + rcx + 16], 11
-	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
-	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
-	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
-	QUAD $0x110e64203a0f4366; BYTE $0x02       // pinsrb    xmm4, byte [r14 + r9 + 17], 2
-	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
-	QUAD $0x110664203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r8 + 17], 4
-	QUAD $0x111e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rbx + 17], 5
-	QUAD $0x112664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r12 + 17], 6
-	QUAD $0x113e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rdi + 17], 7
-	QUAD $0x110664203a0f4166; BYTE $0x08       // pinsrb    xmm4, byte [r14 + rax + 17], 8
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	QUAD $0x111e64203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r11 + 17], 9
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x113e64203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r15 + 17], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x110664203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r8 + 17], 11
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
-	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
-	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
-	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
-	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
-	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
-	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
-	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
-	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
-	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
-	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
-	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
-	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
-	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
-	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
-	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
-	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
-	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
-	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
-	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
-	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
-	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
-	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
-	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
-	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
-	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
-	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
-	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
-	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
-	QUAD $0x12267c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r12 + 18], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x120e7c203a0f4166; BYTE $0x07       // pinsrb    xmm7, byte [r14 + rcx + 18], 7
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x12367c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rsi + 18], 8
-	QUAD $0x120e7c203a0f4366; BYTE $0x09       // pinsrb    xmm7, byte [r14 + r9 + 18], 9
-	QUAD $0x12167c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r10 + 18], 10
-	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
-	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
-	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
-	QUAD $0x121e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r11 + 18], 14
-	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
-	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
-	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
-	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
-	QUAD $0x13266c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r12 + 19], 6
-	QUAD $0x130e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rcx + 19], 7
-	QUAD $0x13366c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rsi + 19], 8
-	QUAD $0x130e6c203a0f4366; BYTE $0x09       // pinsrb    xmm5, byte [r14 + r9 + 19], 9
-	QUAD $0x13166c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r10 + 19], 10
-	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
-	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
-	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
-	QUAD $0x131e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r11 + 19], 14
-	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
-	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
-	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
-	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
-	QUAD $0x14265c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r12 + 20], 6
-	QUAD $0x140e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rcx + 20], 7
-	QUAD $0x14365c203a0f4166; BYTE $0x08       // pinsrb    xmm3, byte [r14 + rsi + 20], 8
-	QUAD $0x140e5c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r9 + 20], 9
-	QUAD $0x14165c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r10 + 20], 10
-	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
-	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
-	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
-	QUAD $0x141e5c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r11 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
-	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
-	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
-	QUAD $0x152654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r12 + 21], 6
-	QUAD $0x150e54203a0f4166; BYTE $0x07       // pinsrb    xmm2, byte [r14 + rcx + 21], 7
-	QUAD $0x153654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rsi + 21], 8
-	QUAD $0x150e54203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r9 + 21], 9
-	QUAD $0x151654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r10 + 21], 10
-	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
-	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
-	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
-	QUAD $0x151e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r11 + 21], 14
-	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
-	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
-	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
-	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
-	QUAD $0x16264c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r12 + 22], 6
-	QUAD $0x160e4c203a0f4166; BYTE $0x07       // pinsrb    xmm1, byte [r14 + rcx + 22], 7
-	QUAD $0x16364c203a0f4166; BYTE $0x08       // pinsrb    xmm1, byte [r14 + rsi + 22], 8
-	QUAD $0x160e4c203a0f4366; BYTE $0x09       // pinsrb    xmm1, byte [r14 + r9 + 22], 9
-	QUAD $0x16164c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r10 + 22], 10
-	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
-	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
-	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
-	QUAD $0x161e4c203a0f4366; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + r11 + 22], 14
-	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
-	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
-	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
-	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
-	QUAD $0x172644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r12 + 23], 6
-	QUAD $0x170e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rcx + 23], 7
-	QUAD $0x173644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rsi + 23], 8
-	QUAD $0x170e44203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r9 + 23], 9
-	QUAD $0x171644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r10 + 23], 10
-	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
-	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
-	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
-	QUAD $0x171e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r11 + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
-	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
-	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
-	QUAD $0x182664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r12 + 24], 6
-	QUAD $0x180e64203a0f4566; BYTE $0x07       // pinsrb    xmm12, byte [r14 + rcx + 24], 7
-	QUAD $0x183664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 24], 8
-	QUAD $0x180e64203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r9 + 24], 9
-	QUAD $0x181664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r10 + 24], 10
-	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
-	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
-	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
-	QUAD $0x181e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 24], 14
-	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
-	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
-	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
-	QUAD $0x19266c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r12 + 25], 6
-	QUAD $0x190e6c203a0f4566; BYTE $0x07       // pinsrb    xmm13, byte [r14 + rcx + 25], 7
-	QUAD $0x19366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 25], 8
-	QUAD $0x190e6c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r9 + 25], 9
-	QUAD $0x19166c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r10 + 25], 10
-	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
-	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
-	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
-	QUAD $0x191e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 25], 14
-	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
-	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
-	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
-	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
-	QUAD $0x1a2644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r12 + 26], 6
-	QUAD $0x1a0e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rcx + 26], 7
-	QUAD $0x1a3644203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rsi + 26], 8
-	QUAD $0x1a0e44203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r9 + 26], 9
-	QUAD $0x1a1644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r10 + 26], 10
-	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
-	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
-	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
-	QUAD $0x1a1e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 26], 14
-	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
-	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
-	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
-	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
-	QUAD $0x1b265c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r12 + 27], 6
-	QUAD $0x1b0e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rcx + 27], 7
-	QUAD $0x1b365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 27], 8
-	QUAD $0x1b0e5c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r9 + 27], 9
-	QUAD $0x1b165c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r10 + 27], 10
-	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
-	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
-	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
-	QUAD $0x1b1e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
-	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
-	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
-	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
-	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
-	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
-	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
-	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
-	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
-	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
-	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
-	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
-	QUAD $0x1c267c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r12 + 28], 6
-	QUAD $0x1d264c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r12 + 29], 6
-	QUAD $0x1e2654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 30], 6
-	QUAD $0x1f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 31], 6
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x1c0e7c203a0f4566; BYTE $0x07       // pinsrb    xmm15, byte [r14 + rcx + 28], 7
-	QUAD $0x1d0e4c203a0f4566; BYTE $0x07       // pinsrb    xmm9, byte [r14 + rcx + 29], 7
-	QUAD $0x1e0e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rcx + 30], 7
-	QUAD $0x1f0e74203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rcx + 31], 7
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c367c203a0f4566; BYTE $0x08       // pinsrb    xmm15, byte [r14 + rsi + 28], 8
-	QUAD $0x1d364c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rsi + 29], 8
-	QUAD $0x1e3654203a0f4566; BYTE $0x08       // pinsrb    xmm10, byte [r14 + rsi + 30], 8
-	QUAD $0x1f3674203a0f4166; BYTE $0x08       // pinsrb    xmm6, byte [r14 + rsi + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0e7c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r9 + 28], 9
-	QUAD $0x1d0e4c203a0f4766; BYTE $0x09       // pinsrb    xmm9, byte [r14 + r9 + 29], 9
-	QUAD $0x1e0e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r9 + 30], 9
-	QUAD $0x1f0e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r9 + 31], 9
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 28], 10
-	QUAD $0x1d164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 29], 10
-	QUAD $0x1e1654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r10 + 30], 10
-	QUAD $0x1f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 31], 10
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
-	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
-	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
-	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
-	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
-	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
-	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
-	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
-	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
-	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x1c1e7c203a0f4766; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + r11 + 28], 14
-	QUAD $0x1d1e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r11 + 29], 14
-	QUAD $0x1e1e54203a0f4766; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + r11 + 30], 14
-	QUAD $0x1f1e74203a0f4366; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + r11 + 31], 14
-	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
-	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
-	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
-	JNE  LBB5_86
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	JNE  LBB5_88
-	JMP  LBB5_91
-
-LBB5_66:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0             // add    rax, r14
-	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
-	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
-	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB5_67:
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x2444894c; BYTE $0x20               // mov    qword [rsp + 32], r8
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0x244c894c; BYTE $0x18               // mov    qword [rsp + 24], r9
-	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	LONG $0x00ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 256
-	QUAD $0x000000982494894c                   // mov    qword [rsp + 152], r10
-	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	LONG $0xa0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 416
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 1
-	QUAD $0x020624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 2
-	QUAD $0x031e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 3
-	QUAD $0x040e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 4
-	QUAD $0x052e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 5
-	QUAD $0x063e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 6
-	QUAD $0x073e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 7
-	QUAD $0x081624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 8
-	QUAD $0x092624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 10
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
-	QUAD $0x0c1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 12
-	QUAD $0x0d1624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 13
-	QUAD $0x0e0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 14
-	QUAD $0x0f3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01065c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rax + 1], 1
-	QUAD $0x01065c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r8 + 1], 2
-	QUAD $0x011e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r11 + 1], 3
-	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
-	QUAD $0x012e5c203a0f4366; BYTE $0x05       // pinsrb    xmm3, byte [r14 + r13 + 1], 5
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x013e5c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r15 + 1], 6
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x013e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rdi + 1], 7
-	QUAD $0x01165c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r10 + 1], 8
-	QUAD $0x01265c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r12 + 1], 9
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x01265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 1], 10
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
-	QUAD $0x011e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rbx + 1], 12
-	QUAD $0x01165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 1], 13
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	QUAD $0x010e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 1], 14
-	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	QUAD $0x01365c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rsi + 1], 15
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x02066c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rax + 2], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x022e6c203a0f4366; BYTE $0x02       // pinsrb    xmm5, byte [r14 + r13 + 2], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x021e6c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rbx + 2], 4
-	QUAD $0x020e6c203a0f4366; BYTE $0x05       // pinsrb    xmm5, byte [r14 + r9 + 2], 5
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	QUAD $0x021e6c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r11 + 2], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x02166c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r10 + 2], 7
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x02066c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rax + 2], 8
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	QUAD $0x023e6c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdi + 2], 9
-	QUAD $0x02266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 2], 10
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x020e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rcx + 2], 12
-	QUAD $0x02166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 2], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x02166c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rdx + 2], 14
-	QUAD $0x02066c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r8 + 2], 15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x03167c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rdx + 3], 1
-	QUAD $0x032e7c203a0f4366; BYTE $0x02       // pinsrb    xmm7, byte [r14 + r13 + 3], 2
-	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
-	QUAD $0x031e7c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rbx + 3], 4
-	QUAD $0x030e7c203a0f4366; BYTE $0x05       // pinsrb    xmm7, byte [r14 + r9 + 3], 5
-	QUAD $0x031e7c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r11 + 3], 6
-	QUAD $0x03167c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r10 + 3], 7
-	QUAD $0x03067c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rax + 3], 8
-	QUAD $0x033e7c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rdi + 3], 9
-	QUAD $0x03267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 3], 10
-	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
-	QUAD $0x030e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rcx + 3], 12
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x03167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 3], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x03167c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rdx + 3], 14
-	QUAD $0x03067c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r8 + 3], 15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x04164c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rdx + 4], 1
-	QUAD $0x042e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 4], 2
-	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
-	QUAD $0x041e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 4], 4
-	QUAD $0x040e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 4], 5
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	QUAD $0x041e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r11 + 4], 6
-	QUAD $0x04164c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r10 + 4], 7
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x04064c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rax + 4], 8
-	QUAD $0x043e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rdi + 4], 9
-	QUAD $0x04264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 4], 10
-	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	QUAD $0x040e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rcx + 4], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x04264c203a0f4766; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + r12 + 4], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x04164c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rdx + 4], 14
-	QUAD $0x04064c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r8 + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x051e54203a0f4366; BYTE $0x02       // pinsrb    xmm2, byte [r14 + r11 + 5], 2
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x052e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r13 + 5], 3
-	QUAD $0x051e54203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rbx + 5], 4
-	QUAD $0x053e54203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r15 + 5], 5
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
-	QUAD $0x050e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 5], 7
-	QUAD $0x050654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rax + 5], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x053654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 5], 9
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x053e54203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r15 + 5], 10
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	QUAD $0x053e54203a0f4166; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + rdi + 5], 11
-	QUAD $0x050e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rcx + 5], 12
-	QUAD $0x052654203a0f4366; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + r12 + 5], 13
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x053e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rdi + 5], 14
-	LONG $0x2444894c; BYTE $0x48               // mov    qword [rsp + 72], r8
-	QUAD $0x050654203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r8 + 5], 15
-	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
-	QUAD $0x061e44203a0f4766; BYTE $0x02       // pinsrb    xmm8, byte [r14 + r11 + 6], 2
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x062e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r13 + 6], 3
-	QUAD $0x061e44203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rbx + 6], 4
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x062e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r13 + 6], 5
-	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x061e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rbx + 6], 7
-	QUAD $0x060644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rax + 6], 8
-	QUAD $0x063644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 6], 9
-	QUAD $0x063e44203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r15 + 6], 10
-	QUAD $0x060e44203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r9 + 6], 11
-	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
-	QUAD $0x062644203a0f4766; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + r12 + 6], 13
-	QUAD $0x063e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rdi + 6], 14
-	QUAD $0x060644203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r8 + 6], 15
-	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x071e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rbx + 7], 2
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x071e74203a0f4766; BYTE $0x03       // pinsrb    xmm14, byte [r14 + r11 + 7], 3
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x071674203a0f4566; BYTE $0x04       // pinsrb    xmm14, byte [r14 + rdx + 7], 4
-	QUAD $0x072e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r13 + 7], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x071674203a0f4566; BYTE $0x06       // pinsrb    xmm14, byte [r14 + rdx + 7], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x070e74203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r9 + 7], 7
-	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x073674203a0f4566; BYTE $0x09       // pinsrb    xmm14, byte [r14 + rsi + 7], 9
-	QUAD $0x073e74203a0f4766; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + r15 + 7], 10
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x071674203a0f4766; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + r10 + 7], 11
-	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
-	QUAD $0x072674203a0f4766; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + r12 + 7], 13
-	QUAD $0x073e74203a0f4566; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + rdi + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x74b60f43; WORD $0x143e             // movzx    esi, byte [r14 + r15 + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x07064c203a0f4166; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + rax + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x74b60f43; WORD $0x153e             // movzx    esi, byte [r14 + r15 + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
-	QUAD $0x081e44203a0f4366; BYTE $0x01       // pinsrb    xmm0, byte [r14 + r11 + 8], 1
-	QUAD $0x081e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rbx + 8], 2
-	QUAD $0x080644203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r8 + 8], 3
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x080e44203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rcx + 8], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x083644203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rsi + 8], 5
-	QUAD $0x081644203a0f4166; BYTE $0x06       // pinsrb    xmm0, byte [r14 + rdx + 8], 6
-	QUAD $0x080e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 8], 7
-	QUAD $0x082e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r13 + 8], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x083644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 8], 9
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x082644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 8], 10
-	QUAD $0x081644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r10 + 8], 11
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x083644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rsi + 8], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x081e44203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rbx + 8], 13
-	QUAD $0x083e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rdi + 8], 14
-	QUAD $0x080644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rax + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
-	LONG $0x74b60f43; WORD $0x163e             // movzx    esi, byte [r14 + r15 + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x091e5c203a0f4766; BYTE $0x01       // pinsrb    xmm11, byte [r14 + r11 + 9], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x09165c203a0f4766; BYTE $0x02       // pinsrb    xmm11, byte [r14 + r10 + 9], 2
-	QUAD $0x09065c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r8 + 9], 3
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x090e5c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rcx + 9], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x090e5c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r9 + 9], 5
-	QUAD $0x09165c203a0f4566; BYTE $0x06       // pinsrb    xmm11, byte [r14 + rdx + 9], 6
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x091e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r11 + 9], 7
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x09365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 9], 8
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x09065c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r8 + 9], 9
-	QUAD $0x09265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 9], 10
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
-	QUAD $0x091e5c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rbx + 9], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x09065c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rax + 9], 14
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x090e5c203a0f4566; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + rcx + 9], 15
-	QUAD $0x0a3e64203a0f4766; BYTE $0x01       // pinsrb    xmm12, byte [r14 + r15 + 10], 1
-	QUAD $0x0a1664203a0f4766; BYTE $0x02       // pinsrb    xmm12, byte [r14 + r10 + 10], 2
-	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0a1664203a0f4766; BYTE $0x04       // pinsrb    xmm12, byte [r14 + r10 + 10], 4
-	QUAD $0x0a0e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r9 + 10], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0a0e64203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r9 + 10], 6
-	QUAD $0x0a1e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r11 + 10], 7
-	QUAD $0x0a3664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 10], 8
-	QUAD $0x0a0664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r8 + 10], 9
-	QUAD $0x0a2664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 10], 10
-	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
-	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
-	QUAD $0x0a1e64203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rbx + 10], 13
-	QUAD $0x0a0664203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rax + 10], 14
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0a0e64203a0f4566; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + rcx + 10], 15
-	QUAD $0x0b3e6c203a0f4766; BYTE $0x01       // pinsrb    xmm13, byte [r14 + r15 + 11], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0b2e6c203a0f4766; BYTE $0x02       // pinsrb    xmm13, byte [r14 + r13 + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
-	QUAD $0x0b166c203a0f4766; BYTE $0x04       // pinsrb    xmm13, byte [r14 + r10 + 11], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
-	QUAD $0x0b0e6c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r9 + 11], 6
-	QUAD $0x0b1e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r11 + 11], 7
-	QUAD $0x0b366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 11], 8
-	QUAD $0x0b066c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r8 + 11], 9
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0b266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 11], 10
-	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
-	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0b366c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rsi + 11], 13
-	QUAD $0x0b1e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rbx + 11], 14
-	QUAD $0x0b0e6c203a0f4566; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + rcx + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x170e             // movzx    esi, byte [r14 + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x74b60f41; WORD $0x180e             // movzx    esi, byte [r14 + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r15 + 12], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c2e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 12], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0c164c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r10 + 12], 5
-	QUAD $0x0c0e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r9 + 12], 6
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 12], 8
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x0c064c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rax + 12], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rcx + 12], 10
-	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
-	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
-	QUAD $0x0d2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 13], 2
-	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
-	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
-	QUAD $0x0d1674203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r10 + 13], 5
-	QUAD $0x0d0e74203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r9 + 13], 6
-	QUAD $0x0d0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 13], 7
-	QUAD $0x0d1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 13], 8
-	QUAD $0x0d2674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r12 + 13], 9
-	QUAD $0x0d0e74203a0f4166; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + rcx + 13], 10
-	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
-	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
-	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
-	QUAD $0x0e2e7c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r13 + 14], 2
-	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
-	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
-	QUAD $0x0e167c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r10 + 14], 5
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0e0e7c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r9 + 14], 6
-	QUAD $0x0e067c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r8 + 14], 7
-	QUAD $0x0e1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 14], 8
-	QUAD $0x0e267c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r12 + 14], 9
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + rcx + 14], 10
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
-	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0f2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 15], 2
-	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x0f0e74203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r9 + 15], 4
-	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0f1e74203a0f4166; BYTE $0x06       // pinsrb    xmm6, byte [r14 + rbx + 15], 6
-	QUAD $0x0f0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 15], 7
-	QUAD $0x0f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 15], 8
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0f0674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r8 + 15], 9
-	QUAD $0x0f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 15], 10
-	QUAD $0x0f1674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r10 + 15], 11
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0f3674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rsi + 15], 14
-	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x101654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rdx + 16], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
-	QUAD $0x100e54203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r9 + 16], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x103e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rdi + 16], 5
-	QUAD $0x101e54203a0f4566; BYTE $0x06       // pinsrb    xmm10, byte [r14 + rbx + 16], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x101e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rbx + 16], 7
-	QUAD $0x101e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 16], 8
-	QUAD $0x100654203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r8 + 16], 9
-	QUAD $0x102654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 16], 10
-	QUAD $0x103e54203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r15 + 16], 11
-	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
-	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
-	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
-	QUAD $0x110664203a0f4166; BYTE $0x02       // pinsrb    xmm4, byte [r14 + rax + 17], 2
-	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
-	QUAD $0x110e64203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r9 + 17], 4
-	QUAD $0x113e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rdi + 17], 5
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x111664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r10 + 17], 6
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x111e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rbx + 17], 7
-	QUAD $0x111e64203a0f4366; BYTE $0x08       // pinsrb    xmm4, byte [r14 + r11 + 17], 8
-	QUAD $0x110664203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r8 + 17], 9
-	QUAD $0x112664203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r12 + 17], 10
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x113e64203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r15 + 17], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
-	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
-	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
-	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
-	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
-	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
-	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
-	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
-	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
-	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
-	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
-	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
-	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
-	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
-	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
-	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
-	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
-	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
-	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
-	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
-	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
-	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
-	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
-	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
-	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
-	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
-	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
-	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
-	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
-	QUAD $0x12167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 18], 6
-	QUAD $0x120e7c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r9 + 18], 7
-	QUAD $0x121e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r11 + 18], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x12367c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rsi + 18], 9
-	QUAD $0x12267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 18], 10
-	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
-	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
-	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
-	QUAD $0x120e7c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rcx + 18], 14
-	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
-	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
-	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
-	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
-	QUAD $0x13166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 19], 6
-	QUAD $0x130e6c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r9 + 19], 7
-	QUAD $0x131e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r11 + 19], 8
-	QUAD $0x13366c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rsi + 19], 9
-	QUAD $0x13266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 19], 10
-	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
-	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
-	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
-	QUAD $0x130e6c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rcx + 19], 14
-	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
-	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
-	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
-	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
-	QUAD $0x14165c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r10 + 20], 6
-	QUAD $0x140e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r9 + 20], 7
-	QUAD $0x141e5c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r11 + 20], 8
-	QUAD $0x14365c203a0f4166; BYTE $0x09       // pinsrb    xmm3, byte [r14 + rsi + 20], 9
-	QUAD $0x14265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 20], 10
-	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
-	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
-	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
-	QUAD $0x140e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
-	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
-	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
-	QUAD $0x151654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 21], 6
-	QUAD $0x150e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 21], 7
-	QUAD $0x151e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 21], 8
-	QUAD $0x153654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 21], 9
-	QUAD $0x152654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r12 + 21], 10
-	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
-	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
-	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
-	QUAD $0x150e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rcx + 21], 14
-	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
-	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
-	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
-	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
-	QUAD $0x16164c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r10 + 22], 6
-	QUAD $0x160e4c203a0f4366; BYTE $0x07       // pinsrb    xmm1, byte [r14 + r9 + 22], 7
-	QUAD $0x161e4c203a0f4366; BYTE $0x08       // pinsrb    xmm1, byte [r14 + r11 + 22], 8
-	QUAD $0x16364c203a0f4166; BYTE $0x09       // pinsrb    xmm1, byte [r14 + rsi + 22], 9
-	QUAD $0x16264c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r12 + 22], 10
-	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
-	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
-	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
-	QUAD $0x160e4c203a0f4166; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + rcx + 22], 14
-	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
-	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
-	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
-	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
-	QUAD $0x171644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 23], 6
-	QUAD $0x170e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r9 + 23], 7
-	QUAD $0x171e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 23], 8
-	QUAD $0x173644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 23], 9
-	QUAD $0x172644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r12 + 23], 10
-	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
-	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
-	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
-	QUAD $0x170e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rcx + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
-	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
-	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
-	QUAD $0x181664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 24], 6
-	QUAD $0x180e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r9 + 24], 7
-	QUAD $0x181e64203a0f4766; BYTE $0x08       // pinsrb    xmm12, byte [r14 + r11 + 24], 8
-	QUAD $0x183664203a0f4566; BYTE $0x09       // pinsrb    xmm12, byte [r14 + rsi + 24], 9
-	QUAD $0x182664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 24], 10
-	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
-	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
-	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
-	QUAD $0x180e64203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rcx + 24], 14
-	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
-	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
-	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
-	QUAD $0x19166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 25], 6
-	QUAD $0x190e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r9 + 25], 7
-	QUAD $0x191e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r11 + 25], 8
-	QUAD $0x19366c203a0f4566; BYTE $0x09       // pinsrb    xmm13, byte [r14 + rsi + 25], 9
-	QUAD $0x19266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 25], 10
-	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
-	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
-	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
-	QUAD $0x190e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rcx + 25], 14
-	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
-	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
-	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
-	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
-	QUAD $0x1a1644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r10 + 26], 6
-	QUAD $0x1a0e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 26], 7
-	QUAD $0x1a1e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r11 + 26], 8
-	QUAD $0x1a3644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 26], 9
-	QUAD $0x1a2644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 26], 10
-	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
-	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
-	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
-	QUAD $0x1a0e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rcx + 26], 14
-	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
-	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
-	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
-	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
-	QUAD $0x1b165c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r10 + 27], 6
-	QUAD $0x1b0e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r9 + 27], 7
-	QUAD $0x1b1e5c203a0f4766; BYTE $0x08       // pinsrb    xmm11, byte [r14 + r11 + 27], 8
-	QUAD $0x1b365c203a0f4566; BYTE $0x09       // pinsrb    xmm11, byte [r14 + rsi + 27], 9
-	QUAD $0x1b265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 27], 10
-	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
-	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
-	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
-	QUAD $0x1b0e5c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rcx + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
-	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
-	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
-	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
-	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
-	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
-	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
-	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
-	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
-	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
-	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r10 + 28], 6
-	QUAD $0x1d164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 29], 6
-	QUAD $0x1e1654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r10 + 30], 6
-	QUAD $0x1f1674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r10 + 31], 6
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r9 + 28], 7
-	QUAD $0x1d0e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r9 + 29], 7
-	QUAD $0x1e0e54203a0f4766; BYTE $0x07       // pinsrb    xmm10, byte [r14 + r9 + 30], 7
-	QUAD $0x1f0e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r9 + 31], 7
-	QUAD $0x1c1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 28], 8
-	QUAD $0x1d1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 29], 8
-	QUAD $0x1e1e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 30], 8
-	QUAD $0x1f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 31], 8
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c367c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rsi + 28], 9
-	QUAD $0x1d364c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rsi + 29], 9
-	QUAD $0x1e3654203a0f4566; BYTE $0x09       // pinsrb    xmm10, byte [r14 + rsi + 30], 9
-	QUAD $0x1f3674203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rsi + 31], 9
-	QUAD $0x1c267c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r12 + 28], 10
-	QUAD $0x1d264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 29], 10
-	QUAD $0x1e2654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 30], 10
-	QUAD $0x1f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 31], 10
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
-	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
-	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
-	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
-	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
-	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
-	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
-	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
-	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
-	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x1c0e7c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rcx + 28], 14
-	QUAD $0x1d0e4c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rcx + 29], 14
-	QUAD $0x1e0e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 30], 14
-	QUAD $0x1f0e74203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rcx + 31], 14
-	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
-	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
-	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
-	JNE  LBB5_67
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	JNE  LBB5_69
-	JMP  LBB5_72
-
-LBB5_109:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0       // add    rax, r14
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-
-LBB5_110:
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	LONG $0x06e7c148                           // shl    rdi, 6
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
-	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
-	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
-	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
-	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
-	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
-	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
-	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
-	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
-	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
-	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
-	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
-	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
-	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
-	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
-	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
-	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
-	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
-	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
-	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
-	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
-	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
-	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
-	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
-	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
-	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
-	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
-	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
-	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
-	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
-	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
-	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
-	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
-	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
-	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
-	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
-	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
-	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
-	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
-	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
-	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
-	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
-	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
-	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
-	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
-	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
-	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
-	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
-	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
-	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
-	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
-	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
-	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
-	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
-	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
-	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
-	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
-	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
-	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
-	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
-	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
-	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
-	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
-	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
-	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
-	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
-	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
-	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
-	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
-	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
-	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
-	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
-	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
-	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
-	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
-	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
-	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
-	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
-	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
-	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
-	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
-	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
-	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
-	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
-	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
-	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
-	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
-	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
-	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
-	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
-	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
-	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
-	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
-	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
-	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
-	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
-	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
-	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
-	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
-	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
-	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
-	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
-	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
-	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
-	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
-	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
-	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
-	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
-	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
-	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
-	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
-	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
-	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
-	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
-	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
-	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
-	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
-	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
-	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
-	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
-	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
-	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
-	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
-	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
-	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
-	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
-	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
-	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
-	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
-	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
-	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
-	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
-	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
-	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
-	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
-	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
-	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
-	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
-	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
-	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
-	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
-	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
-	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
-	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
-	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
-	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
-	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
-	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
-	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
-	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
-	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
-	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
-	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
-	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
-	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
-	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
-	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
-	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
-	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
-	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
-	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
-	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
-	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
-	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
-	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
-	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
-	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
-	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
-	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
-	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
-	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
-	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
-	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
-	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
-	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
-	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
-	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
-	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
-	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
-	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
-	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
-	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
-	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
-	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
-	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
-	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
-	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
-	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
-	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
-	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
-	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
-	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
-	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
-	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
-	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
-	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
-	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
-	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
-	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
-	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
-	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
-	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
-	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
-	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
-	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
-	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
-	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB5_110
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	JNE  LBB5_112
-	JMP  LBB5_115
-
-LBB5_132:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0       // add    rax, r14
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-
-LBB5_133:
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	LONG $0x06e7c148                           // shl    rdi, 6
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
-	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
-	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
-	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
-	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
-	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
-	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
-	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
-	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
-	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
-	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
-	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
-	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
-	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
-	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
-	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
-	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
-	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
-	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
-	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
-	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
-	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
-	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
-	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
-	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
-	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
-	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
-	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
-	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
-	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
-	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
-	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
-	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
-	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
-	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
-	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
-	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
-	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
-	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
-	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
-	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
-	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
-	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
-	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
-	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
-	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
-	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
-	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
-	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
-	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
-	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
-	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
-	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
-	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
-	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
-	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
-	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
-	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
-	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
-	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
-	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
-	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
-	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
-	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
-	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
-	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
-	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
-	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
-	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
-	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
-	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
-	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
-	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
-	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
-	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
-	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
-	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
-	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
-	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
-	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
-	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
-	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
-	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
-	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
-	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
-	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
-	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
-	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
-	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
-	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
-	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
-	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
-	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
-	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
-	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
-	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
-	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
-	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
-	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
-	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
-	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
-	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
-	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
-	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
-	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
-	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
-	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
-	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
-	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
-	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
-	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
-	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
-	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
-	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
-	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
-	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
-	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
-	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
-	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
-	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
-	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
-	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
-	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
-	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
-	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
-	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
-	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
-	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
-	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
-	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
-	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
-	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
-	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
-	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
-	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
-	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
-	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
-	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
-	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
-	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
-	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
-	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
-	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
-	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
-	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
-	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
-	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
-	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
-	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
-	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
-	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
-	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
-	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
-	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
-	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
-	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
-	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
-	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
-	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
-	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
-	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
-	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
-	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
-	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
-	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
-	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
-	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
-	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
-	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
-	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
-	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
-	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
-	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
-	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
-	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
-	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
-	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
-	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
-	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
-	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
-	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
-	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
-	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
-	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
-	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
-	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
-	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
-	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
-	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
-	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
-	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
-	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
-	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
-	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
-	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
-	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
-	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
-	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
-	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
-	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
-	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
-	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
-	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
-	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
-	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
-	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
-	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB5_133
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	JNE  LBB5_135
-	JMP  LBB5_138
-
-LBB5_180:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x014c; BYTE $0xf3                   // add    rbx, r14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68149; WORD $0x0001; BYTE $0x00 // add    r14, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI5_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI5_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI5_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI5_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI5_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI5_7] */
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-
-LBB5_181:
-	QUAD $0xfffe04b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 508]
-	QUAD $0xfffe08be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 504]
-	QUAD $0xfffe0cae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 500]
-	QUAD $0xfffe10a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 496]
-	QUAD $0xfe84b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 380], 16
-	QUAD $0xff04b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 252], 32
-	QUAD $0x308476213a0f4166                           // insertps    xmm6, dword [r14 - 124], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xfe88be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 376], 16
-	QUAD $0xff08be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 248], 32
-	QUAD $0x30887e213a0f4166                           // insertps    xmm7, dword [r14 - 120], 48
-	QUAD $0xfe8cae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 372], 16
-	QUAD $0xff0cae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 244], 32
-	QUAD $0x308c6e213a0f4166                           // insertps    xmm5, dword [r14 - 116], 48
-	QUAD $0xfe90a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 368], 16
-	QUAD $0xff10a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 240], 32
-	QUAD $0x309066213a0f4166                           // insertps    xmm4, dword [r14 - 112], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                                   // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xd7f80f66                                   // psubb    xmm2, xmm7
-	QUAD $0xfffe14be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 492]
-	QUAD $0xfe94be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 364], 16
-	QUAD $0xff14be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 236], 32
-	QUAD $0x30947e213a0f4166                           // insertps    xmm7, dword [r14 - 108], 48
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffe18b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 488]
-	QUAD $0xfe98b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 360], 16
-	QUAD $0xff18b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 232], 32
-	QUAD $0x309876213a0f4166                           // insertps    xmm6, dword [r14 - 104], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8                       // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
-	QUAD $0xfffe1c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 484]
-	QUAD $0xfe9c9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 356], 16
-	QUAD $0xff1c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 228], 32
-	QUAD $0x309c5e213a0f4166                           // insertps    xmm3, dword [r14 - 100], 48
-	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03                       // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2                       // pand    xmm4, xmm10
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04                       // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb                       // pand    xmm7, xmm11
-	LONG $0xfceb0f66                                   // por    xmm7, xmm4
-	QUAD $0xfffe20a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 480]
-	QUAD $0xfea0a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 352], 16
-	QUAD $0xff20a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 224], 32
-	QUAD $0x30a066213a0f4166                           // insertps    xmm4, dword [r14 - 96], 48
-	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
-	QUAD $0xfffe24ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 476]
-	QUAD $0xfea4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 348], 16
-	QUAD $0xff24ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 220], 32
-	QUAD $0x30a46e213a0f4166                           // insertps    xmm5, dword [r14 - 92], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd                       // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe2896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 472]
-	QUAD $0xfea896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 344], 16
-	QUAD $0xff2896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 216], 32
-	QUAD $0x30a856213a0f4166                           // insertps    xmm2, dword [r14 - 88], 48
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07                       // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                                   // por    xmm4, xmm3
-	QUAD $0xfffe2c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 468]
-	QUAD $0xfeac9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 340], 16
-	QUAD $0xff2c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	QUAD $0x30ac5e213a0f4166                           // insertps    xmm3, dword [r14 - 84], 48
-	LONG $0xe7eb0f66                                   // por    xmm4, xmm7
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
-	QUAD $0xfffe30be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 464]
-	QUAD $0xfeb0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 336], 16
-	QUAD $0xff30be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 208], 32
-	QUAD $0x30b07e213a0f4166                           // insertps    xmm7, dword [r14 - 80], 48
-	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
-	QUAD $0xfffe34ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 460]
-	QUAD $0xfeb4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 332], 16
-	QUAD $0xff34ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 204], 32
-	QUAD $0x30b46e213a0f4166                           // insertps    xmm5, dword [r14 - 76], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe38b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 456]
-	QUAD $0xfeb8b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 328], 16
-	QUAD $0xff38b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 200], 32
-	QUAD $0x30b876213a0f4166                           // insertps    xmm6, dword [r14 - 72], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03                       // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa                       // pand    xmm7, xmm10
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04                       // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb                       // pand    xmm5, xmm11
-	LONG $0xefeb0f66                                   // por    xmm5, xmm7
-	QUAD $0xfffe3c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 452]
-	QUAD $0xfebc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 324], 16
-	QUAD $0xff3c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 196], 32
-	QUAD $0x30bc56213a0f4166                           // insertps    xmm2, dword [r14 - 68], 48
-	LONG $0xebeb0f66                                   // por    xmm5, xmm3
-	QUAD $0xfffe40be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 448]
-	QUAD $0xfec0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 320], 16
-	QUAD $0xff40be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 192], 32
-	QUAD $0x30c07e213a0f4166                           // insertps    xmm7, dword [r14 - 64], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffe44b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 444]
-	QUAD $0xfec4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 316], 16
-	QUAD $0xff44b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 188], 32
-	QUAD $0x30c476213a0f4166                           // insertps    xmm6, dword [r14 - 60], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07                       // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe                       // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                                   // por    xmm7, xmm2
-	QUAD $0xfffe4896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 440]
-	QUAD $0xfec896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 312], 16
-	QUAD $0xff4896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 184], 32
-	QUAD $0x30c856213a0f4166                           // insertps    xmm2, dword [r14 - 56], 48
-	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
-	QUAD $0xfffe4c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 436]
-	QUAD $0xfecc9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 308], 16
-	QUAD $0xff4c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0x30cc5e213a0f4166                           // insertps    xmm3, dword [r14 - 52], 48
-	LONG $0xe7620f66                                   // punpckldq    xmm4, xmm7
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                                   // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xfaf80f66                                   // psubb    xmm7, xmm2
-	QUAD $0xfffe50ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 432]
-	QUAD $0xfed0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 304], 16
-	QUAD $0xff50ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 176], 32
-	QUAD $0x30d06e213a0f4166                           // insertps    xmm5, dword [r14 - 48], 48
-	LONG $0xfeeb0f66                                   // por    xmm7, xmm6
-	QUAD $0xfffe54b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 428]
-	QUAD $0xfed4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 300], 16
-	QUAD $0xff54b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 172], 32
-	QUAD $0x30d476213a0f4166                           // insertps    xmm6, dword [r14 - 44], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                                   // por    xmm3, xmm7
-	QUAD $0xfffe58be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 424]
-	QUAD $0xfed8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 296], 16
-	QUAD $0xff58be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 168], 32
-	QUAD $0x30d87e213a0f4166                           // insertps    xmm7, dword [r14 - 40], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea                       // pand    xmm5, xmm10
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
-	QUAD $0xfffe5c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 420]
-	QUAD $0xfedc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 292], 16
-	QUAD $0xff5c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 164], 32
-	QUAD $0x30dc56213a0f4166                           // insertps    xmm2, dword [r14 - 36], 48
-	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
-	QUAD $0xfffe60ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 416]
-	QUAD $0xfee0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 288], 16
-	QUAD $0xff60ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 160], 32
-	QUAD $0x30e06e213a0f4166                           // insertps    xmm5, dword [r14 - 32], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
-	QUAD $0xfffe64be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 412]
-	QUAD $0xfee4be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 284], 16
-	QUAD $0xff64be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 156], 32
-	QUAD $0x30e47e213a0f4166                           // insertps    xmm7, dword [r14 - 28], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07                       // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee                       // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
-	QUAD $0xfffe6896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 408]
-	QUAD $0xfee896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 280], 16
-	QUAD $0xff6896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0x30e856213a0f4166                           // insertps    xmm2, dword [r14 - 24], 48
-	LONG $0xeeeb0f66                                   // por    xmm5, xmm6
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
-	QUAD $0xfffe6c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 404]
-	QUAD $0xfeec9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 276], 16
-	QUAD $0xff6c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 148], 32
-	QUAD $0x30ec5e213a0f4166                           // insertps    xmm3, dword [r14 - 20], 48
-	LONG $0xf7eb0f66                                   // por    xmm6, xmm7
-	QUAD $0xfffe7096100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 400]
-	QUAD $0xfef096213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 272], 16
-	QUAD $0xff7096213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 144], 32
-	QUAD $0x30f056213a0f4166                           // insertps    xmm2, dword [r14 - 16], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe74b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 396]
-	QUAD $0xfef4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 268], 16
-	QUAD $0xff74b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 140], 32
-	QUAD $0x30f476213a0f4166                           // insertps    xmm6, dword [r14 - 12], 48
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03                       // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                                   // por    xmm6, xmm2
-	QUAD $0xfffe78be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 392]
-	QUAD $0xfef8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 264], 16
-	QUAD $0xff78be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 136], 32
-	QUAD $0x30f87e213a0f4166                           // insertps    xmm7, dword [r14 - 8], 48
-	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
-	QUAD $0xfffe7c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 388]
-	QUAD $0xfefc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 260], 16
-	QUAD $0xff7c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 132], 32
-	QUAD $0x30fc56213a0f4166                           // insertps    xmm2, dword [r14 - 4], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
-	QUAD $0xfffe809e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 384]
-	QUAD $0xff009e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 256], 16
-	QUAD $0x20805e213a0f4166                           // insertps    xmm3, dword [r14 - 128], 32
-	LONG $0x3a0f4166; WORD $0x1e21; BYTE $0x30         // insertps    xmm3, dword [r14], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07                       // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde                       // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                                   // por    xmm3, xmm2
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	LONG $0xeb620f66                                   // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                                   // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100                     // pshufb    xmm4, xmm9
-	LONG $0x247f0ff3; BYTE $0x88                       // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68149; WORD $0x0002; BYTE $0x00         // add    r14, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB5_181
-	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
-	JNE  LBB5_183
-	JMP  LBB5_186
-
-TEXT ·_comparison_greater_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB6_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB6_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB6_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB6_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_20:
-	WORD $0x0a8b                 // mov    ecx, dword [rdx]
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	LONG $0xd5970f41                           // seta    r13b
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	LONG $0xd7970f41                           // seta    r15b
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	LONG $0xd1970f41                           // seta    r9b
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0xd4970f41                           // seta    r12b
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
-	LONG $0xd2970f41                           // seta    r10b
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd3970f41                           // seta    r11b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd7970f40                           // seta    dil
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_28
-	JMP  LBB6_123
-
-LBB6_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB6_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB6_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB6_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x46100ff2; BYTE $0x08               // movsd    xmm0, qword [rsi + 8]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	LONG $0xd4970f41                           // seta    r12b
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0xd5970f41                           // seta    r13b
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd1970f41                           // seta    r9b
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_56
-	JMP  LBB6_123
-
-LBB6_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB6_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd1       // setg    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09f0f41               // setg    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_14
-	JMP  LBB6_123
-
-LBB6_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB6_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_34:
-	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
-	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_42
-	JMP  LBB6_123
-
-LBB6_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_70:
-	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0xd1970f41               // seta    r9b
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
-	LONG $0xd2970f41               // seta    r10b
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0xd6970f41               // seta    r14b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd7970f40               // seta    dil
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd0       // seta    al
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e1c041               // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x04e4c041               // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e2c041               // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0x0841; BYTE $0xda       // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
-	LONG $0x01568845               // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x13244c02               // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0xcb08                   // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
-	WORD $0xd808                   // or    al, bl
-	WORD $0xc808                   // or    al, cl
-	LONG $0x027e8841               // mov    byte [r14 + 2], dil
-	LONG $0x03468841               // mov    byte [r14 + 3], al
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
-	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_78
-	JMP  LBB6_123
-
-LBB6_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09f0f41               // setg    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB6_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB6_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_89
-	JMP  LBB6_123
-
-LBB6_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_111
-	JMP  LBB6_123
-
-LBB6_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x46100ff3; BYTE $0x04               // movss    xmm0, dword [rsi + 4]
-	LONG $0x04422e0f                           // ucomiss    xmm0, dword [rdx + 4]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_122
-	JMP  LBB6_123
-
-LBB6_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_59:
-	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	WORD $0x970f; BYTE $0xd1       // seta    cl
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	LONG $0xd1970f41               // seta    r9b
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	LONG $0xd2970f41               // seta    r10b
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	LONG $0xd6970f41               // seta    r14b
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd7970f40               // seta    dil
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
-	LONG $0x06e5c041               // shl    r13b, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x07244c02               // add    cl, byte [rsp + 7]
-	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x02e1c041               // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	LONG $0x04e2c041               // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xd0       // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
-	LONG $0x06e1c041               // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xc000                   // add    al, al
-	LONG $0x12244402               // add    al, byte [rsp + 18]
-	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x02468845               // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
-	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_67
-	JMP  LBB6_123
-
-LBB6_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59f0f41                           // setg    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39f0f41                           // setg    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79f0f41                           // setg    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29f0f41                           // setg    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69f0f41                           // setg    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49f0f41                           // setg    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19f0f41                           // setg    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_100
-
-LBB6_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA5<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA5<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA5<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA5<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA5<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA5<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA5<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA5<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA5<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA5<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA5<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0f8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x100(SB)/8, $0xffffffffffffffff
-DATA LCDATA5<>+0x108(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA5<>(SB), 8, $272
-
-TEXT ·_comparison_greater_arr_scalar_sse4(SB), $360-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 336(SP)
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xcc // mov    r12, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB7_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB7_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB7_98
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB7_113
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB7_200
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_15:
-	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_15
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_21
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_19:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_19
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_21:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_135
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_24
-
-LBB7_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB7_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB7_155
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB7_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB7_200
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_47:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_47
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_53
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB7_51:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7920f41                           // setb    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2414920f                           // setb    byte [rsp]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x1888                               // mov    byte [rax], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4888; BYTE $0x01                   // mov    byte [rax + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x02788844                           // mov    byte [rax + 2], r15b
-	LONG $0x03408844                           // mov    byte [rax + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c08348                           // add    rax, 4
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB7_51
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-
-LBB7_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_193
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_195
-
-LBB7_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB7_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB7_200
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_6:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_6
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_8:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_9
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001202494894c // mov    qword [rsp + 288], r10
-	JB   LBB7_81
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_84
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JAE  LBB7_84
-
-LBB7_81:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
-
-LBB7_87:
-	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-
-LBB7_88:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x36                   // cmp    byte [rsi], r14b
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x01763844                           // cmp    byte [rsi + 1], r14b
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	QUAD $0x000000f024848348; BYTE $0xff       // add    qword [rsp + 240], -1
-	JNE  LBB7_88
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	JMP  LBB7_90
-
-LBB7_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB7_137
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB7_200
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_31:
-	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_31
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_37
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_35:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_35
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_37:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_153
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_40
-
-LBB7_56:
-	WORD $0x028a             // mov    al, byte [rdx]
-	LONG $0x28244488         // mov    byte [rsp + 40], al
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_58:
-	LONG $0x244cb60f; BYTE $0x28 // movzx    ecx, byte [rsp + 40]
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_58
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_60:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_61
-	LONG $0x10fa8349         // cmp    r10, 16
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001082494894c // mov    qword [rsp + 264], r10
-	JB   LBB7_63
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_66
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JAE  LBB7_66
-
-LBB7_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
-	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
-
-LBB7_69:
-	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_70:
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x74b60f44; WORD $0x2824             // movzx    r14d, byte [rsp + 40]
-	WORD $0x3844; BYTE $0x31                   // cmp    byte [rcx], r14b
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x01713844                           // cmp    byte [rcx + 1], r14b
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x0d713844                           // cmp    byte [rcx + 13], r14b
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x18713844                           // cmp    byte [rcx + 24], r14b
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x19713844                           // cmp    byte [rcx + 25], r14b
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x1a713844                           // cmp    byte [rcx + 26], r14b
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x1b713844                           // cmp    byte [rcx + 27], r14b
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x1c713844                           // cmp    byte [rcx + 28], r14b
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x1d713844                           // cmp    byte [rcx + 29], r14b
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x1e713844                           // cmp    byte [rcx + 30], r14b
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x1f713844                           // cmp    byte [rcx + 31], r14b
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x68               // add    r13b, byte [rsp + 104]
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	WORD $0x8844; BYTE $0x00                   // mov    byte [rax], r8b
-	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x5888; BYTE $0x01                   // mov    byte [rax + 1], bl
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x18245c02                           // add    bl, byte [rsp + 24]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x2434b60f                           // movzx    esi, byte [rsp]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	WORD $0x5088; BYTE $0x02                   // mov    byte [rax + 2], dl
-	LONG $0x03708844                           // mov    byte [rax + 3], r14b
-	LONG $0x20718d4c                           // lea    r14, [rcx + 32]
-	LONG $0x04c08348                           // add    rax, 4
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_70
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	JMP  LBB7_72
-
-LBB7_137:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_141
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_139:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_139
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_141:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_145
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_143:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_143
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_145:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_151
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_148
-
-LBB7_98:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_102
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_100:
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894c; BYTE $0xe2                   // mov    rdx, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_100
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_102:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_106
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_104:
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7970f40                     // seta    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6970f41                     // seta    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x970f; BYTE $0xd0             // seta    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x970f; BYTE $0xd3             // seta    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x970f; BYTE $0xd2             // seta    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1970f41                     // seta    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2970f41                     // seta    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3970f41                     // seta    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4970f41                     // seta    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	QUAD $0x000000d02494970f             // seta    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x970f; BYTE $0xd1             // seta    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7970f41                     // seta    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2414970f                     // seta    byte [rsp]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0970f41                     // seta    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	LONG $0x247c0240; BYTE $0x58         // add    dil, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x20245402                     // add    dl, byte [rsp + 32]
-	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	QUAD $0x000000d024bcb60f             // movzx    edi, byte [rsp + 208]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x0000008024a48b4c             // mov    r12, qword [rsp + 128]
-	QUAD $0x000000a02494b60f             // movzx    edx, byte [rsp + 160]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x10245402                     // add    dl, byte [rsp + 16]
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70         // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x241c8841                     // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01         // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
-	WORD $0xc900                         // add    cl, cl
-	WORD $0x0c02; BYTE $0x24             // add    cl, byte [rsp]
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18         // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08         // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd108                         // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x28         // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02         // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03         // mov    byte [r12 + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c48349                     // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff // add    qword [rsp + 176], -1
-	JNE  LBB7_104
-	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c             // mov    r10, qword [rsp + 240]
-
-LBB7_106:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_111
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_109
-
-LBB7_113:
-	WORD $0xb70f; BYTE $0x02                   // movzx    eax, word [rdx]
-	LONG $0xf0248489; WORD $0x0000; BYTE $0x00 // mov    dword [rsp + 240], eax
-	LONG $0x1f738d4d                           // lea    r14, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb                   // test    r11, r11
-	LONG $0xf3490f4d                           // cmovns    r14, r11
-	LONG $0x07418d41                           // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	LONG $0xc1490f41                           // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8                   // and    eax, -8
-	WORD $0x2941; BYTE $0xc1                   // sub    r9d, eax
-	JE   LBB7_117
-	WORD $0x6349; BYTE $0xc1                   // movsxd    rax, r9d
-	QUAD $0x000000f024948b44                   // mov    r10d, dword [rsp + 240]
-
-LBB7_115:
-	LONG $0x16394466             // cmp    word [rsi], r10w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_115
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_117:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_128
-	LONG $0x08fe8349         // cmp    r14, 8
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x0000011024b4894c // mov    qword [rsp + 272], r14
-	JB   LBB7_119
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_122
-	LONG $0xb4048d4b         // lea    rax, [r12 + 4*r14]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB7_122
-
-LBB7_119:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-
-LBB7_125:
-	LONG $0x2424894c             // mov    qword [rsp], r12
-	LONG $0x24742b4c; BYTE $0x18 // sub    r14, qword [rsp + 24]
-	QUAD $0x000000b024b4894c     // mov    qword [rsp + 176], r14
-	QUAD $0x000000f024ac8b44     // mov    r13d, dword [rsp + 240]
-
-LBB7_126:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x90248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x240c8b48                           // mov    rcx, qword [rsp]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x08244402                           // add    al, byte [rsp + 8]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x240c8948                           // mov    qword [rsp], rcx
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_126
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-
-LBB7_128:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xde // cmp    r14, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xde // add    r14, r11
-	JNE  LBB7_133
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB7_131
-
-LBB7_155:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_159
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_157:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_157
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_159:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_163
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_161:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_161
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_163:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_168
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_166
-
-LBB7_170:
-	LONG $0x1f538d4d             // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb     // test    r11, r11
-	LONG $0xd3490f4d             // cmovns    r10, r11
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB7_174
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-
-LBB7_172:
-	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_172
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_174:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_175
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB7_177
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_180
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB7_180
-
-LBB7_177:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
-
-LBB7_183:
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB7_184:
-	LONG $0x2434894c                           // mov    qword [rsp], r14
-	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
-	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
-	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd0920f41                           // setb    r8b
-	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
-	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
-	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
-	LONG $0xd6920f40                           // setb    sil
-	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
-	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
-	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
-	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
-	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
-	LONG $0xd7920f41                           // setb    r15b
-	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	LONG $0x24348b4c                           // mov    r14, qword [rsp]
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x08244402                           // add    al, byte [rsp + 8]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB7_184
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	JMP  LBB7_186
-
-LBB7_9:
-	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
-
-LBB7_90:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_93
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB7_96
-
-LBB7_61:
-	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
-	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
-
-LBB7_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_75
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB7_78
-
-LBB7_175:
-	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB7_186:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_191
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_189
-
-LBB7_153:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_154:
-	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_154
-
-LBB7_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
-	JMP  LBB7_197
-
-LBB7_151:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_152:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_152
-
-LBB7_148:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB7_150
-
-LBB7_93:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
-
-LBB7_94:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343846             // cmp    byte [rsi + r9], r14b
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r14b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB7_94
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB7_96:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	JMP  LBB7_200
-
-LBB7_75:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x245c8b4c; BYTE $0x48 // mov    r11, qword [rsp + 72]
-	LONG $0x24548a44; BYTE $0x28 // mov    r10b, byte [rsp + 40]
-
-LBB7_76:
-	LONG $0x06143a45             // cmp    r10b, byte [r14 + rax]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3b // movzx    ebx, byte [r11 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06543a45; BYTE $0x01 // cmp    r10b, byte [r14 + rax + 1]
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB7_76
-	WORD $0x0149; BYTE $0xc6     // add    r14, rax
-
-LBB7_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x28244c8a             // mov    cl, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x0e     // cmp    cl, byte [r14]
-	WORD $0xd219                 // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6     // mov    rsi, rax
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x24448b4c; BYTE $0x48 // mov    r8, qword [rsp + 72]
-	LONG $0x303c8a41             // mov    dil, byte [r8 + rsi]
-	WORD $0x0724                 // and    al, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa     // xor    dl, dil
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x301c8841             // mov    byte [r8 + rsi], bl
-	JMP  LBB7_200
-
-LBB7_135:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_136:
-	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_136
-
-LBB7_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
-	JMP  LBB7_197
-
-LBB7_193:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_194:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_194
-
-LBB7_195:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB7_197
-
-LBB7_111:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_112:
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_112
-
-LBB7_109:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
-
-LBB7_197:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB7_198
-
-LBB7_133:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	QUAD $0x000000f0249c8b44 // mov    r11d, dword [rsp + 240]
-
-LBB7_134:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x1e394466             // cmp    word [rsi], r11w
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x5e394466; BYTE $0x02 // cmp    word [rsi + 2], r11w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB7_134
-
-LBB7_131:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB7_200
-	LONG $0xf024848b; WORD $0x0000; BYTE $0x00 // mov    eax, dword [rsp + 240]
-	WORD $0x3966; BYTE $0x06                   // cmp    word [rsi], ax
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	WORD $0xd8f6                               // neg    al
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	LONG $0x03eac148                           // shr    rdx, 3
-	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041                           // and    r14b, 7
-	WORD $0x01b3                               // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1                   // mov    ecx, r14d
-	WORD $0xe3d2                               // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
-	WORD $0xc320                               // and    bl, al
-	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
-	JMP  LBB7_199
-
-LBB7_168:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_169:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_169
-
-LBB7_166:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB7_150:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB7_198:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-
-LBB7_199:
-	LONG $0x141c8841 // mov    byte [r12 + rdx], bl
-
-LBB7_200:
-	MOVQ 336(SP), SP
-	RET
-
-LBB7_191:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_192:
-	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
-	WORD $0xd219                 // sbb    edx, edx
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xc6     // xor    sil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_192
-
-LBB7_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB7_200
-
-LBB7_84:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
-	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_85:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x60ca8348                           // or    rdx, 96
-	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
-	LONG $0x245c894c; BYTE $0x40               // mov    qword [rsp + 64], r11
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 288
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
-	LONG $0x247c894c; BYTE $0x50               // mov    qword [rsp + 80], r15
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x02063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 2
-	QUAD $0x03163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 3
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	QUAD $0x040e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 4
-	QUAD $0x05263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 5
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x060e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 6
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x072e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 7
-	LONG $0x245c894c; BYTE $0x20               // mov    qword [rsp + 32], r11
-	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
-	QUAD $0x09363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 9
-	QUAD $0x0a163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 10
-	QUAD $0x0b3e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 11
-	QUAD $0x0c1e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 12
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0d163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 13
-	QUAD $0x0e063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 14
-	QUAD $0x0f0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 15
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
-	QUAD $0x01066c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r8 + 1], 2
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x01066c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r8 + 1], 3
-	QUAD $0x04013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 4
-	QUAD $0x01266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 1], 5
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x010e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 1], 6
-	QUAD $0x012e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 1], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0801166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 8
-	QUAD $0x01366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 1], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x01166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 1], 10
-	QUAD $0x013e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 1], 11
-	QUAD $0x0c011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 12
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000c0249c8948                   // mov    qword [rsp + 192], rbx
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x013e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 1], 13
-	QUAD $0x0e01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 14
-	QUAD $0x0f010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 15
-	QUAD $0x00a0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xe9               // pcmpgtb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x0f               // movzx    ebx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf3               // movd    xmm14, ebx
-	LONG $0x640f4566; BYTE $0xf9               // pcmpgtb    xmm15, xmm9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 1
-	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x020674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r8 + 2], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x023674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 2], 4
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x020674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r8 + 2], 6
-	QUAD $0x022674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r12 + 2], 7
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	QUAD $0x020e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 2], 9
-	QUAD $0x021674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 2], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x022674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r12 + 2], 11
-	QUAD $0x022e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r13 + 2], 12
-	QUAD $0x023e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r15 + 2], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x640f4166; BYTE $0xf1               // pcmpgtb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x065cb60f; BYTE $0x10               // movzx    ebx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfb               // movd    xmm15, ebx
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x01031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x03030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 3
-	QUAD $0x033654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 3], 4
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x030654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 3], 6
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
-	QUAD $0x030e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 3], 9
-	QUAD $0x031654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 3], 10
-	QUAD $0x032654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r12 + 3], 11
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x032654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 3], 12
-	QUAD $0x033e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r15 + 3], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 15
-	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
-	QUAD $0x042e4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r13 + 4], 2
-	LONG $0x246c894c; BYTE $0x60               // mov    qword [rsp + 96], r13
-	QUAD $0x041e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 4], 3
-	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
-	QUAD $0x0504164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 5
-	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
-	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
-	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
-	QUAD $0x040e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 4], 9
-	QUAD $0x04164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 4], 10
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b04064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 11
-	QUAD $0x04264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 4], 12
-	QUAD $0x043e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r15 + 4], 13
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 14
-	QUAD $0x0f041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 15
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x11               // movzx    ebx, byte [rsi + rax + 17]
-	LONG $0xc36e0f66                           // movd    xmm0, ebx
-	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x065cb60f; BYTE $0x12               // movzx    ebx, byte [rsi + rax + 18]
-	LONG $0xeb6e0f66                           // movd    xmm5, ebx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rcx + 5], 1
-	QUAD $0x052e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 5], 2
-	QUAD $0x051e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 5], 3
-	QUAD $0x053644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 5], 4
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x053e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 5], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x051e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 5], 6
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x050e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r9 + 5], 7
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x052644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 5], 8
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x052e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 5], 9
-	QUAD $0x051644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 5], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x053e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 5], 11
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x051e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 5], 12
-	QUAD $0x050644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 5], 13
-	QUAD $0x051644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdx + 5], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x053644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r14 + 5], 15
-	LONG $0x640f4566; BYTE $0xc1               // pcmpgtb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x065cb60f; BYTE $0x13               // movzx    ebx, byte [rsi + rax + 19]
-	LONG $0xfb6e0f66                           // movd    xmm7, ebx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x065cb60f; BYTE $0x14               // movzx    ebx, byte [rsi + rax + 20]
-	LONG $0xf36e0f66                           // movd    xmm6, ebx
-	QUAD $0x01060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 1
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
-	QUAD $0x061e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 6], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0406065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 4
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	QUAD $0x05063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 6
-	QUAD $0x060e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r9 + 6], 7
-	QUAD $0x06265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 6], 8
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x062e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 6], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x063e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 6], 11
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x06265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 6], 12
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0d06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x063e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r15 + 6], 14
-	QUAD $0x06365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x071654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r10 + 7], 1
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x072e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 7], 2
-	QUAD $0x071e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 7], 3
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x071654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r10 + 7], 4
-	QUAD $0x070654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 7], 5
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x07070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 7
-	QUAD $0x070e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r9 + 7], 8
-	QUAD $0x09070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 9
-	QUAD $0x0a073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 10
-	QUAD $0x0b071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 11
-	QUAD $0x072654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 7], 12
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x071e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 7], 13
-	QUAD $0x073e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r15 + 7], 14
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
-	LONG $0x640f4166; BYTE $0xd9               // pcmpgtb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x15               // movzx    ebx, byte [rsi + rax + 21]
-	LONG $0xd36e0f66                           // movd    xmm2, ebx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x090e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rcx + 9], 1
-	QUAD $0x092e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 9], 2
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x090654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 9], 3
-	QUAD $0x091654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r10 + 9], 4
-	QUAD $0x091654203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdx + 9], 5
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x091654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdx + 9], 6
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x090e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r9 + 9], 7
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x091e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 9], 8
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x091e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 9], 9
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x093e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r15 + 9], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x091e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 9], 11
-	QUAD $0x092654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 9], 12
-	QUAD $0x091e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r11 + 9], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x091654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 9], 14
-	QUAD $0x093e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x065cb60f; BYTE $0x16               // movzx    ebx, byte [rsi + rax + 22]
-	LONG $0xdb6e0f66                           // movd    xmm3, ebx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x01080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 1
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
-	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
-	QUAD $0x083664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r14 + 8], 5
-	QUAD $0x06081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 6
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x080e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r9 + 8], 7
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x09080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 9
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x083e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r15 + 8], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x083e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 8], 11
-	QUAD $0x082664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 8], 12
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0d080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 13
-	QUAD $0x081664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r10 + 8], 14
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x080e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r9 + 8], 15
-	LONG $0x640f4166; BYTE $0xe1               // pcmpgtb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x009024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 144]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
-	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
-	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
-	QUAD $0x0a3e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 10], 4
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdi + 10], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
-	QUAD $0x0a1654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 10], 7
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0a3654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r14 + 10], 8
-	QUAD $0x0a0654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 10], 9
-	QUAD $0x0a1e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 10], 10
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
-	QUAD $0x0a2654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 10], 12
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
-	QUAD $0x0a1654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 10], 14
-	QUAD $0x0a0e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 10], 15
-	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e5cb60f; BYTE $0x17               // movzx    ebx, byte [rsi + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc3               // movd    xmm8, ebx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x009024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm10
-	LONG $0x0e5cb60f; BYTE $0x18               // movzx    ebx, byte [rsi + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd3               // movd    xmm10, ebx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rcx + 11], 4
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x0b065c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r8 + 11], 6
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 11], 7
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 11], 8
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0b065c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rax + 11], 9
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
-	QUAD $0x0b265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 11], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 11], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r11 + 11], 15
-	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
-	QUAD $0x0c366c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r14 + 12], 2
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0c366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 12], 3
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r13 + 12], 4
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
-	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
-	QUAD $0x0c166c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r10 + 12], 10
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 12], 11
-	QUAD $0x0c266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 12], 12
-	QUAD $0x0c066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 12], 13
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 12], 14
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r11 + 12], 15
-	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0d1e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r11 + 13], 2
-	QUAD $0x0d3664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 13], 3
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0d1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 13], 4
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0d1664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rdx + 13], 5
-	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
-	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
-	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
-	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
-	QUAD $0x0d1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 13], 10
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 13], 11
-	QUAD $0x0d2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 13], 12
-	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
-	QUAD $0x0d2e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 13], 13
-	QUAD $0x0d1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 13], 14
-	QUAD $0x0d0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 13], 15
-	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x19               // movzx    ebx, byte [rsi + rax + 25]
-	LONG $0xcb6e0f66                           // movd    xmm1, ebx
-	LONG $0x640f4566; BYTE $0xe1               // pcmpgtb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x065cb60f; BYTE $0x1a               // movzx    ebx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xdb               // movd    xmm11, ebx
-	QUAD $0x00013024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 304]
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x010e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x0e1e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r11 + 14], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0e3664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r14 + 14], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0e3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 14], 4
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x050e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 5
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x070e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 7
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 14], 10
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 14], 11
-	QUAD $0x0e2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 14], 12
-	QUAD $0x0d0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 14], 15
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdi + 15], 1
-	QUAD $0x0f2e74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r13 + 15], 2
-	QUAD $0x0f1e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r11 + 15], 3
-	QUAD $0x0f3674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f1674203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdx + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r15 + 15], 11
-	QUAD $0x0f2674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r12 + 15], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rdi + 15], 14
-	QUAD $0x0f1674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 15], 15
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x103e7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdi + 16], 1
-	QUAD $0x102e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 16], 2
-	QUAD $0x101e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r11 + 16], 3
-	QUAD $0x10367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x10167c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdx + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x103e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 16], 11
-	QUAD $0x10267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x103e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdi + 16], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x10167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 16], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x01113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 1
-	QUAD $0x112e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 17], 2
-	QUAD $0x111e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 17], 3
-	QUAD $0x113644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
-	QUAD $0x112644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 17], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
-	QUAD $0x009024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 144]
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x1b               // movzx    ebx, byte [rsi + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xcb               // movd    xmm9, ebx
-	QUAD $0x00a024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xe5               // pcmpgtb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0x640f4566; BYTE $0xf5               // pcmpgtb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x065cb60f; BYTE $0x1c               // movzx    ebx, byte [rsi + rax + 28]
-	LONG $0xe36e0f66                           // movd    xmm4, ebx
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x111644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x640f4166; BYTE $0xc5               // pcmpgtb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x009024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm13
-	LONG $0x065cb60f; BYTE $0x1d               // movzx    ebx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xeb               // movd    xmm13, ebx
-	QUAD $0x10167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 16], 15
-	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
-	LONG $0x640f4466; BYTE $0xf8               // pcmpgtb    xmm15, xmm0
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 1
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x02121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 2
-	QUAD $0x121e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 18], 3
-	QUAD $0x12366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x0712166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 7
-	QUAD $0x12066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 10
-	QUAD $0x123e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 18], 11
-	QUAD $0x12266c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0d121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 13
-	QUAD $0x0e123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12166c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r10 + 18], 15
-	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	LONG $0x3e5cb60f; BYTE $0x1e               // movzx    ebx, byte [rsi + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xe3               // movd    xmm12, ebx
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 1
-	QUAD $0x01141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 1
-	QUAD $0x01151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 1
-	QUAD $0x01161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 1
-	QUAD $0x171e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 23], 1
-	QUAD $0x181e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rbx + 24], 1
-	QUAD $0x01191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 1
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 26], 1
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rbx + 27], 1
-	QUAD $0x011c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 1
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rbx + 29], 1
-	QUAD $0x1e1e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rbx + 30], 1
-	LONG $0x3e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rdi + 31]
-	LONG $0xc76e0f66                           // movd    xmm0, edi
-	QUAD $0x011f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x02133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 2
-	QUAD $0x02143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 2
-	QUAD $0x02153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 2
-	QUAD $0x02163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 2
-	QUAD $0x173e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 23], 2
-	QUAD $0x183e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 24], 2
-	QUAD $0x02193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 2
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 26], 2
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 27], 2
-	QUAD $0x021c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 2
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 29], 2
-	QUAD $0x1e3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 30], 2
-	QUAD $0x021f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 2
-	QUAD $0x131e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r11 + 19], 3
-	QUAD $0x13367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x0713167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 7
-	QUAD $0x13067c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r8 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 10
-	QUAD $0x133e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 19], 11
-	QUAD $0x13267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 19], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0d133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 14
-	QUAD $0x13167c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r10 + 19], 15
-	QUAD $0x141e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 20], 3
-	QUAD $0x143674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 7
-	QUAD $0x140674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 10
-	QUAD $0x143e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 20], 11
-	QUAD $0x142674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 20], 12
-	QUAD $0x0d143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 13
-	QUAD $0x0e141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 14
-	QUAD $0x00009024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 144]
-	QUAD $0x141674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 20], 15
-	QUAD $0x00a024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xff               // pcmpgtb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4166; BYTE $0xf7               // pcmpgtb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 7
-	QUAD $0x150654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 10
-	QUAD $0x153e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 21], 11
-	QUAD $0x152654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 21], 12
-	QUAD $0x0d153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 13
-	QUAD $0x0e151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 14
-	QUAD $0x151654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r10 + 21], 15
-	LONG $0x640f4166; BYTE $0xd7               // pcmpgtb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x161e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 22], 3
-	QUAD $0x16365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x0716165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 7
-	QUAD $0x16065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 10
-	QUAD $0x163e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 22], 11
-	QUAD $0x16265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 22], 12
-	QUAD $0x0d163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 13
-	QUAD $0x0e161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 14
-	QUAD $0x16165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 22], 15
-	QUAD $0x171e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x171644203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdx + 23], 7
-	QUAD $0x170644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r8 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x170644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 23], 10
-	QUAD $0x173e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 23], 11
-	QUAD $0x172644203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r12 + 23], 12
-	QUAD $0x173e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdi + 23], 13
-	QUAD $0x171e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 23], 14
-	QUAD $0x171644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 23], 15
-	LONG $0x640f4166; BYTE $0xdf               // pcmpgtb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x640f4566; BYTE $0xc7               // pcmpgtb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x191e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 25], 3
-	QUAD $0x19364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x0719164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 7
-	QUAD $0x19064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 10
-	QUAD $0x193e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 25], 11
-	QUAD $0x19264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 25], 12
-	QUAD $0x0d193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 13
-	QUAD $0x0e191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 14
-	QUAD $0x19164c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r10 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r11 + 24], 3
-	QUAD $0x183654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x181654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 24], 7
-	QUAD $0x180654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x180654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 24], 10
-	QUAD $0x183e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 24], 11
-	QUAD $0x182654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 24], 12
-	QUAD $0x183e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdi + 24], 13
-	QUAD $0x181e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 24], 14
-	QUAD $0x181654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 24], 15
-	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r11 + 26], 3
-	QUAD $0x1a365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 26], 7
-	QUAD $0x1a065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a065c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rax + 26], 10
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 26], 11
-	QUAD $0x1a265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 26], 12
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdi + 26], 13
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 26], 14
-	QUAD $0x1a165c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r10 + 26], 15
-	LONG $0x640f4566; BYTE $0xdf               // pcmpgtb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r11 + 27], 3
-	QUAD $0x1b364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b164c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdx + 27], 7
-	QUAD $0x1b064c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r8 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b064c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rax + 27], 10
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 27], 11
-	QUAD $0x1b264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 27], 12
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 27], 13
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rbx + 27], 14
-	QUAD $0x1b164c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r10 + 27], 15
-	QUAD $0x1c1e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r11 + 28], 3
-	QUAD $0x1c3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 7
-	QUAD $0x1c0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 10
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 28], 11
-	QUAD $0x1c2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 28], 12
-	QUAD $0x0d1c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 13
-	QUAD $0x0e1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 14
-	QUAD $0x1c1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 28], 15
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r11 + 29], 3
-	QUAD $0x1d366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d166c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdx + 29], 7
-	QUAD $0x1d066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 29], 10
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 29], 11
-	QUAD $0x1d266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 29], 12
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 29], 13
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x640f4566; BYTE $0xcf               // pcmpgtb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4166; BYTE $0xe7               // pcmpgtb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 29], 15
-	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r11 + 30], 3
-	QUAD $0x1f1e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 31], 3
-	QUAD $0x1e3664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e1664203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdx + 30], 7
-	QUAD $0x071f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 7
-	QUAD $0x1e0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 30], 8
-	QUAD $0x1f0644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e0664203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 10
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 30], 11
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 31], 11
-	QUAD $0x1e2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 30], 12
-	QUAD $0x1f2644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 31], 12
-	QUAD $0x1e3e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdi + 30], 13
-	QUAD $0x0d1f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 13
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 30], 14
-	QUAD $0x0e1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x1e1664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r10 + 30], 15
-	QUAD $0x1f1644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x640f4166; BYTE $0xc7               // pcmpgtb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB7_85
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB7_87
-	JMP  LBB7_90
-
-LBB7_66:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000014024848948             // mov    qword [rsp + 320], rax
-	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
-	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
-	LONG $0x24448948; BYTE $0x48         // mov    qword [rsp + 72], rax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_67:
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0x060cb60f                           // movzx    ecx, byte [rsi + rax]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x064cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rax + 1]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x064cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rax + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x064cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rax + 3]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x064cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x064cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rax + 5]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x064cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rax + 6]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x064cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rax + 7]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	LONG $0x064cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rax + 8]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x064cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rax + 9]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x064cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rax + 10]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x064cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x064cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rax + 12]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x000130248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm1
-	LONG $0x064cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	LONG $0x064cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
-	LONG $0x40ca8348                           // or    rdx, 64
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	LONG $0x60cc8349                           // or    r12, 96
-	LONG $0x2464894c; BYTE $0x10               // mov    qword [rsp + 16], r12
-	LONG $0x80cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 128
-	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	LONG $0xc0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 192
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x2454894c; BYTE $0x78               // mov    qword [rsp + 120], r10
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x60c88149; WORD $0x0001; BYTE $0x00 // or    r8, 352
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xa0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 416
-	LONG $0x241c8948                           // mov    qword [rsp], rbx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x245c8948; BYTE $0x18               // mov    qword [rsp + 24], rbx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xe0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 480
-	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
-	QUAD $0x012e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 1
-	QUAD $0x021614203a0f4466                   // pinsrb    xmm10, byte [rsi + rdx], 2
-	QUAD $0x032614203a0f4666                   // pinsrb    xmm10, byte [rsi + r12], 3
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	LONG $0x245c894c; BYTE $0x30               // mov    qword [rsp + 48], r11
-	QUAD $0x041e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r11], 4
-	QUAD $0x053e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rdi], 5
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	QUAD $0x060e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rcx], 6
-	QUAD $0x070e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r9], 7
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x083e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r15], 8
-	QUAD $0x091614203a0f4666                   // pinsrb    xmm10, byte [rsi + r10], 9
-	QUAD $0x0a3614203a0f4666                   // pinsrb    xmm10, byte [rsi + r14], 10
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0b2e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 11
-	QUAD $0x0c0614203a0f4666                   // pinsrb    xmm10, byte [rsi + r8], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 13
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 14
-	QUAD $0x0f1e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rbx], 15
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	QUAD $0x012024a46f0f4466; WORD $0x0000     // movdqa    xmm12, oword [rsp + 288]
-	LONG $0xda0f4566; BYTE $0xc4               // pminub    xmm8, xmm12
-	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x010e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r9 + 1], 1
-	QUAD $0x02011664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x03011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 3
-	QUAD $0x012664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 1], 4
-	QUAD $0x05013e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 1], 5
-	QUAD $0x06010e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 1], 6
-	QUAD $0x011e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 1], 7
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x011664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r10 + 1], 8
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x09011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 9
-	QUAD $0x013664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 1], 10
-	QUAD $0x012e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r13 + 1], 11
-	QUAD $0x010664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r8 + 1], 12
-	QUAD $0x013e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r15 + 1], 13
-	QUAD $0x0e010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 15
-	QUAD $0x020e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r9 + 2], 1
-	QUAD $0x02021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 2
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x023e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r15 + 2], 3
-	QUAD $0x022674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r12 + 2], 4
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	QUAD $0x06020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 6
-	QUAD $0x021e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 2], 7
-	QUAD $0x021674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r10 + 2], 8
-	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
-	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
-	QUAD $0x022e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 2], 11
-	QUAD $0x020674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r8 + 2], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x0d023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 13
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x023e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 2], 14
-	QUAD $0x0f020674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 2], 15
-	QUAD $0x080e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r9 + 8], 1
-	QUAD $0x081674203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rdx + 8], 2
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x083e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r15 + 8], 3
-	QUAD $0x082674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 8], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x083e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 8], 5
-	QUAD $0x080e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 8], 6
-	QUAD $0x081e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 8], 7
-	QUAD $0x081674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r10 + 8], 8
-	QUAD $0x081e74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rsi + rbx + 8], 9
-	QUAD $0x083674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r14 + 8], 10
-	QUAD $0x082e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r13 + 8], 11
-	QUAD $0x080674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r8 + 8], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x080674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x080674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 8], 14
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x081674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 8], 15
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	QUAD $0x100e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r9 + 16], 1
-	QUAD $0x10166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 16], 2
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x103e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r15 + 16], 3
-	QUAD $0x10266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 16], 4
-	QUAD $0x103e6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rdi + 16], 5
-	QUAD $0x100e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 16], 6
-	QUAD $0x101e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 16], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x103e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 16], 8
-	QUAD $0x101e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rbx + 16], 9
-	QUAD $0x10366c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r14 + 16], 10
-	QUAD $0x102e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 16], 11
-	QUAD $0x10066c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r8 + 16], 12
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	QUAD $0x10266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 16], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x100e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 16], 14
-	QUAD $0x10166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdd               // pcmpeqb    xmm3, xmm13
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x18067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 24], 1
-	QUAD $0x18167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 24], 2
-	QUAD $0x180e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 24], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x180e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r9 + 24], 4
-	QUAD $0x183e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rdi + 24], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x18067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 24], 6
-	QUAD $0x181e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 24], 7
-	QUAD $0x183e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r15 + 24], 8
-	QUAD $0x181e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 24], 9
-	QUAD $0x18367c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r14 + 24], 10
-	QUAD $0x182e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r13 + 24], 11
-	QUAD $0x18067c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r8 + 24], 12
-	QUAD $0x18267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 24], 13
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x180e7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + rcx + 24], 14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x18167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 24], 15
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
-	LONG $0x6f0f4466; BYTE $0xf4               // movdqa    xmm14, xmm4
-	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
-	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4466; BYTE $0xec               // pandn    xmm13, xmm4
-	LONG $0xfc0f4566; BYTE $0xee               // paddb    xmm13, xmm14
-	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
-	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x03266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 3], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 2
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0303166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 3
-	QUAD $0x030e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r9 + 3], 4
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x03166c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r10 + 3], 5
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0603166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 6
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x030e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 3], 8
-	QUAD $0x09031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 9
-	QUAD $0x000000a024b4894c                   // mov    qword [rsp + 160], r14
-	QUAD $0x03366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 3], 10
-	QUAD $0x032e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 3], 11
-	QUAD $0x03066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 3], 12
-	QUAD $0x033e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 3], 13
-	QUAD $0x0e03066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x033e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 3], 15
-	QUAD $0x04264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 4], 1
-	QUAD $0x040e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rcx + 4], 2
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x043e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 4], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x043e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdi + 4], 4
-	QUAD $0x04164c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r10 + 4], 5
-	QUAD $0x04164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 4], 6
-	QUAD $0x041e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 4], 7
-	QUAD $0x040e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r9 + 4], 8
-	QUAD $0x041e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 4], 9
-	QUAD $0x04364c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r14 + 4], 10
-	QUAD $0x042e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r13 + 4], 11
-	QUAD $0x04064c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r8 + 4], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x043e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 4], 13
-	QUAD $0x04064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 4], 14
-	QUAD $0x043e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 4], 15
-	QUAD $0x05267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 5], 1
-	QUAD $0x02050e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 5], 2
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x03053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x04053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 4
-	QUAD $0x05167c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r10 + 5], 5
-	QUAD $0x0605167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 5], 6
-	QUAD $0x051e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 5], 7
-	QUAD $0x050e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r9 + 5], 8
-	QUAD $0x09051e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 5], 9
-	QUAD $0x05367c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r14 + 5], 10
-	QUAD $0x052e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r13 + 5], 11
-	QUAD $0x05067c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r8 + 5], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x0d053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 13
-	QUAD $0x0e05067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 5], 14
-	QUAD $0x053e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 5], 15
-	QUAD $0x062644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 6], 1
-	QUAD $0x02060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 2
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x062644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 6], 3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x04060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 4
-	QUAD $0x061644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 6], 5
-	QUAD $0x06061644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 6], 6
-	QUAD $0x061e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 6], 7
-	QUAD $0x060e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r9 + 6], 8
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x09061e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 6], 9
-	QUAD $0x063644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 6], 10
-	QUAD $0x062e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 6], 11
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x060644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r8 + 6], 12
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	LONG $0x24048b4c                           // mov    r8, qword [rsp]
-	QUAD $0x060644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 6], 13
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	QUAD $0x0e060644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 6], 14
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xdf0f4466; BYTE $0xf4               // pandn    xmm14, xmm4
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	LONG $0x6f0f4466; BYTE $0xfd               // movdqa    xmm15, xmm5
-	LONG $0xda0f4566; BYTE $0xfc               // pminub    xmm15, xmm12
-	LONG $0x740f4466; BYTE $0xfd               // pcmpeqb    xmm15, xmm5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rax + 14]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xdf0f4466; BYTE $0xfc               // pandn    xmm15, xmm4
-	LONG $0xeb0f4566; BYTE $0xfe               // por    xmm15, xmm14
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0x6f0f4466; BYTE $0xcf               // movdqa    xmm9, xmm7
-	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
-	LONG $0x740f4466; BYTE $0xcf               // pcmpeqb    xmm9, xmm7
-	LONG $0x0654b60f; BYTE $0x11               // movzx    edx, byte [rsi + rax + 17]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xe1df0f66                           // pandn    xmm4, xmm1
-	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
-	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0x0654b60f; BYTE $0x12               // movzx    edx, byte [rsi + rax + 18]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x01070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 1
-	QUAD $0x073e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r15 + 7], 2
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x072644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 7], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x070e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 7], 4
-	QUAD $0x071644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 7], 5
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x073e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 7], 6
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x07071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 7
-	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x072644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 7], 9
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x071e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 7], 10
-	QUAD $0x073644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 7], 11
-	QUAD $0x072e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 7], 12
-	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 14
-	QUAD $0x0f073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 15
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xe3df0f66                           // pandn    xmm4, xmm3
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	LONG $0x0654b60f; BYTE $0x13               // movzx    edx, byte [rsi + rax + 19]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0xef0f4566; BYTE $0xce               // pxor    xmm9, xmm14
-	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc8               // pand    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
-	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
-	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	QUAD $0x01090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 1
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 2
-	QUAD $0x03091e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 9], 3
-	QUAD $0x090e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 9], 4
-	QUAD $0x091644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 9], 5
-	QUAD $0x093e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 9], 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x07093e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 9], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x093e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 9], 8
-	QUAD $0x092644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 9], 9
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x091e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 9], 10
-	QUAD $0x093644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 9], 11
-	QUAD $0x092e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 9], 12
-	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	QUAD $0x092644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 9], 13
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x090e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r9 + 9], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f091644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 9], 15
-	QUAD $0x010a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 1
-	QUAD $0x020a0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 10], 2
-	QUAD $0x030a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x050a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 5
-	QUAD $0x0a0654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 10], 6
-	QUAD $0x070a3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 10], 7
-	QUAD $0x0a3e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 10], 8
-	QUAD $0x0a1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 10], 9
-	QUAD $0x0a1e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r11 + 10], 10
-	QUAD $0x0a3654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 10], 11
-	QUAD $0x0a2e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 10], 12
-	QUAD $0x0a2654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 10], 13
-	QUAD $0x0a0e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r9 + 10], 14
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0f0a1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 10], 15
-	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
-	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
-	QUAD $0x0000c024a47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm4
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4566; BYTE $0xee               // pandn    xmm13, xmm14
-	LONG $0xfc0f4466; BYTE $0xec               // paddb    xmm13, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0xdf0f4566; BYTE $0xd6               // pandn    xmm10, xmm14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0b065c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r8 + 11], 1
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rbx + 11], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 11], 6
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 11], 7
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r15 + 11], 8
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0b165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 11], 9
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
-	QUAD $0x0b365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 11], 11
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0b365c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r14 + 11], 12
-	LONG $0x241c8b48                           // mov    rbx, qword [rsp]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rbx + 11], 13
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r11 + 11], 14
-	QUAD $0x0b265c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r12 + 11], 15
-	QUAD $0x000000b085df0f66                   // pandn    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4166; BYTE $0xc2               // por    xmm0, xmm10
-	LONG $0x6f0f4566; BYTE $0xd3               // movdqa    xmm10, xmm11
-	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd3               // pcmpeqb    xmm10, xmm11
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x0000c095df0f4466; BYTE $0x00       // pandn    xmm10, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
-	QUAD $0x0c0644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r8 + 12], 1
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c2e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 12], 2
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x030c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0c3e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r15 + 12], 4
-	QUAD $0x050c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x070c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0c1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 12], 8
-	QUAD $0x0c0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 12], 9
-	QUAD $0x0c1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 12], 10
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0c2e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 12], 11
-	QUAD $0x0c3644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r14 + 12], 12
-	QUAD $0x0d0c1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 12], 13
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0c1644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r10 + 12], 14
-	QUAD $0x0c2644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 12], 15
-	QUAD $0x0d0674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 13], 1
-	QUAD $0x020d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 2
-	QUAD $0x030d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 3
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x0d3e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r15 + 13], 4
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0d3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 13], 5
-	QUAD $0x060d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 7
-	QUAD $0x0d1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 13], 8
-	QUAD $0x0d0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 13], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a0d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 10
-	QUAD $0x0d2e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 13], 11
-	QUAD $0x0d3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 13], 12
-	QUAD $0x0d0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 13
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x0d1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 13], 14
-	QUAD $0x0d2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 13], 15
-	QUAD $0x000100adf80f4466; BYTE $0x00       // psubb    xmm13, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
-	LONG $0xda0f4166; BYTE $0xd4               // pminub    xmm2, xmm12
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
-	LONG $0xc6740f66                           // pcmpeqb    xmm0, xmm6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x010e1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 14], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x020e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 2
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 14], 3
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	QUAD $0x040e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 4
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x0e3e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 14], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 6
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0e166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 14], 7
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x0e1e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 14], 8
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0e1e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r11 + 14], 9
-	QUAD $0x0a0e3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 14], 10
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x0e2e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 14], 11
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0e2e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r13 + 14], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 13
-	QUAD $0x0e066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 14], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 15
-	QUAD $0x0f1e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 15], 1
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0f0644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r8 + 15], 2
-	QUAD $0x0f2644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r12 + 15], 3
-	QUAD $0x0f1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 15], 4
-	QUAD $0x0f0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 15], 5
-	QUAD $0x0f0e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 15], 6
-	QUAD $0x0f1644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r10 + 15], 7
-	QUAD $0x0f3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 15], 8
-	QUAD $0x0f1e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r11 + 15], 9
-	QUAD $0x0f3e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 15], 10
-	QUAD $0x0f3644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 15], 11
-	QUAD $0x0f2e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 15], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0f0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 15], 13
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x0f0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 15], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rax + 15], 15
-	QUAD $0x01111e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 17], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0211067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 2
-	QUAD $0x11267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 17], 3
-	QUAD $0x0411167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 17], 4
-	QUAD $0x110e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r9 + 17], 5
-	QUAD $0x06110e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 17], 6
-	QUAD $0x11167c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r10 + 17], 7
-	QUAD $0x113e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 17], 8
-	QUAD $0x111e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r11 + 17], 9
-	QUAD $0x0a113e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 17], 10
-	QUAD $0x11367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 17], 11
-	QUAD $0x112e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r13 + 17], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 13
-	QUAD $0x11067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 17], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 15
-	QUAD $0x01121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 1
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x02121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 2
-	QUAD $0x12264c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r12 + 18], 3
-	QUAD $0x0412164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x120e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r9 + 18], 5
-	QUAD $0x06120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x12164c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r10 + 18], 7
-	QUAD $0x123e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 18], 8
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x121e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r11 + 18], 9
-	QUAD $0x0a123e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 18], 10
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x12364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 18], 11
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	QUAD $0x122e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r13 + 18], 12
-	LONG $0x240c8b4c                           // mov    r9, qword [rsp]
-	QUAD $0x120e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 18], 13
-	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI7_13] */
-	QUAD $0x000000e085df0f66                   // pandn    xmm0, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xc2eb0f66                           // por    xmm0, xmm2
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x12064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 18], 14
-	QUAD $0x000000f095df0f66                   // pandn    xmm2, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xd0eb0f66                           // por    xmm2, xmm0
-	LONG $0x6f0f4166; BYTE $0xf0               // movdqa    xmm6, xmm8
-	LONG $0xda0f4166; BYTE $0xf5               // pminub    xmm6, xmm13
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 15
-	QUAD $0x00000100b5ef0f66                   // pxor    xmm6, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0x75db0f66; BYTE $0x60               // pand    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd7740f66                           // pcmpeqb    xmm2, xmm7
-	LONG $0x6f0f4466; BYTE $0xf2               // movdqa    xmm14, xmm2
-	QUAD $0x0000a0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xfc0f4466; BYTE $0xf2               // paddb    xmm14, xmm2
-	LONG $0x6f0f4466; BYTE $0xd1               // movdqa    xmm10, xmm1
-	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
-	LONG $0x740f4466; BYTE $0xd1               // pcmpeqb    xmm10, xmm1
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0113065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x14064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 20], 1
-	QUAD $0x01150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 1
-	QUAD $0x16067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 22], 1
-	QUAD $0x17065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 23], 1
-	QUAD $0x190664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 25], 1
-	QUAD $0x011a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 1
-	QUAD $0x011b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 1
-	QUAD $0x1c0644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 28], 1
-	QUAD $0x011d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 1
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	QUAD $0x011e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 1
-	LONG $0xff6e0f66                           // movd    xmm7, edi
-	QUAD $0x011f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 1
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x02131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 2
-	QUAD $0x141e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rbx + 20], 2
-	QUAD $0x02151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 2
-	QUAD $0x161e7c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rbx + 22], 2
-	QUAD $0x171e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 23], 2
-	QUAD $0x191e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 25], 2
-	QUAD $0x021a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 2
-	QUAD $0x021b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 2
-	QUAD $0x1c1e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rbx + 28], 2
-	QUAD $0x021d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 2
-	QUAD $0x021e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 2
-	QUAD $0x021f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 2
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0313065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 3
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0413165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 19], 4
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x132e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 19], 5
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x06133e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 19], 6
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x131e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 19], 7
-	QUAD $0x13265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 19], 8
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x13365c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r14 + 19], 9
-	QUAD $0x13165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 19], 10
-	QUAD $0x133e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 19], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 12
-	QUAD $0x130e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r9 + 19], 13
-	QUAD $0x13065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 19], 14
-	QUAD $0x0f130e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 19], 15
-	QUAD $0x14064c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rax + 20], 3
-	QUAD $0x14164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 20], 4
-	QUAD $0x142e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 20], 5
-	QUAD $0x143e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdi + 20], 6
-	QUAD $0x141e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 20], 7
-	QUAD $0x14264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 20], 8
-	QUAD $0x14364c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r14 + 20], 9
-	QUAD $0x14164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 20], 10
-	QUAD $0x143e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 20], 11
-	QUAD $0x141e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rbx + 20], 12
-	QUAD $0x140e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r9 + 20], 13
-	QUAD $0x14064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 20], 14
-	QUAD $0x140e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 20], 15
-	QUAD $0x03150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 3
-	QUAD $0x04151664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 21], 4
-	QUAD $0x152e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 21], 5
-	QUAD $0x06153e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 21], 6
-	QUAD $0x151e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 21], 7
-	QUAD $0x152664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 21], 8
-	QUAD $0x153664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r14 + 21], 9
-	QUAD $0x151664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 21], 10
-	QUAD $0x153e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 21], 11
-	QUAD $0x0c151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 12
-	QUAD $0x150e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r9 + 21], 13
-	QUAD $0x150664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 21], 14
-	QUAD $0x0f150e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 21], 15
-	QUAD $0x16067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 22], 3
-	QUAD $0x16167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 22], 4
-	QUAD $0x162e7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r13 + 22], 5
-	QUAD $0x163e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 22], 6
-	QUAD $0x161e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 22], 7
-	QUAD $0x16267c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r12 + 22], 8
-	QUAD $0x16367c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r14 + 22], 9
-	QUAD $0x16167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 22], 10
-	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
-	QUAD $0x000000a095df0f66                   // pandn    xmm2, oword 160[rbp] /* [rip + .LCPI7_10] */
-	QUAD $0x163e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 22], 11
-	QUAD $0x0000b095df0f4466; BYTE $0x00       // pandn    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	QUAD $0x161e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rbx + 22], 12
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	QUAD $0x160e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r9 + 22], 13
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xeb0f4166; BYTE $0xd2               // por    xmm2, xmm10
-	QUAD $0x16067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 22], 14
-	QUAD $0x000100b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xeb0f4166; BYTE $0xd6               // por    xmm2, xmm14
-	LONG $0x6f0f4566; BYTE $0xd1               // movdqa    xmm10, xmm9
-	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
-	LONG $0xda0f4166; BYTE $0xdd               // pminub    xmm3, xmm13
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	QUAD $0x160e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rcx + 22], 15
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xdf0f4566; BYTE $0xd5               // pandn    xmm10, xmm13
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdcdf0f66                           // pandn    xmm3, xmm4
-	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xda0f4166; BYTE $0xe1               // pminub    xmm4, xmm9
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x17065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 23], 3
-	QUAD $0x17165c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rdx + 23], 4
-	QUAD $0x172e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 23], 5
-	QUAD $0x173e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 23], 6
-	QUAD $0x171e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 23], 7
-	QUAD $0x17265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 23], 8
-	QUAD $0x17365c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r14 + 23], 9
-	QUAD $0x17165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 23], 10
-	QUAD $0x173e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 23], 11
-	QUAD $0x171e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rbx + 23], 12
-	QUAD $0x170e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r9 + 23], 13
-	QUAD $0x17065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 23], 14
-	QUAD $0x170e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rcx + 23], 15
-	QUAD $0x0000f0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xdf0f4166; BYTE $0xe7               // pandn    xmm4, xmm15
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x6f0f4166; BYTE $0xdb               // movdqa    xmm3, xmm11
-	LONG $0xda0f4166; BYTE $0xd9               // pminub    xmm3, xmm9
-	LONG $0x740f4166; BYTE $0xdb               // pcmpeqb    xmm3, xmm11
-	QUAD $0x000001009def0f66                   // pxor    xmm3, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x190664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 25], 3
-	QUAD $0x191664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 25], 4
-	QUAD $0x192e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 25], 5
-	QUAD $0x193e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdi + 25], 6
-	QUAD $0x191e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 25], 7
-	QUAD $0x192664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 25], 8
-	QUAD $0x193664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r14 + 25], 9
-	QUAD $0x191664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 25], 10
-	QUAD $0x193e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 25], 11
-	QUAD $0x191e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rbx + 25], 12
-	QUAD $0x190e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r9 + 25], 13
-	QUAD $0x190664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 25], 14
-	QUAD $0x190e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rcx + 25], 15
-	QUAD $0x031a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 3
-	QUAD $0x041a166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 26], 4
-	QUAD $0x1a2e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 26], 5
-	QUAD $0x061a3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 26], 6
-	QUAD $0x1a1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 26], 7
-	QUAD $0x1a266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 26], 8
-	QUAD $0x1a366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 26], 9
-	QUAD $0x1a166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 26], 10
-	QUAD $0x1a3e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 26], 11
-	QUAD $0x0c1a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 12
-	QUAD $0x1a0e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 26], 13
-	QUAD $0x1a066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 26], 15
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6f0f4166; BYTE $0xd4               // movdqa    xmm2, xmm12
-	LONG $0xda0f4166; BYTE $0xd1               // pminub    xmm2, xmm9
-	LONG $0x740f4166; BYTE $0xd4               // pcmpeqb    xmm2, xmm12
-	LONG $0x6f0f4466; BYTE $0xca               // movdqa    xmm9, xmm2
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4566; BYTE $0xca               // pandn    xmm9, xmm10
-	LONG $0xfc0f4466; BYTE $0xca               // paddb    xmm9, xmm2
-	LONG $0xe56f0f66                           // movdqa    xmm4, xmm5
-	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
-	LONG $0xe5740f66                           // pcmpeqb    xmm4, xmm5
-	QUAD $0x0000f024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 240]
-	LONG $0xdf0f4166; BYTE $0xd2               // pandn    xmm2, xmm10
-	QUAD $0x031b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 3
-	QUAD $0x041b1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 27], 4
-	QUAD $0x1b2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 27], 5
-	QUAD $0x061b3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 27], 6
-	QUAD $0x1b1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 27], 7
-	QUAD $0x1b2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 27], 8
-	QUAD $0x1b3644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r14 + 27], 9
-	QUAD $0x1b1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 27], 10
-	QUAD $0x1b3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 27], 11
-	QUAD $0x0c1b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 12
-	QUAD $0x1b0e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r9 + 27], 13
-	QUAD $0x1b0644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 27], 14
-	QUAD $0x0f1b0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 27], 15
-	QUAD $0x000000b0a5df0f66                   // pandn    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xe2eb0f66                           // por    xmm4, xmm2
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xd4eb0f66                           // por    xmm2, xmm4
-	QUAD $0x1c0644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 28], 3
-	QUAD $0x1c1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 28], 4
-	QUAD $0x1c2e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 28], 5
-	QUAD $0x1c3e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 28], 6
-	QUAD $0x1c1e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 28], 7
-	QUAD $0x1c2644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 28], 8
-	QUAD $0x1c3644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r14 + 28], 9
-	QUAD $0x1c1644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 28], 10
-	QUAD $0x1c3e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 28], 11
-	QUAD $0x1c1e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 28], 12
-	QUAD $0x1c0e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r9 + 28], 13
-	QUAD $0x1c0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 28], 14
-	QUAD $0x1c0e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rcx + 28], 15
-	QUAD $0x031d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 3
-	QUAD $0x041d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 29], 4
-	QUAD $0x1d2e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 29], 5
-	QUAD $0x061d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 29], 6
-	QUAD $0x1d1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 29], 7
-	QUAD $0x1d2674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 29], 8
-	QUAD $0x1d3674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 29], 9
-	QUAD $0x1d1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 29], 10
-	QUAD $0x1d3e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 29], 11
-	QUAD $0x0c1d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 12
-	QUAD $0x1d0e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 29], 13
-	QUAD $0x1d0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 29], 14
-	QUAD $0x0f1d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 29], 15
-	LONG $0x760f4566; BYTE $0xd2               // pcmpeqd    xmm10, xmm10
-	LONG $0xf80f4566; BYTE $0xca               // psubb    xmm9, xmm10
-	LONG $0xeb0f4166; BYTE $0xd1               // por    xmm2, xmm9
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0xe66f0f66                           // movdqa    xmm4, xmm6
-	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
-	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
-	QUAD $0x031e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 30], 4
-	QUAD $0x041f167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 31], 4
-	QUAD $0x1e2e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 31], 5
-	QUAD $0x061e3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 30], 6
-	QUAD $0x061f3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 31], 6
-	QUAD $0x1e1e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 30], 7
-	QUAD $0x1f1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 31], 7
-	QUAD $0x1e264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 30], 8
-	QUAD $0x1f267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 31], 8
-	QUAD $0x1e364c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r14 + 30], 9
-	QUAD $0x1f367c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r14 + 31], 9
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x1e164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 30], 10
-	QUAD $0x1f167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 31], 10
-	QUAD $0x1e3e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 30], 11
-	QUAD $0x1f3e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 31], 11
-	QUAD $0x0c1e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 12
-	QUAD $0x0c1f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 12
-	QUAD $0x1e0e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 30], 13
-	QUAD $0x1f0e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r9 + 31], 13
-	QUAD $0x1e064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 30], 14
-	QUAD $0x1f067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 31], 14
-	QUAD $0x0f1e0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 30], 15
-	QUAD $0x0f1f0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 31], 15
-	QUAD $0x000000d085df0f66                   // pandn    xmm0, oword 208[rbp] /* [rip + .LCPI7_13] */
-	QUAD $0x000000e0a5df0f66                   // pandn    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
-	LONG $0xc1740f66                           // pcmpeqb    xmm0, xmm1
-	LONG $0xdf0f4166; BYTE $0xc7               // pandn    xmm0, xmm15
-	LONG $0xc4eb0f66                           // por    xmm0, xmm4
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xda0f4166; BYTE $0xcd               // pminub    xmm1, xmm13
-	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
-	LONG $0xef0f4166; BYTE $0xca               // pxor    xmm1, xmm10
-	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
-	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
-	LONG $0xc8eb0f66                           // por    xmm1, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0xd6600f66                           // punpcklbw    xmm2, xmm6
-	LONG $0xe26f0f66                           // movdqa    xmm4, xmm2
-	LONG $0xe0610f66                           // punpcklwd    xmm4, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0xd9680f66                           // punpckhbw    xmm3, xmm1
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc3610f66                           // punpcklwd    xmm0, xmm3
-	LONG $0xeb690f66                           // punpckhwd    xmm5, xmm3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	LONG $0x6c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm5
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB7_67
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	JNE  LBB7_69
-	JMP  LBB7_72
-
-LBB7_180:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x84348d4f                           // lea    r14, [r12 + 4*r8]
-	LONG $0xeb280f45                           // movaps    xmm13, xmm11
-	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI7_0] */
-
-LBB7_181:
-	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
-	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
-	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
-	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
-	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
-	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
-	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
-	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
-	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
-	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
-	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
-	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
-	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
-	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
-	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
-	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
-	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
-	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
-	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
-	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
-	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
-	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
-	LONG $0xe3c20f44; BYTE $0x01                       // cmpltps    xmm12, xmm3
-	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
-	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
-	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
-	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
-	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
-	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
-	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
-	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
-	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
-	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
-	LONG $0x01fcc20f                                   // cmpltps    xmm7, xmm4
-	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
-	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
-	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
-	LONG $0x01f5c20f                                   // cmpltps    xmm6, xmm5
-	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e0c20f                                   // cmpltps    xmm4, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
-	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
-	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
-	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
-	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
-	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
-	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
-	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
-	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c1c20f                                   // cmpltps    xmm0, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0xc8c20f41; BYTE $0x01                       // cmpltps    xmm1, xmm8
-	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
-	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
-	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
-	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
-	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
-	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
-	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x01ebc20f                                   // cmpltps    xmm5, xmm3
-	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
-	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
-	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
-	LONG $0xc2c20f45; BYTE $0x01                       // cmpltps    xmm8, xmm10
-	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
-	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
-	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
-	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
-	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
-	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
-	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
-	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
-	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
-	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
-	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
-	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
-	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xecc20f41; BYTE $0x01                       // cmpltps    xmm5, xmm12
-	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cbc20f                                   // cmpltps    xmm1, xmm3
-	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
-	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
-	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
-	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
-	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
-	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
-	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
-	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
-	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
-	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
-	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
-	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
-	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
-	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
-	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x01f7c20f                                   // cmpltps    xmm6, xmm7
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
-	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
-	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
-	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
-	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
-	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
-	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
-	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x01f2c20f                                   // cmpltps    xmm6, xmm2
-	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
-	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
-	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
-	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
-	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
-	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
-	LONG $0x01d3c20f                                   // cmpltps    xmm2, xmm3
-	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
-	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
-	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
-	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
-	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
-	LONG $0xeceb0f66                                   // por    xmm5, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e7c20f                                   // cmpltps    xmm4, xmm7
-	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
-	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x01e8c20f                                   // cmpltps    xmm5, xmm0
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cec20f                                   // cmpltps    xmm1, xmm6
-	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
-	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
-	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
-	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
-	LONG $0xcceb0f66                                   // por    xmm1, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e3c20f                                   // cmpltps    xmm4, xmm3
-	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
-	LONG $0x01d8c20f                                   // cmpltps    xmm3, xmm0
-	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
-	LONG $0xdceb0f66                                   // por    xmm3, xmm4
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c5c20f                                   // cmpltps    xmm0, xmm5
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
-	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
-	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI7_7] */
-	LONG $0x7f0f45f3; WORD $0x8c04                     // movdqu    oword [r12 + 4*rcx], xmm8
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB7_181
-	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
-	JNE  LBB7_183
-	JMP  LBB7_186
-
-LBB7_122:
-	LONG $0xf8e68349                     // and    r14, -8
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
-	LONG $0x2474894c; BYTE $0x18         // mov    qword [rsp + 24], r14
-	LONG $0xb4048d4b                     // lea    rax, [r12 + 4*r14]
-	LONG $0x24048948                     // mov    qword [rsp], rax
-	QUAD $0x0000f024846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 240]
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI7_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI7_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_123:
-	LONG $0x247c894c; BYTE $0x10               // mov    qword [rsp + 16], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x5cb70f46; WORD $0x043e             // movzx    r11d, word [rsi + r15 + 4]
-	LONG $0x54b70f42; WORD $0x063e             // movzx    edx, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x5cb70f46; WORD $0x0e3e             // movzx    r11d, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x54b70f42; WORD $0x103e             // movzx    edx, word [rsi + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x54b70f46; WORD $0x143e             // movzx    r10d, word [rsi + r15 + 20]
-	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x183e             // movzx    r11d, word [rsi + r15 + 24]
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x54b70f42; WORD $0x1a3e             // movzx    edx, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3e             // movzx    r10d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x650f4466; BYTE $0xc0               // pcmpgtw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223e             // movzx    r11d, word [rsi + r15 + 34]
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x54b70f42; WORD $0x243e             // movzx    edx, word [rsi + r15 + 36]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x28245489                           // mov    dword [rsp + 40], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3e             // movzx    eax, word [rsi + r15 + 42]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3e             // movzx    r10d, word [rsi + r15 + 44]
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2024             // movd    xmm6, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323e             // movzx    eax, word [rsi + r15 + 50]
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
-	LONG $0x74b70f46; WORD $0x343e             // movzx    r14d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x383e             // movzx    edx, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3e             // movzx    eax, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI7_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB7_123
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x24743b4c; BYTE $0x18               // cmp    r14, qword [rsp + 24]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	JNE  LBB7_125
-	JMP  LBB7_128
-
-DATA LCDATA6<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA6<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA6<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA6<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA6<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA6<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA6<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA6<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA6<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA6<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA6<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA6<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA6<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA6<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA6<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0f8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x100(SB)/8, $0xffffffffffffffff
-DATA LCDATA6<>+0x108(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA6<>(SB), 8, $272
-
-TEXT ·_comparison_greater_scalar_arr_sse4(SB), $360-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 336(SP)
-	LEAQ LCDATA6<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB8_16
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB8_31
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB8_81
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB8_92
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB8_182
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_7:
-	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_13
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_11:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_11
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_164
-
-LBB8_16:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB8_45
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB8_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB8_115
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB8_182
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_24
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_22:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_22
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_24:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_28
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB8_26:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x68               // add    sil, byte [rsp + 104]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB8_26
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-
-LBB8_28:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_166
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_168
-
-LBB8_31:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB8_58
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB8_182
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_37
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_35:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_35
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_37:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_127
-	LONG $0x10ff8349         // cmp    r15, 16
-	LONG $0x241c8844         // mov    byte [rsp], r11b
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
-	JB   LBB8_41
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_191
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB8_191
-
-LBB8_41:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
-
-LBB8_42:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB8_43:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_43
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB8_128
-
-LBB8_45:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB8_70
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB8_182
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_51
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_49:
-	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_49
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_51:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_55
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_53:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_53
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_55:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_143
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_145
-
-LBB8_58:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_62
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_60:
-	WORD $0x3844; BYTE $0x1a     // cmp    byte [rdx], r11b
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0xf619                 // sbb    esi, esi
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_60
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_62:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_131
-	LONG $0x10ff8349         // cmp    r15, 16
-	LONG $0x241c8844         // mov    byte [rsp], r11b
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
-	JB   LBB8_66
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_194
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB8_194
-
-LBB8_66:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
-
-LBB8_67:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB8_68:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x30               // mov    qword [rsp + 48], rdi
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_68
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB8_132
-
-LBB8_70:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_72:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_72
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_74:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_78
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_76:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_76
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_78:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_147
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_149
-
-LBB8_81:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_83:
-	LONG $0x2a394466                           // cmp    word [rdx], r13w
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_83
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_85:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_89
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_87:
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-	LONG $0x2a3b4466                     // cmp    r13w, word [rdx]
-	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x02         // cmp    r13w, word [rdx + 2]
-	LONG $0xd7970f40                     // seta    dil
-	LONG $0x6a3b4466; BYTE $0x04         // cmp    r13w, word [rdx + 4]
-	LONG $0xd6970f41                     // seta    r14b
-	LONG $0x6a3b4466; BYTE $0x06         // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
-	LONG $0x6a3b4466; BYTE $0x08         // cmp    r13w, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x0a         // cmp    r13w, word [rdx + 10]
-	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0c         // cmp    r13w, word [rdx + 12]
-	WORD $0x970f; BYTE $0xd0             // seta    al
-	LONG $0x6a3b4466; BYTE $0x0e         // cmp    r13w, word [rdx + 14]
-	LONG $0xd3970f41                     // seta    r11b
-	LONG $0x6a3b4466; BYTE $0x10         // cmp    r13w, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x12         // cmp    r13w, word [rdx + 18]
-	LONG $0xd6970f40                     // seta    sil
-	LONG $0x6a3b4466; BYTE $0x14         // cmp    r13w, word [rdx + 20]
-	LONG $0xd0970f41                     // seta    r8b
-	LONG $0x6a3b4466; BYTE $0x16         // cmp    r13w, word [rdx + 22]
-	LONG $0xd1970f41                     // seta    r9b
-	LONG $0x6a3b4466; BYTE $0x18         // cmp    r13w, word [rdx + 24]
-	LONG $0xd2970f41                     // seta    r10b
-	LONG $0x6a3b4466; BYTE $0x1a         // cmp    r13w, word [rdx + 26]
-	LONG $0xd4970f41                     // seta    r12b
-	LONG $0x6a3b4466; BYTE $0x1c         // cmp    r13w, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x1e         // cmp    r13w, word [rdx + 30]
-	WORD $0x970f; BYTE $0xd1             // seta    cl
-	LONG $0x6a3b4466; BYTE $0x20         // cmp    r13w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22         // cmp    r13w, word [rdx + 34]
-	QUAD $0x000000b02494970f             // seta    byte [rsp + 176]
-	LONG $0x6a3b4466; BYTE $0x24         // cmp    r13w, word [rdx + 36]
-	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x26         // cmp    r13w, word [rdx + 38]
-	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x28         // cmp    r13w, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x2a         // cmp    r13w, word [rdx + 42]
-	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x2c         // cmp    r13w, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x2e         // cmp    r13w, word [rdx + 46]
-	LONG $0xd7970f41                     // seta    r15b
-	LONG $0x6a3b4466; BYTE $0x30         // cmp    r13w, word [rdx + 48]
-	LONG $0x2414970f                     // seta    byte [rsp]
-	LONG $0x6a3b4466; BYTE $0x32         // cmp    r13w, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34         // cmp    r13w, word [rdx + 52]
-	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x36         // cmp    r13w, word [rdx + 54]
-	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x38         // cmp    r13w, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x3a         // cmp    r13w, word [rdx + 58]
-	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x3c         // cmp    r13w, word [rdx + 60]
-	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x3e         // cmp    r13w, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd3             // seta    bl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	LONG $0x247c0240; BYTE $0x60         // add    dil, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	LONG $0x07e3c041                     // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3             // or    r11b, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	LONG $0x24740240; BYTE $0x38         // add    sil, byte [rsp + 56]
-	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	WORD $0xc789                         // mov    edi, eax
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0x0840; BYTE $0xf8             // or    al, dil
-	WORD $0xc789                         // mov    edi, eax
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0840; BYTE $0xf8             // or    al, dil
-	LONG $0x04e2c041                     // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4             // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x70         // movzx    esi, byte [rsp + 112]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1             // or    cl, sil
-	WORD $0x0841; BYTE $0xc3             // or    r11b, al
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x0000008024b48b4c             // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                         // add    al, al
-	LONG $0x28244402                     // add    al, byte [rsp + 40]
-	WORD $0xc689                         // mov    esi, eax
-	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x8845; BYTE $0x1e             // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x48         // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
-	LONG $0x014e8841                     // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7             // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                         // add    al, al
-	WORD $0x0402; BYTE $0x24             // add    al, byte [rsp]
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	LONG $0x244cb60f; BYTE $0x10         // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xcb08                         // or    bl, cl
-	WORD $0xc308                         // or    bl, al
-	LONG $0x027e8845                     // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                     // mov    byte [r14 + 3], bl
-	LONG $0x40c28348                     // add    rdx, 64
-	LONG $0x04c68349                     // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB8_87
-	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c             // mov    r11, qword [rsp + 240]
-
-LBB8_89:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_170
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_172
-
-LBB8_92:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_94:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_94
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_135
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f024bc894c // mov    qword [rsp + 240], r15
-	JB   LBB8_100
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_197
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB8_197
-
-LBB8_100:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB8_101:
-	LONG $0x2424894c             // mov    qword [rsp], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
-	QUAD $0x000000d024b4894c     // mov    qword [rsp + 208], r14
-
-LBB8_102:
-	WORD $0x8949; BYTE $0xf3             // mov    r11, rsi
-	LONG $0x2e3b4466                     // cmp    r13w, word [rsi]
-	QUAD $0x000000c024949f0f             // setg    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02         // cmp    r13w, word [rsi + 2]
-	LONG $0xd79f0f40                     // setg    dil
-	LONG $0x6e3b4466; BYTE $0x04         // cmp    r13w, word [rsi + 4]
-	LONG $0xd69f0f41                     // setg    r14b
-	LONG $0x6e3b4466; BYTE $0x06         // cmp    r13w, word [rsi + 6]
-	LONG $0x24549f0f; BYTE $0x78         // setg    byte [rsp + 120]
-	LONG $0x6e3b4466; BYTE $0x08         // cmp    r13w, word [rsi + 8]
-	QUAD $0x0000009024949f0f             // setg    byte [rsp + 144]
-	LONG $0x6e3b4466; BYTE $0x0a         // cmp    r13w, word [rsi + 10]
-	LONG $0x24549f0f; BYTE $0x48         // setg    byte [rsp + 72]
-	LONG $0x6e3b4466; BYTE $0x0c         // cmp    r13w, word [rsi + 12]
-	WORD $0x9f0f; BYTE $0xd0             // setg    al
-	LONG $0x6e3b4466; BYTE $0x0e         // cmp    r13w, word [rsi + 14]
-	LONG $0xd29f0f41                     // setg    r10b
-	LONG $0x6e3b4466; BYTE $0x10         // cmp    r13w, word [rsi + 16]
-	LONG $0x24549f0f; BYTE $0x70         // setg    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x12         // cmp    r13w, word [rsi + 18]
-	WORD $0x9f0f; BYTE $0xd1             // setg    cl
-	LONG $0x6e3b4466; BYTE $0x14         // cmp    r13w, word [rsi + 20]
-	WORD $0x9f0f; BYTE $0xd2             // setg    dl
-	LONG $0x6e3b4466; BYTE $0x16         // cmp    r13w, word [rsi + 22]
-	LONG $0xd69f0f40                     // setg    sil
-	LONG $0x6b3b4566; BYTE $0x18         // cmp    r13w, word [r11 + 24]
-	LONG $0xd19f0f41                     // setg    r9b
-	LONG $0x6b3b4566; BYTE $0x1a         // cmp    r13w, word [r11 + 26]
-	LONG $0xd49f0f41                     // setg    r12b
-	LONG $0x6b3b4566; BYTE $0x1c         // cmp    r13w, word [r11 + 28]
-	LONG $0x24549f0f; BYTE $0x68         // setg    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x1e         // cmp    r13w, word [r11 + 30]
-	LONG $0xd09f0f41                     // setg    r8b
-	LONG $0x6b3b4566; BYTE $0x20         // cmp    r13w, word [r11 + 32]
-	LONG $0x24549f0f; BYTE $0x58         // setg    byte [rsp + 88]
-	LONG $0x6b3b4566; BYTE $0x22         // cmp    r13w, word [r11 + 34]
-	QUAD $0x000000b024949f0f             // setg    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x24         // cmp    r13w, word [r11 + 36]
-	LONG $0x24549f0f; BYTE $0x60         // setg    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x26         // cmp    r13w, word [r11 + 38]
-	QUAD $0x000000a024949f0f             // setg    byte [rsp + 160]
-	LONG $0x6b3b4566; BYTE $0x28         // cmp    r13w, word [r11 + 40]
-	LONG $0x24549f0f; BYTE $0x50         // setg    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a         // cmp    r13w, word [r11 + 42]
-	LONG $0x24549f0f; BYTE $0x38         // setg    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x2c         // cmp    r13w, word [r11 + 44]
-	LONG $0x24549f0f; BYTE $0x40         // setg    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e         // cmp    r13w, word [r11 + 46]
-	LONG $0xd79f0f41                     // setg    r15b
-	LONG $0x6b3b4566; BYTE $0x30         // cmp    r13w, word [r11 + 48]
-	LONG $0x24549f0f; BYTE $0x18         // setg    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32         // cmp    r13w, word [r11 + 50]
-	LONG $0x24549f0f; BYTE $0x28         // setg    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x34         // cmp    r13w, word [r11 + 52]
-	LONG $0x24549f0f; BYTE $0x30         // setg    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x36         // cmp    r13w, word [r11 + 54]
-	LONG $0x24549f0f; BYTE $0x20         // setg    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x38         // cmp    r13w, word [r11 + 56]
-	LONG $0x24549f0f; BYTE $0x08         // setg    byte [rsp + 8]
-	LONG $0x6b3b4566; BYTE $0x3a         // cmp    r13w, word [r11 + 58]
-	LONG $0x24549f0f; BYTE $0x10         // setg    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3c         // cmp    r13w, word [r11 + 60]
-	QUAD $0x0000008024949f0f             // setg    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x3e         // cmp    r13w, word [r11 + 62]
-	WORD $0x9f0f; BYTE $0xd3             // setg    bl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2             // or    r10b, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x70244c02                     // add    cl, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0xca08                         // or    dl, cl
-	QUAD $0x00000090248cb60f             // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xc108                         // or    cl, al
-	WORD $0xcf89                         // mov    edi, ecx
-	LONG $0x03e6c040                     // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6             // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	LONG $0x04e1c041                     // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1             // or    r9b, sil
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc             // or    r12b, r9b
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
-	WORD $0x0841; BYTE $0xca             // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0             // or    r8b, r12b
-	QUAD $0x000000b0248cb60f             // movzx    ecx, byte [rsp + 176]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x58244c02                     // add    cl, byte [rsp + 88]
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60         // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	QUAD $0x000000a0248cb60f             // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50         // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xce89                         // mov    esi, ecx
-	LONG $0x240c8b48                     // mov    rcx, qword [rsp]
-	WORD $0x8844; BYTE $0x11             // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40         // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
-	LONG $0x01418844                     // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                         // add    al, al
-	LONG $0x18244402                     // add    al, byte [rsp + 24]
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd008                         // or    al, dl
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xd308                         // or    bl, dl
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02798844                     // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03             // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                     // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                     // add    rcx, 4
-	LONG $0x240c8948                     // mov    qword [rsp], rcx
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB8_102
-	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	LONG $0x24248b4c                     // mov    r12, qword [rsp]
-	JMP  LBB8_136
-
-LBB8_104:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_106:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_106
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_108:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_112
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_110:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_110
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_112:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_175
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_177
-
-LBB8_115:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_119
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_117:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_117
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_119:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_139
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB8_123
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_200
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB8_200
-
-LBB8_123:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_124:
-	LONG $0x243c894c         // mov    qword [rsp], r15
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-	WORD $0x294d; BYTE $0xc3 // sub    r11, r8
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB8_125:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB8_125
-	LONG $0x243c8b4c                           // mov    r15, qword [rsp]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	JMP  LBB8_140
-
-LBB8_127:
-	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB8_128:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_151
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB8_154
-
-LBB8_131:
-	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB8_132:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_156
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB8_159
-
-LBB8_135:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-
-LBB8_136:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_183
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB8_185
-
-LBB8_139:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB8_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_187
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB8_189
-
-LBB8_143:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_144:
-	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_144
-
-LBB8_145:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
-	JMP  LBB8_174
-
-LBB8_147:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_148:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_148
-
-LBB8_149:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-	JMP  LBB8_179
-
-LBB8_151:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x58 // mov    r14, qword [rsp + 88]
-
-LBB8_152:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3a46             // cmp    r11b, byte [rsi + r9]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3a44; BYTE $0x01 // cmp    r11b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB8_152
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB8_154:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3a44; BYTE $0x1e     // cmp    r11b, byte [rsi]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB8_161
-
-LBB8_156:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x30 // mov    r14, qword [rsp + 48]
-
-LBB8_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0x03ebc148             // shr    rbx, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0x2040; BYTE $0xfa     // and    dl, dil
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x1e148841             // mov    byte [r14 + rbx], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xd7     // xor    dil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB8_157
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB8_159:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x30 // mov    r8, qword [rsp + 48]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB8_161:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_162:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_163:
-	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_163
-
-LBB8_164:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
-	JMP  LBB8_174
-
-LBB8_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_167:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x10c28348             // add    rdx, 16
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_167
-
-LBB8_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x022e0f66         // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	JMP  LBB8_180
-
-LBB8_170:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_171:
-	LONG $0x2a394466             // cmp    word [rdx], r13w
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_171
-
-LBB8_172:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x2a394466 // cmp    word [rdx], r13w
-
-LBB8_174:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB8_181
-
-LBB8_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_176:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_176
-
-LBB8_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-
-LBB8_179:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-
-LBB8_180:
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB8_181:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB8_182:
-	MOVQ 336(SP), SP
-	RET
-
-LBB8_183:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB8_184:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB8_184
-
-LBB8_185:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_187:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB8_188:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x970f; BYTE $0xd2     // seta    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x08c38348             // add    rbx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB8_188
-
-LBB8_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_191:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB8_192:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x10               // movzx    ecx, byte [rdx + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x18               // movzx    ecx, byte [rdx + rax + 24]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	LONG $0xc0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 192
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x246c894c; BYTE $0x20               // mov    qword [rsp + 32], r13
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	QUAD $0x00018048244c8148; BYTE $0x00       // or    qword [rsp + 72], 384
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	LONG $0xc0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 448
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 1
-	QUAD $0x020204203a0f4666                   // pinsrb    xmm8, byte [rdx + r8], 2
-	QUAD $0x031a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r11], 3
-	QUAD $0x040a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r9], 4
-	QUAD $0x052204203a0f4666                   // pinsrb    xmm8, byte [rdx + r12], 5
-	QUAD $0x063204203a0f4666                   // pinsrb    xmm8, byte [rdx + r14], 6
-	QUAD $0x073a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rdi], 7
-	QUAD $0x082a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r13], 8
-	QUAD $0x091204203a0f4666                   // pinsrb    xmm8, byte [rdx + r10], 9
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
-	QUAD $0x0a3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 10
-	QUAD $0x0b1a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rbx], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 13
-	QUAD $0x0e3204203a0f4466                   // pinsrb    xmm8, byte [rdx + rsi], 14
-	QUAD $0x0f0a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rcx], 15
-	QUAD $0x012024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 288]
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0101027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 1
-	QUAD $0x01027c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r8 + 1], 2
-	QUAD $0x011a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 1], 3
-	QUAD $0x010a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 1], 4
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x012a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r13 + 1], 5
-	QUAD $0x01327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 1], 6
-	QUAD $0x07013a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 1], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0801027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 8
-	QUAD $0x01127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 1], 9
-	QUAD $0x01227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 1], 10
-	QUAD $0x0b011a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 1], 11
-	QUAD $0x013a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 1], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d01027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 13
-	QUAD $0x0e01327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 1], 14
-	QUAD $0x0f010a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 1], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 1
-	QUAD $0x020274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r8 + 2], 2
-	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
-	QUAD $0x020a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r9 + 2], 4
-	QUAD $0x022a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r13 + 2], 5
-	QUAD $0x023274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 2], 6
-	QUAD $0x07023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x08020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 8
-	QUAD $0x021274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 2], 9
-	QUAD $0x022274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r12 + 2], 10
-	QUAD $0x0b021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 11
-	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 13
-	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
-	QUAD $0x0f020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x080264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 8], 1
-	QUAD $0x080264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r8 + 8], 2
-	QUAD $0x081a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 8], 3
-	QUAD $0x080a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 8], 4
-	QUAD $0x082a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r13 + 8], 5
-	QUAD $0x083264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r14 + 8], 6
-	QUAD $0x083a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rdi + 8], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x080264203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rdx + rax + 8], 8
-	QUAD $0x081264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r10 + 8], 9
-	QUAD $0x082264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 8], 10
-	QUAD $0x081a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 8], 11
-	QUAD $0x083a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 8], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x080264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 8], 13
-	QUAD $0x083264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 8], 14
-	QUAD $0x080a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 8], 15
-	LONG $0x640f4166; BYTE $0xd8               // pcmpgtb    xmm3, xmm8
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x640f4166; BYTE $0xdc               // pcmpgtb    xmm3, xmm12
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x100a74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rcx + 16], 1
-	QUAD $0x100274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r8 + 16], 2
-	QUAD $0x101a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 16], 3
-	QUAD $0x100a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r9 + 16], 4
-	QUAD $0x102a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r13 + 16], 5
-	QUAD $0x103274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 16], 6
-	QUAD $0x103a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rdi + 16], 7
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x100a74203a0f4466; BYTE $0x08       // pinsrb    xmm14, byte [rdx + rcx + 16], 8
-	QUAD $0x101274203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r10 + 16], 9
-	QUAD $0x102274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r12 + 16], 10
-	QUAD $0x101a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 16], 11
-	QUAD $0x103a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 16], 12
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x100274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rax + 16], 13
-	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
-	QUAD $0x103274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rsi + 16], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x103a74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rdi + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 1
-	QUAD $0x180264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 24], 2
-	QUAD $0x181a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 24], 3
-	QUAD $0x180a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 24], 4
-	QUAD $0x182a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 24], 5
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x180264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r8 + 24], 6
-	QUAD $0x183264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 24], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x08180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 8
-	QUAD $0x181264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r10 + 24], 9
-	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 10
-	QUAD $0x0b181a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 24], 11
-	QUAD $0x183a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 24], 12
-	QUAD $0x0d180a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 24], 13
-	QUAD $0x0e183264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 24], 14
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
-	QUAD $0x0f183a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 24], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	QUAD $0x0000d0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm3
-	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
-	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
-	LONG $0x6f0f4466; BYTE $0xe4               // movdqa    xmm12, xmm4
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
-	LONG $0xf80f4466; BYTE $0xe4               // psubb    xmm12, xmm4
-	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
-	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
-	LONG $0xe6640f66                           // pcmpgtb    xmm4, xmm6
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x03327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 3], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x03027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 3], 2
-	LONG $0x245c894c; BYTE $0x28               // mov    qword [rsp + 40], r11
-	QUAD $0x031a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 3], 3
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
-	QUAD $0x030a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r9 + 3], 4
-	QUAD $0x032a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r13 + 3], 5
-	QUAD $0x03027c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r8 + 3], 6
-	LONG $0x2474894c; BYTE $0x50               // mov    qword [rsp + 80], r14
-	QUAD $0x03327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 3], 7
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x03227c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r12 + 3], 8
-	QUAD $0x03127c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r10 + 3], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x030a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 3], 10
-	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
-	QUAD $0x031a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 3], 11
-	QUAD $0x033a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 3], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x033a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 3], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x033a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rdi + 3], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x03127c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r10 + 3], 15
-	QUAD $0x0104326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 4], 1
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x0204026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 2
-	QUAD $0x041a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 4], 3
-	QUAD $0x04040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 4
-	QUAD $0x042a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r13 + 4], 5
-	QUAD $0x04026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 4], 6
-	QUAD $0x04326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 4], 7
-	QUAD $0x04226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 4], 8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x09040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 9
-	QUAD $0x040a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 4], 10
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0b041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 11
-	QUAD $0x043a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 4], 12
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x040a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 4], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e04026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 14
-	QUAD $0x000110249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 272]
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xe6db0f66                           // pand    xmm4, xmm6
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rdi + 14]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 15
-	LONG $0xeb0f4166; BYTE $0xe4               // por    xmm4, xmm12
-	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
-	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
-	LONG $0x640f4466; BYTE $0xed               // pcmpgtb    xmm13, xmm5
-	LONG $0x3a74b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rdi + 15]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x051254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r10 + 5], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x050254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r8 + 5], 2
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x03053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x052a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 5], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x05053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x053254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 5], 6
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x051254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 5], 7
-	QUAD $0x052254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 5], 8
-	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
-	QUAD $0x051a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 5], 10
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0b050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 11
-	QUAD $0x053a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 5], 12
-	QUAD $0x050a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r9 + 5], 13
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	QUAD $0x0f051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 15
-	QUAD $0x000000c09d6f0f66                   // movdqa    xmm3, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
-	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdb0f4466; BYTE $0xeb               // pand    xmm13, xmm3
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x640f4466; BYTE $0xe2               // pcmpgtb    xmm12, xmm2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0106025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 1
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	QUAD $0x06025c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r8 + 6], 2
-	QUAD $0x03063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 3
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x062a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 6], 4
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x062a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r13 + 6], 5
-	QUAD $0x06325c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r14 + 6], 6
-	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
-	QUAD $0x06225c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r12 + 6], 8
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0906325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 6], 9
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x06025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 6], 10
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 11
-	LONG $0x247c894c; BYTE $0x48               // mov    qword [rsp + 72], r15
-	QUAD $0x063a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 6], 12
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x061a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 6], 13
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x061a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r11 + 6], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x06125c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r10 + 6], 15
-	QUAD $0x0107024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 1
-	QUAD $0x070a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r9 + 7], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0307024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x04070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x072a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r13 + 7], 5
-	QUAD $0x07324c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r14 + 7], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x07324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 7], 7
-	QUAD $0x07224c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r12 + 7], 8
-	QUAD $0x0907324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 7], 9
-	QUAD $0x07024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 7], 10
-	QUAD $0x0b071a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 7], 11
-	QUAD $0x073a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 7], 12
-	QUAD $0x0d073a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 7], 13
-	QUAD $0x071a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 7], 14
-	QUAD $0x07124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 7], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 1
-	QUAD $0x090a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r9 + 9], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x03090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 3
-	QUAD $0x04090a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 9], 4
-	QUAD $0x092a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r13 + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x06090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x07090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 7
-	QUAD $0x092244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 9], 8
-	QUAD $0x09093244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 9], 9
-	QUAD $0x090244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 9], 10
-	QUAD $0x0b091a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 9], 11
-	QUAD $0x093a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 9], 12
-	QUAD $0x0d093a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 9], 13
-	QUAD $0x091a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r11 + 9], 14
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x091244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r10 + 9], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 10], 1
-	QUAD $0x0a0a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r9 + 10], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 10], 3
-	QUAD $0x0a0a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rcx + 10], 4
-	QUAD $0x0a2a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r13 + 10], 5
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0a1a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 10], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rcx + 10], 7
-	QUAD $0x0a224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 10], 8
-	QUAD $0x0a324c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rsi + 10], 9
-	QUAD $0x0a024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 10], 10
-	QUAD $0x0a1a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 10], 11
-	QUAD $0x0a3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 10], 12
-	QUAD $0x0a3a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 10], 13
-	LONG $0xeb0f4466; BYTE $0xe4               // por    xmm12, xmm4
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0xe3640f66                           // pcmpgtb    xmm4, xmm3
-	LONG $0x640f4466; BYTE $0xf1               // pcmpgtb    xmm14, xmm1
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	QUAD $0x0a324c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r14 + 10], 14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xe3db0f66                           // pand    xmm4, xmm3
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xf3               // pand    xmm14, xmm3
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0a124c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r10 + 10], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	QUAD $0x00c024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm14
-	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xd8640f66                           // pcmpgtb    xmm3, xmm0
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
-	LONG $0xf80f4466; BYTE $0xe3               // psubb    xmm12, xmm3
-	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
-	LONG $0x3a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rdi + 21]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0b1254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r10 + 11], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x0b0a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r9 + 11], 2
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b3a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rdi + 11], 3
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0b0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 11], 4
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x0b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 11], 5
-	QUAD $0x0b1a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r11 + 11], 6
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x0b0a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rcx + 11], 7
-	QUAD $0x0b2254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r12 + 11], 8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 11], 9
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0b3254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r14 + 11], 10
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0b3a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r15 + 11], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 11], 12
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 11], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rsi + 11], 14
-	QUAD $0x0b2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 11], 15
-	QUAD $0x0c125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 12], 1
-	QUAD $0x0c025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 12], 2
-	QUAD $0x0c3a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 12], 3
-	QUAD $0x0c025c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r8 + 12], 4
-	QUAD $0x0c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 12], 5
-	QUAD $0x0c1a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 12], 6
-	QUAD $0x0c1a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 12], 7
-	QUAD $0x0c225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 12], 8
-	QUAD $0x0c0a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 12], 9
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0c325c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r14 + 12], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x0c3a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 12], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c3a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 12], 13
-	QUAD $0x0c325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 12], 14
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x000130249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 304]
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	QUAD $0x0000b0addb0f4466; BYTE $0x00       // pand    xmm13, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4466; BYTE $0xeb               // por    xmm13, xmm3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	QUAD $0x0c2a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 12], 15
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x640f4566; BYTE $0xe2               // pcmpgtb    xmm12, xmm10
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x640f4166; BYTE $0xdb               // pcmpgtb    xmm3, xmm11
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010d027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 13], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x020d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 2
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0d1a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 13], 3
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x040d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 4
-	QUAD $0x0d0a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 13], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0d327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 13], 6
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x070d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 7
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x080d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 8
-	QUAD $0x0d227c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r12 + 13], 9
-	QUAD $0x0d027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 13], 10
-	QUAD $0x0b0d1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 13], 11
-	QUAD $0x0d3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 13], 12
-	QUAD $0x0d0d3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 13], 13
-	QUAD $0x0d127c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r10 + 13], 14
-	QUAD $0x0d2a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 13], 15
-	QUAD $0x0000c0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
-	QUAD $0x000000d09ddb0f66                   // pand    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xeb0f4166; BYTE $0xdc               // por    xmm3, xmm12
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0x640f4466; BYTE $0xd7               // pcmpgtb    xmm10, xmm7
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1922             // movzx    esi, byte [rdx + r12 + 25]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000e095db0f4466; BYTE $0x00       // pand    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4466; BYTE $0xd3               // por    xmm10, xmm3
-	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	QUAD $0x010e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 14], 2
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0e1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 14], 3
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x040e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 4
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0e0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 14], 5
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0e3274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 14], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 14], 7
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x080e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 8
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0e0a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r9 + 14], 9
-	QUAD $0x0e0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 14], 10
-	QUAD $0x0b0e1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 14], 11
-	QUAD $0x0e3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 14], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 14
-	QUAD $0x0e2a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 14], 15
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0f2a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 15], 1
-	QUAD $0x020f326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 15], 2
-	QUAD $0x0f126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 15], 3
-	QUAD $0x0f226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 15], 4
-	QUAD $0x050f3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 15], 5
-	QUAD $0x0f1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 15], 6
-	QUAD $0x0f326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 15], 7
-	QUAD $0x080f0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 15], 8
-	QUAD $0x0f0a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 15], 9
-	QUAD $0x0f026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 15], 10
-	QUAD $0x0b0f1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 15], 11
-	QUAD $0x0f3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 15], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 15
-	QUAD $0x112a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 17], 1
-	QUAD $0x02113254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 17], 2
-	QUAD $0x111254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x112254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 17], 4
-	QUAD $0x05113a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 17], 5
-	QUAD $0x111a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 17], 6
-	QUAD $0x113254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 17], 7
-	QUAD $0x08110a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 17], 8
-	QUAD $0x110a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 17], 9
-	QUAD $0x110254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 17], 10
-	QUAD $0x0b111a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 17], 11
-	QUAD $0x113a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 15
-	QUAD $0x122a7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rdx + r13 + 18], 1
-	QUAD $0x12327c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rsi + 18], 2
-	QUAD $0x12127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 18], 3
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x12227c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r12 + 18], 4
-	QUAD $0x123a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rdi + 18], 5
-	QUAD $0x121a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r11 + 18], 6
-	QUAD $0x12327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 18], 7
-	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
-	QUAD $0x120a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r9 + 18], 9
-	QUAD $0x12027c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r8 + 18], 10
-	QUAD $0x121a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 18], 11
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	QUAD $0x123a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 18], 12
-	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
-	QUAD $0x12127c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r10 + 18], 13
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xee               // pcmpgtb    xmm13, xmm6
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rcx + 18], 14
-	QUAD $0x0000f0addb0f4466; BYTE $0x00       // pand    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0x5ddb0f66; BYTE $0x60               // pand    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
-	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 18], 15
-	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
-	LONG $0x6f0f4466; BYTE $0xeb               // movdqa    xmm13, xmm3
-	QUAD $0x000000a0956f0f66                   // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4466; BYTE $0xea               // pand    xmm13, xmm2
-	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00f024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 240]
-	LONG $0xdb0f4466; BYTE $0xfa               // pand    xmm15, xmm2
-	QUAD $0x000000b0956f0f66                   // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xdb0f4466; BYTE $0xd2               // pand    xmm10, xmm2
-	LONG $0xeb0f4566; BYTE $0xd7               // por    xmm10, xmm15
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0x38244489                           // mov    dword [rsp + 56], eax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0113024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 19], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02130a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 19], 2
-	QUAD $0x132a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 19], 3
-	QUAD $0x13224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 19], 4
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x13024c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r8 + 19], 5
-	QUAD $0x131a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 19], 6
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	QUAD $0x13324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 19], 7
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0813324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 19], 8
-	QUAD $0x130a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r9 + 19], 9
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x131a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 19], 10
-	QUAD $0x0b133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 12
-	QUAD $0x13124c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r10 + 19], 13
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x13124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 19], 15
-	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
-	QUAD $0x02140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 2
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x142a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r13 + 20], 3
-	QUAD $0x142264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r12 + 20], 4
-	QUAD $0x140264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 20], 5
-	QUAD $0x06141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 6
-	QUAD $0x143a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r15 + 20], 7
-	QUAD $0x08143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 8
-	QUAD $0x140a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r9 + 20], 9
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x141a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 20], 10
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x143a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 20], 12
-	QUAD $0x143264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r14 + 20], 13
-	QUAD $0x0e143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 14
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x141264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r10 + 20], 15
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xe9               // pcmpgtb    xmm13, xmm1
-	LONG $0x6f0f4566; BYTE $0xfe               // movdqa    xmm15, xmm14
-	LONG $0x640f4466; BYTE $0xfc               // pcmpgtb    xmm15, xmm4
-	LONG $0x4c6e0f66; WORD $0x3824             // movd    xmm1, dword [rsp + 56]
-	QUAD $0x01150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 1
-	QUAD $0x160244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 22], 1
-	QUAD $0x17024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 23], 1
-	QUAD $0x19025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 25], 1
-	QUAD $0x011a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 1
-	QUAD $0x011b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 1
-	QUAD $0x011c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 1
-	QUAD $0x011d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 1
-	QUAD $0x011e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 1
-	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
-	QUAD $0x02150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 2
-	QUAD $0x160a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rcx + 22], 2
-	QUAD $0x170a4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rcx + 23], 2
-	QUAD $0x190a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 25], 2
-	QUAD $0x021a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 2
-	QUAD $0x021b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 2
-	QUAD $0x021c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 2
-	QUAD $0x021d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 2
-	QUAD $0x021e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 2
-	QUAD $0x021f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 2
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x152a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 21], 3
-	QUAD $0x152244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r12 + 21], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x05153a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 21], 5
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x151a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r11 + 21], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x153244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 21], 7
-	QUAD $0x08153244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 21], 8
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x151244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r10 + 21], 9
-	QUAD $0x150244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 21], 10
-	QUAD $0x0b151a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 21], 11
-	QUAD $0x153a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0d150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 14
-	QUAD $0x150a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r9 + 21], 15
-	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdb0f4466; BYTE $0xec               // pand    xmm13, xmm4
-	QUAD $0x000000d0a56f0f66                   // movdqa    xmm4, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
-	QUAD $0x000000e0856f0f66                   // movdqa    xmm0, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xdb0f4466; BYTE $0xe8               // pand    xmm13, xmm0
-	LONG $0xeb0f4566; BYTE $0xef               // por    xmm13, xmm15
-	QUAD $0x162a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 22], 3
-	QUAD $0x162244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r12 + 22], 4
-	QUAD $0x163a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 22], 5
-	QUAD $0x161a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r11 + 22], 6
-	QUAD $0x163244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r14 + 22], 7
-	QUAD $0x163244203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rsi + 22], 8
-	QUAD $0x161244203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r10 + 22], 9
-	QUAD $0x160244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r8 + 22], 10
-	QUAD $0x161a44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + rbx + 22], 11
-	QUAD $0x163a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 22], 12
-	QUAD $0x160a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rcx + 22], 13
-	QUAD $0x160244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 22], 14
-	QUAD $0x160a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r9 + 22], 15
-	QUAD $0x172a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r13 + 23], 3
-	QUAD $0x17224c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r12 + 23], 4
-	QUAD $0x173a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rdi + 23], 5
-	QUAD $0x171a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 23], 6
-	QUAD $0x17324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 23], 7
-	QUAD $0x17324c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rsi + 23], 8
-	QUAD $0x17124c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r10 + 23], 9
-	QUAD $0x17024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 23], 10
-	QUAD $0x171a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 23], 11
-	QUAD $0x173a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 23], 12
-	QUAD $0x170a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rcx + 23], 13
-	QUAD $0x17024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 23], 14
-	QUAD $0x170a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r9 + 23], 15
-	QUAD $0x192a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r13 + 25], 3
-	QUAD $0x19225c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r12 + 25], 4
-	QUAD $0x193a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 25], 5
-	QUAD $0x191a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 25], 6
-	QUAD $0x19325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 25], 7
-	QUAD $0x19325c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rdx + rsi + 25], 8
-	QUAD $0x19125c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r10 + 25], 9
-	QUAD $0x19025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 25], 10
-	QUAD $0x191a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 25], 11
-	QUAD $0x193a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 25], 12
-	QUAD $0x190a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rcx + 25], 13
-	QUAD $0x19025c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rax + 25], 14
-	QUAD $0x190a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r9 + 25], 15
-	QUAD $0x1a2a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 26], 3
-	QUAD $0x1a227c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r12 + 26], 4
-	QUAD $0x051a3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 26], 5
-	QUAD $0x1a1a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r11 + 26], 6
-	QUAD $0x1a327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 26], 7
-	QUAD $0x081a327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 26], 8
-	QUAD $0x1a127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 26], 9
-	QUAD $0x1a027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 26], 10
-	QUAD $0x0b1a1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 26], 11
-	QUAD $0x1a3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 26], 12
-	QUAD $0x0d1a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 13
-	QUAD $0x0e1a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 14
-	LONG $0xeb0f4566; BYTE $0xea               // por    xmm13, xmm10
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0x640f4166; BYTE $0xe0               // pcmpgtb    xmm4, xmm8
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x640f4166; BYTE $0xc1               // pcmpgtb    xmm0, xmm9
-	QUAD $0x0000f0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x607d             // movdqa    xmm15, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4166; BYTE $0xc7               // pand    xmm0, xmm15
-	LONG $0xc4eb0f66                           // por    xmm0, xmm4
-	QUAD $0x1a0a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r9 + 26], 15
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
-	LONG $0x640f4166; BYTE $0xe3               // pcmpgtb    xmm4, xmm11
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4566; BYTE $0xc3               // pand    xmm8, xmm11
-	LONG $0xf80f4466; BYTE $0xc4               // psubb    xmm8, xmm4
-	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
-	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
-	QUAD $0x1b2a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 27], 3
-	QUAD $0x1b226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 27], 4
-	QUAD $0x051b3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 27], 5
-	QUAD $0x1b1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 27], 6
-	QUAD $0x1b326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 27], 7
-	QUAD $0x081b326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 27], 8
-	QUAD $0x1b126c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r10 + 27], 9
-	QUAD $0x1b026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 27], 10
-	QUAD $0x0b1b1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 27], 11
-	QUAD $0x1b3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 27], 12
-	QUAD $0x0d1b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 14
-	QUAD $0x1b0a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r9 + 27], 15
-	QUAD $0x1c2a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 28], 3
-	QUAD $0x1c2274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r12 + 28], 4
-	QUAD $0x051c3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 28], 5
-	QUAD $0x1c1a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r11 + 28], 6
-	QUAD $0x1c3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 28], 7
-	QUAD $0x081c3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 28], 8
-	QUAD $0x1c1274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 28], 9
-	QUAD $0x1c0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 28], 10
-	QUAD $0x0b1c1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 28], 11
-	QUAD $0x1c3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 13
-	QUAD $0x0000d024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 208]
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	QUAD $0x0e1c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 14
-	QUAD $0x000000b0a5db0f66                   // pand    xmm4, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	QUAD $0x1c0a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r9 + 28], 15
-	LONG $0xeb0f4166; BYTE $0xe0               // por    xmm4, xmm8
-	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
-	LONG $0xfd640f66                           // pcmpgtb    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xec               // movdqa    xmm5, xmm12
-	LONG $0xee640f66                           // pcmpgtb    xmm5, xmm6
-	QUAD $0x1d2a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 29], 3
-	QUAD $0x1d225c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r12 + 29], 4
-	QUAD $0x051d3a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 29], 5
-	QUAD $0x1d1a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r11 + 29], 6
-	QUAD $0x1d325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 29], 7
-	QUAD $0x081d325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x1d125c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r10 + 29], 9
-	QUAD $0x1d025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 29], 10
-	QUAD $0x0b1d1a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 29], 11
-	QUAD $0x1d3a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0e1d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 14
-	QUAD $0x1d0a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r9 + 29], 15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI8_12] */
-	QUAD $0x000000d0addb0f66                   // pand    xmm5, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6f0f4166; BYTE $0xf4               // movdqa    xmm6, xmm12
-	LONG $0xf3640f66                           // pcmpgtb    xmm6, xmm3
-	QUAD $0x000000e0b5db0f66                   // pand    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0x1e2a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 30], 3
-	QUAD $0x1f2a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 31], 3
-	QUAD $0x1e2254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 30], 4
-	QUAD $0x1f224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 31], 4
-	QUAD $0x051e3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 30], 5
-	QUAD $0x051f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 5
-	QUAD $0x1e1a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 30], 6
-	QUAD $0x1f1a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x1e3254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 30], 7
-	QUAD $0x1f324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 31], 7
-	QUAD $0x081e3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 30], 8
-	QUAD $0x081f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 8
-	QUAD $0x1e1254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r10 + 30], 9
-	QUAD $0x1f124c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r10 + 31], 9
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1e0254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 30], 10
-	QUAD $0x1f024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 31], 10
-	QUAD $0x0b1e1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 30], 11
-	QUAD $0x0b1f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 11
-	QUAD $0x1e3a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 31], 12
-	QUAD $0x0d1e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 13
-	QUAD $0x0e1e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x1e0a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 30], 15
-	QUAD $0x1f0a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 31], 15
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xdc               // movdqa    xmm3, xmm12
-	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0x640f4466; BYTE $0xe1               // pcmpgtb    xmm12, xmm1
-	LONG $0x710f4166; WORD $0x07f4             // psllw    xmm12, 7
-	LONG $0xdb0f4566; BYTE $0xe7               // pand    xmm12, xmm15
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x600f4166; BYTE $0xcc               // punpcklbw    xmm1, xmm12
-	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	QUAD $0x00011024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 272]
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
-	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
-	LONG $0x680f4166; BYTE $0xc4               // punpckhbw    xmm0, xmm12
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
-	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB8_192
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	JNE  LBB8_42
-	JMP  LBB8_128
-
-LBB8_194:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB8_195:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x05e1c148                           // shl    rcx, 5
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0x0a0cb60f                           // movzx    ecx, byte [rdx + rcx]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x324cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rsi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x324cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rsi + 2]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x324cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rsi + 3]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x324cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rsi + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x324cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rsi + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x324cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rsi + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x324cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rsi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x324cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rsi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x324cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rsi + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x324cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rsi + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x324cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rsi + 11]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x324cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rsi + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
-	LONG $0x324cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rsi + 13]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x324cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rsi + 14]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x08               // mov    qword [rsp + 8], r13
-	LONG $0x40ce8349                           // or    r14, 64
-	LONG $0x2474894c; BYTE $0x20               // mov    qword [rsp + 32], r14
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	LONG $0xa0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 160
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
-	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
-	LONG $0x244c894c; BYTE $0x50               // mov    qword [rsp + 80], r9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x20c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 288
-	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
-	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x80ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 384
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	QUAD $0x012a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 1], 1
-	QUAD $0x01326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 1], 2
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x012a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 1], 3
-	QUAD $0x0401026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 4
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x05011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 5
-	QUAD $0x011a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 1], 6
-	QUAD $0x01026c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r8 + 1], 7
-	QUAD $0x010a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 1], 8
-	QUAD $0x09010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 9
-	QUAD $0x01226c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r12 + 1], 10
-	QUAD $0x013a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 1], 11
-	QUAD $0x01126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 1], 12
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x011a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r11 + 1], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 14
-	QUAD $0x0f013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 15
-	QUAD $0x012024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 288]
-	LONG $0xda0f4166; BYTE $0xea               // pminub    xmm5, xmm10
-	LONG $0x740f4166; BYTE $0xea               // pcmpeqb    xmm5, xmm10
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	QUAD $0x000000a08d6f0f66                   // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xf1df0f66                           // pandn    xmm6, xmm1
-	LONG $0xf5fc0f66                           // paddb    xmm6, xmm5
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 1
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x02120c203a0f4666                   // pinsrb    xmm9, byte [rdx + r10], 2
-	QUAD $0x032a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 3
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x04320c203a0f4666                   // pinsrb    xmm9, byte [rdx + r14], 4
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	QUAD $0x051a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x061a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 6
-	QUAD $0x07020c203a0f4666                   // pinsrb    xmm9, byte [rdx + r8], 7
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x083a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r15], 8
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	QUAD $0x090a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rcx], 9
-	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
-	QUAD $0x0a220c203a0f4666                   // pinsrb    xmm9, byte [rdx + r12], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b3a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rdi], 11
-	QUAD $0x0c0a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r9], 12
-	QUAD $0x0d1a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r11], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 14
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0f2a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 15
-	LONG $0xda0f4566; BYTE $0xca               // pminub    xmm9, xmm10
-	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0102027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 1
-	QUAD $0x02127c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r10 + 2], 2
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x022a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 2], 3
-	QUAD $0x0402327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 2], 4
-	QUAD $0x02327c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r14 + 2], 5
-	QUAD $0x06021a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 2], 6
-	QUAD $0x02027c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r8 + 2], 7
-	QUAD $0x023a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r15 + 2], 8
-	QUAD $0x09020a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 2], 9
-	QUAD $0x02227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 2], 10
-	QUAD $0x0b023a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 2], 11
-	QUAD $0x020a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 2], 12
-	QUAD $0x021a7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r11 + 2], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 15
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 1
-	QUAD $0x031244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r10 + 3], 2
-	QUAD $0x032a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 3], 3
-	QUAD $0x04033244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 3], 4
-	QUAD $0x033244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r14 + 3], 5
-	QUAD $0x06031a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 3], 6
-	QUAD $0x030244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 3], 7
-	QUAD $0x033a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r15 + 3], 8
-	QUAD $0x09030a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 3], 9
-	QUAD $0x032244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r12 + 3], 10
-	QUAD $0x0b033a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 3], 11
-	QUAD $0x030a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 3], 12
-	QUAD $0x031a44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r11 + 3], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0104025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 1
-	QUAD $0x04125c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r10 + 4], 2
-	QUAD $0x042a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 4], 4
-	QUAD $0x04325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 4], 5
-	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
-	QUAD $0x04025c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r8 + 4], 7
-	QUAD $0x043a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r15 + 4], 8
-	QUAD $0x09040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 9
-	QUAD $0x04225c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r12 + 4], 10
-	QUAD $0x0b043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 11
-	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
-	QUAD $0x041a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 4], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 1
-	QUAD $0x051254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 5], 2
-	QUAD $0x052a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 5], 3
-	QUAD $0x04053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 4
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x000000c024b48948                   // mov    qword [rsp + 192], rsi
-	QUAD $0x053254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r14 + 5], 5
-	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
-	QUAD $0x050254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 5], 7
-	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
-	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
-	QUAD $0x052254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r12 + 5], 10
-	QUAD $0x0b053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 11
-	QUAD $0x050a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 5], 12
-	QUAD $0x051a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r11 + 5], 13
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	LONG $0xda0f4166; BYTE $0xfa               // pminub    xmm7, xmm10
-	LONG $0x740f4166; BYTE $0xfa               // pcmpeqb    xmm7, xmm10
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xf9df0f66                           // pandn    xmm7, xmm1
-	LONG $0xeb0f4166; BYTE $0xf9               // por    xmm7, xmm9
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0f050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 15
-	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
-	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xc1df0f66                           // pandn    xmm0, xmm1
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	LONG $0x74b60f42; WORD $0x1122             // movzx    esi, byte [rdx + r12 + 17]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xf7f80f66                           // psubb    xmm6, xmm7
-	LONG $0x760f4566; BYTE $0xc9               // pcmpeqd    xmm9, xmm9
-	LONG $0xc6eb0f66                           // por    xmm0, xmm6
-	LONG $0x74b60f42; WORD $0x1222             // movzx    esi, byte [rdx + r12 + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xda0f4166; BYTE $0xda               // pminub    xmm3, xmm10
-	LONG $0x740f4166; BYTE $0xda               // pcmpeqb    xmm3, xmm10
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdedf0f66                           // pandn    xmm3, xmm6
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000e0b56f0f66                   // movdqa    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xd6df0f66                           // pandn    xmm2, xmm6
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0x74b60f42; WORD $0x1322             // movzx    esi, byte [rdx + r12 + 19]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060a44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rcx + 6], 1
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x061a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 6], 2
-	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
-	QUAD $0x061244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r10 + 6], 4
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	QUAD $0x063244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r14 + 6], 5
-	QUAD $0x061a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rbx + 6], 6
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	QUAD $0x060244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 6], 7
-	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x063a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r15 + 6], 9
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x060244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rax + 6], 10
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x061244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r10 + 6], 11
-	QUAD $0x060a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r9 + 6], 12
-	QUAD $0x063a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 6], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x061a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 6], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
-	LONG $0xda0f4566; BYTE $0xc2               // pminub    xmm8, xmm10
-	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdf0f4466; BYTE $0xc3               // pandn    xmm8, xmm3
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x74b60f42; WORD $0x1422             // movzx    esi, byte [rdx + r12 + 20]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
-	QUAD $0x01070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 1
-	QUAD $0x071a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r11 + 7], 2
-	QUAD $0x072a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 4
-	QUAD $0x073274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 7], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x073274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 7], 6
-	QUAD $0x070274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r8 + 7], 7
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x072274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r12 + 7], 8
-	QUAD $0x073a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 7], 9
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x070274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 7], 10
-	QUAD $0x071274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 7], 11
-	QUAD $0x070a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 7], 12
-	QUAD $0x0d073a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 7], 13
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x0e071a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 7], 14
-	QUAD $0x0f070274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 7], 15
-	LONG $0xda0f4166; BYTE $0xf2               // pminub    xmm6, xmm10
-	LONG $0x740f4166; BYTE $0xf2               // pcmpeqb    xmm6, xmm10
-	LONG $0xef0f4166; BYTE $0xf1               // pxor    xmm6, xmm9
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xf2db0f66                           // pand    xmm6, xmm2
-	LONG $0xeb0f4166; BYTE $0xf0               // por    xmm6, xmm8
-	LONG $0x6f0f4466; BYTE $0xc6               // movdqa    xmm8, xmm6
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x01080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x081a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r11 + 8], 2
-	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
-	QUAD $0x082a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 8], 3
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x081254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 8], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x081a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r11 + 8], 5
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x083254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 8], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x082254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 8], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 9
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x080254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 11
-	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
-	QUAD $0x080a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 8], 12
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x083a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r15 + 8], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x083a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r15 + 8], 14
-	QUAD $0x090a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x09025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 9], 2
-	QUAD $0x093a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 9], 3
-	QUAD $0x09125c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r10 + 9], 4
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x091a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 9], 5
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x092a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 9], 6
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x09325c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rsi + 9], 7
-	QUAD $0x09325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 9], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x09025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 9], 9
-	QUAD $0x09225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r11 + 9], 11
-	QUAD $0x090a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 9], 12
-	QUAD $0x09025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 9], 13
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x09025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 9], 14
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x093a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 9], 15
-	LONG $0xeb0f4466; BYTE $0xc0               // por    xmm8, xmm0
-	QUAD $0x00a024847f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm8
-	LONG $0xda0f4566; BYTE $0xda               // pminub    xmm11, xmm10
-	LONG $0x740f4566; BYTE $0xda               // pcmpeqb    xmm11, xmm10
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4166; BYTE $0xc0               // pandn    xmm0, xmm8
-	LONG $0xfc0f4166; BYTE $0xc3               // paddb    xmm0, xmm11
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x083a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 8], 15
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	LONG $0xdf0f4166; BYTE $0xd0               // pandn    xmm2, xmm8
-	QUAD $0x0a0a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rcx + 10], 2
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 10], 3
-	QUAD $0x0a1a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rbx + 10], 4
-	QUAD $0x0a3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 10], 5
-	QUAD $0x0a1264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r10 + 10], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0a1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 10], 7
-	QUAD $0x0a3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 10], 8
-	QUAD $0x0a0264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 10], 9
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x0a2264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 10], 10
-	QUAD $0x0a1a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0264203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rax + 10], 12
-	QUAD $0x0a2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 10], 13
-	QUAD $0x0a0264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 10], 14
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 10], 15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0xda0f4566; BYTE $0xe2               // pminub    xmm12, xmm10
-	LONG $0x740f4566; BYTE $0xe2               // pcmpeqb    xmm12, xmm10
-	QUAD $0x0000b0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	QUAD $0x00009024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 144]
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0b0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 11], 1
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0b3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 11], 2
-	QUAD $0x030b0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 11], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0b1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 11], 4
-	QUAD $0x050b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 5
-	QUAD $0x0b1254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r10 + 11], 6
-	QUAD $0x070b1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 11], 7
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x080b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 8
-	QUAD $0x0b3254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r14 + 11], 9
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0b3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 11], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0b0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 11], 12
-	QUAD $0x0b2a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 11], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e0b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 14
-	QUAD $0x0b2254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r12 + 11], 15
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	LONG $0xc3f80f66                           // psubb    xmm0, xmm3
-	LONG $0xd0eb0f66                           // por    xmm2, xmm0
-	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00013024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 304]
-	QUAD $0x0c0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 12], 1
-	QUAD $0x0c3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 12], 2
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0c0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 12], 3
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0c1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 12], 4
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x050c3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 12], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0c3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 12], 6
-	QUAD $0x070c1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 12], 7
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0c1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 12], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x090c0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 12], 9
-	QUAD $0x0c3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 12], 11
-	QUAD $0x0c0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 12], 12
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0c2254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 12], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0c0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 12], 14
-	QUAD $0x0c2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 12], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 13], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d2a74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r13 + 13], 2
-	QUAD $0x0d0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 13], 3
-	QUAD $0x0d1274203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r10 + 13], 4
-	QUAD $0x0d3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 13], 5
-	QUAD $0x0d3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 13], 6
-	QUAD $0x0d1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 13], 7
-	QUAD $0x0d1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 13], 8
-	QUAD $0x0d0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 13], 9
-	QUAD $0x0d3274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r14 + 13], 10
-	QUAD $0x0d3a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rdi + 13], 11
-	QUAD $0x0d0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 13], 12
-	QUAD $0x0d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 13], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0d2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 13], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0d0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 14], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 14], 2
-	QUAD $0x0e026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 14], 3
-	QUAD $0x0e126c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r10 + 14], 4
-	QUAD $0x0e326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 14], 5
-	QUAD $0x0e3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 14], 6
-	QUAD $0x0e1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 14], 7
-	QUAD $0x0e1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 14], 8
-	QUAD $0x0e0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 14], 9
-	QUAD $0x0e326c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r14 + 14], 10
-	QUAD $0x0e3a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rdi + 14], 11
-	QUAD $0x0e0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 14], 12
-	QUAD $0x0e226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 14], 13
-	QUAD $0x0e2a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r13 + 14], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 14], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x010f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f2a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r13 + 15], 2
-	QUAD $0x0f0244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r8 + 15], 3
-	QUAD $0x0f1244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r10 + 15], 4
-	QUAD $0x050f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 5
-	QUAD $0x0f3a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r15 + 15], 6
-	QUAD $0x070f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 7
-	QUAD $0x0f1a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r11 + 15], 8
-	QUAD $0x090f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 9
-	QUAD $0x0f3244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r14 + 15], 10
-	QUAD $0x0b0f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 11
-	QUAD $0x0f0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 15], 12
-	QUAD $0x0f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 15], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0111024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 17], 1
-	QUAD $0x112a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r13 + 17], 2
-	QUAD $0x11024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 17], 3
-	QUAD $0x11124c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r10 + 17], 4
-	QUAD $0x0511324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 17], 5
-	QUAD $0x113a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 17], 6
-	QUAD $0x07111a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 17], 7
-	QUAD $0x111a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 17], 8
-	QUAD $0x09110a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 17], 9
-	QUAD $0x11324c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r14 + 17], 10
-	QUAD $0x0b113a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 17], 11
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x110a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 17], 12
-	QUAD $0x11224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 17], 13
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xda0f4566; BYTE $0xf2               // pminub    xmm14, xmm10
-	LONG $0x740f4566; BYTE $0xf2               // pcmpeqb    xmm14, xmm10
-	QUAD $0x0000e0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4466; BYTE $0xf2               // por    xmm14, xmm2
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rdi + 26]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x110a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 17], 14
-	LONG $0xda0f4566; BYTE $0xea               // pminub    xmm13, xmm10
-	LONG $0x740f4566; BYTE $0xea               // pcmpeqb    xmm13, xmm10
-	QUAD $0x0000f0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
-	LONG $0x3a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rdi + 27]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
-	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
-	QUAD $0x0000010085ef0f66                   // pxor    xmm0, oword 256[rbp] /* [rip + .LCPI8_16] */
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x3a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rdi + 28]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x112a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 17], 15
-	QUAD $0x0000902484eb0f66; BYTE $0x00       // por    xmm0, oword [rsp + 144]
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0xda0f4166; BYTE $0xca               // pminub    xmm1, xmm10
-	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
-	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
-	LONG $0x6f0f4466; BYTE $0xf1               // movdqa    xmm14, xmm1
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4566; BYTE $0xf2               // pandn    xmm14, xmm10
-	LONG $0xfc0f4466; BYTE $0xf1               // paddb    xmm14, xmm1
-	QUAD $0x009024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm14
-	LONG $0x3a74b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rdi + 29]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0110026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 1
-	QUAD $0x0112027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 1
-	QUAD $0x13027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 19], 1
-	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
-	QUAD $0x01150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 1
-	QUAD $0x16024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 22], 1
-	QUAD $0x170244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 23], 1
-	QUAD $0x18025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 24], 1
-	QUAD $0x0119025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 1
-	QUAD $0x011a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 1
-	QUAD $0x1b0264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 27], 1
-	QUAD $0x1c026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 28], 1
-	QUAD $0x1d0254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rax + 29], 1
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	QUAD $0x1e0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0210026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 2
-	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
-	QUAD $0x13027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 19], 2
-	QUAD $0x02140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 2
-	QUAD $0x02150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 2
-	QUAD $0x16024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 22], 2
-	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
-	QUAD $0x18025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 24], 2
-	QUAD $0x0219025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x021a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 2
-	QUAD $0x1b0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 27], 2
-	QUAD $0x1c026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 28], 2
-	QUAD $0x1d0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 29], 2
-	QUAD $0x1e0274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x10026c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r8 + 16], 3
-	QUAD $0x10126c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r10 + 16], 4
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0510326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 16], 5
-	QUAD $0x103a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 16], 6
-	QUAD $0x07101a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 16], 7
-	QUAD $0x101a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 16], 8
-	QUAD $0x09100a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 16], 9
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0a10026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 10
-	QUAD $0x10326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 16], 11
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x10226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0d103a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 16], 13
-	QUAD $0x100a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 16], 14
-	QUAD $0x102a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r13 + 16], 15
-	LONG $0xe8da0f66                           // pminub    xmm5, xmm0
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x12027c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r8 + 18], 3
-	QUAD $0x12127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 18], 4
-	QUAD $0x0512327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 5
-	QUAD $0x123a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r15 + 18], 6
-	QUAD $0x07121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 7
-	QUAD $0x121a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r11 + 18], 8
-	QUAD $0x09120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 9
-	QUAD $0x0a12027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 10
-	QUAD $0x12327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 18], 11
-	QUAD $0x12227c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r12 + 18], 12
-	QUAD $0x0d123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 13
-	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
-	QUAD $0x122a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 18], 15
-	QUAD $0x13027c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r8 + 19], 3
-	QUAD $0x13127c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r10 + 19], 4
-	QUAD $0x13327c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rsi + 19], 5
-	QUAD $0x133a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r15 + 19], 6
-	QUAD $0x131a7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rdx + rbx + 19], 7
-	QUAD $0x131a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r11 + 19], 8
-	QUAD $0x130a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rcx + 19], 9
-	QUAD $0x13027c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rax + 19], 10
-	QUAD $0x13327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 19], 11
-	QUAD $0x13227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 19], 12
-	QUAD $0x133a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 19], 13
-	QUAD $0x130a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 19], 14
-	QUAD $0x132a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 19], 15
-	QUAD $0x140264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 20], 3
-	QUAD $0x141264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 20], 4
-	QUAD $0x05143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 5
-	QUAD $0x143a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 20], 6
-	QUAD $0x07141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 7
-	QUAD $0x141a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 20], 8
-	QUAD $0x09140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 9
-	QUAD $0x0a140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 10
-	QUAD $0x143264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 20], 11
-	QUAD $0x142264203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r12 + 20], 12
-	QUAD $0x0d143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 13
-	QUAD $0x140a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 20], 14
-	QUAD $0x142a64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r13 + 20], 15
-	QUAD $0x150274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r8 + 21], 3
-	QUAD $0x151274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r10 + 21], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x05153274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 21], 5
-	QUAD $0x153a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r15 + 21], 6
-	QUAD $0x07151a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 21], 7
-	QUAD $0x151a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r11 + 21], 8
-	QUAD $0x09150a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 21], 9
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x151274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r10 + 21], 10
-	QUAD $0x153274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 21], 11
-	QUAD $0x152274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 21], 12
-	QUAD $0x0d153a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 21], 13
-	QUAD $0x150a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 21], 14
-	QUAD $0x000000a0addf0f66                   // pandn    xmm5, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xf8da0f66                           // pminub    xmm7, xmm0
-	LONG $0xf8740f66                           // pcmpeqb    xmm7, xmm0
-	QUAD $0x000000b0bddf0f66                   // pandn    xmm7, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0xda0f4466; BYTE $0xf8               // pminub    xmm15, xmm0
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdf0f4466; BYTE $0xfd               // pandn    xmm15, xmm5
-	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
-	QUAD $0x152a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 21], 15
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	QUAD $0x00009024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 144]
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
-	LONG $0xe0da0f66                           // pminub    xmm4, xmm0
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	QUAD $0x000000d0bd6f0f66                   // movdqa    xmm7, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xe7df0f66                           // pandn    xmm4, xmm7
-	LONG $0xf0da0f66                           // pminub    xmm6, xmm0
-	LONG $0xf0740f66                           // pcmpeqb    xmm6, xmm0
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xf7df0f66                           // pandn    xmm6, xmm7
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x16024c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r8 + 22], 3
-	QUAD $0x16024c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rax + 22], 4
-	QUAD $0x16324c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rsi + 22], 5
-	QUAD $0x163a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r15 + 22], 6
-	QUAD $0x161a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rbx + 22], 7
-	QUAD $0x161a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r11 + 22], 8
-	QUAD $0x160a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rcx + 22], 9
-	QUAD $0x16124c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r10 + 22], 10
-	QUAD $0x16324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 22], 11
-	QUAD $0x16224c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r12 + 22], 12
-	QUAD $0x163a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 22], 13
-	QUAD $0x160a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 22], 14
-	QUAD $0x162a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r13 + 22], 15
-	LONG $0xda0f4466; BYTE $0xc8               // pminub    xmm9, xmm0
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	QUAD $0x000000f0bd6f0f66                   // movdqa    xmm7, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdf0f4466; BYTE $0xcf               // pandn    xmm9, xmm7
-	LONG $0xeb0f4466; BYTE $0xce               // por    xmm9, xmm6
-	QUAD $0x170244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r8 + 23], 3
-	QUAD $0x170244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 23], 4
-	QUAD $0x173244203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rsi + 23], 5
-	QUAD $0x173a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r15 + 23], 6
-	QUAD $0x171a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 23], 7
-	QUAD $0x171a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r11 + 23], 8
-	QUAD $0x170a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rcx + 23], 9
-	QUAD $0x171244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r10 + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x172244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 23], 12
-	QUAD $0x173a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 23], 13
-	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
-	QUAD $0x172a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r13 + 23], 15
-	LONG $0xda0f4466; BYTE $0xc0               // pminub    xmm8, xmm0
-	LONG $0x740f4466; BYTE $0xc0               // pcmpeqb    xmm8, xmm0
-	LONG $0xef0f4466; BYTE $0xc5               // pxor    xmm8, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4566; BYTE $0xc1               // por    xmm8, xmm9
-	QUAD $0x18025c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r8 + 24], 3
-	QUAD $0x18025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 24], 4
-	QUAD $0x18325c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rsi + 24], 5
-	QUAD $0x183a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r15 + 24], 6
-	QUAD $0x181a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 24], 7
-	QUAD $0x181a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r11 + 24], 8
-	QUAD $0x180a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 24], 9
-	QUAD $0x18125c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r10 + 24], 10
-	QUAD $0x18325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 24], 11
-	QUAD $0x18225c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r12 + 24], 12
-	QUAD $0x183a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 24], 13
-	QUAD $0x180a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 24], 14
-	QUAD $0x19025c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r8 + 25], 3
-	QUAD $0x0419025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 4
-	QUAD $0x0519325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 25], 5
-	QUAD $0x193a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r15 + 25], 6
-	QUAD $0x07191a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 25], 7
-	QUAD $0x191a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r11 + 25], 8
-	QUAD $0x09190a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 25], 9
-	QUAD $0x19125c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x19325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 25], 11
-	QUAD $0x19225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 25], 12
-	QUAD $0x0d193a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 25], 13
-	QUAD $0x190a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 25], 14
-	QUAD $0x192a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r13 + 25], 15
-	LONG $0xeb0f4566; BYTE $0xc7               // por    xmm8, xmm15
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xd8da0f66                           // pminub    xmm3, xmm0
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	QUAD $0x0000a08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4166; BYTE $0xc1               // pandn    xmm0, xmm9
-	LONG $0xc3fc0f66                           // paddb    xmm0, xmm3
-	QUAD $0x182a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 24], 15
-	LONG $0xda0f4466; BYTE $0xdc               // pminub    xmm11, xmm4
-	LONG $0x740f4466; BYTE $0xdc               // pcmpeqb    xmm11, xmm4
-	LONG $0xdf0f4566; BYTE $0xd9               // pandn    xmm11, xmm9
-	QUAD $0x1a0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 26], 3
-	QUAD $0x041a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 4
-	QUAD $0x051a3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 26], 5
-	QUAD $0x1a3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 26], 6
-	QUAD $0x071a1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 26], 7
-	QUAD $0x1a1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 26], 8
-	QUAD $0x091a0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 26], 9
-	QUAD $0x1a1254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r10 + 26], 10
-	QUAD $0x1a3254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 26], 11
-	QUAD $0x1a2254203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r12 + 26], 12
-	QUAD $0x0d1a3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 26], 13
-	QUAD $0x1a0a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 26], 14
-	QUAD $0x1a2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 26], 15
-	LONG $0xd4da0f66                           // pminub    xmm2, xmm4
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	QUAD $0x000000b095df0f66                   // pandn    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
-	QUAD $0x1b0264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r8 + 27], 3
-	QUAD $0x1b0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 27], 4
-	QUAD $0x1b3264203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rsi + 27], 5
-	QUAD $0x1b3a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r15 + 27], 6
-	QUAD $0x1b1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 27], 7
-	QUAD $0x1b1a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r11 + 27], 8
-	QUAD $0x1b0a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rcx + 27], 9
-	QUAD $0x1b1264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r10 + 27], 10
-	QUAD $0x1b3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 27], 11
-	QUAD $0x1b2264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r12 + 27], 12
-	QUAD $0x1b3a64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rdi + 27], 13
-	QUAD $0x1b0a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 27], 14
-	QUAD $0x1b2a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r13 + 27], 15
-	LONG $0xda0f4466; BYTE $0xe4               // pminub    xmm12, xmm4
-	LONG $0x740f4466; BYTE $0xe4               // pcmpeqb    xmm12, xmm4
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	QUAD $0x0000c0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
-	LONG $0xc5f80f66                           // psubb    xmm0, xmm5
-	LONG $0xeb0f4466; BYTE $0xe0               // por    xmm12, xmm0
-	QUAD $0x1c026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 28], 3
-	QUAD $0x1d0254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 29], 3
-	QUAD $0x1e0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 30], 3
-	QUAD $0x1f024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 31], 3
-	QUAD $0x1c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 28], 4
-	QUAD $0x1d0254203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rax + 29], 4
-	QUAD $0x1e0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x1c326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 28], 5
-	QUAD $0x1d3254203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rsi + 29], 5
-	QUAD $0x1e3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 30], 5
-	QUAD $0x051f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 5
-	QUAD $0x1c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 28], 6
-	QUAD $0x1d3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 29], 6
-	QUAD $0x1e3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 30], 6
-	QUAD $0x1f3a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 31], 6
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1c1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 28], 7
-	QUAD $0x1d1a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rbx + 29], 7
-	QUAD $0x1e1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 30], 7
-	QUAD $0x071f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 7
-	QUAD $0x1c1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 28], 8
-	QUAD $0x1d1a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r11 + 29], 8
-	QUAD $0x1e1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 30], 8
-	QUAD $0x1f1a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 31], 8
-	QUAD $0x1c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 28], 9
-	QUAD $0x1d0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 29], 9
-	QUAD $0x1e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 9
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c126c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r10 + 28], 10
-	QUAD $0x1d1254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r10 + 29], 10
-	QUAD $0x1e1274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r10 + 30], 10
-	QUAD $0x1f124c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r10 + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x1c026c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rax + 28], 11
-	QUAD $0x1d0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 29], 11
-	QUAD $0x1e0274203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 11
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c226c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r12 + 28], 12
-	QUAD $0x1d2254203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r12 + 29], 12
-	QUAD $0x1e2274203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r12 + 30], 12
-	QUAD $0x1f224c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r12 + 31], 12
-	QUAD $0x1c3a6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rdi + 28], 13
-	QUAD $0x1d3a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rdi + 29], 13
-	QUAD $0x1e3a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rdi + 30], 13
-	QUAD $0x0d1f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 13
-	QUAD $0x1c0a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 28], 14
-	QUAD $0x1d0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 29], 14
-	QUAD $0x1e0a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r9 + 30], 14
-	QUAD $0x1f0a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 31], 14
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x1c2a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r13 + 28], 15
-	QUAD $0x1d2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 29], 15
-	QUAD $0x1e2a74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + r13 + 30], 15
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xda0f4466; BYTE $0xec               // pminub    xmm13, xmm4
-	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
-	QUAD $0x0000d0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xda0f4466; BYTE $0xd4               // pminub    xmm10, xmm4
-	LONG $0x740f4466; BYTE $0xd4               // pcmpeqb    xmm10, xmm4
-	QUAD $0x0000e095df0f4466; BYTE $0x00       // pandn    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	QUAD $0x1f2a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 31], 15
-	LONG $0xda0f4466; BYTE $0xf4               // pminub    xmm14, xmm4
-	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
-	LONG $0xdf0f4466; BYTE $0xf7               // pandn    xmm14, xmm7
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0xccda0f66                           // pminub    xmm1, xmm4
-	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
-	LONG $0xcdef0f66                           // pxor    xmm1, xmm5
-	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
-	LONG $0xcedb0f66                           // pand    xmm1, xmm6
-	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
-	LONG $0xeb0f4166; BYTE $0xcc               // por    xmm1, xmm12
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	QUAD $0x0000b024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 176]
-	LONG $0xd5600f66                           // punpcklbw    xmm2, xmm5
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0x680f4466; BYTE $0xc1               // punpckhbw    xmm8, xmm1
-	LONG $0xe5680f66                           // punpckhbw    xmm4, xmm5
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB8_195
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	JNE  LBB8_67
-	JMP  LBB8_132
-
-LBB8_197:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x28         // mov    qword [rsp + 40], rax
-	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24048948                     // mov    qword [rsp], rax
-	LONG $0x246c8944; BYTE $0x30         // mov    dword [rsp + 48], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00f8       // pshufd    xmm15, xmm0, 0
-	WORD $0x3145; BYTE $0xc9             // xor    r9d, r9d
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-	QUAD $0x000080856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI8_8] */
-
-LBB8_198:
-	LONG $0x244c894c; BYTE $0x10               // mov    qword [rsp + 16], r9
-	LONG $0x06e1c149                           // shl    r9, 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	LONG $0x04b70f42; BYTE $0x0a               // movzx    eax, word [rdx + r9]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x020a             // movzx    eax, word [rdx + r9 + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x040a             // movzx    eax, word [rdx + r9 + 4]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x060a             // movzx    eax, word [rdx + r9 + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x54b70f46; WORD $0x080a             // movzx    r10d, word [rdx + r9 + 8]
-	LONG $0x74b70f42; WORD $0x0a0a             // movzx    esi, word [rdx + r9 + 10]
-	LONG $0x5cb70f46; WORD $0x0c0a             // movzx    r11d, word [rdx + r9 + 12]
-	LONG $0x44b70f42; WORD $0x0e0a             // movzx    eax, word [rdx + r9 + 14]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	LONG $0x44b70f42; WORD $0x100a             // movzx    eax, word [rdx + r9 + 16]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0x44b70f42; WORD $0x200a             // movzx    eax, word [rdx + r9 + 32]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x300a             // movzx    eax, word [rdx + r9 + 48]
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	LONG $0x40cf8349                           // or    r15, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x01 // pinsrw    xmm5, word [rdx + r15], 1
-	LONG $0xc40f4266; WORD $0x022c; BYTE $0x02 // pinsrw    xmm5, word [rdx + r8], 2
-	LONG $0xc40f4266; WORD $0x222c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r13], 4
-	LONG $0x2cc40f66; WORD $0x050a             // pinsrw    xmm5, word [rdx + rcx], 5
-	LONG $0x2cc40f66; WORD $0x063a             // pinsrw    xmm5, word [rdx + rdi], 6
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x2cc40f66; WORD $0x071a             // pinsrw    xmm5, word [rdx + rbx], 7
-	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
-	LONG $0x44b70f42; WORD $0x120a             // movzx    eax, word [rdx + r9 + 18]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	QUAD $0x01023a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 2], 1
-	QUAD $0x0202025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 2], 2
-	QUAD $0x0302225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 2], 3
-	QUAD $0x04022a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 2], 4
-	LONG $0x5cc40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 2], 5
-	LONG $0x5cc40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 2], 6
-	LONG $0x5cc40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 2], 7
-	QUAD $0x01103a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 16], 1
-	QUAD $0x02100274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 16], 2
-	QUAD $0x03102274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 16], 3
-	QUAD $0x04102a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 16], 4
-	LONG $0x74c40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 16], 5
-	LONG $0x74c40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 16], 6
-	LONG $0x74c40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 16], 7
-	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
-	QUAD $0x01203a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 32], 1
-	QUAD $0x0220024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 32], 2
-	QUAD $0x0320224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 32], 3
-	QUAD $0x04202a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 32], 4
-	LONG $0x4cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 32], 5
-	LONG $0x4cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 32], 6
-	LONG $0x4cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 32], 7
-	LONG $0x650f4466; BYTE $0xd6               // pcmpgtw    xmm10, xmm6
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
-	QUAD $0x01303a4cc40f4666                   // pinsrw    xmm9, word [rdx + r15 + 48], 1
-	QUAD $0x0230024cc40f4666                   // pinsrw    xmm9, word [rdx + r8 + 48], 2
-	QUAD $0x0330224cc40f4666                   // pinsrw    xmm9, word [rdx + r12 + 48], 3
-	QUAD $0x04302a4cc40f4666                   // pinsrw    xmm9, word [rdx + r13 + 48], 4
-	QUAD $0x05300a4cc40f4466                   // pinsrw    xmm9, word [rdx + rcx + 48], 5
-	QUAD $0x06303a4cc40f4466                   // pinsrw    xmm9, word [rdx + rdi + 48], 6
-	QUAD $0x07301a4cc40f4466                   // pinsrw    xmm9, word [rdx + rbx + 48], 7
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0x650f4166; BYTE $0xe9               // pcmpgtw    xmm5, xmm9
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x74b70f46; WORD $0x140a             // movzx    r14d, word [rdx + r9 + 20]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x01043a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 4], 1
-	QUAD $0x02040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x01063a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 6], 1
-	QUAD $0x02060264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 6], 2
-	QUAD $0x03062264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 6], 3
-	QUAD $0x04062a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 6], 4
-	LONG $0x64c40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 6], 5
-	LONG $0x64c40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 6], 6
-	LONG $0x64c40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 6], 7
-	QUAD $0x01083a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 8], 1
-	QUAD $0x0208024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 8], 2
-	QUAD $0x0308224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 8], 3
-	QUAD $0x04082a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 8], 4
-	LONG $0x4cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 8], 5
-	LONG $0x4cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 8], 6
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xd8eb0f66                           // por    xmm3, xmm0
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xfa650f66                           // pcmpgtw    xmm7, xmm2
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x74b70f42; WORD $0x160a             // movzx    esi, word [rdx + r9 + 22]
-	LONG $0x4cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 8], 7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x02               // psllw    xmm7, 2
-	LONG $0x6f0f4466; WORD $0x105d             // movdqa    xmm11, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdc650f66                           // pcmpgtw    xmm3, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x180a             // movzx    r11d, word [rdx + r9 + 24]
-	QUAD $0x010a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 10], 1
-	QUAD $0x020a0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 10], 2
-	QUAD $0x030a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 10], 4
-	LONG $0x54c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 10], 5
-	LONG $0x54c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 10], 6
-	LONG $0x54c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 10], 7
-	QUAD $0x010c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 12], 1
-	QUAD $0x020c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 12], 2
-	QUAD $0x030c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 12], 4
-	LONG $0x4cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 12], 5
-	LONG $0x4cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 12], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0x6f0f4466; WORD $0x2065             // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xdb0f4166; BYTE $0xdc               // pand    xmm3, xmm12
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
-	LONG $0x6f0f4466; WORD $0x306d             // movdqa    xmm13, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xdb0f4166; BYTE $0xc5               // pand    xmm0, xmm13
-	LONG $0xc3eb0f66                           // por    xmm0, xmm3
-	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
-	LONG $0x44b70f42; WORD $0x1a0a             // movzx    eax, word [rdx + r9 + 26]
-	LONG $0x4cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 12], 7
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1c0a             // movzx    r10d, word [rdx + r9 + 28]
-	QUAD $0x010e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 14], 1
-	QUAD $0x020e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 14], 2
-	QUAD $0x030e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 14], 4
-	LONG $0x5cc40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 14], 5
-	LONG $0x5cc40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 14], 6
-	LONG $0x5cc40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 14], 7
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
-	LONG $0x6f0f4466; WORD $0x4075             // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0x6f0f4466; WORD $0x505d             // movdqa    xmm11, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
-	LONG $0x650f4466; BYTE $0xcb               // pcmpgtw    xmm9, xmm3
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x74b70f46; WORD $0x1e0a             // movzx    r14d, word [rdx + r9 + 30]
-	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
-	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
-	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xca               // pand    xmm9, xmm2
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x74b70f42; WORD $0x220a             // movzx    esi, word [rdx + r9 + 34]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	QUAD $0x01123a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 18], 1
-	QUAD $0x0212024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 18], 2
-	QUAD $0x0312224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 18], 3
-	QUAD $0x04122a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 18], 4
-	LONG $0x4cc40f66; WORD $0x120a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 18], 5
-	LONG $0x4cc40f66; WORD $0x123a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 18], 6
-	LONG $0x4cc40f66; WORD $0x121a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 18], 7
-	LONG $0xeb0f4466; BYTE $0xc8               // por    xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x74b70f42; WORD $0x240a             // movzx    esi, word [rdx + r9 + 36]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
-	QUAD $0x01143a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 20], 1
-	QUAD $0x0214025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 20], 2
-	QUAD $0x0314225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 20], 3
-	QUAD $0x04142a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 20], 4
-	LONG $0x5cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 20], 5
-	LONG $0x5cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 20], 6
-	LONG $0x5cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 20], 7
-	QUAD $0x01163a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 22], 1
-	QUAD $0x02160264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 22], 2
-	QUAD $0x03162264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 22], 3
-	QUAD $0x04162a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 22], 4
-	LONG $0x64c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 22], 5
-	LONG $0x64c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 22], 6
-	LONG $0x64c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 22], 7
-	QUAD $0x01183a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 24], 1
-	QUAD $0x0218027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 24], 2
-	QUAD $0x0318227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 24], 3
-	QUAD $0x04182a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 24], 4
-	LONG $0x7cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 24], 5
-	LONG $0x7cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 24], 6
-	LONG $0x7cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 24], 7
-	LONG $0xdb0f4566; BYTE $0xd0               // pand    xmm10, xmm8
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x5cb70f46; WORD $0x260a             // movzx    r11d, word [rdx + r9 + 38]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0x6f0f4466; WORD $0x106d             // movdqa    xmm13, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc7650f66                           // pcmpgtw    xmm0, xmm7
-	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
-	LONG $0x54b70f46; WORD $0x280a             // movzx    r10d, word [rdx + r9 + 40]
-	QUAD $0x011a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 26], 1
-	QUAD $0x021a025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 26], 2
-	QUAD $0x031a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 26], 4
-	LONG $0x5cc40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 26], 5
-	LONG $0x5cc40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 26], 6
-	LONG $0x5cc40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 26], 7
-	QUAD $0x011c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 1
-	QUAD $0x021c0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 28], 2
-	QUAD $0x031c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 28], 6
-	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 28], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x03               // psllw    xmm1, 3
-	LONG $0x6f0f4566; BYTE $0xdc               // movdqa    xmm11, xmm12
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
-	LONG $0x6f0f4466; WORD $0x3065             // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xdb0f4166; BYTE $0xc4               // pand    xmm0, xmm12
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x44b70f42; WORD $0x2a0a             // movzx    eax, word [rdx + r9 + 42]
-	LONG $0xc2eb0f66                           // por    xmm0, xmm2
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xfc650f66                           // pcmpgtw    xmm7, xmm4
-	LONG $0x646e0f66; WORD $0x1824             // movd    xmm4, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x2c0a             // movzx    r14d, word [rdx + r9 + 44]
-	QUAD $0x011e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 30], 1
-	QUAD $0x021e024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 30], 2
-	QUAD $0x031e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 30], 4
-	LONG $0x4cc40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 30], 5
-	LONG $0x4cc40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 30], 6
-	LONG $0x4cc40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 30], 7
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x05               // psllw    xmm2, 5
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
-	LONG $0x650f4466; BYTE $0xd1               // pcmpgtw    xmm10, xmm1
-	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
-	LONG $0x74b70f42; WORD $0x2e0a             // movzx    esi, word [rdx + r9 + 46]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
-	LONG $0x710f4166; WORD $0x07f2             // psllw    xmm10, 7
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4566; BYTE $0xd6               // pand    xmm10, xmm14
-	LONG $0xeb0f4466; BYTE $0xd7               // por    xmm10, xmm7
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x5cb70f46; WORD $0x320a             // movzx    r11d, word [rdx + r9 + 50]
-	QUAD $0x01223a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 34], 1
-	QUAD $0x02220264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 34], 2
-	QUAD $0x03222264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 34], 3
-	QUAD $0x04222a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 34], 4
-	LONG $0x64c40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 34], 5
-	LONG $0x64c40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 34], 6
-	LONG $0x64c40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 34], 7
-	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xe0f80f66                           // psubb    xmm4, xmm0
-	LONG $0x6e0f4166; BYTE $0xc2               // movd    xmm0, r10d
-	LONG $0x74b70f42; WORD $0x340a             // movzx    esi, word [rdx + r9 + 52]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x01243a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 36], 1
-	QUAD $0x0224024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 36], 2
-	QUAD $0x0324224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 36], 3
-	QUAD $0x04242a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 36], 4
-	LONG $0x4cc40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 36], 5
-	LONG $0x4cc40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 36], 6
-	LONG $0x4cc40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 36], 7
-	QUAD $0x01263a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 38], 1
-	QUAD $0x02260254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 38], 2
-	QUAD $0x03262254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 38], 3
-	QUAD $0x04262a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 38], 4
-	LONG $0x54c40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 38], 5
-	LONG $0x54c40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 38], 6
-	LONG $0x54c40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 38], 7
-	QUAD $0x01283a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 40], 1
-	QUAD $0x02280244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 40], 2
-	QUAD $0x03282244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 40], 3
-	QUAD $0x04282a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 40], 4
-	LONG $0x44c40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 40], 5
-	LONG $0x44c40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 40], 6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xe6eb0f66                           // por    xmm4, xmm6
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x54b70f46; WORD $0x360a             // movzx    r10d, word [rdx + r9 + 54]
-	LONG $0x44c40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 40], 7
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf5               // pand    xmm6, xmm13
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0x6e0f4166; BYTE $0xc6               // movd    xmm0, r14d
-	LONG $0x44b70f42; WORD $0x380a             // movzx    eax, word [rdx + r9 + 56]
-	QUAD $0x012a3a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 42], 1
-	QUAD $0x022a027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 42], 2
-	QUAD $0x032a227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 42], 4
-	LONG $0x7cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 42], 5
-	LONG $0x7cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 42], 6
-	LONG $0x7cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 42], 7
-	QUAD $0x012c3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 44], 1
-	QUAD $0x022c0244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 44], 2
-	QUAD $0x032c2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 44], 4
-	LONG $0x44c40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 44], 5
-	LONG $0x44c40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 44], 6
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe3               // pand    xmm4, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x546e0f66; WORD $0x1824             // movd    xmm2, dword [rsp + 24]
-	LONG $0x74b70f42; WORD $0x3a0a             // movzx    esi, word [rdx + r9 + 58]
-	LONG $0x44c40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 44], 7
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe7650f66                           // pcmpgtw    xmm4, xmm7
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3c0a             // movzx    r11d, word [rdx + r9 + 60]
-	QUAD $0x012e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 46], 1
-	QUAD $0x022e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 46], 2
-	QUAD $0x032e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 46], 4
-	LONG $0x54c40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 46], 5
-	LONG $0x54c40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 46], 6
-	LONG $0x4cb70f46; WORD $0x3e0a             // movzx    r9d, word [rdx + r9 + 62]
-	LONG $0x54c40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 46], 7
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
-	LONG $0x65db0f66; BYTE $0x40               // pand    xmm4, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xf6710f66; BYTE $0x06               // psllw    xmm6, 6
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
-	QUAD $0x01323a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 50], 1
-	QUAD $0x0232027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 50], 2
-	QUAD $0x0332227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 50], 3
-	QUAD $0x04322a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 50], 4
-	LONG $0x7cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 50], 5
-	LONG $0x7cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 50], 6
-	LONG $0x7cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 50], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc6               // pand    xmm0, xmm14
-	LONG $0xc6eb0f66                           // por    xmm0, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcf650f66                           // pcmpgtw    xmm1, xmm7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 1
-	QUAD $0x02340254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 52], 2
-	QUAD $0x03342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 3
-	QUAD $0x04342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 52], 5
-	LONG $0x54c40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 52], 6
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0x54c40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 52], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	QUAD $0x01363a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 54], 1
-	QUAD $0x02360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x01383a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 56], 1
-	QUAD $0x0238025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 56], 2
-	QUAD $0x0338225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 56], 3
-	QUAD $0x04382a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 56], 4
-	LONG $0x5cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 56], 5
-	LONG $0x5cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 56], 6
-	LONG $0x5cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 56], 7
-	QUAD $0x013a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 58], 1
-	QUAD $0x023a0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 58], 2
-	QUAD $0x033a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 58], 4
-	LONG $0x64c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 58], 5
-	LONG $0x64c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 58], 6
-	LONG $0x64c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 58], 7
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10               // pand    xmm5, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd6650f66                           // pcmpgtw    xmm2, xmm6
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	QUAD $0x013c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 1
-	QUAD $0x023c025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 60], 2
-	QUAD $0x033c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 60], 6
-	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 60], 7
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd3               // pand    xmm2, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x6e0f4166; BYTE $0xd1               // movd    xmm2, r9d
-	QUAD $0x013e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 62], 1
-	QUAD $0x023e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 62], 2
-	QUAD $0x033e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 62], 4
-	LONG $0x54c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 62], 5
-	LONG $0x54c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 62], 6
-	LONG $0x54c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 62], 7
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xec650f66                           // pcmpgtw    xmm5, xmm4
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe3650f66                           // pcmpgtw    xmm4, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xf5710f66; BYTE $0x05               // psllw    xmm5, 5
-	LONG $0x6ddb0f66; BYTE $0x40               // pand    xmm5, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x06               // psllw    xmm4, 6
-	LONG $0xdb0f4166; BYTE $0xe4               // pand    xmm4, xmm12
-	LONG $0xe5eb0f66                           // por    xmm4, xmm5
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xda650f66                           // pcmpgtw    xmm3, xmm2
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0x6c0f4166; BYTE $0xca               // punpcklqdq    xmm1, xmm10
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI8_9] */
-	LONG $0x00380f66; BYTE $0xd4               // pshufb    xmm2, xmm4
-	LONG $0x00380f66; BYTE $0xcc               // pshufb    xmm1, xmm4
-	LONG $0xca610f66                           // punpcklwd    xmm1, xmm2
-	LONG $0xc3600f66                           // punpcklbw    xmm0, xmm3
-	LONG $0x600f4566; BYTE $0xca               // punpcklbw    xmm9, xmm10
-	LONG $0x610f4466; BYTE $0xc8               // punpcklwd    xmm9, xmm0
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x7f0f45f3; WORD $0x8e0c             // movdqu    oword [r14 + 4*rcx], xmm9
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB8_198
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	LONG $0x246c8b44; BYTE $0x30               // mov    r13d, dword [rsp + 48]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	JNE  LBB8_101
-	JMP  LBB8_136
-
-LBB8_200:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI8_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI8_7] */
-
-LBB8_201:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB8_201
-	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
-	JNE  LBB8_124
-	JMP  LBB8_140
-
-TEXT ·_comparison_greater_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB9_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB9_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB9_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB9_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_20:
-	WORD $0x0e8b                   // mov    ecx, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_20
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3930f41                           // setae    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7930f41                           // setae    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2930f41                           // setae    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6930f41                           // setae    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1930f41                           // setae    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_28:
-	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
-	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_28
-	JMP  LBB9_123
-
-LBB9_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB9_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB9_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB9_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_48:
-	LONG $0x06100ff2               // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x022e0f66               // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_48
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4930f41                           // setae    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0930f41                           // setae    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_56
-	JMP  LBB9_123
-
-LBB9_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB9_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd1       // setge    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09d0f41               // setge    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_14
-	JMP  LBB9_123
-
-LBB9_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB9_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_34:
-	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_34
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_42:
-	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
-	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_42
-	JMP  LBB9_123
-
-LBB9_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_70:
-	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
-	LONG $0x02528d48               // lea    rdx, [rdx + 2]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_70
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0930f41               // setae    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_78:
-	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
-	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_78
-	JMP  LBB9_123
-
-LBB9_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09d0f41               // setge    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_89
-	JMP  LBB9_123
-
-LBB9_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_111
-	JMP  LBB9_123
-
-LBB9_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_114:
-	LONG $0x06100ff3               // movss    xmm0, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02       // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_114
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_122
-	JMP  LBB9_123
-
-LBB9_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_59:
-	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x0a3a                   // cmp    cl, byte [rdx]
-	LONG $0x01528d48               // lea    rdx, [rdx + 1]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_59
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd1       // setae    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0930f41               // setae    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_67:
-	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
-	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_67
-	JMP  LBB9_123
-
-LBB9_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29d0f41                           // setge    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_100
-
-LBB9_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA7<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA7<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA7<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA7<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA7<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA7<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA7<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA7<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA7<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA7<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA7<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA7<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA7<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA7<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA7<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA7<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA7<>(SB), 8, $368
-
-TEXT ·_comparison_greater_equal_arr_scalar_sse4(SB), $520-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 496(SP)
-	LEAQ LCDATA7<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB10_16
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB10_31
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB10_81
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB10_92
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB10_182
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_9:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_13
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_11:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_164
-
-LBB10_16:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB10_45
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB10_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB10_115
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB10_182
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_24
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_22:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_22
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_24:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_28
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
-
-LBB10_26:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7960f41                           // setbe    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454960f; BYTE $0x08               // setbe    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000150248c0244                   // add    r9b, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000011024bcb60f                   // movzx    edi, byte [rsp + 272]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB10_26
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-
-LBB10_28:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_166
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_168
-
-LBB10_31:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB10_58
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB10_182
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_37
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_35:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_35
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_37:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_127
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001b024bc894c     // mov    qword [rsp + 432], r15
-	JB   LBB10_41
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_191
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_191
-
-LBB10_41:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000a024848948     // mov    qword [rsp + 160], rax
-	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
-
-LBB10_42:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000a024b42b4c // sub    r14, qword [rsp + 160]
-	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
-
-LBB10_43:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
-	JNE  LBB10_43
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
-	JMP  LBB10_128
-
-LBB10_45:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB10_70
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB10_182
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_51
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_49:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_49
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_51:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_55
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_53:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_53
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_55:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_143
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_145
-
-LBB10_58:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_62
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_60:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_60
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_62:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_131
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001d024bc894c     // mov    qword [rsp + 464], r15
-	JB   LBB10_66
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_194
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_194
-
-LBB10_66:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB10_67:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
-	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
-
-LBB10_68:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000001602494930f                   // setae    byte [rsp + 352]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
-	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
-	JNE  LBB10_68
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
-	JMP  LBB10_132
-
-LBB10_70:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_72:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_72
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_74:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_78
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_76:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_76
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_78:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_147
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_149
-
-LBB10_81:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_83:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_83
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_85:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_89
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_87:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_87
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_89:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_170
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_172
-
-LBB10_92:
-	LONG $0x1ab70f44         // movzx    r11d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_94:
-	LONG $0x1e394466             // cmp    word [rsi], r11w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_94
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_96:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	QUAD $0x00000188249c8944     // mov    dword [rsp + 392], r11d
-	JL   LBB10_135
-	LONG $0x08ff8349             // cmp    r15, 8
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001c824bc894c     // mov    qword [rsp + 456], r15
-	JB   LBB10_100
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_197
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JBE  LBB10_197
-
-LBB10_100:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000019024848948 // mov    qword [rsp + 400], rax
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB10_101:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	QUAD $0x0000019024b42b4c     // sub    r14, qword [rsp + 400]
-	QUAD $0x0000014024b4894c     // mov    qword [rsp + 320], r14
-	QUAD $0x0000018824ac8b44     // mov    r13d, dword [rsp + 392]
-
-LBB10_102:
-	LONG $0x2b394566                           // cmp    word [r11], r13w
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x02               // cmp    word [r11 + 2], r13w
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	QUAD $0x000000e0248cb60f                   // movzx    ecx, byte [rsp + 224]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	QUAD $0x000000d0248cb60f                   // movzx    ecx, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000110248cb60f                   // movzx    ecx, byte [rsp + 272]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x000000f0248cb60f                   // movzx    ecx, byte [rsp + 240]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x000000c0248cb60f                   // movzx    ecx, byte [rsp + 192]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000160249cb60f                   // movzx    ebx, byte [rsp + 352]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40c38349                           // add    r11, 64
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_102
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB10_136
-
-LBB10_104:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_106:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_106
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_108:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_112
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_110:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_110
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_112:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_175
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_177
-
-LBB10_115:
-	LONG $0x1f5a8d4d             // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2     // test    r10, r10
-	LONG $0xda490f4d             // cmovns    r11, r10
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB10_119
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-
-LBB10_117:
-	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_117
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_119:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_139
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB10_123
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB10_200
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB10_200
-
-LBB10_123:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_124:
-	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
-	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
-
-LBB10_125:
-	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
-	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
-	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd0960f41                           // setbe    r8b
-	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
-	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
-	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
-	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
-	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
-	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
-	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
-	LONG $0xd6960f40                           // setbe    sil
-	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
-	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
-	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
-	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
-	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
-	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
-	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
-	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
-	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
-	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
-	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
-	LONG $0xd7960f41                           // setbe    r15b
-	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
-	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
-	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
-	QUAD $0x000001602494960f                   // setbe    byte [rsp + 352]
-	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000015024840244                   // add    r8b, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000011024b4b60f                   // movzx    esi, byte [rsp + 272]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000001602494b60f                   // movzx    edx, byte [rsp + 352]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB10_125
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	JMP  LBB10_140
-
-LBB10_127:
-	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
-
-LBB10_128:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_151
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB10_154
-
-LBB10_131:
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB10_132:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_156
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB10_159
-
-LBB10_135:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-
-LBB10_136:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_183
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_185
-
-LBB10_139:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB10_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_187
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_189
-
-LBB10_143:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_144:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_144
-
-LBB10_145:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_174
-
-LBB10_147:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_148:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_148
-
-LBB10_149:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_179
-
-LBB10_151:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x70 // mov    r14, qword [rsp + 112]
-
-LBB10_152:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB10_152
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB10_154:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x70 // mov    r8, qword [rsp + 112]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB10_161
-
-LBB10_156:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	QUAD $0x000000d024b48b4c // mov    r14, qword [rsp + 208]
-
-LBB10_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB10_157
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB10_159:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3844; BYTE $0x1e // cmp    byte [rsi], r11b
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xca // mov    rdx, r9
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x000000d024848b4c // mov    r8, qword [rsp + 208]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041         // and    r9b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-
-LBB10_161:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_162:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_163:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_163
-
-LBB10_164:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_174
-
-LBB10_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_167:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_167
-
-LBB10_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x062e0f66         // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	JMP  LBB10_180
-
-LBB10_170:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_171:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_171
-
-LBB10_172:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-
-LBB10_174:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_181
-
-LBB10_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_176:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_176
-
-LBB10_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB10_179:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-
-LBB10_180:
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB10_181:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB10_182:
-	MOVQ 496(SP), SP
-	RET
-
-LBB10_183:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000018824b48b44 // mov    r14d, dword [rsp + 392]
-
-LBB10_184:
-	LONG $0x33394566             // cmp    word [r11], r14w
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x73394566; BYTE $0x02 // cmp    word [r11 + 2], r14w
-	LONG $0x045b8d4d             // lea    r11, [r11 + 4]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_184
-
-LBB10_185:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x8824848b; WORD $0x0001; BYTE $0x00 // mov    eax, dword [rsp + 392]
-	LONG $0x03394166                           // cmp    word [r11], ax
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0xd8f6                               // neg    al
-	WORD $0x8948; BYTE $0xf2                   // mov    rdx, rsi
-	LONG $0x03eac148                           // shr    rdx, 3
-	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040                           // and    sil, 7
-	WORD $0x01b3                               // mov    bl, 1
-	WORD $0xf189                               // mov    ecx, esi
-	WORD $0xe3d2                               // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
-	WORD $0xc320                               // and    bl, al
-	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
-	LONG $0x141c8841                           // mov    byte [r12 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_187:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB10_188:
-	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd1960f41             // setbe    r9b
-	LONG $0x08c38348             // add    rbx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_188
-
-LBB10_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_191:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x000000a024bc894c             // mov    qword [rsp + 160], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x70         // mov    qword [rsp + 112], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000140248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 320], xmm1
-	WORD $0x3145; BYTE $0xc0             // xor    r8d, r8d
-	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
-
-LBB10_192:
-	QUAD $0x000001202484894c                   // mov    qword [rsp + 288], r8
-	LONG $0x05e0c149                           // shl    r8, 5
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	LONG $0x2444894c; BYTE $0x10               // mov    qword [rsp + 16], r8
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	LONG $0x0cb60f42; BYTE $0x06               // movzx    ecx, byte [rsi + r8]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f42; WORD $0x0106             // movzx    ecx, byte [rsi + r8 + 1]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f42; WORD $0x0206             // movzx    ecx, byte [rsi + r8 + 2]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f42; WORD $0x0306             // movzx    ecx, byte [rsi + r8 + 3]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f42; WORD $0x0406             // movzx    ecx, byte [rsi + r8 + 4]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f42; WORD $0x0506             // movzx    ecx, byte [rsi + r8 + 5]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x4cb60f42; WORD $0x0606             // movzx    ecx, byte [rsi + r8 + 6]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f42; WORD $0x0706             // movzx    ecx, byte [rsi + r8 + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x4cb60f42; WORD $0x0806             // movzx    ecx, byte [rsi + r8 + 8]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f42; WORD $0x0906             // movzx    ecx, byte [rsi + r8 + 9]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f42; WORD $0x0a06             // movzx    ecx, byte [rsi + r8 + 10]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x4cb60f42; WORD $0x0b06             // movzx    ecx, byte [rsi + r8 + 11]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x4cb60f42; WORD $0x0c06             // movzx    ecx, byte [rsi + r8 + 12]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f42; WORD $0x1006             // movzx    ecx, byte [rsi + r8 + 16]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	LONG $0x4cb60f42; WORD $0x1806             // movzx    ecx, byte [rsi + r8 + 24]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x20c98348                           // or    rcx, 32
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	LONG $0x40c98349                           // or    r9, 64
-	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	LONG $0x60c98349                           // or    r9, 96
-	QUAD $0x00000080248c8148; LONG $0x00000080 // or    qword [rsp + 128], 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0xe0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x80ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 384
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	QUAD $0x012e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 1
-	QUAD $0x020e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 2
-	QUAD $0x030e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r9], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x04060c203a0f4666                   // pinsrb    xmm9, byte [rsi + r8], 4
-	QUAD $0x05260c203a0f4666                   // pinsrb    xmm9, byte [rsi + r12], 5
-	QUAD $0x063e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r15], 6
-	QUAD $0x071e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rbx], 7
-	QUAD $0x081e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r11], 8
-	QUAD $0x09160c203a0f4666                   // pinsrb    xmm9, byte [rsi + r10], 9
-	QUAD $0x0a060c203a0f4466                   // pinsrb    xmm9, byte [rsi + rax], 10
-	QUAD $0x0b160c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdx], 11
-	QUAD $0x0c360c203a0f4666                   // pinsrb    xmm9, byte [rsi + r14], 12
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0d2e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 14
-	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
-	QUAD $0x0f3e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdi], 15
-	QUAD $0x014024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 320]
-	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x02010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 2
-	QUAD $0x010e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r9 + 1], 3
-	QUAD $0x010654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r8 + 1], 4
-	QUAD $0x012654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r12 + 1], 5
-	QUAD $0x013e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r15 + 1], 6
-	QUAD $0x07011e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 1], 7
-	QUAD $0x011e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 1], 8
-	QUAD $0x011654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 1], 9
-	QUAD $0x0a010654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 1], 10
-	QUAD $0x0b011654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 1], 11
-	QUAD $0x013654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r14 + 1], 12
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x012e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 1], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 14
-	QUAD $0x0f013e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 1], 15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x022e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 2], 2
-	QUAD $0x020e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 2], 3
-	QUAD $0x02065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 2], 4
-	QUAD $0x02265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 2], 5
-	QUAD $0x023e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 2], 6
-	QUAD $0x07021e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 2], 7
-	QUAD $0x021e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 2], 8
-	QUAD $0x02165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 2], 9
-	QUAD $0x0a02065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 2], 10
-	QUAD $0x0b02165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 2], 11
-	QUAD $0x02365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 2], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 14
-	QUAD $0x0f023e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 2], 15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 1
-	QUAD $0x032e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 3], 2
-	QUAD $0x030e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 3], 3
-	QUAD $0x030664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r8 + 3], 4
-	QUAD $0x032664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r12 + 3], 5
-	QUAD $0x033e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r15 + 3], 6
-	QUAD $0x07031e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 3], 7
-	QUAD $0x031e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 3], 8
-	QUAD $0x031664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 3], 9
-	QUAD $0x0a030664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 3], 10
-	QUAD $0x0b031664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 3], 11
-	QUAD $0x033664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 3], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 14
-	QUAD $0x0f033e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 3], 15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 1
-	QUAD $0x042e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 4], 2
-	QUAD $0x040e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 4], 3
-	QUAD $0x040674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r8 + 4], 4
-	QUAD $0x042674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r12 + 4], 5
-	QUAD $0x043e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 4], 6
-	QUAD $0x07041e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 4], 7
-	QUAD $0x041e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 4], 8
-	QUAD $0x041674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 4], 9
-	QUAD $0x0a040674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 4], 10
-	QUAD $0x0b041674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 4], 11
-	QUAD $0x043674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 4], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 14
-	QUAD $0x0f043e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 4], 15
-	QUAD $0x000090249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 144]
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 1
-	QUAD $0x052e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 5], 2
-	QUAD $0x050e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 5], 3
-	QUAD $0x05065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 5], 4
-	QUAD $0x05265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 5], 5
-	QUAD $0x053e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 5], 6
-	QUAD $0x07051e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 5], 7
-	QUAD $0x051e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 5], 8
-	QUAD $0x05165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 5], 9
-	QUAD $0x0a05065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 5], 10
-	QUAD $0x0b05165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 5], 11
-	QUAD $0x05365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 5], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 14
-	QUAD $0x0f053e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 5], 15
-	QUAD $0x000090249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm3
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x01063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 1
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x062e7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r13 + 6], 2
-	QUAD $0x060e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 6], 3
-	QUAD $0x06067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 6], 4
-	QUAD $0x06267c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r12 + 6], 5
-	QUAD $0x063e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r15 + 6], 6
-	QUAD $0x07061e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 6], 7
-	QUAD $0x061e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 6], 8
-	QUAD $0x06167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 6], 9
-	QUAD $0x0a06067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 6], 10
-	QUAD $0x0b06167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 6], 11
-	QUAD $0x06367c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r14 + 6], 12
-	QUAD $0x083e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdi + 8], 1
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x080e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rcx + 8], 2
-	QUAD $0x080e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r9 + 8], 3
-	QUAD $0x08066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 8], 4
-	QUAD $0x08266c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r12 + 8], 5
-	QUAD $0x083e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r15 + 8], 6
-	QUAD $0x081e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 8], 7
-	QUAD $0x081e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 8], 8
-	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
-	QUAD $0x08066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 8], 10
-	QUAD $0x08166c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdx + 8], 11
-	QUAD $0x08366c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r14 + 8], 12
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x08066c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r8 + 8], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
-	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x083e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 8], 15
-	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
-	LONG $0x640f4566; BYTE $0xcd               // pcmpgtb    xmm9, xmm13
-	QUAD $0x102e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r13 + 16], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x100e74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rcx + 16], 2
-	QUAD $0x100e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r9 + 16], 3
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x100e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rcx + 16], 4
-	QUAD $0x102674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r12 + 16], 5
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	QUAD $0x103e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r15 + 16], 6
-	QUAD $0x101e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 16], 7
-	QUAD $0x101e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r11 + 16], 8
-	QUAD $0x101674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r10 + 16], 9
-	QUAD $0x100674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 16], 10
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x101674203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rdx + 16], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x101674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 16], 12
-	QUAD $0x100674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x102e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 16], 14
-	QUAD $0x103e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdi + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0118066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0218066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 2
-	QUAD $0x18366c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r14 + 24], 3
-	QUAD $0x04180e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 24], 4
-	QUAD $0x18266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 24], 5
-	QUAD $0x183e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 24], 6
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x07181e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 24], 7
-	QUAD $0x181e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 24], 8
-	QUAD $0x18166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 24], 9
-	QUAD $0x180e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 24], 10
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b18066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 11
-	QUAD $0x0c18166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 24], 12
-	QUAD $0x18066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 24], 13
-	QUAD $0x182e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 24], 14
-	QUAD $0x0f183e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 24], 15
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
-	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xea640f66                           // pcmpgtb    xmm5, xmm2
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x06067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 6], 13
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xebdf0f66                           // pandn    xmm5, xmm3
-	LONG $0xfc0f4166; BYTE $0xeb               // paddb    xmm5, xmm11
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	LONG $0x0e54b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rcx + 14]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	QUAD $0x062e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 6], 14
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI10_17] */
-	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
-	LONG $0x6f0f4566; BYTE $0xf7               // movdqa    xmm14, xmm15
-	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
-	LONG $0x0e54b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rcx + 15]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
-	LONG $0xeb0f4466; BYTE $0xf3               // por    xmm14, xmm3
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0f063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 15
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8f80f66                           // psubb    xmm5, xmm0
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
-	LONG $0x640f4466; BYTE $0xef               // pcmpgtb    xmm13, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x01073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x02070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x04070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 4
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x073e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r15 + 7], 5
-	QUAD $0x073644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 7], 6
-	QUAD $0x07071e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 7], 7
-	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
-	QUAD $0x071644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 7], 9
-	QUAD $0x070e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 7], 10
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0b071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 12
-	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
-	QUAD $0x072e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 7], 14
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x072644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 7], 15
-	QUAD $0x093e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdi + 9], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x092e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 9], 2
-	QUAD $0x090e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rcx + 9], 3
-	QUAD $0x090644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 9], 4
-	QUAD $0x093e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r15 + 9], 5
-	QUAD $0x093644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 9], 6
-	QUAD $0x091e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 9], 7
-	QUAD $0x091e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 9], 8
-	QUAD $0x091644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 9], 9
-	QUAD $0x090e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 9], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x093e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rdi + 9], 11
-	QUAD $0x091644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 9], 12
-	QUAD $0x090644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 9], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdi + 9], 14
-	QUAD $0x092644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 9], 15
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0a2e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r13 + 10], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 10], 2
-	QUAD $0x0a0e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 10], 3
-	QUAD $0x0a0654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rax + 10], 4
-	QUAD $0x0a3e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 10], 5
-	QUAD $0x0a3654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 10], 6
-	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
-	QUAD $0x0a1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 10], 8
-	QUAD $0x0a1654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 10], 9
-	QUAD $0x0a0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 10], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdi + 10], 11
-	QUAD $0x0a1654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 10], 12
-	QUAD $0x0a0654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r8 + 10], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
-	QUAD $0x0a2654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 10], 15
-	QUAD $0x0b2e4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r13 + 11], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 2
-	QUAD $0x030b0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 11], 3
-	QUAD $0x040b064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 11], 4
-	QUAD $0x0b3e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r15 + 11], 5
-	QUAD $0x0b364c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r14 + 11], 6
-	QUAD $0x070b1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 11], 7
-	QUAD $0x0b1e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 11], 8
-	QUAD $0x0b164c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r10 + 11], 9
-	QUAD $0x0b0e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 11], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 11
-	QUAD $0x0c0b164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 11], 12
-	QUAD $0x0b064c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r8 + 11], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 14
-	QUAD $0x0b264c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r12 + 11], 15
-	QUAD $0x0c2e64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 12], 2
-	QUAD $0x0c0e64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rcx + 12], 3
-	QUAD $0x0c0664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rax + 12], 4
-	QUAD $0x0c3e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r15 + 12], 5
-	QUAD $0x0c3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 12], 6
-	QUAD $0x0c1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 12], 7
-	QUAD $0x0c1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 12], 8
-	QUAD $0x0c1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 12], 9
-	QUAD $0x0c0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 12], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdi + 12], 11
-	QUAD $0x0c1664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rdx + 12], 12
-	QUAD $0x0c0664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r8 + 12], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rdi + 12], 14
-	QUAD $0x0c2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 12], 15
-	QUAD $0x0d2e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r13 + 13], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 2
-	QUAD $0x030d0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 13], 3
-	QUAD $0x040d0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 13], 4
-	QUAD $0x0d3e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 13], 5
-	QUAD $0x0d3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 13], 6
-	QUAD $0x070d1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 13], 7
-	QUAD $0x0d1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 13], 8
-	QUAD $0x0d1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 13], 9
-	QUAD $0x0d0e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 13], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 11
-	QUAD $0x0c0d1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 13], 12
-	QUAD $0x0d0654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 13], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 14
-	QUAD $0x0d2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 13], 15
-	QUAD $0x0e2e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r13 + 14], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 2
-	QUAD $0x030e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 3
-	QUAD $0x040e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 4
-	QUAD $0x0e3e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 14], 5
-	QUAD $0x0e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 14], 6
-	QUAD $0x070e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 7
-	QUAD $0x0e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 14], 8
-	QUAD $0x0e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 14], 9
-	QUAD $0x0e0e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 12
-	QUAD $0x0e0664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r8 + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
-	QUAD $0x0e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 14], 15
-	QUAD $0x0f2e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r13 + 15], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 2
-	QUAD $0x030f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 3
-	QUAD $0x040f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 4
-	QUAD $0x0f3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 15], 5
-	QUAD $0x0f3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 15], 6
-	QUAD $0x070f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 7
-	QUAD $0x0f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 15], 8
-	QUAD $0x0f1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 15], 9
-	QUAD $0x0f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 15], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 11
-	QUAD $0x0c0f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 12
-	QUAD $0x0f0674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r8 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 14
-	QUAD $0x0f2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 15], 15
-	QUAD $0x112e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r13 + 17], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 2
-	QUAD $0x03110e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 17], 3
-	QUAD $0x0411065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 17], 4
-	QUAD $0x113e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 17], 5
-	QUAD $0x11365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 17], 6
-	QUAD $0x07111e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x111e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 17], 8
-	QUAD $0x11165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 17], 9
-	QUAD $0x110e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 17], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0c11165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 17], 12
-	QUAD $0x11065c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r8 + 17], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 14
-	QUAD $0x11265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 17], 15
-	QUAD $0x122e7c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r13 + 18], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 2
-	QUAD $0x03120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 3
-	QUAD $0x0412067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 4
-	QUAD $0x123e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r15 + 18], 5
-	QUAD $0x12367c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
-	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
-	QUAD $0x12167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 18], 9
-	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
-	QUAD $0x00000150248c894c                   // mov    qword [rsp + 336], r9
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 11
-	QUAD $0x0c12167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 12
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	QUAD $0x12067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 18], 13
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x12067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 18], 14
-	QUAD $0x12267c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r12 + 18], 15
-	QUAD $0x132e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r13 + 19], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x132e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 19], 2
-	QUAD $0x130e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rcx + 19], 3
-	QUAD $0x13067c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rax + 19], 4
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x130e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 19], 5
-	QUAD $0x13367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 19], 6
-	QUAD $0x131e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 19], 7
-	QUAD $0x131e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 19], 8
-	QUAD $0x13167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 19], 9
-	QUAD $0x130e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 19], 10
-	QUAD $0x133e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rdi + 19], 11
-	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
-	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0xeb0f4166; BYTE $0xee               // por    xmm5, xmm14
-	QUAD $0x00009024ac7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm5
-	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
-	LONG $0x640f4566; BYTE $0xe8               // pcmpgtb    xmm13, xmm8
-	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	QUAD $0x133e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 19], 12
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xfc0f4566; BYTE $0xe9               // paddb    xmm13, xmm9
-	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
-	LONG $0x640f4166; BYTE $0xea               // pcmpgtb    xmm5, xmm10
-	LONG $0x6f0f4566; BYTE $0xcb               // movdqa    xmm9, xmm11
-	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x13167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 19], 13
-	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001208ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xcd               // por    xmm9, xmm5
-	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
-	LONG $0x640f4166; BYTE $0xcc               // pcmpgtb    xmm1, xmm12
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x13067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 19], 14
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI10_22] */
-	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0x640f4466; BYTE $0xf2               // pcmpgtb    xmm14, xmm2
-	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
-	LONG $0x640f4466; BYTE $0xec               // pcmpgtb    xmm13, xmm4
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 19], 15
-	QUAD $0x000140b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 320[rbp] /* [rip + .LCPI10_20] */
-	QUAD $0x000150addf0f4466; BYTE $0x00       // pandn    xmm13, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
-	LONG $0x6f0f4166; BYTE $0xe3               // movdqa    xmm4, xmm11
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0xdf0f4466; WORD $0x6075             // pandn    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xeb0f4566; BYTE $0xf5               // por    xmm14, xmm13
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	LONG $0x640f4466; BYTE $0xdb               // pcmpgtb    xmm11, xmm3
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x0130249cfc0f4466; WORD $0x0000     // paddb    xmm11, oword [rsp + 304]
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xcf640f66                           // pcmpgtb    xmm1, xmm7
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	QUAD $0x000001108ddf0f66                   // pandn    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xe9               // por    xmm13, xmm1
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x01140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x150644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 21], 1
-	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
-	QUAD $0x0117066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 1
-	QUAD $0x19064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 25], 1
-	QUAD $0x1a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 26], 1
-	QUAD $0x011b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 1
-	QUAD $0x011c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 1
-	QUAD $0x011d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
-	QUAD $0x1f067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 31], 1
-	QUAD $0x142e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 20], 2
-	QUAD $0x152e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 21], 2
-	QUAD $0x162e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 22], 2
-	QUAD $0x172e6c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r13 + 23], 2
-	QUAD $0x192e4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r13 + 25], 2
-	QUAD $0x1a2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 26], 2
-	QUAD $0x1b2e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 27], 2
-	QUAD $0x1c2e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 28], 2
-	QUAD $0x1d2e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 29], 2
-	QUAD $0x1e2e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 30], 2
-	QUAD $0x1f2e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 31], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x03141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 3
-	QUAD $0x151644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 21], 3
-	QUAD $0x161654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 22], 3
-	QUAD $0x0317166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 3
-	QUAD $0x19164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 25], 3
-	QUAD $0x1a1664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 26], 3
-	QUAD $0x031b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 3
-	QUAD $0x031c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 3
-	QUAD $0x031d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 3
-	QUAD $0x031e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 3
-	QUAD $0x1f167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 31], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x04141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 4
-	QUAD $0x151644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 21], 4
-	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
-	QUAD $0x0417166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 4
-	QUAD $0x19164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 25], 4
-	QUAD $0x1a1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 26], 4
-	QUAD $0x041b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x041c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 4
-	QUAD $0x041d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 4
-	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
-	QUAD $0x1f167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 31], 4
-	QUAD $0x05140e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x150e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 21], 5
-	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
-	QUAD $0x05170e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 23], 5
-	QUAD $0x190e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 25], 5
-	QUAD $0x1a0e64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rcx + 26], 5
-	QUAD $0x051b0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 27], 5
-	QUAD $0x051c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 28], 5
-	QUAD $0x051d0e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 29], 5
-	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
-	QUAD $0x1f0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 31], 5
-	QUAD $0x143644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 20], 6
-	QUAD $0x153644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 21], 6
-	QUAD $0x163654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 22], 6
-	QUAD $0x17366c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r14 + 23], 6
-	QUAD $0x19364c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r14 + 25], 6
-	QUAD $0x1a3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 26], 6
-	QUAD $0x1b3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 27], 6
-	QUAD $0x1c3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 28], 6
-	QUAD $0x1d365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 29], 6
-	QUAD $0x1e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 30], 6
-	QUAD $0x1f367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 31], 6
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x07141e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 20], 7
-	QUAD $0x151e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 21], 7
-	QUAD $0x161e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 22], 7
-	QUAD $0x07171e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 23], 7
-	QUAD $0x191e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 25], 7
-	QUAD $0x1a1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 26], 7
-	QUAD $0x071b1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 27], 7
-	QUAD $0x071c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 28], 7
-	QUAD $0x071d1e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 29], 7
-	QUAD $0x071e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 7
-	QUAD $0x1f1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 31], 7
-	QUAD $0x141e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 20], 8
-	QUAD $0x151e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 21], 8
-	QUAD $0x161e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 22], 8
-	QUAD $0x171e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 23], 8
-	QUAD $0x191e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 25], 8
-	QUAD $0x1a1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 26], 8
-	QUAD $0x1b1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 27], 8
-	QUAD $0x1c1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 28], 8
-	QUAD $0x1d1e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 29], 8
-	QUAD $0x1e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 30], 8
-	QUAD $0x1f1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 31], 8
-	QUAD $0x141644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 20], 9
-	QUAD $0x151644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 21], 9
-	QUAD $0x161654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 22], 9
-	QUAD $0x17166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 23], 9
-	QUAD $0x19164c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r10 + 25], 9
-	QUAD $0x1a1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 26], 9
-	QUAD $0x1b1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 27], 9
-	QUAD $0x1c1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 28], 9
-	QUAD $0x1d165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 29], 9
-	QUAD $0x1e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 30], 9
-	QUAD $0x1f167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 31], 9
-	QUAD $0x0000015024948b4c                   // mov    r10, qword [rsp + 336]
-	QUAD $0x141644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 20], 10
-	QUAD $0x151644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 21], 10
-	QUAD $0x161654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r10 + 22], 10
-	QUAD $0x17166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 23], 10
-	QUAD $0x19164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 25], 10
-	QUAD $0x1a1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 26], 10
-	QUAD $0x1b1654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 27], 10
-	QUAD $0x1c1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 28], 10
-	QUAD $0x1d165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 29], 10
-	QUAD $0x1e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 30], 10
-	QUAD $0x1f167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 31], 10
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x141644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 20], 11
-	QUAD $0x151644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 21], 11
-	QUAD $0x161654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 22], 11
-	QUAD $0x17166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 23], 11
-	QUAD $0x19164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 25], 11
-	QUAD $0x1a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 26], 11
-	QUAD $0x1b1654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 27], 11
-	QUAD $0x1c1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 28], 11
-	QUAD $0x1d165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r10 + 30], 11
-	QUAD $0x1f167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 31], 11
-	QUAD $0x143e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 20], 12
-	QUAD $0x153e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 21], 12
-	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
-	QUAD $0x173e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 23], 12
-	QUAD $0x193e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 25], 12
-	QUAD $0x1a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 26], 12
-	QUAD $0x1b3e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 27], 12
-	QUAD $0x1c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 28], 12
-	QUAD $0x1d3e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 29], 12
-	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 31], 12
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0d140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 13
-	QUAD $0x150644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 21], 13
-	QUAD $0x160654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 22], 13
-	QUAD $0x0d17066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 13
-	QUAD $0x19064c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rax + 25], 13
-	QUAD $0x1a0664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 26], 13
-	QUAD $0x0d1b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 13
-	QUAD $0x0d1c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 13
-	QUAD $0x0d1d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0d1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 13
-	QUAD $0x1f067c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rax + 31], 13
-	QUAD $0x140644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 20], 14
-	QUAD $0x150644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 21], 14
-	QUAD $0x160654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r8 + 22], 14
-	QUAD $0x17066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 23], 14
-	QUAD $0x19064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 25], 14
-	QUAD $0x1a0664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 26], 14
-	QUAD $0x1b0654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 27], 14
-	QUAD $0x1c0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 28], 14
-	QUAD $0x1d065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 29], 14
-	QUAD $0x1e0664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 30], 14
-	QUAD $0x1f067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 31], 14
-	QUAD $0x142644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 20], 15
-	QUAD $0x152644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 21], 15
-	QUAD $0x162654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 22], 15
-	QUAD $0x17266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 23], 15
-	QUAD $0x19264c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r12 + 25], 15
-	QUAD $0x1a2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 26], 15
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xc8640f66                           // pcmpgtb    xmm1, xmm0
-	QUAD $0x1b2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 27], 15
-	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
-	LONG $0x760f4566; BYTE $0xed               // pcmpeqd    xmm13, xmm13
-	LONG $0xf80f4566; BYTE $0xdd               // psubb    xmm11, xmm13
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x640f4166; BYTE $0xc0               // pcmpgtb    xmm0, xmm8
-	LONG $0x6f0f4466; BYTE $0xc7               // movdqa    xmm8, xmm7
-	LONG $0x640f4166; BYTE $0xfa               // pcmpgtb    xmm7, xmm10
-	QUAD $0x000140956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xdf0f4166; BYTE $0xc2               // pandn    xmm0, xmm10
-	QUAD $0x0001509d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xdf0f4166; BYTE $0xfb               // pandn    xmm7, xmm11
-	LONG $0xf8eb0f66                           // por    xmm7, xmm0
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	QUAD $0x1c2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 28], 15
-	LONG $0x6d6f0f66; BYTE $0x60               // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xc5df0f66                           // pandn    xmm0, xmm5
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	QUAD $0x1d265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 29], 15
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
-	QUAD $0x000001008ddf0f66                   // pandn    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x000100248cfc0f66; BYTE $0x00       // paddb    xmm1, oword [rsp + 256]
-	LONG $0x6f0f4166; BYTE $0xe8               // movdqa    xmm5, xmm8
-	LONG $0x640f4166; BYTE $0xec               // pcmpgtb    xmm5, xmm12
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xfa640f66                           // pcmpgtb    xmm7, xmm2
-	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x00000120bddf0f66                   // pandn    xmm7, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0xd6640f66                           // pcmpgtb    xmm2, xmm6
-	QUAD $0x1e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 30], 15
-	QUAD $0x0000013095df0f66                   // pandn    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0xf80f4166; BYTE $0xcd               // psubb    xmm1, xmm13
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xcb640f66                           // pcmpgtb    xmm1, xmm3
-	LONG $0x6f0f4166; BYTE $0xd8               // movdqa    xmm3, xmm8
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	QUAD $0x1f267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 31], 15
-	LONG $0xdf0f4166; BYTE $0xca               // pandn    xmm1, xmm10
-	LONG $0xdf0f4166; BYTE $0xdb               // pandn    xmm3, xmm11
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
-	LONG $0x4ddf0f66; BYTE $0x60               // pandn    xmm1, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd1600f66                           // punpcklbw    xmm2, xmm1
-	QUAD $0x00009024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 144]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	LONG $0x600f4166; BYTE $0xde               // punpcklbw    xmm3, xmm14
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe2610f66                           // punpcklwd    xmm4, xmm2
-	LONG $0xda690f66                           // punpckhwd    xmm3, xmm2
-	LONG $0xc1680f66                           // punpckhbw    xmm0, xmm1
-	LONG $0x680f4166; BYTE $0xee               // punpckhbw    xmm5, xmm14
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
-	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	QUAD $0x000000a0248c3b48                   // cmp    rcx, qword [rsp + 160]
-	JNE  LBB10_192
-	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
-	QUAD $0x000000a024bc3b4c                   // cmp    r15, qword [rsp + 160]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000017024b48b48                   // mov    rsi, qword [rsp + 368]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	JNE  LBB10_42
-	JMP  LBB10_128
-
-LBB10_194:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	QUAD $0x000000d024848948             // mov    qword [rsp + 208], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000190248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 400], xmm1
-	WORD $0xd231                         // xor    edx, edx
-	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
-
-LBB10_195:
-	QUAD $0x0000015024948948                   // mov    qword [rsp + 336], rdx
-	LONG $0x05e2c148                           // shl    rdx, 5
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
-	QUAD $0x0000009024948948                   // mov    qword [rsp + 144], rdx
-	WORD $0x8949; BYTE $0xd0                   // mov    r8, rdx
-	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	LONG $0x160cb60f                           // movzx    ecx, byte [rsi + rdx]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x00017024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm2
-	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x0000a024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm2
-	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x164cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rdx + 16]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x164cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rdx + 24]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x0000008024948948                   // mov    qword [rsp + 128], rdx
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	LONG $0x40cb8348                           // or    rbx, 64
-	LONG $0x60cb8349                           // or    r11, 96
-	QUAD $0x00000120249c894c                   // mov    qword [rsp + 288], r11
-	LONG $0x80cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 128
-	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
-	QUAD $0x00000090248c8148; LONG $0x000000a0 // or    qword [rsp + 144], 160
-	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
-	LONG $0xe0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 224
-	QUAD $0x0000013024ac894c                   // mov    qword [rsp + 304], r13
-	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	QUAD $0x000001102494894c                   // mov    qword [rsp + 272], r10
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x60cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 352
-	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
-	LONG $0x80cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 384
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0x24548948; BYTE $0x10               // mov    qword [rsp + 16], rdx
-	QUAD $0x0001c010244c8148; BYTE $0x00       // or    qword [rsp + 16], 448
-	LONG $0xe0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 480
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x01 // pinsrb    xmm0, byte [rsi + rcx], 1
-	LONG $0x203a0f66; WORD $0x1e04; BYTE $0x02 // pinsrb    xmm0, byte [rsi + rbx], 2
-	QUAD $0x031e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 3
-	QUAD $0x042604203a0f4266                   // pinsrb    xmm0, byte [rsi + r12], 4
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x051e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 5
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x060604203a0f4266                   // pinsrb    xmm0, byte [rsi + r8], 6
-	QUAD $0x072e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r13], 7
-	QUAD $0x080e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r9], 8
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	QUAD $0x091604203a0f4266                   // pinsrb    xmm0, byte [rsi + r10], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x0a3604203a0f4266                   // pinsrb    xmm0, byte [rsi + r14], 10
-	LONG $0x203a0f66; WORD $0x3e04; BYTE $0x0b // pinsrb    xmm0, byte [rsi + rdi], 11
-	QUAD $0x0c3e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r15], 12
-	LONG $0x203a0f66; WORD $0x0604; BYTE $0x0d // pinsrb    xmm0, byte [rsi + rax], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0e // pinsrb    xmm0, byte [rsi + rcx], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0f // pinsrb    xmm0, byte [rsi + rcx], 15
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	QUAD $0x00019024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 400]
-	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
-	LONG $0x6f0f4466; BYTE $0xff               // movdqa    xmm15, xmm7
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rcx + 1], 1
-	QUAD $0x011e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 1], 2
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x01365c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r14 + 1], 3
-	QUAD $0x01265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 1], 4
-	QUAD $0x011e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r11 + 1], 5
-	QUAD $0x01165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 1], 6
-	QUAD $0x012e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r13 + 1], 7
-	QUAD $0x01065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 1], 8
-	QUAD $0x01165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 1], 9
-	QUAD $0x010e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 1], 10
-	QUAD $0x013e5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + rdi + 1], 11
-	QUAD $0x013e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 1], 12
-	QUAD $0x01065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 1], 13
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x01065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 1], 14
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x01065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 1], 15
-	QUAD $0x080e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rcx + 8], 1
-	QUAD $0x081e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rbx + 8], 2
-	QUAD $0x08366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 8], 3
-	QUAD $0x08266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 8], 4
-	QUAD $0x081e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 8], 5
-	QUAD $0x08166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 8], 6
-	QUAD $0x082e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r13 + 8], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x082e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r13 + 8], 8
-	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
-	QUAD $0x080e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 8], 10
-	QUAD $0x083e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdi + 8], 11
-	QUAD $0x083e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 8], 12
-	QUAD $0x08066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 8], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
-	QUAD $0x08066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 8], 15
-	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
-	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
-	LONG $0x740f4566; BYTE $0xcd               // pcmpeqb    xmm9, xmm13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x103e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdi + 16], 1
-	QUAD $0x101e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 16], 2
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x103664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 16], 3
-	QUAD $0x102664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r12 + 16], 4
-	QUAD $0x101e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 16], 5
-	QUAD $0x101664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 16], 6
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x00000130249c8b4c                   // mov    r11, qword [rsp + 304]
-	QUAD $0x101e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 16], 7
-	QUAD $0x102e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r13 + 16], 8
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x102e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r13 + 16], 9
-	QUAD $0x100e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 16], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x101664203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdx + 16], 11
-	QUAD $0x103e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 16], 12
-	QUAD $0x100664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 16], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x101e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 16], 14
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x102664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 16], 15
-	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
-	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
-	LONG $0x740f4166; BYTE $0xfc               // pcmpeqb    xmm7, xmm12
-	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
-	QUAD $0x01183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 1
-	QUAD $0x181654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 24], 2
-	QUAD $0x183654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r14 + 24], 3
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x04183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 4
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x183654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r14 + 24], 5
-	QUAD $0x06180e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 24], 6
-	QUAD $0x181e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 24], 7
-	QUAD $0x180654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 24], 8
-	QUAD $0x182e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r13 + 24], 9
-	QUAD $0x180e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 24], 10
-	QUAD $0x0b181654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 24], 11
-	QUAD $0x183e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 24], 12
-	QUAD $0x0d180654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 24], 13
-	QUAD $0x0e181e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 24], 14
-	QUAD $0x182654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 24], 15
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
-	LONG $0xfa740f66                           // pcmpeqb    xmm7, xmm2
-	QUAD $0x00014024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm7
-	LONG $0x6f0f4566; BYTE $0xe3               // movdqa    xmm12, xmm11
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0xde0f4566; BYTE $0xe7               // pmaxub    xmm12, xmm15
-	LONG $0x740f4566; BYTE $0xe3               // pcmpeqb    xmm12, xmm11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x1654b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rdx + 13]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x020e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 2], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x021674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 2], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x021674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 2], 3
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	QUAD $0x023e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rdi + 2], 4
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x023674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r14 + 2], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x023e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 2], 6
-	QUAD $0x021e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 2], 7
-	QUAD $0x020674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 2], 8
-	QUAD $0x022e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 2], 9
-	QUAD $0x020e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 2], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x023674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 2], 11
-	QUAD $0x023e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 2], 12
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	QUAD $0x020674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x020674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 2], 14
-	QUAD $0x022674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r12 + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0103066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 1
-	QUAD $0x02031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 2
-	QUAD $0x03166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x0403166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 4
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x05030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 5
-	QUAD $0x06033e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
-	QUAD $0x03066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 3], 8
-	QUAD $0x032e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r13 + 3], 9
-	QUAD $0x030e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 3], 10
-	QUAD $0x03366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 3], 11
-	QUAD $0x033e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 3], 12
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x03366c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r14 + 3], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e03166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 14
-	QUAD $0x03266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 3], 15
-	QUAD $0x00000100956f0f66                   // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xdb0f4466; BYTE $0xe2               // pand    xmm12, xmm2
-	LONG $0xf80f4466; BYTE $0xe0               // psubb    xmm12, xmm0
-	LONG $0x6f0f4566; BYTE $0xde               // movdqa    xmm11, xmm14
-	LONG $0xde0f4566; BYTE $0xdd               // pmaxub    xmm11, xmm13
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
-	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x1654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rdx + 14]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x04265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 4], 1
-	QUAD $0x02041e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 4], 2
-	QUAD $0x04165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x0404065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x05040e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 4], 5
-	QUAD $0x06043e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x041e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 4], 7
-	QUAD $0x04065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 4], 8
-	QUAD $0x042e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 4], 9
-	QUAD $0x040e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b04065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	QUAD $0x043e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 4], 12
-	QUAD $0x04365c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r14 + 4], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e04165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 4], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x04365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 4], 15
-	QUAD $0x05264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 5], 1
-	QUAD $0x02051e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 5], 2
-	QUAD $0x05164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 5], 3
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x05264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 5], 4
-	QUAD $0x05050e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 5], 5
-	QUAD $0x06053e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 5], 6
-	QUAD $0x051e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 5], 7
-	QUAD $0x05064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 5], 8
-	QUAD $0x052e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r13 + 5], 9
-	QUAD $0x050e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 5], 10
-	QUAD $0x0b05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 11
-	QUAD $0x053e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 5], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 13
-	QUAD $0x0e05164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 5], 14
-	QUAD $0x00000110ad6f0f66                   // movdqa    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
-	QUAD $0x00000120ad6f0f66                   // movdqa    xmm5, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x0f3e             // movzx    edx, byte [rsi + r15 + 15]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x05364c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r14 + 5], 15
-	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xde0f4566; BYTE $0xe5               // pmaxub    xmm12, xmm13
-	LONG $0x740f4466; BYTE $0xe3               // pcmpeqb    xmm12, xmm3
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xde0f4166; BYTE $0xed               // pmaxub    xmm5, xmm13
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	LONG $0x54b60f42; WORD $0x113e             // movzx    edx, byte [rsi + r15 + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x01061664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 6], 1
-	QUAD $0x000000b0249c8948                   // mov    qword [rsp + 176], rbx
-	QUAD $0x02061e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 6], 2
-	QUAD $0x061664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 6], 3
-	QUAD $0x062664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 6], 4
-	QUAD $0x05060e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 6], 5
-	QUAD $0x06063e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 6], 6
-	QUAD $0x061e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 6], 7
-	QUAD $0x060664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 6], 8
-	QUAD $0x062e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r13 + 6], 9
-	QUAD $0x00000100248c894c                   // mov    qword [rsp + 256], r9
-	QUAD $0x060e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 6], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x062664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r12 + 6], 11
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x063664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 6], 12
-	QUAD $0x0d060664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 6], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x063e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 6], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x063e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r15 + 6], 15
-	QUAD $0x000170249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 368]
-	QUAD $0x0107165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 1
-	QUAD $0x02071e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 7], 2
-	QUAD $0x07165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 7], 3
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0407165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 4
-	QUAD $0x05070e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 7], 5
-	QUAD $0x06073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 6
-	QUAD $0x071e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 7], 7
-	QUAD $0x07065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 7], 8
-	QUAD $0x072e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 7], 9
-	QUAD $0x070e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 7], 10
-	QUAD $0x07265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 7], 11
-	QUAD $0x07365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 7], 12
-	QUAD $0x0d07065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 7], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 14
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x073e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 7], 15
-	QUAD $0x000001308d6f0f66                   // movdqa    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xdb0f4466; BYTE $0xe1               // pand    xmm12, xmm1
-	QUAD $0x000001408d6f0f66                   // movdqa    xmm1, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb0f4166; BYTE $0xec               // por    xmm5, xmm12
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x1206             // movzx    edx, byte [rsi + r8 + 18]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcfdb0f66                           // pand    xmm1, xmm7
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0x54b60f42; WORD $0x1306             // movzx    edx, byte [rsi + r8 + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	LONG $0x6f0f4466; BYTE $0xe2               // movdqa    xmm12, xmm2
-	LONG $0x54b60f42; WORD $0x1406             // movzx    edx, byte [rsi + r8 + 20]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x0000a0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 160]
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x09365c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r14 + 9], 1
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x09165c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r10 + 9], 2
-	QUAD $0x03091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0409065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 9], 4
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x090e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 9], 5
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x091e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 9], 6
-	QUAD $0x00000130249c8b48                   // mov    rbx, qword [rsp + 304]
-	QUAD $0x07091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 7
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x093e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 9], 8
-	QUAD $0x092e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 9], 9
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x09265c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r12 + 9], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 13
-	QUAD $0x0e093e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 9], 14
-	QUAD $0x0f090e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 9], 15
-	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4466; BYTE $0xe7               // pand    xmm12, xmm7
-	LONG $0xeb0f4466; BYTE $0xe1               // por    xmm12, xmm1
-	QUAD $0x00a024a47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm12
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
-	LONG $0xfb740f66                           // pcmpeqb    xmm7, xmm3
-	LONG $0x54b60f42; WORD $0x1506             // movzx    edx, byte [rsi + r8 + 21]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0a3644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r14 + 10], 1
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0a1644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 10], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0a1644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 10], 3
-	QUAD $0x0a0644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 10], 4
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x0a0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 10], 5
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x0a1e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 10], 6
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	QUAD $0x0a1e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 10], 7
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x0a3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 10], 8
-	QUAD $0x0a2e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 10], 9
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x0a2644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 10], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0a2644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r12 + 10], 11
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0a3e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 10], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 10], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a1e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 10], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdx + 10], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0b0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 11], 1
-	QUAD $0x0b3654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r14 + 11], 2
-	QUAD $0x0b1654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 11], 3
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0b3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 11], 4
-	QUAD $0x0b0e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 11], 5
-	QUAD $0x0b3e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdi + 11], 6
-	QUAD $0x0b1e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 11], 7
-	QUAD $0x0b0654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 11], 8
-	QUAD $0x0b2e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r13 + 11], 9
-	QUAD $0x0b0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 11], 10
-	QUAD $0x0b2654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r12 + 11], 11
-	QUAD $0x0b3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 11], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0b0654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 11], 13
-	QUAD $0x0b1e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 11], 14
-	QUAD $0x0b1654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdx + 11], 15
-	QUAD $0x00000100bddb0f66                   // pand    xmm7, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xf80f4166; BYTE $0xf9               // psubb    xmm7, xmm9
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	LONG $0x6f0f4566; BYTE $0xca               // movdqa    xmm9, xmm10
-	LONG $0xde0f4566; BYTE $0xcd               // pmaxub    xmm9, xmm13
-	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0c2674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r12 + 12], 2
-	QUAD $0x0c1674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 12], 3
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	QUAD $0x0c3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 12], 4
-	QUAD $0x050c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 12], 5
-	QUAD $0x060c3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 12], 6
-	QUAD $0x0c1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 12], 7
-	QUAD $0x0c0674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 12], 8
-	QUAD $0x0c2e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r13 + 12], 9
-	QUAD $0x0c0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 12], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0c3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 12], 11
-	QUAD $0x0c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 12], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d0c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 12], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 13], 1
-	QUAD $0x0d267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 13], 2
-	QUAD $0x0d167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 13], 3
-	QUAD $0x0d167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 13], 4
-	QUAD $0x0d0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 13], 5
-	QUAD $0x0d3e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 13], 6
-	QUAD $0x0d1e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 13], 7
-	QUAD $0x0d067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 13], 8
-	QUAD $0x0d2e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r13 + 13], 9
-	QUAD $0x0d0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 13], 10
-	QUAD $0x0d367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 13], 11
-	QUAD $0x0d3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 13], 12
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x0d1e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rbx + 13], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0d3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 13], 14
-	QUAD $0x000001108ddb0f66                   // pand    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001208ddb0f4466; BYTE $0x00       // pand    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xc9               // por    xmm9, xmm1
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x1e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rbx + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0d167c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdx + 13], 15
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	LONG $0x1e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rbx + 25]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e1e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rbx + 14], 1
-	QUAD $0x0e2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 14], 2
-	QUAD $0x0e1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 14], 3
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x0e2674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 14], 4
-	QUAD $0x0e0e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rcx + 14], 5
-	QUAD $0x0e3e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 14], 6
-	QUAD $0x0e1e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 14], 7
-	QUAD $0x0e0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 14], 8
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0e2e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 14], 9
-	QUAD $0x0e0e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 14], 10
-	QUAD $0x0e3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 14], 11
-	QUAD $0x0e0674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rax + 14], 12
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e2e74203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r13 + 14], 13
-	QUAD $0x0e3e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r15 + 14], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e3e74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r15 + 14], 15
-	QUAD $0x0f1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 15], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0f1e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 15], 2
-	QUAD $0x0f165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 15], 3
-	QUAD $0x0f265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 15], 4
-	QUAD $0x0f0e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rcx + 15], 5
-	QUAD $0x0f3e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 15], 6
-	QUAD $0x0f1e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 15], 7
-	QUAD $0x0f065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 15], 8
-	QUAD $0x0f165c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rdx + 15], 9
-	QUAD $0x0f0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 15], 10
-	QUAD $0x0f365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 15], 11
-	QUAD $0x0f065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 15], 12
-	QUAD $0x0f2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 15], 14
-	QUAD $0x0f3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 15], 15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x00000140bddb0f66                   // pand    xmm7, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x1a2e             // movzx    edx, byte [rsi + r13 + 26]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x54b60f42; WORD $0x1b2e             // movzx    edx, byte [rsi + r13 + 27]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0xde0f4566; BYTE $0xf5               // pmaxub    xmm14, xmm13
-	LONG $0x740f4566; BYTE $0xf3               // pcmpeqb    xmm14, xmm11
-	LONG $0x54b60f42; WORD $0x1c2e             // movzx    edx, byte [rsi + r13 + 28]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 1
-	QUAD $0x02111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x04110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 4
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x110644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 17], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x110e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r9 + 17], 6
-	QUAD $0x111e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 17], 7
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x08111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 8
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	QUAD $0x09111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 9
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x113644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 17], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 13
-	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
-	QUAD $0x112644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 17], 15
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xc8740f66                           // pcmpeqb    xmm1, xmm0
-	LONG $0x54b60f42; WORD $0x1d2e             // movzx    edx, byte [rsi + r13 + 29]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x01120e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 18], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x122664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 18], 2
-	QUAD $0x121664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 18], 3
-	QUAD $0x04120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x120664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 18], 5
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x120e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r9 + 18], 6
-	QUAD $0x121e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 18], 7
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	QUAD $0x08121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 8
-	QUAD $0x00000110249c8b48                   // mov    rbx, qword [rsp + 272]
-	QUAD $0x09121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x123664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 18], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x123e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 18], 11
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x123e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 18], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d121664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 18], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 14
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x122e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 18], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x13266c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r12 + 19], 2
-	QUAD $0x13166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 19], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0413066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 4
-	QUAD $0x05130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 5
-	QUAD $0x06133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 6
-	QUAD $0x131e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 19], 7
-	QUAD $0x13066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 19], 8
-	QUAD $0x09131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 9
-	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
-	QUAD $0x13366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 19], 11
-	QUAD $0x133e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 19], 12
-	QUAD $0x0d13166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 13
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
-	QUAD $0x132e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 19], 15
-	QUAD $0x000001008ddb0f66                   // pand    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x0001b0248cf80f66; BYTE $0x00       // psubb    xmm1, oword [rsp + 432]
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	LONG $0xde0f4566; BYTE $0xec               // pmaxub    xmm13, xmm12
-	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
-	LONG $0x6f0f4466; BYTE $0xdd               // movdqa    xmm11, xmm5
-	LONG $0xde0f4566; BYTE $0xdc               // pmaxub    xmm11, xmm12
-	LONG $0x740f4466; BYTE $0xdd               // pcmpeqb    xmm11, xmm5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x01140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 1
-	QUAD $0x0115065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 1
-	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x19067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 25], 1
-	QUAD $0x011a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 1
-	QUAD $0x011b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 1
-	QUAD $0x1c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 28], 1
-	QUAD $0x011d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 1
-	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
-	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x011f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x02140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 2
-	QUAD $0x0215065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x160654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rax + 22], 2
-	QUAD $0x170644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 23], 2
-	QUAD $0x19067c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rax + 25], 2
-	QUAD $0x021a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 2
-	QUAD $0x021b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 2
-	QUAD $0x1c064c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rax + 28], 2
-	QUAD $0x021d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 2
-	QUAD $0x021e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 2
-	QUAD $0x021f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 2
-	QUAD $0x141654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 20], 3
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x04141654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 20], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05140e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 20], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x06140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 6
-	QUAD $0x141e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 20], 7
-	QUAD $0x140654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 20], 8
-	QUAD $0x09141e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 20], 9
-	QUAD $0x140e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 20], 10
-	QUAD $0x143654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 20], 11
-	QUAD $0x143e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 20], 12
-	QUAD $0x0d143e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 20], 13
-	QUAD $0x142654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 20], 14
-	QUAD $0x142e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r13 + 20], 15
-	QUAD $0x15165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 21], 3
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0415165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 21], 4
-	QUAD $0x05150e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 21], 5
-	QUAD $0x0615065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x151e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 21], 7
-	QUAD $0x15065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 21], 8
-	QUAD $0x09151e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 21], 9
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x15065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 21], 10
-	QUAD $0x15365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 21], 11
-	QUAD $0x153e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 21], 12
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0d153e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 21], 13
-	QUAD $0x15265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 21], 14
-	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4566; BYTE $0xdd               // por    xmm11, xmm13
-	QUAD $0x152e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r13 + 21], 15
-	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	QUAD $0x160e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 22], 3
-	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
-	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
-	QUAD $0x160654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rax + 22], 6
-	QUAD $0x161e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 22], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x163e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdi + 22], 8
-	QUAD $0x161e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 22], 9
-	QUAD $0x160654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r8 + 22], 10
-	QUAD $0x163654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 22], 11
-	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
-	QUAD $0x161654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 22], 13
-	QUAD $0x162654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 22], 14
-	QUAD $0x162e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r13 + 22], 15
-	QUAD $0x170e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r9 + 23], 3
-	QUAD $0x171644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 23], 4
-	QUAD $0x170e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 23], 5
-	QUAD $0x170644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 23], 6
-	QUAD $0x171e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 23], 7
-	QUAD $0x173e44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdi + 23], 8
-	QUAD $0x171e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 23], 9
-	QUAD $0x170644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r8 + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r10 + 23], 13
-	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x0000014095db0f66                   // pand    xmm2, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
-	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
-	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r13 + 23], 15
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	LONG $0x6f0f4566; BYTE $0xd0               // movdqa    xmm10, xmm8
-	LONG $0xde0f4566; BYTE $0xd4               // pmaxub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x190e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 25], 3
-	QUAD $0x19167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 25], 4
-	QUAD $0x190e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 25], 5
-	QUAD $0x19067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 25], 6
-	QUAD $0x191e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 25], 7
-	QUAD $0x193e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 25], 8
-	QUAD $0x191e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 25], 9
-	QUAD $0x19067c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r8 + 25], 10
-	QUAD $0x19367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 25], 11
-	QUAD $0x193e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 25], 12
-	QUAD $0x19167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 25], 13
-	QUAD $0x19267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 25], 14
-	QUAD $0x192e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r13 + 25], 15
-	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4566; BYTE $0xd3               // pand    xmm10, xmm11
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x1a0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 26], 3
-	QUAD $0x041a1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 26], 4
-	QUAD $0x051a0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 26], 5
-	QUAD $0x061a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 6
-	QUAD $0x1a1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 26], 7
-	QUAD $0x081a3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 26], 8
-	QUAD $0x091a1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 26], 9
-	QUAD $0x1a0674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r8 + 26], 10
-	QUAD $0x1a3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 26], 12
-	QUAD $0x1a1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 26], 13
-	QUAD $0x1a2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 26], 14
-	QUAD $0x1a2e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r13 + 26], 15
-	QUAD $0x1b0e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 27], 3
-	QUAD $0x041b167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 27], 4
-	QUAD $0x051b0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 27], 5
-	QUAD $0x061b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 6
-	QUAD $0x1b1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 27], 7
-	QUAD $0x081b3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 27], 8
-	QUAD $0x091b1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 27], 9
-	QUAD $0x1b067c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r8 + 27], 10
-	QUAD $0x1b367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 27], 12
-	QUAD $0x1b167c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r10 + 27], 13
-	QUAD $0x1b267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 27], 14
-	QUAD $0x1b2e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r13 + 27], 15
-	QUAD $0x000001009ddb0f66                   // pand    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x000140249cf80f66; BYTE $0x00       // psubb    xmm3, oword [rsp + 320]
-	LONG $0xd66f0f66                           // movdqa    xmm2, xmm6
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
-	QUAD $0x1c0e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r9 + 28], 3
-	QUAD $0x1c164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 28], 4
-	QUAD $0x1c0e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 28], 5
-	QUAD $0x1c064c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rax + 28], 6
-	QUAD $0x1c1e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 28], 7
-	QUAD $0x1c3e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rdi + 28], 8
-	QUAD $0x1c1e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 28], 9
-	QUAD $0x1c064c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r8 + 28], 10
-	QUAD $0x1c364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 28], 12
-	QUAD $0x1c164c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r10 + 28], 13
-	QUAD $0x1c264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 28], 14
-	QUAD $0x1c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 28], 15
-	QUAD $0x1d0e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r9 + 29], 3
-	QUAD $0x041d1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 29], 4
-	QUAD $0x051d0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 29], 5
-	QUAD $0x061d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 6
-	QUAD $0x1d1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 29], 7
-	QUAD $0x081d3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 29], 8
-	QUAD $0x091d1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 29], 9
-	QUAD $0x1d0644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r8 + 29], 10
-	QUAD $0x1d3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 29], 12
-	QUAD $0x1d1644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r10 + 29], 13
-	QUAD $0x1d2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 29], 14
-	QUAD $0x1d2e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r13 + 29], 15
-	QUAD $0x0000011095db0f66                   // pand    xmm2, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x000001208ddb0f66                   // pand    xmm1, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	QUAD $0x1e0e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 30], 3
-	QUAD $0x1f0e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r9 + 31], 3
-	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
-	QUAD $0x041f166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 31], 4
-	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
-	QUAD $0x051f0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 31], 5
-	QUAD $0x061e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 6
-	QUAD $0x061f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 6
-	QUAD $0x1e1e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 30], 7
-	QUAD $0x1f1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 31], 7
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x081e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 30], 8
-	QUAD $0x081f3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 31], 8
-	QUAD $0x091e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 9
-	QUAD $0x091f1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 31], 9
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1e0664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r8 + 30], 10
-	QUAD $0x1f066c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r8 + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 11
-	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 30], 13
-	QUAD $0x1f166c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r10 + 31], 13
-	QUAD $0x1e2664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r12 + 30], 14
-	QUAD $0x1f266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 31], 14
-	QUAD $0x1e2e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 30], 15
-	QUAD $0x0000013095db0f66                   // pand    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x000001409ddb0f66                   // pand    xmm3, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xde0f4166; BYTE $0xc4               // pmaxub    xmm0, xmm12
-	LONG $0xc4740f66                           // pcmpeqb    xmm0, xmm4
-	QUAD $0x1f2e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 31], 15
-	QUAD $0x0000015085db0f66                   // pand    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xc3eb0f66                           // por    xmm0, xmm3
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xcd740f66                           // pcmpeqb    xmm1, xmm5
-	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
-	LONG $0xc8eb0f66                           // por    xmm1, xmm0
-	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0x680f4466; BYTE $0xd1               // punpckhbw    xmm10, xmm1
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc2               // punpcklwd    xmm0, xmm10
-	LONG $0x690f4166; BYTE $0xe2               // punpckhwd    xmm4, xmm10
-	QUAD $0x00000150248c8b48                   // mov    rcx, qword [rsp + 336]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB10_195
-	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
-	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000018824b48b48                   // mov    rsi, qword [rsp + 392]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	JNE  LBB10_67
-	JMP  LBB10_132
-
-LBB10_197:
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0xf8e08348                     // and    rax, -8
-	WORD $0x8949; BYTE $0xc3             // mov    r11, rax
-	LONG $0x06e3c149                     // shl    r11, 6
-	WORD $0x0149; BYTE $0xf3             // add    r11, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x86048d49                     // lea    rax, [r14 + 4*rax]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	QUAD $0x00018824846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 392]
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	QUAD $0x0001d024847f0f66; BYTE $0x00 // movdqa    oword [rsp + 464], xmm0
-	WORD $0x3145; BYTE $0xd2             // xor    r10d, r10d
-
-LBB10_198:
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	LONG $0x06e1c149                           // shl    r9, 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	LONG $0x0cb70f42; BYTE $0x0e               // movzx    ecx, word [rsi + r9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb70f42; WORD $0x020e             // movzx    ecx, word [rsi + r9 + 2]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x447f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm0
-	LONG $0x4cb70f42; WORD $0x040e             // movzx    ecx, word [rsi + r9 + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb70f42; WORD $0x060e             // movzx    ecx, word [rsi + r9 + 6]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x4cb70f42; WORD $0x080e             // movzx    ecx, word [rsi + r9 + 8]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb70f42; WORD $0x0a0e             // movzx    ecx, word [rsi + r9 + 10]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb70f42; WORD $0x0c0e             // movzx    ecx, word [rsi + r9 + 12]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb70f42; WORD $0x0e0e             // movzx    ecx, word [rsi + r9 + 14]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb70f42; WORD $0x100e             // movzx    ecx, word [rsi + r9 + 16]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x4cb70f42; WORD $0x120e             // movzx    ecx, word [rsi + r9 + 18]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb70f42; WORD $0x140e             // movzx    ecx, word [rsi + r9 + 20]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb70f42; WORD $0x160e             // movzx    ecx, word [rsi + r9 + 22]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb70f42; WORD $0x180e             // movzx    ecx, word [rsi + r9 + 24]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb70f42; WORD $0x1a0e             // movzx    ecx, word [rsi + r9 + 26]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x44b70f42; WORD $0x1c0e             // movzx    eax, word [rsi + r9 + 28]
-	LONG $0x54b70f42; WORD $0x1e0e             // movzx    edx, word [rsi + r9 + 30]
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 192
-	LONG $0x00cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 256
-	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
-	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
-	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
-	LONG $0xc40f4466; WORD $0x0e1c; BYTE $0x01 // pinsrw    xmm11, word [rsi + rcx], 1
-	LONG $0xc40f4666; WORD $0x061c; BYTE $0x02 // pinsrw    xmm11, word [rsi + r8], 2
-	LONG $0xc40f4466; WORD $0x3e1c; BYTE $0x03 // pinsrw    xmm11, word [rsi + rdi], 3
-	LONG $0xc40f4466; WORD $0x1e1c; BYTE $0x04 // pinsrw    xmm11, word [rsi + rbx], 4
-	LONG $0xc40f4666; WORD $0x3e1c; BYTE $0x05 // pinsrw    xmm11, word [rsi + r15], 5
-	LONG $0xc40f4666; WORD $0x261c; BYTE $0x06 // pinsrw    xmm11, word [rsi + r12], 6
-	LONG $0xc40f4666; WORD $0x2e1c; BYTE $0x07 // pinsrw    xmm11, word [rsi + r13], 7
-	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
-	QUAD $0x0001d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 464]
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00016024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 352], xmm7
-	LONG $0x7c6f0f66; WORD $0x1024             // movdqa    xmm7, oword [rsp + 16]
-	LONG $0x7cc40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 2], 1
-	QUAD $0x0202067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 2], 2
-	LONG $0x7cc40f66; WORD $0x023e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 2], 3
-	LONG $0x7cc40f66; WORD $0x021e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 2], 4
-	QUAD $0x05023e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 2], 5
-	QUAD $0x0602267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 2], 6
-	QUAD $0x07022e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 2], 7
-	LONG $0x6f0f4466; BYTE $0xd8               // movdqa    xmm11, xmm0
-	QUAD $0x01040e4cc40f4466                   // pinsrw    xmm9, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4666                   // pinsrw    xmm9, word [rsi + r8 + 4], 2
-	QUAD $0x03043e4cc40f4466                   // pinsrw    xmm9, word [rsi + rdi + 4], 3
-	QUAD $0x04041e4cc40f4466                   // pinsrw    xmm9, word [rsi + rbx + 4], 4
-	QUAD $0x05043e4cc40f4666                   // pinsrw    xmm9, word [rsi + r15 + 4], 5
-	QUAD $0x0604264cc40f4666                   // pinsrw    xmm9, word [rsi + r12 + 4], 6
-	LONG $0x650f4466; BYTE $0xdf               // pcmpgtw    xmm11, xmm7
-	QUAD $0x07042e4cc40f4666                   // pinsrw    xmm9, word [rsi + r13 + 4], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xf9               // pcmpgtw    xmm7, xmm9
-	LONG $0x7c7f0f66; WORD $0x5024             // movdqa    oword [rsp + 80], xmm7
-	QUAD $0x01060e54c40f4466                   // pinsrw    xmm10, word [rsi + rcx + 6], 1
-	QUAD $0x02060654c40f4666                   // pinsrw    xmm10, word [rsi + r8 + 6], 2
-	QUAD $0x03063e54c40f4466                   // pinsrw    xmm10, word [rsi + rdi + 6], 3
-	QUAD $0x04061e54c40f4466                   // pinsrw    xmm10, word [rsi + rbx + 6], 4
-	QUAD $0x05063e54c40f4666                   // pinsrw    xmm10, word [rsi + r15 + 6], 5
-	QUAD $0x06062654c40f4666                   // pinsrw    xmm10, word [rsi + r12 + 6], 6
-	QUAD $0x07062e54c40f4666                   // pinsrw    xmm10, word [rsi + r13 + 6], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	QUAD $0x01080e64c40f4466                   // pinsrw    xmm12, word [rsi + rcx + 8], 1
-	QUAD $0x02080664c40f4666                   // pinsrw    xmm12, word [rsi + r8 + 8], 2
-	QUAD $0x03083e64c40f4466                   // pinsrw    xmm12, word [rsi + rdi + 8], 3
-	QUAD $0x04081e64c40f4466                   // pinsrw    xmm12, word [rsi + rbx + 8], 4
-	QUAD $0x05083e64c40f4666                   // pinsrw    xmm12, word [rsi + r15 + 8], 5
-	QUAD $0x06082664c40f4666                   // pinsrw    xmm12, word [rsi + r12 + 8], 6
-	QUAD $0x07082e64c40f4666                   // pinsrw    xmm12, word [rsi + r13 + 8], 7
-	LONG $0x650f4166; BYTE $0xfa               // pcmpgtw    xmm7, xmm10
-	LONG $0x7c7f0f66; WORD $0x7024             // movdqa    oword [rsp + 112], xmm7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfc               // pcmpgtw    xmm7, xmm12
-	LONG $0x7c7f0f66; WORD $0x2024             // movdqa    oword [rsp + 32], xmm7
-	QUAD $0x010a0e6cc40f4466                   // pinsrw    xmm13, word [rsi + rcx + 10], 1
-	QUAD $0x020a066cc40f4666                   // pinsrw    xmm13, word [rsi + r8 + 10], 2
-	QUAD $0x030a3e6cc40f4466                   // pinsrw    xmm13, word [rsi + rdi + 10], 3
-	QUAD $0x040a1e6cc40f4466                   // pinsrw    xmm13, word [rsi + rbx + 10], 4
-	QUAD $0x050a3e6cc40f4666                   // pinsrw    xmm13, word [rsi + r15 + 10], 5
-	QUAD $0x060a266cc40f4666                   // pinsrw    xmm13, word [rsi + r12 + 10], 6
-	QUAD $0x070a2e6cc40f4666                   // pinsrw    xmm13, word [rsi + r13 + 10], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	QUAD $0x010c0e74c40f4466                   // pinsrw    xmm14, word [rsi + rcx + 12], 1
-	QUAD $0x020c0674c40f4666                   // pinsrw    xmm14, word [rsi + r8 + 12], 2
-	QUAD $0x030c3e74c40f4466                   // pinsrw    xmm14, word [rsi + rdi + 12], 3
-	QUAD $0x040c1e74c40f4466                   // pinsrw    xmm14, word [rsi + rbx + 12], 4
-	QUAD $0x050c3e74c40f4666                   // pinsrw    xmm14, word [rsi + r15 + 12], 5
-	QUAD $0x060c2674c40f4666                   // pinsrw    xmm14, word [rsi + r12 + 12], 6
-	LONG $0x650f4166; BYTE $0xfd               // pcmpgtw    xmm7, xmm13
-	QUAD $0x00008024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 128], xmm7
-	QUAD $0x070c2e74c40f4666                   // pinsrw    xmm14, word [rsi + r13 + 12], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfe               // pcmpgtw    xmm7, xmm14
-	LONG $0x6f0f4466; BYTE $0xf7               // movdqa    xmm14, xmm7
-	QUAD $0x010e0e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 14], 1
-	QUAD $0x020e0644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 14], 2
-	QUAD $0x030e3e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 14], 3
-	QUAD $0x040e1e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 14], 4
-	QUAD $0x050e3e44c40f4666                   // pinsrw    xmm8, word [rsi + r15 + 14], 5
-	QUAD $0x060e2644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 14], 6
-	QUAD $0x070e2e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 14], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 16], 1
-	QUAD $0x0210064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 2
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 16], 3
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 16], 4
-	QUAD $0x05103e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 16], 5
-	QUAD $0x0610264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 6
-	QUAD $0x07102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 7
-	LONG $0x650f4166; BYTE $0xf8               // pcmpgtw    xmm7, xmm8
-	LONG $0x7c7f0f66; WORD $0x6024             // movdqa    oword [rsp + 96], xmm7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
-	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
-	LONG $0x54c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 18], 1
-	QUAD $0x02120654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 18], 2
-	LONG $0x54c40f66; WORD $0x123e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 18], 3
-	LONG $0x54c40f66; WORD $0x121e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 18], 4
-	QUAD $0x05123e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 18], 5
-	QUAD $0x06122654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 18], 6
-	QUAD $0x07122e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 18], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x5cc40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 20], 1
-	QUAD $0x0214065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 20], 2
-	LONG $0x5cc40f66; WORD $0x143e; BYTE $0x03 // pinsrw    xmm3, word [rsi + rdi + 20], 3
-	LONG $0x5cc40f66; WORD $0x141e; BYTE $0x04 // pinsrw    xmm3, word [rsi + rbx + 20], 4
-	QUAD $0x05143e5cc40f4266                   // pinsrw    xmm3, word [rsi + r15 + 20], 5
-	QUAD $0x0614265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 20], 6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	QUAD $0x07142e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 20], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0x4c7f0f66; WORD $0x3024             // movdqa    oword [rsp + 48], xmm1
-	LONG $0x64c40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 22], 1
-	QUAD $0x02160664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 22], 2
-	LONG $0x64c40f66; WORD $0x163e; BYTE $0x03 // pinsrw    xmm4, word [rsi + rdi + 22], 3
-	LONG $0x64c40f66; WORD $0x161e; BYTE $0x04 // pinsrw    xmm4, word [rsi + rbx + 22], 4
-	QUAD $0x05163e64c40f4266                   // pinsrw    xmm4, word [rsi + r15 + 22], 5
-	QUAD $0x06162664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 22], 6
-	QUAD $0x07162e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 22], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x6cc40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm5, word [rsi + rcx + 24], 1
-	QUAD $0x0218066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 24], 2
-	LONG $0x6cc40f66; WORD $0x183e; BYTE $0x03 // pinsrw    xmm5, word [rsi + rdi + 24], 3
-	LONG $0x6cc40f66; WORD $0x181e; BYTE $0x04 // pinsrw    xmm5, word [rsi + rbx + 24], 4
-	QUAD $0x05183e6cc40f4266                   // pinsrw    xmm5, word [rsi + r15 + 24], 5
-	QUAD $0x0618266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 24], 6
-	QUAD $0x07182e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 24], 7
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcd650f66                           // pcmpgtw    xmm1, xmm5
-	LONG $0x4c7f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm1
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 26], 1
-	QUAD $0x021a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 2
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x03 // pinsrw    xmm6, word [rsi + rdi + 26], 3
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x04 // pinsrw    xmm6, word [rsi + rbx + 26], 4
-	QUAD $0x051a3e74c40f4266                   // pinsrw    xmm6, word [rsi + r15 + 26], 5
-	QUAD $0x061a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 6
-	QUAD $0x071a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	QUAD $0x011c0e7cc40f4466                   // pinsrw    xmm15, word [rsi + rcx + 28], 1
-	QUAD $0x021c067cc40f4666                   // pinsrw    xmm15, word [rsi + r8 + 28], 2
-	QUAD $0x031c3e7cc40f4466                   // pinsrw    xmm15, word [rsi + rdi + 28], 3
-	QUAD $0x041c1e7cc40f4466                   // pinsrw    xmm15, word [rsi + rbx + 28], 4
-	QUAD $0x051c3e7cc40f4666                   // pinsrw    xmm15, word [rsi + r15 + 28], 5
-	QUAD $0x061c267cc40f4666                   // pinsrw    xmm15, word [rsi + r12 + 28], 6
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	QUAD $0x071c2e7cc40f4666                   // pinsrw    xmm15, word [rsi + r13 + 28], 7
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x4cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 30], 1
-	QUAD $0x021e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 30], 2
-	LONG $0x4cc40f66; WORD $0x1e3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 30], 3
-	LONG $0x4cc40f66; WORD $0x1e1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 30], 4
-	QUAD $0x051e3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 30], 5
-	QUAD $0x061e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 30], 6
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0x650f4166; BYTE $0xd7               // pcmpgtw    xmm2, xmm15
-	QUAD $0x0000f024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm2
-	QUAD $0x071e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 30], 7
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd1650f66                           // pcmpgtw    xmm2, xmm1
-	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
-	LONG $0x44b70f42; WORD $0x200e             // movzx    eax, word [rsi + r9 + 32]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 32], 1
-	QUAD $0x0220064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 32], 2
-	LONG $0x4cc40f66; WORD $0x203e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 32], 3
-	LONG $0x4cc40f66; WORD $0x201e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 32], 4
-	QUAD $0x05203e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 32], 5
-	QUAD $0x0620264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 32], 6
-	QUAD $0x07202e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 32], 7
-	LONG $0x44b70f42; WORD $0x220e             // movzx    eax, word [rsi + r9 + 34]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 34], 3
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 34], 4
-	QUAD $0x05223e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 34], 5
-	QUAD $0x06222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 6
-	QUAD $0x07222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 7
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x0000e0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm3
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000120248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm1
-	LONG $0x44b70f42; WORD $0x240e             // movzx    eax, word [rsi + r9 + 36]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 36], 1
-	QUAD $0x0224064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 36], 2
-	LONG $0x4cc40f66; WORD $0x243e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 36], 3
-	LONG $0x4cc40f66; WORD $0x241e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 36], 4
-	QUAD $0x05243e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 36], 5
-	QUAD $0x0624264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 36], 6
-	LONG $0x44b70f42; WORD $0x260e             // movzx    eax, word [rsi + r9 + 38]
-	QUAD $0x07242e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 36], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 38], 1
-	QUAD $0x02260654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 38], 2
-	LONG $0x54c40f66; WORD $0x263e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 38], 3
-	LONG $0x54c40f66; WORD $0x261e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 38], 4
-	QUAD $0x05263e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 38], 5
-	QUAD $0x06262654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 38], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
-	QUAD $0x07262e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 38], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000110248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm1
-	LONG $0x44b70f42; WORD $0x280e             // movzx    eax, word [rsi + r9 + 40]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 40], 1
-	QUAD $0x0228064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 40], 2
-	LONG $0x4cc40f66; WORD $0x283e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 40], 3
-	LONG $0x4cc40f66; WORD $0x281e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 40], 4
-	QUAD $0x05283e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 40], 5
-	QUAD $0x0628264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 40], 6
-	QUAD $0x07282e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 40], 7
-	LONG $0x44b70f42; WORD $0x2a0e             // movzx    eax, word [rsi + r9 + 42]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 42], 1
-	QUAD $0x022a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 42], 2
-	LONG $0x54c40f66; WORD $0x2a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 42], 3
-	LONG $0x54c40f66; WORD $0x2a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 42], 4
-	QUAD $0x052a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 42], 5
-	QUAD $0x062a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 42], 6
-	QUAD $0x072a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 42], 7
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000150248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 336], xmm1
-	LONG $0x44b70f42; WORD $0x2c0e             // movzx    eax, word [rsi + r9 + 44]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 44], 3
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 44], 4
-	QUAD $0x052c3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 44], 5
-	QUAD $0x062c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 6
-	LONG $0x44b70f42; WORD $0x2e0e             // movzx    eax, word [rsi + r9 + 46]
-	QUAD $0x072c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 46], 1
-	QUAD $0x022e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 46], 2
-	LONG $0x54c40f66; WORD $0x2e3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 46], 3
-	LONG $0x54c40f66; WORD $0x2e1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 46], 4
-	QUAD $0x052e3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 46], 5
-	QUAD $0x062e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 46], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000140249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm3
-	QUAD $0x072e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 46], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm1
-	LONG $0x44b70f42; WORD $0x300e             // movzx    eax, word [rsi + r9 + 48]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 48], 1
-	QUAD $0x0230064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 48], 2
-	LONG $0x4cc40f66; WORD $0x303e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 48], 3
-	LONG $0x4cc40f66; WORD $0x301e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 48], 4
-	QUAD $0x05303e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 48], 5
-	QUAD $0x0630264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 48], 6
-	QUAD $0x07302e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 48], 7
-	LONG $0x44b70f42; WORD $0x320e             // movzx    eax, word [rsi + r9 + 50]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 50], 1
-	QUAD $0x02320654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 50], 2
-	LONG $0x54c40f66; WORD $0x323e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 50], 3
-	LONG $0x54c40f66; WORD $0x321e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 50], 4
-	QUAD $0x05323e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 50], 5
-	QUAD $0x06322654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 50], 6
-	QUAD $0x07322e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 50], 7
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	LONG $0x650f4466; BYTE $0xe9               // pcmpgtw    xmm13, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000170248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm1
-	LONG $0x44b70f42; WORD $0x340e             // movzx    eax, word [rsi + r9 + 52]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 52], 1
-	QUAD $0x0234064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 2
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 52], 3
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 52], 4
-	QUAD $0x05343e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 52], 5
-	QUAD $0x0634264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 6
-	LONG $0x44b70f42; WORD $0x360e             // movzx    eax, word [rsi + r9 + 54]
-	QUAD $0x07342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 54], 1
-	QUAD $0x02360654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 54], 2
-	LONG $0x54c40f66; WORD $0x363e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 54], 3
-	LONG $0x54c40f66; WORD $0x361e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 54], 4
-	QUAD $0x05363e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 54], 5
-	QUAD $0x06362654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 54], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x0001a0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 416], xmm3
-	QUAD $0x07362e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 54], 7
-	LONG $0x6f0f4466; BYTE $0xf8               // movdqa    xmm15, xmm0
-	LONG $0x650f4466; BYTE $0xfa               // pcmpgtw    xmm15, xmm2
-	LONG $0x44b70f42; WORD $0x380e             // movzx    eax, word [rsi + r9 + 56]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 56], 3
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 56], 4
-	QUAD $0x05383e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 56], 5
-	QUAD $0x0638264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 6
-	QUAD $0x07382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 7
-	LONG $0x44b70f42; WORD $0x3a0e             // movzx    eax, word [rsi + r9 + 58]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 58], 3
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 58], 4
-	QUAD $0x053a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 58], 5
-	QUAD $0x063a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 6
-	QUAD $0x073a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 7
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	LONG $0x650f4466; BYTE $0xc9               // pcmpgtw    xmm9, xmm1
-	LONG $0x6f0f4466; BYTE $0xe0               // movdqa    xmm12, xmm0
-	LONG $0x650f4466; BYTE $0xe2               // pcmpgtw    xmm12, xmm2
-	LONG $0x44b70f42; WORD $0x3c0e             // movzx    eax, word [rsi + r9 + 60]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 60], 1
-	QUAD $0x023c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 60], 2
-	LONG $0x54c40f66; WORD $0x3c3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 60], 3
-	LONG $0x54c40f66; WORD $0x3c1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 60], 4
-	QUAD $0x053c3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 60], 5
-	QUAD $0x063c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 60], 6
-	LONG $0x44b70f42; WORD $0x3e0e             // movzx    eax, word [rsi + r9 + 62]
-	QUAD $0x073c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 60], 7
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x7cc40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 62], 1
-	QUAD $0x023e067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 62], 2
-	LONG $0x7cc40f66; WORD $0x3e3e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 62], 3
-	LONG $0x7cc40f66; WORD $0x3e1e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 62], 4
-	QUAD $0x053e3e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 62], 5
-	QUAD $0x063e267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 62], 6
-	LONG $0xe86f0f66                           // movdqa    xmm5, xmm0
-	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
-	QUAD $0x073e2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 62], 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xf7650f66                           // pcmpgtw    xmm6, xmm7
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	QUAD $0x000000808d6f0f66                   // movdqa    xmm1, oword 128[rbp] /* [rip + .LCPI10_8] */
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x546f0f66; WORD $0x5024             // movdqa    xmm2, oword [rsp + 80]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xd2760f66                           // pcmpeqd    xmm2, xmm2
-	QUAD $0x00016024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 352]
-	LONG $0xc2ef0f66                           // pxor    xmm0, xmm2
-	LONG $0x760f4566; BYTE $0xc0               // pcmpeqd    xmm8, xmm8
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
-	LONG $0x546f0f66; WORD $0x7024             // movdqa    xmm2, oword [rsp + 112]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI10_10] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4466; WORD $0xdc10             // pblendvb    xmm11, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
-	LONG $0x546f0f66; WORD $0x2024             // movdqa    xmm2, oword [rsp + 32]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xdf               // por    xmm11, xmm7
-	QUAD $0x00008024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 128]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000c0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xfa               // movdqa    xmm7, xmm10
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x630f4566; BYTE $0xf6               // packsswb    xmm14, xmm14
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x546f0f66; WORD $0x6024             // movdqa    xmm2, oword [rsp + 96]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4466; WORD $0xf410             // pblendvb    xmm14, xmm4, xmm0
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xdb               // movdqa    xmm11, xmm3
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	QUAD $0x0001b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 432]
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
-	LONG $0x446f0f66; WORD $0x3024             // movdqa    xmm0, oword [rsp + 48]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI10_10] */
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x446f0f66; WORD $0x1024             // movdqa    xmm0, oword [rsp + 16]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x0000f024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 240]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x00009024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 144]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00012024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 288]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	QUAD $0x0000e024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 224]
-	QUAD $0x0000016085ef0f66                   // pxor    xmm0, oword 352[rbp] /* [rip + .LCPI10_22] */
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0150249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 336]
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	QUAD $0x00014024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 320]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0170249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 368]
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	QUAD $0x00000080956f0f66                   // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI10_8] */
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xef0f4466; BYTE $0xeb               // pxor    xmm13, xmm3
-	LONG $0x630f4566; BYTE $0xed               // packsswb    xmm13, xmm13
-	QUAD $0x0001a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 416]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x630f4566; BYTE $0xff               // packsswb    xmm15, xmm15
-	LONG $0xf80f4166; BYTE $0xd5               // psubb    xmm2, xmm13
-	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0x380f4466; WORD $0xc410             // pblendvb    xmm8, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
-	LONG $0x630f4566; BYTE $0xe4               // packsswb    xmm12, xmm12
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x6c0f4166; BYTE $0xc2               // punpcklqdq    xmm0, xmm10
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI10_15] */
-	LONG $0x00380f66; BYTE $0xcb               // pshufb    xmm1, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc1610f66                           // punpcklwd    xmm0, xmm1
-	LONG $0xfa600f66                           // punpcklbw    xmm7, xmm2
-	LONG $0x600f4566; BYTE $0xf2               // punpcklbw    xmm14, xmm10
-	LONG $0x610f4466; BYTE $0xf7               // punpcklwd    xmm14, xmm7
-	LONG $0x7f0f47f3; WORD $0x9634             // movdqu    oword [r14 + 4*r10], xmm14
-	LONG $0x7f0f43f3; WORD $0x9644; BYTE $0x10 // movdqu    oword [r14 + 4*r10 + 16], xmm0
-	LONG $0x08c28349                           // add    r10, 8
-	QUAD $0x0000019024943b4c                   // cmp    r10, qword [rsp + 400]
-	JNE  LBB10_198
-	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
-	QUAD $0x0000019024bc3b4c                   // cmp    r15, qword [rsp + 400]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JNE  LBB10_101
-	JMP  LBB10_136
-
-LBB10_200:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	LONG $0xeb280f45                           // movaps    xmm13, xmm11
-	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI10_0] */
-
-LBB10_201:
-	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
-	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
-	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
-	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
-	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
-	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
-	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
-	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
-	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
-	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
-	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
-	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
-	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
-	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
-	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
-	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
-	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
-	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
-	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
-	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
-	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
-	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
-	LONG $0xe3c20f44; BYTE $0x02                       // cmpleps    xmm12, xmm3
-	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
-	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
-	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
-	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
-	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
-	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
-	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
-	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
-	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
-	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
-	LONG $0x02fcc20f                                   // cmpleps    xmm7, xmm4
-	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
-	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
-	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
-	LONG $0x02f5c20f                                   // cmpleps    xmm6, xmm5
-	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e0c20f                                   // cmpleps    xmm4, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
-	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
-	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
-	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
-	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
-	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
-	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
-	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
-	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c1c20f                                   // cmpleps    xmm0, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0xc8c20f41; BYTE $0x02                       // cmpleps    xmm1, xmm8
-	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
-	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
-	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
-	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
-	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
-	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
-	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x02ebc20f                                   // cmpleps    xmm5, xmm3
-	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
-	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
-	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
-	LONG $0xc2c20f45; BYTE $0x02                       // cmpleps    xmm8, xmm10
-	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
-	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
-	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
-	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
-	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
-	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
-	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
-	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
-	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
-	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
-	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
-	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
-	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xecc20f41; BYTE $0x02                       // cmpleps    xmm5, xmm12
-	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cbc20f                                   // cmpleps    xmm1, xmm3
-	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
-	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
-	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
-	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
-	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
-	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
-	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
-	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
-	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
-	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
-	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
-	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
-	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
-	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
-	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x02f7c20f                                   // cmpleps    xmm6, xmm7
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
-	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
-	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
-	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
-	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
-	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
-	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
-	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x02f2c20f                                   // cmpleps    xmm6, xmm2
-	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
-	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
-	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
-	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
-	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
-	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
-	LONG $0x02d3c20f                                   // cmpleps    xmm2, xmm3
-	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
-	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
-	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
-	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
-	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
-	LONG $0xeceb0f66                                   // por    xmm5, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e7c20f                                   // cmpleps    xmm4, xmm7
-	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
-	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x02e8c20f                                   // cmpleps    xmm5, xmm0
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cec20f                                   // cmpleps    xmm1, xmm6
-	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
-	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
-	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
-	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
-	LONG $0xcceb0f66                                   // por    xmm1, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e3c20f                                   // cmpleps    xmm4, xmm3
-	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
-	LONG $0x02d8c20f                                   // cmpleps    xmm3, xmm0
-	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
-	LONG $0xdceb0f66                                   // por    xmm3, xmm4
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c5c20f                                   // cmpleps    xmm0, xmm5
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
-	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
-	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI10_7] */
-	LONG $0x7f0f45f3; WORD $0x8e04                     // movdqu    oword [r14 + 4*rcx], xmm8
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB10_201
-	WORD $0x394d; BYTE $0xc3                           // cmp    r11, r8
-	JNE  LBB10_124
-	JMP  LBB10_140
-
-DATA LCDATA8<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA8<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA8<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA8<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA8<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA8<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA8<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA8<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA8<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA8<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA8<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA8<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA8<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA8<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA8<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA8<>(SB), 8, $368
-
-TEXT ·_comparison_greater_equal_scalar_arr_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA8<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB11_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB11_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB11_99
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB11_114
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB11_201
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_15:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_15
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_21
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_19:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_19
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_21:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_137
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_24
-
-LBB11_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB11_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB11_157
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB11_172
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB11_201
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_47:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_47
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_53
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB11_51:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x60245c02                           // add    bl, byte [rsp + 96]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x18244c02                           // add    cl, byte [rsp + 24]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB11_51
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB11_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_195
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_197
-
-LBB11_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB11_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB11_201
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_6:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_6
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_8:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_9
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	JB   LBB11_82
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_85
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB11_85
-
-LBB11_82:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000010024848948 // mov    qword [rsp + 256], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_88:
-	QUAD $0x0000010024942b4c // sub    r10, qword [rsp + 256]
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB11_89:
-	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_89
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB11_91
-
-LBB11_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB11_139
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB11_201
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_31:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_31
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_37
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_35:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_35
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_37:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_155
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_40
-
-LBB11_56:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_58:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_58
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_60:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_61
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	JB   LBB11_63
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_66
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB11_66
-
-LBB11_63:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000000c024848948 // mov    qword [rsp + 192], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_69:
-	QUAD $0x000000c024942b4c // sub    r10, qword [rsp + 192]
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB11_70:
-	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_70
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB11_72
-
-LBB11_139:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_143
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_141:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_141
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_143:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_147
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_145:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x24149d0f                           // setge    byte [rsp]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_145
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_147:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_153
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_150
-
-LBB11_99:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_103
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_101:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_101
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_103:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_107
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_105:
-	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
-	LONG $0x723b4466; BYTE $0x3e         // cmp    r14w, word [rdx + 62]
-	LONG $0x2414930f                     // setae    byte [rsp]
-	LONG $0x723b4466; BYTE $0x3c         // cmp    r14w, word [rdx + 60]
-	LONG $0x2454930f; BYTE $0x10         // setae    byte [rsp + 16]
-	LONG $0x723b4466; BYTE $0x3a         // cmp    r14w, word [rdx + 58]
-	LONG $0x2454930f; BYTE $0x08         // setae    byte [rsp + 8]
-	LONG $0x723b4466; BYTE $0x38         // cmp    r14w, word [rdx + 56]
-	LONG $0x2454930f; BYTE $0x18         // setae    byte [rsp + 24]
-	LONG $0x723b4466; BYTE $0x36         // cmp    r14w, word [rdx + 54]
-	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34         // cmp    r14w, word [rdx + 52]
-	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32         // cmp    r14w, word [rdx + 50]
-	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e         // cmp    r14w, word [rdx + 46]
-	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c         // cmp    r14w, word [rdx + 44]
-	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a         // cmp    r14w, word [rdx + 42]
-	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x28         // cmp    r14w, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x26         // cmp    r14w, word [rdx + 38]
-	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x24         // cmp    r14w, word [rdx + 36]
-	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x22         // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x1e         // cmp    r14w, word [rdx + 30]
-	LONG $0xd0930f41                     // setae    r8b
-	LONG $0x723b4466; BYTE $0x1c         // cmp    r14w, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x1a         // cmp    r14w, word [rdx + 26]
-	QUAD $0x000000b02494930f             // setae    byte [rsp + 176]
-	LONG $0x723b4466; BYTE $0x18         // cmp    r14w, word [rdx + 24]
-	LONG $0xd3930f41                     // setae    r11b
-	LONG $0x723b4466; BYTE $0x16         // cmp    r14w, word [rdx + 22]
-	LONG $0xd2930f41                     // setae    r10b
-	LONG $0x723b4466; BYTE $0x14         // cmp    r14w, word [rdx + 20]
-	LONG $0xd1930f41                     // setae    r9b
-	LONG $0x723b4466; BYTE $0x12         // cmp    r14w, word [rdx + 18]
-	LONG $0xd7930f40                     // setae    dil
-	LONG $0x723b4466; BYTE $0x0e         // cmp    r14w, word [rdx + 14]
-	WORD $0x930f; BYTE $0xd0             // setae    al
-	LONG $0x723b4466; BYTE $0x0c         // cmp    r14w, word [rdx + 12]
-	WORD $0x930f; BYTE $0xd3             // setae    bl
-	LONG $0x723b4466; BYTE $0x0a         // cmp    r14w, word [rdx + 10]
-	LONG $0xd6930f40                     // setae    sil
-	LONG $0x723b4466; BYTE $0x08         // cmp    r14w, word [rdx + 8]
-	WORD $0x930f; BYTE $0xd1             // setae    cl
-	LONG $0x723b4466; BYTE $0x06         // cmp    r14w, word [rdx + 6]
-	LONG $0xd5930f41                     // setae    r13b
-	LONG $0x723b4466; BYTE $0x04         // cmp    r14w, word [rdx + 4]
-	LONG $0xd4930f41                     // setae    r12b
-	LONG $0x323b4466                     // cmp    r14w, word [rdx]
-	QUAD $0x000000e02494930f             // setae    byte [rsp + 224]
-	LONG $0x723b4466; BYTE $0x02         // cmp    r14w, word [rdx + 2]
-	LONG $0xd7930f41                     // setae    r15b
-	LONG $0x723b4466; BYTE $0x10         // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x20         // cmp    r14w, word [rdx + 32]
-	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x30         // cmp    r14w, word [rdx + 48]
-	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
-	WORD $0x0045; BYTE $0xff             // add    r15b, r15b
-	QUAD $0x000000e024bc0244             // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                     // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc             // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78         // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                     // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5             // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9             // or    cl, r13b
-	LONG $0x05e6c040                     // shl    sil, 5
-	WORD $0x0840; BYTE $0xce             // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x8841; BYTE $0x07             // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000008024bc0240             // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9             // or    r9b, dil
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0844; BYTE $0xd8             // or    al, r11b
-	LONG $0x244cb60f; BYTE $0x70         // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0             // or    r8b, al
-	LONG $0x01478845                     // mov    byte [r15 + 1], r8b
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                         // add    al, al
-	LONG $0x60244402                     // add    al, byte [rsp + 96]
-	WORD $0xc189                         // mov    ecx, eax
-	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48         // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc808                         // or    al, cl
-	LONG $0x02478841                     // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                         // add    al, al
-	LONG $0x20244402                     // add    al, byte [rsp + 32]
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38         // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10         // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x2404b60f                     // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc808                         // or    al, cl
-	LONG $0x03478841                     // mov    byte [r15 + 3], al
-	LONG $0x40c28348                     // add    rdx, 64
-	LONG $0x04c78349                     // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB11_105
-	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c             // mov    r10, qword [rsp + 192]
-
-LBB11_107:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_112
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_110
-
-LBB11_114:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_118
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_116:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_116
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_118:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_119
-	LONG $0x08fa8349         // cmp    r10, 8
-	LONG $0x24348944         // mov    dword [rsp], r14d
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001002494894c // mov    qword [rsp + 256], r10
-	JB   LBB11_121
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_124
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB11_124
-
-LBB11_121:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd0     // mov    rax, rdx
-	WORD $0x894d; BYTE $0xfc     // mov    r12, r15
-
-LBB11_127:
-	LONG $0x24542b4c; BYTE $0x20 // sub    r10, qword [rsp + 32]
-	QUAD $0x000000c02494894c     // mov    qword [rsp + 192], r10
-
-LBB11_128:
-	LONG $0x703b4466; BYTE $0x3e               // cmp    r14w, word [rax + 62]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x703b4466; BYTE $0x3c               // cmp    r14w, word [rax + 60]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x703b4466; BYTE $0x3a               // cmp    r14w, word [rax + 58]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x703b4466; BYTE $0x38               // cmp    r14w, word [rax + 56]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x703b4466; BYTE $0x36               // cmp    r14w, word [rax + 54]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x703b4466; BYTE $0x34               // cmp    r14w, word [rax + 52]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x703b4466; BYTE $0x32               // cmp    r14w, word [rax + 50]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x703b4466; BYTE $0x2e               // cmp    r14w, word [rax + 46]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x703b4466; BYTE $0x2c               // cmp    r14w, word [rax + 44]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x703b4466; BYTE $0x2a               // cmp    r14w, word [rax + 42]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x703b4466; BYTE $0x28               // cmp    r14w, word [rax + 40]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x703b4466; BYTE $0x26               // cmp    r14w, word [rax + 38]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x703b4466; BYTE $0x24               // cmp    r14w, word [rax + 36]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x703b4466; BYTE $0x22               // cmp    r14w, word [rax + 34]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x703b4466; BYTE $0x1e               // cmp    r14w, word [rax + 30]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x703b4466; BYTE $0x1c               // cmp    r14w, word [rax + 28]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x703b4466; BYTE $0x1a               // cmp    r14w, word [rax + 26]
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x703b4466; BYTE $0x18               // cmp    r14w, word [rax + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x16413b66                           // cmp    ax, word [rcx + 22]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x14413b66                           // cmp    ax, word [rcx + 20]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x12413b66                           // cmp    ax, word [rcx + 18]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0e413b66                           // cmp    ax, word [rcx + 14]
-	LONG $0xd69d0f40                           // setge    sil
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0c413b66                           // cmp    ax, word [rcx + 12]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0a413b66                           // cmp    ax, word [rcx + 10]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x08413b66                           // cmp    ax, word [rcx + 8]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x06413b66                           // cmp    ax, word [rcx + 6]
-	LONG $0xd79d0f40                           // setge    dil
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x04413b66                           // cmp    ax, word [rcx + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	WORD $0x3b66; BYTE $0x01                   // cmp    ax, word [rcx]
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x02413b66                           // cmp    ax, word [rcx + 2]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24248b44                           // mov    r12d, dword [rsp]
-	LONG $0x613b4466; BYTE $0x10               // cmp    r12w, word [rcx + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
-	LONG $0x20593b66                           // cmp    bx, word [rcx + 32]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
-	LONG $0x30593b66                           // cmp    bx, word [rcx + 48]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x24348841                           // mov    byte [r12], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	LONG $0x24348b44                           // mov    r14d, dword [rsp]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xd2                   // or    r10b, dl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x24548845; BYTE $0x01               // mov    byte [r12 + 1], r10b
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x244c8841; BYTE $0x02               // mov    byte [r12 + 2], cl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x244c8841; BYTE $0x03               // mov    byte [r12 + 3], cl
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_128
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	JMP  LBB11_130
-
-LBB11_157:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_161
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_159:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_159
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_161:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_165
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_163:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x24149d0f                           // setge    byte [rsp]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_163
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_165:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_170
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_168
-
-LBB11_172:
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_176
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_174:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_174
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_176:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_177
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB11_179
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_182
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB11_182
-
-LBB11_179:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-
-LBB11_185:
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB11_186:
-	LONG $0x2434894c                           // mov    qword [rsp], r14
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000008024840244                   // add    r8b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x24348b4c                           // mov    r14, qword [rsp]
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB11_186
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	JMP  LBB11_188
-
-LBB11_9:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_91:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_97
-
-LBB11_61:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB11_78
-
-LBB11_119:
-	WORD $0x894d; BYTE $0xfc // mov    r12, r15
-	WORD $0x8948; BYTE $0xd0 // mov    rax, rdx
-
-LBB11_130:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_135
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_133
-
-LBB11_177:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB11_188:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_193
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_191
-
-LBB11_155:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_156:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_156
-
-LBB11_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_199
-
-LBB11_153:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_154:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_154
-
-LBB11_150:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_152
-
-LBB11_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_95:
-	LONG $0x32343a44               // cmp    r14b, byte [rdx + rsi]
-	WORD $0x9d0f; BYTE $0xd0       // setge    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x32743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd19d0f41               // setge    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB11_95
-	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
-
-LBB11_97:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB11_80
-
-LBB11_75:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB11_76:
-	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
-	LONG $0x0a343a46               // cmp    r14b, byte [rdx + r9]
-	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
-	LONG $0xffd68040               // adc    sil, -1
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03efc148               // shr    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	WORD $0x3044; BYTE $0xce       // xor    sil, r9b
-	WORD $0x2040; BYTE $0xf3       // and    bl, sil
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x02743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rax + 1]
-	LONG $0x02488d4c               // lea    r9, [rax + 2]
-	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
-	LONG $0xffd68040               // adc    sil, -1
-	WORD $0x3040; BYTE $0xde       // xor    sil, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2040; BYTE $0xf0       // and    al, sil
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JNE  LBB11_76
-	WORD $0x014c; BYTE $0xca       // add    rdx, r9
-
-LBB11_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB11_80:
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_137:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_138:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_138
-
-LBB11_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_199
-
-LBB11_195:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_196:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_196
-
-LBB11_197:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
-	JMP  LBB11_199
-
-LBB11_112:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_113:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_113
-
-LBB11_110:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-
-LBB11_199:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB11_200
-
-LBB11_170:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_171:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_171
-
-LBB11_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-
-LBB11_152:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB11_200:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB11_201:
-	MOVQ 304(SP), SP
-	RET
-
-LBB11_135:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_136:
-	LONG $0x303b4466             // cmp    r14w, word [rax]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x703b4466; BYTE $0x02 // cmp    r14w, word [rax + 2]
-	LONG $0x04408d48             // lea    rax, [rax + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	WORD $0x3041; BYTE $0xda     // xor    r10b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xd2     // and    dl, r10b
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB11_136
-
-LBB11_133:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	LONG $0x303b4466         // cmp    r14w, word [rax]
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_193:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_194:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	WORD $0x3040; BYTE $0xc6     // xor    sil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_194
-
-LBB11_191:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_85:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000011824848948             // mov    qword [rsp + 280], rax
-	QUAD $0x000001002494894c             // mov    qword [rsp + 256], r10
-	LONG $0x97048d4b                     // lea    rax, [r15 + 4*r10]
-	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000090248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 144], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
-
-LBB11_86:
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x20cb8348                           // or    rbx, 32
-	LONG $0x245c8948; BYTE $0x08               // mov    qword [rsp + 8], rbx
-	LONG $0x40cf8348                           // or    rdi, 64
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	LONG $0x60ce8348                           // or    rsi, 96
-	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
-	LONG $0xe0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
-	LONG $0x20cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 288
-	LONG $0x246c894c; BYTE $0x50               // mov    qword [rsp + 80], r13
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
-	LONG $0x60cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 352
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
-	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x01 // pinsrb    xmm4, byte [rdx + rbx], 1
-	LONG $0x203a0f66; WORD $0x3a24; BYTE $0x02 // pinsrb    xmm4, byte [rdx + rdi], 2
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x03 // pinsrb    xmm4, byte [rdx + rbx], 3
-	QUAD $0x040a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r9], 4
-	QUAD $0x051224203a0f4266                   // pinsrb    xmm4, byte [rdx + r10], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x203a0f66; WORD $0x0224; BYTE $0x06 // pinsrb    xmm4, byte [rdx + rax], 6
-	QUAD $0x073224203a0f4266                   // pinsrb    xmm4, byte [rdx + r14], 7
-	QUAD $0x083a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r15], 8
-	QUAD $0x092a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r13], 9
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
-	QUAD $0x0a2224203a0f4266                   // pinsrb    xmm4, byte [rdx + r12], 10
-	QUAD $0x0b1a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r11], 11
-	QUAD $0x0c0224203a0f4266                   // pinsrb    xmm4, byte [rdx + r8], 12
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	LONG $0x203a0f66; WORD $0x0224; BYTE $0x0d // pinsrb    xmm4, byte [rdx + rax], 13
-	LONG $0x203a0f66; WORD $0x0a24; BYTE $0x0e // pinsrb    xmm4, byte [rdx + rcx], 14
-	LONG $0x203a0f66; WORD $0x3224; BYTE $0x0f // pinsrb    xmm4, byte [rdx + rsi], 15
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x01225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 1], 1
-	QUAD $0x02013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 2
-	QUAD $0x03011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 3
-	QUAD $0x010a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r9 + 1], 4
-	QUAD $0x01125c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r10 + 1], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 6
-	QUAD $0x01325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 1], 7
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x08013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 8
-	QUAD $0x012a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r13 + 1], 9
-	QUAD $0x013a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 1], 10
-	QUAD $0x011a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r11 + 1], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x01025c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r8 + 1], 12
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x012a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r13 + 1], 13
-	QUAD $0x0e010a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 1], 14
-	QUAD $0x000090248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 144]
-	LONG $0xe1640f66                           // pcmpgtb    xmm4, xmm1
-	QUAD $0x0f01325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 1], 15
-	LONG $0xd9640f66                           // pcmpgtb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0102026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0202026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 2
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x021a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 2], 3
-	QUAD $0x020a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r9 + 2], 4
-	QUAD $0x02126c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r10 + 2], 5
-	QUAD $0x06021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 6
-	LONG $0x2474894c; BYTE $0x68               // mov    qword [rsp + 104], r14
-	QUAD $0x02326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 2], 7
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	QUAD $0x08023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 8
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x02026c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r8 + 2], 9
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0a023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 10
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	QUAD $0x023a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 2], 11
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
-	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
-	QUAD $0x022a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r13 + 2], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x022a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 2], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f02026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0103027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0203027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 2
-	QUAD $0x031a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 3], 3
-	QUAD $0x030a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 3], 4
-	QUAD $0x03127c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r10 + 3], 5
-	QUAD $0x06031a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 3], 6
-	QUAD $0x03327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 3], 7
-	QUAD $0x03227c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r12 + 3], 8
-	QUAD $0x03027c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r8 + 3], 9
-	QUAD $0x0a033a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 3], 10
-	QUAD $0x033a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r15 + 3], 11
-	QUAD $0x0c030a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 3], 12
-	QUAD $0x0d03327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 3], 13
-	QUAD $0x032a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r13 + 3], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f03027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x04024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 4], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x04024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 4], 2
-	QUAD $0x041a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 4], 3
-	QUAD $0x040a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 4], 4
-	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
-	QUAD $0x04124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 4], 5
-	QUAD $0x041a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rbx + 4], 6
-	QUAD $0x04324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 4], 7
-	QUAD $0x04224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 4], 8
-	QUAD $0x04024c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r8 + 4], 9
-	QUAD $0x043a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rdi + 4], 10
-	QUAD $0x043a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r15 + 4], 11
-	QUAD $0x040a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 4], 12
-	QUAD $0x04324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 4], 13
-	QUAD $0x042a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r13 + 4], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x04024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 4], 15
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0xe9640f66                           // pcmpgtb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9640f66                           // pcmpgtb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x050254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 5], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 2
-	QUAD $0x051a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 5], 3
-	QUAD $0x050a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 5], 4
-	QUAD $0x051254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 5], 5
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 7
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x050a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 5], 9
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0a053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 10
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x051a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r11 + 5], 11
-	QUAD $0x0c050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 12
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x051254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r10 + 5], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	QUAD $0x052a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 5], 15
-	QUAD $0x060244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r8 + 6], 1
-	QUAD $0x063a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rdi + 6], 2
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x062a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 6], 4
-	QUAD $0x062244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r12 + 6], 5
-	QUAD $0x063244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r14 + 6], 6
-	QUAD $0x061a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 6], 7
-	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
-	QUAD $0x060a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r9 + 6], 9
-	QUAD $0x063244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 6], 10
-	QUAD $0x061a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r11 + 6], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x060a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rcx + 6], 12
-	QUAD $0x061244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r10 + 6], 13
-	QUAD $0x060244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 6], 14
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
-	QUAD $0x070274203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rdx + r8 + 7], 1
-	QUAD $0x073a74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rdi + 7], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070274203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rdx + rax + 7], 3
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x072a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 7], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x072274203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r12 + 7], 5
-	QUAD $0x073274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 7], 6
-	QUAD $0x071a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 7], 7
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x072274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r12 + 7], 8
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x072a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r13 + 7], 9
-	QUAD $0x073274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rsi + 7], 10
-	QUAD $0x073a74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r15 + 7], 11
-	QUAD $0x070a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 7], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x071a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rbx + 7], 13
-	QUAD $0x071274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r10 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
-	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 15
-	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	QUAD $0x080244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r8 + 8], 1
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x083244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r14 + 8], 2
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x03083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 3
-	QUAD $0x080a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 8], 4
-	QUAD $0x05083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 5
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 6
-	QUAD $0x081a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r11 + 8], 7
-	QUAD $0x082244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 8], 8
-	QUAD $0x082a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r13 + 8], 9
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x080244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 8], 10
-	QUAD $0x083a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r15 + 8], 11
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0c083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d081a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0e083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 14
-	QUAD $0x0f080a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x091a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 9], 1
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x09325c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r14 + 9], 2
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x091a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 9], 3
-	QUAD $0x090a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r9 + 9], 4
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	QUAD $0x09125c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r10 + 9], 5
-	QUAD $0x093a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 9], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x09325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 9], 7
-	QUAD $0x09225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 9], 8
-	QUAD $0x092a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r13 + 9], 9
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	QUAD $0x09025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 9], 10
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x093a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 9], 11
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x09025c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r8 + 9], 12
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x093a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r15 + 9], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x093a5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rdi + 9], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rdi + 9], 15
-	QUAD $0x0a1a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rbx + 10], 1
-	QUAD $0x0a0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 10], 2
-	QUAD $0x0a1a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 10], 3
-	QUAD $0x0a0a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 10], 4
-	QUAD $0x0a1264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r10 + 10], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a1a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rbx + 10], 6
-	QUAD $0x0a3264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 10], 7
-	QUAD $0x0a2264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r12 + 10], 8
-	QUAD $0x0a2a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r13 + 10], 9
-	QUAD $0x0a3264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 10], 10
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rcx + 10], 11
-	QUAD $0x0a0264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r8 + 10], 12
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r15 + 10], 13
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r15 + 10], 14
-	QUAD $0x0a3a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rdi + 10], 15
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b1a6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rbx + 11], 1
-	QUAD $0x0b026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0b026c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rax + 11], 3
-	QUAD $0x0b0a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r9 + 11], 4
-	QUAD $0x0b126c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r10 + 11], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0b126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 11], 6
-	QUAD $0x0b326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 11], 7
-	QUAD $0x0b226c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r12 + 11], 8
-	QUAD $0x0b2a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r13 + 11], 9
-	QUAD $0x0b326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 11], 10
-	QUAD $0x0b0a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rcx + 11], 11
-	QUAD $0x0b026c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r8 + 11], 12
-	QUAD $0x0b1a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r11 + 11], 13
-	QUAD $0x0b3a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r15 + 11], 14
-	QUAD $0x0b3a6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rdi + 11], 15
-	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
-	QUAD $0x0c1a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rbx + 12], 1
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r15 + 12], 2
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	QUAD $0x0c024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 12], 3
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0c0a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 12], 4
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0c0a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 12], 5
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0c124c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r10 + 12], 6
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0c324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 12], 7
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x0c224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 12], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0c2a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r13 + 12], 9
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0c2a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r13 + 12], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0c0a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rcx + 12], 11
-	QUAD $0x0c024c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r8 + 12], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0c324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 12], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x010d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 1
-	QUAD $0x0d3a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r15 + 13], 2
-	QUAD $0x0d1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 13], 3
-	QUAD $0x040d3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 13], 4
-	QUAD $0x0d0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 13], 5
-	QUAD $0x060d1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 13], 6
-	QUAD $0x0d1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 13], 7
-	QUAD $0x0d3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 13], 8
-	QUAD $0x0d2274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r12 + 13], 9
-	QUAD $0x0d2a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r13 + 13], 10
-	QUAD $0x0b0d0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 13], 11
-	QUAD $0x0d0274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r8 + 13], 12
-	QUAD $0x0d0d3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 14], 1
-	QUAD $0x0e3a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r15 + 14], 2
-	QUAD $0x0e1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 14], 3
-	QUAD $0x0e3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 14], 4
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	QUAD $0x0e0a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r9 + 14], 5
-	QUAD $0x0e1a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rbx + 14], 6
-	QUAD $0x0e127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 14], 7
-	QUAD $0x0e327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 14], 8
-	QUAD $0x0e227c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r12 + 14], 9
-	QUAD $0x0e2a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r13 + 14], 10
-	QUAD $0x0e0a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rcx + 14], 11
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0e027c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r8 + 14], 12
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0e327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0e3a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r15 + 14], 14
-	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 14], 15
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0f0274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 15], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 15], 2
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x030f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 15], 3
-	QUAD $0x0f1a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r11 + 15], 4
-	QUAD $0x0f0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 15], 5
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x060f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 6
-	QUAD $0x0f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 15], 7
-	QUAD $0x0f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 15], 8
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f1a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 15], 9
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0a0f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 10
-	QUAD $0x0f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 15], 11
-	QUAD $0x0f2274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 15], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0f2274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 15], 13
-	QUAD $0x0f3a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r15 + 15], 14
-	QUAD $0x0f0f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 15], 15
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000a024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm6
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x100254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r8 + 16], 1
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x103a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 16], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x100a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rcx + 16], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x103a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 16], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x100254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r8 + 16], 5
-	QUAD $0x100a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r9 + 16], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x100a54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r9 + 16], 7
-	QUAD $0x101254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 16], 8
-	QUAD $0x101a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 16], 9
-	QUAD $0x101a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 16], 10
-	QUAD $0x102a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 16], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x103a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 16], 12
-	QUAD $0x102254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 16], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x100a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rcx + 16], 14
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x103254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 16], 15
-	QUAD $0x01110264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 17], 1
-	QUAD $0x113264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r14 + 17], 2
-	LONG $0x24748b4c; BYTE $0x18               // mov    r14, qword [rsp + 24]
-	QUAD $0x113264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 17], 3
-	QUAD $0x04113a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 17], 4
-	QUAD $0x110264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 17], 5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x112264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r12 + 17], 6
-	QUAD $0x110a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r9 + 17], 7
-	QUAD $0x111264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 17], 8
-	QUAD $0x111a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 17], 9
-	QUAD $0x0a111a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 17], 10
-	QUAD $0x112a64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r13 + 17], 11
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x113a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 17], 12
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x110264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r8 + 17], 13
-	QUAD $0x0e110a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 17], 14
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	QUAD $0x0f113264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 17], 15
-	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
-	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
-	LONG $0x640f4166; BYTE $0xe6               // pcmpgtb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0112327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 1
-	QUAD $0x0113326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 1
-	QUAD $0x0114325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 1
-	QUAD $0x01153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 1
-	QUAD $0x0116324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 1
-	QUAD $0x173244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rsi + 23], 1
-	QUAD $0x183264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 24], 1
-	QUAD $0x19326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 25], 1
-	QUAD $0x011a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x1b325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 27], 1
-	QUAD $0x1c327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 28], 1
-	QUAD $0x1d324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 29], 1
-	QUAD $0x1e3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 30], 1
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x011f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
-	QUAD $0x0213026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 2
-	QUAD $0x0214025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 2
-	QUAD $0x02150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 2
-	QUAD $0x0216024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 2
-	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
-	QUAD $0x180264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 24], 2
-	QUAD $0x19026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 25], 2
-	QUAD $0x021a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 2
-	QUAD $0x1b025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 27], 2
-	QUAD $0x1c027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 28], 2
-	QUAD $0x1d024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 29], 2
-	QUAD $0x1e0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 30], 2
-	QUAD $0x021f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x12327c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r14 + 18], 3
-	QUAD $0x04123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 5
-	QUAD $0x12227c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r12 + 18], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x12127c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r10 + 18], 7
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x12327c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r14 + 18], 8
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0912027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 9
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0a12327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 10
-	QUAD $0x122a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r13 + 18], 11
-	QUAD $0x0c121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 12
-	QUAD $0x12027c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r8 + 18], 13
-	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
-	QUAD $0x123a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r15 + 18], 15
-	QUAD $0x131a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 19], 3
-	QUAD $0x04133a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 19], 4
-	QUAD $0x05130a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 19], 5
-	QUAD $0x13226c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r12 + 19], 6
-	QUAD $0x13126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 19], 7
-	QUAD $0x13326c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r14 + 19], 8
-	QUAD $0x0913026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 9
-	QUAD $0x0a13326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 10
-	QUAD $0x132a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r13 + 19], 11
-	QUAD $0x0c131a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 19], 12
-	QUAD $0x13026c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r8 + 19], 13
-	QUAD $0x130a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 19], 14
-	QUAD $0x133a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r15 + 19], 15
-	QUAD $0x141a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 20], 3
-	QUAD $0x04143a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 20], 4
-	QUAD $0x05140a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 20], 5
-	QUAD $0x14225c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r12 + 20], 6
-	QUAD $0x14125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 20], 7
-	QUAD $0x14325c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r14 + 20], 8
-	QUAD $0x0914025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 9
-	QUAD $0x0a14325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 10
-	QUAD $0x142a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r13 + 20], 11
-	QUAD $0x0c141a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 20], 12
-	QUAD $0x14025c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r8 + 20], 13
-	QUAD $0x140a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 20], 14
-	LONG $0x640f4166; BYTE $0xfe               // pcmpgtb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x143a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r15 + 20], 15
-	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x151a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 21], 3
-	QUAD $0x04153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x152254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 21], 6
-	QUAD $0x151254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 21], 7
-	QUAD $0x153254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r14 + 21], 8
-	QUAD $0x09150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 9
-	QUAD $0x0a153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 10
-	QUAD $0x152a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r13 + 21], 11
-	QUAD $0x0c151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 12
-	QUAD $0x150254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r8 + 21], 13
-	QUAD $0x150a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 21], 14
-	QUAD $0x153a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 21], 15
-	QUAD $0x161a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 22], 3
-	QUAD $0x04163a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 22], 4
-	QUAD $0x05160a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x16224c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r12 + 22], 6
-	QUAD $0x16124c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r10 + 22], 7
-	QUAD $0x16324c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r14 + 22], 8
-	QUAD $0x0916024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 9
-	QUAD $0x0a16324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x162a4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r13 + 22], 11
-	QUAD $0x0c161a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 22], 12
-	QUAD $0x16024c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r8 + 22], 13
-	QUAD $0x160a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 22], 14
-	QUAD $0x163a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r15 + 22], 15
-	QUAD $0x171a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 23], 3
-	QUAD $0x173a44203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rdi + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x172244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r12 + 23], 6
-	QUAD $0x171244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 23], 7
-	QUAD $0x173244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r14 + 23], 8
-	QUAD $0x170244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rax + 23], 9
-	QUAD $0x173244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 23], 10
-	QUAD $0x172a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r13 + 23], 11
-	QUAD $0x171a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rbx + 23], 12
-	QUAD $0x170244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r8 + 23], 13
-	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
-	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r15 + 23], 15
-	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 24], 3
-	QUAD $0x183a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 24], 4
-	QUAD $0x180a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 24], 5
-	QUAD $0x182264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r12 + 24], 6
-	QUAD $0x181264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r10 + 24], 7
-	QUAD $0x183264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 24], 8
-	QUAD $0x180264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 24], 9
-	QUAD $0x183264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 24], 10
-	QUAD $0x182a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r13 + 24], 11
-	QUAD $0x181a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rbx + 24], 12
-	QUAD $0x180264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r8 + 24], 13
-	QUAD $0x180a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 24], 14
-	QUAD $0x183a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
-	QUAD $0x191a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 25], 3
-	QUAD $0x193a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 25], 4
-	QUAD $0x190a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 25], 5
-	QUAD $0x19226c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r12 + 25], 6
-	QUAD $0x19126c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r10 + 25], 7
-	QUAD $0x19326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 25], 8
-	QUAD $0x19026c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rax + 25], 9
-	QUAD $0x19326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 25], 10
-	QUAD $0x192a6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r13 + 25], 11
-	QUAD $0x191a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rbx + 25], 12
-	QUAD $0x19026c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r8 + 25], 13
-	QUAD $0x190a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 25], 14
-	QUAD $0x193a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r15 + 25], 15
-	QUAD $0x1a1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 26], 3
-	QUAD $0x041a3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 26], 4
-	QUAD $0x051a0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 26], 5
-	QUAD $0x1a2244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x1a1244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r10 + 26], 7
-	QUAD $0x1a3244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r14 + 26], 8
-	QUAD $0x091a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0a1a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 10
-	QUAD $0x1a2a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r13 + 26], 11
-	QUAD $0x0c1a1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 26], 12
-	QUAD $0x1a0244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r8 + 26], 13
-	QUAD $0x1a0a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r9 + 26], 14
-	QUAD $0x1a3a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x1b1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 27], 3
-	QUAD $0x1b3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 27], 4
-	QUAD $0x1b0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 27], 5
-	QUAD $0x1b225c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r12 + 27], 6
-	QUAD $0x1b125c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r10 + 27], 7
-	QUAD $0x1b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 27], 8
-	QUAD $0x1b025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 27], 9
-	QUAD $0x1b325c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rsi + 27], 10
-	QUAD $0x1b2a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r13 + 27], 11
-	QUAD $0x1b1a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rbx + 27], 12
-	QUAD $0x1b025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 27], 13
-	QUAD $0x1b0a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 27], 14
-	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 27], 15
-	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 28], 3
-	QUAD $0x1d1a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 29], 3
-	QUAD $0x1e1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 30], 3
-	QUAD $0x1f1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 31], 3
-	QUAD $0x1c3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 28], 4
-	QUAD $0x1d3a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 29], 4
-	QUAD $0x1e3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 30], 4
-	QUAD $0x041f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 31], 4
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	QUAD $0x1c0a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 28], 5
-	QUAD $0x1d0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 29], 5
-	QUAD $0x1e0a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 31], 5
-	QUAD $0x1c227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 28], 6
-	QUAD $0x1d224c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r12 + 29], 6
-	QUAD $0x1e2254203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r12 + 30], 6
-	QUAD $0x1f2274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 31], 6
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x1c127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 28], 7
-	QUAD $0x1d124c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r10 + 29], 7
-	QUAD $0x1e1254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r10 + 30], 7
-	QUAD $0x1f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 31], 7
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x1c327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 28], 8
-	QUAD $0x1d324c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r14 + 29], 8
-	QUAD $0x1e3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 30], 8
-	QUAD $0x1f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 31], 8
-	QUAD $0x1c027c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rax + 28], 9
-	QUAD $0x1d024c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rax + 29], 9
-	QUAD $0x1e0254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 30], 9
-	QUAD $0x091f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 9
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c327c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rsi + 28], 10
-	QUAD $0x1d324c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rsi + 29], 10
-	QUAD $0x1e3254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rsi + 30], 10
-	QUAD $0x0a1f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 10
-	QUAD $0x1c2a7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r13 + 28], 11
-	QUAD $0x1d2a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r13 + 29], 11
-	QUAD $0x1e2a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 30], 11
-	QUAD $0x1f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 31], 11
-	QUAD $0x1c1a7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rbx + 28], 12
-	QUAD $0x1d1a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rbx + 29], 12
-	QUAD $0x1e1a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 31], 12
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c027c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r8 + 28], 13
-	QUAD $0x1d024c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r8 + 29], 13
-	QUAD $0x1e0254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r8 + 30], 13
-	QUAD $0x1f0274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r8 + 31], 13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 28], 14
-	QUAD $0x1d0a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 29], 14
-	QUAD $0x1e0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 30], 14
-	QUAD $0x1f0a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 31], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x1c027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 28], 15
-	QUAD $0x1d024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 29], 15
-	QUAD $0x1e0254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rax + 30], 15
-	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x0f1f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm3
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8f4c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8f14             // movdqu    oword [r15 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000100248c3b48                   // cmp    rcx, qword [rsp + 256]
-	JNE  LBB11_86
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000010024943b4c                   // cmp    r10, qword [rsp + 256]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB11_88
-	JMP  LBB11_91
-
-LBB11_66:
-	LONG $0xf0e28349                       // and    r10, -16
-	WORD $0x894c; BYTE $0xd0               // mov    rax, r10
-	LONG $0x05e0c148                       // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0               // add    rax, rdx
-	QUAD $0x0000011824848948               // mov    qword [rsp + 280], rax
-	QUAD $0x000000c02494894c               // mov    qword [rsp + 192], r10
-	LONG $0x97048d4b                       // lea    rax, [r15 + 4*r10]
-	QUAD $0x0000012024848948               // mov    qword [rsp + 288], rax
-	LONG $0xc6b60f41                       // movzx    eax, r14b
-	LONG $0xc86e0f66                       // movd    xmm1, eax
-	LONG $0xc0ef0f66                       // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8           // pshufb    xmm1, xmm0
-	QUAD $0x000100248c7f0f66; BYTE $0x00   // movdqa    oword [rsp + 256], xmm1
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0x247c894c; BYTE $0x78           // mov    qword [rsp + 120], r15
-	QUAD $0x010024846f0f4466; WORD $0x0000 // movdqa    xmm8, oword [rsp + 256]
-
-LBB11_67:
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	LONG $0x40ce8349                           // or    r14, 64
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0xa0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 160
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
-	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
-	LONG $0x24748948; BYTE $0x70               // mov    qword [rsp + 112], rsi
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x247c8948; BYTE $0x08               // mov    qword [rsp + 8], rdi
-	QUAD $0x012a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 1
-	QUAD $0x023234203a0f4266                   // pinsrb    xmm6, byte [rdx + r14], 2
-	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
-	LONG $0x203a0f66; WORD $0x1a34; BYTE $0x03 // pinsrb    xmm6, byte [rdx + rbx], 3
-	QUAD $0x043a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r15], 4
-	LONG $0x203a0f66; WORD $0x0a34; BYTE $0x05 // pinsrb    xmm6, byte [rdx + rcx], 5
-	QUAD $0x062234203a0f4266                   // pinsrb    xmm6, byte [rdx + r12], 6
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	QUAD $0x070234203a0f4266                   // pinsrb    xmm6, byte [rdx + r8], 7
-	LONG $0x245c894c; BYTE $0x48               // mov    qword [rsp + 72], r11
-	QUAD $0x081a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r11], 8
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	LONG $0x244c894c; BYTE $0x60               // mov    qword [rsp + 96], r9
-	QUAD $0x090a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r9], 9
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0a1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 11
-	LONG $0x203a0f66; WORD $0x3234; BYTE $0x0c // pinsrb    xmm6, byte [rdx + rsi], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x0234; BYTE $0x0d // pinsrb    xmm6, byte [rdx + rax], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 14
-	LONG $0x203a0f66; WORD $0x3a34; BYTE $0x0f // pinsrb    xmm6, byte [rdx + rdi], 15
-	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x013a7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rdi + 1], 1
-	QUAD $0x01327c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r14 + 1], 2
-	QUAD $0x011a7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rdx + rbx + 1], 3
-	QUAD $0x013a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r15 + 1], 4
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x010a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 1], 5
-	QUAD $0x01227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 1], 6
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x01027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 1], 7
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x012a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r13 + 1], 8
-	QUAD $0x011a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 1], 9
-	QUAD $0x010a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 1], 10
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	QUAD $0x01127c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r10 + 1], 11
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x01327c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rsi + 1], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x01227c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r12 + 1], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x01027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 1], 14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 1], 15
-	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
-	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
-	QUAD $0x000001008d6f0f66                   // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xdb0f4466; BYTE $0xf9               // pand    xmm15, xmm1
-	LONG $0xf80f4466; BYTE $0xfe               // psubb    xmm15, xmm6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x01023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 1
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	QUAD $0x02326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 2], 2
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x02326c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r14 + 2], 3
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x04021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 4
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0502026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 5
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x023a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 2], 6
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0702326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 2], 7
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x022a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r13 + 2], 8
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x023a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 2], 9
-	QUAD $0x020a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 2], 10
-	QUAD $0x0b020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 11
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x02226c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r12 + 2], 13
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x020a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 2], 14
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x02226c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r12 + 2], 15
-	QUAD $0x01033a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 3], 1
-	QUAD $0x030264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 3], 2
-	QUAD $0x033264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 3], 3
-	QUAD $0x031264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 3], 4
-	QUAD $0x05030264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 3], 5
-	QUAD $0x06031a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 3], 6
-	QUAD $0x07033264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 3], 7
-	QUAD $0x031a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 3], 8
-	QUAD $0x033a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 3], 9
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x031a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 3], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x030264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r8 + 3], 11
-	QUAD $0x0c030a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 3], 12
-	QUAD $0x032a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 3], 13
-	QUAD $0x030a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 3], 14
-	QUAD $0x032264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r12 + 3], 15
-	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
-	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
-	QUAD $0x00000110b56f0f66                   // movdqa    xmm6, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xeedb0f66                           // pand    xmm5, xmm6
-	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
-	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
-	QUAD $0x00000120b56f0f66                   // movdqa    xmm6, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xe6db0f66                           // pand    xmm4, xmm6
-	LONG $0xe5eb0f66                           // por    xmm4, xmm5
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	LONG $0x0a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rcx + 17]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
-	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x01043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 1
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x042a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r13 + 4], 2
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x04225c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r12 + 4], 3
-	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
-	QUAD $0x04125c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r10 + 4], 4
-	QUAD $0x0504025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x07040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 7
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 8
-	QUAD $0x043a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 4], 9
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x041a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 4], 10
-	QUAD $0x04025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 4], 11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0d040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x041a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r11 + 4], 15
-	QUAD $0x05327c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r14 + 5], 1
-	QUAD $0x052a7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r13 + 5], 2
-	QUAD $0x05227c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r12 + 5], 3
-	QUAD $0x05127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 5], 4
-	QUAD $0x0505027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 5], 5
-	QUAD $0x06051a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 5], 6
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x07050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 7
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 8
-	QUAD $0x053a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 5], 9
-	QUAD $0x0a05327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 5], 10
-	QUAD $0x05027c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r8 + 5], 11
-	QUAD $0x050a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 5], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0d050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 13
-	QUAD $0x0e053a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 5], 14
-	QUAD $0x051a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r11 + 5], 15
-	QUAD $0x063254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r14 + 6], 1
-	QUAD $0x062a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r13 + 6], 2
-	QUAD $0x062254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r12 + 6], 3
-	QUAD $0x061254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 6], 4
-	QUAD $0x05060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 5
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	QUAD $0x06061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 6
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000a0249c8948                   // mov    qword [rsp + 160], rbx
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x07060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 7
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x08061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 8
-	QUAD $0x063a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 6], 9
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x0a063254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 6], 10
-	QUAD $0x060254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r8 + 6], 11
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x060a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 6], 12
-	QUAD $0x0d060a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 6], 13
-	QUAD $0x0e063a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 6], 14
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x063a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 6], 15
-	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
-	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
-	QUAD $0x00000130b56f0f66                   // movdqa    xmm6, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdedb0f66                           // pand    xmm3, xmm6
-	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
-	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
-	QUAD $0x00000140b56f0f66                   // movdqa    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xfedb0f66                           // pand    xmm7, xmm6
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xd6db0f66                           // pand    xmm2, xmm6
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0xd4eb0f66                           // por    xmm2, xmm4
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x073a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rdi + 7], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x07024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 7], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x07024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 7], 3
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x07024c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r8 + 7], 4
-	QUAD $0x07124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 7], 5
-	QUAD $0x072a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 7], 6
-	QUAD $0x07324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 7], 7
-	QUAD $0x071a4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rbx + 7], 8
-	QUAD $0x071a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 7], 9
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x071a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 7], 10
-	QUAD $0x07224c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r12 + 7], 11
-	QUAD $0x070a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r9 + 7], 12
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x072a4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r13 + 7], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x07224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 7], 14
-	QUAD $0x073a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r15 + 7], 15
-	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
-	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
-	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xdb0f4466; BYTE $0xcf               // pand    xmm9, xmm7
-	LONG $0xeb0f4466; BYTE $0xca               // por    xmm9, xmm2
-	QUAD $0x00d0248c7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 208], xmm9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
-	QUAD $0x01083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 1
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 2
-	QUAD $0x03080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 3
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 8], 4
-	QUAD $0x081254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 8], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x06080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 6
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x08081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 8
-	QUAD $0x09080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 9
-	QUAD $0x081a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 8], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 11
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x081a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r11 + 8], 12
-	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
-	QUAD $0x082a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 8], 13
-	QUAD $0x082254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 8], 14
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x082a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 8], 15
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	QUAD $0x093254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r14 + 9], 1
-	QUAD $0x093a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 9], 2
-	QUAD $0x093a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r15 + 9], 3
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x090254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 9], 4
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x091254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r10 + 9], 5
-	QUAD $0x090254203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rax + 9], 6
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 9], 7
-	QUAD $0x091a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rbx + 9], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 9], 10
-	QUAD $0x090a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rcx + 9], 11
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x091a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r11 + 9], 12
-	QUAD $0x093254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 9], 13
-	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
-	QUAD $0x092a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 9], 15
-	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x00010095db0f4466; BYTE $0x00       // pand    xmm10, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xf80f4466; BYTE $0xd2               // psubb    xmm10, xmm2
-	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0a1a64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r11 + 10], 1
-	QUAD $0x0a3a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rdi + 10], 2
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0a3264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r14 + 10], 3
-	QUAD $0x0a3a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r15 + 10], 4
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0a3264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r14 + 10], 5
-	QUAD $0x0a0264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r8 + 10], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0a3a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r15 + 10], 7
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0a2a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r13 + 10], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a3a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rdi + 10], 9
-	QUAD $0x0a0264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 10], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a0264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r8 + 10], 11
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 10], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 10], 13
-	QUAD $0x0a2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 10], 14
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 10], 15
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 11], 1
-	QUAD $0x0b125c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r10 + 11], 2
-	QUAD $0x0b325c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rsi + 11], 3
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0b325c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rsi + 11], 4
-	QUAD $0x0b325c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r14 + 11], 5
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rbx + 11], 6
-	QUAD $0x0b3a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r15 + 11], 7
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r13 + 11], 8
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rdi + 11], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
-	QUAD $0x0b025c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r8 + 11], 11
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 11], 12
-	QUAD $0x0b025c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rax + 11], 13
-	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rcx + 11], 15
-	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
-	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
-	QUAD $0x000110a5db0f4466; BYTE $0x00       // pand    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
-	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
-	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xdc               // por    xmm11, xmm12
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r11 + 12], 1
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	QUAD $0x0c126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 12], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r15 + 12], 5
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 12], 6
-	QUAD $0x0c326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 12], 7
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r13 + 12], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 12], 9
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
-	QUAD $0x0c026c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r8 + 12], 11
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 12], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c026c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rax + 12], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0c026c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rax + 12], 14
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x010d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 1
-	QUAD $0x0d2244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 13], 2
-	QUAD $0x0d1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 13], 3
-	QUAD $0x040d3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 13], 4
-	QUAD $0x0d3a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r15 + 13], 5
-	QUAD $0x0d1244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r10 + 13], 6
-	QUAD $0x0d3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 13], 7
-	QUAD $0x0d2a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r13 + 13], 8
-	QUAD $0x090d0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 13], 10
-	QUAD $0x0d0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 13], 11
-	QUAD $0x0d0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 13], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 14
-	QUAD $0x0f0d3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 13], 15
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0e3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 14], 1
-	QUAD $0x0e2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 14], 2
-	QUAD $0x0e1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 14], 3
-	QUAD $0x0e3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 14], 4
-	QUAD $0x0e3a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r15 + 14], 5
-	QUAD $0x0e1274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r10 + 14], 6
-	QUAD $0x0e3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 14], 7
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	QUAD $0x0e2a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r13 + 14], 8
-	QUAD $0x0e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 14], 9
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x0e1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 14], 10
-	QUAD $0x0e0274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r8 + 14], 11
-	QUAD $0x0e0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 14], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rcx + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 14], 14
-	QUAD $0x0e0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 14], 15
-	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
-	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
-	QUAD $0x000130addb0f4466; BYTE $0x00       // pand    xmm13, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	QUAD $0x0000014085db0f66                   // pand    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
-	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
-	QUAD $0x000150b5db0f4466; BYTE $0x00       // pand    xmm14, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xeb0f4466; BYTE $0xf0               // por    xmm14, xmm0
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x010f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 1
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x020f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x030f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 3
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x0f0a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 15], 4
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0f1244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r10 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 6
-	QUAD $0x0f3a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r15 + 15], 7
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x080f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 8
-	QUAD $0x0f3244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r14 + 15], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a0f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 10
-	QUAD $0x0f0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 15], 11
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0f0244203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r8 + 15], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d0f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 13
-	QUAD $0x0f2a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r13 + 15], 14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x0f1a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r11 + 15], 15
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xeb0f4166; BYTE $0xc6               // por    xmm0, xmm14
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	QUAD $0x01100a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 16], 1
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0210324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 16], 2
-	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
-	QUAD $0x03103a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 16], 3
-	QUAD $0x100a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r9 + 16], 4
-	QUAD $0x10124c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r10 + 16], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x100a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r9 + 16], 6
-	QUAD $0x103a4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r15 + 16], 7
-	QUAD $0x0810024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 8
-	QUAD $0x10324c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r14 + 16], 9
-	QUAD $0x0a101a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 16], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x10324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x10024c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r8 + 16], 12
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d10024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x102a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r13 + 16], 14
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x101a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r11 + 16], 15
-	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	QUAD $0x01110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 1
-	QUAD $0x11226c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r12 + 17], 2
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x03113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 4
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x05110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 5
-	QUAD $0x110a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r9 + 17], 6
-	QUAD $0x113a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r15 + 17], 7
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 8
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x113a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 17], 9
-	QUAD $0x0a111a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 17], 10
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x11326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 17], 11
-	QUAD $0x11126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 17], 12
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	QUAD $0x0d11026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 17], 13
-	QUAD $0x112a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 17], 14
-	QUAD $0x0f11326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 17], 15
-	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
-	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
-	QUAD $0x00000100addb0f66                   // pand    xmm5, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x12327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 18], 1
-	QUAD $0x0113325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 1
-	QUAD $0x01143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 1
-	QUAD $0x01153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 1
-	QUAD $0x0116327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 1
-	QUAD $0x01173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 1
-	QUAD $0x18324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 24], 1
-	QUAD $0x193264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 25], 1
-	QUAD $0x1a326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 26], 1
-	QUAD $0x1b3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 27], 1
-	QUAD $0x1c325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 28], 1
-	QUAD $0x1d3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 29], 1
-	QUAD $0x011e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 1
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x011f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 1
-	QUAD $0x121a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r11 + 18], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x121a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 18], 3
-	QUAD $0x123a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 18], 4
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x12327c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r14 + 18], 5
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x12127c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r10 + 18], 6
-	QUAD $0x120a7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r9 + 18], 7
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
-	QUAD $0x123a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r15 + 18], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rcx + 18], 10
-	QUAD $0x12027c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r8 + 18], 11
-	QUAD $0x12227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 18], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x12027c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rax + 18], 13
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x121a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rbx + 18], 14
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x122a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 18], 15
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02131a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 19], 2
-	QUAD $0x131a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 19], 3
-	QUAD $0x04133a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 19], 4
-	QUAD $0x13325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 19], 5
-	QUAD $0x13125c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r10 + 19], 6
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x130a5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r9 + 19], 7
-	QUAD $0x0813325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 8
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x133a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 19], 9
-	QUAD $0x0a130a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 19], 10
-	QUAD $0x13025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 19], 11
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	QUAD $0x13225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 19], 12
-	QUAD $0x0d13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 13
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x13025c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r8 + 19], 14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0f13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 2
-	QUAD $0x0216327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 2
-	QUAD $0x02173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 2
-	QUAD $0x18324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 24], 2
-	QUAD $0x193264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 25], 2
-	QUAD $0x1a326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 26], 2
-	QUAD $0x1b3254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 27], 2
-	QUAD $0x1c325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 28], 2
-	QUAD $0x1d3274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rsi + 29], 2
-	QUAD $0x021e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 2
-	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
-	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
-	QUAD $0x000110bddb0f4466; BYTE $0x00       // pand    xmm15, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
-	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
-	QUAD $0x000001209ddb0f66                   // pand    xmm3, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4166; BYTE $0xdf               // por    xmm3, xmm15
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	QUAD $0x141a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 20], 3
-	QUAD $0x04143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x143274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 20], 5
-	QUAD $0x142a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r13 + 20], 6
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x143274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 20], 7
-	QUAD $0x141274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r10 + 20], 8
-	QUAD $0x143a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 20], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 11
-	QUAD $0x142274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 20], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x142274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 20], 13
-	QUAD $0x140274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r8 + 20], 14
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0f143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 15
-	QUAD $0x151a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 21], 3
-	QUAD $0x04153a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 21], 4
-	QUAD $0x150a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r9 + 21], 5
-	QUAD $0x152a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 21], 6
-	QUAD $0x153264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 21], 7
-	QUAD $0x151264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 21], 8
-	QUAD $0x153a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 21], 9
-	QUAD $0x0a150264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 21], 10
-	QUAD $0x0b151a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 21], 11
-	QUAD $0x0c150a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 21], 12
-	QUAD $0x152264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r12 + 21], 13
-	QUAD $0x150264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r8 + 21], 14
-	QUAD $0x0f153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 15
-	QUAD $0x161a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 22], 3
-	QUAD $0x04163a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 22], 4
-	QUAD $0x160a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 22], 5
-	QUAD $0x162a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r13 + 22], 6
-	QUAD $0x16327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 22], 7
-	QUAD $0x16127c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r10 + 22], 8
-	QUAD $0x163a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 22], 9
-	QUAD $0x0a16027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 22], 10
-	QUAD $0x0b161a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 22], 11
-	QUAD $0x0c160a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 22], 12
-	QUAD $0x16227c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r12 + 22], 13
-	QUAD $0x16027c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r8 + 22], 14
-	QUAD $0x0f16327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 15
-	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	QUAD $0x00000130ad6f0f66                   // movdqa    xmm5, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xf5db0f66                           // pand    xmm6, xmm5
-	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
-	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
-	QUAD $0x000140bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xe6eb0f66                           // por    xmm4, xmm6
-	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
-	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
-	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xfedb0f66                           // pand    xmm7, xmm6
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	QUAD $0x171a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 23], 3
-	QUAD $0x04173a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 23], 4
-	QUAD $0x170a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 23], 5
-	QUAD $0x172a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r13 + 23], 6
-	QUAD $0x173254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 23], 7
-	QUAD $0x171254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 23], 8
-	QUAD $0x173a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 23], 9
-	QUAD $0x0a170254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 23], 10
-	QUAD $0x0b171a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 23], 11
-	QUAD $0x0c170a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x172254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 23], 13
-	QUAD $0x170254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r8 + 23], 14
-	QUAD $0x0f173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 15
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0x181a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 24], 3
-	QUAD $0x183a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 24], 4
-	QUAD $0x180a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 24], 5
-	QUAD $0x182a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 24], 6
-	QUAD $0x18324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 24], 7
-	QUAD $0x18124c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r10 + 24], 8
-	QUAD $0x183a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r15 + 24], 9
-	QUAD $0x18024c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rax + 24], 10
-	QUAD $0x181a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 24], 11
-	QUAD $0x180a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 24], 12
-	QUAD $0x18224c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r12 + 24], 13
-	QUAD $0x18024c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r8 + 24], 14
-	QUAD $0x18324c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rsi + 24], 15
-	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
-	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
-	QUAD $0x191a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 25], 3
-	QUAD $0x193a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 25], 4
-	QUAD $0x190a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r9 + 25], 5
-	QUAD $0x192a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r13 + 25], 6
-	QUAD $0x193264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 25], 7
-	QUAD $0x191264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r10 + 25], 8
-	QUAD $0x193a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r15 + 25], 9
-	QUAD $0x190264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 25], 10
-	QUAD $0x191a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 25], 11
-	QUAD $0x190a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 25], 12
-	QUAD $0x192264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r12 + 25], 13
-	QUAD $0x190264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 25], 14
-	QUAD $0x193264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rsi + 25], 15
-	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
-	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
-	QUAD $0x000100a5db0f4466; BYTE $0x00       // pand    xmm12, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xf80f4566; BYTE $0xe1               // psubb    xmm12, xmm9
-	QUAD $0x1a1a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 26], 3
-	QUAD $0x1a3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 26], 4
-	QUAD $0x1a0a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r9 + 26], 5
-	QUAD $0x1a2a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r13 + 26], 6
-	QUAD $0x1a326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 26], 7
-	QUAD $0x1a126c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r10 + 26], 8
-	QUAD $0x1a3a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r15 + 26], 9
-	QUAD $0x1a026c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rax + 26], 10
-	QUAD $0x1a1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 26], 11
-	QUAD $0x1a0a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rcx + 26], 12
-	QUAD $0x1a226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 26], 13
-	QUAD $0x1a026c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r8 + 26], 14
-	QUAD $0x1a326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 26], 15
-	QUAD $0x1b1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 27], 3
-	QUAD $0x1b3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 27], 4
-	QUAD $0x1b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 27], 5
-	QUAD $0x1b2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 27], 6
-	QUAD $0x1b3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 27], 7
-	QUAD $0x1b1254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 27], 8
-	QUAD $0x1b3a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r15 + 27], 9
-	QUAD $0x1b0254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 27], 10
-	QUAD $0x1b1a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rbx + 27], 11
-	QUAD $0x1b0a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rcx + 27], 12
-	QUAD $0x1b2254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 27], 13
-	QUAD $0x1b0254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r8 + 27], 14
-	QUAD $0x1b3254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 27], 15
-	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
-	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
-	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x00012095db0f4466; BYTE $0x00       // pand    xmm10, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0xeb0f4566; BYTE $0xd4               // por    xmm10, xmm12
-	QUAD $0x1c1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 28], 3
-	QUAD $0x1d1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 29], 3
-	QUAD $0x1e1a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 30], 3
-	QUAD $0x1f1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 31], 3
-	QUAD $0x1c3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 28], 4
-	QUAD $0x1d3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 29], 4
-	QUAD $0x041e3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 30], 4
-	QUAD $0x041f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 4
-	QUAD $0x1c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 28], 5
-	QUAD $0x1d0a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r9 + 29], 5
-	QUAD $0x1e0a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r9 + 30], 5
-	QUAD $0x1f0a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r9 + 31], 5
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x1c2a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 28], 6
-	QUAD $0x1d2a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r13 + 29], 6
-	QUAD $0x1e2a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r13 + 30], 6
-	QUAD $0x1f2a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r13 + 31], 6
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x1c325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 28], 7
-	QUAD $0x1d3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 29], 7
-	QUAD $0x1e324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 30], 7
-	QUAD $0x1f3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 31], 7
-	QUAD $0x1c125c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r10 + 28], 8
-	QUAD $0x1d1274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r10 + 29], 8
-	QUAD $0x1e124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 30], 8
-	QUAD $0x1f1244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r10 + 31], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x1c025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 28], 9
-	QUAD $0x1d0274203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rax + 29], 9
-	QUAD $0x091e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x1c025c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rax + 28], 10
-	QUAD $0x1d0274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rax + 29], 10
-	QUAD $0x0a1e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x1c1a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 28], 11
-	QUAD $0x1d1a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 29], 11
-	QUAD $0x0b1e1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 30], 11
-	QUAD $0x0b1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 11
-	QUAD $0x1c0a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rcx + 28], 12
-	QUAD $0x1d0a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 29], 12
-	QUAD $0x0c1e0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 30], 12
-	QUAD $0x0c1f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 12
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c225c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r12 + 28], 13
-	QUAD $0x1d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 29], 13
-	QUAD $0x1e224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 30], 13
-	QUAD $0x1f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 31], 13
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 28], 14
-	QUAD $0x1d0274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r8 + 29], 14
-	QUAD $0x1e024c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r8 + 30], 14
-	QUAD $0x1f0244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r8 + 31], 14
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 28], 15
-	QUAD $0x1d3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 29], 15
-	QUAD $0x0f1e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 15
-	QUAD $0x0f1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 15
-	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
-	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
-	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
-	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
-	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
-	LONG $0xdb0f4566; BYTE $0xf7               // pand    xmm14, xmm15
-	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
-	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	LONG $0xcedb0f66                           // pand    xmm1, xmm6
-	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0xc3db0f66                           // pand    xmm0, xmm3
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 208]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
-	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
-	LONG $0xd0680f66                           // punpckhbw    xmm2, xmm0
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0xea690f66                           // punpckhwd    xmm5, xmm2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x7f0f41f3; WORD $0x8f6c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000c0248c3b48                   // cmp    rcx, qword [rsp + 192]
-	JNE  LBB11_67
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000c024943b4c                   // cmp    r10, qword [rsp + 192]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB11_69
-	JMP  LBB11_72
-
-LBB11_124:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0       // add    rax, rdx
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x2454894c; BYTE $0x20   // mov    qword [rsp + 32], r10
-	LONG $0x97048d4b               // lea    rax, [r15 + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc6   // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xf6       // xor    r14d, r14d
-	LONG $0x247c894c; BYTE $0x78   // mov    qword [rsp + 120], r15
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB11_125:
-	LONG $0x2474894c; BYTE $0x10               // mov    qword [rsp + 16], r14
-	LONG $0x06e6c149                           // shl    r14, 6
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x04b70f42; BYTE $0x32               // movzx    eax, word [rdx + r14]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x0232             // movzx    eax, word [rdx + r14 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x0432             // movzx    eax, word [rdx + r14 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x0632             // movzx    eax, word [rdx + r14 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x0832             // movzx    eax, word [rdx + r14 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a32             // movzx    eax, word [rdx + r14 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c32             // movzx    eax, word [rdx + r14 + 12]
-	LONG $0x74b70f42; WORD $0x0e32             // movzx    esi, word [rdx + r14 + 14]
-	LONG $0x4cb70f42; WORD $0x1032             // movzx    ecx, word [rdx + r14 + 16]
-	LONG $0x18244c89                           // mov    dword [rsp + 24], ecx
-	LONG $0x54b70f46; WORD $0x1232             // movzx    r10d, word [rdx + r14 + 18]
-	LONG $0x5cb70f46; WORD $0x1432             // movzx    r11d, word [rdx + r14 + 20]
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 128
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0x2cc40f66; WORD $0x010a             // pinsrw    xmm5, word [rdx + rcx], 1
-	LONG $0x2cc40f66; WORD $0x023a             // pinsrw    xmm5, word [rdx + rdi], 2
-	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r15], 3
-	LONG $0xc40f4266; WORD $0x222c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r12], 4
-	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x05 // pinsrw    xmm5, word [rdx + r13], 5
-	LONG $0x2cc40f66; WORD $0x061a             // pinsrw    xmm5, word [rdx + rbx], 6
-	LONG $0x44c40f66; WORD $0x020a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 2], 1
-	LONG $0x44c40f66; WORD $0x023a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 2], 2
-	QUAD $0x03023a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 2], 3
-	QUAD $0x04022244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 2], 4
-	QUAD $0x05022a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 2], 5
-	LONG $0x44c40f66; WORD $0x021a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x1632             // movzx    eax, word [rdx + r14 + 22]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 4], 1
-	LONG $0x4cc40f66; WORD $0x043a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 4], 2
-	QUAD $0x03043a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 4], 3
-	QUAD $0x0404224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 4], 4
-	QUAD $0x05042a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 4], 5
-	LONG $0x4cc40f66; WORD $0x041a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 4], 6
-	QUAD $0x07040a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x44b70f46; WORD $0x1832             // movzx    r8d, word [rdx + r14 + 24]
-	LONG $0xc40f4266; WORD $0x0a2c; BYTE $0x07 // pinsrw    xmm5, word [rdx + r9], 7
-	LONG $0x650f4166; BYTE $0xeb               // pcmpgtw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 6], 1
-	LONG $0x7cc40f66; WORD $0x063a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 6], 2
-	QUAD $0x03063a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 6], 3
-	QUAD $0x0406227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 6], 4
-	QUAD $0x05062a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 6], 5
-	LONG $0x7cc40f66; WORD $0x061a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 6], 6
-	QUAD $0x07060a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 6], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 8], 1
-	QUAD $0x02083a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 8], 2
-	QUAD $0x03083a44c40f4666                   // pinsrw    xmm8, word [rdx + r15 + 8], 3
-	QUAD $0x04082244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 8], 4
-	QUAD $0x05082a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 8], 5
-	QUAD $0x06081a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 8], 6
-	QUAD $0x07080a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
-	LONG $0x44b70f42; WORD $0x1a32             // movzx    eax, word [rdx + r14 + 26]
-	LONG $0x650f4566; BYTE $0xc3               // pcmpgtw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x1c32             // movzx    r10d, word [rdx + r14 + 28]
-	LONG $0x64c40f66; WORD $0x0a0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 10], 1
-	LONG $0x64c40f66; WORD $0x0a3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 10], 2
-	QUAD $0x030a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 10], 3
-	QUAD $0x040a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 10], 4
-	QUAD $0x050a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 10], 5
-	LONG $0x64c40f66; WORD $0x0a1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 10], 6
-	QUAD $0x070a0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 10], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 12], 1
-	LONG $0x54c40f66; WORD $0x0c3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 12], 2
-	QUAD $0x030c3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 12], 3
-	QUAD $0x040c2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 12], 4
-	QUAD $0x050c2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 12], 5
-	LONG $0x54c40f66; WORD $0x0c1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x74b70f42; WORD $0x1e32             // movzx    esi, word [rdx + r14 + 30]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x070c0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 12], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
-	LONG $0x74b70f42; WORD $0x2032             // movzx    esi, word [rdx + r14 + 32]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	LONG $0x4cc40f66; WORD $0x0e0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 14], 1
-	LONG $0x4cc40f66; WORD $0x0e3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 14], 2
-	QUAD $0x030e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 14], 3
-	QUAD $0x040e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 14], 4
-	QUAD $0x050e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x74b70f42; WORD $0x2232             // movzx    esi, word [rdx + r14 + 34]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	QUAD $0x070e0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 14], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120a; BYTE $0x01 // pinsrw    xmm6, word [rdx + rcx + 18], 1
-	LONG $0x74c40f66; WORD $0x123a; BYTE $0x02 // pinsrw    xmm6, word [rdx + rdi + 18], 2
-	QUAD $0x03123a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 18], 3
-	QUAD $0x04122274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 18], 4
-	QUAD $0x05122a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 18], 5
-	LONG $0x74c40f66; WORD $0x121a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 18], 7
-	LONG $0x650f4166; BYTE $0xf3               // pcmpgtw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI11_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x5cb70f46; WORD $0x2432             // movzx    r11d, word [rdx + r14 + 36]
-	LONG $0x7cc40f66; WORD $0x100a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 16], 1
-	LONG $0x7cc40f66; WORD $0x103a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 16], 2
-	QUAD $0x03103a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 16], 3
-	QUAD $0x0410227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 16], 4
-	QUAD $0x05102a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 16], 5
-	LONG $0x7cc40f66; WORD $0x101a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 16], 6
-	LONG $0x64c40f66; WORD $0x140a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 20], 1
-	LONG $0x64c40f66; WORD $0x143a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 20], 2
-	QUAD $0x03143a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 20], 3
-	QUAD $0x04142264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 20], 4
-	QUAD $0x05142a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 20], 5
-	LONG $0x64c40f66; WORD $0x141a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 20], 6
-	QUAD $0x07140a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 20], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
-	LONG $0x74b70f42; WORD $0x2632             // movzx    esi, word [rdx + r14 + 38]
-	QUAD $0x07100a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 16], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 22], 1
-	LONG $0x5cc40f66; WORD $0x163a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 22], 2
-	QUAD $0x03163a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 22], 3
-	QUAD $0x0416225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 22], 4
-	QUAD $0x05162a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 22], 5
-	LONG $0x5cc40f66; WORD $0x161a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 22], 6
-	QUAD $0x07160a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 22], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 24], 1
-	LONG $0x54c40f66; WORD $0x183a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 24], 2
-	QUAD $0x03183a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 24], 3
-	QUAD $0x04182254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 24], 4
-	QUAD $0x05182a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 24], 5
-	LONG $0x54c40f66; WORD $0x181a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 24], 6
-	QUAD $0x07180a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
-	LONG $0x44b70f42; WORD $0x2832             // movzx    eax, word [rdx + r14 + 40]
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x2a32             // movzx    r10d, word [rdx + r14 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 26], 1
-	LONG $0x4cc40f66; WORD $0x1a3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 26], 2
-	QUAD $0x031a3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 26], 3
-	QUAD $0x041a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 26], 4
-	QUAD $0x051a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 26], 6
-	QUAD $0x071a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 26], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 28], 1
-	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 28], 2
-	QUAD $0x031c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 3
-	QUAD $0x041c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 4
-	QUAD $0x051c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 5
-	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
-	LONG $0x44b70f46; WORD $0x2c32             // movzx    r8d, word [rdx + r14 + 44]
-	QUAD $0x071c0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 28], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x2e32             // movzx    r11d, word [rdx + r14 + 46]
-	LONG $0x5cc40f66; WORD $0x1e0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 30], 1
-	LONG $0x5cc40f66; WORD $0x1e3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 30], 2
-	QUAD $0x031e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 30], 3
-	QUAD $0x041e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 30], 4
-	QUAD $0x051e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x3032             // movzx    esi, word [rdx + r14 + 48]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	QUAD $0x071e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 30], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 34], 1
-	LONG $0x54c40f66; WORD $0x223a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 34], 2
-	QUAD $0x03223a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 34], 3
-	QUAD $0x04222254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 34], 4
-	QUAD $0x05222a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 34], 5
-	LONG $0x54c40f66; WORD $0x221a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 34], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI11_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f42; WORD $0x3232             // movzx    esi, word [rdx + r14 + 50]
-	LONG $0x7cc40f66; WORD $0x200a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 32], 1
-	LONG $0x7cc40f66; WORD $0x203a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 32], 2
-	QUAD $0x03203a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 32], 3
-	QUAD $0x0420227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 32], 4
-	QUAD $0x05202a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 32], 5
-	LONG $0x7cc40f66; WORD $0x201a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 32], 6
-	LONG $0x64c40f66; WORD $0x240a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 36], 1
-	LONG $0x64c40f66; WORD $0x243a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 36], 2
-	QUAD $0x03243a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 36], 3
-	QUAD $0x04242264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 36], 4
-	QUAD $0x05242a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 36], 5
-	LONG $0x64c40f66; WORD $0x241a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 36], 6
-	QUAD $0x07240a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 36], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f46; WORD $0x3432             // movzx    r10d, word [rdx + r14 + 52]
-	QUAD $0x07200a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 32], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 38], 1
-	LONG $0x4cc40f66; WORD $0x263a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 38], 2
-	QUAD $0x03263a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 38], 3
-	QUAD $0x0426224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 38], 4
-	QUAD $0x05262a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 38], 5
-	LONG $0x4cc40f66; WORD $0x261a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 38], 6
-	QUAD $0x07260a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 38], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 40], 1
-	LONG $0x54c40f66; WORD $0x283a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 40], 2
-	QUAD $0x03283a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 40], 3
-	QUAD $0x04282254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 40], 4
-	QUAD $0x05282a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 40], 5
-	LONG $0x54c40f66; WORD $0x281a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 40], 6
-	QUAD $0x07280a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x44b70f46; WORD $0x3632             // movzx    r8d, word [rdx + r14 + 54]
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f42; WORD $0x3832             // movzx    eax, word [rdx + r14 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 42], 1
-	LONG $0x5cc40f66; WORD $0x2a3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 42], 2
-	QUAD $0x032a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 42], 3
-	QUAD $0x042a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 42], 4
-	QUAD $0x052a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 42], 6
-	QUAD $0x072a0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 42], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 44], 1
-	LONG $0x4cc40f66; WORD $0x2c3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 44], 2
-	QUAD $0x032c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 44], 3
-	QUAD $0x042c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 44], 4
-	QUAD $0x052c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
-	LONG $0x5cb70f46; WORD $0x3a32             // movzx    r11d, word [rdx + r14 + 58]
-	QUAD $0x072c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 44], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x3c32             // movzx    esi, word [rdx + r14 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x64c40f66; WORD $0x2e0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 46], 1
-	LONG $0x64c40f66; WORD $0x2e3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 46], 2
-	QUAD $0x032e3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 46], 3
-	QUAD $0x042e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 46], 4
-	QUAD $0x052e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 46], 5
-	LONG $0x64c40f66; WORD $0x2e1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 46], 6
-	QUAD $0x072e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 46], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 50], 1
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 50], 2
-	QUAD $0x03323a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 50], 3
-	QUAD $0x0432224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 4
-	QUAD $0x05322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 5
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 50], 6
-	QUAD $0x07320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 48], 1
-	LONG $0x7cc40f66; WORD $0x303a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 48], 2
-	QUAD $0x03303a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 48], 3
-	QUAD $0x0430227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 48], 4
-	QUAD $0x05302a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 48], 5
-	LONG $0x7cc40f66; WORD $0x301a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 48], 6
-	QUAD $0x07300a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 48], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0x54c40f66; WORD $0x340a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 52], 1
-	LONG $0x54c40f66; WORD $0x343a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 52], 2
-	QUAD $0x03343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 3
-	QUAD $0x04342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 4
-	QUAD $0x05342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 5
-	LONG $0x54c40f66; WORD $0x341a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 52], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 54], 1
-	LONG $0x5cc40f66; WORD $0x363a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 54], 2
-	QUAD $0x03363a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 54], 3
-	QUAD $0x0436225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 54], 4
-	QUAD $0x05362a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 54], 5
-	LONG $0x5cc40f66; WORD $0x361a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 54], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 56], 1
-	LONG $0x4cc40f66; WORD $0x383a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 56], 2
-	QUAD $0x03383a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 56], 3
-	QUAD $0x0438224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 56], 4
-	QUAD $0x05382a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 56], 5
-	LONG $0x4cc40f66; WORD $0x381a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 58], 1
-	LONG $0x54c40f66; WORD $0x3a3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 58], 2
-	QUAD $0x033a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 58], 3
-	QUAD $0x043a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 58], 4
-	QUAD $0x053a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 58], 5
-	LONG $0x54c40f66; WORD $0x3a1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 58], 6
-	QUAD $0x073a0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 60], 1
-	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 60], 2
-	QUAD $0x033c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 3
-	QUAD $0x043c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 4
-	QUAD $0x053c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 60], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e32             // movzx    eax, word [rdx + r14 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 62], 1
-	LONG $0x44c40f66; WORD $0x3e3a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 62], 2
-	QUAD $0x033e3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 62], 3
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x043e2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 62], 4
-	QUAD $0x053e2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 62], 5
-	LONG $0x44c40f66; WORD $0x3e1a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 62], 6
-	QUAD $0x073e0a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 62], 7
-	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI11_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x7f0f45f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB11_125
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	LONG $0x24543b4c; BYTE $0x20               // cmp    r10, qword [rsp + 32]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	LONG $0x24348b44                           // mov    r14d, dword [rsp]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	JNE  LBB11_127
-	JMP  LBB11_130
-
-LBB11_182:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x87348d4f                           // lea    r14, [r15 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI11_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI11_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI11_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI11_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI11_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI11_7] */
-
-LBB11_183:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB11_183
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB11_185
-	JMP  LBB11_188
diff --git a/go/arrow/compute/internal/kernels/scalar_comparisons.go b/go/arrow/compute/internal/kernels/scalar_comparisons.go
deleted file mode 100644
index dc43b74984a0d..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparisons.go
+++ /dev/null
@@ -1,701 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"bytes"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-type binaryKernel func(left, right, out []byte, offset int)
-
-type cmpFn[LeftT, RightT arrow.FixedWidthType] func([]LeftT, []RightT, []uint32)
-type cmpScalarLeft[LeftT, RightT arrow.FixedWidthType] func(LeftT, []RightT, []uint32)
-type cmpScalarRight[LeftT, RightT arrow.FixedWidthType] func([]LeftT, RightT, []uint32)
-
-type cmpOp[T arrow.FixedWidthType] struct {
-	arrArr    cmpFn[T, T]
-	arrScalar cmpScalarRight[T, T]
-	scalarArr cmpScalarLeft[T, T]
-}
-
-func comparePrimitiveArrayArray[T arrow.FixedWidthType](op cmpFn[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			left      = arrow.GetData[T](leftBytes)
-			right     = arrow.GetData[T](rightBytes)
-			nvals     = len(left)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(left[:vals], right[:vals], tmpOutSlice[:vals])
-			left, right = left[vals:], right[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(left, right, tmpOutSlice)
-			left, right = left[batchSize:], right[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(left, right, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-func comparePrimitiveArrayScalar[T arrow.FixedWidthType](op cmpScalarRight[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			left      = arrow.GetData[T](leftBytes)
-			rightVal  = *(*T)(unsafe.Pointer(&rightBytes[0]))
-			nvals     = len(left)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(left[:vals], rightVal, tmpOutSlice[:vals])
-			left = left[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(left, rightVal, tmpOutSlice)
-			left = left[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(left, rightVal, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-func comparePrimitiveScalarArray[T arrow.FixedWidthType](op cmpScalarLeft[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			leftVal = *(*T)(unsafe.Pointer(&leftBytes[0]))
-			right   = arrow.GetData[T](rightBytes)
-
-			nvals     = len(right)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(leftVal, right[:vals], tmpOutSlice[:vals])
-			right = right[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(leftVal, right, tmpOutSlice)
-			right = right[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(leftVal, right, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-type CompareData struct {
-	funcAA, funcSA, funcAS binaryKernel
-}
-
-func (c *CompareData) Funcs() *CompareData { return c }
-
-type CompareFuncData interface {
-	Funcs() *CompareData
-}
-
-func getOffsetSpanBytes(span *exec.ArraySpan) []byte {
-	if len(span.Buffers[1].Buf) == 0 {
-		return nil
-	}
-
-	buf := span.Buffers[1].Buf
-	byteWidth := int64(span.Type.(arrow.FixedWidthDataType).Bytes())
-	start := span.Offset * byteWidth
-	return buf[start : start+(span.Len*byteWidth)]
-}
-
-func compareKernel[T arrow.FixedWidthType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	kn := ctx.Kernel.(*exec.ScalarKernel)
-	knData := kn.Data.(CompareFuncData).Funcs()
-
-	outPrefix := int(out.Offset % 8)
-	outBuf := out.Buffers[1].Buf[out.Offset/8:]
-
-	if batch.Values[0].IsArray() && batch.Values[1].IsArray() {
-		knData.funcAA(getOffsetSpanBytes(&batch.Values[0].Array),
-			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
-	} else if batch.Values[1].IsScalar() {
-		knData.funcAS(getOffsetSpanBytes(&batch.Values[0].Array),
-			batch.Values[1].Scalar.(scalar.PrimitiveScalar).Data(), outBuf, outPrefix)
-	} else {
-		knData.funcSA(batch.Values[0].Scalar.(scalar.PrimitiveScalar).Data(),
-			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
-	}
-
-	return nil
-}
-
-func genGoCompareKernel[T arrow.FixedWidthType](op *cmpOp[T]) *CompareData {
-	return &CompareData{
-		funcAA: comparePrimitiveArrayArray(op.arrArr),
-		funcAS: comparePrimitiveArrayScalar(op.arrScalar),
-		funcSA: comparePrimitiveScalarArray(op.scalarArr),
-	}
-}
-
-type decCmp[T decimal128.Num | decimal256.Num] struct {
-	Gt func(T, T) bool
-	Ge func(T, T) bool
-}
-
-var dec128Cmp = decCmp[decimal128.Num]{
-	Gt: func(a, b decimal128.Num) bool { return a.Greater(b) },
-	Ge: func(a, b decimal128.Num) bool { return a.GreaterEqual(b) },
-}
-
-var dec256Cmp = decCmp[decimal256.Num]{
-	Gt: func(a, b decimal256.Num) bool { return a.Greater(b) },
-	Ge: func(a, b decimal256.Num) bool { return a.GreaterEqual(b) },
-}
-
-func getCmpDec[T decimal128.Num | decimal256.Num](op CompareOperator, fns decCmp[T]) *cmpOp[T] {
-	switch op {
-	case CmpEQ:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if lt[i] == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if lt[i] == rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if lt == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpNE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if lt[i] != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if lt[i] != rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if lt != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGT:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if fns.Gt(lt[i], rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if fns.Gt(lt[i], rt) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if fns.Gt(lt, rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if fns.Ge(lt[i], rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if fns.Ge(lt[i], rt) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if fns.Ge(lt, rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	}
-	debug.Assert(false, "")
-	return nil
-}
-
-func genDecimalCompareKernel[T decimal128.Num | decimal256.Num](op CompareOperator) (ex exec.ArrayKernelExec, data exec.KernelState) {
-	ex = compareKernel[T]
-
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		cmp := getCmpDec(op, dec128Cmp)
-		data = &CompareData{
-			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
-			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
-			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
-		}
-	case decimal256.Num:
-		cmp := getCmpDec(op, dec256Cmp)
-		data = &CompareData{
-			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
-			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
-			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
-		}
-	}
-
-	return
-}
-
-func getCmpOp[T arrow.NumericType](op CompareOperator) *cmpOp[T] {
-	switch op {
-	case CmpEQ:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] == rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpNE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] != rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGT:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] > rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] > rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt > rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] >= rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] >= rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt >= rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	}
-	return nil
-}
-
-func getBinaryCmp(op CompareOperator) binaryBinOp[bool] {
-	switch op {
-	case CmpEQ:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Equal(arg0, arg1)
-		}
-	case CmpNE:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return !bytes.Equal(arg0, arg1)
-		}
-	case CmpGT:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Compare(arg0, arg1) == 1
-		}
-	case CmpGE:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Compare(arg0, arg1) != -1
-		}
-	}
-	return nil
-}
-
-func numericCompareKernel[T arrow.NumericType](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
-	ex := compareKernel[T]
-	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
-		InputTypes: []exec.InputType{ty, ty},
-		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}, ex, nil)
-	kn.Data = genCompareKernel[T](op)
-	return
-}
-
-func decimalCompareKernel[T decimal128.Num | decimal256.Num](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
-	ex, data := genDecimalCompareKernel[T](op)
-	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
-		InputTypes: []exec.InputType{ty, ty},
-		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}, ex, nil)
-	kn.Data = data
-	return
-}
-
-func GetCompareKernel(ty exec.InputType, cmpType arrow.Type, op CompareOperator) exec.ScalarKernel {
-	switch cmpType {
-	case arrow.INT8:
-		return numericCompareKernel[int8](ty, op)
-	case arrow.INT16:
-		return numericCompareKernel[int16](ty, op)
-	case arrow.INT32, arrow.DATE32, arrow.TIME32:
-		return numericCompareKernel[int32](ty, op)
-	case arrow.INT64, arrow.DATE64, arrow.TIMESTAMP, arrow.TIME64, arrow.DURATION:
-		return numericCompareKernel[int64](ty, op)
-	case arrow.UINT8:
-		return numericCompareKernel[uint8](ty, op)
-	case arrow.UINT16:
-		return numericCompareKernel[uint16](ty, op)
-	case arrow.UINT32:
-		return numericCompareKernel[uint32](ty, op)
-	case arrow.UINT64:
-		return numericCompareKernel[uint64](ty, op)
-	case arrow.FLOAT32:
-		return numericCompareKernel[float32](ty, op)
-	case arrow.FLOAT64:
-		return numericCompareKernel[float64](ty, op)
-	}
-	debug.Assert(false, "")
-	return exec.ScalarKernel{}
-}
-
-func compareTimestampKernel(ty exec.InputType, op CompareOperator) exec.ScalarKernel {
-	kn := GetCompareKernel(ty, arrow.TIMESTAMP, op)
-	ex := kn.ExecFn
-	kn.ExecFn = func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		lhs, rhs := batch.Values[0].Type().(*arrow.TimestampType), batch.Values[1].Type().(*arrow.TimestampType)
-		if (len(lhs.TimeZone) == 0) != (len(rhs.TimeZone) == 0) {
-			return fmt.Errorf("%w: cannot compare timestamp with timezone to timestamp without timezone, got: %s and %s",
-				arrow.ErrInvalid, lhs, rhs)
-		}
-		return ex(ctx, batch, out)
-	}
-	return kn
-}
-
-var (
-	boolEQ = binaryBoolOps{
-		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
-			bitutil.BitmapAnd(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = rdr.Set() == rhs
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = lhs == rdr.Set()
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-	}
-	boolNE = binaryBoolOps{
-		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
-			bitutil.BitmapXor(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = rdr.Set() != rhs
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = lhs != rdr.Set()
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-	}
-)
-
-func CompareKernels(op CompareOperator) []exec.ScalarKernel {
-	kns := make([]exec.ScalarKernel, 0)
-
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
-	switch op {
-	case CmpEQ:
-		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
-			ScalarBinaryBools(&boolEQ), nil))
-	case CmpNE:
-		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
-			ScalarBinaryBools(&boolNE), nil))
-	}
-
-	for _, ty := range numericTypes {
-		in := exec.NewExactInput(ty)
-		kns = append(kns, GetCompareKernel(in, ty.ID(), op))
-	}
-	kns = append(kns,
-		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date32), arrow.DATE32, op),
-		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date64), arrow.DATE64, op))
-
-	for _, unit := range arrow.TimeUnitValues {
-		in := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-		kns = append(kns, compareTimestampKernel(in, op))
-
-		in = exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
-	}
-
-	for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
-		in := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT32, op))
-	}
-	for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
-		in := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
-	}
-
-	for _, ty := range baseBinaryTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.Layout().Buffers[1].ByteWidth {
-		case 4:
-			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int32], getBinaryCmp(op))
-		default:
-			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int64], getBinaryCmp(op))
-		}
-		in := exec.NewExactInput(ty)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in},
-			outType, ex, nil))
-	}
-
-	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
-	kns = append(kns, decimalCompareKernel[decimal128.Num](in128, op),
-		decimalCompareKernel[decimal256.Num](in256, op))
-
-	inFSB := exec.NewIDInput(arrow.FIXED_SIZE_BINARY)
-	kns = append(kns, exec.NewScalarKernel([]exec.InputType{inFSB, inFSB}, outType,
-		ScalarBinaryBinaryArgsBoolOut(exec.NewFSBIter, getBinaryCmp(op)), nil))
-
-	return kns
-}
diff --git a/go/arrow/compute/internal/kernels/string_casts.go b/go/arrow/compute/internal/kernels/string_casts.go
deleted file mode 100644
index 6a50d6627140b..0000000000000
--- a/go/arrow/compute/internal/kernels/string_casts.go
+++ /dev/null
@@ -1,409 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"strconv"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-func validateUtf8Fsb(input *exec.ArraySpan) error {
-	var (
-		inputData = input.Buffers[1].Buf
-		width     = int64(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
-		bitmap    = input.Buffers[0].Buf
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
-		func(pos int64) error {
-			pos += input.Offset
-			beg := pos * width
-			end := (pos + 1) * width
-			if !utf8.Valid(inputData[beg:end]) {
-				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, inputData[beg:end])
-			}
-			return nil
-		}, func() error { return nil })
-}
-
-func validateUtf8[OffsetT int32 | int64](input *exec.ArraySpan) error {
-	var (
-		inputOffsets = exec.GetSpanOffsets[OffsetT](input, 1)
-		inputData    = input.Buffers[2].Buf
-		bitmap       = input.Buffers[0].Buf
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
-		func(pos int64) error {
-			v := inputData[inputOffsets[pos]:inputOffsets[pos+1]]
-			if !utf8.Valid(v) {
-				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, v)
-			}
-			return nil
-		}, func() error { return nil })
-}
-
-func CastFsbToFsb(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inputWidth := batch.Values[0].Array.Type.(*arrow.FixedSizeBinaryType).ByteWidth
-	outputWidth := ctx.State.(CastState).ToType.(*arrow.FixedSizeBinaryType).ByteWidth
-
-	if inputWidth != outputWidth {
-		return fmt.Errorf("%w: failed casting from %s to %s: widths must match",
-			arrow.ErrInvalid, batch.Values[0].Array.Type, out.Type)
-	}
-
-	return ZeroCopyCastExec(ctx, batch, out)
-}
-
-func CastBinaryToBinary[InOffsetsT, OutOffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastState)
-	input := &batch.Values[0].Array
-
-	if !input.Type.(arrow.BinaryDataType).IsUtf8() && out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
-		if err := validateUtf8[InOffsetsT](input); err != nil {
-			return err
-		}
-	}
-
-	// start with a zero-copy cast, then change the indices to the
-	// expected size
-	if err := ZeroCopyCastExec(ctx, batch, out); err != nil {
-		return err
-	}
-
-	switch {
-	case SizeOf[InOffsetsT]() == SizeOf[OutOffsetsT]():
-		// offsets are the same width, nothing more to do
-		return nil
-	case SizeOf[InOffsetsT]() > SizeOf[OutOffsetsT]():
-		// downcast from int64 -> int32
-		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
-
-		// binary offsets are ascending, so it's enough to check
-		// the last one for overflow
-		if inputOffsets[input.Len] > InOffsetsT(MaxOf[OutOffsetsT]()) {
-			return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
-				arrow.ErrInvalid, input.Type, out.Type)
-		}
-
-		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
-		out.Buffers[1].WrapBuffer(buf)
-
-		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
-
-		castNumericUnsafe(arrow.INT64, arrow.INT32,
-			arrow.GetBytes(inputOffsets), arrow.GetBytes(outOffsets), len(inputOffsets))
-		return nil
-	default:
-		// upcast from int32 -> int64
-		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
-		out.Buffers[1].WrapBuffer(buf)
-
-		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
-		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
-
-		castNumericUnsafe(arrow.INT32, arrow.INT64,
-			arrow.GetBytes(inputOffsets), arrow.GetBytes(outOffsets), len(inputOffsets))
-		return nil
-	}
-}
-
-func CastFsbToBinary[OffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastState)
-	input := &batch.Values[0].Array
-
-	if out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
-		if err := validateUtf8Fsb(input); err != nil {
-			return err
-		}
-	}
-
-	// check for overflow
-	maxOffset := int64(MaxOf[OffsetsT]())
-	width := OffsetsT(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
-	if (int64(width) * input.Len) > maxOffset {
-		return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
-			arrow.ErrInvalid, input.Type, out.Type)
-	}
-
-	out.Len = input.Len
-	out.Nulls = input.Nulls
-	if input.Offset == out.Offset {
-		out.Buffers[0].SetBuffer(input.GetBuffer(0))
-	} else {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len), out.Buffers[0].Buf, int(out.Offset))
-	}
-
-	// this buffer is preallocated
-	offsets := exec.GetSpanOffsets[OffsetsT](out, 1)
-	offsets[0] = OffsetsT(input.Offset) * width
-	for i := 0; i < int(input.Len); i++ {
-		offsets[i+1] = offsets[i] + width
-	}
-
-	if len(input.Buffers[1].Buf) > 0 {
-		out.Buffers[2] = input.Buffers[1]
-	}
-
-	return nil
-}
-
-func addBinaryToBinaryCast[InOffsetT, OutOffsetT int32 | int64](inType arrow.Type, outType exec.OutputType) exec.ScalarKernel {
-	return exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
-		outType, CastBinaryToBinary[InOffsetT, OutOffsetT], nil)
-}
-
-func addToBinaryKernels[OffsetsT int32 | int64](outType exec.OutputType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
-	return append(kernels,
-		addBinaryToBinaryCast[int32, OffsetsT](arrow.STRING, outType),
-		addBinaryToBinaryCast[int32, OffsetsT](arrow.BINARY, outType),
-		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_STRING, outType),
-		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_BINARY, outType),
-		exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
-			outType, CastFsbToBinary[OffsetsT], nil),
-	)
-}
-
-func GetFsbCastKernels() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-	out := GetCommonCastKernels(arrow.FIXED_SIZE_BINARY, outputType)
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
-		OutputFirstType, CastFsbToFsb, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	return append(out, kernel)
-}
-
-func float16Formatter(v float16.Num) string                 { return v.String() }
-func date32Formatter(v arrow.Date32) string                 { return v.FormattedString() }
-func date64Formatter(v arrow.Date64) string                 { return v.FormattedString() }
-func numericFormatterSigned[T arrow.IntType](v T) string    { return strconv.FormatInt(int64(v), 10) }
-func numericFormatterUnsigned[T arrow.UintType](v T) string { return strconv.FormatUint(uint64(v), 10) }
-func float32Formatter(v float32) string                     { return strconv.FormatFloat(float64(v), 'g', -1, 32) }
-func float64Formatter(v float64) string                     { return strconv.FormatFloat(v, 'g', -1, 64) }
-
-func boolToStringCastExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input = &batch.Values[0].Array
-		bldr  = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-	)
-	defer bldr.Release()
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(strconv.FormatBool(bitutil.BitIsSet(input.Buffers[1].Buf, int(pos))))
-		}, func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-type timeIntrinsic interface {
-	arrow.Time32 | arrow.Time64
-	FormattedString(arrow.TimeUnit) string
-}
-
-func timeToStringCastExec[T timeIntrinsic](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input     = &batch.Values[0].Array
-		inputData = exec.GetSpanValues[T](input, 1)
-		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-		inputType = input.Type.(arrow.TemporalWithUnit)
-	)
-	defer bldr.Release()
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(inputData[pos].FormattedString(inputType.TimeUnit()))
-		}, func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-func numericToStringCastExec[T arrow.IntType | arrow.UintType | arrow.FloatType](formatter func(T) string) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			input     = &batch.Values[0].Array
-			inputData = exec.GetSpanValues[T](input, 1)
-			bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-		)
-		defer bldr.Release()
-
-		bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-			func(pos int64) {
-				bldr.Append(formatter(inputData[pos]))
-			}, func() { bldr.AppendNull() })
-
-		arr := bldr.NewArray()
-		out.TakeOwnership(arr.Data())
-		return nil
-	}
-}
-
-func castTimestampToString(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input     = &batch.Values[0].Array
-		inputData = exec.GetSpanValues[arrow.Timestamp](input, 1)
-		inputType = input.Type.(*arrow.TimestampType)
-		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-	)
-	defer bldr.Release()
-
-	toTime, err := inputType.GetToTimeFunc()
-	if err != nil {
-		return err
-	}
-
-	// prealloc
-	fmtstring := "2006-01-02 15:04:05"
-	switch inputType.Unit {
-	case arrow.Millisecond:
-		fmtstring += ".000"
-	case arrow.Microsecond:
-		fmtstring += ".000000"
-	case arrow.Nanosecond:
-		fmtstring += ".000000000"
-	}
-
-	switch inputType.TimeZone {
-	case "UTC":
-		fmtstring += "Z"
-	case "":
-	default:
-		fmtstring += "-0700"
-	}
-
-	strlen := len(fmtstring)
-	bldr.Reserve(int(input.Len))
-	bldr.ReserveData(int(input.Len-input.Nulls) * strlen)
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(toTime(inputData[pos]).Format(fmtstring))
-		},
-		func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-func getNumericToStringCastExec(inType arrow.Type) exec.ArrayKernelExec {
-	switch inType {
-	case arrow.INT8:
-		return numericToStringCastExec(numericFormatterSigned[int8])
-	case arrow.UINT8:
-		return numericToStringCastExec(numericFormatterUnsigned[uint8])
-	case arrow.INT16:
-		return numericToStringCastExec(numericFormatterSigned[int16])
-	case arrow.UINT16:
-		return numericToStringCastExec(numericFormatterUnsigned[uint16])
-	case arrow.INT32:
-		return numericToStringCastExec(numericFormatterSigned[int32])
-	case arrow.UINT32:
-		return numericToStringCastExec(numericFormatterUnsigned[uint32])
-	case arrow.INT64:
-		return numericToStringCastExec(numericFormatterSigned[int64])
-	case arrow.UINT64:
-		return numericToStringCastExec(numericFormatterUnsigned[uint64])
-	case arrow.FLOAT16:
-		return numericToStringCastExec(float16Formatter)
-	case arrow.FLOAT32:
-		return numericToStringCastExec(float32Formatter)
-	case arrow.FLOAT64:
-		return numericToStringCastExec(float64Formatter)
-	case arrow.BOOL:
-		return boolToStringCastExec
-	case arrow.DATE32:
-		return numericToStringCastExec(date32Formatter)
-	case arrow.DATE64:
-		return numericToStringCastExec(date64Formatter)
-	case arrow.TIME32:
-		return timeToStringCastExec[arrow.Time32]
-	case arrow.TIME64:
-		return timeToStringCastExec[arrow.Time64]
-	case arrow.TIMESTAMP:
-		return castTimestampToString
-	}
-	panic("unimplemented cast: " + inType.String())
-}
-
-func addNumericAndTemporalToStringCasts(outType exec.OutputType, out []exec.ScalarKernel) []exec.ScalarKernel {
-	k := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)}, outType,
-		getNumericToStringCastExec(arrow.BOOL), nil)
-	k.NullHandling = exec.NullComputedNoPrealloc
-	out = append(out, k)
-
-	for _, dt := range numericTypes {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
-			getNumericToStringCastExec(dt.ID()), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64} {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
-			getNumericToStringCastExec(dt.ID()), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	for _, id := range []arrow.Type{arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP} {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(id)}, outType,
-			getNumericToStringCastExec(id), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	return out
-}
-
-func GetToBinaryKernels(outType arrow.DataType) []exec.ScalarKernel {
-	if outType.ID() == arrow.FIXED_SIZE_BINARY {
-		return nil
-	}
-
-	outputType := exec.NewOutputType(outType)
-	out := GetCommonCastKernels(outType.ID(), outputType)
-
-	switch outType.ID() {
-	case arrow.BINARY:
-		return addToBinaryKernels[int32](outputType, out)
-	case arrow.LARGE_BINARY:
-		return addToBinaryKernels[int64](outputType, out)
-	case arrow.STRING:
-		out = addToBinaryKernels[int32](outputType, out)
-		return addNumericAndTemporalToStringCasts(outputType, out)
-	case arrow.LARGE_STRING:
-		out = addToBinaryKernels[int64](outputType, out)
-		return addNumericAndTemporalToStringCasts(outputType, out)
-	}
-	return nil
-}
diff --git a/go/arrow/compute/internal/kernels/types.go b/go/arrow/compute/internal/kernels/types.go
deleted file mode 100644
index fb20ed02381fe..0000000000000
--- a/go/arrow/compute/internal/kernels/types.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-var (
-	unsignedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	signedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-	}
-	intTypes      = append(unsignedIntTypes, signedIntTypes...)
-	floatingTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-	numericTypes = append(intTypes, floatingTypes...)
-	// binary types without fixedsize binary
-	baseBinaryTypes = []arrow.DataType{
-		arrow.BinaryTypes.Binary,
-		arrow.BinaryTypes.LargeBinary,
-		arrow.BinaryTypes.String,
-		arrow.BinaryTypes.LargeString}
-	primitiveTypes = append(append([]arrow.DataType{arrow.Null,
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64},
-		numericTypes...), baseBinaryTypes...)
-)
-
-//go:generate stringer -type=CompareOperator -linecomment
-
-type CompareOperator int8
-
-const (
-	CmpEQ CompareOperator = iota // equal
-	CmpNE                        // not_equal
-	CmpGT                        // greater
-	CmpGE                        // greater_equal
-	CmpLT                        // less
-	CmpLE                        // less_equal
-)
-
-type simpleBinaryKernel interface {
-	Call(*exec.KernelCtx, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult) error
-	CallScalarLeft(*exec.KernelCtx, scalar.Scalar, *exec.ArraySpan, *exec.ExecResult) error
-}
-
-type commutativeBinaryKernel[T simpleBinaryKernel] struct{}
-
-func (commutativeBinaryKernel[T]) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	var t T
-	return t.CallScalarLeft(ctx, right, left, out)
-}
-
-type SimpleBinaryKernel interface {
-	simpleBinaryKernel
-	CallScalarRight(*exec.KernelCtx, *exec.ArraySpan, scalar.Scalar, *exec.ExecResult) error
-}
-
-func SimpleBinary[K SimpleBinaryKernel](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	if batch.Len == 0 {
-		return nil
-	}
-
-	var k K
-	if batch.Values[0].IsArray() {
-		if batch.Values[1].IsArray() {
-			return k.Call(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-		}
-		return k.CallScalarRight(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-	}
-
-	if batch.Values[1].IsArray() {
-		return k.CallScalarLeft(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-	}
-
-	debug.Assert(false, "should be unreachable")
-	return fmt.Errorf("%w: should be unreachable", arrow.ErrInvalid)
-}
diff --git a/go/arrow/compute/internal/kernels/vector_hash.go b/go/arrow/compute/internal/kernels/vector_hash.go
deleted file mode 100644
index 57f925dc251b1..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_hash.go
+++ /dev/null
@@ -1,565 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-)
-
-type HashState interface {
-	// Reset for another run
-	Reset() error
-	// Flush out accumulated results from last invocation
-	Flush(*exec.ExecResult) error
-	// FlushFinal flushes the accumulated results across all invocations
-	// of calls. The kernel should not be used again until after
-	// Reset() is called.
-	FlushFinal(out *exec.ExecResult) error
-	// GetDictionary returns the values (keys) accumulated in the dictionary
-	// so far.
-	GetDictionary() (arrow.ArrayData, error)
-	ValueType() arrow.DataType
-	// Append prepares the action for the given input (reserving appropriately
-	// sized data structures, etc.) and visits the input with the Action
-	Append(*exec.KernelCtx, *exec.ArraySpan) error
-	Allocator() memory.Allocator
-}
-
-type Action interface {
-	Reset() error
-	Reserve(int) error
-	Flush(*exec.ExecResult) error
-	FlushFinal(*exec.ExecResult) error
-	ObserveFound(int)
-	ObserveNotFound(int) error
-	ObserveNullFound(int)
-	ObserveNullNotFound(int) error
-	ShouldEncodeNulls() bool
-}
-
-type emptyAction struct {
-	mem memory.Allocator
-	dt  arrow.DataType
-}
-
-func (emptyAction) Reset() error                      { return nil }
-func (emptyAction) Reserve(int) error                 { return nil }
-func (emptyAction) Flush(*exec.ExecResult) error      { return nil }
-func (emptyAction) FlushFinal(*exec.ExecResult) error { return nil }
-func (emptyAction) ObserveFound(int)                  {}
-func (emptyAction) ObserveNotFound(int) error         { return nil }
-func (emptyAction) ObserveNullFound(int)              {}
-func (emptyAction) ObserveNullNotFound(int) error     { return nil }
-func (emptyAction) ShouldEncodeNulls() bool           { return true }
-
-type uniqueAction = emptyAction
-
-type regularHashState struct {
-	mem       memory.Allocator
-	typ       arrow.DataType
-	memoTable hashing.MemoTable
-	action    Action
-
-	doAppend func(Action, hashing.MemoTable, *exec.ArraySpan) error
-}
-
-func (rhs *regularHashState) Allocator() memory.Allocator { return rhs.mem }
-
-func (rhs *regularHashState) ValueType() arrow.DataType { return rhs.typ }
-
-func (rhs *regularHashState) Reset() error {
-	rhs.memoTable.Reset()
-	return rhs.action.Reset()
-}
-
-func (rhs *regularHashState) Append(_ *exec.KernelCtx, arr *exec.ArraySpan) error {
-	if err := rhs.action.Reserve(int(arr.Len)); err != nil {
-		return err
-	}
-
-	return rhs.doAppend(rhs.action, rhs.memoTable, arr)
-}
-
-func (rhs *regularHashState) Flush(out *exec.ExecResult) error { return rhs.action.Flush(out) }
-func (rhs *regularHashState) FlushFinal(out *exec.ExecResult) error {
-	return rhs.action.FlushFinal(out)
-}
-
-func (rhs *regularHashState) GetDictionary() (arrow.ArrayData, error) {
-	return array.GetDictArrayData(rhs.mem, rhs.typ, rhs.memoTable, 0)
-}
-
-func doAppendBinary[OffsetT int32 | int64](action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	var (
-		bitmap            = arr.Buffers[0].Buf
-		offsets           = exec.GetSpanOffsets[OffsetT](arr, 1)
-		data              = arr.Buffers[2].Buf
-		shouldEncodeNulls = action.ShouldEncodeNulls()
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, arr.Offset, arr.Len,
-		func(pos int64) error {
-			v := data[offsets[pos]:offsets[pos+1]]
-			idx, found, err := memo.GetOrInsert(v)
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		},
-		func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-func doAppendFixedSize(action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	sz := int64(arr.Type.(arrow.FixedWidthDataType).Bytes())
-	arrData := arr.Buffers[1].Buf[arr.Offset*sz:]
-	shouldEncodeNulls := action.ShouldEncodeNulls()
-
-	return bitutils.VisitBitBlocksShort(arr.Buffers[0].Buf, arr.Offset, arr.Len,
-		func(pos int64) error {
-			// fixed size type memo table we use a binary memo table
-			// so get the raw bytes
-			idx, found, err := memo.GetOrInsert(arrData[pos*sz : (pos+1)*sz])
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		}, func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-func doAppendNumeric[T arrow.IntType | arrow.UintType | arrow.FloatType](action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	arrData := exec.GetSpanValues[T](arr, 1)
-	shouldEncodeNulls := action.ShouldEncodeNulls()
-	return bitutils.VisitBitBlocksShort(arr.Buffers[0].Buf, arr.Offset, arr.Len,
-		func(pos int64) error {
-			idx, found, err := memo.GetOrInsert(arrData[pos])
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		}, func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-type nullHashState struct {
-	mem      memory.Allocator
-	typ      arrow.DataType
-	seenNull bool
-	action   Action
-}
-
-func (nhs *nullHashState) Allocator() memory.Allocator { return nhs.mem }
-
-func (nhs *nullHashState) ValueType() arrow.DataType { return nhs.typ }
-
-func (nhs *nullHashState) Reset() error {
-	return nhs.action.Reset()
-}
-
-func (nhs *nullHashState) Append(_ *exec.KernelCtx, arr *exec.ArraySpan) (err error) {
-	if err := nhs.action.Reserve(int(arr.Len)); err != nil {
-		return err
-	}
-
-	for i := 0; i < int(arr.Len); i++ {
-		if i == 0 {
-			nhs.seenNull = true
-			err = nhs.action.ObserveNullNotFound(0)
-		} else {
-			nhs.action.ObserveNullFound(0)
-		}
-	}
-	return
-}
-
-func (nhs *nullHashState) Flush(out *exec.ExecResult) error { return nhs.action.Flush(out) }
-func (nhs *nullHashState) FlushFinal(out *exec.ExecResult) error {
-	return nhs.action.FlushFinal(out)
-}
-
-func (nhs *nullHashState) GetDictionary() (arrow.ArrayData, error) {
-	var out arrow.Array
-	if nhs.seenNull {
-		out = array.NewNull(1)
-	} else {
-		out = array.NewNull(0)
-	}
-	data := out.Data()
-	data.Retain()
-	out.Release()
-	return data, nil
-}
-
-type dictionaryHashState struct {
-	indicesKernel HashState
-	dictionary    arrow.Array
-	dictValueType arrow.DataType
-}
-
-func (dhs *dictionaryHashState) Allocator() memory.Allocator { return dhs.indicesKernel.Allocator() }
-func (dhs *dictionaryHashState) Reset() error                { return dhs.indicesKernel.Reset() }
-func (dhs *dictionaryHashState) Flush(out *exec.ExecResult) error {
-	return dhs.indicesKernel.Flush(out)
-}
-func (dhs *dictionaryHashState) FlushFinal(out *exec.ExecResult) error {
-	return dhs.indicesKernel.FlushFinal(out)
-}
-func (dhs *dictionaryHashState) GetDictionary() (arrow.ArrayData, error) {
-	return dhs.indicesKernel.GetDictionary()
-}
-func (dhs *dictionaryHashState) ValueType() arrow.DataType           { return dhs.indicesKernel.ValueType() }
-func (dhs *dictionaryHashState) DictionaryValueType() arrow.DataType { return dhs.dictValueType }
-func (dhs *dictionaryHashState) Dictionary() arrow.Array             { return dhs.dictionary }
-func (dhs *dictionaryHashState) Append(ctx *exec.KernelCtx, arr *exec.ArraySpan) error {
-	arrDict := arr.Dictionary().MakeArray()
-	if dhs.dictionary == nil || array.Equal(dhs.dictionary, arrDict) {
-		dhs.dictionary = arrDict
-		return dhs.indicesKernel.Append(ctx, arr)
-	}
-
-	defer arrDict.Release()
-
-	// NOTE: this approach computes a new dictionary unification per chunk
-	// this is in effect O(n*k) where n is the total chunked array length
-	// and k is the number of chunks (therefore O(n**2) if chunks have a fixed size).
-	//
-	// A better approach may be to run the kernel over each individual chunk,
-	// and then hash-aggregate all results (for example sum-group-by for
-	// the "value_counts" kernel)
-	unifier, err := array.NewDictionaryUnifier(dhs.indicesKernel.Allocator(), dhs.dictValueType)
-	if err != nil {
-		return err
-	}
-	defer unifier.Release()
-
-	if err := unifier.Unify(dhs.dictionary); err != nil {
-		return err
-	}
-	transposeMap, err := unifier.UnifyAndTranspose(arrDict)
-	if err != nil {
-		return err
-	}
-	defer transposeMap.Release()
-	_, outDict, err := unifier.GetResult()
-	if err != nil {
-		return err
-	}
-	defer func() {
-		dhs.dictionary.Release()
-		dhs.dictionary = outDict
-	}()
-
-	inDict := arr.MakeData()
-	defer inDict.Release()
-	tmp, err := array.TransposeDictIndices(dhs.Allocator(), inDict, arr.Type, arr.Type, outDict.Data(), arrow.Int32Traits.CastFromBytes(transposeMap.Bytes()))
-	if err != nil {
-		return err
-	}
-	defer tmp.Release()
-
-	var tmpSpan exec.ArraySpan
-	tmpSpan.SetMembers(tmp)
-	return dhs.indicesKernel.Append(ctx, &tmpSpan)
-}
-
-func nullHashInit(actionInit initAction) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		mem := exec.GetAllocator(ctx.Ctx)
-		ret := &nullHashState{
-			mem:    mem,
-			typ:    args.Inputs[0],
-			action: actionInit(args.Inputs[0], args.Options, mem),
-		}
-		ret.Reset()
-		return ret, nil
-	}
-}
-
-func newMemoTable(mem memory.Allocator, dt arrow.Type) (hashing.MemoTable, error) {
-	switch dt {
-	case arrow.INT8, arrow.UINT8:
-		return hashing.NewUint8MemoTable(0), nil
-	case arrow.INT16, arrow.UINT16:
-		return hashing.NewUint16MemoTable(0), nil
-	case arrow.INT32, arrow.UINT32, arrow.FLOAT32,
-		arrow.DATE32, arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return hashing.NewUint32MemoTable(0), nil
-	case arrow.INT64, arrow.UINT64, arrow.FLOAT64,
-		arrow.DATE64, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.INTERVAL_DAY_TIME:
-		return hashing.NewUint64MemoTable(0), nil
-	case arrow.BINARY, arrow.STRING, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128,
-		arrow.DECIMAL256, arrow.INTERVAL_MONTH_DAY_NANO:
-		return hashing.NewBinaryMemoTable(0, 0,
-			array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)), nil
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return hashing.NewBinaryMemoTable(0, 0,
-			array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)), nil
-	default:
-		return nil, fmt.Errorf("%w: unsupported type %s", arrow.ErrNotImplemented, dt)
-	}
-}
-
-func regularHashInit(dt arrow.DataType, actionInit initAction, appendFn func(Action, hashing.MemoTable, *exec.ArraySpan) error) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		mem := exec.GetAllocator(ctx.Ctx)
-		memoTable, err := newMemoTable(mem, dt.ID())
-		if err != nil {
-			return nil, err
-		}
-
-		ret := &regularHashState{
-			mem:       mem,
-			typ:       args.Inputs[0],
-			memoTable: memoTable,
-			action:    actionInit(args.Inputs[0], args.Options, mem),
-			doAppend:  appendFn,
-		}
-		ret.Reset()
-		return ret, nil
-	}
-}
-
-func dictionaryHashInit(actionInit initAction) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		var (
-			dictType      = args.Inputs[0].(*arrow.DictionaryType)
-			indicesHasher exec.KernelState
-			err           error
-		)
-
-		switch dictType.IndexType.ID() {
-		case arrow.INT8, arrow.UINT8:
-			indicesHasher, err = getHashInit(arrow.UINT8, actionInit)(ctx, args)
-		case arrow.INT16, arrow.UINT16:
-			indicesHasher, err = getHashInit(arrow.UINT16, actionInit)(ctx, args)
-		case arrow.INT32, arrow.UINT32:
-			indicesHasher, err = getHashInit(arrow.UINT32, actionInit)(ctx, args)
-		case arrow.INT64, arrow.UINT64:
-			indicesHasher, err = getHashInit(arrow.UINT64, actionInit)(ctx, args)
-		default:
-			return nil, fmt.Errorf("%w: unsupported dictionary index type", arrow.ErrInvalid)
-		}
-		if err != nil {
-			return nil, err
-		}
-
-		return &dictionaryHashState{
-			indicesKernel: indicesHasher.(HashState),
-			dictValueType: dictType.ValueType,
-		}, nil
-	}
-}
-
-type initAction func(arrow.DataType, any, memory.Allocator) Action
-
-func getHashInit(typeID arrow.Type, actionInit initAction) exec.KernelInitFn {
-	switch typeID {
-	case arrow.NULL:
-		return nullHashInit(actionInit)
-	case arrow.INT8, arrow.UINT8:
-		return regularHashInit(arrow.PrimitiveTypes.Uint8, actionInit, doAppendNumeric[uint8])
-	case arrow.INT16, arrow.UINT16:
-		return regularHashInit(arrow.PrimitiveTypes.Uint16, actionInit, doAppendNumeric[uint16])
-	case arrow.INT32, arrow.UINT32, arrow.FLOAT32,
-		arrow.DATE32, arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return regularHashInit(arrow.PrimitiveTypes.Uint32, actionInit, doAppendNumeric[uint32])
-	case arrow.INT64, arrow.UINT64, arrow.FLOAT64,
-		arrow.DATE64, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.INTERVAL_DAY_TIME:
-		return regularHashInit(arrow.PrimitiveTypes.Uint64, actionInit, doAppendNumeric[uint64])
-	case arrow.BINARY, arrow.STRING:
-		return regularHashInit(arrow.BinaryTypes.Binary, actionInit, doAppendBinary[int32])
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return regularHashInit(arrow.BinaryTypes.LargeBinary, actionInit, doAppendBinary[int64])
-	case arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256:
-		return regularHashInit(arrow.BinaryTypes.Binary, actionInit, doAppendFixedSize)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return regularHashInit(arrow.FixedWidthTypes.MonthDayNanoInterval, actionInit, doAppendFixedSize)
-	default:
-		debug.Assert(false, "unsupported hash init type")
-		return nil
-	}
-}
-
-func hashExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	impl, ok := ctx.State.(HashState)
-	if !ok {
-		return fmt.Errorf("%w: bad initialization of hash state", arrow.ErrInvalid)
-	}
-
-	if err := impl.Append(ctx, &batch.Values[0].Array); err != nil {
-		return err
-	}
-
-	return impl.Flush(out)
-}
-
-func uniqueFinalize(ctx *exec.KernelCtx, results []*exec.ArraySpan) ([]*exec.ArraySpan, error) {
-	impl, ok := ctx.State.(HashState)
-	if !ok {
-		return nil, fmt.Errorf("%w: HashState in invalid state", arrow.ErrInvalid)
-	}
-
-	for _, r := range results {
-		// release any pre-allocation we did
-		r.Release()
-	}
-
-	uniques, err := impl.GetDictionary()
-	if err != nil {
-		return nil, err
-	}
-	defer uniques.Release()
-
-	var out exec.ArraySpan
-	out.TakeOwnership(uniques)
-	return []*exec.ArraySpan{&out}, nil
-}
-
-func ensureHashDictionary(ctx *exec.KernelCtx, hash *dictionaryHashState) (*exec.ArraySpan, error) {
-	out := &exec.ArraySpan{}
-
-	if hash.dictionary != nil {
-		out.TakeOwnership(hash.dictionary.Data())
-		hash.dictionary.Release()
-		return out, nil
-	}
-
-	exec.FillZeroLength(hash.DictionaryValueType(), out)
-	return out, nil
-}
-
-func uniqueFinalizeDictionary(ctx *exec.KernelCtx, result []*exec.ArraySpan) (out []*exec.ArraySpan, err error) {
-	if out, err = uniqueFinalize(ctx, result); err != nil {
-		return
-	}
-
-	hash, ok := ctx.State.(*dictionaryHashState)
-	if !ok {
-		return nil, fmt.Errorf("%w: state should be *dictionaryHashState", arrow.ErrInvalid)
-	}
-
-	dict, err := ensureHashDictionary(ctx, hash)
-	if err != nil {
-		return nil, err
-	}
-	out[0].SetDictionary(dict)
-	return
-}
-
-func addHashKernels(base exec.VectorKernel, actionInit initAction, outTy exec.OutputType) []exec.VectorKernel {
-	kernels := make([]exec.VectorKernel, 0)
-	for _, ty := range primitiveTypes {
-		base.Init = getHashInit(ty.ID(), actionInit)
-		base.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewExactInput(ty)},
-			OutType:    outTy,
-		}
-		kernels = append(kernels, base)
-	}
-
-	parametricTypes := []arrow.Type{arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256,
-		arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTHS, arrow.INTERVAL_MONTH_DAY_NANO}
-	for _, ty := range parametricTypes {
-		base.Init = getHashInit(ty, actionInit)
-		base.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewIDInput(ty)},
-			OutType:    outTy,
-		}
-		kernels = append(kernels, base)
-	}
-
-	return kernels
-}
-
-func initUnique(dt arrow.DataType, _ any, mem memory.Allocator) Action {
-	return uniqueAction{mem: mem, dt: dt}
-}
-
-func GetVectorHashKernels() (unique, valueCounts, dictEncode []exec.VectorKernel) {
-	var base exec.VectorKernel
-	base.ExecFn = hashExec
-
-	// unique
-	base.Finalize = uniqueFinalize
-	base.OutputChunked = false
-	base.CanExecuteChunkWise = true
-	unique = addHashKernels(base, initUnique, OutputFirstType)
-
-	// dictionary unique
-	base.Init = dictionaryHashInit(initUnique)
-	base.Finalize = uniqueFinalizeDictionary
-	base.Signature = &exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-		OutType:    OutputFirstType,
-	}
-	unique = append(unique, base)
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/vector_run_end_encode.go b/go/arrow/compute/internal/kernels/vector_run_end_encode.go
deleted file mode 100644
index 08f8cf44b9206..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_run_end_encode.go
+++ /dev/null
@@ -1,957 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"bytes"
-	"fmt"
-	"sort"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type RunEndEncodeState struct {
-	RunEndType arrow.DataType
-}
-
-func (RunEndEncodeState) TypeName() string {
-	return "RunEndEncodeOptions"
-}
-
-type RunEndsType interface {
-	int16 | int32 | int64
-}
-
-func readFixedWidthVal[V arrow.FixedWidthType](inputValidity, inputValues []byte, offset int64, out *V) bool {
-	sz := int64(unsafe.Sizeof(*out))
-	*out = *(*V)(unsafe.Pointer(&inputValues[offset*sz]))
-	return bitutil.BitIsSet(inputValidity, int(offset))
-}
-
-func writeFixedWidthVal[V arrow.FixedWidthType](result *exec.ExecResult, offset int64, valid bool, value V) {
-	if len(result.Buffers[0].Buf) != 0 {
-		bitutil.SetBitTo(result.Buffers[0].Buf, int(offset), valid)
-	}
-
-	arr := arrow.GetData[V](result.Buffers[1].Buf)
-	arr[offset] = value
-}
-
-func readBoolVal(inputValidity, inputValues []byte, offset int64, out *bool) bool {
-	*out = bitutil.BitIsSet(inputValues, int(offset))
-	return bitutil.BitIsSet(inputValidity, int(offset))
-}
-
-func writeBoolVal(result *exec.ExecResult, offset int64, valid bool, value bool) {
-	if len(result.Buffers[0].Buf) != 0 {
-		bitutil.SetBitTo(result.Buffers[0].Buf, int(offset), valid)
-	}
-	bitutil.SetBitTo(result.Buffers[1].Buf, int(offset), value)
-}
-
-type runEndEncodeLoopFixedWidth[R RunEndsType, V arrow.FixedWidthType | bool] struct {
-	inputLen, inputOffset int64
-	inputValidity         []byte
-	inputValues           []byte
-	valueType             arrow.DataType
-
-	readValue  func(inputValidity, inputValues []byte, offset int64, out *V) bool
-	writeValue func(*exec.ExecResult, int64, bool, V)
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-
-	readOffset := re.inputOffset
-	var currentRun V
-	curRunValid := re.readValue(re.inputValidity, re.inputValues, readOffset, &currentRun)
-	readOffset++
-
-	var writeOffset int64
-	var value V
-	for readOffset < re.inputOffset+re.inputLen {
-		valid := re.readValue(re.inputValidity, re.inputValues, readOffset, &value)
-		if valid != curRunValid || value != currentRun {
-			// close the current run by writing it out
-			re.writeValue(&out.Children[1], writeOffset, curRunValid, currentRun)
-			runEnd := R(readOffset - re.inputOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-		readOffset++
-	}
-
-	re.writeValue(&out.Children[1], writeOffset, curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) CountNumberOfRuns() (numValid, numOutput int64) {
-	offset := re.inputOffset
-	var currentRun V
-	curRunValid := re.readValue(re.inputValidity, re.inputValues, offset, &currentRun)
-	offset++
-
-	if curRunValid {
-		numValid = 1
-	}
-	numOutput = 1
-
-	var value V
-	for offset < re.inputOffset+re.inputLen {
-		valid := re.readValue(re.inputValidity, re.inputValues, offset, &value)
-		offset++
-		// new run
-		if valid != curRunValid || value != currentRun {
-			currentRun = value
-			curRunValid = valid
-
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	var valueBuffer *memory.Buffer
-	bufSpec := re.valueType.Layout().Buffers[1]
-	if bufSpec.Kind == arrow.KindBitmap {
-		valueBuffer = ctx.AllocateBitmap(numOutput)
-	} else {
-		valueBuffer = ctx.Allocate(int(numOutput) * bufSpec.ByteWidth)
-	}
-
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	out.Release()
-
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(valueBuffer)
-}
-
-type runEndEncodeFSB[R RunEndsType] struct {
-	inputLen, inputOffset      int64
-	inputValidity, inputValues []byte
-	valueType                  arrow.DataType
-	width                      int
-}
-
-func (re *runEndEncodeFSB[R]) readValue(idx int64) ([]byte, bool) {
-	if len(re.inputValidity) > 0 && bitutil.BitIsNotSet(re.inputValidity, int(idx)) {
-		return nil, false
-	}
-
-	start, end := idx*int64(re.width), (idx+1)*int64(re.width)
-	return re.inputValues[start:end], true
-}
-
-func (re *runEndEncodeFSB[R]) CountNumberOfRuns() (numValid, numOutput int64) {
-	offset := re.inputOffset
-	currentRun, curRunValid := re.readValue(offset)
-	offset++
-
-	if curRunValid {
-		numValid++
-	}
-	numOutput = 1
-
-	for offset < re.inputOffset+re.inputLen {
-		value, valid := re.readValue(offset)
-		offset++
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			currentRun, curRunValid = value, valid
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeFSB[R]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	valueBuffer := ctx.Allocate(re.width * int(numOutput))
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	out.Release()
-
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(valueBuffer)
-}
-
-func (re *runEndEncodeFSB[R]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-	outputValues := out.Children[1].Buffers[1].Buf
-
-	readOffset := re.inputOffset
-	currentRun, curRunValid := re.readValue(readOffset)
-	readOffset++
-
-	var writeOffset int64
-	validityBuf := out.Children[1].Buffers[0].Buf
-	setValidity := func(valid bool) {}
-	if len(validityBuf) > 0 {
-		setValidity = func(valid bool) {
-			bitutil.SetBitTo(validityBuf, int(writeOffset), valid)
-		}
-	}
-
-	writeValue := func(valid bool, value []byte) {
-		setValidity(valid)
-		start := writeOffset * int64(re.width)
-		copy(outputValues[start:], value)
-	}
-
-	for readOffset < re.inputOffset+re.inputLen {
-		value, valid := re.readValue(readOffset)
-
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			writeValue(curRunValid, currentRun)
-			runEnd := R(readOffset - re.inputOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-
-		readOffset++
-	}
-
-	writeValue(curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-type runEndEncodeLoopBinary[R RunEndsType, O int32 | int64] struct {
-	inputLen, inputOffset      int64
-	inputValidity, inputValues []byte
-	offsetValues               []O
-	valueType                  arrow.DataType
-
-	estimatedValuesLen int64
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) readValue(idx int64) ([]byte, bool) {
-	if len(re.inputValidity) > 0 && bitutil.BitIsNotSet(re.inputValidity, int(idx+re.inputOffset)) {
-		return nil, false
-	}
-
-	start, end := re.offsetValues[idx], re.offsetValues[idx+1]
-	return re.inputValues[start:end], true
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) CountNumberOfRuns() (numValid, numOutput int64) {
-	re.estimatedValuesLen = 0
-	// re.offsetValues already accounts for the input.Offset so we don't
-	// need to use it as the initial value for `offset` here.
-	var offset int64
-	currentRun, curRunValid := re.readValue(offset)
-	offset++
-
-	if curRunValid {
-		numValid = 1
-		re.estimatedValuesLen += int64(len(currentRun))
-	}
-	numOutput = 1
-
-	for offset < re.inputLen {
-		value, valid := re.readValue(offset)
-		offset++
-		// new run
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			if valid {
-				re.estimatedValuesLen += int64(len(value))
-			}
-
-			currentRun = value
-			curRunValid = valid
-
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	valueBuffer := ctx.Allocate(int(re.estimatedValuesLen))
-	offsetsBuffer := ctx.Allocate(int(numOutput+1) * int(SizeOf[O]()))
-
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(offsetsBuffer)
-	out.Children[1].Buffers[2].WrapBuffer(valueBuffer)
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-	outputOffsets := exec.GetSpanOffsets[O](&out.Children[1], 1)
-	outputValues := out.Children[1].Buffers[2].Buf
-
-	// re.offsetValues already accounts for the input.offset so we don't
-	// need to initialize readOffset to re.inputOffset
-	var readOffset int64
-	currentRun, curRunValid := re.readValue(readOffset)
-	readOffset++
-
-	var writeOffset, valueOffset int64
-	validityBuf := out.Children[1].Buffers[0].Buf
-	setValidity := func(valid bool) {}
-	if len(validityBuf) > 0 {
-		setValidity = func(valid bool) {
-			bitutil.SetBitTo(validityBuf, int(writeOffset), valid)
-		}
-	}
-
-	outputOffsets[0], outputOffsets = 0, outputOffsets[1:]
-
-	writeValue := func(valid bool, value []byte) {
-		setValidity(valid)
-		valueOffset += int64(copy(outputValues[valueOffset:], value))
-		outputOffsets[writeOffset] = O(valueOffset)
-	}
-
-	for readOffset < re.inputLen {
-		value, valid := re.readValue(readOffset)
-
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			writeValue(curRunValid, currentRun)
-			runEnd := R(readOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-		readOffset++
-	}
-
-	writeValue(curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-func validateRunEndType[R RunEndsType](length int64) error {
-	runEndMax := MaxOf[R]()
-	if length > int64(runEndMax) {
-		return fmt.Errorf("%w: cannot run-end encode arrays with more elements than the run end type can hold: %d",
-			arrow.ErrInvalid, runEndMax)
-	}
-	return nil
-}
-
-func createEncoder[R RunEndsType, V arrow.FixedWidthType](input *exec.ArraySpan) *runEndEncodeLoopFixedWidth[R, V] {
-	return &runEndEncodeLoopFixedWidth[R, V]{
-		inputLen:      input.Len,
-		inputOffset:   input.Offset,
-		inputValidity: input.Buffers[0].Buf,
-		inputValues:   input.Buffers[1].Buf,
-		valueType:     input.Type,
-		readValue:     readFixedWidthVal[V],
-		writeValue:    writeFixedWidthVal[V],
-	}
-}
-
-func createVarBinaryEncoder[R RunEndsType, O int32 | int64](input *exec.ArraySpan) *runEndEncodeLoopBinary[R, O] {
-	return &runEndEncodeLoopBinary[R, O]{
-		inputLen:      input.Len,
-		inputOffset:   input.Offset,
-		inputValidity: input.Buffers[0].Buf,
-		inputValues:   input.Buffers[2].Buf,
-		// exec.GetSpanOffsets applies input.Offset to the resulting slice
-		offsetValues: exec.GetSpanOffsets[O](input, 1),
-		valueType:    input.Type,
-	}
-}
-
-func newEncoder[R RunEndsType](input *exec.ArraySpan) encoder {
-	switch input.Type.ID() {
-	case arrow.BOOL:
-		return &runEndEncodeLoopFixedWidth[R, bool]{
-			inputLen:      input.Len,
-			inputOffset:   input.Offset,
-			inputValidity: input.Buffers[0].Buf,
-			inputValues:   input.Buffers[1].Buf,
-			valueType:     input.Type,
-			readValue:     readBoolVal,
-			writeValue:    writeBoolVal,
-		}
-	// for the other fixed size types, we only need to
-	// handle the different physical representations.
-	case arrow.INT8, arrow.UINT8:
-		return createEncoder[R, uint8](input)
-	case arrow.INT16, arrow.UINT16:
-		return createEncoder[R, uint16](input)
-	case arrow.INT32, arrow.UINT32, arrow.DATE32,
-		arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return createEncoder[R, uint32](input)
-	case arrow.INT64, arrow.UINT64, arrow.DATE64,
-		arrow.TIME64, arrow.DURATION, arrow.TIMESTAMP:
-		return createEncoder[R, uint64](input)
-	case arrow.FLOAT16:
-		return createEncoder[R, float16.Num](input)
-	case arrow.FLOAT32:
-		return createEncoder[R, float32](input)
-	case arrow.FLOAT64:
-		return createEncoder[R, float64](input)
-	case arrow.DECIMAL128:
-		return createEncoder[R, decimal128.Num](input)
-	case arrow.DECIMAL256:
-		return createEncoder[R, decimal256.Num](input)
-	case arrow.INTERVAL_DAY_TIME:
-		return createEncoder[R, arrow.DayTimeInterval](input)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return createEncoder[R, arrow.MonthDayNanoInterval](input)
-	case arrow.BINARY, arrow.STRING:
-		return createVarBinaryEncoder[R, int32](input)
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return createVarBinaryEncoder[R, int64](input)
-	case arrow.FIXED_SIZE_BINARY:
-		return &runEndEncodeFSB[R]{
-			inputLen:      input.Len,
-			inputOffset:   input.Offset,
-			inputValidity: input.Buffers[0].Buf,
-			inputValues:   input.Buffers[1].Buf,
-			valueType:     input.Type,
-			width:         input.Type.(*arrow.FixedSizeBinaryType).ByteWidth,
-		}
-	}
-	return nil
-}
-
-type encoder interface {
-	CountNumberOfRuns() (numValid, numOutput int64)
-	PreallocOutput(*exec.KernelCtx, int64, *exec.ExecResult)
-	WriteEncodedRuns(*exec.ExecResult) int64
-}
-
-func runEndEncodeImpl[R RunEndsType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// first pass: count the number of runs
-	var (
-		inputArr      = &batch.Values[0].Array
-		inputLen      = inputArr.Len
-		numOutputRuns int64
-		numValidRuns  int64
-		enc           encoder
-	)
-
-	if inputLen == 0 {
-		reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), inputArr.Type)
-		*out = exec.ExecResult{
-			Type: reeType,
-			Children: []exec.ArraySpan{
-				{Type: reeType.RunEnds()}, {Type: reeType.Encoded()},
-			},
-		}
-		return nil
-	}
-
-	if err := validateRunEndType[R](inputLen); err != nil {
-		return err
-	}
-
-	enc = newEncoder[R](inputArr)
-	numValidRuns, numOutputRuns = enc.CountNumberOfRuns()
-	enc.PreallocOutput(ctx, numOutputRuns, out)
-
-	out.Children[1].Nulls = numOutputRuns - numValidRuns
-
-	written := enc.WriteEncodedRuns(out)
-	debug.Assert(written == numOutputRuns, "mismatch number of written values")
-	return nil
-}
-
-func runEndEncodeExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	reeType := ctx.State.(RunEndEncodeState).RunEndType
-	switch reeType.ID() {
-	case arrow.INT16:
-		return runEndEncodeImpl[int16](ctx, batch, out)
-	case arrow.INT32:
-		return runEndEncodeImpl[int32](ctx, batch, out)
-	case arrow.INT64:
-		return runEndEncodeImpl[int64](ctx, batch, out)
-	}
-
-	return fmt.Errorf("%w: bad run end type %s", arrow.ErrInvalid, reeType)
-}
-
-type decodeBool[R RunEndsType] struct {
-	inputLen, inputOffset int64
-	inputRunEnds          []R
-
-	inputPhysicalOffset int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputValueOffset    int64
-}
-
-func (de *decodeBool[R]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	*out = exec.ExecResult{
-		Type: arrow.FixedWidthTypes.Boolean,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-}
-
-func (de *decodeBool[R]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset         int64
-		runLength, numValid int64
-		outputValues        = out.Buffers[1].Buf
-		prevRunEnd          = R(de.inputOffset)
-		hasValidity         = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity {
-			if bitutil.BitIsNotSet(de.inputValidity, int(de.inputValueOffset+de.inputPhysicalOffset)+i) {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-				writeOffset += runLength
-				continue
-			}
-
-			// if the output has a validity bitmap, update it with 1s
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-		}
-
-		// get the value for this run + where to start writing
-		value := bitutil.BitIsSet(de.inputValues, int(de.inputValueOffset+de.inputPhysicalOffset)+i)
-		bitutil.SetBitsTo(outputValues, writeOffset, runLength, value)
-		writeOffset += runLength
-		numValid += runLength
-	}
-
-	return numValid
-}
-
-type decodeFixedWidth[R RunEndsType] struct {
-	inputLen, inputOffset int64
-	inputRunEnds          []R
-
-	inputPhysicalOffset int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputValueOffset    int64
-
-	valueType arrow.DataType
-}
-
-func (de *decodeFixedWidth[R]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	*out = exec.ExecResult{
-		Type: de.valueType,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(de.inputLen) * de.valueType.(arrow.FixedWidthDataType).Bytes()))
-}
-
-func (de *decodeFixedWidth[R]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset         int64
-		runLength, numValid int64
-		outputValues        = out.Buffers[1].Buf
-		width               = de.valueType.(arrow.FixedWidthDataType).Bytes()
-		inputValues         = de.inputValues[(de.inputValueOffset+de.inputPhysicalOffset)*int64(width):]
-		prevRunEnd          = R(de.inputOffset)
-		hasValidity         = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity {
-			if bitutil.BitIsNotSet(de.inputValidity, int(de.inputValueOffset+de.inputPhysicalOffset)+i) {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-				writeOffset += runLength
-				continue
-			}
-
-			// if the output has a validity bitmap, update it with 1s
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-		}
-
-		// get the value for this run + where to start writing
-		var (
-			value       = inputValues[i*width : (i+1)*width]
-			outputStart = writeOffset * int64(width)
-		)
-		writeOffset += runLength
-		numValid += runLength
-
-		// get the slice of our output buffer we want to fill
-		// just incrementally duplicate the bytes until we've filled
-		// the slice with runLength copies of the value
-		outputSlice := outputValues[outputStart : writeOffset*int64(width)]
-		copy(outputSlice, value)
-		for j := width; j < len(outputSlice); j *= 2 {
-			copy(outputSlice[j:], outputSlice[:j])
-		}
-	}
-
-	return numValid
-}
-
-type decodeBinary[R RunEndsType, O int32 | int64] struct {
-	inputLen, inputLogicalOffset int64
-	inputRunEnds                 []R
-
-	inputPhysicalOffset int64
-	inputValuesOffset   int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputOffsets        []O
-
-	valueType arrow.DataType
-}
-
-func (de *decodeBinary[R, O]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	var (
-		runLength  int64
-		prevRunEnd = R(de.inputLogicalOffset)
-		totalSize  int
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-
-		start := de.inputOffsets[de.inputPhysicalOffset+int64(i)]
-		end := de.inputOffsets[de.inputPhysicalOffset+int64(i)+1]
-
-		totalSize += int(end-start) * int(runLength)
-	}
-
-	*out = exec.ExecResult{
-		Type: de.valueType,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(de.inputLen+1) * int(SizeOf[O]())))
-	out.Buffers[2].WrapBuffer(ctx.Allocate(totalSize))
-}
-
-func (de *decodeBinary[R, O]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset, valueWriteOffset int64
-		runLength, numValid           int64
-		outputOffsets                 = exec.GetSpanOffsets[O](out, 1)
-		outputValues                  = out.Buffers[2].Buf
-		prevRunEnd                    = R(de.inputLogicalOffset)
-		hasValidity                   = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity && bitutil.BitIsNotSet(de.inputValidity, int(de.inputValuesOffset+de.inputPhysicalOffset)+i) {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-		} else {
-			numValid += runLength
-			if hasValidity {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-			}
-		}
-
-		// get the value for this run + where to start writing
-		// de.inputOffsets already accounts for inputOffset so we don't
-		// need to add it here, we can just use the physicaloffset and that's
-		// sufficient to get the correct values.
-		var (
-			start = de.inputOffsets[de.inputPhysicalOffset+int64(i)]
-			end   = de.inputOffsets[de.inputPhysicalOffset+int64(i)+1]
-			value = de.inputValues[start:end]
-
-			outputValueEnd = valueWriteOffset + int64(len(value)*int(runLength))
-		)
-
-		// get the slice of our output buffer we want to fill
-		// just incrementally duplicate the bytes until we've filled
-		// the slice with runLength copies of the value
-		outputSlice := outputValues[valueWriteOffset:outputValueEnd]
-		copy(outputSlice, value)
-		for j := len(value); j < len(outputSlice); j *= 2 {
-			copy(outputSlice[j:], outputSlice[:j])
-		}
-
-		for j := int64(0); j < runLength; j++ {
-			outputOffsets[writeOffset+j] = O(valueWriteOffset)
-			valueWriteOffset += int64(len(value))
-		}
-
-		writeOffset += runLength
-	}
-
-	outputOffsets[writeOffset] = O(valueWriteOffset)
-	return numValid
-}
-
-type decoder interface {
-	PreallocOutput(*exec.KernelCtx, *exec.ExecResult)
-	ExpandAllRuns(*exec.ExecResult) int64
-}
-
-func newDecoder[R RunEndsType](input *exec.ArraySpan) decoder {
-	logicalOffset := R(input.Offset)
-	runEnds := exec.GetSpanValues[R](&input.Children[0], 1)
-	physicalOffset := sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > logicalOffset })
-
-	switch dt := input.Children[1].Type.(type) {
-	case *arrow.BooleanType:
-		return &decodeBool[R]{
-			inputLen:            input.Len,
-			inputOffset:         input.Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[1].Buf,
-			inputValueOffset:    input.Children[1].Offset,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputRunEnds:        runEnds,
-		}
-	case *arrow.BinaryType, *arrow.StringType:
-		return &decodeBinary[R, int32]{
-			inputLen:            input.Len,
-			inputLogicalOffset:  input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValuesOffset:   input.Children[1].Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[2].Buf,
-			inputOffsets:        exec.GetSpanOffsets[int32](&input.Children[1], 1),
-			valueType:           input.Children[1].Type,
-		}
-	case *arrow.LargeBinaryType, *arrow.LargeStringType:
-		return &decodeBinary[R, int64]{
-			inputLen:            input.Len,
-			inputLogicalOffset:  input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValuesOffset:   input.Children[1].Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[2].Buf,
-			inputOffsets:        exec.GetSpanOffsets[int64](&input.Children[1], 1),
-			valueType:           input.Children[1].Type,
-		}
-	case arrow.FixedWidthDataType:
-		return &decodeFixedWidth[R]{
-			inputLen:            input.Len,
-			inputOffset:         input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[1].Buf,
-			inputValueOffset:    input.Children[1].Offset,
-			valueType:           dt,
-		}
-	}
-
-	return nil
-}
-
-func runEndDecodeImpl[R RunEndsType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inputArr := &batch.Values[0].Array
-
-	if inputArr.Len == 0 {
-		return nil
-	}
-
-	dec := newDecoder[R](inputArr)
-	dec.PreallocOutput(ctx, out)
-	out.Nulls = inputArr.Len - dec.ExpandAllRuns(out)
-	return nil
-}
-
-func runEndDecodeExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	reeType := batch.Values[0].Type().(*arrow.RunEndEncodedType)
-	switch reeType.RunEnds().ID() {
-	case arrow.INT16:
-		return runEndDecodeImpl[int16](ctx, batch, out)
-	case arrow.INT32:
-		return runEndDecodeImpl[int32](ctx, batch, out)
-	case arrow.INT64:
-		return runEndDecodeImpl[int64](ctx, batch, out)
-	}
-
-	return fmt.Errorf("%w: bad run end type %s", arrow.ErrInvalid, reeType.RunEnds())
-}
-
-func runEndEncodeOutputTypeResolver(ctx *exec.KernelCtx, inputTypes []arrow.DataType) (arrow.DataType, error) {
-	reeType := ctx.State.(RunEndEncodeState).RunEndType
-	return arrow.RunEndEncodedOf(reeType, inputTypes[0]), nil
-}
-
-func runEndDecodeOutputTypeResolver(ctx *exec.KernelCtx, inputTypes []arrow.DataType) (arrow.DataType, error) {
-	reeType := inputTypes[0].(*arrow.RunEndEncodedType)
-	return reeType.Encoded(), nil
-}
-
-func GetRunEndEncodeKernels() (encodeKns, decodeKns []exec.VectorKernel) {
-	baseEncode := exec.VectorKernel{
-		NullHandling:        exec.NullNoOutput,
-		MemAlloc:            exec.MemNoPrealloc,
-		CanExecuteChunkWise: true,
-		ExecFn:              runEndEncodeExec,
-		OutputChunked:       true,
-	}
-
-	baseDecode := exec.VectorKernel{
-		NullHandling:        exec.NullNoOutput,
-		MemAlloc:            exec.MemNoPrealloc,
-		CanExecuteChunkWise: true,
-		ExecFn:              runEndDecodeExec,
-		OutputChunked:       true,
-	}
-
-	baseEncode.Init = exec.OptionsInit[RunEndEncodeState]
-
-	encodeKns, decodeKns = make([]exec.VectorKernel, 0), make([]exec.VectorKernel, 0)
-	addKernel := func(ty arrow.Type) {
-		baseEncode.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewIDInput(ty)},
-			OutType:    exec.NewComputedOutputType(runEndEncodeOutputTypeResolver),
-		}
-		encodeKns = append(encodeKns, baseEncode)
-
-		baseDecode.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewMatchedInput(
-				exec.RunEndEncoded(exec.Integer(), exec.SameTypeID(ty)))},
-			OutType: exec.NewComputedOutputType(runEndDecodeOutputTypeResolver),
-		}
-		decodeKns = append(decodeKns, baseDecode)
-	}
-
-	for _, ty := range primitiveTypes {
-		addKernel(ty.ID())
-	}
-	addKernel(arrow.BOOL)
-
-	nonPrimitiveSupported := []arrow.Type{
-		arrow.FLOAT16, arrow.DECIMAL128, arrow.DECIMAL256,
-		arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTHS,
-		arrow.INTERVAL_MONTH_DAY_NANO,
-		arrow.FIXED_SIZE_BINARY,
-	}
-
-	for _, ty := range nonPrimitiveSupported {
-		addKernel(ty)
-	}
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/vector_selection.go b/go/arrow/compute/internal/kernels/vector_selection.go
deleted file mode 100644
index e96782f4cd5ea..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_selection.go
+++ /dev/null
@@ -1,1789 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-type NullSelectionBehavior int8
-
-const (
-	DropNulls NullSelectionBehavior = iota
-	EmitNulls
-)
-
-type FilterOptions struct {
-	NullSelection NullSelectionBehavior `compute:"null_selection_behavior"`
-}
-
-func (FilterOptions) TypeName() string { return "FilterOptions" }
-
-type FilterState = FilterOptions
-
-type TakeOptions struct {
-	BoundsCheck bool
-}
-
-func (TakeOptions) TypeName() string { return "TakeOptions" }
-
-type TakeState = TakeOptions
-
-func getFilterOutputSize(filter *exec.ArraySpan, nullSelection NullSelectionBehavior) (size int64) {
-	if filter.MayHaveNulls() {
-		counter := bitutils.NewBinaryBitBlockCounter(filter.Buffers[1].Buf,
-			filter.Buffers[0].Buf, filter.Offset, filter.Offset, filter.Len)
-
-		pos := int64(0)
-		if nullSelection == EmitNulls {
-			for pos < filter.Len {
-				block := counter.NextOrNotWord()
-				size += int64(block.Popcnt)
-				pos += int64(block.Len)
-			}
-		} else {
-			for pos < filter.Len {
-				block := counter.NextAndWord()
-				size += int64(block.Popcnt)
-				pos += int64(block.Len)
-			}
-		}
-		return
-	}
-
-	// filter has no nulls, so we can just use CountSetBits
-	return int64(bitutil.CountSetBits(filter.Buffers[1].Buf, int(filter.Offset), int(filter.Len)))
-}
-
-func preallocateData(ctx *exec.KernelCtx, length int64, bitWidth int, allocateValidity bool, out *exec.ExecResult) {
-	out.Len = length
-	if allocateValidity {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(length))
-	}
-	if bitWidth == 1 {
-		out.Buffers[1].WrapBuffer(ctx.AllocateBitmap(length))
-	} else {
-		out.Buffers[1].WrapBuffer(ctx.Allocate(int(length) * (bitWidth / 8)))
-	}
-}
-
-type builder[T any] interface {
-	array.Builder
-	Append(T)
-	UnsafeAppend(T)
-	UnsafeAppendBoolToBitmap(bool)
-}
-
-func getTakeIndices[T arrow.IntType | arrow.UintType](mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) arrow.ArrayData {
-	var (
-		filterData      = filter.Buffers[1].Buf
-		haveFilterNulls = filter.MayHaveNulls()
-		filterIsValid   = filter.Buffers[0].Buf
-		idxType         = arrow.GetDataType[T]()
-	)
-
-	if haveFilterNulls && nullSelect == EmitNulls {
-		// Most complex case: the filter may have nulls and we don't drop them.
-		// The logic is ternary:
-		// - filter is null: emit null
-		// - filter is valid and true: emit index
-		// - filter is valid and false: don't emit anything
-
-		bldr := array.NewBuilder(mem, idxType).(builder[T])
-		defer bldr.Release()
-
-		// position relative to start of filter
-		var pos T
-		// current position taking the filter offset into account
-		posWithOffset := filter.Offset
-
-		// to count blocks where filterData[i] || !filterIsValid[i]
-		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
-		isValidCounter := bitutils.NewBitBlockCounter(filterIsValid, filter.Offset, filter.Len)
-		for int64(pos) < filter.Len {
-			// true OR NOT valid
-			selectedOrNullBlock := filterCounter.NextOrNotWord()
-			if selectedOrNullBlock.NoneSet() {
-				pos += T(selectedOrNullBlock.Len)
-				posWithOffset += int64(selectedOrNullBlock.Len)
-				continue
-			}
-			bldr.Reserve(int(selectedOrNullBlock.Popcnt))
-
-			// if the values are all valid and the selectedOrNullBlock
-			// is full, then we can infer that all the values are true
-			// and skip the bit checking
-			isValidBlock := isValidCounter.NextWord()
-			if selectedOrNullBlock.AllSet() && isValidBlock.AllSet() {
-				// all the values are selected and non-null
-				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
-					bldr.UnsafeAppend(pos)
-					pos++
-				}
-				posWithOffset += int64(selectedOrNullBlock.Len)
-			} else {
-				// some of the values are false or null
-				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) {
-						if bitutil.BitIsSet(filterData, int(posWithOffset)) {
-							bldr.UnsafeAppend(pos)
-						}
-					} else {
-						// null slot, append null
-						bldr.UnsafeAppendBoolToBitmap(false)
-					}
-					pos++
-					posWithOffset++
-				}
-			}
-		}
-
-		result := bldr.NewArray()
-		defer result.Release()
-		result.Data().Retain()
-		return result.Data()
-	}
-
-	bldr := newBufferBuilder[T](mem)
-	if haveFilterNulls {
-		// the filter may have nulls, so we scan the validity bitmap
-		// and the filter data bitmap together
-		debug.Assert(nullSelect == DropNulls, "incorrect nullselect logic")
-
-		// position relative to start of the filter
-		var pos T
-		// current position taking the filter offset into account
-		posWithOffset := filter.Offset
-
-		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
-		for int64(pos) < filter.Len {
-			andBlock := filterCounter.NextAndWord()
-			bldr.reserve(int(andBlock.Popcnt))
-			if andBlock.AllSet() {
-				// all the values are selected and non-null
-				for i := 0; i < int(andBlock.Len); i++ {
-					bldr.unsafeAppend(pos)
-					pos++
-				}
-				posWithOffset += int64(andBlock.Len)
-			} else if !andBlock.NoneSet() {
-				// some values are false or null
-				for i := 0; i < int(andBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) && bitutil.BitIsSet(filterData, int(posWithOffset)) {
-						bldr.unsafeAppend(pos)
-					}
-					pos++
-					posWithOffset++
-				}
-			} else {
-				pos += T(andBlock.Len)
-				posWithOffset += int64(andBlock.Len)
-			}
-		}
-	} else {
-		// filter has no nulls, so we only need to look for true values
-		bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
-			func(pos, length int64) error {
-				// append consecutive run of indices
-				bldr.reserve(int(length))
-				for i := int64(0); i < length; i++ {
-					bldr.unsafeAppend(T(pos + i))
-				}
-				return nil
-			})
-	}
-
-	length := bldr.len()
-	outBuf := bldr.finish()
-	defer outBuf.Release()
-	return array.NewData(idxType, length, []*memory.Buffer{nil, outBuf}, nil, 0, 0)
-}
-
-func GetTakeIndices(mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) (arrow.ArrayData, error) {
-	debug.Assert(filter.Type.ID() == arrow.BOOL, "filter should be a boolean array")
-	if filter.Len < math.MaxUint16 {
-		return getTakeIndices[uint16](mem, filter, nullSelect), nil
-	} else if filter.Len < math.MaxUint32 {
-		return getTakeIndices[uint32](mem, filter, nullSelect), nil
-	}
-	return nil, fmt.Errorf("%w: filter length exceeds UINT32_MAX, consider a different strategy for selecting elements",
-		arrow.ErrNotImplemented)
-}
-
-type writeFiltered interface {
-	OutPos() int
-	WriteValue(int64)
-	WriteValueSegment(int64, int64)
-	WriteNull()
-}
-
-type dropNullCounter struct {
-	dataCounter         bitutils.BitBlockCounter
-	dataValidityCounter bitutils.BinaryBitBlockCounter
-	hasValidity         bool
-}
-
-func newDropNullCounter(validity []byte, data []byte, offset int64, length int64) *dropNullCounter {
-	return &dropNullCounter{
-		dataCounter:         *bitutils.NewBitBlockCounter(data, offset, length),
-		dataValidityCounter: *bitutils.NewBinaryBitBlockCounter(data, validity, offset, offset, length),
-		hasValidity:         len(validity) > 0,
-	}
-}
-
-func (n *dropNullCounter) NextBlock() bitutils.BitBlockCount {
-	if n.hasValidity {
-		// filter is true AND not null
-		return n.dataValidityCounter.NextAndWord()
-	}
-	return n.dataCounter.NextWord()
-}
-
-func primitiveFilterImpl(wr writeFiltered, values *exec.ArraySpan, filter *exec.ArraySpan, nullSelection NullSelectionBehavior, out *exec.ExecResult) {
-	var (
-		valuesIsValid = values.Buffers[0].Buf
-		filterIsValid = filter.Buffers[0].Buf
-		filterData    = filter.Buffers[1].Buf
-		outIsValid    = out.Buffers[0].Buf
-	)
-
-	if filter.Nulls == 0 && values.Nulls == 0 {
-		// fast filter path when values and filters have no nulls
-		bitutils.VisitSetBitRuns(filterData, filter.Offset, values.Len,
-			func(pos, length int64) error {
-				wr.WriteValueSegment(pos, length)
-				return nil
-			})
-		return
-	}
-
-	var (
-		dropNulls          = newDropNullCounter(filterIsValid, filterData, filter.Offset, values.Len)
-		dataCounter        = bitutils.NewOptionalBitBlockCounter(valuesIsValid, values.Offset, values.Len)
-		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filter.Offset, values.Len)
-		writeNotNull       = func(idx int64) {
-			bitutil.SetBit(outIsValid, int(out.Offset)+wr.OutPos())
-			wr.WriteValue(idx)
-		}
-		writeMaybeNull = func(idx int64) {
-			bitutil.SetBitTo(outIsValid, int(out.Offset)+wr.OutPos(),
-				bitutil.BitIsSet(valuesIsValid, int(values.Offset+idx)))
-			wr.WriteValue(idx)
-		}
-		inPos int64
-	)
-
-	for inPos < values.Len {
-		filterBlock := dropNulls.NextBlock()
-		filterValidBlock := filterValidCounter.NextWord()
-		dataBlock := dataCounter.NextWord()
-
-		switch {
-		case filterBlock.AllSet() && dataBlock.AllSet():
-			// faster path: all values in block are included and not null
-			bitutil.SetBitsTo(outIsValid, out.Offset+int64(wr.OutPos()), int64(filterBlock.Len), true)
-			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
-			inPos += int64(filterBlock.Len)
-		case filterBlock.AllSet():
-			// faster: all values are selected, but some are null
-			// batch copy bits from values validity bitmap to output validity bitmap
-			bitutil.CopyBitmap(valuesIsValid, int(values.Offset+inPos), int(filterBlock.Len),
-				outIsValid, int(out.Offset)+wr.OutPos())
-			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
-			inPos += int64(filterBlock.Len)
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move onto the next block
-			inPos += int64(filterBlock.Len)
-		default:
-			// some filter values are false or null
-			if dataBlock.AllSet() {
-				// no values are null
-				if filterValidBlock.AllSet() {
-					// filter is non-null but some values are false
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeNotNull(inPos)
-						}
-						inPos++
-					}
-				} else if nullSelection == DropNulls {
-					// if any values are selected, they ARE NOT  null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeNotNull(inPos)
-						}
-						inPos++
-					}
-				} else { // nullselect == EmitNulls
-					// data values in this block are not null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
-						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							// filter slot is non-null and set
-							writeNotNull(inPos)
-						} else if !isValid {
-							// filter slot is null, so we have a null in the output
-							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
-							wr.WriteNull()
-						}
-						inPos++
-					}
-				}
-			} else { // !dataBlock.AllSet()
-				// some values are null
-				if filterValidBlock.AllSet() {
-					// filter is non-null but some values are false
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeMaybeNull(inPos)
-						}
-						inPos++
-					}
-				} else if nullSelection == DropNulls {
-					// if any values are selected they ARE NOT null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeMaybeNull(inPos)
-						}
-						inPos++
-					}
-				} else { // nullselect == emitnulls
-					// Data values in this block are not null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
-						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							// filter slot is non-null and set
-							writeMaybeNull(inPos)
-						} else if !isValid {
-							// filter slot is null, so we have a null in the output
-							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
-							wr.WriteNull()
-						}
-						inPos++
-					}
-				}
-			}
-		}
-	}
-}
-
-type filterWriter[T arrow.UintType] struct {
-	outPosition  int
-	outOffset    int
-	valuesOffset int
-	valuesData   []T
-	outData      []T
-}
-
-func (f *filterWriter[T]) OutPos() int { return f.outPosition }
-
-func (f *filterWriter[T]) WriteValue(inPos int64) {
-	f.outData[f.outPosition] = f.valuesData[inPos]
-	f.outPosition++
-}
-
-func (f *filterWriter[T]) WriteValueSegment(inStart, length int64) {
-	copy(f.outData[f.outPosition:], f.valuesData[inStart:inStart+length])
-	f.outPosition += int(length)
-}
-
-func (f *filterWriter[T]) WriteNull() {
-	var z T
-	f.outData[f.outPosition] = z
-	f.outPosition++
-}
-
-type boolFilterWriter struct {
-	outPosition  int
-	outOffset    int
-	valuesOffset int
-	valuesData   []byte
-	outData      []byte
-}
-
-func (b *boolFilterWriter) OutPos() int { return b.outPosition }
-
-func (b *boolFilterWriter) WriteValue(inPos int64) {
-	bitutil.SetBitTo(b.outData, b.outOffset+b.outPosition,
-		bitutil.BitIsSet(b.valuesData, b.valuesOffset+int(inPos)))
-}
-
-func (b *boolFilterWriter) WriteValueSegment(inStart, length int64) {
-	bitutil.CopyBitmap(b.valuesData, b.valuesOffset+int(inStart), int(length),
-		b.outData, b.outOffset+b.outPosition)
-	b.outPosition += int(length)
-}
-
-func (b *boolFilterWriter) WriteNull() {
-	bitutil.ClearBit(b.outData, b.outOffset+b.outPosition)
-	b.outPosition++
-}
-
-func PrimitiveFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		values        = &batch.Values[0].Array
-		filter        = &batch.Values[1].Array
-		nullSelection = ctx.State.(FilterState).NullSelection
-	)
-
-	values.UpdateNullCount()
-	filter.UpdateNullCount()
-
-	outputLength := getFilterOutputSize(filter, nullSelection)
-
-	// the output precomputed null count is unknown except in the narrow
-	// condition that all the values are non-null and the filter will not
-	// cause any new nulls to be created
-	if values.Nulls == 0 && (nullSelection == DropNulls || filter.Nulls == 0) {
-		out.Nulls = 0
-	} else {
-		out.Nulls = array.UnknownNullCount
-	}
-
-	// when neither the values nor filter is known to have any nulls,
-	// we will elect the optimized ExecNonNull path where there is no
-	// need to populate a validity bitmap.
-	allocateValidity := values.Nulls != 0 || filter.Nulls != 0
-	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
-	preallocateData(ctx, outputLength, bitWidth, allocateValidity, out)
-
-	var wr writeFiltered
-	switch bitWidth {
-	case 1:
-		wr = &boolFilterWriter{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      out.Buffers[1].Buf,
-			valuesData:   values.Buffers[1].Buf,
-		}
-	case 8:
-		wr = &filterWriter[uint8]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint8](out, 1),
-			valuesData:   exec.GetSpanValues[uint8](values, 1),
-		}
-	case 16:
-		wr = &filterWriter[uint16]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint16](out, 1),
-			valuesData:   exec.GetSpanValues[uint16](values, 1),
-		}
-	case 32:
-		wr = &filterWriter[uint32]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint32](out, 1),
-			valuesData:   exec.GetSpanValues[uint32](values, 1),
-		}
-	case 64:
-		wr = &filterWriter[uint64]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint64](out, 1),
-			valuesData:   exec.GetSpanValues[uint64](values, 1),
-		}
-	default:
-		return fmt.Errorf("%w: invalid values bit width", arrow.ErrType)
-	}
-
-	primitiveFilterImpl(wr, values, filter, nullSelection, out)
-	return nil
-}
-
-type primitiveGetter[T arrow.IntType | bool] interface {
-	IsValid(int64) bool
-	GetValue(int64) T
-	NullCount() int64
-	Len() int64
-}
-
-type boolGetter struct {
-	inner  *exec.ArraySpan
-	values []byte
-}
-
-func (b *boolGetter) IsValid(i int64) bool {
-	return bitutil.BitIsSet(b.inner.Buffers[0].Buf, int(b.inner.Offset+i))
-}
-
-func (b *boolGetter) GetValue(i int64) bool {
-	return bitutil.BitIsSet(b.values, int(b.inner.Offset+i))
-}
-
-func (b *boolGetter) NullCount() int64 { return b.inner.Nulls }
-func (b *boolGetter) Len() int64       { return b.inner.Len }
-
-type primitiveGetterImpl[T arrow.IntType] struct {
-	inner  *exec.ArraySpan
-	values []T
-}
-
-func (p *primitiveGetterImpl[T]) IsValid(i int64) bool {
-	return bitutil.BitIsSet(p.inner.Buffers[0].Buf, int(p.inner.Offset+i))
-}
-func (p *primitiveGetterImpl[T]) GetValue(i int64) T { return p.values[i] }
-func (p *primitiveGetterImpl[T]) NullCount() int64   { return p.inner.Nulls }
-func (p *primitiveGetterImpl[T]) Len() int64         { return p.inner.Len }
-
-type chunkedBoolGetter struct {
-	inner         *arrow.Chunked
-	resolver      *exec.ChunkResolver
-	nulls         int64
-	len           int64
-	chunkLengths  []int64
-	valuesData    [][]byte
-	valuesIsValid [][]byte
-	valuesOffset  []int64
-}
-
-func newChunkedBoolGetter(arr *arrow.Chunked) *chunkedBoolGetter {
-	nchunks := len(arr.Chunks())
-	lengths := make([]int64, nchunks)
-	valuesData := make([][]byte, nchunks)
-	valuesIsValid := make([][]byte, nchunks)
-	valuesOffset := make([]int64, nchunks)
-
-	for i, c := range arr.Chunks() {
-		lengths[i] = int64(c.Len())
-		valuesOffset[i] = int64(c.Data().Offset())
-		valuesIsValid[i] = c.NullBitmapBytes()
-		valuesData[i] = c.Data().Buffers()[1].Bytes()
-	}
-
-	return &chunkedBoolGetter{
-		inner:         arr,
-		resolver:      exec.NewChunkResolver(arr.Chunks()),
-		nulls:         int64(arr.NullN()),
-		len:           int64(arr.Len()),
-		chunkLengths:  lengths,
-		valuesData:    valuesData,
-		valuesIsValid: valuesIsValid,
-		valuesOffset:  valuesOffset,
-	}
-}
-
-func (c *chunkedBoolGetter) IsValid(i int64) bool {
-	chunk, chunkidx := c.resolver.Resolve(i)
-	bm := c.valuesIsValid[chunk]
-	if bm == nil {
-		return true
-	}
-	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
-}
-
-func (c *chunkedBoolGetter) GetValue(i int64) bool {
-	chunk, idx := c.resolver.Resolve(i)
-	return bitutil.BitIsSet(c.valuesData[chunk], int(c.valuesOffset[chunk]+idx))
-}
-
-func (c *chunkedBoolGetter) NullCount() int64 { return c.nulls }
-func (c *chunkedBoolGetter) Len() int64       { return c.len }
-
-type chunkedPrimitiveGetter[T arrow.IntType] struct {
-	inner         *arrow.Chunked
-	resolver      *exec.ChunkResolver
-	nulls         int64
-	len           int64
-	chunkLengths  []int64
-	valuesData    [][]T
-	valuesIsValid [][]byte
-	valuesOffset  []int64
-}
-
-func newChunkedPrimitiveGetter[T arrow.IntType](arr *arrow.Chunked) *chunkedPrimitiveGetter[T] {
-	nchunks := len(arr.Chunks())
-	lengths := make([]int64, nchunks)
-	valuesData := make([][]T, nchunks)
-	valuesIsValid := make([][]byte, nchunks)
-	valuesOffset := make([]int64, nchunks)
-
-	for i, c := range arr.Chunks() {
-		lengths[i] = int64(c.Len())
-		valuesOffset[i] = int64(c.Data().Offset())
-		valuesIsValid[i] = c.NullBitmapBytes()
-		valuesData[i] = arrow.GetValues[T](c.Data(), 1)
-	}
-
-	return &chunkedPrimitiveGetter[T]{
-		inner:         arr,
-		resolver:      exec.NewChunkResolver(arr.Chunks()),
-		nulls:         int64(arr.NullN()),
-		len:           int64(arr.Len()),
-		chunkLengths:  lengths,
-		valuesData:    valuesData,
-		valuesIsValid: valuesIsValid,
-		valuesOffset:  valuesOffset,
-	}
-}
-
-func (c *chunkedPrimitiveGetter[T]) IsValid(i int64) bool {
-	chunk, chunkidx := c.resolver.Resolve(i)
-	bm := c.valuesIsValid[chunk]
-	if bm == nil {
-		return true
-	}
-	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
-}
-
-func (c *chunkedPrimitiveGetter[T]) GetValue(i int64) T {
-	chunk, idx := c.resolver.Resolve(i)
-	return c.valuesData[chunk][idx]
-}
-
-func (c *chunkedPrimitiveGetter[T]) NullCount() int64 { return c.nulls }
-func (c *chunkedPrimitiveGetter[T]) Len() int64       { return c.len }
-
-func primitiveTakeImpl[IdxT arrow.UintType, ValT arrow.IntType](values primitiveGetter[ValT], indices *exec.ArraySpan, out *exec.ExecResult) {
-	var (
-		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
-		indicesIsValid = indices.Buffers[0].Buf
-		indicesOffset  = indices.Offset
-
-		outData    = exec.GetSpanValues[ValT](out, 1)
-		outIsValid = out.Buffers[0].Buf
-		outOffset  = out.Offset
-	)
-
-	pos, validCount := int64(0), int64(0)
-	if values.NullCount() == 0 && indices.Nulls == 0 {
-		// values and indices are both never null
-		// this means we didn't allocate the validity bitmap
-		// and can simplify everything
-		for i, idx := range indicesData {
-			outData[i] = values.GetValue(int64(idx))
-		}
-		out.Nulls = 0
-		return
-	}
-
-	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
-	for pos < indices.Len {
-		block := indicesBitCounter.NextBlock()
-		if values.NullCount() == 0 {
-			// values are never null, so things are easier
-			validCount += int64(block.Popcnt)
-			if block.AllSet() {
-				// fastest path: neither values nor index nulls
-				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
-				for i := 0; i < int(block.Len); i++ {
-					outData[pos] = values.GetValue(int64(indicesData[pos]))
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some indices but not all are null
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
-						// index is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		} else {
-			// values have nulls, so we must do random access into the values bitmap
-			if block.AllSet() {
-				// faster path: indices are not null but values may be
-				for i := 0; i < int(block.Len); i++ {
-					if values.IsValid(int64(indicesData[pos])) {
-						// value is not null
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null. since we
-				// are doing random access in general we have to check the
-				// value nullness one by one
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
-						values.IsValid(int64(indicesData[pos])) {
-						// index is not null && value is not null
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		}
-	}
-
-	out.Nulls = out.Len - validCount
-}
-
-func booleanTakeImpl[IdxT arrow.UintType](values primitiveGetter[bool], indices *exec.ArraySpan, out *exec.ExecResult) {
-	var (
-		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
-		indicesIsValid = indices.Buffers[0].Buf
-		indicesOffset  = indices.Offset
-
-		outData    = out.Buffers[1].Buf
-		outIsValid = out.Buffers[0].Buf
-		outOffset  = out.Offset
-	)
-
-	placeDataBit := func(loc int64, index IdxT) {
-		bitutil.SetBitTo(outData, int(outOffset+loc), values.GetValue(int64(index)))
-	}
-
-	pos, validCount := int64(0), int64(0)
-	if values.NullCount() == 0 && indices.Nulls == 0 {
-		// values and indices are both never null
-		// this means we didn't allocate the validity bitmap
-		// and can simplify everything
-		for i, idx := range indicesData {
-			placeDataBit(int64(i), idx)
-		}
-		out.Nulls = 0
-		return
-	}
-
-	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
-	for pos < indices.Len {
-		block := indicesBitCounter.NextBlock()
-		if values.NullCount() == 0 {
-			// values are never null so things are easier
-			validCount += int64(block.Popcnt)
-			if block.AllSet() {
-				// fastest path: neither values nor index nulls
-				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
-				for i := 0; i < int(block.Len); i++ {
-					placeDataBit(pos, indicesData[pos])
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
-						// index is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						placeDataBit(pos, indicesData[pos])
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		} else {
-			// values have nulls so we must do random access into the values bitmap
-			if block.AllSet() {
-				// faster path: indices are not null but values may be
-				for i := 0; i < int(block.Len); i++ {
-					if values.IsValid(int64(indicesData[pos])) {
-						// value is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						placeDataBit(pos, indicesData[pos])
-						validCount++
-					}
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null.
-				// we have to check the values one by one
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
-						values.IsValid(int64(indicesData[pos])) {
-						placeDataBit(pos, indicesData[pos])
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		}
-	}
-	out.Nulls = out.Len - validCount
-}
-
-func booleanTakeDispatchChunked(values, indices *arrow.Chunked, out []*exec.ExecResult) error {
-	getter := newChunkedBoolGetter(values)
-	var fn func(primitiveGetter[bool], *exec.ArraySpan, *exec.ExecResult)
-
-	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		fn = booleanTakeImpl[uint8]
-	case 2:
-		fn = booleanTakeImpl[uint16]
-	case 4:
-		fn = booleanTakeImpl[uint32]
-	case 8:
-		fn = booleanTakeImpl[uint64]
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-
-	var indexSpan exec.ArraySpan
-	for i, c := range indices.Chunks() {
-		indexSpan.SetMembers(c.Data())
-		fn(getter, &indexSpan, out[i])
-	}
-	return nil
-}
-
-func booleanTakeDispatch(values, indices *exec.ArraySpan, out *exec.ExecResult) error {
-	getter := &boolGetter{inner: values, values: values.Buffers[1].Buf}
-
-	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		booleanTakeImpl[uint8](getter, indices, out)
-	case 2:
-		booleanTakeImpl[uint16](getter, indices, out)
-	case 4:
-		booleanTakeImpl[uint32](getter, indices, out)
-	case 8:
-		booleanTakeImpl[uint64](getter, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-	return nil
-}
-
-func takeIdxChunkedDispatch[ValT arrow.IntType](values, indices *arrow.Chunked, out []*exec.ExecResult) error {
-	getter := newChunkedPrimitiveGetter[ValT](values)
-	var fn func(primitiveGetter[ValT], *exec.ArraySpan, *exec.ExecResult)
-
-	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		fn = primitiveTakeImpl[uint8, ValT]
-	case 2:
-		fn = primitiveTakeImpl[uint16, ValT]
-	case 4:
-		fn = primitiveTakeImpl[uint32, ValT]
-	case 8:
-		fn = primitiveTakeImpl[uint64, ValT]
-	default:
-		return fmt.Errorf("%w: invalid byte width for indices", arrow.ErrIndex)
-	}
-
-	var indexSpan exec.ArraySpan
-	for i, c := range indices.Chunks() {
-		indexSpan.SetMembers(c.Data())
-		fn(getter, &indexSpan, out[i])
-	}
-	return nil
-}
-
-func takeIdxDispatch[ValT arrow.IntType](values, indices *exec.ArraySpan, out *exec.ExecResult) error {
-	getter := &primitiveGetterImpl[ValT]{inner: values, values: exec.GetSpanValues[ValT](values, 1)}
-
-	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		primitiveTakeImpl[uint8, ValT](getter, indices, out)
-	case 2:
-		primitiveTakeImpl[uint16, ValT](getter, indices, out)
-	case 4:
-		primitiveTakeImpl[uint32, ValT](getter, indices, out)
-	case 8:
-		primitiveTakeImpl[uint64, ValT](getter, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-	return nil
-}
-
-func PrimitiveTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		values  = &batch.Values[0].Array
-		indices = &batch.Values[1].Array
-	)
-
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBounds(indices, uint64(values.Len)); err != nil {
-			return err
-		}
-	}
-
-	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
-	allocateValidity := values.Nulls != 0 || indices.Nulls != 0
-	preallocateData(ctx, indices.Len, bitWidth, allocateValidity, out)
-
-	switch bitWidth {
-	case 1:
-		return booleanTakeDispatch(values, indices, out)
-	case 8:
-		return takeIdxDispatch[int8](values, indices, out)
-	case 16:
-		return takeIdxDispatch[int16](values, indices, out)
-	case 32:
-		return takeIdxDispatch[int32](values, indices, out)
-	case 64:
-		return takeIdxDispatch[int64](values, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
-	}
-}
-
-func ChunkedPrimitiveTake(ctx *exec.KernelCtx, batch []*arrow.Chunked, out *exec.ExecResult) ([]*exec.ExecResult, error) {
-	var (
-		values  = batch[0]
-		indices = batch[1]
-	)
-
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBoundsChunked(indices, uint64(values.Len())); err != nil {
-			return nil, err
-		}
-	}
-
-	bitWidth := values.DataType().(arrow.FixedWidthDataType).BitWidth()
-	allocValidity := values.NullN() != 0 || indices.NullN() != 0
-	outData := make([]*exec.ExecResult, len(indices.Chunks()))
-	for i, chunk := range indices.Chunks() {
-		outData[i] = &exec.ExecResult{Type: out.Type}
-		preallocateData(ctx, int64(chunk.Len()), bitWidth, allocValidity, outData[i])
-	}
-
-	switch bitWidth {
-	case 1:
-		return outData, booleanTakeDispatchChunked(values, indices, outData)
-	case 8:
-		return outData, takeIdxChunkedDispatch[int8](values, indices, outData)
-	case 16:
-		return outData, takeIdxChunkedDispatch[int16](values, indices, outData)
-	case 32:
-		return outData, takeIdxChunkedDispatch[int32](values, indices, outData)
-	case 64:
-		return outData, takeIdxChunkedDispatch[int64](values, indices, outData)
-	default:
-		return nil, fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
-	}
-}
-
-func NullTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
-			return err
-		}
-	}
-
-	// batch.length doesn't take into account the take indices
-	out.Len = batch.Values[1].Array.Len
-	out.Type = arrow.Null
-	return nil
-}
-
-func NullFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	outputLength := getFilterOutputSize(&batch.Values[1].Array, ctx.State.(FilterState).NullSelection)
-	out.Len = outputLength
-	out.Type = arrow.Null
-	return nil
-}
-
-func filterExec(ctx *exec.KernelCtx, outputLen int64, values, selection *exec.ArraySpan, out *exec.ExecResult, visitValid func(idx int64) error, visitNull func() error) error {
-	var (
-		nullSelection = ctx.State.(FilterState).NullSelection
-		filterData    = selection.Buffers[1].Buf
-		filterIsValid = selection.Buffers[0].Buf
-		filterOffset  = selection.Offset
-
-		// we use 3 block counters for fast scanning
-		//
-		// values valid counter: for values null/not-null
-		// filter valid counter: for filter null/not-null
-		// filter counter: for filter true/false
-		valuesIsValid      = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
-		valuesValidCounter = bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
-		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, selection.Len)
-		filterCounter      = bitutils.NewBitBlockCounter(filterData, filterOffset, selection.Len)
-		inPos              int64
-
-		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
-	)
-
-	validityBuilder.Reserve(outputLen)
-
-	appendNotNull := func(idx int64) error {
-		validityBuilder.UnsafeAppend(true)
-		return visitValid(idx)
-	}
-
-	appendNull := func() error {
-		validityBuilder.UnsafeAppend(false)
-		return visitNull()
-	}
-
-	appendMaybeNull := func(idx int64) error {
-		if valuesIsValid.GetBit(int(idx)) {
-			return appendNotNull(idx)
-		}
-		return appendNull()
-	}
-
-	for inPos < selection.Len {
-		filterValidBlock := filterValidCounter.NextWord()
-		valuesValidBlock := valuesValidCounter.NextWord()
-		filterBlock := filterCounter.NextWord()
-
-		switch {
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move onto the next block
-			inPos += int64(filterBlock.Len)
-		case filterValidBlock.AllSet():
-			// simpler path: no filter values are null
-			if filterBlock.AllSet() {
-				// fastest path, filter values are all true and not null
-				if valuesValidBlock.AllSet() {
-					// values aren't null either
-					validityBuilder.UnsafeAppendN(int64(filterBlock.Len), true)
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if err := visitValid(inPos); err != nil {
-							return err
-						}
-						inPos++
-					}
-				} else {
-					// some values are null in this block
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if err := appendMaybeNull(inPos); err != nil {
-							return err
-						}
-						inPos++
-					}
-				}
-			} else { // !filterBlock.AllSet()
-				// some filter values are false, but all not null
-				if valuesValidBlock.AllSet() {
-					// all the values are not-null, so we can skip null checking for them
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							if err := appendNotNull(inPos); err != nil {
-								return err
-							}
-						}
-						inPos++
-					}
-				} else {
-					// some of the values in the block are null
-					// gotta check each one :(
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							if err := appendMaybeNull(inPos); err != nil {
-								return err
-							}
-						}
-						inPos++
-					}
-				}
-			}
-		default:
-			// !filterValidBlock.AllSet()
-			// some filter values are null, so we have to handle drop
-			// versus emit null
-			if nullSelection == DropNulls {
-				// filter null values are treated as false
-				for i := 0; i < int(filterBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-						bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						if err := appendMaybeNull(inPos); err != nil {
-							return err
-						}
-					}
-					inPos++
-				}
-			} else {
-				// filter null values are appended to output as null
-				// whether the value in the corresponding slot is valid
-				// or not
-				var err error
-				for i := 0; i < int(filterBlock.Len); i++ {
-					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
-					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						err = appendMaybeNull(inPos)
-					} else if !filterNotNull {
-						// emit null case
-						err = appendNull()
-					}
-					if err != nil {
-						return err
-					}
-					inPos++
-				}
-			}
-		}
-	}
-
-	out.Len = int64(validityBuilder.bitLength)
-	out.Nulls = int64(validityBuilder.falseCount)
-	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
-	return nil
-}
-
-func binaryFilterNonNull[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
-	var (
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-	)
-
-	offsetBuilder.reserve(int(outputLen) + 1)
-	// get a rough estimate and pre-size the data builder
-	if values.Len > 0 {
-		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
-	}
-
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-	filterData := filter.Buffers[1].Buf
-
-	err := bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
-		func(pos, length int64) error {
-			start, end := rawOffsets[pos], rawOffsets[pos+length]
-			// bulk-append raw data
-			runDataBytes := (end - start)
-			if runDataBytes > OffsetT(spaceAvail) {
-				dataBuilder.reserve(int(runDataBytes))
-				spaceAvail = dataBuilder.cap() - dataBuilder.len()
-			}
-			dataBuilder.unsafeAppendSlice(rawData[start:end])
-			spaceAvail -= int(runDataBytes)
-			curOffset := start
-			for i := int64(0); i < length; i++ {
-				offsetBuilder.unsafeAppend(offset)
-				offset += rawOffsets[i+pos+1] - curOffset
-				curOffset = rawOffsets[i+pos+1]
-			}
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Len = outputLen
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func binaryFilterImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
-	var (
-		filterData    = filter.Buffers[1].Buf
-		filterIsValid = filter.Buffers[0].Buf
-		filterOffset  = filter.Offset
-
-		valuesIsValid = values.Buffers[0].Buf
-		valuesOffset  = values.Offset
-		// output bitmap should already be zero'd out so we just
-		// have to set valid bits to true
-		outIsValid = out.Buffers[0].Buf
-
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-	)
-
-	offsetBuilder.reserve(int(outputLen) + 1)
-	if values.Len > 0 {
-		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
-	}
-
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-
-	// we use 3 block counters for fast scanning of the filter
-	//
-	// * valuesValidCounter: for values null/not-null
-	// * filterValidCounter: for filter null/not-null
-	// * filterCounter: for filter true/false
-	valuesValidCounter := bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
-	filterValidCounter := bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, filter.Len)
-	filterCounter := bitutils.NewBitBlockCounter(filterData, filterOffset, filter.Len)
-
-	inPos, outPos := int64(0), int64(0)
-
-	appendRaw := func(data []byte) {
-		if len(data) > spaceAvail {
-			dataBuilder.reserve(len(data))
-			spaceAvail = dataBuilder.cap() - dataBuilder.len()
-		}
-		dataBuilder.unsafeAppendSlice(data)
-		spaceAvail -= len(data)
-	}
-
-	appendSingle := func() {
-		data := rawData[rawOffsets[inPos]:rawOffsets[inPos+1]]
-		appendRaw(data)
-		offset += OffsetT(len(data))
-	}
-
-	for inPos < filter.Len {
-		filterValidBlock, valuesValidBlock := filterValidCounter.NextWord(), valuesValidCounter.NextWord()
-		filterBlock := filterCounter.NextWord()
-		switch {
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move on to the
-			// next block
-			inPos += int64(filterBlock.Len)
-		case filterValidBlock.AllSet():
-			// simpler path: no filter values are null
-			if filterBlock.AllSet() {
-				// fastest path: filter values are all true and not null
-				if valuesValidBlock.AllSet() {
-					// the values aren't null either
-					bitutil.SetBitsTo(outIsValid, outPos, int64(filterBlock.Len), true)
-
-					// bulk-append raw data
-					start, end := rawOffsets[inPos], rawOffsets[inPos+int64(filterBlock.Len)]
-					appendRaw(rawData[start:end])
-					// append offsets
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						offsetBuilder.unsafeAppend(offset)
-						offset += rawOffsets[inPos+1] - rawOffsets[inPos]
-					}
-					outPos += int64(filterBlock.Len)
-				} else {
-					// some of the values in this block are null
-					for i := 0; i < int(filterBlock.Len); i, inPos, outPos = i+1, inPos+1, outPos+1 {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-					}
-				}
-				continue
-			}
-			// !filterBlock.AllSet()
-			// some of the filter values are false, but all not null
-			if valuesValidBlock.AllSet() {
-				// all the values are non-null, so we can skip null checking
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						bitutil.SetBit(outIsValid, int(outPos))
-						outPos++
-						appendSingle()
-					}
-				}
-			} else {
-				// some of the values in the block are null, so we have to check
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-						outPos++
-					}
-				}
-			}
-		default:
-			// !filterValidBlock.AllSet()
-			// some of the filter values are null, so we have to handle
-			// the DROP vs EMIT_NULL null selection behavior
-			if nullSelection == DropNulls {
-				// filter null values are treated as false
-				if valuesValidBlock.AllSet() {
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							offsetBuilder.unsafeAppend(offset)
-							bitutil.SetBit(outIsValid, int(outPos))
-							outPos++
-							appendSingle()
-						}
-					}
-				} else {
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							offsetBuilder.unsafeAppend(offset)
-							if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-								bitutil.SetBit(outIsValid, int(outPos))
-								appendSingle()
-							}
-							outPos++
-						}
-					}
-				}
-			} else {
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
-					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-						outPos++
-					} else if !filterNotNull {
-						offsetBuilder.unsafeAppend(offset)
-						outPos++
-					}
-				}
-			}
-		}
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Len = outputLen
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func takeExecImpl[T arrow.UintType](ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
-	var (
-		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
-		indicesValues   = exec.GetSpanValues[T](indices, 1)
-		isValid         = indices.Buffers[0].Buf
-		valuesHaveNulls = values.MayHaveNulls()
-
-		indicesIsValid = bitutil.OptionalBitIndexer{Bitmap: isValid, Offset: int(indices.Offset)}
-		valuesIsValid  = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
-		bitCounter     = bitutils.NewOptionalBitBlockCounter(isValid, indices.Offset, indices.Len)
-		pos            int64
-	)
-
-	validityBuilder.Reserve(outputLen)
-	for pos < indices.Len {
-		block := bitCounter.NextBlock()
-		indicesHaveNulls := block.Popcnt < block.Len
-		if !indicesHaveNulls && !valuesHaveNulls {
-			// fastest path, neither indices nor values have nulls
-			validityBuilder.UnsafeAppendN(int64(block.Len), true)
-			for i := 0; i < int(block.Len); i++ {
-				if err := visitValid(int64(indicesValues[pos])); err != nil {
-					return err
-				}
-				pos++
-			}
-		} else if block.Popcnt > 0 {
-			// since we have to branch on whether indices are null or not,
-			// we combine the "non-null indices block but some values null"
-			// and "some null indices block but values non-null" into single loop
-			for i := 0; i < int(block.Len); i++ {
-				if (!indicesHaveNulls || indicesIsValid.GetBit(int(pos))) && valuesIsValid.GetBit(int(indicesValues[pos])) {
-					validityBuilder.UnsafeAppend(true)
-					if err := visitValid(int64(indicesValues[pos])); err != nil {
-						return err
-					}
-				} else {
-					validityBuilder.UnsafeAppend(false)
-					if err := visitNull(); err != nil {
-						return err
-					}
-				}
-				pos++
-			}
-		} else {
-			// the whole block is null
-			validityBuilder.UnsafeAppendN(int64(block.Len), false)
-			for i := 0; i < int(block.Len); i++ {
-				if err := visitNull(); err != nil {
-					return err
-				}
-			}
-			pos += int64(block.Len)
-		}
-	}
-
-	out.Len = int64(validityBuilder.bitLength)
-	out.Nulls = int64(validityBuilder.falseCount)
-	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
-	return nil
-}
-
-func takeExec(ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
-	indexWidth := indices.Type.(arrow.FixedWidthDataType).Bytes()
-
-	switch indexWidth {
-	case 1:
-		return takeExecImpl[uint8](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 2:
-		return takeExecImpl[uint16](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 4:
-		return takeExecImpl[uint32](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 8:
-		return takeExecImpl[uint64](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	default:
-		return fmt.Errorf("%w: invalid index width", arrow.ErrInvalid)
-	}
-}
-
-type selectionOutputFn func(*exec.KernelCtx, int64, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult, func(int64) error, func() error) error
-type selectionImplFn func(*exec.KernelCtx, *exec.ExecSpan, int64, *exec.ExecResult, selectionOutputFn) error
-
-func FilterExec(impl selectionImplFn) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			selection    = &batch.Values[1].Array
-			outputLength = getFilterOutputSize(selection, ctx.State.(FilterState).NullSelection)
-		)
-		return impl(ctx, batch, outputLength, out, filterExec)
-	}
-}
-
-func TakeExec(impl selectionImplFn) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if ctx.State.(TakeState).BoundsCheck {
-			if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
-				return err
-			}
-		}
-
-		return impl(ctx, batch, batch.Values[1].Array.Len, out, takeExec)
-	}
-}
-
-func VarBinaryImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values        = &batch.Values[0].Array
-		selection     = &batch.Values[1].Array
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-	)
-
-	// presize the data builder with a rough estimate of the required data size
-	if values.Len > 0 {
-		dataLength := rawOffsets[values.Len] - rawOffsets[0]
-		meanValueLen := float64(dataLength) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLen))
-	}
-
-	offsetBuilder.reserve(int(outputLength) + 1)
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offsetBuilder.unsafeAppend(offset)
-			valOffset := rawOffsets[idx]
-			valSize := rawOffsets[idx+1] - valOffset
-
-			if valSize == 0 {
-				return nil
-			}
-			offset += valSize
-			if valSize > OffsetT(spaceAvail) {
-				dataBuilder.reserve(int(valSize))
-				spaceAvail = dataBuilder.cap() - dataBuilder.len()
-			}
-			dataBuilder.unsafeAppendSlice(rawData[valOffset : valOffset+valSize])
-			spaceAvail -= int(valSize)
-			return nil
-		}, func() error {
-			offsetBuilder.unsafeAppend(offset)
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func FSBImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-		valueSize = int64(values.Type.(arrow.FixedWidthDataType).Bytes())
-		valueData = values.Buffers[1].Buf[values.Offset*valueSize:]
-	)
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(valueSize * outputLength)))
-	buf := out.Buffers[1].Buf
-
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			start := idx * int64(valueSize)
-			copy(buf, valueData[start:start+valueSize])
-			buf = buf[valueSize:]
-			return nil
-		},
-		func() error {
-			buf = buf[valueSize:]
-			return nil
-		})
-
-	if err != nil {
-		out.Buffers[1].Buf = nil
-		out.Buffers[1].Owner.Release()
-		out.Buffers[1].Owner = nil
-		return err
-	}
-
-	return nil
-}
-
-func ListImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		rawOffsets      = exec.GetSpanOffsets[OffsetT](values, 1)
-		mem             = exec.GetAllocator(ctx.Ctx)
-		offsetBuilder   = newBufferBuilder[OffsetT](mem)
-		childIdxBuilder = newBufferBuilder[OffsetT](mem)
-	)
-
-	if values.Len > 0 {
-		dataLength := rawOffsets[values.Len] - rawOffsets[0]
-		meanListLen := float64(dataLength) / float64(values.Len)
-		childIdxBuilder.reserve(int(meanListLen))
-	}
-
-	offsetBuilder.reserve(int(outputLength) + 1)
-	var offset OffsetT
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offsetBuilder.unsafeAppend(offset)
-			valueOffset := rawOffsets[idx]
-			valueLength := rawOffsets[idx+1] - valueOffset
-			offset += valueLength
-			childIdxBuilder.reserve(int(valueLength))
-			for j := valueOffset; j < valueOffset+valueLength; j++ {
-				childIdxBuilder.unsafeAppend(j)
-			}
-			return nil
-		}, func() error {
-			offsetBuilder.unsafeAppend(offset)
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].Type = arrow.GetDataType[OffsetT]()
-	out.Children[0].Len = int64(childIdxBuilder.len())
-	out.Children[0].Buffers[1].WrapBuffer(childIdxBuilder.finish())
-
-	return nil
-}
-
-func FSLImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		listSize   = values.Type.(*arrow.FixedSizeListType).Len()
-		baseOffset = values.Offset
-
-		childIdxBuilder = array.NewInt64Builder(exec.GetAllocator(ctx.Ctx))
-	)
-
-	// we need to take listSize elements even for null elements of indices
-	childIdxBuilder.Reserve(int(outputLength) * int(listSize))
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offset := (baseOffset + idx) * int64(listSize)
-			for j := offset; j < (offset + int64(listSize)); j++ {
-				childIdxBuilder.UnsafeAppend(j)
-			}
-			return nil
-		}, func() error {
-			for n := int32(0); n < listSize; n++ {
-				childIdxBuilder.AppendNull()
-			}
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	arr := childIdxBuilder.NewArray()
-	defer arr.Release()
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].TakeOwnership(arr.Data())
-	return nil
-}
-
-func DenseUnionImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		mem               = exec.GetAllocator(ctx.Ctx)
-		valueOffsetBldr   = newBufferBuilder[int32](mem)
-		childIdBldr       = newBufferBuilder[int8](mem)
-		typeCodes         = values.Type.(arrow.UnionType).TypeCodes()
-		childIndicesBldrs = make([]*array.Int32Builder, len(typeCodes))
-	)
-
-	for i := range childIndicesBldrs {
-		childIndicesBldrs[i] = array.NewInt32Builder(mem)
-	}
-
-	childIdBldr.reserve(int(outputLength))
-	valueOffsetBldr.reserve(int(outputLength))
-
-	typedValues := values.MakeArray().(*array.DenseUnion)
-	defer typedValues.Release()
-
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			childID := typedValues.ChildID(int(idx))
-			childIdBldr.unsafeAppend(typeCodes[childID])
-			valueOffset := typedValues.ValueOffset(int(idx))
-			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
-			childIndicesBldrs[childID].Append(valueOffset)
-			return nil
-		}, func() error {
-			childID := 0
-			childIdBldr.unsafeAppend(typeCodes[childID])
-			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
-			childIndicesBldrs[childID].AppendNull()
-			return nil
-		})
-	if err != nil {
-		return err
-	}
-
-	out.Type = typedValues.DataType()
-	out.Buffers[1].WrapBuffer(childIdBldr.finish())
-	out.Buffers[2].WrapBuffer(valueOffsetBldr.finish())
-
-	out.Children = make([]exec.ArraySpan, len(childIndicesBldrs))
-	for i, b := range childIndicesBldrs {
-		arr := b.NewArray()
-		out.Children[i].TakeOwnership(arr.Data())
-		arr.Release()
-		b.Release()
-	}
-	return nil
-}
-
-func FilterBinary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		nullSelect = ctx.State.(FilterState).NullSelection
-		values     = &batch.Values[0].Array
-		filter     = &batch.Values[1].Array
-		outputLen  = getFilterOutputSize(filter, nullSelect)
-	)
-
-	// the output precomputed null count is unknown except in the
-	// narrow condition that all the values are non-null and the filter
-	// will not cause any new nulls to be created
-	if values.Nulls == 0 && (nullSelect == DropNulls || filter.Nulls == 0) {
-		out.Nulls = 0
-	} else {
-		out.Nulls = array.UnknownNullCount
-	}
-
-	typeID := values.Type.ID()
-	if values.Nulls == 0 && filter.Nulls == 0 {
-		// faster no nulls case
-		switch {
-		case arrow.IsBinaryLike(typeID):
-			return binaryFilterNonNull[int32](ctx, values, filter, outputLen, nullSelect, out)
-		case arrow.IsLargeBinaryLike(typeID):
-			return binaryFilterNonNull[int64](ctx, values, filter, outputLen, nullSelect, out)
-		default:
-			return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
-		}
-	}
-
-	// output may have nulls
-	out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(outputLen))
-	switch {
-	case arrow.IsBinaryLike(typeID):
-		return binaryFilterImpl[int32](ctx, values, filter, outputLen, nullSelect, out)
-	case arrow.IsLargeBinaryLike(typeID):
-		return binaryFilterImpl[int64](ctx, values, filter, outputLen, nullSelect, out)
-	}
-
-	return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
-}
-
-func visitNoop() error         { return nil }
-func visitIdxNoop(int64) error { return nil }
-
-func StructImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-	)
-
-	// nothing we need to do other than generate the validity bitmap
-	return fn(ctx, outputLength, values, selection, out, visitIdxNoop, visitNoop)
-}
-
-type SelectionKernelData struct {
-	In      exec.InputType
-	Exec    exec.ArrayKernelExec
-	Chunked exec.ChunkedExec
-}
-
-func ChunkedTakeSupported(dt arrow.DataType) bool {
-	return arrow.IsPrimitive(dt.ID())
-}
-
-func GetVectorSelectionKernels() (filterkernels, takeKernels []SelectionKernelData) {
-	filterkernels = []SelectionKernelData{
-		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveFilter},
-		{In: exec.NewExactInput(arrow.Null), Exec: NullFilter},
-		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: FilterBinary},
-		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: FilterBinary},
-	}
-
-	takeKernels = []SelectionKernelData{
-		{In: exec.NewExactInput(arrow.Null), Exec: NullTake},
-		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveTake, Chunked: ChunkedPrimitiveTake},
-		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: TakeExec(VarBinaryImpl[int32])},
-		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: TakeExec(VarBinaryImpl[int64])},
-	}
-	return
-}
diff --git a/go/arrow/compute/registry.go b/go/arrow/compute/registry.go
deleted file mode 100644
index cb64c7e09de0a..0000000000000
--- a/go/arrow/compute/registry.go
+++ /dev/null
@@ -1,209 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/maps"
-	"golang.org/x/exp/slices"
-)
-
-type FunctionRegistry interface {
-	CanAddFunction(fn Function, allowOverwrite bool) bool
-	AddFunction(fn Function, allowOverwrite bool) bool
-	CanAddAlias(target, source string) bool
-	AddAlias(target, source string) bool
-	GetFunction(name string) (Function, bool)
-	GetFunctionNames() []string
-	NumFunctions() int
-
-	canAddFuncName(string, bool) bool
-}
-
-var (
-	registry FunctionRegistry
-	once     sync.Once
-)
-
-func GetFunctionRegistry() FunctionRegistry {
-	once.Do(func() {
-		registry = NewRegistry()
-		RegisterScalarCast(registry)
-		RegisterVectorSelection(registry)
-		RegisterScalarBoolean(registry)
-		RegisterScalarArithmetic(registry)
-		RegisterScalarComparisons(registry)
-		RegisterVectorHash(registry)
-		RegisterVectorRunEndFuncs(registry)
-	})
-	return registry
-}
-
-func NewRegistry() FunctionRegistry {
-	return &funcRegistry{
-		nameToFunction: make(map[string]Function)}
-}
-
-func NewChildRegistry(parent FunctionRegistry) FunctionRegistry {
-	return &funcRegistry{
-		parent:         parent.(*funcRegistry),
-		nameToFunction: make(map[string]Function)}
-}
-
-type funcRegistry struct {
-	parent *funcRegistry
-
-	mx             sync.RWMutex
-	nameToFunction map[string]Function
-}
-
-func (reg *funcRegistry) getLocker(add bool) sync.Locker {
-	if add {
-		return &reg.mx
-	}
-	return reg.mx.RLocker()
-}
-
-func (reg *funcRegistry) CanAddFunction(fn Function, allowOverwrite bool) bool {
-	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
-		return false
-	}
-
-	return reg.doAddFunction(fn, allowOverwrite, false)
-}
-
-func (reg *funcRegistry) AddFunction(fn Function, allowOverwrite bool) bool {
-	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
-		return false
-	}
-
-	return reg.doAddFunction(fn, allowOverwrite, true)
-}
-
-func (reg *funcRegistry) CanAddAlias(target, source string) bool {
-	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
-		return false
-	}
-	return reg.doAddAlias(target, source, false)
-}
-
-func (reg *funcRegistry) AddAlias(target, source string) bool {
-	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
-		return false
-	}
-
-	return reg.doAddAlias(target, source, true)
-}
-
-func (reg *funcRegistry) GetFunction(name string) (Function, bool) {
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-
-	if fn, ok := reg.nameToFunction[name]; ok {
-		return fn, ok
-	}
-
-	if reg.parent != nil {
-		return reg.parent.GetFunction(name)
-	}
-
-	return nil, false
-}
-
-func (reg *funcRegistry) GetFunctionNames() (out []string) {
-	if reg.parent != nil {
-		out = reg.parent.GetFunctionNames()
-	} else {
-		out = make([]string, 0, len(reg.nameToFunction))
-	}
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-
-	out = append(out, maps.Keys(reg.nameToFunction)...)
-	slices.Sort(out)
-	return
-}
-
-func (reg *funcRegistry) NumFunctions() (n int) {
-	if reg.parent != nil {
-		n = reg.parent.NumFunctions()
-	}
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-	return n + len(reg.nameToFunction)
-}
-
-func (reg *funcRegistry) canAddFuncName(name string, allowOverwrite bool) bool {
-	if reg.parent != nil {
-		reg.parent.mx.RLock()
-		defer reg.parent.mx.RUnlock()
-
-		if !reg.parent.canAddFuncName(name, allowOverwrite) {
-			return false
-		}
-	}
-	if !allowOverwrite {
-		_, ok := reg.nameToFunction[name]
-		return !ok
-	}
-	return true
-}
-
-func (reg *funcRegistry) doAddFunction(fn Function, allowOverwrite bool, add bool) bool {
-	debug.Assert(fn.Validate() == nil, "invalid function")
-
-	lk := reg.getLocker(add)
-	lk.Lock()
-	defer lk.Unlock()
-
-	name := fn.Name()
-	if !reg.canAddFuncName(name, allowOverwrite) {
-		return false
-	}
-
-	if add {
-		reg.nameToFunction[name] = fn
-	}
-	return true
-}
-
-func (reg *funcRegistry) doAddAlias(target, source string, add bool) bool {
-	// source name must exist in the registry or the parent
-	// check outside the mutex, in case GetFunction has a mutex
-	// acquisition
-	fn, ok := reg.GetFunction(source)
-	if !ok {
-		return false
-	}
-
-	lk := reg.getLocker(add)
-	lk.Lock()
-	defer lk.Unlock()
-
-	if !reg.canAddFuncName(target, false) {
-		return false
-	}
-
-	if add {
-		reg.nameToFunction[target] = fn
-	}
-	return true
-}
diff --git a/go/arrow/compute/registry_test.go b/go/arrow/compute/registry_test.go
deleted file mode 100644
index 15e561ada42d3..0000000000000
--- a/go/arrow/compute/registry_test.go
+++ /dev/null
@@ -1,182 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"errors"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/stretchr/testify/assert"
-	"golang.org/x/exp/slices"
-)
-
-var registry compute.FunctionRegistry
-
-func init() {
-	// make tests fail if there's a problem initializing the global
-	// function registry
-	registry = compute.GetFunctionRegistry()
-}
-
-type mockFn struct {
-	name string
-}
-
-func (m *mockFn) Name() string           { return m.name }
-func (*mockFn) Kind() compute.FuncKind   { return compute.FuncScalar }
-func (*mockFn) Arity() compute.Arity     { return compute.Unary() }
-func (*mockFn) Doc() compute.FunctionDoc { return compute.EmptyFuncDoc }
-func (*mockFn) NumKernels() int          { return 0 }
-func (*mockFn) Execute(context.Context, compute.FunctionOptions, ...compute.Datum) (compute.Datum, error) {
-	return nil, errors.New("not implemented")
-}
-func (*mockFn) DefaultOptions() compute.FunctionOptions              { return nil }
-func (*mockFn) Validate() error                                      { return nil }
-func (*mockFn) DispatchExact(...arrow.DataType) (exec.Kernel, error) { return nil, nil }
-func (*mockFn) DispatchBest(...arrow.DataType) (exec.Kernel, error)  { return nil, nil }
-
-func TestRegistryBasics(t *testing.T) {
-	tests := []struct {
-		name          string
-		factory       func() compute.FunctionRegistry
-		nfuncs        int
-		expectedNames []string
-	}{
-		{"default", compute.NewRegistry, 0, []string{}},
-		{"nested", func() compute.FunctionRegistry {
-			return compute.NewChildRegistry(registry)
-		}, registry.NumFunctions(), registry.GetFunctionNames()},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			registry := tt.factory()
-			assert.Equal(t, tt.nfuncs, registry.NumFunctions())
-
-			fn := &mockFn{name: "f1"}
-			assert.True(t, registry.AddFunction(fn, false))
-			assert.Equal(t, tt.nfuncs+1, registry.NumFunctions())
-
-			f1, ok := registry.GetFunction("f1")
-			assert.True(t, ok)
-			assert.Same(t, fn, f1)
-
-			// nonexistent
-			_, ok = registry.GetFunction("f2")
-			assert.False(t, ok)
-
-			// name collision
-			f2 := &mockFn{name: "f1"}
-			assert.False(t, registry.AddFunction(f2, false))
-
-			// allow overwriting
-			assert.True(t, registry.AddFunction(f2, true))
-			f1, ok = registry.GetFunction("f1")
-			assert.True(t, ok)
-			assert.Same(t, f2, f1)
-
-			expected := append(tt.expectedNames, "f1")
-			slices.Sort(expected)
-			assert.Equal(t, expected, registry.GetFunctionNames())
-
-			// aliases
-			assert.False(t, registry.AddAlias("f33", "f3")) // doesn't exist
-			assert.True(t, registry.AddAlias("f11", "f1"))
-			f1, ok = registry.GetFunction("f11")
-			assert.True(t, ok)
-			assert.Same(t, f2, f1)
-		})
-	}
-}
-
-func TestRegistry(t *testing.T) {
-	defaultRegistry := registry
-	t.Run("RegisterTempFunctions", func(t *testing.T) {
-		const rounds = 3
-		for i := 0; i < rounds; i++ {
-			registry := compute.NewChildRegistry(registry)
-			for _, v := range []string{"f1", "f2"} {
-				fn := &mockFn{name: v}
-				assert.True(t, registry.CanAddFunction(fn, false))
-				assert.True(t, registry.AddFunction(fn, false))
-				assert.False(t, registry.CanAddFunction(fn, false))
-				assert.False(t, registry.AddFunction(fn, false))
-				assert.True(t, defaultRegistry.CanAddFunction(fn, false))
-			}
-		}
-	})
-
-	t.Run("RegisterTempAliases", func(t *testing.T) {
-		funcNames := defaultRegistry.GetFunctionNames()
-		const rounds = 3
-		for i := 0; i < rounds; i++ {
-			registry := compute.NewChildRegistry(registry)
-			for _, funcName := range funcNames {
-				alias := "alias_of_" + funcName
-				_, ok := registry.GetFunction(alias)
-				assert.False(t, ok)
-				assert.True(t, registry.CanAddAlias(alias, funcName))
-				assert.True(t, registry.AddAlias(alias, funcName))
-				_, ok = registry.GetFunction(alias)
-				assert.True(t, ok)
-				_, ok = defaultRegistry.GetFunction(funcName)
-				assert.True(t, ok)
-				_, ok = defaultRegistry.GetFunction(alias)
-				assert.False(t, ok)
-			}
-		}
-	})
-}
-
-func TestRegistryRegisterNestedFunction(t *testing.T) {
-	defaultRegistry := registry
-	func1 := &mockFn{name: "f1"}
-	func2 := &mockFn{name: "f2"}
-
-	const rounds = 3
-	for i := 0; i < rounds; i++ {
-		registry1 := compute.NewChildRegistry(defaultRegistry)
-
-		assert.True(t, registry1.CanAddFunction(func1, false))
-		assert.True(t, registry1.AddFunction(func1, false))
-		for j := 0; j < rounds; j++ {
-			registry2 := compute.NewChildRegistry(registry1)
-			assert.False(t, registry2.CanAddFunction(func1, false))
-			assert.False(t, registry2.AddFunction(func1, false))
-
-			assert.True(t, registry2.CanAddFunction(func2, false))
-			assert.True(t, registry2.AddFunction(func2, false))
-			assert.False(t, registry2.CanAddFunction(func2, false))
-			assert.False(t, registry2.AddFunction(func2, false))
-			assert.True(t, defaultRegistry.CanAddFunction(func2, false))
-
-			assert.False(t, registry2.CanAddAlias("f1", "f2"))
-			assert.False(t, registry2.AddAlias("f1", "f2"))
-			assert.False(t, registry2.AddAlias("f1", "f1"))
-		}
-		assert.False(t, registry1.CanAddFunction(func1, false))
-		assert.False(t, registry1.AddFunction(func1, false))
-		assert.True(t, registry1.CanAddAlias("f2", "f1"))
-		assert.True(t, defaultRegistry.CanAddFunction(func1, false))
-	}
-}
diff --git a/go/arrow/compute/scalar_bool.go b/go/arrow/compute/scalar_bool.go
deleted file mode 100644
index 39f4242163d49..0000000000000
--- a/go/arrow/compute/scalar_bool.go
+++ /dev/null
@@ -1,133 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	andDoc = FunctionDoc{
-		Summary:     "Logical 'and' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	andNotDoc = FunctionDoc{
-		Summary:     "Logical 'and not' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_not_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	orDoc = FunctionDoc{
-		Summary:     "Logical 'or' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'or_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	xorDoc = FunctionDoc{
-		Summary:     "Logical 'xor' boolean values",
-		Description: "When a null is encountered in either input, a null is output.",
-		ArgNames:    []string{"x", "y"},
-	}
-	andKleeneDoc = FunctionDoc{
-		Summary: "Logical 'and' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true and null = null
-		- null and true = null
-		- false and null = false
-		- null and false = false
-		- null and null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "and" false is always false.
-		For a different null behavior, see function "and".`,
-		ArgNames: []string{"x", "y"},
-	}
-	andNotKleeneDoc = FunctionDoc{
-		Summary: "Logical 'and_not' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true and not null = null
-		- null and not false = null
-		- false and not null = false
-		- null and not true = false
-		- null and not null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "and not" true is always false, as is false
-		"and not" an unknown value.
-		For a different null behavior, see function "and_not".`,
-		ArgNames: []string{"x", "y"},
-	}
-	orKleeneDoc = FunctionDoc{
-		Summary: "Logical 'or' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true or null = true
-		- null or true = true
-		- false or null = null
-		- null or false = null
-		- null or null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "or" true is always true.
-		For a different null behavior, see function "and".`,
-		ArgNames: []string{"x", "y"},
-	}
-)
-
-func makeFunction(reg FunctionRegistry, name string, arity int, ex exec.ArrayKernelExec, doc FunctionDoc, nulls exec.NullHandling) {
-	fn := NewScalarFunction(name, Arity{NArgs: arity}, doc)
-
-	inTypes := make([]exec.InputType, arity)
-	for i := range inTypes {
-		inTypes[i] = exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-	}
-
-	k := exec.NewScalarKernel(inTypes, exec.NewOutputType(arrow.FixedWidthTypes.Boolean), ex, nil)
-	k.NullHandling = nulls
-
-	if err := fn.AddKernel(k); err != nil {
-		panic(err)
-	}
-
-	if !reg.AddFunction(fn, false) {
-		panic(fmt.Errorf("function '%s' already exists", name))
-	}
-}
-
-func RegisterScalarBoolean(reg FunctionRegistry) {
-	makeFunction(reg, "and", 2, kernels.SimpleBinary[kernels.AndOpKernel],
-		andDoc, exec.NullIntersection)
-	makeFunction(reg, "and_not", 2, kernels.SimpleBinary[kernels.AndNotOpKernel],
-		andNotDoc, exec.NullIntersection)
-	makeFunction(reg, "or", 2, kernels.SimpleBinary[kernels.OrOpKernel],
-		orDoc, exec.NullIntersection)
-	makeFunction(reg, "xor", 2, kernels.SimpleBinary[kernels.XorOpKernel],
-		xorDoc, exec.NullIntersection)
-	makeFunction(reg, "and_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndOpKernel],
-		andKleeneDoc, exec.NullComputedPrealloc)
-	makeFunction(reg, "and_not_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndNotOpKernel],
-		andNotKleeneDoc, exec.NullComputedPrealloc)
-	makeFunction(reg, "or_kleene", 2, kernels.SimpleBinary[kernels.KleeneOrOpKernel],
-		orKleeneDoc, exec.NullComputedPrealloc)
-}
diff --git a/go/arrow/compute/scalar_bool_test.go b/go/arrow/compute/scalar_bool_test.go
deleted file mode 100644
index 4b2c5d54f8ae2..0000000000000
--- a/go/arrow/compute/scalar_bool_test.go
+++ /dev/null
@@ -1,154 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/require"
-)
-
-func checkScalarBinary(t *testing.T, fn string, left, right, expected compute.Datum, opts compute.FunctionOptions) {
-	checkScalar(t, fn, []compute.Datum{left, right}, expected, opts)
-}
-
-func checkBooleanScalarArrayBinary(t *testing.T, ctx context.Context, funcName string, array compute.Datum) {
-	mem := compute.GetAllocator(ctx)
-	for _, sc := range []scalar.Scalar{scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean), scalar.NewBooleanScalar(true), scalar.NewBooleanScalar(false)} {
-		constantArr, err := scalar.MakeArrayFromScalar(sc, int(array.Len()), mem)
-		defer constantArr.Release()
-
-		require.NoError(t, err)
-		expected, err := compute.CallFunction(ctx, funcName, nil, &compute.ArrayDatum{Value: constantArr.Data()}, array)
-		require.NoError(t, err)
-		defer expected.Release()
-
-		checkScalar(t, funcName, []compute.Datum{compute.NewDatum(sc), array}, expected, nil)
-
-		expected, err = compute.CallFunction(ctx, funcName, nil, array, &compute.ArrayDatum{Value: constantArr.Data()})
-		require.NoError(t, err)
-		defer expected.Release()
-		checkScalar(t, funcName, []compute.Datum{array, compute.NewDatum(sc)}, expected, nil)
-	}
-}
-
-func TestBooleanKernels(t *testing.T) {
-	tests := []struct {
-		fn           string
-		expectedJSON string
-		commutative  bool
-	}{
-		{"and", `[true, false, null, false, null, null]`, true},
-		{"or", `[true, true, null, false, null, null]`, true},
-		{"xor", `[false, true, null, false, null, null]`, true},
-		{"and_not", `[false, true, null, false, false, null, null, null, null]`, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fn, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			var (
-				leftJSON  = `[true, true, true, false, false, null]`
-				rightJSON = `[true, false, null, false, null, null]`
-			)
-
-			if !tt.commutative {
-				leftJSON = `[true, true, true, false, false, false, null, null, null]`
-				rightJSON = `[true, false, null, true, false, null, true, false, null]`
-			}
-
-			left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-				strings.NewReader(leftJSON))
-			defer left.Release()
-			right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-				strings.NewReader(rightJSON))
-			defer right.Release()
-			exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON))
-			defer exp.Release()
-
-			checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
-			ctx := compute.WithAllocator(context.Background(), mem)
-			checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
-		})
-	}
-}
-
-func TestBooleanKleeneKernels(t *testing.T) {
-	tests := []struct {
-		fn           string
-		expectedJSON []string
-		commutative  bool
-	}{
-		{"and_kleene", []string{`[true, false, null, false, false, null]`, `[true, false, false, null, false]`, `[true, false, false, false]`}, true},
-		{"or_kleene", []string{`[true, true, true, false, null, null]`, `[true, true, false, true, null]`, `[true, true, false, true]`}, true},
-		{"and_not_kleene", []string{`[false, true, null, false, false, false, false, null, null]`, `[false, true, false, false]`}, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fn, func(t *testing.T) {
-			var (
-				leftJSON  = make([]string, len(tt.expectedJSON))
-				rightJSON = make([]string, len(tt.expectedJSON))
-			)
-
-			if tt.commutative {
-				leftJSON[0] = `[true, true, true, false, false, null]`
-				rightJSON[0] = `[true, false, null, false, null, null]`
-				leftJSON[1] = `[true, true, false, null, null]`
-				rightJSON[1] = `[true, false, false, true, false]`
-				leftJSON[2] = `[true, true, false, true]`
-				rightJSON[2] = `[true, false, false, false]`
-			} else {
-				leftJSON[0] = `[true, true, true, false, false, false, null, null, null]`
-				rightJSON[0] = `[true, false, null, true, false, null, true, false, null]`
-				leftJSON[1] = `[true, true, false, false]`
-				rightJSON[1] = `[true, false, true, false]`
-			}
-
-			for i := range tt.expectedJSON {
-				func() {
-					mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-					defer mem.AssertSize(t, 0)
-
-					left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-						strings.NewReader(leftJSON[i]))
-					defer left.Release()
-					right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-						strings.NewReader(rightJSON[i]))
-					defer right.Release()
-					exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON[i]))
-					defer exp.Release()
-
-					checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
-					ctx := compute.WithAllocator(context.Background(), mem)
-					checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
-				}()
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/scalar_compare.go b/go/arrow/compute/scalar_compare.go
deleted file mode 100644
index 8f51440bc6362..0000000000000
--- a/go/arrow/compute/scalar_compare.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-type compareFunction struct {
-	ScalarFunction
-}
-
-func (fn *compareFunction) Execute(ctx context.Context, opt FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opt, -1, args...)
-}
-
-func (fn *compareFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if hasDecimal(vals...) {
-		if err := castBinaryDecimalArgs(decPromoteAdd, vals...); err != nil {
-			return nil, err
-		}
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	replaceNullWithOtherType(vals...)
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	} else if dt := commonTemporal(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	} else if dt := commonBinary(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-type flippedData struct {
-	*kernels.CompareData
-
-	unflippedExec exec.ArrayKernelExec
-}
-
-func flippedCompare(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	kn := ctx.Kernel.(*exec.ScalarKernel)
-	knData := kn.Data.(*flippedData)
-
-	flippedBatch := exec.ExecSpan{
-		Len:    batch.Len,
-		Values: []exec.ExecValue{batch.Values[1], batch.Values[0]},
-	}
-	return knData.unflippedExec(ctx, &flippedBatch, out)
-}
-
-func makeFlippedCompare(name string, fn *compareFunction, doc FunctionDoc) *compareFunction {
-	flipped := &compareFunction{*NewScalarFunction(name, Binary(), doc)}
-	for _, k := range fn.kernels {
-		flippedKernel := k
-		if k.Data != nil {
-			cmpData := k.Data.(*kernels.CompareData)
-			flippedKernel.Data = &flippedData{CompareData: cmpData,
-				unflippedExec: k.ExecFn}
-		} else {
-			flippedKernel.Data = &flippedData{unflippedExec: k.ExecFn}
-		}
-		flippedKernel.ExecFn = flippedCompare
-		flipped.AddKernel(flippedKernel)
-	}
-	return flipped
-}
-
-func RegisterScalarComparisons(reg FunctionRegistry) {
-	eqFn := &compareFunction{*NewScalarFunction("equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpEQ) {
-		if err := eqFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(eqFn, false)
-
-	neqFn := &compareFunction{*NewScalarFunction("not_equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpNE) {
-		if err := neqFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(neqFn, false)
-
-	gtFn := &compareFunction{*NewScalarFunction("greater", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpGT) {
-		if err := gtFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(gtFn, false)
-
-	gteFn := &compareFunction{*NewScalarFunction("greater_equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpGE) {
-		if err := gteFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(gteFn, false)
-
-	ltFn := makeFlippedCompare("less", gtFn, EmptyFuncDoc)
-	reg.AddFunction(ltFn, false)
-	lteFn := makeFlippedCompare("less_equal", gteFn, EmptyFuncDoc)
-	reg.AddFunction(lteFn, false)
-}
diff --git a/go/arrow/compute/scalar_compare_test.go b/go/arrow/compute/scalar_compare_test.go
deleted file mode 100644
index 1f1b65bd0f25f..0000000000000
--- a/go/arrow/compute/scalar_compare_test.go
+++ /dev/null
@@ -1,1484 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type CompareSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (c *CompareSuite) validateCompareDatum(op kernels.CompareOperator, lhs, rhs, expected compute.Datum) {
-	result, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
-	c.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(c.T(), expected, result, nil, nil)
-}
-
-func (c *CompareSuite) validateCompare(op kernels.CompareOperator, dt arrow.DataType, lhsStr, rhsStr, expStr string) {
-	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		lhs.Release()
-		rhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
-}
-
-func (c *CompareSuite) validateCompareArrScalar(op kernels.CompareOperator, dt arrow.DataType, lhsStr string, rhs compute.Datum, expStr string) {
-	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		lhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, rhs, &compute.ArrayDatum{exp.Data()})
-}
-
-func (c *CompareSuite) validateCompareScalarArr(op kernels.CompareOperator, dt arrow.DataType, lhs compute.Datum, rhsStr string, expStr string) {
-	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		rhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, lhs, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
-}
-
-func slowCompare[T arrow.NumericType | string](op kernels.CompareOperator, lhs, rhs T) bool {
-	switch op {
-	case kernels.CmpEQ:
-		return lhs == rhs
-	case kernels.CmpNE:
-		return lhs != rhs
-	case kernels.CmpLT:
-		return lhs < rhs
-	case kernels.CmpLE:
-		return lhs <= rhs
-	case kernels.CmpGT:
-		return lhs > rhs
-	case kernels.CmpGE:
-		return lhs >= rhs
-	default:
-		return false
-	}
-}
-
-// func simpleScalarArrayCompare[T arrow.NumericType](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-// 	var (
-// 		swap  = lhs.Kind() == compute.KindArray
-// 		span  exec.ArraySpan
-// 		itr   exec.ArrayIter[T]
-// 		value T
-// 	)
-
-// 	if swap {
-// 		span.SetMembers(lhs.(*compute.ArrayDatum).Value)
-// 		itr = exec.NewPrimitiveIter[T](&span)
-// 		value = kernels.UnboxScalar[T](rhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
-// 	} else {
-// 		span.SetMembers(rhs.(*compute.ArrayDatum).Value)
-// 		itr = exec.NewPrimitiveIter[T](&span)
-// 		value = kernels.UnboxScalar[T](lhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
-// 	}
-
-// 	bitmap := make([]bool, span.Len)
-// 	for i := 0; i < int(span.Len); i++ {
-// 		if swap {
-// 			bitmap[i] = slowCompare(op, itr.Next(), value)
-// 		} else {
-// 			bitmap[i] = slowCompare(op, value, itr.Next())
-// 		}
-// 	}
-
-// 	var result arrow.Array
-// 	if span.Nulls == 0 {
-// 		result = exec.ArrayFromSlice(mem, bitmap)
-// 	} else {
-// 		nullBitmap := make([]bool, span.Len)
-// 		rdr := bitutil.NewBitmapReader(span.Buffers[0].Buf, int(span.Offset), int(span.Len))
-// 		for i := 0; i < int(span.Len); i++ {
-// 			nullBitmap[i] = rdr.Set()
-// 			rdr.Next()
-// 		}
-// 		bldr := array.NewBooleanBuilder(mem)
-// 		defer bldr.Release()
-
-// 		bldr.AppendValues(bitmap, nullBitmap)
-// 		result = bldr.NewArray()
-// 	}
-
-// 	defer result.Release()
-// 	return compute.NewDatum(result)
-// }
-
-func simpleScalarArrayCompareString(mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-	var (
-		swap  = lhs.Kind() == compute.KindArray
-		value string
-		arr   *array.String
-	)
-
-	if swap {
-		arr = lhs.(*compute.ArrayDatum).MakeArray().(*array.String)
-		defer arr.Release()
-		value = string(rhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
-	} else {
-		arr = rhs.(*compute.ArrayDatum).MakeArray().(*array.String)
-		defer arr.Release()
-		value = string(lhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
-	}
-
-	bitmap := make([]bool, arr.Len())
-	for i := 0; i < arr.Len(); i++ {
-		if swap {
-			bitmap[i] = slowCompare(op, arr.Value(i), value)
-		} else {
-			bitmap[i] = slowCompare(op, value, arr.Value(i))
-		}
-	}
-
-	var result arrow.Array
-	if arr.NullN() == 0 {
-		result = exec.ArrayFromSlice(mem, bitmap)
-	} else {
-		nullBitmap := make([]bool, arr.Len())
-		rdr := bitutil.NewBitmapReader(arr.NullBitmapBytes(), arr.Offset(), arr.Len())
-		for i := 0; i < arr.Len(); i++ {
-			nullBitmap[i] = rdr.Set()
-			rdr.Next()
-		}
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(bitmap, nullBitmap)
-		result = bldr.NewArray()
-	}
-
-	defer result.Release()
-	return compute.NewDatum(result)
-}
-
-func nullBitmapFromArrays(lhs, rhs arrow.Array) []bool {
-	nullBitmap := make([]bool, lhs.Len())
-
-	left := func(i int) bool {
-		if lhs.NullN() == 0 {
-			return true
-		}
-		return lhs.IsValid(i)
-	}
-
-	right := func(i int) bool {
-		if rhs.NullN() == 0 {
-			return true
-		}
-		return rhs.IsValid(i)
-	}
-
-	for i := 0; i < lhs.Len(); i++ {
-		nullBitmap[i] = left(i) && right(i)
-	}
-	return nullBitmap
-}
-
-type valuer[T any] interface {
-	Value(int) T
-}
-
-func simpleArrArrCompare[T arrow.NumericType | string](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-	var (
-		lArr   = lhs.(*compute.ArrayDatum).MakeArray()
-		rArr   = rhs.(*compute.ArrayDatum).MakeArray()
-		length = lArr.Len()
-		bitmap = make([]bool, length)
-
-		lvals = lArr.(valuer[T])
-		rvals = rArr.(valuer[T])
-	)
-	defer lArr.Release()
-	defer rArr.Release()
-
-	for i := 0; i < length; i++ {
-		bitmap[i] = slowCompare(op, lvals.Value(i), rvals.Value(i))
-	}
-
-	var result arrow.Array
-	if lArr.NullN() == 0 && rArr.NullN() == 0 {
-		result = exec.ArrayFromSlice(mem, bitmap)
-	} else {
-		nullBitmap := nullBitmapFromArrays(lArr, rArr)
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(bitmap, nullBitmap)
-		result = bldr.NewArray()
-	}
-
-	defer result.Release()
-	return compute.NewDatum(result)
-}
-
-type NumericCompareSuite[T arrow.NumericType] struct {
-	CompareSuite
-}
-
-// func (n *NumericCompareSuite[T]) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
-// 	var expected compute.Datum
-
-// 	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
-// 	if hasScalar {
-// 		expected = simpleScalarArrayCompare[T](n.mem, op, lhs, rhs)
-// 	} else {
-// 		expected = simpleArrArrCompare[T](n.mem, op, lhs, rhs)
-// 	}
-
-// 	defer expected.Release()
-// 	n.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
-// }
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareArrayScalar() {
-	dt := arrow.GetDataType[T]()
-	one := compute.NewDatum(scalar.MakeScalar(T(1)))
-
-	n.Run(dt.String(), func() {
-		op := kernels.CmpEQ
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, true, true, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
-			`[false, false, false, false, true, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpNE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, false, false, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
-			`[true, true, true, true, false, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGT
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, false, false, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, false, false]`)
-
-		op = kernels.CmpGE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpLT
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpLE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, true, true, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, true, true]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareScalarArray() {
-	dt := arrow.GetDataType[T]()
-	one := compute.NewDatum(scalar.MakeScalar(T(1)))
-
-	n.Run(dt.String(), func() {
-		op := kernels.CmpEQ
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, true, true, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
-			`[false, false, false, false, true, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpNE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, false, false, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
-			`[true, true, true, true, false, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGT
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, true, true, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, true, true]`)
-
-		op = kernels.CmpLT
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, false, false, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, false, false]`)
-
-		op = kernels.CmpLE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, true, true]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestNullScalar() {
-	dt := arrow.GetDataType[T]()
-	null := compute.NewDatum(scalar.MakeNullScalar(dt))
-
-	n.Run(dt.String(), func() {
-		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[]`, null, `[]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[]`, `[]`)
-		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[null]`, null, `[null]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[null]`, `[null]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[1, 2, 3]`, `[null, null, null]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareArrArr() {
-	dt := arrow.GetDataType[T]()
-
-	n.Run(dt.String(), func() {
-		n.validateCompare(kernels.CmpEQ, dt, `[]`, `[]`, `[]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[null]`, `[null]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[1]`, `[true]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[2]`, `[false]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[1]`, `[null]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[null]`, `[null]`)
-
-		n.validateCompare(kernels.CmpLE, dt, `[1, 2, 3, 4, 5]`, `[2, 3, 4, 5, 6]`, `[true, true, true, true, true]`)
-	})
-}
-
-type CompareTimestampSuite struct {
-	CompareSuite
-}
-
-func (c *CompareTimestampSuite) TestBasics() {
-	var (
-		example1JSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
-		example2JSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
-	)
-
-	checkCase := func(dt arrow.DataType, op kernels.CompareOperator, expected string) {
-		c.validateCompare(op, dt, example1JSON, example2JSON, expected)
-	}
-
-	seconds := arrow.FixedWidthTypes.Timestamp_s
-	millis := arrow.FixedWidthTypes.Timestamp_ms
-	micro := arrow.FixedWidthTypes.Timestamp_us
-	nano := arrow.FixedWidthTypes.Timestamp_ns
-
-	checkCase(seconds, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(millis, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(micro, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(nano, kernels.CmpEQ, `[false, false, true]`)
-
-	checkCase(seconds, kernels.CmpNE, `[true, true, false]`)
-	checkCase(millis, kernels.CmpNE, `[true, true, false]`)
-	checkCase(micro, kernels.CmpNE, `[true, true, false]`)
-	checkCase(nano, kernels.CmpNE, `[true, true, false]`)
-
-	checkCase(seconds, kernels.CmpLT, `[true, false, false]`)
-	checkCase(seconds, kernels.CmpLE, `[true, false, true]`)
-	checkCase(seconds, kernels.CmpGT, `[false, true, false]`)
-	checkCase(seconds, kernels.CmpGE, `[false, true, true]`)
-
-	secondsUTC := &arrow.TimestampType{Unit: arrow.Second, TimeZone: "utc"}
-	checkCase(secondsUTC, kernels.CmpEQ, `[false, false, true]`)
-}
-
-func (c *CompareTimestampSuite) TestDiffParams() {
-	cases := []struct {
-		fn  string
-		exp string
-	}{
-		{"equal", `[false, false, true]`},
-		{"not_equal", `[true, true, false]`},
-		{"less", `[true, false, false]`},
-		{"less_equal", `[true, false, true]`},
-		{"greater", `[false, true, false]`},
-		{"greater_equal", `[false, true, true]`},
-	}
-
-	const lhsJSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
-	const rhsJSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp)
-			defer exp.Release()
-
-			expected := &compute.ArrayDatum{exp.Data()}
-			c.Run("diff units", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Millisecond}, rhsJSON)
-				defer rhs.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
-			})
-			c.Run("diff time zones", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
-				defer rhs.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
-			})
-			c.Run("native to zoned", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
-				defer rhs.Release()
-
-				_, err := compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-
-				lhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
-				defer lhs.Release()
-				rhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second}, rhsJSON)
-				defer rhs.Release()
-
-				_, err = compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-			})
-		})
-	}
-}
-
-func (c *CompareTimestampSuite) TestScalarArray() {
-	const scalarStr = "1970-01-02"
-	const arrayJSON = `["1970-01-02", "2000-02-01", null, "1900-02-28"]`
-
-	checkArrCase := func(scType, arrayType arrow.DataType, op kernels.CompareOperator, expectedJSON, flipExpectedJSON string) {
-		scalarSide, err := scalar.MakeScalarParam(scalarStr, scType)
-		c.Require().NoError(err)
-		arraySide := c.getArr(arrayType, arrayJSON)
-		defer arraySide.Release()
-
-		expected := c.getArr(arrow.FixedWidthTypes.Boolean, expectedJSON)
-		defer expected.Release()
-		flipExpected := c.getArr(arrow.FixedWidthTypes.Boolean, flipExpectedJSON)
-		defer flipExpected.Release()
-
-		cases := []struct{ side1, side2, expected compute.Datum }{
-			{compute.NewDatum(scalarSide), &compute.ArrayDatum{arraySide.Data()}, &compute.ArrayDatum{expected.Data()}},
-			{&compute.ArrayDatum{arraySide.Data()}, compute.NewDatum(scalarSide), &compute.ArrayDatum{flipExpected.Data()}},
-		}
-
-		for _, arrCase := range cases {
-			lhs, rhs := arrCase.side1, arrCase.side2
-			if arrow.TypeEqual(scType, arrayType) {
-				c.validateCompareDatum(op, lhs, rhs, arrCase.expected)
-			} else {
-				_, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-			}
-		}
-	}
-
-	for _, unit := range arrow.TimeUnitValues {
-		c.Run(unit.String(), func() {
-			tests := []struct{ t0, t1 arrow.DataType }{
-				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit}},
-				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
-				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit}},
-				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
-			}
-			for _, tt := range tests {
-				checkArrCase(tt.t0, tt.t1, kernels.CmpEQ, `[true, false, null, false]`, `[true, false, null, false]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpNE, `[false, true, null, true]`, `[false, true, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpLT, `[false, true, null, false]`, `[false, false, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpLE, `[true, true, null, false]`, `[true, false, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpGT, `[false, false, null, true]`, `[false, true, null, false]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpGE, `[true, false, null, true]`, `[true, true, null, false]`)
-			}
-		})
-	}
-}
-
-type CompareDecimalSuite struct {
-	CompareSuite
-}
-
-func (c *CompareDecimalSuite) TestArrayScalar() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, null]`},
-		{"not_equal", `[false, true, true, null]`},
-		{"less", `[false, false, true, null]`},
-		{"less_equal", `[true, false, true, null]`},
-		{"greater", `[false, true, false, null]`},
-		{"greater_equal", `[true, true, false, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			lhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
-			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
-			lhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
-			defer func() {
-				lhsArr.Release()
-				lhsFloatArr.Release()
-				lhsIntLikeArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
-			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
-
-			rhs, _ := scalar.MakeScalarParam("1.23", ty)
-			rhsFloat := scalar.MakeScalar(float64(1.23))
-			rhsInt := scalar.MakeScalar(int64(1))
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhs), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsFloat, compute.NewDatum(rhs), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhsFloat), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsIntLike, compute.NewDatum(rhsInt), expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestScalarArray() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, null]`},
-		{"not_equal", `[false, true, true, null]`},
-		{"less", `[false, true, false, null]`},
-		{"less_equal", `[true, true, false, null]`},
-		{"greater", `[false, false, true, null]`},
-		{"greater_equal", `[true, false, true, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			rhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
-			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
-			rhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
-			defer func() {
-				rhsArr.Release()
-				rhsFloatArr.Release()
-				rhsIntLikeArr.Release()
-			}()
-
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
-			rhsIntLike := &compute.ArrayDatum{rhsIntLikeArr.Data()}
-
-			lhs, _ := scalar.MakeScalarParam("1.23", ty)
-			lhsFloat := scalar.MakeScalar(float64(1.23))
-			lhsInt := scalar.MakeScalar(int64(1))
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhsFloat, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsFloat), rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsInt), rhsIntLike, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestArrayArray() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, true, false, false, null, null]`},
-		{"not_equal", `[false, true, true, false, true, true, null, null]`},
-		{"less", `[false, true, false, false, true, false, null, null]`},
-		{"less_equal", `[true, true, false, true, true, false, null, null]`},
-		{"greater", `[false, false, true, false, false, true, null, null]`},
-		{"greater_equal", `[true, false, true, true, false, true, null, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			lhsArr := c.getArr(ty, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23", "1.23", null]`)
-			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 1.23, 2.34, -1.23, -1.23, 1.23, 1.23, null]`)
-			lhsIntLikeArr := c.getArr(ty, `["1.00", "1.00", "2.00", "-1.00", "-1.00", "1.00", "1.00", null]`)
-			defer func() {
-				lhsArr.Release()
-				lhsFloatArr.Release()
-				lhsIntLikeArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
-			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
-
-			rhsArr := c.getArr(ty, `["1.23", "2.34", "1.23", "-1.23", "1.23", "-1.23", null, "1.23"]`)
-			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, 1.23, -1.23, 1.23, -1.23, null, 1.23]`)
-			rhsIntArr := c.getArr(arrow.PrimitiveTypes.Int64, `[1, 2, 1, -1, 1, -1, null, 1]`)
-			defer func() {
-				rhsArr.Release()
-				rhsFloatArr.Release()
-				rhsIntArr.Release()
-			}()
-
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
-			rhsInt := &compute.ArrayDatum{rhsIntArr.Data()}
-
-			empty := c.getArr(ty, `[]`)
-			emptyExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-			null := c.getArr(ty, `[null]`)
-			nullExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-			defer func() {
-				empty.Release()
-				emptyExp.Release()
-				null.Release()
-				nullExp.Release()
-			}()
-
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{empty.Data()},
-						&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{emptyExp.Data()}, nil)
-					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{null.Data()},
-						&compute.ArrayDatum{null.Data()}, &compute.ArrayDatum{nullExp.Data()}, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsFloat, rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, rhsFloat, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsIntLike, rhsInt, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestDiffParams() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, true, false, false]`},
-		{"not_equal", `[false, true, true, false, true, true]`},
-		{"less", `[false, true, false, false, true, false]`},
-		{"less_equal", `[true, true, false, true, true, false]`},
-		{"greater", `[false, false, true, false, false, true]`},
-		{"greater_equal", `[true, false, true, true, false, true]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty1, _ := arrow.NewDecimalType(id, 3, 2)
-			ty2, _ := arrow.NewDecimalType(id, 4, 3)
-
-			lhsArr := c.getArr(ty1, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23"]`)
-			rhsArr := c.getArr(ty2, `["1.230", "2.340", "1.230", "-1.230", "1.230", "-1.230"]`)
-			defer func() {
-				lhsArr.Release()
-				rhsArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-type CompareFixedSizeBinary struct {
-	CompareSuite
-}
-
-type fsbCompareCase struct {
-	lhsType, rhsType arrow.DataType
-	lhs, rhs         string
-	// index into cases[...].exp
-	resultIdx int
-}
-
-func (c *CompareFixedSizeBinary) TestArrayScalar() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[false, true, false, null]`,
-			`[false, false, false, null]`,
-			`[false, false, false, null]`}},
-		{"not_equal", []string{
-			`[true, false, true, null]`,
-			`[true, true, true, null]`,
-			`[true, true, true, null]`}},
-		{"less", []string{
-			`[true, false, false, null]`,
-			`[true, true, true, null]`,
-			`[true, false, false, null]`}},
-		{"less_equal", []string{
-			`[true, true, false, null]`,
-			`[true, true, true, null]`,
-			`[true, false, false, null]`}},
-		{"greater", []string{
-			`[false, false, true, null]`,
-			`[false, false, false, null]`,
-			`[false, true, true, null]`}},
-		{"greater_equal", []string{
-			`[false, true, true, null]`,
-			`[false, false, false, null]`,
-			`[false, true, true, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valB   = `Yg==`
-		valC   = `Yw==`
-	)
-
-	const (
-		lhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
-		lhs1    = `["aba", "abc", "abd", null]`
-		rhs1    = "abc"
-		lhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
-		rhs2    = "b"
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1bin, rhs1, 0},
-		{ty2, ty2, lhs2bin, rhs2, 0},
-		{ty1, ty2, lhs1bin, rhs2, 1},
-		{ty2, ty1, lhs2bin, rhs1, 2},
-		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1, 0},
-	}
-
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs := c.getArr(tc.lhsType, tc.lhs)
-				defer lhs.Release()
-				rhs, _ := scalar.MakeScalarParam(tc.rhs, tc.rhsType)
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				null := c.getArr(tc.lhsType, `[null]`)
-				defer null.Release()
-				scNull := scalar.MakeNullScalar(tc.rhsType)
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{null.Data()}, compute.NewDatum(scNull),
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
-					compute.NewDatum(rhs), expected, nil)
-			}
-		})
-	}
-}
-
-func (c *CompareFixedSizeBinary) TestScalarArray() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[false, true, false, null]`,
-			`[false, false, false, null]`,
-			`[false, false, false, null]`}},
-		{"not_equal", []string{
-			`[true, false, true, null]`,
-			`[true, true, true, null]`,
-			`[true, true, true, null]`}},
-		{"less", []string{
-			`[false, false, true, null]`,
-			`[false, true, true, null]`,
-			`[false, false, false, null]`}},
-		{"less_equal", []string{
-			`[false, true, true, null]`,
-			`[false, true, true, null]`,
-			`[false, false, false, null]`}},
-		{"greater", []string{
-			`[true, false, false, null]`,
-			`[true, false, false, null]`,
-			`[true, true, true, null]`}},
-		{"greater_equal", []string{
-			`[true, true, false, null]`,
-			`[true, false, false, null]`,
-			`[true, true, true, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valB   = `Yg==`
-		valC   = `Yw==`
-	)
-
-	const (
-		lhs1    = "abc"
-		rhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
-		rhs1    = `["aba", "abc", "abd", null]`
-		lhs2    = "b"
-		rhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
-		rhs2    = `["a", "b", "c", null]`
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1, rhs1bin, 0},
-		{ty2, ty2, lhs2, rhs2bin, 0},
-		{ty1, ty2, lhs1, rhs2bin, 1},
-		{ty2, ty1, lhs2, rhs1bin, 2},
-		{ty1, arrow.BinaryTypes.Binary, lhs1, rhs1bin, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1, rhs1bin, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
-	}
-
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs, _ := scalar.MakeScalarParam(tc.lhs, tc.lhsType)
-				rhs := c.getArr(tc.rhsType, tc.rhs)
-				defer rhs.Release()
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				null := c.getArr(tc.rhsType, `[null]`)
-				defer null.Release()
-				scNull := scalar.MakeNullScalar(tc.lhsType)
-
-				checkScalarBinary(c.T(), op.fn, compute.NewDatum(scNull), &compute.ArrayDatum{null.Data()},
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, compute.NewDatum(lhs),
-					&compute.ArrayDatum{rhs.Data()}, expected, nil)
-			}
-		})
-	}
-}
-
-func (c *CompareFixedSizeBinary) TestArrayArray() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, false, null, null]`,
-			`[false, false, false, null, null]`}},
-		{"not_equal", []string{
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, true, null, null]`,
-			`[true, true, true, null, null]`}},
-		{"less", []string{
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, false, null, null]`}},
-		{"less_equal", []string{
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, false, null, null]`}},
-		{"greater", []string{
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, true, null, null]`}},
-		{"greater_equal", []string{
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, true, null, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valC   = `Yw==`
-		valD   = `ZA==`
-	)
-
-	const (
-		lhs1bin = `["` + valAbc + `","` + valAbc + `","` + valAbd + `", null, "` + valAbc + `"]`
-		rhs1bin = `["` + valAbc + `","` + valAbd + `","` + valAbc + `","` + valAbc + `", null]`
-		lhs1    = `["abc", "abc", "abd", null, "abc"]`
-		rhs1    = `["abc", "abd", "abc", "abc", null]`
-		lhs2bin = `["` + valA + `","` + valA + `","` + valD + `", null, "` + valA + `"]`
-		rhs2bin = `["` + valA + `","` + valD + `","` + valC + `","` + valA + `", null]`
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, ty1, rhs1bin, lhs1bin, 1},
-		{ty2, ty2, lhs2bin, rhs2bin, 2},
-		{ty2, ty2, rhs2bin, lhs2bin, 3},
-		{ty1, ty2, lhs1bin, rhs2bin, 4},
-		{ty2, ty1, lhs2bin, rhs1bin, 5},
-		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1bin, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1bin, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
-	}
-
-	expEmpty := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer expEmpty.Release()
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs := c.getArr(tc.lhsType, tc.lhs)
-				defer lhs.Release()
-				rhs := c.getArr(tc.rhsType, tc.rhs)
-				defer rhs.Release()
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				lhsEmpty := c.getArr(tc.lhsType, `[]`)
-				defer lhsEmpty.Release()
-				rhsEmpty := c.getArr(tc.rhsType, `[]`)
-				defer rhsEmpty.Release()
-				lhsNull := c.getArr(tc.lhsType, `[null]`)
-				defer lhsNull.Release()
-				rhsNull := c.getArr(tc.rhsType, `[null]`)
-				defer rhsNull.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsEmpty.Data()}, &compute.ArrayDatum{rhsEmpty.Data()},
-					&compute.ArrayDatum{expEmpty.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsNull.Data()}, &compute.ArrayDatum{rhsNull.Data()},
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
-					&compute.ArrayDatum{rhs.Data()}, expected, nil)
-			}
-		})
-	}
-}
-
-type CompareStringSuite struct {
-	CompareSuite
-}
-
-func (c *CompareStringSuite) TestSimpleCompareArrayScalar() {
-	one := compute.NewDatum(scalar.MakeScalar("one"))
-
-	dt := arrow.BinaryTypes.String
-
-	op := kernels.CmpEQ
-	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
-		`[false, false, true, true, false, false]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
-		`[false, true, false, false, false, false]`)
-	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
-		`[false, false, false, false, true, false]`)
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, false, true, true]`)
-
-	na := compute.NewDatum(scalar.MakeNullScalar(dt))
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, na, `[null, null, null, null]`)
-	c.validateCompareScalarArr(op, dt, na, `[null, "zero", "one", "one"]`, `[null, null, null, null]`)
-
-	op = kernels.CmpNE
-	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
-		`[true, true, false, false, true, true]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
-		`[true, false, true, true, true, true]`)
-	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
-		`[true, true, true, true, false, true]`)
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, true, false, false]`)
-}
-
-func (c *CompareStringSuite) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
-	var expected compute.Datum
-
-	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
-	if hasScalar {
-		expected = simpleScalarArrayCompareString(c.mem, op, lhs, rhs)
-	} else {
-		expected = simpleArrArrCompare[string](c.mem, op, lhs, rhs)
-	}
-
-	defer expected.Release()
-	c.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
-}
-
-func (c *CompareStringSuite) TestRandomCompareArrayArray() {
-	rng := gen.NewRandomArrayGenerator(0x5416447, c.mem)
-	for i := 3; i < 5; i++ {
-		c.Run(fmt.Sprintf("len=%d", 1<<i), func() {
-			for _, nullProb := range []float64{0.0, 0.01, 0.1, 0.25, 0.5, 1.0} {
-				c.Run(fmt.Sprintf("nullprob=%0.2f", nullProb), func() {
-					for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE} {
-						c.Run(op.String(), func() {
-							length := int64(1 << i)
-							lhs := rng.String(length<<i, 0, 16, nullProb)
-							defer lhs.Release()
-							rhs := rng.String(length<<i, 0, 16, nullProb)
-							defer rhs.Release()
-
-							c.validateCompareComputed(op,
-								&compute.ArrayDatum{lhs.Data()},
-								&compute.ArrayDatum{rhs.Data()})
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestComparisons(t *testing.T) {
-	suite.Run(t, new(NumericCompareSuite[int8]))
-	suite.Run(t, new(NumericCompareSuite[int16]))
-	suite.Run(t, new(NumericCompareSuite[int32]))
-	suite.Run(t, new(NumericCompareSuite[int64]))
-	suite.Run(t, new(NumericCompareSuite[uint8]))
-	suite.Run(t, new(NumericCompareSuite[uint16]))
-	suite.Run(t, new(NumericCompareSuite[uint32]))
-	suite.Run(t, new(NumericCompareSuite[uint64]))
-	suite.Run(t, new(NumericCompareSuite[float32]))
-	suite.Run(t, new(NumericCompareSuite[float64]))
-	suite.Run(t, new(CompareTimestampSuite))
-	suite.Run(t, new(CompareDecimalSuite))
-	suite.Run(t, new(CompareFixedSizeBinary))
-	suite.Run(t, new(CompareStringSuite))
-}
-
-func TestCompareKernelsDispatchBest(t *testing.T) {
-	tests := []struct {
-		origLeft, origRight     arrow.DataType
-		expectLeft, expectRight arrow.DataType
-	}{
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-
-		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
-		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Float64,
-			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Int16,
-			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-
-		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
-		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
-
-		{arrow.BinaryTypes.String, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
-		{arrow.BinaryTypes.LargeString, arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
-		{arrow.BinaryTypes.LargeString, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
-		{arrow.BinaryTypes.Binary, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
-		{&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2},
-			&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2}},
-
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 6, Scale: 3},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal128Type{Precision: 6, Scale: 3}},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Int64,
-			&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 21, Scale: 2}},
-		{arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 21, Scale: 2}, &arrow.Decimal128Type{Precision: 3, Scale: 2}},
-	}
-
-	for _, name := range []string{"equal", "not_equal", "less", "less_equal", "greater", "greater_equal"} {
-		t.Run(name, func(t *testing.T) {
-			for _, tt := range tests {
-				CheckDispatchBest(t, name, []arrow.DataType{tt.origLeft, tt.origRight},
-					[]arrow.DataType{tt.expectLeft, tt.expectRight})
-			}
-		})
-	}
-}
-
-func TestCompareGreaterWithImplicitCasts(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	getArr := func(ty arrow.DataType, str string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
-		require.NoError(t, err)
-		return arr
-	}
-
-	check := func(ty1 arrow.DataType, str1 string, ty2 arrow.DataType, str2 string, exp string) {
-		arr1, arr2 := getArr(ty1, str1), getArr(ty2, str2)
-		arrExp := getArr(arrow.FixedWidthTypes.Boolean, exp)
-
-		checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(arr1),
-			compute.NewDatumWithoutOwning(arr2),
-			compute.NewDatumWithoutOwning(arrExp), nil)
-
-		arr1.Release()
-		arr2.Release()
-		arrExp.Release()
-	}
-
-	tests := []struct {
-		ty1, ty2   arrow.DataType
-		str1, str2 string
-		exp        string
-	}{
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64,
-			`[0, 1, 2, null]`, `[0.5, 1.0, 1.5, 2.0]`, `[false, false, true, null]`},
-		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32,
-			`[-16, 0, 16, null]`, `[3, 4, 5, 7]`, `[false, false, true, null]`},
-		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-			`[-16, 0, 16, null]`, `[255, 254, 1, 0]`, `[false, false, true, null]`},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int32},
-			arrow.PrimitiveTypes.Uint32, `[0, 1, 2, null]`, `[3, 4, 5, 7]`, `[false, false, false, null]`},
-		{&arrow.TimestampType{Unit: arrow.Second}, arrow.FixedWidthTypes.Date64,
-			`["1970-01-01", "2000-02-29", "1900-02-28"]`, `[86400000, 0, 86400000]`,
-			`[false, true, false]`},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int8},
-			arrow.PrimitiveTypes.Uint32, `[3, -3, -28, null]`, `[3, 4, 5, 7]`,
-			`[false, false, false, null]`},
-	}
-
-	for _, tt := range tests {
-		check(tt.ty1, tt.str1, tt.ty2, tt.str2, tt.exp)
-	}
-}
-
-func TestCompareGreaterWithImplicitCastUint64EdgeCase(t *testing.T) {
-	// int64 is as wide as we can promote
-	CheckDispatchBest(t, "greater",
-		[]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint64},
-		[]arrow.DataType{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64})
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	getArr := func(ty arrow.DataType, str string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
-		require.NoError(t, err)
-		return arr
-	}
-
-	// this works sometimes
-	neg := getArr(arrow.PrimitiveTypes.Int8, `[-1]`)
-	defer neg.Release()
-	zero := getArr(arrow.PrimitiveTypes.Uint64, `[0]`)
-	defer zero.Release()
-	res := getArr(arrow.FixedWidthTypes.Boolean, `[false]`)
-	defer res.Release()
-
-	checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(neg),
-		compute.NewDatumWithoutOwning(zero), compute.NewDatumWithoutOwning(res), nil)
-
-	// ... but it can result in impossible implicit casts in the presence of uint64
-	// since some uint64 values cannot be cast to int64
-	neg = getArr(arrow.PrimitiveTypes.Int64, `[-1]`)
-	defer neg.Release()
-	big := getArr(arrow.PrimitiveTypes.Uint64, `[18446744073709551615]`)
-	defer big.Release()
-
-	_, err := compute.CallFunction(context.TODO(), "greater", nil, compute.NewDatumWithoutOwning(neg), compute.NewDatumWithoutOwning(big))
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-}
-
-const benchSeed = 0x94378165
-
-func benchArrayScalar(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
-	b.Run(dt.String(), func(b *testing.B) {
-		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
-		arr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer arr.Release()
-		s := rng.ArrayOf(dt.ID(), 1, 0)
-		defer s.Release()
-		sc, _ := scalar.GetScalar(s, 0)
-
-		lhs := compute.NewDatumWithoutOwning(arr)
-		rhs := compute.NewDatumWithoutOwning(sc)
-
-		var nbytes int64
-		switch dt.ID() {
-		case arrow.STRING:
-			nbytes = int64(len(arr.(*array.String).ValueBytes()) + sc.(*scalar.String).Value.Len())
-		default:
-			nbytes = int64(arr.Data().Buffers()[1].Len() + len(sc.(scalar.PrimitiveScalar).Data()))
-		}
-		ctx := context.Background()
-		b.ResetTimer()
-		b.SetBytes(nbytes)
-		for n := 0; n < b.N; n++ {
-			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
-			if err != nil {
-				b.Fatal(err)
-			}
-			result.Release()
-		}
-	})
-}
-
-func benchArrayArray(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
-	b.Run(dt.String(), func(b *testing.B) {
-		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
-		lhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer lhsArr.Release()
-		rhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer rhsArr.Release()
-
-		lhs, rhs := compute.NewDatumWithoutOwning(lhsArr), compute.NewDatumWithoutOwning(rhsArr)
-		var nbytes int64
-		switch dt.ID() {
-		case arrow.STRING:
-			nbytes = int64(len(lhsArr.(*array.String).ValueBytes()) + len(rhsArr.(*array.String).ValueBytes()))
-		default:
-			nbytes = int64(lhsArr.Data().Buffers()[1].Len() + rhsArr.Data().Buffers()[1].Len())
-		}
-		ctx := context.Background()
-		b.ResetTimer()
-		b.SetBytes(nbytes)
-		for n := 0; n < b.N; n++ {
-			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
-			if err != nil {
-				b.Fatal(err)
-			}
-			result.Release()
-		}
-	})
-}
-
-func BenchmarkCompare(b *testing.B) {
-	var (
-		sizes    = []int{CpuCacheSizes[0]}
-		nullProb = []float64{0.0001, 0.01, 0.1, 0.5, 1, 0}
-	)
-
-	b.Run("GreaterArrayScalar", func(b *testing.B) {
-		for _, sz := range sizes {
-			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
-				for _, np := range nullProb {
-					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
-						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
-						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
-					})
-				}
-			})
-		}
-	})
-
-	b.Run("GreaterArrayArray", func(b *testing.B) {
-		for _, sz := range sizes {
-			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
-				for _, np := range nullProb {
-					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
-						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
-						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
-					})
-				}
-			})
-		}
-	})
-}
diff --git a/go/arrow/compute/selection.go b/go/arrow/compute/selection.go
deleted file mode 100644
index 4aeaa8884649d..0000000000000
--- a/go/arrow/compute/selection.go
+++ /dev/null
@@ -1,729 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"golang.org/x/sync/errgroup"
-)
-
-var (
-	filterDoc = FunctionDoc{
-		Summary: "Filter with a boolean selection filter",
-		Description: `The output is populated with values from the input at positions
-where the selection filter is non-zero. Nulls in the selection filter
-are handled based on FilterOptions.`,
-		ArgNames:    []string{"input", "selection_filter"},
-		OptionsType: "FilterOptions",
-	}
-	filterMetaFunc = NewMetaFunction("filter", Binary(), filterDoc,
-		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-			if args[1].(ArrayLikeDatum).Type().ID() != arrow.BOOL {
-				return nil, fmt.Errorf("%w: filter argument must be boolean type",
-					arrow.ErrNotImplemented)
-			}
-
-			switch args[0].Kind() {
-			case KindRecord:
-				filtOpts, ok := opts.(*FilterOptions)
-				if !ok {
-					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
-				}
-
-				if filter, ok := args[1].(*ArrayDatum); ok {
-					filterArr := filter.MakeArray()
-					defer filterArr.Release()
-					rec, err := FilterRecordBatch(ctx, args[0].(*RecordDatum).Value, filterArr, filtOpts)
-					if err != nil {
-						return nil, err
-					}
-					return &RecordDatum{Value: rec}, nil
-				}
-				return nil, fmt.Errorf("%w: record batch filtering only implemented for Array filter", arrow.ErrNotImplemented)
-			case KindTable:
-				filtOpts, ok := opts.(*FilterOptions)
-				if !ok {
-					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
-				}
-
-				tbl, err := FilterTable(ctx, args[0].(*TableDatum).Value, args[1], filtOpts)
-				if err != nil {
-					return nil, err
-				}
-				return &TableDatum{Value: tbl}, nil
-
-			default:
-				return CallFunction(ctx, "array_filter", opts, args...)
-			}
-		})
-	takeDoc = FunctionDoc{
-		Summary: "Select values from an input based on indices from another array",
-		Description: `The output is populated with values from the input at positions
-given by "indices". Nulls in "indices" emit null in the output`,
-		ArgNames:    []string{"input", "indices"},
-		OptionsType: "TakeOptions",
-	}
-	takeMetaFunc = NewMetaFunction("take", Binary(), takeDoc,
-		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-			indexKind := args[1].Kind()
-			if indexKind != KindArray && indexKind != KindChunked {
-				return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-					arrow.ErrNotImplemented, args[0], args[1])
-			}
-
-			switch args[0].Kind() {
-			case KindArray:
-				return takeArrayImpl(ctx, opts, args...)
-			case KindChunked:
-				return takeChunkedImpl(ctx, opts, args...)
-			case KindRecord:
-				return takeRecordImpl(ctx, opts, args...)
-			case KindTable:
-				return takeTableImpl(ctx, opts, args...)
-			}
-
-			return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-				arrow.ErrNotImplemented, args[0], args[1])
-		})
-)
-
-func takeTableImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	tbl := args[0].(*TableDatum).Value
-	ncols := int(tbl.NumCols())
-	cols := make([]arrow.Column, ncols)
-	defer func() {
-		for _, c := range cols {
-			c.Release()
-		}
-	}()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i := 0; i < ncols; i++ {
-		i := i
-		eg.Go(func() error {
-			inCol := tbl.Column(i)
-			result, err := CallFunction(cctx, "take", opts,
-				&ChunkedDatum{Value: inCol.Data()},
-				args[1])
-			if err != nil {
-				return err
-			}
-			defer result.Release()
-			out := result.(ArrayLikeDatum)
-			chunks := out.Chunks()
-			if out.Kind() == KindArray {
-				defer chunks[0].Release()
-			}
-			chk := arrow.NewChunked(out.Type(), chunks)
-			defer chk.Release()
-			cols[i] = *arrow.NewColumn(inCol.Field(), chk)
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	final := array.NewTable(tbl.Schema(), cols, -1)
-	return &TableDatum{Value: final}, nil
-}
-
-func takeRecordImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	indices := args[1]
-	if indices.Kind() == KindChunked {
-		newIndices, err := array.Concatenate(indices.(*ChunkedDatum).Chunks(), exec.GetAllocator(ctx))
-		if err != nil {
-			return nil, err
-		}
-		defer newIndices.Release()
-		indices = &ArrayDatum{Value: newIndices.Data()}
-	}
-
-	rb := args[0].(*RecordDatum).Value
-	ncols := rb.NumCols()
-	nrows := args[1].(ArrayLikeDatum).Len()
-	cols := make([]arrow.Array, ncols)
-	defer func() {
-		for _, c := range cols {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i := range rb.Columns() {
-		i := i
-		eg.Go(func() error {
-			out, err := CallFunction(cctx, "array_take", opts, &ArrayDatum{Value: rb.Column(i).Data()}, indices)
-			if err != nil {
-				return err
-			}
-			defer out.Release()
-			cols[i] = out.(*ArrayDatum).MakeArray()
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	outRec := array.NewRecord(rb.Schema(), cols, nrows)
-	return &RecordDatum{Value: outRec}, nil
-}
-
-func takeArrayImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	switch args[1].Kind() {
-	case KindArray:
-		return CallFunction(ctx, "array_take", opts, args...)
-	case KindChunked:
-		chunks := args[1].(*ChunkedDatum).Chunks()
-		out := make([]arrow.Array, len(chunks))
-		defer func() {
-			for _, a := range out {
-				if a != nil {
-					a.Release()
-				}
-			}
-		}()
-
-		eg, cctx := errgroup.WithContext(ctx)
-		eg.SetLimit(GetExecCtx(ctx).NumParallel)
-		for i := range chunks {
-			i := i
-			eg.Go(func() error {
-				result, err := CallFunction(cctx, "array_take", opts, args[0], &ArrayDatum{Value: chunks[i].Data()})
-				if err != nil {
-					return err
-				}
-				defer result.Release()
-				out[i] = result.(*ArrayDatum).MakeArray()
-				return nil
-			})
-		}
-		if err := eg.Wait(); err != nil {
-			return nil, err
-		}
-		return &ChunkedDatum{
-			Value: arrow.NewChunked(args[0].(*ArrayDatum).Type(), out)}, nil
-	}
-
-	return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-		arrow.ErrNotImplemented, args[0], args[1])
-}
-
-func takeChunkedImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	chunked := args[0].(*ChunkedDatum).Value
-	var chnkArg *arrow.Chunked
-	if arg, ok := args[1].(*ArrayDatum); ok {
-		switch {
-		case len(chunked.Chunks()) <= 1:
-			var curChunk arrow.Array
-			if len(chunked.Chunks()) == 1 {
-				curChunk = chunked.Chunk(0)
-			} else {
-				// no chunks, create an empty one!
-				curChunk = array.MakeArrayOfNull(exec.GetAllocator(ctx), chunked.DataType(), 0)
-				defer curChunk.Release()
-			}
-			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: curChunk.Data()}, arg)
-			if err != nil {
-				return nil, err
-			}
-			defer newChunk.Release()
-			outChunks := newChunk.(*ArrayDatum).Chunks()
-			defer outChunks[0].Release()
-			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
-		case kernels.ChunkedTakeSupported(chunked.DataType()):
-			indices := arg.Chunks()
-			defer indices[0].Release()
-			chnkArg = arrow.NewChunked(arg.Type(), indices)
-			defer chnkArg.Release()
-		default:
-			values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
-			if err != nil {
-				return nil, err
-			}
-			defer values.Release()
-			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: values.Data()}, arg)
-			if err != nil {
-				return nil, err
-			}
-			defer newChunk.Release()
-			outChunks := newChunk.(*ArrayDatum).Chunks()
-			defer outChunks[0].Release()
-			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
-		}
-	} else {
-		chnkArg = args[1].(*ChunkedDatum).Value
-	}
-
-	if kernels.ChunkedTakeSupported(chunked.DataType()) {
-		return CallFunction(ctx, "array_take", opts, args[0], &ChunkedDatum{Value: chnkArg})
-	}
-
-	values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
-	if err != nil {
-		return nil, err
-	}
-	defer values.Release()
-	return CallFunction(ctx, "take", opts, &ArrayDatum{Value: values.Data()}, &ChunkedDatum{Value: chnkArg})
-}
-
-func Take(ctx context.Context, opts TakeOptions, values, indices Datum) (Datum, error) {
-	return CallFunction(ctx, "take", &opts, values, indices)
-}
-
-func TakeArray(ctx context.Context, values, indices arrow.Array) (arrow.Array, error) {
-	v := NewDatum(values)
-	idx := NewDatum(indices)
-	defer v.Release()
-	defer idx.Release()
-
-	out, err := CallFunction(ctx, "array_take", nil, v, idx)
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func TakeArrayOpts(ctx context.Context, values, indices arrow.Array, opts TakeOptions) (arrow.Array, error) {
-	v := NewDatum(values)
-	idx := NewDatum(indices)
-	defer v.Release()
-	defer idx.Release()
-
-	out, err := CallFunction(ctx, "array_take", &opts, v, idx)
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-type listArr interface {
-	arrow.Array
-	ListValues() arrow.Array
-}
-
-func selectListImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if err := fn(ctx, batch, out); err != nil {
-			return err
-		}
-
-		// out.Children[0] contains the child indexes of values that we
-		// want to take after processing.
-		values := batch.Values[0].Array.MakeArray().(listArr)
-		defer values.Release()
-
-		childIndices := out.Children[0].MakeArray()
-		defer childIndices.Release()
-
-		takenChild, err := TakeArrayOpts(ctx.Ctx, values.ListValues(), childIndices, kernels.TakeOptions{BoundsCheck: false})
-		if err != nil {
-			return err
-		}
-		defer takenChild.Release()
-
-		out.Children[0].TakeOwnership(takenChild.Data())
-		return nil
-	}
-}
-
-func denseUnionImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if err := fn(ctx, batch, out); err != nil {
-			return err
-		}
-
-		typedValues := batch.Values[0].Array.MakeArray().(*array.DenseUnion)
-		defer typedValues.Release()
-
-		eg, cctx := errgroup.WithContext(ctx.Ctx)
-		eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
-
-		for i := 0; i < typedValues.NumFields(); i++ {
-			i := i
-			eg.Go(func() error {
-				arr := typedValues.Field(i)
-				childIndices := out.Children[i].MakeArray()
-				defer childIndices.Release()
-				taken, err := TakeArrayOpts(cctx, arr, childIndices, kernels.TakeOptions{})
-				if err != nil {
-					return err
-				}
-				defer taken.Release()
-				out.Children[i].TakeOwnership(taken.Data())
-				return nil
-			})
-		}
-
-		return eg.Wait()
-	}
-}
-
-func extensionFilterImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer extArray.Release()
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-	result, err := FilterArray(ctx.Ctx, extArray.Storage(), selection, FilterOptions(ctx.State.(kernels.FilterState)))
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	out.Type = extArray.DataType()
-	return nil
-}
-
-func extensionTakeImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer extArray.Release()
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-	result, err := TakeArrayOpts(ctx.Ctx, extArray.Storage(), selection, TakeOptions(ctx.State.(kernels.TakeState)))
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	out.Type = extArray.DataType()
-	return nil
-}
-
-func structFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// transform filter to selection indices and use take
-	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx.Ctx),
-		&batch.Values[1].Array, ctx.State.(kernels.FilterState).NullSelection)
-	if err != nil {
-		return err
-	}
-	defer indices.Release()
-
-	filter := NewDatum(indices)
-	defer filter.Release()
-
-	valData := batch.Values[0].Array.MakeData()
-	defer valData.Release()
-
-	vals := NewDatum(valData)
-	defer vals.Release()
-
-	result, err := Take(ctx.Ctx, kernels.TakeOptions{BoundsCheck: false}, vals, filter)
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.(*ArrayDatum).Value)
-	return nil
-}
-
-func structTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// generate top level validity bitmap
-	if err := kernels.TakeExec(kernels.StructImpl)(ctx, batch, out); err != nil {
-		return err
-	}
-
-	values := batch.Values[0].Array.MakeArray().(*array.Struct)
-	defer values.Release()
-
-	// select from children without bounds checking
-	out.Children = make([]exec.ArraySpan, values.NumField())
-	eg, cctx := errgroup.WithContext(ctx.Ctx)
-	eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-
-	for i := range out.Children {
-		i := i
-		eg.Go(func() error {
-			taken, err := TakeArrayOpts(cctx, values.Field(i), selection, kernels.TakeOptions{BoundsCheck: false})
-			if err != nil {
-				return err
-			}
-			defer taken.Release()
-
-			out.Children[i].TakeOwnership(taken.Data())
-			return nil
-		})
-	}
-
-	return eg.Wait()
-}
-
-// RegisterVectorSelection registers functions that select specific
-// values from arrays such as Take and Filter
-func RegisterVectorSelection(reg FunctionRegistry) {
-	filterMetaFunc.defaultOpts = DefaultFilterOptions()
-	takeMetaFunc.defaultOpts = DefaultTakeOptions()
-	reg.AddFunction(filterMetaFunc, false)
-	reg.AddFunction(takeMetaFunc, false)
-	filterKernels, takeKernels := kernels.GetVectorSelectionKernels()
-
-	filterKernels = append(filterKernels, []kernels.SelectionKernelData{
-		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int32]))},
-		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int64]))},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.FSLImpl))},
-		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.FilterExec(kernels.DenseUnionImpl))},
-		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionFilterImpl},
-		{In: exec.NewIDInput(arrow.STRUCT), Exec: structFilter},
-	}...)
-
-	takeKernels = append(takeKernels, []kernels.SelectionKernelData{
-		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int32]))},
-		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int64]))},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.FSLImpl))},
-		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.TakeExec(kernels.DenseUnionImpl))},
-		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionTakeImpl},
-		{In: exec.NewIDInput(arrow.STRUCT), Exec: structTake},
-	}...)
-
-	vfunc := NewVectorFunction("array_filter", Binary(), EmptyFuncDoc)
-	vfunc.defaultOpts = &kernels.FilterOptions{}
-
-	selectionType := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-	basekernel := exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.FilterState])
-	for _, kd := range filterKernels {
-		basekernel.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{kd.In, selectionType},
-			OutType:    kernels.OutputFirstType,
-		}
-		basekernel.ExecFn = kd.Exec
-		basekernel.ExecChunked = kd.Chunked
-		vfunc.AddKernel(basekernel)
-	}
-	reg.AddFunction(vfunc, false)
-
-	vfunc = NewVectorFunction("array_take", Binary(), EmptyFuncDoc)
-	vfunc.defaultOpts = DefaultTakeOptions()
-
-	selectionType = exec.NewMatchedInput(exec.Integer())
-	basekernel = exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.TakeState])
-	basekernel.CanExecuteChunkWise = false
-	for _, kd := range takeKernels {
-		basekernel.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{kd.In, selectionType},
-			OutType:    kernels.OutputFirstType,
-		}
-
-		basekernel.ExecFn = kd.Exec
-		basekernel.ExecChunked = kd.Chunked
-		vfunc.AddKernel(basekernel)
-	}
-	reg.AddFunction(vfunc, false)
-}
-
-// Filter is a wrapper convenience that is equivalent to calling
-// CallFunction(ctx, "filter", &options, values, filter) for filtering
-// an input array (values) by a boolean array (filter). The two inputs
-// must be the same length.
-func Filter(ctx context.Context, values, filter Datum, options FilterOptions) (Datum, error) {
-	return CallFunction(ctx, "filter", &options, values, filter)
-}
-
-// FilterArray is a convenience method for calling Filter without having
-// to manually construct the intervening Datum objects (they will be
-// created for you internally here).
-func FilterArray(ctx context.Context, values, filter arrow.Array, options FilterOptions) (arrow.Array, error) {
-	valDatum := NewDatum(values)
-	filterDatum := NewDatum(filter)
-	defer valDatum.Release()
-	defer filterDatum.Release()
-
-	outDatum, err := Filter(ctx, valDatum, filterDatum, options)
-	if err != nil {
-		return nil, err
-	}
-
-	defer outDatum.Release()
-	return outDatum.(*ArrayDatum).MakeArray(), nil
-}
-
-func FilterRecordBatch(ctx context.Context, batch arrow.Record, filter arrow.Array, opts *FilterOptions) (arrow.Record, error) {
-	if batch.NumRows() != int64(filter.Len()) {
-		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
-	}
-
-	var filterSpan exec.ArraySpan
-	filterSpan.SetMembers(filter.Data())
-
-	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx), &filterSpan, opts.NullSelection)
-	if err != nil {
-		return nil, err
-	}
-	defer indices.Release()
-
-	indicesArr := array.MakeFromData(indices)
-	defer indicesArr.Release()
-
-	cols := make([]arrow.Array, batch.NumCols())
-	defer func() {
-		for _, c := range cols {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i, col := range batch.Columns() {
-		i, col := i, col
-		eg.Go(func() error {
-			out, err := TakeArrayOpts(cctx, col, indicesArr, kernels.TakeOptions{BoundsCheck: false})
-			if err != nil {
-				return err
-			}
-			cols[i] = out
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	return array.NewRecord(batch.Schema(), cols, int64(indicesArr.Len())), nil
-}
-
-func FilterTable(ctx context.Context, tbl arrow.Table, filter Datum, opts *FilterOptions) (arrow.Table, error) {
-	if tbl.NumRows() != filter.Len() {
-		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
-	}
-
-	if tbl.NumRows() == 0 {
-		cols := make([]arrow.Column, tbl.NumCols())
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			cols[i] = *tbl.Column(i)
-		}
-		return array.NewTable(tbl.Schema(), cols, 0), nil
-	}
-
-	// last input element will be the filter array
-	nCols := tbl.NumCols()
-	inputs := make([][]arrow.Array, nCols+1)
-	for i := int64(0); i < nCols; i++ {
-		inputs[i] = tbl.Column(int(i)).Data().Chunks()
-	}
-
-	switch ft := filter.(type) {
-	case *ArrayDatum:
-		inputs[nCols] = ft.Chunks()
-		defer inputs[nCols][0].Release()
-	case *ChunkedDatum:
-		inputs[nCols] = ft.Chunks()
-	default:
-		return nil, fmt.Errorf("%w: filter should be array-like", arrow.ErrNotImplemented)
-	}
-
-	// rechunk inputs to allow consistent iteration over the respective chunks
-	inputs = exec.RechunkArraysConsistently(inputs)
-
-	// instead of filtering each column with the boolean filter
-	// (which would be slow if the table has a large number of columns)
-	// convert each filter chunk to indices and take() the column
-	mem := GetAllocator(ctx)
-	outCols := make([][]arrow.Array, nCols)
-	// pre-size the output
-	nChunks := len(inputs[nCols])
-	for i := range outCols {
-		outCols[i] = make([]arrow.Array, nChunks)
-	}
-	var outNumRows int64
-	var cancel context.CancelFunc
-	ctx, cancel = context.WithCancel(ctx)
-	defer cancel()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(cctx).NumParallel)
-
-	var filterSpan exec.ArraySpan
-	for i, filterChunk := range inputs[nCols] {
-		filterSpan.SetMembers(filterChunk.Data())
-		indices, err := kernels.GetTakeIndices(mem, &filterSpan, opts.NullSelection)
-		if err != nil {
-			return nil, err
-		}
-		defer indices.Release()
-		filterChunk.Release()
-		if indices.Len() == 0 {
-			for col := int64(0); col < nCols; col++ {
-				inputs[col][i].Release()
-			}
-			continue
-		}
-
-		// take from all input columns
-		outNumRows += int64(indices.Len())
-		indicesDatum := NewDatum(indices)
-		defer indicesDatum.Release()
-
-		for col := int64(0); col < nCols; col++ {
-			columnChunk := inputs[col][i]
-			defer columnChunk.Release()
-			i := i
-			col := col
-			eg.Go(func() error {
-				columnDatum := NewDatum(columnChunk)
-				defer columnDatum.Release()
-				out, err := Take(cctx, kernels.TakeOptions{BoundsCheck: false}, columnDatum, indicesDatum)
-				if err != nil {
-					return err
-				}
-				defer out.Release()
-				outCols[col][i] = out.(*ArrayDatum).MakeArray()
-				return nil
-			})
-		}
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	outChunks := make([]arrow.Column, nCols)
-	for i, chunks := range outCols {
-		chk := arrow.NewChunked(tbl.Column(i).DataType(), chunks)
-		outChunks[i] = *arrow.NewColumn(tbl.Schema().Field(i), chk)
-		defer outChunks[i].Release()
-		chk.Release()
-	}
-
-	return array.NewTable(tbl.Schema(), outChunks, outNumRows), nil
-}
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
deleted file mode 100644
index 909d0b68868f6..0000000000000
--- a/go/arrow/compute/utils.go
+++ /dev/null
@@ -1,400 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-	"io"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"golang.org/x/xerrors"
-)
-
-type bufferWriteSeeker struct {
-	buf *memory.Buffer
-	pos int
-	mem memory.Allocator
-}
-
-func (b *bufferWriteSeeker) Reserve(nbytes int) {
-	if b.buf == nil {
-		b.buf = memory.NewResizableBuffer(b.mem)
-	}
-	newCap := utils.Max(b.buf.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buf.Reserve(newCap)
-}
-
-func (b *bufferWriteSeeker) Write(p []byte) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-
-	if b.buf == nil {
-		b.Reserve(len(p))
-	} else if b.pos+len(p) >= b.buf.Cap() {
-		b.Reserve(len(p))
-	}
-
-	return b.UnsafeWrite(p)
-}
-
-func (b *bufferWriteSeeker) UnsafeWrite(p []byte) (n int, err error) {
-	n = copy(b.buf.Buf()[b.pos:], p)
-	b.pos += len(p)
-	if b.pos > b.buf.Len() {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return
-}
-
-func (b *bufferWriteSeeker) Seek(offset int64, whence int) (int64, error) {
-	newpos, offs := 0, int(offset)
-	switch whence {
-	case io.SeekStart:
-		newpos = offs
-	case io.SeekCurrent:
-		newpos = b.pos + offs
-	case io.SeekEnd:
-		newpos = b.buf.Len() + offs
-	}
-	if newpos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	b.pos = newpos
-	return int64(newpos), nil
-}
-
-// ensureDictionaryDecoded is used by DispatchBest to determine
-// the proper types for promotion. Casting is then performed by
-// the executor before continuing execution: see the implementation
-// of execInternal in exec.go after calling DispatchBest.
-//
-// That casting is where actual decoding would be performed for
-// the dictionary
-func ensureDictionaryDecoded(vals ...arrow.DataType) {
-	for i, v := range vals {
-		if v.ID() == arrow.DICTIONARY {
-			vals[i] = v.(*arrow.DictionaryType).ValueType
-		}
-	}
-}
-
-func replaceNullWithOtherType(vals ...arrow.DataType) {
-	debug.Assert(len(vals) == 2, "should be length 2")
-
-	if vals[0].ID() == arrow.NULL {
-		vals[0] = vals[1]
-		return
-	}
-
-	if vals[1].ID() == arrow.NULL {
-		vals[1] = vals[0]
-		return
-	}
-}
-
-func commonTemporalResolution(vals ...arrow.DataType) (arrow.TimeUnit, bool) {
-	isTimeUnit := false
-	finestUnit := arrow.Second
-	for _, v := range vals {
-		switch dt := v.(type) {
-		case *arrow.Date32Type:
-			isTimeUnit = true
-			continue
-		case *arrow.Date64Type:
-			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
-			isTimeUnit = true
-		case arrow.TemporalWithUnit:
-			finestUnit = exec.Max(finestUnit, dt.TimeUnit())
-			isTimeUnit = true
-		default:
-			continue
-		}
-	}
-	return finestUnit, isTimeUnit
-}
-
-func replaceTemporalTypes(unit arrow.TimeUnit, vals ...arrow.DataType) {
-	for i, v := range vals {
-		switch dt := v.(type) {
-		case *arrow.TimestampType:
-			dt.Unit = unit
-			vals[i] = dt
-		case *arrow.Time32Type, *arrow.Time64Type:
-			if unit > arrow.Millisecond {
-				vals[i] = &arrow.Time64Type{Unit: unit}
-			} else {
-				vals[i] = &arrow.Time32Type{Unit: unit}
-			}
-		case *arrow.DurationType:
-			dt.Unit = unit
-			vals[i] = dt
-		case *arrow.Date32Type, *arrow.Date64Type:
-			vals[i] = &arrow.TimestampType{Unit: unit}
-		}
-	}
-}
-
-func replaceTypes(replacement arrow.DataType, vals ...arrow.DataType) {
-	for i := range vals {
-		vals[i] = replacement
-	}
-}
-
-func commonNumeric(vals ...arrow.DataType) arrow.DataType {
-	for _, v := range vals {
-		if !arrow.IsFloating(v.ID()) && !arrow.IsInteger(v.ID()) {
-			// a common numeric type is only possible if all are numeric
-			return nil
-		}
-		if v.ID() == arrow.FLOAT16 {
-			// float16 arithmetic is not currently supported
-			return nil
-		}
-	}
-
-	for _, v := range vals {
-		if v.ID() == arrow.FLOAT64 {
-			return arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	for _, v := range vals {
-		if v.ID() == arrow.FLOAT32 {
-			return arrow.PrimitiveTypes.Float32
-		}
-	}
-
-	maxWidthSigned, maxWidthUnsigned := 0, 0
-	for _, v := range vals {
-		if arrow.IsUnsignedInteger(v.ID()) {
-			maxWidthUnsigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthUnsigned)
-		} else {
-			maxWidthSigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthSigned)
-		}
-	}
-
-	if maxWidthSigned == 0 {
-		switch {
-		case maxWidthUnsigned >= 64:
-			return arrow.PrimitiveTypes.Uint64
-		case maxWidthUnsigned == 32:
-			return arrow.PrimitiveTypes.Uint32
-		case maxWidthUnsigned == 16:
-			return arrow.PrimitiveTypes.Uint16
-		default:
-			debug.Assert(maxWidthUnsigned == 8, "bad maxWidthUnsigned")
-			return arrow.PrimitiveTypes.Uint8
-		}
-	}
-
-	if maxWidthSigned <= maxWidthUnsigned {
-		maxWidthSigned = bitutil.NextPowerOf2(maxWidthUnsigned + 1)
-	}
-
-	switch {
-	case maxWidthSigned >= 64:
-		return arrow.PrimitiveTypes.Int64
-	case maxWidthSigned == 32:
-		return arrow.PrimitiveTypes.Int32
-	case maxWidthSigned == 16:
-		return arrow.PrimitiveTypes.Int16
-	default:
-		debug.Assert(maxWidthSigned == 8, "bad maxWidthSigned")
-		return arrow.PrimitiveTypes.Int8
-	}
-}
-
-func hasDecimal(vals ...arrow.DataType) bool {
-	for _, v := range vals {
-		if arrow.IsDecimal(v.ID()) {
-			return true
-		}
-	}
-
-	return false
-}
-
-type decimalPromotion uint8
-
-const (
-	decPromoteNone decimalPromotion = iota
-	decPromoteAdd
-	decPromoteMultiply
-	decPromoteDivide
-)
-
-func castBinaryDecimalArgs(promote decimalPromotion, vals ...arrow.DataType) error {
-	left, right := vals[0], vals[1]
-	debug.Assert(arrow.IsDecimal(left.ID()) || arrow.IsDecimal(right.ID()), "at least one of the types should be decimal")
-
-	// decimal + float = float
-	if arrow.IsFloating(left.ID()) {
-		vals[1] = vals[0]
-		return nil
-	} else if arrow.IsFloating(right.ID()) {
-		vals[0] = vals[1]
-		return nil
-	}
-
-	var prec1, scale1, prec2, scale2 int32
-	var err error
-	// decimal + integer = decimal
-	if arrow.IsDecimal(left.ID()) {
-		dec := left.(arrow.DecimalType)
-		prec1, scale1 = dec.GetPrecision(), dec.GetScale()
-	} else {
-		debug.Assert(arrow.IsInteger(left.ID()), "floats were already handled, this should be an int")
-		if prec1, err = kernels.MaxDecimalDigitsForInt(left.ID()); err != nil {
-			return err
-		}
-	}
-	if arrow.IsDecimal(right.ID()) {
-		dec := right.(arrow.DecimalType)
-		prec2, scale2 = dec.GetPrecision(), dec.GetScale()
-	} else {
-		debug.Assert(arrow.IsInteger(right.ID()), "float already handled, should be ints")
-		if prec2, err = kernels.MaxDecimalDigitsForInt(right.ID()); err != nil {
-			return err
-		}
-	}
-
-	if scale1 < 0 || scale2 < 0 {
-		return fmt.Errorf("%w: decimals with negative scales not supported", arrow.ErrNotImplemented)
-	}
-
-	// decimal128 + decimal256 = decimal256
-	castedID := arrow.DECIMAL128
-	if left.ID() == arrow.DECIMAL256 || right.ID() == arrow.DECIMAL256 {
-		castedID = arrow.DECIMAL256
-	}
-
-	// decimal promotion rules compatible with amazon redshift
-	// https://docs.aws.amazon.com/redshift/latest/dg/r_numeric_computations201.html
-	var leftScaleup, rightScaleup int32
-
-	switch promote {
-	case decPromoteAdd:
-		leftScaleup = exec.Max(scale1, scale2) - scale1
-		rightScaleup = exec.Max(scale1, scale2) - scale2
-	case decPromoteMultiply:
-	case decPromoteDivide:
-		leftScaleup = exec.Max(4, scale1+prec2-scale2+1) + scale2 - scale1
-	default:
-		debug.Assert(false, fmt.Sprintf("invalid DecimalPromotion value %d", promote))
-	}
-
-	vals[0], err = arrow.NewDecimalType(castedID, prec1+leftScaleup, scale1+leftScaleup)
-	if err != nil {
-		return err
-	}
-	vals[1], err = arrow.NewDecimalType(castedID, prec2+rightScaleup, scale2+rightScaleup)
-	return err
-}
-
-func commonTemporal(vals ...arrow.DataType) arrow.DataType {
-	var (
-		finestUnit           = arrow.Second
-		zone                 *string
-		loc                  *time.Location
-		sawDate32, sawDate64 bool
-	)
-
-	for _, ty := range vals {
-		switch ty.ID() {
-		case arrow.DATE32:
-			// date32's unit is days, but the coarsest we have is seconds
-			sawDate32 = true
-		case arrow.DATE64:
-			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
-			sawDate64 = true
-		case arrow.TIMESTAMP:
-			ts := ty.(*arrow.TimestampType)
-			if ts.TimeZone != "" {
-				tz, _ := ts.GetZone()
-				if loc != nil && loc != tz {
-					return nil
-				}
-				loc = tz
-			}
-			zone = &ts.TimeZone
-			finestUnit = exec.Max(finestUnit, ts.Unit)
-		default:
-			return nil
-		}
-	}
-
-	switch {
-	case zone != nil:
-		// at least one timestamp seen
-		return &arrow.TimestampType{Unit: finestUnit, TimeZone: *zone}
-	case sawDate64:
-		return arrow.FixedWidthTypes.Date64
-	case sawDate32:
-		return arrow.FixedWidthTypes.Date32
-	}
-	return nil
-}
-
-func commonBinary(vals ...arrow.DataType) arrow.DataType {
-	var (
-		allUTF8, allOffset32, allFixedWidth = true, true, true
-	)
-
-	for _, ty := range vals {
-		switch ty.ID() {
-		case arrow.STRING:
-			allFixedWidth = false
-		case arrow.BINARY:
-			allFixedWidth, allUTF8 = false, false
-		case arrow.FIXED_SIZE_BINARY:
-			allUTF8 = false
-		case arrow.LARGE_BINARY:
-			allOffset32, allFixedWidth, allUTF8 = false, false, false
-		case arrow.LARGE_STRING:
-			allOffset32, allFixedWidth = false, false
-		default:
-			return nil
-		}
-	}
-
-	switch {
-	case allFixedWidth:
-		// at least for the purposes of comparison, no need to cast
-		return nil
-	case allUTF8:
-		if allOffset32 {
-			return arrow.BinaryTypes.String
-		}
-		return arrow.BinaryTypes.LargeString
-	case allOffset32:
-		return arrow.BinaryTypes.Binary
-	}
-	return arrow.BinaryTypes.LargeBinary
-}
diff --git a/go/arrow/compute/vector_hash.go b/go/arrow/compute/vector_hash.go
deleted file mode 100644
index 8692a6fff074c..0000000000000
--- a/go/arrow/compute/vector_hash.go
+++ /dev/null
@@ -1,59 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	uniqueDoc = FunctionDoc{
-		Summary:     "Compute unique elements",
-		Description: "Return an array with distinct values. Nulls in the input are ignored",
-		ArgNames:    []string{"array"},
-	}
-)
-
-func Unique(ctx context.Context, values Datum) (Datum, error) {
-	return CallFunction(ctx, "unique", nil, values)
-}
-
-func UniqueArray(ctx context.Context, values arrow.Array) (arrow.Array, error) {
-	out, err := Unique(ctx, &ArrayDatum{Value: values.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func RegisterVectorHash(reg FunctionRegistry) {
-	unique, _, _ := kernels.GetVectorHashKernels()
-	uniqFn := NewVectorFunction("unique", Unary(), uniqueDoc)
-	for _, vd := range unique {
-		if err := uniqFn.AddKernel(vd); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(uniqFn, false)
-}
diff --git a/go/arrow/compute/vector_hash_test.go b/go/arrow/compute/vector_hash_test.go
deleted file mode 100644
index 58ff1263ca880..0000000000000
--- a/go/arrow/compute/vector_hash_test.go
+++ /dev/null
@@ -1,517 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-)
-
-func checkUniqueDict[I arrow.IntType | arrow.UintType](t *testing.T, input compute.ArrayLikeDatum, expected arrow.Array) {
-	out, err := compute.Unique(context.TODO(), input)
-	require.NoError(t, err)
-	defer out.Release()
-
-	result := out.(*compute.ArrayDatum).MakeArray().(*array.Dictionary)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	exDict := expected.(*array.Dictionary).Dictionary()
-	resultDict := result.Dictionary()
-
-	require.Truef(t, array.Equal(exDict, resultDict), "wanted: %s\ngot: %s", exDict, resultDict)
-
-	want := arrow.GetValues[I](expected.(*array.Dictionary).Indices().Data(), 1)
-	got := arrow.GetValues[I](result.Indices().Data(), 1)
-	assert.ElementsMatchf(t, got, want, "wanted: %s\ngot: %s", want, got)
-}
-
-func checkDictionaryUnique(t *testing.T, input compute.ArrayLikeDatum, expected arrow.Array) {
-	require.Truef(t, arrow.TypeEqual(input.Type(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), input.Type())
-
-	switch input.Type().(*arrow.DictionaryType).IndexType.ID() {
-	case arrow.INT8:
-		checkUniqueDict[int8](t, input, expected)
-	case arrow.INT16:
-		checkUniqueDict[int16](t, input, expected)
-	case arrow.INT32:
-		checkUniqueDict[int32](t, input, expected)
-	case arrow.INT64:
-		checkUniqueDict[int64](t, input, expected)
-	case arrow.UINT8:
-		checkUniqueDict[uint8](t, input, expected)
-	case arrow.UINT16:
-		checkUniqueDict[uint16](t, input, expected)
-	case arrow.UINT32:
-		checkUniqueDict[uint32](t, input, expected)
-	case arrow.UINT64:
-		checkUniqueDict[uint64](t, input, expected)
-	}
-}
-
-func checkUniqueFixedWidth[T arrow.FixedWidthType](t *testing.T, input, expected arrow.Array) {
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-	want := arrow.GetValues[T](expected.Data(), 1)
-	got := arrow.GetValues[T](expected.Data(), 1)
-
-	assert.ElementsMatchf(t, got, want, "wanted: %s\ngot: %s", want, got)
-}
-
-func checkUniqueVariableWidth[OffsetType int32 | int64](t *testing.T, input, expected arrow.Array) {
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	require.EqualValues(t, expected.Len(), result.Len())
-
-	createSlice := func(v arrow.Array) [][]byte {
-		var (
-			offsets = arrow.GetOffsets[OffsetType](v.Data(), 1)
-			data    = v.Data().Buffers()[2].Bytes()
-			out     = make([][]byte, v.Len())
-		)
-
-		for i := 0; i < v.Len(); i++ {
-			out[i] = data[offsets[i]:offsets[i+1]]
-		}
-		return out
-	}
-
-	want := createSlice(expected)
-	got := createSlice(result)
-
-	assert.ElementsMatch(t, want, got)
-}
-
-type ArrowType interface {
-	arrow.FixedWidthType | string | []byte
-}
-
-type builder[T ArrowType] interface {
-	AppendValues([]T, []bool)
-}
-
-func makeArray[T ArrowType](mem memory.Allocator, dt arrow.DataType, values []T, isValid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	bldr.(builder[T]).AppendValues(values, isValid)
-	return bldr.NewArray()
-}
-
-func checkUniqueFixedSizeBinary(t *testing.T, mem memory.Allocator, dt *arrow.FixedSizeBinaryType, inValues, outValues [][]byte, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	slice := func(v arrow.Array) [][]byte {
-		data := v.Data().Buffers()[1].Bytes()
-		out := make([][]byte, v.Len())
-		for i := range out {
-			out[i] = data[i*dt.ByteWidth : (i+1)*dt.ByteWidth]
-		}
-		return out
-	}
-
-	want := slice(expected)
-	got := slice(result)
-	assert.ElementsMatch(t, want, got)
-}
-
-func checkUniqueFW[T arrow.FixedWidthType](t *testing.T, mem memory.Allocator, dt arrow.DataType, inValues, outValues []T, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	checkUniqueFixedWidth[T](t, input, expected)
-}
-
-func checkUniqueVW[T string | []byte](t *testing.T, mem memory.Allocator, dt arrow.DataType, inValues, outValues []T, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	switch dt.(arrow.BinaryDataType).Layout().Buffers[1].ByteWidth {
-	case 4:
-		checkUniqueVariableWidth[int32](t, input, expected)
-	case 8:
-		checkUniqueVariableWidth[int64](t, input, expected)
-	}
-}
-
-type PrimitiveHashKernelSuite[T arrow.IntType | arrow.UintType | constraints.Float] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	dt  arrow.DataType
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) SetupSuite() {
-	ps.dt = arrow.GetDataType[T]()
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) SetupTest() {
-	ps.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) TearDownTest() {
-	ps.mem.AssertSize(ps.T(), 0)
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) TestUnique() {
-	ps.Run(ps.dt.String(), func() {
-		if ps.dt.ID() == arrow.DATE64 {
-			checkUniqueFW(ps.T(), ps.mem, ps.dt,
-				[]arrow.Date64{172800000, 864000000, 172800000, 864000000},
-				[]arrow.Date64{172800000, 0, 864000000},
-				[]bool{true, false, true, true}, []bool{true, false, true})
-
-			checkUniqueFW(ps.T(), ps.mem, ps.dt,
-				[]arrow.Date64{172800000, 864000000, 259200000, 864000000},
-				[]arrow.Date64{0, 259200000, 864000000},
-				[]bool{false, false, true, true}, []bool{false, true, true})
-
-			arr, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[86400000, 172800000, null, 259200000, 172800000, null]`))
-			ps.Require().NoError(err)
-			defer arr.Release()
-			input := array.NewSlice(arr, 1, 5)
-			defer input.Release()
-			expected, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[172800000, null, 259200000]`))
-			ps.Require().NoError(err)
-			defer expected.Release()
-			checkUniqueFixedWidth[arrow.Date64](ps.T(), input, expected)
-			return
-		}
-
-		checkUniqueFW(ps.T(), ps.mem, ps.dt,
-			[]T{2, 1, 2, 1}, []T{2, 0, 1},
-			[]bool{true, false, true, true}, []bool{true, false, true})
-		checkUniqueFW(ps.T(), ps.mem, ps.dt,
-			[]T{2, 1, 3, 1}, []T{0, 3, 1},
-			[]bool{false, false, true, true}, []bool{false, true, true})
-
-		arr, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[1, 2, null, 3, 2, null]`))
-		ps.Require().NoError(err)
-		defer arr.Release()
-		input := array.NewSlice(arr, 1, 5)
-		defer input.Release()
-
-		expected, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[2, null, 3]`))
-		ps.Require().NoError(err)
-		defer expected.Release()
-
-		checkUniqueFixedWidth[T](ps.T(), input, expected)
-	})
-}
-
-type BinaryTypeHashKernelSuite[T string | []byte] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	dt  arrow.DataType
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) SetupTest() {
-	ps.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) TearDownTest() {
-	ps.mem.AssertSize(ps.T(), 0)
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) TestUnique() {
-	ps.Run(ps.dt.String(), func() {
-		checkUniqueVW(ps.T(), ps.mem, ps.dt,
-			[]T{T("test"), T(""), T("test2"), T("test")}, []T{T("test"), T(""), T("test2")},
-			[]bool{true, false, true, true}, []bool{true, false, true})
-	})
-}
-
-func TestHashKernels(t *testing.T) {
-	suite.Run(t, &PrimitiveHashKernelSuite[int8]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint8]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int16]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint16]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[float32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[float64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[arrow.Date32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[arrow.Date64]{})
-
-	suite.Run(t, &BinaryTypeHashKernelSuite[string]{dt: arrow.BinaryTypes.String})
-	suite.Run(t, &BinaryTypeHashKernelSuite[string]{dt: arrow.BinaryTypes.LargeString})
-	suite.Run(t, &BinaryTypeHashKernelSuite[[]byte]{dt: arrow.BinaryTypes.Binary})
-	suite.Run(t, &BinaryTypeHashKernelSuite[[]byte]{dt: arrow.BinaryTypes.LargeBinary})
-}
-
-func TestUniqueTimeTimestamp(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Time32s,
-		[]arrow.Time32{2, 1, 2, 1}, []arrow.Time32{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Time64ns,
-		[]arrow.Time64{2, 1, 2, 1}, []arrow.Time64{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Timestamp_ns,
-		[]arrow.Timestamp{2, 1, 2, 1}, []arrow.Timestamp{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Duration_ns,
-		[]arrow.Duration{2, 1, 2, 1}, []arrow.Duration{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	checkUniqueFixedSizeBinary(t, mem, dt,
-		[][]byte{[]byte("aaa"), nil, []byte("bbb"), []byte("aaa")},
-		[][]byte{[]byte("aaa"), nil, []byte("bbb")},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueDecimal(t *testing.T) {
-	t.Run("decimal128", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-		defer mem.AssertSize(t, 0)
-
-		values := []decimal128.Num{
-			decimal128.FromI64(12),
-			decimal128.FromI64(12),
-			decimal128.FromI64(11),
-			decimal128.FromI64(12)}
-		expected := []decimal128.Num{
-			decimal128.FromI64(12),
-			decimal128.FromI64(0),
-			decimal128.FromI64(11)}
-
-		checkUniqueFW(t, mem, &arrow.Decimal128Type{Precision: 2, Scale: 0},
-			values, expected, []bool{true, false, true, true}, []bool{true, false, true})
-	})
-
-	t.Run("decimal256", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-		defer mem.AssertSize(t, 0)
-
-		values := []decimal256.Num{
-			decimal256.FromI64(12),
-			decimal256.FromI64(12),
-			decimal256.FromI64(11),
-			decimal256.FromI64(12)}
-		expected := []decimal256.Num{
-			decimal256.FromI64(12),
-			decimal256.FromI64(0),
-			decimal256.FromI64(11)}
-
-		checkUniqueFW(t, mem, &arrow.Decimal256Type{Precision: 2, Scale: 0},
-			values, expected, []bool{true, false, true, true}, []bool{true, false, true})
-	})
-}
-
-func TestUniqueIntervalMonth(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.MonthInterval,
-		[]arrow.MonthInterval{2, 1, 2, 1}, []arrow.MonthInterval{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.DayTimeInterval,
-		[]arrow.DayTimeInterval{
-			{Days: 2, Milliseconds: 1}, {Days: 3, Milliseconds: 2},
-			{Days: 2, Milliseconds: 1}, {Days: 1, Milliseconds: 2}},
-		[]arrow.DayTimeInterval{{Days: 2, Milliseconds: 1},
-			{Days: 1, Milliseconds: 1}, {Days: 1, Milliseconds: 2}},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.MonthDayNanoInterval,
-		[]arrow.MonthDayNanoInterval{
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 3, Days: 2, Nanoseconds: 1},
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 2, Nanoseconds: 1}},
-		[]arrow.MonthDayNanoInterval{
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 2, Nanoseconds: 1}},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueChunkedArrayInvoke(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values1    = []string{"foo", "bar", "foo"}
-		values2    = []string{"bar", "baz", "quuux", "foo"}
-		dictValues = []string{"foo", "bar", "baz", "quuux"}
-		typ        = arrow.BinaryTypes.String
-		a1         = makeArray(mem, typ, values1, nil)
-		a2         = makeArray(mem, typ, values2, nil)
-		exDict     = makeArray(mem, typ, dictValues, nil)
-	)
-
-	defer a1.Release()
-	defer a2.Release()
-	defer exDict.Release()
-
-	carr := arrow.NewChunked(typ, []arrow.Array{a1, a2})
-	defer carr.Release()
-
-	result, err := compute.Unique(context.TODO(), &compute.ChunkedDatum{Value: carr})
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Equal(t, compute.KindArray, result.Kind())
-	out := result.(*compute.ArrayDatum).MakeArray()
-	defer out.Release()
-
-	assertArraysEqual(t, exDict, out)
-}
-
-func TestDictionaryUnique(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const dictJSON = `[10, 20, 30, 40]`
-	dict, _, err := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(dictJSON))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	for _, idxTyp := range integerTypes {
-		t.Run("index_type="+idxTyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			indices, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 0, 0, 1, 1, 3, 0, 1, 3, 0, 1]`))
-			defer indices.Release()
-			dictType := &arrow.DictionaryType{
-				IndexType: idxTyp, ValueType: arrow.PrimitiveTypes.Int64}
-			exIndices, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 1]`))
-			defer exIndices.Release()
-
-			input := array.NewDictionaryArray(dictType, indices, dict)
-			defer input.Release()
-			exUniques := array.NewDictionaryArray(dictType, exIndices, dict)
-			defer exUniques.Release()
-
-			checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-
-			t.Run("empty array", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				// executor never gives the kernel any batches
-				// so result dictionary is empty
-				emptyInput, _ := array.DictArrayFromJSON(mem, dictType, `[]`, dictJSON)
-				defer emptyInput.Release()
-				exEmpty, _ := array.DictArrayFromJSON(mem, dictType, `[]`, `[]`)
-				defer exEmpty.Release()
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: emptyInput.Data()}, exEmpty)
-			})
-
-			t.Run("different chunk dictionaries", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				input2, _ := array.DictArrayFromJSON(mem, dictType, `[1, null, 2, 3]`, `[30, 40, 50, 60]`)
-				defer input2.Release()
-
-				diffCarr := arrow.NewChunked(dictType, []arrow.Array{input, input2})
-				defer diffCarr.Release()
-
-				exUnique2, _ := array.DictArrayFromJSON(mem, dictType, `[3, 0, 1, null, 4, 5]`, `[10, 20, 30, 40, 50, 60]`)
-				defer exUnique2.Release()
-
-				checkDictionaryUnique(t, &compute.ChunkedDatum{Value: diffCarr}, exUnique2)
-			})
-
-			t.Run("encoded nulls", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				dictWithNull, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[10, null, 30, 40]`))
-				defer dictWithNull.Release()
-				input := array.NewDictionaryArray(dictType, indices, dictWithNull)
-				defer input.Release()
-				exUniques := array.NewDictionaryArray(dictType, exIndices, dictWithNull)
-				defer exUniques.Release()
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-			})
-
-			t.Run("masked nulls", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				indicesWithNull, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 0, 0, null, null, 3, 0, null, 3, 0, null]`))
-				defer indicesWithNull.Release()
-				exIndicesWithNull, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, null]`))
-				defer exIndicesWithNull.Release()
-				exUniques := array.NewDictionaryArray(dictType, exIndicesWithNull, dict)
-				defer exUniques.Release()
-				input := array.NewDictionaryArray(dictType, indicesWithNull, dict)
-				defer input.Release()
-
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-			})
-		})
-	}
-}
diff --git a/go/arrow/compute/vector_run_end_test.go b/go/arrow/compute/vector_run_end_test.go
deleted file mode 100644
index 8c8e776feb23c..0000000000000
--- a/go/arrow/compute/vector_run_end_test.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/suite"
-)
-
-var runEndTypes = []arrow.DataType{
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Int64,
-}
-
-type RunEndEncodeDecodeSuite struct {
-	suite.Suite
-	mem *memory.CheckedAllocator
-
-	runEndType arrow.DataType
-	valueType  arrow.DataType
-	jsonData   []string
-
-	expected compute.Datum
-	input    compute.Datum
-
-	ctx context.Context
-}
-
-func (suite *RunEndEncodeDecodeSuite) SetupTest() {
-	suite.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	suite.ctx = compute.WithAllocator(context.Background(), suite.mem)
-
-	switch len(suite.jsonData) {
-	case 1:
-		expected, _, err := array.FromJSON(suite.mem,
-			arrow.RunEndEncodedOf(suite.runEndType, suite.valueType),
-			strings.NewReader(suite.jsonData[0]))
-		suite.Require().NoError(err)
-		defer expected.Release()
-
-		input, _, err := array.FromJSON(suite.mem, suite.valueType, strings.NewReader(suite.jsonData[0]))
-		suite.Require().NoError(err)
-		defer input.Release()
-
-		suite.expected = compute.NewDatum(expected)
-		suite.input = compute.NewDatum(input)
-	default:
-		var err error
-		exChunks := make([]arrow.Array, len(suite.jsonData))
-		inputChunks := make([]arrow.Array, len(suite.jsonData))
-		for i, data := range suite.jsonData {
-			exChunks[i], _, err = array.FromJSON(suite.mem,
-				arrow.RunEndEncodedOf(suite.runEndType, suite.valueType),
-				strings.NewReader(data))
-			suite.Require().NoError(err)
-			defer exChunks[i].Release()
-
-			inputChunks[i], _, err = array.FromJSON(suite.mem,
-				suite.valueType, strings.NewReader(data))
-			suite.Require().NoError(err)
-			defer inputChunks[i].Release()
-		}
-
-		chunked := arrow.NewChunked(exChunks[0].DataType(), exChunks)
-		suite.expected = &compute.ChunkedDatum{Value: chunked}
-		chunked = arrow.NewChunked(inputChunks[0].DataType(), inputChunks)
-		suite.input = &compute.ChunkedDatum{Value: chunked}
-	}
-}
-
-func (suite *RunEndEncodeDecodeSuite) TearDownTest() {
-	suite.expected.Release()
-	suite.input.Release()
-	suite.mem.AssertSize(suite.T(), 0)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestEncodeArray() {
-	result, err := compute.RunEndEncode(suite.ctx,
-		compute.RunEndEncodeOptions{RunEndType: suite.runEndType}, suite.input)
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.expected, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeArray() {
-	result, err := compute.RunEndDecode(suite.ctx, suite.expected)
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.input, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestEncodeWithOffset() {
-	// skip chunked examples for ease of testing
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	input := suite.input.(*compute.ArrayDatum)
-
-	if input.Len() == 0 {
-		// skip 0 len arrays for this test
-		suite.T().SkipNow()
-	}
-
-	expectedOffset := array.NewSliceData(expected.Value, 1, expected.Len())
-	defer expectedOffset.Release()
-	inputOffset := array.NewSliceData(input.Value, 1, input.Len())
-	defer inputOffset.Release()
-
-	result, err := compute.RunEndEncode(suite.ctx,
-		compute.RunEndEncodeOptions{RunEndType: suite.runEndType},
-		&compute.ArrayDatum{Value: inputOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), &compute.ArrayDatum{Value: expectedOffset}, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeWithOffset() {
-	// skip chunked examples for ease of testing
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	input := suite.input.(*compute.ArrayDatum)
-
-	if input.Len() == 0 {
-		// skip 0 len arrays for this test
-		suite.T().SkipNow()
-	}
-
-	expectedOffset := array.NewSliceData(expected.Value, 1, expected.Len())
-	defer expectedOffset.Release()
-	inputOffset := array.NewSliceData(input.Value, 1, input.Len())
-	defer inputOffset.Release()
-
-	result, err := compute.RunEndDecode(suite.ctx, &compute.ArrayDatum{Value: expectedOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), &compute.ArrayDatum{Value: inputOffset}, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeWithChildOffset() {
-	// artificially add a bunch of nulls to the values child of the
-	// run-end encoded array both before and after the data and then
-	// replace it with a slice. Then make sure it still decodes
-	// correctly.
-
-	// skip chunked
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	const offset = 100
-
-	var newValuesData arrow.ArrayData
-	valuesData := expected.Value.Children()[1]
-	newLength := offset + int64(valuesData.Len()) + offset
-	byteLen := bitutil.BytesForBits(newLength)
-
-	validity, values := memory.NewResizableBuffer(suite.mem), memory.NewResizableBuffer(suite.mem)
-	defer validity.Release()
-	defer values.Release()
-
-	validity.Resize(int(byteLen))
-	if valuesData.Len() > 0 {
-		bitutil.CopyBitmap(valuesData.Buffers()[0].Buf(), valuesData.Offset(), valuesData.Len(),
-			validity.Buf(), offset)
-	}
-
-	switch dt := valuesData.DataType().(type) {
-	case *arrow.BooleanType:
-		values.Resize(int(byteLen))
-
-		if valuesData.Len() > 0 {
-			bitutil.CopyBitmap(valuesData.Buffers()[1].Buf(), valuesData.Offset(), valuesData.Len(),
-				values.Buf(), offset)
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values}, nil, valuesData.NullN(), offset)
-	case *arrow.StringType, *arrow.BinaryType:
-		values.Resize(int(newLength+1) * int(arrow.Int32SizeBytes))
-		copy(values.Bytes()[offset*arrow.Int32SizeBytes:], valuesData.Buffers()[1].Bytes())
-		tail := values.Bytes()[(offset+valuesData.Len())*arrow.Int32SizeBytes:]
-		for j := arrow.Int32SizeBytes; j < len(tail); j *= 2 {
-			copy(tail[j:], tail[:j])
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values, valuesData.Buffers()[2]}, nil, valuesData.NullN(), offset)
-	case *arrow.LargeStringType, *arrow.LargeBinaryType:
-		values.Resize(int(newLength+1) * int(arrow.Int64SizeBytes))
-		copy(values.Bytes()[offset*arrow.Int64SizeBytes:], valuesData.Buffers()[1].Bytes())
-		tail := values.Bytes()[(offset+valuesData.Len())*arrow.Int64SizeBytes:]
-		for j := arrow.Int64SizeBytes; j < len(tail); j *= 2 {
-			copy(tail[j:], tail[:j])
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values, valuesData.Buffers()[2]}, nil, valuesData.NullN(), offset)
-	case arrow.FixedWidthDataType:
-		width := dt.Bytes()
-		values.Resize(int(newLength) * width)
-		if valuesData.Len() > 0 {
-			copy(values.Bytes()[offset*width:], valuesData.Buffers()[1].Bytes())
-		}
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values}, nil, valuesData.NullN(), offset)
-	}
-
-	withOffset := expected.Value.(*array.Data).Copy()
-	withOffset.Children()[1].Release()
-	withOffset.Children()[1] = newValuesData
-	defer withOffset.Release()
-
-	result, err := compute.RunEndDecode(suite.ctx, &compute.ArrayDatum{Value: withOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.input, result, nil, nil)
-}
-
-func TestRunEndFunctions(t *testing.T) {
-	// base64 encoded for testing fixed size binary
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-	)
-
-	tests := []struct {
-		name      string
-		data      []string
-		valueType arrow.DataType
-	}{
-		{"simple int32", []string{`[1, 1, 0, -5, -5, -5, 255, 255]`}, arrow.PrimitiveTypes.Int32},
-		{"uint32 with nulls", []string{`[null, 1, 1, null, null, 5]`}, arrow.PrimitiveTypes.Uint32},
-		{"boolean", []string{`[true, true, true, false, false]`}, arrow.FixedWidthTypes.Boolean},
-		{"boolean no runs", []string{`[true, false, true, false, true, false, true, false, true]`}, arrow.FixedWidthTypes.Boolean},
-		{"float64 len=1", []string{`[1.0]`}, arrow.PrimitiveTypes.Float64},
-		{"bool chunks", []string{`[true, true]`, `[true, false, null, null, false]`, `[null, null]`}, arrow.FixedWidthTypes.Boolean},
-		{"float32 chunked", []string{`[1, 1, 0, -5, -5]`, `[-5, 255, 255]`}, arrow.PrimitiveTypes.Float32},
-		{"str", []string{`["foo", "foo", "foo", "bar", "bar", "baz", "bar", "bar", "foo", "foo"]`}, arrow.BinaryTypes.String},
-		{"large str", []string{`["foo", "foo", "foo", "bar", "bar", "baz", "bar", "bar", "foo", "foo"]`}, arrow.BinaryTypes.LargeString},
-		{"str chunked", []string{`["foo", "foo", null]`, `["foo", "bar", "bar"]`, `[null, null, "baz"]`, `[null]`}, arrow.BinaryTypes.String},
-		{"empty arrs", []string{`[]`}, arrow.PrimitiveTypes.Float32},
-		{"empty str array", []string{`[]`}, arrow.BinaryTypes.String},
-		{"empty chunked", []string{`[]`, `[]`, `[]`}, arrow.FixedWidthTypes.Boolean},
-		{"fsb", []string{`["` + valAba + `", "` + valAba + `", null, "` + valAbc + `", "` + valAbd + `", "` + valAbd + `", "` + valAbd + `"]`}, &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-		{"fsb chunked", []string{`["` + valAba + `", "` + valAba + `", null]`, `["` + valAbc + `", "` + valAbd + `", "` + valAbd + `", "` + valAbd + `"]`, `[]`}, &arrow.FixedSizeBinaryType{ByteWidth: 3}}}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, runEndType := range runEndTypes {
-				t.Run("run_ends="+runEndType.String(), func(t *testing.T) {
-					suite.Run(t, &RunEndEncodeDecodeSuite{
-						runEndType: runEndType,
-						valueType:  tt.valueType,
-						jsonData:   tt.data,
-					})
-				})
-			}
-		})
-	}
-}
-
-func benchRunEndEncode(b *testing.B, sz int, nullProb float64, runEndType, valueType arrow.DataType) {
-	b.Run("encode", func(b *testing.B) {
-		var (
-			mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			rng = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		values := rng.ArrayOf(valueType.ID(), int64(sz), nullProb)
-		b.Cleanup(func() {
-			values.Release()
-		})
-
-		var (
-			res   compute.Datum
-			err   error
-			ctx   = compute.WithAllocator(context.Background(), mem)
-			input = &compute.ArrayDatum{Value: values.Data()}
-			opts  = compute.RunEndEncodeOptions{RunEndType: runEndType}
-
-			byts int64
-		)
-
-		for _, buf := range values.Data().Buffers() {
-			if buf != nil {
-				byts += int64(buf.Len())
-			}
-		}
-
-		b.SetBytes(byts)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = compute.RunEndEncode(ctx, opts, input)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func benchRunEndDecode(b *testing.B, sz int, nullProb float64, runEndType, valueType arrow.DataType) {
-	b.Run("decode", func(b *testing.B) {
-		var (
-			mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			rng = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		values := rng.ArrayOf(valueType.ID(), int64(sz), nullProb)
-		b.Cleanup(func() {
-			values.Release()
-		})
-
-		var (
-			res        compute.Datum
-			ctx        = compute.WithAllocator(context.Background(), mem)
-			opts       = compute.RunEndEncodeOptions{RunEndType: runEndType}
-			input, err = compute.RunEndEncode(ctx, opts, &compute.ArrayDatum{Value: values.Data()})
-			byts       int64
-		)
-
-		if err != nil {
-			b.Fatal(err)
-		}
-
-		for _, buf := range values.Data().Buffers() {
-			if buf != nil {
-				byts += int64(buf.Len())
-			}
-		}
-
-		b.SetBytes(byts)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = compute.RunEndDecode(ctx, input)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func BenchmarkRunEndKernels(b *testing.B) {
-	args := []struct {
-		sz       int
-		nullProb float64
-	}{
-		{CpuCacheSizes[2], 0},
-		{CpuCacheSizes[2], 0.5},
-		{CpuCacheSizes[2], 1},
-	}
-
-	runEnds := []struct {
-		dt     arrow.DataType
-		maxLen int
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, a := range args {
-		b.Run(fmt.Sprintf("nullprob=%.1f", a.nullProb), func(b *testing.B) {
-			for _, runEndType := range runEnds {
-				sz := exec.Min(a.sz, runEndType.maxLen)
-				b.Run("run_ends_type="+runEndType.dt.String(), func(b *testing.B) {
-					for _, valType := range append(numericTypes, arrow.BinaryTypes.String, arrow.FixedWidthTypes.Boolean) {
-						b.Run("value_type="+valType.String(), func(b *testing.B) {
-							benchRunEndEncode(b, sz, a.nullProb, runEndType.dt, valType)
-							benchRunEndDecode(b, sz, a.nullProb, runEndType.dt, valType)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/vector_run_ends.go b/go/arrow/compute/vector_run_ends.go
deleted file mode 100644
index 5dfdde4e00948..0000000000000
--- a/go/arrow/compute/vector_run_ends.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	runEndEncodeDoc = FunctionDoc{
-		Summary:         "Run-end encode array",
-		Description:     "Return a run-end encoded version of the input array",
-		ArgNames:        []string{"array"},
-		OptionsType:     "RunEndEncodeOptions",
-		OptionsRequired: true,
-	}
-	runEndDecodeDoc = FunctionDoc{
-		Summary:     "Decode run-end encoded array",
-		Description: "Return a decoded version of a run-end encoded input array",
-		ArgNames:    []string{"array"},
-	}
-)
-
-type RunEndEncodeOptions = kernels.RunEndEncodeState
-
-func RegisterVectorRunEndFuncs(reg FunctionRegistry) {
-	encKns, decKns := kernels.GetRunEndEncodeKernels()
-	encFn := NewVectorFunction("run_end_encode", Unary(), runEndEncodeDoc)
-	for _, k := range encKns {
-		if err := encFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(encFn, false)
-
-	decFn := NewVectorFunction("run_end_decode", Unary(), runEndDecodeDoc)
-	for _, k := range decKns {
-		if err := decFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(decFn, false)
-}
-
-func RunEndEncode(ctx context.Context, opts RunEndEncodeOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "run_end_encode", &opts, arg)
-}
-
-func RunEndEncodeArray(ctx context.Context, opts RunEndEncodeOptions, input arrow.Array) (arrow.Array, error) {
-	out, err := RunEndEncode(ctx, opts, &ArrayDatum{Value: input.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func RunEndDecode(ctx context.Context, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "run_end_decode", nil, arg)
-}
-
-func RunEndDecodeArray(ctx context.Context, input arrow.Array) (arrow.Array, error) {
-	out, err := RunEndDecode(ctx, &ArrayDatum{Value: input.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
diff --git a/go/arrow/compute/vector_selection_test.go b/go/arrow/compute/vector_selection_test.go
deleted file mode 100644
index 6fcb5c242f151..0000000000000
--- a/go/arrow/compute/vector_selection_test.go
+++ /dev/null
@@ -1,1652 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-const randomSeed = 0x0ff1ce
-
-type FilterKernelTestSuite struct {
-	suite.Suite
-
-	mem                 *memory.CheckedAllocator
-	dropOpts, emitNulls compute.FilterOptions
-}
-
-func (f *FilterKernelTestSuite) SetupSuite() {
-	f.dropOpts.NullSelection = compute.SelectionDropNulls
-	f.emitNulls.NullSelection = compute.SelectionEmitNulls
-}
-
-func (f *FilterKernelTestSuite) SetupTest() {
-	f.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (f *FilterKernelTestSuite) TearDownTest() {
-	f.mem.AssertSize(f.T(), 0)
-}
-
-func (f *FilterKernelTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(f.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	f.Require().NoError(err)
-	return arr
-}
-
-func (f *FilterKernelTestSuite) doAssertFilter(values, filter, expected arrow.Array) {
-	ctx := compute.WithAllocator(context.TODO(), f.mem)
-	valDatum := compute.NewDatum(values)
-	defer valDatum.Release()
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	f.Run("emit_null", func() {
-		out, err := compute.Filter(ctx, valDatum, filterDatum, f.emitNulls)
-		f.Require().NoError(err)
-		defer out.Release()
-		actual := out.(*compute.ArrayDatum).MakeArray()
-		defer actual.Release()
-		f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
-	})
-
-	// f.Run("drop", func() {
-	// 	out, err := compute.Filter(ctx, valDatum, filterDatum, f.dropOpts)
-	// 	f.NoError(err)
-	// 	defer out.Release()
-	// 	actual := out.(*compute.ArrayDatum).MakeArray()
-	// 	defer actual.Release()
-	// 	f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
-	// })
-}
-
-func (f *FilterKernelTestSuite) assertFilter(values, filter, expected arrow.Array) {
-	f.doAssertFilter(values, filter, expected)
-
-	if values.DataType().ID() == arrow.DENSE_UNION {
-		// concatenation of dense union not supported
-		return
-	}
-
-	// check slicing: add(M=3) dummy values at the start and end of values
-	// add N(=2) dummy values at the start and end of filter
-	f.Run("sliced values and filter", func() {
-		valuesFiller := array.MakeArrayOfNull(f.mem, values.DataType(), 3)
-		defer valuesFiller.Release()
-		filterFiller, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[true, false]`))
-		defer filterFiller.Release()
-
-		valuesSliced, err := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, f.mem)
-		f.Require().NoError(err)
-		defer valuesSliced.Release()
-
-		filterSliced, err := array.Concatenate([]arrow.Array{filterFiller, filter, filterFiller}, f.mem)
-		f.Require().NoError(err)
-		defer filterSliced.Release()
-
-		valuesSliced = array.NewSlice(valuesSliced, 3, int64(3+values.Len()))
-		filterSliced = array.NewSlice(filterSliced, 2, int64(2+filter.Len()))
-		defer valuesSliced.Release()
-		defer filterSliced.Release()
-
-		f.doAssertFilter(valuesSliced, filterSliced, expected)
-	})
-}
-
-func (f *FilterKernelTestSuite) assertFilterJSON(dt arrow.DataType, values, filter, expected string) {
-	valuesArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer valuesArr.Release()
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
-	defer filterArr.Release()
-	expectedArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(expected), array.WithUseNumber())
-	defer expectedArr.Release()
-
-	f.assertFilter(valuesArr, filterArr, expectedArr)
-}
-
-func (f *FilterKernelTestSuite) TestNoValidityBitmapButUnknownNullCount() {
-	values := f.getArr(arrow.PrimitiveTypes.Int32, `[1, 2, 3, 4]`)
-	defer values.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, true]`)
-	defer filter.Release()
-
-	expected, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	filter.Data().(*array.Data).SetNullN(array.UnknownNullCount)
-	result, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
-	f.Require().NoError(err)
-	defer result.Release()
-
-	assertArraysEqual(f.T(), expected, result)
-}
-
-type TakeKernelTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-}
-
-func (tk *TakeKernelTestSuite) SetupTest() {
-	tk.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	tk.ctx = compute.WithAllocator(context.TODO(), tk.mem)
-}
-
-func (tk *TakeKernelTestSuite) TearDownTest() {
-	tk.mem.AssertSize(tk.T(), 0)
-}
-
-func (tk *TakeKernelTestSuite) assertTakeArrays(values, indices, expected arrow.Array) {
-	actual, err := compute.TakeArray(tk.ctx, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-	assertArraysEqual(tk.T(), expected, actual)
-}
-
-func (tk *TakeKernelTestSuite) takeJSON(dt arrow.DataType, values string, idxType arrow.DataType, indices string) (arrow.Array, error) {
-	valArr, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer valArr.Release()
-	indArr, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indices))
-	defer indArr.Release()
-
-	return compute.TakeArray(tk.ctx, valArr, indArr)
-}
-
-func (tk *TakeKernelTestSuite) checkTake(dt arrow.DataType, valuesJSON, indicesJSON, expJSON string) {
-	values, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(valuesJSON), array.WithUseNumber())
-	defer values.Release()
-	expected, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(expJSON), array.WithUseNumber())
-	defer expected.Release()
-
-	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
-		tk.Run(fmt.Sprintf("idxtype %s", idxType), func() {
-			indices, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indicesJSON))
-			defer indices.Release()
-
-			tk.assertTakeArrays(values, indices, expected)
-
-			if dt.ID() != arrow.DENSE_UNION {
-				tk.Run("sliced values", func() {
-					valuesFiller := array.MakeArrayOfNull(tk.mem, dt, 2)
-					defer valuesFiller.Release()
-
-					valuesSliced, _ := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, tk.mem)
-					defer valuesSliced.Release()
-					valuesSliced = array.NewSlice(valuesSliced, 2, 2+int64(values.Len()))
-					defer valuesSliced.Release()
-
-					tk.assertTakeArrays(valuesSliced, indices, expected)
-				})
-			}
-
-			tk.Run("sliced indices", func() {
-				zero, _ := scalar.MakeScalarParam(0, idxType)
-				indicesFiller, _ := scalar.MakeArrayFromScalar(zero, 3, tk.mem)
-				defer indicesFiller.Release()
-				indicesSliced, _ := array.Concatenate([]arrow.Array{indicesFiller, indices, indicesFiller}, tk.mem)
-				defer indicesSliced.Release()
-				indicesSliced = array.NewSlice(indicesSliced, 3, int64(indices.Len()+3))
-				defer indicesSliced.Release()
-
-				tk.assertTakeArrays(values, indicesSliced, expected)
-			})
-		})
-	}
-}
-
-func (tk *TakeKernelTestSuite) assertTakeNull(values, indices, expected string) {
-	tk.checkTake(arrow.Null, values, indices, expected)
-}
-
-func (tk *TakeKernelTestSuite) assertTakeBool(values, indices, expected string) {
-	tk.checkTake(arrow.FixedWidthTypes.Boolean, values, indices, expected)
-}
-
-func (tk *TakeKernelTestSuite) assertNoValidityBitmapButUnknownNullCount(values, indices arrow.Array) {
-	tk.Zero(values.NullN())
-	tk.Zero(indices.NullN())
-	exp, err := compute.TakeArray(tk.ctx, values, indices)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	newValuesData := values.Data().(*array.Data).Copy()
-	newValuesData.SetNullN(array.UnknownNullCount)
-	newValuesData.Buffers()[0].Release()
-	newValuesData.Buffers()[0] = nil
-	defer newValuesData.Release()
-	newValues := array.MakeFromData(newValuesData)
-
-	newIndicesData := indices.Data().(*array.Data).Copy()
-	newIndicesData.SetNullN(array.UnknownNullCount)
-	newIndicesData.Buffers()[0].Release()
-	newIndicesData.Buffers()[0] = nil
-	defer newIndicesData.Release()
-	newIndices := array.MakeFromData(newIndicesData)
-
-	defer newValues.Release()
-	defer newIndices.Release()
-
-	result, err := compute.TakeArray(tk.ctx, newValues, newIndices)
-	tk.Require().NoError(err)
-	defer result.Release()
-
-	assertArraysEqual(tk.T(), exp, result)
-}
-
-func (tk *TakeKernelTestSuite) assertNoValidityBitmapUnknownNullCountJSON(dt arrow.DataType, values, indices string) {
-	vals, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer vals.Release()
-	inds, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int16, strings.NewReader(indices))
-	defer inds.Release()
-	tk.assertNoValidityBitmapButUnknownNullCount(vals, inds)
-}
-
-type TakeKernelTest struct {
-	TakeKernelTestSuite
-}
-
-func (tk *TakeKernelTest) TestTakeNull() {
-	tk.assertTakeNull(`[null, null, null]`, `[0, 1, 0]`, `[null, null, null]`)
-	tk.assertTakeNull(`[null, null, null]`, `[0, 2]`, `[null, null]`)
-
-	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-func (tk *TakeKernelTest) TestInvalidIndexType() {
-	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Float32, `[0.0, 1.0, 0.1]`)
-	tk.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-func (tk *TakeKernelTest) TestDefaultOptions() {
-	indArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[null, 2, 0, 3]`))
-	defer indArr.Release()
-	valArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[7, 8, 9, null]`))
-	defer valArr.Release()
-
-	indices, values := compute.NewDatum(indArr), compute.NewDatum(valArr)
-	defer indices.Release()
-	defer values.Release()
-
-	noOptions, err := compute.CallFunction(tk.ctx, "take", nil, values, indices)
-	tk.Require().NoError(err)
-	defer noOptions.Release()
-
-	explicitDefaults, err := compute.CallFunction(tk.ctx, "take", compute.DefaultTakeOptions(), values, indices)
-	tk.Require().NoError(err)
-	defer explicitDefaults.Release()
-
-	assertDatumsEqual(tk.T(), explicitDefaults, noOptions, nil, nil)
-}
-
-func (tk *TakeKernelTest) TestTakeBoolean() {
-	tk.assertTakeBool(`[true, true, true]`, `[]`, `[]`)
-	tk.assertTakeBool(`[true, false, true]`, `[0, 1, 0]`, `[true, false, true]`)
-	tk.assertTakeBool(`[null, false, true]`, `[0, 1, 0]`, `[null, false, null]`)
-	tk.assertTakeBool(`[true, false, true]`, `[null, 1, 0]`, `[null, false, true]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, `[1, 0, 0]`)
-	_, err := tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type FilterKernelWithNull struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithNull) TestFilterNull() {
-	f.assertFilterJSON(arrow.Null, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[false, true, false]`, `[null]`)
-	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[true, true, false]`, `[null, null]`)
-}
-
-type FilterKernelWithBoolean struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithBoolean) TestFilterBoolean() {
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[true, false, true]`, `[false, true, false]`, `[false]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[null, false, true]`, `[false, true, false]`, `[false]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[true, false, true]`, `[null, true, false]`, `[null, false]`)
-}
-
-func (f *FilterKernelWithBoolean) TestDefaultOptions() {
-	values := f.getArr(arrow.PrimitiveTypes.Int8, `[7, 8, null, 9]`)
-	valDatum := compute.NewDatum(values)
-	values.Release()
-	defer valDatum.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, null]`)
-	filterDatum := compute.NewDatum(filter)
-	filter.Release()
-	defer filterDatum.Release()
-
-	noOpts, err := compute.CallFunction(context.TODO(), "filter", nil, valDatum, filterDatum)
-	f.Require().NoError(err)
-	defer noOpts.Release()
-
-	defOpts, err := compute.CallFunction(context.TODO(), "filter", compute.DefaultFilterOptions(), valDatum, filterDatum)
-	f.Require().NoError(err)
-	defer defOpts.Release()
-
-	assertDatumsEqual(f.T(), defOpts, noOpts, nil, nil)
-}
-
-type FilterKernelExtension struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelExtension) TestExtension() {
-	dt := types.NewSmallintType()
-	arrow.RegisterExtensionType(dt)
-	defer arrow.UnregisterExtensionType(dt.ExtensionName())
-
-	f.assertFilterJSON(dt, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(dt, `[9]`, `[false]`, `[]`)
-	f.assertFilterJSON(dt, `[9]`, `[true]`, `[9]`)
-	f.assertFilterJSON(dt, `[9]`, `[null]`, `[null]`)
-	f.assertFilterJSON(dt, `[null]`, `[false]`, `[]`)
-	f.assertFilterJSON(dt, `[null]`, `[true]`, `[null]`)
-	f.assertFilterJSON(dt, `[null]`, `[null]`, `[null]`)
-
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
-	f.assertFilterJSON(dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
-
-	val := f.getArr(dt, `[7, 8, 9]`)
-	defer val.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-	defer filter.Release()
-	filter = array.NewSlice(filter, 3, 6)
-	defer filter.Release()
-	exp := f.getArr(dt, `[7, 9]`)
-	defer exp.Release()
-
-	f.assertFilter(val, filter, exp)
-
-	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer invalidFilter.Release()
-
-	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelNumeric struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelNumeric) TestFilterNumeric() {
-	f.Run(f.dt.String(), func() {
-		f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[false]`, `[]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[true]`, `[9]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[null]`, `[null]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
-
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
-		f.assertFilterJSON(f.dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
-
-		val := f.getArr(f.dt, `[7, 8, 9]`)
-		defer val.Release()
-		filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-		defer filter.Release()
-		filter = array.NewSlice(filter, 3, 6)
-		defer filter.Release()
-		exp := f.getArr(f.dt, `[7, 9]`)
-		defer exp.Release()
-
-		f.assertFilter(val, filter, exp)
-
-		invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-		defer invalidFilter.Release()
-
-		_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-		f.ErrorIs(err, arrow.ErrInvalid)
-		_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-		f.ErrorIs(err, arrow.ErrInvalid)
-	})
-}
-
-type comparator[T arrow.NumericType] func(a, b T) bool
-
-func getComparator[T arrow.NumericType](op kernels.CompareOperator) comparator[T] {
-	return []comparator[T]{
-		// EQUAL
-		func(a, b T) bool { return a == b },
-		// NOT EQUAL
-		func(a, b T) bool { return a != b },
-		// GREATER
-		func(a, b T) bool { return a > b },
-		// GREATER_EQUAL
-		func(a, b T) bool { return a >= b },
-		// LESS
-		func(a, b T) bool { return a < b },
-		// LESS_EQUAL
-		func(a, b T) bool { return a <= b },
-	}[int8(op)]
-}
-
-func compareAndFilterImpl[T arrow.NumericType](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
-	filtered := make([]T, 0, len(data))
-	for _, v := range data {
-		if fn(v) {
-			filtered = append(filtered, v)
-		}
-	}
-	return exec.ArrayFromSlice(mem, filtered)
-}
-
-func compareAndFilterValue[T arrow.NumericType](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	return compareAndFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
-}
-
-func compareAndFilterSlice[T arrow.NumericType](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	i := 0
-	return compareAndFilterImpl(mem, data, func(e T) bool {
-		ret := cmp(e, other[i])
-		i++
-		return ret
-	})
-}
-
-func createFilterImpl[T arrow.NumericType](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-	for _, v := range data {
-		bldr.Append(fn(v))
-	}
-	return bldr.NewArray()
-}
-
-func createFilterValue[T arrow.NumericType](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	return createFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
-}
-
-func createFilterSlice[T arrow.NumericType](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	i := 0
-	return createFilterImpl(mem, data, func(e T) bool {
-		ret := cmp(e, other[i])
-		i++
-		return ret
-	})
-}
-
-func compareScalarAndFilterRandomNumeric[T arrow.NumericType](t *testing.T, mem memory.Allocator) {
-	dt := arrow.GetDataType[T]()
-
-	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
-	t.Run("compare scalar and filter", func(t *testing.T) {
-		for i := 3; i < 10; i++ {
-			length := int64(1 << i)
-			t.Run(fmt.Sprintf("random %d", length), func(t *testing.T) {
-				arr := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer arr.Release()
-				data := arrow.GetData[T](arr.Data().Buffers()[1].Bytes())
-				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
-					selection := createFilterValue(mem, data, 50, op)
-					defer selection.Release()
-
-					filtered, err := compute.FilterArray(context.TODO(), arr, selection, *compute.DefaultFilterOptions())
-					assert.NoError(t, err)
-					defer filtered.Release()
-
-					expected := compareAndFilterValue(mem, data, 50, op)
-					defer expected.Release()
-
-					assertArraysEqual(t, expected, filtered)
-				}
-			})
-		}
-	})
-}
-
-func compareArrayAndFilterRandomNumeric[T arrow.NumericType](t *testing.T, mem memory.Allocator) {
-	dt := arrow.GetDataType[T]()
-	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
-	t.Run("compare array and filter", func(t *testing.T) {
-		for i := 3; i < 10; i++ {
-			length := int64(1 << i)
-			t.Run(fmt.Sprintf("length %d", length), func(t *testing.T) {
-				lhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer lhs.Release()
-				rhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer rhs.Release()
-
-				data := arrow.GetData[T](lhs.Data().Buffers()[1].Bytes())
-				other := arrow.GetData[T](rhs.Data().Buffers()[1].Bytes())
-				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
-					selection := createFilterSlice(mem, data, other, op)
-					defer selection.Release()
-
-					filtered, err := compute.FilterArray(context.TODO(), lhs, selection, *compute.DefaultFilterOptions())
-					require.NoError(t, err)
-					defer filtered.Release()
-
-					expected := compareAndFilterSlice(mem, data, other, op)
-					defer expected.Release()
-
-					assertArraysEqual(t, expected, filtered)
-				}
-			})
-		}
-	})
-}
-
-func (f *FilterKernelNumeric) TestCompareScalarAndFilterRandom() {
-	switch f.dt.ID() {
-	case arrow.INT8:
-		compareScalarAndFilterRandomNumeric[int8](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int8](f.T(), f.mem)
-	case arrow.UINT8:
-		compareScalarAndFilterRandomNumeric[uint8](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint8](f.T(), f.mem)
-	case arrow.INT16:
-		compareScalarAndFilterRandomNumeric[int16](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int16](f.T(), f.mem)
-	case arrow.UINT16:
-		compareScalarAndFilterRandomNumeric[uint16](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint16](f.T(), f.mem)
-	case arrow.INT32:
-		compareScalarAndFilterRandomNumeric[int32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int32](f.T(), f.mem)
-	case arrow.UINT32:
-		compareScalarAndFilterRandomNumeric[uint32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint32](f.T(), f.mem)
-	case arrow.INT64:
-		compareScalarAndFilterRandomNumeric[int64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int64](f.T(), f.mem)
-	case arrow.UINT64:
-		compareScalarAndFilterRandomNumeric[uint64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint64](f.T(), f.mem)
-	case arrow.FLOAT32:
-		compareScalarAndFilterRandomNumeric[float32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[float32](f.T(), f.mem)
-	case arrow.FLOAT64:
-		compareScalarAndFilterRandomNumeric[float64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[float64](f.T(), f.mem)
-	}
-}
-
-type FilterKernelWithDecimal struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelWithDecimal) TestFilterDecimalNumeric() {
-	f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
-
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[false]`, `[]`)
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[true]`, `["9.00"]`)
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[null]`, `[null]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
-
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, false, true]`, `["7.12", "9.87"]`)
-	f.assertFilterJSON(f.dt, `[null, "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[null, true, false]`, `[null, "8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, null, true]`, `["7.12", null, "9.87"]`)
-
-	val := f.getArr(f.dt, `["7.12", "8.00", "9.87"]`)
-	defer val.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-	defer filter.Release()
-	filter = array.NewSlice(filter, 3, 6)
-	defer filter.Release()
-	exp := f.getArr(f.dt, `["7.12", "9.87"]`)
-	defer exp.Release()
-
-	f.assertFilter(val, filter, exp)
-
-	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer invalidFilter.Release()
-
-	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelWithString struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelWithString) TestFilterString() {
-	f.Run(f.dt.String(), func() {
-		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
-		f.assertFilterJSON(f.dt, `[null, "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
-		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[null, true, false]`, `[null, "Yg=="]`)
-	})
-}
-
-type FilterKernelWithList struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithList) TestListInt32() {
-	dt := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[[], [3]]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, 2], [3]]`)
-}
-
-func (f *FilterKernelWithList) TestListListInt32() {
-	dt := arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
-	listJSON := `[
-		[],
-		[[1], [2, null, 2], []],
-		null,
-		[[3, null], null]
-	]`
-
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[
-		[[1], [2, null, 2], []],
-		null,
-		null
-	]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[
-		[],
-		[[3, null], null]
-	]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[
-		[[1], [2, null, 2], []],
-		[[3, null], null]
-	]`)
-}
-
-func (f *FilterKernelWithList) TestLargeListInt32() {
-	dt := arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
-}
-
-func (f *FilterKernelWithList) TestFixedSizeListInt32() {
-	dt := arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
-	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, null, 3], [4, 5, 6], null]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[[4, 5, 6], null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, null, 3], [7, 8, null]]`)
-}
-
-type FilterKernelWithUnion struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithUnion) TestDenseUnion() {
-	dt := arrow.DenseUnionOf([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 5})
-
-	unionJSON := `[
-		[2, null],
-		[2, 222],
-		[5, "hello"],
-		[5, "eh"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`
-
-	f.assertFilterJSON(dt, unionJSON, `[false, false, false, false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, unionJSON, `[false, true, true, null, false, true, true]`, `[
-		[2, 222],
-		[5, "hello"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`)
-	f.assertFilterJSON(dt, unionJSON, `[true, false, true, false, true, false, false]`, `[
-		[2, null],
-		[5, "hello"],
-		[2, null]
-	]`)
-	f.assertFilterJSON(dt, unionJSON, `[true, true, true, true, true, true, true]`, unionJSON)
-
-	// sliced
-	// (check this manually as concat of dense unions isn't supported)
-	unionArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(unionJSON))
-	defer unionArr.Release()
-
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[false, true, true, null, false, true, true]`))
-	defer filterArr.Release()
-
-	expected, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(`[[5, "hello"], [2, null], [2, 111]]`))
-	defer expected.Release()
-
-	values := array.NewSlice(unionArr, 2, 6)
-	defer values.Release()
-	filter := array.NewSlice(filterArr, 2, 6)
-	defer filter.Release()
-	f.assertFilter(values, filter, expected)
-}
-
-type FilterKernelWithStruct struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithStruct) TestStruct() {
-	dt := arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	structJSON := `[
-		null,
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	f.assertFilterJSON(dt, structJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, structJSON, `[false, true, true, null]`, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		null
-	]`)
-	f.assertFilterJSON(dt, structJSON, `[true, true, true, true]`, structJSON)
-	f.assertFilterJSON(dt, structJSON, `[true, false, true, false]`, `[null, {"a": 2, "b": "hello"}]`)
-}
-
-type FilterKernelWithRecordBatch struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithRecordBatch) doFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions) (arrow.Record, error) {
-	rec, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(batchJSON), array.WithUseNumber())
-	if err != nil {
-		return nil, err
-	}
-	defer rec.Release()
-
-	batch := compute.NewDatum(rec)
-	defer batch.Release()
-
-	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(selection))
-	defer filter.Release()
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	outDatum, err := compute.Filter(context.TODO(), batch, filterDatum, opts)
-	if err != nil {
-		return nil, err
-	}
-
-	return outDatum.(*compute.RecordDatum).Value, nil
-}
-
-func (f *FilterKernelWithRecordBatch) assertFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions, expectedBatch string) {
-	actual, err := f.doFilter(sc, batchJSON, selection, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(expectedBatch), array.WithUseNumber())
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.RecordEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithRecordBatch) TestFilterRecord() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	sc := arrow.NewSchema(fields, nil)
-
-	batchJSON := `[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	for _, opts := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
-		f.assertFilter(sc, batchJSON, `[false, false, false, false]`, opts, `[]`)
-		f.assertFilter(sc, batchJSON, `[true, true, true, true]`, opts, batchJSON)
-		f.assertFilter(sc, batchJSON, `[true, false, true, false]`, opts, `[
-			{"a": null, "b": "yo"},
-			{"a": 2, "b": "hello"}
-		]`)
-	}
-
-	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.dropOpts, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"}
-	]`)
-
-	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.emitNulls, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": null, "b": null}
-	]`)
-}
-
-type FilterKernelWithChunked struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithChunked) filterWithArray(dt arrow.DataType, values []string, filterStr string) (*arrow.Chunked, error) {
-	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
-	f.Require().NoError(err)
-	defer chk.Release()
-
-	input := compute.NewDatum(chk)
-	defer input.Release()
-
-	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filterStr))
-	defer filter.Release()
-
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	out, err := compute.Filter(context.TODO(), input, filterDatum, *compute.DefaultFilterOptions())
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.ChunkedDatum).Value, nil
-}
-
-func (f *FilterKernelWithChunked) filterWithChunked(dt arrow.DataType, values, filter []string) (*arrow.Chunked, error) {
-	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
-	f.Require().NoError(err)
-	defer chk.Release()
-
-	input := compute.NewDatum(chk)
-	defer input.Release()
-
-	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
-	f.Require().NoError(err)
-	defer filtChk.Release()
-
-	filtDatum := compute.NewDatum(filtChk)
-	defer filtDatum.Release()
-
-	out, err := compute.Filter(context.TODO(), input, filtDatum, *compute.DefaultFilterOptions())
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.ChunkedDatum).Value, nil
-}
-
-func (f *FilterKernelWithChunked) assertFilter(dt arrow.DataType, values []string, filter string, expected []string) {
-	actual, err := f.filterWithArray(dt, values, filter)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
-	defer expectedResult.Release()
-	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range expectedResult.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		f.T().Log(s.String())
-	}
-}
-
-func (f *FilterKernelWithChunked) assertChunkedFilter(dt arrow.DataType, values, filter, expected []string) {
-	actual, err := f.filterWithChunked(dt, values, filter)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
-	defer expectedResult.Release()
-	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range expectedResult.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		f.T().Log(s.String())
-	}
-}
-
-func (f *FilterKernelWithChunked) TestFilterChunked() {
-	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{})
-
-	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false]`, []string{`[8]`})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false]`, `[true, false]`}, []string{`[8]`})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false, true]`, `[false]`}, []string{`[8]`})
-
-	_, err := f.filterWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false, true, true]`)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = f.filterWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[ false, true, false]`, `[true, true]`})
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelWithTable struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithTable) filterWithArray(sc *arrow.Schema, values []string, filter string, opts compute.FilterOptions) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(f.mem, sc, values)
-	if err != nil {
-		return nil, err
-	}
-	defer tbl.Release()
-
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
-	defer filterArr.Release()
-
-	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ArrayDatum{Value: filterArr.Data()}, opts)
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.TableDatum).Value, nil
-}
-
-func (f *FilterKernelWithTable) filterWithChunked(sc *arrow.Schema, values, filter []string, opts compute.FilterOptions) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(f.mem, sc, values)
-	if err != nil {
-		return nil, err
-	}
-	defer tbl.Release()
-
-	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
-	f.Require().NoError(err)
-	defer filtChk.Release()
-
-	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ChunkedDatum{Value: filtChk}, opts)
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.TableDatum).Value, nil
-}
-
-func (f *FilterKernelWithTable) assertChunkedFilter(sc *arrow.Schema, tableJSON, filter []string, opts compute.FilterOptions, expTable []string) {
-	actual, err := f.filterWithChunked(sc, tableJSON, filter, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, err := array.TableFromJSON(f.mem, sc, expTable)
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithTable) assertFilter(sc *arrow.Schema, tableJSON []string, filter string, opts compute.FilterOptions, expectedTable []string) {
-	actual, err := f.filterWithArray(sc, tableJSON, filter, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, err := array.TableFromJSON(f.mem, sc, expectedTable)
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithTable) TestFilterTable() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	sc := arrow.NewSchema(fields, nil)
-	tableJSON := []string{`[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""}
-	]`, `[
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`}
-
-	for _, opt := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
-		f.assertFilter(sc, tableJSON, `[false, false, false, false]`, opt, []string{})
-		f.assertChunkedFilter(sc, tableJSON, []string{`[false]`, `[false, false, false]`}, opt, []string{})
-		f.assertFilter(sc, tableJSON, `[true, true, true, true]`, opt, tableJSON)
-		f.assertChunkedFilter(sc, tableJSON, []string{`[true]`, `[true, true, true]`}, opt, tableJSON)
-	}
-
-	expectedEmitNull := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"},{"a": null, "b": null}]`}
-	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.emitNulls, expectedEmitNull)
-	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.emitNulls, expectedEmitNull)
-
-	expectedDrop := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"}]`}
-	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.dropOpts, expectedDrop)
-	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.dropOpts, expectedDrop)
-}
-
-type TakeKernelTestTyped struct {
-	TakeKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (tk *TakeKernelTestTyped) assertTake(values, indices, expected string) {
-	tk.checkTake(tk.dt, values, indices, expected)
-}
-
-type TakeKernelTestNumeric struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestNumeric) TestTakeNumeric() {
-	tk.Run(tk.dt.String(), func() {
-		tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
-		tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
-		tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
-		tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
-		tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
-		tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
-
-		_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-		_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-	})
-}
-
-type TakeKernelTestExtension struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestExtension) TestTakeExtension() {
-	tk.dt = types.NewSmallintType()
-	arrow.RegisterExtensionType(tk.dt.(arrow.ExtensionType))
-	defer arrow.UnregisterExtensionType("smallint")
-
-	tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
-	tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
-	tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
-	tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
-	tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
-	tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
-
-	_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestFSB struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestFSB) SetupSuite() {
-	tk.dt = &arrow.FixedSizeBinaryType{ByteWidth: 3}
-}
-
-func (tk *TakeKernelTestFSB) TestFixedSizeBinary() {
-	// YWFh == base64("aaa")
-	// YmJi == base64("bbb")
-	// Y2Nj == base64("ccc")
-	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `["YWFh", "YmJi", "YWFh"]`)
-	tk.assertTake(`[null, "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `[null, "YmJi", null]`)
-	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[null, 1, 0]`, `[null, "YmJi", "YWFh"]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`)
-
-	_, err := tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestString struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestString) TestTakeString() {
-	tk.Run(tk.dt.String(), func() {
-		// base64 encoded so the binary non-utf8 arrays work
-		// YQ== -> "a"
-		// Yg== -> "b"
-		// Yw== -> "c"
-		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`, `["YQ==", "Yg==", "YQ=="]`)
-		tk.assertTake(`[null, "Yg==", "Yw=="]`, `[0, 1, 0]`, `[null, "Yg==", null]`)
-		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[null, 1, 0]`, `[null, "Yg==", "YQ=="]`)
-
-		tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`)
-
-		_, err := tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-		_, err = tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-	})
-}
-
-type TakeKernelLists struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelLists) TestListInt32() {
-	tk.dt = arrow.ListOf(arrow.PrimitiveTypes.Int32)
-
-	listJSON := `[[], [1, 2], null, [3]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[3], null, [1,2]]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[null, [3], []]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[3], [], [], [3]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`, `[[], [], [], [], [], [], [1, 2]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[], [1, 2], [3]]`, `[0, 1, 0]`)
-}
-
-func (tk *TakeKernelLists) TestListListInt32() {
-	tk.dt = arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
-
-	listJSON := `[
-		[],
-		[[1], [2, null, 2], []],
-		null,
-		[[3, null], null]
-	]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[
-		[[3, null], null],
-		null,
-		[[1], [2, null, 2], []]
-	]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[
-		null,
-		[[3, null], null],
-		[]
-	]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[[3, null], null], [], [], [[3, null], null]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`,
-		`[[], [], [], [], [], [], [[1], [2, null, 2], []]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[[1], [2, null, 2], []], [[3, null]]]`, `[0, 1, 0]`)
-}
-
-func (tk *TakeKernelLists) TestLargeListInt32() {
-	tk.dt = arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 1, 2, 0]`, `[null, [1, 2], null, []]`)
-}
-
-func (tk *TakeKernelLists) TestFixedSizeListInt32() {
-	tk.dt = arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
-	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[7, 8, null], [4, 5, 6], [1, null, 3]]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 2, 0]`, `[null, [4, 5, 6], null]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[7, 8, null], null, null, [7, 8, null]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[2, 2, 2, 2, 2, 2, 1]`,
-		`[[4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [1, null, 3]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[1, null, 3], [4, 5, 6], [7, 8, null]]`, `[0, 1, 0]`)
-}
-
-type TakeKernelDenseUnion struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelDenseUnion) TestTakeUnion() {
-	tk.dt = arrow.DenseUnionOf([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 5})
-
-	unionJSON := `[
-		[2, null],
-		[2, 222],
-		[5, "hello"],
-		[5, "eh"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`
-	tk.checkTake(tk.dt, unionJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, unionJSON, `[3, 1, 3, 1, 3]`, `[
-		[5, "eh"],
-		[2, 222],
-		[5, "eh"],
-		[2, 222],
-		[5, "eh"]
-	]`)
-	tk.checkTake(tk.dt, unionJSON, `[4, 2, 1, 6]`, `[
-		[2, null],
-		[5, "hello"],
-		[2, 222],
-		[5, null]
-	]`)
-	tk.checkTake(tk.dt, unionJSON, `[0, 1, 2, 3, 4, 5, 6]`, unionJSON)
-	tk.checkTake(tk.dt, unionJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		[2, null],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"]
-	]`)
-}
-
-type TakeKernelStruct struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelStruct) TestStruct() {
-	tk.dt = arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	structJSON := `[
-		null,
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	tk.checkTake(tk.dt, structJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, structJSON, `[3, 1, 3, 1, 3]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"}
-	]`)
-	tk.checkTake(tk.dt, structJSON, `[3, 1, 0]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		null
-	]`)
-	tk.checkTake(tk.dt, structJSON, `[0, 1, 2, 3]`, structJSON)
-	tk.checkTake(tk.dt, structJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		null,
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"}
-	]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[{"a": 1}, {"a": 2, "b": "hello"}]`, `[0, 1, 0]`)
-}
-
-type TakeKernelTestChunked struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestChunked) assertTake(dt arrow.DataType, values []string, indices string, expected []string) {
-	actual, err := tk.takeWithArray(dt, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-
-	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	if !tk.True(array.ChunkedEqual(exp, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range exp.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		tk.T().Log(s.String())
-	}
-}
-
-func (tk *TakeKernelTestChunked) assertChunkedTake(dt arrow.DataType, values, indices, expected []string) {
-	actual, err := tk.takeWithChunked(dt, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-
-	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	if !tk.True(array.ChunkedEqual(exp, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range exp.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		tk.T().Log(s.String())
-	}
-}
-
-func (tk *TakeKernelTestChunked) takeWithArray(dt arrow.DataType, values []string, indices string) (*arrow.Chunked, error) {
-	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
-	tk.Require().NoError(err)
-	defer chunked.Release()
-
-	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
-	tk.Require().NoError(err)
-	defer indicesArr.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ArrayDatum{indicesArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.ChunkedDatum).Value, nil
-
-}
-
-func (tk *TakeKernelTestChunked) takeWithChunked(dt arrow.DataType, values, indices []string) (*arrow.Chunked, error) {
-	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
-	tk.Require().NoError(err)
-	defer chunked.Release()
-
-	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
-	tk.Require().NoError(err)
-	defer chunkedIndices.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ChunkedDatum{chunkedIndices})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.ChunkedDatum).Value, nil
-}
-
-func (tk *TakeKernelTestChunked) TestChunkedArray() {
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{}, []string{})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[]`}, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[null]`}, []string{`[null]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{}, []string{})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[null]`}, []string{`[null]`})
-
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 1, 0, 2]`, []string{`[7, 8, 7, 9]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[]`, `[2]`}, []string{`[7, 8, 7]`, `[]`, `[9]`})
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[2, 1]`, []string{`[9, 8]`})
-
-	tk.assertChunkedTake(arrow.FixedWidthTypes.Boolean, []string{`[true]`, `[false, true]`}, []string{`[0, 1, 0]`, `[]`, `[2]`},
-		[]string{`[true, false, true]`, `[]`, `[true]`})
-
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int32,
-		[]string{`[7, null]`, `[8, 9, 10]`, `[21, null, 42]`}, []string{`[2, 1]`, `[7, 6, 6, 4]`},
-		[]string{`[8, null]`, `[42, null, null, 10]`})
-
-	tk.assertChunkedTake(arrow.BinaryTypes.String,
-		[]string{`["hello", "world", null]`, `["foo", "bar", "baz"]`},
-		[]string{`[3]`, `[null, 2]`, `[0, 1]`, `[4, 5]`},
-		[]string{`["foo"]`, `[null, null]`, `["hello", "world"]`, `["bar", "baz"]`})
-
-	_, err := tk.takeWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 5]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[5, 1]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{}, []string{`[0]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[0]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestRecord struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestRecord) takeJSON(schm *arrow.Schema, batchJSON string, indexType arrow.DataType, indices string) (arrow.Record, error) {
-	batch, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(batchJSON))
-	tk.Require().NoError(err)
-	defer batch.Release()
-	indexArr, _, err := array.FromJSON(tk.mem, indexType, strings.NewReader(indices))
-	tk.Require().NoError(err)
-	defer indexArr.Release()
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(),
-		&compute.RecordDatum{Value: batch}, &compute.ArrayDatum{Value: indexArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.RecordDatum).Value, nil
-}
-
-func (tk *TakeKernelTestRecord) assertTake(schm *arrow.Schema, batchJSON, indices, exp string) {
-	expected, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(exp))
-	tk.Require().NoError(err)
-	defer expected.Release()
-
-	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
-		result, err := tk.takeJSON(schm, batchJSON, idxType, indices)
-		tk.NoError(err)
-		defer result.Release()
-		tk.Truef(array.RecordEqual(expected, result), "expected: %s\ngot: %s", expected, result)
-	}
-}
-
-func (tk *TakeKernelTestRecord) TestTakeRecordBatch() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-
-	schm := arrow.NewSchema(fields, nil)
-	batchJSON := `[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	tk.assertTake(schm, batchJSON, `[]`, `[]`)
-	tk.assertTake(schm, batchJSON, `[3, 1, 3, 1, 3]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"}
-	]`)
-	tk.assertTake(schm, batchJSON, `[3, 1, 0]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": null, "b": "yo"}
-	]`)
-	tk.assertTake(schm, batchJSON, `[0, 1, 2, 3]`, batchJSON)
-	tk.assertTake(schm, batchJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		{"a": null, "b": "yo"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"}
-	]`)
-}
-
-type TakeKernelTestTable struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestTable) assertTake(schm *arrow.Schema, tableJSON []string, filter string, exptable []string) {
-	tbl, err := tk.takeWithArray(schm, tableJSON, filter)
-	tk.Require().NoError(err)
-	defer tbl.Release()
-
-	exptbl, err := array.TableFromJSON(tk.mem, schm, exptable)
-	tk.Require().NoError(err)
-	defer exptbl.Release()
-
-	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
-}
-
-func (tk *TakeKernelTestTable) assertChunkedTake(schm *arrow.Schema, tableJSON, filter, expTable []string) {
-	tbl, err := tk.takeWithChunked(schm, tableJSON, filter)
-	tk.Require().NoError(err)
-	defer tbl.Release()
-
-	exptbl, err := array.TableFromJSON(tk.mem, schm, expTable)
-	tk.Require().NoError(err)
-	defer exptbl.Release()
-
-	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
-}
-
-func (tk *TakeKernelTestTable) takeWithArray(schm *arrow.Schema, values []string, indices string) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(tk.mem, schm, values)
-	tk.NoError(err)
-	defer tbl.Release()
-
-	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
-	tk.NoError(err)
-	defer indicesArr.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
-		&compute.ArrayDatum{Value: indicesArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.TableDatum).Value, nil
-}
-
-func (tk *TakeKernelTestTable) takeWithChunked(schm *arrow.Schema, values, indices []string) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(tk.mem, schm, values)
-	tk.NoError(err)
-	defer tbl.Release()
-
-	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
-	tk.NoError(err)
-	defer chunkedIndices.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
-		&compute.ChunkedDatum{Value: chunkedIndices})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.TableDatum).Value, nil
-}
-
-func (tk *TakeKernelTestTable) TestTakeTable() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	schm := arrow.NewSchema(fields, nil)
-
-	tblJSON := []string{
-		`[{"a": null, "b": "yo"}, {"a": 1, "b": ""}]`,
-		`[{"a": 2, "b": "hello"}, {"a": 4, "b": "eh"}]`}
-
-	tk.assertTake(schm, tblJSON, `[]`, []string{`[]`})
-	expected310 := []string{
-		`[{"a": 4, "b": "eh"}, {"a": 1, "b": ""}, {"a": null, "b": "yo"}]`}
-
-	tk.assertTake(schm, tblJSON, `[3, 1, 0]`, expected310)
-	tk.assertChunkedTake(schm, tblJSON, []string{`[0, 1]`, `[2, 3]`}, tblJSON)
-}
-
-func TestTakeKernels(t *testing.T) {
-	suite.Run(t, new(TakeKernelTest))
-	for _, dt := range numericTypes {
-		suite.Run(t, &TakeKernelTestNumeric{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
-	}
-	suite.Run(t, new(TakeKernelTestFSB))
-	for _, dt := range baseBinaryTypes {
-		suite.Run(t, &TakeKernelTestString{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
-	}
-	suite.Run(t, new(TakeKernelLists))
-	suite.Run(t, new(TakeKernelDenseUnion))
-	suite.Run(t, new(TakeKernelTestExtension))
-	suite.Run(t, new(TakeKernelStruct))
-	suite.Run(t, new(TakeKernelTestRecord))
-	suite.Run(t, new(TakeKernelTestChunked))
-	suite.Run(t, new(TakeKernelTestTable))
-}
-
-func TestFilterKernels(t *testing.T) {
-	suite.Run(t, new(FilterKernelWithNull))
-	suite.Run(t, new(FilterKernelWithBoolean))
-	for _, dt := range numericTypes {
-		suite.Run(t, &FilterKernelNumeric{dt: dt})
-	}
-	for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}} {
-		suite.Run(t, &FilterKernelWithDecimal{dt: dt})
-	}
-	for _, dt := range baseBinaryTypes {
-		suite.Run(t, &FilterKernelWithString{dt: dt})
-	}
-	suite.Run(t, new(FilterKernelWithList))
-	suite.Run(t, new(FilterKernelWithUnion))
-	suite.Run(t, new(FilterKernelExtension))
-	suite.Run(t, new(FilterKernelWithStruct))
-	suite.Run(t, new(FilterKernelWithRecordBatch))
-	suite.Run(t, new(FilterKernelWithChunked))
-	suite.Run(t, new(FilterKernelWithTable))
-}
diff --git a/go/arrow/csv/common.go b/go/arrow/csv/common.go
deleted file mode 100644
index ed254ae35b353..0000000000000
--- a/go/arrow/csv/common.go
+++ /dev/null
@@ -1,269 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package csv reads CSV files and presents the extracted data as records, also
-// writes data as record into CSV files
-package csv
-
-import (
-	"errors"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-var (
-	ErrMismatchFields = errors.New("arrow/csv: number of records mismatch")
-)
-
-// Option configures a CSV reader/writer.
-type Option func(config)
-type config interface{}
-
-// WithComma specifies the fields separation character used while parsing CSV files.
-func WithComma(c rune) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.Comma = c
-		case *Writer:
-			cfg.w.Comma = c
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithComment specifies the comment character used while parsing CSV files.
-func WithComment(c rune) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.Comment = c
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.mem = mem
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithChunk specifies the chunk size used while parsing CSV files.
-//
-// If n is zero or 1, no chunking will take place and the reader will create
-// one record per row.
-// If n is greater than 1, chunks of n rows will be read.
-// If n is negative, the reader will load the whole CSV file into memory and
-// create one big record with all the rows.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.chunk = n
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithCRLF specifies the line terminator used while writing CSV files.
-// If useCRLF is true, \r\n is used as the line terminator, otherwise \n is used.
-// The default value is false.
-func WithCRLF(useCRLF bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.w.UseCRLF = useCRLF
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithHeader enables or disables CSV-header handling.
-func WithHeader(useHeader bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.header = useHeader
-		case *Writer:
-			cfg.header = useHeader
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithLazyQuotes sets csv parsing option to LazyQuotes
-func WithLazyQuotes(useLazyQuotes bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.LazyQuotes = useLazyQuotes
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// DefaultNullValues is the set of values considered as NULL values by default
-// when Reader is configured to handle NULL values.
-var DefaultNullValues = []string{"", "NULL", "null"}
-
-// WithNullReader sets options for a CSV Reader pertaining to NULL value
-// handling. If stringsCanBeNull is true, then a string that matches one of the
-// nullValues set will be interpreted as NULL. Numeric columns will be checked
-// for nulls in all cases. If no nullValues arguments are passed in, the
-// defaults set in NewReader() will be kept.
-//
-// When no NULL values is given, the default set is taken from DefaultNullValues.
-func WithNullReader(stringsCanBeNull bool, nullValues ...string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.stringsCanBeNull = stringsCanBeNull
-
-			if len(nullValues) == 0 {
-				nullValues = DefaultNullValues
-			}
-			cfg.nulls = make([]string, len(nullValues))
-			copy(cfg.nulls, nullValues)
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithNullWriter sets the null string written for NULL values. The default is
-// set in NewWriter().
-func WithNullWriter(null string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.nullValue = null
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithBoolWriter override the default bool formatter with a function that returns
-// a string representation of bool states. i.e. True, False, 1, 0
-func WithBoolWriter(fmtr func(bool) string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			if fmtr != nil {
-				cfg.boolFormatter = fmtr
-			}
-		default:
-			panic(fmt.Errorf("arrow/csv: WithBoolWriter unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithColumnTypes allows specifying optional per-column types (disabling
-// type inference on those columns).
-//
-// Will panic if used in conjunction with an explicit schema.
-func WithColumnTypes(types map[string]arrow.DataType) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			if cfg.schema != nil {
-				panic(fmt.Errorf("%w: cannot use WithColumnTypes with explicit schema", arrow.ErrInvalid))
-			}
-			cfg.columnTypes = types
-		default:
-			panic(fmt.Errorf("%w: WithColumnTypes only allowed for csv reader", arrow.ErrInvalid))
-		}
-	}
-}
-
-// WithIncludeColumns indicates the names of the columns from the CSV file
-// that should actually be read and converted (in the slice's order).
-// If set and non-empty, columns not in this slice will be ignored.
-//
-// Will panic if used in conjunction with an explicit schema.
-func WithIncludeColumns(cols []string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			if cfg.schema != nil {
-				panic(fmt.Errorf("%w: cannot use WithIncludeColumns with explicit schema", arrow.ErrInvalid))
-			}
-			cfg.columnFilter = cols
-		default:
-			panic(fmt.Errorf("%w: WithIncludeColumns only allowed on csv Reader", arrow.ErrInvalid))
-		}
-	}
-}
-
-// WithStringsReplacer receives a replacer to be applied in the string fields
-// of the CSV. This is useful to remove unwanted characters from the string.
-func WithStringsReplacer(replacer *strings.Replacer) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.stringReplacer = replacer.Replace
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-func validate(schema *arrow.Schema) {
-	for i, f := range schema.Fields() {
-		if !typeSupported(f.Type) {
-			panic(fmt.Errorf("arrow/csv: field %d (%s) has invalid data type %T", i, f.Name, f.Type))
-		}
-	}
-}
-
-func typeSupported(dt arrow.DataType) bool {
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-	case *arrow.Int8Type, *arrow.Int16Type, *arrow.Int32Type, *arrow.Int64Type:
-	case *arrow.Uint8Type, *arrow.Uint16Type, *arrow.Uint32Type, *arrow.Uint64Type:
-	case *arrow.Float16Type, *arrow.Float32Type, *arrow.Float64Type:
-	case *arrow.StringType, *arrow.LargeStringType:
-	case *arrow.TimestampType:
-	case *arrow.Date32Type, *arrow.Date64Type:
-	case *arrow.Decimal128Type, *arrow.Decimal256Type:
-	case *arrow.MapType:
-		return false
-	case arrow.ListLikeType:
-		return typeSupported(dt.Elem())
-	case *arrow.BinaryType, *arrow.LargeBinaryType, *arrow.FixedSizeBinaryType:
-	case arrow.ExtensionType:
-	case *arrow.NullType:
-	default:
-		return false
-	}
-	return true
-}
diff --git a/go/arrow/csv/reader.go b/go/arrow/csv/reader.go
deleted file mode 100644
index 12d607b26c48d..0000000000000
--- a/go/arrow/csv/reader.go
+++ /dev/null
@@ -1,1030 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"encoding/base64"
-	"encoding/csv"
-	"errors"
-	"fmt"
-	"io"
-	"strconv"
-	"strings"
-	"sync"
-	"sync/atomic"
-	"time"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// Reader wraps encoding/csv.Reader and creates array.Records from a schema.
-type Reader struct {
-	r      *csv.Reader
-	schema *arrow.Schema
-
-	refs int64
-	bld  *array.RecordBuilder
-	cur  arrow.Record
-	err  error
-
-	chunk int
-	done  bool
-	next  func() bool
-
-	mem memory.Allocator
-
-	header bool
-	once   sync.Once
-
-	fieldConverter []func(val string)
-	columnFilter   []string
-	columnTypes    map[string]arrow.DataType
-	conversions    []conversionColumn
-
-	stringsCanBeNull bool
-	nulls            []string
-}
-
-// NewInferringReader creates a CSV reader that attempts to infer the types
-// and column names from the data in the first row of the CSV file.
-//
-// This can be further customized using the WithColumnTypes and
-// WithIncludeColumns options.
-// For BinaryType the reader will use base64 decoding with padding as per base64.StdDecoding.
-func NewInferringReader(r io.Reader, opts ...Option) *Reader {
-	rr := &Reader{
-		r:                csv.NewReader(r),
-		refs:             1,
-		chunk:            1,
-		stringsCanBeNull: false,
-	}
-	rr.r.ReuseRecord = true
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-
-	return rr
-}
-
-// NewReader returns a reader that reads from the CSV file and creates
-// arrow.Records from the given schema.
-//
-// NewReader panics if the given schema contains fields that have types that are not
-// primitive types.
-func NewReader(r io.Reader, schema *arrow.Schema, opts ...Option) *Reader {
-	validate(schema)
-
-	rr := &Reader{
-		r:                csv.NewReader(r),
-		schema:           schema,
-		refs:             1,
-		chunk:            1,
-		stringsCanBeNull: false,
-	}
-	rr.r.ReuseRecord = true
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	rr.bld = array.NewRecordBuilder(rr.mem, rr.schema)
-
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-
-	return rr
-}
-
-func (r *Reader) readHeader() error {
-	// if we have an explicit schema and we want to skip the header
-	// then just return and do everything normally
-	if r.schema != nil && !r.header {
-		return nil
-	}
-
-	// either we need this first line for the header line
-	// or we are going to need this line to infer types
-	records, err := r.r.Read()
-	if err != nil {
-		return fmt.Errorf("arrow/csv: could not read header from file: %w", err)
-	}
-
-	// if we have an explicit schema, then r.header must be true otherwise
-	// we would have skipped this via the first line of this func
-	if r.schema != nil {
-		if len(records) != len(r.schema.Fields()) {
-			return ErrMismatchFields
-		}
-
-		fields := make([]arrow.Field, len(records))
-		for idx, name := range records {
-			fields[idx] = r.schema.Field(idx)
-			fields[idx].Name = name
-		}
-
-		meta := r.schema.Metadata()
-		r.schema = arrow.NewSchema(fields, &meta)
-		r.bld = array.NewRecordBuilder(r.mem, r.schema)
-		return nil
-	}
-
-	// we're going to need to infer some column types
-	r.conversions = make([]conversionColumn, 0, len(records))
-	if len(r.columnFilter) == 0 {
-		for i, rec := range records {
-			// if we are skipping the header, autogenerate field names
-			// using "f<n>" e.g. f0, f1, ....
-			if !r.header {
-				rec = fmt.Sprintf("f%d", i)
-			}
-			var dt arrow.DataType
-			if len(r.columnTypes) > 0 {
-				dt = r.columnTypes[rec]
-			}
-			r.conversions = append(r.conversions, conversionColumn{name: rec, index: i, typ: dt})
-		}
-	} else {
-		// include columns from columnFilter (in that order)
-		// compute the indices of columns in the csv file
-		colIndices := make(map[string]int)
-		for i, n := range records {
-			// if we are skipping the header, autogenerate field names
-			// using "f<n>" e.g. f0, f1, ....
-			if !r.header {
-				n = fmt.Sprintf("f%d", i)
-			}
-			colIndices[n] = i
-		}
-
-		for _, n := range r.columnFilter {
-			idx, ok := colIndices[n]
-			if !ok {
-				return fmt.Errorf("%w: column '%s' in included columns, but doesn't exist in CSV file",
-					ErrMismatchFields, n)
-			}
-			var dt arrow.DataType
-			if len(r.columnTypes) > 0 {
-				dt = r.columnTypes[n]
-			}
-			r.conversions = append(r.conversions, conversionColumn{name: n, index: idx, typ: dt})
-		}
-		r.columnFilter = nil
-	}
-	r.columnTypes = nil
-	return nil
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying CSV file.
-func (r *Reader) Err() error { return r.err }
-
-func (r *Reader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the current record that has been extracted from the
-// underlying CSV file.
-// It is valid until the next call to Next.
-func (r *Reader) Record() arrow.Record { return r.cur }
-
-// Next returns whether a Record could be extracted from the underlying CSV file.
-//
-// Next panics if the number of records extracted from a CSV row does not match
-// the number of fields of the associated schema. If a parse failure occurs, Next
-// will return true and the Record will contain nulls where failures occurred.
-// Subsequent calls to Next will return false - The user should check Err() after
-// each call to Next to check if an error took place.
-func (r *Reader) Next() bool {
-	r.once.Do(func() {
-		r.err = r.readHeader()
-		if r.err == nil && r.schema != nil {
-			// Create a table of functions that will parse columns. This optimization
-			// allows us to specialize the implementation of each column's decoding
-			// and hoist type-based branches outside the inner loop.
-			r.fieldConverter = make([]func(string), len(r.schema.Fields()))
-			for idx := range r.schema.Fields() {
-				r.fieldConverter[idx] = r.initFieldConverter(r.bld.Field(idx))
-			}
-		}
-	})
-
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-// next1 reads one row from the CSV file and creates a single Record
-// from that row.
-func (r *Reader) next1() bool {
-	var recs []string
-	recs, r.err = r.r.Read()
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-
-	r.validate(recs)
-	r.read(recs)
-	r.cur = r.bld.NewRecord()
-
-	return true
-}
-
-// nextall reads the whole CSV file into memory and creates one single
-// Record from all the CSV rows.
-func (r *Reader) nextall() bool {
-	defer func() {
-		r.done = true
-	}()
-
-	var (
-		recs [][]string
-	)
-
-	recs, r.err = r.r.ReadAll()
-	if r.err != nil {
-		return false
-	}
-
-	for _, rec := range recs {
-		r.validate(rec)
-		r.read(rec)
-	}
-	r.cur = r.bld.NewRecord()
-
-	return true
-}
-
-// nextn reads n rows from the CSV file, where n is the chunk size, and creates
-// a Record from these rows.
-func (r *Reader) nextn() bool {
-	var (
-		recs []string
-		n    = 0
-		err  error
-	)
-
-	for i := 0; i < r.chunk && !r.done; i++ {
-		recs, err = r.r.Read()
-		if err != nil {
-			if !errors.Is(err, io.EOF) {
-				r.err = err
-			}
-			r.done = true
-			break
-		}
-
-		r.validate(recs)
-		r.read(recs)
-		n++
-	}
-
-	if r.err != nil {
-		r.done = true
-	}
-
-	r.cur = r.bld.NewRecord()
-	return n > 0
-}
-
-func (r *Reader) validate(recs []string) {
-	if r.err != nil {
-		return
-	}
-
-	if r.bld == nil {
-		// initialize the record builder in the case where we're inferring a schema
-		r.fieldConverter = make([]func(val string), len(recs))
-		fieldList := make([]arrow.Field, len(r.conversions))
-		for idx, cc := range r.conversions {
-			fieldList[idx].Name = cc.name
-			fieldList[idx].Nullable = true
-			fieldList[idx].Type = cc.inferType(recs[cc.index])
-		}
-
-		r.schema = arrow.NewSchema(fieldList, nil)
-		r.bld = array.NewRecordBuilder(r.mem, r.schema)
-		for idx, cc := range r.conversions {
-			r.fieldConverter[cc.index] = r.initFieldConverter(r.bld.Field(idx))
-		}
-		for idx, fc := range r.fieldConverter {
-			if fc == nil {
-				r.fieldConverter[idx] = func(string) {}
-			}
-		}
-	}
-
-	if len(recs) != len(r.fieldConverter) {
-		r.err = ErrMismatchFields
-		return
-	}
-}
-
-func (r *Reader) isNull(val string) bool {
-	for _, v := range r.nulls {
-		if v == val {
-			return true
-		}
-	}
-	return false
-}
-
-func (r *Reader) read(recs []string) {
-	for i, str := range recs {
-		r.fieldConverter[i](str)
-	}
-}
-
-func (r *Reader) initFieldConverter(bldr array.Builder) func(string) {
-	switch dt := bldr.Type().(type) {
-	case *arrow.BooleanType:
-		return func(str string) {
-			r.parseBool(bldr, str)
-		}
-	case *arrow.Int8Type:
-		return func(str string) {
-			r.parseInt8(bldr, str)
-		}
-	case *arrow.Int16Type:
-		return func(str string) {
-			r.parseInt16(bldr, str)
-		}
-	case *arrow.Int32Type:
-		return func(str string) {
-			r.parseInt32(bldr, str)
-		}
-	case *arrow.Int64Type:
-		return func(str string) {
-			r.parseInt64(bldr, str)
-		}
-	case *arrow.Uint8Type:
-		return func(str string) {
-			r.parseUint8(bldr, str)
-		}
-	case *arrow.Uint16Type:
-		return func(str string) {
-			r.parseUint16(bldr, str)
-		}
-	case *arrow.Uint32Type:
-		return func(str string) {
-			r.parseUint32(bldr, str)
-		}
-	case *arrow.Uint64Type:
-		return func(str string) {
-			r.parseUint64(bldr, str)
-		}
-	case *arrow.Float16Type:
-		return func(str string) {
-			r.parseFloat16(bldr, str)
-		}
-	case *arrow.Float32Type:
-		return func(str string) {
-			r.parseFloat32(bldr, str)
-		}
-	case *arrow.Float64Type:
-		return func(str string) {
-			r.parseFloat64(bldr, str)
-		}
-	case *arrow.StringType:
-		// specialize the implementation when we know we cannot have nulls
-		if r.stringsCanBeNull {
-			return func(str string) {
-				if r.isNull(str) {
-					bldr.AppendNull()
-				} else {
-					bldr.(*array.StringBuilder).Append(str)
-				}
-			}
-		} else {
-			return func(str string) {
-				bldr.(*array.StringBuilder).Append(str)
-			}
-		}
-	case *arrow.LargeStringType:
-		// specialize the implementation when we know we cannot have nulls
-		if r.stringsCanBeNull {
-			return func(str string) {
-				if r.isNull(str) {
-					bldr.AppendNull()
-				} else {
-					bldr.(*array.LargeStringBuilder).Append(str)
-				}
-			}
-		} else {
-			return func(str string) {
-				bldr.(*array.LargeStringBuilder).Append(str)
-			}
-		}
-	case *arrow.TimestampType:
-		return func(str string) {
-			r.parseTimestamp(bldr, str, dt.Unit)
-		}
-	case *arrow.Date32Type:
-		return func(str string) {
-			r.parseDate32(bldr, str)
-		}
-	case *arrow.Date64Type:
-		return func(str string) {
-			r.parseDate64(bldr, str)
-		}
-	case *arrow.Time32Type:
-		return func(str string) {
-			r.parseTime32(bldr, str, dt.Unit)
-		}
-	case *arrow.Decimal128Type:
-		return func(str string) {
-			r.parseDecimal128(bldr, str, dt.Precision, dt.Scale)
-		}
-	case *arrow.Decimal256Type:
-		return func(str string) {
-			r.parseDecimal256(bldr, str, dt.Precision, dt.Scale)
-		}
-	case *arrow.FixedSizeListType:
-		return func(s string) {
-			r.parseFixedSizeList(bldr.(*array.FixedSizeListBuilder), s, int(dt.Len()))
-		}
-	case arrow.ListLikeType:
-		return func(s string) {
-			r.parseListLike(bldr.(array.ListLikeBuilder), s)
-		}
-	case *arrow.BinaryType:
-		return func(s string) {
-			r.parseBinaryType(bldr, s)
-		}
-	case *arrow.LargeBinaryType:
-		return func(s string) {
-			r.parseLargeBinaryType(bldr, s)
-		}
-	case *arrow.FixedSizeBinaryType:
-		return func(s string) {
-			r.parseFixedSizeBinaryType(bldr, s, dt.Bytes())
-		}
-	case arrow.ExtensionType:
-		return func(s string) {
-			r.parseExtension(bldr, s)
-		}
-	default:
-		panic(fmt.Errorf("arrow/csv: unhandled field type %T", bldr.Type()))
-	}
-}
-
-func (r *Reader) parseBool(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseBool(str)
-	if err != nil {
-		r.err = fmt.Errorf("%w: unrecognized boolean: %s", err, str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BooleanBuilder).Append(v)
-}
-
-func (r *Reader) parseInt8(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 8)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int8Builder).Append(int8(v))
-}
-
-func (r *Reader) parseInt16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 16)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int16Builder).Append(int16(v))
-}
-
-func (r *Reader) parseInt32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int32Builder).Append(int32(v))
-}
-
-func (r *Reader) parseInt64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int64Builder).Append(v)
-}
-
-func (r *Reader) parseUint8(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 8)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint8Builder).Append(uint8(v))
-}
-
-func (r *Reader) parseUint16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 16)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint16Builder).Append(uint16(v))
-}
-
-func (r *Reader) parseUint32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint32Builder).Append(uint32(v))
-}
-
-func (r *Reader) parseUint64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint64Builder).Append(v)
-}
-
-func (r *Reader) parseFloat16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float16Builder).Append(float16.New(float32(v)))
-}
-
-func (r *Reader) parseFloat32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float32Builder).Append(float32(v))
-}
-
-func (r *Reader) parseFloat64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float64Builder).Append(v)
-}
-
-// parses timestamps using millisecond precision
-func (r *Reader) parseTimestamp(field array.Builder, str string, unit arrow.TimeUnit) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := arrow.TimestampFromString(str, unit)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.TimestampBuilder).Append(v)
-}
-
-func (r *Reader) parseDate32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	tm, err := time.Parse("2006-01-02", str)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Date32Builder).Append(arrow.Date32FromTime(tm))
-}
-
-func (r *Reader) parseDate64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	tm, err := time.Parse("2006-01-02", str)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Date64Builder).Append(arrow.Date64FromTime(tm))
-}
-
-func (r *Reader) parseTime32(field array.Builder, str string, unit arrow.TimeUnit) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := arrow.Time32FromString(str, unit)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Time32Builder).Append(val)
-}
-
-func (r *Reader) parseDecimal128(field array.Builder, str string, prec, scale int32) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := decimal128.FromString(str, prec, scale)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Decimal128Builder).Append(val)
-}
-
-func (r *Reader) parseDecimal256(field array.Builder, str string, prec, scale int32) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := decimal256.FromString(str, prec, scale)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Decimal256Builder).Append(val)
-}
-
-func (r *Reader) parseListLike(field array.ListLikeBuilder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if !(strings.HasPrefix(str, "{") && strings.HasSuffix(str, "}")) {
-		r.err = errors.New("invalid list format. should start with '{' and end with '}'")
-		return
-	}
-	str = strings.Trim(str, "{}")
-	field.Append(true)
-	if len(str) == 0 {
-		// we don't want to create the csv reader if we already know the
-		// string is empty
-		return
-	}
-	valueBldr := field.ValueBuilder()
-	reader := csv.NewReader(strings.NewReader(str))
-	items, err := reader.Read()
-	if err != nil {
-		r.err = err
-		return
-	}
-	for _, str := range items {
-		r.initFieldConverter(valueBldr)(str)
-	}
-}
-
-func (r *Reader) parseFixedSizeList(field *array.FixedSizeListBuilder, str string, n int) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if !(strings.HasPrefix(str, "{") && strings.HasSuffix(str, "}")) {
-		r.err = errors.New("invalid list format. should start with '{' and end with '}'")
-		return
-	}
-	str = strings.Trim(str, "{}")
-	field.Append(true)
-	if len(str) == 0 {
-		// we don't want to create the csv reader if we already know the
-		// string is empty
-		return
-	}
-	valueBldr := field.ValueBuilder()
-	reader := csv.NewReader(strings.NewReader(str))
-	items, err := reader.Read()
-	if err != nil {
-		r.err = err
-		return
-	}
-	if len(items) == n {
-		for _, str := range items {
-			r.initFieldConverter(valueBldr)(str)
-		}
-	} else {
-		r.err = fmt.Errorf("%w: fixed size list items should match the fixed size list length, expected %d, got %d", arrow.ErrInvalid, n, len(items))
-	}
-}
-
-func (r *Reader) parseBinaryType(field array.Builder, str string) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BinaryBuilder).Append(decodedVal)
-}
-
-func (r *Reader) parseLargeBinaryType(field array.Builder, str string) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BinaryBuilder).Append(decodedVal)
-}
-
-func (r *Reader) parseFixedSizeBinaryType(field array.Builder, str string, byteWidth int) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	if len(decodedVal) == byteWidth {
-		field.(*array.FixedSizeBinaryBuilder).Append(decodedVal)
-	} else {
-		r.err = fmt.Errorf("%w: the length of fixed size binary value should match the fixed size binary byte width, expected %d, got %d", arrow.ErrInvalid, byteWidth, len(decodedVal))
-	}
-}
-
-func (r *Reader) parseExtension(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if err := field.AppendValueFromString(str); err != nil {
-		r.err = err
-		return
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-	}
-}
-
-type conversionColumn struct {
-	name  string
-	index int
-	typ   arrow.DataType
-}
-
-func (c conversionColumn) inferType(v string) arrow.DataType {
-	if c.typ != nil {
-		return c.typ
-	}
-
-	var err error
-	c.typ = arrow.PrimitiveTypes.Int64
-	for {
-		// attempt to parse
-		if err = tryParse(v, c.typ); err == nil {
-			return c.typ
-		}
-
-		switch dt := c.typ.(type) {
-		case *arrow.Int64Type:
-			c.typ = arrow.FixedWidthTypes.Boolean
-		case *arrow.BooleanType:
-			c.typ = arrow.FixedWidthTypes.Date32
-		case *arrow.Date32Type:
-			c.typ = arrow.FixedWidthTypes.Time32s
-		case *arrow.Time32Type:
-			c.typ = &arrow.TimestampType{Unit: arrow.Second}
-		case *arrow.TimestampType:
-			if dt.TimeZone == "" {
-				if dt.Unit == arrow.Second {
-					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond}
-				} else {
-					c.typ = &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}
-				}
-			} else {
-				if dt.Unit == arrow.Second {
-					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "UTC"}
-				} else {
-					c.typ = arrow.PrimitiveTypes.Float64
-				}
-			}
-		case *arrow.Float64Type:
-			c.typ = arrow.BinaryTypes.String
-		case *arrow.StringType:
-			// binary is the fallback type
-			return arrow.BinaryTypes.Binary
-		}
-	}
-}
-
-func tryParse(val string, dt arrow.DataType) error {
-	switch dt := dt.(type) {
-	case *arrow.Int64Type:
-		_, err := strconv.ParseInt(val, 10, 64)
-		return err
-	case *arrow.BooleanType:
-		_, err := strconv.ParseBool(val)
-		return err
-	case *arrow.Date32Type:
-		_, err := time.Parse("2006-01-02", val)
-		return err
-	case *arrow.Time32Type:
-		_, err := arrow.Time32FromString(val, dt.Unit)
-		return err
-	case *arrow.TimestampType:
-		_, err := arrow.TimestampFromString(val, dt.Unit)
-		return err
-	case *arrow.Float64Type:
-		_, err := strconv.ParseFloat(val, 64)
-		return err
-	case *arrow.StringType:
-		if !utf8.ValidString(val) {
-			return arrow.ErrInvalid
-		}
-		return nil
-	case *arrow.BinaryType:
-		_, err := base64.RawStdEncoding.DecodeString(val)
-		return err
-	}
-	panic("shouldn't end up here")
-}
-
-var (
-	_ array.RecordReader = (*Reader)(nil)
-)
diff --git a/go/arrow/csv/reader_test.go b/go/arrow/csv/reader_test.go
deleted file mode 100644
index 6a89d49704298..0000000000000
--- a/go/arrow/csv/reader_test.go
+++ /dev/null
@@ -1,956 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv_test
-
-import (
-	"bytes"
-	stdcsv "encoding/csv"
-	"fmt"
-	"log"
-	"os"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/csv"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func Example() {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(f, schema, csv.WithComment('#'), csv.WithComma(';'))
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// check for reader errors indicating issues converting csv values
-	// to the arrow schema types
-	err := r.Err()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0]
-	// rec[0]["f64"]: [0]
-	// rec[0]["str"]: ["str-0"]
-	// rec[1]["i64"]: [1]
-	// rec[1]["f64"]: [1]
-	// rec[1]["str"]: ["str-1"]
-	// rec[2]["i64"]: [2]
-	// rec[2]["f64"]: [2]
-	// rec[2]["str"]: ["str-2"]
-	// rec[3]["i64"]: [3]
-	// rec[3]["f64"]: [3]
-	// rec[3]["str"]: ["str-3"]
-	// rec[4]["i64"]: [4]
-	// rec[4]["f64"]: [4]
-	// rec[4]["str"]: ["str-4"]
-	// rec[5]["i64"]: [5]
-	// rec[5]["f64"]: [5]
-	// rec[5]["str"]: ["str-5"]
-	// rec[6]["i64"]: [6]
-	// rec[6]["f64"]: [6]
-	// rec[6]["str"]: ["str-6"]
-	// rec[7]["i64"]: [7]
-	// rec[7]["f64"]: [7]
-	// rec[7]["str"]: ["str-7"]
-	// rec[8]["i64"]: [8]
-	// rec[8]["f64"]: [8]
-	// rec[8]["str"]: ["str-8"]
-	// rec[9]["i64"]: [9]
-	// rec[9]["f64"]: [9]
-	// rec[9]["str"]: ["str-9"]
-}
-
-func Example_withChunk() {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(
-		f, schema,
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(3),
-	)
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0 1 2]
-	// rec[0]["f64"]: [0 1 2]
-	// rec[0]["str"]: ["str-0" "str-1" "str-2"]
-	// rec[1]["i64"]: [3 4 5]
-	// rec[1]["f64"]: [3 4 5]
-	// rec[1]["str"]: ["str-3" "str-4" "str-5"]
-	// rec[2]["i64"]: [6 7 8]
-	// rec[2]["f64"]: [6 7 8]
-	// rec[2]["str"]: ["str-6" "str-7" "str-8"]
-	// rec[3]["i64"]: [9]
-	// rec[3]["f64"]: [9]
-	// rec[3]["str"]: ["str-9"]
-}
-
-func TestCSVReadInvalidFields(t *testing.T) {
-	tests := []struct {
-		Name          string
-		Data          string
-		Fields        []arrow.Field
-		ExpectedError bool
-	}{
-		{
-			Name: "ValidListInt64",
-			Data: "{}",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: false,
-		},
-		{
-			Name: "InvalidListInt64T1",
-			Data: "{",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: true,
-		},
-		{
-			Name: "InvalidListInt64T2",
-			Data: "}",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: true,
-		},
-	}
-	for _, tc := range tests {
-		tc := tc
-		t.Run(tc.Name, func(t *testing.T) {
-			f := bytes.NewBufferString(tc.Data)
-			schema := arrow.NewSchema(tc.Fields, nil)
-
-			r := csv.NewReader(
-				f, schema,
-				csv.WithComma(','),
-			)
-			defer r.Release()
-			for r.Next() {
-			}
-			parseErr := r.Err()
-			if tc.ExpectedError && parseErr == nil {
-				t.Fatal("Expected error, but none found")
-			}
-			if !tc.ExpectedError && parseErr != nil {
-				t.Fatalf("Not expecting error, but got %v", parseErr)
-			}
-		})
-	}
-}
-
-func TestCSVReaderParseError(t *testing.T) {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;BADDATA;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(
-		f, schema,
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(3),
-	)
-	defer r.Release()
-
-	n := 0
-	lines := 0
-	var rec arrow.Record
-	for r.Next() {
-		if rec != nil {
-			rec.Release()
-		}
-		rec = r.Record()
-		rec.Retain()
-
-		if n == 1 && r.Err() == nil {
-			t.Fatal("Expected error on second chunk, but none found")
-		}
-
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-			lines++
-		}
-		n++
-	}
-
-	if r.Err() == nil {
-		t.Fatal("Expected any chunk with error to leave reader in an error state.")
-	}
-
-	if got, want := n, 2; got != want {
-		t.Fatalf("invalid number of chunks: got=%d, want=%d", got, want)
-	}
-
-	if got, want := lines, 6; got != want {
-		t.Fatalf("invalid number of lines: got=%d, want=%d", got, want)
-	}
-
-	if !rec.Columns()[1].IsNull(1) {
-		t.Fatalf("expected bad data to be null, found: %v", rec.Columns()[1].Data())
-	}
-	rec.Release()
-}
-
-func TestCSVReader(t *testing.T) {
-	tests := []struct {
-		Name             string
-		File             string
-		Header           bool
-		StringsCanBeNull bool
-	}{
-		{
-			Name:   "NoHeader",
-			File:   "testdata/types.csv",
-			Header: false,
-		}, {
-			Name:   "Header",
-			File:   "testdata/header.csv",
-			Header: true,
-		},
-		{
-			Name:             "NoHeader_StringsCanBeNull",
-			File:             "testdata/types.csv",
-			Header:           false,
-			StringsCanBeNull: true,
-		}, {
-			Name:             "Header_StringsCanBeNull",
-			File:             "testdata/header.csv",
-			Header:           true,
-			StringsCanBeNull: true,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.Name, func(t *testing.T) {
-			testCSVReader(t, test.File, test.Header, test.StringsCanBeNull)
-		})
-	}
-}
-
-var defaultNullValues = []string{"", "NULL", "null", "N/A"}
-
-func testCSVReader(t *testing.T, filepath string, withHeader bool, stringsCanBeNull bool) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	raw, err := os.ReadFile(filepath)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "ts", Type: arrow.FixedWidthTypes.Timestamp_ms},
-			{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "large_list(i64)", Type: arrow.LargeListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "fixed_size_list(i64)", Type: arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int64)},
-			{Name: "binary", Type: arrow.BinaryTypes.Binary},
-			{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary},
-			{Name: "fixed_size_binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-			{Name: "uuid", Type: extensions.NewUUIDType()},
-			{Name: "date32", Type: arrow.PrimitiveTypes.Date32},
-			{Name: "date64", Type: arrow.PrimitiveTypes.Date64},
-		},
-		nil,
-	)
-	r := csv.NewReader(bytes.NewReader(raw), schema,
-		csv.WithAllocator(mem),
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithHeader(withHeader),
-		csv.WithNullReader(stringsCanBeNull, defaultNullValues...),
-	)
-	defer r.Release()
-
-	r.Retain()
-	r.Release()
-
-	if got, want := r.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%v, want=%v", got, want)
-	}
-
-	out := new(bytes.Buffer)
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Fprintf(out, "rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-	if err := r.Err(); err != nil {
-		t.Fatalf("unexpected error %v", err)
-	}
-	if got, want := n, 3; got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-
-	str1Value := `""`
-	str2Value := `"null"`
-	if stringsCanBeNull {
-		str1Value = array.NullValueStr
-		str2Value = array.NullValueStr
-	}
-
-	want := fmt.Sprintf(`rec[0]["bool"]: [true]
-rec[0]["i8"]: [-1]
-rec[0]["i16"]: [-1]
-rec[0]["i32"]: [-1]
-rec[0]["i64"]: [-1]
-rec[0]["u8"]: [1]
-rec[0]["u16"]: [1]
-rec[0]["u32"]: [1]
-rec[0]["u64"]: [1]
-rec[0]["f16"]: [1.0996094]
-rec[0]["f32"]: [1.1]
-rec[0]["f64"]: [1.1]
-rec[0]["str"]: ["str-1"]
-rec[0]["large_str"]: ["str-1"]
-rec[0]["ts"]: [1652054461000]
-rec[0]["list(i64)"]: [[1 2 3]]
-rec[0]["large_list(i64)"]: [[1 2 3]]
-rec[0]["fixed_size_list(i64)"]: [[1 2 3]]
-rec[0]["binary"]: ["\x00\x01\x02"]
-rec[0]["large_binary"]: ["\x00\x01\x02"]
-rec[0]["fixed_size_binary"]: ["\x00\x01\x02"]
-rec[0]["uuid"]: ["00000000-0000-0000-0000-000000000001"]
-rec[0]["date32"]: [19121]
-rec[0]["date64"]: [1652054400000]
-rec[1]["bool"]: [false]
-rec[1]["i8"]: [-2]
-rec[1]["i16"]: [-2]
-rec[1]["i32"]: [-2]
-rec[1]["i64"]: [-2]
-rec[1]["u8"]: [2]
-rec[1]["u16"]: [2]
-rec[1]["u32"]: [2]
-rec[1]["u64"]: [2]
-rec[1]["f16"]: [2.1992188]
-rec[1]["f32"]: [2.2]
-rec[1]["f64"]: [2.2]
-rec[1]["str"]: [%s]
-rec[1]["large_str"]: [%s]
-rec[1]["ts"]: [1652140799000]
-rec[1]["list(i64)"]: [[]]
-rec[1]["large_list(i64)"]: [[]]
-rec[1]["fixed_size_list(i64)"]: [[4 5 6]]
-rec[1]["binary"]: [(null)]
-rec[1]["large_binary"]: [(null)]
-rec[1]["fixed_size_binary"]: [(null)]
-rec[1]["uuid"]: ["00000000-0000-0000-0000-000000000002"]
-rec[1]["date32"]: [19121]
-rec[1]["date64"]: [1652054400000]
-rec[2]["bool"]: [(null)]
-rec[2]["i8"]: [(null)]
-rec[2]["i16"]: [(null)]
-rec[2]["i32"]: [(null)]
-rec[2]["i64"]: [(null)]
-rec[2]["u8"]: [(null)]
-rec[2]["u16"]: [(null)]
-rec[2]["u32"]: [(null)]
-rec[2]["u64"]: [(null)]
-rec[2]["f16"]: [(null)]
-rec[2]["f32"]: [(null)]
-rec[2]["f64"]: [(null)]
-rec[2]["str"]: [%s]
-rec[2]["large_str"]: [%s]
-rec[2]["ts"]: [(null)]
-rec[2]["list(i64)"]: [(null)]
-rec[2]["large_list(i64)"]: [(null)]
-rec[2]["fixed_size_list(i64)"]: [(null)]
-rec[2]["binary"]: [(null)]
-rec[2]["large_binary"]: [(null)]
-rec[2]["fixed_size_binary"]: [(null)]
-rec[2]["uuid"]: [(null)]
-rec[2]["date32"]: [(null)]
-rec[2]["date64"]: [(null)]
-`, str1Value, str1Value, str2Value, str2Value)
-	got, want := out.String(), want
-	require.Equal(t, want, got)
-
-	if r.Err() != nil {
-		t.Fatalf("unexpected error: %v", r.Err())
-	}
-
-	// test error modes
-	{
-		r := csv.NewReader(bytes.NewReader(raw), schema,
-			csv.WithAllocator(mem),
-			csv.WithComment('#'), csv.WithComma(';'),
-			csv.WithHeader(withHeader),
-			csv.WithNullReader(stringsCanBeNull),
-		)
-
-		r.Next()
-		r.Record()
-
-		r.Release()
-	}
-}
-
-func TestCSVReaderWithChunk(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	raw, err := os.ReadFile("testdata/simple.csv")
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-
-	for _, tc := range []struct {
-		name    string
-		opts    []csv.Option
-		records int
-		want    string
-	}{
-		{
-			name:    "chunk=default",
-			opts:    []csv.Option{csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';')},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=0",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(0),
-			},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=1",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(1),
-			},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=3",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(3),
-			},
-			records: 4,
-			want: `rec[0]["i64"]: [0 1 2]
-rec[0]["f64"]: [0 1 2]
-rec[0]["str"]: ["str-0" "str-1" "str-2"]
-rec[1]["i64"]: [3 4 5]
-rec[1]["f64"]: [3 4 5]
-rec[1]["str"]: ["str-3" "str-4" "str-5"]
-rec[2]["i64"]: [6 7 8]
-rec[2]["f64"]: [6 7 8]
-rec[2]["str"]: ["str-6" "str-7" "str-8"]
-rec[3]["i64"]: [9]
-rec[3]["f64"]: [9]
-rec[3]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=6",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(6),
-			},
-			records: 2,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5]
-rec[0]["f64"]: [0 1 2 3 4 5]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5"]
-rec[1]["i64"]: [6 7 8 9]
-rec[1]["f64"]: [6 7 8 9]
-rec[1]["str"]: ["str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=10",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(10),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=11",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(11),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=-1",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(-1),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			r := csv.NewReader(bytes.NewReader(raw), schema, tc.opts...)
-
-			defer r.Release()
-
-			r.Retain()
-			r.Release()
-
-			if got, want := r.Schema(), schema; !got.Equal(want) {
-				t.Fatalf("invalid schema: got=%v, want=%v", got, want)
-			}
-
-			out := new(bytes.Buffer)
-
-			n := 0
-			for r.Next() {
-				rec := r.Record()
-				for i, col := range rec.Columns() {
-					fmt.Fprintf(out, "rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-				}
-				n++
-			}
-
-			if got, want := n, tc.records; got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-
-			if got, want := out.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-
-			if r.Err() != nil {
-				t.Fatalf("unexpected error: %v", r.Err())
-			}
-		})
-	}
-}
-
-func TestReadCSVDecimalCols(t *testing.T) {
-	data := `dec128,dec256
-12.3,0.00123
-1.23e-8,-1.23e-3
--1.23E+3,1.23e+5
-`
-
-	r := csv.NewReader(strings.NewReader(data), arrow.NewSchema([]arrow.Field{
-		{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 14, Scale: 10}, Nullable: true},
-		{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 11, Scale: 5}, Nullable: true},
-	}, nil), csv.WithChunk(-1), csv.WithHeader(true), csv.WithComma(','), csv.WithNullReader(true, "null", "#NA"))
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	rec := r.Record()
-	rec.Retain()
-	assert.False(t, r.Next())
-	defer rec.Release()
-
-	if r.Err() != nil {
-		log.Fatal(r.Err())
-	}
-
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, r.Schema())
-	defer bldr.Release()
-
-	dec128Bldr := bldr.Field(0).(*array.Decimal128Builder)
-	dec128Bldr.Append(decimal128.New(0, 123000000000))
-	dec128Bldr.Append(decimal128.New(0, 123))
-	dec128Bldr.Append(decimal128.FromI64(-12300000000000))
-
-	dec256Bldr := bldr.Field(1).(*array.Decimal256Builder)
-	dec256Bldr.Append(decimal256.FromU64(123))
-	dec256Bldr.Append(decimal256.FromI64(-123))
-	dec256Bldr.Append(decimal256.FromU64(12300000000))
-
-	exRec := bldr.NewRecord()
-	defer exRec.Release()
-
-	assert.Truef(t, array.RecordEqual(exRec, rec), "expected: %s\nactual: %s", exRec, rec)
-}
-
-func BenchmarkRead(b *testing.B) {
-	gen := func(rows, cols int) []byte {
-		buf := new(bytes.Buffer)
-		for i := 0; i < rows; i++ {
-			for j := 0; j < cols; j++ {
-				if j > 0 {
-					fmt.Fprintf(buf, ";")
-				}
-				fmt.Fprintf(buf, "%d;%f;str-%d", i, float64(i), i)
-			}
-			fmt.Fprintf(buf, "\n")
-		}
-		return buf.Bytes()
-	}
-
-	for _, rows := range []int{10, 1e2, 1e3, 1e4} {
-		for _, cols := range []int{1, 10, 100, 1000} {
-			raw := gen(rows, cols)
-			for _, chunks := range []int{-1, 0, 10, 100, 1000} {
-				b.Run(fmt.Sprintf("rows=%d cols=%d chunks=%d", rows, cols, chunks), func(b *testing.B) {
-					benchRead(b, raw, rows, cols, chunks)
-				})
-			}
-		}
-	}
-}
-
-func benchRead(b *testing.B, raw []byte, rows, cols, chunks int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-
-	var fields []arrow.Field
-	for i := 0; i < cols; i++ {
-		fields = append(fields, []arrow.Field{
-			{Name: fmt.Sprintf("i64-%d", i), Type: arrow.PrimitiveTypes.Int64},
-			{Name: fmt.Sprintf("f64-%d", i), Type: arrow.PrimitiveTypes.Float64},
-			{Name: fmt.Sprintf("str-%d", i), Type: arrow.BinaryTypes.String},
-		}...)
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	chunk := 0
-	if chunks != 0 {
-		chunk = rows / chunks
-	}
-	opts := []csv.Option{
-		csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(chunk),
-	}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		r := csv.NewReader(bytes.NewReader(raw), schema, opts...)
-
-		n := int64(0)
-		for r.Next() {
-			n += r.Record().NumRows()
-		}
-
-		r.Release()
-		if n != int64(rows) {
-			b.Fatalf("invalid number of rows. want=%d, got=%d", n, rows)
-		}
-	}
-}
-
-func TestInferringSchema(t *testing.T) {
-	var b bytes.Buffer
-	wr := stdcsv.NewWriter(&b)
-	wr.WriteAll([][]string{
-		{"i64", "f64", "str", "ts", "bool"},
-		{"123", "1.23", "foobar", "2022-05-09T00:01:01", "false"},
-		{"456", "45.6", "baz", "2022-05-09T23:59:59", "true"},
-		{"null", "NULL", "null", "N/A", "null"},
-		{"-78", "-1.25", "", "2021-01-01T10:11:12", "TRUE"},
-	})
-	wr.Flush()
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	r := csv.NewInferringReader(&b, csv.WithAllocator(mem), csv.WithHeader(true), csv.WithNullReader(true, defaultNullValues...))
-	defer r.Release()
-
-	assert.Nil(t, r.Schema())
-	assert.True(t, r.Next())
-	assert.NoError(t, r.Err())
-
-	expSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "ts", Type: &arrow.TimestampType{Unit: arrow.Second}, Nullable: true},
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-	}, nil)
-
-	exp, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
-		{"i64": 123, "f64": 1.23, "str": "foobar", "ts": "2022-05-09T00:01:01", "bool": false},
-		{"i64": 456, "f64": 45.6, "str": "baz", "ts": "2022-05-09T23:59:59", "bool": true},
-		{"i64": null, "f64": null, "str": null, "ts": null, "bool": null},
-		{"i64": -78, "f64": -1.25, "str": null, "ts": "2021-01-01T10:11:12", "bool": true}
-	]`))
-	defer exp.Release()
-
-	assertRowEqual := func(expected, actual arrow.Record, row int) {
-		ex := expected.NewSlice(int64(row), int64(row+1))
-		defer ex.Release()
-		assert.Truef(t, array.RecordEqual(ex, actual), "expected: %s\ngot: %s", ex, actual)
-	}
-
-	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
-	// verify first row:
-	assertRowEqual(exp, r.Record(), 0)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 1)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 2)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 3)
-	assert.False(t, r.Next())
-}
-
-func TestInferCSVOptions(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	f, err := os.Open("testdata/header.csv")
-	require.NoError(t, err)
-	defer f.Close()
-
-	r := csv.NewInferringReader(f, csv.WithAllocator(mem),
-		csv.WithComma(';'), csv.WithComment('#'), csv.WithHeader(true),
-		csv.WithNullReader(true, defaultNullValues...),
-		csv.WithIncludeColumns([]string{"f64", "i32", "bool", "str", "i64", "u64", "i8"}),
-		csv.WithColumnTypes(map[string]arrow.DataType{
-			"i32": arrow.PrimitiveTypes.Int32,
-			"i8":  arrow.PrimitiveTypes.Int8,
-			"i16": arrow.PrimitiveTypes.Int16,
-			"u64": arrow.PrimitiveTypes.Uint64,
-		}), csv.WithChunk(-1))
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	rec := r.Record()
-	rec.Retain()
-	defer rec.Release()
-	assert.False(t, r.Next())
-
-	expSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "u64", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	}, nil)
-	expRec, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
-		{"f64": 1.1, "i32": -1, "bool": true, "str": "str-1", "i64": -1, "u64": 1, "i8": -1},
-		{"f64": 2.2, "i32": -2, "bool": false, "str": null, "i64": -2, "u64": 2, "i8": -2},
-		{"f64": null, "i32": null, "bool": null, "str": null, "i64": null, "u64": null, "i8": null}
-	]`))
-	defer expRec.Release()
-
-	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
-	assert.Truef(t, array.RecordEqual(expRec, rec), "expected: %s\ngot: %s", expRec, rec)
-}
diff --git a/go/arrow/csv/testdata/header.csv b/go/arrow/csv/testdata/header.csv
deleted file mode 100644
index 68ae18a499dee..0000000000000
--- a/go/arrow/csv/testdata/header.csv
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-bool;i8;i16;i32;i64;u8;u16;u32;u64;f16;f32;f64;str;large_str;ts;list(i64);large_list(i64);fixed_size_list(i64);binary;large_binary;fixed_size_binary;uuid;date32;date64
-true;-1;-1;-1;-1;1;1;1;1;1.1;1.1;1.1;str-1;str-1;2022-05-09T00:01:01;{1,2,3};{1,2,3};{1,2,3};AAEC;AAEC;AAEC;00000000-0000-0000-0000-000000000001;2022-05-09;2022-05-09
-false;-2;-2;-2;-2;2;2;2;2;2.2;2.2;2.2;;;2022-05-09T23:59:59;{};{};{4,5,6};;;;00000000-0000-0000-0000-000000000002;2022-05-09;2022-05-09
-null;NULL;null;N/A;;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null
\ No newline at end of file
diff --git a/go/arrow/csv/testdata/simple.csv b/go/arrow/csv/testdata/simple.csv
deleted file mode 100644
index 4f0969d547765..0000000000000
--- a/go/arrow/csv/testdata/simple.csv
+++ /dev/null
@@ -1,28 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
diff --git a/go/arrow/csv/testdata/types.csv b/go/arrow/csv/testdata/types.csv
deleted file mode 100644
index 91c0cf3b252b3..0000000000000
--- a/go/arrow/csv/testdata/types.csv
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-## supported types: bool;int8;int16;int32;int64;uint8;uint16;uint32;uint64;float16;float32;float64;string;large_string;timestamp;list(i64);large_list(i64);fixed_size_list(i64);binary;large_binary;fixed_size_binary;uuid;date32;date64
-true;-1;-1;-1;-1;1;1;1;1;1.1;1.1;1.1;str-1;str-1;2022-05-09T00:01:01;{1,2,3};{1,2,3};{1,2,3};AAEC;AAEC;AAEC;00000000-0000-0000-0000-000000000001;2022-05-09;2022-05-09
-false;-2;-2;-2;-2;2;2;2;2;2.2;2.2;2.2;;;2022-05-09T23:59:59;{};{};{4,5,6};;;;00000000-0000-0000-0000-000000000002;2022-05-09;2022-05-09
-null;NULL;null;N/A;;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null
\ No newline at end of file
diff --git a/go/arrow/csv/transformer.go b/go/arrow/csv/transformer.go
deleted file mode 100644
index f99d047e3c8cf..0000000000000
--- a/go/arrow/csv/transformer.go
+++ /dev/null
@@ -1,282 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"bytes"
-	"encoding/base64"
-	"encoding/csv"
-	"fmt"
-	"math"
-	"math/big"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-func (w *Writer) transformColToStringArr(typ arrow.DataType, col arrow.Array, stringsReplacer func(string) string) []string {
-	res := make([]string, col.Len())
-	switch typ.(type) {
-	case *arrow.BooleanType:
-		arr := col.(*array.Boolean)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = w.boolFormatter(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int8Type:
-		arr := col.(*array.Int8)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int16Type:
-		arr := col.(*array.Int16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int32Type:
-		arr := col.(*array.Int32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int64Type:
-		arr := col.(*array.Int64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint8Type:
-		arr := col.(*array.Uint8)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint16Type:
-		arr := col.(*array.Uint16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint32Type:
-		arr := col.(*array.Uint32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint64Type:
-		arr := col.(*array.Uint64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float16Type:
-		arr := col.(*array.Float16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).String()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float32Type:
-		arr := col.(*array.Float32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatFloat(float64(arr.Value(i)), 'g', -1, 32)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float64Type:
-		arr := col.(*array.Float64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatFloat(float64(arr.Value(i)), 'g', -1, 64)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.StringType:
-		arr := col.(*array.String)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = stringsReplacer(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.LargeStringType:
-		arr := col.(*array.LargeString)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = stringsReplacer(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Date32Type:
-		arr := col.(*array.Date32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).FormattedString()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Date64Type:
-		arr := col.(*array.Date64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).FormattedString()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-
-	case *arrow.TimestampType:
-		arr := col.(*array.Timestamp)
-		t := typ.(*arrow.TimestampType)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).ToTime(t.Unit).Format("2006-01-02 15:04:05.999999999")
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Decimal128Type:
-		fieldType := typ.(*arrow.Decimal128Type)
-		scale := fieldType.Scale
-		precision := fieldType.Precision
-		arr := col.(*array.Decimal128)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
-				f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
-				res[i] = f.Text('g', int(precision))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Decimal256Type:
-		fieldType := typ.(*arrow.Decimal256Type)
-		scale := fieldType.Scale
-		precision := fieldType.Precision
-		arr := col.(*array.Decimal256)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
-				f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
-				res[i] = f.Text('g', int(precision))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case arrow.ListLikeType:
-		arr := col.(array.ListLike)
-		listVals := arr.ListValues()
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsNull(i) {
-				res[i] = w.nullValue
-				continue
-			}
-			start, end := arr.ValueOffsets(i)
-			list := array.NewSlice(listVals, start, end)
-			var b bytes.Buffer
-			b.Write([]byte{'{'})
-			writer := csv.NewWriter(&b)
-			writer.Write(w.transformColToStringArr(list.DataType(), list, stringsReplacer))
-			writer.Flush()
-			b.Truncate(b.Len() - 1)
-			b.Write([]byte{'}'})
-			res[i] = b.String()
-			list.Release()
-		}
-	case *arrow.BinaryType:
-		arr := col.(*array.Binary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.LargeBinaryType:
-		arr := col.(*array.LargeBinary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.FixedSizeBinaryType:
-		arr := col.(*array.FixedSizeBinary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case arrow.ExtensionType:
-		arr := col.(array.ExtensionArray)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsNull(i) {
-				res[i] = w.nullValue
-			} else {
-				res[i] = arr.ValueStr(i)
-			}
-		}
-	case *arrow.NullType:
-		for i := 0; i < col.Len(); i++ {
-			res[i] = w.nullValue
-		}
-	default:
-		panic(fmt.Errorf("arrow/csv: field has unsupported data type %s", typ.String()))
-	}
-	return res
-}
diff --git a/go/arrow/csv/writer.go b/go/arrow/csv/writer.go
deleted file mode 100644
index d0efbde170d65..0000000000000
--- a/go/arrow/csv/writer.go
+++ /dev/null
@@ -1,116 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"encoding/csv"
-	"io"
-	"strconv"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Writer wraps encoding/csv.Writer and writes arrow.Record based on a schema.
-type Writer struct {
-	boolFormatter  func(bool) string
-	header         bool
-	nullValue      string
-	stringReplacer func(string) string
-	once           sync.Once
-	schema         *arrow.Schema
-	w              *csv.Writer
-}
-
-// NewWriter returns a writer that writes arrow.Records to the CSV file
-// with the given schema.
-//
-// NewWriter panics if the given schema contains fields that have types that are not
-// primitive types.
-// For BinaryType the writer will use base64 encoding with padding as per base64.StdEncoding.
-func NewWriter(w io.Writer, schema *arrow.Schema, opts ...Option) *Writer {
-	validate(schema)
-
-	ww := &Writer{
-		boolFormatter:  strconv.FormatBool,                 // override by passing WithBoolWriter() as an option
-		nullValue:      "NULL",                             // override by passing WithNullWriter() as an option
-		stringReplacer: func(x string) string { return x }, // override by passing WithStringsReplacer() as an option
-		schema:         schema,
-		w:              csv.NewWriter(w),
-	}
-	for _, opt := range opts {
-		opt(ww)
-	}
-
-	return ww
-}
-
-func (w *Writer) Schema() *arrow.Schema { return w.schema }
-
-// Write writes a single Record as one row to the CSV file
-func (w *Writer) Write(record arrow.Record) error {
-	if !record.Schema().Equal(w.schema) {
-		return ErrMismatchFields
-	}
-
-	var err error
-	if w.header {
-		w.once.Do(func() {
-			err = w.writeHeader()
-		})
-		if err != nil {
-			return err
-		}
-	}
-
-	recs := make([][]string, record.NumRows())
-	for i := range recs {
-		recs[i] = make([]string, record.NumCols())
-	}
-
-	for j, col := range record.Columns() {
-		rows := w.transformColToStringArr(w.schema.Field(j).Type, col, w.stringReplacer)
-		for i, row := range rows {
-			recs[i][j] = row
-		}
-	}
-
-	return w.w.WriteAll(recs)
-}
-
-// Flush writes any buffered data to the underlying csv Writer.
-// If an error occurred during the Flush, return it
-func (w *Writer) Flush() error {
-	w.w.Flush()
-	return w.w.Error()
-}
-
-// Error reports any error that has occurred during a previous Write or Flush.
-func (w *Writer) Error() error {
-	return w.w.Error()
-}
-
-func (w *Writer) writeHeader() error {
-	headers := make([]string, len(w.schema.Fields()))
-	for i := range headers {
-		headers[i] = w.schema.Field(i).Name
-	}
-	if err := w.w.Write(headers); err != nil {
-		return err
-	}
-	return nil
-}
diff --git a/go/arrow/csv/writer_test.go b/go/arrow/csv/writer_test.go
deleted file mode 100644
index 2ae01a6d49071..0000000000000
--- a/go/arrow/csv/writer_test.go
+++ /dev/null
@@ -1,430 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv_test
-
-import (
-	"bufio"
-	"bytes"
-	ecsv "encoding/csv"
-	"fmt"
-	"io"
-	"log"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/csv"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/google/uuid"
-)
-
-const (
-	separator = ';'
-	nullVal   = "null"
-)
-
-func Example_writer() {
-	f := new(bytes.Buffer)
-
-	pool := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int64Builder).AppendValues([]int64{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-	b.Field(2).(*array.StringBuilder).AppendValues([]string{"str-0", "str-1", "str-2", "str-3", "str-4", "str-5", "str-6", "str-7", "str-8", "str-9"}, nil)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(f, schema, csv.WithComma(';'))
-	err := w.Write(rec)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = w.Flush()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = w.Error()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	r := csv.NewReader(f, schema, csv.WithComment('#'), csv.WithComma(';'))
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// check for reader errors indicating issues converting csv values
-	// to the arrow schema types
-	err = r.Err()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0]
-	// rec[0]["f64"]: [0]
-	// rec[0]["str"]: ["str-0"]
-	// rec[1]["i64"]: [1]
-	// rec[1]["f64"]: [1]
-	// rec[1]["str"]: ["str-1"]
-	// rec[2]["i64"]: [2]
-	// rec[2]["f64"]: [2]
-	// rec[2]["str"]: ["str-2"]
-	// rec[3]["i64"]: [3]
-	// rec[3]["f64"]: [3]
-	// rec[3]["str"]: ["str-3"]
-	// rec[4]["i64"]: [4]
-	// rec[4]["f64"]: [4]
-	// rec[4]["str"]: ["str-4"]
-	// rec[5]["i64"]: [5]
-	// rec[5]["f64"]: [5]
-	// rec[5]["str"]: ["str-5"]
-	// rec[6]["i64"]: [6]
-	// rec[6]["f64"]: [6]
-	// rec[6]["str"]: ["str-6"]
-	// rec[7]["i64"]: [7]
-	// rec[7]["f64"]: [7]
-	// rec[7]["str"]: ["str-7"]
-	// rec[8]["i64"]: [8]
-	// rec[8]["f64"]: [8]
-	// rec[8]["str"]: ["str-8"]
-	// rec[9]["i64"]: [9]
-	// rec[9]["f64"]: [9]
-	// rec[9]["str"]: ["str-9"]
-}
-
-var (
-	fullData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f16", "f32", "f64", "str", "large_str", "ts_s", "d32", "d64", "dec128", "dec256", "list(i64)", "large_list(i64)", "fixed_size_list(i64)", "binary", "large_binary", "fixed_size_binary", "uuid", "null"},
-		{"true", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "0", "str-0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45", "{1,2,3}", "{1,2,3}", "{1,2,3}", "AAEC", "AAEC", "AAEC", "00000000-0000-0000-0000-000000000001", nullVal},
-		{"false", "0", "0", "0", "0", "1", "1", "1", "1", "0.099975586", "0.1", "0.1", "str-1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0", "{4,5,6}", "{4,5,6}", "{4,5,6}", "AwQF", "AwQF", "AwQF", "00000000-0000-0000-0000-000000000002", nullVal},
-		{"true", "1", "1", "1", "1", "2", "2", "2", "2", "0.19995117", "0.2", "0.2", "str-2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45", "{7,8,9}", "{7,8,9}", "{7,8,9}", "", "", "AAAA", "00000000-0000-0000-0000-000000000003", nullVal},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
-	}
-	bananaData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f16", "f32", "f64", "str", "large_str", "ts_s", "d32", "d64", "dec128", "dec256", "list(i64)", "large_list(i64)", "fixed_size_list(i64)", "binary", "large_binary", "fixed_size_binary", "uuid", "null"},
-		{"BANANA", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "0", "str-0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45", "{1,2,3}", "{1,2,3}", "{1,2,3}", "AAEC", "AAEC", "AAEC", "00000000-0000-0000-0000-000000000001", nullVal},
-		{"MANGO", "0", "0", "0", "0", "1", "1", "1", "1", "0.099975586", "0.1", "0.1", "str-1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0", "{4,5,6}", "{4,5,6}", "{4,5,6}", "AwQF", "AwQF", "AwQF", "00000000-0000-0000-0000-000000000002", nullVal},
-		{"BANANA", "1", "1", "1", "1", "2", "2", "2", "2", "0.19995117", "0.2", "0.2", "str-2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45", "{7,8,9}", "{7,8,9}", "{7,8,9}", "", "", "AAAA", "00000000-0000-0000-0000-000000000003", nullVal},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
-	}
-)
-
-func TestCSVWriter(t *testing.T) {
-	tests := []struct {
-		name       string
-		header     bool
-		boolFormat func(bool) string
-		data       [][]string
-	}{
-		{
-			name:   "Noheader",
-			header: false,
-			data:   fullData[1:],
-		},
-		{
-			name:   "header",
-			header: true,
-			data:   fullData,
-		},
-		{
-			name:   "Header with bool fmt",
-			header: true,
-			boolFormat: func(b bool) string {
-				if b {
-					return "BANANA"
-				}
-				return "MANGO"
-			},
-			data: bananaData,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			testCSVWriter(t, test.data, test.header, test.boolFormat)
-		})
-	}
-}
-
-func genTimestamps(unit arrow.TimeUnit) []arrow.Timestamp {
-	out := []arrow.Timestamp{}
-	for _, input := range []string{"2014-07-28 15:04:05", "2016-09-08 15:04:05", "2021-09-18 15:04:05"} {
-		ts, err := arrow.TimestampFromString(input, unit)
-		if err != nil {
-			panic(fmt.Errorf("could not convert %s to arrow.Timestamp err=%s", input, err))
-		}
-		out = append(out, ts)
-	}
-	return out
-}
-
-func testCSVWriter(t *testing.T, data [][]string, writeHeader bool, fmtr func(bool) string) {
-	f := new(bytes.Buffer)
-
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "ts_s", Type: arrow.FixedWidthTypes.Timestamp_s},
-			{Name: "d32", Type: arrow.FixedWidthTypes.Date32},
-			{Name: "d64", Type: arrow.FixedWidthTypes.Date64},
-			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 5, Scale: 2}},
-			{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 5, Scale: 2}},
-			{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "large_list(i64)", Type: arrow.LargeListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "fixed_size_list(i64)", Type: arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int64)},
-			{Name: "binary", Type: arrow.BinaryTypes.Binary},
-			{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary},
-			{Name: "fixed_size_binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-			{Name: "uuid", Type: extensions.NewUUIDType()},
-			{Name: "null", Type: arrow.Null},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.BooleanBuilder).AppendValues([]bool{true, false, true}, nil)
-	b.Field(1).(*array.Int8Builder).AppendValues([]int8{-1, 0, 1}, nil)
-	b.Field(2).(*array.Int16Builder).AppendValues([]int16{-1, 0, 1}, nil)
-	b.Field(3).(*array.Int32Builder).AppendValues([]int32{-1, 0, 1}, nil)
-	b.Field(4).(*array.Int64Builder).AppendValues([]int64{-1, 0, 1}, nil)
-	b.Field(5).(*array.Uint8Builder).AppendValues([]uint8{0, 1, 2}, nil)
-	b.Field(6).(*array.Uint16Builder).AppendValues([]uint16{0, 1, 2}, nil)
-	b.Field(7).(*array.Uint32Builder).AppendValues([]uint32{0, 1, 2}, nil)
-	b.Field(8).(*array.Uint64Builder).AppendValues([]uint64{0, 1, 2}, nil)
-	b.Field(9).(*array.Float16Builder).AppendValues([]float16.Num{float16.New(0.0), float16.New(0.1), float16.New(0.2)}, nil)
-	b.Field(10).(*array.Float32Builder).AppendValues([]float32{0.0, 0.1, 0.2}, nil)
-	b.Field(11).(*array.Float64Builder).AppendValues([]float64{0.0, 0.1, 0.2}, nil)
-	b.Field(12).(*array.StringBuilder).AppendValues([]string{"str_0", "str-1", "str-2"}, nil)
-	b.Field(13).(*array.LargeStringBuilder).AppendValues([]string{"str_0", "str-1", "str-2"}, nil)
-	b.Field(14).(*array.TimestampBuilder).AppendValues(genTimestamps(arrow.Second), nil)
-	b.Field(15).(*array.Date32Builder).AppendValues([]arrow.Date32{17304, 19304, 20304}, nil)
-	b.Field(16).(*array.Date64Builder).AppendValues([]arrow.Date64{1840400000000, 1940400000000, 2040400000000}, nil)
-	b.Field(17).(*array.Decimal128Builder).AppendValues([]decimal128.Num{decimal128.FromI64(-12345), decimal128.FromI64(0), decimal128.FromI64(12345)}, nil)
-	b.Field(18).(*array.Decimal256Builder).AppendValues([]decimal256.Num{decimal256.FromI64(-12345), decimal256.FromI64(0), decimal256.FromI64(12345)}, nil)
-	listBuilder := b.Field(19).(*array.ListBuilder)
-	listBuilderInt64 := listBuilder.ValueBuilder().(*array.Int64Builder)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	largeListBuilder := b.Field(20).(*array.LargeListBuilder)
-	largeListBuilderInt64 := largeListBuilder.ValueBuilder().(*array.Int64Builder)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	fixedSizeListBuilder := b.Field(21).(*array.FixedSizeListBuilder)
-	fixedSizeListBuilderInt64 := fixedSizeListBuilder.ValueBuilder().(*array.Int64Builder)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	b.Field(22).(*array.BinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(23).(*array.BinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(24).(*array.FixedSizeBinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(25).(*extensions.UUIDBuilder).AppendValues([]uuid.UUID{uuid.MustParse("00000000-0000-0000-0000-000000000001"), uuid.MustParse("00000000-0000-0000-0000-000000000002"), uuid.MustParse("00000000-0000-0000-0000-000000000003")}, nil)
-	b.Field(26).(*array.NullBuilder).AppendEmptyValues(3)
-
-	for _, field := range b.Fields() {
-		field.AppendNull()
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(f, schema,
-		csv.WithComma(separator),
-		csv.WithCRLF(false),
-		csv.WithHeader(writeHeader),
-		csv.WithNullWriter(nullVal),
-		csv.WithBoolWriter(fmtr),
-		csv.WithStringsReplacer(strings.NewReplacer("_", "-")),
-	)
-	err := w.Write(rec)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = w.Flush()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = w.Error()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	bdata, err := expectedOutput(data)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if err = matchCSV(bdata.Bytes(), f.Bytes()); err != nil {
-		t.Fatal(err)
-	}
-}
-
-func expectedOutput(data [][]string) (*bytes.Buffer, error) {
-	b := bytes.NewBuffer(nil)
-	w := ecsv.NewWriter(b)
-	w.Comma = separator
-	w.UseCRLF = false
-	return b, w.WriteAll(data)
-}
-
-func matchCSV(expected, test []byte) error {
-	expectedScanner := bufio.NewScanner(bytes.NewReader(expected))
-	testScanner := bufio.NewScanner(bytes.NewReader(test))
-	line := 0
-	for expectedScanner.Scan() && testScanner.Scan() {
-		if expectedScanner.Text() != testScanner.Text() {
-			return fmt.Errorf("expected=%s != test=%s line=%d", expectedScanner.Text(), testScanner.Text(), line)
-		}
-		line++
-	}
-
-	if expectedScanner.Scan() {
-		return fmt.Errorf("expected unprocessed:%s", expectedScanner.Text())
-	}
-
-	if testScanner.Scan() {
-		return fmt.Errorf("test unprocessed:%s", testScanner.Text())
-	}
-
-	if err := expectedScanner.Err(); err != nil {
-		return err
-	}
-
-	return testScanner.Err()
-}
-
-func BenchmarkWrite(b *testing.B) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(b, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 4, Scale: 3}},
-			{Name: "dec128", Type: &arrow.Decimal256Type{Precision: 4, Scale: 3}},
-		},
-		nil,
-	)
-
-	bldr := array.NewRecordBuilder(pool, schema)
-	defer bldr.Release()
-
-	const N = 1000
-	for i := 0; i < N; i++ {
-		bldr.Field(0).(*array.BooleanBuilder).Append(i%10 == 0)
-		bldr.Field(1).(*array.Int8Builder).Append(int8(i))
-		bldr.Field(2).(*array.Int16Builder).Append(int16(i))
-		bldr.Field(3).(*array.Int32Builder).Append(int32(i))
-		bldr.Field(4).(*array.Int64Builder).Append(int64(i))
-		bldr.Field(5).(*array.Uint8Builder).Append(uint8(i))
-		bldr.Field(6).(*array.Uint16Builder).Append(uint16(i))
-		bldr.Field(7).(*array.Uint32Builder).Append(uint32(i))
-		bldr.Field(8).(*array.Uint64Builder).Append(uint64(i))
-		bldr.Field(9).(*array.Float16Builder).Append(float16.New(float32(i)))
-		bldr.Field(10).(*array.Float32Builder).Append(float32(i))
-		bldr.Field(11).(*array.Float64Builder).Append(float64(i))
-		bldr.Field(12).(*array.StringBuilder).Append(fmt.Sprintf("str-%d", i))
-		bldr.Field(13).(*array.LargeStringBuilder).Append(fmt.Sprintf("str-%d", i))
-		bldr.Field(14).(*array.Decimal128Builder).Append(decimal128.FromI64(int64(i)))
-		bldr.Field(15).(*array.Decimal256Builder).Append(decimal256.FromI64(int64(i)))
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(io.Discard, schema, csv.WithComma(';'), csv.WithCRLF(false))
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		err := w.Write(rec)
-		if err != nil {
-			b.Fatal(err)
-		}
-		err = w.Flush()
-		if err != nil {
-			b.Fatal(err)
-		}
-	}
-}
diff --git a/go/arrow/datatype.go b/go/arrow/datatype.go
deleted file mode 100644
index 96b7bf65505ec..0000000000000
--- a/go/arrow/datatype.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"hash/maphash"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Type is a logical type. They can be expressed as
-// either a primitive physical type (bytes or bits of some fixed size), a
-// nested type consisting of other data types, or another data type (e.g. a
-// timestamp encoded as an int64)
-type Type int
-
-const (
-	// NULL type having no physical storage
-	NULL Type = iota
-
-	// BOOL is a 1 bit, LSB bit-packed ordering
-	BOOL
-
-	// UINT8 is an Unsigned 8-bit little-endian integer
-	UINT8
-
-	// INT8 is a Signed 8-bit little-endian integer
-	INT8
-
-	// UINT16 is an Unsigned 16-bit little-endian integer
-	UINT16
-
-	// INT16 is a Signed 16-bit little-endian integer
-	INT16
-
-	// UINT32 is an Unsigned 32-bit little-endian integer
-	UINT32
-
-	// INT32 is a Signed 32-bit little-endian integer
-	INT32
-
-	// UINT64 is an Unsigned 64-bit little-endian integer
-	UINT64
-
-	// INT64 is a Signed 64-bit little-endian integer
-	INT64
-
-	// FLOAT16 is a 2-byte floating point value
-	FLOAT16
-
-	// FLOAT32 is a 4-byte floating point value
-	FLOAT32
-
-	// FLOAT64 is an 8-byte floating point value
-	FLOAT64
-
-	// STRING is a UTF8 variable-length string
-	STRING
-
-	// BINARY is a Variable-length byte type (no guarantee of UTF8-ness)
-	BINARY
-
-	// FIXED_SIZE_BINARY is a binary where each value occupies the same number of bytes
-	FIXED_SIZE_BINARY
-
-	// DATE32 is int32 days since the UNIX epoch
-	DATE32
-
-	// DATE64 is int64 milliseconds since the UNIX epoch
-	DATE64
-
-	// TIMESTAMP is an exact timestamp encoded with int64 since UNIX epoch
-	// Default unit millisecond
-	TIMESTAMP
-
-	// TIME32 is a signed 32-bit integer, representing either seconds or
-	// milliseconds since midnight
-	TIME32
-
-	// TIME64 is a signed 64-bit integer, representing either microseconds or
-	// nanoseconds since midnight
-	TIME64
-
-	// INTERVAL_MONTHS is YEAR_MONTH interval in SQL style
-	INTERVAL_MONTHS
-
-	// INTERVAL_DAY_TIME is DAY_TIME in SQL Style
-	INTERVAL_DAY_TIME
-
-	// DECIMAL128 is a precision- and scale-based decimal type. Storage type depends on the
-	// parameters.
-	DECIMAL128
-
-	// DECIMAL256 is a precision and scale based decimal type, with 256 bit max. not yet implemented
-	DECIMAL256
-
-	// LIST is a list of some logical data type
-	LIST
-
-	// STRUCT of logical types
-	STRUCT
-
-	// SPARSE_UNION of logical types. not yet implemented
-	SPARSE_UNION
-
-	// DENSE_UNION of logical types. not yet implemented
-	DENSE_UNION
-
-	// DICTIONARY aka Category type
-	DICTIONARY
-
-	// MAP is a repeated struct logical type
-	MAP
-
-	// Custom data type, implemented by user
-	EXTENSION
-
-	// Fixed size list of some logical type
-	FIXED_SIZE_LIST
-
-	// Measure of elapsed time in either seconds, milliseconds, microseconds
-	// or nanoseconds.
-	DURATION
-
-	// like STRING, but 64-bit offsets. not yet implemented
-	LARGE_STRING
-
-	// like BINARY but with 64-bit offsets, not yet implemented
-	LARGE_BINARY
-
-	// like LIST but with 64-bit offsets. not yet implemented
-	LARGE_LIST
-
-	// calendar interval with three fields
-	INTERVAL_MONTH_DAY_NANO
-
-	RUN_END_ENCODED
-
-	// String (UTF8) view type with 4-byte prefix and inline
-	// small string optimizations
-	STRING_VIEW
-
-	// Bytes view with 4-byte prefix and inline small byte arrays optimization
-	BINARY_VIEW
-
-	// LIST_VIEW is a list of some logical data type represented with offsets and sizes
-	LIST_VIEW
-
-	// like LIST but with 64-bit offsets
-	LARGE_LIST_VIEW
-
-	// Alias to ensure we do not break any consumers
-	DECIMAL = DECIMAL128
-)
-
-// DataType is the representation of an Arrow type.
-type DataType interface {
-	fmt.Stringer
-	ID() Type
-	// Name is name of the data type.
-	Name() string
-	Fingerprint() string
-	Layout() DataTypeLayout
-}
-
-// TypesToString is a convenience function to create a list of types
-// which are comma delimited as a string
-func TypesToString(types []DataType) string {
-	var b strings.Builder
-	b.WriteByte('(')
-	for i, t := range types {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		b.WriteString(t.String())
-	}
-	b.WriteByte(')')
-	return b.String()
-}
-
-// FixedWidthDataType is the representation of an Arrow type that
-// requires a fixed number of bits in memory for each element.
-type FixedWidthDataType interface {
-	DataType
-	// BitWidth returns the number of bits required to store a single element of this data type in memory.
-	BitWidth() int
-	// Bytes returns the number of bytes required to store a single element of this data type in memory.
-	Bytes() int
-}
-
-type BinaryDataType interface {
-	DataType
-	IsUtf8() bool
-	binary()
-}
-
-type BinaryViewDataType interface {
-	BinaryDataType
-	view()
-}
-
-type OffsetsDataType interface {
-	DataType
-	OffsetTypeTraits() OffsetTraits
-}
-
-func HashType(seed maphash.Seed, dt DataType) uint64 {
-	var h maphash.Hash
-	h.SetSeed(seed)
-	h.WriteString(dt.Fingerprint())
-	return h.Sum64()
-}
-
-func typeIDFingerprint(id Type) string {
-	c := string(rune(int(id) + int('A')))
-	return "@" + c
-}
-
-func typeFingerprint(typ DataType) string { return typeIDFingerprint(typ.ID()) }
-
-func timeUnitFingerprint(unit TimeUnit) rune {
-	switch unit {
-	case Second:
-		return 's'
-	case Millisecond:
-		return 'm'
-	case Microsecond:
-		return 'u'
-	case Nanosecond:
-		return 'n'
-	default:
-		debug.Assert(false, "unexpected time unit")
-		return rune(0)
-	}
-}
-
-// BufferKind describes the type of buffer expected when defining a layout specification
-type BufferKind int8
-
-// The expected types of buffers
-const (
-	KindFixedWidth BufferKind = iota
-	KindVarWidth
-	KindBitmap
-	KindAlwaysNull
-)
-
-// BufferSpec provides a specification for the buffers of a particular datatype
-type BufferSpec struct {
-	Kind      BufferKind
-	ByteWidth int // for KindFixedWidth
-}
-
-func (b BufferSpec) Equals(other BufferSpec) bool {
-	return b.Kind == other.Kind && (b.Kind != KindFixedWidth || b.ByteWidth == other.ByteWidth)
-}
-
-// DataTypeLayout represents the physical layout of a datatype's buffers including
-// the number of and types of those binary buffers. This will correspond
-// with the buffers in the ArrayData for an array of that type.
-type DataTypeLayout struct {
-	Buffers []BufferSpec
-	HasDict bool
-	// VariadicSpec is what the buffers beyond len(Buffers) are expected to conform to.
-	VariadicSpec *BufferSpec
-}
-
-func SpecFixedWidth(w int) BufferSpec { return BufferSpec{KindFixedWidth, w} }
-func SpecVariableWidth() BufferSpec   { return BufferSpec{KindVarWidth, -1} }
-func SpecBitmap() BufferSpec          { return BufferSpec{KindBitmap, -1} }
-func SpecAlwaysNull() BufferSpec      { return BufferSpec{KindAlwaysNull, -1} }
-
-// IsInteger is a helper to return true if the type ID provided is one of the
-// integral types of uint or int with the varying sizes.
-func IsInteger(t Type) bool {
-	switch t {
-	case UINT8, INT8, UINT16, INT16, UINT32, INT32, UINT64, INT64:
-		return true
-	}
-	return false
-}
-
-// IsUnsignedInteger is a helper that returns true if the type ID provided is
-// one of the uint integral types (uint8, uint16, uint32, uint64)
-func IsUnsignedInteger(t Type) bool {
-	switch t {
-	case UINT8, UINT16, UINT32, UINT64:
-		return true
-	}
-	return false
-}
-
-// IsSignedInteger is a helper that returns true if the type ID provided is
-// one of the int integral types (int8, int16, int32, int64)
-func IsSignedInteger(t Type) bool {
-	switch t {
-	case INT8, INT16, INT32, INT64:
-		return true
-	}
-	return false
-}
-
-// IsFloating is a helper that returns true if the type ID provided is
-// one of Float16, Float32, or Float64
-func IsFloating(t Type) bool {
-	switch t {
-	case FLOAT16, FLOAT32, FLOAT64:
-		return true
-	}
-	return false
-}
-
-// IsPrimitive returns true if the provided type ID represents a fixed width
-// primitive type.
-func IsPrimitive(t Type) bool {
-	switch t {
-	case BOOL, UINT8, INT8, UINT16, INT16, UINT32, INT32, UINT64, INT64,
-		FLOAT16, FLOAT32, FLOAT64, DATE32, DATE64, TIME32, TIME64, TIMESTAMP,
-		DURATION, INTERVAL_MONTHS, INTERVAL_DAY_TIME, INTERVAL_MONTH_DAY_NANO:
-		return true
-	}
-	return false
-}
-
-// IsBaseBinary returns true for Binary/String and their LARGE variants
-func IsBaseBinary(t Type) bool {
-	switch t {
-	case BINARY, STRING, LARGE_BINARY, LARGE_STRING:
-		return true
-	}
-	return false
-}
-
-// IsBinaryLike returns true for only BINARY and STRING
-func IsBinaryLike(t Type) bool {
-	switch t {
-	case BINARY, STRING:
-		return true
-	}
-	return false
-}
-
-// IsLargeBinaryLike returns true for only LARGE_BINARY and LARGE_STRING
-func IsLargeBinaryLike(t Type) bool {
-	switch t {
-	case LARGE_BINARY, LARGE_STRING:
-		return true
-	}
-	return false
-}
-
-// IsFixedSizeBinary returns true for Decimal128/256 and FixedSizeBinary
-func IsFixedSizeBinary(t Type) bool {
-	switch t {
-	case DECIMAL128, DECIMAL256, FIXED_SIZE_BINARY:
-		return true
-	}
-	return false
-}
-
-// IsDecimal returns true for Decimal128 and Decimal256
-func IsDecimal(t Type) bool {
-	switch t {
-	case DECIMAL128, DECIMAL256:
-		return true
-	}
-	return false
-}
-
-// IsUnion returns true for Sparse and Dense Unions
-func IsUnion(t Type) bool {
-	switch t {
-	case DENSE_UNION, SPARSE_UNION:
-		return true
-	}
-	return false
-}
-
-// IsListLike returns true for List, LargeList, FixedSizeList, and Map
-func IsListLike(t Type) bool {
-	switch t {
-	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP:
-		return true
-	}
-	return false
-}
-
-// IsNested returns true for List, LargeList, FixedSizeList, Map, Struct, and Unions
-func IsNested(t Type) bool {
-	switch t {
-	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP, LIST_VIEW, LARGE_LIST_VIEW, STRUCT, SPARSE_UNION, DENSE_UNION:
-		return true
-	}
-	return false
-}
diff --git a/go/arrow/datatype_binary.go b/go/arrow/datatype_binary.go
deleted file mode 100644
index f3e601f08ec79..0000000000000
--- a/go/arrow/datatype_binary.go
+++ /dev/null
@@ -1,139 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-// OffsetTraits is a convenient interface over the various type traits
-// constants such as arrow.Int32Traits allowing types with offsets, like
-// BinaryType, StringType, LargeBinaryType and LargeStringType to have
-// a method to return information about their offset type and how many bytes
-// would be required to allocate an offset buffer for them.
-type OffsetTraits interface {
-	// BytesRequired returns the number of bytes required to be allocated
-	// in order to hold the passed in number of elements of this type.
-	BytesRequired(int) int
-}
-
-type BinaryType struct{}
-
-func (t *BinaryType) ID() Type            { return BINARY }
-func (t *BinaryType) Name() string        { return "binary" }
-func (t *BinaryType) String() string      { return "binary" }
-func (t *BinaryType) binary()             {}
-func (t *BinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *BinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
-}
-func (t *BinaryType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-func (BinaryType) IsUtf8() bool                      { return false }
-
-type StringType struct{}
-
-func (t *StringType) ID() Type            { return STRING }
-func (t *StringType) Name() string        { return "utf8" }
-func (t *StringType) String() string      { return "utf8" }
-func (t *StringType) binary()             {}
-func (t *StringType) Fingerprint() string { return typeFingerprint(t) }
-func (t *StringType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
-}
-func (t *StringType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-func (StringType) IsUtf8() bool                      { return true }
-
-type LargeBinaryType struct{}
-
-func (t *LargeBinaryType) ID() Type            { return LARGE_BINARY }
-func (t *LargeBinaryType) Name() string        { return "large_binary" }
-func (t *LargeBinaryType) String() string      { return "large_binary" }
-func (t *LargeBinaryType) binary()             {}
-func (t *LargeBinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *LargeBinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
-}
-func (t *LargeBinaryType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-func (LargeBinaryType) IsUtf8() bool                      { return false }
-
-type LargeStringType struct{}
-
-func (t *LargeStringType) ID() Type            { return LARGE_STRING }
-func (t *LargeStringType) Name() string        { return "large_utf8" }
-func (t *LargeStringType) String() string      { return "large_utf8" }
-func (t *LargeStringType) binary()             {}
-func (t *LargeStringType) Fingerprint() string { return typeFingerprint(t) }
-func (t *LargeStringType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
-}
-func (t *LargeStringType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-func (LargeStringType) IsUtf8() bool                      { return true }
-
-type BinaryViewType struct{}
-
-func (*BinaryViewType) ID() Type              { return BINARY_VIEW }
-func (*BinaryViewType) Name() string          { return "binary_view" }
-func (*BinaryViewType) String() string        { return "binary_view" }
-func (*BinaryViewType) IsUtf8() bool          { return false }
-func (*BinaryViewType) binary()               {}
-func (*BinaryViewType) view()                 {}
-func (t *BinaryViewType) Fingerprint() string { return typeFingerprint(t) }
-func (*BinaryViewType) Layout() DataTypeLayout {
-	variadic := SpecVariableWidth()
-	return DataTypeLayout{
-		Buffers:      []BufferSpec{SpecBitmap(), SpecFixedWidth(ViewHeaderSizeBytes)},
-		VariadicSpec: &variadic,
-	}
-}
-
-type StringViewType struct{}
-
-func (*StringViewType) ID() Type              { return STRING_VIEW }
-func (*StringViewType) Name() string          { return "string_view" }
-func (*StringViewType) String() string        { return "string_view" }
-func (*StringViewType) IsUtf8() bool          { return true }
-func (*StringViewType) binary()               {}
-func (*StringViewType) view()                 {}
-func (t *StringViewType) Fingerprint() string { return typeFingerprint(t) }
-func (*StringViewType) Layout() DataTypeLayout {
-	variadic := SpecVariableWidth()
-	return DataTypeLayout{
-		Buffers:      []BufferSpec{SpecBitmap(), SpecFixedWidth(ViewHeaderSizeBytes)},
-		VariadicSpec: &variadic,
-	}
-}
-
-var (
-	BinaryTypes = struct {
-		Binary      BinaryDataType
-		String      BinaryDataType
-		LargeBinary BinaryDataType
-		LargeString BinaryDataType
-		BinaryView  BinaryDataType
-		StringView  BinaryDataType
-	}{
-		Binary:      &BinaryType{},
-		String:      &StringType{},
-		LargeBinary: &LargeBinaryType{},
-		LargeString: &LargeStringType{},
-		BinaryView:  &BinaryViewType{},
-		StringView:  &StringViewType{},
-	}
-
-	_ BinaryViewDataType = (*StringViewType)(nil)
-	_ BinaryViewDataType = (*BinaryViewType)(nil)
-)
diff --git a/go/arrow/datatype_binary_test.go b/go/arrow/datatype_binary_test.go
deleted file mode 100644
index a65d92a0f61ac..0000000000000
--- a/go/arrow/datatype_binary_test.go
+++ /dev/null
@@ -1,113 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestBinaryType(t *testing.T) {
-	var nt *arrow.BinaryType
-	if got, want := nt.ID(), arrow.BINARY; got != want {
-		t.Fatalf("invalid binary type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "binary"; got != want {
-		t.Fatalf("invalid binary type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "binary"; got != want {
-		t.Fatalf("invalid binary type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestStringType(t *testing.T) {
-	var nt *arrow.StringType
-	if got, want := nt.ID(), arrow.STRING; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "utf8"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "utf8"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestLargeBinaryType(t *testing.T) {
-	var nt *arrow.LargeBinaryType
-	if got, want := nt.ID(), arrow.LARGE_BINARY; got != want {
-		t.Fatalf("invalid binary type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "large_binary"; got != want {
-		t.Fatalf("invalid binary type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "large_binary"; got != want {
-		t.Fatalf("invalid binary type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestLargeStringType(t *testing.T) {
-	var nt *arrow.LargeStringType
-	if got, want := nt.ID(), arrow.LARGE_STRING; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "large_utf8"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "large_utf8"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestBinaryViewType(t *testing.T) {
-	var nt *arrow.BinaryViewType
-	if got, want := nt.ID(), arrow.BINARY_VIEW; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "binary_view"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "binary_view"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestStringViewType(t *testing.T) {
-	var nt *arrow.StringViewType
-	if got, want := nt.ID(), arrow.STRING_VIEW; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "string_view"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "string_view"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
diff --git a/go/arrow/datatype_encoded.go b/go/arrow/datatype_encoded.go
deleted file mode 100644
index 749f03a582646..0000000000000
--- a/go/arrow/datatype_encoded.go
+++ /dev/null
@@ -1,69 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-type EncodedType interface {
-	DataType
-	Encoded() DataType
-}
-
-// RunEndEncodedType is the datatype to represent a run-end encoded
-// array of data. ValueNullable defaults to true, but can be set false
-// if this should represent a type with a non-nullable value field.
-type RunEndEncodedType struct {
-	runEnds       DataType
-	values        DataType
-	ValueNullable bool
-}
-
-func RunEndEncodedOf(runEnds, values DataType) *RunEndEncodedType {
-	return &RunEndEncodedType{runEnds: runEnds, values: values, ValueNullable: true}
-}
-
-func (*RunEndEncodedType) ID() Type     { return RUN_END_ENCODED }
-func (*RunEndEncodedType) Name() string { return "run_end_encoded" }
-func (*RunEndEncodedType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecAlwaysNull()}}
-}
-
-func (t *RunEndEncodedType) String() string {
-	return t.Name() + "<run_ends: " + t.runEnds.String() + ", values: " + t.values.String() + ">"
-}
-
-func (t *RunEndEncodedType) Fingerprint() string {
-	return typeFingerprint(t) + "{" + t.runEnds.Fingerprint() + ";" + t.values.Fingerprint() + ";}"
-}
-
-func (t *RunEndEncodedType) RunEnds() DataType { return t.runEnds }
-func (t *RunEndEncodedType) Encoded() DataType { return t.values }
-
-func (t *RunEndEncodedType) Fields() []Field {
-	return []Field{
-		{Name: "run_ends", Type: t.runEnds},
-		{Name: "values", Type: t.values, Nullable: t.ValueNullable},
-	}
-}
-
-func (t *RunEndEncodedType) NumFields() int { return 2 }
-
-func (*RunEndEncodedType) ValidRunEndsType(dt DataType) bool {
-	switch dt.ID() {
-	case INT16, INT32, INT64:
-		return true
-	}
-	return false
-}
diff --git a/go/arrow/datatype_extension.go b/go/arrow/datatype_extension.go
deleted file mode 100644
index f0bcccdf2bffc..0000000000000
--- a/go/arrow/datatype_extension.go
+++ /dev/null
@@ -1,180 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"reflect"
-	"sync"
-)
-
-var (
-	// global extension type registry, initially left null to avoid paying
-	// the cost if no extension types are used.
-	// the choice to use a sync.Map here is because it's expected that most
-	// use cases would be to register some number of types at initialization
-	// or otherwise and leave them rather than a pattern of repeatedly registering
-	// and unregistering types. As per the documentation for sync.Map
-	// (https://pkg.go.dev/sync#Map), it is specialized for the case where an entry
-	// is written once but read many times which fits our case here as we register
-	// a type once and then have to read it many times when deserializing messages
-	// with that type.
-	extTypeRegistry *sync.Map
-	// used for initializing the registry once and only once
-	initReg sync.Once
-)
-
-// convenience function to ensure that the type registry is initialized once
-// and only once in a goroutine-safe manner.
-func getExtTypeRegistry() *sync.Map {
-	initReg.Do(func() { extTypeRegistry = &sync.Map{} })
-	return extTypeRegistry
-}
-
-// RegisterExtensionType registers the provided ExtensionType by calling ExtensionName
-// to use as a Key for registering the type. If a type with the same name is already
-// registered then this will return an error saying so, otherwise it will return nil
-// if successful registering the type.
-// This function is safe to call from multiple goroutines simultaneously.
-func RegisterExtensionType(typ ExtensionType) error {
-	name := typ.ExtensionName()
-	registry := getExtTypeRegistry()
-	if _, existed := registry.LoadOrStore(name, typ); existed {
-		return fmt.Errorf("arrow: type extension with name %s already defined", name)
-	}
-	return nil
-}
-
-// UnregisterExtensionType removes the type with the given name from the registry
-// causing any messages with that type which come in to be expressed with their
-// metadata and underlying type instead of the extension type that isn't known.
-// This function is safe to call from multiple goroutines simultaneously.
-func UnregisterExtensionType(typName string) error {
-	registry := getExtTypeRegistry()
-	if _, loaded := registry.LoadAndDelete(typName); !loaded {
-		return fmt.Errorf("arrow: no type extension with name %s found", typName)
-	}
-	return nil
-}
-
-// GetExtensionType retrieves and returns the extension type of the given name
-// from the global extension type registry. If the type isn't found it will return
-// nil. This function is safe to call from multiple goroutines concurrently.
-func GetExtensionType(typName string) ExtensionType {
-	registry := getExtTypeRegistry()
-	if val, ok := registry.Load(typName); ok {
-		return val.(ExtensionType)
-	}
-	return nil
-}
-
-// ExtensionType is an interface for handling user-defined types. They must be
-// DataTypes and must embed arrow.ExtensionBase in them in order to work properly
-// ensuring that they always have the expected base behavior.
-//
-// The arrow.ExtensionBase that needs to be embedded implements the DataType interface
-// leaving the remaining functions having to be implemented by the actual user-defined
-// type in order to be handled properly.
-type ExtensionType interface {
-	DataType
-	// ArrayType should return the reflect.TypeOf(ExtensionArrayType{}) where the
-	// ExtensionArrayType is a type that implements the array.ExtensionArray interface.
-	// Such a type must also embed the array.ExtensionArrayBase in it. This will be used
-	// when creating arrays of this ExtensionType by using reflect.New
-	ArrayType() reflect.Type
-	// ExtensionName is what will be used when registering / unregistering this extension
-	// type. Multiple user-defined types can be defined with a parameterized ExtensionType
-	// as long as the parameter is used in the ExtensionName to distinguish the instances
-	// in the global Extension Type registry.
-	// The return from this is also what will be placed in the metadata for IPC communication
-	// under the key ARROW:extension:name
-	ExtensionName() string
-	// StorageType returns the underlying storage type which is used by this extension
-	// type. It is already implemented by the ExtensionBase struct and thus does not need
-	// to be re-implemented by a user-defined type.
-	StorageType() DataType
-	// ExtensionEquals is used to tell whether two ExtensionType instances are equal types.
-	ExtensionEquals(ExtensionType) bool
-	// Serialize should produce any extra metadata necessary for initializing an instance of
-	// this user-defined type. Not all user-defined types require this and it is valid to return
-	// nil from this function or an empty slice. This is used for the IPC format and will be
-	// added to metadata for IPC communication under the key ARROW:extension:metadata
-	// This should be implemented such that it is valid to be called by multiple goroutines
-	// concurrently.
-	Serialize() string
-	// Deserialize is called when reading in extension arrays and types via the IPC format
-	// in order to construct an instance of the appropriate extension type. The passed in data
-	// is pulled from the ARROW:extension:metadata key and may be nil or an empty slice.
-	// If the storage type is incorrect or something else is invalid with the data this should
-	// return nil and an appropriate error.
-	Deserialize(storageType DataType, data string) (ExtensionType, error)
-
-	mustEmbedExtensionBase()
-}
-
-// ExtensionBase is the base struct for user-defined Extension Types which must be
-// embedded in any user-defined types like so:
-//
-//	type UserDefinedType struct {
-//	    arrow.ExtensionBase
-//	    // any other data
-//	}
-type ExtensionBase struct {
-	// Storage is the underlying storage type
-	Storage DataType
-}
-
-// ID always returns arrow.EXTENSION and should not be overridden
-func (*ExtensionBase) ID() Type { return EXTENSION }
-
-// Name should always return "extension" and should not be overridden
-func (*ExtensionBase) Name() string { return "extension" }
-
-// String by default will return "extension_type<storage=storage_type>" by can be overridden
-// to customize what is printed out when printing this extension type.
-func (e *ExtensionBase) String() string { return fmt.Sprintf("extension_type<storage=%s>", e.Storage) }
-
-// StorageType returns the underlying storage type and exists so that functions
-// written against the ExtensionType interface can access the storage type.
-func (e *ExtensionBase) StorageType() DataType { return e.Storage }
-
-func (e *ExtensionBase) Fingerprint() string { return typeFingerprint(e) + e.Storage.Fingerprint() }
-
-func (e *ExtensionBase) Fields() []Field {
-	if nested, ok := e.Storage.(NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-func (e *ExtensionBase) NumFields() int {
-	if nested, ok := e.Storage.(NestedType); ok {
-		return nested.NumFields()
-	}
-	return 0
-}
-
-func (e *ExtensionBase) Layout() DataTypeLayout { return e.Storage.Layout() }
-
-// this no-op exists to ensure that this type must be embedded in any user-defined extension type.
-//
-//lint:ignore U1000 this function is intentionally unused as it only exists to ensure embedding happens
-func (ExtensionBase) mustEmbedExtensionBase() {}
-
-var (
-	_ DataType = (*ExtensionBase)(nil)
-)
diff --git a/go/arrow/datatype_extension_test.go b/go/arrow/datatype_extension_test.go
deleted file mode 100644
index 7244d377bd285..0000000000000
--- a/go/arrow/datatype_extension_test.go
+++ /dev/null
@@ -1,76 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-type BadExtensionType struct{}
-
-func (BadExtensionType) ID() arrow.Type                           { return arrow.EXTENSION }
-func (BadExtensionType) ArrayType() reflect.Type                  { return nil }
-func (BadExtensionType) Name() string                             { return "bad" }
-func (BadExtensionType) StorageType() arrow.DataType              { return arrow.Null }
-func (BadExtensionType) ExtensionEquals(arrow.ExtensionType) bool { return false }
-func (BadExtensionType) ExtensionName() string                    { return "bad" }
-func (BadExtensionType) Serialize() string                        { return "" }
-func (BadExtensionType) Deserialize(_ arrow.DataType, _ string) (arrow.ExtensionType, error) {
-	return nil, nil
-}
-
-func TestMustEmbedBase(t *testing.T) {
-	var ext interface{} = &BadExtensionType{}
-	assert.Panics(t, func() {
-		var _ arrow.ExtensionType = ext.(arrow.ExtensionType)
-	})
-}
-
-type ExtensionTypeTestSuite struct {
-	suite.Suite
-}
-
-func (e *ExtensionTypeTestSuite) TestExtensionType() {
-	e.Nil(arrow.GetExtensionType("uuid-unknown"))
-	e.NotNil(arrow.GetExtensionType("arrow.uuid"))
-
-	e.Error(arrow.RegisterExtensionType(extensions.NewUUIDType()))
-	e.Error(arrow.UnregisterExtensionType("uuid-unknown"))
-
-	typ := extensions.NewUUIDType()
-	e.Implements((*arrow.ExtensionType)(nil), typ)
-	e.Equal(arrow.EXTENSION, typ.ID())
-	e.Equal("extension", typ.Name())
-
-	serialized := typ.Serialize()
-	deserialized, err := typ.Deserialize(&arrow.FixedSizeBinaryType{ByteWidth: 16}, serialized)
-	e.NoError(err)
-
-	e.True(arrow.TypeEqual(deserialized.StorageType(), &arrow.FixedSizeBinaryType{ByteWidth: 16}))
-	e.True(arrow.TypeEqual(deserialized, typ))
-	e.False(arrow.TypeEqual(deserialized, &arrow.FixedSizeBinaryType{ByteWidth: 16}))
-}
-
-func TestExtensionTypes(t *testing.T) {
-	suite.Run(t, new(ExtensionTypeTestSuite))
-}
diff --git a/go/arrow/datatype_fixedwidth.go b/go/arrow/datatype_fixedwidth.go
deleted file mode 100644
index 8bcae78d7d8af..0000000000000
--- a/go/arrow/datatype_fixedwidth.go
+++ /dev/null
@@ -1,816 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"strconv"
-	"sync"
-	"time"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-
-	"golang.org/x/xerrors"
-)
-
-type BooleanType struct{}
-
-func (t *BooleanType) ID() Type            { return BOOL }
-func (t *BooleanType) Name() string        { return "bool" }
-func (t *BooleanType) String() string      { return "bool" }
-func (t *BooleanType) Fingerprint() string { return typeFingerprint(t) }
-func (BooleanType) Bytes() int             { return 1 }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *BooleanType) BitWidth() int { return 1 }
-
-func (BooleanType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecBitmap()}}
-}
-
-type FixedSizeBinaryType struct {
-	ByteWidth int
-}
-
-func (*FixedSizeBinaryType) ID() Type              { return FIXED_SIZE_BINARY }
-func (*FixedSizeBinaryType) Name() string          { return "fixed_size_binary" }
-func (t *FixedSizeBinaryType) BitWidth() int       { return 8 * t.ByteWidth }
-func (t *FixedSizeBinaryType) Bytes() int          { return t.ByteWidth }
-func (t *FixedSizeBinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *FixedSizeBinaryType) String() string {
-	return "fixed_size_binary[" + strconv.Itoa(t.ByteWidth) + "]"
-}
-func (t *FixedSizeBinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(t.ByteWidth)}}
-}
-
-type (
-	Timestamp int64
-	Time32    int32
-	Time64    int64
-	TimeUnit  int
-	Date32    int32
-	Date64    int64
-	Duration  int64
-)
-
-// Date32FromTime returns a Date32 value from a time object
-func Date32FromTime(t time.Time) Date32 {
-	return Date32(t.Truncate(24*time.Hour).Unix() / int64((time.Hour * 24).Seconds()))
-}
-
-func (d Date32) ToTime() time.Time {
-	return time.Unix(0, 0).UTC().AddDate(0, 0, int(d))
-}
-
-func (d Date32) FormattedString() string {
-	return d.ToTime().Format("2006-01-02")
-}
-
-// Date64FromTime returns a Date64 value from a time object
-func Date64FromTime(t time.Time) Date64 {
-	// truncate to the start of the day to get the correct value
-	t = t.Truncate(24 * time.Hour)
-	return Date64(t.Unix()*1e3 + int64(t.Nanosecond())/1e6)
-}
-
-func (d Date64) ToTime() time.Time {
-	days := int(int64(d) / (time.Hour * 24).Milliseconds())
-	return time.Unix(0, 0).UTC().AddDate(0, 0, days)
-}
-
-func (d Date64) FormattedString() string {
-	return d.ToTime().Format("2006-01-02")
-}
-
-// TimestampFromStringInLocation is like TimestampFromString, but treats the time instant
-// as if it were in the provided timezone before converting to UTC for internal representation.
-func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location) (Timestamp, bool, error) {
-	if len(val) < 10 {
-		return 0, false, fmt.Errorf("%w: invalid timestamp string", ErrInvalid)
-	}
-
-	var (
-		format         = "2006-01-02"
-		zoneFmt        string
-		lenWithoutZone = len(val)
-	)
-
-	if lenWithoutZone > 10 {
-		switch {
-		case val[len(val)-1] == 'Z':
-			zoneFmt = "Z"
-			lenWithoutZone--
-		case val[len(val)-3] == '+' || val[len(val)-3] == '-':
-			zoneFmt = "-07"
-			lenWithoutZone -= 3
-		case val[len(val)-5] == '+' || val[len(val)-5] == '-':
-			zoneFmt = "-0700"
-			lenWithoutZone -= 5
-		case val[len(val)-6] == '+' || val[len(val)-6] == '-':
-			zoneFmt = "-07:00"
-			lenWithoutZone -= 6
-		}
-	}
-
-	switch {
-	case lenWithoutZone == 13:
-		format += string(val[10]) + "15"
-	case lenWithoutZone == 16:
-		format += string(val[10]) + "15:04"
-	case lenWithoutZone >= 19:
-		format += string(val[10]) + "15:04:05.999999999"
-	}
-
-	// error if we're truncating precision
-	// don't need a case for nano as time.Parse will already error if
-	// more than nanosecond precision is provided
-	switch {
-	case unit == Second && lenWithoutZone > 19:
-		return 0, zoneFmt != "", xerrors.New("provided more than second precision for timestamp[s]")
-	case unit == Millisecond && lenWithoutZone > 23:
-		return 0, zoneFmt != "", xerrors.New("provided more than millisecond precision for timestamp[ms]")
-	case unit == Microsecond && lenWithoutZone > 26:
-		return 0, zoneFmt != "", xerrors.New("provided more than microsecond precision for timestamp[us]")
-	}
-
-	format += zoneFmt
-	out, err := time.Parse(format, val)
-	if err != nil {
-		return 0, zoneFmt != "", fmt.Errorf("%w: %s", ErrInvalid, err)
-	}
-	if loc != time.UTC {
-		// convert to UTC by putting the same time instant in the desired location
-		// before converting to UTC
-		out = out.In(loc).UTC()
-	}
-
-	ts, err := TimestampFromTime(out, unit)
-	return ts, zoneFmt != "", err
-}
-
-// TimestampFromString parses a string and returns a timestamp for the given unit
-// level.
-//
-// The timestamp should be in one of the following forms, [T] can be either T
-// or a space, and [.zzzzzzzzz] can be either left out or up to 9 digits of
-// fractions of a second.
-//
-//	YYYY-MM-DD
-//	YYYY-MM-DD[T]HH
-//	YYYY-MM-DD[T]HH:MM
-//	YYYY-MM-DD[T]HH:MM:SS[.zzzzzzzz]
-//
-// You can also optionally have an ending Z to indicate UTC or indicate a specific
-// timezone using ±HH, ±HHMM or ±HH:MM at the end of the string.
-func TimestampFromString(val string, unit TimeUnit) (Timestamp, error) {
-	tm, _, err := TimestampFromStringInLocation(val, unit, time.UTC)
-	return tm, err
-}
-
-func (t Timestamp) ToTime(unit TimeUnit) time.Time {
-	switch unit {
-	case Second:
-		return time.Unix(int64(t), 0).UTC()
-	case Millisecond:
-		return time.UnixMilli(int64(t)).UTC()
-	case Microsecond:
-		return time.UnixMicro(int64(t)).UTC()
-	default:
-		return time.Unix(0, int64(t)).UTC()
-	}
-}
-
-// TimestampFromTime allows converting time.Time to Timestamp
-func TimestampFromTime(val time.Time, unit TimeUnit) (Timestamp, error) {
-	switch unit {
-	case Second:
-		return Timestamp(val.Unix()), nil
-	case Millisecond:
-		return Timestamp(val.Unix()*1e3 + int64(val.Nanosecond())/1e6), nil
-	case Microsecond:
-		return Timestamp(val.Unix()*1e6 + int64(val.Nanosecond())/1e3), nil
-	case Nanosecond:
-		return Timestamp(val.UnixNano()), nil
-	default:
-		return 0, fmt.Errorf("%w: unexpected timestamp unit: %s", ErrInvalid, unit)
-	}
-}
-
-// Time32FromString parses a string to return a Time32 value in the given unit,
-// unit needs to be only seconds or milliseconds and the string should be in the
-// form of HH:MM or HH:MM:SS[.zzz] where the fractions of a second are optional.
-func Time32FromString(val string, unit TimeUnit) (Time32, error) {
-	switch unit {
-	case Second:
-		if len(val) > 8 {
-			return 0, xerrors.New("cannot convert larger than second precision to time32s")
-		}
-	case Millisecond:
-		if len(val) > 12 {
-			return 0, xerrors.New("cannot convert larger than millisecond precision to time32ms")
-		}
-	case Microsecond, Nanosecond:
-		return 0, xerrors.New("time32 can only be seconds or milliseconds")
-	}
-
-	var (
-		out time.Time
-		err error
-	)
-	switch {
-	case len(val) == 5:
-		out, err = time.Parse("15:04", val)
-	default:
-		out, err = time.Parse("15:04:05.999", val)
-	}
-	if err != nil {
-		return 0, err
-	}
-	t := out.Sub(time.Date(0, 1, 1, 0, 0, 0, 0, time.UTC))
-	if unit == Second {
-		return Time32(t.Seconds()), nil
-	}
-	return Time32(t.Milliseconds()), nil
-}
-
-func (t Time32) ToTime(unit TimeUnit) time.Time {
-	return time.Unix(0, int64(t)*int64(unit.Multiplier())).UTC()
-}
-
-func (t Time32) FormattedString(unit TimeUnit) string {
-	const baseFmt = "15:04:05"
-	tm := t.ToTime(unit)
-	switch unit {
-	case Second:
-		return tm.Format(baseFmt)
-	case Millisecond:
-		return tm.Format(baseFmt + ".000")
-	}
-	return ""
-}
-
-// Time64FromString parses a string to return a Time64 value in the given unit,
-// unit needs to be only microseconds or nanoseconds and the string should be in the
-// form of HH:MM or HH:MM:SS[.zzzzzzzzz] where the fractions of a second are optional.
-func Time64FromString(val string, unit TimeUnit) (Time64, error) {
-	// don't need to check length for nanoseconds as Parse will already error
-	// if more than 9 digits are provided for the fractional second
-	switch unit {
-	case Microsecond:
-		if len(val) > 15 {
-			return 0, xerrors.New("cannot convert larger than microsecond precision to time64us")
-		}
-	case Second, Millisecond:
-		return 0, xerrors.New("time64 should only be microseconds or nanoseconds")
-	}
-
-	var (
-		out time.Time
-		err error
-	)
-	switch {
-	case len(val) == 5:
-		out, err = time.Parse("15:04", val)
-	default:
-		out, err = time.Parse("15:04:05.999999999", val)
-	}
-	if err != nil {
-		return 0, err
-	}
-	t := out.Sub(time.Date(0, 1, 1, 0, 0, 0, 0, time.UTC))
-	if unit == Microsecond {
-		return Time64(t.Microseconds()), nil
-	}
-	return Time64(t.Nanoseconds()), nil
-}
-
-func (t Time64) ToTime(unit TimeUnit) time.Time {
-	return time.Unix(0, int64(t)*int64(unit.Multiplier())).UTC()
-}
-
-func (t Time64) FormattedString(unit TimeUnit) string {
-	const baseFmt = "15:04:05.000000"
-	tm := t.ToTime(unit)
-	switch unit {
-	case Microsecond:
-		return tm.Format(baseFmt)
-	case Nanosecond:
-		return tm.Format(baseFmt + "000")
-	}
-	return ""
-}
-
-const (
-	Second TimeUnit = iota
-	Millisecond
-	Microsecond
-	Nanosecond
-)
-
-var TimeUnitValues = []TimeUnit{Second, Millisecond, Microsecond, Nanosecond}
-
-// Multiplier returns a time.Duration value to multiply by in order to
-// convert the value into nanoseconds
-func (u TimeUnit) Multiplier() time.Duration {
-	return [...]time.Duration{time.Second, time.Millisecond, time.Microsecond, time.Nanosecond}[uint(u)&3]
-}
-
-func (u TimeUnit) String() string { return [...]string{"s", "ms", "us", "ns"}[uint(u)&3] }
-
-type TemporalWithUnit interface {
-	FixedWidthDataType
-	TimeUnit() TimeUnit
-}
-
-// TimestampType is encoded as a 64-bit signed integer since the UNIX epoch (2017-01-01T00:00:00Z).
-// The zero-value is a second and time zone neutral. In Arrow semantics, time zone neutral does not
-// represent a physical point in time, but rather a "wall clock" time that only has meaning within
-// the context that produced it. In Go, time.Time can only represent instants; there is no notion
-// of "wall clock" time. Therefore, time zone neutral timestamps are represented as UTC per Go
-// conventions even though the Arrow type itself has no time zone.
-type TimestampType struct {
-	Unit     TimeUnit
-	TimeZone string
-
-	loc *time.Location
-	mx  sync.RWMutex
-}
-
-func (*TimestampType) ID() Type     { return TIMESTAMP }
-func (*TimestampType) Name() string { return "timestamp" }
-func (t *TimestampType) String() string {
-	switch len(t.TimeZone) {
-	case 0:
-		return "timestamp[" + t.Unit.String() + "]"
-	default:
-		return "timestamp[" + t.Unit.String() + ", tz=" + t.TimeZone + "]"
-	}
-}
-
-func (t *TimestampType) Fingerprint() string {
-	return fmt.Sprintf("%s%d:%s", typeFingerprint(t)+string(timeUnitFingerprint(t.Unit)), len(t.TimeZone), t.TimeZone)
-}
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (*TimestampType) BitWidth() int { return 64 }
-
-func (*TimestampType) Bytes() int { return Int64SizeBytes }
-
-func (*TimestampType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(TimestampSizeBytes)}}
-}
-
-func (t *TimestampType) TimeUnit() TimeUnit { return t.Unit }
-
-// ClearCachedLocation clears the cached time.Location object in the type.
-// This should be called if you change the value of the TimeZone after having
-// potentially called GetZone.
-func (t *TimestampType) ClearCachedLocation() {
-	t.mx.Lock()
-	defer t.mx.Unlock()
-	t.loc = nil
-}
-
-// GetZone returns a *time.Location that represents the current TimeZone member
-// of the TimestampType. If it is "", "UTC", or "utc", you'll get time.UTC.
-// Otherwise it must either be a valid tzdata string such as "America/New_York"
-// or of the format +HH:MM or -HH:MM indicating an absolute offset.
-//
-// The location object will be cached in the TimestampType for subsequent calls
-// so if you change the value of TimeZone after calling this, make sure to call
-// ClearCachedLocation.
-func (t *TimestampType) GetZone() (*time.Location, error) {
-	t.mx.RLock()
-	if t.loc != nil {
-		defer t.mx.RUnlock()
-		return t.loc, nil
-	}
-
-	t.mx.RUnlock()
-	t.mx.Lock()
-	defer t.mx.Unlock()
-	// in case GetZone() was called in between releasing the read lock and
-	// getting the write lock
-	if t.loc != nil {
-		return t.loc, nil
-	}
-	// the TimeZone string is allowed to be either a valid tzdata string
-	// such as "America/New_York" or an absolute offset of the form -XX:XX
-	// or +XX:XX
-	//
-	// As such we have two methods we can try, first we'll try LoadLocation
-	// and if that fails, we'll test for an absolute offset.
-	if t.TimeZone == "" || t.TimeZone == "UTC" || t.TimeZone == "utc" {
-		t.loc = time.UTC
-		return time.UTC, nil
-	}
-
-	if loc, err := time.LoadLocation(t.TimeZone); err == nil {
-		t.loc = loc
-		return loc, err
-	}
-
-	// at this point we know that the timezone isn't empty, and didn't match
-	// anything in the tzdata names. So either it's an absolute offset
-	// or it's invalid.
-	timetz, err := time.Parse("-07:00", t.TimeZone)
-	if err != nil {
-		return time.UTC, fmt.Errorf("could not find timezone location for '%s'", t.TimeZone)
-	}
-
-	_, offset := timetz.Zone()
-	t.loc = time.FixedZone(t.TimeZone, offset)
-	return t.loc, nil
-}
-
-// GetToTimeFunc returns a function for converting an arrow.Timestamp value into a
-// time.Time object with proper TimeZone and precision. If the TimeZone is invalid
-// this will return an error. It calls GetZone to get the timezone for consistency.
-func (t *TimestampType) GetToTimeFunc() (func(Timestamp) time.Time, error) {
-	tz, err := t.GetZone()
-	if err != nil {
-		return nil, err
-	}
-
-	return func(v Timestamp) time.Time { return v.ToTime(t.Unit).In(tz) }, nil
-}
-
-// Time32Type is encoded as a 32-bit signed integer, representing either seconds or milliseconds since midnight.
-type Time32Type struct {
-	Unit TimeUnit
-}
-
-func (*Time32Type) ID() Type         { return TIME32 }
-func (*Time32Type) Name() string     { return "time32" }
-func (*Time32Type) BitWidth() int    { return 32 }
-func (*Time32Type) Bytes() int       { return Int32SizeBytes }
-func (t *Time32Type) String() string { return "time32[" + t.Unit.String() + "]" }
-func (t *Time32Type) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (Time32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Time32SizeBytes)}}
-}
-
-func (t *Time32Type) TimeUnit() TimeUnit { return t.Unit }
-
-// Time64Type is encoded as a 64-bit signed integer, representing either microseconds or nanoseconds since midnight.
-type Time64Type struct {
-	Unit TimeUnit
-}
-
-func (*Time64Type) ID() Type         { return TIME64 }
-func (*Time64Type) Name() string     { return "time64" }
-func (*Time64Type) BitWidth() int    { return 64 }
-func (*Time64Type) Bytes() int       { return Int64SizeBytes }
-func (t *Time64Type) String() string { return "time64[" + t.Unit.String() + "]" }
-func (t *Time64Type) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (Time64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Time64SizeBytes)}}
-}
-
-func (t *Time64Type) TimeUnit() TimeUnit { return t.Unit }
-
-// DurationType is encoded as a 64-bit signed integer, representing an amount
-// of elapsed time without any relation to a calendar artifact.
-type DurationType struct {
-	Unit TimeUnit
-}
-
-func (*DurationType) ID() Type         { return DURATION }
-func (*DurationType) Name() string     { return "duration" }
-func (*DurationType) BitWidth() int    { return 64 }
-func (*DurationType) Bytes() int       { return Int64SizeBytes }
-func (t *DurationType) String() string { return "duration[" + t.Unit.String() + "]" }
-func (t *DurationType) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (DurationType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(DurationSizeBytes)}}
-}
-
-func (t *DurationType) TimeUnit() TimeUnit { return t.Unit }
-
-// Float16Type represents a floating point value encoded with a 16-bit precision.
-type Float16Type struct{}
-
-func (t *Float16Type) ID() Type            { return FLOAT16 }
-func (t *Float16Type) Name() string        { return "float16" }
-func (t *Float16Type) String() string      { return "float16" }
-func (t *Float16Type) Fingerprint() string { return typeFingerprint(t) }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *Float16Type) BitWidth() int { return 16 }
-
-func (Float16Type) Bytes() int { return Float16SizeBytes }
-
-func (Float16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Float16SizeBytes)}}
-}
-
-type DecimalType interface {
-	DataType
-	GetPrecision() int32
-	GetScale() int32
-}
-
-func NewDecimalType(id Type, prec, scale int32) (DecimalType, error) {
-	switch id {
-	case DECIMAL128:
-		return &Decimal128Type{Precision: prec, Scale: scale}, nil
-	case DECIMAL256:
-		return &Decimal256Type{Precision: prec, Scale: scale}, nil
-	default:
-		return nil, fmt.Errorf("%w: must use DECIMAL128 or DECIMAL256 to create a DecimalType", ErrInvalid)
-	}
-}
-
-// Decimal128Type represents a fixed-size 128-bit decimal type.
-type Decimal128Type struct {
-	Precision int32
-	Scale     int32
-}
-
-func (*Decimal128Type) ID() Type      { return DECIMAL128 }
-func (*Decimal128Type) Name() string  { return "decimal" }
-func (*Decimal128Type) BitWidth() int { return 128 }
-func (*Decimal128Type) Bytes() int    { return Decimal128SizeBytes }
-func (t *Decimal128Type) String() string {
-	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
-}
-func (t *Decimal128Type) Fingerprint() string {
-	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
-}
-func (t *Decimal128Type) GetPrecision() int32 { return t.Precision }
-func (t *Decimal128Type) GetScale() int32     { return t.Scale }
-
-func (Decimal128Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal128SizeBytes)}}
-}
-
-// Decimal256Type represents a fixed-size 256-bit decimal type.
-type Decimal256Type struct {
-	Precision int32
-	Scale     int32
-}
-
-func (*Decimal256Type) ID() Type      { return DECIMAL256 }
-func (*Decimal256Type) Name() string  { return "decimal256" }
-func (*Decimal256Type) BitWidth() int { return 256 }
-func (*Decimal256Type) Bytes() int    { return Decimal256SizeBytes }
-func (t *Decimal256Type) String() string {
-	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
-}
-func (t *Decimal256Type) Fingerprint() string {
-	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
-}
-func (t *Decimal256Type) GetPrecision() int32 { return t.Precision }
-func (t *Decimal256Type) GetScale() int32     { return t.Scale }
-
-func (Decimal256Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal256SizeBytes)}}
-}
-
-// MonthInterval represents a number of months.
-type MonthInterval int32
-
-func (m *MonthInterval) UnmarshalJSON(data []byte) error {
-	var val struct {
-		Months int32 `json:"months"`
-	}
-	if err := json.Unmarshal(data, &val); err != nil {
-		return err
-	}
-
-	*m = MonthInterval(val.Months)
-	return nil
-}
-
-func (m MonthInterval) MarshalJSON() ([]byte, error) {
-	return json.Marshal(struct {
-		Months int32 `json:"months"`
-	}{int32(m)})
-}
-
-// MonthIntervalType is encoded as a 32-bit signed integer,
-// representing a number of months.
-type MonthIntervalType struct{}
-
-func (*MonthIntervalType) ID() Type            { return INTERVAL_MONTHS }
-func (*MonthIntervalType) Name() string        { return "month_interval" }
-func (*MonthIntervalType) String() string      { return "month_interval" }
-func (*MonthIntervalType) Fingerprint() string { return typeIDFingerprint(INTERVAL_MONTHS) + "M" }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *MonthIntervalType) BitWidth() int { return 32 }
-
-func (MonthIntervalType) Bytes() int { return Int32SizeBytes }
-func (MonthIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthIntervalSizeBytes)}}
-}
-
-// DayTimeInterval represents a number of days and milliseconds (fraction of day).
-type DayTimeInterval struct {
-	Days         int32 `json:"days"`
-	Milliseconds int32 `json:"milliseconds"`
-}
-
-// DayTimeIntervalType is encoded as a pair of 32-bit signed integer,
-// representing a number of days and milliseconds (fraction of day).
-type DayTimeIntervalType struct{}
-
-func (*DayTimeIntervalType) ID() Type            { return INTERVAL_DAY_TIME }
-func (*DayTimeIntervalType) Name() string        { return "day_time_interval" }
-func (*DayTimeIntervalType) String() string      { return "day_time_interval" }
-func (*DayTimeIntervalType) Fingerprint() string { return typeIDFingerprint(INTERVAL_DAY_TIME) + "d" }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *DayTimeIntervalType) BitWidth() int { return 64 }
-
-func (DayTimeIntervalType) Bytes() int { return DayTimeIntervalSizeBytes }
-func (DayTimeIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(DayTimeIntervalSizeBytes)}}
-}
-
-// MonthDayNanoInterval represents a number of months, days and nanoseconds (fraction of day).
-type MonthDayNanoInterval struct {
-	Months      int32 `json:"months"`
-	Days        int32 `json:"days"`
-	Nanoseconds int64 `json:"nanoseconds"`
-}
-
-// MonthDayNanoIntervalType is encoded as two signed 32-bit integers representing
-// a number of months and a number of days, followed by a 64-bit integer representing
-// the number of nanoseconds since midnight for fractions of a day.
-type MonthDayNanoIntervalType struct{}
-
-func (*MonthDayNanoIntervalType) ID() Type       { return INTERVAL_MONTH_DAY_NANO }
-func (*MonthDayNanoIntervalType) Name() string   { return "month_day_nano_interval" }
-func (*MonthDayNanoIntervalType) String() string { return "month_day_nano_interval" }
-func (*MonthDayNanoIntervalType) Fingerprint() string {
-	return typeIDFingerprint(INTERVAL_MONTH_DAY_NANO) + "N"
-}
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (*MonthDayNanoIntervalType) BitWidth() int { return 128 }
-func (*MonthDayNanoIntervalType) Bytes() int    { return MonthDayNanoIntervalSizeBytes }
-func (MonthDayNanoIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthDayNanoIntervalSizeBytes)}}
-}
-
-type TimestampConvertOp int8
-
-const (
-	ConvDIVIDE = iota
-	ConvMULTIPLY
-)
-
-var timestampConversion = [...][4]struct {
-	op     TimestampConvertOp
-	factor int64
-}{
-	Nanosecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Nanosecond)},
-		Microsecond: {ConvDIVIDE, int64(time.Microsecond)},
-		Millisecond: {ConvDIVIDE, int64(time.Millisecond)},
-		Second:      {ConvDIVIDE, int64(time.Second)},
-	},
-	Microsecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Microsecond)},
-		Microsecond: {ConvMULTIPLY, 1},
-		Millisecond: {ConvDIVIDE, int64(time.Millisecond / time.Microsecond)},
-		Second:      {ConvDIVIDE, int64(time.Second / time.Microsecond)},
-	},
-	Millisecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Millisecond)},
-		Microsecond: {ConvMULTIPLY, int64(time.Millisecond / time.Microsecond)},
-		Millisecond: {ConvMULTIPLY, 1},
-		Second:      {ConvDIVIDE, int64(time.Second / time.Millisecond)},
-	},
-	Second: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Second)},
-		Microsecond: {ConvMULTIPLY, int64(time.Second / time.Microsecond)},
-		Millisecond: {ConvMULTIPLY, int64(time.Second / time.Millisecond)},
-		Second:      {ConvMULTIPLY, 1},
-	},
-}
-
-func GetTimestampConvert(in, out TimeUnit) (op TimestampConvertOp, factor int64) {
-	conv := timestampConversion[int(in)][int(out)]
-	return conv.op, conv.factor
-}
-
-func ConvertTimestampValue(in, out TimeUnit, value int64) int64 {
-	conv := timestampConversion[int(in)][int(out)]
-	switch conv.op {
-	case ConvMULTIPLY:
-		return value * conv.factor
-	case ConvDIVIDE:
-		return value / conv.factor
-	}
-
-	return 0
-}
-
-// DictionaryType represents categorical or dictionary-encoded in-memory data
-// It contains a dictionary-encoded value type (any type) and an index type
-// (any integer type).
-type DictionaryType struct {
-	IndexType DataType
-	ValueType DataType
-	Ordered   bool
-}
-
-func (*DictionaryType) ID() Type        { return DICTIONARY }
-func (*DictionaryType) Name() string    { return "dictionary" }
-func (d *DictionaryType) BitWidth() int { return d.IndexType.(FixedWidthDataType).BitWidth() }
-func (d *DictionaryType) Bytes() int    { return d.IndexType.(FixedWidthDataType).Bytes() }
-func (d *DictionaryType) String() string {
-	return fmt.Sprintf("%s<values=%s, indices=%s, ordered=%t>",
-		d.Name(), d.ValueType, d.IndexType, d.Ordered)
-}
-func (d *DictionaryType) Fingerprint() string {
-	indexFingerprint := d.IndexType.Fingerprint()
-	valueFingerprint := d.ValueType.Fingerprint()
-	ordered := "1"
-	if !d.Ordered {
-		ordered = "0"
-	}
-
-	if len(valueFingerprint) > 0 {
-		return typeFingerprint(d) + indexFingerprint + valueFingerprint + ordered
-	}
-	return ordered
-}
-
-func (d *DictionaryType) Layout() DataTypeLayout {
-	layout := d.IndexType.Layout()
-	layout.HasDict = true
-	return layout
-}
-
-var (
-	FixedWidthTypes = struct {
-		Boolean              FixedWidthDataType
-		Date32               FixedWidthDataType
-		Date64               FixedWidthDataType
-		DayTimeInterval      FixedWidthDataType
-		Duration_s           FixedWidthDataType
-		Duration_ms          FixedWidthDataType
-		Duration_us          FixedWidthDataType
-		Duration_ns          FixedWidthDataType
-		Float16              FixedWidthDataType
-		MonthInterval        FixedWidthDataType
-		Time32s              FixedWidthDataType
-		Time32ms             FixedWidthDataType
-		Time64us             FixedWidthDataType
-		Time64ns             FixedWidthDataType
-		Timestamp_s          FixedWidthDataType
-		Timestamp_ms         FixedWidthDataType
-		Timestamp_us         FixedWidthDataType
-		Timestamp_ns         FixedWidthDataType
-		MonthDayNanoInterval FixedWidthDataType
-	}{
-		Boolean:              &BooleanType{},
-		Date32:               &Date32Type{},
-		Date64:               &Date64Type{},
-		DayTimeInterval:      &DayTimeIntervalType{},
-		Duration_s:           &DurationType{Unit: Second},
-		Duration_ms:          &DurationType{Unit: Millisecond},
-		Duration_us:          &DurationType{Unit: Microsecond},
-		Duration_ns:          &DurationType{Unit: Nanosecond},
-		Float16:              &Float16Type{},
-		MonthInterval:        &MonthIntervalType{},
-		Time32s:              &Time32Type{Unit: Second},
-		Time32ms:             &Time32Type{Unit: Millisecond},
-		Time64us:             &Time64Type{Unit: Microsecond},
-		Time64ns:             &Time64Type{Unit: Nanosecond},
-		Timestamp_s:          &TimestampType{Unit: Second, TimeZone: "UTC"},
-		Timestamp_ms:         &TimestampType{Unit: Millisecond, TimeZone: "UTC"},
-		Timestamp_us:         &TimestampType{Unit: Microsecond, TimeZone: "UTC"},
-		Timestamp_ns:         &TimestampType{Unit: Nanosecond, TimeZone: "UTC"},
-		MonthDayNanoInterval: &MonthDayNanoIntervalType{},
-	}
-
-	_ FixedWidthDataType = (*FixedSizeBinaryType)(nil)
-)
diff --git a/go/arrow/datatype_fixedwidth_test.go b/go/arrow/datatype_fixedwidth_test.go
deleted file mode 100644
index fbd1334626774..0000000000000
--- a/go/arrow/datatype_fixedwidth_test.go
+++ /dev/null
@@ -1,440 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/stretchr/testify/assert"
-)
-
-// TestTimeUnit_String verifies each time unit matches its string representation.
-func TestTimeUnit_String(t *testing.T) {
-	tests := []struct {
-		u   arrow.TimeUnit
-		exp string
-	}{
-		{arrow.Nanosecond, "ns"},
-		{arrow.Microsecond, "us"},
-		{arrow.Millisecond, "ms"},
-		{arrow.Second, "s"},
-	}
-	for _, test := range tests {
-		t.Run(test.exp, func(t *testing.T) {
-			assert.Equal(t, test.exp, test.u.String())
-		})
-	}
-}
-
-func TestDecimal128Type(t *testing.T) {
-	for _, tc := range []struct {
-		precision int32
-		scale     int32
-		want      string
-	}{
-		{1, 10, "decimal(1, 10)"},
-		{10, 10, "decimal(10, 10)"},
-		{10, 1, "decimal(10, 1)"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Decimal128Type{Precision: tc.precision, Scale: tc.scale}
-			if got, want := dt.BitWidth(), 128; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DECIMAL128; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestDecimal256Type(t *testing.T) {
-	for _, tc := range []struct {
-		precision int32
-		scale     int32
-		want      string
-	}{
-		{1, 10, "decimal256(1, 10)"},
-		{10, 10, "decimal256(10, 10)"},
-		{10, 1, "decimal256(10, 1)"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Decimal256Type{Precision: tc.precision, Scale: tc.scale}
-			if got, want := dt.BitWidth(), 256; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DECIMAL256; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestFixedSizeBinaryType(t *testing.T) {
-	for _, tc := range []struct {
-		byteWidth int
-		want      string
-	}{
-		{1, "fixed_size_binary[1]"},
-		{8, "fixed_size_binary[8]"},
-		{100, "fixed_size_binary[100]"},
-		{100000000, "fixed_size_binary[100000000]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.FixedSizeBinaryType{tc.byteWidth}
-			if got, want := dt.BitWidth(), 8*tc.byteWidth; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "fixed_size_binary"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.FIXED_SIZE_BINARY; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestTimestampType(t *testing.T) {
-	for _, tc := range []struct {
-		unit     arrow.TimeUnit
-		timeZone string
-		want     string
-	}{
-		{arrow.Nanosecond, "CST", "timestamp[ns, tz=CST]"},
-		{arrow.Microsecond, "EST", "timestamp[us, tz=EST]"},
-		{arrow.Millisecond, "UTC", "timestamp[ms, tz=UTC]"},
-		{arrow.Second, "", "timestamp[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.TimestampType{Unit: tc.unit, TimeZone: tc.timeZone}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "timestamp"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIMESTAMP; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestTimestampToTime(t *testing.T) {
-	ts := arrow.Timestamp(11865225600000)
-	tm := ts.ToTime(arrow.Millisecond)
-
-	assert.Equal(t, "2345-12-30 00:00:00", tm.Format("2006-01-02 15:04:05.999"))
-}
-
-func TestTimestampType_GetToTimeFunc(t *testing.T) {
-	typUTC := &arrow.TimestampType{Unit: arrow.Millisecond}
-	toTimeUTC, err := typUTC.GetToTimeFunc()
-	assert.NoError(t, err)
-
-	typNY := &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "America/New_York"}
-	toTimeNY, err := typNY.GetToTimeFunc()
-	assert.NoError(t, err)
-
-	ts := arrow.Timestamp(11865225600000)
-	assert.Equal(t, "2345-12-30T00:00:00Z", toTimeUTC(ts).Format(time.RFC3339))
-	assert.Equal(t, "2345-12-29T19:00:00-05:00", toTimeNY(ts).Format(time.RFC3339))
-}
-
-// Test race condition from GH-38795
-func TestGetToTimeFuncRace(t *testing.T) {
-	var (
-		wg         sync.WaitGroup
-		w          = make(chan bool)
-		routineNum = 10
-	)
-
-	wg.Add(routineNum)
-	for i := 0; i < routineNum; i++ {
-		go func() {
-			defer wg.Done()
-
-			<-w
-
-			_, _ = arrow.FixedWidthTypes.Timestamp_s.(*arrow.TimestampType).GetToTimeFunc()
-		}()
-	}
-
-	close(w)
-
-	wg.Wait()
-}
-
-func TestTime32Type(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Millisecond, "time32[ms]"},
-		{arrow.Second, "time32[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Time32Type{tc.unit}
-			if got, want := dt.BitWidth(), 32; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "time32"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIME32; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-
-	for _, tc := range []struct {
-		unit    arrow.TimeUnit
-		str     string
-		want    arrow.Time32
-		wantErr bool
-	}{
-		{arrow.Second, "12:21", arrow.Time32(12*3600 + 21*60), false},
-		{arrow.Second, "02:30:45", arrow.Time32(2*3600 + 30*60 + 45), false},
-		{arrow.Second, "21:21:21.21", arrow.Time32(0), true},
-		{arrow.Millisecond, "21:21:21.21", arrow.Time32(21*3600000 + 21*60000 + 21*1000 + 210), false},
-		{arrow.Millisecond, "15:02:04.123", arrow.Time32(15*3600000 + 2*60000 + 4*1000 + 123), false},
-		{arrow.Millisecond, "12:12:12.1212", arrow.Time32(0), true},
-		{arrow.Microsecond, "10:10:10", arrow.Time32(0), true},
-		{arrow.Nanosecond, "10:10:10", arrow.Time32(0), true},
-	} {
-		t.Run("FromString", func(t *testing.T) {
-			v, e := arrow.Time32FromString(tc.str, tc.unit)
-			assert.Equal(t, tc.want, v)
-			if tc.wantErr {
-				assert.Error(t, e)
-			} else {
-				assert.NoError(t, e)
-			}
-		})
-	}
-}
-
-func TestTime64Type(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Nanosecond, "time64[ns]"},
-		{arrow.Microsecond, "time64[us]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Time64Type{tc.unit}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "time64"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIME64; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-
-	const (
-		h  = time.Hour
-		m  = time.Minute
-		s  = time.Second
-		us = time.Microsecond
-		ns = time.Nanosecond
-	)
-
-	for _, tc := range []struct {
-		unit    arrow.TimeUnit
-		str     string
-		want    arrow.Time64
-		wantErr bool
-	}{
-		{arrow.Second, "12:21", arrow.Time64(0), true},
-		{arrow.Millisecond, "21:21:21.21", arrow.Time64(0), true},
-		{arrow.Microsecond, "10:10:10", arrow.Time64((10*h + 10*m + 10*s).Microseconds()), false},
-		{arrow.Microsecond, "22:10:15.123456", arrow.Time64((22*h + 10*m + 15*s + 123456*us).Microseconds()), false},
-		{arrow.Microsecond, "12:34:56.78901234", arrow.Time64(0), true},
-		{arrow.Nanosecond, "12:34:56.78901234", arrow.Time64(12*h + 34*m + 56*s + 789012340), false},
-		{arrow.Nanosecond, "12:34:56.123456789 9", arrow.Time64(0), true},
-	} {
-		t.Run("FromString", func(t *testing.T) {
-			v, e := arrow.Time64FromString(tc.str, tc.unit)
-			assert.Equal(t, tc.want, v)
-			if tc.wantErr {
-				assert.Error(t, e)
-			} else {
-				assert.NoError(t, e)
-			}
-		})
-	}
-}
-
-func TestDurationType(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Nanosecond, "duration[ns]"},
-		{arrow.Microsecond, "duration[us]"},
-		{arrow.Millisecond, "duration[ms]"},
-		{arrow.Second, "duration[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.DurationType{tc.unit}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "duration"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DURATION; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanType(t *testing.T) {
-	dt := arrow.BooleanType{}
-	if got, want := dt.BitWidth(), 1; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "bool"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.BOOL; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "bool"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestFloat16Type(t *testing.T) {
-	dt := arrow.Float16Type{}
-	if got, want := dt.BitWidth(), 16; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "float16"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.FLOAT16; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "float16"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestDayTimeIntervalType(t *testing.T) {
-	dt := arrow.DayTimeIntervalType{}
-	if got, want := dt.BitWidth(), 64; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "day_time_interval"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.INTERVAL_DAY_TIME; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "day_time_interval"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthIntervalType(t *testing.T) {
-	dt := arrow.MonthIntervalType{}
-	if got, want := dt.BitWidth(), 32; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "month_interval"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.INTERVAL_MONTHS; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "month_interval"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestDateFromTime(t *testing.T) {
-	loc, _ := time.LoadLocation("Asia/Hong_Kong")
-	tm := time.Date(2024, time.January, 18, 3, 0, 0, 0, loc)
-
-	wantD32 := time.Date(2024, time.January, 17, 0, 0, 0, 0, time.UTC).Truncate(24*time.Hour).Unix() / int64((time.Hour * 24).Seconds())
-	wantD64 := time.Date(2024, time.January, 17, 0, 0, 0, 0, time.UTC).UnixMilli()
-	assert.EqualValues(t, wantD64, arrow.Date64FromTime(tm))
-	assert.EqualValues(t, wantD32, arrow.Date32FromTime(tm))
-}
diff --git a/go/arrow/datatype_nested.go b/go/arrow/datatype_nested.go
deleted file mode 100644
index 579b2c3306003..0000000000000
--- a/go/arrow/datatype_nested.go
+++ /dev/null
@@ -1,993 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"errors"
-	"fmt"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-type (
-	NestedType interface {
-		DataType
-
-		// Fields method provides a copy of NestedType fields
-		// (so it can be safely mutated and will not result in updating the NestedType).
-		Fields() []Field
-		// NumFields provides the number of fields without allocating.
-		NumFields() int
-	}
-
-	ListLikeType interface {
-		DataType
-		Elem() DataType
-		ElemField() Field
-	}
-
-	VarLenListLikeType interface {
-		ListLikeType
-	}
-)
-
-// ListType describes a nested type in which each array slot contains
-// a variable-size sequence of values, all having the same relative type.
-type ListType struct {
-	elem Field
-}
-
-func ListOfField(f Field) *ListType {
-	if f.Type == nil {
-		panic("arrow: nil type for list field")
-	}
-	return &ListType{elem: f}
-}
-
-// ListOf returns the list type with element type t.
-// For example, if t represents int32, ListOf(t) represents []int32.
-//
-// ListOf panics if t is nil or invalid. NullableElem defaults to true
-func ListOf(t DataType) *ListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// ListOfNonNullable is like ListOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func ListOfNonNullable(t DataType) *ListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*ListType) ID() Type     { return LIST }
-func (*ListType) Name() string { return "list" }
-
-func (t *ListType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("list<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("list<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *ListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *ListType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *ListType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the ListType's element type.
-func (t *ListType) Elem() DataType { return t.elem.Type }
-
-func (t *ListType) ElemField() Field {
-	return t.elem
-}
-
-func (t *ListType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *ListType) NumFields() int { return 1 }
-
-func (*ListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (*ListType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type LargeListType struct {
-	ListType
-}
-
-func (LargeListType) ID() Type     { return LARGE_LIST }
-func (LargeListType) Name() string { return "large_list" }
-func (t *LargeListType) String() string {
-	return "large_" + t.ListType.String()
-}
-
-func (t *LargeListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (*LargeListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-func (*LargeListType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-
-func LargeListOfField(f Field) *LargeListType {
-	if f.Type == nil {
-		panic("arrow: nil type for list field")
-	}
-	return &LargeListType{ListType{elem: f}}
-}
-
-// LargeListOf returns the list type with element type t.
-// For example, if t represents int32, LargeListOf(t) represents []int32.
-//
-// LargeListOf panics if t is nil or invalid. NullableElem defaults to true
-func LargeListOf(t DataType) *LargeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListType{ListType{elem: Field{Name: "item", Type: t, Nullable: true}}}
-}
-
-// LargeListOfNonNullable is like ListOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func LargeListOfNonNullable(t DataType) *LargeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListType{ListType{elem: Field{Name: "item", Type: t, Nullable: false}}}
-}
-
-// FixedSizeListType describes a nested type in which each array slot contains
-// a fixed-size sequence of values, all having the same relative type.
-type FixedSizeListType struct {
-	n    int32 // number of elements in the list
-	elem Field
-}
-
-func FixedSizeListOfField(n int32, f Field) *FixedSizeListType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: f}
-}
-
-// FixedSizeListOf returns the list type with element type t.
-// For example, if t represents int32, FixedSizeListOf(10, t) represents [10]int32.
-//
-// FixedSizeListOf panics if t is nil or invalid.
-// FixedSizeListOf panics if n is <= 0.
-// NullableElem defaults to true
-func FixedSizeListOf(n int32, t DataType) *FixedSizeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// FixedSizeListOfNonNullable is like FixedSizeListOf but NullableElem defaults to false
-// indicating that the child type should be marked as non-nullable.
-func FixedSizeListOfNonNullable(n int32, t DataType) *FixedSizeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*FixedSizeListType) ID() Type     { return FIXED_SIZE_LIST }
-func (*FixedSizeListType) Name() string { return "fixed_size_list" }
-func (t *FixedSizeListType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("fixed_size_list<%s: %s, nullable>[%d]", t.elem.Name, t.elem.Type, t.n)
-	}
-	return fmt.Sprintf("fixed_size_list<%s: %s>[%d]", t.elem.Name, t.elem.Type, t.n)
-}
-
-func (t *FixedSizeListType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the FixedSizeListType's element type.
-func (t *FixedSizeListType) Elem() DataType { return t.elem.Type }
-
-// Len returns the FixedSizeListType's size.
-func (t *FixedSizeListType) Len() int32 { return t.n }
-
-func (t *FixedSizeListType) ElemField() Field {
-	return t.elem
-}
-
-func (t *FixedSizeListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return fmt.Sprintf("%s[%d]{%s}", typeFingerprint(t), t.n, child)
-	}
-	return ""
-}
-
-func (t *FixedSizeListType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *FixedSizeListType) NumFields() int { return 1 }
-
-func (*FixedSizeListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap()}}
-}
-
-type ListViewType struct {
-	elem Field
-}
-
-func ListViewOfField(f Field) *ListViewType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: f}
-}
-
-// ListViewOf returns the list-view type with element type t.
-// For example, if t represents int32, ListViewOf(t) represents []int32.
-//
-// ListViewOf panics if t is nil or invalid. NullableElem defaults to true
-func ListViewOf(t DataType) *ListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// ListViewOfNonNullable is like ListViewOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func ListViewOfNonNullable(t DataType) *ListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*ListViewType) ID() Type     { return LIST_VIEW }
-func (*ListViewType) Name() string { return "list_view" }
-
-func (t *ListViewType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("list_view<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("list_view<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *ListViewType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *ListViewType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *ListViewType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the ListViewType's element type.
-func (t *ListViewType) Elem() DataType { return t.elem.Type }
-
-func (t *ListViewType) ElemField() Field {
-	return t.elem
-}
-
-func (t *ListViewType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *ListViewType) NumFields() int { return 1 }
-
-func (*ListViewType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int32SizeBytes), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (*ListViewType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type LargeListViewType struct {
-	elem Field
-}
-
-func LargeListViewOfField(f Field) *LargeListViewType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: f}
-}
-
-// LargeListViewOf returns the list-view type with element type t.
-// For example, if t represents int32, LargeListViewOf(t) represents []int32.
-//
-// LargeListViewOf panics if t is nil or invalid. NullableElem defaults to true
-func LargeListViewOf(t DataType) *LargeListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// LargeListViewOfNonNullable is like LargeListViewOf but NullableElem defaults
-// to false, indicating that the child type should be marked as non-nullable.
-func LargeListViewOfNonNullable(t DataType) *LargeListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*LargeListViewType) ID() Type     { return LARGE_LIST_VIEW }
-func (*LargeListViewType) Name() string { return "large_list_view" }
-
-func (t *LargeListViewType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("large_list_view<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("large_list_view<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *LargeListViewType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *LargeListViewType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *LargeListViewType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the LargeListViewType's element type.
-func (t *LargeListViewType) Elem() DataType { return t.elem.Type }
-
-func (t *LargeListViewType) ElemField() Field {
-	return t.elem
-}
-
-func (t *LargeListViewType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *LargeListViewType) NumFields() int { return 1 }
-
-func (*LargeListViewType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int64SizeBytes), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-func (*LargeListViewType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-
-// StructType describes a nested type parameterized by an ordered sequence
-// of relative types, called its fields.
-type StructType struct {
-	fields []Field
-	index  map[string][]int
-	meta   Metadata
-}
-
-// StructOf returns the struct type with fields fs.
-//
-// StructOf panics if there is a field with an invalid DataType.
-func StructOf(fs ...Field) *StructType {
-	n := len(fs)
-	if n == 0 {
-		return &StructType{}
-	}
-
-	t := &StructType{
-		fields: make([]Field, n),
-		index:  make(map[string][]int, n),
-	}
-	for i, f := range fs {
-		if f.Type == nil {
-			panic("arrow: field with nil DataType")
-		}
-		t.fields[i] = Field{
-			Name:     f.Name,
-			Type:     f.Type,
-			Nullable: f.Nullable,
-			Metadata: f.Metadata.clone(),
-		}
-		if indices, exists := t.index[f.Name]; exists {
-			t.index[f.Name] = append(indices, i)
-		} else {
-			t.index[f.Name] = []int{i}
-		}
-	}
-
-	return t
-}
-
-func (*StructType) ID() Type     { return STRUCT }
-func (*StructType) Name() string { return "struct" }
-
-func (t *StructType) String() string {
-	var o strings.Builder
-	o.WriteString("struct<")
-	for i, f := range t.fields {
-		if i > 0 {
-			o.WriteString(", ")
-		}
-		o.WriteString(fmt.Sprintf("%s: %v", f.Name, f.Type))
-	}
-	o.WriteString(">")
-	return o.String()
-}
-
-// Fields method provides a copy of StructType fields
-// (so it can be safely mutated and will not result in updating the StructType).
-func (t *StructType) Fields() []Field {
-	fields := make([]Field, len(t.fields))
-	copy(fields, t.fields)
-	return fields
-}
-
-func (t *StructType) NumFields() int { return len(t.fields) }
-
-func (t *StructType) Field(i int) Field { return t.fields[i] }
-
-// FieldByName gets the field with the given name.
-//
-// If there are multiple fields with the given name, FieldByName
-// returns the first such field.
-func (t *StructType) FieldByName(name string) (Field, bool) {
-	i, ok := t.index[name]
-	if !ok {
-		return Field{}, false
-	}
-	return t.fields[i[0]], true
-}
-
-// FieldIdx gets the index of the field with the given name.
-//
-// If there are multiple fields with the given name, FieldIdx returns
-// the index of the first such field.
-func (t *StructType) FieldIdx(name string) (int, bool) {
-	i, ok := t.index[name]
-	if ok {
-		return i[0], true
-	}
-	return -1, false
-}
-
-// FieldsByName returns all fields with the given name.
-func (t *StructType) FieldsByName(n string) ([]Field, bool) {
-	indices, ok := t.index[n]
-	if !ok {
-		return nil, ok
-	}
-	fields := make([]Field, 0, len(indices))
-	for _, v := range indices {
-		fields = append(fields, t.fields[v])
-	}
-	return fields, ok
-}
-
-// FieldIndices returns indices of all fields with the given name, or nil.
-func (t *StructType) FieldIndices(name string) []int {
-	return t.index[name]
-}
-
-func (t *StructType) Fingerprint() string {
-	var b strings.Builder
-	b.WriteString(typeFingerprint(t))
-	b.WriteByte('{')
-	for _, c := range t.fields {
-		child := c.Fingerprint()
-		if len(child) == 0 {
-			return ""
-		}
-		b.WriteString(child)
-		b.WriteByte(';')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
-
-func (*StructType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap()}}
-}
-
-type MapType struct {
-	value      *ListType
-	KeysSorted bool
-}
-
-func MapOf(key, item DataType) *MapType {
-	if key == nil || item == nil {
-		panic("arrow: nil key or item type for MapType")
-	}
-
-	return &MapType{value: ListOf(StructOf(Field{Name: "key", Type: key}, Field{Name: "value", Type: item, Nullable: true}))}
-}
-
-func MapOfWithMetadata(key DataType, keyMetadata Metadata, item DataType, itemMetadata Metadata) *MapType {
-	if key == nil || item == nil {
-		panic("arrow: nil key or item type for MapType")
-	}
-
-	return &MapType{value: ListOf(StructOf(Field{
-		Name:     "key",
-		Type:     key,
-		Metadata: keyMetadata,
-	}, Field{
-		Name:     "value",
-		Type:     item,
-		Nullable: true,
-		Metadata: itemMetadata,
-	}))}
-}
-
-func (*MapType) ID() Type     { return MAP }
-func (*MapType) Name() string { return "map" }
-
-func (t *MapType) String() string {
-	var o strings.Builder
-	o.WriteString(fmt.Sprintf("map<%s, %s",
-		t.value.Elem().(*StructType).Field(0).Type,
-		t.value.Elem().(*StructType).Field(1).Type))
-	if t.KeysSorted {
-		o.WriteString(", keys_sorted")
-	}
-	if t.ItemField().Nullable {
-		o.WriteString(", items_nullable")
-	} else {
-		o.WriteString(", items_non_nullable")
-	}
-	o.WriteString(">")
-	return o.String()
-}
-
-func (t *MapType) KeyField() Field    { return t.value.Elem().(*StructType).Field(0) }
-func (t *MapType) KeyType() DataType  { return t.KeyField().Type }
-func (t *MapType) ItemField() Field   { return t.value.Elem().(*StructType).Field(1) }
-func (t *MapType) ItemType() DataType { return t.ItemField().Type }
-
-// Deprecated: use MapType.Elem().(*StructType) instead
-func (t *MapType) ValueType() *StructType { return t.Elem().(*StructType) }
-
-// Deprecated: use MapType.ElemField() instead
-func (t *MapType) ValueField() Field { return t.ElemField() }
-
-// Elem returns the MapType's element type (if treating MapType as ListLikeType)
-func (t *MapType) Elem() DataType { return t.value.Elem() }
-
-// ElemField returns the MapType's element field (if treating MapType as ListLikeType)
-func (t *MapType) ElemField() Field { return Field{Name: "entries", Type: t.Elem()} }
-
-func (t *MapType) SetItemNullable(nullable bool) {
-	t.value.Elem().(*StructType).fields[1].Nullable = nullable
-}
-
-func (t *MapType) Fingerprint() string {
-	keyFingerprint := t.KeyType().Fingerprint()
-	itemFingerprint := t.ItemType().Fingerprint()
-	if keyFingerprint == "" || itemFingerprint == "" {
-		return ""
-	}
-
-	fingerprint := typeFingerprint(t)
-	if t.KeysSorted {
-		fingerprint += "s"
-	}
-	return fingerprint + "{" + keyFingerprint + itemFingerprint + "}"
-}
-
-func (t *MapType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *MapType) NumFields() int { return 1 }
-
-func (t *MapType) Layout() DataTypeLayout {
-	return t.value.Layout()
-}
-
-func (*MapType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type (
-	// UnionTypeCode is an alias to int8 which is the type of the ids
-	// used for union arrays.
-	UnionTypeCode = int8
-	UnionMode     int8
-)
-
-const (
-	MaxUnionTypeCode    UnionTypeCode = 127
-	InvalidUnionChildID int           = -1
-
-	SparseMode UnionMode = iota // SPARSE
-	DenseMode                   // DENSE
-)
-
-// UnionType is an interface to encompass both Dense and Sparse Union types.
-//
-// A UnionType is a nested type where each logical value is taken
-// from a single child. A buffer of 8-bit type ids (typed as UnionTypeCode)
-// indicates which child a given logical value is to be taken from. This is
-// represented as the "child id" or "child index", which is the index into the
-// list of child fields for a given child.
-type UnionType interface {
-	NestedType
-	// Mode returns either SparseMode or DenseMode depending on the current
-	// concrete data type.
-	Mode() UnionMode
-	// ChildIDs returns a slice of ints to map UnionTypeCode values to
-	// the index in the Fields that represents the given Type. It is
-	// initialized with all values being InvalidUnionChildID (-1)
-	// before being populated based on the TypeCodes and fields of the type.
-	// The field for a given type can be retrieved by Fields()[ChildIDs()[typeCode]]
-	ChildIDs() []int
-	// TypeCodes returns the list of available type codes for this union type
-	// which will correspond to indexes into the ChildIDs slice to locate the
-	// appropriate child. A union Array contains a buffer of these type codes
-	// which indicate for a given index, which child has the value for that index.
-	TypeCodes() []UnionTypeCode
-	// MaxTypeCode returns the value of the largest TypeCode in the list of typecodes
-	// that are defined by this Union type
-	MaxTypeCode() UnionTypeCode
-}
-
-// UnionOf returns an appropriate union type for the given Mode (Sparse or Dense),
-// child fields, and type codes. len(fields) == len(typeCodes) must be true, or else
-// this will panic. len(fields) can be 0.
-func UnionOf(mode UnionMode, fields []Field, typeCodes []UnionTypeCode) UnionType {
-	switch mode {
-	case SparseMode:
-		return SparseUnionOf(fields, typeCodes)
-	case DenseMode:
-		return DenseUnionOf(fields, typeCodes)
-	default:
-		panic("arrow: invalid union mode")
-	}
-}
-
-type unionType struct {
-	children  []Field
-	typeCodes []UnionTypeCode
-	childIDs  [int(MaxUnionTypeCode) + 1]int
-}
-
-func (t *unionType) init(fields []Field, typeCodes []UnionTypeCode) {
-	// initialize all child IDs to -1
-	t.childIDs[0] = InvalidUnionChildID
-	for i := 1; i < len(t.childIDs); i *= 2 {
-		copy(t.childIDs[i:], t.childIDs[:i])
-	}
-
-	t.children = fields
-	t.typeCodes = typeCodes
-
-	for i, tc := range t.typeCodes {
-		t.childIDs[tc] = i
-	}
-}
-
-// Fields method provides a copy of union type fields
-// (so it can be safely mutated and will not result in updating the union type).
-func (t *unionType) Fields() []Field {
-	fields := make([]Field, len(t.children))
-	copy(fields, t.children)
-	return fields
-}
-
-func (t *unionType) NumFields() int { return len(t.children) }
-
-func (t *unionType) TypeCodes() []UnionTypeCode { return t.typeCodes }
-func (t *unionType) ChildIDs() []int            { return t.childIDs[:] }
-
-func (t *unionType) validate(fields []Field, typeCodes []UnionTypeCode, _ UnionMode) error {
-	if len(fields) != len(typeCodes) {
-		return errors.New("arrow: union types should have the same number of fields as type codes")
-	}
-
-	for _, c := range typeCodes {
-		if c < 0 || c > MaxUnionTypeCode {
-			return errors.New("arrow: union type code out of bounds")
-		}
-	}
-	return nil
-}
-
-func (t *unionType) MaxTypeCode() (max UnionTypeCode) {
-	if len(t.typeCodes) == 0 {
-		return
-	}
-
-	max = t.typeCodes[0]
-	for _, c := range t.typeCodes[1:] {
-		if c > max {
-			max = c
-		}
-	}
-	return
-}
-
-func (t *unionType) String() string {
-	var b strings.Builder
-	b.WriteByte('<')
-	for i := range t.typeCodes {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		fmt.Fprintf(&b, "%s=%d", t.children[i], t.typeCodes[i])
-	}
-	b.WriteByte('>')
-	return b.String()
-}
-
-func (t *unionType) fingerprint() string {
-	var b strings.Builder
-	for _, c := range t.typeCodes {
-		fmt.Fprintf(&b, ":%d", c)
-	}
-	b.WriteString("]{")
-	for _, c := range t.children {
-		fingerprint := c.Fingerprint()
-		if len(fingerprint) == 0 {
-			return ""
-		}
-		b.WriteString(fingerprint)
-		b.WriteByte(';')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
-
-func fieldsFromArrays(arrays []Array, names ...string) (ret []Field) {
-	ret = make([]Field, len(arrays))
-	if len(names) == 0 {
-		for i, c := range arrays {
-			ret[i] = Field{Name: strconv.Itoa(i), Type: c.DataType(), Nullable: true}
-		}
-	} else {
-		debug.Assert(len(names) == len(arrays), "mismatch of arrays and names")
-		for i, c := range arrays {
-			ret[i] = Field{Name: names[i], Type: c.DataType(), Nullable: true}
-		}
-	}
-	return
-}
-
-// SparseUnionType is the concrete type for Sparse union data.
-//
-// A sparse union is a nested type where each logical value is taken
-// from a single child. A buffer of 8-bit type ids indicates which child
-// a given logical value is to be taken from.
-//
-// In a sparse union, each child array will have the same length as the
-// union array itself, regardless of the actual number of union values which
-// refer to it.
-//
-// Unlike most other types, unions do not have a top-level validity bitmap.
-type SparseUnionType struct {
-	unionType
-}
-
-// SparseUnionFromArrays enables creating a union type from a list of Arrays,
-// field names, and type codes. len(fields) should be either 0 or equal to len(children).
-// len(codes) should also be either 0, or equal to len(children).
-//
-// If len(fields) == 0, then the fields will be named numerically as "0", "1", "2"...
-// and so on. If len(codes) == 0, then the type codes will be constructed as
-// [0, 1, 2, ..., n].
-func SparseUnionFromArrays(children []Array, fields []string, codes []UnionTypeCode) *SparseUnionType {
-	if len(codes) == 0 {
-		codes = make([]UnionTypeCode, len(children))
-		for i := range children {
-			codes[i] = UnionTypeCode(i)
-		}
-	}
-	return SparseUnionOf(fieldsFromArrays(children, fields...), codes)
-}
-
-// SparseUnionOf is equivalent to UnionOf(arrow.SparseMode, fields, typeCodes),
-// constructing a SparseUnionType from a list of fields and type codes.
-//
-// If len(fields) != len(typeCodes) this will panic. They are allowed to be
-// of length 0.
-func SparseUnionOf(fields []Field, typeCodes []UnionTypeCode) *SparseUnionType {
-	ret := &SparseUnionType{}
-	if err := ret.validate(fields, typeCodes, ret.Mode()); err != nil {
-		panic(err)
-	}
-	ret.init(fields, typeCodes)
-	return ret
-}
-
-func (SparseUnionType) ID() Type        { return SPARSE_UNION }
-func (SparseUnionType) Name() string    { return "sparse_union" }
-func (SparseUnionType) Mode() UnionMode { return SparseMode }
-func (t *SparseUnionType) Fingerprint() string {
-	return typeFingerprint(t) + "[s" + t.fingerprint()
-}
-func (SparseUnionType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecFixedWidth(Uint8SizeBytes)}}
-}
-func (t *SparseUnionType) String() string {
-	return t.Name() + t.unionType.String()
-}
-
-// DenseUnionType is the concrete type for dense union data.
-//
-// A dense union is a nested type where each logical value is taken from a
-// single child, at a specific offset. A buffer of 8-bit type ids (typed
-// as UnionTypeCode) indicates which child a given logical value is to be
-// taken from and a buffer of 32-bit offsets indicating which physical position
-// in the given child array has the logical value for that index.
-//
-// Unlike a sparse union, a dense union allows encoding only the child values
-// which are actually referred to by the union array. This is counterbalanced
-// by the additional footprint of the offsets buffer, and the additional
-// indirection cost when looking up values.
-//
-// Unlike most other types, unions don't have a top-level validity bitmap
-type DenseUnionType struct {
-	unionType
-}
-
-// DenseUnionFromArrays enables creating a union type from a list of Arrays,
-// field names, and type codes. len(fields) should be either 0 or equal to len(children).
-// len(codes) should also be either 0, or equal to len(children).
-//
-// If len(fields) == 0, then the fields will be named numerically as "0", "1", "2"...
-// and so on. If len(codes) == 0, then the type codes will be constructed as
-// [0, 1, 2, ..., n].
-func DenseUnionFromArrays(children []Array, fields []string, codes []UnionTypeCode) *DenseUnionType {
-	if len(codes) == 0 {
-		codes = make([]UnionTypeCode, len(children))
-		for i := range children {
-			codes[i] = UnionTypeCode(i)
-		}
-	}
-	return DenseUnionOf(fieldsFromArrays(children, fields...), codes)
-}
-
-// DenseUnionOf is equivalent to UnionOf(arrow.DenseMode, fields, typeCodes),
-// constructing a DenseUnionType from a list of fields and type codes.
-//
-// If len(fields) != len(typeCodes) this will panic. They are allowed to be
-// of length 0.
-func DenseUnionOf(fields []Field, typeCodes []UnionTypeCode) *DenseUnionType {
-	ret := &DenseUnionType{}
-	if err := ret.validate(fields, typeCodes, ret.Mode()); err != nil {
-		panic(err)
-	}
-	ret.init(fields, typeCodes)
-	return ret
-}
-
-func (DenseUnionType) ID() Type        { return DENSE_UNION }
-func (DenseUnionType) Name() string    { return "dense_union" }
-func (DenseUnionType) Mode() UnionMode { return DenseMode }
-func (t *DenseUnionType) Fingerprint() string {
-	return typeFingerprint(t) + "[s" + t.fingerprint()
-}
-
-func (DenseUnionType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecFixedWidth(Uint8SizeBytes), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (DenseUnionType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-func (t *DenseUnionType) String() string {
-	return t.Name() + t.unionType.String()
-}
-
-type Field struct {
-	Name     string   // Field name
-	Type     DataType // The field's data type
-	Nullable bool     // Fields can be nullable
-	Metadata Metadata // The field's metadata, if any
-}
-
-func (f Field) Fingerprint() string {
-	typeFingerprint := f.Type.Fingerprint()
-	if typeFingerprint == "" {
-		return ""
-	}
-
-	var b strings.Builder
-	b.WriteByte('F')
-	if f.Nullable {
-		b.WriteByte('n')
-	} else {
-		b.WriteByte('N')
-	}
-	b.WriteString(f.Name)
-	b.WriteByte('{')
-	b.WriteString(typeFingerprint)
-	b.WriteByte('}')
-	return b.String()
-}
-
-func (f Field) HasMetadata() bool { return f.Metadata.Len() != 0 }
-
-func (f Field) Equal(o Field) bool {
-	switch {
-	case f.Name != o.Name:
-		return false
-	case f.Nullable != o.Nullable:
-		return false
-	case !TypeEqual(f.Type, o.Type, CheckMetadata()):
-		return false
-	case !f.Metadata.Equal(o.Metadata):
-		return false
-	}
-	return true
-}
-
-func (f Field) String() string {
-	var o strings.Builder
-	nullable := ""
-	if f.Nullable {
-		nullable = ", nullable"
-	}
-	fmt.Fprintf(&o, "%s: type=%v%v", f.Name, f.Type, nullable)
-	if f.HasMetadata() {
-		fmt.Fprintf(&o, "\n%*.smetadata: %v", len(f.Name)+2, "", f.Metadata)
-	}
-	return o.String()
-}
-
-var (
-	_ DataType = (*ListType)(nil)
-	_ DataType = (*LargeListType)(nil)
-	_ DataType = (*FixedSizeListType)(nil)
-	_ DataType = (*StructType)(nil)
-	_ DataType = (*MapType)(nil)
-	_ DataType = (*DenseUnionType)(nil)
-	_ DataType = (*SparseUnionType)(nil)
-
-	_ NestedType = (*ListType)(nil)
-	_ NestedType = (*LargeListType)(nil)
-	_ NestedType = (*FixedSizeListType)(nil)
-	_ NestedType = (*MapType)(nil)
-	_ NestedType = (*DenseUnionType)(nil)
-	_ NestedType = (*SparseUnionType)(nil)
-
-	_ ListLikeType = (*ListType)(nil)
-	_ ListLikeType = (*LargeListType)(nil)
-	_ ListLikeType = (*FixedSizeListType)(nil)
-	_ ListLikeType = (*MapType)(nil)
-
-	_ VarLenListLikeType = (*ListType)(nil)
-	_ VarLenListLikeType = (*LargeListType)(nil)
-	_ VarLenListLikeType = (*ListViewType)(nil)
-	_ VarLenListLikeType = (*LargeListViewType)(nil)
-	_ VarLenListLikeType = (*FixedSizeListType)(nil)
-	_ VarLenListLikeType = (*MapType)(nil)
-)
diff --git a/go/arrow/datatype_nested_test.go b/go/arrow/datatype_nested_test.go
deleted file mode 100644
index fc4c672c6b768..0000000000000
--- a/go/arrow/datatype_nested_test.go
+++ /dev/null
@@ -1,633 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListOf(t *testing.T) {
-	for _, tc := range []DataType{
-		FixedWidthTypes.Boolean,
-		PrimitiveTypes.Int8,
-		PrimitiveTypes.Int16,
-		PrimitiveTypes.Int32,
-		PrimitiveTypes.Int64,
-		PrimitiveTypes.Uint8,
-		PrimitiveTypes.Uint16,
-		PrimitiveTypes.Uint32,
-		PrimitiveTypes.Uint64,
-		PrimitiveTypes.Float32,
-		PrimitiveTypes.Float64,
-		ListOf(PrimitiveTypes.Int32),
-		FixedSizeListOf(10, PrimitiveTypes.Int32),
-		StructOf(),
-	} {
-		t.Run(tc.Name(), func(t *testing.T) {
-			got := ListOf(tc)
-			want := &ListType{elem: Field{Name: "item", Type: tc, Nullable: true}}
-			if !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := got.Name(), "list"; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ID(), LIST; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Elem(), tc; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-
-	for _, dtype := range []DataType{
-		nil,
-		// (*Int32Type)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*ListType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*StructType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-	} {
-		t.Run("invalid", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("test should have panicked but did not")
-				}
-			}()
-
-			_ = ListOf(dtype)
-		})
-	}
-}
-
-func TestStructOf(t *testing.T) {
-	for _, tc := range []struct {
-		fields []Field
-		want   DataType
-	}{
-		{
-			fields: nil,
-			want:   &StructType{fields: nil, index: nil},
-		},
-		{
-			fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32}},
-			want: &StructType{
-				fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32}},
-				index:  map[string][]int{"f1": {0}},
-			},
-		},
-		{
-			fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true}},
-			want: &StructType{
-				fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true}},
-				index:  map[string][]int{"f1": {0}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0}, "": {1}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(PrimitiveTypes.Float64)},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(PrimitiveTypes.Float64)},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(ListOf(StructOf(Field{Name: "f1", Type: PrimitiveTypes.Float64})))},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(ListOf(StructOf(Field{Name: "f1", Type: PrimitiveTypes.Float64})))},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f1", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f1", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0, 2}, "f2": {1}},
-			},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := StructOf(tc.fields...)
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), STRUCT; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "struct"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.NumFields(), len(tc.fields); got != want {
-				t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-			}
-
-			_, ok := got.FieldByName("not-there")
-			if ok {
-				t.Fatalf("expected an error")
-			}
-
-			if len(tc.fields) > 0 {
-				f1, ok := got.FieldByName("f1")
-				if !ok {
-					t.Fatalf("could not retrieve field 'f1'")
-				}
-				if f1.HasMetadata() {
-					t.Fatalf("field 'f1' should not have metadata")
-				}
-
-				for i := range tc.fields {
-					f := got.Field(i)
-					if f.Name != tc.fields[i].Name {
-						t.Fatalf("incorrect named for field[%d]: got=%q, want=%q", i, f.Name, tc.fields[i].Name)
-					}
-				}
-			}
-		})
-	}
-}
-
-func TestStructField(t *testing.T) {
-	fields := []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-		{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-	}
-	ty := StructOf(fields...)
-
-	field, ok := ty.FieldByName("f1")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[0]))
-
-	field, ok = ty.FieldByName("f2")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[1]))
-
-	field, ok = ty.FieldByName("f3")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[2]))
-
-	_, ok = ty.FieldByName("f4")
-	assert.False(t, ok)
-
-	idx, ok := ty.FieldIdx("f1")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 0)
-
-	idx, ok = ty.FieldIdx("f2")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 1)
-
-	idx, ok = ty.FieldIdx("f3")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 2)
-
-	_, ok = ty.FieldIdx("f4")
-	assert.False(t, ok)
-
-	flds, ok := ty.FieldsByName("f1")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[0]})
-
-	flds, ok = ty.FieldsByName("f2")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[1]})
-
-	flds, ok = ty.FieldsByName("f3")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[2]})
-
-	_, ok = ty.FieldsByName("f4")
-	assert.False(t, ok)
-
-	assert.Equal(t, ty.FieldIndices("f1"), []int{0})
-	assert.Equal(t, ty.FieldIndices("f2"), []int{1})
-	assert.Equal(t, ty.FieldIndices("f3"), []int{2})
-	assert.Equal(t, ty.FieldIndices("f4"), []int(nil))
-
-	fields = []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-		{Name: "f1", Type: PrimitiveTypes.Int64},
-	}
-	ty = StructOf(fields...)
-	field, ok = ty.FieldByName("f1")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[0]))
-
-	field, ok = ty.FieldByName("f2")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[1]))
-
-	_, ok = ty.FieldByName("f3")
-	assert.False(t, ok)
-
-	idx, ok = ty.FieldIdx("f1")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 0)
-
-	idx, ok = ty.FieldIdx("f2")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 1)
-
-	_, ok = ty.FieldIdx("f3")
-	assert.False(t, ok)
-
-	flds, ok = ty.FieldsByName("f1")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[0], fields[2]})
-
-	flds, ok = ty.FieldsByName("f2")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[1]})
-
-	_, ok = ty.FieldsByName("f3")
-	assert.False(t, ok)
-
-	assert.Equal(t, ty.FieldIndices("f1"), []int{0, 2})
-	assert.Equal(t, ty.FieldIndices("f2"), []int{1})
-	assert.Equal(t, ty.FieldIndices("f3"), []int(nil))
-}
-
-func TestFieldEqual(t *testing.T) {
-	for _, tc := range []struct {
-		a, b Field
-		want bool
-	}{
-		{
-			a:    Field{},
-			b:    Field{},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "k"})},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "b", Type: PrimitiveTypes.Int32},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Uint32},
-			want: false,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := tc.a.Equal(tc.b)
-			if got != tc.want {
-				t.Fatalf("got=%v, want=%v", got, tc.want)
-			}
-		})
-	}
-}
-
-func TestFixedSizeListOf(t *testing.T) {
-	for _, tc := range []DataType{
-		FixedWidthTypes.Boolean,
-		PrimitiveTypes.Int8,
-		PrimitiveTypes.Int16,
-		PrimitiveTypes.Int32,
-		PrimitiveTypes.Int64,
-		PrimitiveTypes.Uint8,
-		PrimitiveTypes.Uint16,
-		PrimitiveTypes.Uint32,
-		PrimitiveTypes.Uint64,
-		PrimitiveTypes.Float32,
-		PrimitiveTypes.Float64,
-		ListOf(PrimitiveTypes.Int32),
-		FixedSizeListOf(10, PrimitiveTypes.Int32),
-		StructOf(),
-	} {
-		t.Run(tc.Name(), func(t *testing.T) {
-			const size = 3
-			got := FixedSizeListOf(size, tc)
-			want := &FixedSizeListType{elem: Field{Name: "item", Type: tc, Nullable: true}, n: size}
-			if !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := got.Name(), "fixed_size_list"; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ID(), FIXED_SIZE_LIST; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Elem(), tc; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Len(), int32(size); got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-
-	for _, dtype := range []DataType{
-		nil,
-		// (*Int32Type)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*ListType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*StructType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-	} {
-		t.Run("invalid", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("test should have panicked but did not")
-				}
-			}()
-
-			_ = ListOf(dtype)
-		})
-	}
-}
-
-func TestMapOf(t *testing.T) {
-	for _, tc := range []struct {
-		key, item DataType
-		want      DataType
-		str       string
-	}{
-		{
-			key:  BinaryTypes.String,
-			item: PrimitiveTypes.Uint8,
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String},
-				Field{Name: "value", Type: PrimitiveTypes.Uint8, Nullable: true},
-			))},
-			str: "map<utf8, uint8, items_nullable>",
-		},
-		{
-			key:  BinaryTypes.String,
-			item: MapOf(PrimitiveTypes.Uint32, FixedWidthTypes.Date32),
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String},
-				Field{Name: "value", Nullable: true,
-					Type: &MapType{value: ListOf(StructOf(
-						Field{Name: "key", Type: PrimitiveTypes.Uint32},
-						Field{Name: "value", Type: FixedWidthTypes.Date32, Nullable: true},
-					))}},
-			))},
-			str: "map<utf8, map<uint32, date32, items_nullable>, items_nullable>",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := MapOf(tc.key, tc.item)
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), MAP; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "map"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyField().Name, "key"; got != want {
-				t.Fatalf("invalid key field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemField().Name, "value"; got != want {
-				t.Fatalf("invalid item field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyType(), tc.key; got != want {
-				t.Fatalf("invalid key type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemType(), tc.item; got != want {
-				t.Fatalf("invalid item type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.Elem(), StructOf(got.KeyField(), got.ItemField()); !TypeEqual(got, want) {
-				t.Fatalf("invalid value type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.String(), tc.str; got != want {
-				t.Fatalf("invalid String() result. got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestMapOfWithMetadata(t *testing.T) {
-	for _, tc := range []struct {
-		key, item                 DataType
-		keyMetadata, itemMetadata Metadata
-		want                      DataType
-		str                       string
-	}{
-		{
-			key:          BinaryTypes.String,
-			item:         PrimitiveTypes.Uint8,
-			keyMetadata:  NewMetadata([]string{"mk"}, []string{"true"}),
-			itemMetadata: NewMetadata([]string{"mi"}, []string{"true"}),
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String, Metadata: NewMetadata([]string{"mk"}, []string{"true"})},
-				Field{Name: "value", Type: PrimitiveTypes.Uint8, Nullable: true, Metadata: NewMetadata([]string{"mi"}, []string{"true"})},
-			))},
-			str: "map<utf8, uint8, items_nullable>",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := MapOfWithMetadata(tc.key, NewMetadata([]string{"mk"}, []string{"true"}), tc.item, NewMetadata([]string{"mi"}, []string{"true"}))
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), MAP; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "map"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyField().Name, "key"; got != want {
-				t.Fatalf("invalid key field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemField().Name, "value"; got != want {
-				t.Fatalf("invalid item field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyType(), tc.key; got != want {
-				t.Fatalf("invalid key type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemType(), tc.item; got != want {
-				t.Fatalf("invalid item type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.Elem(), StructOf(got.KeyField(), got.ItemField()); !TypeEqual(got, want) {
-				t.Fatalf("invalid value type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.String(), tc.str; got != want {
-				t.Fatalf("invalid String() result. got=%q, want=%q", got, want)
-			}
-
-			if !reflect.DeepEqual(got.Elem().(*StructType).fields[0].Metadata, tc.keyMetadata) {
-				t.Fatalf("invalid key metadata. got=%v, want=%v", got.Elem().(*StructType).fields[0].Metadata, tc.keyMetadata)
-			}
-			if !reflect.DeepEqual(got.Elem().(*StructType).fields[1].Metadata, tc.itemMetadata) {
-				t.Fatalf("invalid item metadata. got=%v, want=%v", got.Elem().(*StructType).fields[1].Metadata, tc.itemMetadata)
-			}
-		})
-	}
-}
-
-func TestFieldsImmutability(t *testing.T) {
-	cases := []struct {
-		dt       NestedType
-		expected []Field
-	}{
-		{
-			dt:       ListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: ListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       LargeListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: LargeListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       FixedSizeListOfField(1, Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: FixedSizeListOfField(1, Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       MapOf(BinaryTypes.String, PrimitiveTypes.Int64),
-			expected: MapOf(BinaryTypes.String, PrimitiveTypes.Int64).Fields(),
-		},
-		{
-			dt:       StructOf(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: StructOf(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       RunEndEncodedOf(BinaryTypes.String, PrimitiveTypes.Int64),
-			expected: RunEndEncodedOf(BinaryTypes.String, PrimitiveTypes.Int64).Fields(),
-		},
-		{
-			dt:       UnionOf(DenseMode, []Field{{Name: "name", Type: PrimitiveTypes.Int64}}, []UnionTypeCode{0}),
-			expected: UnionOf(DenseMode, []Field{{Name: "name", Type: PrimitiveTypes.Int64}}, []UnionTypeCode{0}).Fields(),
-		},
-	}
-
-	for _, tc := range cases {
-		t.Run(tc.dt.String(), func(t *testing.T) {
-			fields := tc.dt.Fields()
-			fields[0].Nullable = !fields[0].Nullable
-			fields[0].Name = uuid.NewString()
-			fields[0].Type = nil
-
-			assert.Equal(t, tc.expected, tc.dt.Fields())
-		})
-	}
-}
diff --git a/go/arrow/datatype_null.go b/go/arrow/datatype_null.go
deleted file mode 100644
index c852b854a79b6..0000000000000
--- a/go/arrow/datatype_null.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-// NullType describes a degenerate array, with zero physical storage.
-type NullType struct{}
-
-func (*NullType) ID() Type            { return NULL }
-func (*NullType) Name() string        { return "null" }
-func (*NullType) String() string      { return "null" }
-func (*NullType) Fingerprint() string { return typeIDFingerprint(NULL) }
-func (*NullType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecAlwaysNull()}}
-}
-
-// Null gives us both the compile-time assertion of DataType interface as well as serving a good element for use in schemas.
-var Null DataType = new(NullType)
diff --git a/go/arrow/datatype_null_test.go b/go/arrow/datatype_null_test.go
deleted file mode 100644
index 83b3f0c44c549..0000000000000
--- a/go/arrow/datatype_null_test.go
+++ /dev/null
@@ -1,38 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestNullType(t *testing.T) {
-	var nt *arrow.NullType
-	if got, want := nt.ID(), arrow.NULL; got != want {
-		t.Fatalf("invalid null type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "null"; got != want {
-		t.Fatalf("invalid null type name. got=%q, want=%q", got, want)
-	}
-
-	if got, want := nt.String(), "null"; got != want {
-		t.Fatalf("invalid null type stringer. got=%q, want=%q", got, want)
-	}
-}
diff --git a/go/arrow/datatype_numeric.gen.go b/go/arrow/datatype_numeric.gen.go
deleted file mode 100644
index 62cbd90016f00..0000000000000
--- a/go/arrow/datatype_numeric.gen.go
+++ /dev/null
@@ -1,206 +0,0 @@
-// Code generated by datatype_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-type Int8Type struct{}
-
-func (t *Int8Type) ID() Type            { return INT8 }
-func (t *Int8Type) Name() string        { return "int8" }
-func (t *Int8Type) String() string      { return "int8" }
-func (t *Int8Type) BitWidth() int       { return 8 }
-func (t *Int8Type) Bytes() int          { return Int8SizeBytes }
-func (t *Int8Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int8Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int8SizeBytes)}}
-}
-
-type Int16Type struct{}
-
-func (t *Int16Type) ID() Type            { return INT16 }
-func (t *Int16Type) Name() string        { return "int16" }
-func (t *Int16Type) String() string      { return "int16" }
-func (t *Int16Type) BitWidth() int       { return 16 }
-func (t *Int16Type) Bytes() int          { return Int16SizeBytes }
-func (t *Int16Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int16SizeBytes)}}
-}
-
-type Int32Type struct{}
-
-func (t *Int32Type) ID() Type            { return INT32 }
-func (t *Int32Type) Name() string        { return "int32" }
-func (t *Int32Type) String() string      { return "int32" }
-func (t *Int32Type) BitWidth() int       { return 32 }
-func (t *Int32Type) Bytes() int          { return Int32SizeBytes }
-func (t *Int32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-type Int64Type struct{}
-
-func (t *Int64Type) ID() Type            { return INT64 }
-func (t *Int64Type) Name() string        { return "int64" }
-func (t *Int64Type) String() string      { return "int64" }
-func (t *Int64Type) BitWidth() int       { return 64 }
-func (t *Int64Type) Bytes() int          { return Int64SizeBytes }
-func (t *Int64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-type Uint8Type struct{}
-
-func (t *Uint8Type) ID() Type            { return UINT8 }
-func (t *Uint8Type) Name() string        { return "uint8" }
-func (t *Uint8Type) String() string      { return "uint8" }
-func (t *Uint8Type) BitWidth() int       { return 8 }
-func (t *Uint8Type) Bytes() int          { return Uint8SizeBytes }
-func (t *Uint8Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint8Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint8SizeBytes)}}
-}
-
-type Uint16Type struct{}
-
-func (t *Uint16Type) ID() Type            { return UINT16 }
-func (t *Uint16Type) Name() string        { return "uint16" }
-func (t *Uint16Type) String() string      { return "uint16" }
-func (t *Uint16Type) BitWidth() int       { return 16 }
-func (t *Uint16Type) Bytes() int          { return Uint16SizeBytes }
-func (t *Uint16Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint16SizeBytes)}}
-}
-
-type Uint32Type struct{}
-
-func (t *Uint32Type) ID() Type            { return UINT32 }
-func (t *Uint32Type) Name() string        { return "uint32" }
-func (t *Uint32Type) String() string      { return "uint32" }
-func (t *Uint32Type) BitWidth() int       { return 32 }
-func (t *Uint32Type) Bytes() int          { return Uint32SizeBytes }
-func (t *Uint32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint32SizeBytes)}}
-}
-
-type Uint64Type struct{}
-
-func (t *Uint64Type) ID() Type            { return UINT64 }
-func (t *Uint64Type) Name() string        { return "uint64" }
-func (t *Uint64Type) String() string      { return "uint64" }
-func (t *Uint64Type) BitWidth() int       { return 64 }
-func (t *Uint64Type) Bytes() int          { return Uint64SizeBytes }
-func (t *Uint64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint64SizeBytes)}}
-}
-
-type Float32Type struct{}
-
-func (t *Float32Type) ID() Type            { return FLOAT32 }
-func (t *Float32Type) Name() string        { return "float32" }
-func (t *Float32Type) String() string      { return "float32" }
-func (t *Float32Type) BitWidth() int       { return 32 }
-func (t *Float32Type) Bytes() int          { return Float32SizeBytes }
-func (t *Float32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Float32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Float32SizeBytes)}}
-}
-
-type Float64Type struct{}
-
-func (t *Float64Type) ID() Type            { return FLOAT64 }
-func (t *Float64Type) Name() string        { return "float64" }
-func (t *Float64Type) String() string      { return "float64" }
-func (t *Float64Type) BitWidth() int       { return 64 }
-func (t *Float64Type) Bytes() int          { return Float64SizeBytes }
-func (t *Float64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Float64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Float64SizeBytes)}}
-}
-
-type Date32Type struct{}
-
-func (t *Date32Type) ID() Type            { return DATE32 }
-func (t *Date32Type) Name() string        { return "date32" }
-func (t *Date32Type) String() string      { return "date32" }
-func (t *Date32Type) BitWidth() int       { return 32 }
-func (t *Date32Type) Bytes() int          { return Date32SizeBytes }
-func (t *Date32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Date32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Date32SizeBytes)}}
-}
-
-type Date64Type struct{}
-
-func (t *Date64Type) ID() Type            { return DATE64 }
-func (t *Date64Type) Name() string        { return "date64" }
-func (t *Date64Type) String() string      { return "date64" }
-func (t *Date64Type) BitWidth() int       { return 64 }
-func (t *Date64Type) Bytes() int          { return Date64SizeBytes }
-func (t *Date64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Date64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Date64SizeBytes)}}
-}
-
-var (
-	PrimitiveTypes = struct {
-		Int8    DataType
-		Int16   DataType
-		Int32   DataType
-		Int64   DataType
-		Uint8   DataType
-		Uint16  DataType
-		Uint32  DataType
-		Uint64  DataType
-		Float32 DataType
-		Float64 DataType
-		Date32  DataType
-		Date64  DataType
-	}{
-
-		Int8:    &Int8Type{},
-		Int16:   &Int16Type{},
-		Int32:   &Int32Type{},
-		Int64:   &Int64Type{},
-		Uint8:   &Uint8Type{},
-		Uint16:  &Uint16Type{},
-		Uint32:  &Uint32Type{},
-		Uint64:  &Uint64Type{},
-		Float32: &Float32Type{},
-		Float64: &Float64Type{},
-		Date32:  &Date32Type{},
-		Date64:  &Date64Type{},
-	}
-)
diff --git a/go/arrow/datatype_numeric.gen.go.tmpl b/go/arrow/datatype_numeric.gen.go.tmpl
deleted file mode 100644
index 611046afc42b3..0000000000000
--- a/go/arrow/datatype_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-{{range .In}}
-type {{.Name}}Type struct {}
-
-func (t *{{.Name}}Type) ID() Type            { return {{.Name|upper}} }
-func (t *{{.Name}}Type) Name() string        { return "{{.Name|lower}}" }
-func (t *{{.Name}}Type) String() string      { return "{{.Name|lower}}" }
-func (t *{{.Name}}Type) BitWidth() int       { return {{.Size}} }
-func (t *{{.Name}}Type) Bytes() int      { return {{.Name}}SizeBytes }
-func (t *{{.Name}}Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *{{.Name}}Type) Layout() DataTypeLayout { 
-        return DataTypeLayout{Buffers: []BufferSpec{
-                SpecBitmap(), SpecFixedWidth({{.Name}}SizeBytes)}}
-}
-
-{{end}}
-
-var (
-        PrimitiveTypes = struct {
-{{range .In}}
-                {{.Name}} DataType
-{{- end}}
-        }{
-{{range .In}}
-                {{.Name}}: &{{.Name}}Type{},
-{{- end}}
-        }
-)
diff --git a/go/arrow/datatype_numeric.gen.go.tmpldata b/go/arrow/datatype_numeric.gen.go.tmpldata
deleted file mode 100644
index 12e69fe60c0b2..0000000000000
--- a/go/arrow/datatype_numeric.gen.go.tmpldata
+++ /dev/null
@@ -1,66 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "Type": "int8",
-    "Size": 8
-  },
-  {
-    "Name": "Int16",
-    "Type": "int16",
-    "Size": 16
-  },
-  {
-    "Name": "Int32",
-    "Type": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Int64",
-    "Type": "int64",
-    "Size": 64
-  },
-  {
-    "Name": "Uint8",
-    "Type": "uint8",
-    "Size": 8
-  },
-  {
-    "Name": "Uint16",
-    "Type": "uint16",
-    "Size": 16
-  },
-  {
-    "Name": "Uint32",
-    "Type": "uint32",
-    "Size": 32
-  },
-  {
-    "Name": "Uint64",
-    "Type": "uint64",
-    "Size": 64
-  },
-  {
-    "Name": "Float32",
-    "Type": "float32",
-    "Size": 32
-  },
-  {
-    "Name": "Float64",
-    "Type": "float64",
-    "Size": 64
-  },
-  {
-    "Name": "Date32",
-    "Type": "date32",
-    "QualifiedType": "arrow.Date32",
-    "InternalType": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Date64",
-    "Type": "date64",
-    "QualifiedType": "arrow.Date64",
-    "InternalType": "int64",
-    "Size": 64
-  }
-]
diff --git a/go/arrow/datatype_viewheader.go b/go/arrow/datatype_viewheader.go
deleted file mode 100644
index e153251caaf03..0000000000000
--- a/go/arrow/datatype_viewheader.go
+++ /dev/null
@@ -1,141 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"bytes"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const (
-	ViewPrefixLen  = 4
-	viewInlineSize = 12
-)
-
-func IsViewInline(length int) bool {
-	return length < viewInlineSize
-}
-
-// ViewHeader is a variable length string (utf8) or byte slice with
-// a 4 byte prefix and inline optimization for small values (12 bytes
-// or fewer). This is similar to Go's standard string but limited by
-// a length of Uint32Max and up to the first four bytes of the string
-// are copied into the struct. This prefix allows failing comparisons
-// early and can reduce CPU cache working set when dealing with short
-// strings.
-//
-// There are two situations:
-//
-//		Entirely inlined string data
-//	                |----|------------|
-//		                ^    ^
-//		                |    |
-//		              size  inline string data, zero padded
-//
-//		Reference into buffer
-//	                |----|----|----|----|
-//		                ^    ^     ^     ^
-//		                |    |     |     |
-//		              size prefix buffer index and offset to out-of-line portion
-//
-// Adapted from TU Munich's UmbraDB [1], Velox, DuckDB.
-//
-// [1]: https://db.in.tum.de/~freitag/papers/p29-neumann-cidr20.pdf
-type ViewHeader struct {
-	size int32
-	// the first 4 bytes of this are the prefix for the string
-	// if size <= StringHeaderInlineSize, then the entire string
-	// is in the data array and is zero padded.
-	// if size > StringHeaderInlineSize, the next 8 bytes are 2 uint32
-	// values which are the buffer index and offset in that buffer
-	// containing the full string.
-	data [viewInlineSize]byte
-}
-
-func (sh *ViewHeader) IsInline() bool {
-	return sh.size <= int32(viewInlineSize)
-}
-
-func (sh *ViewHeader) Len() int { return int(sh.size) }
-func (sh *ViewHeader) Prefix() [ViewPrefixLen]byte {
-	return *(*[4]byte)(unsafe.Pointer(&sh.data))
-}
-
-func (sh *ViewHeader) BufferIndex() int32 {
-	return int32(endian.Native.Uint32(sh.data[ViewPrefixLen:]))
-}
-
-func (sh *ViewHeader) BufferOffset() int32 {
-	return int32(endian.Native.Uint32(sh.data[ViewPrefixLen+4:]))
-}
-
-func (sh *ViewHeader) InlineBytes() (data []byte) {
-	debug.Assert(sh.IsInline(), "calling InlineBytes on non-inline ViewHeader")
-	return sh.data[:sh.size]
-}
-
-func (sh *ViewHeader) SetBytes(data []byte) int {
-	sh.size = int32(len(data))
-	if sh.IsInline() {
-		return copy(sh.data[:], data)
-	}
-	return copy(sh.data[:4], data)
-}
-
-func (sh *ViewHeader) SetString(data string) int {
-	sh.size = int32(len(data))
-	if sh.IsInline() {
-		return copy(sh.data[:], data)
-	}
-	return copy(sh.data[:4], data)
-}
-
-func (sh *ViewHeader) SetIndexOffset(bufferIndex, offset int32) {
-	endian.Native.PutUint32(sh.data[ViewPrefixLen:], uint32(bufferIndex))
-	endian.Native.PutUint32(sh.data[ViewPrefixLen+4:], uint32(offset))
-}
-
-func (sh *ViewHeader) Equals(buffers []*memory.Buffer, other *ViewHeader, otherBuffers []*memory.Buffer) bool {
-	if sh.sizeAndPrefixAsInt64() != other.sizeAndPrefixAsInt64() {
-		return false
-	}
-
-	if sh.IsInline() {
-		return sh.inlinedAsInt64() == other.inlinedAsInt64()
-	}
-
-	return bytes.Equal(sh.getBufferBytes(buffers), other.getBufferBytes(otherBuffers))
-}
-
-func (sh *ViewHeader) getBufferBytes(buffers []*memory.Buffer) []byte {
-	offset := sh.BufferOffset()
-	return buffers[sh.BufferIndex()].Bytes()[offset : offset+sh.size]
-}
-
-func (sh *ViewHeader) inlinedAsInt64() int64 {
-	s := unsafe.Slice((*int64)(unsafe.Pointer(sh)), 2)
-	return s[1]
-}
-
-func (sh *ViewHeader) sizeAndPrefixAsInt64() int64 {
-	s := unsafe.Slice((*int64)(unsafe.Pointer(sh)), 2)
-	return s[0]
-}
diff --git a/go/arrow/datatype_viewheader_inline.go b/go/arrow/datatype_viewheader_inline.go
deleted file mode 100644
index 2883ee380308e..0000000000000
--- a/go/arrow/datatype_viewheader_inline.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	return unsafe.String((*byte)(unsafe.Pointer(&sh.data)), sh.size)
-}
diff --git a/go/arrow/datatype_viewheader_inline_go1.19.go b/go/arrow/datatype_viewheader_inline_go1.19.go
deleted file mode 100644
index d72c0d6f17c2b..0000000000000
--- a/go/arrow/datatype_viewheader_inline_go1.19.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.20 && !tinygo
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	h := (*reflect.StringHeader)(unsafe.Pointer(&data))
-	h.Data = uintptr(unsafe.Pointer(&sh.data))
-	h.Len = int(sh.size)
-	return
-}
diff --git a/go/arrow/datatype_viewheader_inline_tinygo.go b/go/arrow/datatype_viewheader_inline_tinygo.go
deleted file mode 100644
index a342167972fe4..0000000000000
--- a/go/arrow/datatype_viewheader_inline_tinygo.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.20 && tinygo
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	h := (*reflect.StringHeader)(unsafe.Pointer(&data))
-	h.Data = uintptr(unsafe.Pointer(&sh.data))
-	h.Len = uintptr(sh.size)
-	return
-}
diff --git a/go/arrow/decimal128/decimal128.go b/go/arrow/decimal128/decimal128.go
deleted file mode 100644
index 00ab253003559..0000000000000
--- a/go/arrow/decimal128/decimal128.go
+++ /dev/null
@@ -1,627 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal128
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/big"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	MaxPrecision = 38
-	MaxScale     = 38
-)
-
-var (
-	MaxDecimal128 = New(542101086242752217, 687399551400673280-1)
-)
-
-func GetMaxValue(prec int32) Num {
-	return scaleMultipliers[prec].Sub(FromU64(1))
-}
-
-// Num represents a signed 128-bit integer in two's complement.
-// Calculations wrap around and overflow is ignored.
-//
-// For a discussion of the algorithms, look at Knuth's volume 2,
-// Semi-numerical Algorithms section 4.3.1.
-//
-// Adapted from the Apache ORC C++ implementation
-type Num struct {
-	lo uint64 // low bits
-	hi int64  // high bits
-}
-
-// New returns a new signed 128-bit integer value.
-func New(hi int64, lo uint64) Num {
-	return Num{lo: lo, hi: hi}
-}
-
-// FromU64 returns a new signed 128-bit integer value from the provided uint64 one.
-func FromU64(v uint64) Num {
-	return New(0, v)
-}
-
-// FromI64 returns a new signed 128-bit integer value from the provided int64 one.
-func FromI64(v int64) Num {
-	switch {
-	case v > 0:
-		return New(0, uint64(v))
-	case v < 0:
-		return New(-1, uint64(v))
-	default:
-		return Num{}
-	}
-}
-
-// FromBigInt will convert a big.Int to a Num, if the value in v has a
-// BitLen > 128, this will panic.
-func FromBigInt(v *big.Int) (n Num) {
-	bitlen := v.BitLen()
-	if bitlen > 127 {
-		panic("arrow/decimal128: cannot represent value larger than 128bits")
-	} else if bitlen == 0 {
-		// if bitlen is 0, then the value is 0 so return the default zeroed
-		// out n
-		return
-	}
-
-	// if the value is negative, then get the high and low bytes from
-	// v, and then negate it. this is because Num uses a two's compliment
-	// representation of values and big.Int stores the value as a bool for
-	// the sign and the absolute value of the integer. This means that the
-	// raw bytes are *always* the absolute value.
-	b := v.Bits()
-	n.lo = uint64(b[0])
-	if len(b) > 1 {
-		n.hi = int64(b[1])
-	}
-	if v.Sign() < 0 {
-		return n.Negate()
-	}
-	return
-}
-
-// Negate returns a copy of this Decimal128 value but with the sign negated
-func (n Num) Negate() Num {
-	n.lo = ^n.lo + 1
-	n.hi = ^n.hi
-	if n.lo == 0 {
-		n.hi += 1
-	}
-	return n
-}
-
-func (n Num) Add(rhs Num) Num {
-	n.hi += rhs.hi
-	var carry uint64
-	n.lo, carry = bits.Add64(n.lo, rhs.lo, 0)
-	n.hi += int64(carry)
-	return n
-}
-
-func (n Num) Sub(rhs Num) Num {
-	n.hi -= rhs.hi
-	var borrow uint64
-	n.lo, borrow = bits.Sub64(n.lo, rhs.lo, 0)
-	n.hi -= int64(borrow)
-	return n
-}
-
-func (n Num) Mul(rhs Num) Num {
-	hi, lo := bits.Mul64(n.lo, rhs.lo)
-	hi += (uint64(n.hi) * rhs.lo) + (n.lo * uint64(rhs.hi))
-	return Num{hi: int64(hi), lo: lo}
-}
-
-func (n Num) Div(rhs Num) (res, rem Num) {
-	b := n.BigInt()
-	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
-	return FromBigInt(out), FromBigInt(remainder)
-}
-
-func (n Num) Pow(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Exp(b, rhs.BigInt(), nil))
-}
-
-func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
-	var pscale float64
-	if scale >= -38 && scale <= 38 {
-		pscale = float64PowersOfTen[scale+38]
-	} else {
-		pscale = math.Pow10(int(scale))
-	}
-
-	v *= pscale
-	v = math.RoundToEven(v)
-	maxabs := float64PowersOfTen[prec+38]
-	if v <= -maxabs || v >= maxabs {
-		return 0, fmt.Errorf("cannot convert %f to decimal128(precision=%d, scale=%d): overflow", v, prec, scale)
-	}
-	return v, nil
-}
-
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
-	v, err := scalePositiveFloat64(v, prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	hi := math.Floor(math.Ldexp(v, -64))
-	low := v - math.Ldexp(hi, 64)
-	return Num{hi: int64(hi), lo: uint64(low)}, nil
-}
-
-// this has to exist despite sharing some code with fromPositiveFloat64
-// because if we don't do the casts back to float32 in between each
-// step, we end up with a significantly different answer!
-// Aren't floating point values so much fun?
-//
-// example value to use:
-//
-//	v := float32(1.8446746e+15)
-//
-// You'll end up with a different values if you do:
-//
-//	FromFloat64(float64(v), 20, 4)
-//
-// vs
-//
-//	FromFloat32(v, 20, 4)
-//
-// because float64(v) == 1844674629206016 rather than 1844674600000000
-func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(float64(v), prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	hi := float32(math.Floor(math.Ldexp(float64(float32(val)), -64)))
-	low := float32(val) - float32(math.Ldexp(float64(hi), 64))
-	return Num{hi: int64(hi), lo: uint64(low)}, nil
-}
-
-// FromFloat32 returns a new decimal128.Num constructed from the given float32
-// value using the provided precision and scale. Will return an error if the
-// value cannot be accurately represented with the desired precision and scale.
-func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	if v < 0 {
-		dec, err := fromPositiveFloat32(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat32(v, prec, scale)
-}
-
-// FromFloat64 returns a new decimal128.Num constructed from the given float64
-// value using the provided precision and scale. Will return an error if the
-// value cannot be accurately represented with the desired precision and scale.
-func FromFloat64(v float64, prec, scale int32) (Num, error) {
-	if v < 0 {
-		dec, err := fromPositiveFloat64(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat64(v, prec, scale)
-}
-
-var pt5 = big.NewFloat(0.5)
-
-func FromString(v string, prec, scale int32) (n Num, err error) {
-	// time for some math!
-	// Our input precision means "number of digits of precision" but the
-	// math/big library refers to precision in floating point terms
-	// where it refers to the "number of bits of precision in the mantissa".
-	// So we need to figure out how many bits we should use for precision,
-	// based on the input precision. Too much precision and we aren't rounding
-	// when we should. Too little precision and we round when we shouldn't.
-	//
-	// In general, the number of decimal digits you get from a given number
-	// of bits will be:
-	//
-	//	digits = log[base 10](2^nbits)
-	//
-	// it thus follows that:
-	//
-	//	digits = nbits * log[base 10](2)
-	//  nbits = digits / log[base 10](2)
-	//
-	// So we need to account for our scale since we're going to be multiplying
-	// by 10^scale in order to get the integral value we're actually going to use
-	// So to get our number of bits we do:
-	//
-	// 	(prec + scale + 1) / log[base10](2)
-	//
-	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
-	// Aren't floating point numbers fun?
-	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
-
-	var out *big.Float
-	out, _, err = big.ParseFloat(v, 10, 128, big.ToNearestEven)
-	if err != nil {
-		return
-	}
-
-	if scale < 0 {
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 127 {
-			return Num{}, errors.New("bitlen too large for decimal128")
-		}
-		n = FromBigInt(val)
-		n, _ = n.Div(scaleMultipliers[-scale])
-	} else {
-		// Since we're going to truncate this to get an integer, we need to round
-		// the value instead because of edge cases so that we match how other implementations
-		// (e.g. C++) handles Decimal values. So if we're negative we'll subtract 0.5 and if
-		// we're positive we'll add 0.5.
-		p := (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt())
-		out.SetPrec(precInBits).Mul(out, p)
-		if out.Signbit() {
-			out.Sub(out, pt5)
-		} else {
-			out.Add(out, pt5)
-		}
-
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 127 {
-			return Num{}, errors.New("bitlen too large for decimal128")
-		}
-		n = FromBigInt(val)
-	}
-
-	if !n.FitsInPrecision(prec) {
-		err = fmt.Errorf("val %v doesn't fit in precision %d", n, prec)
-	}
-	return
-}
-
-// ToFloat32 returns a float32 value representative of this decimal128.Num,
-// but with the given scale.
-func (n Num) ToFloat32(scale int32) float32 {
-	return float32(n.ToFloat64(scale))
-}
-
-func (n Num) tofloat64Positive(scale int32) float64 {
-	const twoTo64 float64 = 1.8446744073709552e+19
-	x := float64(n.hi) * twoTo64
-	x += float64(n.lo)
-	if scale >= -38 && scale <= 38 {
-		return x * float64PowersOfTen[-scale+38]
-	}
-
-	return x * math.Pow10(-int(scale))
-}
-
-// ToFloat64 returns a float64 value representative of this decimal128.Num,
-// but with the given scale.
-func (n Num) ToFloat64(scale int32) float64 {
-	if n.hi < 0 {
-		return -n.Negate().tofloat64Positive(scale)
-	}
-	return n.tofloat64Positive(scale)
-}
-
-// LowBits returns the low bits of the two's complement representation of the number.
-func (n Num) LowBits() uint64 { return n.lo }
-
-// HighBits returns the high bits of the two's complement representation of the number.
-func (n Num) HighBits() int64 { return n.hi }
-
-// Sign returns:
-//
-// -1 if x <  0
-//
-//	0 if x == 0
-//
-// +1 if x >  0
-func (n Num) Sign() int {
-	if n == (Num{}) {
-		return 0
-	}
-	return int(1 | (n.hi >> 63))
-}
-
-func toBigIntPositive(n Num) *big.Int {
-	return (&big.Int{}).SetBits([]big.Word{big.Word(n.lo), big.Word(n.hi)})
-}
-
-// while the code would be simpler to just do lsh/rsh and add
-// it turns out from benchmarking that calling SetBits passing
-// in the words and negating ends up being >2x faster
-func (n Num) BigInt() *big.Int {
-	if n.Sign() < 0 {
-		b := toBigIntPositive(n.Negate())
-		return b.Neg(b)
-	}
-	return toBigIntPositive(n)
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return other.Less(n)
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return !n.Less(other)
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	return n.hi < other.hi || (n.hi == other.hi && n.lo < other.lo)
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return !n.Greater(other)
-}
-
-// Max returns the largest Decimal128 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal128 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-// IncreaseScaleBy returns a new decimal128.Num with the value scaled up by
-// the desired amount. Must be 0 <= increase <= 38. Any data loss from scaling
-// is ignored. If you wish to prevent data loss, use Rescale which will
-// return an error if data loss is detected.
-func (n Num) IncreaseScaleBy(increase int32) Num {
-	debug.Assert(increase >= 0, "invalid increase scale for decimal128")
-	debug.Assert(increase <= 38, "invalid increase scale for decimal128")
-
-	v := scaleMultipliers[increase].BigInt()
-	return FromBigInt(v.Mul(n.BigInt(), v))
-}
-
-// ReduceScaleBy returns a new decimal128.Num with the value scaled down by
-// the desired amount and, if 'round' is true, the value will be rounded
-// accordingly. Assumes 0 <= reduce <= 38. Any data loss from scaling
-// is ignored. If you wish to prevent data loss, use Rescale which will
-// return an error if data loss is detected.
-func (n Num) ReduceScaleBy(reduce int32, round bool) Num {
-	debug.Assert(reduce >= 0, "invalid reduce scale for decimal128")
-	debug.Assert(reduce <= 38, "invalid reduce scale for decimal128")
-
-	if reduce == 0 {
-		return n
-	}
-
-	divisor := scaleMultipliers[reduce].BigInt()
-	result, remainder := divisor.QuoRem(n.BigInt(), divisor, (&big.Int{}))
-	if round {
-		divisorHalf := scaleMultipliersHalf[reduce]
-		if remainder.Abs(remainder).Cmp(divisorHalf.BigInt()) != -1 {
-			result.Add(result, big.NewInt(int64(n.Sign())))
-		}
-	}
-	return FromBigInt(result)
-}
-
-func (n Num) rescaleWouldCauseDataLoss(deltaScale int32, multiplier Num) (out Num, loss bool) {
-	var (
-		value, result, remainder *big.Int
-	)
-	value = n.BigInt()
-	if deltaScale < 0 {
-		debug.Assert(multiplier.lo != 0 || multiplier.hi != 0, "multiplier needs to not be zero")
-		result, remainder = (&big.Int{}).QuoRem(value, multiplier.BigInt(), (&big.Int{}))
-		return FromBigInt(result), remainder.Cmp(big.NewInt(0)) != 0
-	}
-
-	result = (&big.Int{}).Mul(value, multiplier.BigInt())
-	out = FromBigInt(result)
-	cmp := result.Cmp(value)
-	if n.Sign() < 0 {
-		loss = cmp == 1
-	} else {
-		loss = cmp == -1
-	}
-	return
-}
-
-// Rescale returns a new decimal128.Num with the value updated assuming
-// the current value is scaled to originalScale with the new value scaled
-// to newScale. If rescaling this way would cause data loss, an error is
-// returned instead.
-func (n Num) Rescale(originalScale, newScale int32) (out Num, err error) {
-	if originalScale == newScale {
-		return n, nil
-	}
-
-	deltaScale := newScale - originalScale
-	absDeltaScale := int32(math.Abs(float64(deltaScale)))
-
-	multiplier := scaleMultipliers[absDeltaScale]
-	var wouldHaveLoss bool
-	out, wouldHaveLoss = n.rescaleWouldCauseDataLoss(deltaScale, multiplier)
-	if wouldHaveLoss {
-		err = errors.New("rescale data loss")
-	}
-	return
-}
-
-// Abs returns a new decimal128.Num that contains the absolute value of n
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-// FitsInPrecision returns true or false if the value currently held by
-// n would fit within precision (0 < prec <= 38) without losing any data.
-func (n Num) FitsInPrecision(prec int32) bool {
-	debug.Assert(prec > 0, "precision must be > 0")
-	debug.Assert(prec <= 38, "precision must be <= 38")
-	return n.Abs().Less(scaleMultipliers[prec])
-}
-
-func (n Num) ToString(scale int32) string {
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(128).Mul(f, (&big.Float{}).SetInt(scaleMultipliers[-scale].BigInt()))
-	} else {
-		f.SetPrec(128).Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
-	}
-	return f.Text('f', int(scale))
-}
-
-func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
-
-func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
-
-var (
-	scaleMultipliers = [...]Num{
-		FromU64(1),
-		FromU64(10),
-		FromU64(100),
-		FromU64(1000),
-		FromU64(10000),
-		FromU64(100000),
-		FromU64(1000000),
-		FromU64(10000000),
-		FromU64(100000000),
-		FromU64(1000000000),
-		FromU64(10000000000),
-		FromU64(100000000000),
-		FromU64(1000000000000),
-		FromU64(10000000000000),
-		FromU64(100000000000000),
-		FromU64(1000000000000000),
-		FromU64(10000000000000000),
-		FromU64(100000000000000000),
-		FromU64(1000000000000000000),
-		New(0, 10000000000000000000),
-		New(5, 7766279631452241920),
-		New(54, 3875820019684212736),
-		New(542, 1864712049423024128),
-		New(5421, 200376420520689664),
-		New(54210, 2003764205206896640),
-		New(542101, 1590897978359414784),
-		New(5421010, 15908979783594147840),
-		New(54210108, 11515845246265065472),
-		New(542101086, 4477988020393345024),
-		New(5421010862, 7886392056514347008),
-		New(54210108624, 5076944270305263616),
-		New(542101086242, 13875954555633532928),
-		New(5421010862427, 9632337040368467968),
-		New(54210108624275, 4089650035136921600),
-		New(542101086242752, 4003012203950112768),
-		New(5421010862427522, 3136633892082024448),
-		New(54210108624275221, 12919594847110692864),
-		New(542101086242752217, 68739955140067328),
-		New(5421010862427522170, 687399551400673280),
-	}
-
-	scaleMultipliersHalf = [...]Num{
-		FromU64(0),
-		FromU64(5),
-		FromU64(50),
-		FromU64(500),
-		FromU64(5000),
-		FromU64(50000),
-		FromU64(500000),
-		FromU64(5000000),
-		FromU64(50000000),
-		FromU64(500000000),
-		FromU64(5000000000),
-		FromU64(50000000000),
-		FromU64(500000000000),
-		FromU64(5000000000000),
-		FromU64(50000000000000),
-		FromU64(500000000000000),
-		FromU64(5000000000000000),
-		FromU64(50000000000000000),
-		FromU64(500000000000000000),
-		FromU64(5000000000000000000),
-		New(2, 13106511852580896768),
-		New(27, 1937910009842106368),
-		New(271, 932356024711512064),
-		New(2710, 9323560247115120640),
-		New(27105, 1001882102603448320),
-		New(271050, 10018821026034483200),
-		New(2710505, 7954489891797073920),
-		New(27105054, 5757922623132532736),
-		New(271050543, 2238994010196672512),
-		New(2710505431, 3943196028257173504),
-		New(27105054312, 2538472135152631808),
-		New(271050543121, 6937977277816766464),
-		New(2710505431213, 14039540557039009792),
-		New(27105054312137, 11268197054423236608),
-		New(271050543121376, 2001506101975056384),
-		New(2710505431213761, 1568316946041012224),
-		New(27105054312137610, 15683169460410122240),
-		New(271050543121376108, 9257742014424809472),
-		New(2710505431213761085, 343699775700336640),
-	}
-
-	float64PowersOfTen = [...]float64{
-		1e-38, 1e-37, 1e-36, 1e-35, 1e-34, 1e-33, 1e-32, 1e-31, 1e-30, 1e-29,
-		1e-28, 1e-27, 1e-26, 1e-25, 1e-24, 1e-23, 1e-22, 1e-21, 1e-20, 1e-19,
-		1e-18, 1e-17, 1e-16, 1e-15, 1e-14, 1e-13, 1e-12, 1e-11, 1e-10, 1e-9,
-		1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1,
-		1e2, 1e3, 1e4, 1e5, 1e6, 1e7, 1e8, 1e9, 1e10, 1e11,
-		1e12, 1e13, 1e14, 1e15, 1e16, 1e17, 1e18, 1e19, 1e20, 1e21,
-		1e22, 1e23, 1e24, 1e25, 1e26, 1e27, 1e28, 1e29, 1e30, 1e31,
-		1e32, 1e33, 1e34, 1e35, 1e36, 1e37, 1e38,
-	}
-)
diff --git a/go/arrow/decimal128/decimal128_test.go b/go/arrow/decimal128/decimal128_test.go
deleted file mode 100644
index 18443512a36da..0000000000000
--- a/go/arrow/decimal128/decimal128_test.go
+++ /dev/null
@@ -1,709 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal128_test
-
-import (
-	"fmt"
-	"math"
-	"math/big"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFromU64(t *testing.T) {
-	for _, tc := range []struct {
-		v    uint64
-		want decimal128.Num
-		sign int
-	}{
-		{0, decimal128.New(0, 0), 0},
-		{1, decimal128.New(0, 1), +1},
-		{2, decimal128.New(0, 2), +1},
-		{math.MaxInt64, decimal128.New(0, math.MaxInt64), +1},
-		{math.MaxUint64, decimal128.New(0, math.MaxUint64), +1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal128.FromU64(tc.v)
-			ref := new(big.Int).SetUint64(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.LowBits(), tc.want.LowBits(); got != want {
-				t.Fatalf("invalid low-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-			if got, want := v.HighBits(), tc.want.HighBits(); got != want {
-				t.Fatalf("invalid high-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-		})
-	}
-}
-
-func TestFromI64(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want decimal128.Num
-		sign int
-	}{
-		{0, decimal128.New(0, 0), 0},
-		{1, decimal128.New(0, 1), 1},
-		{2, decimal128.New(0, 2), 1},
-		{math.MaxInt64, decimal128.New(0, math.MaxInt64), 1},
-		{math.MinInt64, decimal128.New(-1, u64Cnv(math.MinInt64)), -1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal128.FromI64(tc.v)
-			ref := big.NewInt(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.LowBits(), tc.want.LowBits(); got != want {
-				t.Fatalf("invalid low-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-			if got, want := v.HighBits(), tc.want.HighBits(); got != want {
-				t.Fatalf("invalid high-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-		})
-	}
-}
-
-func u64Cnv(i int64) uint64 { return uint64(i) }
-
-func BenchmarkBigIntToDecimal(b *testing.B) {
-	var (
-		n     decimal128.Num
-		bi, _ = (&big.Int{}).SetString("-340282366920938463463374607431711455", 10)
-	)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		n = decimal128.FromBigInt(bi)
-		if n.Sign() >= 0 {
-			b.FailNow()
-		}
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 1), decimal128.New(0, 2), decimal128.New(0, 3)},
-		{decimal128.New(1, 0), decimal128.New(2, 0), decimal128.New(3, 0)},
-		{decimal128.New(2, 1), decimal128.New(1, 2), decimal128.New(3, 3)},
-		{decimal128.New(0, 1), decimal128.New(0, math.MaxUint64), decimal128.New(1, 0)},
-		{decimal128.New(0, math.MaxUint64), decimal128.New(0, 1), decimal128.New(1, 0)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 1)},
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 3), decimal128.New(0, 2), decimal128.New(0, 1)},
-		{decimal128.New(3, 0), decimal128.New(2, 0), decimal128.New(1, 0)},
-		{decimal128.New(3, 3), decimal128.New(1, 2), decimal128.New(2, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, math.MaxUint64), decimal128.New(-1, 1)},
-		{decimal128.New(1, 0), decimal128.New(0, math.MaxUint64), decimal128.New(0, 1)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(-1, math.MaxUint64)},
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 3), decimal128.New(0, 6)},
-		{decimal128.New(2, 0), decimal128.New(0, 3), decimal128.New(6, 0)},
-		{decimal128.New(3, 3), decimal128.New(0, 2), decimal128.New(6, 6)},
-		{decimal128.New(0, 2), decimal128.New(3, 3), decimal128.New(6, 6)},
-		{decimal128.New(0, 2), decimal128.New(0, math.MaxUint64), decimal128.New(1, math.MaxUint64-1)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 0)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0)},
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n        decimal128.Num
-		rhs      decimal128.Num
-		want_res decimal128.Num
-		want_rem decimal128.Num
-	}{
-		{decimal128.New(0, 3), decimal128.New(0, 2), decimal128.New(0, 1), decimal128.New(0, 1)},
-		{decimal128.New(3, 0), decimal128.New(2, 0), decimal128.New(0, 1), decimal128.New(1, 0)},
-		{decimal128.New(3, 2), decimal128.New(2, 3), decimal128.New(0, 1), decimal128.New(0, math.MaxUint64)},
-		{decimal128.New(0, math.MaxUint64), decimal128.New(0, 1), decimal128.New(0, math.MaxUint64), decimal128.New(0, 0)},
-		{decimal128.New(math.MaxInt64, 0), decimal128.New(0, 1), decimal128.New(math.MaxInt64, 0), decimal128.New(0, 0)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 0)},
-	} {
-		t.Run("div", func(t *testing.T) {
-			res, rem := tc.n.Div(tc.rhs)
-			if got, want := res, tc.want_res; got != want {
-				t.Fatalf("invalid res value. got=%v, want=%v", got, want)
-			}
-			if got, want := rem, tc.want_rem; got != want {
-				t.Fatalf("invalid rem value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestPow(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 3), decimal128.New(0, 8)},
-		{decimal128.New(0, 2), decimal128.New(0, 65), decimal128.New(2, 0)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0)},
-	} {
-		t.Run("pow", func(t *testing.T) {
-			n := tc.n.Pow(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  []decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), []decimal128.Num{decimal128.New(2, 1), decimal128.New(0, 8), decimal128.New(0, 0)}, decimal128.New(2, 1)},
-		{decimal128.New(0, 10), []decimal128.Num{decimal128.New(0, 1), decimal128.New(-1, 8), decimal128.New(3, 0)}, decimal128.New(3, 0)},
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := decimal128.Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  []decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), []decimal128.Num{decimal128.New(2, 1), decimal128.New(0, 8), decimal128.New(0, 0)}, decimal128.New(0, 0)},
-		{decimal128.New(0, 10), []decimal128.Num{decimal128.New(-1, 0), decimal128.New(0, 8), decimal128.New(3, 0)}, decimal128.New(-1, 0)},
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := decimal128.Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want bool
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), true},
-		{decimal128.New(2, 0), decimal128.New(1, 0), true},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), true},
-		{decimal128.New(0, 2), decimal128.New(0, 3), false},
-		{decimal128.New(2, 0), decimal128.New(3, 0), false},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(0, 2), decimal128.New(0, 2), false},
-		{decimal128.New(2, 0), decimal128.New(2, 0), false},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), true},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), false},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), false},
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want bool
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), false},
-		{decimal128.New(2, 0), decimal128.New(1, 0), false},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(0, 2), decimal128.New(0, 3), true},
-		{decimal128.New(2, 0), decimal128.New(3, 0), true},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), true},
-		{decimal128.New(0, 2), decimal128.New(0, 2), false},
-		{decimal128.New(2, 0), decimal128.New(2, 0), false},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), true},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), false},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), false},
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want int
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), 1},
-		{decimal128.New(2, 0), decimal128.New(1, 0), 1},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), 1},
-		{decimal128.New(0, 2), decimal128.New(0, 3), -1},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), -1},
-		{decimal128.New(2, 0), decimal128.New(3, 0), -1},
-		{decimal128.New(0, 2), decimal128.New(0, 2), 0},
-		{decimal128.New(2, 0), decimal128.New(2, 0), 0},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), 0},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), 1},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), -1},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), 0},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), 0},
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func BenchmarkDecimalToBigInt(b *testing.B) {
-	var (
-		bi *big.Int
-		n  = decimal128.New(-18446744073709552, 7083549724304524577)
-	)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bi = n.BigInt()
-		if bi.Sign() >= 0 {
-			b.FailNow()
-		}
-	}
-}
-
-func TestDecimalToBigInt(t *testing.T) {
-	tests := []struct {
-		hi  int64
-		lo  uint64
-		exp string
-	}{
-		{-18446744073709552, 7083549724304524577, "-340282366920938463463374607431711455"},
-		{1, 4611686018427387904, "23058430092136939520"},
-		{0, 0, "0"},
-	}
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-			n := decimal128.New(tc.hi, tc.lo)
-			bi := n.BigInt()
-
-			assert.Equal(t, tc.exp, bi.String())
-			n2 := decimal128.FromBigInt(bi)
-			assert.Equal(t, n.LowBits(), n2.LowBits())
-			assert.Equal(t, n.HighBits(), n2.HighBits())
-		})
-	}
-}
-
-func ulps64(actual, expected float64) int64 {
-	ulp := math.Nextafter(actual, math.Inf(1)) - actual
-	return int64(math.Abs((expected - actual) / ulp))
-}
-
-func ulps32(actual, expected float32) int64 {
-	ulp := math.Nextafter32(actual, float32(math.Inf(1))) - actual
-	return int64(math.Abs(float64((expected - actual) / ulp)))
-}
-
-func assertFloat32Approx(t *testing.T, x, y float32) bool {
-	const maxulps int64 = 4
-	ulps := ulps32(x, y)
-	return assert.LessOrEqualf(t, ulps, maxulps, "%f not equal to %f (%d ulps)", x, y, ulps)
-}
-
-func assertFloat64Approx(t *testing.T, x, y float64) bool {
-	const maxulps int64 = 4
-	ulps := ulps64(x, y)
-	return assert.LessOrEqualf(t, ulps, maxulps, "%f not equal to %f (%d ulps)", x, y, ulps)
-}
-
-func TestDecimalToReal(t *testing.T) {
-	tests := []struct {
-		decimalVal string
-		scale      int32
-		exp        float64
-	}{
-		{"0", 0, 0},
-		{"0", 10, 0.0},
-		{"0", -10, 0.0},
-		{"1", 0, 1.0},
-		{"12345", 0, 12345.0},
-		{"12345", 1, 1234.5},
-		// 2**62
-		{"4611686018427387904", 0, math.Pow(2, 62)},
-		// 2**63 + 2**62
-		{"13835058055282163712", 0, math.Pow(2, 63) + math.Pow(2, 62)},
-		// 2**64 + 2**62
-		{"23058430092136939520", 0, math.Pow(2, 64) + math.Pow(2, 62)},
-		// 10**38 - 2**103
-		{"99999989858795198174164788026374356992", 0, math.Pow10(38) - math.Pow(2, 103)},
-	}
-
-	t.Run("float32", func(t *testing.T) {
-		checkDecimalToFloat := func(t *testing.T, str string, v float32, scale int32) {
-			bi, _ := (&big.Int{}).SetString(str, 10)
-			dec := decimal128.FromBigInt(bi)
-			assert.Equalf(t, v, dec.ToFloat32(scale), "Decimal Val: %s, Scale: %d", str, scale)
-		}
-		for _, tt := range tests {
-			t.Run(tt.decimalVal, func(t *testing.T) {
-				checkDecimalToFloat(t, tt.decimalVal, float32(tt.exp), tt.scale)
-				if tt.decimalVal != "0" {
-					checkDecimalToFloat(t, "-"+tt.decimalVal, float32(-tt.exp), tt.scale)
-				}
-			})
-		}
-
-		t.Run("precision", func(t *testing.T) {
-			// 2**63 + 2**40 (exactly representable in a float's 24 bits of precision)
-			checkDecimalToFloat(t, "9223373136366403584", float32(9.223373e+18), 0)
-			checkDecimalToFloat(t, "-9223373136366403584", float32(-9.223373e+18), 0)
-			// 2**64 + 2**41 exactly representable in a float
-			checkDecimalToFloat(t, "18446746272732807168", float32(1.8446746e+19), 0)
-			checkDecimalToFloat(t, "-18446746272732807168", float32(-1.8446746e+19), 0)
-		})
-
-		t.Run("large values", func(t *testing.T) {
-			checkApproxDecimalToFloat := func(str string, v float32, scale int32) {
-				bi, _ := (&big.Int{}).SetString(str, 10)
-				dec := decimal128.FromBigInt(bi)
-				assertFloat32Approx(t, v, dec.ToFloat32(scale))
-			}
-			// exact comparisons would succeed on most platforms, but not all power-of-ten
-			// factors are exactly representable in binary floating point, so we'll use
-			// approx and ensure that the values are within 4 ULP (unit of least precision)
-			for scale := int32(-38); scale <= 38; scale++ {
-				checkApproxDecimalToFloat("1", float32(math.Pow10(-int(scale))), scale)
-				checkApproxDecimalToFloat("123", float32(123)*float32(math.Pow10(-int(scale))), scale)
-			}
-		})
-	})
-
-	t.Run("float64", func(t *testing.T) {
-		checkDecimalToFloat := func(t *testing.T, str string, v float64, scale int32) {
-			bi, _ := (&big.Int{}).SetString(str, 10)
-			dec := decimal128.FromBigInt(bi)
-			assert.Equalf(t, v, dec.ToFloat64(scale), "Decimal Val: %s, Scale: %d", str, scale)
-		}
-		for _, tt := range tests {
-			t.Run(tt.decimalVal, func(t *testing.T) {
-				checkDecimalToFloat(t, tt.decimalVal, tt.exp, tt.scale)
-				if tt.decimalVal != "0" {
-					checkDecimalToFloat(t, "-"+tt.decimalVal, -tt.exp, tt.scale)
-				}
-			})
-		}
-
-		t.Run("precision", func(t *testing.T) {
-			// 2**63 + 2**11 (exactly representable in float64's 53 bits of precision)
-			checkDecimalToFloat(t, "9223373136366403584", float64(9.223373136366404e+18), 0)
-			checkDecimalToFloat(t, "-9223373136366403584", float64(-9.223373136366404e+18), 0)
-
-			// 2**64 - 2**11 (exactly representable in a float64)
-			checkDecimalToFloat(t, "18446746272732807168", float64(1.8446746272732807e+19), 0)
-			checkDecimalToFloat(t, "-18446746272732807168", float64(-1.8446746272732807e+19), 0)
-
-			// 2**64 + 2**11 (exactly representable in a float64)
-			checkDecimalToFloat(t, "18446744073709555712", float64(1.8446744073709556e+19), 0)
-			checkDecimalToFloat(t, "-18446744073709555712", float64(-1.8446744073709556e+19), 0)
-
-			// Almost 10**38 (minus 2**73)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+37, 0)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+37, 0)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+27, 10)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+27, 10)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+47, -10)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+47, -10)
-		})
-
-		t.Run("large values", func(t *testing.T) {
-			checkApproxDecimalToFloat := func(str string, v float64, scale int32) {
-				bi, _ := (&big.Int{}).SetString(str, 10)
-				dec := decimal128.FromBigInt(bi)
-				assertFloat64Approx(t, v, dec.ToFloat64(scale))
-			}
-			// exact comparisons would succeed on most platforms, but not all power-of-ten
-			// factors are exactly representable in binary floating point, so we'll use
-			// approx and ensure that the values are within 4 ULP (unit of least precision)
-			for scale := int32(-308); scale <= 306; scale++ {
-				checkApproxDecimalToFloat("1", math.Pow10(-int(scale)), scale)
-				checkApproxDecimalToFloat("123", float64(123)*math.Pow10(-int(scale)), scale)
-			}
-		})
-	})
-}
-
-func TestDecimalFromFloat(t *testing.T) {
-	tests := []struct {
-		val              float64
-		precision, scale int32
-		expected         string
-	}{
-		{0, 1, 0, "0"},
-		{-0, 1, 0, "0"},
-		{0, 19, 4, "0.0000"},
-		{math.Copysign(0.0, -1), 19, 4, "0.0000"},
-		{123, 7, 4, "123.0000"},
-		{-123, 7, 4, "-123.0000"},
-		{456.78, 7, 4, "456.7800"},
-		{-456.78, 7, 4, "-456.7800"},
-		{456.784, 5, 2, "456.78"},
-		{-456.784, 5, 2, "-456.78"},
-		{456.786, 5, 2, "456.79"},
-		{-456.786, 5, 2, "-456.79"},
-		{999.99, 5, 2, "999.99"},
-		{-999.99, 5, 2, "-999.99"},
-		{123, 19, 0, "123"},
-		{-123, 19, 0, "-123"},
-		{123.4, 19, 0, "123"},
-		{-123.4, 19, 0, "-123"},
-		{123.6, 19, 0, "124"},
-		{-123.6, 19, 0, "-124"},
-		// 2**62
-		{4.611686018427387904e+18, 19, 0, "4611686018427387904"},
-		{-4.611686018427387904e+18, 19, 0, "-4611686018427387904"},
-		// 2**63
-		{9.223372036854775808e+18, 19, 0, "9223372036854775808"},
-		{-9.223372036854775808e+18, 19, 0, "-9223372036854775808"},
-		// 2**64
-		{1.8446744073709551616e+19, 20, 0, "18446744073709551616"},
-		{-1.8446744073709551616e+19, 20, 0, "-18446744073709551616"},
-	}
-
-	t.Run("float64", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal128.FromFloat64(tt.val, tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(n.ToFloat64(tt.scale)).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float64 range
-			for scale := int32(-308); scale <= 308; scale++ {
-				val := math.Pow10(int(scale))
-				n, err := decimal128.FromFloat64(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-307); scale <= 306; scale++ {
-				val := 123 * math.Pow10(int(scale))
-				n, err := decimal128.FromFloat64(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal128.FromFloat64(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal128.FromFloat64(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-
-	t.Run("float32", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal128.FromFloat32(float32(tt.val), tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(float64(n.ToFloat32(tt.scale))).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float32 range
-			for scale := int32(-38); scale <= 38; scale++ {
-				val := float32(math.Pow10(int(scale)))
-				n, err := decimal128.FromFloat32(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-37); scale <= 36; scale++ {
-				val := 123 * float32(math.Pow10(int(scale)))
-				n, err := decimal128.FromFloat32(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal128.FromFloat32(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal128.FromFloat32(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-}
-
-func TestFromString(t *testing.T) {
-	tests := []struct {
-		s             string
-		expected      int64
-		expectedScale int32
-	}{
-		{"12.3", 123, 1},
-		{"0.00123", 123, 5},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23e+3", 1230, 0},
-		{"-1.23E+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345E+7", 12345000, 0},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23E+3", 1230, 0},
-		{"-1.23e+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345e+7", 12345000, 0},
-		{"0000000", 0, 0},
-		{"000.0000", 0, 4},
-		{".00000", 0, 5},
-		{"1e1", 10, 0},
-		{"+234.567", 234567, 3},
-		{"1e-37", 1, 37},
-		{"2112.33", 211233, 2},
-		{"-2112.33", -211233, 2},
-		{"12E2", 12, -2},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
-			n, err := decimal128.FromString(tt.s, 37, tt.expectedScale)
-			assert.NoError(t, err)
-
-			ex := decimal128.FromI64(tt.expected)
-			assert.Equal(t, ex, n)
-		})
-	}
-}
-
-func TestInvalidNonNegScaleFromString(t *testing.T) {
-	tests := []string{"1e39", "-1e39", "9e39", "-9e39", "9.9e40", "-9.9e40"}
-	for _, tt := range tests {
-		t.Run(tt, func(t *testing.T) {
-			_, err := decimal128.FromString(tt, 38, 0)
-			assert.Error(t, err)
-		})
-	}
-}
-
-func TestBitLen(t *testing.T) {
-	n := decimal128.GetScaleMultiplier(38)
-	b := n.BigInt()
-	b.Mul(b, big.NewInt(25))
-	assert.Greater(t, b.BitLen(), 128)
-
-	assert.Panics(t, func() {
-		decimal128.FromBigInt(b)
-	})
-
-	_, err := decimal128.FromString(b.String(), decimal128.MaxPrecision, 0)
-	assert.ErrorContains(t, err, "bitlen too large for decimal128")
-	_, err = decimal128.FromString(b.String(), decimal128.MaxPrecision, -1)
-	assert.ErrorContains(t, err, "bitlen too large for decimal128")
-}
-
-func TestFromStringDecimal128b(t *testing.T) {
-	const decStr = "9323406071781562130.6457232358109488923"
-
-	num, err := decimal128.FromString(decStr, 38, 19)
-	require.NoError(t, err)
-	assert.Equal(t, decStr, num.ToString(19))
-}
diff --git a/go/arrow/decimal256/decimal256.go b/go/arrow/decimal256/decimal256.go
deleted file mode 100644
index 8244d2cd8334c..0000000000000
--- a/go/arrow/decimal256/decimal256.go
+++ /dev/null
@@ -1,708 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal256
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/big"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	MaxPrecision = 76
-	MaxScale     = 76
-)
-
-func GetMaxValue(prec int32) Num {
-	return scaleMultipliers[prec].Sub(FromU64(1))
-}
-
-type Num struct {
-	// arr[0] is the lowest bits, arr[3] is the highest bits
-	arr [4]uint64
-}
-
-// New returns a new signed 256-bit integer value where x1 contains
-// the highest bits with the rest of the values in order down to the
-// lowest bits
-//
-//	ie: New(1, 2, 3, 4) returns with the elements in little-endian order
-//	    {4, 3, 2, 1} but each value is still represented as the native endianness
-func New(x1, x2, x3, x4 uint64) Num {
-	return Num{[4]uint64{x4, x3, x2, x1}}
-}
-
-func (n Num) Array() [4]uint64 { return n.arr }
-
-func (n Num) LowBits() uint64 { return n.arr[0] }
-
-func FromDecimal128(n decimal128.Num) Num {
-	var topBits uint64
-	if n.Sign() < 0 {
-		topBits = math.MaxUint64
-	}
-	return New(topBits, topBits, uint64(n.HighBits()), n.LowBits())
-}
-
-func FromU64(v uint64) Num {
-	return Num{[4]uint64{v, 0, 0, 0}}
-}
-
-func FromI64(v int64) Num {
-	switch {
-	case v > 0:
-		return New(0, 0, 0, uint64(v))
-	case v < 0:
-		return New(math.MaxUint64, math.MaxUint64, math.MaxUint64, uint64(v))
-	default:
-		return Num{}
-	}
-}
-
-func (n Num) Negate() Num {
-	var carry uint64 = 1
-	for i := range n.arr {
-		n.arr[i] = ^n.arr[i] + carry
-		if n.arr[i] != 0 {
-			carry = 0
-		}
-	}
-	return n
-}
-
-func (n Num) Add(rhs Num) Num {
-	var carry uint64
-	for i, v := range n.arr {
-		n.arr[i], carry = bits.Add64(v, rhs.arr[i], carry)
-	}
-	return n
-}
-
-func (n Num) Sub(rhs Num) Num {
-	return n.Add(rhs.Negate())
-}
-
-func (n Num) Mul(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Mul(b, rhs.BigInt()))
-}
-
-func (n Num) Div(rhs Num) (res, rem Num) {
-	b := n.BigInt()
-	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
-	return FromBigInt(out), FromBigInt(remainder)
-}
-
-func (n Num) Pow(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Exp(b, rhs.BigInt(), nil))
-}
-
-var pt5 = big.NewFloat(0.5)
-
-func FromString(v string, prec, scale int32) (n Num, err error) {
-	// time for some math!
-	// Our input precision means "number of digits of precision" but the
-	// math/big library refers to precision in floating point terms
-	// where it refers to the "number of bits of precision in the mantissa".
-	// So we need to figure out how many bits we should use for precision,
-	// based on the input precision. Too much precision and we aren't rounding
-	// when we should. Too little precision and we round when we shouldn't.
-	//
-	// In general, the number of decimal digits you get from a given number
-	// of bits will be:
-	//
-	//	digits = log[base 10](2^nbits)
-	//
-	// it thus follows that:
-	//
-	//	digits = nbits * log[base 10](2)
-	//  nbits = digits / log[base 10](2)
-	//
-	// So we need to account for our scale since we're going to be multiplying
-	// by 10^scale in order to get the integral value we're actually going to use
-	// So to get our number of bits we do:
-	//
-	// 	(prec + scale + 1) / log[base10](2)
-	//
-	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
-	// Aren't floating point numbers fun?
-	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
-
-	var out *big.Float
-	out, _, err = big.ParseFloat(v, 10, 255, big.ToNearestEven)
-	if err != nil {
-		return
-	}
-
-	if scale < 0 {
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 255 {
-			return Num{}, errors.New("bitlen too large for decimal256")
-		}
-		n = FromBigInt(val)
-
-		n, _ = n.Div(scaleMultipliers[-scale])
-	} else {
-		out.Mul(out, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt())).SetPrec(precInBits)
-		// Since we're going to truncate this to get an integer, we need to round
-		// the value instead because of edge cases so that we match how other implementations
-		// (e.g. C++) handles Decimal values. So if we're negative we'll subtract 0.5 and if
-		// we're positive we'll add 0.5.
-		if out.Signbit() {
-			out.Sub(out, pt5)
-		} else {
-			out.Add(out, pt5)
-		}
-
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 255 {
-			return Num{}, errors.New("bitlen too large for decimal256")
-		}
-		n = FromBigInt(val)
-	}
-	if !n.FitsInPrecision(prec) {
-		err = fmt.Errorf("value %v doesn't fit in precision %d", n, prec)
-	}
-	return
-}
-
-func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	debug.Assert(prec > 0 && prec <= 76, "invalid precision for converting to decimal256")
-
-	if math.IsInf(float64(v), 0) {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal256", v)
-	}
-
-	if v < 0 {
-		dec, err := fromPositiveFloat32(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat32(v, prec, scale)
-}
-
-func FromFloat64(v float64, prec, scale int32) (Num, error) {
-	debug.Assert(prec > 0 && prec <= 76, "invalid precision for converting to decimal256")
-
-	if math.IsInf(v, 0) {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal256", v)
-	}
-
-	if v < 0 {
-		dec, err := fromPositiveFloat64(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat64(v, prec, scale)
-}
-
-// this has to exist despite sharing some code with fromPositiveFloat64
-// because if we don't do the casts back to float32 in between each
-// step, we end up with a significantly different answer!
-// Aren't floating point values so much fun?
-//
-// example value to use:
-//
-//	v := float32(1.8446746e+15)
-//
-// You'll end up with a different values if you do:
-//
-//	FromFloat64(float64(v), 20, 4)
-//
-// vs
-//
-//	FromFloat32(v, 20, 4)
-//
-// because float64(v) == 1844674629206016 rather than 1844674600000000
-func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(float64(v), prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	v = float32(val)
-	var arr [4]float32
-	arr[3] = float32(math.Floor(math.Ldexp(float64(v), -192)))
-	v -= float32(math.Ldexp(float64(arr[3]), 192))
-	arr[2] = float32(math.Floor(math.Ldexp(float64(v), -128)))
-	v -= float32(math.Ldexp(float64(arr[2]), 128))
-	arr[1] = float32(math.Floor(math.Ldexp(float64(v), -64)))
-	v -= float32(math.Ldexp(float64(arr[1]), 64))
-	arr[0] = v
-
-	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[2] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[2] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[1] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[1] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[0] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[0] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	return Num{[4]uint64{uint64(arr[0]), uint64(arr[1]), uint64(arr[2]), uint64(arr[3])}}, nil
-}
-
-func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
-	var pscale float64
-	if scale >= -76 && scale <= 76 {
-		pscale = float64PowersOfTen[scale+76]
-	} else {
-		pscale = math.Pow10(int(scale))
-	}
-
-	v *= pscale
-	v = math.RoundToEven(v)
-	maxabs := float64PowersOfTen[prec+76]
-	if v <= -maxabs || v >= maxabs {
-		return 0, fmt.Errorf("cannot convert %f to decimal256(precision=%d, scale=%d): overflow",
-			v, prec, scale)
-	}
-	return v, nil
-}
-
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(v, prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	var arr [4]float64
-	arr[3] = math.Floor(math.Ldexp(val, -192))
-	val -= math.Ldexp(arr[3], 192)
-	arr[2] = math.Floor(math.Ldexp(val, -128))
-	val -= math.Ldexp(arr[2], 128)
-	arr[1] = math.Floor(math.Ldexp(val, -64))
-	val -= math.Ldexp(arr[1], 64)
-	arr[0] = val
-
-	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[2] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[2] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[1] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[1] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[0] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[0] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	return Num{[4]uint64{uint64(arr[0]), uint64(arr[1]), uint64(arr[2]), uint64(arr[3])}}, nil
-}
-
-func (n Num) tofloat64Positive(scale int32) float64 {
-	const (
-		twoTo64  float64 = 1.8446744073709552e+19
-		twoTo128 float64 = 3.402823669209385e+38
-		twoTo192 float64 = 6.277101735386681e+57
-	)
-
-	x := float64(n.arr[3]) * twoTo192
-	x += float64(n.arr[2]) * twoTo128
-	x += float64(n.arr[1]) * twoTo64
-	x += float64(n.arr[0])
-
-	if scale >= -76 && scale <= 76 {
-		return x * float64PowersOfTen[-scale+76]
-	}
-
-	return x * math.Pow10(-int(scale))
-}
-
-func (n Num) ToFloat32(scale int32) float32 { return float32(n.ToFloat64(scale)) }
-
-func (n Num) ToFloat64(scale int32) float64 {
-	if n.Sign() < 0 {
-		return -n.Negate().tofloat64Positive(scale)
-	}
-	return n.tofloat64Positive(scale)
-}
-
-func (n Num) Sign() int {
-	if n == (Num{}) {
-		return 0
-	}
-	return int(1 | (int64(n.arr[3]) >> 63))
-}
-
-func FromBigInt(v *big.Int) (n Num) {
-	bitlen := v.BitLen()
-	if bitlen > 255 {
-		panic("arrow/decimal256: cannot represent value larger than 256bits")
-	} else if bitlen == 0 {
-		return
-	}
-
-	b := v.Bits()
-	for i, bits := range b {
-		n.arr[i] = uint64(bits)
-	}
-	if v.Sign() < 0 {
-		return n.Negate()
-	}
-	return
-}
-
-func toBigIntPositive(n Num) *big.Int {
-	return new(big.Int).SetBits([]big.Word{big.Word(n.arr[0]), big.Word(n.arr[1]), big.Word(n.arr[2]), big.Word(n.arr[3])})
-}
-
-func (n Num) BigInt() *big.Int {
-	if n.Sign() < 0 {
-		b := toBigIntPositive(n.Negate())
-		return b.Neg(b)
-	}
-	return toBigIntPositive(n)
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return other.Less(n)
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return !n.Less(other)
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	switch {
-	case n.arr[3] != other.arr[3]:
-		return int64(n.arr[3]) < int64(other.arr[3])
-	case n.arr[2] != other.arr[2]:
-		return n.arr[2] < other.arr[2]
-	case n.arr[1] != other.arr[1]:
-		return n.arr[1] < other.arr[1]
-	}
-	return n.arr[0] < other.arr[0]
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return !n.Greater(other)
-}
-
-// Max returns the largest Decimal256 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal256 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-func (n Num) IncreaseScaleBy(increase int32) Num {
-	debug.Assert(increase >= 0, "invalid amount to increase scale by")
-	debug.Assert(increase <= 76, "invalid amount to increase scale by")
-
-	v := scaleMultipliers[increase].BigInt()
-	return FromBigInt(v.Mul(n.BigInt(), v))
-}
-
-func (n Num) ReduceScaleBy(reduce int32, round bool) Num {
-	debug.Assert(reduce >= 0, "invalid amount to reduce scale by")
-	debug.Assert(reduce <= 76, "invalid amount to reduce scale by")
-
-	if reduce == 0 {
-		return n
-	}
-
-	divisor := scaleMultipliers[reduce].BigInt()
-	result, remainder := divisor.QuoRem(n.BigInt(), divisor, new(big.Int))
-	if round {
-		divisorHalf := scaleMultipliersHalf[reduce]
-		if remainder.Abs(remainder).Cmp(divisorHalf.BigInt()) != -1 {
-			result.Add(result, big.NewInt(int64(n.Sign())))
-		}
-	}
-	return FromBigInt(result)
-}
-
-func (n Num) rescaleWouldCauseDataLoss(deltaScale int32, multiplier Num) (out Num, loss bool) {
-	if deltaScale < 0 {
-		var remainder Num
-		out, remainder = n.Div(multiplier)
-		return out, remainder != Num{}
-	}
-
-	out = n.Mul(multiplier)
-	if n.Sign() < 0 {
-		loss = n.Less(out)
-	} else {
-		loss = out.Less(n)
-	}
-	return
-}
-
-func (n Num) Rescale(original, newscale int32) (out Num, err error) {
-	if original == newscale {
-		return n, nil
-	}
-
-	deltaScale := newscale - original
-	absDeltaScale := int32(math.Abs(float64(deltaScale)))
-
-	multiplier := scaleMultipliers[absDeltaScale]
-	var wouldHaveLoss bool
-	out, wouldHaveLoss = n.rescaleWouldCauseDataLoss(deltaScale, multiplier)
-	if wouldHaveLoss {
-		err = errors.New("rescale data loss")
-	}
-	return
-}
-
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-func (n Num) FitsInPrecision(prec int32) bool {
-	debug.Assert(prec > 0, "precision must be > 0")
-	debug.Assert(prec <= 76, "precision must be <= 76")
-	return n.Abs().Less(scaleMultipliers[prec])
-}
-
-func (n Num) ToString(scale int32) string {
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(256).Mul(f, (&big.Float{}).SetInt(scaleMultipliers[-scale].BigInt()))
-	} else {
-		f.SetPrec(256).Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
-	}
-	return f.Text('f', int(scale))
-}
-
-func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
-
-func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
-
-var (
-	scaleMultipliers = [...]Num{
-		FromU64(1),
-		FromU64(10),
-		FromU64(100),
-		FromU64(1000),
-		FromU64(10000),
-		FromU64(100000),
-		FromU64(1000000),
-		FromU64(10000000),
-		FromU64(100000000),
-		FromU64(1000000000),
-		FromU64(10000000000),
-		FromU64(100000000000),
-		FromU64(1000000000000),
-		FromU64(10000000000000),
-		FromU64(100000000000000),
-		FromU64(1000000000000000),
-		FromU64(10000000000000000),
-		FromU64(100000000000000000),
-		FromU64(1000000000000000000),
-		New(0, 0, 0, 10000000000000000000),
-		New(0, 0, 5, 7766279631452241920),
-		New(0, 0, 54, 3875820019684212736),
-		New(0, 0, 542, 1864712049423024128),
-		New(0, 0, 5421, 200376420520689664),
-		New(0, 0, 54210, 2003764205206896640),
-		New(0, 0, 542101, 1590897978359414784),
-		New(0, 0, 5421010, 15908979783594147840),
-		New(0, 0, 54210108, 11515845246265065472),
-		New(0, 0, 542101086, 4477988020393345024),
-		New(0, 0, 5421010862, 7886392056514347008),
-		New(0, 0, 54210108624, 5076944270305263616),
-		New(0, 0, 542101086242, 13875954555633532928),
-		New(0, 0, 5421010862427, 9632337040368467968),
-		New(0, 0, 54210108624275, 4089650035136921600),
-		New(0, 0, 542101086242752, 4003012203950112768),
-		New(0, 0, 5421010862427522, 3136633892082024448),
-		New(0, 0, 54210108624275221, 12919594847110692864),
-		New(0, 0, 542101086242752217, 68739955140067328),
-		New(0, 0, 5421010862427522170, 687399551400673280),
-		New(0, 2, 17316620476856118468, 6873995514006732800),
-		New(0, 29, 7145508105175220139, 13399722918938673152),
-		New(0, 293, 16114848830623546549, 4870020673419870208),
-		New(0, 2938, 13574535716559052564, 11806718586779598848),
-		New(0, 29387, 6618148649623664334, 7386721425538678784),
-		New(0, 293873, 10841254275107988496, 80237960548581376),
-		New(0, 2938735, 16178822382532126880, 802379605485813760),
-		New(0, 29387358, 14214271235644855872, 8023796054858137600),
-		New(0, 293873587, 13015503840481697412, 6450984253743169536),
-		New(0, 2938735877, 1027829888850112811, 9169610316303040512),
-		New(0, 29387358770, 10278298888501128114, 17909126868192198656),
-		New(0, 293873587705, 10549268516463523069, 13070572018536022016),
-		New(0, 2938735877055, 13258964796087472617, 1578511669393358848),
-		New(0, 29387358770557, 3462439444907864858, 15785116693933588480),
-		New(0, 293873587705571, 16177650375369096972, 10277214349659471872),
-		New(0, 2938735877055718, 14202551164014556797, 10538423128046960640),
-		New(0, 29387358770557187, 12898303124178706663, 13150510911921848320),
-		New(0, 293873587705571876, 18302566799529756941, 2377900603251621888),
-		New(0, 2938735877055718769, 17004971331911604867, 5332261958806667264),
-		New(1, 10940614696847636083, 4029016655730084128, 16429131440647569408),
-		New(15, 17172426599928602752, 3396678409881738056, 16717361816799281152),
-		New(159, 5703569335900062977, 15520040025107828953, 1152921504606846976),
-		New(1593, 1695461137871974930, 7626447661401876602, 11529215046068469760),
-		New(15930, 16954611378719749304, 2477500319180559562, 4611686018427387904),
-		New(159309, 3525417123811528497, 6328259118096044006, 9223372036854775808),
-		New(1593091, 16807427164405733357, 7942358959831785217, 0),
-		New(15930919, 2053574980671369030, 5636613303479645706, 0),
-		New(159309191, 2089005733004138687, 1025900813667802212, 0),
-		New(1593091911, 2443313256331835254, 10259008136678022120, 0),
-		New(15930919111, 5986388489608800929, 10356360998232463120, 0),
-		New(159309191113, 4523652674959354447, 11329889613776873120, 0),
-		New(1593091911132, 8343038602174441244, 2618431695511421504, 0),
-		New(15930919111324, 9643409726906205977, 7737572881404663424, 0),
-		New(159309191113245, 4200376900514301694, 3588752519208427776, 0),
-		New(1593091911132452, 5110280857723913709, 17440781118374726144, 0),
-		New(15930919111324522, 14209320429820033867, 8387114520361296896, 0),
-		New(159309191113245227, 12965995782233477362, 10084168908774762496, 0),
-		New(1593091911132452277, 532749306367912313, 8607968719199866880, 0),
-	}
-
-	scaleMultipliersHalf = [...]Num{
-		FromU64(0),
-		FromU64(5),
-		FromU64(50),
-		FromU64(500),
-		FromU64(5000),
-		FromU64(50000),
-		FromU64(500000),
-		FromU64(5000000),
-		FromU64(50000000),
-		FromU64(500000000),
-		FromU64(5000000000),
-		FromU64(50000000000),
-		FromU64(500000000000),
-		FromU64(5000000000000),
-		FromU64(50000000000000),
-		FromU64(500000000000000),
-		FromU64(5000000000000000),
-		FromU64(50000000000000000),
-		FromU64(500000000000000000),
-		FromU64(5000000000000000000),
-		New(0, 0, 2, 13106511852580896768),
-		New(0, 0, 27, 1937910009842106368),
-		New(0, 0, 271, 932356024711512064),
-		New(0, 0, 2710, 9323560247115120640),
-		New(0, 0, 27105, 1001882102603448320),
-		New(0, 0, 271050, 10018821026034483200),
-		New(0, 0, 2710505, 7954489891797073920),
-		New(0, 0, 27105054, 5757922623132532736),
-		New(0, 0, 271050543, 2238994010196672512),
-		New(0, 0, 2710505431, 3943196028257173504),
-		New(0, 0, 27105054312, 2538472135152631808),
-		New(0, 0, 271050543121, 6937977277816766464),
-		New(0, 0, 2710505431213, 14039540557039009792),
-		New(0, 0, 27105054312137, 11268197054423236608),
-		New(0, 0, 271050543121376, 2001506101975056384),
-		New(0, 0, 2710505431213761, 1568316946041012224),
-		New(0, 0, 27105054312137610, 15683169460410122240),
-		New(0, 0, 271050543121376108, 9257742014424809472),
-		New(0, 0, 2710505431213761085, 343699775700336640),
-		New(0, 1, 8658310238428059234, 3436997757003366400),
-		New(0, 14, 12796126089442385877, 15923233496324112384),
-		New(0, 146, 17280796452166549082, 11658382373564710912),
-		New(0, 1469, 6787267858279526282, 5903359293389799424),
-		New(0, 14693, 12532446361666607975, 3693360712769339392),
-		New(0, 146936, 14643999174408770056, 40118980274290688),
-		New(0, 1469367, 17312783228120839248, 401189802742906880),
-		New(0, 14693679, 7107135617822427936, 4011898027429068800),
-		New(0, 146936793, 15731123957095624514, 3225492126871584768),
-		New(0, 1469367938, 9737286981279832213, 13808177195006296064),
-		New(0, 14693679385, 5139149444250564057, 8954563434096099328),
-		New(0, 146936793852, 14498006295086537342, 15758658046122786816),
-		New(0, 1469367938527, 15852854434898512116, 10012627871551455232),
-		New(0, 14693679385278, 10954591759308708237, 7892558346966794240),
-		New(0, 146936793852785, 17312197224539324294, 5138607174829735936),
-		New(0, 1469367938527859, 7101275582007278398, 14492583600878256128),
-		New(0, 14693679385278593, 15672523598944129139, 15798627492815699968),
-		New(0, 146936793852785938, 9151283399764878470, 10412322338480586752),
-		New(0, 1469367938527859384, 17725857702810578241, 11889503016258109440),
-		New(0, 14693679385278593849, 11237880364719817872, 8214565720323784704),
-		New(7, 17809585336819077184, 1698339204940869028, 8358680908399640576),
-		New(79, 12075156704804807296, 16983392049408690284, 9799832789158199296),
-		New(796, 10071102605790763273, 3813223830700938301, 5764607523034234880),
-		New(7965, 8477305689359874652, 1238750159590279781, 2305843009213693952),
-		New(79654, 10986080598760540056, 12387501595902797811, 4611686018427387904),
-		New(796545, 17627085619057642486, 13194551516770668416, 9223372036854775808),
-		New(7965459, 10250159527190460323, 2818306651739822853, 0),
-		New(79654595, 10267874903356845151, 9736322443688676914, 0),
-		New(796545955, 10445028665020693435, 5129504068339011060, 0),
-		New(7965459555, 12216566281659176272, 14401552535971007368, 0),
-		New(79654595556, 11485198374334453031, 14888316843743212368, 0),
-		New(796545955566, 4171519301087220622, 1309215847755710752, 0),
-		New(7965459555662, 4821704863453102988, 13092158477557107520, 0),
-		New(79654595556622, 11323560487111926655, 1794376259604213888, 0),
-		New(796545955566226, 2555140428861956854, 17943762596042138880, 0),
-		New(7965459555662261, 7104660214910016933, 13416929297035424256, 0),
-		New(79654595556622613, 15706369927971514489, 5042084454387381248, 0),
-		New(796545955566226138, 9489746690038731964, 13527356396454709248, 0),
-	}
-
-	float64PowersOfTen = [...]float64{
-		1e-76, 1e-75, 1e-74, 1e-73, 1e-72, 1e-71, 1e-70, 1e-69, 1e-68, 1e-67, 1e-66, 1e-65,
-		1e-64, 1e-63, 1e-62, 1e-61, 1e-60, 1e-59, 1e-58, 1e-57, 1e-56, 1e-55, 1e-54, 1e-53,
-		1e-52, 1e-51, 1e-50, 1e-49, 1e-48, 1e-47, 1e-46, 1e-45, 1e-44, 1e-43, 1e-42, 1e-41,
-		1e-40, 1e-39, 1e-38, 1e-37, 1e-36, 1e-35, 1e-34, 1e-33, 1e-32, 1e-31, 1e-30, 1e-29,
-		1e-28, 1e-27, 1e-26, 1e-25, 1e-24, 1e-23, 1e-22, 1e-21, 1e-20, 1e-19, 1e-18, 1e-17,
-		1e-16, 1e-15, 1e-14, 1e-13, 1e-12, 1e-11, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5,
-		1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1, 1e2, 1e3, 1e4, 1e5, 1e6, 1e7,
-		1e8, 1e9, 1e10, 1e11, 1e12, 1e13, 1e14, 1e15, 1e16, 1e17, 1e18, 1e19,
-		1e20, 1e21, 1e22, 1e23, 1e24, 1e25, 1e26, 1e27, 1e28, 1e29, 1e30, 1e31,
-		1e32, 1e33, 1e34, 1e35, 1e36, 1e37, 1e38, 1e39, 1e40, 1e41, 1e42, 1e43,
-		1e44, 1e45, 1e46, 1e47, 1e48, 1e49, 1e50, 1e51, 1e52, 1e53, 1e54, 1e55,
-		1e56, 1e57, 1e58, 1e59, 1e60, 1e61, 1e62, 1e63, 1e64, 1e65, 1e66, 1e67,
-		1e68, 1e69, 1e70, 1e71, 1e72, 1e73, 1e74, 1e75, 1e76,
-	}
-)
diff --git a/go/arrow/decimal256/decimal256_test.go b/go/arrow/decimal256/decimal256_test.go
deleted file mode 100644
index 3d2ee8c543597..0000000000000
--- a/go/arrow/decimal256/decimal256_test.go
+++ /dev/null
@@ -1,623 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal256_test
-
-import (
-	"fmt"
-	"math"
-	"math/big"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFromU64(t *testing.T) {
-	for _, tc := range []struct {
-		v    uint64
-		want decimal256.Num
-		sign int
-	}{
-		{0, decimal256.New(0, 0, 0, 0), 0},
-		{1, decimal256.New(0, 0, 0, 1), +1},
-		{2, decimal256.New(0, 0, 0, 2), +1},
-		{math.MaxInt64, decimal256.New(0, 0, 0, math.MaxInt64), +1},
-		{math.MaxUint64, decimal256.New(0, 0, 0, math.MaxUint64), +1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal256.FromU64(tc.v)
-			ref := new(big.Int).SetUint64(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Array(), tc.want.Array(); got != want {
-				t.Fatalf("invalid array: got=%+0#v, want=%+0#v", got, want)
-			}
-		})
-	}
-}
-
-func u64Cnv(i int64) uint64 { return uint64(i) }
-
-func TestFromI64(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want decimal256.Num
-		sign int
-	}{
-		{0, decimal256.New(0, 0, 0, 0), 0},
-		{1, decimal256.New(0, 0, 0, 1), 1},
-		{2, decimal256.New(0, 0, 0, 2), 1},
-		{math.MaxInt64, decimal256.New(0, 0, 0, math.MaxInt64), 1},
-		{math.MinInt64, decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, u64Cnv(math.MinInt64)), -1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal256.FromI64(tc.v)
-			ref := big.NewInt(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Array(), tc.want.Array(); got != want {
-				t.Fatalf("invalid array: got=%+0#v, want=%+0#v", got, want)
-			}
-		})
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0)},
-		{decimal256.New(0, 0, 2, 1), decimal256.New(0, 0, 1, 2), decimal256.New(0, 0, 3, 3)},
-		{decimal256.New(0, 2, 1, 0), decimal256.New(0, 1, 2, 0), decimal256.New(0, 3, 3, 0)},
-		{decimal256.New(2, 1, 0, 0), decimal256.New(1, 2, 0, 0), decimal256.New(3, 3, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 3, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 3, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(3, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 1, 2), decimal256.New(0, 0, 2, 1)},
-		{decimal256.New(0, 3, 3, 0), decimal256.New(0, 1, 2, 0), decimal256.New(0, 2, 1, 0)},
-		{decimal256.New(3, 3, 0, 0), decimal256.New(1, 2, 0, 0), decimal256.New(2, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(math.MaxUint64, math.MaxUint64, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(math.MaxUint64, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, math.MaxUint64)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(math.MaxUint64, math.MaxUint64, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(math.MaxUint64, 0, 0, 0)},
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 6)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 6, 0)},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 0, 3), decimal256.New(0, 6, 0, 0)},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(0, 0, 0, 3), decimal256.New(6, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 6, 6)},
-		{decimal256.New(0, 3, 3, 0), decimal256.New(0, 0, 0, 2), decimal256.New(0, 6, 6, 0)},
-		{decimal256.New(3, 3, 0, 0), decimal256.New(0, 0, 0, 2), decimal256.New(6, 6, 0, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 6, 6)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 3), decimal256.New(0, 6, 6, 0)},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 3, 3), decimal256.New(6, 6, 0, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 1, math.MaxUint64-1)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 1, math.MaxUint64-1, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(1, math.MaxUint64-1, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n        decimal256.Num
-		rhs      decimal256.Num
-		want_res decimal256.Num
-		want_rem decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 3, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 3, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(3, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 2), decimal256.New(0, 0, 2, 3), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64)},
-		{decimal256.New(0, 3, 2, 0), decimal256.New(0, 2, 3, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, math.MaxUint64, 0)},
-		{decimal256.New(3, 2, 0, 0), decimal256.New(2, 3, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, math.MaxUint64, 0, 0)},
-		{decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(math.MaxUint64, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(math.MaxUint64, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("div", func(t *testing.T) {
-			res, rem := tc.n.Div(tc.rhs)
-			if got, want := res, tc.want_res; got != want {
-				t.Fatalf("invalid res value. got=%v, want=%v", got, want)
-			}
-			if got, want := rem, tc.want_rem; got != want {
-				t.Fatalf("invalid rem value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestPow(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 8)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 3), decimal256.New(8, 0, 0, 0)},
-		{decimal256.New(0, 0, 2, 2), decimal256.New(0, 0, 0, 3), decimal256.New(8, 24, 24, 8)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("pow", func(t *testing.T) {
-			n := tc.n.Pow(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  []decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), []decimal256.Num{decimal256.New(8, 4, 2, 1), decimal256.New(9, 0, 0, 8), decimal256.New(0, 17, 0, 0)}, decimal256.New(9, 0, 0, 8)},
-		{decimal256.New(0, 0, 0, 10), []decimal256.Num{decimal256.New(0, 4, 0, 1), decimal256.New(0, 0, 0, 8), decimal256.New(0, 0, 3, 0)}, decimal256.New(0, 4, 0, 1)},
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := decimal256.Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  []decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), []decimal256.Num{decimal256.New(8, 4, 2, 1), decimal256.New(9, 0, 0, 8), decimal256.New(0, 17, 0, 0)}, decimal256.New(0, 0, 0, 2)},
-		{decimal256.New(0, 0, 0, 10), []decimal256.Num{decimal256.New(0, 4, 0, 1), decimal256.New(0, 0, 0, 8), decimal256.New(0, 0, 3, 0)}, decimal256.New(0, 0, 0, 8)},
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := decimal256.Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want bool
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), true},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), true},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), true},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), true},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), false},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), true},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), true},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), true},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), false},
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want bool
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), false},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), true},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), true},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), true},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), true},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), true},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), true},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), true},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), false},
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want int
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), 1},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), 1},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), 1},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), 1},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), -1},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), -1},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), -1},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), -1},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), 0},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), 0},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), 0},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), 0},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), 1},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), 1},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), 1},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), -1},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), -1},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), -1},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), 0},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), 0},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), 0},
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDecimalToBigInt(t *testing.T) {
-	tests := []struct {
-		arr [4]uint64
-		exp string
-	}{
-		{[4]uint64{0, 10084168908774762496, 12965995782233477362, 159309191113245227}, "1000000000000000000000000000000000000000000000000000000000000000000000000000"},
-		{[4]uint64{0, 8362575164934789120, 5480748291476074253, 18287434882596306388}, "-1000000000000000000000000000000000000000000000000000000000000000000000000000"},
-		{[4]uint64{0, 0, 0, 0}, "0"},
-		{[4]uint64{17877984925544397504, 5352188884907840935, 234631617561833724, 196678011949953713}, "1234567890123456789012345678901234567890123456789012345678901234567890123456"},
-		{[4]uint64{568759148165154112, 13094555188801710680, 18212112456147717891, 18250066061759597902}, "-1234567890123456789012345678901234567890123456789012345678901234567890123456"},
-	}
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-			n := decimal256.New(tc.arr[3], tc.arr[2], tc.arr[1], tc.arr[0])
-			bi := n.BigInt()
-
-			assert.Equal(t, tc.exp, bi.String())
-			n2 := decimal256.FromBigInt(bi)
-			assert.Equal(t, n2.Array(), n.Array())
-		})
-	}
-}
-
-func TestDecimalFromFloat(t *testing.T) {
-	tests := []struct {
-		val              float64
-		precision, scale int32
-		expected         string
-	}{
-		{0, 1, 0, "0"},
-		{math.Copysign(0, -1), 1, 0, "0"},
-		{0, 19, 4, "0.0000"},
-		{math.Copysign(0, -1), 19, 4, "0.0000"},
-		{123.0, 7, 4, "123.0000"},
-		{-123, 7, 4, "-123.0000"},
-		{456.78, 7, 4, "456.7800"},
-		{-456.78, 7, 4, "-456.7800"},
-		{456.784, 5, 2, "456.78"},
-		{-456.784, 5, 2, "-456.78"},
-		{456.786, 5, 2, "456.79"},
-		{-456.786, 5, 2, "-456.79"},
-		{999.99, 5, 2, "999.99"},
-		{-999.99, 5, 2, "-999.99"},
-		{123, 19, 0, "123"},
-		{-123, 19, 0, "-123"},
-		{123.4, 19, 0, "123"},
-		{-123.4, 19, 0, "-123"},
-		{123.6, 19, 0, "124"},
-		{-123.6, 19, 0, "-124"},
-		// 2**62
-		{4.611686018427387904e+18, 19, 0, "4611686018427387904"},
-		{-4.611686018427387904e+18, 19, 0, "-4611686018427387904"},
-		// 2**63
-		{9.223372036854775808e+18, 19, 0, "9223372036854775808"},
-		{-9.223372036854775808e+18, 19, 0, "-9223372036854775808"},
-		// 2**64
-		{1.8446744073709551616e+19, 20, 0, "18446744073709551616"},
-		{-1.8446744073709551616e+19, 20, 0, "-18446744073709551616"},
-		{9.999999999999999e+75, 76, 0, "9999999999999998863663300700064420349597509066704028242075715752105414230016"},
-		{-9.999999999999999e+75, 76, 0, "-9999999999999998863663300700064420349597509066704028242075715752105414230016"},
-	}
-
-	t.Run("float64", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal256.FromFloat64(tt.val, tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(n.ToFloat64(tt.scale)).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float64 range
-			for scale := int32(-308); scale <= 308; scale++ {
-				val := math.Pow10(int(scale))
-				n, err := decimal256.FromFloat64(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-307); scale <= 306; scale++ {
-				val := 123 * math.Pow10(int(scale))
-				n, err := decimal256.FromFloat64(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal256.FromFloat64(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal256.FromFloat64(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-
-	t.Run("float32", func(t *testing.T) {
-		for _, tt := range tests {
-			if tt.precision > 38 {
-				continue
-			}
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal256.FromFloat32(float32(tt.val), tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(float64(n.ToFloat32(tt.scale))).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float32 range
-			for scale := int32(-38); scale <= 38; scale++ {
-				val := float32(math.Pow10(int(scale)))
-				n, err := decimal256.FromFloat32(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-37); scale <= 36; scale++ {
-				val := 123 * float32(math.Pow10(int(scale)))
-				n, err := decimal256.FromFloat32(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal256.FromFloat32(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal256.FromFloat32(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-}
-
-func TestFromString(t *testing.T) {
-	tests := []struct {
-		s             string
-		expected      int64
-		expectedScale int32
-	}{
-		{"12.3", 123, 1},
-		{"0.00123", 123, 5},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23e+3", 1230, 0},
-		{"-1.23E+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345E+7", 12345000, 0},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23E+3", 1230, 0},
-		{"-1.23e+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345e+7", 12345000, 0},
-		{"0000000", 0, 0},
-		{"000.0000", 0, 4},
-		{".00000", 0, 5},
-		{"1e1", 10, 0},
-		{"+234.567", 234567, 3},
-		{"1e-37", 1, 37},
-		{"2112.33", 211233, 2},
-		{"-2112.33", -211233, 2},
-		{"12E2", 12, -2},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
-			n, err := decimal256.FromString(tt.s, 35, tt.expectedScale)
-			assert.NoError(t, err)
-
-			ex := decimal256.FromI64(tt.expected)
-			assert.Equal(t, ex, n)
-		})
-	}
-}
-
-// Test issues from GH-38395
-func TestToString(t *testing.T) {
-	const decStr = "3379334159166193114608287418738414931564221155305735605033949613740461239999"
-
-	integer, _ := (&big.Int{}).SetString(decStr, 10)
-	dec := decimal256.FromBigInt(integer)
-
-	expected := "0." + decStr
-	assert.Equal(t, expected, dec.ToString(int32(len(decStr))))
-	assert.Equal(t, decStr+"0000", dec.ToString(-4))
-}
-
-// Test issues from GH-38395
-func TestHexFromString(t *testing.T) {
-	const decStr = "11111111111111111111111111111111111111.00000000000000000000000000000000000000"
-
-	num, err := decimal256.FromString(decStr, 76, 38)
-	if err != nil {
-		t.Error(err)
-	} else if decStr != num.ToString(38) {
-		t.Errorf("expected: %s, actual: %s\n", decStr, num.ToString(38))
-
-		actualCoeff := num.BigInt()
-		expectedCoeff, _ := (&big.Int{}).SetString(strings.Replace(decStr, ".", "", -1), 10)
-		t.Errorf("expected(hex): %X, actual(hex): %X\n", expectedCoeff.Bytes(), actualCoeff.Bytes())
-	}
-}
-
-func TestBitLen(t *testing.T) {
-	n := decimal256.GetScaleMultiplier(76)
-	b := n.BigInt()
-	b.Mul(b, big.NewInt(25))
-	assert.Greater(t, b.BitLen(), 255)
-
-	assert.Panics(t, func() {
-		decimal256.FromBigInt(b)
-	})
-
-	_, err := decimal256.FromString(b.String(), decimal256.MaxPrecision, 0)
-	assert.ErrorContains(t, err, "bitlen too large for decimal256")
-	_, err = decimal256.FromString(b.String(), decimal256.MaxPrecision, -1)
-	assert.ErrorContains(t, err, "bitlen too large for decimal256")
-}
diff --git a/go/arrow/doc.go b/go/arrow/doc.go
deleted file mode 100644
index 30e6b7eb8d6ea..0000000000000
--- a/go/arrow/doc.go
+++ /dev/null
@@ -1,46 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package arrow provides an implementation of Apache Arrow.
-
-Apache Arrow is a cross-language development platform for in-memory data. It specifies a standardized
-language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic
-operations on modern hardware. It also provides computational libraries and zero-copy streaming
-messaging and inter-process communication.
-
-# Basics
-
-The fundamental data structure in Arrow is an Array, which holds a sequence of values of the same type. An array
-consists of memory holding the data and an additional validity bitmap that indicates if the corresponding entry in the
-array is valid (not null). If the array has no null entries, it is possible to omit this bitmap.
-
-# Requirements
-
-To build with tinygo include the noasm build tag.
-*/
-package arrow
-
-const PkgVersion = "18.0.0-SNAPSHOT"
-
-//go:generate go run _tools/tmpl/main.go -i -data=numeric.tmpldata type_traits_numeric.gen.go.tmpl type_traits_numeric.gen_test.go.tmpl array/numeric.gen.go.tmpl array/numericbuilder.gen.go.tmpl array/bufferbuilder_numeric.gen.go.tmpl
-//go:generate go run _tools/tmpl/main.go -i -data=datatype_numeric.gen.go.tmpldata datatype_numeric.gen.go.tmpl tensor/numeric.gen.go.tmpl tensor/numeric.gen_test.go.tmpl
-//go:generate go run _tools/tmpl/main.go -i -data=scalar/numeric.gen.go.tmpldata scalar/numeric.gen.go.tmpl scalar/numeric.gen_test.go.tmpl
-//go:generate go run ./gen-flatbuffers.go
-
-// stringer
-//go:generate stringer -type=Type
-//go:generate stringer -type=UnionMode -linecomment
diff --git a/go/arrow/encoded/ree_utils.go b/go/arrow/encoded/ree_utils.go
deleted file mode 100644
index 822edd0303703..0000000000000
--- a/go/arrow/encoded/ree_utils.go
+++ /dev/null
@@ -1,219 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoded
-
-import (
-	"math"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// FindPhysicalIndex performs a binary search on the run-ends to return
-// the appropriate physical offset into the values/run-ends that corresponds
-// with the logical index provided when called. If the array's logical offset
-// is provided, this is equivalent to calling FindPhysicalOffset.
-//
-// For example, an array with run-ends [10, 20, 30, 40, 50] and a logicalIdx
-// of 25 will return the value 2. This returns the smallest offset
-// whose run-end is greater than the logicalIdx requested, which would
-// also be the index into the values that contains the correct value.
-//
-// This function assumes it receives Run End Encoded array data
-func FindPhysicalIndex(arr arrow.ArrayData, logicalIdx int) int {
-	data := arr.Children()[0]
-	if data.Len() == 0 {
-		return 0
-	}
-
-	switch data.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int16(logicalIdx) })
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int32(logicalIdx) })
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int64(logicalIdx) })
-	default:
-		panic("only int16, int32, and int64 are allowed for the run-ends")
-	}
-}
-
-// FindPhysicalOffset performs a binary search on the run-ends to return
-// the appropriate physical offset into the values/run-ends that corresponds
-// with the logical offset defined in the array.
-//
-// For example, an array with run-ends [10, 20, 30, 40, 50] and a logical
-// offset of 25 will return the value 2. This returns the smallest offset
-// whose run-end is greater than the logical offset, which would also be the
-// offset index into the values that contains the correct value.
-//
-// This function assumes it receives Run End Encoded array data
-func FindPhysicalOffset(arr arrow.ArrayData) int {
-	return FindPhysicalIndex(arr, arr.Offset())
-}
-
-// GetPhysicalLength returns the physical number of values which are in
-// the passed in RunEndEncoded array data. This will take into account
-// the offset and length of the array as reported in the array data
-// (so that it properly handles slices).
-//
-// This function assumes it receives Run End Encoded array data
-func GetPhysicalLength(arr arrow.ArrayData) int {
-	if arr.Len() == 0 {
-		return 0
-	}
-
-	data := arr.Children()[0]
-	physicalOffset := FindPhysicalOffset(arr)
-	start, length := data.Offset()+physicalOffset, data.Len()-physicalOffset
-	offset := arr.Offset() + arr.Len() - 1
-
-	switch data.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int16(offset) }) + 1
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int32(offset) }) + 1
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int64(offset) }) + 1
-	default:
-		panic("arrow/rle: can only get rle.PhysicalLength for int16/int32/int64 run ends array")
-	}
-}
-
-func getRunEnds(arr arrow.ArrayData) func(int64) int64 {
-	switch arr.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	default:
-		panic("only int16, int32, and int64 are allowed for the run-ends")
-	}
-}
-
-// MergedRuns is used to take two Run End Encoded arrays and iterate
-// them, finding the correct physical indices to correspond with the
-// runs.
-type MergedRuns struct {
-	inputs       [2]arrow.Array
-	runIndex     [2]int64
-	inputRunEnds [2]func(int64) int64
-	runEnds      [2]int64
-	logicalLen   int
-	logicalPos   int
-	mergedEnd    int64
-}
-
-// NewMergedRuns takes two RunEndEncoded arrays and returns a MergedRuns
-// object that will allow iterating over the physical indices of the runs.
-func NewMergedRuns(inputs [2]arrow.Array) *MergedRuns {
-	if len(inputs) == 0 {
-		return &MergedRuns{logicalLen: 0}
-	}
-
-	mr := &MergedRuns{inputs: inputs, logicalLen: inputs[0].Len()}
-	for i, in := range inputs {
-		if in.DataType().ID() != arrow.RUN_END_ENCODED {
-			panic("arrow/rle: NewMergedRuns can only be called with RunLengthEncoded arrays")
-		}
-		if in.Len() != mr.logicalLen {
-			panic("arrow/rle: can only merge runs of RLE arrays of the same length")
-		}
-
-		mr.inputRunEnds[i] = getRunEnds(in.Data().Children()[0])
-		// initialize the runIndex at the physical offset - 1 so the first
-		// call to Next will increment it to the correct initial offset
-		// since the initial state is logicalPos == 0 and mergedEnd == 0
-		mr.runIndex[i] = int64(FindPhysicalOffset(in.Data())) - 1
-	}
-
-	return mr
-}
-
-// Next returns true if there are more values/runs to iterate and false
-// when one of the arrays has reached the end.
-func (mr *MergedRuns) Next() bool {
-	mr.logicalPos = int(mr.mergedEnd)
-	if mr.isEnd() {
-		return false
-	}
-
-	for i := range mr.inputs {
-		if mr.logicalPos == int(mr.runEnds[i]) {
-			mr.runIndex[i]++
-		}
-	}
-	mr.findMergedRun()
-
-	return true
-}
-
-// IndexIntoBuffer returns the physical index into the value buffer of
-// the passed in array index (ie: 0 for the first array and 1 for the second)
-// this takes into account the offset of the array so it is the true physical
-// index into the value *buffer* in the child.
-func (mr *MergedRuns) IndexIntoBuffer(id int) int64 {
-	return mr.runIndex[id] + int64(mr.inputs[id].Data().Children()[1].Offset())
-}
-
-// IndexIntoArray is like IndexIntoBuffer but it doesn't take into account
-// the array offset and instead is the index that can be used with the .Value
-// method on the array to get the correct value.
-func (mr *MergedRuns) IndexIntoArray(id int) int64 { return mr.runIndex[id] }
-
-// RunLength returns the logical length of the current merged run being looked at.
-func (mr *MergedRuns) RunLength() int64 { return mr.mergedEnd - int64(mr.logicalPos) }
-
-// AccumulatedRunLength returns the logical run end of the current merged run.
-func (mr *MergedRuns) AccumulatedRunLength() int64 { return mr.mergedEnd }
-
-func (mr *MergedRuns) findMergedRun() {
-	mr.mergedEnd = int64(math.MaxInt64)
-	for i, in := range mr.inputs {
-		// logical indices of the end of the run we are currently in each input
-		mr.runEnds[i] = int64(mr.inputRunEnds[i](mr.runIndex[i]) - int64(in.Data().Offset()))
-		// the logical length may end in the middle of a run, in case the array was sliced
-		if mr.logicalLen < int(mr.runEnds[i]) {
-			mr.runEnds[i] = int64(mr.logicalLen)
-		}
-		if mr.runEnds[i] < mr.mergedEnd {
-			mr.mergedEnd = mr.runEnds[i]
-		}
-	}
-}
-
-func (mr *MergedRuns) isEnd() bool { return mr.logicalPos == mr.logicalLen }
diff --git a/go/arrow/encoded/ree_utils_test.go b/go/arrow/encoded/ree_utils_test.go
deleted file mode 100644
index 43a4f83b3b999..0000000000000
--- a/go/arrow/encoded/ree_utils_test.go
+++ /dev/null
@@ -1,156 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoded_test
-
-import (
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFindPhysicalOffset(t *testing.T) {
-	tests := []struct {
-		vals   []int32
-		offset int
-		exp    int
-	}{
-		{[]int32{1}, 0, 0},
-		{[]int32{1, 2, 3}, 0, 0},
-		{[]int32{1, 2, 3}, 1, 1},
-		{[]int32{1, 2, 3}, 2, 2},
-		{[]int32{2, 3, 4}, 0, 0},
-		{[]int32{2, 3, 4}, 1, 0},
-		{[]int32{2, 3, 4}, 2, 1},
-		{[]int32{2, 3, 4}, 3, 2},
-		{[]int32{2, 4, 6}, 3, 1},
-		{[]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 1000, 1005, 1015, 1020, 1025, 1050}, 1000, 10},
-		// out-of-range logical offset should return len(vals)
-		{[]int32{2, 4, 6}, 6, 3},
-		{[]int32{2, 4, 6}, 10000, 3},
-	}
-
-	reeType := arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32)
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%v find %d", tt.vals, tt.offset), func(t *testing.T) {
-			child := array.NewData(arrow.PrimitiveTypes.Int32, len(tt.vals), []*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(tt.vals))}, nil, 0, 0)
-			arr := array.NewData(reeType, -1, nil, []arrow.ArrayData{child}, 0, tt.offset)
-
-			assert.Equal(t, tt.exp, encoded.FindPhysicalOffset(arr))
-		})
-	}
-}
-
-func TestFindPhysicalOffsetEmpty(t *testing.T) {
-	child := array.NewData(arrow.PrimitiveTypes.Int32, 0, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	arr := array.NewData(arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String), -1, nil, []arrow.ArrayData{child}, 0, 0)
-	assert.NotPanics(t, func() {
-		assert.Equal(t, 0, encoded.FindPhysicalOffset(arr))
-	})
-}
-
-func TestMergedRunsIter(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	leftRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 2, 3, 4, 5, 6, 7, 8, 9, 1000, 1005, 1015, 1020, 1025, 30000]`))
-	defer leftRunEnds.Release()
-
-	rightRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 2, 3, 4, 5, 2005, 2009, 2025, 2050]`))
-	defer rightRunEnds.Release()
-
-	var (
-		expectedRunLengths        = []int32{5, 4, 6, 5, 5, 25}
-		expectedLeftVisits        = []int32{110, 111, 111, 112, 113, 114}
-		expectedRightVisits       = []int32{205, 206, 207, 207, 207, 208}
-		leftPrintOffset     int32 = 1000
-		leftChildOffset     int32 = 100
-		rightPrintOffset    int32 = 2000
-		rightChildOffset    int32 = 200
-
-		leftChild  arrow.Array = array.NewNull(int(leftChildOffset) + leftRunEnds.Len())
-		rightChild arrow.Array = array.NewNull(int(rightChildOffset) + rightRunEnds.Len())
-	)
-
-	leftChild = array.NewSlice(leftChild, int64(leftChildOffset), int64(leftChildOffset)+int64(leftRunEnds.Len()))
-	rightChild = array.NewSlice(rightChild, int64(rightChildOffset), int64(rightChild.Len()))
-
-	leftArray := arrow.Array(array.NewRunEndEncodedArray(leftRunEnds, leftChild, 1050, 0))
-	defer leftArray.Release()
-	rightArray := arrow.Array(array.NewRunEndEncodedArray(rightRunEnds, rightChild, 2050, 0))
-	defer rightArray.Release()
-
-	leftArray = array.NewSlice(leftArray, int64(leftPrintOffset), int64(leftArray.Len()))
-	defer leftArray.Release()
-	rightArray = array.NewSlice(rightArray, int64(rightPrintOffset), int64(rightArray.Len()))
-	defer rightArray.Release()
-
-	pos, logicalPos := 0, 0
-	mr := encoded.NewMergedRuns([2]arrow.Array{leftArray, rightArray})
-	for mr.Next() {
-		assert.EqualValues(t, expectedRunLengths[pos], mr.RunLength())
-		assert.EqualValues(t, expectedLeftVisits[pos], mr.IndexIntoBuffer(0))
-		assert.EqualValues(t, expectedRightVisits[pos], mr.IndexIntoBuffer(1))
-		assert.EqualValues(t, expectedLeftVisits[pos]-int32(leftChildOffset), mr.IndexIntoArray(0))
-		assert.EqualValues(t, expectedRightVisits[pos]-int32(rightChildOffset), mr.IndexIntoArray(1))
-		pos++
-		logicalPos += int(mr.RunLength())
-		assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-	}
-	assert.EqualValues(t, len(expectedRunLengths), pos)
-
-	t.Run("left array only", func(t *testing.T) {
-		leftOnlyRunLengths := []int32{5, 10, 5, 5, 25}
-		pos, logicalPos := 0, 0
-		mr := encoded.NewMergedRuns([2]arrow.Array{leftArray, leftArray})
-		for mr.Next() {
-			assert.EqualValues(t, leftOnlyRunLengths[pos], mr.RunLength())
-			assert.EqualValues(t, 110+pos, mr.IndexIntoBuffer(0))
-			assert.EqualValues(t, 110+pos, mr.IndexIntoBuffer(1))
-			assert.EqualValues(t, 10+pos, mr.IndexIntoArray(0))
-			assert.EqualValues(t, 10+pos, mr.IndexIntoArray(1))
-			pos++
-			logicalPos += int(mr.RunLength())
-			assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-		}
-		assert.EqualValues(t, len(leftOnlyRunLengths), pos)
-	})
-
-	t.Run("right array only", func(t *testing.T) {
-		rightOnlyRunLengths := []int32{5, 4, 16, 25}
-		pos, logicalPos := 0, 0
-		mr := encoded.NewMergedRuns([2]arrow.Array{rightArray, rightArray})
-		for mr.Next() {
-			assert.EqualValues(t, rightOnlyRunLengths[pos], mr.RunLength())
-			assert.EqualValues(t, 205+pos, mr.IndexIntoBuffer(0))
-			assert.EqualValues(t, 205+pos, mr.IndexIntoBuffer(1))
-			assert.EqualValues(t, 5+pos, mr.IndexIntoArray(0))
-			assert.EqualValues(t, 5+pos, mr.IndexIntoArray(1))
-			pos++
-			logicalPos += int(mr.RunLength())
-			assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-		}
-		assert.EqualValues(t, len(rightOnlyRunLengths), pos)
-	})
-}
diff --git a/go/arrow/endian/big.go b/go/arrow/endian/big.go
deleted file mode 100644
index 0b92585745f42..0000000000000
--- a/go/arrow/endian/big.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build s390x
-// +build s390x
-
-package endian
-
-import "encoding/binary"
-
-var Native = binary.BigEndian
-
-const (
-	IsBigEndian     = true
-	NativeEndian    = BigEndian
-	NonNativeEndian = LittleEndian
-)
diff --git a/go/arrow/endian/endian.go b/go/arrow/endian/endian.go
deleted file mode 100644
index 8ac496b996938..0000000000000
--- a/go/arrow/endian/endian.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package endian
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-)
-
-type Endianness flatbuf.Endianness
-
-const (
-	LittleEndian Endianness = Endianness(flatbuf.EndiannessLittle)
-	BigEndian    Endianness = Endianness(flatbuf.EndiannessBig)
-)
-
-func (e Endianness) String() string {
-	switch e {
-	case LittleEndian:
-		return "little"
-	case BigEndian:
-		return "big"
-	default:
-		debug.Assert(false, "wtf? bad endianness value")
-		return "???"
-	}
-}
diff --git a/go/arrow/endian/little.go b/go/arrow/endian/little.go
deleted file mode 100644
index def1fc64b9e64..0000000000000
--- a/go/arrow/endian/little.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-// +build !s390x
-
-package endian
-
-import "encoding/binary"
-
-var Native = binary.LittleEndian
-
-const (
-	IsBigEndian     = false
-	NativeEndian    = LittleEndian
-	NonNativeEndian = BigEndian
-)
diff --git a/go/arrow/errors.go b/go/arrow/errors.go
deleted file mode 100644
index 72e6fd8bf934e..0000000000000
--- a/go/arrow/errors.go
+++ /dev/null
@@ -1,28 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import "errors"
-
-var (
-	ErrInvalid        = errors.New("invalid")
-	ErrNotImplemented = errors.New("not implemented")
-	ErrType           = errors.New("type error")
-	ErrKey            = errors.New("key error")
-	ErrIndex          = errors.New("index error")
-	ErrNotFound       = errors.New("not found")
-)
diff --git a/go/arrow/example_test.go b/go/arrow/example_test.go
deleted file mode 100644
index 3dac447ae7c83..0000000000000
--- a/go/arrow/example_test.go
+++ /dev/null
@@ -1,832 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"fmt"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-// This example demonstrates how to build an array of int64 values using a builder and Append.
-func Example_minimal() {
-	// Create an allocator.
-	pool := memory.NewGoAllocator()
-
-	// Create an int64 array builder.
-	builder := array.NewInt64Builder(pool)
-	defer builder.Release()
-
-	builder.Append(1)
-	builder.Append(2)
-	builder.Append(3)
-	builder.AppendNull()
-	builder.Append(5)
-	builder.Append(6)
-	builder.Append(7)
-	builder.Append(8)
-
-	// Finish building the int64 array and reset the builder.
-	ints := builder.NewInt64Array()
-	defer ints.Release()
-
-	// Enumerate the values.
-	for i, v := range ints.Int64Values() {
-		fmt.Printf("ints[%d] = ", i)
-		if ints.IsNull(i) {
-			fmt.Println(array.NullValueStr)
-		} else {
-			fmt.Println(v)
-		}
-	}
-	fmt.Printf("ints = %v\n", ints)
-
-	// Output:
-	// ints[0] = 1
-	// ints[1] = 2
-	// ints[2] = 3
-	// ints[3] = (null)
-	// ints[4] = 5
-	// ints[5] = 6
-	// ints[6] = 7
-	// ints[7] = 8
-	// ints = [1 2 3 (null) 5 6 7 8]
-}
-
-// This example demonstrates creating an array, sourcing the values and
-// null bitmaps directly from byte slices. The null count is set to
-// UnknownNullCount, instructing the array to calculate the
-// null count from the bitmap when NullN is called.
-func Example_fromMemory() {
-	// create LSB packed bits with the following pattern:
-	// 01010011 11000101
-	data := memory.NewBufferBytes([]byte{0xca, 0xa3})
-
-	// create LSB packed validity (null) bitmap, where every 4th element is null:
-	// 11101110 11101110
-	nullBitmap := memory.NewBufferBytes([]byte{0x77, 0x77})
-
-	// Create a boolean array and lazily determine NullN using UnknownNullCount
-	bools := array.NewBoolean(16, data, nullBitmap, array.UnknownNullCount)
-	defer bools.Release()
-
-	// Show the null count
-	fmt.Printf("NullN()  = %d\n", bools.NullN())
-
-	// Enumerate the values.
-	n := bools.Len()
-	for i := 0; i < n; i++ {
-		fmt.Printf("bools[%d] = ", i)
-		if bools.IsNull(i) {
-			fmt.Println(array.NullValueStr)
-		} else {
-			fmt.Printf("%t\n", bools.Value(i))
-		}
-	}
-
-	// Output:
-	// NullN()  = 4
-	// bools[0] = false
-	// bools[1] = true
-	// bools[2] = false
-	// bools[3] = (null)
-	// bools[4] = false
-	// bools[5] = false
-	// bools[6] = true
-	// bools[7] = (null)
-	// bools[8] = true
-	// bools[9] = true
-	// bools[10] = false
-	// bools[11] = (null)
-	// bools[12] = false
-	// bools[13] = true
-	// bools[14] = false
-	// bools[15] = (null)
-}
-
-// This example shows how to create a List array.
-// The resulting array should be:
-//
-//	[[0, 1, 2], [], [3], [4, 5], [6, 7, 8], [], [9]]
-func Example_listArray() {
-	pool := memory.NewGoAllocator()
-
-	lb := array.NewListBuilder(pool, arrow.PrimitiveTypes.Int64)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int64Builder)
-	vb.Reserve(10)
-
-	lb.Append(true)
-	vb.Append(0)
-	vb.Append(1)
-	vb.Append(2)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(3)
-
-	lb.Append(true)
-	vb.Append(4)
-	vb.Append(5)
-
-	lb.Append(true)
-	vb.Append(6)
-	vb.Append(7)
-	vb.Append(8)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(9)
-
-	arr := lb.NewArray().(*array.List)
-	defer arr.Release()
-
-	arr.DataType().(*arrow.ListType).SetElemNullable(false)
-	fmt.Printf("NullN()   = %d\n", arr.NullN())
-	fmt.Printf("Len()     = %d\n", arr.Len())
-	fmt.Printf("Offsets() = %v\n", arr.Offsets())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-
-	offsets := arr.Offsets()[1:]
-
-	varr := arr.ListValues().(*array.Int64)
-
-	pos := 0
-	for i := 0; i < arr.Len(); i++ {
-		if !arr.IsValid(i) {
-			fmt.Printf("List[%d]   = (null)\n", i)
-			continue
-		}
-		fmt.Printf("List[%d]   = [", i)
-		for j := pos; j < int(offsets[i]); j++ {
-			if j != pos {
-				fmt.Printf(", ")
-			}
-			fmt.Printf("%v", varr.Value(j))
-		}
-		pos = int(offsets[i])
-		fmt.Printf("]\n")
-	}
-	fmt.Printf("List      = %v\n", arr)
-
-	// Output:
-	// NullN()   = 2
-	// Len()     = 7
-	// Offsets() = [0 3 3 4 6 9 9 10]
-	// Type()    = list<item: int64>
-	// List[0]   = [0, 1, 2]
-	// List[1]   = (null)
-	// List[2]   = [3]
-	// List[3]   = [4, 5]
-	// List[4]   = [6, 7, 8]
-	// List[5]   = (null)
-	// List[6]   = [9]
-	// List      = [[0 1 2] (null) [3] [4 5] [6 7 8] (null) [9]]
-}
-
-// This example shows how to create a FixedSizeList array.
-// The resulting array should be:
-//
-//	[[0, 1, 2], (null), [3, 4, 5], [6, 7, 8], (null)]
-func Example_fixedSizeListArray() {
-	pool := memory.NewGoAllocator()
-
-	lb := array.NewFixedSizeListBuilder(pool, 3, arrow.PrimitiveTypes.Int64)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int64Builder)
-	vb.Reserve(10)
-
-	lb.Append(true)
-	vb.Append(0)
-	vb.Append(1)
-	vb.Append(2)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(3)
-	vb.Append(4)
-	vb.Append(5)
-
-	lb.Append(true)
-	vb.Append(6)
-	vb.Append(7)
-	vb.Append(8)
-
-	lb.AppendNull()
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	arr.DataType().(*arrow.FixedSizeListType).SetElemNullable(false)
-	defer arr.Release()
-
-	fmt.Printf("NullN()   = %d\n", arr.NullN())
-	fmt.Printf("Len()     = %d\n", arr.Len())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-	fmt.Printf("List      = %v\n", arr)
-
-	// Output:
-	// NullN()   = 2
-	// Len()     = 5
-	// Type()    = fixed_size_list<item: int64>[3]
-	// List      = [[0 1 2] (null) [3 4 5] [6 7 8] (null)]
-}
-
-// This example shows how to create a Struct array.
-// The resulting array should be:
-//
-//	[{‘joe’, 1}, {null, 2}, null, {‘mark’, 4}]
-func Example_structArray() {
-	pool := memory.NewGoAllocator()
-
-	dtype := arrow.StructOf([]arrow.Field{
-		{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-	}...)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-	f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	sb.Reserve(4)
-	f1vb.Reserve(7)
-	f2b.Reserve(3)
-
-	sb.Append(true)
-	f1b.Append(true)
-	f1vb.AppendValues([]byte("joe"), nil)
-	f2b.Append(1)
-
-	sb.Append(true)
-	f1b.AppendNull()
-	f2b.Append(2)
-
-	sb.AppendNull()
-
-	sb.Append(true)
-	f1b.Append(true)
-	f1vb.AppendValues([]byte("mark"), nil)
-	f2b.Append(4)
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	fmt.Printf("NullN() = %d\n", arr.NullN())
-	fmt.Printf("Len()   = %d\n", arr.Len())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-
-	list := arr.Field(0).(*array.List)
-	offsets := list.Offsets()
-
-	varr := list.ListValues().(*array.Uint8)
-	ints := arr.Field(1).(*array.Int32)
-
-	for i := 0; i < arr.Len(); i++ {
-		if !arr.IsValid(i) {
-			fmt.Printf("Struct[%d] = (null)\n", i)
-			continue
-		}
-		fmt.Printf("Struct[%d] = [", i)
-		pos := int(offsets[i])
-		switch {
-		case list.IsValid(pos):
-			fmt.Printf("[")
-			for j := offsets[i]; j < offsets[i+1]; j++ {
-				if j != offsets[i] {
-					fmt.Printf(", ")
-				}
-				fmt.Printf("%v", string(varr.Value(int(j))))
-			}
-			fmt.Printf("], ")
-		default:
-			fmt.Printf("(null), ")
-		}
-		fmt.Printf("%d]\n", ints.Value(i))
-	}
-
-	// Output:
-	// NullN() = 1
-	// Len()   = 4
-	// Type()    = struct<f1: list<item: uint8, nullable>, f2: int32>
-	// Struct[0] = [[j, o, e], 1]
-	// Struct[1] = [[], 2]
-	// Struct[2] = (null)
-	// Struct[3] = [[m, a, r, k], 4]
-}
-
-// This example shows how one can slice an array.
-// The initial (float64) array is:
-//
-//	[1, 2, 3, (null), 4, 5]
-//
-// and the sub-slice is:
-//
-//	[3, (null), 4]
-func Example_float64Slice() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(
-		[]float64{1, 2, 3, -1, 4, 5},
-		[]bool{true, true, true, false, true, true},
-	)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	fmt.Printf("array = %v\n", arr)
-
-	sli := array.NewSlice(arr, 2, 5).(*array.Float64)
-	defer sli.Release()
-
-	fmt.Printf("slice = %v\n", sli)
-
-	// Output:
-	// array = [1 2 3 (null) 4 5]
-	// slice = [3 (null) 4]
-}
-
-func Example_float64Tensor2x5() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	b.AppendValues(raw, nil)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	f64 := tensor.NewFloat64(arr.Data(), []int64{2, 5}, nil, []string{"x", "y"})
-	defer f64.Release()
-
-	for _, i := range [][]int64{
-		{0, 0},
-		{0, 1},
-		{0, 2},
-		{0, 3},
-		{0, 4},
-		{1, 0},
-		{1, 1},
-		{1, 2},
-		{1, 3},
-		{1, 4},
-	} {
-		fmt.Printf("arr%v = %v\n", i, f64.Value(i))
-	}
-
-	// Output:
-	// arr[0 0] = 1
-	// arr[0 1] = 2
-	// arr[0 2] = 3
-	// arr[0 3] = 4
-	// arr[0 4] = 5
-	// arr[1 0] = 6
-	// arr[1 1] = 7
-	// arr[1 2] = 8
-	// arr[1 3] = 9
-	// arr[1 4] = 10
-}
-
-func Example_float64Tensor2x5ColMajor() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	b.AppendValues(raw, nil)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	f64 := tensor.NewFloat64(arr.Data(), []int64{2, 5}, []int64{8, 16}, []string{"x", "y"})
-	defer f64.Release()
-
-	for _, i := range [][]int64{
-		{0, 0},
-		{0, 1},
-		{0, 2},
-		{0, 3},
-		{0, 4},
-		{1, 0},
-		{1, 1},
-		{1, 2},
-		{1, 3},
-		{1, 4},
-	} {
-		fmt.Printf("arr%v = %v\n", i, f64.Value(i))
-	}
-
-	// Output:
-	// arr[0 0] = 1
-	// arr[0 1] = 3
-	// arr[0 2] = 5
-	// arr[0 3] = 7
-	// arr[0 4] = 9
-	// arr[1 0] = 2
-	// arr[1 1] = 4
-	// arr[1 2] = 6
-	// arr[1 3] = 8
-	// arr[1 4] = 10
-}
-
-func Example_record() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	for i, col := range rec.Columns() {
-		fmt.Printf("column[%d] %q: %v\n", i, rec.ColumnName(i), col)
-	}
-
-	// Output:
-	// column[0] "f1-i32": [1 2 3 4 5 6 7 8 (null) 10]
-	// column[1] "f2-f64": [1 2 3 4 5 6 7 8 9 10]
-}
-
-func Example_recordReader() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	itr, err := array.NewRecordReader(schema, []arrow.Record{rec1, rec2})
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer itr.Release()
-
-	n := 0
-	for itr.Next() {
-		rec := itr.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["f1-i32"]: [1 2 3 4 5 6 7 8 (null) 10]
-	// rec[0]["f2-f64"]: [1 2 3 4 5 6 7 8 9 10]
-	// rec[1]["f1-i32"]: [11 12 13 14 15 16 17 18 19 20]
-	// rec[1]["f2-f64"]: [11 12 13 14 15 16 17 18 19 20]
-}
-
-func Example_table() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 5)
-	defer tr.Release()
-
-	n := 0
-	for tr.Next() {
-		rec := tr.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["f1-i32"]: [1 2 3 4 5]
-	// rec[0]["f2-f64"]: [1 2 3 4 5]
-	// rec[1]["f1-i32"]: [6 7 8 (null) 10]
-	// rec[1]["f2-f64"]: [6 7 8 9 10]
-	// rec[2]["f1-i32"]: [11 12 13 14 15]
-	// rec[2]["f2-f64"]: [11 12 13 14 15]
-	// rec[3]["f1-i32"]: [16 17 18 19 20]
-	// rec[3]["f2-f64"]: [16 17 18 19 20]
-}
-
-// This example demonstrates how to create a Map Array.
-// The resulting array should be:
-//
-//	[{["ab" "cd" "ef" "gh"] [1 2 3 4]} (null) {["ab" "cd" "ef" "gh"] [(null) 2 5 1]}]
-func Example_mapArray() {
-	pool := memory.NewGoAllocator()
-	mb := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int16, false)
-	defer mb.Release()
-
-	kb := mb.KeyBuilder().(*array.StringBuilder)
-	ib := mb.ItemBuilder().(*array.Int16Builder)
-
-	keys := []string{"ab", "cd", "ef", "gh"}
-
-	mb.Append(true)
-	kb.AppendValues(keys, nil)
-	ib.AppendValues([]int16{1, 2, 3, 4}, nil)
-
-	mb.AppendNull()
-
-	mb.Append(true)
-	kb.AppendValues(keys, nil)
-	ib.AppendValues([]int16{-1, 2, 5, 1}, []bool{false, true, true, true})
-
-	arr := mb.NewMapArray()
-	defer arr.Release()
-
-	fmt.Printf("NullN() = %d\n", arr.NullN())
-	fmt.Printf("Len()   = %d\n", arr.Len())
-
-	offsets := arr.Offsets()
-	keyArr := arr.Keys().(*array.String)
-	itemArr := arr.Items().(*array.Int16)
-
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) {
-			fmt.Printf("Map[%d] = (null)\n", i)
-			continue
-		}
-
-		fmt.Printf("Map[%d] = {", i)
-		for j := offsets[i]; j < offsets[i+1]; j++ {
-			if j != offsets[i] {
-				fmt.Printf(", ")
-			}
-			fmt.Printf("%v => ", keyArr.Value(int(j)))
-			if itemArr.IsValid(int(j)) {
-				fmt.Printf("%v", itemArr.Value(int(j)))
-			} else {
-				fmt.Printf(array.NullValueStr)
-			}
-		}
-		fmt.Printf("}\n")
-	}
-	fmt.Printf("Map    = %v\n", arr)
-
-	// Output:
-	// NullN() = 1
-	// Len()   = 3
-	// Map[0] = {ab => 1, cd => 2, ef => 3, gh => 4}
-	// Map[1] = (null)
-	// Map[2] = {ab => (null), cd => 2, ef => 5, gh => 1}
-	// Map    = [{["ab" "cd" "ef" "gh"] [1 2 3 4]} (null) {["ab" "cd" "ef" "gh"] [(null) 2 5 1]}]
-}
-
-func Example_sparseUnionArray() {
-	pool := memory.NewGoAllocator()
-
-	sparseBuilder := array.NewEmptySparseUnionBuilder(pool)
-	defer sparseBuilder.Release()
-
-	i8Builder := array.NewInt8Builder(pool)
-	defer i8Builder.Release()
-	i8Code := sparseBuilder.AppendChild(i8Builder, "i8")
-
-	strBuilder := array.NewStringBuilder(pool)
-	defer strBuilder.Release()
-	strCode := sparseBuilder.AppendChild(strBuilder, "str")
-
-	f64Builder := array.NewFloat64Builder(pool)
-	defer f64Builder.Release()
-	f64Code := sparseBuilder.AppendChild(f64Builder, "f64")
-
-	values := []interface{}{int8(33), "abc", float64(1.0), float64(-1.0), nil,
-		"", int8(10), "def", int8(-10), float64(0.5)}
-
-	for _, v := range values {
-		switch v := v.(type) {
-		case int8:
-			sparseBuilder.Append(i8Code)
-			i8Builder.Append(v)
-			strBuilder.AppendEmptyValue()
-			f64Builder.AppendEmptyValue()
-		case string:
-			sparseBuilder.Append(strCode)
-			i8Builder.AppendEmptyValue()
-			strBuilder.Append(v)
-			f64Builder.AppendEmptyValue()
-		case float64:
-			sparseBuilder.Append(f64Code)
-			i8Builder.AppendEmptyValue()
-			strBuilder.AppendEmptyValue()
-			f64Builder.Append(v)
-		case nil:
-			sparseBuilder.AppendNull()
-		}
-	}
-
-	arr := sparseBuilder.NewSparseUnionArray()
-	defer arr.Release()
-
-	fmt.Printf("Len() = %d\n", arr.Len())
-	fields := arr.UnionType().Fields()
-	for i := 0; i < arr.Len(); i++ {
-		child := arr.ChildID(i)
-		data := arr.Field(child)
-		field := fields[child]
-
-		if data.IsNull(i) {
-			fmt.Printf("[%d]   = (null)\n", i)
-			continue
-		}
-		var v interface{}
-		switch varr := data.(type) {
-		case *array.Int8:
-			v = varr.Value(i)
-		case *array.String:
-			v = varr.Value(i)
-		case *array.Float64:
-			v = varr.Value(i)
-		}
-		fmt.Printf("[%d]   = %#5v {%s}\n", i, v, field.Name)
-	}
-
-	fmt.Printf("i8:  %s\n", arr.Field(0))
-	fmt.Printf("str: %s\n", arr.Field(1))
-	fmt.Printf("f64: %s\n", arr.Field(2))
-
-	// Output:
-	// Len() = 10
-	// [0]   =    33 {i8}
-	// [1]   = "abc" {str}
-	// [2]   =     1 {f64}
-	// [3]   =    -1 {f64}
-	// [4]   = (null)
-	// [5]   =    "" {str}
-	// [6]   =    10 {i8}
-	// [7]   = "def" {str}
-	// [8]   =   -10 {i8}
-	// [9]   =   0.5 {f64}
-	// i8:  [33 0 0 0 (null) 0 10 0 -10 0]
-	// str: ["" "abc" "" "" "" "" "" "def" "" ""]
-	// f64: [0 0 1 -1 0 0 0 0 0 0.5]
-}
-
-func Example_denseUnionArray() {
-	pool := memory.NewGoAllocator()
-
-	denseBuilder := array.NewEmptyDenseUnionBuilder(pool)
-	defer denseBuilder.Release()
-
-	i8Builder := array.NewInt8Builder(pool)
-	defer i8Builder.Release()
-	i8Code := denseBuilder.AppendChild(i8Builder, "i8")
-
-	strBuilder := array.NewStringBuilder(pool)
-	defer strBuilder.Release()
-	strCode := denseBuilder.AppendChild(strBuilder, "str")
-
-	f64Builder := array.NewFloat64Builder(pool)
-	defer f64Builder.Release()
-	f64Code := denseBuilder.AppendChild(f64Builder, "f64")
-
-	values := []interface{}{int8(33), "abc", float64(1.0), float64(-1.0), nil,
-		"", int8(10), "def", int8(-10), float64(0.5)}
-
-	for _, v := range values {
-		switch v := v.(type) {
-		case int8:
-			denseBuilder.Append(i8Code)
-			i8Builder.Append(v)
-		case string:
-			denseBuilder.Append(strCode)
-			strBuilder.Append(v)
-		case float64:
-			denseBuilder.Append(f64Code)
-			f64Builder.Append(v)
-		case nil:
-			denseBuilder.AppendNull()
-		}
-	}
-
-	arr := denseBuilder.NewDenseUnionArray()
-	defer arr.Release()
-
-	fmt.Printf("Len() = %d\n", arr.Len())
-	fields := arr.UnionType().Fields()
-	offsets := arr.RawValueOffsets()
-	for i := 0; i < arr.Len(); i++ {
-		child := arr.ChildID(i)
-		data := arr.Field(child)
-		field := fields[child]
-
-		idx := int(offsets[i])
-		if data.IsNull(idx) {
-			fmt.Printf("[%d]   = (null)\n", i)
-			continue
-		}
-		var v interface{}
-		switch varr := data.(type) {
-		case *array.Int8:
-			v = varr.Value(idx)
-		case *array.String:
-			v = varr.Value(idx)
-		case *array.Float64:
-			v = varr.Value(idx)
-		}
-		fmt.Printf("[%d]   = %#5v {%s}\n", i, v, field.Name)
-	}
-
-	fmt.Printf("i8:  %s\n", arr.Field(0))
-	fmt.Printf("str: %s\n", arr.Field(1))
-	fmt.Printf("f64: %s\n", arr.Field(2))
-
-	// Output:
-	// Len() = 10
-	// [0]   =    33 {i8}
-	// [1]   = "abc" {str}
-	// [2]   =     1 {f64}
-	// [3]   =    -1 {f64}
-	// [4]   = (null)
-	// [5]   =    "" {str}
-	// [6]   =    10 {i8}
-	// [7]   = "def" {str}
-	// [8]   =   -10 {i8}
-	// [9]   =   0.5 {f64}
-	// i8:  [33 (null) 10 -10]
-	// str: ["abc" "" "def"]
-	// f64: [1 -1 0.5]
-}
diff --git a/go/arrow/extensions/bool8.go b/go/arrow/extensions/bool8.go
deleted file mode 100644
index 20ab024a2a2fb..0000000000000
--- a/go/arrow/extensions/bool8.go
+++ /dev/null
@@ -1,216 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Bool8Type represents a logical boolean that is stored using 8 bits.
-type Bool8Type struct {
-	arrow.ExtensionBase
-}
-
-// NewBool8Type creates a new Bool8Type with the underlying storage type set correctly to Int8.
-func NewBool8Type() *Bool8Type {
-	return &Bool8Type{ExtensionBase: arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int8}}
-}
-
-func (b *Bool8Type) ArrayType() reflect.Type { return reflect.TypeOf(Bool8Array{}) }
-
-func (b *Bool8Type) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !arrow.TypeEqual(storageType, arrow.PrimitiveTypes.Int8) {
-		return nil, fmt.Errorf("invalid storage type for Bool8Type: %s", storageType.Name())
-	}
-	return NewBool8Type(), nil
-}
-
-func (b *Bool8Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	return b.ExtensionName() == other.ExtensionName()
-}
-
-func (b *Bool8Type) ExtensionName() string { return "arrow.bool8" }
-
-func (b *Bool8Type) Serialize() string { return "" }
-
-func (b *Bool8Type) String() string { return fmt.Sprintf("extension<%s>", b.ExtensionName()) }
-
-func (*Bool8Type) NewBuilder(mem memory.Allocator) array.Builder {
-	return NewBool8Builder(mem)
-}
-
-// Bool8Array is logically an array of boolean values but uses
-// 8 bits to store values instead of 1 bit as in the native BooleanArray.
-type Bool8Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a *Bool8Array) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(array.NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Bool8Array) Value(i int) bool {
-	return a.Storage().(*array.Int8).Value(i) != 0
-}
-
-func (a *Bool8Array) BoolValues() []bool {
-	int8s := a.Storage().(*array.Int8).Int8Values()
-	return unsafe.Slice((*bool)(unsafe.Pointer(unsafe.SliceData(int8s))), len(int8s))
-}
-
-func (a *Bool8Array) ValueStr(i int) string {
-	switch {
-	case a.IsNull(i):
-		return array.NullValueStr
-	default:
-		return fmt.Sprint(a.Value(i))
-	}
-}
-
-func (a *Bool8Array) MarshalJSON() ([]byte, error) {
-	values := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			values[i] = a.Value(i)
-		}
-	}
-	return json.Marshal(values)
-}
-
-func (a *Bool8Array) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-// boolToInt8 performs the simple scalar conversion of bool to the canonical int8
-// value for the Bool8Type.
-func boolToInt8(v bool) int8 {
-	var res int8
-	if v {
-		res = 1
-	}
-	return res
-}
-
-// Bool8Builder is a convenience builder for the Bool8 extension type,
-// allowing arrays to be built with boolean values rather than the underlying storage type.
-type Bool8Builder struct {
-	*array.ExtensionBuilder
-}
-
-// NewBool8Builder creates a new Bool8Builder, exposing a convenient and efficient interface
-// for writing boolean values to the underlying int8 storage array.
-func NewBool8Builder(mem memory.Allocator) *Bool8Builder {
-	return &Bool8Builder{ExtensionBuilder: array.NewExtensionBuilder(mem, NewBool8Type())}
-}
-
-func (b *Bool8Builder) Append(v bool) {
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).Append(boolToInt8(v))
-}
-
-func (b *Bool8Builder) UnsafeAppend(v bool) {
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).UnsafeAppend(boolToInt8(v))
-}
-
-func (b *Bool8Builder) AppendValueFromString(s string) error {
-	if s == array.NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	val, err := strconv.ParseBool(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(val)
-	return nil
-}
-
-func (b *Bool8Builder) AppendValues(v []bool, valid []bool) {
-	boolsAsInt8s := unsafe.Slice((*int8)(unsafe.Pointer(unsafe.SliceData(v))), len(v))
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).AppendValues(boolsAsInt8s, valid)
-}
-
-func (b *Bool8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case bool:
-		b.Append(v)
-		return nil
-	case string:
-		return b.AppendValueFromString(v)
-	case int8:
-		b.ExtensionBuilder.Builder.(*array.Int8Builder).Append(v)
-		return nil
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: "Bool8Builder",
-		}
-	}
-}
-
-func (b *Bool8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.ExtensionType          = (*Bool8Type)(nil)
-	_ array.CustomExtensionBuilder = (*Bool8Type)(nil)
-	_ array.ExtensionArray         = (*Bool8Array)(nil)
-	_ array.Builder                = (*Bool8Builder)(nil)
-)
diff --git a/go/arrow/extensions/bool8_test.go b/go/arrow/extensions/bool8_test.go
deleted file mode 100644
index ff129e24bc8f0..0000000000000
--- a/go/arrow/extensions/bool8_test.go
+++ /dev/null
@@ -1,316 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-const (
-	MINSIZE = 1024
-	MAXSIZE = 65536
-)
-
-func TestBool8ExtensionBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	builder := extensions.NewBool8Builder(mem)
-	defer builder.Release()
-
-	builder.Append(true)
-	builder.AppendNull()
-	builder.Append(false)
-	arr := builder.NewArray()
-	defer arr.Release()
-
-	arrStr := arr.String()
-	require.Equal(t, "[true (null) false]", arrStr)
-
-	jsonStr, err := json.Marshal(arr)
-	require.NoError(t, err)
-
-	arr1, _, err := array.FromJSON(mem, extensions.NewBool8Type(), bytes.NewReader(jsonStr))
-	require.NoError(t, err)
-	defer arr1.Release()
-
-	require.Equal(t, arr, arr1)
-}
-
-func TestBool8ExtensionRecordBuilder(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "bool8", Type: extensions.NewBool8Type()},
-	}, nil)
-
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	builder.Field(0).(*extensions.Bool8Builder).Append(true)
-	record := builder.NewRecord()
-	defer record.Release()
-
-	b, err := record.MarshalJSON()
-	require.NoError(t, err)
-	require.Equal(t, "[{\"bool8\":true}\n]", string(b))
-
-	record1, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, bytes.NewReader(b))
-	require.NoError(t, err)
-	defer record1.Release()
-
-	require.Equal(t, record, record1)
-
-	require.NoError(t, builder.UnmarshalJSON([]byte(`{"bool8":true}`)))
-	record = builder.NewRecord()
-	defer record.Release()
-
-	require.Equal(t, schema, record.Schema())
-	require.Equal(t, true, record.Column(0).(*extensions.Bool8Array).Value(0))
-}
-
-func TestBool8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := extensions.NewBool8Builder(mem)
-	b.Append(true)
-	b.AppendNull()
-	b.Append(false)
-	b.AppendNull()
-	b.Append(true)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := extensions.NewBool8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray()
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestCompareBool8AndBoolean(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bool8bldr := extensions.NewBool8Builder(mem)
-	defer bool8bldr.Release()
-
-	boolbldr := array.NewBooleanBuilder(mem)
-	defer boolbldr.Release()
-
-	inputVals := []bool{true, false, false, false, true}
-	inputValidity := []bool{true, false, true, false, true}
-
-	bool8bldr.AppendValues(inputVals, inputValidity)
-	bool8Arr := bool8bldr.NewExtensionArray().(*extensions.Bool8Array)
-	defer bool8Arr.Release()
-
-	boolbldr.AppendValues(inputVals, inputValidity)
-	boolArr := boolbldr.NewBooleanArray()
-	defer boolArr.Release()
-
-	require.Equal(t, boolArr.Len(), bool8Arr.Len())
-	for i := 0; i < boolArr.Len(); i++ {
-		require.Equal(t, boolArr.Value(i), bool8Arr.Value(i))
-	}
-}
-
-func TestReinterpretStorageEqualToValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bool8bldr := extensions.NewBool8Builder(mem)
-	defer bool8bldr.Release()
-
-	inputVals := []bool{true, false, false, false, true}
-	inputValidity := []bool{true, false, true, false, true}
-
-	bool8bldr.AppendValues(inputVals, inputValidity)
-	bool8Arr := bool8bldr.NewExtensionArray().(*extensions.Bool8Array)
-	defer bool8Arr.Release()
-
-	boolValsCopy := make([]bool, bool8Arr.Len())
-	for i := 0; i < bool8Arr.Len(); i++ {
-		boolValsCopy[i] = bool8Arr.Value(i)
-	}
-
-	boolValsZeroCopy := bool8Arr.BoolValues()
-
-	require.Equal(t, len(boolValsZeroCopy), len(boolValsCopy))
-	for i := range boolValsCopy {
-		require.Equal(t, boolValsZeroCopy[i], boolValsCopy[i])
-	}
-}
-
-func TestBool8TypeBatchIPCRoundTrip(t *testing.T) {
-	typ := extensions.NewBool8Type()
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[-1, 0, 1, 2, null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
-
-func BenchmarkWriteBool8Array(b *testing.B) {
-	bool8bldr := extensions.NewBool8Builder(memory.DefaultAllocator)
-	defer bool8bldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			b.ResetTimer()
-			b.SetBytes(int64(sz))
-			for n := 0; n < b.N; n++ {
-				bool8bldr.AppendValues(values, nil)
-				bool8bldr.NewArray()
-			}
-		})
-	}
-}
-
-func BenchmarkWriteBooleanArray(b *testing.B) {
-	boolbldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer boolbldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				boolbldr.AppendValues(values, nil)
-				boolbldr.NewArray()
-			}
-		})
-	}
-}
-
-// storage benchmark result at package level to prevent compiler from eliminating the function call
-var result []bool
-
-func BenchmarkReadBool8Array(b *testing.B) {
-	bool8bldr := extensions.NewBool8Builder(memory.DefaultAllocator)
-	defer bool8bldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			bool8bldr.AppendValues(values, nil)
-			bool8Arr := bool8bldr.NewArray().(*extensions.Bool8Array)
-			defer bool8Arr.Release()
-
-			var r []bool
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				r = bool8Arr.BoolValues()
-			}
-			result = r
-		})
-	}
-}
-
-func BenchmarkReadBooleanArray(b *testing.B) {
-	boolbldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer boolbldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			output := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			boolbldr.AppendValues(values, nil)
-			boolArr := boolbldr.NewArray().(*array.Boolean)
-			defer boolArr.Release()
-
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				for i := 0; i < boolArr.Len(); i++ {
-					output[i] = boolArr.Value(i)
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/extensions/doc.go b/go/arrow/extensions/doc.go
deleted file mode 100644
index 65b086e2eca72..0000000000000
--- a/go/arrow/extensions/doc.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package extensions provides implementations of Arrow canonical extension
-// types as defined in the Arrow specification.
-// https://arrow.apache.org/docs/format/CanonicalExtensions.html
-package extensions
diff --git a/go/arrow/extensions/extensions.go b/go/arrow/extensions/extensions.go
deleted file mode 100644
index 03c6923e95f4f..0000000000000
--- a/go/arrow/extensions/extensions.go
+++ /dev/null
@@ -1,36 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-var canonicalExtensionTypes = []arrow.ExtensionType{
-	&Bool8Type{},
-	&UUIDType{},
-	&OpaqueType{},
-	&JSONType{},
-}
-
-func init() {
-	for _, extType := range canonicalExtensionTypes {
-		if err := arrow.RegisterExtensionType(extType); err != nil {
-			panic(err)
-		}
-	}
-}
diff --git a/go/arrow/extensions/extensions_test.go b/go/arrow/extensions/extensions_test.go
deleted file mode 100644
index f56fed5e132f9..0000000000000
--- a/go/arrow/extensions/extensions_test.go
+++ /dev/null
@@ -1,105 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-// testBool8Type minimally implements arrow.ExtensionType, but importantly does not implement array.CustomExtensionBuilder
-// so it will fall back to the storage type's default builder.
-type testBool8Type struct {
-	arrow.ExtensionBase
-}
-
-func newTestBool8Type() *testBool8Type {
-	return &testBool8Type{ExtensionBase: arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int8}}
-}
-
-func (t *testBool8Type) ArrayType() reflect.Type                  { return reflect.TypeOf(testBool8Array{}) }
-func (t *testBool8Type) ExtensionEquals(arrow.ExtensionType) bool { panic("unimplemented") }
-func (t *testBool8Type) ExtensionName() string                    { panic("unimplemented") }
-func (t *testBool8Type) Serialize() string                        { panic("unimplemented") }
-func (t *testBool8Type) Deserialize(arrow.DataType, string) (arrow.ExtensionType, error) {
-	panic("unimplemented")
-}
-
-type testBool8Array struct {
-	array.ExtensionArrayBase
-}
-
-func TestUnmarshalExtensionTypes(t *testing.T) {
-	logicalJSON := `[true,null,false,null,true]`
-	storageJSON := `[1,null,0,null,1]`
-
-	// extensions.Bool8Type implements array.CustomExtensionBuilder so we expect the array to be built with the custom builder
-	arrCustomBuilder, _, err := array.FromJSON(memory.DefaultAllocator, extensions.NewBool8Type(), bytes.NewBufferString(logicalJSON))
-	require.NoError(t, err)
-	defer arrCustomBuilder.Release()
-	require.Equal(t, 5, arrCustomBuilder.Len())
-
-	// testBoolType falls back to the default builder for the storage type, so it cannot deserialize native booleans
-	_, _, err = array.FromJSON(memory.DefaultAllocator, newTestBool8Type(), bytes.NewBufferString(logicalJSON))
-	require.ErrorContains(t, err, "cannot unmarshal true into Go value of type int8")
-
-	// testBoolType must build the array with the native storage type: Int8
-	arrDefaultBuilder, _, err := array.FromJSON(memory.DefaultAllocator, newTestBool8Type(), bytes.NewBufferString(storageJSON))
-	require.NoError(t, err)
-	defer arrDefaultBuilder.Release()
-	require.Equal(t, 5, arrDefaultBuilder.Len())
-
-	arrBool8, ok := arrCustomBuilder.(*extensions.Bool8Array)
-	require.True(t, ok)
-
-	arrExt, ok := arrDefaultBuilder.(array.ExtensionArray)
-	require.True(t, ok)
-
-	// The physical layout of both arrays is identical
-	require.True(t, array.Equal(arrBool8.Storage(), arrExt.Storage()))
-}
-
-// invalidExtensionType does not fully implement the arrow.ExtensionType interface, even though it embeds arrow.ExtensionBase
-type invalidExtensionType struct {
-	arrow.ExtensionBase
-}
-
-func newInvalidExtensionType() *invalidExtensionType {
-	return &invalidExtensionType{ExtensionBase: arrow.ExtensionBase{Storage: arrow.BinaryTypes.String}}
-}
-
-func TestInvalidExtensionType(t *testing.T) {
-	jsonStr := `["one","two","three"]`
-	typ := newInvalidExtensionType()
-
-	require.PanicsWithError(t, fmt.Sprintf("arrow/array: invalid extension type: %T", typ), func() {
-		array.FromJSON(memory.DefaultAllocator, typ, bytes.NewBufferString(jsonStr))
-	})
-}
-
-var (
-	_ arrow.ExtensionType  = (*testBool8Type)(nil)
-	_ array.ExtensionArray = (*testBool8Array)(nil)
-)
diff --git a/go/arrow/extensions/json.go b/go/arrow/extensions/json.go
deleted file mode 100644
index 12c49f9c0a76d..0000000000000
--- a/go/arrow/extensions/json.go
+++ /dev/null
@@ -1,148 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"fmt"
-	"reflect"
-	"slices"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-var jsonSupportedStorageTypes = []arrow.DataType{
-	arrow.BinaryTypes.String,
-	arrow.BinaryTypes.LargeString,
-	arrow.BinaryTypes.StringView,
-}
-
-// JSONType represents a UTF-8 encoded JSON string as specified in RFC8259.
-type JSONType struct {
-	arrow.ExtensionBase
-}
-
-// ParquetLogicalType implements pqarrow.ExtensionCustomParquetType.
-func (b *JSONType) ParquetLogicalType() schema.LogicalType {
-	return schema.JSONLogicalType{}
-}
-
-// NewJSONType creates a new JSONType with the specified storage type.
-// storageType must be one of String, LargeString, StringView.
-func NewJSONType(storageType arrow.DataType) (*JSONType, error) {
-	if !slices.Contains(jsonSupportedStorageTypes, storageType) {
-		return nil, fmt.Errorf("unsupported storage type for JSON extension type: %s", storageType)
-	}
-	return &JSONType{ExtensionBase: arrow.ExtensionBase{Storage: storageType}}, nil
-}
-
-func (b *JSONType) ArrayType() reflect.Type { return reflect.TypeOf(JSONArray{}) }
-
-func (b *JSONType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !(data == "" || data == "{}") {
-		return nil, fmt.Errorf("serialized metadata for JSON extension type must be '' or '{}', found: %s", data)
-	}
-	return NewJSONType(storageType)
-}
-
-func (b *JSONType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return b.ExtensionName() == other.ExtensionName() && arrow.TypeEqual(b.Storage, other.StorageType())
-}
-
-func (b *JSONType) ExtensionName() string { return "arrow.json" }
-
-func (b *JSONType) Serialize() string { return "" }
-
-func (b *JSONType) String() string {
-	return fmt.Sprintf("extension<%s[storage_type=%s]>", b.ExtensionName(), b.Storage)
-}
-
-// JSONArray is logically an array of UTF-8 encoded JSON strings.
-// Its values are unmarshaled to native Go values.
-type JSONArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a *JSONArray) String() string {
-	b, err := a.MarshalJSON()
-	if err != nil {
-		panic(fmt.Sprintf("failed marshal JSONArray: %s", err))
-	}
-
-	return string(b)
-}
-
-func (a *JSONArray) Value(i int) any {
-	val := a.ValueBytes(i)
-
-	var res any
-	if err := json.Unmarshal(val, &res); err != nil {
-		panic(err)
-	}
-
-	return res
-}
-
-func (a *JSONArray) ValueStr(i int) string {
-	return string(a.ValueBytes(i))
-}
-
-func (a *JSONArray) ValueBytes(i int) []byte {
-	// convert to json.RawMessage, set to nil if elem isNull.
-	val := a.ValueJSON(i)
-
-	// simply returns wrapped bytes, or null if val is nil.
-	b, err := val.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-
-	return b
-}
-
-// ValueJSON wraps the underlying string value as a json.RawMessage,
-// or returns nil if the array value is null.
-func (a *JSONArray) ValueJSON(i int) json.RawMessage {
-	var val json.RawMessage
-	if a.IsValid(i) {
-		val = json.RawMessage(a.Storage().(array.StringLike).Value(i))
-	}
-	return val
-}
-
-// MarshalJSON implements json.Marshaler.
-// Marshaling json.RawMessage is a no-op, except that nil values will
-// be marshaled as a JSON null.
-func (a *JSONArray) MarshalJSON() ([]byte, error) {
-	values := make([]json.RawMessage, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		values[i] = a.ValueJSON(i)
-	}
-	return json.Marshal(values)
-}
-
-// GetOneForMarshal implements arrow.Array.
-func (a *JSONArray) GetOneForMarshal(i int) interface{} {
-	return a.ValueJSON(i)
-}
-
-var (
-	_ arrow.ExtensionType  = (*JSONType)(nil)
-	_ array.ExtensionArray = (*JSONArray)(nil)
-)
diff --git a/go/arrow/extensions/json_test.go b/go/arrow/extensions/json_test.go
deleted file mode 100644
index 21acc58f93949..0000000000000
--- a/go/arrow/extensions/json_test.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestJSONTypeBasics(t *testing.T) {
-	typ, err := extensions.NewJSONType(arrow.BinaryTypes.String)
-	require.NoError(t, err)
-
-	typLarge, err := extensions.NewJSONType(arrow.BinaryTypes.LargeString)
-	require.NoError(t, err)
-
-	typView, err := extensions.NewJSONType(arrow.BinaryTypes.StringView)
-	require.NoError(t, err)
-
-	assert.Equal(t, "arrow.json", typ.ExtensionName())
-	assert.Equal(t, "arrow.json", typLarge.ExtensionName())
-	assert.Equal(t, "arrow.json", typView.ExtensionName())
-
-	assert.True(t, typ.ExtensionEquals(typ))
-	assert.True(t, typLarge.ExtensionEquals(typLarge))
-	assert.True(t, typView.ExtensionEquals(typView))
-
-	assert.False(t, arrow.TypeEqual(arrow.BinaryTypes.String, typ))
-	assert.False(t, arrow.TypeEqual(typ, typLarge))
-	assert.False(t, arrow.TypeEqual(typ, typView))
-	assert.False(t, arrow.TypeEqual(typLarge, typView))
-
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.String, typ.StorageType()))
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.LargeString, typLarge.StorageType()))
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.StringView, typView.StorageType()))
-
-	assert.Equal(t, "extension<arrow.json[storage_type=utf8]>", typ.String())
-	assert.Equal(t, "extension<arrow.json[storage_type=large_utf8]>", typLarge.String())
-	assert.Equal(t, "extension<arrow.json[storage_type=string_view]>", typView.String())
-}
-
-var jsonTestCases = []struct {
-	Name           string
-	StorageType    arrow.DataType
-	StorageBuilder func(mem memory.Allocator) array.Builder
-}{
-	{
-		Name:           "string",
-		StorageType:    arrow.BinaryTypes.String,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewStringBuilder(mem) },
-	},
-	{
-		Name:           "large_string",
-		StorageType:    arrow.BinaryTypes.LargeString,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewLargeStringBuilder(mem) },
-	},
-	{
-		Name:           "string_view",
-		StorageType:    arrow.BinaryTypes.StringView,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewStringViewBuilder(mem) },
-	},
-}
-
-func TestJSONTypeCreateFromArray(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			require.Equal(t, "foobar", jsonArr.Value(0))
-			require.Equal(t, nil, jsonArr.Value(1))
-			require.Equal(t, map[string]any{"foo": "bar"}, jsonArr.Value(2))
-			require.Equal(t, float64(42), jsonArr.Value(3))
-			require.Equal(t, true, jsonArr.Value(4))
-			require.Equal(t, []any{float64(1), true, "3", nil, map[string]any{"five": float64(5)}}, jsonArr.Value(5))
-		})
-	}
-}
-
-func TestJSONTypeBatchIPCRoundTrip(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-				[]arrow.Array{arr}, -1)
-			defer batch.Release()
-
-			var written arrow.Record
-			{
-				var buf bytes.Buffer
-				wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-				require.NoError(t, wr.Write(batch))
-				require.NoError(t, wr.Close())
-
-				rdr, err := ipc.NewReader(&buf)
-				require.NoError(t, err)
-				written, err = rdr.Read()
-				require.NoError(t, err)
-				written.Retain()
-				defer written.Release()
-				rdr.Release()
-			}
-
-			assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-				batch.Schema(), written.Schema())
-
-			assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-				batch, written)
-		})
-	}
-}
-
-func TestMarshallJSONArray(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			b, err := jsonArr.MarshalJSON()
-			require.NoError(t, err)
-
-			expectedJSON := `["foobar",null,{"foo":"bar"},42,true,[1,true,"3",null,{"five":5}]]`
-			require.Equal(t, expectedJSON, string(b))
-			require.Equal(t, expectedJSON, jsonArr.String())
-		})
-	}
-}
-
-func TestJSONRecordToJSON(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			rec := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "json", Type: typ, Nullable: true}}, nil), []arrow.Array{jsonArr}, 6)
-			defer rec.Release()
-
-			buf := bytes.NewBuffer([]byte("\n")) // expected output has leading newline for clearer formatting
-			require.NoError(t, array.RecordToJSON(rec, buf))
-
-			expectedJSON := `
-				{"json":"foobar"}
-				{"json":null}
-				{"json":{"foo":"bar"}}
-				{"json":42}
-				{"json":true}
-				{"json":[1,true,"3",null,{"five":5}]}
-			`
-
-			expectedJSONLines := strings.Split(expectedJSON, "\n")
-			actualJSONLines := strings.Split(buf.String(), "\n")
-
-			require.Equal(t, len(expectedJSONLines), len(actualJSONLines))
-			for i := range expectedJSONLines {
-				if strings.TrimSpace(expectedJSONLines[i]) != "" {
-					require.JSONEq(t, expectedJSONLines[i], actualJSONLines[i])
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/extensions/opaque.go b/go/arrow/extensions/opaque.go
deleted file mode 100644
index 5378de0c1806d..0000000000000
--- a/go/arrow/extensions/opaque.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"encoding/json"
-	"fmt"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// OpaqueType is a placeholder for a type from an external (usually
-// non-Arrow) system that could not be interpreted.
-type OpaqueType struct {
-	arrow.ExtensionBase `json:"-"`
-
-	TypeName   string `json:"type_name"`
-	VendorName string `json:"vendor_name"`
-}
-
-// NewOpaqueType creates a new OpaqueType with the provided storage type, type name, and vendor name.
-func NewOpaqueType(storageType arrow.DataType, name, vendorName string) *OpaqueType {
-	return &OpaqueType{ExtensionBase: arrow.ExtensionBase{Storage: storageType},
-		TypeName: name, VendorName: vendorName}
-}
-
-func (*OpaqueType) ArrayType() reflect.Type {
-	return reflect.TypeOf(OpaqueArray{})
-}
-
-func (*OpaqueType) ExtensionName() string {
-	return "arrow.opaque"
-}
-
-func (o *OpaqueType) String() string {
-	return fmt.Sprintf("extension<%s[storage_type=%s, type_name=%s, vendor_name=%s]>",
-		o.ExtensionName(), o.Storage, o.TypeName, o.VendorName)
-}
-
-func (o *OpaqueType) Serialize() string {
-	data, _ := json.Marshal(o)
-	return string(data)
-}
-
-func (*OpaqueType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	var out OpaqueType
-	err := json.Unmarshal(unsafe.Slice(unsafe.StringData(data), len(data)), &out)
-	if err != nil {
-		return nil, err
-	}
-
-	switch {
-	case out.TypeName == "":
-		return nil, fmt.Errorf("%w: serialized JSON data for OpaqueType missing type_name",
-			arrow.ErrInvalid)
-	case out.VendorName == "":
-		return nil, fmt.Errorf("%w: serialized JSON data for OpaqueType missing vendor_name",
-			arrow.ErrInvalid)
-	}
-
-	out.ExtensionBase = arrow.ExtensionBase{Storage: storageType}
-	return &out, nil
-}
-
-func (o *OpaqueType) ExtensionEquals(other arrow.ExtensionType) bool {
-	if o.ExtensionName() != other.ExtensionName() {
-		return false
-	}
-
-	rhs, ok := other.(*OpaqueType)
-	if !ok {
-		return false
-	}
-
-	return arrow.TypeEqual(o.Storage, rhs.Storage) &&
-		o.TypeName == rhs.TypeName &&
-		o.VendorName == rhs.VendorName
-}
-
-// OpaqueArray is a placeholder for data from an external (usually
-// non-Arrow) system that could not be interpreted.
-type OpaqueArray struct {
-	array.ExtensionArrayBase
-}
-
-var (
-	_ arrow.ExtensionType  = (*OpaqueType)(nil)
-	_ array.ExtensionArray = (*OpaqueArray)(nil)
-)
diff --git a/go/arrow/extensions/opaque_test.go b/go/arrow/extensions/opaque_test.go
deleted file mode 100644
index a0fc8962ce5e4..0000000000000
--- a/go/arrow/extensions/opaque_test.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestOpaqueTypeBasics(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	typ2 := extensions.NewOpaqueType(arrow.Null, "type2", "vendor")
-
-	assert.Equal(t, "arrow.opaque", typ.ExtensionName())
-	assert.True(t, typ.ExtensionEquals(typ))
-	assert.False(t, arrow.TypeEqual(arrow.Null, typ))
-	assert.False(t, arrow.TypeEqual(typ, typ2))
-	assert.True(t, arrow.TypeEqual(arrow.Null, typ.StorageType()))
-	assert.JSONEq(t, `{"type_name": "type", "vendor_name": "vendor"}`, typ.Serialize())
-	assert.Equal(t, "type", typ.TypeName)
-	assert.Equal(t, "vendor", typ.VendorName)
-	assert.Equal(t, "extension<arrow.opaque[storage_type=null, type_name=type, vendor_name=vendor]>",
-		typ.String())
-}
-
-func TestOpaqueTypeEquals(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	typ2 := extensions.NewOpaqueType(arrow.Null, "type2", "vendor")
-	typ3 := extensions.NewOpaqueType(arrow.Null, "type", "vendor2")
-	typ4 := extensions.NewOpaqueType(arrow.PrimitiveTypes.Int64, "type", "vendor")
-	typ5 := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-
-	tests := []struct {
-		lhs, rhs arrow.ExtensionType
-		expected bool
-	}{
-		{typ, typ, true},
-		{typ2, typ2, true},
-		{typ3, typ3, true},
-		{typ4, typ4, true},
-		{typ5, typ5, true},
-		{typ, typ5, true},
-		{typ, typ2, false},
-		{typ, typ3, false},
-		{typ, typ4, false},
-		{typ2, typ, false},
-		{typ2, typ3, false},
-		{typ2, typ4, false},
-		{typ3, typ, false},
-		{typ3, typ2, false},
-		{typ3, typ4, false},
-		{typ4, typ, false},
-		{typ4, typ2, false},
-		{typ4, typ3, false},
-	}
-
-	for _, tt := range tests {
-		assert.Equalf(t, tt.expected, arrow.TypeEqual(tt.lhs, tt.rhs),
-			"%s == %s", tt.lhs, tt.rhs)
-	}
-}
-
-func TestOpaqueTypeCreateFromArray(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.BinaryTypes.String, "geometry", "adbc.postgresql")
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String,
-		strings.NewReader(`["foobar", null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	assert.Equal(t, 2, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-}
-
-func TestOpaqueTypeDeserialize(t *testing.T) {
-	tests := []struct {
-		serialized string
-		expected   *extensions.OpaqueType
-	}{
-		{`{"type_name": "type", "vendor_name": "vendor"}`,
-			extensions.NewOpaqueType(arrow.Null, "type", "vendor")},
-		{`{"type_name": "long name", "vendor_name": "long name"}`,
-			extensions.NewOpaqueType(arrow.Null, "long name", "long name")},
-		{`{"type_name": "名前", "vendor_name": "名字"}`,
-			extensions.NewOpaqueType(arrow.Null, "名前", "名字")},
-		{`{"type_name": "type", "vendor_name": "vendor", "extra_field": 2}`,
-			extensions.NewOpaqueType(arrow.Null, "type", "vendor")},
-	}
-
-	for _, tt := range tests {
-		deserialized, err := tt.expected.Deserialize(tt.expected.Storage, tt.serialized)
-		require.NoError(t, err)
-		assert.Truef(t, arrow.TypeEqual(tt.expected, deserialized), "%s != %s",
-			tt.expected, deserialized)
-	}
-
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	_, err := typ.Deserialize(arrow.Null, "")
-	assert.ErrorContains(t, err, "unexpected end of JSON input")
-
-	_, err = typ.Deserialize(arrow.Null, "[]")
-	assert.ErrorContains(t, err, "cannot unmarshal array")
-
-	_, err = typ.Deserialize(arrow.Null, "{}")
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing type_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": ""}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing type_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": "type"}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing vendor_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": "type", "vendor_name": ""}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing vendor_name")
-}
-
-func TestOpaqueTypeMetadataRoundTrip(t *testing.T) {
-	tests := []*extensions.OpaqueType{
-		extensions.NewOpaqueType(arrow.Null, "foo", "bar"),
-		extensions.NewOpaqueType(arrow.BinaryTypes.Binary, "geometry", "postgis"),
-		extensions.NewOpaqueType(arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int64), "foo", "bar"),
-		extensions.NewOpaqueType(arrow.BinaryTypes.String, "foo", "bar"),
-	}
-
-	for _, tt := range tests {
-		serialized := tt.Serialize()
-		deserialized, err := tt.Deserialize(tt.Storage, serialized)
-		require.NoError(t, err)
-		assert.Truef(t, arrow.TypeEqual(tt, deserialized), "%s != %s", tt, deserialized)
-	}
-}
-
-func TestOpaqueTypeBatchRoundTrip(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.BinaryTypes.String, "geometry", "adbc.postgresql")
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String,
-		strings.NewReader(`["foobar", null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
diff --git a/go/arrow/extensions/uuid.go b/go/arrow/extensions/uuid.go
deleted file mode 100644
index 422b9ea118800..0000000000000
--- a/go/arrow/extensions/uuid.go
+++ /dev/null
@@ -1,265 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/google/uuid"
-)
-
-type UUIDBuilder struct {
-	*array.ExtensionBuilder
-}
-
-// NewUUIDBuilder creates a new UUIDBuilder, exposing a convenient and efficient interface
-// for writing uuid.UUID (or [16]byte) values to the underlying FixedSizeBinary storage array.
-func NewUUIDBuilder(mem memory.Allocator) *UUIDBuilder {
-	return &UUIDBuilder{ExtensionBuilder: array.NewExtensionBuilder(mem, NewUUIDType())}
-}
-
-func (b *UUIDBuilder) Append(v uuid.UUID) {
-	b.AppendBytes(v)
-}
-
-func (b *UUIDBuilder) AppendBytes(v [16]byte) {
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).Append(v[:])
-}
-
-func (b *UUIDBuilder) UnsafeAppend(v uuid.UUID) {
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).UnsafeAppend(v[:])
-}
-
-func (b *UUIDBuilder) AppendValueFromString(s string) error {
-	if s == array.NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	uid, err := uuid.Parse(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(uid)
-	return nil
-}
-
-func (b *UUIDBuilder) AppendValues(v []uuid.UUID, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	data := make([][]byte, len(v))
-	for i := range v {
-		if len(valid) > 0 && !valid[i] {
-			continue
-		}
-		data[i] = v[i][:]
-	}
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).AppendValues(data, valid)
-}
-
-func (b *UUIDBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	var val uuid.UUID
-	switch v := t.(type) {
-	case string:
-		val, err = uuid.Parse(v)
-		if err != nil {
-			return err
-		}
-	case []byte:
-		val, err = uuid.ParseBytes(v)
-		if err != nil {
-			return err
-		}
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", 16),
-		}
-	}
-
-	b.Append(val)
-	return nil
-}
-
-func (b *UUIDBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *UUIDBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("uuid builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// UUIDArray is a simple array which is a FixedSizeBinary(16)
-type UUIDArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a *UUIDArray) String() string {
-	arr := a.Storage().(*array.FixedSizeBinary)
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < arr.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(array.NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *UUIDArray) Value(i int) uuid.UUID {
-	if a.IsNull(i) {
-		return uuid.Nil
-	}
-	return uuid.Must(uuid.FromBytes(a.Storage().(*array.FixedSizeBinary).Value(i)))
-}
-
-func (a *UUIDArray) Values() []uuid.UUID {
-	values := make([]uuid.UUID, a.Len())
-	for i := range values {
-		values[i] = a.Value(i)
-	}
-	return values
-}
-
-func (a *UUIDArray) ValueStr(i int) string {
-	switch {
-	case a.IsNull(i):
-		return array.NullValueStr
-	default:
-		return a.Value(i).String()
-	}
-}
-
-func (a *UUIDArray) MarshalJSON() ([]byte, error) {
-	vals := make([]any, a.Len())
-	for i := range vals {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func (a *UUIDArray) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-// UUIDType is a simple extension type that represents a FixedSizeBinary(16)
-// to be used for representing UUIDs
-type UUIDType struct {
-	arrow.ExtensionBase
-}
-
-// ParquetLogicalType implements pqarrow.ExtensionCustomParquetType.
-func (e *UUIDType) ParquetLogicalType() schema.LogicalType {
-	return schema.UUIDLogicalType{}
-}
-
-// NewUUIDType is a convenience function to create an instance of UUIDType
-// with the correct storage type
-func NewUUIDType() *UUIDType {
-	return &UUIDType{ExtensionBase: arrow.ExtensionBase{Storage: &arrow.FixedSizeBinaryType{ByteWidth: 16}}}
-}
-
-// ArrayType returns TypeOf(UUIDArray{}) for constructing UUID arrays
-func (*UUIDType) ArrayType() reflect.Type {
-	return reflect.TypeOf(UUIDArray{})
-}
-
-func (*UUIDType) ExtensionName() string {
-	return "arrow.uuid"
-}
-
-func (e *UUIDType) String() string {
-	return fmt.Sprintf("extension<%s>", e.ExtensionName())
-}
-
-func (e *UUIDType) MarshalJSON() ([]byte, error) {
-	return []byte(fmt.Sprintf(`{"name":"%s","metadata":%s}`, e.ExtensionName(), e.Serialize())), nil
-}
-
-func (*UUIDType) Serialize() string {
-	return ""
-}
-
-// Deserialize expects storageType to be FixedSizeBinaryType{ByteWidth: 16}
-func (*UUIDType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !arrow.TypeEqual(storageType, &arrow.FixedSizeBinaryType{ByteWidth: 16}) {
-		return nil, fmt.Errorf("invalid storage type for UUIDType: %s", storageType.Name())
-	}
-	return NewUUIDType(), nil
-}
-
-// ExtensionEquals returns true if both extensions have the same name
-func (e *UUIDType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return e.ExtensionName() == other.ExtensionName()
-}
-
-func (*UUIDType) NewBuilder(mem memory.Allocator) array.Builder {
-	return NewUUIDBuilder(mem)
-}
-
-var (
-	_ arrow.ExtensionType          = (*UUIDType)(nil)
-	_ array.CustomExtensionBuilder = (*UUIDType)(nil)
-	_ array.ExtensionArray         = (*UUIDArray)(nil)
-	_ array.Builder                = (*UUIDBuilder)(nil)
-)
diff --git a/go/arrow/extensions/uuid_test.go b/go/arrow/extensions/uuid_test.go
deleted file mode 100644
index 80c621db2a0d5..0000000000000
--- a/go/arrow/extensions/uuid_test.go
+++ /dev/null
@@ -1,257 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var testUUID = uuid.New()
-
-func TestUUIDExtensionBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-	builder := extensions.NewUUIDBuilder(mem)
-	builder.Append(testUUID)
-	builder.AppendNull()
-	builder.AppendBytes(testUUID)
-	arr := builder.NewArray()
-	defer arr.Release()
-	arrStr := arr.String()
-	assert.Equal(t, fmt.Sprintf(`["%[1]s" (null) "%[1]s"]`, testUUID), arrStr)
-	jsonStr, err := json.Marshal(arr)
-	assert.NoError(t, err)
-
-	arr1, _, err := array.FromJSON(mem, extensions.NewUUIDType(), bytes.NewReader(jsonStr))
-	defer arr1.Release()
-	assert.NoError(t, err)
-	assert.True(t, array.Equal(arr1, arr))
-
-	require.NoError(t, json.Unmarshal(jsonStr, builder))
-	arr2 := builder.NewArray()
-	defer arr2.Release()
-	assert.True(t, array.Equal(arr2, arr))
-}
-
-func TestUUIDExtensionRecordBuilder(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "uuid", Type: extensions.NewUUIDType()},
-	}, nil)
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	builder.Field(0).(*extensions.UUIDBuilder).Append(testUUID)
-	builder.Field(0).(*extensions.UUIDBuilder).AppendNull()
-	builder.Field(0).(*extensions.UUIDBuilder).Append(testUUID)
-	record := builder.NewRecord()
-	b, err := record.MarshalJSON()
-	require.NoError(t, err)
-	require.Equal(t, "[{\"uuid\":\""+testUUID.String()+"\"}\n,{\"uuid\":null}\n,{\"uuid\":\""+testUUID.String()+"\"}\n]", string(b))
-	record1, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, bytes.NewReader(b))
-	require.NoError(t, err)
-	require.Equal(t, record, record1)
-}
-
-func TestUUIDStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := extensions.NewUUIDBuilder(mem)
-	b.Append(uuid.Nil)
-	b.AppendNull()
-	b.Append(uuid.NameSpaceURL)
-	b.AppendNull()
-	b.Append(testUUID)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := extensions.NewUUIDBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray()
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestUUIDTypeBasics(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	assert.Equal(t, "arrow.uuid", typ.ExtensionName())
-	assert.True(t, typ.ExtensionEquals(typ))
-
-	assert.True(t, arrow.TypeEqual(typ, typ))
-	assert.False(t, arrow.TypeEqual(&arrow.FixedSizeBinaryType{ByteWidth: 16}, typ))
-	assert.True(t, arrow.TypeEqual(&arrow.FixedSizeBinaryType{ByteWidth: 16}, typ.StorageType()))
-
-	assert.Equal(t, "extension<arrow.uuid>", typ.String())
-}
-
-func TestUUIDTypeCreateFromArray(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 16})
-	defer bldr.Release()
-
-	bldr.Append(testUUID[:])
-	bldr.AppendNull()
-	bldr.Append(testUUID[:])
-
-	storage := bldr.NewArray()
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	require.Equal(t, testUUID, uuidArr.Value(0))
-	require.Equal(t, uuid.Nil, uuidArr.Value(1))
-	require.Equal(t, testUUID, uuidArr.Value(2))
-}
-
-func TestUUIDTypeBatchIPCRoundTrip(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.Append(testUUID)
-	bldr.AppendNull()
-	bldr.AppendBytes(testUUID)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
-
-func TestMarshallUUIDArray(t *testing.T) {
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.Append(testUUID)
-	bldr.AppendNull()
-	bldr.AppendBytes(testUUID)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	b, err := uuidArr.MarshalJSON()
-	require.NoError(t, err)
-
-	expectedJSON := fmt.Sprintf(`["%[1]s",null,"%[1]s"]`, testUUID)
-	require.Equal(t, expectedJSON, string(b))
-}
-
-func TestUUIDRecordToJSON(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	uuid1 := uuid.MustParse("8c607ed4-07b2-4b9c-b5eb-c0387357f9ae")
-
-	bldr.Append(uuid1)
-	bldr.AppendNull()
-
-	// c5f2cbd9-7094-491a-b267-167bb62efe02
-	bldr.AppendBytes([16]byte{197, 242, 203, 217, 112, 148, 73, 26, 178, 103, 22, 123, 182, 46, 254, 2})
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "uuid", Type: typ, Nullable: true}}, nil), []arrow.Array{uuidArr}, 3)
-	defer rec.Release()
-
-	buf := bytes.NewBuffer([]byte("\n")) // expected output has leading newline for clearer formatting
-	require.NoError(t, array.RecordToJSON(rec, buf))
-
-	expectedJSON := `
-		{"uuid":"8c607ed4-07b2-4b9c-b5eb-c0387357f9ae"}
-		{"uuid":null}
-		{"uuid":"c5f2cbd9-7094-491a-b267-167bb62efe02"}
-	`
-
-	expectedJSONLines := strings.Split(expectedJSON, "\n")
-	actualJSONLines := strings.Split(buf.String(), "\n")
-
-	require.Equal(t, len(expectedJSONLines), len(actualJSONLines))
-	for i := range expectedJSONLines {
-		if strings.TrimSpace(expectedJSONLines[i]) != "" {
-			require.JSONEq(t, expectedJSONLines[i], actualJSONLines[i])
-		}
-	}
-}
diff --git a/go/arrow/flight/basic_auth_flight_test.go b/go/arrow/flight/basic_auth_flight_test.go
deleted file mode 100755
index dac10e2657085..0000000000000
--- a/go/arrow/flight/basic_auth_flight_test.go
+++ /dev/null
@@ -1,202 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-	status "google.golang.org/grpc/status"
-)
-
-const (
-	validUsername   = "flight_username"
-	validPassword   = "flight_password"
-	invalidUsername = "invalid_flight_username"
-	invalidPassword = "invalid_flight_password"
-	validBearer     = "CAREBARESTARE"
-	invalidBearer   = "PANDABEAR"
-)
-
-type HeaderAuthTestFlight struct {
-	flight.BaseFlightServer
-}
-
-func (h *HeaderAuthTestFlight) ListFlights(c *flight.Criteria, fs flight.FlightService_ListFlightsServer) error {
-	fs.Send(&flight.FlightInfo{
-		Schema: []byte("foobar"),
-	})
-	return nil
-}
-
-func (h *HeaderAuthTestFlight) GetSchema(ctx context.Context, in *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return &flight.SchemaResult{Schema: []byte(flight.AuthFromContext(ctx).(string))}, nil
-}
-
-type validator struct{}
-
-func (*validator) Validate(username, password string) (string, error) {
-	if username == validUsername && password == validPassword {
-		return validBearer, nil
-	}
-	return "", status.Errorf(codes.Unauthenticated, "invalid user/password")
-}
-
-func (*validator) IsValid(bearerToken string) (interface{}, error) {
-	if bearerToken == validBearer {
-		return "carebears", nil
-	}
-	return "", status.Errorf(codes.Unauthenticated, "invalid authentication")
-}
-
-func TestErrorAuths(t *testing.T) {
-	unary, stream := flight.CreateServerBearerTokenAuthInterceptors(&validator{})
-	s := flight.NewFlightServer(grpc.UnaryInterceptor(unary), grpc.StreamInterceptor(stream))
-	s.Init("localhost:0")
-	f := &HeaderAuthTestFlight{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	t.Run("non basic auth", func(t *testing.T) {
-		fc, err := client.Handshake(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Foobar ****"})))
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		_, err = fc.Recv()
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid auth", func(t *testing.T) {
-		_, err := client.AuthenticateBasicToken(context.Background(), invalidUsername, invalidPassword)
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid base64", func(t *testing.T) {
-		fc, err := client.Handshake(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Basic ****"})))
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		_, err = fc.Recv()
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid bearer token", func(t *testing.T) {
-		fs, _ := client.ListFlights(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Bearer " + invalidBearer})), &flight.Criteria{})
-		_, err = fs.Recv()
-		if err == nil {
-			t.Fatal("should have errored with invalid bearer token")
-		}
-	})
-
-	t.Run("invalid auth type", func(t *testing.T) {
-		fs, _ := client.ListFlights(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "FunnyStuff " + invalidBearer})), &flight.Criteria{})
-		_, err = fs.Recv()
-		if err == nil {
-			t.Fatal("should have errored with invalid bearer token")
-		}
-	})
-
-	t.Run("test no auth, unary", func(t *testing.T) {
-		_, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{})
-		if err == nil {
-			t.Fatal("should have errored")
-		}
-	})
-
-	t.Run("test invalid auth, unary", func(t *testing.T) {
-		_, err := client.GetSchema(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Bearer Foobarmoo"})), &flight.FlightDescriptor{})
-		if err == nil {
-			t.Fatal("should have errored")
-		}
-	})
-}
-
-func TestBasicAuthHelpers(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{flight.CreateServerBasicAuthMiddleware(&validator{})})
-	s.Init("localhost:0")
-	f := &HeaderAuthTestFlight{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	ctx := context.Background()
-	fs, err := client.ListFlights(ctx, &flight.Criteria{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	_, err = fs.Recv()
-	if err == nil || errors.Is(err, io.EOF) {
-		t.Fatal("Should have failed with unauthenticated error")
-	}
-
-	ctx, err = client.AuthenticateBasicToken(ctx, validUsername, validPassword)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	fs, err = client.ListFlights(ctx, &flight.Criteria{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	info, err := fs.Recv()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if string(info.Schema) != "foobar" {
-		t.Fatal("should have received 'foobar'")
-	}
-
-	sc, err := client.GetSchema(ctx, &flight.FlightDescriptor{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if string(sc.Schema) != "carebears" {
-		t.Fatal("should have received carebears")
-	}
-}
diff --git a/go/arrow/flight/client.go b/go/arrow/flight/client.go
deleted file mode 100644
index 13c068e159f2b..0000000000000
--- a/go/arrow/flight/client.go
+++ /dev/null
@@ -1,453 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"encoding/base64"
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-)
-
-type (
-	FlightServiceClient             = flight.FlightServiceClient
-	FlightService_HandshakeClient   = flight.FlightService_HandshakeClient
-	FlightService_ListFlightsClient = flight.FlightService_ListFlightsClient
-	FlightService_DoGetClient       = flight.FlightService_DoGetClient
-	FlightService_DoPutClient       = flight.FlightService_DoPutClient
-	FlightService_DoExchangeClient  = flight.FlightService_DoExchangeClient
-	FlightService_DoActionClient    = flight.FlightService_DoActionClient
-	FlightService_ListActionsClient = flight.FlightService_ListActionsClient
-
-	DescriptorType = flight.FlightDescriptor_DescriptorType
-	BasicAuth      = flight.BasicAuth
-)
-
-const (
-	DescriptorUNKNOWN = flight.FlightDescriptor_UNKNOWN
-	DescriptorPATH    = flight.FlightDescriptor_PATH
-	DescriptorCMD     = flight.FlightDescriptor_CMD
-)
-
-var NewFlightServiceClient = flight.NewFlightServiceClient
-
-// Client is an interface wrapped around the generated FlightServiceClient which is
-// generated by grpc protobuf definitions. This interface provides a useful hiding
-// of the authentication handshake via calling Authenticate and using the
-// ClientAuthHandler rather than manually having to implement the grpc communication
-// and sending of the auth token.
-type Client interface {
-	// Authenticate uses the ClientAuthHandler that was used when creating the client
-	// in order to use the Handshake endpoints of the service.
-	Authenticate(context.Context, ...grpc.CallOption) error
-	AuthenticateBasicToken(ctx context.Context, username string, password string, opts ...grpc.CallOption) (context.Context, error)
-	CancelFlightInfo(ctx context.Context, request *CancelFlightInfoRequest, opts ...grpc.CallOption) (*CancelFlightInfoResult, error)
-	Close() error
-	RenewFlightEndpoint(ctx context.Context, request *RenewFlightEndpointRequest, opts ...grpc.CallOption) (*FlightEndpoint, error)
-	SetSessionOptions(ctx context.Context, request *SetSessionOptionsRequest, opts ...grpc.CallOption) (*SetSessionOptionsResult, error)
-	GetSessionOptions(ctx context.Context, request *GetSessionOptionsRequest, opts ...grpc.CallOption) (*GetSessionOptionsResult, error)
-	CloseSession(ctx context.Context, request *CloseSessionRequest, opts ...grpc.CallOption) (*CloseSessionResult, error)
-	// join the interface from the FlightServiceClient instead of re-defining all
-	// the endpoints here.
-	FlightServiceClient
-}
-
-type CustomClientMiddleware interface {
-	StartCall(ctx context.Context) context.Context
-}
-
-type ClientPostCallMiddleware interface {
-	CallCompleted(ctx context.Context, err error)
-}
-
-type ClientHeadersMiddleware interface {
-	HeadersReceived(ctx context.Context, md metadata.MD)
-}
-
-func CreateClientMiddleware(middleware CustomClientMiddleware) ClientMiddleware {
-	return ClientMiddleware{
-		Unary: func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			if hdrs, ok := middleware.(ClientHeadersMiddleware); ok {
-				hdrmd := make(metadata.MD)
-				trailermd := make(metadata.MD)
-				opts = append(opts, grpc.Header(&hdrmd), grpc.Trailer(&trailermd))
-				defer func() {
-					hdrs.HeadersReceived(ctx, metadata.Join(hdrmd, trailermd))
-				}()
-			}
-
-			err := invoker(ctx, method, req, reply, cc, opts...)
-			if post, ok := middleware.(ClientPostCallMiddleware); ok {
-				post.CallCompleted(ctx, err)
-			}
-			return err
-		},
-		Stream: func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			cs, err := streamer(ctx, desc, cc, method, opts...)
-			hdrs, isHdrs := middleware.(ClientHeadersMiddleware)
-			post, isPostcall := middleware.(ClientPostCallMiddleware)
-			if !isPostcall && !isHdrs {
-				return cs, err
-			}
-
-			if err != nil {
-				if isPostcall {
-					post.CallCompleted(ctx, err)
-				}
-				return cs, err
-			}
-
-			// Grab the client stream context because when the finish function or the goroutine below will be
-			// executed it's not guaranteed cs.Context() will be valid.
-			csCtx := cs.Context()
-			finishChan := make(chan struct{})
-			isFinished := new(int32)
-			*isFinished = 0
-			finishFunc := func(err error) {
-
-				// since there are multiple code paths that could call finishFunc
-				// we need some sort of synchronization to guard against multiple
-				// calls to finish
-				if !atomic.CompareAndSwapInt32(isFinished, 0, 1) {
-					return
-				}
-
-				close(finishChan)
-				if isPostcall {
-					post.CallCompleted(csCtx, err)
-				}
-				if isHdrs {
-					hdrmd, _ := cs.Header()
-					hdrs.HeadersReceived(csCtx, metadata.Join(hdrmd, cs.Trailer()))
-				}
-			}
-			go func() {
-				select {
-				case <-finishChan:
-					// finish is being called by something else, no action necessary
-				case <-csCtx.Done():
-					finishFunc(csCtx.Err())
-				}
-			}()
-
-			newCS := &clientStream{
-				ClientStream: cs,
-				desc:         desc,
-				finishFn:     finishFunc,
-			}
-			// The `ClientStream` interface allows one to omit calling `Recv` if it's
-			// known that the result will be `io.EOF`. See
-			// http://stackoverflow.com/q/42915337
-			// In such cases, there's nothing that triggers the span to finish. We,
-			// therefore, set a finalizer so that the span and the context goroutine will
-			// at least be cleaned up when the garbage collector is run.
-			runtime.SetFinalizer(newCS, func(newcs *clientStream) {
-				newcs.finishFn(nil)
-			})
-			return newCS, nil
-		},
-	}
-}
-
-type clientStream struct {
-	grpc.ClientStream
-	desc     *grpc.StreamDesc
-	finishFn func(error)
-}
-
-func (cs *clientStream) Header() (metadata.MD, error) {
-	md, err := cs.ClientStream.Header()
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return md, err
-}
-
-func (cs *clientStream) SendMsg(m interface{}) error {
-	err := cs.ClientStream.SendMsg(m)
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return err
-}
-
-func (cs *clientStream) RecvMsg(m interface{}) error {
-	err := cs.ClientStream.RecvMsg(m)
-	if errors.Is(err, io.EOF) {
-		cs.finishFn(nil)
-		return err
-	} else if err != nil {
-		cs.finishFn(err)
-		return err
-	}
-
-	if !cs.desc.ServerStreams {
-		cs.finishFn(nil)
-	}
-	return err
-}
-
-func (cs *clientStream) CloseSend() error {
-	err := cs.ClientStream.CloseSend()
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return err
-}
-
-type ClientMiddleware struct {
-	Stream grpc.StreamClientInterceptor
-	Unary  grpc.UnaryClientInterceptor
-}
-
-type client struct {
-	conn        grpc.ClientConnInterface
-	authHandler ClientAuthHandler
-
-	FlightServiceClient
-}
-
-// NewFlightClient takes in the address of the grpc server and an auth handler for the
-// application-level handshake. If using TLS or other grpc configurations they can still
-// be passed via the grpc.DialOption list just as if connecting manually without this
-// helper function.
-//
-// Alternatively, a grpc client can be constructed as normal without this helper as the
-// grpc generated client code is still exported. This exists to add utility and helpers
-// around the authentication and passing the token with requests.
-//
-// Deprecated: prefer to use NewClientWithMiddleware
-func NewFlightClient(addr string, auth ClientAuthHandler, opts ...grpc.DialOption) (Client, error) {
-	if auth != nil {
-		opts = append([]grpc.DialOption{
-			grpc.WithChainStreamInterceptor(createClientAuthStreamInterceptor(auth)),
-			grpc.WithChainUnaryInterceptor(createClientAuthUnaryInterceptor(auth)),
-		}, opts...)
-	}
-
-	conn, err := grpc.Dial(addr, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &client{conn: conn, FlightServiceClient: flight.NewFlightServiceClient(conn), authHandler: auth}, nil
-}
-
-// NewClientWithMiddleware takes a slice of middleware in addition to the auth and address which will be
-// used by grpc and chained, the first middleware will be the outer most with the last middleware
-// being the inner most wrapper around the actual call. It also passes along the dialoptions passed in such
-// as TLS certs and so on.
-func NewClientWithMiddleware(addr string, auth ClientAuthHandler, middleware []ClientMiddleware, opts ...grpc.DialOption) (Client, error) {
-	return NewClientWithMiddlewareCtx(context.Background(), addr, auth, middleware, opts...)
-}
-
-func NewClientWithMiddlewareCtx(ctx context.Context, addr string, auth ClientAuthHandler, middleware []ClientMiddleware, opts ...grpc.DialOption) (Client, error) {
-	unary := make([]grpc.UnaryClientInterceptor, 0, len(middleware))
-	stream := make([]grpc.StreamClientInterceptor, 0, len(middleware))
-	if auth != nil {
-		unary = append(unary, createClientAuthUnaryInterceptor(auth))
-		stream = append(stream, createClientAuthStreamInterceptor(auth))
-	}
-	if len(middleware) > 0 {
-		for _, m := range middleware {
-			if m.Unary != nil {
-				unary = append(unary, m.Unary)
-			}
-			if m.Stream != nil {
-				stream = append(stream, m.Stream)
-			}
-		}
-	}
-	opts = append(opts, grpc.WithChainUnaryInterceptor(unary...), grpc.WithChainStreamInterceptor(stream...))
-	conn, err := grpc.DialContext(ctx, addr, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &client{conn: conn, FlightServiceClient: flight.NewFlightServiceClient(conn), authHandler: auth}, nil
-}
-
-func NewClientFromConn(cc grpc.ClientConnInterface, auth ClientAuthHandler) Client {
-	return &client{conn: cc,
-		FlightServiceClient: flight.NewFlightServiceClient(cc), authHandler: auth}
-}
-
-func (c *client) AuthenticateBasicToken(ctx context.Context, username, password string, opts ...grpc.CallOption) (context.Context, error) {
-	authCtx := metadata.AppendToOutgoingContext(ctx, "Authorization", "Basic "+base64.RawStdEncoding.EncodeToString([]byte(strings.Join([]string{username, password}, ":"))))
-
-	stream, err := c.FlightServiceClient.Handshake(authCtx, opts...)
-	if err != nil {
-		return ctx, err
-	}
-
-	err = stream.CloseSend()
-	if err != nil {
-		return ctx, err
-	}
-
-	header, err := stream.Header()
-	if err != nil {
-		return ctx, err
-	}
-
-	_, err = stream.Recv()
-	if err != nil && err != io.EOF {
-		return ctx, err
-	}
-
-	meta := stream.Trailer()
-	md := metadata.Join(header, meta)
-	for _, token := range md.Get("authorization") {
-		if token != "" {
-			return metadata.AppendToOutgoingContext(ctx, "Authorization", token), nil
-		}
-	}
-
-	return ctx, fmt.Errorf("flight: no authorization header on the response")
-}
-
-func (c *client) Authenticate(ctx context.Context, opts ...grpc.CallOption) error {
-	if c.authHandler == nil {
-		return status.Error(codes.NotFound, "cannot authenticate without an auth-handler")
-	}
-
-	stream, err := c.FlightServiceClient.Handshake(ctx, opts...)
-	if err != nil {
-		return err
-	}
-
-	return c.authHandler.Authenticate(ctx, &clientAuthConn{stream})
-}
-
-// ReadUntilEOF will drain a stream until either an error is returned
-// or EOF is encountered and nil is returned.
-func ReadUntilEOF(stream FlightService_DoActionClient) error {
-	for {
-		_, err := stream.Recv()
-		if err == io.EOF {
-			return nil
-		} else if err != nil {
-			return err
-		}
-	}
-}
-
-func (c *client) CancelFlightInfo(ctx context.Context, request *CancelFlightInfoRequest, opts ...grpc.CallOption) (*CancelFlightInfoResult, error) {
-	var result CancelFlightInfoResult
-	err := handleAction(ctx, c, CancelFlightInfoActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) Close() error {
-	c.FlightServiceClient = nil
-	if cl, ok := c.conn.(io.Closer); ok {
-		return cl.Close()
-	}
-	return nil
-}
-
-func (c *client) RenewFlightEndpoint(ctx context.Context, request *RenewFlightEndpointRequest, opts ...grpc.CallOption) (*FlightEndpoint, error) {
-	var result FlightEndpoint
-	err := handleAction(ctx, c, RenewFlightEndpointActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) SetSessionOptions(ctx context.Context, request *SetSessionOptionsRequest, opts ...grpc.CallOption) (*SetSessionOptionsResult, error) {
-	var result SetSessionOptionsResult
-	err := handleAction(ctx, c, SetSessionOptionsActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) GetSessionOptions(ctx context.Context, request *GetSessionOptionsRequest, opts ...grpc.CallOption) (*GetSessionOptionsResult, error) {
-	var result GetSessionOptionsResult
-	err := handleAction(ctx, c, GetSessionOptionsActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) CloseSession(ctx context.Context, request *CloseSessionRequest, opts ...grpc.CallOption) (*CloseSessionResult, error) {
-	var result CloseSessionResult
-	err := handleAction(ctx, c, CloseSessionActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func handleAction[T, U proto.Message](ctx context.Context, client FlightServiceClient, name string, request T, response U, opts ...grpc.CallOption) error {
-	var (
-		action flight.Action
-		err    error
-	)
-
-	action.Type = name
-	action.Body, err = proto.Marshal(request)
-	if err != nil {
-		return err
-	}
-	stream, err := client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-	res, err := stream.Recv()
-	if err != nil {
-		return err
-	}
-	err = proto.Unmarshal(res.Body, response)
-	if err != nil {
-		return err
-	}
-
-	return ReadUntilEOF(stream)
-}
diff --git a/go/arrow/flight/client_auth.go b/go/arrow/flight/client_auth.go
deleted file mode 100644
index 1c1e38ed7d2fb..0000000000000
--- a/go/arrow/flight/client_auth.go
+++ /dev/null
@@ -1,91 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"strings"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-)
-
-// ClientAuthHandler defines an interface for the Flight client to perform
-// the authentication handshake. The token that is retrieved from GetToken
-// will be sent as part of the context metadata in subsequent requests after
-// authentication is performed using the key "auth-token-bin".
-type ClientAuthHandler interface {
-	Authenticate(context.Context, AuthConn) error
-	GetToken(context.Context) (string, error)
-}
-
-type clientAuthConn struct {
-	stream FlightService_HandshakeClient
-}
-
-func (a *clientAuthConn) Read() ([]byte, error) {
-	in, err := a.stream.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	return in.Payload, nil
-}
-
-func (a *clientAuthConn) Send(b []byte) error {
-	return a.stream.Send(&HandshakeRequest{Payload: b})
-}
-
-func createClientAuthUnaryInterceptor(auth ClientAuthHandler) grpc.UnaryClientInterceptor {
-	if auth == nil {
-		return func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-			return invoker(ctx, method, req, reply, cc, opts...)
-		}
-	}
-
-	return func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-		tok, err := auth.GetToken(ctx)
-		if err != nil {
-			return status.Errorf(codes.Unauthenticated, "error retrieving token: %s", err)
-		}
-
-		return invoker(metadata.AppendToOutgoingContext(ctx, grpcAuthHeader, tok), method, req, reply, cc, opts...)
-	}
-}
-
-func createClientAuthStreamInterceptor(auth ClientAuthHandler) grpc.StreamClientInterceptor {
-	if auth == nil {
-		return func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-			return streamer(ctx, desc, cc, method, opts...)
-		}
-	}
-
-	return func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-		if strings.HasSuffix(method, "/Handshake") {
-			return streamer(ctx, desc, cc, method, opts...)
-		}
-
-		tok, err := auth.GetToken(ctx)
-		if err != nil {
-			return nil, status.Errorf(codes.Unauthenticated, "error retrieving token: %s", err)
-		}
-
-		return streamer(metadata.AppendToOutgoingContext(ctx, grpcAuthHeader, tok), desc, cc, method, opts...)
-	}
-}
diff --git a/go/arrow/flight/cookie_middleware.go b/go/arrow/flight/cookie_middleware.go
deleted file mode 100644
index 39c86d8303434..0000000000000
--- a/go/arrow/flight/cookie_middleware.go
+++ /dev/null
@@ -1,146 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"net/http"
-	"strings"
-	"sync"
-	"time"
-
-	"golang.org/x/exp/maps"
-	"google.golang.org/grpc/metadata"
-)
-
-// endOfTime is the time when session (non-persistent) cookies expire.
-// This instant is representable in most date/time formats (not just
-// Go's time.Time) and should be far enough in the future.
-// taken from Go's net/http/cookiejar/jar.go
-var endOfTime = time.Date(9999, 12, 31, 23, 59, 59, 0, time.UTC)
-
-// NewClientCookieMiddleware returns a go-routine safe middleware for flight
-// clients which properly handles Set-Cookie headers to store cookies
-// in a cookie jar, and then requests are sent with those cookies added
-// as a Cookie header.
-func NewClientCookieMiddleware() ClientMiddleware {
-	return CreateClientMiddleware(&clientCookieMiddleware{jar: make(map[string]http.Cookie)})
-}
-
-func NewCookieMiddleware() CookieMiddleware {
-	return &clientCookieMiddleware{jar: make(map[string]http.Cookie)}
-}
-
-// CookieMiddleware is a go-routine safe middleware for flight clients
-// which properly handles Set-Cookie headers for storing cookies.
-// This can be passed into `CreateClientMiddleware` to create a new
-// middleware object. You can also clone it to create middleware for a
-// new client which starts with the same cookies.
-type CookieMiddleware interface {
-	CustomClientMiddleware
-	// Clone creates a new CookieMiddleware that starts out with the same
-	// cookies that this one already has. This is useful when creating a
-	// new client connection for the same server.
-	Clone() CookieMiddleware
-}
-
-type clientCookieMiddleware struct {
-	jar map[string]http.Cookie
-	mx  sync.Mutex
-}
-
-func (cc *clientCookieMiddleware) Clone() CookieMiddleware {
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-	return &clientCookieMiddleware{jar: maps.Clone(cc.jar)}
-}
-
-func (cc *clientCookieMiddleware) StartCall(ctx context.Context) context.Context {
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-
-	if len(cc.jar) == 0 {
-		return ctx
-	}
-
-	now := time.Now()
-
-	// Per RFC 6265 section 5.4, rather than adding multiple cookie strings
-	// or multiple cookie headers, multiple cookies are all sent as a single
-	// header value separated by semicolons.
-
-	// we will also clear any expired cookies from the jar while we determine
-	// the cookies to send.
-	cookies := make([]string, 0, len(cc.jar))
-	for id, c := range cc.jar {
-		if !c.Expires.After(now) {
-			delete(cc.jar, id)
-			continue
-		}
-
-		cookies = append(cookies, (&http.Cookie{Name: c.Name, Value: c.Value}).String())
-	}
-
-	if len(cookies) == 0 {
-		return ctx
-	}
-
-	return metadata.AppendToOutgoingContext(ctx, "Cookie", strings.Join(cookies, ";"))
-}
-
-func processCookieExpire(c *http.Cookie, now time.Time) (remove bool) {
-	// MaxAge takes precedence over Expires
-	if c.MaxAge < 0 {
-		return true
-	} else if c.MaxAge > 0 {
-		c.Expires = now.Add(time.Duration(c.MaxAge) * time.Second)
-	} else {
-		if c.Expires.IsZero() {
-			c.Expires = endOfTime
-		} else {
-			if !c.Expires.After(now) {
-				return true
-			}
-		}
-	}
-
-	return
-}
-
-func (cc *clientCookieMiddleware) HeadersReceived(ctx context.Context, md metadata.MD) {
-	// instead of replicating the logic for processing the Set-Cookie
-	// header, let's just make a fake response and use the built-in
-	// cookie processing. It's very non-trivial
-	cookies := (&http.Response{
-		Header: http.Header{"Set-Cookie": md.Get("set-cookie")},
-	}).Cookies()
-
-	now := time.Now()
-
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-
-	for _, c := range cookies {
-		id := c.Name + c.Path
-		if processCookieExpire(c, now) {
-			delete(cc.jar, id)
-			continue
-		}
-
-		cc.jar[id] = *c
-	}
-}
diff --git a/go/arrow/flight/cookie_middleware_test.go b/go/arrow/flight/cookie_middleware_test.go
deleted file mode 100644
index 2e2d02bc21fb5..0000000000000
--- a/go/arrow/flight/cookie_middleware_test.go
+++ /dev/null
@@ -1,301 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"net/http"
-	"net/textproto"
-	"reflect"
-	"strings"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-)
-
-// strings.Cut is go1.18+ so let's just stick a duplicate of it in here
-// for now since we want to support go1.17
-func cut(s, sep string) (before, after string, found bool) {
-	if i := strings.Index(s, sep); i >= 0 {
-		return s[:i], s[i+len(sep):], true
-	}
-	return s, "", false
-}
-
-type serverAddCookieMiddleware struct {
-	expectedCookies map[string]string
-
-	cookies []*http.Cookie
-}
-
-func (s *serverAddCookieMiddleware) StartCall(ctx context.Context) context.Context {
-	if s.expectedCookies == nil {
-		md := make(metadata.MD)
-		for _, c := range s.cookies {
-			md.Append("Set-Cookie", c.String())
-		}
-		grpc.SetHeader(ctx, md)
-		return nil
-	}
-
-	cookies := metadata.ValueFromIncomingContext(ctx, "cookie")
-
-	got := make(map[string]string)
-	for _, line := range cookies {
-		line = textproto.TrimString(line)
-
-		var part string
-		for len(line) > 0 {
-			part, line, _ = cut(line, ";")
-			part = textproto.TrimString(part)
-			if part == "" {
-				continue
-			}
-
-			name, val, _ := cut(part, "=")
-			name = textproto.TrimString(name)
-			if len(val) > 1 && val[0] == '"' && val[len(val)-1] == '"' {
-				val = val[1 : len(val)-1]
-			}
-
-			got[name] = val
-		}
-	}
-
-	if !reflect.DeepEqual(s.expectedCookies, got) {
-		panic(fmt.Sprintf("did not get expected cookies, expected %+v, got %+v", s.expectedCookies, got))
-	}
-
-	return nil
-}
-
-func (s *serverAddCookieMiddleware) CallCompleted(ctx context.Context, err error) {}
-
-func TestClientCookieMiddleware(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-
-	tests := []struct {
-		testname string
-		cookies  []*http.Cookie
-		expected map[string]string
-	}{
-		{"single cookie", []*http.Cookie{{Name: "Cookie-1", Value: "v$1", Raw: "Cookie-1=v$1"}},
-			map[string]string{"Cookie-1": "v$1"}},
-		{"expired", []*http.Cookie{{
-			Name: "NID", Value: "99=YsDT5", Expires: time.Date(2011, 11, 23, 1, 5, 3, 0, time.UTC),
-			RawExpires: "Wed, 23-Nov-2011 01:05:03 GMT", Raw: "NID=99=YsDT5; expires=Wed, 23-Nov-11 01:05:03 GMT"}},
-			map[string]string{}},
-		{"multiple", []*http.Cookie{
-			{Name: "negative maxage", Value: "foobar", MaxAge: -1},
-			{Name: "special-1", Value: " z"},
-			{Name: "cookie-2", Value: "v$2"},
-		},
-			map[string]string{"special-1": " z", "cookie-2": "v$2"}},
-	}
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.testname, func(t *testing.T) {
-			cookieMiddleware.expectedCookies = nil
-
-			client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-				[]flight.ClientMiddleware{flight.NewClientCookieMiddleware()}, credsOpt)
-			require.NoError(t, err)
-			defer client.Close()
-
-			cookieMiddleware.cookies = tt.cookies
-			makeReq(client, t)
-
-			cookieMiddleware.expectedCookies = tt.expected
-			makeReq(client, t)
-		})
-	}
-}
-
-func TestCookieExpiration(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.NewClientCookieMiddleware()}, credsOpt)
-	require.NoError(t, err)
-	defer client.Close()
-
-	// set cookies
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "bar"},
-		{Name: "foo2", Value: "bar2", MaxAge: 1},
-	}
-	makeReq(client, t)
-
-	// validate set
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client, t)
-
-	// wait for foo2 to expire and validate it doesn't get sent
-	time.Sleep(1 * time.Second)
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar",
-	}
-	makeReq(client, t)
-
-	// update value
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "baz"},
-	}
-	cookieMiddleware.expectedCookies = nil
-	makeReq(client, t)
-
-	// validate updated value is sent
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "baz",
-	}
-	makeReq(client, t)
-
-	// force delete cookie
-	cookieMiddleware.expectedCookies = nil
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", MaxAge: -1}, // delete now!
-	}
-	makeReq(client, t)
-
-	// verify it's been deleted
-	cookieMiddleware.expectedCookies = map[string]string{}
-	makeReq(client, t)
-}
-
-func TestCookiesClone(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-	cookies := flight.NewCookieMiddleware()
-	client1, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.CreateClientMiddleware(cookies)}, credsOpt)
-	require.NoError(t, err)
-	defer client1.Close()
-
-	// set cookies
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "bar"},
-		{Name: "foo2", Value: "bar2", MaxAge: 1},
-	}
-	makeReq(client1, t)
-
-	// validate set
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client1, t)
-
-	client2, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.CreateClientMiddleware(cookies.Clone())}, credsOpt)
-	require.NoError(t, err)
-	defer client2.Close()
-
-	// validate clone worked
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client2, t)
-}
diff --git a/go/arrow/flight/doc.go b/go/arrow/flight/doc.go
deleted file mode 100644
index c36a808b00e4d..0000000000000
--- a/go/arrow/flight/doc.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package flight contains server and client implementations for the Arrow Flight RPC
-//
-// Here we list best practices and common pitfalls for Arrow Flight usage.
-//
-// GRPC
-//
-// When using gRPC for transport all client methods take an optional list
-// of gRPC CallOptions: https://pkg.go.dev/google.golang.org/grpc#CallOption.
-// Additional headers can be used or read via
-// https://pkg.go.dev/google.golang.org/grpc@v1.48.0/metadata with the context.
-// Also see available gRPC keys
-// (https://grpc.github.io/grpc/cpp/group__grpc__arg__keys.html) and a list of
-// best gRPC practices (https://grpc.io/docs/guides/performance/#general).
-//
-// Re-use clients whenever possible
-//
-// Closing clients causes gRPC to close and clean up connections which can take
-// several seconds per connection. This will stall server and client threads if
-// done too frequently. Client reuse will avoid this issue.
-//
-// Don’t round-robin load balance
-//
-// Round robin balancing can cause every client to have an open connection to
-// every server causing an unexpected number of open connections and a depletion
-// of resources.
-//
-// Debugging
-//
-// Use netstat to see the number of open connections.
-// For debug use env GODEBUG=http2debug=1 or GODEBUG=http2debug=2 for verbose
-// http2 logs (using 2 is more verbose with frame dumps). This will print the
-// initial headers (on both sides) so you can see if grpc established the
-// connection or not. It will also print when a message is sent, so you can tell
-// if the connection is open or not.
-//
-// Note: "connect" isn't really a connect and we’ve observed that gRPC does not
-// give you the actual error until you first try to make a call. This can cause
-// error being reported at unexpected times.
-//
-// Excessive traffic
-//
-// There are basically two ways to handle excessive traffic:
-// * unbounded goroutines -> everyone gets serviced, but it might take forever.
-// This is what you are seeing now. Default behaviour.
-// * bounded thread pool -> Reject connections / requests when under load, and have
-// clients retry with backoff. This also gives an opportunity to retry with a
-// different node. Not everyone gets serviced but quality of service stays consistent.
-// Can be set with https://pkg.go.dev/google.golang.org/grpc#NumStreamWorkers
-//
-// Closing unresponsive connections
-//
-// * Connection timeout (https://pkg.go.dev/context#WithTimeout) or
-// (https://pkg.go.dev/context#WithCancel) can be set via context.Context.
-// * There is a long standing ticket for a per-write/per-read timeout instead of a per
-// call timeout (https://issues.apache.org/jira/browse/ARROW-6062), but this is not
-// (easily) possible to implement with the blocking gRPC API. For now one can also do
-// something like set up a background thread that calls cancel() on a timer and have
-// the main thread reset the timer every time a write operation completes successfully
-// (that means one needs to use to_batches() + write_batch and not write_table).
-
-package flight
diff --git a/go/arrow/flight/example_flight_server_test.go b/go/arrow/flight/example_flight_server_test.go
deleted file mode 100755
index 9dd7bc8efef48..0000000000000
--- a/go/arrow/flight/example_flight_server_test.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/status"
-)
-
-type serverAuth struct{}
-
-func (sa *serverAuth) Authenticate(c flight.AuthConn) error {
-	in, err := c.Read()
-	if errors.Is(err, io.EOF) {
-		return status.Error(codes.Unauthenticated, "no auth info provided")
-	}
-
-	if err != nil {
-		return status.Error(codes.FailedPrecondition, "error reading auth handshake")
-	}
-
-	// do something with in....
-	fmt.Println(string(in))
-
-	// send auth token back
-	return c.Send([]byte("foobar"))
-}
-
-func (sa *serverAuth) IsValid(token string) (interface{}, error) {
-	if token == "foobar" {
-		return "foo", nil
-	}
-	return "", status.Error(codes.PermissionDenied, "invalid auth token")
-}
-
-func Example_server() {
-	server := flight.NewFlightServer()
-	server.Init("localhost:0")
-	svc := &flight.BaseFlightServer{}
-	svc.SetAuthHandler(&serverAuth{})
-	server.RegisterFlightService(svc)
-
-	go server.Serve()
-	defer server.Shutdown()
-
-	conn, err := grpc.Dial(server.Addr().String(), grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer conn.Close()
-
-	client := flight.NewFlightServiceClient(conn)
-	stream, err := client.Handshake(context.Background())
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// ignore error handling here for brevity
-	stream.Send(&flight.HandshakeRequest{Payload: []byte("baz")})
-
-	resp, _ := stream.Recv()
-	fmt.Println(string(resp.Payload))
-
-	// Output:
-	// baz
-	// foobar
-}
diff --git a/go/arrow/flight/flight_middleware_test.go b/go/arrow/flight/flight_middleware_test.go
deleted file mode 100755
index 181b41ea41f2a..0000000000000
--- a/go/arrow/flight/flight_middleware_test.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"io"
-	sync "sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-)
-
-type ServerMiddlewareAddHeader struct {
-	ctx context.Context
-}
-
-func (s *ServerMiddlewareAddHeader) StartCall(ctx context.Context) context.Context {
-	grpc.SetHeader(ctx, metadata.Pairs("foo", "bar"))
-	s.ctx = ctx
-
-	return nil
-}
-
-func (s *ServerMiddlewareAddHeader) CallCompleted(ctx context.Context, err error) {
-	if s.ctx != ctx {
-		panic("invalid context")
-	}
-
-	grpc.SetTrailer(ctx, metadata.Pairs("super", "duper"))
-
-	if err != nil {
-		panic("got error")
-	}
-}
-
-type ServerMiddlewareAddHeaderError struct{}
-
-func (s *ServerMiddlewareAddHeaderError) StartCall(ctx context.Context) context.Context {
-	grpc.SetHeader(ctx, metadata.Pairs("foo", "bar"))
-	return nil
-}
-
-func (s *ServerMiddlewareAddHeaderError) CallCompleted(ctx context.Context, err error) {
-	grpc.SetTrailer(ctx, metadata.Pairs("super", "duper"))
-}
-
-type ServerTraceMiddleware struct{}
-
-type tracetestKey struct{}
-
-func (s ServerTraceMiddleware) StartCall(ctx context.Context) context.Context {
-	return context.WithValue(ctx, tracetestKey{}, "foobar")
-}
-
-func (s ServerTraceMiddleware) CallCompleted(ctx context.Context, _ error) {
-	v := ctx.Value(tracetestKey{}).(string)
-	if v != "foobar" {
-		panic("missing value from context in middleware test")
-	}
-}
-
-type ServerExpectHeaderMiddleware struct{}
-
-func (s ServerExpectHeaderMiddleware) StartCall(ctx context.Context) context.Context {
-	md, ok := metadata.FromIncomingContext(ctx)
-	if !ok {
-		panic("missing metadata headers")
-	}
-
-	bar := md.Get("foo")
-	if len(bar) != 1 || bar[0] != "bar" {
-		panic("incorrect header received: " + bar[0])
-	}
-
-	return nil
-}
-
-func (s ServerExpectHeaderMiddleware) CallCompleted(context.Context, error) {}
-
-func TestServerStreamMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerTraceMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	require.NoError(t, err)
-
-	md, err := flightStream.Header()
-	assert.NoError(t, err)
-	assert.Equal(t, []string{"bar"}, md.Get("foo"))
-
-	for {
-		info, err := flightStream.Recv()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		assert.True(t, ok)
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		assert.NoError(t, err)
-
-		assert.True(t, recs[0].Schema().Equal(sc))
-	}
-
-	md = flightStream.Trailer()
-	assert.Equal(t, []string{"duper"}, md.Get("super"))
-}
-
-func TestServerUnaryMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerTraceMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			var (
-				hdrMD     metadata.MD
-				trailerMD metadata.MD
-			)
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}}, grpc.Header(&hdrMD), grpc.Trailer(&trailerMD))
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-
-			assert.Equal(t, []string{"bar"}, hdrMD.Get("foo"))
-			assert.Equal(t, []string{"duper"}, trailerMD.Get("super"))
-		})
-	}
-}
-
-type ClientTestSendHeaderMiddleware struct {
-	ctx context.Context
-	md  metadata.MD
-	mx  sync.Mutex
-}
-
-func (c *ClientTestSendHeaderMiddleware) StartCall(ctx context.Context) context.Context {
-	c.ctx = context.WithValue(metadata.AppendToOutgoingContext(ctx, "foo", "bar"), tracetestKey{}, "super")
-	return c.ctx
-}
-
-func (c *ClientTestSendHeaderMiddleware) CallCompleted(ctx context.Context, err error) {
-	val := ctx.Value(tracetestKey{}).(string)
-	if val != "super" {
-		panic("invalid context client middleware")
-	}
-}
-
-func (c *ClientTestSendHeaderMiddleware) HeadersReceived(ctx context.Context, md metadata.MD) {
-	val := ctx.Value(tracetestKey{}).(string)
-	if val != "super" {
-		panic("invalid context client middleware")
-	}
-
-	c.mx.Lock()
-	defer c.mx.Unlock()
-	c.md = md
-}
-
-func TestClientStreamMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerExpectHeaderMiddleware{}),
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middleware := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middleware),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	require.NoError(t, err)
-
-	for {
-		info, err := flightStream.Recv()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		assert.True(t, ok)
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		assert.NoError(t, err)
-
-		assert.True(t, recs[0].Schema().Equal(sc))
-	}
-
-	middleware.mx.Lock()
-	defer middleware.mx.Unlock()
-	assert.Equal(t, []string{"bar"}, middleware.md.Get("foo"))
-	assert.Equal(t, []string{"duper"}, middleware.md.Get("super"))
-}
-
-func TestClientStreamMiddlewareWithError(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeaderError{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	// UseCompressor triggers a particular rare failure path.
-	_, err = client.DoGet(context.Background(), &flight.Ticket{Ticket: []byte("this flight does not exist")}, grpc.UseCompressor("foo"))
-	if err == nil {
-		t.Fatal("Expected error but got nothing")
-	}
-	assert.Contains(t, err.Error(), "Compressor is not installed")
-}
-
-func TestClientUnaryMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerExpectHeaderMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}})
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-
-			assert.Equal(t, []string{"bar"}, middle.md.Get("foo"))
-			assert.Equal(t, []string{"duper"}, middle.md.Get("super"))
-
-			middle.md = metadata.MD{}
-		})
-	}
-}
-
-func TestClientUnaryMiddlewareWithError(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeaderError{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	_, err = client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{"this flight does not exist"}}, grpc.UseCompressor("foo"))
-	if err == nil {
-		t.Fatal("Expected error but got nothing")
-	}
-	assert.Contains(t, err.Error(), "Compressor is not installed")
-}
diff --git a/go/arrow/flight/flight_test.go b/go/arrow/flight/flight_test.go
deleted file mode 100755
index a03d839e9484d..0000000000000
--- a/go/arrow/flight/flight_test.go
+++ /dev/null
@@ -1,486 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/health"
-	"google.golang.org/grpc/health/grpc_health_v1"
-	"google.golang.org/grpc/reflection"
-	"google.golang.org/grpc/status"
-)
-
-type flightServer struct {
-	mem memory.Allocator
-	flight.BaseFlightServer
-}
-
-func (f *flightServer) getmem() memory.Allocator {
-	if f.mem == nil {
-		f.mem = memory.NewGoAllocator()
-	}
-
-	return f.mem
-}
-
-func (f *flightServer) ListFlights(c *flight.Criteria, fs flight.FlightService_ListFlightsServer) error {
-	expr := string(c.GetExpression())
-
-	auth := ""
-	authVal := flight.AuthFromContext(fs.Context())
-	if authVal != nil {
-		auth = authVal.(string)
-	}
-
-	for _, name := range arrdata.RecordNames {
-		if expr != "" && expr != name {
-			continue
-		}
-
-		recs := arrdata.Records[name]
-		totalRows := int64(0)
-		for _, r := range recs {
-			totalRows += r.NumRows()
-		}
-
-		fs.Send(&flight.FlightInfo{
-			Schema: flight.SerializeSchema(recs[0].Schema(), f.getmem()),
-			FlightDescriptor: &flight.FlightDescriptor{
-				Type: flight.DescriptorPATH,
-				Path: []string{name, auth},
-			},
-			TotalRecords: totalRows,
-			TotalBytes:   -1,
-		})
-	}
-
-	return nil
-}
-
-func (f *flightServer) GetSchema(_ context.Context, in *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if in == nil {
-		return nil, status.Error(codes.InvalidArgument, "invalid flight descriptor")
-	}
-
-	recs, ok := arrdata.Records[in.Path[0]]
-	if !ok {
-		return nil, status.Error(codes.NotFound, "flight not found")
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(recs[0].Schema(), f.getmem())}, nil
-}
-
-func (f *flightServer) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	recs, ok := arrdata.Records[string(tkt.GetTicket())]
-	if !ok {
-		return status.Error(codes.NotFound, "flight not found")
-	}
-
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(recs[0].Schema()))
-	for _, r := range recs {
-		w.Write(r)
-	}
-
-	return nil
-}
-
-type servAuth struct{}
-
-func (a *servAuth) Authenticate(c flight.AuthConn) error {
-	tok, err := c.Read()
-	if errors.Is(err, io.EOF) {
-		return nil
-	}
-
-	if string(tok) != "foobar" {
-		return errors.New("novalid")
-	}
-
-	if err != nil {
-		return err
-	}
-
-	return c.Send([]byte("baz"))
-}
-
-func (a *servAuth) IsValid(token string) (interface{}, error) {
-	if token == "baz" {
-		return "bar", nil
-	}
-	return "", errors.New("novalid")
-}
-
-type ctxauth struct{}
-
-type clientAuth struct{}
-
-func (a *clientAuth) Authenticate(ctx context.Context, c flight.AuthConn) error {
-	if err := c.Send(ctx.Value(ctxauth{}).([]byte)); err != nil {
-		return err
-	}
-
-	_, err := c.Read()
-	return err
-}
-
-func (a *clientAuth) GetToken(ctx context.Context) (string, error) {
-	return ctx.Value(ctxauth{}).(string), nil
-}
-
-func TestListFlights(t *testing.T) {
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	if err != nil {
-		t.Error(err)
-	}
-
-	for {
-		info, err := flightStream.Recv()
-		if errors.Is(err, io.EOF) {
-			break
-		} else if err != nil {
-			t.Error(err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		if !ok {
-			t.Fatalf("got unknown flight info: %s", fname)
-		}
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		if !recs[0].Schema().Equal(sc) {
-			t.Fatalf("flight info schema transfer failed: \ngot = %#v\nwant = %#v\n", sc, recs[0].Schema())
-		}
-
-		var total int64 = 0
-		for _, r := range recs {
-			total += r.NumRows()
-		}
-
-		if info.TotalRecords != total {
-			t.Fatalf("got wrong number of total records: got = %d, wanted = %d", info.TotalRecords, total)
-		}
-	}
-}
-
-func TestGetSchema(t *testing.T) {
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}})
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-		})
-	}
-}
-
-func TestServer(t *testing.T) {
-	f := &flightServer{}
-	f.SetAuthHandler(&servAuth{})
-
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), &clientAuth{}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	err = client.Authenticate(context.WithValue(context.Background(), ctxauth{}, []byte("foobar")))
-	if err != nil {
-		t.Error(err)
-	}
-
-	ctx := context.WithValue(context.Background(), ctxauth{}, "baz")
-
-	fistream, err := client.ListFlights(ctx, &flight.Criteria{Expression: []byte("decimal128")})
-	if err != nil {
-		t.Error(err)
-	}
-
-	fi, err := fistream.Recv()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if len(fi.FlightDescriptor.GetPath()) != 2 || fi.FlightDescriptor.GetPath()[1] != "bar" {
-		t.Fatalf("path should have auth info: want %s got %s", "bar", fi.FlightDescriptor.GetPath()[1])
-	}
-
-	fdata, err := client.DoGet(ctx, &flight.Ticket{Ticket: []byte("decimal128")})
-	if err != nil {
-		t.Error(err)
-	}
-
-	r, err := flight.NewRecordReader(fdata)
-	if err != nil {
-		t.Error(err)
-	}
-
-	expected := arrdata.Records["decimal128"]
-	idx := 0
-	var numRows int64 = 0
-	for {
-		rec, err := r.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			t.Error(err)
-		}
-
-		numRows += rec.NumRows()
-		if !array.RecordEqual(expected[idx], rec) {
-			t.Errorf("flight data stream records don't match: \ngot = %#v\nwant = %#v", rec, expected[idx])
-		}
-		idx++
-	}
-
-	if numRows != fi.TotalRecords {
-		t.Fatalf("got %d, want %d", numRows, fi.TotalRecords)
-	}
-}
-
-func TestServerWithAdditionalServices(t *testing.T) {
-	f := &flightServer{}
-	f.SetAuthHandler(&servAuth{})
-
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	s.RegisterFlightService(f)
-
-	// Enable health check.
-	grpc_health_v1.RegisterHealthServer(s, health.NewServer())
-
-	// Enable reflection for grpcurl.
-	reflection.Register(s)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	// Flight client should not be affected by the additional services.
-	flightClient, err := flight.NewFlightClient(s.Addr().String(), &clientAuth{}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer flightClient.Close()
-
-	// Make sure health check is working.
-	conn, err := grpc.Dial(s.Addr().String(), grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer conn.Close()
-
-	healthClient := grpc_health_v1.NewHealthClient(conn)
-	_, err = healthClient.Check(context.Background(), &grpc_health_v1.HealthCheckRequest{})
-	if err != nil {
-		t.Error(err)
-	}
-}
-
-type flightMetadataWriterServer struct {
-	flight.BaseFlightServer
-}
-
-func (f *flightMetadataWriterServer) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	recs := arrdata.Records[string(tkt.GetTicket())]
-
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(recs[0].Schema()))
-	defer w.Close()
-	for idx, r := range recs {
-		w.WriteWithAppMetadata(r, []byte(fmt.Sprintf("%d_%s", idx, string(tkt.GetTicket()))) /*metadata*/)
-	}
-	return nil
-}
-
-func TestFlightWithAppMetadata(t *testing.T) {
-	f := &flightMetadataWriterServer{}
-	s := flight.NewFlightServer()
-	s.RegisterFlightService(f)
-	s.Init("localhost:0")
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer client.Close()
-
-	fdata, err := client.DoGet(context.Background(), &flight.Ticket{Ticket: []byte("primitives")})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := flight.NewRecordReader(fdata)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	expected := arrdata.Records["primitives"]
-	idx := 0
-	for {
-		rec, err := r.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			t.Fatal(err)
-		}
-
-		appMeta := r.LatestAppMetadata()
-		if !array.RecordEqual(expected[idx], rec) {
-			t.Errorf("flight data stream records for idx: %d don't match: \ngot = %#v\nwant = %#v", idx, rec, expected[idx])
-		}
-
-		exMeta := fmt.Sprintf("%d_primitives", idx)
-		if string(appMeta) != exMeta {
-			t.Errorf("flight data stream application metadata mismatch: got: %v, want: %v\n", string(appMeta), exMeta)
-		}
-		idx++
-	}
-}
-
-type flightErrorReturn struct {
-	flight.BaseFlightServer
-}
-
-func (f *flightErrorReturn) DoGet(_ *flight.Ticket, _ flight.FlightService_DoGetServer) error {
-	return status.Error(codes.NotFound, "nofound")
-}
-
-func TestReaderError(t *testing.T) {
-	f := &flightErrorReturn{}
-	s := flight.NewFlightServer()
-	s.RegisterFlightService(f)
-	s.Init("localhost:0")
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer client.Close()
-
-	fdata, err := client.DoGet(context.Background(), &flight.Ticket{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	_, err = flight.NewRecordReader(fdata)
-	if err == nil {
-		t.Fatal("should have errored")
-	}
-}
-
-func TestWriterInferSchema(t *testing.T) {
-	recs, ok := arrdata.Records["primitives"]
-	require.True(t, ok)
-
-	fs := flightStreamWriter{}
-	w := flight.NewRecordWriter(&fs)
-
-	for _, rec := range recs {
-		require.NoError(t, w.Write(rec))
-	}
-
-	require.NoError(t, w.Close())
-}
-
-func TestWriterInconsistentSchema(t *testing.T) {
-	recs, ok := arrdata.Records["primitives"]
-	require.True(t, ok)
-
-	schema := arrow.NewSchema([]arrow.Field{{Name: "unknown", Type: arrow.PrimitiveTypes.Int8}}, nil)
-	fs := flightStreamWriter{}
-	w := flight.NewRecordWriter(&fs, ipc.WithSchema(schema))
-
-	require.ErrorContains(t, w.Write(recs[0]), "arrow/ipc: tried to write record batch with different schema")
-	require.NoError(t, w.Close())
-}
-
-type flightStreamWriter struct{}
-
-// Send implements flight.DataStreamWriter.
-func (f *flightStreamWriter) Send(data *flight.FlightData) error { return nil }
-
-var _ flight.DataStreamWriter = (*flightStreamWriter)(nil)
diff --git a/go/arrow/flight/flightsql/client.go b/go/arrow/flight/flightsql/client.go
deleted file mode 100644
index 4c9dc50135108..0000000000000
--- a/go/arrow/flight/flightsql/client.go
+++ /dev/null
@@ -1,1436 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// NewClient is a convenience function to automatically construct
-// a flight.Client and return a flightsql.Client containing it rather
-// than having to manually construct both yourself. It just delegates
-// its arguments to flight.NewClientWithMiddleware to create the
-// underlying Flight Client.
-func NewClient(addr string, auth flight.ClientAuthHandler, middleware []flight.ClientMiddleware, opts ...grpc.DialOption) (*Client, error) {
-	return NewClientCtx(context.Background(), addr, auth, middleware, opts...)
-}
-
-func NewClientCtx(ctx context.Context, addr string, auth flight.ClientAuthHandler, middleware []flight.ClientMiddleware, opts ...grpc.DialOption) (*Client, error) {
-	cl, err := flight.NewClientWithMiddlewareCtx(ctx, addr, auth, middleware, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return &Client{cl, memory.DefaultAllocator}, nil
-}
-
-// Client wraps a regular Flight RPC Client to provide the FlightSQL
-// interface functions and methods.
-type Client struct {
-	Client flight.Client
-
-	Alloc memory.Allocator
-}
-
-func descForCommand(cmd proto.Message) (*flight.FlightDescriptor, error) {
-	var any anypb.Any
-	if err := any.MarshalFrom(cmd); err != nil {
-		return nil, err
-	}
-
-	data, err := proto.Marshal(&any)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  data,
-	}, nil
-}
-
-func flightInfoForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.getFlightInfo(ctx, desc, opts...)
-}
-
-func pollInfoForCommand(ctx context.Context, cl *Client, cmd proto.Message, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if retryDescriptor != nil {
-		return cl.Client.PollFlightInfo(ctx, retryDescriptor, opts...)
-	}
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.Client.PollFlightInfo(ctx, desc, opts...)
-}
-
-func schemaForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.getSchema(ctx, desc, opts...)
-}
-
-func packAction(actionType string, msg proto.Message) (action pb.Action, err error) {
-	var cmd anypb.Any
-
-	if err = cmd.MarshalFrom(msg); err != nil {
-		return
-	}
-	action.Type = actionType
-	action.Body, err = proto.Marshal(&cmd)
-	return
-}
-
-func readResult(stream pb.FlightService_DoActionClient, msg proto.Message) error {
-	var container anypb.Any
-
-	res, err := stream.Recv()
-	if err != nil {
-		return err
-	}
-
-	if err = proto.Unmarshal(res.Body, &container); err != nil {
-		return err
-	}
-
-	return container.UnmarshalTo(msg)
-}
-
-// Execute executes the desired query on the server and returns a FlightInfo
-// object describing where to retrieve the results.
-func (c *Client) Execute(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// ExecutePoll idempotently starts execution of a query/checks for completion.
-// To check for completion, pass the FlightDescriptor from the previous call
-// to ExecutePoll as the retryDescriptor.
-func (c *Client) ExecutePoll(ctx context.Context, query string, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return pollInfoForCommand(ctx, c, &cmd, retryDescriptor, opts...)
-}
-
-// GetExecuteSchema gets the schema of the result set of a query without
-// executing the query itself.
-func (c *Client) GetExecuteSchema(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return schemaForCommand(ctx, c, &cmd, opts...)
-}
-
-func (c *Client) ExecuteSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-func (c *Client) ExecuteSubstraitPoll(ctx context.Context, plan SubstraitPlan, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return pollInfoForCommand(ctx, c, &cmd, retryDescriptor, opts...)
-}
-
-func (c *Client) GetExecuteSubstraitSchema(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return schemaForCommand(ctx, c, &cmd, opts...)
-}
-
-// ExecuteUpdate is for executing an update query and only returns the number of affected rows.
-func (c *Client) ExecuteUpdate(ctx context.Context, query string, opts ...grpc.CallOption) (n int64, err error) {
-	var (
-		cmd          pb.CommandStatementUpdate
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd.Query = query
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (c *Client) ExecuteSubstraitUpdate(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (n int64, err error) {
-	var (
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-// ExecuteIngest is for executing a bulk ingestion and only returns the number of affected rows.
-// The provided RecordReader will be retained for the duration of the call, but it is the caller's
-// responsibility to release the original reference.
-func (c *Client) ExecuteIngest(ctx context.Context, rdr array.RecordReader, reqOptions *ExecuteIngestOpts, opts ...grpc.CallOption) (int64, error) {
-	var (
-		err          error
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		wr           *flight.Writer
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := (*pb.CommandStatementIngest)(reqOptions)
-
-	// Servers cannot infer defaults for these parameters, so we validate the request to ensure they are set.
-	if cmd.GetTableDefinitionOptions() == nil {
-		return 0, fmt.Errorf("cannot ExecuteIngest: invalid ExecuteIngestOpts, TableDefinitionOptions is required")
-	}
-	if cmd.GetTable() == "" {
-		return 0, fmt.Errorf("cannot ExecuteIngest: invalid ExecuteIngestOpts, Table is required")
-	}
-
-	if desc, err = descForCommand(cmd); err != nil {
-		return 0, err
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return 0, err
-	}
-
-	wr = flight.NewRecordWriter(stream, ipc.WithAllocator(c.Alloc), ipc.WithSchema(rdr.Schema()))
-	defer wr.Close()
-
-	wr.SetFlightDescriptor(desc)
-
-	for rdr.Next() {
-		rec := rdr.Record()
-		err = wr.Write(rec)
-		if err == io.EOF {
-			// gRPC returns io.EOF if the error was generated by the server.
-			// The specific error will be retrieved in the server response.
-			// ref: https://pkg.go.dev/google.golang.org/grpc#ClientStream
-			break
-		}
-		if err != nil {
-			return 0, err
-		}
-	}
-
-	if err = rdr.Err(); err != nil {
-		return 0, err
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return 0, err
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return 0, err
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return 0, err
-	}
-
-	// Drain the stream. If ingestion was successful, no more messages should arrive.
-	// If there was a failure, the next message contains the error and the DoPutUpdateResult
-	// we recieved indicates a partial ingestion if the RecordCount is non-zero.
-	for {
-		_, err := stream.Recv()
-		if err == io.EOF {
-			return updateResult.GetRecordCount(), nil
-		} else if err != nil {
-			return updateResult.GetRecordCount(), err
-		}
-	}
-}
-
-// GetCatalogs requests the list of catalogs from the server and
-// returns a flightInfo object where the response can be retrieved
-func (c *Client) GetCatalogs(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
-}
-
-// GetCatalogsSchema requests the schema of GetCatalogs from the server
-func (c *Client) GetCatalogsSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
-}
-
-// GetDBSchemas requests the list of schemas from the database and
-// returns a FlightInfo object where the response can be retrieved
-func (c *Client) GetDBSchemas(ctx context.Context, cmdOpts *GetDBSchemasOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, (*pb.CommandGetDbSchemas)(cmdOpts), opts...)
-}
-
-// GetDBSchemasSchema requests the schema of GetDBSchemas from the server
-func (c *Client) GetDBSchemasSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetDbSchemas{}, opts...)
-}
-
-// DoGet uses the provided flight ticket to request the stream of data.
-// It returns a recordbatch reader to stream the results. Release
-// should be called on the reader when done.
-func (c *Client) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (*flight.Reader, error) {
-	stream, err := c.Client.DoGet(ctx, in, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return flight.NewRecordReader(stream, ipc.WithAllocator(c.Alloc))
-}
-
-// GetTables requests a list of tables from the server, with the provided
-// options describing how to make the request (filter patterns, if the schema
-// should be returned, etc.). Returns a FlightInfo object where the response
-// can be retrieved.
-func (c *Client) GetTables(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
-}
-
-// GetTablesSchema requests the schema of GetTables from the server.
-func (c *Client) GetTablesSchema(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
-}
-
-// GetPrimaryKeys requests the primary keys for a specific table from the
-// server, specified using a TableRef. Returns a FlightInfo object where
-// the response can be retrieved.
-func (c *Client) GetPrimaryKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetPrimaryKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetPrimaryKeysSchema requests the schema of GetPrimaryKeys from the server.
-func (c *Client) GetPrimaryKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetPrimaryKeys{}, opts...)
-}
-
-// GetExportedKeys retrieves a description about the foreign key columns
-// that reference the primary key columns of the specified table. Returns
-// a FlightInfo object where the response can be retrieved.
-func (c *Client) GetExportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetExportedKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetExportedKeysSchema requests the schema of GetExportedKeys from the server.
-func (c *Client) GetExportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetExportedKeys{}, opts...)
-}
-
-// GetImportedKeys returns the foreign key columns for the specified table.
-// Returns a FlightInfo object indicating where the response can be retrieved.
-func (c *Client) GetImportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetImportedKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetImportedKeysSchema requests the schema of GetImportedKeys from the server.
-func (c *Client) GetImportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetImportedKeys{}, opts...)
-}
-
-// GetCrossReference retrieves a description of the foreign key columns
-// in the specified ForeignKey table that reference the primary key or
-// columns representing a restraint of the parent table (could be the same
-// or a different table). Returns a FlightInfo object indicating where
-// the response can be retrieved with DoGet.
-func (c *Client) GetCrossReference(ctx context.Context, pkTable, fkTable TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetCrossReference{
-		PkCatalog:  pkTable.Catalog,
-		PkDbSchema: pkTable.DBSchema,
-		PkTable:    pkTable.Table,
-		FkCatalog:  fkTable.Catalog,
-		FkDbSchema: fkTable.DBSchema,
-		FkTable:    fkTable.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetCrossReferenceSchema requests the schema of GetCrossReference from the server.
-func (c *Client) GetCrossReferenceSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetCrossReference{}, opts...)
-}
-
-// GetTableTypes requests a list of the types of tables available on this
-// server. Returns a FlightInfo object indicating where the response can
-// be retrieved.
-func (c *Client) GetTableTypes(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
-}
-
-// GetTableTypesSchema requests the schema of GetTableTypes from the server.
-func (c *Client) GetTableTypesSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
-}
-
-// GetXdbcTypeInfo requests the information about all the data types supported
-// (dataType == nil) or a specific data type. Returns a FlightInfo object
-// indicating where the response can be retrieved.
-func (c *Client) GetXdbcTypeInfo(ctx context.Context, dataType *int32, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{DataType: dataType}, opts...)
-}
-
-// GetXdbcTypeInfoSchema requests the schema of GetXdbcTypeInfo from the server.
-func (c *Client) GetXdbcTypeInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{}, opts...)
-}
-
-// GetSqlInfo returns a list of the requested SQL information corresponding
-// to the values in the info slice. Returns a FlightInfo object indicating
-// where the response can be retrieved.
-func (c *Client) GetSqlInfo(ctx context.Context, info []SqlInfo, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(info))}
-
-	for i, v := range info {
-		cmd.Info[i] = uint32(v)
-	}
-	return flightInfoForCommand(ctx, c, cmd, opts...)
-}
-
-// GetSqlInfoSchema requests the schema of  GetSqlInfo from the server.
-func (c *Client) GetSqlInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetSqlInfo{}, opts...)
-}
-
-// Prepare creates a PreparedStatement object for the specified query.
-// The resulting PreparedStatement object should be Closed when no longer
-// needed. It will maintain a reference to this Client for use to execute
-// and use the specified allocator for any allocations it needs to perform.
-func (c *Client) Prepare(ctx context.Context, query string, opts ...grpc.CallOption) (prep *PreparedStatement, err error) {
-	const actionType = CreatePreparedStatementActionType
-
-	var (
-		request pb.ActionCreatePreparedStatementRequest
-		action  pb.Action
-		stream  pb.FlightService_DoActionClient
-	)
-
-	request.Query = query
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(c, c.Alloc, stream)
-}
-
-func (c *Client) PrepareSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (stmt *PreparedStatement, err error) {
-	const actionType = CreatePreparedSubstraitPlanActionType
-
-	var (
-		request pb.ActionCreatePreparedSubstraitPlanRequest
-		action  pb.Action
-		stream  pb.FlightService_DoActionClient
-	)
-
-	request.Plan = &pb.SubstraitPlan{
-		Plan:    plan.Plan,
-		Version: plan.Version,
-	}
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(c, c.Alloc, stream)
-}
-
-func (c *Client) LoadPreparedStatementFromResult(result *CreatePreparedStatementResult) (*PreparedStatement, error) {
-	var (
-		err                   error
-		dsSchema, paramSchema *arrow.Schema
-	)
-	if result.DatasetSchema != nil {
-		dsSchema, err = flight.DeserializeSchema(result.DatasetSchema, c.Alloc)
-		if err != nil {
-			return nil, err
-		}
-	}
-	if result.ParameterSchema != nil {
-		paramSchema, err = flight.DeserializeSchema(result.ParameterSchema, c.Alloc)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return &PreparedStatement{
-		client:        c,
-		handle:        result.PreparedStatementHandle,
-		datasetSchema: dsSchema,
-		paramSchema:   paramSchema,
-	}, nil
-}
-
-func parsePreparedStatementResponse(c *Client, mem memory.Allocator, results pb.FlightService_DoActionClient) (*PreparedStatement, error) {
-	if err := results.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	res, err := results.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	var (
-		container             anypb.Any
-		message               pb.ActionCreatePreparedStatementResult
-		dsSchema, paramSchema *arrow.Schema
-	)
-	if err = proto.Unmarshal(res.Body, &container); err != nil {
-		return nil, err
-	}
-
-	if err = container.UnmarshalTo(&message); err != nil {
-		return nil, err
-	}
-
-	if message.DatasetSchema != nil {
-		dsSchema, err = flight.DeserializeSchema(message.DatasetSchema, mem)
-		if err != nil {
-			return nil, err
-		}
-	}
-	if message.ParameterSchema != nil {
-		paramSchema, err = flight.DeserializeSchema(message.ParameterSchema, mem)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	// XXX: assuming server will not return a result and then an error
-	// (or else we need to also try to clean up the statement)
-	if err = flight.ReadUntilEOF(results); err != nil {
-		return nil, err
-	}
-
-	return &PreparedStatement{
-		client:        c,
-		handle:        message.PreparedStatementHandle,
-		datasetSchema: dsSchema,
-		paramSchema:   paramSchema,
-	}, nil
-}
-
-func (c *Client) getFlightInfo(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return c.Client.GetFlightInfo(ctx, desc, opts...)
-}
-
-func (c *Client) getSchema(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return c.Client.GetSchema(ctx, desc, opts...)
-}
-
-// Close will close the underlying flight Client in use by this flightsql.Client
-func (c *Client) Close() error { return c.Client.Close() }
-
-// Deprecated: In 13.0.0. Use CancelFlightInfo instead if you can
-// assume that server requires 13.0.0 or later. Otherwise, you may
-// need to use CancelQuery and/or CancelFlightInfo.
-func (c *Client) CancelQuery(ctx context.Context, info *flight.FlightInfo, opts ...grpc.CallOption) (cancelResult CancelResult, err error) {
-	const actionType = CancelQueryActionType
-
-	var (
-		req       pb.ActionCancelQueryRequest
-		result    pb.ActionCancelQueryResult
-		action    pb.Action
-		stream    pb.FlightService_DoActionClient
-		cmdResult anypb.Any
-		res       *pb.Result
-	)
-
-	if req.Info, err = proto.Marshal(info); err != nil {
-		return
-	}
-
-	if action, err = packAction(actionType, &req); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	defer stream.CloseSend()
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.Body, &cmdResult); err != nil {
-		return
-	}
-
-	if err = cmdResult.UnmarshalTo(&result); err != nil {
-		return
-	}
-
-	cancelResult = result.GetResult()
-	return
-}
-
-func (c *Client) CancelFlightInfo(ctx context.Context, request *flight.CancelFlightInfoRequest, opts ...grpc.CallOption) (*flight.CancelFlightInfoResult, error) {
-	return c.Client.CancelFlightInfo(ctx, request, opts...)
-}
-
-func (c *Client) RenewFlightEndpoint(ctx context.Context, request *flight.RenewFlightEndpointRequest, opts ...grpc.CallOption) (*flight.FlightEndpoint, error) {
-	return c.Client.RenewFlightEndpoint(ctx, request, opts...)
-}
-
-func (c *Client) SetSessionOptions(ctx context.Context, request *flight.SetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.SetSessionOptionsResult, error) {
-	return c.Client.SetSessionOptions(ctx, request, opts...)
-}
-
-func (c *Client) GetSessionOptions(ctx context.Context, request *flight.GetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.GetSessionOptionsResult, error) {
-	return c.Client.GetSessionOptions(ctx, request, opts...)
-}
-
-func (c *Client) CloseSession(ctx context.Context, request *flight.CloseSessionRequest, opts ...grpc.CallOption) (*flight.CloseSessionResult, error) {
-	return c.Client.CloseSession(ctx, request, opts...)
-}
-
-func (c *Client) BeginTransaction(ctx context.Context, opts ...grpc.CallOption) (*Txn, error) {
-	request := &pb.ActionBeginTransactionRequest{}
-	action, err := packAction(BeginTransactionActionType, request)
-	if err != nil {
-		return nil, err
-	}
-
-	stream, err := c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	var txn pb.ActionBeginTransactionResult
-	if err = readResult(stream, &txn); err != nil {
-		return nil, err
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return nil, err
-	}
-
-	if len(txn.TransactionId) == 0 {
-		return nil, ErrBadServerTxn
-	}
-
-	return &Txn{c: c, txn: txn.TransactionId}, nil
-}
-
-// Savepoint is a handle for a server-side savepoint
-type Savepoint []byte
-
-func (sp Savepoint) IsValid() bool { return len(sp) != 0 }
-
-// Transaction is a handle for a server-side transaction
-type Transaction []byte
-
-func (tx Transaction) IsValid() bool { return len(tx) != 0 }
-
-var (
-	ErrInvalidTxn         = fmt.Errorf("%w: missing a valid transaction", arrow.ErrInvalid)
-	ErrInvalidSavepoint   = fmt.Errorf("%w: missing a valid savepoint", arrow.ErrInvalid)
-	ErrBadServerTxn       = fmt.Errorf("%w: server returned an empty transaction ID", arrow.ErrInvalid)
-	ErrBadServerSavepoint = fmt.Errorf("%w: server returned an empty savepoint ID", arrow.ErrInvalid)
-)
-
-type Txn struct {
-	c   *Client
-	txn Transaction
-}
-
-func (tx *Txn) ID() Transaction { return tx.txn }
-
-func (tx *Txn) Execute(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return flightInfoForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecutePoll(ctx context.Context, query string, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	// The server should encode the transaction into the retry descriptor
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return pollInfoForCommand(ctx, tx.c, cmd, retryDescriptor, opts...)
-}
-
-func (tx *Txn) ExecuteSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn}
-	return flightInfoForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecuteSubstraitPoll(ctx context.Context, plan SubstraitPlan, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	// The server should encode the transaction into the retry descriptor
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn,
-	}
-	return pollInfoForCommand(ctx, tx.c, cmd, retryDescriptor, opts...)
-}
-
-func (tx *Txn) GetExecuteSchema(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return schemaForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) GetExecuteSubstraitSchema(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn}
-	return schemaForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecuteUpdate(ctx context.Context, query string, opts ...grpc.CallOption) (n int64, err error) {
-	if !tx.txn.IsValid() {
-		return 0, ErrInvalidTxn
-	}
-
-	var (
-		cmd = &pb.CommandStatementUpdate{
-			Query:         query,
-			TransactionId: tx.txn,
-		}
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-	if desc, err = descForCommand(cmd); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (tx *Txn) ExecuteSubstraitUpdate(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (n int64, err error) {
-	if !tx.txn.IsValid() {
-		return 0, ErrInvalidTxn
-	}
-
-	var (
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn,
-	}
-
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (tx *Txn) Prepare(ctx context.Context, query string, opts ...grpc.CallOption) (prep *PreparedStatement, err error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	const actionType = CreatePreparedStatementActionType
-
-	var (
-		request = pb.ActionCreatePreparedStatementRequest{
-			Query:         query,
-			TransactionId: tx.txn,
-		}
-		action pb.Action
-		stream pb.FlightService_DoActionClient
-	)
-
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(tx.c, tx.c.Alloc, stream)
-}
-
-func (tx *Txn) PrepareSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (stmt *PreparedStatement, err error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	const actionType = CreatePreparedSubstraitPlanActionType
-
-	var (
-		request = pb.ActionCreatePreparedSubstraitPlanRequest{
-			TransactionId: tx.txn,
-			Plan: &pb.SubstraitPlan{
-				Plan:    plan.Plan,
-				Version: plan.Version,
-			},
-		}
-		action pb.Action
-		stream pb.FlightService_DoActionClient
-	)
-
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(tx.c, tx.c.Alloc, stream)
-}
-
-func (tx *Txn) Commit(ctx context.Context, opts ...grpc.CallOption) error {
-	if !tx.txn.IsValid() {
-		return ErrInvalidTxn
-	}
-
-	request := &pb.ActionEndTransactionRequest{
-		TransactionId: tx.txn,
-		Action:        EndTransactionCommit,
-	}
-
-	action, err := packAction(EndTransactionActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	tx.txn = nil
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) Rollback(ctx context.Context, opts ...grpc.CallOption) error {
-	if !tx.txn.IsValid() {
-		return ErrInvalidTxn
-	}
-
-	request := &pb.ActionEndTransactionRequest{
-		TransactionId: tx.txn,
-		Action:        EndTransactionRollback,
-	}
-
-	action, err := packAction(EndTransactionActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	tx.txn = nil
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) BeginSavepoint(ctx context.Context, name string, opts ...grpc.CallOption) (Savepoint, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	request := &pb.ActionBeginSavepointRequest{
-		TransactionId: tx.txn,
-		Name:          name,
-	}
-
-	action, err := packAction(BeginSavepointActionType, request)
-	if err != nil {
-		return nil, err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	var savepoint pb.ActionBeginSavepointResult
-	if err = readResult(stream, &savepoint); err != nil {
-		return nil, err
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return nil, err
-	}
-
-	if len(savepoint.SavepointId) == 0 {
-		return nil, ErrBadServerSavepoint
-	}
-
-	return Savepoint(savepoint.SavepointId), nil
-}
-
-func (tx *Txn) ReleaseSavepoint(ctx context.Context, sp Savepoint, opts ...grpc.CallOption) error {
-	if !sp.IsValid() {
-		return ErrInvalidSavepoint
-	}
-
-	request := &pb.ActionEndSavepointRequest{
-		SavepointId: sp,
-		Action:      EndSavepointRelease,
-	}
-
-	action, err := packAction(EndSavepointActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) RollbackSavepoint(ctx context.Context, sp Savepoint, opts ...grpc.CallOption) error {
-	if !sp.IsValid() {
-		return ErrInvalidSavepoint
-	}
-
-	request := &pb.ActionEndSavepointRequest{
-		SavepointId: sp,
-		Action:      EndSavepointRollback,
-	}
-
-	action, err := packAction(EndSavepointActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-	return flight.ReadUntilEOF(stream)
-}
-
-// PreparedStatement represents a constructed PreparedStatement on the server
-// and maintains a reference to the Client that created it along with the
-// prepared statement handle.
-//
-// If the server returned the Dataset Schema or Parameter Binding schemas
-// at creation, they will also be accessible from this object. Close
-// should be called when no longer needed.
-type PreparedStatement struct {
-	client        *Client
-	handle        []byte
-	datasetSchema *arrow.Schema
-	paramSchema   *arrow.Schema
-	paramBinding  arrow.Record
-	streamBinding array.RecordReader
-	closed        bool
-}
-
-// NewPreparedStatement creates a prepared statement object bound to the provided
-// client using the given handle. In general, it should be sufficient to use the
-// Prepare function a client and this wouldn't be needed. But this can be used
-// to propagate a prepared statement from one client to another if needed or if
-// proxying requests.
-func NewPreparedStatement(client *Client, handle []byte) *PreparedStatement {
-	return &PreparedStatement{client: client, handle: handle}
-}
-
-// Execute executes the prepared statement on the server and returns a FlightInfo
-// indicating where to retrieve the response. If SetParameters has been called
-// then the parameter bindings will be sent before execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) Execute(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-
-	desc, err = p.bindParameters(ctx, desc, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return p.client.getFlightInfo(ctx, desc, opts...)
-}
-
-// ExecutePut calls DoPut for the prepared statement on the server. If SetParameters
-// has been called then the parameter bindings will be sent before execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) ExecutePut(ctx context.Context, opts ...grpc.CallOption) error {
-	if p.closed {
-		return errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return err
-	}
-
-	_, err = p.bindParameters(ctx, desc, opts...)
-	if err != nil {
-		return err
-	}
-
-	return nil
-}
-
-// ExecutePoll executes the prepared statement on the server and returns a PollInfo
-// indicating the progress of execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) ExecutePoll(ctx context.Context, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc := retryDescriptor
-	var err error
-
-	if desc == nil {
-		desc, err = descForCommand(cmd)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	if retryDescriptor == nil {
-		desc, err = p.bindParameters(ctx, desc, opts...)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return p.client.Client.PollFlightInfo(ctx, desc, opts...)
-}
-
-// ExecuteUpdate executes the prepared statement update query on the server
-// and returns the number of rows affected. If SetParameters was called,
-// the parameter bindings will be sent with the request to execute.
-func (p *PreparedStatement) ExecuteUpdate(ctx context.Context, opts ...grpc.CallOption) (nrecords int64, err error) {
-	if p.closed {
-		return 0, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	var (
-		execCmd      = &pb.CommandPreparedStatementUpdate{PreparedStatementHandle: p.handle}
-		desc         *flight.FlightDescriptor
-		pstream      pb.FlightService_DoPutClient
-		wr           *flight.Writer
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	desc, err = descForCommand(execCmd)
-	if err != nil {
-		return
-	}
-
-	if pstream, err = p.client.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-	if p.hasBindParameters() {
-		wr, err = p.writeBindParametersToStream(pstream, desc)
-		if err != nil {
-			return
-		}
-	} else {
-		schema := arrow.NewSchema([]arrow.Field{}, nil)
-		wr = flight.NewRecordWriter(pstream, ipc.WithSchema(schema))
-		wr.SetFlightDescriptor(desc)
-		rec := array.NewRecord(schema, []arrow.Array{}, 0)
-		if err = wr.Write(rec); err != nil {
-			return
-		}
-	}
-
-	if err = wr.Close(); err != nil {
-		return
-	}
-	if err = pstream.CloseSend(); err != nil {
-		return
-	}
-	if res, err = pstream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (p *PreparedStatement) hasBindParameters() bool {
-	return (p.paramBinding != nil && p.paramBinding.NumRows() > 0) || (p.streamBinding != nil)
-}
-
-func (p *PreparedStatement) bindParameters(ctx context.Context, desc *pb.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightDescriptor, error) {
-	if p.hasBindParameters() {
-		pstream, err := p.client.Client.DoPut(ctx, opts...)
-		if err != nil {
-			return nil, err
-		}
-		wr, err := p.writeBindParametersToStream(pstream, desc)
-		if err != nil {
-			return nil, err
-		}
-		if err = wr.Close(); err != nil {
-			return nil, err
-		}
-		pstream.CloseSend()
-		if err = p.captureDoPutPreparedStatementHandle(pstream); err != nil {
-			return nil, err
-		}
-
-		cmd := pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-		desc, err = descForCommand(&cmd)
-		if err != nil {
-			return nil, err
-		}
-		return desc, nil
-	}
-	return desc, nil
-}
-
-// XXX: this does not capture the updated handle. Prefer bindParameters.
-func (p *PreparedStatement) writeBindParametersToStream(pstream pb.FlightService_DoPutClient, desc *pb.FlightDescriptor) (*flight.Writer, error) {
-	if p.paramBinding != nil {
-		wr := flight.NewRecordWriter(pstream, ipc.WithSchema(p.paramBinding.Schema()))
-		wr.SetFlightDescriptor(desc)
-		if err := wr.Write(p.paramBinding); err != nil {
-			return nil, err
-		}
-		return wr, nil
-	} else {
-		wr := flight.NewRecordWriter(pstream, ipc.WithSchema(p.streamBinding.Schema()))
-		wr.SetFlightDescriptor(desc)
-		for p.streamBinding.Next() {
-			if err := wr.Write(p.streamBinding.Record()); err != nil {
-				return nil, err
-			}
-		}
-		if err := p.streamBinding.Err(); err != nil {
-			return nil, err
-		}
-		return wr, nil
-	}
-}
-
-func (p *PreparedStatement) captureDoPutPreparedStatementHandle(pstream pb.FlightService_DoPutClient) error {
-	var (
-		result                  *pb.PutResult
-		preparedStatementResult pb.DoPutPreparedStatementResult
-		err                     error
-	)
-	if result, err = pstream.Recv(); err != nil && err != io.EOF {
-		return err
-	}
-	// skip if server does not provide a response (legacy server)
-	if result == nil {
-		return nil
-	}
-	if err = proto.Unmarshal(result.GetAppMetadata(), &preparedStatementResult); err != nil {
-		return err
-	}
-	handle := preparedStatementResult.GetPreparedStatementHandle()
-	if handle != nil {
-		p.handle = handle
-	}
-	return nil
-}
-
-// DatasetSchema may be nil if the server did not return it when creating the
-// Prepared Statement.
-func (p *PreparedStatement) DatasetSchema() *arrow.Schema { return p.datasetSchema }
-
-// ParameterSchema may be nil if the server did not return it when creating
-// the prepared statement.
-func (p *PreparedStatement) ParameterSchema() *arrow.Schema { return p.paramSchema }
-
-// The handle associated with this PreparedStatement
-func (p *PreparedStatement) Handle() []byte { return p.handle }
-
-// GetSchema re-requests the schema of the result set of the prepared
-// statement from the server. It should otherwise be identical to DatasetSchema.
-//
-// Will error if already closed.
-func (p *PreparedStatement) GetSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-
-	return p.client.getSchema(ctx, desc, opts...)
-}
-
-func (p *PreparedStatement) clearParameters() {
-	if p.paramBinding != nil {
-		p.paramBinding.Release()
-		p.paramBinding = nil
-	}
-	if p.streamBinding != nil {
-		p.streamBinding.Release()
-		p.streamBinding = nil
-	}
-}
-
-// SetParameters takes a record batch to send as the parameter bindings when
-// executing. It should match the schema from ParameterSchema.
-//
-// This will call Retain on the record to ensure it doesn't get released out
-// from under the statement. Release will be called on a previous binding
-// record or reader if it existed, and will be called upon calling Close on the
-// PreparedStatement.
-func (p *PreparedStatement) SetParameters(binding arrow.Record) {
-	p.clearParameters()
-	p.paramBinding = binding
-	if p.paramBinding != nil {
-		p.paramBinding.Retain()
-	}
-}
-
-// SetRecordReader takes a RecordReader to send as the parameter bindings when
-// executing. It should match the schema from ParameterSchema.
-//
-// This will call Retain on the reader to ensure it doesn't get released out
-// from under the statement. Release will be called on a previous binding
-// record or reader if it existed, and will be called upon calling Close on the
-// PreparedStatement.
-func (p *PreparedStatement) SetRecordReader(binding array.RecordReader) {
-	p.clearParameters()
-	binding.Retain()
-	p.streamBinding = binding
-	p.streamBinding.Retain()
-}
-
-// Close calls release on any parameter binding record and sends
-// a ClosePreparedStatement action to the server. After calling
-// Close, the PreparedStatement should not be used again.
-func (p *PreparedStatement) Close(ctx context.Context, opts ...grpc.CallOption) error {
-	if p.closed {
-		return errors.New("arrow/flightsql: already closed")
-	}
-
-	p.clearParameters()
-
-	const actionType = ClosePreparedStatementActionType
-	var (
-		cmd     anypb.Any
-		request pb.ActionClosePreparedStatementRequest
-	)
-
-	request.PreparedStatementHandle = p.handle
-	if err := cmd.MarshalFrom(&request); err != nil {
-		return err
-	}
-
-	body, err := proto.Marshal(&cmd)
-	if err != nil {
-		return err
-	}
-
-	action := &flight.Action{Type: actionType, Body: body}
-	stream, err := p.client.Client.DoAction(ctx, action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return err
-	}
-
-	p.closed = true
-	return flight.ReadUntilEOF(stream)
-}
diff --git a/go/arrow/flight/flightsql/client_test.go b/go/arrow/flight/flightsql/client_test.go
deleted file mode 100644
index d060161f94f0f..0000000000000
--- a/go/arrow/flight/flightsql/client_test.go
+++ /dev/null
@@ -1,741 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql_test
-
-import (
-	"context"
-	"io"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/mock"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-type mockGrpcClientStream struct {
-	mock.Mock
-}
-
-func (m *mockGrpcClientStream) Header() (metadata.MD, error)  { panic("unimplemented") }
-func (m *mockGrpcClientStream) Trailer() metadata.MD          { panic("unimplemented") }
-func (m *mockGrpcClientStream) CloseSend() error              { return m.Called().Error(0) }
-func (m *mockGrpcClientStream) Context() context.Context      { return context.TODO() }
-func (m *mockGrpcClientStream) SendMsg(msg interface{}) error { return m.Called(msg).Error(0) }
-func (m *mockGrpcClientStream) RecvMsg(msg interface{}) error { return m.Called(msg).Error(0) }
-
-type FlightServiceClientMock struct {
-	mock.Mock
-}
-
-func (m *FlightServiceClientMock) Authenticate(_ context.Context, opts ...grpc.CallOption) error {
-	return m.Called(opts).Error(0)
-}
-
-func (m *FlightServiceClientMock) AuthenticateBasicToken(_ context.Context, user, pass string, opts ...grpc.CallOption) (context.Context, error) {
-	args := m.Called(user, pass, opts)
-	return args.Get(0).(context.Context), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) CancelFlightInfo(ctx context.Context, request *flight.CancelFlightInfoRequest, opts ...grpc.CallOption) (*flight.CancelFlightInfoResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.CancelFlightInfoResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) RenewFlightEndpoint(ctx context.Context, request *flight.RenewFlightEndpointRequest, opts ...grpc.CallOption) (*flight.FlightEndpoint, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.FlightEndpoint), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) SetSessionOptions(ctx context.Context, request *flight.SetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.SetSessionOptionsResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.SetSessionOptionsResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) GetSessionOptions(ctx context.Context, request *flight.GetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.GetSessionOptionsResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.GetSessionOptionsResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) CloseSession(ctx context.Context, request *flight.CloseSessionRequest, opts ...grpc.CallOption) (*flight.CloseSessionResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.CloseSessionResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) Close() error {
-	return m.Called().Error(0)
-}
-
-func (m *FlightServiceClientMock) Handshake(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_HandshakeClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) ListFlights(ctx context.Context, in *flight.Criteria, opts ...grpc.CallOption) (flight.FlightService_ListFlightsClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) GetFlightInfo(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	args := m.Called(in.Type, in.Cmd, opts)
-	return args.Get(0).(*flight.FlightInfo), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) PollFlightInfo(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	args := m.Called(in.Type, in.Cmd, opts)
-	return args.Get(0).(*flight.PollInfo), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) GetSchema(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (flight.FlightService_DoGetClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoPut(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoPutClient, error) {
-	args := m.Called(opts)
-	return args.Get(0).(flight.FlightService_DoPutClient), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) DoExchange(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoExchangeClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoAction(ctx context.Context, in *flight.Action, opts ...grpc.CallOption) (flight.FlightService_DoActionClient, error) {
-	args := m.Called(in.Type, in.Body, opts)
-	return args.Get(0).(flight.FlightService_DoActionClient), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) ListActions(ctx context.Context, in *flight.Empty, opts ...grpc.CallOption) (flight.FlightService_ListActionsClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-type FlightSqlClientSuite struct {
-	suite.Suite
-
-	mockClient FlightServiceClientMock
-	callOpts   []grpc.CallOption
-	sqlClient  flightsql.Client
-}
-
-func getDesc(cmd proto.Message) *flight.FlightDescriptor {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  data,
-	}
-}
-
-func getAction(cmd proto.Message) *flight.Action {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.Action{Body: data}
-}
-
-func (s *FlightSqlClientSuite) SetupTest() {
-	s.mockClient = FlightServiceClientMock{}
-	s.sqlClient.Client = &s.mockClient
-	s.callOpts = []grpc.CallOption{grpc.EmptyCallOption{}}
-}
-
-func (s *FlightSqlClientSuite) TearDownTest() {
-	s.mockClient.AssertExpectations(s.T())
-}
-
-var emptyFlightInfo flight.FlightInfo
-
-func (s *FlightSqlClientSuite) TestGetCatalogs() {
-	var cmd pb.CommandGetCatalogs
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetCatalogs(context.Background(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetDBSchemas() {
-	var (
-		schemaFilterPattern = "schema_filter_pattern"
-		catalog             = "catalog"
-	)
-
-	cmd := &pb.CommandGetDbSchemas{
-		Catalog:               &catalog,
-		DbSchemaFilterPattern: &schemaFilterPattern,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetDBSchemas(context.Background(), (*flightsql.GetDBSchemasOpts)(cmd), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTables() {
-	var (
-		catalog                = "catalog"
-		schemaFilterPattern    = "schema_filter_pattern"
-		tableNameFilterPattern = "table_name_filter_pattern"
-		includeSchema          = true
-		tableTypes             = []string{"type1", "type2"}
-	)
-
-	cmd := &pb.CommandGetTables{
-		Catalog:                &catalog,
-		DbSchemaFilterPattern:  &schemaFilterPattern,
-		TableNameFilterPattern: &tableNameFilterPattern,
-		IncludeSchema:          includeSchema,
-		TableTypes:             tableTypes,
-	}
-	desc := getDesc(cmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetTables(context.Background(), (*flightsql.GetTablesOpts)(cmd), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTableTypes() {
-	var cmd pb.CommandGetTableTypes
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetTableTypes(context.Background(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTypeInfo() {
-	var cmd pb.CommandGetXdbcTypeInfo
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetXdbcTypeInfo(context.Background(), nil, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetExported() {
-	var (
-		catalog = "catalog"
-		schema  = "schema"
-		table   = "table"
-	)
-
-	cmd := &pb.CommandGetExportedKeys{
-		Catalog:  &catalog,
-		DbSchema: &schema,
-		Table:    table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetExportedKeys(context.Background(), flightsql.TableRef{&catalog, &schema, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetImported() {
-	var (
-		schema = "schema"
-		table  = "table"
-	)
-
-	cmd := &pb.CommandGetImportedKeys{
-		DbSchema: &schema,
-		Table:    table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetImportedKeys(context.Background(), flightsql.TableRef{nil, &schema, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetPrimary() {
-	var (
-		catalog = "catalog"
-		table   = "table"
-	)
-
-	cmd := &pb.CommandGetPrimaryKeys{
-		Catalog: &catalog,
-		Table:   table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetPrimaryKeys(context.Background(), flightsql.TableRef{&catalog, nil, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetCrossReference() {
-	var (
-		pkCatalog = "pk_catalog"
-		pkSchema  = "pk_schema"
-		pkTable   = "pk_table"
-		fkCatalog = "fk_catalog"
-		fkSchema  = "fk_schema"
-		fkTable   = "fk_table"
-	)
-
-	cmd := &pb.CommandGetCrossReference{
-		PkCatalog:  &pkCatalog,
-		PkDbSchema: &pkSchema,
-		PkTable:    pkTable,
-		FkCatalog:  &fkCatalog,
-		FkDbSchema: &fkSchema,
-		FkTable:    fkTable,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetCrossReference(context.Background(),
-		flightsql.TableRef{&pkCatalog, &pkSchema, pkTable},
-		flightsql.TableRef{&fkCatalog, &fkSchema, fkTable}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestExecute() {
-	var query = "query"
-
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-type mockDoActionClient struct {
-	mockGrpcClientStream
-}
-
-func (m *mockDoActionClient) Recv() (*pb.Result, error) {
-	args := m.Called()
-	return args.Get(0).(*pb.Result), args.Error(1)
-}
-
-type mockDoPutClient struct {
-	mockGrpcClientStream
-}
-
-func (m *mockDoPutClient) Send(fd *flight.FlightData) error {
-	return m.Called(fd).Error(0)
-}
-
-func (m *mockDoPutClient) Recv() (*pb.PutResult, error) {
-	args := m.Called()
-	return args.Get(0).(*pb.PutResult), args.Error(1)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecute() {
-	const query = "query"
-
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	result := &pb.ActionCreatePreparedStatementResult{PreparedStatementHandle: []byte(query)}
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF).Once()
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF).Once()
-	createRsp.On("CloseSend").Return(nil).Twice()
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).
-		Return(createRsp, nil).Twice()
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).
-		Return(closeRsp, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil).Twice()
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-
-	prepared, err = s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-
-	secondPrepare := flightsql.NewPreparedStatement(&s.sqlClient, prepared.Handle())
-	s.Equal(string(secondPrepare.Handle()), "query")
-	defer secondPrepare.Close(context.TODO(), s.callOpts...)
-
-	info, err = secondPrepare.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecuteParamBinding() {
-	const query = "query"
-	const handle = "handle"
-	const updatedHandle = "updated handle"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(updatedHandle)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	actionResult := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(handle),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	actionResult.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(actionResult)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	expectedDesc := getDesc(&pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(handle)})
-
-	// mocked DoPut result
-	doPutPreparedStatementResult := &pb.DoPutPreparedStatementResult{PreparedStatementHandle: []byte(updatedHandle)}
-	resdata, _ := proto.Marshal(doPutPreparedStatementResult)
-	putResult := &pb.PutResult{AppMetadata: resdata}
-
-	// mocked client stream for DoPut
-	mockedPut := &mockDoPutClient{}
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(expectedDesc, fd.FlightDescriptor)
-	})).Return(nil).Twice() // first sends schema message, second sends data
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(putResult, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(updatedHandle)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), handle)
-
-	paramSchema := prepared.ParameterSchema()
-	rec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"id": 1}]`))
-	s.NoError(err)
-	defer rec.Release()
-
-	s.Equal(string(prepared.Handle()), handle)
-
-	prepared.SetParameters(rec)
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-	s.Equal(string(prepared.Handle()), updatedHandle)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecuteReaderBinding() {
-	const query = "query"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	expectedDesc := getDesc(&pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)})
-
-	// mocked DoPut result
-	doPutPreparedStatementResult := &pb.DoPutPreparedStatementResult{PreparedStatementHandle: []byte(query)}
-	resdata, _ := proto.Marshal(doPutPreparedStatementResult)
-	putResult := &pb.PutResult{AppMetadata: resdata}
-
-	// mocked client stream for DoPut
-	mockedPut := &mockDoPutClient{}
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-	// 1x schema
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(expectedDesc, fd.FlightDescriptor)
-	})).Return(nil)
-	// 3x bind parameters
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return fd.FlightDescriptor == nil
-	})).Return(nil).Times(3)
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(putResult, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	paramSchema := prepared.ParameterSchema()
-	rec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"id": 1}]`))
-	s.NoError(err)
-	defer rec.Release()
-
-	rdr, err := array.NewRecordReader(rec.Schema(), []arrow.Record{rec, rec, rec})
-	s.NoError(err)
-	prepared.SetRecordReader(rdr)
-
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementClose() {
-	// Setup
-	const query = "query"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	// Mocked calls
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-
-	err = prepared.Close(context.TODO(), s.callOpts...)
-	s.NoError(err)
-
-	s.Equal(string(prepared.Handle()), "query")
-}
-
-func (s *FlightSqlClientSuite) TestExecuteUpdate() {
-	const query = "query"
-
-	cmd := &pb.CommandStatementUpdate{Query: query}
-	desc := getDesc(cmd)
-	result := &pb.DoPutUpdateResult{RecordCount: 100}
-	resdata, _ := proto.Marshal(result)
-
-	mockedPut := &mockDoPutClient{}
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(desc, fd.FlightDescriptor)
-	})).Return(nil)
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(&pb.PutResult{AppMetadata: resdata}, nil)
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-
-	num, err := s.sqlClient.ExecuteUpdate(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	s.EqualValues(100, num)
-}
-
-func (s *FlightSqlClientSuite) TestGetSqlInfo() {
-	sqlInfo := []flightsql.SqlInfo{
-		flightsql.SqlInfoFlightSqlServerName,
-		flightsql.SqlInfoFlightSqlServerVersion,
-		flightsql.SqlInfoFlightSqlServerArrowVersion,
-	}
-
-	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(sqlInfo))}
-	for i, info := range sqlInfo {
-		cmd.Info[i] = uint32(info)
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetSqlInfo(context.TODO(), sqlInfo, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestCancelFlightInfo() {
-	query := "SELECT * FROM data"
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-	request := flight.CancelFlightInfoRequest{Info: info}
-	mockedCancelResult := flight.CancelFlightInfoResult{
-		Status: flight.CancelStatusCancelled,
-	}
-	s.mockClient.On("CancelFlightInfo", &request, s.callOpts).Return(&mockedCancelResult, nil)
-	cancelResult, err := s.sqlClient.CancelFlightInfo(context.TODO(), &request, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedCancelResult, cancelResult)
-}
-
-func (s *FlightSqlClientSuite) TestRenewFlightEndpoint() {
-	query := "SELECT * FROM data"
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-	var mockedEndpoint flight.FlightEndpoint
-	mockedInfo := flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{&mockedEndpoint},
-	}
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&mockedInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedInfo, info)
-	request := flight.RenewFlightEndpointRequest{Endpoint: info.Endpoint[0]}
-	var mockedRenewedEndpoint flight.FlightEndpoint
-	s.mockClient.On("RenewFlightEndpoint", &request, s.callOpts).Return(&mockedRenewedEndpoint, nil)
-	renewedEndpoint, err := s.sqlClient.RenewFlightEndpoint(context.TODO(), &request, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedRenewedEndpoint, renewedEndpoint)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementLoadFromResult() {
-	const query = "query"
-
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-
-	parameterSchemaResult := arrow.NewSchema([]arrow.Field{{Name: "p_id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(parameterSchemaResult, memory.DefaultAllocator)
-	datasetSchemaResult := arrow.NewSchema([]arrow.Field{{Name: "ds_id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.DatasetSchema = flight.SerializeSchema(datasetSchemaResult, memory.DefaultAllocator)
-
-	prepared, err := s.sqlClient.LoadPreparedStatementFromResult(result)
-	s.NoError(err)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	paramSchema := prepared.ParameterSchema()
-	paramRec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"p_id": 1}]`))
-	s.NoError(err)
-	defer paramRec.Release()
-
-	datasetSchema := prepared.DatasetSchema()
-	datasetRec, _, err := array.RecordFromJSON(memory.DefaultAllocator, datasetSchema, strings.NewReader(`[{"ds_id": 1}]`))
-	s.NoError(err)
-	defer datasetRec.Release()
-
-	s.Equal(string(prepared.Handle()), "query")
-}
-
-func TestFlightSqlClient(t *testing.T) {
-	suite.Run(t, new(FlightSqlClientSuite))
-}
diff --git a/go/arrow/flight/flightsql/column_metadata.go b/go/arrow/flight/flightsql/column_metadata.go
deleted file mode 100644
index 60e48b5e0f5d4..0000000000000
--- a/go/arrow/flight/flightsql/column_metadata.go
+++ /dev/null
@@ -1,217 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-const (
-	boolTrueStr  = "1"
-	boolFalseStr = "0"
-)
-
-func boolToStr(v bool) string {
-	if v {
-		return boolTrueStr
-	}
-	return boolFalseStr
-}
-
-func strToBool(v string) bool {
-	return v == boolTrueStr
-}
-
-// Metadata Key Constants
-const (
-	CatalogNameKey     = "ARROW:FLIGHT:SQL:CATALOG_NAME"
-	SchemaNameKey      = "ARROW:FLIGHT:SQL:SCHEMA_NAME"
-	TableNameKey       = "ARROW:FLIGHT:SQL:TABLE_NAME"
-	TypeNameKey        = "ARROW:FLIGHT:SQL:TYPE_NAME"
-	PrecisionKey       = "ARROW:FLIGHT:SQL:PRECISION"
-	ScaleKey           = "ARROW:FLIGHT:SQL:SCALE"
-	IsAutoIncrementKey = "ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT"
-	IsCaseSensitiveKey = "ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE"
-	IsReadOnlyKey      = "ARROW:FLIGHT:SQL:IS_READ_ONLY"
-	IsSearchableKey    = "ARROW:FLIGHT:SQL:IS_SEARCHABLE"
-)
-
-// ColumnMetadata is a helper object for managing and querying the
-// standard SQL Column metadata using the expected Metadata Keys.
-// It can be created by just Wrapping an existing *arrow.Metadata.
-//
-// Each of the methods return a value and a boolean indicating if it
-// was set in the metadata or not.
-type ColumnMetadata struct {
-	Data *arrow.Metadata
-}
-
-func (c *ColumnMetadata) findStrVal(key string) (string, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return "", false
-	}
-	return c.Data.Values()[idx], true
-}
-
-func (c *ColumnMetadata) findBoolVal(key string) (bool, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return false, false
-	}
-	return strToBool(c.Data.Values()[idx]), true
-}
-
-func (c *ColumnMetadata) findInt32Val(key string) (int32, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return 0, false
-	}
-	v, err := strconv.ParseInt(c.Data.Values()[idx], 10, 32)
-	if err != nil {
-		return 0, false
-	}
-	return int32(v), true
-}
-
-func (c *ColumnMetadata) CatalogName() (string, bool) {
-	return c.findStrVal(CatalogNameKey)
-}
-
-func (c *ColumnMetadata) SchemaName() (string, bool) {
-	return c.findStrVal(SchemaNameKey)
-}
-
-func (c *ColumnMetadata) TableName() (string, bool) {
-	return c.findStrVal(TableNameKey)
-}
-
-func (c *ColumnMetadata) TypeName() (string, bool) {
-	return c.findStrVal(TypeNameKey)
-}
-
-func (c *ColumnMetadata) Precision() (int32, bool) {
-	return c.findInt32Val(PrecisionKey)
-}
-
-func (c *ColumnMetadata) Scale() (int32, bool) {
-	return c.findInt32Val(ScaleKey)
-}
-
-func (c *ColumnMetadata) IsAutoIncrement() (bool, bool) {
-	return c.findBoolVal(IsAutoIncrementKey)
-}
-
-func (c *ColumnMetadata) IsCaseSensitive() (bool, bool) {
-	return c.findBoolVal(IsCaseSensitiveKey)
-}
-
-func (c *ColumnMetadata) IsReadOnly() (bool, bool) {
-	return c.findBoolVal(IsReadOnlyKey)
-}
-
-func (c *ColumnMetadata) IsSearchable() (bool, bool) {
-	return c.findBoolVal(IsSearchableKey)
-}
-
-// ColumnMetadataBuilder is a convenience builder for constructing
-// sql column metadata using the expected standard metadata keys.
-// All methods return the builder itself so it can be chained
-// to easily construct a final metadata object.
-type ColumnMetadataBuilder struct {
-	keys, vals []string
-}
-
-func NewColumnMetadataBuilder() *ColumnMetadataBuilder {
-	return &ColumnMetadataBuilder{make([]string, 0), make([]string, 0)}
-}
-
-func (c *ColumnMetadataBuilder) Clear() {
-	c.keys = c.keys[:0]
-	c.vals = c.vals[:0]
-}
-
-func (c *ColumnMetadataBuilder) Build() ColumnMetadata {
-	md := c.Metadata()
-	return ColumnMetadata{&md}
-}
-
-func (c *ColumnMetadataBuilder) Metadata() arrow.Metadata {
-	return arrow.NewMetadata(c.keys, c.vals)
-}
-
-func (c *ColumnMetadataBuilder) CatalogName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, CatalogNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) SchemaName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, SchemaNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) TableName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, TableNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) TypeName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, TypeNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) Precision(prec int32) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, PrecisionKey)
-	c.vals = append(c.vals, strconv.Itoa(int(prec)))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) Scale(prec int32) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, ScaleKey)
-	c.vals = append(c.vals, strconv.Itoa(int(prec)))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsAutoIncrement(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsAutoIncrementKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsCaseSensitive(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsCaseSensitiveKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsReadOnly(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsReadOnlyKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsSearchable(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsSearchableKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
diff --git a/go/arrow/flight/flightsql/driver/README.md b/go/arrow/flight/flightsql/driver/README.md
deleted file mode 100644
index 802d050042c66..0000000000000
--- a/go/arrow/flight/flightsql/driver/README.md
+++ /dev/null
@@ -1,226 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-# FlightSQL driver
-
-A FlightSQL-Driver for Go's [database/sql](https://golang.org/pkg/database/sql/)
-package. This driver is a lightweight wrapper around the FlightSQL client in
-pure Go. It provides all advantages of a `database/sql` driver like automatic
-connection pooling, transactions combined with ease of use (see (#usage)).
-
----------------------------------------
-
-* [Prerequisites](#prerequisites)
-* [Usage](#usage)
-* [Data Source Name (DSN)](#data-source-name-dsn)
-* [Driver config usage](#driver-config-usage)
-* [TLS setup](#tls-setup)
-
----------------------------------------
-
-## Prerequisites
-
-* Go 1.17+
-* Installation via `go get -u github.com/apache/arrow/go/v18/arrow/flight/flightsql`
-* Backend speaking FlightSQL
-
----------------------------------------
-
-## Usage
-
-_Go FlightQL Driver_ is an implementation of Go's `database/sql/driver`
-interface to use the [`database/sql`](https://golang.org/pkg/database/sql/)
-framework. The driver is registered as `flightsql` and configured using a
-[data-source name (DSN)](#data-source-name-dsn).
-
-A basic example using a SQLite backend looks like this
-
-```go
-import (
-    "database/sql"
-    "time"
-
-    _ "github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-// Open the connection to an SQLite backend
-db, err := sql.Open("flightsql", "flightsql://localhost:12345?timeout=5s")
-if err != nil {
-    panic(err)
-}
-// Make sure we close the connection to the database
-defer db.Close()
-
-// Use the connection e.g. for querying
-rows, err := db.Query("SELECT * FROM mytable")
-if err != nil {
-    panic(err)
-}
-// ...
-```
-
-## Data Source Name (DSN)
-
-A Data Source Name has the following format:
-
-```text
-flightsql://[user[:password]@]<address>[:port][?param1=value1&...&paramN=valueN]
-```
-
-The data-source-name (DSN) requires the `address` of the backend with an
-optional port setting. The `user` and `password` parameters are passed to the
-backend as GRPC Basic-Auth headers. If your backend requires a token based
-authentication, please use a `token` parameter (see
-[common parameters](#common-parameters) below).
-
-**Please note**: All parameters are case-sensitive!
-
-Alternatively to specifying the DSN directly you can use the `DriverConfig`
-structure to generate the DSN string. See the
-[Driver config usage section](#driver-config-usage) for details.
-
-### Common parameters
-
-The following common parameters exist
-
-#### `token`
-
-The `token` parameter can be used to specify the token for token-based
-authentication. The value is passed on to the backend as a GRPC Bearer-Auth
-header.
-
-#### `timeout`
-
-The `timeout` parameter can be set using a duration string e.g. `timeout=5s`
-to limit the maximum time an operation can take. This prevents calls that wait
-forever, e.g. if the backend is down or a query is taking very long. When
-not set, the driver will use an _infinite_ timeout.
-
-#### `tls`
-
-The `tls` parameter allows to enable and customize Transport-Layer-Security
-settings. There are some special values for the parameters:
-
-* `disabled` or `false` will disable TLS for this server connection. In this
-  case all other settings are ignored.
-* `enabled` or `true` will force TLS for this server connection. In this case
-  the system settings for trusted CAs etc will be used.
-* `skip-verify` will enable TLS for this server connection but will not verify
-  the server certificate. **This is a security risk and should not be used!**
-
-Any other value will be interpreted as the name of a custom configuration. Those
-configurations must be registered either by
-[creating the DSN from configuration](#driver-config-usage) or by calling
-`RegisterTLSConfig()` (see [TLS setup](#tls-setup) for details).
-
-## Driver config usage
-
-Alternatively to specifying the DSN directly you can fill the `DriverConfig`
-structure and generate the DSN out of this. Here is some example
-
-```golang
-package main
-
-import (
-    "database/sql"
-    "log"
-    "time"
-
-    "github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-func main() {
-    config := flightsql.DriverConfig{
-        Address: "localhost:12345",
-        Token:   "your token",
-        Timeout: 10 * time.Second,
-        Params: map[string]string{
-            "my-custom-parameter": "foobar",
-        },
-    }
-    db, err := sql.Open("flightsql", config.DSN())
-    if err != nil {
-        log.Fatalf("open failed: %v", err)
-    }
-    defer db.Close()
-
-    ...
-}
-```
-
-## TLS setup
-
-By specifying the [`tls` parameter](#tls) you can enable
-Transport-Layer-Security. Using `tls=enabled` the system settings are used for
-verifying the server's certificate. Custom TLS configurations, e.g. when using
-self-signed certificates, are referenced by a user-selected name. The underlying
-TLS configuration needs to be registered (using the same name) in two ways.
-
-### TLS setup using `DriverConfig`
-
-The first way is to create a `DriverConfig` with the `TLSConfig` field set to
-the custom config and `TLSConfigName` set to the chosen name. For example
-
-```golang
-    ...
-
-    config := flightsql.DriverConfig{
-        Address: "localhost:12345",
-        TLSEnabled:    true,
-        TLSConfigName: "myconfig",
-        TLSConfig: &tls.Config{
-            MinVersion: tls.VersionTLS12,
-        },
-    }
-    dsn := config.DSN()
-
-    ...
-```
-
-will enable TLS forcing the minimum TLS version to 1.2. This custom config will
-be registered with the name `myconfig` and the resulting DSN reads
-
-```text
-flightsql://localhost:12345?tls=myconfig`
-```
-
-If the `TLSConfigName` is omitted a random unique name (UUID) is generated and
-referenced in the DSN. This prevents errors from using an already registered
-name leading to errors.
-
-### TLS setup using manual registration
-
-The second alternative is the manual registration of the custom TLS
-configuration. In this case you need to call `RegisterTLSConfig()` in your code
-
-```golang
-    myconfig := &tls.Config{MinVersion: tls.VersionTLS12}
-    if err := flightsql.RegisterTLSConfig("myconfig", myconfig); err != nil {
-        ...
-    }
-    dsn := "flightsql://localhost:12345?tls=myconfig"
-
-    ...
-```
-
-This will register the custom configuration, constraining the minimum TLS
-version, as `myconfig` and then references the registered configuration by
-name in the DSN. You can reuse the same TLS configuration by registering once
-and then reference in multiple DSNs. Registering multiple configurations with
-the same name will throw an error to prevent unintended side-effects due to the
-driver-global registry.
diff --git a/go/arrow/flight/flightsql/driver/config.go b/go/arrow/flight/flightsql/driver/config.go
deleted file mode 100644
index 9f1d56a31d582..0000000000000
--- a/go/arrow/flight/flightsql/driver/config.go
+++ /dev/null
@@ -1,209 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"crypto/tls"
-	"fmt"
-	"net/url"
-	"sync"
-	"time"
-
-	"github.com/google/uuid"
-)
-
-// TLS configuration registry
-var (
-	tlsConfigRegistry = map[string]*tls.Config{
-		"skip-verify": {InsecureSkipVerify: true},
-	}
-	tlsRegistryMutex sync.Mutex
-)
-
-func RegisterTLSConfig(name string, cfg *tls.Config) error {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	// Prevent name collisions
-	if _, found := tlsConfigRegistry[name]; found {
-		return ErrRegistryEntryExists
-	}
-	tlsConfigRegistry[name] = cfg
-
-	return nil
-}
-
-func UnregisterTLSConfig(name string) error {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	if _, found := tlsConfigRegistry[name]; !found {
-		return ErrRegistryNoEntry
-	}
-
-	delete(tlsConfigRegistry, name)
-	return nil
-}
-
-func GetTLSConfig(name string) (*tls.Config, bool) {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	cfg, found := tlsConfigRegistry[name]
-	return cfg, found
-}
-
-type DriverConfig struct {
-	Address  string
-	Username string
-	Password string
-	Token    string
-	Timeout  time.Duration
-	Params   map[string]string
-
-	TLSEnabled    bool
-	TLSConfigName string
-	TLSConfig     *tls.Config
-}
-
-func NewDriverConfigFromDSN(dsn string) (*DriverConfig, error) {
-	u, err := url.Parse(dsn)
-	if err != nil {
-		return nil, fmt.Errorf("invalid URL: %w", err)
-	}
-
-	// Sanity checks on the given connection string
-	if u.Scheme != "flightsql" {
-		return nil, fmt.Errorf("invalid scheme %q", u.Scheme)
-	}
-	if u.Path != "" {
-		return nil, fmt.Errorf("unexpected path %q", u.Path)
-	}
-
-	// Extract the settings
-	var username, password string
-	if u.User != nil {
-		username = u.User.Username()
-		if v, set := u.User.Password(); set {
-			password = v
-		}
-	}
-
-	config := &DriverConfig{
-		Address:  u.Host,
-		Username: username,
-		Password: password,
-		Params:   make(map[string]string),
-	}
-
-	// Determine the parameters
-	for key, values := range u.Query() {
-		// We only support single instances
-		if len(values) > 1 {
-			return nil, fmt.Errorf("too many values for %q", key)
-		}
-		var v string
-		if len(values) > 0 {
-			v = values[0]
-		}
-
-		switch key {
-		case "token":
-			config.Token = v
-		case "timeout":
-			config.Timeout, err = time.ParseDuration(v)
-			if err != nil {
-				return nil, err
-			}
-		case "tls":
-			switch v {
-			case "true", "enabled":
-				config.TLSEnabled = true
-			case "false", "disabled":
-				config.TLSEnabled = false
-			default:
-				config.TLSEnabled = true
-				config.TLSConfigName = v
-				cfg, found := GetTLSConfig(config.TLSConfigName)
-				if !found {
-					return nil, fmt.Errorf("%q TLS %w", config.TLSConfigName, ErrRegistryNoEntry)
-				}
-				config.TLSConfig = cfg
-			}
-		default:
-			config.Params[key] = v
-		}
-	}
-
-	return config, nil
-}
-
-func (config *DriverConfig) DSN() string {
-	u := url.URL{
-		Scheme: "flightsql",
-		Host:   config.Address,
-	}
-	if config.Username != "" {
-		if config.Password == "" {
-			u.User = url.User(config.Username)
-		} else {
-			u.User = url.UserPassword(config.Username, config.Password)
-		}
-	}
-
-	// Set the parameters
-	values := url.Values{}
-	if config.Token != "" {
-		values.Add("token", config.Token)
-	}
-	if config.Timeout > 0 {
-		values.Add("timeout", config.Timeout.String())
-	}
-	if config.TLSEnabled {
-		switch config.TLSConfigName {
-		case "skip-verify":
-			values.Add("tls", "skip-verify")
-		case "":
-			// Use system defaults if no config is given
-			if config.TLSConfig == nil {
-				values.Add("tls", "enabled")
-				break
-			}
-			// We got a custom TLS configuration but no name, create a unique one
-			config.TLSConfigName = uuid.NewString()
-			fallthrough
-		default:
-			values.Add("tls", config.TLSConfigName)
-			if config.TLSConfig != nil {
-				// Ignore the returned error as we do not care if the config
-				// was registered before. If this fails and the config is not
-				// yet registered, the driver will error out when parsing the
-				// DSN.
-				_ = RegisterTLSConfig(config.TLSConfigName, config.TLSConfig)
-			}
-		}
-	}
-	for k, v := range config.Params {
-		values.Add(k, v)
-	}
-
-	// Check if we do have parameters at all and set them
-	if len(values) > 0 {
-		u.RawQuery = values.Encode()
-	}
-
-	return u.String()
-}
diff --git a/go/arrow/flight/flightsql/driver/config_test.go b/go/arrow/flight/flightsql/driver/config_test.go
deleted file mode 100644
index d74f9d84d0f1e..0000000000000
--- a/go/arrow/flight/flightsql/driver/config_test.go
+++ /dev/null
@@ -1,427 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver_test
-
-import (
-	"crypto/tls"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/require"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/driver"
-)
-
-func TestConfigTLSRegistry(t *testing.T) {
-	const cfgname = "bananarama"
-
-	// Check if the 'skip-verify' entry exists
-	expected := &tls.Config{InsecureSkipVerify: true}
-	actual, found := driver.GetTLSConfig("skip-verify")
-	require.True(t, found)
-	require.EqualValues(t, expected, actual)
-
-	// Make sure the testing entry does not exist
-	_, found = driver.GetTLSConfig(cfgname)
-	require.False(t, found)
-
-	// Register a new expected config and check it contains the right config
-	expected = &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-	require.NoError(t, driver.RegisterTLSConfig(cfgname, expected))
-	actual, found = driver.GetTLSConfig(cfgname)
-	require.True(t, found)
-	require.EqualValues(t, expected, actual)
-
-	// Registering the config again will fail
-	require.ErrorIs(t, driver.RegisterTLSConfig(cfgname, expected), driver.ErrRegistryEntryExists)
-
-	// Unregister the config
-	require.NoError(t, driver.UnregisterTLSConfig(cfgname))
-	_, found = driver.GetTLSConfig(cfgname)
-	require.False(t, found)
-
-	// Unregistering a non-existing config fails
-	require.ErrorIs(t, driver.UnregisterTLSConfig(cfgname), driver.ErrRegistryNoEntry)
-}
-
-func TestConfigFromDSNInvalid(t *testing.T) {
-	testcases := []struct {
-		name     string
-		dsn      string
-		expected string
-	}{
-		{
-			name:     "empty config",
-			expected: "invalid scheme",
-		},
-		{
-			name:     "invalid url",
-			dsn:      "flightsql://my host",
-			expected: "invalid URL",
-		},
-		{
-			name:     "invalid path",
-			dsn:      "flightsql://127.0.0.1/someplace",
-			expected: "unexpected path",
-		},
-		{
-			name:     "invalid timeout",
-			dsn:      "flightsql://127.0.0.1?timeout=2",
-			expected: "missing unit in duration",
-		},
-		{
-			name:     "multiple parameters (timeout)",
-			dsn:      "flightsql://127.0.0.1:12345?timeout=123s&timeout=4s",
-			expected: "too many values",
-		},
-		{
-			name:     "multiple parameters (other)",
-			dsn:      "flightsql://127.0.0.1:12345?foo=1&bar=true&foo=yes",
-			expected: "too many values",
-		},
-		{
-			name:     "TLS unregistered config",
-			dsn:      "flightsql://127.0.0.1:12345?tls=mycfg",
-			expected: "TLS entry not registered",
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual, err := driver.NewDriverConfigFromDSN(tt.dsn)
-			require.ErrorContains(t, err, tt.expected)
-			require.Nil(t, actual)
-		})
-	}
-}
-
-func TestConfigFromDSN(t *testing.T) {
-	// Register a custom TLS config for testing
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-	require.NoError(t, driver.RegisterTLSConfig("mycfg", tlscfg))
-
-	// Define the test-cases
-	testcases := []struct {
-		name     string
-		dsn      string
-		expected *driver.DriverConfig
-	}{
-		{
-			name: "no authentication",
-			dsn:  "flightsql://127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "username only authentication",
-			dsn:  "flightsql://peter@127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name: "username and password authentication",
-			dsn:  "flightsql://peter:parker@127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Password: "parker",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name: "token authentication",
-			dsn:  "flightsql://127.0.0.1:12345?token=012345abcde6789fgh",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Token:   "012345abcde6789fgh",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "timeout",
-			dsn:  "flightsql://127.0.0.1:12345?timeout=123s",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 123 * time.Second,
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "custom parameters",
-			dsn:  "flightsql://127.0.0.1:12345?timeout=200ms&database=mydb&pi=3.14",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 200 * time.Millisecond,
-				Params: map[string]string{
-					"database": "mydb",
-					"pi":       "3.14",
-				},
-			},
-		},
-		{
-			name: "TLS explicitly disabled",
-			dsn:  "flightsql://127.0.0.1:12345?tls=disabled",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "TLS explicitly disabled (false)",
-			dsn:  "flightsql://127.0.0.1:12345?tls=false",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "TLS system settings",
-			dsn:  "flightsql://127.0.0.1:12345?tls=enabled",
-			expected: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name: "TLS system settings (true)",
-			dsn:  "flightsql://127.0.0.1:12345?tls=true",
-			expected: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name: "TLS insecure skip-verify",
-			dsn:  "flightsql://127.0.0.1:12345?tls=skip-verify",
-			expected: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "skip-verify",
-				TLSConfig:     &tls.Config{InsecureSkipVerify: true},
-				Params:        make(map[string]string),
-			},
-		},
-		{
-			name: "TLS custom config",
-			dsn:  "flightsql://127.0.0.1:12345?tls=mycfg",
-			expected: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "mycfg",
-				TLSConfig:     tlscfg,
-				Params:        make(map[string]string),
-			},
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual, err := driver.NewDriverConfigFromDSN(tt.dsn)
-			require.NoError(t, err)
-			require.EqualValues(t, tt.expected, actual)
-		})
-	}
-}
-
-func TestDSNFromConfig(t *testing.T) {
-	// Define the test-cases
-	testcases := []struct {
-		name     string
-		expected string
-		drvcfg   *driver.DriverConfig
-	}{
-		{
-			name:     "no authentication",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "username only authentication",
-			expected: "flightsql://peter@127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name:     "username and password authentication",
-			expected: "flightsql://peter:parker@127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Password: "parker",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name:     "token authentication",
-			expected: "flightsql://127.0.0.1:12345?token=012345abcde6789fgh",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Token:   "012345abcde6789fgh",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "timeout",
-			expected: "flightsql://127.0.0.1:12345?timeout=3s",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 3 * time.Second,
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "custom parameters",
-			expected: "flightsql://127.0.0.1:12345?database=mydb&pi=3.14&timeout=20ms",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 20 * time.Millisecond,
-				Params: map[string]string{
-					"database": "mydb",
-					"pi":       "3.14",
-				},
-			},
-		},
-		{
-			name:     "TLS disabled",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS system settings",
-			expected: "flightsql://127.0.0.1:12345?tls=enabled",
-			drvcfg: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS insecure skip-verify",
-			expected: "flightsql://127.0.0.1:12345?tls=skip-verify",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "skip-verify",
-				TLSConfig:     &tls.Config{InsecureSkipVerify: true},
-				Params:        make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS disabled",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    false,
-				TLSConfigName: "a random cfg",
-				TLSConfig: &tls.Config{
-					ServerName: "myserver.company.org",
-					MinVersion: tls.VersionTLS12,
-				},
-				Params: make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS custom config",
-			expected: "flightsql://127.0.0.1:12345?tls=mycfg",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "mycfg",
-				TLSConfig: &tls.Config{
-					ServerName: "myserver.company.org",
-					MinVersion: tls.VersionTLS12,
-				},
-				Params: make(map[string]string),
-			},
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual := tt.drvcfg.DSN()
-			require.Equal(t, tt.expected, actual)
-		})
-	}
-}
-
-func TestDSNFromConfigCustomTLS(t *testing.T) {
-	expected := "flightsql://127.0.0.1:12345?tls=mycustomcfg"
-
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-
-	drvcfg := &driver.DriverConfig{
-		Address:       "127.0.0.1:12345",
-		TLSEnabled:    true,
-		TLSConfigName: "mycustomcfg",
-		TLSConfig:     tlscfg,
-		Params:        make(map[string]string),
-	}
-
-	require.Equal(t, expected, drvcfg.DSN())
-	cfg, found := driver.GetTLSConfig("mycustomcfg")
-	require.True(t, found)
-	require.EqualValues(t, tlscfg, cfg)
-}
-
-func TestDSNFromConfigUnnamedCustomTLS(t *testing.T) {
-	expected := "flightsql://127.0.0.1:12345?tls="
-
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-
-	drvcfg := &driver.DriverConfig{
-		Address:    "127.0.0.1:12345",
-		TLSEnabled: true,
-		TLSConfig:  tlscfg,
-		Params:     make(map[string]string),
-	}
-
-	actual := drvcfg.DSN()
-	require.NotEmpty(t, drvcfg.TLSConfigName)
-	// Get the generated UUID and add it to the expected DSN
-	expected += drvcfg.TLSConfigName
-	require.Equal(t, expected, actual)
-	cfg, found := driver.GetTLSConfig(drvcfg.TLSConfigName)
-	require.True(t, found)
-	require.EqualValues(t, tlscfg, cfg)
-}
diff --git a/go/arrow/flight/flightsql/driver/driver.go b/go/arrow/flight/flightsql/driver/driver.go
deleted file mode 100644
index 0513fe1ecd346..0000000000000
--- a/go/arrow/flight/flightsql/driver/driver.go
+++ /dev/null
@@ -1,615 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"context"
-	"database/sql"
-	"database/sql/driver"
-	"errors"
-	"fmt"
-	"io"
-	"sort"
-	"sync"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-const recordChanBufferSizeDefault = 1
-
-type Rows struct {
-	// schema stores the row schema, like column names.
-	schema *arrow.Schema
-	// recordChan enables async reading from server, while client interates.
-	recordChan chan arrow.Record
-	// currentRecord stores a record with n>=0 rows.
-	currentRecord arrow.Record
-	// currentRow tracks the position (row) within currentRecord.
-	currentRow uint64
-	// initializedChan prevents the row being used before properly initialized.
-	initializedChan chan bool
-	// streamError stores the error that interrupted streaming.
-	streamError    error
-	streamErrorMux sync.RWMutex
-	// ctxCancelFunc when called, triggers the streaming cancelation.
-	ctxCancelFunc context.CancelFunc
-}
-
-func newRows() *Rows {
-	return &Rows{
-		recordChan:      make(chan arrow.Record, recordChanBufferSizeDefault),
-		initializedChan: make(chan bool),
-	}
-}
-
-func (r *Rows) setStreamError(err error) {
-	r.streamErrorMux.Lock()
-	defer r.streamErrorMux.Unlock()
-
-	r.streamError = err
-}
-
-func (r *Rows) getStreamError() error {
-	r.streamErrorMux.RLock()
-	defer r.streamErrorMux.RUnlock()
-
-	return r.streamError
-}
-
-// Columns returns the names of the columns.
-func (r *Rows) Columns() []string {
-	if r.schema == nil {
-		return nil
-	}
-
-	// All records have the same columns.
-	cols := make([]string, len(r.schema.Fields()))
-	for i, c := range r.schema.Fields() {
-		cols[i] = c.Name
-	}
-
-	return cols
-}
-
-func (r *Rows) releaseRecord() {
-	if r.currentRecord != nil {
-		r.currentRecord.Release()
-		r.currentRecord = nil
-	}
-}
-
-// Close closes the rows iterator.
-func (r *Rows) Close() error {
-	r.ctxCancelFunc() // interrupting data streaming.
-
-	r.currentRow = 0
-
-	r.releaseRecord()
-
-	return nil
-}
-
-// Next is called to populate the next row of data into
-// the provided slice. The provided slice will be the same
-// size as the Columns() are wide.
-//
-// Next should return io.EOF when there are no more rows.
-//
-// The dest should not be written to outside of Next. Care
-// should be taken when closing Rows not to modify
-// a buffer held in dest.
-func (r *Rows) Next(dest []driver.Value) error {
-	if r.currentRecord == nil || int64(r.currentRow) >= r.currentRecord.NumRows() {
-		if err := r.getStreamError(); err != nil {
-			return err
-		}
-
-		r.releaseRecord()
-
-		// Get the next record from the channel
-		var ok bool
-		if r.currentRecord, ok = <-r.recordChan; !ok {
-			return io.EOF // Channel closed, no more records
-		}
-
-		r.currentRow = 0
-
-		// safety double-check
-		if r.currentRecord == nil || int64(r.currentRow) >= r.currentRecord.NumRows() {
-			return io.EOF // Channel closed, no more records
-		}
-	}
-
-	for i, col := range r.currentRecord.Columns() {
-		v, err := fromArrowType(col, int(r.currentRow))
-		if err != nil {
-			return err
-		}
-
-		dest[i] = v
-	}
-
-	r.currentRow++
-
-	return nil
-}
-
-type Result struct {
-	affected   int64
-	lastinsert int64
-}
-
-// LastInsertId returns the database's auto-generated ID after, for example,
-// an INSERT into a table with primary key.
-func (r *Result) LastInsertId() (int64, error) {
-	if r.lastinsert < 0 {
-		return -1, ErrNotSupported
-	}
-	return r.lastinsert, nil
-}
-
-// RowsAffected returns the number of rows affected by the query.
-func (r *Result) RowsAffected() (int64, error) {
-	if r.affected < 0 {
-		return -1, ErrNotSupported
-	}
-	return r.affected, nil
-}
-
-type Stmt struct {
-	stmt   *flightsql.PreparedStatement
-	client *flightsql.Client
-
-	timeout time.Duration
-}
-
-// Close closes the statement.
-func (s *Stmt) Close() error {
-	ctx := context.Background()
-	if s.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	return s.stmt.Close(ctx)
-}
-
-// NumInput returns the number of placeholder parameters.
-func (s *Stmt) NumInput() int {
-	schema := s.stmt.ParameterSchema()
-	if schema == nil {
-		// NumInput may also return -1, if the driver doesn't know its number
-		// of placeholders. In that case, the sql package will not sanity check
-		// Exec or Query argument counts.
-		return -1
-	}
-
-	// If NumInput returns >= 0, the sql package will sanity check argument
-	// counts from callers and return errors to the caller before the
-	// statement's Exec or Query methods are called.
-	return schema.NumFields()
-}
-
-// Exec executes a query that doesn't return rows, such
-// as an INSERT or UPDATE.
-func (s *Stmt) Exec(args []driver.Value) (driver.Result, error) {
-	var params []driver.NamedValue
-	for i, arg := range args {
-		params = append(params, driver.NamedValue{
-			Ordinal: i,
-			Value:   arg,
-		})
-	}
-
-	return s.ExecContext(context.Background(), params)
-}
-
-// ExecContext executes a query that doesn't return rows, such as an INSERT or UPDATE.
-func (s *Stmt) ExecContext(ctx context.Context, args []driver.NamedValue) (driver.Result, error) {
-	if err := s.setParameters(args); err != nil {
-		return nil, err
-	}
-
-	if _, set := ctx.Deadline(); !set && s.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	n, err := s.stmt.ExecuteUpdate(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Result{affected: n, lastinsert: -1}, nil
-}
-
-// Query executes a query that may return rows, such as a SELECT.
-func (s *Stmt) Query(args []driver.Value) (driver.Rows, error) {
-	var params []driver.NamedValue
-	for i, arg := range args {
-		params = append(params, driver.NamedValue{
-			Ordinal: i,
-			Value:   arg,
-		})
-	}
-
-	return s.QueryContext(context.Background(), params)
-}
-
-// QueryContext executes a query that may return rows, such as a SELECT.
-func (s *Stmt) QueryContext(ctx context.Context, args []driver.NamedValue) (driver.Rows, error) {
-	if err := s.setParameters(args); err != nil {
-		return nil, err
-	}
-
-	execCtx := ctx
-	if _, set := ctx.Deadline(); !set && s.timeout > 0 {
-		var cancel context.CancelFunc
-		execCtx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	info, err := s.stmt.Execute(execCtx)
-	if err != nil {
-		return nil, err
-	}
-
-	rows := newRows()
-	ctx, rows.ctxCancelFunc = context.WithCancel(ctx)
-
-	go rows.streamRecordset(ctx, s.client, info.Endpoint)
-
-	<-rows.initializedChan // waits the rows proper initialization.
-
-	return rows, nil
-}
-
-func (s *Stmt) setParameters(args []driver.NamedValue) error {
-	if len(args) == 0 {
-		s.stmt.SetParameters(nil)
-		return nil
-	}
-
-	sort.SliceStable(args, func(i, j int) bool {
-		return args[i].Ordinal < args[j].Ordinal
-	})
-
-	schema := s.stmt.ParameterSchema()
-	if schema == nil {
-		var fields []arrow.Field
-		for _, arg := range args {
-			dt, err := toArrowDataType(arg.Value)
-			if err != nil {
-				return fmt.Errorf("schema: %w", err)
-			}
-			fields = append(fields, arrow.Field{
-				Name: arg.Name,
-				Type: dt,
-			})
-		}
-		schema = arrow.NewSchema(fields, nil)
-	}
-
-	recBuilder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer recBuilder.Release()
-
-	for i, arg := range args {
-		fieldBuilder := recBuilder.Field(i)
-		if err := setFieldValue(fieldBuilder, arg.Value); err != nil {
-			return err
-		}
-	}
-
-	rec := recBuilder.NewRecord()
-	defer rec.Release()
-
-	s.stmt.SetParameters(rec)
-
-	return nil
-}
-
-type Tx struct {
-	tx      *flightsql.Txn
-	timeout time.Duration
-}
-
-func (t *Tx) Commit() error {
-	ctx := context.Background()
-	if t.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, t.timeout)
-		defer cancel()
-	}
-
-	return t.tx.Commit(ctx)
-}
-
-func (t *Tx) Rollback() error {
-	ctx := context.Background()
-	if t.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, t.timeout)
-		defer cancel()
-	}
-
-	return t.tx.Rollback(ctx)
-}
-
-type Driver struct{}
-
-// Open returns a new connection to the database.
-func (d *Driver) Open(name string) (driver.Conn, error) {
-	c, err := d.OpenConnector(name)
-	if err != nil {
-		return nil, err
-	}
-
-	return c.Connect(context.Background())
-}
-
-// OpenConnector must parse the name in the same format that Driver.Open
-// parses the name parameter.
-func (d *Driver) OpenConnector(name string) (driver.Connector, error) {
-	config, err := NewDriverConfigFromDSN(name)
-	if err != nil {
-		return nil, err
-	}
-
-	c := &Connector{}
-	if err := c.Configure(config); err != nil {
-		return nil, err
-	}
-
-	return c, nil
-}
-
-type Connector struct {
-	addr    string
-	timeout time.Duration
-	options []grpc.DialOption
-}
-
-// Configure the driver with the corresponding config
-func (c *Connector) Configure(config *DriverConfig) error {
-	// Set the driver properties
-	c.addr = config.Address
-	c.timeout = config.Timeout
-	c.options = []grpc.DialOption{grpc.WithBlock()}
-
-	// Create GRPC options necessary for the backend
-	var transportCreds credentials.TransportCredentials
-	if !config.TLSEnabled {
-		transportCreds = insecure.NewCredentials()
-	} else {
-		transportCreds = credentials.NewTLS(config.TLSConfig)
-	}
-	c.options = append(c.options, grpc.WithTransportCredentials(transportCreds))
-
-	// Set authentication credentials
-	rpcCreds := grpcCredentials{
-		username:   config.Username,
-		password:   config.Password,
-		token:      config.Token,
-		params:     config.Params,
-		tlsEnabled: config.TLSEnabled,
-	}
-	c.options = append(c.options, grpc.WithPerRPCCredentials(rpcCreds))
-
-	return nil
-}
-
-// Connect returns a connection to the database.
-func (c *Connector) Connect(ctx context.Context) (driver.Conn, error) {
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	client, err := flightsql.NewClientCtx(ctx, c.addr, nil, nil, c.options...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Connection{
-		client:  client,
-		timeout: c.timeout,
-	}, nil
-}
-
-// Driver returns the underlying Driver of the Connector,
-// mainly to maintain compatibility with the Driver method
-// on sql.DB.
-func (c *Connector) Driver() driver.Driver {
-	return &Driver{}
-}
-
-type Connection struct {
-	client *flightsql.Client
-	txn    *flightsql.Txn
-
-	timeout time.Duration
-}
-
-// Prepare returns a prepared statement, bound to this connection.
-func (c *Connection) Prepare(query string) (driver.Stmt, error) {
-	return c.PrepareContext(context.Background(), query)
-}
-
-// PrepareContext returns a prepared statement, bound to this connection.
-// context is for the preparation of the statement,
-// it must not store the context within the statement itself.
-func (c *Connection) PrepareContext(ctx context.Context, query string) (driver.Stmt, error) {
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	var err error
-	var stmt *flightsql.PreparedStatement
-	if c.txn != nil && c.txn.ID().IsValid() {
-		stmt, err = c.txn.Prepare(ctx, query)
-	} else {
-		stmt, err = c.client.Prepare(ctx, query)
-		c.txn = nil
-	}
-	if err != nil {
-		return nil, err
-	}
-
-	s := &Stmt{
-		stmt:    stmt,
-		client:  c.client,
-		timeout: c.timeout,
-	}
-
-	return s, nil
-}
-
-func (c *Connection) QueryContext(ctx context.Context, query string, args []driver.NamedValue) (driver.Rows, error) {
-	if len(args) > 0 {
-		// We cannot pass arguments to the client so we skip a direct query.
-		// This will force the sql-framework to prepare and execute queries.
-		return nil, driver.ErrSkip
-	}
-
-	execCtx := ctx
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		execCtx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	info, err := c.client.Execute(execCtx, query)
-	if err != nil {
-		return nil, err
-	}
-
-	rows := newRows()
-	ctx, rows.ctxCancelFunc = context.WithCancel(ctx)
-
-	go rows.streamRecordset(ctx, c.client, info.Endpoint)
-
-	<-rows.initializedChan // waits the rows proper initialization.
-
-	return rows, nil
-}
-
-func (r *Rows) streamRecordset(ctx context.Context, c *flightsql.Client, endpoints []*flight.FlightEndpoint) {
-	defer close(r.recordChan)
-
-	// initializeOnceOnly ensures the {r.initializedChan} is valued once only, preventing a deadlock.
-	initializeOnceOnly := &sync.Once{}
-
-	defer func() { // in case of error, init anyway.
-		initializeOnceOnly.Do(func() { r.initializedChan <- true })
-	}()
-
-	// reads each endpoint.
-	for _, endpoint := range endpoints {
-		if ctx.Err() != nil {
-			r.setStreamError(fmt.Errorf("recordset streaming interrupted by context error: %w", ctx.Err()))
-			return
-		}
-
-		func() { // with a func() is possible to {defer reader.Release()}.
-			reader, err := c.DoGet(ctx, endpoint.GetTicket())
-			if err != nil {
-				r.setStreamError(fmt.Errorf("getting ticket failed: %w", err))
-				return
-			}
-
-			defer reader.Release()
-
-			r.schema = reader.Schema()
-
-			// reads each record into a blocking channel
-			for reader.Next() {
-				if ctx.Err() != nil {
-					r.setStreamError(fmt.Errorf("recordset streaming interrupted by context error: %w", ctx.Err()))
-					return
-				}
-
-				record := reader.Record()
-				record.Retain()
-
-				if record.NumRows() < 1 {
-					record.Release()
-					continue
-				}
-
-				r.recordChan <- record
-
-				go initializeOnceOnly.Do(func() { r.initializedChan <- true })
-			}
-
-			if err := reader.Err(); err != nil && !errors.Is(err, io.EOF) {
-				r.setStreamError(err)
-				return
-			}
-		}()
-	}
-}
-
-// Close invalidates and potentially stops any current
-// prepared statements and transactions, marking this
-// connection as no longer in use.
-func (c *Connection) Close() error {
-	if c.txn != nil && c.txn.ID().IsValid() {
-		return ErrTransactionInProgress
-	}
-
-	if c.client == nil {
-		return nil
-	}
-
-	err := c.client.Close()
-	c.client = nil
-
-	return err
-}
-
-// Begin starts and returns a new transaction.
-func (c *Connection) Begin() (driver.Tx, error) {
-	return c.BeginTx(context.Background(), sql.TxOptions{})
-}
-
-func (c *Connection) BeginTx(ctx context.Context, opts sql.TxOptions) (driver.Tx, error) {
-	tx, err := c.client.BeginTransaction(ctx)
-	if err != nil {
-		return nil, err
-	}
-	c.txn = tx
-
-	return &Tx{tx: tx, timeout: c.timeout}, nil
-}
-
-// Register the driver on load.
-func init() {
-	sql.Register("flightsql", &Driver{})
-}
diff --git a/go/arrow/flight/flightsql/driver/driver_test.go b/go/arrow/flight/flightsql/driver/driver_test.go
deleted file mode 100644
index c00dfe3c5d9a0..0000000000000
--- a/go/arrow/flight/flightsql/driver/driver_test.go
+++ /dev/null
@@ -1,1858 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package driver_test
-
-import (
-	"context"
-	"database/sql"
-	"errors"
-	"fmt"
-	"math/rand"
-	"os"
-	"strings"
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/driver"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const defaultTableName = "drivertest"
-
-var defaultStatements = map[string]string{
-	"create table": `
-CREATE TABLE %s (
-  id INTEGER PRIMARY KEY AUTOINCREMENT,
-  name varchar(100),
-  value int
-);`,
-	"insert":            `INSERT INTO %s (name, value) VALUES ('%s', %d);`,
-	"query":             `SELECT * FROM %s;`,
-	"constraint query":  `SELECT * FROM %s WHERE name LIKE '%%%s%%'`,
-	"placeholder query": `SELECT * FROM %s WHERE name LIKE ?`,
-}
-
-type SqlTestSuite struct {
-	suite.Suite
-
-	Config     driver.DriverConfig
-	TableName  string
-	Statements map[string]string
-
-	createServer func() (flight.Server, string, error)
-	startServer  func(flight.Server) error
-	stopServer   func(flight.Server)
-}
-
-func (s *SqlTestSuite) SetupSuite() {
-	if s.TableName == "" {
-		s.TableName = defaultTableName
-	}
-
-	if s.Statements == nil {
-		s.Statements = make(map[string]string)
-	}
-	// Fill in the statements. Keep statements already defined e.g. by the
-	// user or suite-generator.
-	for k, v := range defaultStatements {
-		if _, found := s.Statements[k]; !found {
-			s.Statements[k] = v
-		}
-	}
-
-	require.Contains(s.T(), s.Statements, "create table")
-	require.Contains(s.T(), s.Statements, "insert")
-	require.Contains(s.T(), s.Statements, "query")
-	require.Contains(s.T(), s.Statements, "constraint query")
-	require.Contains(s.T(), s.Statements, "placeholder query")
-}
-
-func (s *SqlTestSuite) TestOpenClose() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestCreateTable() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	result, err := db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	affected, err := result.RowsAffected()
-	require.Equal(t, int64(0), affected)
-	require.NoError(t, err)
-
-	last, err := result.LastInsertId()
-	require.Equal(t, int64(-1), last)
-	require.ErrorIs(t, err, driver.ErrNotSupported)
-
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestInsert() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	values := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range values {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	result, err := db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	affected, err := result.RowsAffected()
-	require.Equal(t, int64(1), affected)
-	require.NoError(t, err)
-
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestQuery() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	expected := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range expected {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	rows, err := db.Query(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestQueryWithEmptyResultset() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err := db.Query(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-	require.False(t, rows.Next())
-
-	row := db.QueryRow(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NotNil(t, row)
-	require.NoError(t, row.Err())
-
-	target := make(map[string]any)
-	err = row.Scan(&target)
-	require.ErrorIs(t, err, sql.ErrNoRows)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQuery() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	expected := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range expected {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err := stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsManualPrematureClose tests concurrent rows implementation for closing right after loading.
-// Is expected that rows' internal engine update its status, preventing errors and inconsistent further operations.
-func (s *SqlTestSuite) TestRowsManualPrematureClose() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsManualPrematureClose`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	rows, err := db.QueryContext(context.TODO(), sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	// Close Rows normally
-	require.NoError(t, rows.Close())
-
-	require.False(t, rows.Next())
-
-	// Safe double-closing
-	require.NoError(t, rows.Close())
-
-	// Columns() should return an error after rows.Close() (sql: Rows are closed)
-	columns, err := rows.Columns()
-	require.Error(t, err)
-	require.Empty(t, columns)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsNormalExhaustion tests concurrent rows implementation for normal query/netx/close operation
-func (s *SqlTestSuite) TestRowsNormalExhaustion() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsNormalExhaustion`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do Query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	var (
-		actualCount = 0
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		require.NoError(t, rows.Scan(&xid, &xname, &xvalue))
-		actualCount++
-	}
-
-	require.Equal(t, rowCount, actualCount)
-	require.NoError(t, rows.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsPrematureCloseDuringNextLoop ensures that:
-// - closing during Next() loop doesn't trigger concurrency errors.
-// - the interation is properly/promptly interrupted.
-func (s *SqlTestSuite) TestRowsPrematureCloseDuringNextLoop() {
-	t := s.T()
-
-	// Create and start the server.
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table.
-	const tableName = `TestRowsPrematureCloseDuringNextLoop`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	time.Sleep(200 * time.Millisecond)
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	rows, err := db.QueryContext(context.TODO(), sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-
-	const closeAfterNRows = 10
-	var (
-		i,
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		err = rows.Scan(&xid, &xname, &xvalue)
-		require.NoError(t, err)
-
-		i++
-		if i >= closeAfterNRows {
-			require.NoError(t, rows.Close())
-		}
-	}
-	require.NoError(t, rows.Err())
-
-	require.Equal(t, closeAfterNRows, i)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextManualCancellation cancels the context before it starts retrieving rows.Next().
-// it gives time for cancellation propagation, and ensures that no further data was retrieved.
-func (s *SqlTestSuite) TestRowsInterruptionByContextManualCancellation() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextManualCancellation`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	go cancel()
-
-	time.Sleep(100 * time.Millisecond)
-
-	count := 0
-	for rows.Next() {
-		count++
-	}
-
-	require.Zero(t, count)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextTimeout forces a timeout, and ensures no further data is retrieved after that.
-func (s *SqlTestSuite) TestRowsInterruptionByContextTimeout() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextTimeout`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const (
-		timeout      = 1500 * time.Millisecond
-		sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-	)
-
-	ctx, cancel := context.WithTimeout(context.Background(), timeout)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	// eventually, after time.Sleep(), the context will be cancelled.
-	// then, rows.Next() should return false, and <-ctx.Done() will never be tested.
-	for rows.Next() {
-		select {
-		case <-ctx.Done():
-			t.Fatal("cancellation didn't prevent more records to be read")
-		default:
-			time.Sleep(time.Second)
-		}
-	}
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsManualPrematureCloseStmt tests concurrent rows implementation for closing right after loading.
-// Is expected that rows' internal engine update its status, preventing errors and inconsistent further operations.
-func (s *SqlTestSuite) TestRowsManualPrematureCloseStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsManualPrematureCloseStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	// Close Rows normally
-	require.NoError(t, rows.Close())
-
-	require.False(t, rows.Next())
-
-	// Safe double-closing
-	require.NoError(t, rows.Close())
-
-	// Columns() should return an error after rows.Close() (sql: Rows are closed)
-	columns, err := rows.Columns()
-	require.Error(t, err)
-	require.Empty(t, columns)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsNormalExhaustionStmt tests concurrent rows implementation for normal query/netx/close operation
-func (s *SqlTestSuite) TestRowsNormalExhaustionStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsNormalExhaustionStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do Query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	var (
-		actualCount = 0
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		require.NoError(t, rows.Scan(&xid, &xname, &xvalue))
-		actualCount++
-	}
-
-	require.Equal(t, rowCount, actualCount)
-	require.NoError(t, rows.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsPrematureCloseDuringNextLoopStmt ensures that:
-// - closing during Next() loop doesn't trigger concurrency errors.
-// - the interation is properly/promptly interrupted.
-func (s *SqlTestSuite) TestRowsPrematureCloseDuringNextLoopStmt() {
-	t := s.T()
-
-	// Create and start the server.
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table.
-	const tableName = `TestRowsPrematureCloseDuringNextLoopStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	const closeAfterNRows = 10
-	var (
-		i,
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		err = rows.Scan(&xid, &xname, &xvalue)
-		require.NoError(t, err)
-
-		i++
-		if i >= closeAfterNRows {
-			require.NoError(t, rows.Close())
-		}
-	}
-
-	require.Equal(t, closeAfterNRows, i)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextManualCancellationStmt cancels the context before it starts retrieving rows.Next().
-// it gives time for cancellation propagation, and ensures that no further data was retrieved.
-func (s *SqlTestSuite) TestRowsInterruptionByContextManualCancellationStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextManualCancellationStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	go cancel()
-
-	time.Sleep(100 * time.Millisecond)
-
-	count := 0
-	for rows.Next() {
-		count++
-	}
-
-	require.Zero(t, count)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextTimeoutStmt forces a timeout, and ensures no further data is retrieved after that.
-func (s *SqlTestSuite) TestRowsInterruptionByContextTimeoutStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextTimeoutStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const (
-		timeout      = 1500 * time.Millisecond
-		sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-	)
-
-	ctx, cancel := context.WithTimeout(context.Background(), timeout)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	// eventually, after time.Sleep(), the context will be cancelled.
-	// then, rows.Next() should return false, and <-ctx.Done() will never be tested.
-	for rows.Next() {
-		select {
-		case <-ctx.Done():
-			t.Fatal("cancellation didn't prevent more records to be read")
-		default:
-			time.Sleep(time.Second)
-		}
-	}
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQueryWithConstraint() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range data {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["constraint query"], s.TableName, "one"))
-	require.NoError(t, err)
-
-	rows, err := stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	expected := map[string]int{
-		"one":       1,
-		"minus one": -1,
-	}
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQueryWithPlaceholder() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range data {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	query := fmt.Sprintf(s.Statements["placeholder query"], s.TableName)
-	stmt, err := db.Prepare(query)
-	require.NoError(t, err)
-
-	params := []interface{}{"%%one%%"}
-	rows, err := stmt.Query(params...)
-	require.NoError(t, err)
-
-	// Check result
-	expected := map[string]int{
-		"one":       1,
-		"minus one": -1,
-	}
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestTxRollback() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	tx, err := db.Begin()
-	require.NoError(t, err)
-
-	// Create the table
-	_, err = tx.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	for k, v := range data {
-		stmt := fmt.Sprintf(s.Statements["insert"], s.TableName, k, v)
-		_, err = tx.Exec(stmt)
-		require.NoError(t, err)
-	}
-
-	// Rollback the transaction
-	require.NoError(t, tx.Rollback())
-
-	// Check result
-	tbls := `SELECT name FROM sqlite_schema WHERE type ='table' AND name NOT LIKE 'sqlite_%';`
-	rows, err := db.Query(tbls)
-	require.NoError(t, err)
-	count := 0
-	for rows.Next() {
-		count++
-	}
-	require.Equal(t, 0, count)
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestTxCommit() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	tx, err := db.Begin()
-	require.NoError(t, err)
-
-	// Create the table
-	_, err = tx.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	for k, v := range data {
-		stmt := fmt.Sprintf(s.Statements["insert"], s.TableName, k, v)
-		_, err = tx.Exec(stmt)
-		require.NoError(t, err)
-	}
-
-	// Commit the transaction
-	require.NoError(t, tx.Commit())
-
-	// Check if the table exists
-	tbls := `SELECT name FROM sqlite_schema WHERE type ='table' AND name NOT LIKE 'sqlite_%';`
-	rows, err := db.Query(tbls)
-	require.NoError(t, err)
-
-	var tables []string
-	for rows.Next() {
-		var name string
-		require.NoError(t, rows.Scan(&name))
-		tables = append(tables, name)
-	}
-	require.Contains(t, tables, "drivertest")
-
-	// Check the actual data
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err = stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(data))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, data, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-/*** BACKEND tests ***/
-
-func TestSqliteBackend(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s := &SqlTestSuite{
-		Config: driver.DriverConfig{
-			Timeout: 5 * time.Second,
-		},
-	}
-
-	s.createServer = func() (flight.Server, string, error) {
-		server := flight.NewServerWithMiddleware(nil)
-
-		// Setup the SQLite backend
-		db, err := sql.Open("sqlite", ":memory:")
-		if err != nil {
-			return nil, "", err
-		}
-		sqliteServer, err := example.NewSQLiteFlightSQLServer(db)
-		if err != nil {
-			return nil, "", err
-		}
-		sqliteServer.Alloc = mem
-
-		// Connect the FlightSQL frontend to the backend
-		server.RegisterFlightService(flightsql.NewFlightServer(sqliteServer))
-		if err := server.Init("localhost:0"); err != nil {
-			return nil, "", err
-		}
-		server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-		return server, server.Addr().String(), nil
-	}
-	s.startServer = func(server flight.Server) error { return server.Serve() }
-	s.stopServer = func(server flight.Server) { server.Shutdown() }
-
-	suite.Run(t, s)
-}
-
-func TestPreparedStatementSchema(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		PreparedStatementParameterSchema: arrow.NewSchema([]arrow.Field{{Type: &arrow.StringType{}, Nullable: false}}, nil),
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data: "[]",
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	stmt, err := db.Prepare("SELECT * FROM foo WHERE name LIKE ?")
-	require.NoError(t, err)
-
-	_, err = stmt.Query()
-	require.ErrorContains(t, err, "expected 1 arguments, got 0")
-
-	// Test for error issues by driver
-	_, err = stmt.Query(23)
-	require.ErrorContains(t, err, "invalid value type int64 for builder *array.StringBuilder")
-
-	rows, err := stmt.Query("master")
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-}
-
-func TestPreparedStatementNoSchema(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data:                            "[]",
-		ExpectedPreparedStatementSchema: arrow.NewSchema([]arrow.Field{{Type: &arrow.StringType{}, Nullable: false}}, nil),
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	stmt, err := db.Prepare("SELECT * FROM foo WHERE name LIKE ?")
-	require.NoError(t, err)
-
-	_, err = stmt.Query()
-	require.NoError(t, err, "expected 1 arguments, got 0")
-
-	// Test for error issued by server due to missing parameter schema
-	_, err = stmt.Query(23)
-	require.ErrorContains(t, err, "parameter schema: unexpected")
-
-	rows, err := stmt.Query("master")
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-}
-
-func TestNoPreparedStatementImplemented(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data:                   "[]",
-		PreparedStatementError: "not supported",
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	_, err = db.Query("SELECT * FROM foo")
-	require.NoError(t, err)
-}
-
-// Mockup database server
-type MockServer struct {
-	flightsql.BaseServer
-	DataSchema                       *arrow.Schema
-	PreparedStatementParameterSchema *arrow.Schema
-	PreparedStatementError           string
-	Data                             string
-
-	ExpectedPreparedStatementSchema *arrow.Schema
-}
-
-func (s *MockServer) CreatePreparedStatement(ctx context.Context, req flightsql.ActionCreatePreparedStatementRequest) (flightsql.ActionCreatePreparedStatementResult, error) {
-	if s.PreparedStatementError != "" {
-		return flightsql.ActionCreatePreparedStatementResult{}, errors.New(s.PreparedStatementError)
-	}
-	return flightsql.ActionCreatePreparedStatementResult{
-		Handle:          []byte("prepared"),
-		DatasetSchema:   s.DataSchema,
-		ParameterSchema: s.PreparedStatementParameterSchema,
-	}, nil
-}
-
-func (s *MockServer) DoPutPreparedStatementQuery(ctx context.Context, qry flightsql.PreparedStatementQuery, r flight.MessageReader, w flight.MetadataWriter) ([]byte, error) {
-	if s.ExpectedPreparedStatementSchema != nil {
-		if !s.ExpectedPreparedStatementSchema.Equal(r.Schema()) {
-			return nil, errors.New("parameter schema: unexpected")
-		}
-		return qry.GetPreparedStatementHandle(), nil
-	}
-
-	if s.PreparedStatementParameterSchema != nil && !s.PreparedStatementParameterSchema.Equal(r.Schema()) {
-		return nil, fmt.Errorf("parameter schema: %w", arrow.ErrInvalid)
-	}
-
-	// GH-35328: it's rare, but this function can complete execution and return
-	// closing the reader *after* the schema is written but *before* the parameter batch
-	// is written (race condition based on goroutine scheduling). In that situation,
-	// the client call to Write the parameter record batch will return an io.EOF because
-	// this end of the connection will have closed before it attempted to send the batch.
-	// This created a flaky test situation that was difficult to reproduce (1-4 failures
-	// in 5000 runs). We can avoid this flakiness by simply *explicitly* draining the
-	// record batch messages from the reader before returning.
-	for r.Next() {
-	}
-
-	return qry.GetPreparedStatementHandle(), nil
-}
-
-func (s *MockServer) DoGetStatement(ctx context.Context, ticket flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, s.DataSchema, strings.NewReader(s.Data))
-	if err != nil {
-		return nil, nil, err
-	}
-	chunk := make(chan flight.StreamChunk)
-	go func() {
-		defer close(chunk)
-		chunk <- flight.StreamChunk{
-			Data: record,
-			Desc: nil,
-			Err:  nil,
-		}
-	}()
-	return s.DataSchema, chunk, nil
-}
-
-func (s *MockServer) GetFlightInfoPreparedStatement(ctx context.Context, stmt flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	handle := stmt.GetPreparedStatementHandle()
-	ticket, err := flightsql.CreateStatementQueryTicket(handle)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: ticket}},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-func (s *MockServer) GetFlightInfoStatement(_ context.Context, query flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	handle := query.GetTransactionId()
-	ticket, err := flightsql.CreateStatementQueryTicket(handle)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: ticket}},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-const getRandomStringCharset = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789. "
-
-var getRandomStringCharsetLen = len(getRandomStringCharset)
-
-func getRandomString(gen *rand.Rand, length int) string {
-	result := make([]byte, length)
-
-	for i := range result {
-		result[i] = getRandomStringCharset[rand.Intn(getRandomStringCharsetLen)]
-	}
-
-	return string(result)
-}
diff --git a/go/arrow/flight/flightsql/driver/errors.go b/go/arrow/flight/flightsql/driver/errors.go
deleted file mode 100644
index 908dde4c3edc4..0000000000000
--- a/go/arrow/flight/flightsql/driver/errors.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import "errors"
-
-var (
-	ErrNotSupported          = errors.New("not supported")
-	ErrOutOfRange            = errors.New("index out of range")
-	ErrTransactionInProgress = errors.New("transaction still in progress")
-	ErrRegistryEntryExists   = errors.New("entry already exists")
-	ErrRegistryNoEntry       = errors.New("entry not registered")
-)
diff --git a/go/arrow/flight/flightsql/driver/utils.go b/go/arrow/flight/flightsql/driver/utils.go
deleted file mode 100644
index a206d7753529d..0000000000000
--- a/go/arrow/flight/flightsql/driver/utils.go
+++ /dev/null
@@ -1,287 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// *** GRPC helpers ***
-type grpcCredentials struct {
-	username   string
-	password   string
-	token      string
-	params     map[string]string
-	tlsEnabled bool
-}
-
-func (g grpcCredentials) GetRequestMetadata(ctx context.Context, uri ...string) (map[string]string, error) {
-	md := make(map[string]string, len(g.params)+1)
-
-	// Authentication parameters
-	switch {
-	case g.token != "":
-		md["authorization"] = "Bearer " + g.token
-	case g.username != "":
-
-		md["authorization"] = "Basic " + base64.StdEncoding.EncodeToString([]byte(g.username+":"+g.password))
-	}
-
-	for k, v := range g.params {
-		md[k] = v
-	}
-
-	return md, nil
-}
-
-func (g grpcCredentials) RequireTransportSecurity() bool {
-	return g.tlsEnabled && (g.token != "" || g.username != "")
-}
-
-// *** Type conversions ***
-func fromArrowType(arr arrow.Array, idx int) (interface{}, error) {
-	if arr.IsNull(idx) {
-		return nil, nil
-	}
-
-	switch c := arr.(type) {
-	case *array.Boolean:
-		return c.Value(idx), nil
-	case *array.Float16:
-		return c.Value(idx), nil
-	case *array.Float32:
-		return c.Value(idx), nil
-	case *array.Float64:
-		return c.Value(idx), nil
-	case *array.Decimal128:
-		v := arr.DataType().(*arrow.Decimal128Type)
-		return c.Value(idx).ToFloat64(v.Scale), nil
-	case *array.Decimal256:
-		v := arr.DataType().(*arrow.Decimal256Type)
-		return c.Value(idx).ToFloat64(v.Scale), nil
-	case *array.Int8:
-		return c.Value(idx), nil
-	case *array.Int16:
-		return c.Value(idx), nil
-	case *array.Int32:
-		return c.Value(idx), nil
-	case *array.Int64:
-		return c.Value(idx), nil
-	case *array.Binary:
-		return c.Value(idx), nil
-	case *array.String:
-		return c.Value(idx), nil
-	case *array.Time32:
-		d32 := arr.DataType().(*arrow.Time32Type)
-		v := c.Value(idx)
-		return v.ToTime(d32.TimeUnit()), nil
-	case *array.Time64:
-		d64 := arr.DataType().(*arrow.Time64Type)
-		v := c.Value(idx)
-		return v.ToTime(d64.TimeUnit()), nil
-	case *array.Timestamp:
-		ts := arr.DataType().(*arrow.TimestampType)
-		v := c.Value(idx)
-		return v.ToTime(ts.TimeUnit()), nil
-	case *array.Date64:
-		return c.Value(idx).ToTime(), nil
-	case *array.Duration:
-		dt := arr.DataType().(*arrow.DurationType)
-		duration := time.Duration(c.Value(idx)) * dt.Unit.Multiplier()
-		return duration, nil
-	case *array.DayTimeInterval:
-		durationDays := time.Duration(c.Value(idx).Days*24) * time.Hour
-		duration := time.Duration(c.Value(idx).Milliseconds) * time.Millisecond
-
-		return durationDays + duration, nil
-	}
-
-	return nil, fmt.Errorf("type %T: %w", arr, ErrNotSupported)
-}
-
-func toArrowDataType(value interface{}) (arrow.DataType, error) {
-	switch value.(type) {
-	case bool:
-		return &arrow.BooleanType{}, nil
-	case float32:
-		return &arrow.Float32Type{}, nil
-	case float64:
-		return &arrow.Float64Type{}, nil
-	case int8:
-		return &arrow.Int8Type{}, nil
-	case int16:
-		return &arrow.Int16Type{}, nil
-	case int32:
-		return &arrow.Int32Type{}, nil
-	case int64:
-		return &arrow.Int64Type{}, nil
-	case uint8:
-		return &arrow.Uint8Type{}, nil
-	case uint16:
-		return &arrow.Uint16Type{}, nil
-	case uint32:
-		return &arrow.Uint32Type{}, nil
-	case uint64:
-		return &arrow.Uint64Type{}, nil
-	case string:
-		return &arrow.StringType{}, nil
-	case time.Time:
-		return &arrow.Time64Type{Unit: arrow.Nanosecond}, nil
-	}
-	return nil, fmt.Errorf("type %T: %w", value, ErrNotSupported)
-}
-
-// *** Field builder versions ***
-func setFieldValue(builder array.Builder, arg interface{}) error {
-	switch b := builder.(type) {
-	case *array.BooleanBuilder:
-		switch v := arg.(type) {
-		case bool:
-			b.Append(v)
-		case []bool:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Float32Builder:
-		switch v := arg.(type) {
-		case float32:
-			b.Append(v)
-		case []float32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Float64Builder:
-		switch v := arg.(type) {
-		case float64:
-			b.Append(v)
-		case []float64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int8Builder:
-		switch v := arg.(type) {
-		case int8:
-			b.Append(v)
-		case []int8:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int16Builder:
-		switch v := arg.(type) {
-		case int16:
-			b.Append(v)
-		case []int16:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int32Builder:
-		switch v := arg.(type) {
-		case int32:
-			b.Append(v)
-		case []int32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int64Builder:
-		switch v := arg.(type) {
-		case int64:
-			b.Append(v)
-		case []int64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint8Builder:
-		switch v := arg.(type) {
-		case uint8:
-			b.Append(v)
-		case []uint8:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint16Builder:
-		switch v := arg.(type) {
-		case uint16:
-			b.Append(v)
-		case []uint16:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint32Builder:
-		switch v := arg.(type) {
-		case uint32:
-			b.Append(v)
-		case []uint32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint64Builder:
-		switch v := arg.(type) {
-		case uint64:
-			b.Append(v)
-		case []uint64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.StringBuilder:
-		switch v := arg.(type) {
-		case string:
-			b.Append(v)
-		case []string:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Time64Builder:
-		switch v := arg.(type) {
-		case int64:
-			b.Append(arrow.Time64(v))
-		case []int64:
-			for _, x := range v {
-				b.Append(arrow.Time64(x))
-			}
-		case uint64:
-			b.Append(arrow.Time64(v))
-		case []uint64:
-			for _, x := range v {
-				b.Append(arrow.Time64(x))
-			}
-		case time.Time:
-			b.Append(arrow.Time64(v.Nanosecond()))
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	default:
-		return fmt.Errorf("unknown builder type %T", builder)
-	}
-	return nil
-}
diff --git a/go/arrow/flight/flightsql/driver/utils_test.go b/go/arrow/flight/flightsql/driver/utils_test.go
deleted file mode 100644
index 0f6033b9282ea..0000000000000
--- a/go/arrow/flight/flightsql/driver/utils_test.go
+++ /dev/null
@@ -1,138 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"fmt"
-	"math/big"
-	"reflect"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-func Test_fromArrowType(t *testing.T) {
-	fields := []arrow.Field{
-		{Name: "f1-bool", Type: arrow.FixedWidthTypes.Boolean},
-		{Name: "f2-f16", Type: arrow.FixedWidthTypes.Float16},
-		{Name: "f3-f32", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f4-f64", Type: arrow.PrimitiveTypes.Float64},
-		{Name: "f5-d128", Type: &arrow.Decimal128Type{}},
-		{Name: "f6-d256", Type: &arrow.Decimal256Type{}},
-		{Name: "f7-i8", Type: arrow.PrimitiveTypes.Int8},
-		{Name: "f8-i16", Type: arrow.PrimitiveTypes.Int16},
-		{Name: "f9-i32", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "f10-i64", Type: arrow.PrimitiveTypes.Int64},
-		{Name: "f11-binary", Type: arrow.BinaryTypes.Binary},
-		{Name: "f12-string", Type: arrow.BinaryTypes.String},
-		{Name: "f13-t32s", Type: arrow.FixedWidthTypes.Time32s},
-		{Name: "f14-t64us", Type: arrow.FixedWidthTypes.Time64us},
-		{Name: "f15-ts_us", Type: arrow.FixedWidthTypes.Timestamp_ns},
-		{Name: "f16-d64", Type: arrow.FixedWidthTypes.Date64},
-		{Name: "f17-dti", Type: arrow.FixedWidthTypes.DayTimeInterval},
-		{Name: "f18-duration_s", Type: arrow.FixedWidthTypes.Duration_s},
-		{Name: "f19-duration_ms", Type: arrow.FixedWidthTypes.Duration_ms},
-		{Name: "f20-duration_us", Type: arrow.FixedWidthTypes.Duration_us},
-		{Name: "f21-duration_ns", Type: arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	pool := memory.NewGoAllocator()
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.BooleanBuilder).Append(true)
-	b.Field(1).(*array.Float16Builder).Append(float16.New(1))
-	b.Field(2).(*array.Float32Builder).Append(1)
-	b.Field(3).(*array.Float64Builder).Append(1)
-	b.Field(4).(*array.Decimal128Builder).Append(decimal128.FromBigInt(big.NewInt(1)))
-	b.Field(5).(*array.Decimal256Builder).Append(decimal256.FromBigInt(big.NewInt(1)))
-	b.Field(6).(*array.Int8Builder).Append(1)
-	b.Field(7).(*array.Int16Builder).Append(1)
-	b.Field(8).(*array.Int32Builder).Append(1)
-	b.Field(9).(*array.Int64Builder).Append(1)
-	b.Field(10).(*array.BinaryBuilder).Append([]byte("a"))
-	b.Field(11).(*array.StringBuilder).Append("a")
-
-	t32, err := arrow.Time32FromString("12:30:00", arrow.Second)
-	require.NoError(t, err)
-
-	b.Field(12).(*array.Time32Builder).Append(t32)
-
-	t64, err := arrow.Time64FromString("12:00:00", arrow.Microsecond)
-	require.NoError(t, err)
-
-	b.Field(13).(*array.Time64Builder).Append(t64)
-
-	ts, err := arrow.TimestampFromString("1970-01-01T12:00:00", arrow.Nanosecond)
-	require.NoError(t, err)
-
-	fmt.Println(ts.ToTime(arrow.Nanosecond))
-
-	b.Field(14).(*array.TimestampBuilder).Append(ts)
-
-	testTime := time.Now()
-	b.Field(15).(*array.Date64Builder).Append(arrow.Date64FromTime(testTime))
-	b.Field(16).(*array.DayTimeIntervalBuilder).Append(arrow.DayTimeInterval{Days: 1, Milliseconds: 1000})
-	b.Field(17).(*array.DurationBuilder).Append(1)
-	b.Field(18).(*array.DurationBuilder).Append(1)
-	b.Field(19).(*array.DurationBuilder).Append(1)
-	b.Field(20).(*array.DurationBuilder).Append(1)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	tf := func(t *testing.T, idx int, want any) {
-		t.Run(fmt.Sprintf("fromArrowType %v %s", fields[idx].Type, fields[idx].Name), func(t *testing.T) {
-			v, err := fromArrowType(rec.Column(idx), 0)
-			if err != nil {
-				t.Fatalf("err when converting from arrow: %s", err)
-			}
-			if !reflect.DeepEqual(v, want) {
-				t.Fatalf("test failed, wanted %T %v got %T %v", want, want, v, v)
-			}
-		})
-	}
-
-	tf(t, 0, true)                                           // "f1-bool"
-	tf(t, 1, float16.New(1))                                 // "f2-f16"
-	tf(t, 2, float32(1))                                     // "f3-f32"
-	tf(t, 3, float64(1))                                     // "f4-f64"
-	tf(t, 4, float64(1))                                     // "f5-d128"
-	tf(t, 5, float64(1))                                     // "f6-d256"
-	tf(t, 6, int8(1))                                        // "f7-i8"
-	tf(t, 7, int16(1))                                       // "f8-i16"
-	tf(t, 8, int32(1))                                       // "f9-i32"
-	tf(t, 9, int64(1))                                       // "f10-i64"
-	tf(t, 10, []byte("a"))                                   // "f11-binary"
-	tf(t, 11, "a")                                           // "f12-string"
-	tf(t, 12, time.Date(1970, 1, 1, 12, 30, 0, 0, time.UTC)) // "f13-t32s"
-	tf(t, 13, time.Date(1970, 1, 1, 12, 0, 0, 0, time.UTC))  // "f14-t64us"
-	tf(t, 14, time.Date(1970, 1, 1, 12, 0, 0, 0, time.UTC))  // "f15-ts_us"
-	tf(t, 15, testTime.In(time.UTC).Truncate(24*time.Hour))  // "f16-d64"
-	tf(t, 16, time.Duration(24*time.Hour+time.Second))       // "f17-dti"
-	tf(t, 17, time.Duration(1000000000))                     // "f18-duration_s"
-	tf(t, 18, time.Duration(1000000))                        // "f19-duration_ms"
-	tf(t, 19, time.Duration(1000))                           // "f20-duration_us"
-	tf(t, 20, time.Duration(1))                              // "f21-duration_ns"
-}
diff --git a/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go b/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go
deleted file mode 100644
index 529feeb04c88c..0000000000000
--- a/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"log"
-	"net"
-	"os"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-)
-
-func main() {
-	var (
-		host = flag.String("host", "localhost", "hostname to bind to")
-		port = flag.Int("port", 0, "port to bind to")
-	)
-
-	flag.Parse()
-
-	db, err := example.CreateDB()
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer db.Close()
-
-	srv, err := example.NewSQLiteFlightSQLServer(db)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(srv))
-	server.Init(net.JoinHostPort(*host, strconv.Itoa(*port)))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-
-	fmt.Println("Starting SQLite Flight SQL Server on", server.Addr(), "...")
-
-	if err := server.Serve(); err != nil {
-		log.Fatal(err)
-	}
-}
diff --git a/go/arrow/flight/flightsql/example/sql_batch_reader.go b/go/arrow/flight/flightsql/example/sql_batch_reader.go
deleted file mode 100644
index bfd3e354b17e9..0000000000000
--- a/go/arrow/flight/flightsql/example/sql_batch_reader.go
+++ /dev/null
@@ -1,341 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"database/sql"
-	"reflect"
-	"strconv"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/types/known/wrapperspb"
-)
-
-func getArrowTypeFromString(dbtype string) arrow.DataType {
-	dbtype = strings.ToLower(dbtype)
-	if dbtype == "" {
-		// SQLite may not know the type yet.
-		return &arrow.NullType{}
-	}
-	if strings.HasPrefix(dbtype, "varchar") {
-		return arrow.BinaryTypes.String
-	}
-
-	switch dbtype {
-	case "tinyint":
-		return arrow.PrimitiveTypes.Int8
-	case "mediumint":
-		return arrow.PrimitiveTypes.Int32
-	case "int", "integer":
-		return arrow.PrimitiveTypes.Int64
-	case "float":
-		return arrow.PrimitiveTypes.Float32
-	case "real", "double":
-		return arrow.PrimitiveTypes.Float64
-	case "blob":
-		return arrow.BinaryTypes.Binary
-	case "text", "date", "char", "clob":
-		return arrow.BinaryTypes.String
-	default:
-		panic("invalid sqlite type: " + dbtype)
-	}
-}
-
-var sqliteDenseUnion = arrow.DenseUnionOf([]arrow.Field{
-	{Name: "int", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-	{Name: "float", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-}, []arrow.UnionTypeCode{0, 1, 2})
-
-func getArrowType(c *sql.ColumnType) arrow.DataType {
-	dbtype := strings.ToLower(c.DatabaseTypeName())
-	if dbtype == "" {
-		if c.ScanType() == nil {
-			return sqliteDenseUnion
-		}
-		switch c.ScanType().Kind() {
-		case reflect.Int8, reflect.Uint8:
-			return arrow.PrimitiveTypes.Int8
-		case reflect.Int32, reflect.Uint32:
-			return arrow.PrimitiveTypes.Int32
-		case reflect.Int, reflect.Int64, reflect.Uint64:
-			return arrow.PrimitiveTypes.Int64
-		case reflect.Float32:
-			return arrow.PrimitiveTypes.Float32
-		case reflect.Float64:
-			return arrow.PrimitiveTypes.Float64
-		case reflect.String:
-			return arrow.BinaryTypes.String
-		}
-	}
-	return getArrowTypeFromString(dbtype)
-}
-
-const maxBatchSize = 1024
-
-type SqlBatchReader struct {
-	refCount int64
-
-	schema *arrow.Schema
-	rows   *sql.Rows
-	record arrow.Record
-	bldr   *array.RecordBuilder
-	err    error
-
-	rowdest []interface{}
-}
-
-func NewSqlBatchReaderWithSchema(mem memory.Allocator, schema *arrow.Schema, rows *sql.Rows) (*SqlBatchReader, error) {
-	rowdest := make([]interface{}, schema.NumFields())
-	for i, f := range schema.Fields() {
-		switch f.Type.ID() {
-		case arrow.DENSE_UNION, arrow.SPARSE_UNION:
-			rowdest[i] = new(interface{})
-		case arrow.UINT8, arrow.INT8:
-			if f.Nullable {
-				rowdest[i] = &sql.NullByte{}
-			} else {
-				rowdest[i] = new(uint8)
-			}
-		case arrow.INT32:
-			if f.Nullable {
-				rowdest[i] = &sql.NullInt32{}
-			} else {
-				rowdest[i] = new(int32)
-			}
-		case arrow.INT64:
-			if f.Nullable {
-				rowdest[i] = &sql.NullInt64{}
-			} else {
-				rowdest[i] = new(int64)
-			}
-		case arrow.FLOAT32, arrow.FLOAT64:
-			if f.Nullable {
-				rowdest[i] = &sql.NullFloat64{}
-			} else {
-				rowdest[i] = new(float64)
-			}
-		case arrow.BINARY:
-			var b []byte
-			rowdest[i] = &b
-		case arrow.STRING:
-			if f.Nullable {
-				rowdest[i] = &sql.NullString{}
-			} else {
-				rowdest[i] = new(string)
-			}
-		}
-	}
-
-	return &SqlBatchReader{
-		refCount: 1,
-		bldr:     array.NewRecordBuilder(mem, schema),
-		schema:   schema,
-		rowdest:  rowdest,
-		rows:     rows}, nil
-}
-
-func NewSqlBatchReader(mem memory.Allocator, rows *sql.Rows) (*SqlBatchReader, error) {
-	bldr := flightsql.NewColumnMetadataBuilder()
-
-	cols, err := rows.ColumnTypes()
-	if err != nil {
-		rows.Close()
-		return nil, err
-	}
-
-	rowdest := make([]interface{}, len(cols))
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		fields[i].Name = c.Name()
-		if c.Name() == "?" {
-			fields[i].Name += ":" + strconv.Itoa(i)
-		}
-		fields[i].Nullable, _ = c.Nullable()
-		fields[i].Type = getArrowType(c)
-		fields[i].Metadata = getColumnMetadata(bldr, getSqlTypeFromTypeName(c.DatabaseTypeName()), "")
-		switch fields[i].Type.ID() {
-		case arrow.DENSE_UNION, arrow.SPARSE_UNION:
-			rowdest[i] = new(interface{})
-		case arrow.UINT8, arrow.INT8:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullByte{}
-			} else {
-				rowdest[i] = new(uint8)
-			}
-		case arrow.INT32:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullInt32{}
-			} else {
-				rowdest[i] = new(int32)
-			}
-		case arrow.INT64:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullInt64{}
-			} else {
-				rowdest[i] = new(int64)
-			}
-		case arrow.FLOAT64, arrow.FLOAT32:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullFloat64{}
-			} else {
-				rowdest[i] = new(float64)
-			}
-		case arrow.BINARY:
-			var b []byte
-			rowdest[i] = &b
-		case arrow.STRING:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullString{}
-			} else {
-				rowdest[i] = new(string)
-			}
-		}
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	return &SqlBatchReader{
-		refCount: 1,
-		bldr:     array.NewRecordBuilder(mem, schema),
-		schema:   schema,
-		rowdest:  rowdest,
-		rows:     rows}, nil
-}
-
-func (r *SqlBatchReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-func (r *SqlBatchReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		r.rows.Close()
-		r.rows, r.schema, r.rowdest = nil, nil, nil
-		r.bldr.Release()
-		r.bldr = nil
-		if r.record != nil {
-			r.record.Release()
-			r.record = nil
-		}
-	}
-}
-func (r *SqlBatchReader) Schema() *arrow.Schema { return r.schema }
-
-func (r *SqlBatchReader) Record() arrow.Record { return r.record }
-
-func (r *SqlBatchReader) Err() error { return r.err }
-
-func (r *SqlBatchReader) Next() bool {
-	if r.record != nil {
-		r.record.Release()
-		r.record = nil
-	}
-
-	rows := 0
-	for rows < maxBatchSize && r.rows.Next() {
-		if err := r.rows.Scan(r.rowdest...); err != nil {
-			// Not really useful except for testing Flight SQL clients
-			detail := wrapperspb.StringValue{Value: r.schema.String()}
-			if st, sterr := status.New(codes.Unknown, err.Error()).WithDetails(&detail); sterr != nil {
-				r.err = err
-			} else {
-				r.err = st.Err()
-			}
-			return false
-		}
-
-		for i, v := range r.rowdest {
-			fb := r.bldr.Field(i)
-
-			switch v := v.(type) {
-			case *uint8:
-				fb.(*array.Uint8Builder).Append(*v)
-			case *sql.NullByte:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Uint8Builder).Append(v.Byte)
-				}
-			case *int64:
-				fb.(*array.Int64Builder).Append(*v)
-			case *sql.NullInt64:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Int64Builder).Append(v.Int64)
-				}
-			case *int32:
-				fb.(*array.Int32Builder).Append(*v)
-			case *sql.NullInt32:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Int32Builder).Append(v.Int32)
-				}
-			case *float64:
-				switch b := fb.(type) {
-				case *array.Float64Builder:
-					b.Append(*v)
-				case *array.Float32Builder:
-					b.Append(float32(*v))
-				}
-			case *sql.NullFloat64:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					switch b := fb.(type) {
-					case *array.Float64Builder:
-						b.Append(v.Float64)
-					case *array.Float32Builder:
-						b.Append(float32(v.Float64))
-					}
-				}
-			case *[]byte:
-				if v == nil {
-					fb.AppendNull()
-				} else {
-					fb.(*array.BinaryBuilder).Append(*v)
-				}
-			case *string:
-				fb.(*array.StringBuilder).Append(*v)
-			case *sql.NullString:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.StringBuilder).Append(v.String)
-				}
-			}
-		}
-
-		rows++
-	}
-
-	r.record = r.bldr.NewRecord()
-	return rows > 0
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_info.go b/go/arrow/flight/flightsql/example/sqlite_info.go
deleted file mode 100644
index 6135911c7b908..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_info.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-func SqlInfoResultMap() flightsql.SqlInfoResultMap {
-	return flightsql.SqlInfoResultMap{
-		uint32(flightsql.SqlInfoFlightSqlServerName):         "db_name",
-		uint32(flightsql.SqlInfoFlightSqlServerVersion):      "sqlite 3",
-		uint32(flightsql.SqlInfoFlightSqlServerArrowVersion): arrow.PkgVersion,
-		uint32(flightsql.SqlInfoFlightSqlServerReadOnly):     false,
-		uint32(flightsql.SqlInfoDDLCatalog):                  false,
-		uint32(flightsql.SqlInfoDDLSchema):                   false,
-		uint32(flightsql.SqlInfoDDLTable):                    true,
-		uint32(flightsql.SqlInfoIdentifierCase):              int64(flightsql.SqlCaseSensitivityCaseInsensitive),
-		uint32(flightsql.SqlInfoIdentifierQuoteChar):         `"`,
-		uint32(flightsql.SqlInfoQuotedIdentifierCase):        int64(flightsql.SqlCaseSensitivityCaseInsensitive),
-		uint32(flightsql.SqlInfoAllTablesAreASelectable):     true,
-		uint32(flightsql.SqlInfoNullOrdering):                int64(flightsql.SqlNullOrderingSortAtStart),
-		uint32(flightsql.SqlInfoFlightSqlServerTransaction):  int32(flightsql.SqlTransactionTransaction),
-		uint32(flightsql.SqlInfoTransactionsSupported):       true,
-		uint32(flightsql.SqlInfoKeywords): []string{"ABORT",
-			"ACTION",
-			"ADD",
-			"AFTER",
-			"ALL",
-			"ALTER",
-			"ALWAYS",
-			"ANALYZE",
-			"AND",
-			"AS",
-			"ASC",
-			"ATTACH",
-			"AUTOINCREMENT",
-			"BEFORE",
-			"BEGIN",
-			"BETWEEN",
-			"BY",
-			"CASCADE",
-			"CASE",
-			"CAST",
-			"CHECK",
-			"COLLATE",
-			"COLUMN",
-			"COMMIT",
-			"CONFLICT",
-			"CONSTRAINT",
-			"CREATE",
-			"CROSS",
-			"CURRENT",
-			"CURRENT_DATE",
-			"CURRENT_TIME",
-			"CURRENT_TIMESTAMP",
-			"DATABASE",
-			"DEFAULT",
-			"DEFERRABLE",
-			"DEFERRED",
-			"DELETE",
-			"DESC",
-			"DETACH",
-			"DISTINCT",
-			"DO",
-			"DROP",
-			"EACH",
-			"ELSE",
-			"END",
-			"ESCAPE",
-			"EXCEPT",
-			"EXCLUDE",
-			"EXCLUSIVE",
-			"EXISTS",
-			"EXPLAIN",
-			"FAIL",
-			"FILTER",
-			"FIRST",
-			"FOLLOWING",
-			"FOR",
-			"FOREIGN",
-			"FROM",
-			"FULL",
-			"GENERATED",
-			"GLOB",
-			"GROUP",
-			"GROUPS",
-			"HAVING",
-			"IF",
-			"IGNORE",
-			"IMMEDIATE",
-			"IN",
-			"INDEX",
-			"INDEXED",
-			"INITIALLY",
-			"INNER",
-			"INSERT",
-			"INSTEAD",
-			"INTERSECT",
-			"INTO",
-			"IS",
-			"ISNULL",
-			"JOIN",
-			"KEY",
-			"LAST",
-			"LEFT",
-			"LIKE",
-			"LIMIT",
-			"MATCH",
-			"MATERIALIZED",
-			"NATURAL",
-			"NO",
-			"NOT",
-			"NOTHING",
-			"NOTNULL",
-			"NULL",
-			"NULLS",
-			"OF",
-			"OFFSET",
-			"ON",
-			"OR",
-			"ORDER",
-			"OTHERS",
-			"OUTER",
-			"OVER",
-			"PARTITION",
-			"PLAN",
-			"PRAGMA",
-			"PRECEDING",
-			"PRIMARY",
-			"QUERY",
-			"RAISE",
-			"RANGE",
-			"RECURSIVE",
-			"REFERENCES",
-			"REGEXP",
-			"REINDEX",
-			"RELEASE",
-			"RENAME",
-			"REPLACE",
-			"RESTRICT",
-			"RETURNING",
-			"RIGHT",
-			"ROLLBACK",
-			"ROW",
-			"ROWS",
-			"SAVEPOINT",
-			"SELECT",
-			"SET",
-			"TABLE",
-			"TEMP",
-			"TEMPORARY",
-			"THEN",
-			"TIES",
-			"TO",
-			"TRANSACTION",
-			"TRIGGER",
-			"UNBOUNDED",
-			"UNION",
-			"UNIQUE",
-			"UPDATE",
-			"USING",
-			"VACUUM",
-			"VALUES",
-			"VIEW",
-			"VIRTUAL",
-			"WHEN",
-			"WHERE",
-			"WINDOW",
-			"WITH",
-			"WITHOUT"},
-		uint32(flightsql.SqlInfoNumericFunctions): []string{
-			"ACOS", "ACOSH", "ASIN", "ASINH", "ATAN", "ATAN2", "ATANH", "CEIL",
-			"CEILING", "COS", "COSH", "DEGREES", "EXP", "FLOOR", "LN", "LOG",
-			"LOG10", "LOG2", "MOD", "PI", "POW", "POWER", "RADIANS",
-			"SIN", "SINH", "SQRT", "TAN", "TANH", "TRUNC"},
-		uint32(flightsql.SqlInfoStringFunctions): []string{"SUBSTR", "TRIM", "LTRIM", "RTRIM", "LENGTH",
-			"REPLACE", "UPPER", "LOWER", "INSTR"},
-		uint32(flightsql.SqlInfoSupportsConvert): map[int32][]int32{
-			int32(flightsql.SqlConvertBigInt): {int32(flightsql.SqlConvertInteger)},
-		},
-	}
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_server.go b/go/arrow/flight/flightsql/example/sqlite_server.go
deleted file mode 100644
index 6a2b80e0dbc36..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_server.go
+++ /dev/null
@@ -1,800 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-// Package example contains a FlightSQL Server implementation using
-// sqlite as the backing engine.
-//
-// In order to ensure portability we'll use modernc.org/sqlite instead
-// of github.com/mattn/go-sqlite3 because modernc is a translation of the
-// SQLite source into Go, such that it doesn't require CGO to run and
-// doesn't need to link against the actual libsqlite3 libraries. This way
-// we don't require CGO or libsqlite3 to run this example or the tests.
-//
-// That said, since both implement in terms of Go's standard database/sql
-// package, it's easy to swap them out if desired as the modernc.org/sqlite
-// package is slower than go-sqlite3.
-//
-// One other important note is that modernc.org/sqlite only works
-// correctly (specifically pragma_table_info) in go 1.18+ so this
-// entire package is given the build constraint to only build when
-// using go1.18 or higher
-package example
-
-import (
-	"bytes"
-	"context"
-	"database/sql"
-	"fmt"
-	"math/rand"
-	"strings"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	_ "modernc.org/sqlite"
-)
-
-func genRandomString() []byte {
-	const length = 16
-	max := int('z')
-	// don't include ':' as a valid byte to generate
-	// because we use it as a separator for the transactions
-	min := int('<')
-
-	out := make([]byte, length)
-	for i := range out {
-		out[i] = byte(rand.Intn(max-min+1) + min)
-	}
-	return out
-}
-
-func prepareQueryForGetTables(cmd flightsql.GetTables) string {
-	var b strings.Builder
-	b.WriteString(`SELECT 'main' AS catalog_name, '' AS schema_name,
-		name AS table_name, type AS table_type FROM sqlite_master WHERE 1=1`)
-
-	if cmd.GetCatalog() != nil {
-		b.WriteString(" and catalog_name = '")
-		b.WriteString(*cmd.GetCatalog())
-		b.WriteByte('\'')
-	}
-
-	if cmd.GetDBSchemaFilterPattern() != nil {
-		b.WriteString(" and schema_name LIKE '")
-		b.WriteString(*cmd.GetDBSchemaFilterPattern())
-		b.WriteByte('\'')
-	}
-
-	if cmd.GetTableNameFilterPattern() != nil {
-		b.WriteString(" and table_name LIKE '")
-		b.WriteString(*cmd.GetTableNameFilterPattern())
-		b.WriteByte('\'')
-	}
-
-	if len(cmd.GetTableTypes()) > 0 {
-		b.WriteString(" and table_type IN (")
-		for i, t := range cmd.GetTableTypes() {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			fmt.Fprintf(&b, "'%s'", t)
-		}
-		b.WriteByte(')')
-	}
-
-	b.WriteString(" order by table_name")
-	return b.String()
-}
-
-func prepareQueryForGetKeys(filter string) string {
-	return `SELECT * FROM (
-		SELECT
-			NULL AS pk_catalog_name,
-			NULL AS pk_schema_name,
-			p."table" AS pk_table_name,
-			p."to" AS pk_column_name,
-			NULL AS fk_catalog_name,
-			NULL AS fk_schema_name,
-			m.name AS fk_table_name,
-			p."from" AS fk_column_name,
-			p.seq AS key_sequence,
-			NULL AS pk_key_name,
-			NULL AS fk_key_name,
-			CASE
-				WHEN p.on_update = 'CASCADE' THEN 0
-				WHEN p.on_update = 'RESTRICT' THEN 1
-				WHEN p.on_update = 'SET NULL' THEN 2
-				WHEN p.on_update = 'NO ACTION' THEN 3
-				WHEN p.on_update = 'SET DEFAULT' THEN 4
-			END AS update_rule,
-			CASE
-				WHEN p.on_delete = 'CASCADE' THEN 0
-				WHEN p.on_delete = 'RESTRICT' THEN 1
-				WHEN p.on_delete = 'SET NULL' THEN 2
-				WHEN p.on_delete = 'NO ACTION' THEN 3
-				WHEN p.on_delete = 'SET DEFAULT' THEN 4
-			END AS delete_rule
-		FROM sqlite_master m
-		JOIN pragma_foreign_key_list(m.name) p ON m.name != p."table"
-		WHERE m.type = 'table') WHERE ` + filter +
-		` ORDER BY pk_catalog_name, pk_schema_name, pk_table_name, pk_key_name, key_sequence`
-}
-
-func CreateDB() (*sql.DB, error) {
-	db, err := sql.Open("sqlite", "file::memory:?cache=shared")
-	if err != nil {
-		return nil, err
-	}
-
-	_, err = db.Exec(`
-	CREATE TABLE foreignTable (
-		id INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,
-		foreignName varchar(100),
-		value int);
-
-	CREATE TABLE intTable (
-		id INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,
-		keyName varchar(100),
-		value int,
-		foreignId int references foreignTable(id));
-
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyOne', 1);
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyTwo', 0);
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyThree', -1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('one', 1, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('zero', 0, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('negative one', -1, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES (NULL, NULL, NULL);
-	`)
-	if err != nil {
-		db.Close()
-		return nil, err
-	}
-
-	return db, nil
-}
-
-func encodeTransactionQuery(query string, transactionID flightsql.Transaction) ([]byte, error) {
-	return flightsql.CreateStatementQueryTicket(
-		bytes.Join([][]byte{transactionID, []byte(query)}, []byte(":")))
-}
-
-func decodeTransactionQuery(ticket []byte) (txnID, query string, err error) {
-	id, queryBytes, found := bytes.Cut(ticket, []byte(":"))
-	if !found {
-		err = fmt.Errorf("%w: malformed ticket", arrow.ErrInvalid)
-		return
-	}
-
-	txnID = string(id)
-	query = string(queryBytes)
-	return
-}
-
-type Statement struct {
-	stmt   *sql.Stmt
-	params [][]interface{}
-}
-
-type SQLiteFlightSQLServer struct {
-	flightsql.BaseServer
-	db *sql.DB
-
-	prepared         sync.Map
-	openTransactions sync.Map
-}
-
-func NewSQLiteFlightSQLServer(db *sql.DB) (*SQLiteFlightSQLServer, error) {
-	ret := &SQLiteFlightSQLServer{db: db}
-	ret.Alloc = memory.DefaultAllocator
-	for k, v := range SqlInfoResultMap() {
-		ret.RegisterSqlInfo(flightsql.SqlInfo(k), v)
-	}
-	return ret, nil
-}
-
-func (s *SQLiteFlightSQLServer) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		Schema:           flight.SerializeSchema(schema, s.Alloc),
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	query, txnid := cmd.GetQuery(), cmd.GetTransactionId()
-	tkt, err := encodeTransactionQuery(query, txnid)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: tkt}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	txnid, query, err := decodeTransactionQuery(cmd.GetStatementHandle())
-	if err != nil {
-		return nil, nil, err
-	}
-
-	var db dbQueryCtx = s.db
-	if txnid != "" {
-		tx, loaded := s.openTransactions.Load(txnid)
-		if !loaded {
-			return nil, nil, fmt.Errorf("%w: invalid transaction id specified: %s", arrow.ErrInvalid, txnid)
-		}
-		db = tx.(*sql.Tx)
-	}
-
-	return doGetQuery(ctx, s.Alloc, db, query, nil)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.Catalogs), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// https://www.sqlite.org/cli.html
-	// > The ".databases" command shows a list of all databases open
-	// > in the current connection. There will always be at least
-	// > 2. The first one is "main", the original database opened. The
-	// > second is "temp", the database used for temporary tables.
-	// For our purposes, return only "main" and ignore other databases.
-
-	schema := schema_ref.Catalogs
-
-	catalogs, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`["main"]`))
-	if err != nil {
-		return nil, nil, err
-	}
-	defer catalogs.Release()
-
-	batch := array.NewRecord(schema, []arrow.Array{catalogs}, 1)
-
-	ch := make(chan flight.StreamChunk, 1)
-	ch <- flight.StreamChunk{Data: batch}
-	close(ch)
-
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetDBSchemas(_ context.Context, cmd flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// SQLite doesn't support schemas, so pretend we have a single unnamed schema.
-	schema := schema_ref.DBSchemas
-
-	ch := make(chan flight.StreamChunk, 1)
-
-	if cmd.GetDBSchemaFilterPattern() == nil || *cmd.GetDBSchemaFilterPattern() == "" {
-		catalogs, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`["main"]`))
-		if err != nil {
-			return nil, nil, err
-		}
-		defer catalogs.Release()
-
-		dbSchemas, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`[""]`))
-		if err != nil {
-			return nil, nil, err
-		}
-		defer dbSchemas.Release()
-
-		batch := array.NewRecord(schema, []arrow.Array{catalogs, dbSchemas}, 1)
-		ch <- flight.StreamChunk{Data: batch}
-	}
-
-	close(ch)
-
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	schema := schema_ref.Tables
-	if cmd.GetIncludeSchema() {
-		schema = schema_ref.TablesWithIncludedSchema
-	}
-	return s.flightInfoForCommand(desc, schema), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetTables(ctx context.Context, cmd flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	query := prepareQueryForGetTables(cmd)
-
-	rows, err := s.db.QueryContext(ctx, query)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	var rdr array.RecordReader
-
-	rdr, err = NewSqlBatchReaderWithSchema(s.Alloc, schema_ref.Tables, rows)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	ch := make(chan flight.StreamChunk, 2)
-	if cmd.GetIncludeSchema() {
-		rdr, err = NewSqliteTablesSchemaBatchReader(ctx, s.Alloc, rdr, s.db, query)
-		if err != nil {
-			return nil, nil, err
-		}
-	}
-
-	schema := rdr.Schema()
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoXdbcTypeInfo(_ context.Context, _ flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	var batch arrow.Record
-	if cmd.GetDataType() == nil {
-		batch = GetTypeInfoResult(s.Alloc)
-	} else {
-		batch = GetFilteredTypeInfoResult(s.Alloc, *cmd.GetDataType())
-	}
-
-	ch := make(chan flight.StreamChunk, 1)
-	ch <- flight.StreamChunk{Data: batch}
-	close(ch)
-	return batch.Schema(), ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetTableTypes(ctx context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	query := "SELECT DISTINCT type AS table_type FROM sqlite_master"
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.TableTypes)
-}
-
-func (s *SQLiteFlightSQLServer) DoPutCommandStatementUpdate(ctx context.Context, cmd flightsql.StatementUpdate) (int64, error) {
-	var (
-		res sql.Result
-		err error
-	)
-
-	if len(cmd.GetTransactionId()) > 0 {
-		tx, loaded := s.openTransactions.Load(string(cmd.GetTransactionId()))
-		if !loaded {
-			return -1, status.Error(codes.InvalidArgument, "invalid transaction handle provided")
-		}
-
-		res, err = tx.(*sql.Tx).ExecContext(ctx, cmd.GetQuery())
-	} else {
-		res, err = s.db.ExecContext(ctx, cmd.GetQuery())
-	}
-
-	if err != nil {
-		return 0, err
-	}
-	return res.RowsAffected()
-}
-
-func (s *SQLiteFlightSQLServer) CreatePreparedStatement(ctx context.Context, req flightsql.ActionCreatePreparedStatementRequest) (result flightsql.ActionCreatePreparedStatementResult, err error) {
-	var stmt *sql.Stmt
-
-	if len(req.GetTransactionId()) > 0 {
-		tx, loaded := s.openTransactions.Load(string(req.GetTransactionId()))
-		if !loaded {
-			return result, status.Error(codes.InvalidArgument, "invalid transaction handle provided")
-		}
-		stmt, err = tx.(*sql.Tx).PrepareContext(ctx, req.GetQuery())
-	} else {
-		stmt, err = s.db.PrepareContext(ctx, req.GetQuery())
-	}
-
-	if err != nil {
-		return result, err
-	}
-
-	handle := genRandomString()
-	s.prepared.Store(string(handle), Statement{stmt: stmt})
-
-	result.Handle = handle
-	// no way to get the dataset or parameter schemas from sql.DB
-	return
-}
-
-func (s *SQLiteFlightSQLServer) ClosePreparedStatement(ctx context.Context, request flightsql.ActionClosePreparedStatementRequest) error {
-	handle := request.GetPreparedStatementHandle()
-	if val, loaded := s.prepared.LoadAndDelete(string(handle)); loaded {
-		stmt := val.(Statement)
-		return stmt.stmt.Close()
-	}
-
-	return status.Error(codes.InvalidArgument, "prepared statement not found")
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	_, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-type dbQueryCtx interface {
-	QueryContext(context.Context, string, ...any) (*sql.Rows, error)
-}
-
-func doGetQuery(ctx context.Context, mem memory.Allocator, db dbQueryCtx, query string, schema *arrow.Schema, args ...interface{}) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	rows, err := db.QueryContext(ctx, query, args...)
-	if err != nil {
-		// Not really useful except for testing Flight SQL clients
-		trailers := metadata.Pairs("afsql-sqlite-query", query)
-		grpc.SetTrailer(ctx, trailers)
-		return nil, nil, err
-	}
-
-	var rdr *SqlBatchReader
-	if schema != nil {
-		rdr, err = NewSqlBatchReaderWithSchema(mem, schema, rows)
-	} else {
-		rdr, err = NewSqlBatchReader(mem, rows)
-		if err == nil {
-			schema = rdr.schema
-		}
-	}
-
-	if err != nil {
-		return nil, nil, err
-	}
-
-	ch := make(chan flight.StreamChunk)
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery) (schema *arrow.Schema, out <-chan flight.StreamChunk, err error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	readers := make([]array.RecordReader, 0, len(stmt.params))
-	if len(stmt.params) == 0 {
-		rows, err := stmt.stmt.QueryContext(ctx)
-		if err != nil {
-			return nil, nil, err
-		}
-
-		rdr, err := NewSqlBatchReader(s.Alloc, rows)
-		if err != nil {
-			return nil, nil, err
-		}
-
-		schema = rdr.schema
-		readers = append(readers, rdr)
-	} else {
-		defer func() {
-			if err != nil {
-				for _, r := range readers {
-					r.Release()
-				}
-			}
-		}()
-		var (
-			rows *sql.Rows
-			rdr  *SqlBatchReader
-		)
-		// if we have multiple rows of bound params, execute the query
-		// multiple times and concatenate the result sets.
-		for _, p := range stmt.params {
-			rows, err = stmt.stmt.QueryContext(ctx, p...)
-			if err != nil {
-				return nil, nil, err
-			}
-
-			if schema == nil {
-				rdr, err = NewSqlBatchReader(s.Alloc, rows)
-				if err != nil {
-					return nil, nil, err
-				}
-				schema = rdr.schema
-			} else {
-				rdr, err = NewSqlBatchReaderWithSchema(s.Alloc, schema, rows)
-				if err != nil {
-					return nil, nil, err
-				}
-			}
-
-			readers = append(readers, rdr)
-		}
-	}
-
-	ch := make(chan flight.StreamChunk)
-	go flight.ConcatenateReaders(readers, ch)
-	out = ch
-	return
-}
-
-func scalarToIFace(s scalar.Scalar) (interface{}, error) {
-	if !s.IsValid() {
-		return nil, nil
-	}
-
-	switch val := s.(type) {
-	case *scalar.Int8:
-		return val.Value, nil
-	case *scalar.Uint8:
-		return val.Value, nil
-	case *scalar.Int32:
-		return val.Value, nil
-	case *scalar.Int64:
-		return val.Value, nil
-	case *scalar.Float32:
-		return val.Value, nil
-	case *scalar.Float64:
-		return val.Value, nil
-	case *scalar.String:
-		return string(val.Value.Bytes()), nil
-	case *scalar.Binary:
-		return val.Value.Bytes(), nil
-	case scalar.DateScalar:
-		return val.ToTime(), nil
-	case scalar.TimeScalar:
-		return val.ToTime(), nil
-	case *scalar.DenseUnion:
-		return scalarToIFace(val.Value)
-	default:
-		return nil, fmt.Errorf("unsupported type: %s", val)
-	}
-}
-
-func getParamsForStatement(rdr flight.MessageReader) (params [][]interface{}, err error) {
-	params = make([][]interface{}, 0)
-	for rdr.Next() {
-		rec := rdr.Record()
-
-		nrows := int(rec.NumRows())
-		ncols := int(rec.NumCols())
-
-		for i := 0; i < nrows; i++ {
-			invokeParams := make([]interface{}, ncols)
-			for c := 0; c < ncols; c++ {
-				col := rec.Column(c)
-				sc, err := scalar.GetScalar(col, i)
-				if err != nil {
-					return nil, err
-				}
-				if r, ok := sc.(scalar.Releasable); ok {
-					r.Release()
-				}
-
-				invokeParams[c], err = scalarToIFace(sc)
-				if err != nil {
-					return nil, err
-				}
-			}
-			params = append(params, invokeParams)
-		}
-	}
-
-	return params, rdr.Err()
-}
-
-func (s *SQLiteFlightSQLServer) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) ([]byte, error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	args, err := getParamsForStatement(rdr)
-	if err != nil {
-		return nil, status.Errorf(codes.Internal, "error gathering parameters for prepared statement query: %s", err.Error())
-	}
-
-	stmt.params = args
-	s.prepared.Store(string(cmd.GetPreparedStatementHandle()), stmt)
-	return cmd.GetPreparedStatementHandle(), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoPutPreparedStatementUpdate(ctx context.Context, cmd flightsql.PreparedStatementUpdate, rdr flight.MessageReader) (int64, error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return 0, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	args, err := getParamsForStatement(rdr)
-	if err != nil {
-		return 0, status.Errorf(codes.Internal, "error gathering parameters for prepared statement: %s", err.Error())
-	}
-
-	if len(args) == 0 {
-		result, err := stmt.stmt.ExecContext(ctx)
-		if err != nil {
-			if strings.Contains(err.Error(), "no such table") {
-				return 0, status.Error(codes.NotFound, err.Error())
-			}
-			return 0, err
-		}
-
-		return result.RowsAffected()
-	}
-
-	var totalAffected int64
-	for _, p := range args {
-		result, err := stmt.stmt.ExecContext(ctx, p...)
-		if err != nil {
-			if strings.Contains(err.Error(), "no such table") {
-				return totalAffected, status.Error(codes.NotFound, err.Error())
-			}
-			return totalAffected, err
-		}
-
-		n, err := result.RowsAffected()
-		if err != nil {
-			return totalAffected, err
-		}
-		totalAffected += n
-	}
-
-	return totalAffected, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetPrimaryKeys(ctx context.Context, cmd flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// the field key_name cannot be recovered by sqlite so it is
-	// being set to null following the same pattern for catalog name and schema_name
-	var b strings.Builder
-
-	b.WriteString(`
-	SELECT null AS catalog_name, null AS schema_name, table_name, name AS column_name, pk AS key_sequence, null as key_name
-	FROM pragma_table_info(table_name)
-		JOIN (SELECT null AS catalog_name, null AS schema_name, name AS table_name, type AS table_type
-			FROM sqlite_master) where 1=1 AND pk !=0`)
-
-	if cmd.Catalog != nil {
-		fmt.Fprintf(&b, " and catalog_name LIKE '%s'", *cmd.Catalog)
-	}
-	if cmd.DBSchema != nil {
-		fmt.Fprintf(&b, " and schema_name LIKE '%s'", *cmd.DBSchema)
-	}
-
-	fmt.Fprintf(&b, " and table_name LIKE '%s'", cmd.Table)
-
-	return doGetQuery(ctx, s.Alloc, s.db, b.String(), schema_ref.PrimaryKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoImportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetImportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	filter := "fk_table_name = '" + ref.Table + "'"
-	if ref.Catalog != nil {
-		filter += " AND fk_catalog_name = '" + *ref.Catalog + "'"
-	}
-	if ref.DBSchema != nil {
-		filter += " AND fk_schema_name = '" + *ref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ImportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoExportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetExportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	filter := "pk_table_name = '" + ref.Table + "'"
-	if ref.Catalog != nil {
-		filter += " AND pk_catalog_name = '" + *ref.Catalog + "'"
-	}
-	if ref.DBSchema != nil {
-		filter += " AND pk_schema_name = '" + *ref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoCrossReference(_ context.Context, _ flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.CrossReference), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetCrossReference(ctx context.Context, cmd flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	pkref := cmd.PKRef
-	filter := "pk_table_name = '" + pkref.Table + "'"
-	if pkref.Catalog != nil {
-		filter += " AND pk_catalog_name = '" + *pkref.Catalog + "'"
-	}
-	if pkref.DBSchema != nil {
-		filter += " AND pk_schema_name = '" + *pkref.DBSchema + "'"
-	}
-
-	fkref := cmd.FKRef
-	filter += " AND fk_table_name = '" + fkref.Table + "'"
-	if fkref.Catalog != nil {
-		filter += " AND fk_catalog_name = '" + *fkref.Catalog + "'"
-	}
-	if fkref.DBSchema != nil {
-		filter += " AND fk_schema_name = '" + *fkref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) BeginTransaction(_ context.Context, req flightsql.ActionBeginTransactionRequest) (id []byte, err error) {
-	tx, err := s.db.Begin()
-	if err != nil {
-		return nil, status.Errorf(codes.Internal, "failed to begin transaction: %s", err.Error())
-	}
-
-	handle := genRandomString()
-	s.openTransactions.Store(string(handle), tx)
-	return handle, nil
-}
-
-func (s *SQLiteFlightSQLServer) EndTransaction(_ context.Context, req flightsql.ActionEndTransactionRequest) error {
-	if req.GetAction() == flightsql.EndTransactionUnspecified {
-		return status.Error(codes.InvalidArgument, "must specify Commit or Rollback to end transaction")
-	}
-
-	handle := string(req.GetTransactionId())
-	if tx, loaded := s.openTransactions.LoadAndDelete(handle); loaded {
-		txn := tx.(*sql.Tx)
-		switch req.GetAction() {
-		case flightsql.EndTransactionCommit:
-			if err := txn.Commit(); err != nil {
-				return status.Error(codes.Internal, "failed to commit transaction: "+err.Error())
-			}
-		case flightsql.EndTransactionRollback:
-			if err := txn.Rollback(); err != nil {
-				return status.Error(codes.Internal, "failed to rollback transaction: "+err.Error())
-			}
-		}
-		return nil
-	}
-
-	return status.Error(codes.InvalidArgument, "transaction id not found")
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go b/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
deleted file mode 100644
index 373be784b9145..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"context"
-	"database/sql"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	sqlite3 "modernc.org/sqlite/lib"
-)
-
-type SqliteTablesSchemaBatchReader struct {
-	refCount int64
-
-	mem        memory.Allocator
-	ctx        context.Context
-	rdr        array.RecordReader
-	stmt       *sql.Stmt
-	schemaBldr *array.BinaryBuilder
-	record     arrow.Record
-	err        error
-}
-
-func NewSqliteTablesSchemaBatchReader(ctx context.Context, mem memory.Allocator, rdr array.RecordReader, db *sql.DB, mainQuery string) (*SqliteTablesSchemaBatchReader, error) {
-	schemaQuery := `SELECT table_name, name, type, [notnull] 
-					FROM pragma_table_info(table_name)
-					JOIN (` + mainQuery + `) WHERE table_name = ?`
-
-	stmt, err := db.PrepareContext(ctx, schemaQuery)
-	if err != nil {
-		rdr.Release()
-		return nil, err
-	}
-
-	return &SqliteTablesSchemaBatchReader{
-		refCount:   1,
-		ctx:        ctx,
-		rdr:        rdr,
-		stmt:       stmt,
-		mem:        mem,
-		schemaBldr: array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary),
-	}, nil
-}
-
-func (s *SqliteTablesSchemaBatchReader) Err() error { return s.err }
-
-func (s *SqliteTablesSchemaBatchReader) Retain() { atomic.AddInt64(&s.refCount, 1) }
-
-func (s *SqliteTablesSchemaBatchReader) Release() {
-	debug.Assert(atomic.LoadInt64(&s.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&s.refCount, -1) == 0 {
-		s.rdr.Release()
-		s.stmt.Close()
-		s.schemaBldr.Release()
-		if s.record != nil {
-			s.record.Release()
-			s.record = nil
-		}
-	}
-}
-
-func (s *SqliteTablesSchemaBatchReader) Schema() *arrow.Schema {
-	fields := append(s.rdr.Schema().Fields(),
-		arrow.Field{Name: "table_schema", Type: arrow.BinaryTypes.Binary})
-	return arrow.NewSchema(fields, nil)
-}
-
-func (s *SqliteTablesSchemaBatchReader) Record() arrow.Record { return s.record }
-
-func getSqlTypeFromTypeName(sqltype string) int {
-	if sqltype == "" {
-		return sqlite3.SQLITE_NULL
-	}
-
-	sqltype = strings.ToLower(sqltype)
-
-	if strings.HasPrefix(sqltype, "varchar") || strings.HasPrefix(sqltype, "char") {
-		return sqlite3.SQLITE_TEXT
-	}
-
-	switch sqltype {
-	case "int", "integer":
-		return sqlite3.SQLITE_INTEGER
-	case "real":
-		return sqlite3.SQLITE_FLOAT
-	case "blob":
-		return sqlite3.SQLITE_BLOB
-	case "text", "date":
-		return sqlite3.SQLITE_TEXT
-	default:
-		return sqlite3.SQLITE_NULL
-	}
-}
-
-func getPrecisionFromCol(sqltype int) int {
-	switch sqltype {
-	case sqlite3.SQLITE_INTEGER:
-		return 10
-	case sqlite3.SQLITE_FLOAT:
-		return 15
-	}
-	return 0
-}
-
-func getColumnMetadata(bldr *flightsql.ColumnMetadataBuilder, sqltype int, table string) arrow.Metadata {
-	defer bldr.Clear()
-
-	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
-	if table != "" {
-		bldr.TableName(table)
-	}
-	switch sqltype {
-	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
-	default:
-		bldr.Precision(int32(getPrecisionFromCol(sqltype)))
-	}
-
-	return bldr.Metadata()
-}
-
-func (s *SqliteTablesSchemaBatchReader) Next() bool {
-	if s.record != nil {
-		s.record.Release()
-		s.record = nil
-	}
-
-	if !s.rdr.Next() {
-		return false
-	}
-
-	rec := s.rdr.Record()
-	tableNameArr := rec.Column(rec.Schema().FieldIndices("table_name")[0]).(*array.String)
-
-	bldr := flightsql.NewColumnMetadataBuilder()
-	columnFields := make([]arrow.Field, 0)
-	for i := 0; i < tableNameArr.Len(); i++ {
-		table := tableNameArr.Value(i)
-		rows, err := s.stmt.QueryContext(s.ctx, table)
-		if err != nil {
-			s.err = err
-			return false
-		}
-
-		var tableName, name, typ string
-		var nn int
-		for rows.Next() {
-			if err := rows.Scan(&tableName, &name, &typ, &nn); err != nil {
-				rows.Close()
-				s.err = err
-				return false
-			}
-
-			columnFields = append(columnFields, arrow.Field{
-				Name:     name,
-				Type:     getArrowTypeFromString(typ),
-				Nullable: nn == 0,
-				Metadata: getColumnMetadata(bldr, getSqlTypeFromTypeName(typ), tableName),
-			})
-		}
-
-		rows.Close()
-		if rows.Err() != nil {
-			s.err = rows.Err()
-			return false
-		}
-		val := flight.SerializeSchema(arrow.NewSchema(columnFields, nil), s.mem)
-		s.schemaBldr.Append(val)
-
-		columnFields = columnFields[:0]
-	}
-
-	schemaCol := s.schemaBldr.NewArray()
-	defer schemaCol.Release()
-
-	s.record = array.NewRecord(s.Schema(), append(rec.Columns(), schemaCol), rec.NumRows())
-	return true
-}
diff --git a/go/arrow/flight/flightsql/example/type_info.go b/go/arrow/flight/flightsql/example/type_info.go
deleted file mode 100644
index 5e5e52cf2a4cf..0000000000000
--- a/go/arrow/flight/flightsql/example/type_info.go
+++ /dev/null
@@ -1,118 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func GetTypeInfoResult(mem memory.Allocator) arrow.Record {
-	typeNames, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["bit", "tinyint", "bigint", "longvarbinary",
-						    "varbinary", "text", "longvarchar", "char",
-							"integer", "smallint", "float", "double",
-							"numeric", "varchar", "date", "time", "timestamp"]`))
-	defer typeNames.Release()
-
-	dataType, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93]`))
-	defer dataType.Release()
-
-	columnSize, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 3, 19, 65536, 255, 65536, 65536, 255, 9, 5, 7, 15, 15, 255, 10, 8, 32]`))
-	defer columnSize.Release()
-
-	literalPrefix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
-	defer literalPrefix.Release()
-
-	literalSuffix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
-	defer literalSuffix.Release()
-
-	createParams, _, _ := array.FromJSON(mem, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}),
-		strings.NewReader(`[[], [], [], [], [], ["length"], ["length"], ["length"], [], [], [], [], [], ["length"], [], [], []]`))
-	defer createParams.Release()
-
-	nullable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]`))
-	defer nullable.Release()
-
-	// reference for creating a boolean() array with only zeros
-	zeroBoolArray, _, err := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`), array.WithUseNumber())
-	if err != nil {
-		panic(err)
-	}
-	defer zeroBoolArray.Release()
-	caseSensitive := zeroBoolArray
-
-	searchable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]`))
-	defer searchable.Release()
-
-	unsignedAttribute := zeroBoolArray
-	fixedPrecScale := zeroBoolArray
-	autoUniqueVal := zeroBoolArray
-
-	localTypeName := typeNames
-
-	zeroIntArray, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`))
-	defer zeroIntArray.Release()
-
-	minimalScale := zeroIntArray
-	maximumScale := zeroIntArray
-	sqlDataType := dataType
-	sqlDateTimeSub := zeroIntArray
-	numPrecRadix := zeroIntArray
-	intervalPrecision := zeroIntArray
-
-	return array.NewRecord(schema_ref.XdbcTypeInfo, []arrow.Array{
-		typeNames, dataType, columnSize, literalPrefix, literalSuffix,
-		createParams, nullable, caseSensitive, searchable, unsignedAttribute,
-		fixedPrecScale, autoUniqueVal, localTypeName, minimalScale, maximumScale,
-		sqlDataType, sqlDateTimeSub, numPrecRadix, intervalPrecision}, 17)
-}
-
-func GetFilteredTypeInfoResult(mem memory.Allocator, filter int32) arrow.Record {
-	batch := GetTypeInfoResult(mem)
-	defer batch.Release()
-
-	dataTypeVector := []int32{-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93}
-	start, end := -1, -1
-	for i, v := range dataTypeVector {
-		if filter == v {
-			if start == -1 {
-				start = i
-			}
-		} else if start != -1 && end == -1 {
-			end = i
-			break
-		}
-	}
-
-	return batch.NewSlice(int64(start), int64(end))
-}
diff --git a/go/arrow/flight/flightsql/schema_ref/reference_schemas.go b/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
deleted file mode 100644
index d9ba7767feb83..0000000000000
--- a/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package schema_ref contains the expected reference Schemas to be used
-// by FlightSQL servers and clients.
-package schema_ref
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-var (
-	Catalogs = arrow.NewSchema(
-		[]arrow.Field{{Name: "catalog_name", Type: arrow.BinaryTypes.String}}, nil)
-	DBSchemas = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String},
-	}, nil)
-	Tables = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-	}, nil)
-	TablesWithIncludedSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-		{Name: "table_schema", Type: arrow.BinaryTypes.Binary},
-	}, nil)
-	TableTypes = arrow.NewSchema([]arrow.Field{
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-	}, nil)
-	PrimaryKeys = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "column_name", Type: arrow.BinaryTypes.String},
-		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, nil)
-	ImportedExportedKeysAndCrossReference = arrow.NewSchema([]arrow.Field{
-		{Name: "pk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "pk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "fk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "fk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "fk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "fk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "fk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "update_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
-		{Name: "delete_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
-	}, nil)
-	ImportedKeys   = ImportedExportedKeysAndCrossReference
-	ExportedKeys   = ImportedExportedKeysAndCrossReference
-	CrossReference = ImportedExportedKeysAndCrossReference
-	SqlInfo        = arrow.NewSchema([]arrow.Field{
-		{Name: "info_name", Type: arrow.PrimitiveTypes.Uint32},
-		{Name: "value", Type: arrow.DenseUnionOf([]arrow.Field{
-			{Name: "string_value", Type: arrow.BinaryTypes.String},
-			{Name: "bool_value", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "bigint_value", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "int32_bitmask", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "string_list", Type: arrow.ListOf(arrow.BinaryTypes.String)},
-			{Name: "int32_to_int32_list_map",
-				Type: arrow.MapOf(arrow.PrimitiveTypes.Int32,
-					arrow.ListOf(arrow.PrimitiveTypes.Int32))},
-		}, []arrow.UnionTypeCode{0, 1, 2, 3, 4, 5})},
-	}, nil)
-	XdbcTypeInfo = arrow.NewSchema([]arrow.Field{
-		{Name: "type_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "column_size", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "literal_prefix", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "literal_suffix", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "create_params", Type: arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}), Nullable: true},
-		{Name: "nullable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "case_sensitive", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
-		{Name: "searchable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "unsigned_attribute", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "fixed_prec_scale", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
-		{Name: "auto_increment", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "local_type_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "minimum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "maximum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "sql_data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "datetime_subcode", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "num_prec_radix", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "interval_precision", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-	}, nil)
-)
diff --git a/go/arrow/flight/flightsql/server.go b/go/arrow/flight/flightsql/server.go
deleted file mode 100644
index b085619745c90..0000000000000
--- a/go/arrow/flight/flightsql/server.go
+++ /dev/null
@@ -1,1400 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// the following interfaces wrap the Protobuf commands to avoid
-// exposing the Protobuf types themselves in the API.
-
-// StatementQuery represents a Sql Query
-type StatementQuery interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-type statementSubstraitPlan struct {
-	*pb.CommandStatementSubstraitPlan
-}
-
-func (s *statementSubstraitPlan) GetPlan() SubstraitPlan {
-	var (
-		plan    []byte
-		version string
-	)
-	if s.Plan != nil {
-		plan = s.Plan.Plan
-		version = s.Plan.Version
-	}
-	return SubstraitPlan{
-		Plan:    plan,
-		Version: version,
-	}
-}
-
-type StatementSubstraitPlan interface {
-	GetTransactionId() []byte
-	GetPlan() SubstraitPlan
-}
-
-// StatementUpdate represents a SQL update query
-type StatementUpdate interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-// StatementQueryTicket represents a request to execute a query
-type StatementQueryTicket interface {
-	// GetStatementHandle returns the server-generated opaque
-	// identifier for the query
-	GetStatementHandle() []byte
-}
-
-func GetStatementQueryTicket(ticket *flight.Ticket) (result StatementQueryTicket, err error) {
-	var anycmd anypb.Any
-	if err = proto.Unmarshal(ticket.Ticket, &anycmd); err != nil {
-		return
-	}
-
-	var out pb.TicketStatementQuery
-	if err = anycmd.UnmarshalTo(&out); err != nil {
-		return
-	}
-
-	result = &out
-	return
-}
-
-// PreparedStatementQuery represents a prepared query statement
-type PreparedStatementQuery interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// PreparedStatementUpdate represents a prepared update statement
-type PreparedStatementUpdate interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// ActionClosePreparedStatementRequest represents a request to close
-// a prepared statement
-type ActionClosePreparedStatementRequest interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// ActionCreatePreparedStatementRequest represents a request to construct
-// a new prepared statement
-type ActionCreatePreparedStatementRequest interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-type ActionCreatePreparedSubstraitPlanRequest interface {
-	GetPlan() SubstraitPlan
-	GetTransactionId() []byte
-}
-
-type createPreparedSubstraitPlanReq struct {
-	*pb.ActionCreatePreparedSubstraitPlanRequest
-}
-
-func (c *createPreparedSubstraitPlanReq) GetPlan() SubstraitPlan {
-	var (
-		plan    []byte
-		version string
-	)
-	if c.Plan != nil {
-		plan = c.Plan.Plan
-		version = c.Plan.Version
-	}
-	return SubstraitPlan{
-		Plan:    plan,
-		Version: version,
-	}
-}
-
-// ActionCreatePreparedStatementResult is the result of creating a new
-// prepared statement, optionally including the dataset and parameter
-// schemas.
-type ActionCreatePreparedStatementResult struct {
-	Handle          []byte
-	DatasetSchema   *arrow.Schema
-	ParameterSchema *arrow.Schema
-}
-
-type ActionBeginTransactionRequest interface{}
-
-type ActionBeginSavepointRequest interface {
-	GetTransactionId() []byte
-	GetName() string
-}
-
-type ActionBeginSavepointResult interface {
-	GetSavepointId() []byte
-}
-
-type ActionBeginTransactionResult interface {
-	GetTransactionId() []byte
-}
-
-type ActionCancelQueryRequest interface {
-	GetInfo() *flight.FlightInfo
-}
-
-type cancelQueryRequest struct {
-	info *flight.FlightInfo
-}
-
-func (c *cancelQueryRequest) GetInfo() *flight.FlightInfo { return c.info }
-
-type cancelQueryServer interface {
-	CancelQuery(context.Context, ActionCancelQueryRequest) (CancelResult, error)
-}
-
-type ActionEndTransactionRequest interface {
-	GetTransactionId() []byte
-	GetAction() EndTransactionRequestType
-}
-
-type ActionEndSavepointRequest interface {
-	GetSavepointId() []byte
-	GetAction() EndSavepointRequestType
-}
-
-// StatementIngest represents a bulk ingestion request
-type StatementIngest interface {
-	GetTableDefinitionOptions() *TableDefinitionOptions
-	GetTable() string
-	GetSchema() string
-	GetCatalog() string
-	GetTemporary() bool
-	GetTransactionId() []byte
-	GetOptions() map[string]string
-}
-
-type getXdbcTypeInfo struct {
-	*pb.CommandGetXdbcTypeInfo
-}
-
-func (c *getXdbcTypeInfo) GetDataType() *int32 { return c.DataType }
-
-// GetXdbcTypeInfo represents a request for SQL Data Type information
-type GetXdbcTypeInfo interface {
-	// GetDataType returns either nil (get for all types)
-	// or a specific SQL type ID to fetch information about.
-	GetDataType() *int32
-}
-
-// GetSqlInfo represents a request for SQL Information
-type GetSqlInfo interface {
-	// GetInfo returns a slice of SqlInfo ids to return information about
-	GetInfo() []uint32
-}
-
-type getDBSchemas struct {
-	*pb.CommandGetDbSchemas
-}
-
-func (c *getDBSchemas) GetCatalog() *string               { return c.Catalog }
-func (c *getDBSchemas) GetDBSchemaFilterPattern() *string { return c.DbSchemaFilterPattern }
-
-// GetDBSchemas represents a request for list of database schemas
-type GetDBSchemas interface {
-	GetCatalog() *string
-	GetDBSchemaFilterPattern() *string
-}
-
-type getTables struct {
-	*pb.CommandGetTables
-}
-
-func (c *getTables) GetCatalog() *string                { return c.Catalog }
-func (c *getTables) GetDBSchemaFilterPattern() *string  { return c.DbSchemaFilterPattern }
-func (c *getTables) GetTableNameFilterPattern() *string { return c.TableNameFilterPattern }
-
-// GetTables represents a request to list the database's tables
-type GetTables interface {
-	GetCatalog() *string
-	GetDBSchemaFilterPattern() *string
-	GetTableNameFilterPattern() *string
-	GetTableTypes() []string
-	GetIncludeSchema() bool
-}
-
-func packActionResult(msg proto.Message) (*pb.Result, error) {
-	var (
-		anycmd anypb.Any
-		err    error
-	)
-
-	if err = anycmd.MarshalFrom(msg); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-
-	ret := &pb.Result{}
-	if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-	return ret, nil
-}
-
-// BaseServer must be embedded into any FlightSQL Server implementation
-// and provides default implementations of all methods returning an
-// unimplemented error if called. This allows consumers to gradually
-// implement methods as they want instead of requiring all consumers to
-// boilerplate the same "unimplemented" methods.
-//
-// The base implementation also contains handling for registering sql info
-// and serving it up in response to GetSqlInfo requests.
-type BaseServer struct {
-	sqlInfoToResult SqlInfoResultMap
-	// Alloc allows specifying a particular allocator to use for any
-	// allocations done by the base implementation.
-	// Will use memory.DefaultAllocator if nil
-	Alloc memory.Allocator
-}
-
-func (BaseServer) mustEmbedBaseServer() {}
-
-// RegisterSqlInfo registers a specific result to return for a given sqlinfo
-// id. The result must be one of the following types: string, bool, int64,
-// int32, []string, or map[int32][]int32.
-//
-// Once registered, this value will be returned for any SqlInfo requests.
-func (b *BaseServer) RegisterSqlInfo(id SqlInfo, result interface{}) error {
-	if b.sqlInfoToResult == nil {
-		b.sqlInfoToResult = make(SqlInfoResultMap)
-	}
-
-	switch result.(type) {
-	case string, bool, int64, int32, []string, map[int32][]int32:
-		b.sqlInfoToResult[uint32(id)] = result
-	default:
-		return fmt.Errorf("invalid sql info type '%T' registered for id: %d", result, id)
-	}
-	return nil
-}
-
-func (BaseServer) GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoSubstraitPlan not implemented")
-}
-
-func (BaseServer) GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaStatement not implemented")
-}
-
-func (BaseServer) GetSchemaSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaSubstraitPlan not implemented")
-}
-
-func (BaseServer) DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoPreparedStatement not implemented")
-}
-
-func (BaseServer) GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaPreparedStatement not implemented")
-}
-
-func (BaseServer) DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPreparedStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoCatalogs not implemented")
-}
-
-func (BaseServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCatalogs not implemented")
-}
-
-func (BaseServer) GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoXdbcTypeInfo not implemented")
-}
-
-func (BaseServer) DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetXdbcTypeInfo not implemented")
-}
-
-// GetFlightInfoSqlInfo is a base implementation of GetSqlInfo by using any
-// registered sqlinfo (by calling RegisterSqlInfo). Will return an error
-// if there is no sql info registered, otherwise a FlightInfo for retrieving
-// the Sql info.
-func (b *BaseServer) GetFlightInfoSqlInfo(_ context.Context, _ GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if len(b.sqlInfoToResult) == 0 {
-		return nil, status.Error(codes.NotFound, "no sql information available")
-	}
-
-	if b.Alloc == nil {
-		b.Alloc = memory.DefaultAllocator
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-		Schema:           flight.SerializeSchema(schema_ref.SqlInfo, b.Alloc),
-	}, nil
-}
-
-// DoGetSqlInfo returns a flight stream containing the list of sqlinfo results
-func (b *BaseServer) DoGetSqlInfo(_ context.Context, cmd GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	if b.Alloc == nil {
-		b.Alloc = memory.DefaultAllocator
-	}
-
-	bldr := array.NewRecordBuilder(b.Alloc, schema_ref.SqlInfo)
-	defer bldr.Release()
-
-	nameFieldBldr := bldr.Field(0).(*array.Uint32Builder)
-	valFieldBldr := bldr.Field(1).(*array.DenseUnionBuilder)
-
-	// doesn't take ownership, no calls to retain. so we don't need
-	// extra releases.
-	sqlInfoResultBldr := newSqlInfoResultBuilder(valFieldBldr)
-
-	keys := cmd.GetInfo()
-
-	// populate both the nameFieldBldr and the values for each
-	// element on command.info.
-	// valueFieldBldr is populated depending on the data type
-	// since it's a dense union. The population for each
-	// data type is handled by the sqlInfoResultBuilder.
-	if len(keys) > 0 {
-		for _, info := range keys {
-			val, ok := b.sqlInfoToResult[info]
-			if !ok {
-				return nil, nil, status.Errorf(codes.NotFound, "no information for sql info number %d", info)
-			}
-			nameFieldBldr.Append(info)
-			sqlInfoResultBldr.Append(val)
-		}
-	} else {
-		for k, v := range b.sqlInfoToResult {
-			nameFieldBldr.Append(k)
-			sqlInfoResultBldr.Append(v)
-		}
-	}
-
-	batch := bldr.NewRecord()
-	defer batch.Release()
-	debug.Assert(int(batch.NumRows()) == len(cmd.GetInfo()), "too many rows added to SqlInfo result")
-
-	ch := make(chan flight.StreamChunk)
-	rdr, err := array.NewRecordReader(schema_ref.SqlInfo, []arrow.Record{batch})
-	if err != nil {
-		return nil, nil, status.Errorf(codes.Internal, "error producing record response: %s", err.Error())
-	}
-
-	// StreamChunksFromReader will call release on the reader when done
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema_ref.SqlInfo, ch, nil
-}
-
-func (BaseServer) GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoSchemas not implemented")
-}
-
-func (BaseServer) DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetDBSchemas not implemented")
-}
-
-func (BaseServer) GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTables not implemented")
-}
-
-func (BaseServer) DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTables not implemented")
-}
-
-func (BaseServer) GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTableTypes not implemented")
-}
-
-func (BaseServer) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTableTypes not implemented")
-}
-
-func (BaseServer) GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoPrimaryKeys not implemented")
-}
-
-func (BaseServer) DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPrimaryKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoExportedKeys not implemented")
-}
-
-func (BaseServer) DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetExportedKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoImportedKeys not implemented")
-}
-
-func (BaseServer) DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetImportedKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoCrossReference not implemented")
-}
-
-func (BaseServer) DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCrossReference not implemented")
-}
-
-func (BaseServer) CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (res ActionCreatePreparedStatementResult, err error) {
-	return res, status.Error(codes.Unimplemented, "CreatePreparedStatement not implemented")
-}
-
-func (BaseServer) CreatePreparedSubstraitPlan(context.Context, ActionCreatePreparedSubstraitPlanRequest) (res ActionCreatePreparedStatementResult, err error) {
-	return res, status.Error(codes.Unimplemented, "CreatePreparedSubstraitPlan not implemented")
-}
-
-func (BaseServer) ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error {
-	return status.Error(codes.Unimplemented, "ClosePreparedStatement not implemented")
-}
-
-func (BaseServer) DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandStatementUpdate not implemented")
-}
-
-func (BaseServer) DoPutCommandSubstraitPlan(context.Context, StatementSubstraitPlan) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandSubstraitPlan not implemented")
-}
-
-func (BaseServer) DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "DoPutPreparedStatementQuery not implemented")
-}
-
-func (BaseServer) DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutPreparedStatementUpdate not implemented")
-}
-
-func (BaseServer) DoPutCommandStatementIngest(context.Context, StatementIngest, flight.MessageReader) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandStatementIngest not implemented")
-}
-
-func (BaseServer) BeginTransaction(context.Context, ActionBeginTransactionRequest) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "BeginTransaction not implemented")
-}
-
-func (BaseServer) BeginSavepoint(context.Context, ActionBeginSavepointRequest) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "BeginSavepoint not implemented")
-}
-
-func (BaseServer) CancelFlightInfo(context.Context, *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error) {
-	return flight.CancelFlightInfoResult{Status: flight.CancelStatusUnspecified},
-		status.Error(codes.Unimplemented, "CancelFlightInfo not implemented")
-}
-
-func (BaseServer) RenewFlightEndpoint(context.Context, *flight.RenewFlightEndpointRequest) (*flight.FlightEndpoint, error) {
-	return nil, status.Error(codes.Unimplemented, "RenewFlightEndpoint not implemented")
-}
-
-func (BaseServer) PollFlightInfo(context.Context, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfo not implemented")
-}
-
-func (BaseServer) PollFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoStatement not implemented")
-}
-
-func (BaseServer) PollFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoSubstraitPlan not implemented")
-}
-
-func (BaseServer) PollFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoPreparedStatement not implemented")
-}
-
-func (BaseServer) EndTransaction(context.Context, ActionEndTransactionRequest) error {
-	return status.Error(codes.Unimplemented, "EndTransaction not implemented")
-}
-
-func (BaseServer) EndSavepoint(context.Context, ActionEndSavepointRequest) error {
-	return status.Error(codes.Unimplemented, "EndSavepoint not implemented")
-}
-
-func (BaseServer) SetSessionOptions(context.Context, *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	return nil, status.Error(codes.Unimplemented, "SetSessionOptions not implemented")
-}
-
-func (BaseServer) GetSessionOptions(context.Context, *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	return nil, status.Error(codes.Unimplemented, "GetSessionOptions not implemented")
-}
-
-func (BaseServer) CloseSession(context.Context, *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	return nil, status.Error(codes.Unimplemented, "CloseSession not implemented")
-}
-
-// Server is the required interface for a FlightSQL server. It is implemented by
-// BaseServer which must be embedded in any implementation. The default
-// implementation by BaseServer for each of these (except GetSqlInfo)
-//
-// GetFlightInfo* methods should return the FlightInfo object representing where
-// to retrieve the results for a given request.
-//
-// DoGet* methods should return the Schema of the resulting stream along with
-// a channel to retrieve stream chunks (each chunk is a record batch and optionally
-// a descriptor and app metadata). The channel will be read from until it
-// closes, sending each chunk on the stream. Since the channel is returned
-// from the method, it should be populated within a goroutine to ensure
-// there are no deadlocks.
-type Server interface {
-	// GetFlightInfoStatement returns a FlightInfo for executing the requested sql query
-	GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetFlightInfoSubstraitPlan returns a FlightInfo for executing the requested substrait plan
-	GetFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetSchemaStatement returns the schema of the result set of the requested sql query
-	GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// GetSchemaSubstraitPlan returns the schema of the result set for the requested substrait plan
-	GetSchemaSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// DoGetStatement returns a stream containing the query results for the
-	// requested statement handle that was populated by GetFlightInfoStatement
-	DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoPreparedStatement returns a FlightInfo for executing an already
-	// prepared statement with the provided statement handle.
-	GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetSchemaPreparedStatement returns the schema of the result set of executing an already
-	// prepared statement with the provided statement handle.
-	GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// DoGetPreparedStatement returns a stream containing the results from executing
-	// a prepared statement query with the provided statement handle.
-	DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoCatalogs returns a FlightInfo for the listing of all catalogs
-	GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetCatalogs returns the stream containing the list of catalogs
-	DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoXdbcTypeInfo returns a FlightInfo for retrieving data type info
-	GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetXdbcTypeInfo returns a stream containing the information about the
-	// requested supported datatypes
-	DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoSqlInfo returns a FlightInfo for retrieving SqlInfo from the server
-	GetFlightInfoSqlInfo(context.Context, GetSqlInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetSqlInfo returns a stream containing the list of SqlInfo results
-	DoGetSqlInfo(context.Context, GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoSchemas returns a FlightInfo for requesting a list of schemas
-	GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetDBSchemas returns a stream containing the list of schemas
-	DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoTables returns a FlightInfo for listing the tables available
-	GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetTables returns a stream containing the list of tables
-	DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoTableTypes returns a FlightInfo for retrieving a list
-	// of table types supported
-	GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetTableTypes returns a stream containing the data related to the table types
-	DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoPrimaryKeys returns a FlightInfo for extracting information about primary keys
-	GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetPrimaryKeys returns a stream containing the data related to primary keys
-	DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoExportedKeys returns a FlightInfo for extracting information about foreign keys
-	GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetExportedKeys returns a stream containing the data related to foreign keys
-	DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoImportedKeys returns a FlightInfo for extracting information about imported keys
-	GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetImportedKeys returns a stream containing the data related to imported keys
-	DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoCrossReference returns a FlightInfo for extracting data related
-	// to primary and foreign keys
-	GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetCrossReference returns a stream of data related to foreign and primary keys
-	DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// DoPutCommandStatementUpdate executes a sql update statement and returns
-	// the number of affected rows
-	DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error)
-	// DoPutCommandSubstraitPlan executes a substrait plan and returns the number
-	// of affected rows.
-	DoPutCommandSubstraitPlan(context.Context, StatementSubstraitPlan) (int64, error)
-	// CreatePreparedStatement constructs a prepared statement from a sql query
-	// and returns an opaque statement handle for use.
-	CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (ActionCreatePreparedStatementResult, error)
-	// CreatePreparedSubstraitPlan constructs a prepared statement from a substrait
-	// plan, and returns an opaque statement handle for use.
-	CreatePreparedSubstraitPlan(context.Context, ActionCreatePreparedSubstraitPlanRequest) (ActionCreatePreparedStatementResult, error)
-	// ClosePreparedStatement closes the prepared statement identified by the requested
-	// opaque statement handle.
-	ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error
-	// DoPutPreparedStatementQuery binds parameters to a given prepared statement
-	// identified by the provided statement handle.
-	//
-	// The provided MessageReader is a stream of record batches with optional
-	// app metadata and flight descriptors to represent the values to bind
-	// to the parameters.
-	//
-	// Currently anything written to the writer will be ignored. It is in the
-	// interface for potential future enhancements to avoid having to change
-	// the interface in the future.
-	DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) ([]byte, error)
-	// DoPutPreparedStatementUpdate executes an update SQL Prepared statement
-	// for the specified statement handle. The reader allows providing a sequence
-	// of uploaded record batches to bind the parameters to. Returns the number
-	// of affected records.
-	DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error)
-	// BeginTransaction starts a new transaction and returns the id
-	BeginTransaction(context.Context, ActionBeginTransactionRequest) (id []byte, err error)
-	// BeginSavepoint initializes a new savepoint and returns the id
-	BeginSavepoint(context.Context, ActionBeginSavepointRequest) (id []byte, err error)
-	// EndSavepoint releases or rolls back a savepoint
-	EndSavepoint(context.Context, ActionEndSavepointRequest) error
-	// EndTransaction commits or rolls back a transaction
-	EndTransaction(context.Context, ActionEndTransactionRequest) error
-	// CancelFlightInfo attempts to explicitly cancel a FlightInfo
-	CancelFlightInfo(context.Context, *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error)
-	// RenewFlightEndpoint attempts to extend the expiration of a FlightEndpoint
-	RenewFlightEndpoint(context.Context, *flight.RenewFlightEndpointRequest) (*flight.FlightEndpoint, error)
-	// PollFlightInfo is a generic handler for PollFlightInfo requests.
-	PollFlightInfo(context.Context, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoStatement handles polling for query execution.
-	PollFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoSubstraitPlan handles polling for query execution.
-	PollFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoPreparedStatement handles polling for query execution.
-	PollFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// SetSessionOptions sets option(s) for the current server session.
-	SetSessionOptions(context.Context, *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error)
-	// GetSessionOptions gets option(s) for the current server session.
-	GetSessionOptions(context.Context, *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error)
-	// CloseSession closes/invalidates the current server session.
-	CloseSession(context.Context, *flight.CloseSessionRequest) (*flight.CloseSessionResult, error)
-	// DoPutCommandStatementIngest executes a bulk ingestion and returns
-	// the number of affected rows
-	DoPutCommandStatementIngest(context.Context, StatementIngest, flight.MessageReader) (int64, error)
-
-	mustEmbedBaseServer()
-}
-
-// NewFlightServer constructs a FlightRPC server from the provided
-// FlightSQL Server so that it can be passed to RegisterFlightService.
-func NewFlightServer(srv Server) flight.FlightServer {
-	return &flightSqlServer{srv: srv, mem: memory.DefaultAllocator}
-}
-
-// NewFlightServerWithAllocator constructs a FlightRPC server from
-// the provided FlightSQL Server so that it can be passed to
-// RegisterFlightService, setting the provided allocator into the server
-// for use with any allocations necessary by the routing.
-//
-// Will default to memory.DefaultAllocator if mem is nil
-func NewFlightServerWithAllocator(srv Server, mem memory.Allocator) flight.FlightServer {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return &flightSqlServer{srv: srv, mem: mem}
-}
-
-// flightSqlServer is a wrapper around a FlightSQL server interface to
-// perform routing from FlightRPC to FlightSQL.
-type flightSqlServer struct {
-	flight.BaseFlightServer
-	mem memory.Allocator
-	srv Server
-}
-
-func (f *flightSqlServer) GetFlightInfo(ctx context.Context, request *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.GetFlightInfoStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.GetFlightInfoSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.GetFlightInfoPreparedStatement(ctx, cmd, request)
-	case *pb.CommandGetCatalogs:
-		return f.srv.GetFlightInfoCatalogs(ctx, request)
-	case *pb.CommandGetDbSchemas:
-		return f.srv.GetFlightInfoSchemas(ctx, &getDBSchemas{cmd}, request)
-	case *pb.CommandGetTables:
-		return f.srv.GetFlightInfoTables(ctx, &getTables{cmd}, request)
-	case *pb.CommandGetTableTypes:
-		return f.srv.GetFlightInfoTableTypes(ctx, request)
-	case *pb.CommandGetXdbcTypeInfo:
-		return f.srv.GetFlightInfoXdbcTypeInfo(ctx, &getXdbcTypeInfo{cmd}, request)
-	case *pb.CommandGetSqlInfo:
-		return f.srv.GetFlightInfoSqlInfo(ctx, cmd, request)
-	case *pb.CommandGetPrimaryKeys:
-		return f.srv.GetFlightInfoPrimaryKeys(ctx, pkToTableRef(cmd), request)
-	case *pb.CommandGetExportedKeys:
-		return f.srv.GetFlightInfoExportedKeys(ctx, exkToTableRef(cmd), request)
-	case *pb.CommandGetImportedKeys:
-		return f.srv.GetFlightInfoImportedKeys(ctx, impkToTableRef(cmd), request)
-	case *pb.CommandGetCrossReference:
-		return f.srv.GetFlightInfoCrossReference(ctx, toCrossTableRef(cmd), request)
-	}
-
-	return nil, status.Error(codes.InvalidArgument, "requested command is invalid")
-}
-
-func (f *flightSqlServer) PollFlightInfo(ctx context.Context, request *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	// If we can't parse things, be friendly and defer to the server
-	// implementation. This is especially important for this method since
-	// the server returns a custom FlightDescriptor for future requests.
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return f.srv.PollFlightInfo(ctx, request)
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return f.srv.PollFlightInfo(ctx, request)
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.PollFlightInfoStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.PollFlightInfoSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.PollFlightInfoPreparedStatement(ctx, cmd, request)
-	}
-	// XXX: for now we won't support the other methods
-
-	return f.srv.PollFlightInfo(ctx, request)
-}
-
-func (f *flightSqlServer) GetSchema(ctx context.Context, request *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.GetSchemaStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.GetSchemaSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.GetSchemaPreparedStatement(ctx, cmd, request)
-	case *pb.CommandGetCatalogs:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Catalogs, f.mem)}, nil
-	case *pb.CommandGetDbSchemas:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.DBSchemas, f.mem)}, nil
-	case *pb.CommandGetTables:
-		if cmd.GetIncludeSchema() {
-			return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TablesWithIncludedSchema, f.mem)}, nil
-		}
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Tables, f.mem)}, nil
-	case *pb.CommandGetTableTypes:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TableTypes, f.mem)}, nil
-	case *pb.CommandGetXdbcTypeInfo:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.XdbcTypeInfo, f.mem)}, nil
-	case *pb.CommandGetSqlInfo:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.SqlInfo, f.mem)}, nil
-	case *pb.CommandGetPrimaryKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.PrimaryKeys, f.mem)}, nil
-	case *pb.CommandGetExportedKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ExportedKeys, f.mem)}, nil
-	case *pb.CommandGetImportedKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ImportedKeys, f.mem)}, nil
-	case *pb.CommandGetCrossReference:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.CrossReference, f.mem)}, nil
-	}
-
-	return nil, status.Errorf(codes.InvalidArgument, "requested command is invalid: %s", anycmd.GetTypeUrl())
-}
-
-func (f *flightSqlServer) DoGet(request *flight.Ticket, stream flight.FlightService_DoGetServer) (err error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		cc     <-chan flight.StreamChunk
-		sc     *arrow.Schema
-	)
-	if err = proto.Unmarshal(request.Ticket, &anycmd); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to parse ticket: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to unmarshal proto.Any: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.TicketStatementQuery:
-		sc, cc, err = f.srv.DoGetStatement(stream.Context(), cmd)
-	case *pb.CommandPreparedStatementQuery:
-		sc, cc, err = f.srv.DoGetPreparedStatement(stream.Context(), cmd)
-	case *pb.CommandGetCatalogs:
-		sc, cc, err = f.srv.DoGetCatalogs(stream.Context())
-	case *pb.CommandGetDbSchemas:
-		sc, cc, err = f.srv.DoGetDBSchemas(stream.Context(), &getDBSchemas{cmd})
-	case *pb.CommandGetTables:
-		sc, cc, err = f.srv.DoGetTables(stream.Context(), &getTables{cmd})
-	case *pb.CommandGetTableTypes:
-		sc, cc, err = f.srv.DoGetTableTypes(stream.Context())
-	case *pb.CommandGetXdbcTypeInfo:
-		sc, cc, err = f.srv.DoGetXdbcTypeInfo(stream.Context(), &getXdbcTypeInfo{cmd})
-	case *pb.CommandGetSqlInfo:
-		sc, cc, err = f.srv.DoGetSqlInfo(stream.Context(), cmd)
-	case *pb.CommandGetPrimaryKeys:
-		sc, cc, err = f.srv.DoGetPrimaryKeys(stream.Context(), pkToTableRef(cmd))
-	case *pb.CommandGetExportedKeys:
-		sc, cc, err = f.srv.DoGetExportedKeys(stream.Context(), exkToTableRef(cmd))
-	case *pb.CommandGetImportedKeys:
-		sc, cc, err = f.srv.DoGetImportedKeys(stream.Context(), impkToTableRef(cmd))
-	case *pb.CommandGetCrossReference:
-		sc, cc, err = f.srv.DoGetCrossReference(stream.Context(), toCrossTableRef(cmd))
-	default:
-		return status.Error(codes.InvalidArgument, "requested command is invalid")
-	}
-
-	if err != nil {
-		return err
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(sc))
-	defer wr.Close()
-
-	for chunk := range cc {
-		if chunk.Err != nil {
-			return chunk.Err
-		}
-
-		wr.SetFlightDescriptor(chunk.Desc)
-		if err = wr.WriteWithAppMetadata(chunk.Data, chunk.AppMetadata); err != nil {
-			return err
-		}
-		chunk.Data.Release()
-	}
-
-	return err
-}
-
-type putMetadataWriter struct {
-	stream flight.FlightService_DoPutServer
-}
-
-func (p *putMetadataWriter) WriteMetadata(appMetadata []byte) error {
-	return p.stream.Send(&flight.PutResult{AppMetadata: appMetadata})
-}
-
-func (f *flightSqlServer) DoPut(stream flight.FlightService_DoPutServer) error {
-	rdr, err := flight.NewRecordReader(stream, ipc.WithAllocator(f.mem), ipc.WithDelayReadSchema(true))
-	if err != nil {
-		return status.Errorf(codes.InvalidArgument, "failed to read input stream: %s", err.Error())
-	}
-	defer rdr.Release()
-
-	// flight descriptor should have come with the schema message
-	request := rdr.LatestFlightDescriptor()
-
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return status.Errorf(codes.InvalidArgument, "could not unmarshal google.protobuf.Any: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementUpdate:
-		recordCount, err := f.srv.DoPutCommandStatementUpdate(stream.Context(), cmd)
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandStatementSubstraitPlan:
-		recordCount, err := f.srv.DoPutCommandSubstraitPlan(stream.Context(), &statementSubstraitPlan{cmd})
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandPreparedStatementQuery:
-		handle, err := f.srv.DoPutPreparedStatementQuery(stream.Context(), cmd, rdr, &putMetadataWriter{stream})
-		if err != nil {
-			return err
-		}
-		result := pb.DoPutPreparedStatementResult{PreparedStatementHandle: handle}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandPreparedStatementUpdate:
-		recordCount, err := f.srv.DoPutPreparedStatementUpdate(stream.Context(), cmd, rdr)
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandStatementIngest:
-		// Even if there was an error, the server may have ingested some records.
-		// For this reason we send PutResult{recordCount} no matter what, potentially followed by an error
-		// if there was one.
-		recordCount, rpcErr := f.srv.DoPutCommandStatementIngest(stream.Context(), cmd, rdr)
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-
-		// If we fail to send the recordCount, just return an error outright
-		if err := stream.Send(out); err != nil {
-			return err
-		}
-
-		// We successfully sent the recordCount.
-		// Send the error if one occurred in the RPC, otherwise this is nil.
-		return rpcErr
-	default:
-		return status.Error(codes.InvalidArgument, "the defined request is invalid")
-	}
-}
-
-func (f *flightSqlServer) ListActions(_ *flight.Empty, stream flight.FlightService_ListActionsServer) error {
-	actions := []string{
-		flight.CancelFlightInfoActionType,
-		flight.RenewFlightEndpointActionType,
-		CreatePreparedStatementActionType,
-		ClosePreparedStatementActionType,
-		BeginSavepointActionType,
-		BeginTransactionActionType,
-		CancelQueryActionType,
-		CreatePreparedSubstraitPlanActionType,
-		EndSavepointActionType,
-		EndTransactionActionType,
-	}
-
-	for _, a := range actions {
-		if err := stream.Send(&flight.ActionType{Type: a}); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func cancelStatusToCancelResult(status flight.CancelStatus) CancelResult {
-	switch status {
-	case flight.CancelStatusUnspecified:
-		return CancelResultUnspecified
-	case flight.CancelStatusCancelled:
-		return CancelResultCancelled
-	case flight.CancelStatusCancelling:
-		return CancelResultCancelling
-	case flight.CancelStatusNotCancellable:
-		return CancelResultNotCancellable
-	default:
-		return CancelResultUnspecified
-	}
-}
-
-func (f *flightSqlServer) DoAction(cmd *flight.Action, stream flight.FlightService_DoActionServer) error {
-	var anycmd anypb.Any
-
-	switch cmd.Type {
-	case flight.CancelFlightInfoActionType:
-		var (
-			request flight.CancelFlightInfoRequest
-			result  flight.CancelFlightInfoResult
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal CancelFlightInfoRequest for CancelFlightInfo: %s", err.Error())
-		}
-
-		result, err = f.srv.CancelFlightInfo(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.RenewFlightEndpointActionType:
-		var (
-			request flight.RenewFlightEndpointRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal FlightEndpoint for RenewFlightEndpoint: %s", err.Error())
-		}
-
-		renewedEndpoint, err := f.srv.RenewFlightEndpoint(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(renewedEndpoint)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case BeginSavepointActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionBeginSavepointRequest
-			result  pb.ActionBeginSavepointResult
-			id      []byte
-			err     error
-		)
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if id, err = f.srv.BeginSavepoint(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		result.SavepointId = id
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case BeginTransactionActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionBeginTransactionRequest
-			result  pb.ActionBeginTransactionResult
-			id      []byte
-			err     error
-		)
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if id, err = f.srv.BeginTransaction(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		result.TransactionId = id
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case CancelQueryActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			//lint:ignore SA1019 for backward compatibility
-			request pb.ActionCancelQueryRequest
-			//lint:ignore SA1019 for backward compatibility
-			result pb.ActionCancelQueryResult
-			info   flight.FlightInfo
-			err    error
-		)
-
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err = proto.Unmarshal(request.Info, &info); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal FlightInfo for CancelQuery: %s", err)
-		}
-
-		if cancel, ok := f.srv.(cancelQueryServer); ok {
-			result.Result, err = cancel.CancelQuery(stream.Context(), &cancelQueryRequest{&info})
-			if err != nil {
-				return err
-			}
-		} else {
-			cancelFlightInfoRequest := flight.CancelFlightInfoRequest{Info: &info}
-			cancelFlightInfoResult, err := f.srv.CancelFlightInfo(stream.Context(), &cancelFlightInfoRequest)
-			if err != nil {
-				return err
-			}
-			result.Result = cancelStatusToCancelResult(cancelFlightInfoResult.Status)
-		}
-
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case CreatePreparedStatementActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionCreatePreparedStatementRequest
-			result  pb.ActionCreatePreparedStatementResult
-			ret     pb.Result
-		)
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		output, err := f.srv.CreatePreparedStatement(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		result.PreparedStatementHandle = output.Handle
-		if output.DatasetSchema != nil {
-			result.DatasetSchema = flight.SerializeSchema(output.DatasetSchema, f.mem)
-		}
-		if output.ParameterSchema != nil {
-			result.ParameterSchema = flight.SerializeSchema(output.ParameterSchema, f.mem)
-		}
-
-		if err := anycmd.MarshalFrom(&result); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal final response: %s", err.Error())
-		}
-
-		if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal result: %s", err.Error())
-		}
-		return stream.Send(&ret)
-	case CreatePreparedSubstraitPlanActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionCreatePreparedSubstraitPlanRequest
-			result  pb.ActionCreatePreparedStatementResult
-			ret     pb.Result
-		)
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		output, err := f.srv.CreatePreparedSubstraitPlan(stream.Context(), &createPreparedSubstraitPlanReq{&request})
-		if err != nil {
-			return err
-		}
-
-		result.PreparedStatementHandle = output.Handle
-		if output.DatasetSchema != nil {
-			result.DatasetSchema = flight.SerializeSchema(output.DatasetSchema, f.mem)
-		}
-		if output.ParameterSchema != nil {
-			result.ParameterSchema = flight.SerializeSchema(output.ParameterSchema, f.mem)
-		}
-
-		if err := anycmd.MarshalFrom(&result); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal final response: %s", err.Error())
-		}
-
-		if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal result: %s", err.Error())
-		}
-		return stream.Send(&ret)
-	case ClosePreparedStatementActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionClosePreparedStatementRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.ClosePreparedStatement(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case EndTransactionActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionEndTransactionRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.EndTransaction(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case EndSavepointActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionEndSavepointRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.EndSavepoint(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case flight.SetSessionOptionsActionType:
-		var (
-			request flight.SetSessionOptionsRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal SetSessionOptionsRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.SetSessionOptions(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.GetSessionOptionsActionType:
-		var (
-			request flight.GetSessionOptionsRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal GetSessionOptionsRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.GetSessionOptions(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.CloseSessionActionType:
-		var (
-			request flight.CloseSessionRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal CloseSessionRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.CloseSession(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	default:
-		return status.Error(codes.InvalidArgument, "the defined request is invalid.")
-	}
-}
-
-var (
-	_ Server = (*BaseServer)(nil)
-)
diff --git a/go/arrow/flight/flightsql/server_test.go b/go/arrow/flight/flightsql/server_test.go
deleted file mode 100644
index 494dda1703fc4..0000000000000
--- a/go/arrow/flight/flightsql/server_test.go
+++ /dev/null
@@ -1,1046 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-var dialOpts = []grpc.DialOption{grpc.WithTransportCredentials(insecure.NewCredentials())}
-
-type testServer struct {
-	flightsql.BaseServer
-}
-
-func (*testServer) GetFlightInfoStatement(ctx context.Context, q flightsql.StatementQuery, fd *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	ticket, err := flightsql.CreateStatementQueryTicket([]byte(q.GetQuery()))
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: fd,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket: &flight.Ticket{Ticket: ticket},
-		}},
-	}, nil
-}
-
-func (*testServer) PollFlightInfo(ctx context.Context, fd *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return &flight.PollInfo{
-		Info: &flight.FlightInfo{
-			FlightDescriptor: fd,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket: &flight.Ticket{Ticket: []byte{}},
-			}, {
-				Ticket: &flight.Ticket{Ticket: []byte{}},
-			}},
-		},
-		FlightDescriptor: nil,
-	}, nil
-}
-
-func (*testServer) PollFlightInfoStatement(ctx context.Context, q flightsql.StatementQuery, fd *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	ticket, err := flightsql.CreateStatementQueryTicket([]byte(q.GetQuery()))
-	if err != nil {
-		return nil, err
-	}
-	return &flight.PollInfo{
-		Info: &flight.FlightInfo{
-			FlightDescriptor: fd,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket: &flight.Ticket{Ticket: ticket},
-			}},
-		},
-		FlightDescriptor: &flight.FlightDescriptor{Cmd: []byte{}},
-	}, nil
-}
-
-func (*testServer) DoGetStatement(ctx context.Context, ticket flightsql.StatementQueryTicket) (sc *arrow.Schema, cc <-chan flight.StreamChunk, err error) {
-	handle := string(ticket.GetStatementHandle())
-	switch handle {
-	case "1":
-		b := array.NewInt16Builder(memory.DefaultAllocator)
-		sc = arrow.NewSchema([]arrow.Field{{
-			Name:     "t1",
-			Type:     b.Type(),
-			Nullable: true,
-		}}, nil)
-		b.AppendNull()
-		c := make(chan flight.StreamChunk, 2)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		b.Append(1)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		close(c)
-		cc = c
-	case "2":
-		b := array.NewInt16Builder(memory.DefaultAllocator)
-		sc = arrow.NewSchema([]arrow.Field{{
-			Name:     "t1",
-			Type:     b.Type(),
-			Nullable: true,
-		}}, nil)
-		b.Append(2)
-		c := make(chan flight.StreamChunk, 2)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		c <- flight.StreamChunk{
-			Err: status.Error(codes.Internal, "test error"),
-		}
-		close(c)
-		cc = c
-	default:
-		err = fmt.Errorf("unknown statement handle: %s", handle)
-	}
-	return
-}
-
-func (*testServer) SetSessionOptions(ctx context.Context, req *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	errors := make(map[string]*flight.SetSessionOptionsResultError)
-	for key, val := range req.GetSessionOptions() {
-		if key == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidName}
-			continue
-		}
-		if val.GetStringValue() == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidValue}
-			continue
-		}
-
-		session.SetSessionOption(key, val)
-	}
-
-	return &flight.SetSessionOptionsResult{Errors: errors}, nil
-}
-
-func (*testServer) GetSessionOptions(ctx context.Context, req *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.GetSessionOptionsResult{SessionOptions: session.GetSessionOptions()}, nil
-}
-
-func (*testServer) CloseSession(ctx context.Context, req *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	if err = session.Close(); err != nil {
-		return nil, err
-	}
-
-	return &flight.CloseSessionResult{Status: flight.CloseSessionResultClosed}, nil
-}
-
-func (*testServer) DoPutCommandStatementIngest(ctx context.Context, cmd flightsql.StatementIngest, rdr flight.MessageReader) (int64, error) {
-	var maxRows int64 = 50
-	var nRows int64
-	for rdr.Next() {
-		rec := rdr.Record()
-		if nRows+rec.NumRows() > maxRows {
-			return nRows, fmt.Errorf("ingested rows exceeded maximum of %d", maxRows)
-		}
-		nRows += rec.NumRows()
-	}
-	return nRows, nil
-}
-
-type FlightSqlServerSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-}
-
-func (s *FlightSqlServerSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware(nil)
-	srv := flightsql.NewFlightServer(&testServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *FlightSqlServerSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-func (s *FlightSqlServerSuite) SetupTest() {
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-
-	checked := memory.NewCheckedAllocator(s.cl.Alloc)
-	s.cl.Alloc = checked
-}
-
-func (s *FlightSqlServerSuite) TearDownTest() {
-	checked, ok := s.cl.Alloc.(*memory.CheckedAllocator)
-	s.Require().True(ok)
-	checked.AssertSize(s.T(), 0)
-
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *FlightSqlServerSuite) TestExecute() {
-	fi, err := s.cl.Execute(context.TODO(), "1")
-	s.Require().NoError(err)
-	ep := fi.GetEndpoint()
-	s.Require().Len(ep, 1)
-	fr, err := s.cl.DoGet(context.TODO(), ep[0].GetTicket())
-	s.Require().NoError(err)
-	var recs []arrow.Record
-	for fr.Next() {
-		rec := fr.Record()
-		rec.Retain()
-		defer rec.Release()
-		recs = append(recs, rec)
-	}
-	s.Require().NoError(fr.Err())
-	tbl := array.NewTableFromRecords(fr.Schema(), recs)
-	defer tbl.Release()
-	s.Assert().Equal(int64(2), tbl.NumRows())
-	s.Assert().Equal(int64(1), tbl.NumCols())
-	col := tbl.Column(0)
-	s.Assert().Equal("t1", col.Name())
-	s.Assert().Equal(2, col.Len())
-	s.Assert().Equal(1, col.NullN())
-	s.Assert().Equal(arrow.INT16, col.DataType().ID())
-	var n int
-	for _, arr := range col.Data().Chunks() {
-		data := array.NewInt16Data(arr.Data())
-		defer data.Release()
-		for i := 0; i < data.Len(); i++ {
-			switch n {
-			case 0:
-				s.Assert().Equal(true, data.IsNull(i))
-			case 1:
-				s.Assert().Equal(false, data.IsNull(i))
-				s.Assert().Equal(int16(1), data.Value(i))
-			}
-			n++
-		}
-	}
-}
-
-func (s *FlightSqlServerSuite) TestExecuteChunkError() {
-	fi, err := s.cl.Execute(context.TODO(), "2")
-	s.Require().NoError(err)
-	ep := fi.GetEndpoint()
-	s.Require().Len(ep, 1)
-	fr, err := s.cl.DoGet(context.TODO(), ep[0].GetTicket())
-	s.Require().NoError(err)
-	for fr.Next() {
-	}
-	err = fr.Err()
-	if s.Assert().Error(err) {
-		st := status.Convert(err)
-		s.Assert().Equal(codes.Internal, st.Code())
-		s.Assert().Equal("test error", st.Message())
-	}
-}
-
-func (s *FlightSqlServerSuite) TestExecutePoll() {
-	poll, err := s.cl.ExecutePoll(context.TODO(), "1", nil)
-	s.NoError(err)
-	s.NotNil(poll)
-	s.NotNil(poll.GetFlightDescriptor())
-	s.Len(poll.GetInfo().Endpoint, 1)
-
-	poll, err = s.cl.ExecutePoll(context.TODO(), "1", poll.GetFlightDescriptor())
-	s.NoError(err)
-	s.NotNil(poll)
-	s.Nil(poll.GetFlightDescriptor())
-	s.Len(poll.GetInfo().Endpoint, 2)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestNil() {
-	// Ingest with nil options errors, but does not panic
-	nRecords, err := s.cl.ExecuteIngest(context.TODO(), nil, nil)
-	s.Error(err)
-	s.Equal(int64(0), nRecords)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestInvalid() {
-	reclist := []arrow.Record{}
-	rdr, err := array.NewRecordReader(arrow.NewSchema([]arrow.Field{}, nil), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	// Cannot execute ingest without specifying required options
-	nRecords, err := s.cl.ExecuteIngest(context.TODO(), rdr, &flightsql.ExecuteIngestOpts{})
-	s.Error(err)
-	s.Equal(int64(0), nRecords)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngest() {
-	nRecords := 3
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	nRowsIngested, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	s.NoError(err)
-
-	nRowsExpected := int64(nRecords * nRowsPerRecord)
-	s.Equal(nRowsExpected, nRowsIngested)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestWithServerError() {
-	nRecords := 11 // intentionally exceed maximum number of rows the server can ingest
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	nRowsIngested, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	s.Error(err)
-	s.ErrorContains(err, "ingested rows exceeded maximum")
-
-	nRowsExpected := int64(50) // max rows the server can ingest
-	s.Equal(nRowsExpected, nRowsIngested)
-}
-
-func generateRecords(alloc memory.Allocator, nRecords, nRowsPerRecord int) []arrow.Record {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "one", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "two", Type: arrow.BinaryTypes.String},
-			{Name: "three", Type: arrow.PrimitiveTypes.Int64},
-		},
-		nil,
-	)
-
-	bldr := array.NewRecordBuilder(alloc, schema)
-	defer bldr.Release()
-
-	var val int
-	reclist := make([]arrow.Record, nRecords)
-	for i := 0; i < nRecords; i++ {
-		for j := 0; j < nRowsPerRecord; j++ {
-			bldr.Field(0).(*array.BooleanBuilder).Append(val%2 == 0)
-			bldr.Field(1).(*array.StringBuilder).Append(fmt.Sprint(val))
-			bldr.Field(2).(*array.Int64Builder).Append(int64(val))
-			val++
-		}
-		reclist[i] = bldr.NewRecord()
-	}
-	return reclist
-}
-
-type UnimplementedFlightSqlServerSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-}
-
-func (s *UnimplementedFlightSqlServerSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware(nil)
-	srv := flightsql.NewFlightServer(&flightsql.BaseServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *UnimplementedFlightSqlServerSuite) SetupTest() {
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-// the following test functions verify that the default base server will
-// correctly route requests to the appropriate interface methods based on
-// the descriptor types for DoPut/DoGet/DoAction
-
-func (s *UnimplementedFlightSqlServerSuite) TestExecute() {
-	info, err := s.cl.Execute(context.TODO(), "SELECT * FROM IRRELEVANT")
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoStatement not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTables() {
-	info, err := s.cl.GetTables(context.TODO(), &flightsql.GetTablesOpts{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoTables not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTableTypes() {
-	info, err := s.cl.GetTableTypes(context.TODO())
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoTableTypes not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetPrimaryKeys() {
-	info, err := s.cl.GetPrimaryKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoPrimaryKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetExportedKeys() {
-	info, err := s.cl.GetExportedKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoExportedKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetImportedKeys() {
-	info, err := s.cl.GetImportedKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoImportedKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetCrossReference() {
-	info, err := s.cl.GetCrossReference(context.TODO(), flightsql.TableRef{}, flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoCrossReference not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetCatalogs() {
-	info, err := s.cl.GetCatalogs(context.TODO())
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoCatalogs not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetDBSchemas() {
-	info, err := s.cl.GetDBSchemas(context.TODO(), &flightsql.GetDBSchemasOpts{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoSchemas not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTypeInfo() {
-	info, err := s.cl.GetXdbcTypeInfo(context.TODO(), nil)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoXdbcTypeInfo not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestPoll() {
-	poll, err := s.cl.ExecutePoll(context.TODO(), "", nil)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("PollFlightInfoStatement not implemented", st.Message())
-	s.Nil(poll)
-
-	poll, err = s.cl.ExecuteSubstraitPoll(context.TODO(), flightsql.SubstraitPlan{}, nil)
-	st, ok = status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("PollFlightInfoSubstraitPlan not implemented", st.Message())
-	s.Nil(poll)
-}
-
-func getTicket(cmd proto.Message) *flight.Ticket {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.Ticket{
-		Ticket: data,
-	}
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestDoGet() {
-	tests := []struct {
-		name   string
-		ticket proto.Message
-	}{
-		{"DoGetStatement", &pb.TicketStatementQuery{}},
-		{"DoGetPreparedStatement", &pb.CommandPreparedStatementQuery{}},
-		{"DoGetCatalogs", &pb.CommandGetCatalogs{}},
-		{"DoGetDBSchemas", &pb.CommandGetDbSchemas{}},
-		{"DoGetTables", &pb.CommandGetTables{}},
-		{"DoGetTableTypes", &pb.CommandGetTableTypes{}},
-		{"DoGetXdbcTypeInfo", &pb.CommandGetXdbcTypeInfo{}},
-		{"DoGetPrimaryKeys", &pb.CommandGetPrimaryKeys{}},
-		{"DoGetExportedKeys", &pb.CommandGetExportedKeys{}},
-		{"DoGetImportedKeys", &pb.CommandGetImportedKeys{}},
-		{"DoGetCrossReference", &pb.CommandGetCrossReference{}},
-	}
-
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			rdr, err := s.cl.DoGet(context.TODO(), getTicket(tt.ticket))
-			s.Nil(rdr)
-			s.True(strings.HasSuffix(err.Error(), tt.name+" not implemented"), err.Error())
-		})
-	}
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestExecuteIngest() {
-	nRecords := 3
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	info, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("DoPutCommandStatementIngest not implemented", st.Message())
-	s.Zero(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestDoAction() {
-	prep, err := s.cl.Prepare(context.TODO(), "IRRELEVANT")
-	s.Nil(prep)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CreatePreparedStatement not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestCancelFlightInfo() {
-	request := flight.CancelFlightInfoRequest{}
-	result, err := s.cl.CancelFlightInfo(context.TODO(), &request)
-	s.Nil(result)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CancelFlightInfo not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestRenewFlightEndpoint() {
-	endpoint := flight.FlightEndpoint{}
-	request := flight.RenewFlightEndpointRequest{Endpoint: &endpoint}
-	renewedEndpoint, err := s.cl.RenewFlightEndpoint(context.TODO(), &request)
-	s.Nil(renewedEndpoint)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("RenewFlightEndpoint not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestSetSessionOptions() {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"key": "val",
-	})
-	s.NoError(err)
-	res, err := s.cl.SetSessionOptions(context.TODO(), &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("SetSessionOptions not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetSessionOptions() {
-	res, err := s.cl.GetSessionOptions(context.TODO(), &flight.GetSessionOptionsRequest{})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("GetSessionOptions not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestCloseSession() {
-	res, err := s.cl.CloseSession(context.TODO(), &flight.CloseSessionRequest{})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CloseSession not implemented", st.Message())
-}
-
-type FlightSqlServerSessionSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-
-	sessionManager session.ServerSessionManager
-}
-
-func (s *FlightSqlServerSessionSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(session.NewServerSessionMiddleware(s.sessionManager)),
-	})
-	srv := flightsql.NewFlightServer(&testServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *FlightSqlServerSessionSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-func (s *FlightSqlServerSessionSuite) SetupTest() {
-	middleware := []flight.ClientMiddleware{
-		flight.NewClientCookieMiddleware(),
-	}
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, middleware, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-}
-
-func (s *FlightSqlServerSessionSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *FlightSqlServerSessionSuite) TestSetSessionOptions() {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":                int64(123),
-		"bardouble":              456.0,
-		"lol_invalid":            "this won't get set",
-		"key_with_invalid_value": "lol_invalid",
-		"big_ol_string_list":     []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	s.NoError(err)
-	res, err := s.cl.SetSessionOptions(context.TODO(), &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	s.NoError(err)
-	s.NotNil(res)
-
-	expectedErrs := map[string]*flight.SetSessionOptionsResultError{
-		"lol_invalid":            {Value: flight.SetSessionOptionsResultErrorInvalidName},
-		"key_with_invalid_value": {Value: flight.SetSessionOptionsResultErrorInvalidValue},
-	}
-
-	errs := res.GetErrors()
-	s.Equal(len(expectedErrs), len(errs))
-
-	for key, val := range errs {
-		s.Equal(expectedErrs[key], val)
-	}
-}
-
-func (s *FlightSqlServerSessionSuite) TestGetSetGetSessionOptions() {
-	ctx := context.TODO()
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-	s.Len(getRes.SessionOptions, 0)
-
-	expectedOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(expectedOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	getRes2, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes2)
-
-	opts := getRes2.GetSessionOptions()
-	s.Equal(3, len(opts))
-
-	s.Equal(expectedOpts["foolong"], opts["foolong"].GetInt64Value())
-	s.Equal(expectedOpts["bardouble"], opts["bardouble"].GetDoubleValue())
-	s.Equal(expectedOpts["big_ol_string_list"], opts["big_ol_string_list"].GetStringListValue().GetValues())
-}
-
-func (s *FlightSqlServerSessionSuite) TestSetRemoveSessionOptions() {
-	ctx := context.TODO()
-	initialOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(initialOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	removeKeyOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong": nil,
-	})
-	s.NoError(err)
-	s.NotNil(removeKeyOpts)
-
-	setRes2, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: removeKeyOpts})
-	s.NoError(err)
-	s.NotNil(setRes2)
-	s.Empty(setRes2.Errors)
-
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-
-	opts := getRes.GetSessionOptions()
-	s.Equal(2, len(opts))
-
-	s.Equal(initialOpts["bardouble"], opts["bardouble"].GetDoubleValue())
-	s.Equal(initialOpts["big_ol_string_list"], opts["big_ol_string_list"].GetStringListValue().GetValues())
-}
-
-func (s *FlightSqlServerSessionSuite) TestCloseSession() {
-	ctx := context.TODO()
-	initialOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(initialOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	closeRes, err := s.cl.CloseSession(ctx, &flight.CloseSessionRequest{})
-	s.NoError(err)
-	s.NotNil(closeRes)
-	s.Equal(flight.CloseSessionResultClosed, closeRes.GetStatus())
-
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-
-	opts := getRes.GetSessionOptions()
-	s.Empty(opts)
-}
-
-func TestBaseServer(t *testing.T) {
-	suite.Run(t, new(UnimplementedFlightSqlServerSuite))
-	suite.Run(t, new(FlightSqlServerSuite))
-	suite.Run(t, &FlightSqlServerSessionSuite{sessionManager: session.NewStatefulServerSessionManager()})
-	suite.Run(t, &FlightSqlServerSessionSuite{sessionManager: session.NewStatelessServerSessionManager()})
-}
-
-func TestStatefulServerSessionCookies(t *testing.T) {
-	// Generate session IDs deterministically
-	sessionIDGenerator := func(ids []string) func() string {
-		ch := make(chan string, len(ids))
-		for _, id := range ids {
-			ch <- id
-		}
-		close(ch)
-
-		return func() string {
-			return <-ch
-		}
-	}
-
-	factory := session.NewSessionFactory(sessionIDGenerator([]string{"how-now-brown-cow", "unique-new-york"}))
-	store := session.NewSessionStore()
-	manager := session.NewStatefulServerSessionManager(session.WithFactory(factory), session.WithStore(store))
-	middleware := session.NewServerSessionMiddleware(manager)
-
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&testServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		dialOpts...,
-	)
-	require.NoError(t, err)
-	defer client.Close()
-
-	var (
-		trailer metadata.MD
-		session session.ServerSession
-	)
-
-	ctx := context.TODO()
-
-	// Get empty session; should create new session since one doesn't exist
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Client should recieve cookie with new session ID
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=how-now-brown-cow", trailer.Get("set-cookie")[0])
-
-	// Server should add the empty session to its internal store
-	session, err = store.Get("how-now-brown-cow")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Empty(t, session.GetSessionOptions())
-
-	optionVals, err := flight.NewSessionOptionValues(map[string]any{"hello": "world"})
-	require.NoError(t, err)
-	require.NotNil(t, optionVals)
-
-	// Add option to existing session
-	_, err = client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Server received and used session from existing client cookie, no need to set a new one
-	require.Len(t, trailer.Get("set-cookie"), 0)
-
-	// The option we set has been added to the server's state
-	session, err = store.Get("how-now-brown-cow")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Len(t, session.GetSessionOptions(), 1)
-	require.Contains(t, session.GetSessionOptions(), "hello")
-
-	// Close the existing session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=how-now-brown-cow; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// The session has been removed from the server's internal store
-	session, err = store.Get("how-now-brown-cow")
-	require.Error(t, err)
-	require.Nil(t, session)
-
-	// Get the session; this should create a new session because we just closed the previous one
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// The client is informed to set a NEW cookie for the newly created session
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=unique-new-york", trailer.Get("set-cookie")[0])
-
-	// The new empty session has been added to the server's internal store
-	session, err = store.Get("unique-new-york")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Empty(t, session.GetSessionOptions())
-
-	// Close the new session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the new session's cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=unique-new-york; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// The session has been removed from the server's internal store
-	session, err = store.Get("unique-new-york")
-	require.Error(t, err)
-	require.Nil(t, session)
-}
-
-func TestStatelessServerSessionCookies(t *testing.T) {
-	manager := session.NewStatelessServerSessionManager()
-	middleware := session.NewServerSessionMiddleware(manager)
-
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&testServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		dialOpts...,
-	)
-	require.NoError(t, err)
-	defer client.Close()
-
-	var trailer metadata.MD
-
-	ctx := context.TODO()
-
-	// Get empty session; should create new session since one doesn't exist
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Client should recieve cookie with new session token. An empty session is serialized with zero bytes.
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=", trailer.Get("set-cookie")[0])
-
-	optionVals, err := flight.NewSessionOptionValues(map[string]any{"hello": "world"})
-	require.NoError(t, err)
-	require.NotNil(t, optionVals)
-
-	// Add option to existing session
-	_, err = client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Session state has been modified, so we send a new cookie with the updated session contents
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, `arrow_flight_session=ChAKBWhlbGxvEgcKBXdvcmxk`, trailer.Get("set-cookie")[0]) // base64 of binary '{"hello":"world"}' proto message
-
-	// Close the existing session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the cookie should be deleted
-	//
-	// The cookie is in the gRPC trailer because the session may have been closed AFTER the initial headers were sent
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=ChAKBWhlbGxvEgcKBXdvcmxk; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// Get the session; his should create a new session because we just closed the previous one
-	// Realistically no session is "created", this just happens because the client was told to drop the cookie
-	// in the last step.
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// The client is informed to set a NEW cookie for the newly created empty session
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=", trailer.Get("set-cookie")[0])
-
-	// Close the new session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the new session's cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=; Max-Age=0", trailer.Get("set-cookie")[0])
-}
diff --git a/go/arrow/flight/flightsql/sql_info.go b/go/arrow/flight/flightsql/sql_info.go
deleted file mode 100644
index 2cd7f91cfd70a..0000000000000
--- a/go/arrow/flight/flightsql/sql_info.go
+++ /dev/null
@@ -1,93 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-const (
-	strValIdx arrow.UnionTypeCode = iota
-	boolValIdx
-	bigintValIdx
-	int32BitMaskIdx
-	strListIdx
-	int32ToInt32ListIdx
-)
-
-// sqlInfoResultBldr is a helper for building up the dense union response
-// of a SqlInfo request.
-type sqlInfoResultBldr struct {
-	valueBldr *array.DenseUnionBuilder
-
-	strBldr              *array.StringBuilder
-	boolBldr             *array.BooleanBuilder
-	bigintBldr           *array.Int64Builder
-	int32BitmaskBldr     *array.Int32Builder
-	strListBldr          *array.ListBuilder
-	int32Toint32ListBldr *array.MapBuilder
-}
-
-func newSqlInfoResultBuilder(valueBldr *array.DenseUnionBuilder) *sqlInfoResultBldr {
-	return &sqlInfoResultBldr{
-		valueBldr:            valueBldr,
-		strBldr:              valueBldr.Child(int(strValIdx)).(*array.StringBuilder),
-		boolBldr:             valueBldr.Child(int(boolValIdx)).(*array.BooleanBuilder),
-		bigintBldr:           valueBldr.Child(int(bigintValIdx)).(*array.Int64Builder),
-		int32BitmaskBldr:     valueBldr.Child(int(int32BitMaskIdx)).(*array.Int32Builder),
-		strListBldr:          valueBldr.Child(int(strListIdx)).(*array.ListBuilder),
-		int32Toint32ListBldr: valueBldr.Child(int(int32ToInt32ListIdx)).(*array.MapBuilder),
-	}
-}
-
-func (s *sqlInfoResultBldr) Append(v interface{}) {
-	switch v := v.(type) {
-	case string:
-		s.valueBldr.Append(strValIdx)
-		s.strBldr.Append(v)
-	case bool:
-		s.valueBldr.Append(boolValIdx)
-		s.boolBldr.Append(v)
-	case int64:
-		s.valueBldr.Append(bigintValIdx)
-		s.bigintBldr.Append(v)
-	case int32:
-		s.valueBldr.Append(int32BitMaskIdx)
-		s.int32BitmaskBldr.Append(v)
-	case []string:
-		s.valueBldr.Append(strListIdx)
-		s.strListBldr.Append(true)
-		chld := s.strListBldr.ValueBuilder().(*array.StringBuilder)
-		chld.AppendValues(v, nil)
-	case map[int32][]int32:
-		s.valueBldr.Append(int32ToInt32ListIdx)
-		s.int32Toint32ListBldr.Append(true)
-
-		kb := s.int32Toint32ListBldr.KeyBuilder().(*array.Int32Builder)
-		ib := s.int32Toint32ListBldr.ItemBuilder().(*array.ListBuilder)
-		ch := ib.ValueBuilder().(*array.Int32Builder)
-
-		for key, val := range v {
-			kb.Append(key)
-			ib.Append(true)
-			for _, c := range val {
-				ch.Append(c)
-			}
-		}
-	}
-}
diff --git a/go/arrow/flight/flightsql/sqlite_server_test.go b/go/arrow/flight/flightsql/sqlite_server_test.go
deleted file mode 100644
index fee2475b2b2ec..0000000000000
--- a/go/arrow/flight/flightsql/sqlite_server_test.go
+++ /dev/null
@@ -1,910 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package flightsql_test
-
-import (
-	"context"
-	"database/sql"
-	"os"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	sqlite3 "modernc.org/sqlite/lib"
-)
-
-type FlightSqliteServerSuite struct {
-	suite.Suite
-
-	db  *sql.DB
-	srv *example.SQLiteFlightSQLServer
-	s   flight.Server
-	cl  *flightsql.Client
-
-	mem *memory.CheckedAllocator
-}
-
-func (s *FlightSqliteServerSuite) getColMetadata(colType int, table string) arrow.Metadata {
-	bldr := flightsql.NewColumnMetadataBuilder()
-	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
-	if table != "" {
-		bldr.TableName(table)
-	}
-	switch colType {
-	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
-	case sqlite3.SQLITE_INTEGER:
-		bldr.Precision(10)
-	case sqlite3.SQLITE_FLOAT:
-		bldr.Precision(15)
-	default:
-		bldr.Precision(0)
-	}
-	return bldr.Metadata()
-}
-
-func (s *FlightSqliteServerSuite) SetupTest() {
-	var err error
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.s = flight.NewServerWithMiddleware(nil)
-	s.db, err = example.CreateDB()
-	s.Require().NoError(err)
-	s.srv, err = example.NewSQLiteFlightSQLServer(s.db)
-	s.Require().NoError(err)
-	s.srv.Alloc = s.mem
-
-	s.s.RegisterFlightService(flightsql.NewFlightServer(s.srv))
-	s.s.Init("localhost:0")
-	s.s.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go s.s.Serve()
-	s.cl, err = flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.Require().NotNil(s.cl)
-	s.cl.Alloc = s.mem
-}
-
-func (s *FlightSqliteServerSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.s.Shutdown()
-	s.srv = nil
-	err := s.db.Close()
-	s.Require().NoError(err)
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *FlightSqliteServerSuite) fromJSON(dt arrow.DataType, json string) arrow.Array {
-	arr, _, _ := array.FromJSON(s.mem, dt, strings.NewReader(json))
-	return arr
-}
-
-func (s *FlightSqliteServerSuite) execCountQuery(query string) int64 {
-	info, err := s.cl.Execute(context.Background(), query)
-	s.NoError(err)
-
-	rdr, err := s.cl.DoGet(context.Background(), info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	rec, err := rdr.Read()
-	s.NoError(err)
-	return rec.Column(0).(*array.Int64).Value(0)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandStatementQuery() {
-	ctx := context.Background()
-	info, err := s.cl.Execute(ctx, "SELECT * FROM intTable")
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-	}, nil)
-
-	s.Truef(expectedSchema.Equal(rec.Schema()), "expected: %s\ngot: %s", expectedSchema, rec.Schema())
-
-	idarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
-	defer idarr.Release()
-	keyarr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
-	defer keyarr.Release()
-	valarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-	defer valarr.Release()
-	foreignarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
-	defer foreignarr.Release()
-
-	expectedRec := array.NewRecord(expectedSchema, []arrow.Array{idarr, keyarr, valarr, foreignarr}, 4)
-	defer expectedRec.Release()
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTables() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalogName := s.fromJSON(arrow.BinaryTypes.String, `["main", "main", "main"]`)
-	defer catalogName.Release()
-	schemaName := s.fromJSON(arrow.BinaryTypes.String, `["", "", ""]`)
-	defer schemaName.Release()
-
-	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
-	defer tableName.Release()
-
-	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
-	defer tableType.Release()
-
-	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithIncludedSchemasNoFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		IncludeSchema: true,
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	// Don't check the actual data since it'll include SQLite internal tables
-	s.True(rdr.Next())
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableNameFilterPattern: proto.String("int%"),
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
-	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-	expected := array.NewRecord(schema_ref.Tables, []arrow.Array{catalog, schema, table, tabletype}, 1)
-	defer func() {
-		catalog.Release()
-		schema.Release()
-		table.Release()
-		tabletype.Release()
-		expected.Release()
-	}()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableTypesFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableTypes: []string{"index"},
-	})
-	s.NoError(err)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(schema_ref.Tables.Equal(rdr.Schema()), rdr.Schema().String())
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithExistingTableTypeFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableTypes: []string{"table"},
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalogName := s.fromJSON(arrow.BinaryTypes.String, `["main", "main", "main"]`)
-	defer catalogName.Release()
-	schemaName := s.fromJSON(arrow.BinaryTypes.String, `["", "", ""]`)
-	defer schemaName.Release()
-
-	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
-	defer tableName.Release()
-
-	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
-	defer tableType.Release()
-
-	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithIncludedSchemas() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableNameFilterPattern: proto.String("int%"),
-		IncludeSchema:          true,
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
-	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-
-	dbTableName := "intTable"
-
-	tableSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, dbTableName)},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-	}, nil)
-	schemaBuf := flight.SerializeSchema(tableSchema, s.mem)
-	binaryBldr := array.NewBinaryBuilder(s.mem, arrow.BinaryTypes.Binary)
-	binaryBldr.Append(schemaBuf)
-	schemaCol := binaryBldr.NewArray()
-
-	expected := array.NewRecord(schema_ref.TablesWithIncludedSchema, []arrow.Array{catalog, schema, table, tabletype, schemaCol}, 1)
-	defer func() {
-		catalog.Release()
-		schema.Release()
-		table.Release()
-		tabletype.Release()
-		binaryBldr.Release()
-		schemaCol.Release()
-		expected.Release()
-	}()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTypeInfo() {
-	ctx := context.Background()
-	info, err := s.cl.GetXdbcTypeInfo(ctx, nil)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := example.GetTypeInfoResult(s.mem)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTypeInfoFiltered() {
-	ctx := context.Background()
-	info, err := s.cl.GetXdbcTypeInfo(ctx, proto.Int32(-4))
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := example.GetFilteredTypeInfoResult(s.mem, -4)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetCatalogs() {
-	ctx := context.Background()
-	info, err := s.cl.GetCatalogs(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Schema().Equal(schema_ref.Catalogs), rdr.Schema().String())
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	expected := array.NewRecord(schema_ref.Catalogs, []arrow.Array{catalog}, 1)
-	defer catalog.Release()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetDbSchemas() {
-	ctx := context.Background()
-	info, err := s.cl.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Schema().Equal(schema_ref.DBSchemas), rdr.Schema().String())
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	expected := array.NewRecord(schema_ref.DBSchemas, []arrow.Array{catalog, schema}, 1)
-	defer catalog.Release()
-	defer schema.Release()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTableTypes() {
-	ctx := context.Background()
-	info, err := s.cl.GetTableTypes(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-	defer expected.Release()
-	expectedRec := array.NewRecord(schema_ref.TableTypes, []arrow.Array{expected}, 1)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandStatementUpdate() {
-	ctx := context.Background()
-	result, err := s.cl.ExecuteUpdate(ctx, `INSERT INTO intTable (keyName, value) VALUES
-							('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)`)
-	s.NoError(err)
-	s.EqualValues(3, result)
-
-	result, err = s.cl.ExecuteUpdate(ctx, `UPDATE intTable SET keyName = 'KEYNAME1'
-										  WHERE keyName = 'KEYNAME2' OR keyName = 'KEYNAME3'`)
-	s.NoError(err)
-	s.EqualValues(2, result)
-
-	result, err = s.cl.ExecuteUpdate(ctx, `DELETE FROM intTable WHERE keyName = 'KEYNAME1'`)
-	s.NoError(err)
-	s.EqualValues(3, result)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQuery() {
-	ctx := context.Background()
-	prep, err := s.cl.Prepare(ctx, "SELECT * FROM intTable")
-	s.NoError(err)
-	defer prep.Close(ctx)
-
-	info, err := prep.Execute(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
-
-	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
-	defer idArr.Release()
-	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
-	defer keyNameArr.Release()
-	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-	defer valueArr.Release()
-	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
-	defer foreignIdArr.Release()
-
-	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 4)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQueryWithParams() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "SELECT * FROM intTable WHERE keyName LIKE ?")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[0]")
-	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
-	strArray := s.fromJSON(arrow.BinaryTypes.String, `["%one"]`)
-	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
-	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[]")
-	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
-	paramArr, _ := array.NewDenseUnionFromArraysWithFields(typeIDs,
-		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
-		[]string{"string", "bytes", "bigint", "double"})
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
-		[]arrow.Array{paramArr}, 1)
-	defer func() {
-		typeIDs.Release()
-		offsets.Release()
-		strArray.Release()
-		bytesArr.Release()
-		bigintArr.Release()
-		dblArr.Release()
-		paramArr.Release()
-		batch.Release()
-	}()
-
-	stmt.SetParameters(batch)
-	info, err := stmt.Execute(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
-
-	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 3]`)
-	defer idArr.Release()
-	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "negative one"]`)
-	defer keyNameArr.Release()
-	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, -1]`)
-	defer valueArr.Release()
-	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1]`)
-	defer foreignIdArr.Release()
-
-	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 2)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdateNoTable() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO thisTableDoesNotExist (keyName, value) VALUES ('new_value', 2)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	_, err = stmt.ExecuteUpdate(context.Background())
-	s.Error(err)
-	s.Equal(codes.NotFound, status.Code(err), "%#v", err.Error())
-	s.Contains(err.Error(), "no such table")
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdateWithParams() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO intTable (keyName, value) VALUES ('new_value', ?)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[2]")
-	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
-	strArray := s.fromJSON(arrow.BinaryTypes.String, "[]")
-	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
-	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[999]")
-	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
-	paramArr, err := array.NewDenseUnionFromArraysWithFields(typeIDs,
-		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
-		[]string{"string", "bytes", "bigint", "double"})
-	s.NoError(err)
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
-		[]arrow.Array{paramArr}, 1)
-	defer func() {
-		typeIDs.Release()
-		offsets.Release()
-		strArray.Release()
-		bytesArr.Release()
-		bigintArr.Release()
-		dblArr.Release()
-		paramArr.Release()
-		batch.Release()
-	}()
-
-	stmt.SetParameters(batch)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	n, err := stmt.ExecuteUpdate(context.Background())
-	s.NoError(err)
-	s.EqualValues(1, n)
-	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	n, err = s.cl.ExecuteUpdate(context.Background(), "DELETE FROM intTable WHERE keyName = 'new_value'")
-	s.NoError(err)
-	s.EqualValues(1, n)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdate() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO intTable (keyName, value) VALUES ('new_value', 999)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	result, err := stmt.ExecuteUpdate(ctx)
-	s.NoError(err)
-	s.EqualValues(1, result)
-	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	result, err = s.cl.ExecuteUpdate(ctx, "DELETE FROM intTable WHERE keyName = 'new_value'")
-	s.NoError(err)
-	s.EqualValues(1, result)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetPrimaryKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetPrimaryKeys(ctx, flightsql.TableRef{Table: "int%"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.PrimaryKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("intTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).(*array.Int32Builder).Append(1)
-	bldr.Field(5).AppendNull()
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetImportedKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetImportedKeys(ctx, flightsql.TableRef{Table: "intTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetExportedKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetExportedKeys(ctx, flightsql.TableRef{Table: "foreignTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetCrossRef() {
-	ctx := context.Background()
-	info, err := s.cl.GetCrossReference(ctx,
-		flightsql.TableRef{Table: "foreignTable"},
-		flightsql.TableRef{Table: "intTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func validateSqlInfo(t *testing.T, expected interface{}, sc scalar.Scalar) bool {
-	switch ex := expected.(type) {
-	case string:
-		return assert.Equal(t, ex, sc.String())
-	case bool:
-		return assert.Equal(t, ex, sc.(*scalar.Boolean).Value)
-	case int64:
-		return assert.Equal(t, ex, sc.(*scalar.Int64).Value)
-	case int32:
-		return assert.Equal(t, ex, sc.(*scalar.Int32).Value)
-	case []string:
-		arr := sc.(*scalar.List).Value.(*array.String)
-		assert.EqualValues(t, len(ex), arr.Len())
-		for i, v := range ex {
-			assert.Equal(t, v, arr.Value(i))
-		}
-	case map[int32][]int32:
-		// map is a list of structs with key and values
-		structArr := sc.(*scalar.Map).Value.(*array.Struct)
-		keys := structArr.Field(0).(*array.Int32)
-		values := structArr.Field(1).(*array.List)
-		// assert that the map has the right size
-		assert.EqualValues(t, len(ex), keys.Len())
-
-		// for each element, match the argument
-		for i := 0; i < keys.Len(); i++ {
-			keyScalar, _ := scalar.GetScalar(keys, i)
-			infoID := keyScalar.(*scalar.Int32).Value
-
-			// assert the key exists
-			list, ok := ex[infoID]
-			assert.True(t, ok)
-
-			// assert the int32list is the right size
-			start, end := values.ValueOffsets(i)
-			assert.EqualValues(t, len(list), end-start)
-
-			// for each element make sure it matches
-			for j, v := range list {
-				listItem, err := scalar.GetScalar(values.ListValues(), int(start)+j)
-				assert.NoError(t, err)
-				assert.Equal(t, v, listItem.(*scalar.Int32).Value)
-			}
-		}
-	}
-	return true
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetSqlInfo() {
-	expectedResults := example.SqlInfoResultMap()
-	infoIDs := make([]flightsql.SqlInfo, 0, len(expectedResults))
-	for k := range expectedResults {
-		infoIDs = append(infoIDs, flightsql.SqlInfo(k))
-	}
-
-	ctx := context.Background()
-	info, err := s.cl.GetSqlInfo(ctx, infoIDs)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.EqualValues(2, rec.NumCols())
-	s.EqualValues(len(expectedResults), rec.NumRows())
-
-	colName := rec.Column(0).(*array.Uint32)
-	colValue := rec.Column(1)
-	for i := 0; i < int(rec.NumRows()); i++ {
-		expected := expectedResults[colName.Value(i)]
-		sc, err := scalar.GetScalar(colValue, i)
-		s.NoError(err)
-
-		s.True(validateSqlInfo(s.T(), expected, sc.(*scalar.DenseUnion).ChildValue()))
-
-		sc.(*scalar.DenseUnion).Release()
-	}
-}
-
-func (s *FlightSqliteServerSuite) TestTransactions() {
-	ctx := context.Background()
-	tx, err := s.cl.BeginTransaction(ctx)
-	s.Require().NoError(err)
-	s.Require().NotNil(tx)
-
-	s.True(tx.ID().IsValid())
-	s.NotEmpty(tx.ID())
-
-	_, err = tx.BeginSavepoint(ctx, "foobar")
-	s.Equal(codes.Unimplemented, status.Code(err))
-
-	info, err := tx.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-
-	toTable := func(r *flight.Reader) arrow.Table {
-		defer r.Release()
-		recs := make([]arrow.Record, 0)
-		for rdr.Next() {
-			r := rdr.Record()
-			r.Retain()
-			defer r.Release()
-			recs = append(recs, r)
-		}
-
-		return array.NewTableFromRecords(rdr.Schema(), recs)
-	}
-	tbl := toTable(rdr)
-	defer tbl.Release()
-
-	rowCount := tbl.NumRows()
-
-	result, err := tx.ExecuteUpdate(ctx, `INSERT INTO intTable (keyName, value) VALUES
-						   ('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)`)
-	s.Require().NoError(err)
-	s.EqualValues(3, result)
-
-	info, err = tx.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err = s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-	tbl = toTable(rdr)
-	defer tbl.Release()
-	s.EqualValues(rowCount+3, tbl.NumRows())
-
-	s.Require().NoError(tx.Rollback(ctx))
-	// commit/rollback invalidates the transaction handle
-	s.ErrorIs(tx.Commit(ctx), flightsql.ErrInvalidTxn)
-	s.ErrorIs(tx.Rollback(ctx), flightsql.ErrInvalidTxn)
-
-	info, err = s.cl.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err = s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-	tbl = toTable(rdr)
-	defer tbl.Release()
-	s.EqualValues(rowCount, tbl.NumRows())
-}
-
-func TestSqliteServer(t *testing.T) {
-	suite.Run(t, new(FlightSqliteServerSuite))
-}
diff --git a/go/arrow/flight/flightsql/types.go b/go/arrow/flight/flightsql/types.go
deleted file mode 100644
index 88840cd7d6caf..0000000000000
--- a/go/arrow/flight/flightsql/types.go
+++ /dev/null
@@ -1,899 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// Constants for Action types
-const (
-	CreatePreparedStatementActionType     = "CreatePreparedStatement"
-	ClosePreparedStatementActionType      = "ClosePreparedStatement"
-	CreatePreparedSubstraitPlanActionType = "CreatePreparedSubstraitPlan"
-	CancelQueryActionType                 = "CancelQuery"
-	BeginSavepointActionType              = "BeginSavepoint"
-	BeginTransactionActionType            = "BeginTransaction"
-	EndTransactionActionType              = "EndTransaction"
-	EndSavepointActionType                = "EndSavepoint"
-)
-
-func toCrossTableRef(cmd *pb.CommandGetCrossReference) CrossTableRef {
-	return CrossTableRef{
-		PKRef: TableRef{
-			Catalog:  cmd.PkCatalog,
-			DBSchema: cmd.PkDbSchema,
-			Table:    cmd.PkTable,
-		},
-		FKRef: TableRef{
-			Catalog:  cmd.FkCatalog,
-			DBSchema: cmd.FkDbSchema,
-			Table:    cmd.FkTable,
-		},
-	}
-}
-
-func pkToTableRef(cmd *pb.CommandGetPrimaryKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-func exkToTableRef(cmd *pb.CommandGetExportedKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-func impkToTableRef(cmd *pb.CommandGetImportedKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-// CreateStatementQueryTicket is a helper that constructs a properly
-// serialized TicketStatementQuery containing a given opaque binary handle
-// for use with constructing a ticket to return from GetFlightInfoStatement.
-func CreateStatementQueryTicket(handle []byte) ([]byte, error) {
-	query := &pb.TicketStatementQuery{StatementHandle: handle}
-	var ticket anypb.Any
-	ticket.MarshalFrom(query)
-
-	return proto.Marshal(&ticket)
-}
-
-type (
-	// GetDBSchemasOpts contains the options to request Database Schemas:
-	// an optional Catalog and a Schema Name filter pattern.
-	GetDBSchemasOpts pb.CommandGetDbSchemas
-	// GetTablesOpts contains the options for retrieving a list of tables:
-	// optional Catalog, Schema filter pattern, Table name filter pattern,
-	// a filter of table types, and whether or not to include the schema
-	// in the response.
-	GetTablesOpts pb.CommandGetTables
-
-	// SqlInfoResultMap is a mapping of SqlInfo ids to the desired response.
-	// This is part of a Server and used for registering responses to a
-	// SqlInfo request.
-	SqlInfoResultMap map[uint32]interface{}
-
-	// TableRef is a helpful struct for referencing a specific Table
-	// by its catalog, schema, and table name.
-	TableRef struct {
-		// Catalog specifies the catalog this table belongs to.
-		// An empty string refers to tables without a catalog.
-		// If nil, can reference a table in any catalog.
-		Catalog *string
-		// DBSchema specifies the database schema the table belongs to.
-		// An empty string refers to a table which does not belong to
-		// a database schema.
-		// If nil, can reference a table in any database schema.
-		DBSchema *string
-		// Table is the name of the table that is being referenced.
-		Table string
-	}
-
-	// CrossTableRef contains a reference to a Primary Key table
-	// and a Foreign Key table.
-	CrossTableRef struct {
-		PKRef TableRef
-		FKRef TableRef
-	}
-
-	// since we are hiding the Protobuf internals in an internal
-	// package, we need to provide enum values for the SqlInfo enum here
-	SqlInfo uint32
-
-	// SubstraitPlan represents a plan to be executed, along with
-	// the associated metadata
-	SubstraitPlan struct {
-		// the serialized plan
-		Plan []byte
-		// the substrait release, e.g. "0.23.0"
-		Version string
-	}
-
-	// ExecuteIngestOpts contains the options for executing a bulk ingestion:
-	//
-	// Required:
-	// - TableDefinitionOptions: Specifies the behavior for creating or updating table definitions
-	// - Table: The destination table to load into
-	//
-	// Optional:
-	// - Schema: The DB schema containing the destination table
-	// - Catalog: The catalog containing the destination table
-	// - Temporary: Use a temporary table as the destination
-	// - TransactionId: Ingest as part of this transaction
-	// - Options: Additional, backend-specific options
-	ExecuteIngestOpts pb.CommandStatementIngest
-)
-
-// SqlInfo enum values
-const (
-	// Server Information
-	// Values [0-500): Provide information about the Flight SQL Server itself
-
-	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
-	SqlInfoFlightSqlServerName = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_NAME)
-	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
-	SqlInfoFlightSqlServerVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_VERSION)
-	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
-	SqlInfoFlightSqlServerArrowVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
-	//
-	// Returns:
-	// - false: if read-write
-	// - true: if read only
-	SqlInfoFlightSqlServerReadOnly = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// SQL queries.
-	//
-	// Note that the absence of this info (as opposed to a false value) does not necessarily
-	// mean that SQL is not supported, as this property was not originally defined.
-	SqlInfoFlightSqlServerSql = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SQL)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// Substrait plans.
-	SqlInfoFlightSqlServerSubstrait = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT)
-
-	// Retrieves a string value indicating the minimum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfoFlightSqlServerSubstraitMinVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION)
-
-	// Retrieves a string value indicating the maximum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfoFlightSqlServerSubstraitMaxVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION)
-
-	// Retrieves an int32 indicating whether the Flight SQL Server supports the
-	// BeginTransaction/EndTransaction/BeginSavepoint/EndSavepoint actions.
-	//
-	// Even if this is not supported, the database may still support explicit "BEGIN
-	// TRANSACTION"/"COMMIT" SQL statements (see SQL_TRANSACTIONS_SUPPORTED); this property
-	// is only about whether the server implements the Flight SQL API endpoints.
-	//
-	// The possible values are listed in `SqlSupportedTransaction`.
-	SqlInfoFlightSqlServerTransaction = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports explicit
-	// query cancellation (the CancelQuery action).
-	SqlInfoFlightSqlServerCancel = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_CANCEL)
-
-	// Retrieves an int32 indicating the timeout (in milliseconds) for prepared statement handles.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfoFlightSqlServerStatementTimeout = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT)
-
-	// Retrieves an int32 indicating the timeout (in milliseconds) for transactions, since transactions are not tied to a connection.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfoFlightSqlServerTransactionTimeout = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// bulk ingestion.
-	SqlInfoFlightSqlServerBulkIngestion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_BULK_INGESTION)
-	// Retrieves a boolean value indicating whether transactions are supported for bulk ingestion. If not, invoking
-	// the method commit in the context of a bulk ingestion is a noop, and the isolation level is
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if bulk ingestion transactions are unsupported;
-	// - true: if bulk ingestion transactions are supported.
-	SqlInfoFlightSqlServerIngestTransactionsSupported = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED)
-
-	// SQL Syntax Information
-	// Values [500-1000): provide information about the supported SQL Syntax
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of catalogs.
-	// - true: if it supports CREATE and DROP of catalogs.
-	SqlInfoDDLCatalog = SqlInfo(pb.SqlInfo_SQL_DDL_CATALOG)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of schemas.
-	// - true: if it supports CREATE and DROP of schemas.
-	SqlInfoDDLSchema = SqlInfo(pb.SqlInfo_SQL_DDL_SCHEMA)
-
-	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of tables.
-	// - true: if it supports CREATE and DROP of tables.
-	SqlInfoDDLTable = SqlInfo(pb.SqlInfo_SQL_DDL_TABLE)
-
-	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfoIdentifierCase = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_CASE)
-	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
-	SqlInfoIdentifierQuoteChar = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR)
-
-	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfoQuotedIdentifierCase = SqlInfo(pb.SqlInfo_SQL_QUOTED_IDENTIFIER_CASE)
-
-	// Retrieves a boolean value indicating whether all tables are selectable.
-	//
-	// Returns:
-	// - false: if not all tables are selectable or if none are;
-	// - true: if all tables are selectable.
-	SqlInfoAllTablesAreASelectable = SqlInfo(pb.SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE)
-
-	// Retrieves the null ordering.
-	//
-	// Returns a int32 ordinal for the null ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlNullOrdering`.
-	SqlInfoNullOrdering = SqlInfo(pb.SqlInfo_SQL_NULL_ORDERING)
-	// Retrieves a UTF-8 string list with values of the supported keywords.
-	SqlInfoKeywords = SqlInfo(pb.SqlInfo_SQL_KEYWORDS)
-	// Retrieves a UTF-8 string list with values of the supported numeric functions.
-	SqlInfoNumericFunctions = SqlInfo(pb.SqlInfo_SQL_NUMERIC_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported string functions.
-	SqlInfoStringFunctions = SqlInfo(pb.SqlInfo_SQL_STRING_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported system functions.
-	SqlInfoSystemFunctions = SqlInfo(pb.SqlInfo_SQL_SYSTEM_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported datetime functions.
-	SqlInfoDateTimeFunctions = SqlInfo(pb.SqlInfo_SQL_DATETIME_FUNCTIONS)
-
-	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
-	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
-	// (and therefore use one of the wildcard characters).
-	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
-	// characters.
-	SqlInfoSearchStringEscape = SqlInfo(pb.SqlInfo_SQL_SEARCH_STRING_ESCAPE)
-
-	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
-	// (those beyond a-z, A-Z, 0-9 and _).
-	SqlInfoExtraNameChars = SqlInfo(pb.SqlInfo_SQL_EXTRA_NAME_CHARACTERS)
-
-	// Retrieves a boolean value indicating whether column aliasing is supported.
-	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
-	// as required.
-	//
-	// Returns:
-	// - false: if column aliasing is unsupported;
-	// - true: if column aliasing is supported.
-	SqlInfoSupportsColumnAliasing = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING)
-
-	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
-	// null are supported.
-	//
-	// - Returns:
-	// - false: if concatenations between null and non-null values being null are unsupported;
-	// - true: if concatenations between null and non-null values being null are supported.
-	SqlInfoNullPlusNullIsNull = SqlInfo(pb.SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL)
-
-	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
-	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
-	// SqlSupportsConvert enum.
-	// The returned map will be:  map<int32, list<int32>>
-	SqlInfoSupportsConvert = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_CONVERT)
-
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if table correlation names are unsupported;
-	// - true: if table correlation names are supported.
-	SqlInfoSupportsTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES)
-
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if different table correlation names are unsupported;
-	// - true: if different table correlation names are supported
-	SqlInfoSupportsDifferentTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES)
-
-	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
-	//
-	// Returns:
-	// - false: if expressions in ORDER BY are unsupported;
-	// - true: if expressions in ORDER BY are supported;
-	SqlInfoSupportsExpressionsInOrderBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY)
-
-	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
-	// clause is supported.
-	//
-	// Returns:
-	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
-	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
-	SqlInfoSupportsOrderByUnrelated = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED)
-
-	// Retrieves the supported GROUP BY commands;
-	//
-	// Returns an int32 bitmask value representing the supported commands.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
-	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
-	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
-	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
-	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
-	SqlInfoSupportedGroupBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GROUP_BY)
-
-	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
-	//
-	// Returns:
-	// - false: if specifying a LIKE escape clause is unsupported;
-	// - true: if specifying a LIKE escape clause is supported.
-	SqlInfoSupportsLikeEscapeClause = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE)
-
-	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
-	//
-	// Returns:
-	// - false: if columns cannot be defined as non-nullable;
-	// - true: if columns may be defined as non-nullable.
-	SqlInfoSupportsNonNullableColumns = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS)
-
-	// Retrieves the supported SQL grammar level as per the ODBC specification.
-	//
-	// Returns an int32 bitmask value representing the supported SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
-	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
-	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
-	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
-	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
-	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
-	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
-	SqlInfoSupportedGrammar = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GRAMMAR)
-
-	// Retrieves the supported ANSI92 SQL grammar level.
-	//
-	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
-	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
-	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
-	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
-	// - return 4 (\b100) => [ANSI92_FULL_SQL];
-	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
-	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
-	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
-	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
-	SqlInfoANSI92SupportedLevel = SqlInfo(pb.SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL)
-
-	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
-	//
-	// Returns:
-	// - false: if the SQL Integrity Enhancement Facility is supported;
-	// - true: if the SQL Integrity Enhancement Facility is supported.
-	SqlInfoSupportsIntegrityEnhancementFacility = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY)
-
-	// Retrieves the support level for SQL OUTER JOINs.
-	//
-	// Returns a int32 ordinal for the SQL ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
-	SqlInfoOuterJoinsSupportLevel = SqlInfo(pb.SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL)
-
-	// Retrieves a UTF-8 string with the preferred term for "schema".
-	SqlInfoSchemaTerm = SqlInfo(pb.SqlInfo_SQL_SCHEMA_TERM)
-	// Retrieves a UTF-8 string with the preferred term for "procedure".
-	SqlInfoProcedureTerm = SqlInfo(pb.SqlInfo_SQL_PROCEDURE_TERM)
-
-	// Retrieves a UTF-8 string with the preferred term for "catalog".
-	// If a empty string is returned its assumed that the server does NOT supports catalogs.
-	SqlInfoCatalogTerm = SqlInfo(pb.SqlInfo_SQL_CATALOG_TERM)
-
-	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
-	//
-	// - false: if a catalog does not appear at the start of a fully qualified table name;
-	// - true: if a catalog appears at the start of a fully qualified table name.
-	SqlInfoCatalogAtStart = SqlInfo(pb.SqlInfo_SQL_CATALOG_AT_START)
-
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfoSchemasSupportedActions = SqlInfo(pb.SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS)
-
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfoCatalogsSupportedActions = SqlInfo(pb.SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS)
-
-	// Retrieves the supported SQL positioned commands.
-	//
-	// Returns an int32 bitmask value representing the supported SQL positioned commands.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
-	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
-	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
-	SqlInfoSupportedPositionedCommands = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS)
-
-	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
-	//
-	// Returns:
-	// - false: if SELECT FOR UPDATE statements are unsupported;
-	// - true: if SELECT FOR UPDATE statements are supported.
-	SqlInfoSelectForUpdateSupported = SqlInfo(pb.SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
-	// are supported.
-	//
-	// Returns:
-	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
-	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
-	SqlInfoStoredProceduresSupported = SqlInfo(pb.SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED)
-
-	// Retrieves the supported SQL subqueries.
-	//
-	// Returns an int32 bitmask value representing the supported SQL subqueries.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL subqueries);
-	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
-	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
-	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
-	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
-	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
-	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - ...
-	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
-	SqlInfoSupportedSubqueries = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_SUBQUERIES)
-
-	// Retrieves a boolean value indicating whether correlated subqueries are supported.
-	//
-	// Returns:
-	// - false: if correlated subqueries are unsupported;
-	// - true: if correlated subqueries are supported.
-	SqlInfoCorrelatedSubqueriesSupported = SqlInfo(pb.SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED)
-
-	// Retrieves the supported SQL UNIONs.
-	//
-	// Returns an int32 bitmask value representing the supported SQL UNIONs.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_UNION];
-	// - return 2 (\b10)  => [SQL_UNION_ALL];
-	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
-	SqlInfoSupportedUnions = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_UNIONS)
-
-	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
-	SqlInfoMaxBinaryLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
-	SqlInfoMaxCharLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
-	SqlInfoMaxColumnNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a GROUP BY clause.
-	SqlInfoMaxColumnsInGroupBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY)
-	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
-	SqlInfoMaxColumnsInIndex = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_INDEX)
-	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
-	SqlInfoMaxColumnsInOrderBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
-	SqlInfoMaxColumnsInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_SELECT)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
-	SqlInfoMaxColumnsInTable = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_TABLE)
-	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
-	SqlInfoMaxConnections = SqlInfo(pb.SqlInfo_SQL_MAX_CONNECTIONS)
-	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
-	SqlInfoMaxCursorNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH)
-
-	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
-	// including all of the parts of the index.
-	SqlInfoMaxIndexLen = SqlInfo(pb.SqlInfo_SQL_MAX_INDEX_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
-	SqlInfoDBSchemaNameLen = SqlInfo(pb.SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
-	SqlInfoMaxProcedureNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
-	SqlInfoMaxCatalogNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
-	SqlInfoMaxRowSize = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE)
-
-	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
-	// data types LONGVARCHAR and LONGVARBINARY.
-	//
-	// Returns:
-	// - false: if return value for the JDBC method getMaxRowSize does
-	//          not include the SQL data types LONGVARCHAR and LONGVARBINARY;
-	// - true: if return value for the JDBC method getMaxRowSize includes
-	//         the SQL data types LONGVARCHAR and LONGVARBINARY.
-	SqlInfoMaxRowSizeIncludesBlobs = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS)
-
-	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
-	// a result of 0 (zero) means that there is no limit or the limit is not known.
-	SqlInfoMaxStatementLen = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENT_LENGTH)
-	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
-	SqlInfoMaxStatements = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENTS)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
-	SqlInfoMaxTableNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_TABLE_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
-	SqlInfoMaxTablesInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_TABLES_IN_SELECT)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
-	SqlInfoMaxUsernameLen = SqlInfo(pb.SqlInfo_SQL_MAX_USERNAME_LENGTH)
-
-	// Retrieves this database's default transaction isolation level as described in
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	//
-	// Returns a int32 ordinal for the SQL transaction isolation level.
-	SqlInfoDefaultTransactionIsolation = SqlInfo(pb.SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION)
-
-	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
-	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if transactions are unsupported;
-	// - true: if transactions are supported.
-	SqlInfoTransactionsSupported = SqlInfo(pb.SqlInfo_SQL_TRANSACTIONS_SUPPORTED)
-
-	// Retrieves the supported transactions isolation levels.
-	//
-	// Returns an int32 bitmask value representing the supported transactions isolation levels.
-	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
-	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
-	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
-	// - ...
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	SqlInfoSupportedTransactionsIsolationlevels = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS)
-
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
-	// the transaction to commit.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction does not force the transaction to commit;
-	// - true: if a data definition statement within a transaction forces the transaction to commit.
-	SqlInfoDataDefinitionCausesTransactionCommit = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT)
-
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction is taken into account;
-	// - true: a data definition statement within a transaction is ignored.
-	SqlInfoDataDefinitionsInTransactionsIgnored = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED)
-
-	// Retrieves an int32 bitmask value representing the supported result set types.
-	// The returned bitmask should be parsed in order to retrieve the supported result set types.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported result set types);
-	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
-	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
-	// - ...
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
-	SqlInfoSupportedResultSetTypes = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetUnspecified = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetForwardOnly = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetScrollSensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetScrollInsensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE)
-
-	// Retrieves a boolean value indicating whether this database supports batch updates.
-	//
-	// - false: if this database does not support batch updates;
-	// - true: if this database supports batch updates.
-	SqlInfoBatchUpdatesSupported = SqlInfo(pb.SqlInfo_SQL_BATCH_UPDATES_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether this database supports savepoints.
-	//
-	// Returns:
-	// - false: if this database does not support savepoints;
-	// - true: if this database supports savepoints.
-	SqlInfoSavePointsSupported = SqlInfo(pb.SqlInfo_SQL_SAVEPOINTS_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
-	//
-	// Returns:
-	// - false: if named parameters in callable statements are unsupported;
-	// - true: if named parameters in callable statements are supported.
-	SqlInfoNamedParametersSupported = SqlInfo(pb.SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
-	//
-	// Returns:
-	// - false: if updates made to a LOB are made directly to the LOB;
-	// - true: if updates made to a LOB are made on a copy.
-	SqlInfoLocatorsUpdateCopy = SqlInfo(pb.SqlInfo_SQL_LOCATORS_UPDATE_COPY)
-
-	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
-	// using the stored procedure escape syntax is supported.
-	//
-	// Returns:
-	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
-	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
-	SqlInfoStoredFunctionsUsingCallSyntaxSupported = SqlInfo(pb.SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED)
-)
-
-func (s SqlInfo) String() string { return pb.SqlInfo(int32(s)).String() }
-
-type SqlSupportedTransaction = pb.SqlSupportedTransaction
-
-const (
-	// Unknown/not indicated/no support
-	SqlTransactionNone = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_NONE
-	// Transactions, but not savepoints.
-	// a savepoint is a mark within a transaction that can be individually
-	// rolled back to. Not all databases support savepoints.
-	SqlTransactionTransaction = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_TRANSACTION
-	// Transactions AND Savepoints supported
-	SqlTransactionSavepoint = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_SAVEPOINT
-)
-
-// SqlSupportedCaseSensitivity indicates whether something
-// (e.g. an identifier) is case-sensitive
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlSupportedCaseSensitivity = pb.SqlSupportedCaseSensitivity
-
-const (
-	SqlCaseSensitivityUnknown         = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN
-	SqlCaseSensitivityCaseInsensitive = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE
-	SqlCaseSensitivityUpperCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE
-	SqlCaseSensitivityLowerCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE
-)
-
-// SqlNullOrdering indicates how nulls are sorted
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlNullOrdering = pb.SqlNullOrdering
-
-const (
-	SqlNullOrderingSortHigh    = pb.SqlNullOrdering_SQL_NULLS_SORTED_HIGH
-	SqlNullOrderingSortLow     = pb.SqlNullOrdering_SQL_NULLS_SORTED_LOW
-	SqlNullOrderingSortAtStart = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_START
-	SqlNullOrderingSortAtEnd   = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_END
-)
-
-// SqlSupportsConvert indicates support for converting between different
-// types.
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlSupportsConvert = pb.SqlSupportsConvert
-
-const (
-	SqlConvertBigInt            = pb.SqlSupportsConvert_SQL_CONVERT_BIGINT
-	SqlConvertBinary            = pb.SqlSupportsConvert_SQL_CONVERT_BINARY
-	SqlConvertBit               = pb.SqlSupportsConvert_SQL_CONVERT_BIT
-	SqlConvertChar              = pb.SqlSupportsConvert_SQL_CONVERT_CHAR
-	SqlConvertDate              = pb.SqlSupportsConvert_SQL_CONVERT_DATE
-	SqlConvertDecimal           = pb.SqlSupportsConvert_SQL_CONVERT_DECIMAL
-	SqlConvertFloat             = pb.SqlSupportsConvert_SQL_CONVERT_FLOAT
-	SqlConvertInteger           = pb.SqlSupportsConvert_SQL_CONVERT_INTEGER
-	SqlConvertIntervalDayTime   = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME
-	SqlConvertIntervalYearMonth = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH
-	SqlConvertLongVarbinary     = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY
-	SqlConvertLongVarchar       = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR
-	SqlConvertNumeric           = pb.SqlSupportsConvert_SQL_CONVERT_NUMERIC
-	SqlConvertReal              = pb.SqlSupportsConvert_SQL_CONVERT_REAL
-	SqlConvertSmallInt          = pb.SqlSupportsConvert_SQL_CONVERT_SMALLINT
-	SqlConvertTime              = pb.SqlSupportsConvert_SQL_CONVERT_TIME
-	SqlConvertTimestamp         = pb.SqlSupportsConvert_SQL_CONVERT_TIMESTAMP
-	SqlConvertTinyInt           = pb.SqlSupportsConvert_SQL_CONVERT_TINYINT
-	SqlConvertVarbinary         = pb.SqlSupportsConvert_SQL_CONVERT_VARBINARY
-	SqlConvertVarchar           = pb.SqlSupportsConvert_SQL_CONVERT_VARCHAR
-)
-
-type EndTransactionRequestType = pb.ActionEndTransactionRequest_EndTransaction
-
-const (
-	EndTransactionUnspecified = pb.ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED
-	// Commit the transaction
-	EndTransactionCommit = pb.ActionEndTransactionRequest_END_TRANSACTION_COMMIT
-	// Roll back the transaction
-	EndTransactionRollback = pb.ActionEndTransactionRequest_END_TRANSACTION_ROLLBACK
-)
-
-type EndSavepointRequestType = pb.ActionEndSavepointRequest_EndSavepoint
-
-const (
-	EndSavepointUnspecified = pb.ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED
-	// Release the savepoint
-	EndSavepointRelease = pb.ActionEndSavepointRequest_END_SAVEPOINT_RELEASE
-	// Roll back to a savepoint
-	EndSavepointRollback = pb.ActionEndSavepointRequest_END_SAVEPOINT_ROLLBACK
-)
-
-type CancelResult = pb.ActionCancelQueryResult_CancelResult
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	CancelResultUnspecified = pb.ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	CancelResultCancelled = pb.ActionCancelQueryResult_CANCEL_RESULT_CANCELLED
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	CancelResultCancelling = pb.ActionCancelQueryResult_CANCEL_RESULT_CANCELLING
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	CancelResultNotCancellable = pb.ActionCancelQueryResult_CANCEL_RESULT_NOT_CANCELLABLE
-)
-
-type CreatePreparedStatementResult = pb.ActionCreatePreparedStatementResult
-
-type (
-	TableDefinitionOptions                    = pb.CommandStatementIngest_TableDefinitionOptions
-	TableDefinitionOptionsTableNotExistOption = pb.CommandStatementIngest_TableDefinitionOptions_TableNotExistOption
-	TableDefinitionOptionsTableExistsOption   = pb.CommandStatementIngest_TableDefinitionOptions_TableExistsOption
-)
-
-const (
-	TableDefinitionOptionsTableNotExistOptionUnspecified = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED
-	TableDefinitionOptionsTableNotExistOptionCreate      = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_CREATE
-	TableDefinitionOptionsTableNotExistOptionFail        = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_FAIL
-
-	TableDefinitionOptionsTableExistsOptionUnspecified = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED
-	TableDefinitionOptionsTableExistsOptionFail        = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_FAIL
-	TableDefinitionOptionsTableExistsOptionAppend      = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_APPEND
-	TableDefinitionOptionsTableExistsOptionReplace     = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_REPLACE
-)
diff --git a/go/arrow/flight/gen.go b/go/arrow/flight/gen.go
deleted file mode 100644
index 29ae54b38f427..0000000000000
--- a/go/arrow/flight/gen.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-//go:generate protoc --experimental_allow_proto3_optional -I../../../format --go_out=./gen/flight --go-grpc_out=./gen/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative Flight.proto
-//go:generate protoc --experimental_allow_proto3_optional -I../../../format --go_out=./gen/flight --go-grpc_out=./gen/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative FlightSql.proto
diff --git a/go/arrow/flight/gen/flight/Flight.pb.go b/go/arrow/flight/gen/flight/Flight.pb.go
deleted file mode 100644
index ea35f469116ab..0000000000000
--- a/go/arrow/flight/gen/flight/Flight.pb.go
+++ /dev/null
@@ -1,2832 +0,0 @@
-//
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-// <p>
-// http://www.apache.org/licenses/LICENSE-2.0
-// <p>
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.25.3
-// source: Flight.proto
-
-package flight
-
-import (
-	reflect "reflect"
-	sync "sync"
-
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	timestamppb "google.golang.org/protobuf/types/known/timestamppb"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-// The result of a cancel operation.
-//
-// This is used by CancelFlightInfoResult.status.
-type CancelStatus int32
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	CancelStatus_CANCEL_STATUS_UNSPECIFIED CancelStatus = 0
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	CancelStatus_CANCEL_STATUS_CANCELLED CancelStatus = 1
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	CancelStatus_CANCEL_STATUS_CANCELLING CancelStatus = 2
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	CancelStatus_CANCEL_STATUS_NOT_CANCELLABLE CancelStatus = 3
-)
-
-// Enum value maps for CancelStatus.
-var (
-	CancelStatus_name = map[int32]string{
-		0: "CANCEL_STATUS_UNSPECIFIED",
-		1: "CANCEL_STATUS_CANCELLED",
-		2: "CANCEL_STATUS_CANCELLING",
-		3: "CANCEL_STATUS_NOT_CANCELLABLE",
-	}
-	CancelStatus_value = map[string]int32{
-		"CANCEL_STATUS_UNSPECIFIED":     0,
-		"CANCEL_STATUS_CANCELLED":       1,
-		"CANCEL_STATUS_CANCELLING":      2,
-		"CANCEL_STATUS_NOT_CANCELLABLE": 3,
-	}
-)
-
-func (x CancelStatus) Enum() *CancelStatus {
-	p := new(CancelStatus)
-	*p = x
-	return p
-}
-
-func (x CancelStatus) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CancelStatus) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[0].Descriptor()
-}
-
-func (CancelStatus) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[0]
-}
-
-func (x CancelStatus) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CancelStatus.Descriptor instead.
-func (CancelStatus) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{0}
-}
-
-// Describes what type of descriptor is defined.
-type FlightDescriptor_DescriptorType int32
-
-const (
-	// Protobuf pattern, not used.
-	FlightDescriptor_UNKNOWN FlightDescriptor_DescriptorType = 0
-	// A named path that identifies a dataset. A path is composed of a string
-	// or list of strings describing a particular dataset. This is conceptually
-	//
-	//	similar to a path inside a filesystem.
-	FlightDescriptor_PATH FlightDescriptor_DescriptorType = 1
-	// An opaque command to generate a dataset.
-	FlightDescriptor_CMD FlightDescriptor_DescriptorType = 2
-)
-
-// Enum value maps for FlightDescriptor_DescriptorType.
-var (
-	FlightDescriptor_DescriptorType_name = map[int32]string{
-		0: "UNKNOWN",
-		1: "PATH",
-		2: "CMD",
-	}
-	FlightDescriptor_DescriptorType_value = map[string]int32{
-		"UNKNOWN": 0,
-		"PATH":    1,
-		"CMD":     2,
-	}
-)
-
-func (x FlightDescriptor_DescriptorType) Enum() *FlightDescriptor_DescriptorType {
-	p := new(FlightDescriptor_DescriptorType)
-	*p = x
-	return p
-}
-
-func (x FlightDescriptor_DescriptorType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (FlightDescriptor_DescriptorType) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[1].Descriptor()
-}
-
-func (FlightDescriptor_DescriptorType) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[1]
-}
-
-func (x FlightDescriptor_DescriptorType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use FlightDescriptor_DescriptorType.Descriptor instead.
-func (FlightDescriptor_DescriptorType) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{12, 0}
-}
-
-type SetSessionOptionsResult_ErrorValue int32
-
-const (
-	// Protobuf deserialization fallback value: The status is unknown or unrecognized.
-	// Servers should avoid using this value. The request may be retried by the client.
-	SetSessionOptionsResult_UNSPECIFIED SetSessionOptionsResult_ErrorValue = 0
-	// The given session option name is invalid.
-	SetSessionOptionsResult_INVALID_NAME SetSessionOptionsResult_ErrorValue = 1
-	// The session option value or type is invalid.
-	SetSessionOptionsResult_INVALID_VALUE SetSessionOptionsResult_ErrorValue = 2
-	// The session option cannot be set.
-	SetSessionOptionsResult_ERROR SetSessionOptionsResult_ErrorValue = 3
-)
-
-// Enum value maps for SetSessionOptionsResult_ErrorValue.
-var (
-	SetSessionOptionsResult_ErrorValue_name = map[int32]string{
-		0: "UNSPECIFIED",
-		1: "INVALID_NAME",
-		2: "INVALID_VALUE",
-		3: "ERROR",
-	}
-	SetSessionOptionsResult_ErrorValue_value = map[string]int32{
-		"UNSPECIFIED":   0,
-		"INVALID_NAME":  1,
-		"INVALID_VALUE": 2,
-		"ERROR":         3,
-	}
-)
-
-func (x SetSessionOptionsResult_ErrorValue) Enum() *SetSessionOptionsResult_ErrorValue {
-	p := new(SetSessionOptionsResult_ErrorValue)
-	*p = x
-	return p
-}
-
-func (x SetSessionOptionsResult_ErrorValue) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SetSessionOptionsResult_ErrorValue) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[2].Descriptor()
-}
-
-func (SetSessionOptionsResult_ErrorValue) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[2]
-}
-
-func (x SetSessionOptionsResult_ErrorValue) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult_ErrorValue.Descriptor instead.
-func (SetSessionOptionsResult_ErrorValue) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22, 0}
-}
-
-type CloseSessionResult_Status int32
-
-const (
-	// Protobuf deserialization fallback value: The session close status is unknown or
-	// not recognized. Servers should avoid using this value (send a NOT_FOUND error if
-	// the requested session is not known or expired). Clients can retry the request.
-	CloseSessionResult_UNSPECIFIED CloseSessionResult_Status = 0
-	// The session close request is complete. Subsequent requests with
-	// the same session produce a NOT_FOUND error.
-	CloseSessionResult_CLOSED CloseSessionResult_Status = 1
-	// The session close request is in progress. The client may retry
-	// the close request.
-	CloseSessionResult_CLOSING CloseSessionResult_Status = 2
-	// The session is not closeable. The client should not retry the
-	// close request.
-	CloseSessionResult_NOT_CLOSEABLE CloseSessionResult_Status = 3
-)
-
-// Enum value maps for CloseSessionResult_Status.
-var (
-	CloseSessionResult_Status_name = map[int32]string{
-		0: "UNSPECIFIED",
-		1: "CLOSED",
-		2: "CLOSING",
-		3: "NOT_CLOSEABLE",
-	}
-	CloseSessionResult_Status_value = map[string]int32{
-		"UNSPECIFIED":   0,
-		"CLOSED":        1,
-		"CLOSING":       2,
-		"NOT_CLOSEABLE": 3,
-	}
-)
-
-func (x CloseSessionResult_Status) Enum() *CloseSessionResult_Status {
-	p := new(CloseSessionResult_Status)
-	*p = x
-	return p
-}
-
-func (x CloseSessionResult_Status) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CloseSessionResult_Status) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[3].Descriptor()
-}
-
-func (CloseSessionResult_Status) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[3]
-}
-
-func (x CloseSessionResult_Status) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CloseSessionResult_Status.Descriptor instead.
-func (CloseSessionResult_Status) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{26, 0}
-}
-
-// The request that a client provides to a server on handshake.
-type HandshakeRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A defined protocol version
-	ProtocolVersion uint64 `protobuf:"varint,1,opt,name=protocol_version,json=protocolVersion,proto3" json:"protocol_version,omitempty"`
-	// Arbitrary auth/handshake info.
-	Payload []byte `protobuf:"bytes,2,opt,name=payload,proto3" json:"payload,omitempty"`
-}
-
-func (x *HandshakeRequest) Reset() {
-	*x = HandshakeRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *HandshakeRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*HandshakeRequest) ProtoMessage() {}
-
-func (x *HandshakeRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use HandshakeRequest.ProtoReflect.Descriptor instead.
-func (*HandshakeRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *HandshakeRequest) GetProtocolVersion() uint64 {
-	if x != nil {
-		return x.ProtocolVersion
-	}
-	return 0
-}
-
-func (x *HandshakeRequest) GetPayload() []byte {
-	if x != nil {
-		return x.Payload
-	}
-	return nil
-}
-
-type HandshakeResponse struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A defined protocol version
-	ProtocolVersion uint64 `protobuf:"varint,1,opt,name=protocol_version,json=protocolVersion,proto3" json:"protocol_version,omitempty"`
-	// Arbitrary auth/handshake info.
-	Payload []byte `protobuf:"bytes,2,opt,name=payload,proto3" json:"payload,omitempty"`
-}
-
-func (x *HandshakeResponse) Reset() {
-	*x = HandshakeResponse{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *HandshakeResponse) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*HandshakeResponse) ProtoMessage() {}
-
-func (x *HandshakeResponse) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use HandshakeResponse.ProtoReflect.Descriptor instead.
-func (*HandshakeResponse) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *HandshakeResponse) GetProtocolVersion() uint64 {
-	if x != nil {
-		return x.ProtocolVersion
-	}
-	return 0
-}
-
-func (x *HandshakeResponse) GetPayload() []byte {
-	if x != nil {
-		return x.Payload
-	}
-	return nil
-}
-
-// A message for doing simple auth.
-type BasicAuth struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Username string `protobuf:"bytes,2,opt,name=username,proto3" json:"username,omitempty"`
-	Password string `protobuf:"bytes,3,opt,name=password,proto3" json:"password,omitempty"`
-}
-
-func (x *BasicAuth) Reset() {
-	*x = BasicAuth{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *BasicAuth) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*BasicAuth) ProtoMessage() {}
-
-func (x *BasicAuth) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use BasicAuth.ProtoReflect.Descriptor instead.
-func (*BasicAuth) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{2}
-}
-
-func (x *BasicAuth) GetUsername() string {
-	if x != nil {
-		return x.Username
-	}
-	return ""
-}
-
-func (x *BasicAuth) GetPassword() string {
-	if x != nil {
-		return x.Password
-	}
-	return ""
-}
-
-type Empty struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *Empty) Reset() {
-	*x = Empty{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Empty) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Empty) ProtoMessage() {}
-
-func (x *Empty) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Empty.ProtoReflect.Descriptor instead.
-func (*Empty) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{3}
-}
-
-// Describes an available action, including both the name used for execution
-// along with a short description of the purpose of the action.
-type ActionType struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type        string `protobuf:"bytes,1,opt,name=type,proto3" json:"type,omitempty"`
-	Description string `protobuf:"bytes,2,opt,name=description,proto3" json:"description,omitempty"`
-}
-
-func (x *ActionType) Reset() {
-	*x = ActionType{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionType) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionType) ProtoMessage() {}
-
-func (x *ActionType) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionType.ProtoReflect.Descriptor instead.
-func (*ActionType) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *ActionType) GetType() string {
-	if x != nil {
-		return x.Type
-	}
-	return ""
-}
-
-func (x *ActionType) GetDescription() string {
-	if x != nil {
-		return x.Description
-	}
-	return ""
-}
-
-// A service specific expression that can be used to return a limited set
-// of available Arrow Flight streams.
-type Criteria struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Expression []byte `protobuf:"bytes,1,opt,name=expression,proto3" json:"expression,omitempty"`
-}
-
-func (x *Criteria) Reset() {
-	*x = Criteria{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Criteria) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Criteria) ProtoMessage() {}
-
-func (x *Criteria) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Criteria.ProtoReflect.Descriptor instead.
-func (*Criteria) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{5}
-}
-
-func (x *Criteria) GetExpression() []byte {
-	if x != nil {
-		return x.Expression
-	}
-	return nil
-}
-
-// An opaque action specific for the service.
-type Action struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type string `protobuf:"bytes,1,opt,name=type,proto3" json:"type,omitempty"`
-	Body []byte `protobuf:"bytes,2,opt,name=body,proto3" json:"body,omitempty"`
-}
-
-func (x *Action) Reset() {
-	*x = Action{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[6]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Action) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Action) ProtoMessage() {}
-
-func (x *Action) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[6]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Action.ProtoReflect.Descriptor instead.
-func (*Action) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{6}
-}
-
-func (x *Action) GetType() string {
-	if x != nil {
-		return x.Type
-	}
-	return ""
-}
-
-func (x *Action) GetBody() []byte {
-	if x != nil {
-		return x.Body
-	}
-	return nil
-}
-
-// The request of the CancelFlightInfo action.
-//
-// The request should be stored in Action.body.
-type CancelFlightInfoRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Info *FlightInfo `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *CancelFlightInfoRequest) Reset() {
-	*x = CancelFlightInfoRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[7]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CancelFlightInfoRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CancelFlightInfoRequest) ProtoMessage() {}
-
-func (x *CancelFlightInfoRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[7]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CancelFlightInfoRequest.ProtoReflect.Descriptor instead.
-func (*CancelFlightInfoRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{7}
-}
-
-func (x *CancelFlightInfoRequest) GetInfo() *FlightInfo {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// The request of the RenewFlightEndpoint action.
-//
-// The request should be stored in Action.body.
-type RenewFlightEndpointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Endpoint *FlightEndpoint `protobuf:"bytes,1,opt,name=endpoint,proto3" json:"endpoint,omitempty"`
-}
-
-func (x *RenewFlightEndpointRequest) Reset() {
-	*x = RenewFlightEndpointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[8]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *RenewFlightEndpointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*RenewFlightEndpointRequest) ProtoMessage() {}
-
-func (x *RenewFlightEndpointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[8]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use RenewFlightEndpointRequest.ProtoReflect.Descriptor instead.
-func (*RenewFlightEndpointRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{8}
-}
-
-func (x *RenewFlightEndpointRequest) GetEndpoint() *FlightEndpoint {
-	if x != nil {
-		return x.Endpoint
-	}
-	return nil
-}
-
-// An opaque result returned after executing an action.
-type Result struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Body []byte `protobuf:"bytes,1,opt,name=body,proto3" json:"body,omitempty"`
-}
-
-func (x *Result) Reset() {
-	*x = Result{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[9]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Result) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Result) ProtoMessage() {}
-
-func (x *Result) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[9]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Result.ProtoReflect.Descriptor instead.
-func (*Result) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{9}
-}
-
-func (x *Result) GetBody() []byte {
-	if x != nil {
-		return x.Body
-	}
-	return nil
-}
-
-// The result of the CancelFlightInfo action.
-//
-// The result should be stored in Result.body.
-type CancelFlightInfoResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Status CancelStatus `protobuf:"varint,1,opt,name=status,proto3,enum=arrow.flight.protocol.CancelStatus" json:"status,omitempty"`
-}
-
-func (x *CancelFlightInfoResult) Reset() {
-	*x = CancelFlightInfoResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[10]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CancelFlightInfoResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CancelFlightInfoResult) ProtoMessage() {}
-
-func (x *CancelFlightInfoResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[10]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CancelFlightInfoResult.ProtoReflect.Descriptor instead.
-func (*CancelFlightInfoResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{10}
-}
-
-func (x *CancelFlightInfoResult) GetStatus() CancelStatus {
-	if x != nil {
-		return x.Status
-	}
-	return CancelStatus_CANCEL_STATUS_UNSPECIFIED
-}
-
-// Wrap the result of a getSchema call
-type SchemaResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The schema of the dataset in its IPC form:
-	//
-	//	4 bytes - an optional IPC_CONTINUATION_TOKEN prefix
-	//	4 bytes - the byte length of the payload
-	//	a flatbuffer Message whose header is the Schema
-	Schema []byte `protobuf:"bytes,1,opt,name=schema,proto3" json:"schema,omitempty"`
-}
-
-func (x *SchemaResult) Reset() {
-	*x = SchemaResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[11]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SchemaResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SchemaResult) ProtoMessage() {}
-
-func (x *SchemaResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[11]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SchemaResult.ProtoReflect.Descriptor instead.
-func (*SchemaResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{11}
-}
-
-func (x *SchemaResult) GetSchema() []byte {
-	if x != nil {
-		return x.Schema
-	}
-	return nil
-}
-
-// The name or tag for a Flight. May be used as a way to retrieve or generate
-// a flight or be used to expose a set of previously defined flights.
-type FlightDescriptor struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type FlightDescriptor_DescriptorType `protobuf:"varint,1,opt,name=type,proto3,enum=arrow.flight.protocol.FlightDescriptor_DescriptorType" json:"type,omitempty"`
-	// Opaque value used to express a command. Should only be defined when
-	// type = CMD.
-	Cmd []byte `protobuf:"bytes,2,opt,name=cmd,proto3" json:"cmd,omitempty"`
-	// List of strings identifying a particular dataset. Should only be defined
-	// when type = PATH.
-	Path []string `protobuf:"bytes,3,rep,name=path,proto3" json:"path,omitempty"`
-}
-
-func (x *FlightDescriptor) Reset() {
-	*x = FlightDescriptor{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[12]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightDescriptor) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightDescriptor) ProtoMessage() {}
-
-func (x *FlightDescriptor) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[12]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightDescriptor.ProtoReflect.Descriptor instead.
-func (*FlightDescriptor) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{12}
-}
-
-func (x *FlightDescriptor) GetType() FlightDescriptor_DescriptorType {
-	if x != nil {
-		return x.Type
-	}
-	return FlightDescriptor_UNKNOWN
-}
-
-func (x *FlightDescriptor) GetCmd() []byte {
-	if x != nil {
-		return x.Cmd
-	}
-	return nil
-}
-
-func (x *FlightDescriptor) GetPath() []string {
-	if x != nil {
-		return x.Path
-	}
-	return nil
-}
-
-// The access coordinates for retrieval of a dataset. With a FlightInfo, a
-// consumer is able to determine how to retrieve a dataset.
-type FlightInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The schema of the dataset in its IPC form:
-	//
-	//	4 bytes - an optional IPC_CONTINUATION_TOKEN prefix
-	//	4 bytes - the byte length of the payload
-	//	a flatbuffer Message whose header is the Schema
-	Schema []byte `protobuf:"bytes,1,opt,name=schema,proto3" json:"schema,omitempty"`
-	// The descriptor associated with this info.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,2,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// A list of endpoints associated with the flight. To consume the
-	// whole flight, all endpoints (and hence all Tickets) must be
-	// consumed. Endpoints can be consumed in any order.
-	//
-	// In other words, an application can use multiple endpoints to
-	// represent partitioned data.
-	//
-	// If the returned data has an ordering, an application can use
-	// "FlightInfo.ordered = true" or should return the all data in a
-	// single endpoint. Otherwise, there is no ordering defined on
-	// endpoints or the data within.
-	//
-	// A client can read ordered data by reading data from returned
-	// endpoints, in order, from front to back.
-	//
-	// Note that a client may ignore "FlightInfo.ordered = true". If an
-	// ordering is important for an application, an application must
-	// choose one of them:
-	//
-	//   - An application requires that all clients must read data in
-	//     returned endpoints order.
-	//   - An application must return the all data in a single endpoint.
-	Endpoint []*FlightEndpoint `protobuf:"bytes,3,rep,name=endpoint,proto3" json:"endpoint,omitempty"`
-	// Set these to -1 if unknown.
-	TotalRecords int64 `protobuf:"varint,4,opt,name=total_records,json=totalRecords,proto3" json:"total_records,omitempty"`
-	TotalBytes   int64 `protobuf:"varint,5,opt,name=total_bytes,json=totalBytes,proto3" json:"total_bytes,omitempty"`
-	// FlightEndpoints are in the same order as the data.
-	Ordered bool `protobuf:"varint,6,opt,name=ordered,proto3" json:"ordered,omitempty"`
-	// Application-defined metadata.
-	//
-	// There is no inherent or required relationship between this
-	// and the app_metadata fields in the FlightEndpoints or resulting
-	// FlightData messages. Since this metadata is application-defined,
-	// a given application could define there to be a relationship,
-	// but there is none required by the spec.
-	AppMetadata []byte `protobuf:"bytes,7,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *FlightInfo) Reset() {
-	*x = FlightInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[13]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightInfo) ProtoMessage() {}
-
-func (x *FlightInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[13]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightInfo.ProtoReflect.Descriptor instead.
-func (*FlightInfo) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{13}
-}
-
-func (x *FlightInfo) GetSchema() []byte {
-	if x != nil {
-		return x.Schema
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetEndpoint() []*FlightEndpoint {
-	if x != nil {
-		return x.Endpoint
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetTotalRecords() int64 {
-	if x != nil {
-		return x.TotalRecords
-	}
-	return 0
-}
-
-func (x *FlightInfo) GetTotalBytes() int64 {
-	if x != nil {
-		return x.TotalBytes
-	}
-	return 0
-}
-
-func (x *FlightInfo) GetOrdered() bool {
-	if x != nil {
-		return x.Ordered
-	}
-	return false
-}
-
-func (x *FlightInfo) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// The information to process a long-running query.
-type PollInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The currently available results.
-	//
-	// If "flight_descriptor" is not specified, the query is complete
-	// and "info" specifies all results. Otherwise, "info" contains
-	// partial query results.
-	//
-	// Note that each PollInfo response contains a complete
-	// FlightInfo (not just the delta between the previous and current
-	// FlightInfo).
-	//
-	// Subsequent PollInfo responses may only append new endpoints to
-	// info.
-	//
-	// Clients can begin fetching results via DoGet(Ticket) with the
-	// ticket in the info before the query is
-	// completed. FlightInfo.ordered is also valid.
-	Info *FlightInfo `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-	// The descriptor the client should use on the next try.
-	// If unset, the query is complete.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,2,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// Query progress. If known, must be in [0.0, 1.0] but need not be
-	// monotonic or nondecreasing. If unknown, do not set.
-	Progress *float64 `protobuf:"fixed64,3,opt,name=progress,proto3,oneof" json:"progress,omitempty"`
-	// Expiration time for this request. After this passes, the server
-	// might not accept the retry descriptor anymore (and the query may
-	// be cancelled). This may be updated on a call to PollFlightInfo.
-	ExpirationTime *timestamppb.Timestamp `protobuf:"bytes,4,opt,name=expiration_time,json=expirationTime,proto3" json:"expiration_time,omitempty"`
-}
-
-func (x *PollInfo) Reset() {
-	*x = PollInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[14]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *PollInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*PollInfo) ProtoMessage() {}
-
-func (x *PollInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[14]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use PollInfo.ProtoReflect.Descriptor instead.
-func (*PollInfo) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{14}
-}
-
-func (x *PollInfo) GetInfo() *FlightInfo {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-func (x *PollInfo) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *PollInfo) GetProgress() float64 {
-	if x != nil && x.Progress != nil {
-		return *x.Progress
-	}
-	return 0
-}
-
-func (x *PollInfo) GetExpirationTime() *timestamppb.Timestamp {
-	if x != nil {
-		return x.ExpirationTime
-	}
-	return nil
-}
-
-// A particular stream or split associated with a flight.
-type FlightEndpoint struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Token used to retrieve this stream.
-	Ticket *Ticket `protobuf:"bytes,1,opt,name=ticket,proto3" json:"ticket,omitempty"`
-	// A list of URIs where this ticket can be redeemed via DoGet().
-	//
-	// If the list is empty, the expectation is that the ticket can only
-	// be redeemed on the current service where the ticket was
-	// generated.
-	//
-	// If the list is not empty, the expectation is that the ticket can be
-	// redeemed at any of the locations, and that the data returned will be
-	// equivalent. In this case, the ticket may only be redeemed at one of the
-	// given locations, and not (necessarily) on the current service. If one
-	// of the given locations is "arrow-flight-reuse-connection://?", the
-	// client may redeem the ticket on the service where the ticket was
-	// generated (i.e., the same as above), in addition to the other
-	// locations. (This URI was chosen to maximize compatibility, as 'scheme:'
-	// or 'scheme://' are not accepted by Java's java.net.URI.)
-	//
-	// In other words, an application can use multiple locations to
-	// represent redundant and/or load balanced services.
-	Location []*Location `protobuf:"bytes,2,rep,name=location,proto3" json:"location,omitempty"`
-	// Expiration time of this stream. If present, clients may assume
-	// they can retry DoGet requests. Otherwise, it is
-	// application-defined whether DoGet requests may be retried.
-	ExpirationTime *timestamppb.Timestamp `protobuf:"bytes,3,opt,name=expiration_time,json=expirationTime,proto3" json:"expiration_time,omitempty"`
-	// Application-defined metadata.
-	//
-	// There is no inherent or required relationship between this
-	// and the app_metadata fields in the FlightInfo or resulting
-	// FlightData messages. Since this metadata is application-defined,
-	// a given application could define there to be a relationship,
-	// but there is none required by the spec.
-	AppMetadata []byte `protobuf:"bytes,4,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *FlightEndpoint) Reset() {
-	*x = FlightEndpoint{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[15]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightEndpoint) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightEndpoint) ProtoMessage() {}
-
-func (x *FlightEndpoint) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[15]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightEndpoint.ProtoReflect.Descriptor instead.
-func (*FlightEndpoint) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{15}
-}
-
-func (x *FlightEndpoint) GetTicket() *Ticket {
-	if x != nil {
-		return x.Ticket
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetLocation() []*Location {
-	if x != nil {
-		return x.Location
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetExpirationTime() *timestamppb.Timestamp {
-	if x != nil {
-		return x.ExpirationTime
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// A location where a Flight service will accept retrieval of a particular
-// stream given a ticket.
-type Location struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Uri string `protobuf:"bytes,1,opt,name=uri,proto3" json:"uri,omitempty"`
-}
-
-func (x *Location) Reset() {
-	*x = Location{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[16]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Location) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Location) ProtoMessage() {}
-
-func (x *Location) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[16]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Location.ProtoReflect.Descriptor instead.
-func (*Location) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{16}
-}
-
-func (x *Location) GetUri() string {
-	if x != nil {
-		return x.Uri
-	}
-	return ""
-}
-
-// An opaque identifier that the service can use to retrieve a particular
-// portion of a stream.
-//
-// Tickets are meant to be single use. It is an error/application-defined
-// behavior to reuse a ticket.
-type Ticket struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Ticket []byte `protobuf:"bytes,1,opt,name=ticket,proto3" json:"ticket,omitempty"`
-}
-
-func (x *Ticket) Reset() {
-	*x = Ticket{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[17]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Ticket) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Ticket) ProtoMessage() {}
-
-func (x *Ticket) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[17]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Ticket.ProtoReflect.Descriptor instead.
-func (*Ticket) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{17}
-}
-
-func (x *Ticket) GetTicket() []byte {
-	if x != nil {
-		return x.Ticket
-	}
-	return nil
-}
-
-// A batch of Arrow data as part of a stream of batches.
-type FlightData struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The descriptor of the data. This is only relevant when a client is
-	// starting a new DoPut stream.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,1,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// Header for message data as described in Message.fbs::Message.
-	DataHeader []byte `protobuf:"bytes,2,opt,name=data_header,json=dataHeader,proto3" json:"data_header,omitempty"`
-	// Application-defined metadata.
-	AppMetadata []byte `protobuf:"bytes,3,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-	// The actual batch of Arrow data. Preferably handled with minimal-copies
-	// coming last in the definition to help with sidecar patterns (it is
-	// expected that some implementations will fetch this field off the wire
-	// with specialized code to avoid extra memory copies).
-	DataBody []byte `protobuf:"bytes,1000,opt,name=data_body,json=dataBody,proto3" json:"data_body,omitempty"`
-}
-
-func (x *FlightData) Reset() {
-	*x = FlightData{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[18]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightData) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightData) ProtoMessage() {}
-
-func (x *FlightData) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[18]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightData.ProtoReflect.Descriptor instead.
-func (*FlightData) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{18}
-}
-
-func (x *FlightData) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *FlightData) GetDataHeader() []byte {
-	if x != nil {
-		return x.DataHeader
-	}
-	return nil
-}
-
-func (x *FlightData) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-func (x *FlightData) GetDataBody() []byte {
-	if x != nil {
-		return x.DataBody
-	}
-	return nil
-}
-
-// *
-// The response message associated with the submission of a DoPut.
-type PutResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	AppMetadata []byte `protobuf:"bytes,1,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *PutResult) Reset() {
-	*x = PutResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[19]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *PutResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*PutResult) ProtoMessage() {}
-
-func (x *PutResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[19]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use PutResult.ProtoReflect.Descriptor instead.
-func (*PutResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{19}
-}
-
-func (x *PutResult) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// EXPERIMENTAL: Union of possible value types for a Session Option to be set to.
-//
-// By convention, an attempt to set a valueless SessionOptionValue should
-// attempt to unset or clear the named option value on the server.
-type SessionOptionValue struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Types that are assignable to OptionValue:
-	//
-	//	*SessionOptionValue_StringValue
-	//	*SessionOptionValue_BoolValue
-	//	*SessionOptionValue_Int64Value
-	//	*SessionOptionValue_DoubleValue
-	//	*SessionOptionValue_StringListValue_
-	OptionValue isSessionOptionValue_OptionValue `protobuf_oneof:"option_value"`
-}
-
-func (x *SessionOptionValue) Reset() {
-	*x = SessionOptionValue{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[20]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SessionOptionValue) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SessionOptionValue) ProtoMessage() {}
-
-func (x *SessionOptionValue) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[20]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SessionOptionValue.ProtoReflect.Descriptor instead.
-func (*SessionOptionValue) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{20}
-}
-
-func (m *SessionOptionValue) GetOptionValue() isSessionOptionValue_OptionValue {
-	if m != nil {
-		return m.OptionValue
-	}
-	return nil
-}
-
-func (x *SessionOptionValue) GetStringValue() string {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_StringValue); ok {
-		return x.StringValue
-	}
-	return ""
-}
-
-func (x *SessionOptionValue) GetBoolValue() bool {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_BoolValue); ok {
-		return x.BoolValue
-	}
-	return false
-}
-
-func (x *SessionOptionValue) GetInt64Value() int64 {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_Int64Value); ok {
-		return x.Int64Value
-	}
-	return 0
-}
-
-func (x *SessionOptionValue) GetDoubleValue() float64 {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_DoubleValue); ok {
-		return x.DoubleValue
-	}
-	return 0
-}
-
-func (x *SessionOptionValue) GetStringListValue() *SessionOptionValue_StringListValue {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_StringListValue_); ok {
-		return x.StringListValue
-	}
-	return nil
-}
-
-type isSessionOptionValue_OptionValue interface {
-	isSessionOptionValue_OptionValue()
-}
-
-type SessionOptionValue_StringValue struct {
-	StringValue string `protobuf:"bytes,1,opt,name=string_value,json=stringValue,proto3,oneof"`
-}
-
-type SessionOptionValue_BoolValue struct {
-	BoolValue bool `protobuf:"varint,2,opt,name=bool_value,json=boolValue,proto3,oneof"`
-}
-
-type SessionOptionValue_Int64Value struct {
-	Int64Value int64 `protobuf:"fixed64,3,opt,name=int64_value,json=int64Value,proto3,oneof"`
-}
-
-type SessionOptionValue_DoubleValue struct {
-	DoubleValue float64 `protobuf:"fixed64,4,opt,name=double_value,json=doubleValue,proto3,oneof"`
-}
-
-type SessionOptionValue_StringListValue_ struct {
-	StringListValue *SessionOptionValue_StringListValue `protobuf:"bytes,5,opt,name=string_list_value,json=stringListValue,proto3,oneof"`
-}
-
-func (*SessionOptionValue_StringValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_BoolValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_Int64Value) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_DoubleValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_StringListValue_) isSessionOptionValue_OptionValue() {}
-
-// EXPERIMENTAL: A request to set session options for an existing or new (implicit)
-// server session.
-//
-// Sessions are persisted and referenced via a transport-level state management, typically
-// RFC 6265 HTTP cookies when using an HTTP transport.  The suggested cookie name or state
-// context key is 'arrow_flight_session_id', although implementations may freely choose their
-// own name.
-//
-// Session creation (if one does not already exist) is implied by this RPC request, however
-// server implementations may choose to initiate a session that also contains client-provided
-// session options at any other time, e.g. on authentication, or when any other call is made
-// and the server wishes to use a session to persist any state (or lack thereof).
-type SetSessionOptionsRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SessionOptions map[string]*SessionOptionValue `protobuf:"bytes,1,rep,name=session_options,json=sessionOptions,proto3" json:"session_options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *SetSessionOptionsRequest) Reset() {
-	*x = SetSessionOptionsRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[21]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsRequest) ProtoMessage() {}
-
-func (x *SetSessionOptionsRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[21]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsRequest.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{21}
-}
-
-func (x *SetSessionOptionsRequest) GetSessionOptions() map[string]*SessionOptionValue {
-	if x != nil {
-		return x.SessionOptions
-	}
-	return nil
-}
-
-// EXPERIMENTAL: The results (individually) of setting a set of session options.
-//
-// Option names should only be present in the response if they were not successfully
-// set on the server; that is, a response without an Error for a name provided in the
-// SetSessionOptionsRequest implies that the named option value was set successfully.
-type SetSessionOptionsResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Errors map[string]*SetSessionOptionsResult_Error `protobuf:"bytes,1,rep,name=errors,proto3" json:"errors,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *SetSessionOptionsResult) Reset() {
-	*x = SetSessionOptionsResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[22]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsResult) ProtoMessage() {}
-
-func (x *SetSessionOptionsResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[22]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22}
-}
-
-func (x *SetSessionOptionsResult) GetErrors() map[string]*SetSessionOptionsResult_Error {
-	if x != nil {
-		return x.Errors
-	}
-	return nil
-}
-
-// EXPERIMENTAL: A request to access the session options for the current server session.
-//
-// The existing session is referenced via a cookie header or similar (see
-// SetSessionOptionsRequest above); it is an error to make this request with a missing,
-// invalid, or expired session cookie header or other implementation-defined session
-// reference token.
-type GetSessionOptionsRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *GetSessionOptionsRequest) Reset() {
-	*x = GetSessionOptionsRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[23]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *GetSessionOptionsRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*GetSessionOptionsRequest) ProtoMessage() {}
-
-func (x *GetSessionOptionsRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[23]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use GetSessionOptionsRequest.ProtoReflect.Descriptor instead.
-func (*GetSessionOptionsRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{23}
-}
-
-// EXPERIMENTAL: The result containing the current server session options.
-type GetSessionOptionsResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SessionOptions map[string]*SessionOptionValue `protobuf:"bytes,1,rep,name=session_options,json=sessionOptions,proto3" json:"session_options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *GetSessionOptionsResult) Reset() {
-	*x = GetSessionOptionsResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[24]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *GetSessionOptionsResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*GetSessionOptionsResult) ProtoMessage() {}
-
-func (x *GetSessionOptionsResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[24]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use GetSessionOptionsResult.ProtoReflect.Descriptor instead.
-func (*GetSessionOptionsResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{24}
-}
-
-func (x *GetSessionOptionsResult) GetSessionOptions() map[string]*SessionOptionValue {
-	if x != nil {
-		return x.SessionOptions
-	}
-	return nil
-}
-
-// Request message for the "Close Session" action.
-//
-// The exiting session is referenced via a cookie header.
-type CloseSessionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CloseSessionRequest) Reset() {
-	*x = CloseSessionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[25]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CloseSessionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CloseSessionRequest) ProtoMessage() {}
-
-func (x *CloseSessionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[25]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CloseSessionRequest.ProtoReflect.Descriptor instead.
-func (*CloseSessionRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{25}
-}
-
-// The result of closing a session.
-type CloseSessionResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Status CloseSessionResult_Status `protobuf:"varint,1,opt,name=status,proto3,enum=arrow.flight.protocol.CloseSessionResult_Status" json:"status,omitempty"`
-}
-
-func (x *CloseSessionResult) Reset() {
-	*x = CloseSessionResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[26]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CloseSessionResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CloseSessionResult) ProtoMessage() {}
-
-func (x *CloseSessionResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[26]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CloseSessionResult.ProtoReflect.Descriptor instead.
-func (*CloseSessionResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{26}
-}
-
-func (x *CloseSessionResult) GetStatus() CloseSessionResult_Status {
-	if x != nil {
-		return x.Status
-	}
-	return CloseSessionResult_UNSPECIFIED
-}
-
-type SessionOptionValue_StringListValue struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Values []string `protobuf:"bytes,1,rep,name=values,proto3" json:"values,omitempty"`
-}
-
-func (x *SessionOptionValue_StringListValue) Reset() {
-	*x = SessionOptionValue_StringListValue{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[27]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SessionOptionValue_StringListValue) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SessionOptionValue_StringListValue) ProtoMessage() {}
-
-func (x *SessionOptionValue_StringListValue) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[27]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SessionOptionValue_StringListValue.ProtoReflect.Descriptor instead.
-func (*SessionOptionValue_StringListValue) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{20, 0}
-}
-
-func (x *SessionOptionValue_StringListValue) GetValues() []string {
-	if x != nil {
-		return x.Values
-	}
-	return nil
-}
-
-type SetSessionOptionsResult_Error struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Value SetSessionOptionsResult_ErrorValue `protobuf:"varint,1,opt,name=value,proto3,enum=arrow.flight.protocol.SetSessionOptionsResult_ErrorValue" json:"value,omitempty"`
-}
-
-func (x *SetSessionOptionsResult_Error) Reset() {
-	*x = SetSessionOptionsResult_Error{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[29]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsResult_Error) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsResult_Error) ProtoMessage() {}
-
-func (x *SetSessionOptionsResult_Error) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[29]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult_Error.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsResult_Error) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22, 0}
-}
-
-func (x *SetSessionOptionsResult_Error) GetValue() SetSessionOptionsResult_ErrorValue {
-	if x != nil {
-		return x.Value
-	}
-	return SetSessionOptionsResult_UNSPECIFIED
-}
-
-var File_Flight_proto protoreflect.FileDescriptor
-
-var file_Flight_proto_rawDesc = []byte{
-	0x0a, 0x0c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x12, 0x15,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x1a, 0x1f, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x74, 0x69, 0x6d, 0x65, 0x73, 0x74, 0x61, 0x6d, 0x70,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x22, 0x57, 0x0a, 0x10, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68,
-	0x61, 0x6b, 0x65, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x29, 0x0a, 0x10, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x5f, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x04, 0x52, 0x0f, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x56, 0x65,
-	0x72, 0x73, 0x69, 0x6f, 0x6e, 0x12, 0x18, 0x0a, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x22,
-	0x58, 0x0a, 0x11, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65, 0x73, 0x70,
-	0x6f, 0x6e, 0x73, 0x65, 0x12, 0x29, 0x0a, 0x10, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x5f, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x04, 0x52, 0x0f,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x56, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x12,
-	0x18, 0x0a, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c,
-	0x52, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x22, 0x43, 0x0a, 0x09, 0x42, 0x61, 0x73,
-	0x69, 0x63, 0x41, 0x75, 0x74, 0x68, 0x12, 0x1a, 0x0a, 0x08, 0x75, 0x73, 0x65, 0x72, 0x6e, 0x61,
-	0x6d, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x08, 0x75, 0x73, 0x65, 0x72, 0x6e, 0x61,
-	0x6d, 0x65, 0x12, 0x1a, 0x0a, 0x08, 0x70, 0x61, 0x73, 0x73, 0x77, 0x6f, 0x72, 0x64, 0x18, 0x03,
-	0x20, 0x01, 0x28, 0x09, 0x52, 0x08, 0x70, 0x61, 0x73, 0x73, 0x77, 0x6f, 0x72, 0x64, 0x22, 0x07,
-	0x0a, 0x05, 0x45, 0x6d, 0x70, 0x74, 0x79, 0x22, 0x42, 0x0a, 0x0a, 0x41, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x54, 0x79, 0x70, 0x65, 0x12, 0x12, 0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x20, 0x0a, 0x0b, 0x64, 0x65, 0x73,
-	0x63, 0x72, 0x69, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x0b,
-	0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x22, 0x2a, 0x0a, 0x08, 0x43,
-	0x72, 0x69, 0x74, 0x65, 0x72, 0x69, 0x61, 0x12, 0x1e, 0x0a, 0x0a, 0x65, 0x78, 0x70, 0x72, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0a, 0x65, 0x78, 0x70,
-	0x72, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x22, 0x30, 0x0a, 0x06, 0x41, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x12, 0x12, 0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52,
-	0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0c, 0x52, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x22, 0x50, 0x0a, 0x17, 0x43, 0x61, 0x6e,
-	0x63, 0x65, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x65, 0x71,
-	0x75, 0x65, 0x73, 0x74, 0x12, 0x35, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x22, 0x5f, 0x0a, 0x1a, 0x52,
-	0x65, 0x6e, 0x65, 0x77, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x41, 0x0a, 0x08, 0x65, 0x6e, 0x64,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x25, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x52, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x22, 0x1c, 0x0a, 0x06,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x22, 0x55, 0x0a, 0x16, 0x43, 0x61,
-	0x6e, 0x63, 0x65, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x12, 0x3b, 0x0a, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0e, 0x32, 0x23, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x61, 0x6e,
-	0x63, 0x65, 0x6c, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x52, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75,
-	0x73, 0x22, 0x26, 0x0a, 0x0c, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x52, 0x65, 0x73, 0x75, 0x6c,
-	0x74, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0c, 0x52, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0xb6, 0x01, 0x0a, 0x10, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12, 0x4a,
-	0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x36, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72,
-	0x69, 0x70, 0x74, 0x6f, 0x72, 0x2e, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72,
-	0x54, 0x79, 0x70, 0x65, 0x52, 0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x10, 0x0a, 0x03, 0x63, 0x6d,
-	0x64, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x03, 0x63, 0x6d, 0x64, 0x12, 0x12, 0x0a, 0x04,
-	0x70, 0x61, 0x74, 0x68, 0x18, 0x03, 0x20, 0x03, 0x28, 0x09, 0x52, 0x04, 0x70, 0x61, 0x74, 0x68,
-	0x22, 0x30, 0x0a, 0x0e, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x54, 0x79,
-	0x70, 0x65, 0x12, 0x0b, 0x0a, 0x07, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x00, 0x12,
-	0x08, 0x0a, 0x04, 0x50, 0x41, 0x54, 0x48, 0x10, 0x01, 0x12, 0x07, 0x0a, 0x03, 0x43, 0x4d, 0x44,
-	0x10, 0x02, 0x22, 0xc0, 0x02, 0x0a, 0x0a, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66,
-	0x6f, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0c, 0x52, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12,
-	0x41, 0x0a, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x18, 0x03, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x25, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x12, 0x23, 0x0a, 0x0d, 0x74, 0x6f, 0x74, 0x61, 0x6c, 0x5f, 0x72, 0x65, 0x63, 0x6f,
-	0x72, 0x64, 0x73, 0x18, 0x04, 0x20, 0x01, 0x28, 0x03, 0x52, 0x0c, 0x74, 0x6f, 0x74, 0x61, 0x6c,
-	0x52, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x73, 0x12, 0x1f, 0x0a, 0x0b, 0x74, 0x6f, 0x74, 0x61, 0x6c,
-	0x5f, 0x62, 0x79, 0x74, 0x65, 0x73, 0x18, 0x05, 0x20, 0x01, 0x28, 0x03, 0x52, 0x0a, 0x74, 0x6f,
-	0x74, 0x61, 0x6c, 0x42, 0x79, 0x74, 0x65, 0x73, 0x12, 0x18, 0x0a, 0x07, 0x6f, 0x72, 0x64, 0x65,
-	0x72, 0x65, 0x64, 0x18, 0x06, 0x20, 0x01, 0x28, 0x08, 0x52, 0x07, 0x6f, 0x72, 0x64, 0x65, 0x72,
-	0x65, 0x64, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74, 0x61, 0x64, 0x61,
-	0x74, 0x61, 0x18, 0x07, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70, 0x4d, 0x65, 0x74,
-	0x61, 0x64, 0x61, 0x74, 0x61, 0x22, 0x8a, 0x02, 0x0a, 0x08, 0x50, 0x6f, 0x6c, 0x6c, 0x49, 0x6e,
-	0x66, 0x6f, 0x12, 0x35, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b,
-	0x32, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49,
-	0x6e, 0x66, 0x6f, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12,
-	0x1f, 0x0a, 0x08, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65, 0x73, 0x73, 0x18, 0x03, 0x20, 0x01, 0x28,
-	0x01, 0x48, 0x00, 0x52, 0x08, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65, 0x73, 0x73, 0x88, 0x01, 0x01,
-	0x12, 0x43, 0x0a, 0x0f, 0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x74,
-	0x69, 0x6d, 0x65, 0x18, 0x04, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x1a, 0x2e, 0x67, 0x6f, 0x6f, 0x67,
-	0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2e, 0x54, 0x69, 0x6d, 0x65,
-	0x73, 0x74, 0x61, 0x6d, 0x70, 0x52, 0x0e, 0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f,
-	0x6e, 0x54, 0x69, 0x6d, 0x65, 0x42, 0x0b, 0x0a, 0x09, 0x5f, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65,
-	0x73, 0x73, 0x22, 0xec, 0x01, 0x0a, 0x0e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x12, 0x35, 0x0a, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x54, 0x69,
-	0x63, 0x6b, 0x65, 0x74, 0x52, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x12, 0x3b, 0x0a, 0x08,
-	0x6c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1f,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x4c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x52,
-	0x08, 0x6c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x43, 0x0a, 0x0f, 0x65, 0x78, 0x70,
-	0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x74, 0x69, 0x6d, 0x65, 0x18, 0x03, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x1a, 0x2e, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x62, 0x75, 0x66, 0x2e, 0x54, 0x69, 0x6d, 0x65, 0x73, 0x74, 0x61, 0x6d, 0x70, 0x52, 0x0e,
-	0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x54, 0x69, 0x6d, 0x65, 0x12, 0x21,
-	0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x04,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70, 0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74,
-	0x61, 0x22, 0x1c, 0x0a, 0x08, 0x4c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x10, 0x0a,
-	0x03, 0x75, 0x72, 0x69, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x75, 0x72, 0x69, 0x22,
-	0x20, 0x0a, 0x06, 0x54, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x12, 0x16, 0x0a, 0x06, 0x74, 0x69, 0x63,
-	0x6b, 0x65, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65,
-	0x74, 0x22, 0xc4, 0x01, 0x0a, 0x0a, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61,
-	0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72,
-	0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69,
-	0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63,
-	0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12, 0x1f, 0x0a, 0x0b, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x68,
-	0x65, 0x61, 0x64, 0x65, 0x72, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0a, 0x64, 0x61, 0x74,
-	0x61, 0x48, 0x65, 0x61, 0x64, 0x65, 0x72, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d,
-	0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61,
-	0x70, 0x70, 0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x12, 0x1c, 0x0a, 0x09, 0x64, 0x61,
-	0x74, 0x61, 0x5f, 0x62, 0x6f, 0x64, 0x79, 0x18, 0xe8, 0x07, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x08,
-	0x64, 0x61, 0x74, 0x61, 0x42, 0x6f, 0x64, 0x79, 0x22, 0x2e, 0x0a, 0x09, 0x50, 0x75, 0x74, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74,
-	0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70,
-	0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x22, 0xc6, 0x02, 0x0a, 0x12, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12,
-	0x23, 0x0a, 0x0c, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x5f, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x0b, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x56,
-	0x61, 0x6c, 0x75, 0x65, 0x12, 0x1f, 0x0a, 0x0a, 0x62, 0x6f, 0x6f, 0x6c, 0x5f, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x08, 0x48, 0x00, 0x52, 0x09, 0x62, 0x6f, 0x6f, 0x6c,
-	0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x21, 0x0a, 0x0b, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x5f, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x10, 0x48, 0x00, 0x52, 0x0a, 0x69, 0x6e,
-	0x74, 0x36, 0x34, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x23, 0x0a, 0x0c, 0x64, 0x6f, 0x75, 0x62,
-	0x6c, 0x65, 0x5f, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x04, 0x20, 0x01, 0x28, 0x01, 0x48, 0x00,
-	0x52, 0x0b, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x67, 0x0a,
-	0x11, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x5f, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x05, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x39, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x2e, 0x53, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x4c, 0x69, 0x73, 0x74, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x48, 0x00, 0x52, 0x0f, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x4c, 0x69, 0x73,
-	0x74, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x1a, 0x29, 0x0a, 0x0f, 0x53, 0x74, 0x72, 0x69, 0x6e, 0x67,
-	0x4c, 0x69, 0x73, 0x74, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x16, 0x0a, 0x06, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x73, 0x18, 0x01, 0x20, 0x03, 0x28, 0x09, 0x52, 0x06, 0x76, 0x61, 0x6c, 0x75, 0x65,
-	0x73, 0x42, 0x0e, 0x0a, 0x0c, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x22, 0xf6, 0x01, 0x0a, 0x18, 0x53, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x6c,
-	0x0a, 0x0f, 0x73, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x43, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e,
-	0x53, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0e, 0x73, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0x6c, 0x0a, 0x13,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e,
-	0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x3f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x29, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52,
-	0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x87, 0x03, 0x0a, 0x17, 0x53,
-	0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x52, 0x0a, 0x06, 0x65, 0x72, 0x72, 0x6f, 0x72, 0x73,
-	0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x3a, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53,
-	0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x45, 0x6e, 0x74,
-	0x72, 0x79, 0x52, 0x06, 0x65, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x1a, 0x58, 0x0a, 0x05, 0x45, 0x72,
-	0x72, 0x6f, 0x72, 0x12, 0x4f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0e, 0x32, 0x39, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x74, 0x53, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x73, 0x75,
-	0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52, 0x05, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x1a, 0x6f, 0x0a, 0x0b, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x45, 0x6e,
-	0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x4a, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x34, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x74,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x4d, 0x0a, 0x0a, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x12, 0x0f, 0x0a, 0x0b, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49,
-	0x45, 0x44, 0x10, 0x00, 0x12, 0x10, 0x0a, 0x0c, 0x49, 0x4e, 0x56, 0x41, 0x4c, 0x49, 0x44, 0x5f,
-	0x4e, 0x41, 0x4d, 0x45, 0x10, 0x01, 0x12, 0x11, 0x0a, 0x0d, 0x49, 0x4e, 0x56, 0x41, 0x4c, 0x49,
-	0x44, 0x5f, 0x56, 0x41, 0x4c, 0x55, 0x45, 0x10, 0x02, 0x12, 0x09, 0x0a, 0x05, 0x45, 0x52, 0x52,
-	0x4f, 0x52, 0x10, 0x03, 0x22, 0x1a, 0x0a, 0x18, 0x47, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69,
-	0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74,
-	0x22, 0xf4, 0x01, 0x0a, 0x17, 0x47, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f,
-	0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x6b, 0x0a, 0x0f,
-	0x73, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18,
-	0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x42, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x47, 0x65,
-	0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74,
-	0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0e, 0x73, 0x65, 0x73, 0x73, 0x69,
-	0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0x6c, 0x0a, 0x13, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79,
-	0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b,
-	0x65, 0x79, 0x12, 0x3f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x29, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f,
-	0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52, 0x05, 0x76, 0x61,
-	0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x15, 0x0a, 0x13, 0x43, 0x6c, 0x6f, 0x73, 0x65,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x22, 0xa5,
-	0x01, 0x0a, 0x12, 0x43, 0x6c, 0x6f, 0x73, 0x65, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x48, 0x0a, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x30, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x6c,
-	0x6f, 0x73, 0x65, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74,
-	0x2e, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x52, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x22,
-	0x45, 0x0a, 0x06, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x12, 0x0f, 0x0a, 0x0b, 0x55, 0x4e, 0x53,
-	0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x0a, 0x0a, 0x06, 0x43, 0x4c,
-	0x4f, 0x53, 0x45, 0x44, 0x10, 0x01, 0x12, 0x0b, 0x0a, 0x07, 0x43, 0x4c, 0x4f, 0x53, 0x49, 0x4e,
-	0x47, 0x10, 0x02, 0x12, 0x11, 0x0a, 0x0d, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x4c, 0x4f, 0x53, 0x45,
-	0x41, 0x42, 0x4c, 0x45, 0x10, 0x03, 0x2a, 0x8b, 0x01, 0x0a, 0x0c, 0x43, 0x61, 0x6e, 0x63, 0x65,
-	0x6c, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x12, 0x1d, 0x0a, 0x19, 0x43, 0x41, 0x4e, 0x43, 0x45,
-	0x4c, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x55, 0x53, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49,
-	0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c,
-	0x5f, 0x53, 0x54, 0x41, 0x54, 0x55, 0x53, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x45,
-	0x44, 0x10, 0x01, 0x12, 0x1c, 0x0a, 0x18, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x53, 0x54,
-	0x41, 0x54, 0x55, 0x53, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x49, 0x4e, 0x47, 0x10,
-	0x02, 0x12, 0x21, 0x0a, 0x1d, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x53, 0x54, 0x41, 0x54,
-	0x55, 0x53, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x41, 0x42,
-	0x4c, 0x45, 0x10, 0x03, 0x32, 0x85, 0x07, 0x0a, 0x0d, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x53,
-	0x65, 0x72, 0x76, 0x69, 0x63, 0x65, 0x12, 0x64, 0x0a, 0x09, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68,
-	0x61, 0x6b, 0x65, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67,
-	0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x48, 0x61, 0x6e, 0x64,
-	0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x1a, 0x28, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65,
-	0x73, 0x70, 0x6f, 0x6e, 0x73, 0x65, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01, 0x12, 0x55, 0x0a, 0x0b,
-	0x4c, 0x69, 0x73, 0x74, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x73, 0x12, 0x1f, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x72, 0x69, 0x74, 0x65, 0x72, 0x69, 0x61, 0x1a, 0x21, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x22,
-	0x00, 0x30, 0x01, 0x12, 0x5d, 0x0a, 0x0d, 0x47, 0x65, 0x74, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x49, 0x6e, 0x66, 0x6f, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x21, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f,
-	0x22, 0x00, 0x12, 0x5c, 0x0a, 0x0e, 0x50, 0x6f, 0x6c, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x49, 0x6e, 0x66, 0x6f, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x1f, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x50, 0x6f, 0x6c, 0x6c, 0x49, 0x6e, 0x66, 0x6f, 0x22, 0x00,
-	0x12, 0x5b, 0x0a, 0x09, 0x47, 0x65, 0x74, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x27, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63,
-	0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x23, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x12, 0x4d, 0x0a,
-	0x05, 0x44, 0x6f, 0x47, 0x65, 0x74, 0x12, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x54,
-	0x69, 0x63, 0x6b, 0x65, 0x74, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61, 0x22, 0x00, 0x30, 0x01, 0x12, 0x52, 0x0a, 0x05,
-	0x44, 0x6f, 0x50, 0x75, 0x74, 0x12, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61, 0x1a, 0x20, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x50, 0x75, 0x74, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01,
-	0x12, 0x58, 0x0a, 0x0a, 0x44, 0x6f, 0x45, 0x78, 0x63, 0x68, 0x61, 0x6e, 0x67, 0x65, 0x12, 0x21,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74,
-	0x61, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x44, 0x61, 0x74, 0x61, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01, 0x12, 0x4c, 0x0a, 0x08, 0x44, 0x6f,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x41,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x1a, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x30, 0x01, 0x12, 0x52, 0x0a, 0x0b, 0x4c, 0x69, 0x73, 0x74,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x1c, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e,
-	0x45, 0x6d, 0x70, 0x74, 0x79, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x41, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x54, 0x79, 0x70, 0x65, 0x22, 0x00, 0x30, 0x01, 0x42, 0x71, 0x0a, 0x1c,
-	0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x32, 0x67, 0x69,
-	0x74, 0x68, 0x75, 0x62, 0x2e, 0x63, 0x6f, 0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x67, 0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2f, 0x67, 0x65, 0x6e, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0xaa, 0x02, 0x1c, 0x41, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x41, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x50, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x62,
-	0x06, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_Flight_proto_rawDescOnce sync.Once
-	file_Flight_proto_rawDescData = file_Flight_proto_rawDesc
-)
-
-func file_Flight_proto_rawDescGZIP() []byte {
-	file_Flight_proto_rawDescOnce.Do(func() {
-		file_Flight_proto_rawDescData = protoimpl.X.CompressGZIP(file_Flight_proto_rawDescData)
-	})
-	return file_Flight_proto_rawDescData
-}
-
-var file_Flight_proto_enumTypes = make([]protoimpl.EnumInfo, 4)
-var file_Flight_proto_msgTypes = make([]protoimpl.MessageInfo, 32)
-var file_Flight_proto_goTypes = []interface{}{
-	(CancelStatus)(0),                          // 0: arrow.flight.protocol.CancelStatus
-	(FlightDescriptor_DescriptorType)(0),       // 1: arrow.flight.protocol.FlightDescriptor.DescriptorType
-	(SetSessionOptionsResult_ErrorValue)(0),    // 2: arrow.flight.protocol.SetSessionOptionsResult.ErrorValue
-	(CloseSessionResult_Status)(0),             // 3: arrow.flight.protocol.CloseSessionResult.Status
-	(*HandshakeRequest)(nil),                   // 4: arrow.flight.protocol.HandshakeRequest
-	(*HandshakeResponse)(nil),                  // 5: arrow.flight.protocol.HandshakeResponse
-	(*BasicAuth)(nil),                          // 6: arrow.flight.protocol.BasicAuth
-	(*Empty)(nil),                              // 7: arrow.flight.protocol.Empty
-	(*ActionType)(nil),                         // 8: arrow.flight.protocol.ActionType
-	(*Criteria)(nil),                           // 9: arrow.flight.protocol.Criteria
-	(*Action)(nil),                             // 10: arrow.flight.protocol.Action
-	(*CancelFlightInfoRequest)(nil),            // 11: arrow.flight.protocol.CancelFlightInfoRequest
-	(*RenewFlightEndpointRequest)(nil),         // 12: arrow.flight.protocol.RenewFlightEndpointRequest
-	(*Result)(nil),                             // 13: arrow.flight.protocol.Result
-	(*CancelFlightInfoResult)(nil),             // 14: arrow.flight.protocol.CancelFlightInfoResult
-	(*SchemaResult)(nil),                       // 15: arrow.flight.protocol.SchemaResult
-	(*FlightDescriptor)(nil),                   // 16: arrow.flight.protocol.FlightDescriptor
-	(*FlightInfo)(nil),                         // 17: arrow.flight.protocol.FlightInfo
-	(*PollInfo)(nil),                           // 18: arrow.flight.protocol.PollInfo
-	(*FlightEndpoint)(nil),                     // 19: arrow.flight.protocol.FlightEndpoint
-	(*Location)(nil),                           // 20: arrow.flight.protocol.Location
-	(*Ticket)(nil),                             // 21: arrow.flight.protocol.Ticket
-	(*FlightData)(nil),                         // 22: arrow.flight.protocol.FlightData
-	(*PutResult)(nil),                          // 23: arrow.flight.protocol.PutResult
-	(*SessionOptionValue)(nil),                 // 24: arrow.flight.protocol.SessionOptionValue
-	(*SetSessionOptionsRequest)(nil),           // 25: arrow.flight.protocol.SetSessionOptionsRequest
-	(*SetSessionOptionsResult)(nil),            // 26: arrow.flight.protocol.SetSessionOptionsResult
-	(*GetSessionOptionsRequest)(nil),           // 27: arrow.flight.protocol.GetSessionOptionsRequest
-	(*GetSessionOptionsResult)(nil),            // 28: arrow.flight.protocol.GetSessionOptionsResult
-	(*CloseSessionRequest)(nil),                // 29: arrow.flight.protocol.CloseSessionRequest
-	(*CloseSessionResult)(nil),                 // 30: arrow.flight.protocol.CloseSessionResult
-	(*SessionOptionValue_StringListValue)(nil), // 31: arrow.flight.protocol.SessionOptionValue.StringListValue
-	nil,                                   // 32: arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry
-	(*SetSessionOptionsResult_Error)(nil), // 33: arrow.flight.protocol.SetSessionOptionsResult.Error
-	nil,                                   // 34: arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry
-	nil,                                   // 35: arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry
-	(*timestamppb.Timestamp)(nil),         // 36: google.protobuf.Timestamp
-}
-var file_Flight_proto_depIdxs = []int32{
-	17, // 0: arrow.flight.protocol.CancelFlightInfoRequest.info:type_name -> arrow.flight.protocol.FlightInfo
-	19, // 1: arrow.flight.protocol.RenewFlightEndpointRequest.endpoint:type_name -> arrow.flight.protocol.FlightEndpoint
-	0,  // 2: arrow.flight.protocol.CancelFlightInfoResult.status:type_name -> arrow.flight.protocol.CancelStatus
-	1,  // 3: arrow.flight.protocol.FlightDescriptor.type:type_name -> arrow.flight.protocol.FlightDescriptor.DescriptorType
-	16, // 4: arrow.flight.protocol.FlightInfo.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	19, // 5: arrow.flight.protocol.FlightInfo.endpoint:type_name -> arrow.flight.protocol.FlightEndpoint
-	17, // 6: arrow.flight.protocol.PollInfo.info:type_name -> arrow.flight.protocol.FlightInfo
-	16, // 7: arrow.flight.protocol.PollInfo.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	36, // 8: arrow.flight.protocol.PollInfo.expiration_time:type_name -> google.protobuf.Timestamp
-	21, // 9: arrow.flight.protocol.FlightEndpoint.ticket:type_name -> arrow.flight.protocol.Ticket
-	20, // 10: arrow.flight.protocol.FlightEndpoint.location:type_name -> arrow.flight.protocol.Location
-	36, // 11: arrow.flight.protocol.FlightEndpoint.expiration_time:type_name -> google.protobuf.Timestamp
-	16, // 12: arrow.flight.protocol.FlightData.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	31, // 13: arrow.flight.protocol.SessionOptionValue.string_list_value:type_name -> arrow.flight.protocol.SessionOptionValue.StringListValue
-	32, // 14: arrow.flight.protocol.SetSessionOptionsRequest.session_options:type_name -> arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry
-	34, // 15: arrow.flight.protocol.SetSessionOptionsResult.errors:type_name -> arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry
-	35, // 16: arrow.flight.protocol.GetSessionOptionsResult.session_options:type_name -> arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry
-	3,  // 17: arrow.flight.protocol.CloseSessionResult.status:type_name -> arrow.flight.protocol.CloseSessionResult.Status
-	24, // 18: arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry.value:type_name -> arrow.flight.protocol.SessionOptionValue
-	2,  // 19: arrow.flight.protocol.SetSessionOptionsResult.Error.value:type_name -> arrow.flight.protocol.SetSessionOptionsResult.ErrorValue
-	33, // 20: arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry.value:type_name -> arrow.flight.protocol.SetSessionOptionsResult.Error
-	24, // 21: arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry.value:type_name -> arrow.flight.protocol.SessionOptionValue
-	4,  // 22: arrow.flight.protocol.FlightService.Handshake:input_type -> arrow.flight.protocol.HandshakeRequest
-	9,  // 23: arrow.flight.protocol.FlightService.ListFlights:input_type -> arrow.flight.protocol.Criteria
-	16, // 24: arrow.flight.protocol.FlightService.GetFlightInfo:input_type -> arrow.flight.protocol.FlightDescriptor
-	16, // 25: arrow.flight.protocol.FlightService.PollFlightInfo:input_type -> arrow.flight.protocol.FlightDescriptor
-	16, // 26: arrow.flight.protocol.FlightService.GetSchema:input_type -> arrow.flight.protocol.FlightDescriptor
-	21, // 27: arrow.flight.protocol.FlightService.DoGet:input_type -> arrow.flight.protocol.Ticket
-	22, // 28: arrow.flight.protocol.FlightService.DoPut:input_type -> arrow.flight.protocol.FlightData
-	22, // 29: arrow.flight.protocol.FlightService.DoExchange:input_type -> arrow.flight.protocol.FlightData
-	10, // 30: arrow.flight.protocol.FlightService.DoAction:input_type -> arrow.flight.protocol.Action
-	7,  // 31: arrow.flight.protocol.FlightService.ListActions:input_type -> arrow.flight.protocol.Empty
-	5,  // 32: arrow.flight.protocol.FlightService.Handshake:output_type -> arrow.flight.protocol.HandshakeResponse
-	17, // 33: arrow.flight.protocol.FlightService.ListFlights:output_type -> arrow.flight.protocol.FlightInfo
-	17, // 34: arrow.flight.protocol.FlightService.GetFlightInfo:output_type -> arrow.flight.protocol.FlightInfo
-	18, // 35: arrow.flight.protocol.FlightService.PollFlightInfo:output_type -> arrow.flight.protocol.PollInfo
-	15, // 36: arrow.flight.protocol.FlightService.GetSchema:output_type -> arrow.flight.protocol.SchemaResult
-	22, // 37: arrow.flight.protocol.FlightService.DoGet:output_type -> arrow.flight.protocol.FlightData
-	23, // 38: arrow.flight.protocol.FlightService.DoPut:output_type -> arrow.flight.protocol.PutResult
-	22, // 39: arrow.flight.protocol.FlightService.DoExchange:output_type -> arrow.flight.protocol.FlightData
-	13, // 40: arrow.flight.protocol.FlightService.DoAction:output_type -> arrow.flight.protocol.Result
-	8,  // 41: arrow.flight.protocol.FlightService.ListActions:output_type -> arrow.flight.protocol.ActionType
-	32, // [32:42] is the sub-list for method output_type
-	22, // [22:32] is the sub-list for method input_type
-	22, // [22:22] is the sub-list for extension type_name
-	22, // [22:22] is the sub-list for extension extendee
-	0,  // [0:22] is the sub-list for field type_name
-}
-
-func init() { file_Flight_proto_init() }
-func file_Flight_proto_init() {
-	if File_Flight_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_Flight_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*HandshakeRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*HandshakeResponse); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*BasicAuth); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Empty); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionType); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Criteria); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[6].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Action); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[7].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CancelFlightInfoRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[8].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*RenewFlightEndpointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[9].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Result); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[10].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CancelFlightInfoResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[11].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SchemaResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[12].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightDescriptor); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[13].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[14].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*PollInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[15].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightEndpoint); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[16].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Location); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[17].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Ticket); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[18].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightData); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[19].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*PutResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[20].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SessionOptionValue); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[21].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[22].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[23].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*GetSessionOptionsRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[24].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*GetSessionOptionsResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[25].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CloseSessionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[26].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CloseSessionResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[27].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SessionOptionValue_StringListValue); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[29].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsResult_Error); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_Flight_proto_msgTypes[14].OneofWrappers = []interface{}{}
-	file_Flight_proto_msgTypes[20].OneofWrappers = []interface{}{
-		(*SessionOptionValue_StringValue)(nil),
-		(*SessionOptionValue_BoolValue)(nil),
-		(*SessionOptionValue_Int64Value)(nil),
-		(*SessionOptionValue_DoubleValue)(nil),
-		(*SessionOptionValue_StringListValue_)(nil),
-	}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_Flight_proto_rawDesc,
-			NumEnums:      4,
-			NumMessages:   32,
-			NumExtensions: 0,
-			NumServices:   1,
-		},
-		GoTypes:           file_Flight_proto_goTypes,
-		DependencyIndexes: file_Flight_proto_depIdxs,
-		EnumInfos:         file_Flight_proto_enumTypes,
-		MessageInfos:      file_Flight_proto_msgTypes,
-	}.Build()
-	File_Flight_proto = out.File
-	file_Flight_proto_rawDesc = nil
-	file_Flight_proto_goTypes = nil
-	file_Flight_proto_depIdxs = nil
-}
diff --git a/go/arrow/flight/gen/flight/FlightSql.pb.go b/go/arrow/flight/gen/flight/FlightSql.pb.go
deleted file mode 100644
index f8f5e17d76bd2..0000000000000
--- a/go/arrow/flight/gen/flight/FlightSql.pb.go
+++ /dev/null
@@ -1,6082 +0,0 @@
-//
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-// <p>
-// http://www.apache.org/licenses/LICENSE-2.0
-// <p>
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.25.3
-// source: FlightSql.proto
-
-package flight
-
-import (
-	reflect "reflect"
-	sync "sync"
-
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	descriptorpb "google.golang.org/protobuf/types/descriptorpb"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-// Options for CommandGetSqlInfo.
-type SqlInfo int32
-
-const (
-	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_NAME SqlInfo = 0
-	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_VERSION SqlInfo = 1
-	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION SqlInfo = 2
-	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
-	//
-	// Returns:
-	// - false: if read-write
-	// - true: if read only
-	SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY SqlInfo = 3
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// SQL queries.
-	//
-	// Note that the absence of this info (as opposed to a false value) does not necessarily
-	// mean that SQL is not supported, as this property was not originally defined.
-	SqlInfo_FLIGHT_SQL_SERVER_SQL SqlInfo = 4
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// Substrait plans.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT SqlInfo = 5
-	// Retrieves a string value indicating the minimum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION SqlInfo = 6
-	// Retrieves a string value indicating the maximum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION SqlInfo = 7
-	// Retrieves an int32 indicating whether the Flight SQL Server supports the
-	// BeginTransaction/EndTransaction/BeginSavepoint/EndSavepoint actions.
-	//
-	// Even if this is not supported, the database may still support explicit "BEGIN
-	// TRANSACTION"/"COMMIT" SQL statements (see SQL_TRANSACTIONS_SUPPORTED); this property
-	// is only about whether the server implements the Flight SQL API endpoints.
-	//
-	// The possible values are listed in `SqlSupportedTransaction`.
-	SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION SqlInfo = 8
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports explicit
-	// query cancellation (the CancelQuery action).
-	SqlInfo_FLIGHT_SQL_SERVER_CANCEL SqlInfo = 9
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// bulk ingestion.
-	SqlInfo_FLIGHT_SQL_SERVER_BULK_INGESTION SqlInfo = 10
-	// Retrieves a boolean value indicating whether transactions are supported for bulk ingestion. If not, invoking
-	// the method commit in the context of a bulk ingestion is a noop, and the isolation level is
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if bulk ingestion transactions are unsupported;
-	// - true: if bulk ingestion transactions are supported.
-	SqlInfo_FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED SqlInfo = 11
-	// Retrieves an int32 indicating the timeout (in milliseconds) for prepared statement handles.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfo_FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT SqlInfo = 100
-	// Retrieves an int32 indicating the timeout (in milliseconds) for transactions, since transactions are not tied to a connection.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT SqlInfo = 101
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of catalogs.
-	// - true: if it supports CREATE and DROP of catalogs.
-	SqlInfo_SQL_DDL_CATALOG SqlInfo = 500
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of schemas.
-	// - true: if it supports CREATE and DROP of schemas.
-	SqlInfo_SQL_DDL_SCHEMA SqlInfo = 501
-	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of tables.
-	// - true: if it supports CREATE and DROP of tables.
-	SqlInfo_SQL_DDL_TABLE SqlInfo = 502
-	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfo_SQL_IDENTIFIER_CASE SqlInfo = 503
-	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
-	SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR SqlInfo = 504
-	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfo_SQL_QUOTED_IDENTIFIER_CASE SqlInfo = 505
-	// Retrieves a boolean value indicating whether all tables are selectable.
-	//
-	// Returns:
-	// - false: if not all tables are selectable or if none are;
-	// - true: if all tables are selectable.
-	SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE SqlInfo = 506
-	// Retrieves the null ordering.
-	//
-	// Returns a int32 ordinal for the null ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlNullOrdering`.
-	SqlInfo_SQL_NULL_ORDERING SqlInfo = 507
-	// Retrieves a UTF-8 string list with values of the supported keywords.
-	SqlInfo_SQL_KEYWORDS SqlInfo = 508
-	// Retrieves a UTF-8 string list with values of the supported numeric functions.
-	SqlInfo_SQL_NUMERIC_FUNCTIONS SqlInfo = 509
-	// Retrieves a UTF-8 string list with values of the supported string functions.
-	SqlInfo_SQL_STRING_FUNCTIONS SqlInfo = 510
-	// Retrieves a UTF-8 string list with values of the supported system functions.
-	SqlInfo_SQL_SYSTEM_FUNCTIONS SqlInfo = 511
-	// Retrieves a UTF-8 string list with values of the supported datetime functions.
-	SqlInfo_SQL_DATETIME_FUNCTIONS SqlInfo = 512
-	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
-	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
-	// (and therefore use one of the wildcard characters).
-	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
-	// characters.
-	SqlInfo_SQL_SEARCH_STRING_ESCAPE SqlInfo = 513
-	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
-	// (those beyond a-z, A-Z, 0-9 and _).
-	SqlInfo_SQL_EXTRA_NAME_CHARACTERS SqlInfo = 514
-	// Retrieves a boolean value indicating whether column aliasing is supported.
-	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
-	// as required.
-	//
-	// Returns:
-	// - false: if column aliasing is unsupported;
-	// - true: if column aliasing is supported.
-	SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING SqlInfo = 515
-	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
-	// null are supported.
-	//
-	// - Returns:
-	// - false: if concatenations between null and non-null values being null are unsupported;
-	// - true: if concatenations between null and non-null values being null are supported.
-	SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL SqlInfo = 516
-	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
-	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
-	// SqlSupportsConvert enum.
-	// The returned map will be:  map<int32, list<int32>>
-	SqlInfo_SQL_SUPPORTS_CONVERT SqlInfo = 517
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if table correlation names are unsupported;
-	// - true: if table correlation names are supported.
-	SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES SqlInfo = 518
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if different table correlation names are unsupported;
-	// - true: if different table correlation names are supported
-	SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES SqlInfo = 519
-	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
-	//
-	// Returns:
-	// - false: if expressions in ORDER BY are unsupported;
-	// - true: if expressions in ORDER BY are supported;
-	SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY SqlInfo = 520
-	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
-	// clause is supported.
-	//
-	// Returns:
-	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
-	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
-	SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED SqlInfo = 521
-	// Retrieves the supported GROUP BY commands;
-	//
-	// Returns an int32 bitmask value representing the supported commands.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
-	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
-	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
-	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
-	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
-	SqlInfo_SQL_SUPPORTED_GROUP_BY SqlInfo = 522
-	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
-	//
-	// Returns:
-	// - false: if specifying a LIKE escape clause is unsupported;
-	// - true: if specifying a LIKE escape clause is supported.
-	SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE SqlInfo = 523
-	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
-	//
-	// Returns:
-	// - false: if columns cannot be defined as non-nullable;
-	// - true: if columns may be defined as non-nullable.
-	SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS SqlInfo = 524
-	// Retrieves the supported SQL grammar level as per the ODBC specification.
-	//
-	// Returns an int32 bitmask value representing the supported SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
-	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
-	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
-	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
-	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
-	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
-	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
-	SqlInfo_SQL_SUPPORTED_GRAMMAR SqlInfo = 525
-	// Retrieves the supported ANSI92 SQL grammar level.
-	//
-	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
-	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
-	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
-	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
-	// - return 4 (\b100) => [ANSI92_FULL_SQL];
-	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
-	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
-	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
-	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
-	SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL SqlInfo = 526
-	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
-	//
-	// Returns:
-	// - false: if the SQL Integrity Enhancement Facility is supported;
-	// - true: if the SQL Integrity Enhancement Facility is supported.
-	SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY SqlInfo = 527
-	// Retrieves the support level for SQL OUTER JOINs.
-	//
-	// Returns a int32 ordinal for the SQL ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
-	SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL SqlInfo = 528
-	// Retrieves a UTF-8 string with the preferred term for "schema".
-	SqlInfo_SQL_SCHEMA_TERM SqlInfo = 529
-	// Retrieves a UTF-8 string with the preferred term for "procedure".
-	SqlInfo_SQL_PROCEDURE_TERM SqlInfo = 530
-	// Retrieves a UTF-8 string with the preferred term for "catalog".
-	// If a empty string is returned its assumed that the server does NOT supports catalogs.
-	SqlInfo_SQL_CATALOG_TERM SqlInfo = 531
-	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
-	//
-	// - false: if a catalog does not appear at the start of a fully qualified table name;
-	// - true: if a catalog appears at the start of a fully qualified table name.
-	SqlInfo_SQL_CATALOG_AT_START SqlInfo = 532
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS SqlInfo = 533
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS SqlInfo = 534
-	// Retrieves the supported SQL positioned commands.
-	//
-	// Returns an int32 bitmask value representing the supported SQL positioned commands.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
-	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
-	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
-	SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS SqlInfo = 535
-	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
-	//
-	// Returns:
-	// - false: if SELECT FOR UPDATE statements are unsupported;
-	// - true: if SELECT FOR UPDATE statements are supported.
-	SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED SqlInfo = 536
-	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
-	// are supported.
-	//
-	// Returns:
-	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
-	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
-	SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED SqlInfo = 537
-	// Retrieves the supported SQL subqueries.
-	//
-	// Returns an int32 bitmask value representing the supported SQL subqueries.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL subqueries);
-	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
-	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
-	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
-	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
-	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
-	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - ...
-	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
-	SqlInfo_SQL_SUPPORTED_SUBQUERIES SqlInfo = 538
-	// Retrieves a boolean value indicating whether correlated subqueries are supported.
-	//
-	// Returns:
-	// - false: if correlated subqueries are unsupported;
-	// - true: if correlated subqueries are supported.
-	SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED SqlInfo = 539
-	// Retrieves the supported SQL UNIONs.
-	//
-	// Returns an int32 bitmask value representing the supported SQL UNIONs.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_UNION];
-	// - return 2 (\b10)  => [SQL_UNION_ALL];
-	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
-	SqlInfo_SQL_SUPPORTED_UNIONS SqlInfo = 540
-	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
-	SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH SqlInfo = 541
-	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
-	SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH SqlInfo = 542
-	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
-	SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH SqlInfo = 543
-	// Retrieves a int64 value representing the maximum number of columns allowed in a GROUP BY clause.
-	SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY SqlInfo = 544
-	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
-	SqlInfo_SQL_MAX_COLUMNS_IN_INDEX SqlInfo = 545
-	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
-	SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY SqlInfo = 546
-	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
-	SqlInfo_SQL_MAX_COLUMNS_IN_SELECT SqlInfo = 547
-	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
-	SqlInfo_SQL_MAX_COLUMNS_IN_TABLE SqlInfo = 548
-	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
-	SqlInfo_SQL_MAX_CONNECTIONS SqlInfo = 549
-	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
-	SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH SqlInfo = 550
-	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
-	// including all of the parts of the index.
-	SqlInfo_SQL_MAX_INDEX_LENGTH SqlInfo = 551
-	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
-	SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH SqlInfo = 552
-	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
-	SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH SqlInfo = 553
-	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
-	SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH SqlInfo = 554
-	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
-	SqlInfo_SQL_MAX_ROW_SIZE SqlInfo = 555
-	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
-	// data types LONGVARCHAR and LONGVARBINARY.
-	//
-	// Returns:
-	//   - false: if return value for the JDBC method getMaxRowSize does
-	//     not include the SQL data types LONGVARCHAR and LONGVARBINARY;
-	//   - true: if return value for the JDBC method getMaxRowSize includes
-	//     the SQL data types LONGVARCHAR and LONGVARBINARY.
-	SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS SqlInfo = 556
-	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
-	// a result of 0 (zero) means that there is no limit or the limit is not known.
-	SqlInfo_SQL_MAX_STATEMENT_LENGTH SqlInfo = 557
-	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
-	SqlInfo_SQL_MAX_STATEMENTS SqlInfo = 558
-	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
-	SqlInfo_SQL_MAX_TABLE_NAME_LENGTH SqlInfo = 559
-	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
-	SqlInfo_SQL_MAX_TABLES_IN_SELECT SqlInfo = 560
-	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
-	SqlInfo_SQL_MAX_USERNAME_LENGTH SqlInfo = 561
-	// Retrieves this database's default transaction isolation level as described in
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	//
-	// Returns a int32 ordinal for the SQL transaction isolation level.
-	SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION SqlInfo = 562
-	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
-	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if transactions are unsupported;
-	// - true: if transactions are supported.
-	SqlInfo_SQL_TRANSACTIONS_SUPPORTED SqlInfo = 563
-	// Retrieves the supported transactions isolation levels.
-	//
-	// Returns an int32 bitmask value representing the supported transactions isolation levels.
-	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
-	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
-	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
-	// - ...
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS SqlInfo = 564
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
-	// the transaction to commit.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction does not force the transaction to commit;
-	// - true: if a data definition statement within a transaction forces the transaction to commit.
-	SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT SqlInfo = 565
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction is taken into account;
-	// - true: a data definition statement within a transaction is ignored.
-	SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED SqlInfo = 566
-	// Retrieves an int32 bitmask value representing the supported result set types.
-	// The returned bitmask should be parsed in order to retrieve the supported result set types.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported result set types);
-	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
-	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
-	// - ...
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
-	SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES SqlInfo = 567
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED SqlInfo = 568
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY SqlInfo = 569
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE SqlInfo = 570
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE SqlInfo = 571
-	// Retrieves a boolean value indicating whether this database supports batch updates.
-	//
-	// - false: if this database does not support batch updates;
-	// - true: if this database supports batch updates.
-	SqlInfo_SQL_BATCH_UPDATES_SUPPORTED SqlInfo = 572
-	// Retrieves a boolean value indicating whether this database supports savepoints.
-	//
-	// Returns:
-	// - false: if this database does not support savepoints;
-	// - true: if this database supports savepoints.
-	SqlInfo_SQL_SAVEPOINTS_SUPPORTED SqlInfo = 573
-	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
-	//
-	// Returns:
-	// - false: if named parameters in callable statements are unsupported;
-	// - true: if named parameters in callable statements are supported.
-	SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED SqlInfo = 574
-	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
-	//
-	// Returns:
-	// - false: if updates made to a LOB are made directly to the LOB;
-	// - true: if updates made to a LOB are made on a copy.
-	SqlInfo_SQL_LOCATORS_UPDATE_COPY SqlInfo = 575
-	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
-	// using the stored procedure escape syntax is supported.
-	//
-	// Returns:
-	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
-	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
-	SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED SqlInfo = 576
-)
-
-// Enum value maps for SqlInfo.
-var (
-	SqlInfo_name = map[int32]string{
-		0:   "FLIGHT_SQL_SERVER_NAME",
-		1:   "FLIGHT_SQL_SERVER_VERSION",
-		2:   "FLIGHT_SQL_SERVER_ARROW_VERSION",
-		3:   "FLIGHT_SQL_SERVER_READ_ONLY",
-		4:   "FLIGHT_SQL_SERVER_SQL",
-		5:   "FLIGHT_SQL_SERVER_SUBSTRAIT",
-		6:   "FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION",
-		7:   "FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION",
-		8:   "FLIGHT_SQL_SERVER_TRANSACTION",
-		9:   "FLIGHT_SQL_SERVER_CANCEL",
-		10:  "FLIGHT_SQL_SERVER_BULK_INGESTION",
-		11:  "FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED",
-		100: "FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT",
-		101: "FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT",
-		500: "SQL_DDL_CATALOG",
-		501: "SQL_DDL_SCHEMA",
-		502: "SQL_DDL_TABLE",
-		503: "SQL_IDENTIFIER_CASE",
-		504: "SQL_IDENTIFIER_QUOTE_CHAR",
-		505: "SQL_QUOTED_IDENTIFIER_CASE",
-		506: "SQL_ALL_TABLES_ARE_SELECTABLE",
-		507: "SQL_NULL_ORDERING",
-		508: "SQL_KEYWORDS",
-		509: "SQL_NUMERIC_FUNCTIONS",
-		510: "SQL_STRING_FUNCTIONS",
-		511: "SQL_SYSTEM_FUNCTIONS",
-		512: "SQL_DATETIME_FUNCTIONS",
-		513: "SQL_SEARCH_STRING_ESCAPE",
-		514: "SQL_EXTRA_NAME_CHARACTERS",
-		515: "SQL_SUPPORTS_COLUMN_ALIASING",
-		516: "SQL_NULL_PLUS_NULL_IS_NULL",
-		517: "SQL_SUPPORTS_CONVERT",
-		518: "SQL_SUPPORTS_TABLE_CORRELATION_NAMES",
-		519: "SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES",
-		520: "SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY",
-		521: "SQL_SUPPORTS_ORDER_BY_UNRELATED",
-		522: "SQL_SUPPORTED_GROUP_BY",
-		523: "SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE",
-		524: "SQL_SUPPORTS_NON_NULLABLE_COLUMNS",
-		525: "SQL_SUPPORTED_GRAMMAR",
-		526: "SQL_ANSI92_SUPPORTED_LEVEL",
-		527: "SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY",
-		528: "SQL_OUTER_JOINS_SUPPORT_LEVEL",
-		529: "SQL_SCHEMA_TERM",
-		530: "SQL_PROCEDURE_TERM",
-		531: "SQL_CATALOG_TERM",
-		532: "SQL_CATALOG_AT_START",
-		533: "SQL_SCHEMAS_SUPPORTED_ACTIONS",
-		534: "SQL_CATALOGS_SUPPORTED_ACTIONS",
-		535: "SQL_SUPPORTED_POSITIONED_COMMANDS",
-		536: "SQL_SELECT_FOR_UPDATE_SUPPORTED",
-		537: "SQL_STORED_PROCEDURES_SUPPORTED",
-		538: "SQL_SUPPORTED_SUBQUERIES",
-		539: "SQL_CORRELATED_SUBQUERIES_SUPPORTED",
-		540: "SQL_SUPPORTED_UNIONS",
-		541: "SQL_MAX_BINARY_LITERAL_LENGTH",
-		542: "SQL_MAX_CHAR_LITERAL_LENGTH",
-		543: "SQL_MAX_COLUMN_NAME_LENGTH",
-		544: "SQL_MAX_COLUMNS_IN_GROUP_BY",
-		545: "SQL_MAX_COLUMNS_IN_INDEX",
-		546: "SQL_MAX_COLUMNS_IN_ORDER_BY",
-		547: "SQL_MAX_COLUMNS_IN_SELECT",
-		548: "SQL_MAX_COLUMNS_IN_TABLE",
-		549: "SQL_MAX_CONNECTIONS",
-		550: "SQL_MAX_CURSOR_NAME_LENGTH",
-		551: "SQL_MAX_INDEX_LENGTH",
-		552: "SQL_DB_SCHEMA_NAME_LENGTH",
-		553: "SQL_MAX_PROCEDURE_NAME_LENGTH",
-		554: "SQL_MAX_CATALOG_NAME_LENGTH",
-		555: "SQL_MAX_ROW_SIZE",
-		556: "SQL_MAX_ROW_SIZE_INCLUDES_BLOBS",
-		557: "SQL_MAX_STATEMENT_LENGTH",
-		558: "SQL_MAX_STATEMENTS",
-		559: "SQL_MAX_TABLE_NAME_LENGTH",
-		560: "SQL_MAX_TABLES_IN_SELECT",
-		561: "SQL_MAX_USERNAME_LENGTH",
-		562: "SQL_DEFAULT_TRANSACTION_ISOLATION",
-		563: "SQL_TRANSACTIONS_SUPPORTED",
-		564: "SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS",
-		565: "SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT",
-		566: "SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED",
-		567: "SQL_SUPPORTED_RESULT_SET_TYPES",
-		568: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED",
-		569: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY",
-		570: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE",
-		571: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE",
-		572: "SQL_BATCH_UPDATES_SUPPORTED",
-		573: "SQL_SAVEPOINTS_SUPPORTED",
-		574: "SQL_NAMED_PARAMETERS_SUPPORTED",
-		575: "SQL_LOCATORS_UPDATE_COPY",
-		576: "SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED",
-	}
-	SqlInfo_value = map[string]int32{
-		"FLIGHT_SQL_SERVER_NAME":                                        0,
-		"FLIGHT_SQL_SERVER_VERSION":                                     1,
-		"FLIGHT_SQL_SERVER_ARROW_VERSION":                               2,
-		"FLIGHT_SQL_SERVER_READ_ONLY":                                   3,
-		"FLIGHT_SQL_SERVER_SQL":                                         4,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT":                                   5,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION":                       6,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION":                       7,
-		"FLIGHT_SQL_SERVER_TRANSACTION":                                 8,
-		"FLIGHT_SQL_SERVER_CANCEL":                                      9,
-		"FLIGHT_SQL_SERVER_BULK_INGESTION":                              10,
-		"FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED":               11,
-		"FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT":                           100,
-		"FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT":                         101,
-		"SQL_DDL_CATALOG":                                               500,
-		"SQL_DDL_SCHEMA":                                                501,
-		"SQL_DDL_TABLE":                                                 502,
-		"SQL_IDENTIFIER_CASE":                                           503,
-		"SQL_IDENTIFIER_QUOTE_CHAR":                                     504,
-		"SQL_QUOTED_IDENTIFIER_CASE":                                    505,
-		"SQL_ALL_TABLES_ARE_SELECTABLE":                                 506,
-		"SQL_NULL_ORDERING":                                             507,
-		"SQL_KEYWORDS":                                                  508,
-		"SQL_NUMERIC_FUNCTIONS":                                         509,
-		"SQL_STRING_FUNCTIONS":                                          510,
-		"SQL_SYSTEM_FUNCTIONS":                                          511,
-		"SQL_DATETIME_FUNCTIONS":                                        512,
-		"SQL_SEARCH_STRING_ESCAPE":                                      513,
-		"SQL_EXTRA_NAME_CHARACTERS":                                     514,
-		"SQL_SUPPORTS_COLUMN_ALIASING":                                  515,
-		"SQL_NULL_PLUS_NULL_IS_NULL":                                    516,
-		"SQL_SUPPORTS_CONVERT":                                          517,
-		"SQL_SUPPORTS_TABLE_CORRELATION_NAMES":                          518,
-		"SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES":                519,
-		"SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY":                          520,
-		"SQL_SUPPORTS_ORDER_BY_UNRELATED":                               521,
-		"SQL_SUPPORTED_GROUP_BY":                                        522,
-		"SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE":                               523,
-		"SQL_SUPPORTS_NON_NULLABLE_COLUMNS":                             524,
-		"SQL_SUPPORTED_GRAMMAR":                                         525,
-		"SQL_ANSI92_SUPPORTED_LEVEL":                                    526,
-		"SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY":                   527,
-		"SQL_OUTER_JOINS_SUPPORT_LEVEL":                                 528,
-		"SQL_SCHEMA_TERM":                                               529,
-		"SQL_PROCEDURE_TERM":                                            530,
-		"SQL_CATALOG_TERM":                                              531,
-		"SQL_CATALOG_AT_START":                                          532,
-		"SQL_SCHEMAS_SUPPORTED_ACTIONS":                                 533,
-		"SQL_CATALOGS_SUPPORTED_ACTIONS":                                534,
-		"SQL_SUPPORTED_POSITIONED_COMMANDS":                             535,
-		"SQL_SELECT_FOR_UPDATE_SUPPORTED":                               536,
-		"SQL_STORED_PROCEDURES_SUPPORTED":                               537,
-		"SQL_SUPPORTED_SUBQUERIES":                                      538,
-		"SQL_CORRELATED_SUBQUERIES_SUPPORTED":                           539,
-		"SQL_SUPPORTED_UNIONS":                                          540,
-		"SQL_MAX_BINARY_LITERAL_LENGTH":                                 541,
-		"SQL_MAX_CHAR_LITERAL_LENGTH":                                   542,
-		"SQL_MAX_COLUMN_NAME_LENGTH":                                    543,
-		"SQL_MAX_COLUMNS_IN_GROUP_BY":                                   544,
-		"SQL_MAX_COLUMNS_IN_INDEX":                                      545,
-		"SQL_MAX_COLUMNS_IN_ORDER_BY":                                   546,
-		"SQL_MAX_COLUMNS_IN_SELECT":                                     547,
-		"SQL_MAX_COLUMNS_IN_TABLE":                                      548,
-		"SQL_MAX_CONNECTIONS":                                           549,
-		"SQL_MAX_CURSOR_NAME_LENGTH":                                    550,
-		"SQL_MAX_INDEX_LENGTH":                                          551,
-		"SQL_DB_SCHEMA_NAME_LENGTH":                                     552,
-		"SQL_MAX_PROCEDURE_NAME_LENGTH":                                 553,
-		"SQL_MAX_CATALOG_NAME_LENGTH":                                   554,
-		"SQL_MAX_ROW_SIZE":                                              555,
-		"SQL_MAX_ROW_SIZE_INCLUDES_BLOBS":                               556,
-		"SQL_MAX_STATEMENT_LENGTH":                                      557,
-		"SQL_MAX_STATEMENTS":                                            558,
-		"SQL_MAX_TABLE_NAME_LENGTH":                                     559,
-		"SQL_MAX_TABLES_IN_SELECT":                                      560,
-		"SQL_MAX_USERNAME_LENGTH":                                       561,
-		"SQL_DEFAULT_TRANSACTION_ISOLATION":                             562,
-		"SQL_TRANSACTIONS_SUPPORTED":                                    563,
-		"SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS":                   564,
-		"SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT":                 565,
-		"SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED":                  566,
-		"SQL_SUPPORTED_RESULT_SET_TYPES":                                567,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED":        568,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY":       569,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE":   570,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE": 571,
-		"SQL_BATCH_UPDATES_SUPPORTED":                                   572,
-		"SQL_SAVEPOINTS_SUPPORTED":                                      573,
-		"SQL_NAMED_PARAMETERS_SUPPORTED":                                574,
-		"SQL_LOCATORS_UPDATE_COPY":                                      575,
-		"SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED":              576,
-	}
-)
-
-func (x SqlInfo) Enum() *SqlInfo {
-	p := new(SqlInfo)
-	*p = x
-	return p
-}
-
-func (x SqlInfo) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlInfo) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[0].Descriptor()
-}
-
-func (SqlInfo) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[0]
-}
-
-func (x SqlInfo) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlInfo.Descriptor instead.
-func (SqlInfo) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{0}
-}
-
-// The level of support for Flight SQL transaction RPCs.
-type SqlSupportedTransaction int32
-
-const (
-	// Unknown/not indicated/no support
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_NONE SqlSupportedTransaction = 0
-	// Transactions, but not savepoints.
-	// A savepoint is a mark within a transaction that can be individually
-	// rolled back to. Not all databases support savepoints.
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_TRANSACTION SqlSupportedTransaction = 1
-	// Transactions and savepoints
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_SAVEPOINT SqlSupportedTransaction = 2
-)
-
-// Enum value maps for SqlSupportedTransaction.
-var (
-	SqlSupportedTransaction_name = map[int32]string{
-		0: "SQL_SUPPORTED_TRANSACTION_NONE",
-		1: "SQL_SUPPORTED_TRANSACTION_TRANSACTION",
-		2: "SQL_SUPPORTED_TRANSACTION_SAVEPOINT",
-	}
-	SqlSupportedTransaction_value = map[string]int32{
-		"SQL_SUPPORTED_TRANSACTION_NONE":        0,
-		"SQL_SUPPORTED_TRANSACTION_TRANSACTION": 1,
-		"SQL_SUPPORTED_TRANSACTION_SAVEPOINT":   2,
-	}
-)
-
-func (x SqlSupportedTransaction) Enum() *SqlSupportedTransaction {
-	p := new(SqlSupportedTransaction)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedTransaction) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedTransaction) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[1].Descriptor()
-}
-
-func (SqlSupportedTransaction) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[1]
-}
-
-func (x SqlSupportedTransaction) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedTransaction.Descriptor instead.
-func (SqlSupportedTransaction) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{1}
-}
-
-type SqlSupportedCaseSensitivity int32
-
-const (
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN          SqlSupportedCaseSensitivity = 0
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE SqlSupportedCaseSensitivity = 1
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE        SqlSupportedCaseSensitivity = 2
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE        SqlSupportedCaseSensitivity = 3
-)
-
-// Enum value maps for SqlSupportedCaseSensitivity.
-var (
-	SqlSupportedCaseSensitivity_name = map[int32]string{
-		0: "SQL_CASE_SENSITIVITY_UNKNOWN",
-		1: "SQL_CASE_SENSITIVITY_CASE_INSENSITIVE",
-		2: "SQL_CASE_SENSITIVITY_UPPERCASE",
-		3: "SQL_CASE_SENSITIVITY_LOWERCASE",
-	}
-	SqlSupportedCaseSensitivity_value = map[string]int32{
-		"SQL_CASE_SENSITIVITY_UNKNOWN":          0,
-		"SQL_CASE_SENSITIVITY_CASE_INSENSITIVE": 1,
-		"SQL_CASE_SENSITIVITY_UPPERCASE":        2,
-		"SQL_CASE_SENSITIVITY_LOWERCASE":        3,
-	}
-)
-
-func (x SqlSupportedCaseSensitivity) Enum() *SqlSupportedCaseSensitivity {
-	p := new(SqlSupportedCaseSensitivity)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedCaseSensitivity) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedCaseSensitivity) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[2].Descriptor()
-}
-
-func (SqlSupportedCaseSensitivity) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[2]
-}
-
-func (x SqlSupportedCaseSensitivity) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedCaseSensitivity.Descriptor instead.
-func (SqlSupportedCaseSensitivity) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{2}
-}
-
-type SqlNullOrdering int32
-
-const (
-	SqlNullOrdering_SQL_NULLS_SORTED_HIGH     SqlNullOrdering = 0
-	SqlNullOrdering_SQL_NULLS_SORTED_LOW      SqlNullOrdering = 1
-	SqlNullOrdering_SQL_NULLS_SORTED_AT_START SqlNullOrdering = 2
-	SqlNullOrdering_SQL_NULLS_SORTED_AT_END   SqlNullOrdering = 3
-)
-
-// Enum value maps for SqlNullOrdering.
-var (
-	SqlNullOrdering_name = map[int32]string{
-		0: "SQL_NULLS_SORTED_HIGH",
-		1: "SQL_NULLS_SORTED_LOW",
-		2: "SQL_NULLS_SORTED_AT_START",
-		3: "SQL_NULLS_SORTED_AT_END",
-	}
-	SqlNullOrdering_value = map[string]int32{
-		"SQL_NULLS_SORTED_HIGH":     0,
-		"SQL_NULLS_SORTED_LOW":      1,
-		"SQL_NULLS_SORTED_AT_START": 2,
-		"SQL_NULLS_SORTED_AT_END":   3,
-	}
-)
-
-func (x SqlNullOrdering) Enum() *SqlNullOrdering {
-	p := new(SqlNullOrdering)
-	*p = x
-	return p
-}
-
-func (x SqlNullOrdering) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlNullOrdering) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[3].Descriptor()
-}
-
-func (SqlNullOrdering) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[3]
-}
-
-func (x SqlNullOrdering) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlNullOrdering.Descriptor instead.
-func (SqlNullOrdering) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{3}
-}
-
-type SupportedSqlGrammar int32
-
-const (
-	SupportedSqlGrammar_SQL_MINIMUM_GRAMMAR  SupportedSqlGrammar = 0
-	SupportedSqlGrammar_SQL_CORE_GRAMMAR     SupportedSqlGrammar = 1
-	SupportedSqlGrammar_SQL_EXTENDED_GRAMMAR SupportedSqlGrammar = 2
-)
-
-// Enum value maps for SupportedSqlGrammar.
-var (
-	SupportedSqlGrammar_name = map[int32]string{
-		0: "SQL_MINIMUM_GRAMMAR",
-		1: "SQL_CORE_GRAMMAR",
-		2: "SQL_EXTENDED_GRAMMAR",
-	}
-	SupportedSqlGrammar_value = map[string]int32{
-		"SQL_MINIMUM_GRAMMAR":  0,
-		"SQL_CORE_GRAMMAR":     1,
-		"SQL_EXTENDED_GRAMMAR": 2,
-	}
-)
-
-func (x SupportedSqlGrammar) Enum() *SupportedSqlGrammar {
-	p := new(SupportedSqlGrammar)
-	*p = x
-	return p
-}
-
-func (x SupportedSqlGrammar) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SupportedSqlGrammar) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[4].Descriptor()
-}
-
-func (SupportedSqlGrammar) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[4]
-}
-
-func (x SupportedSqlGrammar) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SupportedSqlGrammar.Descriptor instead.
-func (SupportedSqlGrammar) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{4}
-}
-
-type SupportedAnsi92SqlGrammarLevel int32
-
-const (
-	SupportedAnsi92SqlGrammarLevel_ANSI92_ENTRY_SQL        SupportedAnsi92SqlGrammarLevel = 0
-	SupportedAnsi92SqlGrammarLevel_ANSI92_INTERMEDIATE_SQL SupportedAnsi92SqlGrammarLevel = 1
-	SupportedAnsi92SqlGrammarLevel_ANSI92_FULL_SQL         SupportedAnsi92SqlGrammarLevel = 2
-)
-
-// Enum value maps for SupportedAnsi92SqlGrammarLevel.
-var (
-	SupportedAnsi92SqlGrammarLevel_name = map[int32]string{
-		0: "ANSI92_ENTRY_SQL",
-		1: "ANSI92_INTERMEDIATE_SQL",
-		2: "ANSI92_FULL_SQL",
-	}
-	SupportedAnsi92SqlGrammarLevel_value = map[string]int32{
-		"ANSI92_ENTRY_SQL":        0,
-		"ANSI92_INTERMEDIATE_SQL": 1,
-		"ANSI92_FULL_SQL":         2,
-	}
-)
-
-func (x SupportedAnsi92SqlGrammarLevel) Enum() *SupportedAnsi92SqlGrammarLevel {
-	p := new(SupportedAnsi92SqlGrammarLevel)
-	*p = x
-	return p
-}
-
-func (x SupportedAnsi92SqlGrammarLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SupportedAnsi92SqlGrammarLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[5].Descriptor()
-}
-
-func (SupportedAnsi92SqlGrammarLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[5]
-}
-
-func (x SupportedAnsi92SqlGrammarLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SupportedAnsi92SqlGrammarLevel.Descriptor instead.
-func (SupportedAnsi92SqlGrammarLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{5}
-}
-
-type SqlOuterJoinsSupportLevel int32
-
-const (
-	SqlOuterJoinsSupportLevel_SQL_JOINS_UNSUPPORTED   SqlOuterJoinsSupportLevel = 0
-	SqlOuterJoinsSupportLevel_SQL_LIMITED_OUTER_JOINS SqlOuterJoinsSupportLevel = 1
-	SqlOuterJoinsSupportLevel_SQL_FULL_OUTER_JOINS    SqlOuterJoinsSupportLevel = 2
-)
-
-// Enum value maps for SqlOuterJoinsSupportLevel.
-var (
-	SqlOuterJoinsSupportLevel_name = map[int32]string{
-		0: "SQL_JOINS_UNSUPPORTED",
-		1: "SQL_LIMITED_OUTER_JOINS",
-		2: "SQL_FULL_OUTER_JOINS",
-	}
-	SqlOuterJoinsSupportLevel_value = map[string]int32{
-		"SQL_JOINS_UNSUPPORTED":   0,
-		"SQL_LIMITED_OUTER_JOINS": 1,
-		"SQL_FULL_OUTER_JOINS":    2,
-	}
-)
-
-func (x SqlOuterJoinsSupportLevel) Enum() *SqlOuterJoinsSupportLevel {
-	p := new(SqlOuterJoinsSupportLevel)
-	*p = x
-	return p
-}
-
-func (x SqlOuterJoinsSupportLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlOuterJoinsSupportLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[6].Descriptor()
-}
-
-func (SqlOuterJoinsSupportLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[6]
-}
-
-func (x SqlOuterJoinsSupportLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlOuterJoinsSupportLevel.Descriptor instead.
-func (SqlOuterJoinsSupportLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{6}
-}
-
-type SqlSupportedGroupBy int32
-
-const (
-	SqlSupportedGroupBy_SQL_GROUP_BY_UNRELATED     SqlSupportedGroupBy = 0
-	SqlSupportedGroupBy_SQL_GROUP_BY_BEYOND_SELECT SqlSupportedGroupBy = 1
-)
-
-// Enum value maps for SqlSupportedGroupBy.
-var (
-	SqlSupportedGroupBy_name = map[int32]string{
-		0: "SQL_GROUP_BY_UNRELATED",
-		1: "SQL_GROUP_BY_BEYOND_SELECT",
-	}
-	SqlSupportedGroupBy_value = map[string]int32{
-		"SQL_GROUP_BY_UNRELATED":     0,
-		"SQL_GROUP_BY_BEYOND_SELECT": 1,
-	}
-)
-
-func (x SqlSupportedGroupBy) Enum() *SqlSupportedGroupBy {
-	p := new(SqlSupportedGroupBy)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedGroupBy) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedGroupBy) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[7].Descriptor()
-}
-
-func (SqlSupportedGroupBy) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[7]
-}
-
-func (x SqlSupportedGroupBy) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedGroupBy.Descriptor instead.
-func (SqlSupportedGroupBy) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{7}
-}
-
-type SqlSupportedElementActions int32
-
-const (
-	SqlSupportedElementActions_SQL_ELEMENT_IN_PROCEDURE_CALLS       SqlSupportedElementActions = 0
-	SqlSupportedElementActions_SQL_ELEMENT_IN_INDEX_DEFINITIONS     SqlSupportedElementActions = 1
-	SqlSupportedElementActions_SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS SqlSupportedElementActions = 2
-)
-
-// Enum value maps for SqlSupportedElementActions.
-var (
-	SqlSupportedElementActions_name = map[int32]string{
-		0: "SQL_ELEMENT_IN_PROCEDURE_CALLS",
-		1: "SQL_ELEMENT_IN_INDEX_DEFINITIONS",
-		2: "SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS",
-	}
-	SqlSupportedElementActions_value = map[string]int32{
-		"SQL_ELEMENT_IN_PROCEDURE_CALLS":       0,
-		"SQL_ELEMENT_IN_INDEX_DEFINITIONS":     1,
-		"SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS": 2,
-	}
-)
-
-func (x SqlSupportedElementActions) Enum() *SqlSupportedElementActions {
-	p := new(SqlSupportedElementActions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedElementActions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedElementActions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[8].Descriptor()
-}
-
-func (SqlSupportedElementActions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[8]
-}
-
-func (x SqlSupportedElementActions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedElementActions.Descriptor instead.
-func (SqlSupportedElementActions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{8}
-}
-
-type SqlSupportedPositionedCommands int32
-
-const (
-	SqlSupportedPositionedCommands_SQL_POSITIONED_DELETE SqlSupportedPositionedCommands = 0
-	SqlSupportedPositionedCommands_SQL_POSITIONED_UPDATE SqlSupportedPositionedCommands = 1
-)
-
-// Enum value maps for SqlSupportedPositionedCommands.
-var (
-	SqlSupportedPositionedCommands_name = map[int32]string{
-		0: "SQL_POSITIONED_DELETE",
-		1: "SQL_POSITIONED_UPDATE",
-	}
-	SqlSupportedPositionedCommands_value = map[string]int32{
-		"SQL_POSITIONED_DELETE": 0,
-		"SQL_POSITIONED_UPDATE": 1,
-	}
-)
-
-func (x SqlSupportedPositionedCommands) Enum() *SqlSupportedPositionedCommands {
-	p := new(SqlSupportedPositionedCommands)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedPositionedCommands) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedPositionedCommands) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[9].Descriptor()
-}
-
-func (SqlSupportedPositionedCommands) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[9]
-}
-
-func (x SqlSupportedPositionedCommands) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedPositionedCommands.Descriptor instead.
-func (SqlSupportedPositionedCommands) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{9}
-}
-
-type SqlSupportedSubqueries int32
-
-const (
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_COMPARISONS SqlSupportedSubqueries = 0
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_EXISTS      SqlSupportedSubqueries = 1
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_INS         SqlSupportedSubqueries = 2
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_QUANTIFIEDS SqlSupportedSubqueries = 3
-)
-
-// Enum value maps for SqlSupportedSubqueries.
-var (
-	SqlSupportedSubqueries_name = map[int32]string{
-		0: "SQL_SUBQUERIES_IN_COMPARISONS",
-		1: "SQL_SUBQUERIES_IN_EXISTS",
-		2: "SQL_SUBQUERIES_IN_INS",
-		3: "SQL_SUBQUERIES_IN_QUANTIFIEDS",
-	}
-	SqlSupportedSubqueries_value = map[string]int32{
-		"SQL_SUBQUERIES_IN_COMPARISONS": 0,
-		"SQL_SUBQUERIES_IN_EXISTS":      1,
-		"SQL_SUBQUERIES_IN_INS":         2,
-		"SQL_SUBQUERIES_IN_QUANTIFIEDS": 3,
-	}
-)
-
-func (x SqlSupportedSubqueries) Enum() *SqlSupportedSubqueries {
-	p := new(SqlSupportedSubqueries)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedSubqueries) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedSubqueries) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[10].Descriptor()
-}
-
-func (SqlSupportedSubqueries) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[10]
-}
-
-func (x SqlSupportedSubqueries) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedSubqueries.Descriptor instead.
-func (SqlSupportedSubqueries) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{10}
-}
-
-type SqlSupportedUnions int32
-
-const (
-	SqlSupportedUnions_SQL_UNION     SqlSupportedUnions = 0
-	SqlSupportedUnions_SQL_UNION_ALL SqlSupportedUnions = 1
-)
-
-// Enum value maps for SqlSupportedUnions.
-var (
-	SqlSupportedUnions_name = map[int32]string{
-		0: "SQL_UNION",
-		1: "SQL_UNION_ALL",
-	}
-	SqlSupportedUnions_value = map[string]int32{
-		"SQL_UNION":     0,
-		"SQL_UNION_ALL": 1,
-	}
-)
-
-func (x SqlSupportedUnions) Enum() *SqlSupportedUnions {
-	p := new(SqlSupportedUnions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedUnions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedUnions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[11].Descriptor()
-}
-
-func (SqlSupportedUnions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[11]
-}
-
-func (x SqlSupportedUnions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedUnions.Descriptor instead.
-func (SqlSupportedUnions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{11}
-}
-
-type SqlTransactionIsolationLevel int32
-
-const (
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_NONE             SqlTransactionIsolationLevel = 0
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_UNCOMMITTED SqlTransactionIsolationLevel = 1
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_COMMITTED   SqlTransactionIsolationLevel = 2
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_REPEATABLE_READ  SqlTransactionIsolationLevel = 3
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_SERIALIZABLE     SqlTransactionIsolationLevel = 4
-)
-
-// Enum value maps for SqlTransactionIsolationLevel.
-var (
-	SqlTransactionIsolationLevel_name = map[int32]string{
-		0: "SQL_TRANSACTION_NONE",
-		1: "SQL_TRANSACTION_READ_UNCOMMITTED",
-		2: "SQL_TRANSACTION_READ_COMMITTED",
-		3: "SQL_TRANSACTION_REPEATABLE_READ",
-		4: "SQL_TRANSACTION_SERIALIZABLE",
-	}
-	SqlTransactionIsolationLevel_value = map[string]int32{
-		"SQL_TRANSACTION_NONE":             0,
-		"SQL_TRANSACTION_READ_UNCOMMITTED": 1,
-		"SQL_TRANSACTION_READ_COMMITTED":   2,
-		"SQL_TRANSACTION_REPEATABLE_READ":  3,
-		"SQL_TRANSACTION_SERIALIZABLE":     4,
-	}
-)
-
-func (x SqlTransactionIsolationLevel) Enum() *SqlTransactionIsolationLevel {
-	p := new(SqlTransactionIsolationLevel)
-	*p = x
-	return p
-}
-
-func (x SqlTransactionIsolationLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlTransactionIsolationLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[12].Descriptor()
-}
-
-func (SqlTransactionIsolationLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[12]
-}
-
-func (x SqlTransactionIsolationLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlTransactionIsolationLevel.Descriptor instead.
-func (SqlTransactionIsolationLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{12}
-}
-
-type SqlSupportedTransactions int32
-
-const (
-	SqlSupportedTransactions_SQL_TRANSACTION_UNSPECIFIED        SqlSupportedTransactions = 0
-	SqlSupportedTransactions_SQL_DATA_DEFINITION_TRANSACTIONS   SqlSupportedTransactions = 1
-	SqlSupportedTransactions_SQL_DATA_MANIPULATION_TRANSACTIONS SqlSupportedTransactions = 2
-)
-
-// Enum value maps for SqlSupportedTransactions.
-var (
-	SqlSupportedTransactions_name = map[int32]string{
-		0: "SQL_TRANSACTION_UNSPECIFIED",
-		1: "SQL_DATA_DEFINITION_TRANSACTIONS",
-		2: "SQL_DATA_MANIPULATION_TRANSACTIONS",
-	}
-	SqlSupportedTransactions_value = map[string]int32{
-		"SQL_TRANSACTION_UNSPECIFIED":        0,
-		"SQL_DATA_DEFINITION_TRANSACTIONS":   1,
-		"SQL_DATA_MANIPULATION_TRANSACTIONS": 2,
-	}
-)
-
-func (x SqlSupportedTransactions) Enum() *SqlSupportedTransactions {
-	p := new(SqlSupportedTransactions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedTransactions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedTransactions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[13].Descriptor()
-}
-
-func (SqlSupportedTransactions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[13]
-}
-
-func (x SqlSupportedTransactions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedTransactions.Descriptor instead.
-func (SqlSupportedTransactions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{13}
-}
-
-type SqlSupportedResultSetType int32
-
-const (
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_UNSPECIFIED        SqlSupportedResultSetType = 0
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_FORWARD_ONLY       SqlSupportedResultSetType = 1
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE SqlSupportedResultSetType = 2
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE   SqlSupportedResultSetType = 3
-)
-
-// Enum value maps for SqlSupportedResultSetType.
-var (
-	SqlSupportedResultSetType_name = map[int32]string{
-		0: "SQL_RESULT_SET_TYPE_UNSPECIFIED",
-		1: "SQL_RESULT_SET_TYPE_FORWARD_ONLY",
-		2: "SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE",
-		3: "SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE",
-	}
-	SqlSupportedResultSetType_value = map[string]int32{
-		"SQL_RESULT_SET_TYPE_UNSPECIFIED":        0,
-		"SQL_RESULT_SET_TYPE_FORWARD_ONLY":       1,
-		"SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE": 2,
-		"SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE":   3,
-	}
-)
-
-func (x SqlSupportedResultSetType) Enum() *SqlSupportedResultSetType {
-	p := new(SqlSupportedResultSetType)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedResultSetType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedResultSetType) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[14].Descriptor()
-}
-
-func (SqlSupportedResultSetType) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[14]
-}
-
-func (x SqlSupportedResultSetType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedResultSetType.Descriptor instead.
-func (SqlSupportedResultSetType) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{14}
-}
-
-type SqlSupportedResultSetConcurrency int32
-
-const (
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED SqlSupportedResultSetConcurrency = 0
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_READ_ONLY   SqlSupportedResultSetConcurrency = 1
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UPDATABLE   SqlSupportedResultSetConcurrency = 2
-)
-
-// Enum value maps for SqlSupportedResultSetConcurrency.
-var (
-	SqlSupportedResultSetConcurrency_name = map[int32]string{
-		0: "SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED",
-		1: "SQL_RESULT_SET_CONCURRENCY_READ_ONLY",
-		2: "SQL_RESULT_SET_CONCURRENCY_UPDATABLE",
-	}
-	SqlSupportedResultSetConcurrency_value = map[string]int32{
-		"SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED": 0,
-		"SQL_RESULT_SET_CONCURRENCY_READ_ONLY":   1,
-		"SQL_RESULT_SET_CONCURRENCY_UPDATABLE":   2,
-	}
-)
-
-func (x SqlSupportedResultSetConcurrency) Enum() *SqlSupportedResultSetConcurrency {
-	p := new(SqlSupportedResultSetConcurrency)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedResultSetConcurrency) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedResultSetConcurrency) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[15].Descriptor()
-}
-
-func (SqlSupportedResultSetConcurrency) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[15]
-}
-
-func (x SqlSupportedResultSetConcurrency) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedResultSetConcurrency.Descriptor instead.
-func (SqlSupportedResultSetConcurrency) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{15}
-}
-
-type SqlSupportsConvert int32
-
-const (
-	SqlSupportsConvert_SQL_CONVERT_BIGINT              SqlSupportsConvert = 0
-	SqlSupportsConvert_SQL_CONVERT_BINARY              SqlSupportsConvert = 1
-	SqlSupportsConvert_SQL_CONVERT_BIT                 SqlSupportsConvert = 2
-	SqlSupportsConvert_SQL_CONVERT_CHAR                SqlSupportsConvert = 3
-	SqlSupportsConvert_SQL_CONVERT_DATE                SqlSupportsConvert = 4
-	SqlSupportsConvert_SQL_CONVERT_DECIMAL             SqlSupportsConvert = 5
-	SqlSupportsConvert_SQL_CONVERT_FLOAT               SqlSupportsConvert = 6
-	SqlSupportsConvert_SQL_CONVERT_INTEGER             SqlSupportsConvert = 7
-	SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME   SqlSupportsConvert = 8
-	SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH SqlSupportsConvert = 9
-	SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY       SqlSupportsConvert = 10
-	SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR         SqlSupportsConvert = 11
-	SqlSupportsConvert_SQL_CONVERT_NUMERIC             SqlSupportsConvert = 12
-	SqlSupportsConvert_SQL_CONVERT_REAL                SqlSupportsConvert = 13
-	SqlSupportsConvert_SQL_CONVERT_SMALLINT            SqlSupportsConvert = 14
-	SqlSupportsConvert_SQL_CONVERT_TIME                SqlSupportsConvert = 15
-	SqlSupportsConvert_SQL_CONVERT_TIMESTAMP           SqlSupportsConvert = 16
-	SqlSupportsConvert_SQL_CONVERT_TINYINT             SqlSupportsConvert = 17
-	SqlSupportsConvert_SQL_CONVERT_VARBINARY           SqlSupportsConvert = 18
-	SqlSupportsConvert_SQL_CONVERT_VARCHAR             SqlSupportsConvert = 19
-)
-
-// Enum value maps for SqlSupportsConvert.
-var (
-	SqlSupportsConvert_name = map[int32]string{
-		0:  "SQL_CONVERT_BIGINT",
-		1:  "SQL_CONVERT_BINARY",
-		2:  "SQL_CONVERT_BIT",
-		3:  "SQL_CONVERT_CHAR",
-		4:  "SQL_CONVERT_DATE",
-		5:  "SQL_CONVERT_DECIMAL",
-		6:  "SQL_CONVERT_FLOAT",
-		7:  "SQL_CONVERT_INTEGER",
-		8:  "SQL_CONVERT_INTERVAL_DAY_TIME",
-		9:  "SQL_CONVERT_INTERVAL_YEAR_MONTH",
-		10: "SQL_CONVERT_LONGVARBINARY",
-		11: "SQL_CONVERT_LONGVARCHAR",
-		12: "SQL_CONVERT_NUMERIC",
-		13: "SQL_CONVERT_REAL",
-		14: "SQL_CONVERT_SMALLINT",
-		15: "SQL_CONVERT_TIME",
-		16: "SQL_CONVERT_TIMESTAMP",
-		17: "SQL_CONVERT_TINYINT",
-		18: "SQL_CONVERT_VARBINARY",
-		19: "SQL_CONVERT_VARCHAR",
-	}
-	SqlSupportsConvert_value = map[string]int32{
-		"SQL_CONVERT_BIGINT":              0,
-		"SQL_CONVERT_BINARY":              1,
-		"SQL_CONVERT_BIT":                 2,
-		"SQL_CONVERT_CHAR":                3,
-		"SQL_CONVERT_DATE":                4,
-		"SQL_CONVERT_DECIMAL":             5,
-		"SQL_CONVERT_FLOAT":               6,
-		"SQL_CONVERT_INTEGER":             7,
-		"SQL_CONVERT_INTERVAL_DAY_TIME":   8,
-		"SQL_CONVERT_INTERVAL_YEAR_MONTH": 9,
-		"SQL_CONVERT_LONGVARBINARY":       10,
-		"SQL_CONVERT_LONGVARCHAR":         11,
-		"SQL_CONVERT_NUMERIC":             12,
-		"SQL_CONVERT_REAL":                13,
-		"SQL_CONVERT_SMALLINT":            14,
-		"SQL_CONVERT_TIME":                15,
-		"SQL_CONVERT_TIMESTAMP":           16,
-		"SQL_CONVERT_TINYINT":             17,
-		"SQL_CONVERT_VARBINARY":           18,
-		"SQL_CONVERT_VARCHAR":             19,
-	}
-)
-
-func (x SqlSupportsConvert) Enum() *SqlSupportsConvert {
-	p := new(SqlSupportsConvert)
-	*p = x
-	return p
-}
-
-func (x SqlSupportsConvert) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportsConvert) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[16].Descriptor()
-}
-
-func (SqlSupportsConvert) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[16]
-}
-
-func (x SqlSupportsConvert) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportsConvert.Descriptor instead.
-func (SqlSupportsConvert) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{16}
-}
-
-// *
-// The JDBC/ODBC-defined type of any object.
-// All the values here are the same as in the JDBC and ODBC specs.
-type XdbcDataType int32
-
-const (
-	XdbcDataType_XDBC_UNKNOWN_TYPE  XdbcDataType = 0
-	XdbcDataType_XDBC_CHAR          XdbcDataType = 1
-	XdbcDataType_XDBC_NUMERIC       XdbcDataType = 2
-	XdbcDataType_XDBC_DECIMAL       XdbcDataType = 3
-	XdbcDataType_XDBC_INTEGER       XdbcDataType = 4
-	XdbcDataType_XDBC_SMALLINT      XdbcDataType = 5
-	XdbcDataType_XDBC_FLOAT         XdbcDataType = 6
-	XdbcDataType_XDBC_REAL          XdbcDataType = 7
-	XdbcDataType_XDBC_DOUBLE        XdbcDataType = 8
-	XdbcDataType_XDBC_DATETIME      XdbcDataType = 9
-	XdbcDataType_XDBC_INTERVAL      XdbcDataType = 10
-	XdbcDataType_XDBC_VARCHAR       XdbcDataType = 12
-	XdbcDataType_XDBC_DATE          XdbcDataType = 91
-	XdbcDataType_XDBC_TIME          XdbcDataType = 92
-	XdbcDataType_XDBC_TIMESTAMP     XdbcDataType = 93
-	XdbcDataType_XDBC_LONGVARCHAR   XdbcDataType = -1
-	XdbcDataType_XDBC_BINARY        XdbcDataType = -2
-	XdbcDataType_XDBC_VARBINARY     XdbcDataType = -3
-	XdbcDataType_XDBC_LONGVARBINARY XdbcDataType = -4
-	XdbcDataType_XDBC_BIGINT        XdbcDataType = -5
-	XdbcDataType_XDBC_TINYINT       XdbcDataType = -6
-	XdbcDataType_XDBC_BIT           XdbcDataType = -7
-	XdbcDataType_XDBC_WCHAR         XdbcDataType = -8
-	XdbcDataType_XDBC_WVARCHAR      XdbcDataType = -9
-)
-
-// Enum value maps for XdbcDataType.
-var (
-	XdbcDataType_name = map[int32]string{
-		0:  "XDBC_UNKNOWN_TYPE",
-		1:  "XDBC_CHAR",
-		2:  "XDBC_NUMERIC",
-		3:  "XDBC_DECIMAL",
-		4:  "XDBC_INTEGER",
-		5:  "XDBC_SMALLINT",
-		6:  "XDBC_FLOAT",
-		7:  "XDBC_REAL",
-		8:  "XDBC_DOUBLE",
-		9:  "XDBC_DATETIME",
-		10: "XDBC_INTERVAL",
-		12: "XDBC_VARCHAR",
-		91: "XDBC_DATE",
-		92: "XDBC_TIME",
-		93: "XDBC_TIMESTAMP",
-		-1: "XDBC_LONGVARCHAR",
-		-2: "XDBC_BINARY",
-		-3: "XDBC_VARBINARY",
-		-4: "XDBC_LONGVARBINARY",
-		-5: "XDBC_BIGINT",
-		-6: "XDBC_TINYINT",
-		-7: "XDBC_BIT",
-		-8: "XDBC_WCHAR",
-		-9: "XDBC_WVARCHAR",
-	}
-	XdbcDataType_value = map[string]int32{
-		"XDBC_UNKNOWN_TYPE":  0,
-		"XDBC_CHAR":          1,
-		"XDBC_NUMERIC":       2,
-		"XDBC_DECIMAL":       3,
-		"XDBC_INTEGER":       4,
-		"XDBC_SMALLINT":      5,
-		"XDBC_FLOAT":         6,
-		"XDBC_REAL":          7,
-		"XDBC_DOUBLE":        8,
-		"XDBC_DATETIME":      9,
-		"XDBC_INTERVAL":      10,
-		"XDBC_VARCHAR":       12,
-		"XDBC_DATE":          91,
-		"XDBC_TIME":          92,
-		"XDBC_TIMESTAMP":     93,
-		"XDBC_LONGVARCHAR":   -1,
-		"XDBC_BINARY":        -2,
-		"XDBC_VARBINARY":     -3,
-		"XDBC_LONGVARBINARY": -4,
-		"XDBC_BIGINT":        -5,
-		"XDBC_TINYINT":       -6,
-		"XDBC_BIT":           -7,
-		"XDBC_WCHAR":         -8,
-		"XDBC_WVARCHAR":      -9,
-	}
-)
-
-func (x XdbcDataType) Enum() *XdbcDataType {
-	p := new(XdbcDataType)
-	*p = x
-	return p
-}
-
-func (x XdbcDataType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (XdbcDataType) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[17].Descriptor()
-}
-
-func (XdbcDataType) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[17]
-}
-
-func (x XdbcDataType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use XdbcDataType.Descriptor instead.
-func (XdbcDataType) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{17}
-}
-
-// *
-// Detailed subtype information for XDBC_TYPE_DATETIME and XDBC_TYPE_INTERVAL.
-type XdbcDatetimeSubcode int32
-
-const (
-	XdbcDatetimeSubcode_XDBC_SUBCODE_UNKNOWN                   XdbcDatetimeSubcode = 0
-	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR                      XdbcDatetimeSubcode = 1
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DATE                      XdbcDatetimeSubcode = 1
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME                      XdbcDatetimeSubcode = 2
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MONTH                     XdbcDatetimeSubcode = 2
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP                 XdbcDatetimeSubcode = 3
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY                       XdbcDatetimeSubcode = 3
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME_WITH_TIMEZONE        XdbcDatetimeSubcode = 4
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR                      XdbcDatetimeSubcode = 4
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE   XdbcDatetimeSubcode = 5
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE                    XdbcDatetimeSubcode = 5
-	XdbcDatetimeSubcode_XDBC_SUBCODE_SECOND                    XdbcDatetimeSubcode = 6
-	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR_TO_MONTH             XdbcDatetimeSubcode = 7
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_HOUR               XdbcDatetimeSubcode = 8
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_MINUTE             XdbcDatetimeSubcode = 9
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_SECOND             XdbcDatetimeSubcode = 10
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_MINUTE            XdbcDatetimeSubcode = 11
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_SECOND            XdbcDatetimeSubcode = 12
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE_TO_SECOND          XdbcDatetimeSubcode = 13
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR             XdbcDatetimeSubcode = 101
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MONTH            XdbcDatetimeSubcode = 102
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY              XdbcDatetimeSubcode = 103
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR             XdbcDatetimeSubcode = 104
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE           XdbcDatetimeSubcode = 105
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_SECOND           XdbcDatetimeSubcode = 106
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH    XdbcDatetimeSubcode = 107
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR      XdbcDatetimeSubcode = 108
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE    XdbcDatetimeSubcode = 109
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND    XdbcDatetimeSubcode = 110
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE   XdbcDatetimeSubcode = 111
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND   XdbcDatetimeSubcode = 112
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND XdbcDatetimeSubcode = 113
-)
-
-// Enum value maps for XdbcDatetimeSubcode.
-var (
-	XdbcDatetimeSubcode_name = map[int32]string{
-		0: "XDBC_SUBCODE_UNKNOWN",
-		1: "XDBC_SUBCODE_YEAR",
-		// Duplicate value: 1: "XDBC_SUBCODE_DATE",
-		2: "XDBC_SUBCODE_TIME",
-		// Duplicate value: 2: "XDBC_SUBCODE_MONTH",
-		3: "XDBC_SUBCODE_TIMESTAMP",
-		// Duplicate value: 3: "XDBC_SUBCODE_DAY",
-		4: "XDBC_SUBCODE_TIME_WITH_TIMEZONE",
-		// Duplicate value: 4: "XDBC_SUBCODE_HOUR",
-		5: "XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE",
-		// Duplicate value: 5: "XDBC_SUBCODE_MINUTE",
-		6:   "XDBC_SUBCODE_SECOND",
-		7:   "XDBC_SUBCODE_YEAR_TO_MONTH",
-		8:   "XDBC_SUBCODE_DAY_TO_HOUR",
-		9:   "XDBC_SUBCODE_DAY_TO_MINUTE",
-		10:  "XDBC_SUBCODE_DAY_TO_SECOND",
-		11:  "XDBC_SUBCODE_HOUR_TO_MINUTE",
-		12:  "XDBC_SUBCODE_HOUR_TO_SECOND",
-		13:  "XDBC_SUBCODE_MINUTE_TO_SECOND",
-		101: "XDBC_SUBCODE_INTERVAL_YEAR",
-		102: "XDBC_SUBCODE_INTERVAL_MONTH",
-		103: "XDBC_SUBCODE_INTERVAL_DAY",
-		104: "XDBC_SUBCODE_INTERVAL_HOUR",
-		105: "XDBC_SUBCODE_INTERVAL_MINUTE",
-		106: "XDBC_SUBCODE_INTERVAL_SECOND",
-		107: "XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH",
-		108: "XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR",
-		109: "XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE",
-		110: "XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND",
-		111: "XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE",
-		112: "XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND",
-		113: "XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND",
-	}
-	XdbcDatetimeSubcode_value = map[string]int32{
-		"XDBC_SUBCODE_UNKNOWN":                   0,
-		"XDBC_SUBCODE_YEAR":                      1,
-		"XDBC_SUBCODE_DATE":                      1,
-		"XDBC_SUBCODE_TIME":                      2,
-		"XDBC_SUBCODE_MONTH":                     2,
-		"XDBC_SUBCODE_TIMESTAMP":                 3,
-		"XDBC_SUBCODE_DAY":                       3,
-		"XDBC_SUBCODE_TIME_WITH_TIMEZONE":        4,
-		"XDBC_SUBCODE_HOUR":                      4,
-		"XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE":   5,
-		"XDBC_SUBCODE_MINUTE":                    5,
-		"XDBC_SUBCODE_SECOND":                    6,
-		"XDBC_SUBCODE_YEAR_TO_MONTH":             7,
-		"XDBC_SUBCODE_DAY_TO_HOUR":               8,
-		"XDBC_SUBCODE_DAY_TO_MINUTE":             9,
-		"XDBC_SUBCODE_DAY_TO_SECOND":             10,
-		"XDBC_SUBCODE_HOUR_TO_MINUTE":            11,
-		"XDBC_SUBCODE_HOUR_TO_SECOND":            12,
-		"XDBC_SUBCODE_MINUTE_TO_SECOND":          13,
-		"XDBC_SUBCODE_INTERVAL_YEAR":             101,
-		"XDBC_SUBCODE_INTERVAL_MONTH":            102,
-		"XDBC_SUBCODE_INTERVAL_DAY":              103,
-		"XDBC_SUBCODE_INTERVAL_HOUR":             104,
-		"XDBC_SUBCODE_INTERVAL_MINUTE":           105,
-		"XDBC_SUBCODE_INTERVAL_SECOND":           106,
-		"XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH":    107,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR":      108,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE":    109,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND":    110,
-		"XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE":   111,
-		"XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND":   112,
-		"XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND": 113,
-	}
-)
-
-func (x XdbcDatetimeSubcode) Enum() *XdbcDatetimeSubcode {
-	p := new(XdbcDatetimeSubcode)
-	*p = x
-	return p
-}
-
-func (x XdbcDatetimeSubcode) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (XdbcDatetimeSubcode) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[18].Descriptor()
-}
-
-func (XdbcDatetimeSubcode) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[18]
-}
-
-func (x XdbcDatetimeSubcode) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use XdbcDatetimeSubcode.Descriptor instead.
-func (XdbcDatetimeSubcode) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{18}
-}
-
-type Nullable int32
-
-const (
-	// *
-	// Indicates that the fields does not allow the use of null values.
-	Nullable_NULLABILITY_NO_NULLS Nullable = 0
-	// *
-	// Indicates that the fields allow the use of null values.
-	Nullable_NULLABILITY_NULLABLE Nullable = 1
-	// *
-	// Indicates that nullability of the fields cannot be determined.
-	Nullable_NULLABILITY_UNKNOWN Nullable = 2
-)
-
-// Enum value maps for Nullable.
-var (
-	Nullable_name = map[int32]string{
-		0: "NULLABILITY_NO_NULLS",
-		1: "NULLABILITY_NULLABLE",
-		2: "NULLABILITY_UNKNOWN",
-	}
-	Nullable_value = map[string]int32{
-		"NULLABILITY_NO_NULLS": 0,
-		"NULLABILITY_NULLABLE": 1,
-		"NULLABILITY_UNKNOWN":  2,
-	}
-)
-
-func (x Nullable) Enum() *Nullable {
-	p := new(Nullable)
-	*p = x
-	return p
-}
-
-func (x Nullable) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (Nullable) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[19].Descriptor()
-}
-
-func (Nullable) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[19]
-}
-
-func (x Nullable) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use Nullable.Descriptor instead.
-func (Nullable) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19}
-}
-
-type Searchable int32
-
-const (
-	// *
-	// Indicates that column cannot be used in a WHERE clause.
-	Searchable_SEARCHABLE_NONE Searchable = 0
-	// *
-	// Indicates that the column can be used in a WHERE clause if it is using a
-	// LIKE operator.
-	Searchable_SEARCHABLE_CHAR Searchable = 1
-	// *
-	// Indicates that the column can be used In a WHERE clause with any
-	// operator other than LIKE.
-	//
-	//   - Allowed operators: comparison, quantified comparison, BETWEEN,
-	//     DISTINCT, IN, MATCH, and UNIQUE.
-	Searchable_SEARCHABLE_BASIC Searchable = 2
-	// *
-	// Indicates that the column can be used in a WHERE clause using any operator.
-	Searchable_SEARCHABLE_FULL Searchable = 3
-)
-
-// Enum value maps for Searchable.
-var (
-	Searchable_name = map[int32]string{
-		0: "SEARCHABLE_NONE",
-		1: "SEARCHABLE_CHAR",
-		2: "SEARCHABLE_BASIC",
-		3: "SEARCHABLE_FULL",
-	}
-	Searchable_value = map[string]int32{
-		"SEARCHABLE_NONE":  0,
-		"SEARCHABLE_CHAR":  1,
-		"SEARCHABLE_BASIC": 2,
-		"SEARCHABLE_FULL":  3,
-	}
-)
-
-func (x Searchable) Enum() *Searchable {
-	p := new(Searchable)
-	*p = x
-	return p
-}
-
-func (x Searchable) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (Searchable) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[20].Descriptor()
-}
-
-func (Searchable) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[20]
-}
-
-func (x Searchable) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use Searchable.Descriptor instead.
-func (Searchable) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20}
-}
-
-type UpdateDeleteRules int32
-
-const (
-	UpdateDeleteRules_CASCADE     UpdateDeleteRules = 0
-	UpdateDeleteRules_RESTRICT    UpdateDeleteRules = 1
-	UpdateDeleteRules_SET_NULL    UpdateDeleteRules = 2
-	UpdateDeleteRules_NO_ACTION   UpdateDeleteRules = 3
-	UpdateDeleteRules_SET_DEFAULT UpdateDeleteRules = 4
-)
-
-// Enum value maps for UpdateDeleteRules.
-var (
-	UpdateDeleteRules_name = map[int32]string{
-		0: "CASCADE",
-		1: "RESTRICT",
-		2: "SET_NULL",
-		3: "NO_ACTION",
-		4: "SET_DEFAULT",
-	}
-	UpdateDeleteRules_value = map[string]int32{
-		"CASCADE":     0,
-		"RESTRICT":    1,
-		"SET_NULL":    2,
-		"NO_ACTION":   3,
-		"SET_DEFAULT": 4,
-	}
-)
-
-func (x UpdateDeleteRules) Enum() *UpdateDeleteRules {
-	p := new(UpdateDeleteRules)
-	*p = x
-	return p
-}
-
-func (x UpdateDeleteRules) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (UpdateDeleteRules) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[21].Descriptor()
-}
-
-func (UpdateDeleteRules) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[21]
-}
-
-func (x UpdateDeleteRules) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use UpdateDeleteRules.Descriptor instead.
-func (UpdateDeleteRules) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{21}
-}
-
-type ActionEndTransactionRequest_EndTransaction int32
-
-const (
-	ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED ActionEndTransactionRequest_EndTransaction = 0
-	// Commit the transaction.
-	ActionEndTransactionRequest_END_TRANSACTION_COMMIT ActionEndTransactionRequest_EndTransaction = 1
-	// Roll back the transaction.
-	ActionEndTransactionRequest_END_TRANSACTION_ROLLBACK ActionEndTransactionRequest_EndTransaction = 2
-)
-
-// Enum value maps for ActionEndTransactionRequest_EndTransaction.
-var (
-	ActionEndTransactionRequest_EndTransaction_name = map[int32]string{
-		0: "END_TRANSACTION_UNSPECIFIED",
-		1: "END_TRANSACTION_COMMIT",
-		2: "END_TRANSACTION_ROLLBACK",
-	}
-	ActionEndTransactionRequest_EndTransaction_value = map[string]int32{
-		"END_TRANSACTION_UNSPECIFIED": 0,
-		"END_TRANSACTION_COMMIT":      1,
-		"END_TRANSACTION_ROLLBACK":    2,
-	}
-)
-
-func (x ActionEndTransactionRequest_EndTransaction) Enum() *ActionEndTransactionRequest_EndTransaction {
-	p := new(ActionEndTransactionRequest_EndTransaction)
-	*p = x
-	return p
-}
-
-func (x ActionEndTransactionRequest_EndTransaction) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionEndTransactionRequest_EndTransaction) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[22].Descriptor()
-}
-
-func (ActionEndTransactionRequest_EndTransaction) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[22]
-}
-
-func (x ActionEndTransactionRequest_EndTransaction) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionEndTransactionRequest_EndTransaction.Descriptor instead.
-func (ActionEndTransactionRequest_EndTransaction) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19, 0}
-}
-
-type ActionEndSavepointRequest_EndSavepoint int32
-
-const (
-	ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED ActionEndSavepointRequest_EndSavepoint = 0
-	// Release the savepoint.
-	ActionEndSavepointRequest_END_SAVEPOINT_RELEASE ActionEndSavepointRequest_EndSavepoint = 1
-	// Roll back to a savepoint.
-	ActionEndSavepointRequest_END_SAVEPOINT_ROLLBACK ActionEndSavepointRequest_EndSavepoint = 2
-)
-
-// Enum value maps for ActionEndSavepointRequest_EndSavepoint.
-var (
-	ActionEndSavepointRequest_EndSavepoint_name = map[int32]string{
-		0: "END_SAVEPOINT_UNSPECIFIED",
-		1: "END_SAVEPOINT_RELEASE",
-		2: "END_SAVEPOINT_ROLLBACK",
-	}
-	ActionEndSavepointRequest_EndSavepoint_value = map[string]int32{
-		"END_SAVEPOINT_UNSPECIFIED": 0,
-		"END_SAVEPOINT_RELEASE":     1,
-		"END_SAVEPOINT_ROLLBACK":    2,
-	}
-)
-
-func (x ActionEndSavepointRequest_EndSavepoint) Enum() *ActionEndSavepointRequest_EndSavepoint {
-	p := new(ActionEndSavepointRequest_EndSavepoint)
-	*p = x
-	return p
-}
-
-func (x ActionEndSavepointRequest_EndSavepoint) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionEndSavepointRequest_EndSavepoint) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[23].Descriptor()
-}
-
-func (ActionEndSavepointRequest_EndSavepoint) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[23]
-}
-
-func (x ActionEndSavepointRequest_EndSavepoint) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionEndSavepointRequest_EndSavepoint.Descriptor instead.
-func (ActionEndSavepointRequest_EndSavepoint) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20, 0}
-}
-
-// The action to take if the target table does not exist
-type CommandStatementIngest_TableDefinitionOptions_TableNotExistOption int32
-
-const (
-	// Do not use. Servers should error if this is specified by a client.
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 0
-	// Create the table if it does not exist
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_CREATE CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 1
-	// Fail if the table does not exist
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_FAIL CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 2
-)
-
-// Enum value maps for CommandStatementIngest_TableDefinitionOptions_TableNotExistOption.
-var (
-	CommandStatementIngest_TableDefinitionOptions_TableNotExistOption_name = map[int32]string{
-		0: "TABLE_NOT_EXIST_OPTION_UNSPECIFIED",
-		1: "TABLE_NOT_EXIST_OPTION_CREATE",
-		2: "TABLE_NOT_EXIST_OPTION_FAIL",
-	}
-	CommandStatementIngest_TableDefinitionOptions_TableNotExistOption_value = map[string]int32{
-		"TABLE_NOT_EXIST_OPTION_UNSPECIFIED": 0,
-		"TABLE_NOT_EXIST_OPTION_CREATE":      1,
-		"TABLE_NOT_EXIST_OPTION_FAIL":        2,
-	}
-)
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Enum() *CommandStatementIngest_TableDefinitionOptions_TableNotExistOption {
-	p := new(CommandStatementIngest_TableDefinitionOptions_TableNotExistOption)
-	*p = x
-	return p
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[24].Descriptor()
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[24]
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions_TableNotExistOption.Descriptor instead.
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0, 0}
-}
-
-// The action to take if the target table already exists
-type CommandStatementIngest_TableDefinitionOptions_TableExistsOption int32
-
-const (
-	// Do not use. Servers should error if this is specified by a client.
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 0
-	// Fail if the table already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_FAIL CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 1
-	// Append to the table if it already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_APPEND CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 2
-	// Drop and recreate the table if it already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_REPLACE CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 3
-)
-
-// Enum value maps for CommandStatementIngest_TableDefinitionOptions_TableExistsOption.
-var (
-	CommandStatementIngest_TableDefinitionOptions_TableExistsOption_name = map[int32]string{
-		0: "TABLE_EXISTS_OPTION_UNSPECIFIED",
-		1: "TABLE_EXISTS_OPTION_FAIL",
-		2: "TABLE_EXISTS_OPTION_APPEND",
-		3: "TABLE_EXISTS_OPTION_REPLACE",
-	}
-	CommandStatementIngest_TableDefinitionOptions_TableExistsOption_value = map[string]int32{
-		"TABLE_EXISTS_OPTION_UNSPECIFIED": 0,
-		"TABLE_EXISTS_OPTION_FAIL":        1,
-		"TABLE_EXISTS_OPTION_APPEND":      2,
-		"TABLE_EXISTS_OPTION_REPLACE":     3,
-	}
-)
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Enum() *CommandStatementIngest_TableDefinitionOptions_TableExistsOption {
-	p := new(CommandStatementIngest_TableDefinitionOptions_TableExistsOption)
-	*p = x
-	return p
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[25].Descriptor()
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[25]
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions_TableExistsOption.Descriptor instead.
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0, 1}
-}
-
-type ActionCancelQueryResult_CancelResult int32
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED ActionCancelQueryResult_CancelResult = 0
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	ActionCancelQueryResult_CANCEL_RESULT_CANCELLED ActionCancelQueryResult_CancelResult = 1
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	ActionCancelQueryResult_CANCEL_RESULT_CANCELLING ActionCancelQueryResult_CancelResult = 2
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	ActionCancelQueryResult_CANCEL_RESULT_NOT_CANCELLABLE ActionCancelQueryResult_CancelResult = 3
-)
-
-// Enum value maps for ActionCancelQueryResult_CancelResult.
-var (
-	ActionCancelQueryResult_CancelResult_name = map[int32]string{
-		0: "CANCEL_RESULT_UNSPECIFIED",
-		1: "CANCEL_RESULT_CANCELLED",
-		2: "CANCEL_RESULT_CANCELLING",
-		3: "CANCEL_RESULT_NOT_CANCELLABLE",
-	}
-	ActionCancelQueryResult_CancelResult_value = map[string]int32{
-		"CANCEL_RESULT_UNSPECIFIED":     0,
-		"CANCEL_RESULT_CANCELLED":       1,
-		"CANCEL_RESULT_CANCELLING":      2,
-		"CANCEL_RESULT_NOT_CANCELLABLE": 3,
-	}
-)
-
-func (x ActionCancelQueryResult_CancelResult) Enum() *ActionCancelQueryResult_CancelResult {
-	p := new(ActionCancelQueryResult_CancelResult)
-	*p = x
-	return p
-}
-
-func (x ActionCancelQueryResult_CancelResult) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionCancelQueryResult_CancelResult) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[26].Descriptor()
-}
-
-func (ActionCancelQueryResult_CancelResult) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[26]
-}
-
-func (x ActionCancelQueryResult_CancelResult) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionCancelQueryResult_CancelResult.Descriptor instead.
-func (ActionCancelQueryResult_CancelResult) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{31, 0}
-}
-
-// Represents a metadata request. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	info_name: uint32 not null,
-//	value: dense_union<
-//	            string_value: utf8,
-//	            bool_value: bool,
-//	            bigint_value: int64,
-//	            int32_bitmask: int32,
-//	            string_list: list<string_data: utf8>
-//	            int32_to_int32_list_map: map<key: int32, value: list<$data$: int32>>
-//
-// >
-// where there is one row per requested piece of metadata information.
-type CommandGetSqlInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Values are modelled after ODBC's SQLGetInfo() function. This information is intended to provide
-	// Flight SQL clients with basic, SQL syntax and SQL functions related information.
-	// More information types can be added in future releases.
-	// E.g. more SQL syntax support types, scalar functions support, type conversion support etc.
-	//
-	// Note that the set of metadata may expand.
-	//
-	// Initially, Flight SQL will support the following information types:
-	// - Server Information - Range [0-500)
-	// - Syntax Information - Range [500-1000)
-	// Range [0-10,000) is reserved for defaults (see SqlInfo enum for default options).
-	// Custom options should start at 10,000.
-	//
-	// If omitted, then all metadata will be retrieved.
-	// Flight SQL Servers may choose to include additional metadata above and beyond the specified set, however they must
-	// at least return the specified set. IDs ranging from 0 to 10,000 (exclusive) are reserved for future use.
-	// If additional metadata is included, the metadata IDs should start from 10,000.
-	Info []uint32 `protobuf:"varint,1,rep,packed,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *CommandGetSqlInfo) Reset() {
-	*x = CommandGetSqlInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetSqlInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetSqlInfo) ProtoMessage() {}
-
-func (x *CommandGetSqlInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetSqlInfo.ProtoReflect.Descriptor instead.
-func (*CommandGetSqlInfo) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *CommandGetSqlInfo) GetInfo() []uint32 {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// Represents a request to retrieve information about data type supported on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned schema will be:
-// <
-//
-//	type_name: utf8 not null (The name of the data type, for example: VARCHAR, INTEGER, etc),
-//	data_type: int32 not null (The SQL data type),
-//	column_size: int32 (The maximum size supported by that column.
-//	                    In case of exact numeric types, this represents the maximum precision.
-//	                    In case of string types, this represents the character length.
-//	                    In case of datetime data types, this represents the length in characters of the string representation.
-//	                    NULL is returned for data types where column size is not applicable.),
-//	literal_prefix: utf8 (Character or characters used to prefix a literal, NULL is returned for
-//	                      data types where a literal prefix is not applicable.),
-//	literal_suffix: utf8 (Character or characters used to terminate a literal,
-//	                      NULL is returned for data types where a literal suffix is not applicable.),
-//	create_params: list<utf8 not null>
-//	                     (A list of keywords corresponding to which parameters can be used when creating
-//	                      a column for that specific type.
-//	                      NULL is returned if there are no parameters for the data type definition.),
-//	nullable: int32 not null (Shows if the data type accepts a NULL value. The possible values can be seen in the
-//	                          Nullable enum.),
-//	case_sensitive: bool not null (Shows if a character data type is case-sensitive in collations and comparisons),
-//	searchable: int32 not null (Shows how the data type is used in a WHERE clause. The possible values can be seen in the
-//	                            Searchable enum.),
-//	unsigned_attribute: bool (Shows if the data type is unsigned. NULL is returned if the attribute is
-//	                          not applicable to the data type or the data type is not numeric.),
-//	fixed_prec_scale: bool not null (Shows if the data type has predefined fixed precision and scale.),
-//	auto_increment: bool (Shows if the data type is auto incremental. NULL is returned if the attribute
-//	                      is not applicable to the data type or the data type is not numeric.),
-//	local_type_name: utf8 (Localized version of the data source-dependent name of the data type. NULL
-//	                       is returned if a localized name is not supported by the data source),
-//	minimum_scale: int32 (The minimum scale of the data type on the data source.
-//	                      If a data type has a fixed scale, the MINIMUM_SCALE and MAXIMUM_SCALE
-//	                      columns both contain this value. NULL is returned if scale is not applicable.),
-//	maximum_scale: int32 (The maximum scale of the data type on the data source.
-//	                      NULL is returned if scale is not applicable.),
-//	sql_data_type: int32 not null (The value of the SQL DATA TYPE which has the same values
-//	                               as data_type value. Except for interval and datetime, which
-//	                               uses generic values. More info about those types can be
-//	                               obtained through datetime_subcode. The possible values can be seen
-//	                               in the XdbcDataType enum.),
-//	datetime_subcode: int32 (Only used when the SQL DATA TYPE is interval or datetime. It contains
-//	                         its sub types. For type different from interval and datetime, this value
-//	                         is NULL. The possible values can be seen in the XdbcDatetimeSubcode enum.),
-//	num_prec_radix: int32 (If the data type is an approximate numeric type, this column contains
-//	                       the value 2 to indicate that COLUMN_SIZE specifies a number of bits. For
-//	                       exact numeric types, this column contains the value 10 to indicate that
-//	                       column size specifies a number of decimal digits. Otherwise, this column is NULL.),
-//	interval_precision: int32 (If the data type is an interval data type, then this column contains the value
-//	                           of the interval leading precision. Otherwise, this column is NULL. This fields
-//	                           is only relevant to be used by ODBC).
-//
-// >
-// The returned data should be ordered by data_type and then by type_name.
-type CommandGetXdbcTypeInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the data type to search for the info.
-	DataType *int32 `protobuf:"varint,1,opt,name=data_type,json=dataType,proto3,oneof" json:"data_type,omitempty"`
-}
-
-func (x *CommandGetXdbcTypeInfo) Reset() {
-	*x = CommandGetXdbcTypeInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetXdbcTypeInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetXdbcTypeInfo) ProtoMessage() {}
-
-func (x *CommandGetXdbcTypeInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetXdbcTypeInfo.ProtoReflect.Descriptor instead.
-func (*CommandGetXdbcTypeInfo) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *CommandGetXdbcTypeInfo) GetDataType() int32 {
-	if x != nil && x.DataType != nil {
-		return *x.DataType
-	}
-	return 0
-}
-
-// Represents a request to retrieve the list of catalogs on a Flight SQL enabled backend.
-// The definition of a catalog depends on vendor/implementation. It is usually the database itself
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8 not null
-//
-// >
-// The returned data should be ordered by catalog_name.
-type CommandGetCatalogs struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CommandGetCatalogs) Reset() {
-	*x = CommandGetCatalogs{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetCatalogs) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetCatalogs) ProtoMessage() {}
-
-func (x *CommandGetCatalogs) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetCatalogs.ProtoReflect.Descriptor instead.
-func (*CommandGetCatalogs) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{2}
-}
-
-// Represents a request to retrieve the list of database schemas on a Flight SQL enabled backend.
-// The definition of a database schema depends on vendor/implementation. It is usually a collection of tables.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8 not null
-//
-// >
-// The returned data should be ordered by catalog_name, then db_schema_name.
-type CommandGetDbSchemas struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the Catalog to search for the tables.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies a filter pattern for schemas to search for.
-	// When no db_schema_filter_pattern is provided, the pattern will not be used to narrow the search.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
-}
-
-func (x *CommandGetDbSchemas) Reset() {
-	*x = CommandGetDbSchemas{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetDbSchemas) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetDbSchemas) ProtoMessage() {}
-
-func (x *CommandGetDbSchemas) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetDbSchemas.ProtoReflect.Descriptor instead.
-func (*CommandGetDbSchemas) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{3}
-}
-
-func (x *CommandGetDbSchemas) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetDbSchemas) GetDbSchemaFilterPattern() string {
-	if x != nil && x.DbSchemaFilterPattern != nil {
-		return *x.DbSchemaFilterPattern
-	}
-	return ""
-}
-
-// Represents a request to retrieve the list of tables, and optionally their schemas, on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8,
-//	table_name: utf8 not null,
-//	table_type: utf8 not null,
-//	[optional] table_schema: bytes not null (schema of the table as described in Schema.fbs::Schema,
-//	                                         it is serialized as an IPC message.)
-//
-// >
-// Fields on table_schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//
-// The returned data should be ordered by catalog_name, db_schema_name, table_name, then table_type, followed by table_schema if requested.
-type CommandGetTables struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the Catalog to search for the tables.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies a filter pattern for schemas to search for.
-	// When no db_schema_filter_pattern is provided, all schemas matching other filters are searched.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
-	// Specifies a filter pattern for tables to search for.
-	// When no table_name_filter_pattern is provided, all tables matching other filters are searched.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	TableNameFilterPattern *string `protobuf:"bytes,3,opt,name=table_name_filter_pattern,json=tableNameFilterPattern,proto3,oneof" json:"table_name_filter_pattern,omitempty"`
-	// Specifies a filter of table types which must match.
-	// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
-	// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
-	TableTypes []string `protobuf:"bytes,4,rep,name=table_types,json=tableTypes,proto3" json:"table_types,omitempty"`
-	// Specifies if the Arrow schema should be returned for found tables.
-	IncludeSchema bool `protobuf:"varint,5,opt,name=include_schema,json=includeSchema,proto3" json:"include_schema,omitempty"`
-}
-
-func (x *CommandGetTables) Reset() {
-	*x = CommandGetTables{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetTables) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetTables) ProtoMessage() {}
-
-func (x *CommandGetTables) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetTables.ProtoReflect.Descriptor instead.
-func (*CommandGetTables) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *CommandGetTables) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetDbSchemaFilterPattern() string {
-	if x != nil && x.DbSchemaFilterPattern != nil {
-		return *x.DbSchemaFilterPattern
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetTableNameFilterPattern() string {
-	if x != nil && x.TableNameFilterPattern != nil {
-		return *x.TableNameFilterPattern
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetTableTypes() []string {
-	if x != nil {
-		return x.TableTypes
-	}
-	return nil
-}
-
-func (x *CommandGetTables) GetIncludeSchema() bool {
-	if x != nil {
-		return x.IncludeSchema
-	}
-	return false
-}
-
-// Represents a request to retrieve the list of table types on a Flight SQL enabled backend.
-// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
-// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	table_type: utf8 not null
-//
-// >
-// The returned data should be ordered by table_type.
-type CommandGetTableTypes struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CommandGetTableTypes) Reset() {
-	*x = CommandGetTableTypes{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetTableTypes) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetTableTypes) ProtoMessage() {}
-
-func (x *CommandGetTableTypes) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetTableTypes.ProtoReflect.Descriptor instead.
-func (*CommandGetTableTypes) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{5}
-}
-
-// Represents a request to retrieve the primary keys of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8,
-//	table_name: utf8 not null,
-//	column_name: utf8 not null,
-//	key_name: utf8,
-//	key_sequence: int32 not null
-//
-// >
-// The returned data should be ordered by catalog_name, db_schema_name, table_name, key_name, then key_sequence.
-type CommandGetPrimaryKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the table to get the primary keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetPrimaryKeys) Reset() {
-	*x = CommandGetPrimaryKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[6]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetPrimaryKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetPrimaryKeys) ProtoMessage() {}
-
-func (x *CommandGetPrimaryKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[6]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetPrimaryKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetPrimaryKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{6}
-}
-
-func (x *CommandGetPrimaryKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetPrimaryKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetPrimaryKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve a description of the foreign key columns that reference the given table's
-// primary key columns (the foreign keys exported by a table) of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by fk_catalog_name, fk_db_schema_name, fk_table_name, fk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions declared on UpdateDeleteRules enum.
-type CommandGetExportedKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the foreign key table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the foreign key table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the foreign key table to get the foreign keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetExportedKeys) Reset() {
-	*x = CommandGetExportedKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[7]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetExportedKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetExportedKeys) ProtoMessage() {}
-
-func (x *CommandGetExportedKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[7]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetExportedKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetExportedKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{7}
-}
-
-func (x *CommandGetExportedKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetExportedKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetExportedKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve the foreign keys of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions:
-//   - 0 = CASCADE
-//   - 1 = RESTRICT
-//   - 2 = SET NULL
-//   - 3 = NO ACTION
-//   - 4 = SET DEFAULT
-type CommandGetImportedKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the primary key table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the primary key table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the primary key table to get the foreign keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetImportedKeys) Reset() {
-	*x = CommandGetImportedKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[8]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetImportedKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetImportedKeys) ProtoMessage() {}
-
-func (x *CommandGetImportedKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[8]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetImportedKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetImportedKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{8}
-}
-
-func (x *CommandGetImportedKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetImportedKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetImportedKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve a description of the foreign key columns in the given foreign key table that
-// reference the primary key or the columns representing a unique constraint of the parent table (could be the same
-// or a different table) on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions:
-//   - 0 = CASCADE
-//   - 1 = RESTRICT
-//   - 2 = SET NULL
-//   - 3 = NO ACTION
-//   - 4 = SET DEFAULT
-type CommandGetCrossReference struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// *
-	// The catalog name where the parent table is.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	PkCatalog *string `protobuf:"bytes,1,opt,name=pk_catalog,json=pkCatalog,proto3,oneof" json:"pk_catalog,omitempty"`
-	// *
-	// The Schema name where the parent table is.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	PkDbSchema *string `protobuf:"bytes,2,opt,name=pk_db_schema,json=pkDbSchema,proto3,oneof" json:"pk_db_schema,omitempty"`
-	// *
-	// The parent table name. It cannot be null.
-	PkTable string `protobuf:"bytes,3,opt,name=pk_table,json=pkTable,proto3" json:"pk_table,omitempty"`
-	// *
-	// The catalog name where the foreign table is.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	FkCatalog *string `protobuf:"bytes,4,opt,name=fk_catalog,json=fkCatalog,proto3,oneof" json:"fk_catalog,omitempty"`
-	// *
-	// The schema name where the foreign table is.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	FkDbSchema *string `protobuf:"bytes,5,opt,name=fk_db_schema,json=fkDbSchema,proto3,oneof" json:"fk_db_schema,omitempty"`
-	// *
-	// The foreign table name. It cannot be null.
-	FkTable string `protobuf:"bytes,6,opt,name=fk_table,json=fkTable,proto3" json:"fk_table,omitempty"`
-}
-
-func (x *CommandGetCrossReference) Reset() {
-	*x = CommandGetCrossReference{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[9]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetCrossReference) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetCrossReference) ProtoMessage() {}
-
-func (x *CommandGetCrossReference) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[9]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetCrossReference.ProtoReflect.Descriptor instead.
-func (*CommandGetCrossReference) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{9}
-}
-
-func (x *CommandGetCrossReference) GetPkCatalog() string {
-	if x != nil && x.PkCatalog != nil {
-		return *x.PkCatalog
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetPkDbSchema() string {
-	if x != nil && x.PkDbSchema != nil {
-		return *x.PkDbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetPkTable() string {
-	if x != nil {
-		return x.PkTable
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkCatalog() string {
-	if x != nil && x.FkCatalog != nil {
-		return *x.FkCatalog
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkDbSchema() string {
-	if x != nil && x.FkDbSchema != nil {
-		return *x.FkDbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkTable() string {
-	if x != nil {
-		return x.FkTable
-	}
-	return ""
-}
-
-// Request message for the "CreatePreparedStatement" action on a Flight SQL enabled backend.
-type ActionCreatePreparedStatementRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The valid SQL string to create a prepared statement for.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Create/execute the prepared statement as part of this transaction (if
-	// unset, executions of the prepared statement will be auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionCreatePreparedStatementRequest) Reset() {
-	*x = ActionCreatePreparedStatementRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[10]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedStatementRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedStatementRequest) ProtoMessage() {}
-
-func (x *ActionCreatePreparedStatementRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[10]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedStatementRequest.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedStatementRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{10}
-}
-
-func (x *ActionCreatePreparedStatementRequest) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *ActionCreatePreparedStatementRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// An embedded message describing a Substrait plan to execute.
-type SubstraitPlan struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The serialized substrait.Plan to create a prepared statement for.
-	// XXX(ARROW-16902): this is bytes instead of an embedded message
-	// because Protobuf does not really support one DLL using Protobuf
-	// definitions from another DLL.
-	Plan []byte `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// The Substrait release, e.g. "0.12.0". This information is not
-	// tracked in the plan itself, so this is the only way for consumers
-	// to potentially know if they can handle the plan.
-	Version string `protobuf:"bytes,2,opt,name=version,proto3" json:"version,omitempty"`
-}
-
-func (x *SubstraitPlan) Reset() {
-	*x = SubstraitPlan{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[11]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SubstraitPlan) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SubstraitPlan) ProtoMessage() {}
-
-func (x *SubstraitPlan) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[11]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SubstraitPlan.ProtoReflect.Descriptor instead.
-func (*SubstraitPlan) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{11}
-}
-
-func (x *SubstraitPlan) GetPlan() []byte {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *SubstraitPlan) GetVersion() string {
-	if x != nil {
-		return x.Version
-	}
-	return ""
-}
-
-// Request message for the "CreatePreparedSubstraitPlan" action on a Flight SQL enabled backend.
-type ActionCreatePreparedSubstraitPlanRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The serialized substrait.Plan to create a prepared statement for.
-	Plan *SubstraitPlan `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// Create/execute the prepared statement as part of this transaction (if
-	// unset, executions of the prepared statement will be auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) Reset() {
-	*x = ActionCreatePreparedSubstraitPlanRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[12]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedSubstraitPlanRequest) ProtoMessage() {}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[12]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedSubstraitPlanRequest.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedSubstraitPlanRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{12}
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) GetPlan() *SubstraitPlan {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Wrap the result of a "CreatePreparedStatement" or "CreatePreparedSubstraitPlan" action.
-//
-// The resultant PreparedStatement can be closed either:
-// - Manually, through the "ClosePreparedStatement" action;
-// - Automatically, by a server timeout.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionCreatePreparedStatementResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-	// If a result set generating query was provided, dataset_schema contains the
-	// schema of the result set.  It should be an IPC-encapsulated Schema, as described in Schema.fbs.
-	// For some queries, the schema of the results may depend on the schema of the parameters.  The server
-	// should provide its best guess as to the schema at this point.  Clients must not assume that this
-	// schema, if provided, will be accurate.
-	DatasetSchema []byte `protobuf:"bytes,2,opt,name=dataset_schema,json=datasetSchema,proto3" json:"dataset_schema,omitempty"`
-	// If the query provided contained parameters, parameter_schema contains the
-	// schema of the expected parameters.  It should be an IPC-encapsulated Schema, as described in Schema.fbs.
-	ParameterSchema []byte `protobuf:"bytes,3,opt,name=parameter_schema,json=parameterSchema,proto3" json:"parameter_schema,omitempty"`
-}
-
-func (x *ActionCreatePreparedStatementResult) Reset() {
-	*x = ActionCreatePreparedStatementResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[13]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedStatementResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedStatementResult) ProtoMessage() {}
-
-func (x *ActionCreatePreparedStatementResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[13]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedStatementResult.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedStatementResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{13}
-}
-
-func (x *ActionCreatePreparedStatementResult) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedStatementResult) GetDatasetSchema() []byte {
-	if x != nil {
-		return x.DatasetSchema
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedStatementResult) GetParameterSchema() []byte {
-	if x != nil {
-		return x.ParameterSchema
-	}
-	return nil
-}
-
-// Request message for the "ClosePreparedStatement" action on a Flight SQL enabled backend.
-// Closes server resources associated with the prepared statement handle.
-type ActionClosePreparedStatementRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *ActionClosePreparedStatementRequest) Reset() {
-	*x = ActionClosePreparedStatementRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[14]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionClosePreparedStatementRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionClosePreparedStatementRequest) ProtoMessage() {}
-
-func (x *ActionClosePreparedStatementRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[14]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionClosePreparedStatementRequest.ProtoReflect.Descriptor instead.
-func (*ActionClosePreparedStatementRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{14}
-}
-
-func (x *ActionClosePreparedStatementRequest) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Request message for the "BeginTransaction" action.
-// Begins a transaction.
-type ActionBeginTransactionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *ActionBeginTransactionRequest) Reset() {
-	*x = ActionBeginTransactionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[15]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginTransactionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginTransactionRequest) ProtoMessage() {}
-
-func (x *ActionBeginTransactionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[15]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginTransactionRequest.ProtoReflect.Descriptor instead.
-func (*ActionBeginTransactionRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{15}
-}
-
-// Request message for the "BeginSavepoint" action.
-// Creates a savepoint within a transaction.
-//
-// Only supported if FLIGHT_SQL_TRANSACTION is
-// FLIGHT_SQL_TRANSACTION_SUPPORT_SAVEPOINT.
-type ActionBeginSavepointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The transaction to which a savepoint belongs.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-	// Name for the savepoint.
-	Name string `protobuf:"bytes,2,opt,name=name,proto3" json:"name,omitempty"`
-}
-
-func (x *ActionBeginSavepointRequest) Reset() {
-	*x = ActionBeginSavepointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[16]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginSavepointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginSavepointRequest) ProtoMessage() {}
-
-func (x *ActionBeginSavepointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[16]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginSavepointRequest.ProtoReflect.Descriptor instead.
-func (*ActionBeginSavepointRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{16}
-}
-
-func (x *ActionBeginSavepointRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *ActionBeginSavepointRequest) GetName() string {
-	if x != nil {
-		return x.Name
-	}
-	return ""
-}
-
-// The result of a "BeginTransaction" action.
-//
-// The transaction can be manipulated with the "EndTransaction" action, or
-// automatically via server timeout. If the transaction times out, then it is
-// automatically rolled back.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionBeginTransactionResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the transaction on the server.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionBeginTransactionResult) Reset() {
-	*x = ActionBeginTransactionResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[17]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginTransactionResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginTransactionResult) ProtoMessage() {}
-
-func (x *ActionBeginTransactionResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[17]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginTransactionResult.ProtoReflect.Descriptor instead.
-func (*ActionBeginTransactionResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{17}
-}
-
-func (x *ActionBeginTransactionResult) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// The result of a "BeginSavepoint" action.
-//
-// The transaction can be manipulated with the "EndSavepoint" action.
-// If the associated transaction is committed, rolled back, or times
-// out, then the savepoint is also invalidated.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionBeginSavepointResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the savepoint on the server.
-	SavepointId []byte `protobuf:"bytes,1,opt,name=savepoint_id,json=savepointId,proto3" json:"savepoint_id,omitempty"`
-}
-
-func (x *ActionBeginSavepointResult) Reset() {
-	*x = ActionBeginSavepointResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[18]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginSavepointResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginSavepointResult) ProtoMessage() {}
-
-func (x *ActionBeginSavepointResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[18]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginSavepointResult.ProtoReflect.Descriptor instead.
-func (*ActionBeginSavepointResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{18}
-}
-
-func (x *ActionBeginSavepointResult) GetSavepointId() []byte {
-	if x != nil {
-		return x.SavepointId
-	}
-	return nil
-}
-
-// Request message for the "EndTransaction" action.
-//
-// Commit (COMMIT) or rollback (ROLLBACK) the transaction.
-//
-// If the action completes successfully, the transaction handle is
-// invalidated, as are all associated savepoints.
-type ActionEndTransactionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the transaction on the server.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-	// Whether to commit/rollback the given transaction.
-	Action ActionEndTransactionRequest_EndTransaction `protobuf:"varint,2,opt,name=action,proto3,enum=arrow.flight.protocol.sql.ActionEndTransactionRequest_EndTransaction" json:"action,omitempty"`
-}
-
-func (x *ActionEndTransactionRequest) Reset() {
-	*x = ActionEndTransactionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[19]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionEndTransactionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionEndTransactionRequest) ProtoMessage() {}
-
-func (x *ActionEndTransactionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[19]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionEndTransactionRequest.ProtoReflect.Descriptor instead.
-func (*ActionEndTransactionRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19}
-}
-
-func (x *ActionEndTransactionRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *ActionEndTransactionRequest) GetAction() ActionEndTransactionRequest_EndTransaction {
-	if x != nil {
-		return x.Action
-	}
-	return ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED
-}
-
-// Request message for the "EndSavepoint" action.
-//
-// Release (RELEASE) the savepoint or rollback (ROLLBACK) to the
-// savepoint.
-//
-// Releasing a savepoint invalidates that savepoint.  Rolling back to
-// a savepoint does not invalidate the savepoint, but invalidates all
-// savepoints created after the current savepoint.
-type ActionEndSavepointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the savepoint on the server.
-	SavepointId []byte `protobuf:"bytes,1,opt,name=savepoint_id,json=savepointId,proto3" json:"savepoint_id,omitempty"`
-	// Whether to rollback/release the given savepoint.
-	Action ActionEndSavepointRequest_EndSavepoint `protobuf:"varint,2,opt,name=action,proto3,enum=arrow.flight.protocol.sql.ActionEndSavepointRequest_EndSavepoint" json:"action,omitempty"`
-}
-
-func (x *ActionEndSavepointRequest) Reset() {
-	*x = ActionEndSavepointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[20]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionEndSavepointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionEndSavepointRequest) ProtoMessage() {}
-
-func (x *ActionEndSavepointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[20]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionEndSavepointRequest.ProtoReflect.Descriptor instead.
-func (*ActionEndSavepointRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20}
-}
-
-func (x *ActionEndSavepointRequest) GetSavepointId() []byte {
-	if x != nil {
-		return x.SavepointId
-	}
-	return nil
-}
-
-func (x *ActionEndSavepointRequest) GetAction() ActionEndSavepointRequest_EndSavepoint {
-	if x != nil {
-		return x.Action
-	}
-	return ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED
-}
-
-// Represents a SQL query. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//   - GetFlightInfo: execute the query.
-type CommandStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The SQL syntax.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementQuery) Reset() {
-	*x = CommandStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[21]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementQuery) ProtoMessage() {}
-
-func (x *CommandStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[21]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementQuery.ProtoReflect.Descriptor instead.
-func (*CommandStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{21}
-}
-
-func (x *CommandStatementQuery) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *CommandStatementQuery) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Represents a Substrait plan. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//   - GetFlightInfo: execute the query.
-//   - DoPut: execute the query.
-type CommandStatementSubstraitPlan struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A serialized substrait.Plan
-	Plan *SubstraitPlan `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementSubstraitPlan) Reset() {
-	*x = CommandStatementSubstraitPlan{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[22]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementSubstraitPlan) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementSubstraitPlan) ProtoMessage() {}
-
-func (x *CommandStatementSubstraitPlan) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[22]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementSubstraitPlan.ProtoReflect.Descriptor instead.
-func (*CommandStatementSubstraitPlan) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{22}
-}
-
-func (x *CommandStatementSubstraitPlan) GetPlan() *SubstraitPlan {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *CommandStatementSubstraitPlan) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// *
-// Represents a ticket resulting from GetFlightInfo with a CommandStatementQuery.
-// This should be used only once and treated as an opaque value, that is, clients should not attempt to parse this.
-type TicketStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Unique identifier for the instance of the statement to execute.
-	StatementHandle []byte `protobuf:"bytes,1,opt,name=statement_handle,json=statementHandle,proto3" json:"statement_handle,omitempty"`
-}
-
-func (x *TicketStatementQuery) Reset() {
-	*x = TicketStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[23]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *TicketStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*TicketStatementQuery) ProtoMessage() {}
-
-func (x *TicketStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[23]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use TicketStatementQuery.ProtoReflect.Descriptor instead.
-func (*TicketStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{23}
-}
-
-func (x *TicketStatementQuery) GetStatementHandle() []byte {
-	if x != nil {
-		return x.StatementHandle
-	}
-	return nil
-}
-
-// Represents an instance of executing a prepared statement. Used in the command member of FlightDescriptor for
-// the following RPC calls:
-//
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//
-//     If the schema is retrieved after parameter values have been bound with DoPut, then the server should account
-//     for the parameters when determining the schema.
-//
-//   - DoPut: bind parameter values. All of the bound parameter sets will be executed as a single atomic execution.
-//
-//   - GetFlightInfo: execute the prepared statement instance.
-type CommandPreparedStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *CommandPreparedStatementQuery) Reset() {
-	*x = CommandPreparedStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[24]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandPreparedStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandPreparedStatementQuery) ProtoMessage() {}
-
-func (x *CommandPreparedStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[24]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandPreparedStatementQuery.ProtoReflect.Descriptor instead.
-func (*CommandPreparedStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{24}
-}
-
-func (x *CommandPreparedStatementQuery) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Represents a SQL update query. Used in the command member of FlightDescriptor
-// for the RPC call DoPut to cause the server to execute the included SQL update.
-type CommandStatementUpdate struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The SQL syntax.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementUpdate) Reset() {
-	*x = CommandStatementUpdate{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[25]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementUpdate) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementUpdate) ProtoMessage() {}
-
-func (x *CommandStatementUpdate) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[25]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementUpdate.ProtoReflect.Descriptor instead.
-func (*CommandStatementUpdate) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{25}
-}
-
-func (x *CommandStatementUpdate) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *CommandStatementUpdate) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Represents a SQL update query. Used in the command member of FlightDescriptor
-// for the RPC call DoPut to cause the server to execute the included
-// prepared statement handle as an update.
-type CommandPreparedStatementUpdate struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *CommandPreparedStatementUpdate) Reset() {
-	*x = CommandPreparedStatementUpdate{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[26]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandPreparedStatementUpdate) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandPreparedStatementUpdate) ProtoMessage() {}
-
-func (x *CommandPreparedStatementUpdate) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[26]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandPreparedStatementUpdate.ProtoReflect.Descriptor instead.
-func (*CommandPreparedStatementUpdate) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{26}
-}
-
-func (x *CommandPreparedStatementUpdate) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Represents a bulk ingestion request. Used in the command member of FlightDescriptor
-// for the the RPC call DoPut to cause the server load the contents of the stream's
-// FlightData into the target destination.
-type CommandStatementIngest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The behavior for handling the table definition.
-	TableDefinitionOptions *CommandStatementIngest_TableDefinitionOptions `protobuf:"bytes,1,opt,name=table_definition_options,json=tableDefinitionOptions,proto3" json:"table_definition_options,omitempty"`
-	// The table to load data into.
-	Table string `protobuf:"bytes,2,opt,name=table,proto3" json:"table,omitempty"`
-	// The db_schema of the destination table to load data into. If unset, a backend-specific default may be used.
-	Schema *string `protobuf:"bytes,3,opt,name=schema,proto3,oneof" json:"schema,omitempty"`
-	// The catalog of the destination table to load data into. If unset, a backend-specific default may be used.
-	Catalog *string `protobuf:"bytes,4,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Store ingested data in a temporary table.
-	// The effect of setting temporary is to place the table in a backend-defined namespace, and to drop the table at the end of the session.
-	// The namespacing may make use of a backend-specific schema and/or catalog.
-	// The server should return an error if an explicit choice of schema or catalog is incompatible with the server's namespacing decision.
-	Temporary bool `protobuf:"varint,5,opt,name=temporary,proto3" json:"temporary,omitempty"`
-	// Perform the ingestion as part of this transaction. If specified, results should not be committed in the event of an error/cancellation.
-	TransactionId []byte `protobuf:"bytes,6,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-	// Backend-specific options.
-	Options map[string]string `protobuf:"bytes,1000,rep,name=options,proto3" json:"options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *CommandStatementIngest) Reset() {
-	*x = CommandStatementIngest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[27]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementIngest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementIngest) ProtoMessage() {}
-
-func (x *CommandStatementIngest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[27]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementIngest.ProtoReflect.Descriptor instead.
-func (*CommandStatementIngest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27}
-}
-
-func (x *CommandStatementIngest) GetTableDefinitionOptions() *CommandStatementIngest_TableDefinitionOptions {
-	if x != nil {
-		return x.TableDefinitionOptions
-	}
-	return nil
-}
-
-func (x *CommandStatementIngest) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetSchema() string {
-	if x != nil && x.Schema != nil {
-		return *x.Schema
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetTemporary() bool {
-	if x != nil {
-		return x.Temporary
-	}
-	return false
-}
-
-func (x *CommandStatementIngest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *CommandStatementIngest) GetOptions() map[string]string {
-	if x != nil {
-		return x.Options
-	}
-	return nil
-}
-
-// Returned from the RPC call DoPut when a CommandStatementUpdate,
-// CommandPreparedStatementUpdate, or CommandStatementIngest was
-// in the request, containing results from the update.
-type DoPutUpdateResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The number of records updated. A return value of -1 represents
-	// an unknown updated record count.
-	RecordCount int64 `protobuf:"varint,1,opt,name=record_count,json=recordCount,proto3" json:"record_count,omitempty"`
-}
-
-func (x *DoPutUpdateResult) Reset() {
-	*x = DoPutUpdateResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[28]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DoPutUpdateResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DoPutUpdateResult) ProtoMessage() {}
-
-func (x *DoPutUpdateResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[28]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DoPutUpdateResult.ProtoReflect.Descriptor instead.
-func (*DoPutUpdateResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{28}
-}
-
-func (x *DoPutUpdateResult) GetRecordCount() int64 {
-	if x != nil {
-		return x.RecordCount
-	}
-	return 0
-}
-
-// An *optional* response returned when `DoPut` is called with `CommandPreparedStatementQuery`.
-//
-// *Note on legacy behavior*: previous versions of the protocol did not return any result for
-// this command, and that behavior should still be supported by clients. In that case, the client
-// can continue as though the fields in this message were not provided or set to sensible default values.
-type DoPutPreparedStatementResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Represents a (potentially updated) opaque handle for the prepared statement on the server.
-	// Because the handle could potentially be updated, any previous handles for this prepared
-	// statement should be considered invalid, and all subsequent requests for this prepared
-	// statement must use this new handle.
-	// The updated handle allows implementing query parameters with stateless services.
-	//
-	// When an updated handle is not provided by the server, clients should contiue
-	// using the previous handle provided by `ActionCreatePreparedStatementResonse`.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3,oneof" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *DoPutPreparedStatementResult) Reset() {
-	*x = DoPutPreparedStatementResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[29]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DoPutPreparedStatementResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DoPutPreparedStatementResult) ProtoMessage() {}
-
-func (x *DoPutPreparedStatementResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[29]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DoPutPreparedStatementResult.ProtoReflect.Descriptor instead.
-func (*DoPutPreparedStatementResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{29}
-}
-
-func (x *DoPutPreparedStatementResult) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Request message for the "CancelQuery" action.
-//
-// Explicitly cancel a running query.
-//
-// This lets a single client explicitly cancel work, no matter how many clients
-// are involved/whether the query is distributed or not, given server support.
-// The transaction/statement is not rolled back; it is the application's job to
-// commit or rollback as appropriate. This only indicates the client no longer
-// wishes to read the remainder of the query results or continue submitting
-// data.
-//
-// This command is idempotent.
-//
-// This command is deprecated since 13.0.0. Use the "CancelFlightInfo"
-// action with DoAction instead.
-//
-// Deprecated: Marked as deprecated in FlightSql.proto.
-type ActionCancelQueryRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The result of the GetFlightInfo RPC that initiated the query.
-	// XXX(ARROW-16902): this must be a serialized FlightInfo, but is
-	// rendered as bytes because Protobuf does not really support one
-	// DLL using Protobuf definitions from another DLL.
-	Info []byte `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *ActionCancelQueryRequest) Reset() {
-	*x = ActionCancelQueryRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[30]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCancelQueryRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCancelQueryRequest) ProtoMessage() {}
-
-func (x *ActionCancelQueryRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[30]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCancelQueryRequest.ProtoReflect.Descriptor instead.
-func (*ActionCancelQueryRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{30}
-}
-
-func (x *ActionCancelQueryRequest) GetInfo() []byte {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// The result of cancelling a query.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-//
-// This command is deprecated since 13.0.0. Use the "CancelFlightInfo"
-// action with DoAction instead.
-//
-// Deprecated: Marked as deprecated in FlightSql.proto.
-type ActionCancelQueryResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Result ActionCancelQueryResult_CancelResult `protobuf:"varint,1,opt,name=result,proto3,enum=arrow.flight.protocol.sql.ActionCancelQueryResult_CancelResult" json:"result,omitempty"`
-}
-
-func (x *ActionCancelQueryResult) Reset() {
-	*x = ActionCancelQueryResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[31]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCancelQueryResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCancelQueryResult) ProtoMessage() {}
-
-func (x *ActionCancelQueryResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[31]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCancelQueryResult.ProtoReflect.Descriptor instead.
-func (*ActionCancelQueryResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{31}
-}
-
-func (x *ActionCancelQueryResult) GetResult() ActionCancelQueryResult_CancelResult {
-	if x != nil {
-		return x.Result
-	}
-	return ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED
-}
-
-// Options for table definition behavior
-type CommandStatementIngest_TableDefinitionOptions struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	IfNotExist CommandStatementIngest_TableDefinitionOptions_TableNotExistOption `protobuf:"varint,1,opt,name=if_not_exist,json=ifNotExist,proto3,enum=arrow.flight.protocol.sql.CommandStatementIngest_TableDefinitionOptions_TableNotExistOption" json:"if_not_exist,omitempty"`
-	IfExists   CommandStatementIngest_TableDefinitionOptions_TableExistsOption   `protobuf:"varint,2,opt,name=if_exists,json=ifExists,proto3,enum=arrow.flight.protocol.sql.CommandStatementIngest_TableDefinitionOptions_TableExistsOption" json:"if_exists,omitempty"`
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) Reset() {
-	*x = CommandStatementIngest_TableDefinitionOptions{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[32]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementIngest_TableDefinitionOptions) ProtoMessage() {}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[32]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions.ProtoReflect.Descriptor instead.
-func (*CommandStatementIngest_TableDefinitionOptions) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0}
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) GetIfNotExist() CommandStatementIngest_TableDefinitionOptions_TableNotExistOption {
-	if x != nil {
-		return x.IfNotExist
-	}
-	return CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) GetIfExists() CommandStatementIngest_TableDefinitionOptions_TableExistsOption {
-	if x != nil {
-		return x.IfExists
-	}
-	return CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED
-}
-
-var file_FlightSql_proto_extTypes = []protoimpl.ExtensionInfo{
-	{
-		ExtendedType:  (*descriptorpb.MessageOptions)(nil),
-		ExtensionType: (*bool)(nil),
-		Field:         1000,
-		Name:          "arrow.flight.protocol.sql.experimental",
-		Tag:           "varint,1000,opt,name=experimental",
-		Filename:      "FlightSql.proto",
-	},
-}
-
-// Extension fields to descriptorpb.MessageOptions.
-var (
-	// optional bool experimental = 1000;
-	E_Experimental = &file_FlightSql_proto_extTypes[0]
-)
-
-var File_FlightSql_proto protoreflect.FileDescriptor
-
-var file_FlightSql_proto_rawDesc = []byte{
-	0x0a, 0x0f, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x53, 0x71, 0x6c, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x12, 0x19, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x1a, 0x20, 0x67, 0x6f,
-	0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x64, 0x65,
-	0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x22, 0x2c,
-	0x0a, 0x11, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x53, 0x71, 0x6c, 0x49,
-	0x6e, 0x66, 0x6f, 0x12, 0x12, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x03, 0x28,
-	0x0d, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x4d, 0x0a, 0x16,
-	0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x58, 0x64, 0x62, 0x63, 0x54, 0x79,
-	0x70, 0x65, 0x49, 0x6e, 0x66, 0x6f, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74,
-	0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x05, 0x48, 0x00, 0x52, 0x08, 0x64, 0x61, 0x74,
-	0x61, 0x54, 0x79, 0x70, 0x65, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0c, 0x0a,
-	0x0a, 0x5f, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x22, 0x19, 0x0a, 0x12, 0x43,
-	0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
-	0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0xa0, 0x01, 0x0a, 0x13, 0x43, 0x6f, 0x6d, 0x6d, 0x61,
-	0x6e, 0x64, 0x47, 0x65, 0x74, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x73, 0x12, 0x1d,
-	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
-	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01,
-	0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19,
-	0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22, 0xc3, 0x02, 0x0a, 0x10, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x73, 0x12, 0x1d,
-	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
-	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x3e, 0x0a, 0x19, 0x74,
-	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72,
-	0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02,
-	0x52, 0x16, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x61, 0x6d, 0x65, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x1f, 0x0a, 0x0b, 0x74,
-	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73, 0x18, 0x04, 0x20, 0x03, 0x28, 0x09,
-	0x52, 0x0a, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x12, 0x25, 0x0a, 0x0e,
-	0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05,
-	0x20, 0x01, 0x28, 0x08, 0x52, 0x0d, 0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x53, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
-	0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72,
-	0x6e, 0x42, 0x1c, 0x0a, 0x1a, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65,
-	0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22,
-	0x1b, 0x0a, 0x14, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62,
-	0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x8d, 0x01, 0x0a,
-	0x15, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x50, 0x72, 0x69, 0x6d, 0x61,
-	0x72, 0x79, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f,
-	0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
-	0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53, 0x63,
-	0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65,
-	0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0,
-	0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0c,
-	0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01, 0x0a,
-	0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x45, 0x78, 0x70, 0x6f, 0x72,
-	0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61,
-	0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c,
-	0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42,
-	0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01,
-	0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x49, 0x6d, 0x70, 0x6f,
-	0x72, 0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61,
-	0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63,
-	0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62,
-	0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
-	0x42, 0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0xab,
-	0x02, 0x0a, 0x18, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x72, 0x6f,
-	0x73, 0x73, 0x52, 0x65, 0x66, 0x65, 0x72, 0x65, 0x6e, 0x63, 0x65, 0x12, 0x22, 0x0a, 0x0a, 0x70,
-	0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x09, 0x70, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12,
-	0x25, 0x0a, 0x0c, 0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x0a, 0x70, 0x6b, 0x44, 0x62, 0x53, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08, 0x70, 0x6b, 0x5f, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07, 0x70, 0x6b, 0x54, 0x61, 0x62, 0x6c,
-	0x65, 0x12, 0x22, 0x0a, 0x0a, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18,
-	0x04, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02, 0x52, 0x09, 0x66, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x25, 0x0a, 0x0c, 0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05, 0x20, 0x01, 0x28, 0x09, 0x48, 0x03, 0x52, 0x0a, 0x66,
-	0x6b, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08,
-	0x66, 0x6b, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x18, 0x06, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07,
-	0x66, 0x6b, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0d, 0x0a, 0x0b,
-	0x5f, 0x70, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
-	0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x42, 0x0d, 0x0a, 0x0b,
-	0x5f, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
-	0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x80, 0x01, 0x0a,
-	0x24, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65, 0x61, 0x74, 0x65, 0x50, 0x72, 0x65,
-	0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65,
-	0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a, 0x0f,
-	0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22,
-	0x42, 0x0a, 0x0d, 0x53, 0x75, 0x62, 0x73, 0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e,
-	0x12, 0x12, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x04,
-	0x70, 0x6c, 0x61, 0x6e, 0x12, 0x18, 0x0a, 0x07, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x22, 0xac, 0x01, 0x0a, 0x28, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72,
-	0x65, 0x61, 0x74, 0x65, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x75, 0x62, 0x73,
-	0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74,
-	0x12, 0x3c, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x28,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x53, 0x75, 0x62, 0x73, 0x74,
-	0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x12, 0x2a,
-	0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42,
-	0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f,
-	0x69, 0x64, 0x22, 0xb8, 0x01, 0x0a, 0x23, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65,
-	0x61, 0x74, 0x65, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65,
-	0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72,
-	0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70,
-	0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x12, 0x25, 0x0a, 0x0e, 0x64, 0x61, 0x74, 0x61, 0x73, 0x65,
-	0x74, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0d,
-	0x64, 0x61, 0x74, 0x61, 0x73, 0x65, 0x74, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x29, 0x0a,
-	0x10, 0x70, 0x61, 0x72, 0x61, 0x6d, 0x65, 0x74, 0x65, 0x72, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d,
-	0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x70, 0x61, 0x72, 0x61, 0x6d, 0x65, 0x74,
-	0x65, 0x72, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x66, 0x0a,
-	0x23, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x6c, 0x6f, 0x73, 0x65, 0x50, 0x72, 0x65, 0x70,
-	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x71,
-	0x75, 0x65, 0x73, 0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64,
-	0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c,
-	0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
-	0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65,
-	0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x24, 0x0a, 0x1d, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x42,
-	0x65, 0x67, 0x69, 0x6e, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52,
-	0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x5d, 0x0a, 0x1b, 0x41,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x42, 0x65, 0x67, 0x69, 0x6e, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f,
-	0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x25, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49,
-	0x64, 0x12, 0x12, 0x0a, 0x04, 0x6e, 0x61, 0x6d, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52,
-	0x04, 0x6e, 0x61, 0x6d, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x4a, 0x0a, 0x1c, 0x41, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x42, 0x65, 0x67, 0x69, 0x6e, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x25, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49,
-	0x64, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x44, 0x0a, 0x1a, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e,
-	0x42, 0x65, 0x67, 0x69, 0x6e, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e,
-	0x74, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x73, 0x61, 0x76, 0x65,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x49, 0x64, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x95, 0x02, 0x0a,
-	0x1b, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x25, 0x0a, 0x0e,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x49, 0x64, 0x12, 0x5d, 0x0a, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0e, 0x32, 0x45, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67,
-	0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x45, 0x6e, 0x64, 0x54,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x06, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x22, 0x6b, 0x0a, 0x0e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x12, 0x1f, 0x0a, 0x1b, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e,
-	0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46,
-	0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1a, 0x0a, 0x16, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x10,
-	0x01, 0x12, 0x1c, 0x0a, 0x18, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x4f, 0x4c, 0x4c, 0x42, 0x41, 0x43, 0x4b, 0x10, 0x02, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x22, 0x84, 0x02, 0x0a, 0x19, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45,
-	0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65,
-	0x73, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x5f,
-	0x69, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f,
-	0x69, 0x6e, 0x74, 0x49, 0x64, 0x12, 0x59, 0x0a, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x41, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71,
-	0x6c, 0x2e, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70,
-	0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x45, 0x6e, 0x64, 0x53,
-	0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e,
-	0x22, 0x64, 0x0a, 0x0c, 0x45, 0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74,
-	0x12, 0x1d, 0x0a, 0x19, 0x45, 0x4e, 0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e,
-	0x54, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12,
-	0x19, 0x0a, 0x15, 0x45, 0x4e, 0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54,
-	0x5f, 0x52, 0x45, 0x4c, 0x45, 0x41, 0x53, 0x45, 0x10, 0x01, 0x12, 0x1a, 0x0a, 0x16, 0x45, 0x4e,
-	0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54, 0x5f, 0x52, 0x4f, 0x4c, 0x4c,
-	0x42, 0x41, 0x43, 0x4b, 0x10, 0x02, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x71, 0x0a, 0x15, 0x43,
-	0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51,
-	0x75, 0x65, 0x72, 0x79, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02, 0x20, 0x01,
-	0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a, 0x0f, 0x5f,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22, 0xa1,
-	0x01, 0x0a, 0x1d, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d,
-	0x65, 0x6e, 0x74, 0x53, 0x75, 0x62, 0x73, 0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e,
-	0x12, 0x3c, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x28,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x53, 0x75, 0x62, 0x73, 0x74,
-	0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x12, 0x2a,
-	0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42,
-	0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f,
-	0x69, 0x64, 0x22, 0x46, 0x0a, 0x14, 0x54, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x53, 0x74, 0x61, 0x74,
-	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x29, 0x0a, 0x10, 0x73, 0x74,
-	0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48,
-	0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x60, 0x0a, 0x1d, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61,
-	0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x3a, 0x0a, 0x19, 0x70,
-	0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17,
-	0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x72, 0x0a, 0x16,
-	0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74,
-	0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a,
-	0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x22, 0x61, 0x0a, 0x1e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x50, 0x72, 0x65, 0x70, 0x61,
-	0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x55, 0x70, 0x64, 0x61,
-	0x74, 0x65, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x22, 0xb1, 0x08, 0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x12, 0x82,
-	0x01, 0x0a, 0x18, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x5f, 0x64, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74,
-	0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x48, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e,
-	0x67, 0x65, 0x73, 0x74, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69,
-	0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x16, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69,
-	0x6f, 0x6e, 0x73, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x18, 0x02, 0x20, 0x01,
-	0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x12, 0x1b, 0x0a, 0x06, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x06, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f,
-	0x67, 0x18, 0x04, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x1c, 0x0a, 0x09, 0x74, 0x65, 0x6d, 0x70, 0x6f, 0x72, 0x61,
-	0x72, 0x79, 0x18, 0x05, 0x20, 0x01, 0x28, 0x08, 0x52, 0x09, 0x74, 0x65, 0x6d, 0x70, 0x6f, 0x72,
-	0x61, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x02, 0x52, 0x0d, 0x74,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x12,
-	0x59, 0x0a, 0x07, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18, 0xe8, 0x07, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x3e, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e,
-	0x67, 0x65, 0x73, 0x74, 0x2e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72,
-	0x79, 0x52, 0x07, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0xaf, 0x04, 0x0a, 0x16, 0x54,
-	0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x7e, 0x0a, 0x0c, 0x69, 0x66, 0x5f, 0x6e, 0x6f, 0x74, 0x5f,
-	0x65, 0x78, 0x69, 0x73, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x5c, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x2e, 0x54,
-	0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x73, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x6f, 0x74, 0x45, 0x78,
-	0x69, 0x73, 0x74, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x0a, 0x69, 0x66, 0x4e, 0x6f, 0x74,
-	0x45, 0x78, 0x69, 0x73, 0x74, 0x12, 0x77, 0x0a, 0x09, 0x69, 0x66, 0x5f, 0x65, 0x78, 0x69, 0x73,
-	0x74, 0x73, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x5a, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74,
-	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x2e, 0x54, 0x61, 0x62, 0x6c,
-	0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f,
-	0x6e, 0x73, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x45, 0x78, 0x69, 0x73, 0x74, 0x73, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x08, 0x69, 0x66, 0x45, 0x78, 0x69, 0x73, 0x74, 0x73, 0x22, 0x81,
-	0x01, 0x0a, 0x13, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x6f, 0x74, 0x45, 0x78, 0x69, 0x73, 0x74,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x26, 0x0a, 0x22, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f,
-	0x4e, 0x4f, 0x54, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x21,
-	0x0a, 0x1d, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x45, 0x58, 0x49, 0x53,
-	0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x52, 0x45, 0x41, 0x54, 0x45, 0x10,
-	0x01, 0x12, 0x1f, 0x0a, 0x1b, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x45,
-	0x58, 0x49, 0x53, 0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x46, 0x41, 0x49, 0x4c,
-	0x10, 0x02, 0x22, 0x97, 0x01, 0x0a, 0x11, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x45, 0x78, 0x69, 0x73,
-	0x74, 0x73, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x23, 0x0a, 0x1f, 0x54, 0x41, 0x42, 0x4c,
-	0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
-	0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1c, 0x0a,
-	0x18, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x46, 0x41, 0x49, 0x4c, 0x10, 0x01, 0x12, 0x1e, 0x0a, 0x1a, 0x54,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x41, 0x50, 0x50, 0x45, 0x4e, 0x44, 0x10, 0x02, 0x12, 0x1f, 0x0a, 0x1b, 0x54,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x50, 0x4c, 0x41, 0x43, 0x45, 0x10, 0x03, 0x1a, 0x3a, 0x0a, 0x0c,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03,
-	0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x14,
-	0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x09, 0x0a,
-	0x07, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x42, 0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22, 0x3b, 0x0a, 0x11, 0x44, 0x6f, 0x50, 0x75, 0x74,
-	0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c,
-	0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x5f, 0x63, 0x6f, 0x75, 0x6e, 0x74, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x03, 0x52, 0x0b, 0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x43, 0x6f, 0x75, 0x6e, 0x74, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x22, 0x82, 0x01, 0x0a, 0x1c, 0x44, 0x6f, 0x50, 0x75, 0x74, 0x50, 0x72,
-	0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x3f, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
-	0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64,
-	0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70,
-	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e,
-	0x64, 0x6c, 0x65, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x1c, 0x0a, 0x1a, 0x5f,
-	0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65,
-	0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x22, 0x35, 0x0a, 0x18, 0x41, 0x63, 0x74,
-	0x69, 0x6f, 0x6e, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65,
-	0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x12, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x0c, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x3a, 0x05, 0xc0, 0x3e, 0x01, 0x18, 0x01,
-	0x22, 0x87, 0x02, 0x0a, 0x17, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x61, 0x6e, 0x63, 0x65,
-	0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x57, 0x0a, 0x06,
-	0x72, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x3f, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43,
-	0x61, 0x6e, 0x63, 0x65, 0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74,
-	0x2e, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x52, 0x06, 0x72,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x8b, 0x01, 0x0a, 0x0c, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x1d, 0x0a, 0x19, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c,
-	0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46,
-	0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f,
-	0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x45, 0x44,
-	0x10, 0x01, 0x12, 0x1c, 0x0a, 0x18, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x52, 0x45, 0x53,
-	0x55, 0x4c, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x49, 0x4e, 0x47, 0x10, 0x02,
-	0x12, 0x21, 0x0a, 0x1d, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
-	0x54, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x41, 0x42, 0x4c,
-	0x45, 0x10, 0x03, 0x3a, 0x05, 0xc0, 0x3e, 0x01, 0x18, 0x01, 0x2a, 0x92, 0x19, 0x0a, 0x07, 0x53,
-	0x71, 0x6c, 0x49, 0x6e, 0x66, 0x6f, 0x12, 0x1a, 0x0a, 0x16, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54,
-	0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x4e, 0x41, 0x4d, 0x45,
-	0x10, 0x00, 0x12, 0x1d, 0x0a, 0x19, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10,
-	0x01, 0x12, 0x23, 0x0a, 0x1f, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x41, 0x52, 0x52, 0x4f, 0x57, 0x5f, 0x56, 0x45, 0x52,
-	0x53, 0x49, 0x4f, 0x4e, 0x10, 0x02, 0x12, 0x1f, 0x0a, 0x1b, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54,
-	0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x52, 0x45, 0x41, 0x44,
-	0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x03, 0x12, 0x19, 0x0a, 0x15, 0x46, 0x4c, 0x49, 0x47, 0x48,
-	0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x51, 0x4c,
-	0x10, 0x04, 0x12, 0x1f, 0x0a, 0x1b, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41, 0x49,
-	0x54, 0x10, 0x05, 0x12, 0x2b, 0x0a, 0x27, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41,
-	0x49, 0x54, 0x5f, 0x4d, 0x49, 0x4e, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10, 0x06,
-	0x12, 0x2b, 0x0a, 0x27, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41, 0x49, 0x54, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10, 0x07, 0x12, 0x21, 0x0a,
-	0x1d, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56,
-	0x45, 0x52, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x08,
-	0x12, 0x1c, 0x0a, 0x18, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x10, 0x09, 0x12, 0x24,
-	0x0a, 0x20, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52,
-	0x56, 0x45, 0x52, 0x5f, 0x42, 0x55, 0x4c, 0x4b, 0x5f, 0x49, 0x4e, 0x47, 0x45, 0x53, 0x54, 0x49,
-	0x4f, 0x4e, 0x10, 0x0a, 0x12, 0x33, 0x0a, 0x2f, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x49, 0x4e, 0x47, 0x45, 0x53, 0x54,
-	0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x53, 0x55,
-	0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x0b, 0x12, 0x27, 0x0a, 0x23, 0x46, 0x4c, 0x49,
-	0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53,
-	0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x4f, 0x55, 0x54,
-	0x10, 0x64, 0x12, 0x29, 0x0a, 0x25, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x4f, 0x55, 0x54, 0x10, 0x65, 0x12, 0x14, 0x0a,
-	0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47,
-	0x10, 0xf4, 0x03, 0x12, 0x13, 0x0a, 0x0e, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x53,
-	0x43, 0x48, 0x45, 0x4d, 0x41, 0x10, 0xf5, 0x03, 0x12, 0x12, 0x0a, 0x0d, 0x53, 0x51, 0x4c, 0x5f,
-	0x44, 0x44, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xf6, 0x03, 0x12, 0x18, 0x0a, 0x13,
-	0x53, 0x51, 0x4c, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f, 0x43,
-	0x41, 0x53, 0x45, 0x10, 0xf7, 0x03, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x49, 0x44,
-	0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f, 0x51, 0x55, 0x4f, 0x54, 0x45, 0x5f, 0x43,
-	0x48, 0x41, 0x52, 0x10, 0xf8, 0x03, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x51, 0x55,
-	0x4f, 0x54, 0x45, 0x44, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f,
-	0x43, 0x41, 0x53, 0x45, 0x10, 0xf9, 0x03, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x41,
-	0x4c, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x53, 0x5f, 0x41, 0x52, 0x45, 0x5f, 0x53, 0x45,
-	0x4c, 0x45, 0x43, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xfa, 0x03, 0x12, 0x16, 0x0a, 0x11, 0x53,
-	0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x49, 0x4e, 0x47,
-	0x10, 0xfb, 0x03, 0x12, 0x11, 0x0a, 0x0c, 0x53, 0x51, 0x4c, 0x5f, 0x4b, 0x45, 0x59, 0x57, 0x4f,
-	0x52, 0x44, 0x53, 0x10, 0xfc, 0x03, 0x12, 0x1a, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55,
-	0x4d, 0x45, 0x52, 0x49, 0x43, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10,
-	0xfd, 0x03, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x54, 0x52, 0x49, 0x4e, 0x47,
-	0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xfe, 0x03, 0x12, 0x19, 0x0a,
-	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x59, 0x53, 0x54, 0x45, 0x4d, 0x5f, 0x46, 0x55, 0x4e, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xff, 0x03, 0x12, 0x1b, 0x0a, 0x16, 0x53, 0x51, 0x4c, 0x5f,
-	0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x10, 0x80, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x41,
-	0x52, 0x43, 0x48, 0x5f, 0x53, 0x54, 0x52, 0x49, 0x4e, 0x47, 0x5f, 0x45, 0x53, 0x43, 0x41, 0x50,
-	0x45, 0x10, 0x81, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x58, 0x54, 0x52,
-	0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x41, 0x43, 0x54, 0x45, 0x52,
-	0x53, 0x10, 0x82, 0x04, 0x12, 0x21, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x5f, 0x41, 0x4c, 0x49, 0x41,
-	0x53, 0x49, 0x4e, 0x47, 0x10, 0x83, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x4e,
-	0x55, 0x4c, 0x4c, 0x5f, 0x50, 0x4c, 0x55, 0x53, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x49, 0x53,
-	0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10, 0x84, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x10, 0x85, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
-	0x52, 0x54, 0x53, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x52, 0x52, 0x45, 0x4c,
-	0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x53, 0x10, 0x86, 0x04, 0x12, 0x33,
-	0x0a, 0x2e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x44,
-	0x49, 0x46, 0x46, 0x45, 0x52, 0x45, 0x4e, 0x54, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43,
-	0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x53,
-	0x10, 0x87, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
-	0x52, 0x54, 0x53, 0x5f, 0x45, 0x58, 0x50, 0x52, 0x45, 0x53, 0x53, 0x49, 0x4f, 0x4e, 0x53, 0x5f,
-	0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x10, 0x88, 0x04, 0x12, 0x24,
-	0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4f,
-	0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x5f, 0x55, 0x4e, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x45,
-	0x44, 0x10, 0x89, 0x04, 0x12, 0x1b, 0x0a, 0x16, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x10, 0x8a,
-	0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
-	0x53, 0x5f, 0x4c, 0x49, 0x4b, 0x45, 0x5f, 0x45, 0x53, 0x43, 0x41, 0x50, 0x45, 0x5f, 0x43, 0x4c,
-	0x41, 0x55, 0x53, 0x45, 0x10, 0x8b, 0x04, 0x12, 0x26, 0x0a, 0x21, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4e, 0x4f, 0x4e, 0x5f, 0x4e, 0x55, 0x4c, 0x4c,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x10, 0x8c, 0x04, 0x12,
-	0x1a, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x8d, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53,
-	0x51, 0x4c, 0x5f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
-	0x54, 0x45, 0x44, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x10, 0x8e, 0x04, 0x12, 0x30, 0x0a, 0x2b,
-	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x47, 0x52, 0x49, 0x54, 0x59, 0x5f, 0x45, 0x4e, 0x48, 0x41, 0x4e, 0x43, 0x45, 0x4d, 0x45,
-	0x4e, 0x54, 0x5f, 0x46, 0x41, 0x43, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x10, 0x8f, 0x04, 0x12, 0x22,
-	0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a, 0x4f, 0x49, 0x4e,
-	0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x10,
-	0x90, 0x04, 0x12, 0x14, 0x0a, 0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d, 0x41,
-	0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x91, 0x04, 0x12, 0x17, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f,
-	0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x92,
-	0x04, 0x12, 0x15, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47,
-	0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x93, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x41, 0x54, 0x5f, 0x53, 0x54, 0x41, 0x52, 0x54,
-	0x10, 0x94, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d,
-	0x41, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0x95, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43,
-	0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x96, 0x04, 0x12, 0x26, 0x0a, 0x21,
-	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x50, 0x4f,
-	0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x41, 0x4e, 0x44,
-	0x53, 0x10, 0x97, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x4c, 0x45,
-	0x43, 0x54, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45, 0x5f, 0x53, 0x55,
-	0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x98, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55,
-	0x52, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x99, 0x04,
-	0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x10, 0x9a, 0x04, 0x12,
-	0x28, 0x0a, 0x23, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x45,
-	0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50,
-	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x9b, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x55, 0x4e, 0x49, 0x4f, 0x4e,
-	0x53, 0x10, 0x9c, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f,
-	0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x5f, 0x4c, 0x49, 0x54, 0x45, 0x52, 0x41, 0x4c, 0x5f, 0x4c,
-	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9d, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x5f, 0x4c, 0x49, 0x54, 0x45, 0x52, 0x41, 0x4c,
-	0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9e, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51,
-	0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x5f, 0x4e, 0x41, 0x4d,
-	0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9f, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53,
-	0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49,
-	0x4e, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x10, 0xa0, 0x04, 0x12, 0x1d, 0x0a,
-	0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53,
-	0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x10, 0xa1, 0x04, 0x12, 0x20, 0x0a, 0x1b,
-	0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f,
-	0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x10, 0xa2, 0x04, 0x12, 0x1e,
-	0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0xa3, 0x04, 0x12, 0x1d,
-	0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xa4, 0x04, 0x12, 0x18, 0x0a,
-	0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4e, 0x4e, 0x45, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0xa5, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x4d,
-	0x41, 0x58, 0x5f, 0x43, 0x55, 0x52, 0x53, 0x4f, 0x52, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c,
-	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa6, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48,
-	0x10, 0xa7, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x42, 0x5f, 0x53, 0x43,
-	0x48, 0x45, 0x4d, 0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48,
-	0x10, 0xa8, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x50,
-	0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45,
-	0x4e, 0x47, 0x54, 0x48, 0x10, 0xa9, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x4d,
-	0x41, 0x58, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f,
-	0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xaa, 0x04, 0x12, 0x15, 0x0a, 0x10, 0x53, 0x51, 0x4c,
-	0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x52, 0x4f, 0x57, 0x5f, 0x53, 0x49, 0x5a, 0x45, 0x10, 0xab, 0x04,
-	0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x52, 0x4f, 0x57, 0x5f,
-	0x53, 0x49, 0x5a, 0x45, 0x5f, 0x49, 0x4e, 0x43, 0x4c, 0x55, 0x44, 0x45, 0x53, 0x5f, 0x42, 0x4c,
-	0x4f, 0x42, 0x53, 0x10, 0xac, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41,
-	0x58, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x4c, 0x45, 0x4e, 0x47,
-	0x54, 0x48, 0x10, 0xad, 0x04, 0x12, 0x17, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58,
-	0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x53, 0x10, 0xae, 0x04, 0x12, 0x1e,
-	0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f,
-	0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xaf, 0x04, 0x12, 0x1d,
-	0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x53,
-	0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0xb0, 0x04, 0x12, 0x1c, 0x0a,
-	0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x55, 0x53, 0x45, 0x52, 0x4e, 0x41, 0x4d,
-	0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xb1, 0x04, 0x12, 0x26, 0x0a, 0x21, 0x53,
-	0x51, 0x4c, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
-	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x49, 0x53, 0x4f, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e,
-	0x10, 0xb2, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
-	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x10, 0xb3, 0x04, 0x12, 0x30, 0x0a, 0x2b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x53, 0x4f, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4c, 0x45, 0x56,
-	0x45, 0x4c, 0x53, 0x10, 0xb4, 0x04, 0x12, 0x32, 0x0a, 0x2d, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41,
-	0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x41,
-	0x55, 0x53, 0x45, 0x53, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e,
-	0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x10, 0xb5, 0x04, 0x12, 0x31, 0x0a, 0x2c, 0x53, 0x51,
-	0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x47, 0x4e, 0x4f, 0x52, 0x45, 0x44, 0x10, 0xb6, 0x04, 0x12, 0x23, 0x0a,
-	0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x52,
-	0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x53, 0x10,
-	0xb7, 0x04, 0x12, 0x3b, 0x0a, 0x36, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
-	0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45,
-	0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0xb8, 0x04, 0x12,
-	0x3c, 0x0a, 0x37, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46,
-	0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x46, 0x4f,
-	0x52, 0x57, 0x41, 0x52, 0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0xb9, 0x04, 0x12, 0x40, 0x0a,
-	0x3b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x43,
-	0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46, 0x4f, 0x52,
-	0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x53, 0x43, 0x52, 0x4f,
-	0x4c, 0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0xba, 0x04, 0x12,
-	0x42, 0x0a, 0x3d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46,
-	0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x53, 0x43,
-	0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45,
-	0x10, 0xbb, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x42, 0x41, 0x54, 0x43, 0x48,
-	0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
-	0x45, 0x44, 0x10, 0xbc, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x41, 0x56,
-	0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x10, 0xbd, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x41, 0x4d, 0x45,
-	0x44, 0x5f, 0x50, 0x41, 0x52, 0x41, 0x4d, 0x45, 0x54, 0x45, 0x52, 0x53, 0x5f, 0x53, 0x55, 0x50,
-	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xbe, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c,
-	0x5f, 0x4c, 0x4f, 0x43, 0x41, 0x54, 0x4f, 0x52, 0x53, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45,
-	0x5f, 0x43, 0x4f, 0x50, 0x59, 0x10, 0xbf, 0x04, 0x12, 0x35, 0x0a, 0x30, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53,
-	0x5f, 0x55, 0x53, 0x49, 0x4e, 0x47, 0x5f, 0x43, 0x41, 0x4c, 0x4c, 0x5f, 0x53, 0x59, 0x4e, 0x54,
-	0x41, 0x58, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xc0, 0x04, 0x2a,
-	0x91, 0x01, 0x0a, 0x17, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64,
-	0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x22, 0x0a, 0x1e, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x4f, 0x4e, 0x45, 0x10, 0x00, 0x12,
-	0x29, 0x0a, 0x25, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x01, 0x12, 0x27, 0x0a, 0x23, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e,
-	0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e,
-	0x54, 0x10, 0x02, 0x2a, 0xb2, 0x01, 0x0a, 0x1b, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f,
-	0x72, 0x74, 0x65, 0x64, 0x43, 0x61, 0x73, 0x65, 0x53, 0x65, 0x6e, 0x73, 0x69, 0x74, 0x69, 0x76,
-	0x69, 0x74, 0x79, 0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x5f,
-	0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b, 0x4e,
-	0x4f, 0x57, 0x4e, 0x10, 0x00, 0x12, 0x29, 0x0a, 0x25, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53,
-	0x45, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x43, 0x41,
-	0x53, 0x45, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0x01,
-	0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x5f, 0x53, 0x45, 0x4e,
-	0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x50, 0x50, 0x45, 0x52, 0x43, 0x41,
-	0x53, 0x45, 0x10, 0x02, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45,
-	0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x4c, 0x4f, 0x57,
-	0x45, 0x52, 0x43, 0x41, 0x53, 0x45, 0x10, 0x03, 0x2a, 0x82, 0x01, 0x0a, 0x0f, 0x53, 0x71, 0x6c,
-	0x4e, 0x75, 0x6c, 0x6c, 0x4f, 0x72, 0x64, 0x65, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x19, 0x0a, 0x15,
-	0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x48, 0x49, 0x47, 0x48, 0x10, 0x00, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x4e,
-	0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x4c, 0x4f, 0x57, 0x10,
-	0x01, 0x12, 0x1d, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x53, 0x54, 0x41, 0x52, 0x54, 0x10, 0x02,
-	0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f,
-	0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x45, 0x4e, 0x44, 0x10, 0x03, 0x2a, 0x5e, 0x0a,
-	0x13, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x71, 0x6c, 0x47, 0x72, 0x61,
-	0x6d, 0x6d, 0x61, 0x72, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x49, 0x4e, 0x49,
-	0x4d, 0x55, 0x4d, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x00, 0x12, 0x14, 0x0a,
-	0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x45, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41,
-	0x52, 0x10, 0x01, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x58, 0x54, 0x45, 0x4e,
-	0x44, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x02, 0x2a, 0x68, 0x0a,
-	0x1e, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x41, 0x6e, 0x73, 0x69, 0x39, 0x32,
-	0x53, 0x71, 0x6c, 0x47, 0x72, 0x61, 0x6d, 0x6d, 0x61, 0x72, 0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12,
-	0x14, 0x0a, 0x10, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x45, 0x4e, 0x54, 0x52, 0x59, 0x5f,
-	0x53, 0x51, 0x4c, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f,
-	0x49, 0x4e, 0x54, 0x45, 0x52, 0x4d, 0x45, 0x44, 0x49, 0x41, 0x54, 0x45, 0x5f, 0x53, 0x51, 0x4c,
-	0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x46, 0x55, 0x4c,
-	0x4c, 0x5f, 0x53, 0x51, 0x4c, 0x10, 0x02, 0x2a, 0x6d, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x4f, 0x75,
-	0x74, 0x65, 0x72, 0x4a, 0x6f, 0x69, 0x6e, 0x73, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x4c,
-	0x65, 0x76, 0x65, 0x6c, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4a, 0x4f, 0x49, 0x4e,
-	0x53, 0x5f, 0x55, 0x4e, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x00, 0x12,
-	0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4c, 0x49, 0x4d, 0x49, 0x54, 0x45, 0x44, 0x5f, 0x4f,
-	0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a, 0x4f, 0x49, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x18, 0x0a, 0x14,
-	0x53, 0x51, 0x4c, 0x5f, 0x46, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a,
-	0x4f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x51, 0x0a, 0x13, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70,
-	0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x47, 0x72, 0x6f, 0x75, 0x70, 0x42, 0x79, 0x12, 0x1a, 0x0a,
-	0x16, 0x53, 0x51, 0x4c, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x55, 0x4e,
-	0x52, 0x45, 0x4c, 0x41, 0x54, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1e, 0x0a, 0x1a, 0x53, 0x51, 0x4c,
-	0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x42, 0x45, 0x59, 0x4f, 0x4e, 0x44,
-	0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0x01, 0x2a, 0x90, 0x01, 0x0a, 0x1a, 0x53, 0x71,
-	0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x45, 0x6c, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f,
-	0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45,
-	0x44, 0x55, 0x52, 0x45, 0x5f, 0x43, 0x41, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x24, 0x0a, 0x20,
-	0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x49,
-	0x4e, 0x44, 0x45, 0x58, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53,
-	0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e,
-	0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x49, 0x56, 0x49, 0x4c, 0x45, 0x47, 0x45, 0x5f, 0x44,
-	0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x56, 0x0a, 0x1e,
-	0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x50, 0x6f, 0x73, 0x69,
-	0x74, 0x69, 0x6f, 0x6e, 0x65, 0x64, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x73, 0x12, 0x19,
-	0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44,
-	0x5f, 0x44, 0x45, 0x4c, 0x45, 0x54, 0x45, 0x10, 0x00, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c,
-	0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x55, 0x50, 0x44, 0x41,
-	0x54, 0x45, 0x10, 0x01, 0x2a, 0x97, 0x01, 0x0a, 0x16, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70,
-	0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x75, 0x62, 0x71, 0x75, 0x65, 0x72, 0x69, 0x65, 0x73, 0x12,
-	0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x50, 0x41, 0x52, 0x49, 0x53, 0x4f, 0x4e, 0x53,
-	0x10, 0x00, 0x12, 0x1c, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45,
-	0x52, 0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x10, 0x01,
-	0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49,
-	0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x12, 0x21, 0x0a, 0x1d, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e,
-	0x5f, 0x51, 0x55, 0x41, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x44, 0x53, 0x10, 0x03, 0x2a, 0x36,
-	0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x55, 0x6e,
-	0x69, 0x6f, 0x6e, 0x73, 0x12, 0x0d, 0x0a, 0x09, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49, 0x4f,
-	0x4e, 0x10, 0x00, 0x12, 0x11, 0x0a, 0x0d, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49, 0x4f, 0x4e,
-	0x5f, 0x41, 0x4c, 0x4c, 0x10, 0x01, 0x2a, 0xc9, 0x01, 0x0a, 0x1c, 0x53, 0x71, 0x6c, 0x54, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x73, 0x6f, 0x6c, 0x61, 0x74, 0x69,
-	0x6f, 0x6e, 0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x54,
-	0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x4f, 0x4e, 0x45, 0x10,
-	0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f, 0x55, 0x4e, 0x43, 0x4f, 0x4d, 0x4d,
-	0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x01, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x54,
-	0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f,
-	0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x02, 0x12, 0x23, 0x0a, 0x1f, 0x53,
-	0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52,
-	0x45, 0x50, 0x45, 0x41, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x10, 0x03,
-	0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x5f, 0x53, 0x45, 0x52, 0x49, 0x41, 0x4c, 0x49, 0x5a, 0x41, 0x42, 0x4c, 0x45,
-	0x10, 0x04, 0x2a, 0x89, 0x01, 0x0a, 0x18, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72,
-	0x74, 0x65, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12,
-	0x1f, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00,
-	0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46,
-	0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x26, 0x0a, 0x22, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41,
-	0x54, 0x41, 0x5f, 0x4d, 0x41, 0x4e, 0x49, 0x50, 0x55, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
-	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0xbc,
-	0x01, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x54, 0x79, 0x70, 0x65, 0x12, 0x23, 0x0a, 0x1f,
-	0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54,
-	0x59, 0x50, 0x45, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10,
-	0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f,
-	0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x46, 0x4f, 0x52, 0x57, 0x41, 0x52, 0x44,
-	0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f, 0x52,
-	0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x53,
-	0x43, 0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56,
-	0x45, 0x10, 0x02, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
-	0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x53, 0x43, 0x52, 0x4f, 0x4c,
-	0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0x03, 0x2a, 0xa2, 0x01,
-	0x0a, 0x20, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x43, 0x6f, 0x6e, 0x63, 0x75, 0x72, 0x72, 0x65, 0x6e,
-	0x63, 0x79, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54,
-	0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x28,
-	0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x52, 0x45, 0x41,
-	0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f,
-	0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55,
-	0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x41, 0x42, 0x4c, 0x45,
-	0x10, 0x02, 0x2a, 0x99, 0x04, 0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72,
-	0x74, 0x73, 0x43, 0x6f, 0x6e, 0x76, 0x65, 0x72, 0x74, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51, 0x4c,
-	0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54, 0x10,
-	0x00, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x5f, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x51, 0x4c,
-	0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x54, 0x10, 0x02, 0x12, 0x14,
-	0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x43, 0x48,
-	0x41, 0x52, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56,
-	0x45, 0x52, 0x54, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10, 0x04, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x44, 0x45, 0x43, 0x49, 0x4d, 0x41,
-	0x4c, 0x10, 0x05, 0x12, 0x15, 0x0a, 0x11, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45,
-	0x52, 0x54, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x45,
-	0x52, 0x10, 0x07, 0x12, 0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45,
-	0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x10, 0x08, 0x12, 0x23, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59,
-	0x45, 0x41, 0x52, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x09, 0x12, 0x1d, 0x0a, 0x19, 0x53,
-	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56,
-	0x41, 0x52, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x0a, 0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41,
-	0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x0b, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43,
-	0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4e, 0x55, 0x4d, 0x45, 0x52, 0x49, 0x43, 0x10, 0x0c,
-	0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f,
-	0x52, 0x45, 0x41, 0x4c, 0x10, 0x0d, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10, 0x0e,
-	0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x10, 0x0f, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10,
-	0x10, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0x11, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49, 0x4e,
-	0x41, 0x52, 0x59, 0x10, 0x12, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e,
-	0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x13, 0x2a, 0x8f,
-	0x04, 0x0a, 0x0c, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x61, 0x54, 0x79, 0x70, 0x65, 0x12,
-	0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x5f,
-	0x54, 0x59, 0x50, 0x45, 0x10, 0x00, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x43,
-	0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4e, 0x55,
-	0x4d, 0x45, 0x52, 0x49, 0x43, 0x10, 0x02, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x44, 0x45, 0x43, 0x49, 0x4d, 0x41, 0x4c, 0x10, 0x03, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x45, 0x52, 0x10, 0x04, 0x12, 0x11, 0x0a, 0x0d, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10, 0x05, 0x12, 0x0e,
-	0x0a, 0x0a, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12, 0x0d,
-	0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x52, 0x45, 0x41, 0x4c, 0x10, 0x07, 0x12, 0x0f, 0x0a,
-	0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x4f, 0x55, 0x42, 0x4c, 0x45, 0x10, 0x08, 0x12, 0x11,
-	0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45, 0x10,
-	0x09, 0x12, 0x11, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x10, 0x0a, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41, 0x52,
-	0x43, 0x48, 0x41, 0x52, 0x10, 0x0c, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44,
-	0x41, 0x54, 0x45, 0x10, 0x5b, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54, 0x49,
-	0x4d, 0x45, 0x10, 0x5c, 0x12, 0x12, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54, 0x49, 0x4d,
-	0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x5d, 0x12, 0x1d, 0x0a, 0x10, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0xfe, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0x01, 0x12, 0x1b, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49, 0x4e,
-	0x41, 0x52, 0x59, 0x10, 0xfd, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x1f,
-	0x0a, 0x12, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x42, 0x49,
-	0x4e, 0x41, 0x52, 0x59, 0x10, 0xfc, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12,
-	0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54, 0x10, 0xfb,
-	0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x19, 0x0a, 0x0c, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0xfa, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0x01, 0x12, 0x15, 0x0a, 0x08, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49, 0x54,
-	0x10, 0xf9, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x17, 0x0a, 0x0a, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x57, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf8, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0x01, 0x12, 0x1a, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x57, 0x56, 0x41,
-	0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf7, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01,
-	0x2a, 0xa3, 0x08, 0x0a, 0x13, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x65, 0x74, 0x69, 0x6d,
-	0x65, 0x53, 0x75, 0x62, 0x63, 0x6f, 0x64, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e,
-	0x10, 0x00, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f,
-	0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x01, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10, 0x01,
-	0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x54, 0x49, 0x4d, 0x45, 0x10, 0x02, 0x12, 0x16, 0x0a, 0x12, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x02, 0x12,
-	0x1a, 0x0a, 0x16, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x10,
-	0x03, 0x12, 0x23, 0x0a, 0x1f, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
-	0x45, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49, 0x4d, 0x45,
-	0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x04, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53,
-	0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x04, 0x12, 0x28, 0x0a,
-	0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x54, 0x49,
-	0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49, 0x4d,
-	0x45, 0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x05, 0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x05,
-	0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x06, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f, 0x54,
-	0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x07, 0x12, 0x1c, 0x0a, 0x18, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f,
-	0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x08, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x4d,
-	0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x09, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x53,
-	0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0a, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f, 0x5f,
-	0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x0b, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f,
-	0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0c, 0x12, 0x21, 0x0a, 0x1d, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45,
-	0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0d, 0x12, 0x1e, 0x0a, 0x1a,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x65, 0x12, 0x1f, 0x0a, 0x1b,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x66, 0x12, 0x1d, 0x0a,
-	0x19, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
-	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x10, 0x67, 0x12, 0x1e, 0x0a, 0x1a,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x68, 0x12, 0x20, 0x0a, 0x1c,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x69, 0x12, 0x20,
-	0x0a, 0x1c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49,
-	0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x6a,
-	0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f, 0x54,
-	0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x6b, 0x12, 0x25, 0x0a, 0x21, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x6c,
-	0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f,
-	0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6d, 0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44,
-	0x10, 0x6e, 0x12, 0x28, 0x0a, 0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f,
-	0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52,
-	0x5f, 0x54, 0x4f, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6f, 0x12, 0x28, 0x0a, 0x24,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45,
-	0x43, 0x4f, 0x4e, 0x44, 0x10, 0x70, 0x12, 0x2a, 0x0a, 0x26, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53,
-	0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f,
-	0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44,
-	0x10, 0x71, 0x1a, 0x02, 0x10, 0x01, 0x2a, 0x57, 0x0a, 0x08, 0x4e, 0x75, 0x6c, 0x6c, 0x61, 0x62,
-	0x6c, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49, 0x54,
-	0x59, 0x5f, 0x4e, 0x4f, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x18, 0x0a, 0x14,
-	0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x4e, 0x55, 0x4c, 0x4c,
-	0x41, 0x42, 0x4c, 0x45, 0x10, 0x01, 0x12, 0x17, 0x0a, 0x13, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42,
-	0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x02, 0x2a,
-	0x61, 0x0a, 0x0a, 0x53, 0x65, 0x61, 0x72, 0x63, 0x68, 0x61, 0x62, 0x6c, 0x65, 0x12, 0x13, 0x0a,
-	0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x4e, 0x45,
-	0x10, 0x00, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45,
-	0x5f, 0x43, 0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x45, 0x41, 0x52, 0x43,
-	0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x42, 0x41, 0x53, 0x49, 0x43, 0x10, 0x02, 0x12, 0x13, 0x0a,
-	0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x46, 0x55, 0x4c, 0x4c,
-	0x10, 0x03, 0x2a, 0x5c, 0x0a, 0x11, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x44, 0x65, 0x6c, 0x65,
-	0x74, 0x65, 0x52, 0x75, 0x6c, 0x65, 0x73, 0x12, 0x0b, 0x0a, 0x07, 0x43, 0x41, 0x53, 0x43, 0x41,
-	0x44, 0x45, 0x10, 0x00, 0x12, 0x0c, 0x0a, 0x08, 0x52, 0x45, 0x53, 0x54, 0x52, 0x49, 0x43, 0x54,
-	0x10, 0x01, 0x12, 0x0c, 0x0a, 0x08, 0x53, 0x45, 0x54, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10, 0x02,
-	0x12, 0x0d, 0x0a, 0x09, 0x4e, 0x4f, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x03, 0x12,
-	0x0f, 0x0a, 0x0b, 0x53, 0x45, 0x54, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x10, 0x04,
-	0x3a, 0x44, 0x0a, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72, 0x69, 0x6d, 0x65, 0x6e, 0x74, 0x61, 0x6c,
-	0x12, 0x1f, 0x2e, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62,
-	0x75, 0x66, 0x2e, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x18, 0xe8, 0x07, 0x20, 0x01, 0x28, 0x08, 0x52, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72, 0x69,
-	0x6d, 0x65, 0x6e, 0x74, 0x61, 0x6c, 0x42, 0x56, 0x0a, 0x20, 0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70,
-	0x61, 0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x32, 0x67, 0x69, 0x74, 0x68,
-	0x75, 0x62, 0x2e, 0x63, 0x6f, 0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2f, 0x67, 0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2f, 0x67, 0x65, 0x6e, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x62, 0x06,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_FlightSql_proto_rawDescOnce sync.Once
-	file_FlightSql_proto_rawDescData = file_FlightSql_proto_rawDesc
-)
-
-func file_FlightSql_proto_rawDescGZIP() []byte {
-	file_FlightSql_proto_rawDescOnce.Do(func() {
-		file_FlightSql_proto_rawDescData = protoimpl.X.CompressGZIP(file_FlightSql_proto_rawDescData)
-	})
-	return file_FlightSql_proto_rawDescData
-}
-
-var file_FlightSql_proto_enumTypes = make([]protoimpl.EnumInfo, 27)
-var file_FlightSql_proto_msgTypes = make([]protoimpl.MessageInfo, 34)
-var file_FlightSql_proto_goTypes = []interface{}{
-	(SqlInfo)(0),                                    // 0: arrow.flight.protocol.sql.SqlInfo
-	(SqlSupportedTransaction)(0),                    // 1: arrow.flight.protocol.sql.SqlSupportedTransaction
-	(SqlSupportedCaseSensitivity)(0),                // 2: arrow.flight.protocol.sql.SqlSupportedCaseSensitivity
-	(SqlNullOrdering)(0),                            // 3: arrow.flight.protocol.sql.SqlNullOrdering
-	(SupportedSqlGrammar)(0),                        // 4: arrow.flight.protocol.sql.SupportedSqlGrammar
-	(SupportedAnsi92SqlGrammarLevel)(0),             // 5: arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel
-	(SqlOuterJoinsSupportLevel)(0),                  // 6: arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel
-	(SqlSupportedGroupBy)(0),                        // 7: arrow.flight.protocol.sql.SqlSupportedGroupBy
-	(SqlSupportedElementActions)(0),                 // 8: arrow.flight.protocol.sql.SqlSupportedElementActions
-	(SqlSupportedPositionedCommands)(0),             // 9: arrow.flight.protocol.sql.SqlSupportedPositionedCommands
-	(SqlSupportedSubqueries)(0),                     // 10: arrow.flight.protocol.sql.SqlSupportedSubqueries
-	(SqlSupportedUnions)(0),                         // 11: arrow.flight.protocol.sql.SqlSupportedUnions
-	(SqlTransactionIsolationLevel)(0),               // 12: arrow.flight.protocol.sql.SqlTransactionIsolationLevel
-	(SqlSupportedTransactions)(0),                   // 13: arrow.flight.protocol.sql.SqlSupportedTransactions
-	(SqlSupportedResultSetType)(0),                  // 14: arrow.flight.protocol.sql.SqlSupportedResultSetType
-	(SqlSupportedResultSetConcurrency)(0),           // 15: arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency
-	(SqlSupportsConvert)(0),                         // 16: arrow.flight.protocol.sql.SqlSupportsConvert
-	(XdbcDataType)(0),                               // 17: arrow.flight.protocol.sql.XdbcDataType
-	(XdbcDatetimeSubcode)(0),                        // 18: arrow.flight.protocol.sql.XdbcDatetimeSubcode
-	(Nullable)(0),                                   // 19: arrow.flight.protocol.sql.Nullable
-	(Searchable)(0),                                 // 20: arrow.flight.protocol.sql.Searchable
-	(UpdateDeleteRules)(0),                          // 21: arrow.flight.protocol.sql.UpdateDeleteRules
-	(ActionEndTransactionRequest_EndTransaction)(0), // 22: arrow.flight.protocol.sql.ActionEndTransactionRequest.EndTransaction
-	(ActionEndSavepointRequest_EndSavepoint)(0),     // 23: arrow.flight.protocol.sql.ActionEndSavepointRequest.EndSavepoint
-	(CommandStatementIngest_TableDefinitionOptions_TableNotExistOption)(0), // 24: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableNotExistOption
-	(CommandStatementIngest_TableDefinitionOptions_TableExistsOption)(0),   // 25: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableExistsOption
-	(ActionCancelQueryResult_CancelResult)(0),                              // 26: arrow.flight.protocol.sql.ActionCancelQueryResult.CancelResult
-	(*CommandGetSqlInfo)(nil),                                              // 27: arrow.flight.protocol.sql.CommandGetSqlInfo
-	(*CommandGetXdbcTypeInfo)(nil),                                         // 28: arrow.flight.protocol.sql.CommandGetXdbcTypeInfo
-	(*CommandGetCatalogs)(nil),                                             // 29: arrow.flight.protocol.sql.CommandGetCatalogs
-	(*CommandGetDbSchemas)(nil),                                            // 30: arrow.flight.protocol.sql.CommandGetDbSchemas
-	(*CommandGetTables)(nil),                                               // 31: arrow.flight.protocol.sql.CommandGetTables
-	(*CommandGetTableTypes)(nil),                                           // 32: arrow.flight.protocol.sql.CommandGetTableTypes
-	(*CommandGetPrimaryKeys)(nil),                                          // 33: arrow.flight.protocol.sql.CommandGetPrimaryKeys
-	(*CommandGetExportedKeys)(nil),                                         // 34: arrow.flight.protocol.sql.CommandGetExportedKeys
-	(*CommandGetImportedKeys)(nil),                                         // 35: arrow.flight.protocol.sql.CommandGetImportedKeys
-	(*CommandGetCrossReference)(nil),                                       // 36: arrow.flight.protocol.sql.CommandGetCrossReference
-	(*ActionCreatePreparedStatementRequest)(nil),                           // 37: arrow.flight.protocol.sql.ActionCreatePreparedStatementRequest
-	(*SubstraitPlan)(nil),                                                  // 38: arrow.flight.protocol.sql.SubstraitPlan
-	(*ActionCreatePreparedSubstraitPlanRequest)(nil),                       // 39: arrow.flight.protocol.sql.ActionCreatePreparedSubstraitPlanRequest
-	(*ActionCreatePreparedStatementResult)(nil),                            // 40: arrow.flight.protocol.sql.ActionCreatePreparedStatementResult
-	(*ActionClosePreparedStatementRequest)(nil),                            // 41: arrow.flight.protocol.sql.ActionClosePreparedStatementRequest
-	(*ActionBeginTransactionRequest)(nil),                                  // 42: arrow.flight.protocol.sql.ActionBeginTransactionRequest
-	(*ActionBeginSavepointRequest)(nil),                                    // 43: arrow.flight.protocol.sql.ActionBeginSavepointRequest
-	(*ActionBeginTransactionResult)(nil),                                   // 44: arrow.flight.protocol.sql.ActionBeginTransactionResult
-	(*ActionBeginSavepointResult)(nil),                                     // 45: arrow.flight.protocol.sql.ActionBeginSavepointResult
-	(*ActionEndTransactionRequest)(nil),                                    // 46: arrow.flight.protocol.sql.ActionEndTransactionRequest
-	(*ActionEndSavepointRequest)(nil),                                      // 47: arrow.flight.protocol.sql.ActionEndSavepointRequest
-	(*CommandStatementQuery)(nil),                                          // 48: arrow.flight.protocol.sql.CommandStatementQuery
-	(*CommandStatementSubstraitPlan)(nil),                                  // 49: arrow.flight.protocol.sql.CommandStatementSubstraitPlan
-	(*TicketStatementQuery)(nil),                                           // 50: arrow.flight.protocol.sql.TicketStatementQuery
-	(*CommandPreparedStatementQuery)(nil),                                  // 51: arrow.flight.protocol.sql.CommandPreparedStatementQuery
-	(*CommandStatementUpdate)(nil),                                         // 52: arrow.flight.protocol.sql.CommandStatementUpdate
-	(*CommandPreparedStatementUpdate)(nil),                                 // 53: arrow.flight.protocol.sql.CommandPreparedStatementUpdate
-	(*CommandStatementIngest)(nil),                                         // 54: arrow.flight.protocol.sql.CommandStatementIngest
-	(*DoPutUpdateResult)(nil),                                              // 55: arrow.flight.protocol.sql.DoPutUpdateResult
-	(*DoPutPreparedStatementResult)(nil),                                   // 56: arrow.flight.protocol.sql.DoPutPreparedStatementResult
-	(*ActionCancelQueryRequest)(nil),                                       // 57: arrow.flight.protocol.sql.ActionCancelQueryRequest
-	(*ActionCancelQueryResult)(nil),                                        // 58: arrow.flight.protocol.sql.ActionCancelQueryResult
-	(*CommandStatementIngest_TableDefinitionOptions)(nil),                  // 59: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions
-	nil,                                 // 60: arrow.flight.protocol.sql.CommandStatementIngest.OptionsEntry
-	(*descriptorpb.MessageOptions)(nil), // 61: google.protobuf.MessageOptions
-}
-var file_FlightSql_proto_depIdxs = []int32{
-	38, // 0: arrow.flight.protocol.sql.ActionCreatePreparedSubstraitPlanRequest.plan:type_name -> arrow.flight.protocol.sql.SubstraitPlan
-	22, // 1: arrow.flight.protocol.sql.ActionEndTransactionRequest.action:type_name -> arrow.flight.protocol.sql.ActionEndTransactionRequest.EndTransaction
-	23, // 2: arrow.flight.protocol.sql.ActionEndSavepointRequest.action:type_name -> arrow.flight.protocol.sql.ActionEndSavepointRequest.EndSavepoint
-	38, // 3: arrow.flight.protocol.sql.CommandStatementSubstraitPlan.plan:type_name -> arrow.flight.protocol.sql.SubstraitPlan
-	59, // 4: arrow.flight.protocol.sql.CommandStatementIngest.table_definition_options:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions
-	60, // 5: arrow.flight.protocol.sql.CommandStatementIngest.options:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.OptionsEntry
-	26, // 6: arrow.flight.protocol.sql.ActionCancelQueryResult.result:type_name -> arrow.flight.protocol.sql.ActionCancelQueryResult.CancelResult
-	24, // 7: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.if_not_exist:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableNotExistOption
-	25, // 8: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.if_exists:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableExistsOption
-	61, // 9: arrow.flight.protocol.sql.experimental:extendee -> google.protobuf.MessageOptions
-	10, // [10:10] is the sub-list for method output_type
-	10, // [10:10] is the sub-list for method input_type
-	10, // [10:10] is the sub-list for extension type_name
-	9,  // [9:10] is the sub-list for extension extendee
-	0,  // [0:9] is the sub-list for field type_name
-}
-
-func init() { file_FlightSql_proto_init() }
-func file_FlightSql_proto_init() {
-	if File_FlightSql_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_FlightSql_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetSqlInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetXdbcTypeInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetCatalogs); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetDbSchemas); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetTables); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetTableTypes); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[6].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetPrimaryKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[7].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetExportedKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[8].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetImportedKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[9].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetCrossReference); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[10].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedStatementRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[11].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SubstraitPlan); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[12].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedSubstraitPlanRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[13].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedStatementResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[14].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionClosePreparedStatementRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[15].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginTransactionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[16].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginSavepointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[17].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginTransactionResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[18].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginSavepointResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[19].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionEndTransactionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[20].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionEndSavepointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[21].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[22].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementSubstraitPlan); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[23].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*TicketStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[24].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandPreparedStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[25].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementUpdate); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[26].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandPreparedStatementUpdate); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[27].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementIngest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[28].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DoPutUpdateResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[29].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DoPutPreparedStatementResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[30].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCancelQueryRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[31].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCancelQueryResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[32].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementIngest_TableDefinitionOptions); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_FlightSql_proto_msgTypes[1].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[3].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[4].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[6].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[7].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[8].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[9].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[10].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[12].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[21].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[22].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[25].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[27].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[29].OneofWrappers = []interface{}{}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_FlightSql_proto_rawDesc,
-			NumEnums:      27,
-			NumMessages:   34,
-			NumExtensions: 1,
-			NumServices:   0,
-		},
-		GoTypes:           file_FlightSql_proto_goTypes,
-		DependencyIndexes: file_FlightSql_proto_depIdxs,
-		EnumInfos:         file_FlightSql_proto_enumTypes,
-		MessageInfos:      file_FlightSql_proto_msgTypes,
-		ExtensionInfos:    file_FlightSql_proto_extTypes,
-	}.Build()
-	File_FlightSql_proto = out.File
-	file_FlightSql_proto_rawDesc = nil
-	file_FlightSql_proto_goTypes = nil
-	file_FlightSql_proto_depIdxs = nil
-}
diff --git a/go/arrow/flight/gen/flight/Flight_grpc.pb.go b/go/arrow/flight/gen/flight/Flight_grpc.pb.go
deleted file mode 100644
index da5601b46ab95..0000000000000
--- a/go/arrow/flight/gen/flight/Flight_grpc.pb.go
+++ /dev/null
@@ -1,775 +0,0 @@
-// Code generated by protoc-gen-go-grpc. DO NOT EDIT.
-// versions:
-// - protoc-gen-go-grpc v1.2.0
-// - protoc             v4.25.3
-// source: Flight.proto
-
-package flight
-
-import (
-	context "context"
-
-	grpc "google.golang.org/grpc"
-	codes "google.golang.org/grpc/codes"
-	status "google.golang.org/grpc/status"
-)
-
-// This is a compile-time assertion to ensure that this generated file
-// is compatible with the grpc package it is being compiled against.
-// Requires gRPC-Go v1.32.0 or later.
-const _ = grpc.SupportPackageIsVersion7
-
-// FlightServiceClient is the client API for FlightService service.
-//
-// For semantics around ctx use and closing/ending streaming RPCs, please refer to https://pkg.go.dev/google.golang.org/grpc/?tab=doc#ClientConn.NewStream.
-type FlightServiceClient interface {
-	// Handshake between client and server. Depending on the server, the
-	// handshake may be required to determine the token that should be used for
-	// future operations. Both request and response are streams to allow multiple
-	// round-trips depending on auth mechanism.
-	Handshake(ctx context.Context, opts ...grpc.CallOption) (FlightService_HandshakeClient, error)
-	// Get a list of available streams given a particular criteria. Most flight
-	// services will expose one or more streams that are readily available for
-	// retrieval. This api allows listing the streams available for
-	// consumption. A user can also provide a criteria. The criteria can limit
-	// the subset of streams that can be listed via this interface. Each flight
-	// service allows its own definition of how to consume criteria.
-	ListFlights(ctx context.Context, in *Criteria, opts ...grpc.CallOption) (FlightService_ListFlightsClient, error)
-	// For a given FlightDescriptor, get information about how the flight can be
-	// consumed. This is a useful interface if the consumer of the interface
-	// already can identify the specific flight to consume. This interface can
-	// also allow a consumer to generate a flight stream through a specified
-	// descriptor. For example, a flight descriptor might be something that
-	// includes a SQL statement or a Pickled Python operation that will be
-	// executed. In those cases, the descriptor will not be previously available
-	// within the list of available streams provided by ListFlights but will be
-	// available for consumption for the duration defined by the specific flight
-	// service.
-	GetFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*FlightInfo, error)
-	// For a given FlightDescriptor, start a query and get information
-	// to poll its execution status. This is a useful interface if the
-	// query may be a long-running query. The first PollFlightInfo call
-	// should return as quickly as possible. (GetFlightInfo doesn't
-	// return until the query is complete.)
-	//
-	// A client can consume any available results before
-	// the query is completed. See PollInfo.info for details.
-	//
-	// A client can poll the updated query status by calling
-	// PollFlightInfo() with PollInfo.flight_descriptor. A server
-	// should not respond until the result would be different from last
-	// time. That way, the client can "long poll" for updates
-	// without constantly making requests. Clients can set a short timeout
-	// to avoid blocking calls if desired.
-	//
-	// A client can't use PollInfo.flight_descriptor after
-	// PollInfo.expiration_time passes. A server might not accept the
-	// retry descriptor anymore and the query may be cancelled.
-	//
-	// A client may use the CancelFlightInfo action with
-	// PollInfo.info to cancel the running query.
-	PollFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*PollInfo, error)
-	// For a given FlightDescriptor, get the Schema as described in Schema.fbs::Schema
-	// This is used when a consumer needs the Schema of flight stream. Similar to
-	// GetFlightInfo this interface may generate a new flight that was not previously
-	// available in ListFlights.
-	GetSchema(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*SchemaResult, error)
-	// Retrieve a single stream associated with a particular descriptor
-	// associated with the referenced ticket. A Flight can be composed of one or
-	// more streams where each stream can be retrieved using a separate opaque
-	// ticket that the flight service uses for managing a collection of streams.
-	DoGet(ctx context.Context, in *Ticket, opts ...grpc.CallOption) (FlightService_DoGetClient, error)
-	// Push a stream to the flight service associated with a particular
-	// flight stream. This allows a client of a flight service to upload a stream
-	// of data. Depending on the particular flight service, a client consumer
-	// could be allowed to upload a single stream per descriptor or an unlimited
-	// number. In the latter, the service might implement a 'seal' action that
-	// can be applied to a descriptor once all streams are uploaded.
-	DoPut(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoPutClient, error)
-	// Open a bidirectional data channel for a given descriptor. This
-	// allows clients to send and receive arbitrary Arrow data and
-	// application-specific metadata in a single logical stream. In
-	// contrast to DoGet/DoPut, this is more suited for clients
-	// offloading computation (rather than storage) to a Flight service.
-	DoExchange(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoExchangeClient, error)
-	// Flight services can support an arbitrary number of simple actions in
-	// addition to the possible ListFlights, GetFlightInfo, DoGet, DoPut
-	// operations that are potentially available. DoAction allows a flight client
-	// to do a specific action against a flight service. An action includes
-	// opaque request and response objects that are specific to the type action
-	// being undertaken.
-	DoAction(ctx context.Context, in *Action, opts ...grpc.CallOption) (FlightService_DoActionClient, error)
-	// A flight service exposes all of the available action types that it has
-	// along with descriptions. This allows different flight consumers to
-	// understand the capabilities of the flight service.
-	ListActions(ctx context.Context, in *Empty, opts ...grpc.CallOption) (FlightService_ListActionsClient, error)
-}
-
-type flightServiceClient struct {
-	cc grpc.ClientConnInterface
-}
-
-func NewFlightServiceClient(cc grpc.ClientConnInterface) FlightServiceClient {
-	return &flightServiceClient{cc}
-}
-
-func (c *flightServiceClient) Handshake(ctx context.Context, opts ...grpc.CallOption) (FlightService_HandshakeClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[0], "/arrow.flight.protocol.FlightService/Handshake", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceHandshakeClient{stream}
-	return x, nil
-}
-
-type FlightService_HandshakeClient interface {
-	Send(*HandshakeRequest) error
-	Recv() (*HandshakeResponse, error)
-	grpc.ClientStream
-}
-
-type flightServiceHandshakeClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceHandshakeClient) Send(m *HandshakeRequest) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceHandshakeClient) Recv() (*HandshakeResponse, error) {
-	m := new(HandshakeResponse)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) ListFlights(ctx context.Context, in *Criteria, opts ...grpc.CallOption) (FlightService_ListFlightsClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[1], "/arrow.flight.protocol.FlightService/ListFlights", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceListFlightsClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_ListFlightsClient interface {
-	Recv() (*FlightInfo, error)
-	grpc.ClientStream
-}
-
-type flightServiceListFlightsClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceListFlightsClient) Recv() (*FlightInfo, error) {
-	m := new(FlightInfo)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) GetFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*FlightInfo, error) {
-	out := new(FlightInfo)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/GetFlightInfo", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) PollFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*PollInfo, error) {
-	out := new(PollInfo)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/PollFlightInfo", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) GetSchema(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*SchemaResult, error) {
-	out := new(SchemaResult)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/GetSchema", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) DoGet(ctx context.Context, in *Ticket, opts ...grpc.CallOption) (FlightService_DoGetClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[2], "/arrow.flight.protocol.FlightService/DoGet", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoGetClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_DoGetClient interface {
-	Recv() (*FlightData, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoGetClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoGetClient) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoPut(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoPutClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[3], "/arrow.flight.protocol.FlightService/DoPut", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoPutClient{stream}
-	return x, nil
-}
-
-type FlightService_DoPutClient interface {
-	Send(*FlightData) error
-	Recv() (*PutResult, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoPutClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoPutClient) Send(m *FlightData) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceDoPutClient) Recv() (*PutResult, error) {
-	m := new(PutResult)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoExchange(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoExchangeClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[4], "/arrow.flight.protocol.FlightService/DoExchange", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoExchangeClient{stream}
-	return x, nil
-}
-
-type FlightService_DoExchangeClient interface {
-	Send(*FlightData) error
-	Recv() (*FlightData, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoExchangeClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoExchangeClient) Send(m *FlightData) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceDoExchangeClient) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoAction(ctx context.Context, in *Action, opts ...grpc.CallOption) (FlightService_DoActionClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[5], "/arrow.flight.protocol.FlightService/DoAction", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoActionClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_DoActionClient interface {
-	Recv() (*Result, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoActionClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoActionClient) Recv() (*Result, error) {
-	m := new(Result)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) ListActions(ctx context.Context, in *Empty, opts ...grpc.CallOption) (FlightService_ListActionsClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[6], "/arrow.flight.protocol.FlightService/ListActions", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceListActionsClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_ListActionsClient interface {
-	Recv() (*ActionType, error)
-	grpc.ClientStream
-}
-
-type flightServiceListActionsClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceListActionsClient) Recv() (*ActionType, error) {
-	m := new(ActionType)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-// FlightServiceServer is the server API for FlightService service.
-// All implementations must embed UnimplementedFlightServiceServer
-// for forward compatibility
-type FlightServiceServer interface {
-	// Handshake between client and server. Depending on the server, the
-	// handshake may be required to determine the token that should be used for
-	// future operations. Both request and response are streams to allow multiple
-	// round-trips depending on auth mechanism.
-	Handshake(FlightService_HandshakeServer) error
-	// Get a list of available streams given a particular criteria. Most flight
-	// services will expose one or more streams that are readily available for
-	// retrieval. This api allows listing the streams available for
-	// consumption. A user can also provide a criteria. The criteria can limit
-	// the subset of streams that can be listed via this interface. Each flight
-	// service allows its own definition of how to consume criteria.
-	ListFlights(*Criteria, FlightService_ListFlightsServer) error
-	// For a given FlightDescriptor, get information about how the flight can be
-	// consumed. This is a useful interface if the consumer of the interface
-	// already can identify the specific flight to consume. This interface can
-	// also allow a consumer to generate a flight stream through a specified
-	// descriptor. For example, a flight descriptor might be something that
-	// includes a SQL statement or a Pickled Python operation that will be
-	// executed. In those cases, the descriptor will not be previously available
-	// within the list of available streams provided by ListFlights but will be
-	// available for consumption for the duration defined by the specific flight
-	// service.
-	GetFlightInfo(context.Context, *FlightDescriptor) (*FlightInfo, error)
-	// For a given FlightDescriptor, start a query and get information
-	// to poll its execution status. This is a useful interface if the
-	// query may be a long-running query. The first PollFlightInfo call
-	// should return as quickly as possible. (GetFlightInfo doesn't
-	// return until the query is complete.)
-	//
-	// A client can consume any available results before
-	// the query is completed. See PollInfo.info for details.
-	//
-	// A client can poll the updated query status by calling
-	// PollFlightInfo() with PollInfo.flight_descriptor. A server
-	// should not respond until the result would be different from last
-	// time. That way, the client can "long poll" for updates
-	// without constantly making requests. Clients can set a short timeout
-	// to avoid blocking calls if desired.
-	//
-	// A client can't use PollInfo.flight_descriptor after
-	// PollInfo.expiration_time passes. A server might not accept the
-	// retry descriptor anymore and the query may be cancelled.
-	//
-	// A client may use the CancelFlightInfo action with
-	// PollInfo.info to cancel the running query.
-	PollFlightInfo(context.Context, *FlightDescriptor) (*PollInfo, error)
-	// For a given FlightDescriptor, get the Schema as described in Schema.fbs::Schema
-	// This is used when a consumer needs the Schema of flight stream. Similar to
-	// GetFlightInfo this interface may generate a new flight that was not previously
-	// available in ListFlights.
-	GetSchema(context.Context, *FlightDescriptor) (*SchemaResult, error)
-	// Retrieve a single stream associated with a particular descriptor
-	// associated with the referenced ticket. A Flight can be composed of one or
-	// more streams where each stream can be retrieved using a separate opaque
-	// ticket that the flight service uses for managing a collection of streams.
-	DoGet(*Ticket, FlightService_DoGetServer) error
-	// Push a stream to the flight service associated with a particular
-	// flight stream. This allows a client of a flight service to upload a stream
-	// of data. Depending on the particular flight service, a client consumer
-	// could be allowed to upload a single stream per descriptor or an unlimited
-	// number. In the latter, the service might implement a 'seal' action that
-	// can be applied to a descriptor once all streams are uploaded.
-	DoPut(FlightService_DoPutServer) error
-	// Open a bidirectional data channel for a given descriptor. This
-	// allows clients to send and receive arbitrary Arrow data and
-	// application-specific metadata in a single logical stream. In
-	// contrast to DoGet/DoPut, this is more suited for clients
-	// offloading computation (rather than storage) to a Flight service.
-	DoExchange(FlightService_DoExchangeServer) error
-	// Flight services can support an arbitrary number of simple actions in
-	// addition to the possible ListFlights, GetFlightInfo, DoGet, DoPut
-	// operations that are potentially available. DoAction allows a flight client
-	// to do a specific action against a flight service. An action includes
-	// opaque request and response objects that are specific to the type action
-	// being undertaken.
-	DoAction(*Action, FlightService_DoActionServer) error
-	// A flight service exposes all of the available action types that it has
-	// along with descriptions. This allows different flight consumers to
-	// understand the capabilities of the flight service.
-	ListActions(*Empty, FlightService_ListActionsServer) error
-	mustEmbedUnimplementedFlightServiceServer()
-}
-
-// UnimplementedFlightServiceServer must be embedded to have forward compatible implementations.
-type UnimplementedFlightServiceServer struct {
-}
-
-func (UnimplementedFlightServiceServer) Handshake(FlightService_HandshakeServer) error {
-	return status.Errorf(codes.Unimplemented, "method Handshake not implemented")
-}
-func (UnimplementedFlightServiceServer) ListFlights(*Criteria, FlightService_ListFlightsServer) error {
-	return status.Errorf(codes.Unimplemented, "method ListFlights not implemented")
-}
-func (UnimplementedFlightServiceServer) GetFlightInfo(context.Context, *FlightDescriptor) (*FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method GetFlightInfo not implemented")
-}
-func (UnimplementedFlightServiceServer) PollFlightInfo(context.Context, *FlightDescriptor) (*PollInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method PollFlightInfo not implemented")
-}
-func (UnimplementedFlightServiceServer) GetSchema(context.Context, *FlightDescriptor) (*SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method GetSchema not implemented")
-}
-func (UnimplementedFlightServiceServer) DoGet(*Ticket, FlightService_DoGetServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoGet not implemented")
-}
-func (UnimplementedFlightServiceServer) DoPut(FlightService_DoPutServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoPut not implemented")
-}
-func (UnimplementedFlightServiceServer) DoExchange(FlightService_DoExchangeServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoExchange not implemented")
-}
-func (UnimplementedFlightServiceServer) DoAction(*Action, FlightService_DoActionServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoAction not implemented")
-}
-func (UnimplementedFlightServiceServer) ListActions(*Empty, FlightService_ListActionsServer) error {
-	return status.Errorf(codes.Unimplemented, "method ListActions not implemented")
-}
-func (UnimplementedFlightServiceServer) mustEmbedUnimplementedFlightServiceServer() {}
-
-// UnsafeFlightServiceServer may be embedded to opt out of forward compatibility for this service.
-// Use of this interface is not recommended, as added methods to FlightServiceServer will
-// result in compilation errors.
-type UnsafeFlightServiceServer interface {
-	mustEmbedUnimplementedFlightServiceServer()
-}
-
-func RegisterFlightServiceServer(s grpc.ServiceRegistrar, srv FlightServiceServer) {
-	s.RegisterService(&FlightService_ServiceDesc, srv)
-}
-
-func _FlightService_Handshake_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).Handshake(&flightServiceHandshakeServer{stream})
-}
-
-type FlightService_HandshakeServer interface {
-	Send(*HandshakeResponse) error
-	Recv() (*HandshakeRequest, error)
-	grpc.ServerStream
-}
-
-type flightServiceHandshakeServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceHandshakeServer) Send(m *HandshakeResponse) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceHandshakeServer) Recv() (*HandshakeRequest, error) {
-	m := new(HandshakeRequest)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_ListFlights_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Criteria)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).ListFlights(m, &flightServiceListFlightsServer{stream})
-}
-
-type FlightService_ListFlightsServer interface {
-	Send(*FlightInfo) error
-	grpc.ServerStream
-}
-
-type flightServiceListFlightsServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceListFlightsServer) Send(m *FlightInfo) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_GetFlightInfo_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).GetFlightInfo(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/GetFlightInfo",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).GetFlightInfo(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_PollFlightInfo_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).PollFlightInfo(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/PollFlightInfo",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).PollFlightInfo(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_GetSchema_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).GetSchema(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/GetSchema",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).GetSchema(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_DoGet_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Ticket)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).DoGet(m, &flightServiceDoGetServer{stream})
-}
-
-type FlightService_DoGetServer interface {
-	Send(*FlightData) error
-	grpc.ServerStream
-}
-
-type flightServiceDoGetServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoGetServer) Send(m *FlightData) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_DoPut_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).DoPut(&flightServiceDoPutServer{stream})
-}
-
-type FlightService_DoPutServer interface {
-	Send(*PutResult) error
-	Recv() (*FlightData, error)
-	grpc.ServerStream
-}
-
-type flightServiceDoPutServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoPutServer) Send(m *PutResult) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceDoPutServer) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_DoExchange_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).DoExchange(&flightServiceDoExchangeServer{stream})
-}
-
-type FlightService_DoExchangeServer interface {
-	Send(*FlightData) error
-	Recv() (*FlightData, error)
-	grpc.ServerStream
-}
-
-type flightServiceDoExchangeServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoExchangeServer) Send(m *FlightData) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceDoExchangeServer) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_DoAction_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Action)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).DoAction(m, &flightServiceDoActionServer{stream})
-}
-
-type FlightService_DoActionServer interface {
-	Send(*Result) error
-	grpc.ServerStream
-}
-
-type flightServiceDoActionServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoActionServer) Send(m *Result) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_ListActions_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Empty)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).ListActions(m, &flightServiceListActionsServer{stream})
-}
-
-type FlightService_ListActionsServer interface {
-	Send(*ActionType) error
-	grpc.ServerStream
-}
-
-type flightServiceListActionsServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceListActionsServer) Send(m *ActionType) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-// FlightService_ServiceDesc is the grpc.ServiceDesc for FlightService service.
-// It's only intended for direct use with grpc.RegisterService,
-// and not to be introspected or modified (even as a copy)
-var FlightService_ServiceDesc = grpc.ServiceDesc{
-	ServiceName: "arrow.flight.protocol.FlightService",
-	HandlerType: (*FlightServiceServer)(nil),
-	Methods: []grpc.MethodDesc{
-		{
-			MethodName: "GetFlightInfo",
-			Handler:    _FlightService_GetFlightInfo_Handler,
-		},
-		{
-			MethodName: "PollFlightInfo",
-			Handler:    _FlightService_PollFlightInfo_Handler,
-		},
-		{
-			MethodName: "GetSchema",
-			Handler:    _FlightService_GetSchema_Handler,
-		},
-	},
-	Streams: []grpc.StreamDesc{
-		{
-			StreamName:    "Handshake",
-			Handler:       _FlightService_Handshake_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "ListFlights",
-			Handler:       _FlightService_ListFlights_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "DoGet",
-			Handler:       _FlightService_DoGet_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "DoPut",
-			Handler:       _FlightService_DoPut_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "DoExchange",
-			Handler:       _FlightService_DoExchange_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "DoAction",
-			Handler:       _FlightService_DoAction_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "ListActions",
-			Handler:       _FlightService_ListActions_Handler,
-			ServerStreams: true,
-		},
-	},
-	Metadata: "Flight.proto",
-}
diff --git a/go/arrow/flight/record_batch_reader.go b/go/arrow/flight/record_batch_reader.go
deleted file mode 100644
index 9067e9e2982e5..0000000000000
--- a/go/arrow/flight/record_batch_reader.go
+++ /dev/null
@@ -1,264 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"bytes"
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// DataStreamReader is an interface for receiving flight data messages on a stream
-// such as via grpc with Arrow Flight.
-type DataStreamReader interface {
-	Recv() (*FlightData, error)
-}
-
-type dataMessageReader struct {
-	rdr DataStreamReader
-
-	peeked   *FlightData
-	refCount int64
-	msg      *ipc.Message
-
-	lastAppMetadata []byte
-	descr           *FlightDescriptor
-}
-
-func (d *dataMessageReader) Message() (*ipc.Message, error) {
-	var (
-		fd  *FlightData
-		err error
-	)
-
-	if d.peeked != nil {
-		fd = d.peeked
-		d.peeked = nil
-	} else {
-		fd, err = d.rdr.Recv()
-	}
-
-	if err != nil {
-		if d.msg != nil {
-			// clear the previous message in the error case
-			d.msg.Release()
-			d.msg = nil
-		}
-		d.lastAppMetadata = nil
-		d.descr = nil
-		return nil, err
-	}
-
-	d.lastAppMetadata = fd.AppMetadata
-	d.descr = fd.FlightDescriptor
-	d.msg = ipc.NewMessage(memory.NewBufferBytes(fd.DataHeader), memory.NewBufferBytes(fd.DataBody))
-	return d.msg, nil
-}
-
-func (d *dataMessageReader) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-func (d *dataMessageReader) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		if d.msg != nil {
-			d.msg.Release()
-			d.msg = nil
-		}
-		d.lastAppMetadata = nil
-	}
-}
-
-// Reader is an ipc.Reader which also keeps track of the metadata from
-// the FlightData messages as they come in, calling LatestAppMetadata
-// will return the metadata bytes from the most recently read message.
-type Reader struct {
-	*ipc.Reader
-	dmr *dataMessageReader
-}
-
-// Retain increases the reference count for the underlying message reader
-// and ipc.Reader which are utilized by this Reader.
-func (r *Reader) Retain() {
-	r.Reader.Retain()
-	r.dmr.Retain()
-}
-
-// Release reduces the reference count for the underlying message reader
-// and ipc.Reader, when the reference counts become zero, the allocated
-// memory is released for the stored record and metadata.
-func (r *Reader) Release() {
-	r.Reader.Release()
-	r.dmr.Release()
-}
-
-// LatestAppMetadata returns the bytes from the AppMetadata field of the
-// most recently read FlightData message that was processed by calling
-// the Next function. The metadata returned would correspond to the record
-// retrieved by calling Record().
-func (r *Reader) LatestAppMetadata() []byte {
-	return r.dmr.lastAppMetadata
-}
-
-// LatestFlightDescriptor returns a pointer to the last FlightDescriptor object
-// that was received in the most recently read FlightData message that was
-// processed by calling the Next function. The descriptor returned would correspond
-// to the record retrieved by calling Record().
-func (r *Reader) LatestFlightDescriptor() *FlightDescriptor {
-	return r.dmr.descr
-}
-
-// Chunk is a convenience function to return a chunk of the flight stream
-// returning the RecordBatch along with the FlightDescriptor and any AppMetadata.
-// Each of these can be retrieved separately with their respective functions,
-// this is just a convenience to retrieve all three with one function call.
-func (r *Reader) Chunk() StreamChunk {
-	return StreamChunk{
-		Data:        r.Record(),
-		Desc:        r.dmr.descr,
-		AppMetadata: r.dmr.lastAppMetadata,
-	}
-}
-
-// NewRecordReader constructs an ipc reader using the flight data stream reader
-// as the source of the ipc messages, opts passed will be passed to the underlying
-// ipc.Reader such as ipc.WithSchema and ipc.WithAllocator
-func NewRecordReader(r DataStreamReader, opts ...ipc.Option) (*Reader, error) {
-	// peek the first message for a descriptor
-	data, err := r.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	rdr := &Reader{dmr: &dataMessageReader{rdr: r, refCount: 1}}
-	rdr.dmr.descr = data.FlightDescriptor
-	if len(data.DataHeader) > 0 {
-		rdr.dmr.peeked = data
-	}
-
-	rdr.dmr.Retain()
-	if rdr.Reader, err = ipc.NewReaderFromMessageReader(rdr.dmr, opts...); err != nil {
-		return nil, fmt.Errorf("arrow/flight: could not create flight reader: %w", err)
-	}
-
-	return rdr, nil
-}
-
-// DeserializeSchema takes the schema bytes from FlightInfo or SchemaResult
-// and returns the deserialized arrow schema.
-func DeserializeSchema(info []byte, mem memory.Allocator) (*arrow.Schema, error) {
-	// even though the Flight proto file says that the bytes should be the
-	// flatbuffer message as per Schema.fbs, the current implementations send
-	// a serialized recordbatch with no body rows rather than just the
-	// schema message. So let's make sure to follow that.
-	rdr, err := ipc.NewReader(bytes.NewReader(info), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-	defer rdr.Release()
-	return rdr.Schema(), nil
-}
-
-// StreamChunk represents a single chunk of a FlightData stream
-type StreamChunk struct {
-	Data        arrow.Record
-	Desc        *FlightDescriptor
-	AppMetadata []byte
-	Err         error
-}
-
-// MessageReader is an interface representing a RecordReader
-// that also provides StreamChunks and/or the ability to retrieve
-// FlightDescriptors and AppMetadata from the flight stream
-type MessageReader interface {
-	array.RecordReader
-	arrio.Reader
-	Err() error
-	Chunk() StreamChunk
-	LatestFlightDescriptor() *FlightDescriptor
-	LatestAppMetadata() []byte
-}
-
-type haserr interface {
-	Err() error
-}
-
-// StreamChunksFromReader is a convenience function to populate a channel
-// from a record reader. It is intended to be run using a separate goroutine
-// by calling `go flight.StreamChunksFromReader(rdr, ch)`.
-//
-// If the record reader panics, an error chunk will get sent on the channel.
-//
-// This will close the channel and release the reader when it completes.
-func StreamChunksFromReader(rdr array.RecordReader, ch chan<- StreamChunk) {
-	defer close(ch)
-	defer func() {
-		if err := recover(); err != nil {
-			ch <- StreamChunk{Err: utils.FormatRecoveredError("panic while reading", err)}
-		}
-	}()
-
-	defer rdr.Release()
-	for rdr.Next() {
-		rec := rdr.Record()
-		rec.Retain()
-		ch <- StreamChunk{Data: rec}
-	}
-
-	if e, ok := rdr.(haserr); ok {
-		if e.Err() != nil {
-			ch <- StreamChunk{Err: e.Err()}
-		}
-	}
-}
-
-func ConcatenateReaders(rdrs []array.RecordReader, ch chan<- StreamChunk) {
-	defer close(ch)
-	defer func() {
-		for _, r := range rdrs {
-			r.Release()
-		}
-
-		if err := recover(); err != nil {
-			ch <- StreamChunk{Err: utils.FormatRecoveredError("panic while reading", err)}
-		}
-	}()
-
-	for _, r := range rdrs {
-		for r.Next() {
-			rec := r.Record()
-			rec.Retain()
-			ch <- StreamChunk{Data: rec}
-		}
-		if e, ok := r.(haserr); ok {
-			if e.Err() != nil {
-				ch <- StreamChunk{Err: e.Err()}
-				return
-			}
-		}
-	}
-}
diff --git a/go/arrow/flight/record_batch_writer.go b/go/arrow/flight/record_batch_writer.go
deleted file mode 100644
index 27211277ab061..0000000000000
--- a/go/arrow/flight/record_batch_writer.go
+++ /dev/null
@@ -1,119 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"bytes"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// DataStreamWriter is an interface that represents an Arrow Flight stream
-// writer that writes FlightData objects
-type DataStreamWriter interface {
-	Send(*FlightData) error
-}
-
-type flightPayloadWriter struct {
-	w   DataStreamWriter
-	fd  FlightData
-	buf bytes.Buffer
-}
-
-func (f *flightPayloadWriter) Start() error { return nil }
-func (f *flightPayloadWriter) WritePayload(payload ipc.Payload) error {
-	m := payload.Meta()
-	defer m.Release()
-
-	f.fd.DataHeader = m.Bytes()
-	f.buf.Reset()
-
-	payload.SerializeBody(&f.buf)
-	f.fd.DataBody = f.buf.Bytes()
-
-	return f.w.Send(&f.fd)
-}
-
-func (f *flightPayloadWriter) Close() error { return nil }
-
-// Writer is an ipc.Writer which also adds a WriteWithAppMetadata function
-// in order to allow adding AppMetadata to the FlightData messages which
-// are written.
-type Writer struct {
-	*ipc.Writer
-	pw *flightPayloadWriter
-}
-
-// WriteMetadata writes a payload message to the stream containing only
-// the specified app metadata.
-func (w *Writer) WriteMetadata(appMetadata []byte) error {
-	return w.pw.w.Send(&FlightData{AppMetadata: appMetadata})
-}
-
-// SetFlightDescriptor sets the flight descriptor into the next payload that will
-// be written by the flight writer. It will only be put into the very next payload
-// and afterwards the writer will no longer keep it's pointer to the descriptor.
-func (w *Writer) SetFlightDescriptor(descr *FlightDescriptor) {
-	w.pw.fd.FlightDescriptor = descr
-}
-
-// Write writes a recordbatch payload and returns any error, implementing the arrio.Writer interface
-func (w *Writer) Write(rec arrow.Record) error {
-	if w.pw.fd.FlightDescriptor != nil {
-		defer func() {
-			w.pw.fd.FlightDescriptor = nil
-		}()
-	}
-	return w.Writer.Write(rec)
-}
-
-// WriteWithAppMetadata will write this record with the supplied application
-// metadata attached in the flightData message.
-func (w *Writer) WriteWithAppMetadata(rec arrow.Record, appMeta []byte) error {
-	w.pw.fd.AppMetadata = appMeta
-	defer func() {
-		w.pw.fd.AppMetadata = nil
-	}()
-	return w.Write(rec)
-}
-
-// NewRecordWriter can be used to construct a writer for arrow flight via
-// the grpc stream handler to write flight data objects and write
-// record batches to the stream. Options passed here will be passed to
-// ipc.NewWriter
-func NewRecordWriter(w DataStreamWriter, opts ...ipc.Option) *Writer {
-	pw := &flightPayloadWriter{w: w}
-	return &Writer{Writer: ipc.NewWriterWithPayloadWriter(pw, opts...), pw: pw}
-}
-
-// SerializeSchema returns the serialized schema bytes for use in Arrow Flight
-// protobuf messages.
-func SerializeSchema(rec *arrow.Schema, mem memory.Allocator) []byte {
-	// even though the spec says to send the message as in Schema.fbs,
-	// it looks like all the implementations actually send a fully serialized
-	// record batch just with no rows. So let's follow that pattern.
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec), ipc.WithAllocator(mem))
-	w.Close()
-	return buf.Bytes()
-}
-
-type MetadataWriter interface {
-	WriteMetadata([]byte) error
-}
diff --git a/go/arrow/flight/server.go b/go/arrow/flight/server.go
deleted file mode 100644
index b67e52f4357ce..0000000000000
--- a/go/arrow/flight/server.go
+++ /dev/null
@@ -1,405 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"fmt"
-	"net"
-	"os"
-	"os/signal"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/grpc"
-)
-
-type (
-	FlightServer                    = flight.FlightServiceServer
-	FlightService_HandshakeServer   = flight.FlightService_HandshakeServer
-	HandshakeResponse               = flight.HandshakeResponse
-	HandshakeRequest                = flight.HandshakeRequest
-	FlightService_ListFlightsServer = flight.FlightService_ListFlightsServer
-	FlightService_DoGetServer       = flight.FlightService_DoGetServer
-	FlightService_DoPutServer       = flight.FlightService_DoPutServer
-	FlightService_DoExchangeServer  = flight.FlightService_DoExchangeServer
-	FlightService_DoActionServer    = flight.FlightService_DoActionServer
-	FlightService_ListActionsServer = flight.FlightService_ListActionsServer
-	Criteria                        = flight.Criteria
-	FlightDescriptor                = flight.FlightDescriptor
-	FlightEndpoint                  = flight.FlightEndpoint
-	Location                        = flight.Location
-	FlightInfo                      = flight.FlightInfo
-	PollInfo                        = flight.PollInfo
-	FlightData                      = flight.FlightData
-	PutResult                       = flight.PutResult
-	Ticket                          = flight.Ticket
-	SchemaResult                    = flight.SchemaResult
-	Action                          = flight.Action
-	ActionType                      = flight.ActionType
-	CancelFlightInfoRequest         = flight.CancelFlightInfoRequest
-	RenewFlightEndpointRequest      = flight.RenewFlightEndpointRequest
-	Result                          = flight.Result
-	CancelFlightInfoResult          = flight.CancelFlightInfoResult
-	CancelStatus                    = flight.CancelStatus
-	SessionOptionValue              = flight.SessionOptionValue
-	SetSessionOptionsRequest        = flight.SetSessionOptionsRequest
-	SetSessionOptionsResult         = flight.SetSessionOptionsResult
-	SetSessionOptionsResultError    = flight.SetSessionOptionsResult_Error
-	GetSessionOptionsRequest        = flight.GetSessionOptionsRequest
-	GetSessionOptionsResult         = flight.GetSessionOptionsResult
-	CloseSessionRequest             = flight.CloseSessionRequest
-	CloseSessionResult              = flight.CloseSessionResult
-	Empty                           = flight.Empty
-)
-
-// Constants for Action types
-const (
-	CancelFlightInfoActionType    = "CancelFlightInfo"
-	RenewFlightEndpointActionType = "RenewFlightEndpoint"
-	SetSessionOptionsActionType   = "SetSessionOptions"
-	GetSessionOptionsActionType   = "GetSessionOptions"
-	CloseSessionActionType        = "CloseSession"
-)
-
-const (
-	// The set option error is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	SetSessionOptionsResultErrorUnspecified = flight.SetSessionOptionsResult_UNSPECIFIED
-	// The given session option name is invalid.
-	SetSessionOptionsResultErrorInvalidName = flight.SetSessionOptionsResult_INVALID_NAME
-	// The session option value or type is invalid.
-	SetSessionOptionsResultErrorInvalidValue = flight.SetSessionOptionsResult_INVALID_VALUE
-	// The session option cannot be set.
-	SetSessionOptionsResultErrorError = flight.SetSessionOptionsResult_ERROR
-)
-
-const (
-	// The close session status is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	CloseSessionResultUnspecified = flight.CloseSessionResult_UNSPECIFIED
-	// The session close request is complete.
-	CloseSessionResultClosed = flight.CloseSessionResult_CLOSED
-	// The session close request is in progress. The client may retry the request.
-	CloseSessionResultClosing = flight.CloseSessionResult_CLOSING
-	// The session is not closeable.
-	CloseSessionResultNotCloseable = flight.CloseSessionResult_NOT_CLOSEABLE
-)
-
-// NewSessionOptionValues returns a map with the same keys as the input map, but with all values converted
-// to SessionOptionValues. If any values fail conversion, an error will be returned.
-func NewSessionOptionValues(options map[string]any) (map[string]*flight.SessionOptionValue, error) {
-	sessionOptions := make(map[string]*flight.SessionOptionValue, len(options))
-	for key, val := range options {
-		optval, err := NewSessionOptionValue(val)
-		if err != nil {
-			return nil, err
-		}
-		sessionOptions[key] = &optval
-	}
-
-	return sessionOptions, nil
-}
-
-// NewSessionOptionValue takes any value and constructs a SessionOptionValue suitable for setting session values.
-// An error will be returned if the value is not one of the types supported by SessionOptionValue.
-func NewSessionOptionValue(value any) (flight.SessionOptionValue, error) {
-	if value == nil {
-		return flight.SessionOptionValue{}, nil
-	}
-
-	switch val := value.(type) {
-	case string:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_StringValue{StringValue: val}}, nil
-	case bool:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_BoolValue{BoolValue: val}}, nil
-	case int64:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_Int64Value{Int64Value: val}}, nil
-	case float64:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_DoubleValue{DoubleValue: val}}, nil
-	case []string:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_StringListValue_{StringListValue: &flight.SessionOptionValue_StringListValue{Values: val}}}, nil
-	default:
-		return flight.SessionOptionValue{}, fmt.Errorf("invalid option type %[1]T for value %[1]v", val)
-	}
-}
-
-// Constants for CancelStatus
-const (
-	// The cancellation status is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	CancelStatusUnspecified = flight.CancelStatus_CANCEL_STATUS_UNSPECIFIED
-	// The cancellation request is complete. Subsequent requests
-	// with the same payload may return CancelStatusCancelled or a
-	// arrow.ErrNotFound error.
-	CancelStatusCancelled = flight.CancelStatus_CANCEL_STATUS_CANCELLED
-	// The cancellation request is in progress. The client may
-	// retry the cancellation request.
-	CancelStatusCancelling = flight.CancelStatus_CANCEL_STATUS_CANCELLING
-	// The FlightInfo is not cancellable. The client should not
-	// retry the cancellation request.
-	CancelStatusNotCancellable = flight.CancelStatus_CANCEL_STATUS_NOT_CANCELLABLE
-)
-
-// Constants for Location
-const (
-	// LocationReuseConnection is a special location that tells clients
-	// they may fetch the data from the same service that they obtained
-	// the FlightEndpoint response from.
-	LocationReuseConnection = "arrow-flight-reuse-connection://?"
-)
-
-// RegisterFlightServiceServer registers an existing flight server onto an
-// existing grpc server, or anything that is a grpc service registrar.
-func RegisterFlightServiceServer(s *grpc.Server, srv FlightServer) {
-	flight.RegisterFlightServiceServer(s, srv)
-}
-
-// From https://github.com/grpc/grpc-go/blob/4c776ec01572d55249df309251900554b46adb41/reflection/serverreflection.go#L69-L83
-// This interface is inlined to make this arrow library compatible with
-// grpc < 1.45 .
-// See "google.golang.org/grpc/reflection" 's reflection.ServiceInfoProvider .
-// serviceInfoProvider is an interface used to retrieve metadata about the
-// services to expose.
-//
-// The reflection service is only interested in the service names, but the
-// signature is this way so that *grpc.Server implements it. So it is okay
-// for a custom implementation to return zero values for the
-// grpc.ServiceInfo values in the map.
-//
-// # Experimental
-//
-// Notice: This type is EXPERIMENTAL and may be changed or removed in a
-// later release.
-type serviceInfoProvider interface {
-	GetServiceInfo() map[string]grpc.ServiceInfo
-}
-
-// Server is an interface for hiding some of the grpc specifics to make
-// it slightly easier to manage a flight service, slightly modeled after
-// the C++ implementation
-type Server interface {
-	// Init takes in the address to bind to and creates the listener. If both this
-	// and InitListener are called, then whichever was called last will be used.
-	Init(addr string) error
-	// InitListener initializes with an already created listener rather than
-	// creating a new one like Init does. If both this and Init are called,
-	// whichever was called last is what will be used as they both set a listener
-	// into the server.
-	InitListener(lis net.Listener)
-	// Addr will return the address that was bound to for the service to listen on
-	Addr() net.Addr
-	// SetShutdownOnSignals sets notifications on the given signals to call GracefulStop
-	// on the grpc service if any of those signals are received
-	SetShutdownOnSignals(sig ...os.Signal)
-	// Serve blocks until accepting a connection fails with a fatal error. It will return
-	// a non-nil error unless it stopped due to calling Shutdown or receiving one of the
-	// signals set in SetShutdownOnSignals
-	Serve() error
-	// Shutdown will call GracefulStop on the grpc server so that it stops accepting connections
-	// and will wait until current methods complete
-	Shutdown()
-	// RegisterFlightService sets up the handler for the Flight Endpoints as per
-	// normal Grpc setups
-	RegisterFlightService(FlightServer)
-	// ServiceRegistrar wraps a single method that supports service registration.
-	// For example, it may be used to register health check provided by grpc-go.
-	grpc.ServiceRegistrar
-	// serviceInfoProvider is an interface used to retrieve metadata about the services to expose.
-	// If reflection is enabled on the server, all the endpoints can be invoked using grpcurl.
-	serviceInfoProvider
-}
-
-// BaseFlightServer is the base flight server implementation and must be
-// embedded in any server implementation to ensure forward compatibility
-// with any modifications of the spec without compiler errors.
-type BaseFlightServer struct {
-	flight.UnimplementedFlightServiceServer
-	authHandler ServerAuthHandler
-}
-
-func (s *BaseFlightServer) GetAuthHandler() ServerAuthHandler { return s.authHandler }
-
-func (s *BaseFlightServer) SetAuthHandler(handler ServerAuthHandler) {
-	s.authHandler = handler
-}
-
-func (s *BaseFlightServer) Handshake(stream flight.FlightService_HandshakeServer) error {
-	if s.authHandler == nil {
-		return nil
-	}
-
-	return s.authHandler.Authenticate(&serverAuthConn{stream})
-}
-
-// CustomerServerMiddleware is a helper interface for more easily defining custom
-// grpc middleware without having to expose or understand all the grpc bells and whistles.
-type CustomServerMiddleware interface {
-	// StartCall will be called with the current context of the call, grpc.SetHeader can be used to add outgoing headers
-	// if the returned context is non-nil, then it will be used as the new context being passed through the calls
-	StartCall(ctx context.Context) context.Context
-	// CallCompleted is a callback which is called with the return from the handler
-	// it will be nil if everything was successful or will be the error about to be returned
-	// to grpc
-	CallCompleted(ctx context.Context, err error)
-}
-
-// CreateServerMiddlware constructs a ServerMiddleware object for the passed in custom
-// middleware, generating both the Unary and Stream interceptors from the interface.
-func CreateServerMiddleware(middleware CustomServerMiddleware) ServerMiddleware {
-	return ServerMiddleware{
-		Unary: func(ctx context.Context, req interface{}, _ *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (ret interface{}, err error) {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			ret, err = handler(ctx, req)
-			middleware.CallCompleted(ctx, err)
-			return
-		},
-		Stream: func(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-			ctx := middleware.StartCall(stream.Context())
-			if ctx != nil {
-				stream = &wrappedStream{ServerStream: stream, ctx: ctx}
-			}
-
-			err := handler(srv, stream)
-			middleware.CallCompleted(stream.Context(), err)
-			return err
-		},
-	}
-}
-
-type ServerMiddleware struct {
-	Stream grpc.StreamServerInterceptor
-	Unary  grpc.UnaryServerInterceptor
-}
-
-type server struct {
-	lis        net.Listener
-	sigChannel <-chan os.Signal
-	done       chan bool
-
-	server *grpc.Server
-}
-
-// NewFlightServer takes any grpc Server options desired, such as TLS certs and so
-// on which will just be passed through to the underlying grpc server.
-//
-// Alternatively, a grpc server can be created normally without this helper as the
-// grpc server generated code is still being exported. This only exists to allow
-// the utility of the helpers
-//
-// Deprecated: prefer to use NewServerWithMiddleware, due to auth handler middleware
-// this function will be problematic if any of the grpc options specify other middleware.
-func NewFlightServer(opt ...grpc.ServerOption) Server {
-	opt = append([]grpc.ServerOption{
-		grpc.ChainStreamInterceptor(serverAuthStreamInterceptor),
-		grpc.ChainUnaryInterceptor(serverAuthUnaryInterceptor),
-	}, opt...)
-
-	return &server{
-		server: grpc.NewServer(opt...),
-	}
-}
-
-// NewServerWithMiddleware takes a slice of middleware which will be used
-// by grpc and chained, the first middleware will be the outer most with the last
-// middleware being the inner most wrapper around the actual call. It also takes
-// any grpc Server options desired, such as TLS certs and so on which will just
-// be passed through to the underlying grpc server.
-//
-// Because of the usage of `ChainStreamInterceptor` and `ChainUnaryInterceptor` do
-// not specify any middleware using the grpc options, use the ServerMiddleware slice
-// instead as the auth middleware will be added for handling the case that a service
-// handler is registered that uses the ServerAuthHandler.
-//
-// Alternatively, a grpc server can be created normally without this helper as the
-// grpc server generated code is still being exported. This only exists to allow
-// the utility of the helpers.
-func NewServerWithMiddleware(middleware []ServerMiddleware, opts ...grpc.ServerOption) Server {
-	unary := make([]grpc.UnaryServerInterceptor, 1, len(middleware)+1)
-	unary[0] = serverAuthUnaryInterceptor
-	stream := make([]grpc.StreamServerInterceptor, 1, len(middleware)+1)
-	stream[0] = serverAuthStreamInterceptor
-
-	if len(middleware) > 0 {
-		for _, m := range middleware {
-			if m.Unary != nil {
-				unary = append(unary, m.Unary)
-			}
-			if m.Stream != nil {
-				stream = append(stream, m.Stream)
-			}
-		}
-	}
-	opts = append(opts, grpc.ChainUnaryInterceptor(unary...), grpc.ChainStreamInterceptor(stream...))
-
-	return &server{server: grpc.NewServer(opts...)}
-}
-
-func (s *server) Init(addr string) (err error) {
-	s.lis, err = net.Listen("tcp", addr)
-	return
-}
-
-func (s *server) InitListener(lis net.Listener) {
-	s.lis = lis
-}
-
-func (s *server) Addr() net.Addr {
-	return s.lis.Addr()
-}
-
-func (s *server) SetShutdownOnSignals(sig ...os.Signal) {
-	c := make(chan os.Signal, 1)
-	signal.Notify(c, sig...)
-	s.sigChannel = c
-}
-
-func (s *server) Serve() error {
-	s.done = make(chan bool)
-	go func() {
-		select {
-		case <-s.sigChannel:
-			s.server.GracefulStop()
-		case <-s.done:
-		}
-	}()
-	err := s.server.Serve(s.lis)
-	close(s.done)
-	return err
-}
-
-func (s *server) RegisterFlightService(svc FlightServer) {
-	flight.RegisterFlightServiceServer(s.server, svc)
-}
-
-func (s *server) Shutdown() {
-	s.server.GracefulStop()
-}
-
-func (s *server) RegisterService(sd *grpc.ServiceDesc, ss interface{}) {
-	s.server.RegisterService(sd, ss)
-}
-
-func (s *server) GetServiceInfo() map[string]grpc.ServiceInfo {
-	return s.server.GetServiceInfo()
-}
diff --git a/go/arrow/flight/server_auth.go b/go/arrow/flight/server_auth.go
deleted file mode 100644
index cc78d85abd7e8..0000000000000
--- a/go/arrow/flight/server_auth.go
+++ /dev/null
@@ -1,245 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"encoding/base64"
-	"strings"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-)
-
-const (
-	grpcAuthHeader    = "auth-token-bin"
-	basicAuthHeader   = "authorization"
-	basicAuthPrefix   = "Basic"
-	bearerTokenPrefix = "Bearer"
-)
-
-// AuthConn wraps the stream from grpc for handshakes to simplify handling
-// handshake request and response from the flight.proto forwarding just the
-// payloads and errors instead of having to deal with the handshake request
-// and response protos directly
-type AuthConn interface {
-	Read() ([]byte, error)
-	Send([]byte) error
-}
-
-type serverAuthConn struct {
-	stream FlightService_HandshakeServer
-}
-
-func (a *serverAuthConn) Read() ([]byte, error) {
-	in, err := a.stream.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	return in.Payload, nil
-}
-
-func (a *serverAuthConn) Send(b []byte) error {
-	return a.stream.Send(&HandshakeResponse{Payload: b})
-}
-
-// ServerAuthHandler defines an interface for the server to perform the handshake.
-// The token is expected to be sent as part of the context metadata in subsequent
-// requests with a key of "auth-token-bin" which will then call IsValid to validate
-type ServerAuthHandler interface {
-	Authenticate(AuthConn) error
-	IsValid(token string) (interface{}, error)
-}
-
-type authCtxKey struct{}
-
-type wrappedStream struct {
-	grpc.ServerStream
-	ctx context.Context
-}
-
-func (a *wrappedStream) Context() context.Context { return a.ctx }
-
-// AuthFromContext will return back whatever object was returned from `IsValid` for a
-// given request context allowing handlers to retrieve identifying information
-// for the current request for use.
-func AuthFromContext(ctx context.Context) interface{} {
-	return ctx.Value(authCtxKey{})
-}
-
-type serverWithAuthHandler interface {
-	GetAuthHandler() ServerAuthHandler
-}
-
-func serverAuthUnaryInterceptor(ctx context.Context, req interface{}, srv *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (interface{}, error) {
-	var auth ServerAuthHandler
-	if s, ok := srv.Server.(serverWithAuthHandler); ok {
-		auth = s.GetAuthHandler()
-	}
-
-	if auth == nil {
-		return handler(ctx, req)
-	}
-
-	var authTok string
-	md, ok := metadata.FromIncomingContext(ctx)
-	if ok {
-		vals := md.Get(grpcAuthHeader)
-		if len(vals) > 0 {
-			authTok = vals[0]
-		}
-	}
-
-	peerIdentity, err := auth.IsValid(authTok)
-	if err != nil {
-		return nil, status.Errorf(codes.PermissionDenied, "auth-error: %s", err)
-	}
-
-	return handler(context.WithValue(ctx, authCtxKey{}, peerIdentity), req)
-}
-
-func serverAuthStreamInterceptor(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-	var auth ServerAuthHandler
-	if s, ok := srv.(serverWithAuthHandler); ok {
-		auth = s.GetAuthHandler()
-	}
-
-	if strings.HasSuffix(info.FullMethod, "/Handshake") || auth == nil {
-		return handler(srv, stream)
-	}
-
-	var authTok string
-	md, ok := metadata.FromIncomingContext(stream.Context())
-	if ok {
-		vals := md.Get(grpcAuthHeader)
-		if len(vals) > 0 {
-			authTok = vals[0]
-		}
-	}
-
-	peerIdentity, err := auth.IsValid(authTok)
-	if err != nil {
-		return status.Errorf(codes.Unauthenticated, "auth-error: %s", err)
-	}
-
-	stream = &wrappedStream{ServerStream: stream, ctx: context.WithValue(stream.Context(), authCtxKey{}, peerIdentity)}
-	return handler(srv, stream)
-}
-
-type BasicAuthValidator interface {
-	Validate(username, password string) (string, error)
-	IsValid(bearerToken string) (interface{}, error)
-}
-
-func createServerBearerTokenUnaryInterceptor(validator BasicAuthValidator) grpc.UnaryServerInterceptor {
-	return func(ctx context.Context, req interface{}, _ *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (interface{}, error) {
-		var auth string
-		md, ok := metadata.FromIncomingContext(ctx)
-		if ok {
-			vals := md.Get(basicAuthHeader)
-			if len(vals) > 0 && strings.HasPrefix(vals[0], bearerTokenPrefix) {
-				auth = vals[0][len(bearerTokenPrefix)+1:]
-			}
-		}
-
-		identity, err := validator.IsValid(auth)
-		if err != nil {
-			return nil, err
-		}
-
-		return handler(context.WithValue(ctx, authCtxKey{}, identity), req)
-	}
-}
-
-func createServerBearerTokenStreamInterceptor(validator BasicAuthValidator) grpc.StreamServerInterceptor {
-	return func(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-		var auth []string
-		md, ok := metadata.FromIncomingContext(stream.Context())
-		if ok {
-			auth = md.Get(basicAuthHeader)
-			if len(auth) > 0 {
-				auth = strings.Split(auth[0], " ")
-			}
-		}
-
-		if len(auth) == 0 {
-			return status.Error(codes.Unauthenticated, "must authenticate first")
-		}
-
-		if strings.HasSuffix(info.FullMethod, "/Handshake") {
-			if auth[0] == basicAuthPrefix {
-				val, err := base64.RawStdEncoding.DecodeString(auth[1])
-				if err != nil {
-					val, err = base64.StdEncoding.DecodeString(auth[1])
-					if err != nil {
-						return status.Errorf(codes.Unauthenticated, "invalid basic auth encoding: %s", err)
-					}
-				}
-
-				creds := strings.SplitN(string(val), ":", 2)
-				token, err := validator.Validate(creds[0], creds[1])
-				if err != nil {
-					return err
-				}
-
-				stream.SetTrailer(metadata.New(map[string]string{basicAuthHeader: strings.Join([]string{bearerTokenPrefix, token}, " ")}))
-				return handler(srv, stream)
-			}
-			return status.Errorf(codes.Unauthenticated, "only Basic Auth implemented")
-		}
-
-		if auth[0] == bearerTokenPrefix {
-			identity, err := validator.IsValid(auth[1])
-			if err != nil {
-				return err
-			}
-			return handler(srv, &wrappedStream{ServerStream: stream, ctx: context.WithValue(stream.Context(), authCtxKey{}, identity)})
-		}
-		return status.Errorf(codes.Unauthenticated, "Only bearer token auth implemented")
-	}
-}
-
-// CreateServerBearerTokenAuthInterceptors returns grpc interceptors for basic auth handling
-// via bearer tokens. validator cannot be nil
-//
-// Deprecated: use CreateServerBasicAuthMiddleware instead
-func CreateServerBearerTokenAuthInterceptors(validator BasicAuthValidator) (grpc.UnaryServerInterceptor, grpc.StreamServerInterceptor) {
-	if validator == nil {
-		panic("validator cannot be nil")
-	}
-
-	return createServerBearerTokenUnaryInterceptor(validator), createServerBearerTokenStreamInterceptor(validator)
-}
-
-// CreateServerBasicAuthMiddleware returns a ServerMiddleware that can be passed to NewServerWithMiddleware
-// in order to automatically add interceptors which will properly enforce auth validation
-// as per the passed in BasicAuthValidator.
-//
-// validator cannot be nil.
-func CreateServerBasicAuthMiddleware(validator BasicAuthValidator) ServerMiddleware {
-	if validator == nil {
-		panic("validator cannot be nil")
-	}
-
-	return ServerMiddleware{
-		Unary:  createServerBearerTokenUnaryInterceptor(validator),
-		Stream: createServerBearerTokenStreamInterceptor(validator),
-	}
-}
diff --git a/go/arrow/flight/server_example_test.go b/go/arrow/flight/server_example_test.go
deleted file mode 100644
index 60e5ec8f4e381..0000000000000
--- a/go/arrow/flight/server_example_test.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"fmt"
-	"net"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/health"
-	healthgrpc "google.golang.org/grpc/health/grpc_health_v1"
-)
-
-func ExampleRegisterFlightServiceServer() {
-	s := grpc.NewServer()
-	healthSrv := health.NewServer()
-	healthgrpc.RegisterHealthServer(s, healthSrv)
-
-	// add methods to this to override the desired methods
-	// like DoGet, DoPut, etc.
-	server := struct {
-		flight.BaseFlightServer
-	}{}
-
-	flight.RegisterFlightServiceServer(s, &server)
-	healthSrv.SetServingStatus("test", healthgrpc.HealthCheckResponse_SERVING)
-
-	lis, err := net.Listen("tcp", "localhost:0")
-	if err != nil {
-		panic(err)
-	}
-	go s.Serve(lis)
-	defer s.Stop()
-
-	conn, err := grpc.DialContext(context.Background(), lis.Addr().String(),
-		grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		panic(err)
-	}
-	defer conn.Close()
-
-	hc := healthgrpc.NewHealthClient(conn)
-	rsp, err := hc.Check(context.Background(), &healthgrpc.HealthCheckRequest{Service: "test"})
-	if err != nil {
-		panic(err)
-	}
-
-	fmt.Println(rsp.Status)
-	fc := flight.NewClientFromConn(conn, nil)
-	if err != nil {
-		panic(err)
-	}
-
-	// we didn't implement GetFlightInfo so we should get an Unimplemented
-	// error, proving it did call into the base flight server. If we didn't
-	// register the service, we'd get an error that says "unknown service arrow.flight.protocol.FlightService"
-	_, err = fc.GetFlightInfo(context.Background(), &flight.FlightDescriptor{})
-	fmt.Println(err)
-
-	// Output:
-	// SERVING
-	// rpc error: code = Unimplemented desc = method GetFlightInfo not implemented
-}
diff --git a/go/arrow/flight/session/cookies.go b/go/arrow/flight/session/cookies.go
deleted file mode 100644
index 85dc5d10941ab..0000000000000
--- a/go/arrow/flight/session/cookies.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"fmt"
-	"net/http"
-
-	"google.golang.org/grpc/metadata"
-)
-
-func GetIncomingCookieByName(ctx context.Context, name string) (http.Cookie, error) {
-	md, ok := metadata.FromIncomingContext(ctx)
-	if !ok {
-		return http.Cookie{}, fmt.Errorf("no metadata found for incoming context")
-	}
-
-	header := make(http.Header, md.Len())
-	for k, v := range md {
-		for _, val := range v {
-			header.Add(k, val)
-		}
-	}
-
-	cookie, err := (&http.Request{Header: header}).Cookie(name)
-	if err != nil {
-		return http.Cookie{}, err
-	}
-
-	if cookie == nil {
-		return http.Cookie{}, fmt.Errorf("failed to get cookie with name: %s", name)
-	}
-
-	return *cookie, nil
-}
-
-func CreateCookieForSession(session ServerSession) (http.Cookie, error) {
-	var key string
-
-	if session == nil {
-		return http.Cookie{}, ErrNoSession
-	}
-
-	switch s := session.(type) {
-	case *statefulServerSession:
-		key = StatefulSessionCookieName
-	case *statelessServerSession:
-		key = StatelessSessionCookieName
-	default:
-		return http.Cookie{}, fmt.Errorf("cannot serialize session of type %T as cookie", s)
-	}
-
-	// Reuse the std http lib functionality for constructing cookies
-	cookie, err := (&http.Request{
-		Header: http.Header{"Cookie": []string{fmt.Sprintf("%s=%s", key, session.Token())}},
-	}).Cookie(key)
-	if err != nil {
-		return http.Cookie{}, err
-	}
-	if cookie == nil {
-		return http.Cookie{}, fmt.Errorf("failed to construct cookie for session: %s", session.Token())
-	}
-
-	return *cookie, nil
-}
diff --git a/go/arrow/flight/session/example_session_test.go b/go/arrow/flight/session/example_session_test.go
deleted file mode 100644
index 5a9e7e83d21e0..0000000000000
--- a/go/arrow/flight/session/example_session_test.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session_test
-
-import (
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/google/uuid"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-func Example_defaultMiddleware() {
-	// Setup server with default session middleware
-	middleware := session.NewServerSessionMiddleware(nil)
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&flightsql.BaseServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	// Client will require cookie middleware in order to handle cookie-based server sessions
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		grpc.WithTransportCredentials(insecure.NewCredentials()),
-	)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer client.Close()
-
-}
-
-func Example_customStatefulMiddleware() {
-	// Generate IDs for new sessions using provided function
-	factory := session.NewSessionFactory(uuid.NewString)
-
-	// Create a SessionStore to persist sessions.
-	// In-memory store is default; you may provide your own implementation.
-	store := session.NewSessionStore()
-
-	// Construct the middleware with the custom manager.
-	manager := session.NewStatefulServerSessionManager(session.WithFactory(factory), session.WithStore(store))
-	middleware := session.NewServerSessionMiddleware(manager)
-	_ = middleware // ... remaining setup is the same as DefaultMiddleware example
-}
-
-func Example_statelessMiddleware() {
-	// Construct the middleware with the stateless manager.
-	manager := session.NewStatelessServerSessionManager()
-	middleware := session.NewServerSessionMiddleware(manager)
-	_ = middleware // ... remaining setup is the same as DefaultMiddleware example
-}
diff --git a/go/arrow/flight/session/session.go b/go/arrow/flight/session/session.go
deleted file mode 100644
index 508f79befc258..0000000000000
--- a/go/arrow/flight/session/session.go
+++ /dev/null
@@ -1,240 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package session provides server middleware and reference implementations for Flight session management.
-//
-// For more details on the Flight Session Specification, see:
-// https://arrow.apache.org/docs/format/FlightSql.html#flight-server-session-management
-//
-// [NewServerSessionMiddleware] manages sessions using cookies, so any client would need its own
-// middleware/support for storing and sending those cookies. The cookies may be stateful or stateless:
-//
-//   - [NewStatefulServerSessionManager] implements stateful cookies.
-//
-//   - [NewStatelessServerSessionManager] implements stateless cookies.
-//
-// See details of either implementation for caveats and recommended usage scenarios.
-package session
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"net/http"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/protobuf/proto"
-)
-
-var ErrNoSession error = errors.New("flight: server session not present")
-
-type sessionMiddlewareKey struct{}
-
-// NewSessionContex returns a copy of the provided context containing the provided ServerSession
-func NewSessionContext(ctx context.Context, session ServerSession) context.Context {
-	return context.WithValue(ctx, sessionMiddlewareKey{}, session)
-}
-
-// GetSessionFromContext retrieves the ServerSession from the provided context if it exists.
-// An error indicates that the session was not found in the context.
-func GetSessionFromContext(ctx context.Context) (ServerSession, error) {
-	session, ok := ctx.Value(sessionMiddlewareKey{}).(ServerSession)
-	if !ok {
-		return nil, ErrNoSession
-	}
-	return session, nil
-}
-
-// ServerSession is a container for named SessionOptionValues
-type ServerSession interface {
-	// An identifier for the session that the server can use to reconstruct
-	// the session state on future requests. It is the responsibility of
-	// each implementation to define the token's semantics.
-	Token() string
-	// Get session option value by name, or nil if it does not exist
-	GetSessionOption(name string) *flight.SessionOptionValue
-	// Get a copy of the session options
-	GetSessionOptions() map[string]*flight.SessionOptionValue
-	// Set session option by name to given value
-	SetSessionOption(name string, value *flight.SessionOptionValue)
-	// Idempotently remove name from this session
-	EraseSessionOption(name string)
-	// Close the session
-	Close() error
-	// Report whether the session has been closed
-	Closed() bool
-}
-
-// ServerSessionManager handles session lifecycle management
-type ServerSessionManager interface {
-	// Create a new, empty ServerSession
-	CreateSession(ctx context.Context) (ServerSession, error)
-	// Get the current ServerSession, if one exists
-	GetSession(ctx context.Context) (ServerSession, error)
-	// Cleanup any resources associated with the current ServerSession
-	CloseSession(session ServerSession) error
-}
-
-// Implementation of common session behavior. Intended to be extended
-// by specific session implementations.
-type serverSession struct {
-	closed bool
-
-	options map[string]*flight.SessionOptionValue
-	mu      sync.RWMutex
-}
-
-func (session *serverSession) GetSessionOption(name string) *flight.SessionOptionValue {
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-	value, found := session.options[name]
-	if !found {
-		return nil
-	}
-
-	return value
-}
-
-func (session *serverSession) GetSessionOptions() map[string]*flight.SessionOptionValue {
-	options := make(map[string]*flight.SessionOptionValue, len(session.options))
-
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-	for k, v := range session.options {
-		options[k] = proto.Clone(v).(*flight.SessionOptionValue)
-	}
-
-	return options
-}
-
-func (session *serverSession) SetSessionOption(name string, value *flight.SessionOptionValue) {
-	if value.GetOptionValue() == nil {
-		session.EraseSessionOption(name)
-		return
-	}
-
-	session.mu.Lock()
-	defer session.mu.Unlock()
-	session.options[name] = value
-}
-
-func (session *serverSession) EraseSessionOption(name string) {
-	session.mu.Lock()
-	defer session.mu.Unlock()
-	delete(session.options, name)
-}
-
-func (session *serverSession) Close() error {
-	session.options = nil
-	session.closed = true
-	return nil
-}
-
-func (session *serverSession) Closed() bool {
-	return session.closed
-}
-
-// NewServerSessionMiddleware creates new instance of CustomServerMiddleware implementing server session persistence.
-//
-// The provided manager can be used to customize session implementation/behavior.
-// If no manager is provided, a stateful in-memory, goroutine-safe implementation is used.
-func NewServerSessionMiddleware(manager ServerSessionManager) *serverSessionMiddleware {
-	// Default manager
-	if manager == nil {
-		manager = NewStatefulServerSessionManager()
-	}
-	return &serverSessionMiddleware{manager: manager}
-}
-
-type serverSessionMiddleware struct {
-	manager ServerSessionManager
-}
-
-// Get the existing session if one is found, otherwise create one. The resulting context will contain
-// the session at a well-known key for any internal RPC methods to read/update.
-func (middleware *serverSessionMiddleware) StartCall(ctx context.Context) context.Context {
-	session, err := middleware.manager.GetSession(ctx)
-	if err == nil {
-		return NewSessionContext(ctx, session)
-	}
-
-	if err != ErrNoSession {
-		panic(err)
-	}
-
-	session, err = middleware.manager.CreateSession(ctx)
-	if err != nil {
-		panic(err)
-	}
-
-	// TODO(joellubi): Remove this once Java clients support receiving cookies in gRPC trailer.
-	// Currently, both C++ and Go client cookie middlewares merge the header and trailer when setting cookies.
-	// Java middleware checks the metadata in the header, but only reads the trailer when there is an error.
-	// It is far simpler to only set cookies in the trailer, especially for streaming RPC.
-	sessionCookie, err := CreateCookieForSession(session)
-	if err != nil {
-		panic(err)
-	}
-	grpc.SetHeader(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-
-	return NewSessionContext(ctx, session)
-}
-
-// Determine if the session state has changed. If it has then we need to inform the client
-// with a new cookie. The cookie is sent in the gRPC trailer because we would like to
-// determine its contents based on the final state the session at the end of the RPC call.
-func (middleware *serverSessionMiddleware) CallCompleted(ctx context.Context, _ error) {
-	session, err := middleware.manager.GetSession(ctx)
-	if err != nil {
-		panic(fmt.Sprintf("failed to get server session: %s", err))
-	}
-
-	sessionCookie, err := CreateCookieForSession(session)
-	if err != nil {
-		panic(err)
-	}
-
-	clientCookie, err := GetIncomingCookieByName(ctx, sessionCookie.Name)
-	if err == http.ErrNoCookie {
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-		return
-	}
-
-	if err != nil {
-		panic(err)
-	}
-
-	if session.Closed() {
-		// Invalidate the client's cookie
-		clientCookie.MaxAge = -1
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", clientCookie.String()))
-
-		if err = middleware.manager.CloseSession(session); err != nil {
-			panic(fmt.Sprintf("failed to close server session: %s", err))
-		}
-		return
-	}
-
-	if sessionCookie.String() != clientCookie.String() {
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-	}
-
-	// If the resulting cookie is exactly the same as the
-	// client's cookie, then there's no need to send it at all.
-}
diff --git a/go/arrow/flight/session/stateful_session.go b/go/arrow/flight/session/stateful_session.go
deleted file mode 100644
index 0fb1c8f729756..0000000000000
--- a/go/arrow/flight/session/stateful_session.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"fmt"
-	"net/http"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/google/uuid"
-)
-
-const StatefulSessionCookieName string = "arrow_flight_session_id"
-
-// SessionStore handles persistence of ServerSession instances for
-// stateful session implementations.
-type SessionStore interface {
-	// Get the session with the provided ID
-	Get(id string) (ServerSession, error)
-	// Persist the provided session
-	Put(session ServerSession) error
-	// Remove the session with the provided ID
-	Remove(id string) error
-}
-
-// SessionFactory creates ServerSession instances
-type SessionFactory interface {
-	// Create a new, empty ServerSession
-	CreateSession() (ServerSession, error)
-}
-
-// NewSessionStore creates a simple in-memory, goroutine-safe SessionStore
-func NewSessionStore() *sessionStore {
-	return &sessionStore{sessions: make(map[string]ServerSession)}
-}
-
-type sessionStore struct {
-	sessions map[string]ServerSession
-	mu       sync.RWMutex
-}
-
-func (store *sessionStore) Get(id string) (ServerSession, error) {
-	store.mu.RLock()
-	defer store.mu.RUnlock()
-	session, found := store.sessions[id]
-	if !found {
-		return nil, fmt.Errorf("session with ID %s not found", id)
-	}
-	return session, nil
-}
-
-func (store *sessionStore) Put(session ServerSession) error {
-	store.mu.Lock()
-	defer store.mu.Unlock()
-	store.sessions[session.Token()] = session
-	return nil
-}
-
-func (store *sessionStore) Remove(id string) error {
-	store.mu.Lock()
-	defer store.mu.Unlock()
-	delete(store.sessions, id)
-
-	return nil
-}
-
-// NewSessionFactory creates a new SessionFactory, producing in-memory, goroutine-safe ServerSessions.
-// The provided function MUST produce collision-free identifiers.
-func NewSessionFactory(generateID func() string) *sessionFactory {
-	return &sessionFactory{generateID: generateID}
-}
-
-type sessionFactory struct {
-	generateID func() string
-}
-
-func (factory *sessionFactory) CreateSession() (ServerSession, error) {
-	return &statefulServerSession{
-		id:            factory.generateID(),
-		serverSession: serverSession{options: make(map[string]*flight.SessionOptionValue)},
-	}, nil
-}
-
-type statefulServerSession struct {
-	serverSession
-	id string
-}
-
-func (session *statefulServerSession) Token() string {
-	return session.id
-}
-
-type StatefulSessionManagerOption func(*statefulServerSessionManager)
-
-// WithFactory specifies the SessionFactory to use for session creation
-func WithFactory(factory SessionFactory) StatefulSessionManagerOption {
-	return func(manager *statefulServerSessionManager) {
-		manager.factory = factory
-	}
-}
-
-// WithStore specifies the SessionStore to use for session persistence
-func WithStore(store SessionStore) StatefulSessionManagerOption {
-	return func(manager *statefulServerSessionManager) {
-		manager.store = store
-	}
-}
-
-// NewStatefulServerSessionManager creates a new ServerSessionManager.
-//
-//   - If unset via options, the default factory produces sessions with UUIDs.
-//   - If unset via options, sessions are stored in-memory.
-func NewStatefulServerSessionManager(opts ...StatefulSessionManagerOption) *statefulServerSessionManager {
-	manager := &statefulServerSessionManager{}
-	for _, opt := range opts {
-		opt(manager)
-	}
-
-	// Set defaults if not specified above
-	if manager.factory == nil {
-		manager.factory = NewSessionFactory(uuid.NewString)
-	}
-
-	if manager.store == nil {
-		manager.store = NewSessionStore()
-	}
-
-	return manager
-}
-
-type statefulServerSessionManager struct {
-	factory SessionFactory
-	store   SessionStore
-}
-
-func (manager *statefulServerSessionManager) CreateSession(ctx context.Context) (ServerSession, error) {
-	session, err := manager.factory.CreateSession()
-	if err != nil {
-		return nil, fmt.Errorf("failed to create new session: %w", err)
-	}
-
-	if err = manager.store.Put(session); err != nil {
-		return nil, fmt.Errorf("failed to persist new session: %w", err)
-	}
-
-	return session, nil
-}
-
-func (manager *statefulServerSessionManager) GetSession(ctx context.Context) (ServerSession, error) {
-	session, err := GetSessionFromContext(ctx)
-	if err == nil {
-		return session, nil
-	}
-
-	sessionID, err := getSessionIDFromIncomingCookie(ctx)
-	if err == nil {
-		return manager.store.Get(sessionID)
-	}
-	if err == http.ErrNoCookie {
-		return nil, ErrNoSession
-	}
-
-	return nil, fmt.Errorf("failed to get current session from cookie: %w", err)
-}
-
-func (manager *statefulServerSessionManager) CloseSession(session ServerSession) error {
-	if err := manager.store.Remove(session.Token()); err != nil {
-		return fmt.Errorf("failed to remove server session from store: %w", err)
-	}
-	return nil
-}
-
-// Check the provided context for cookies in the incoming gRPC metadata.
-func getSessionIDFromIncomingCookie(ctx context.Context) (string, error) {
-	cookie, err := GetIncomingCookieByName(ctx, StatefulSessionCookieName)
-	if err != nil {
-		return "", err
-	}
-
-	return cookie.Value, nil
-}
diff --git a/go/arrow/flight/session/stateless_session.go b/go/arrow/flight/session/stateless_session.go
deleted file mode 100644
index d792a91f84ece..0000000000000
--- a/go/arrow/flight/session/stateless_session.go
+++ /dev/null
@@ -1,122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"net/http"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/protobuf/proto"
-)
-
-const StatelessSessionCookieName string = "arrow_flight_session"
-
-// NewStatelessServerSessionManager creates a new StatelessServerSessionManager.
-//
-// The tokens it produces contain the entire session state, so sessions can
-// be maintained across multiple backends.
-// Token contents are considered opaque but are NOT encrypted.
-func NewStatelessServerSessionManager() *statelessServerSessionManager {
-	return &statelessServerSessionManager{}
-}
-
-type statelessServerSessionManager struct{}
-
-func (manager *statelessServerSessionManager) CreateSession(ctx context.Context) (ServerSession, error) {
-	return NewStatelessServerSession(nil), nil
-}
-
-func (manager *statelessServerSessionManager) GetSession(ctx context.Context) (ServerSession, error) {
-	session, err := GetSessionFromContext(ctx)
-	if err == nil {
-		return session, nil
-	}
-
-	session, err = getSessionFromIncomingCookie(ctx)
-	if err == nil {
-		return session, err
-	}
-	if err == http.ErrNoCookie {
-		return nil, ErrNoSession
-	}
-
-	return nil, fmt.Errorf("failed to get current session from cookie: %w", err)
-}
-
-func (manager *statelessServerSessionManager) CloseSession(session ServerSession) error {
-	return nil
-}
-
-// NewStatelessServerSession creates a new instance of a server session that can serialize its entire state.
-// A map is provided containing the initial state. If it is nil, a new empty state will be created.
-func NewStatelessServerSession(options map[string]*flight.SessionOptionValue) *statelessServerSession {
-	if options == nil {
-		options = make(map[string]*flight.SessionOptionValue)
-	}
-
-	return &statelessServerSession{
-		serverSession: serverSession{options: options},
-	}
-}
-
-type statelessServerSession struct {
-	serverSession
-}
-
-// First encode session contents using protobuf binary marshaller.
-// Then base64 encode the resulting bytes for client compatibility.
-func (session *statelessServerSession) Token() string {
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-
-	payload := flight.GetSessionOptionsResult{SessionOptions: session.options}
-	b, err := proto.Marshal(&payload)
-	if err != nil {
-		panic(fmt.Sprintf("failed to marshal stateless token: %s", err))
-	}
-
-	return base64.StdEncoding.EncodeToString(b)
-}
-
-// Reconstruct the session from its fully encoded token representation
-func decodeStatelessToken(token string) (*statelessServerSession, error) {
-	decoded, err := base64.StdEncoding.DecodeString(token)
-	if err != nil {
-		return nil, err
-	}
-
-	var parsed flight.GetSessionOptionsResult
-	if err := proto.Unmarshal(decoded, &parsed); err != nil {
-		return nil, err
-	}
-
-	return NewStatelessServerSession(parsed.SessionOptions), nil
-}
-
-// Check the provided context for a cookie in the incoming gRPC metadata containing the
-// stateless session token. Decode the token payload to reconstruct the session.
-func getSessionFromIncomingCookie(ctx context.Context) (*statelessServerSession, error) {
-	cookie, err := GetIncomingCookieByName(ctx, StatelessSessionCookieName)
-	if err != nil {
-		return nil, err
-	}
-
-	return decodeStatelessToken(cookie.Value)
-}
diff --git a/go/arrow/float16/float16.go b/go/arrow/float16/float16.go
deleted file mode 100644
index f61db40ef498c..0000000000000
--- a/go/arrow/float16/float16.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package float16
-
-import (
-	"encoding/binary"
-	"math"
-	"strconv"
-)
-
-// Num represents a half-precision floating point value (float16)
-// stored on 16 bits.
-//
-// See https://en.wikipedia.org/wiki/Half-precision_floating-point_format for more informations.
-type Num struct {
-	bits uint16
-}
-
-var (
-	MaxNum = Num{bits: 0b0111101111111111}
-	MinNum = MaxNum.Negate()
-)
-
-// New creates a new half-precision floating point value from the provided
-// float32 value.
-func New(f float32) Num {
-	b := math.Float32bits(f)
-	sn := uint16((b >> 31) & 0x1)
-	exp := (b >> 23) & 0xff
-	res := int16(exp) - 127 + 15
-	fc := uint16(b>>13) & 0x3ff
-	switch {
-	case exp == 0:
-		res = 0
-	case exp == 0xff:
-		res = 0x1f
-	case res > 0x1e:
-		res = 0x1f
-		fc = 0
-	case res < 0x01:
-		res = 0
-		fc = 0
-	}
-	return Num{bits: (sn << 15) | uint16(res<<10) | fc}
-}
-
-func (f Num) Float32() float32 {
-	sn := uint32((f.bits >> 15) & 0x1)
-	exp := (f.bits >> 10) & 0x1f
-	res := uint32(exp) + 127 - 15
-	fc := uint32(f.bits & 0x3ff)
-	switch {
-	case exp == 0:
-		res = 0
-	case exp == 0x1f:
-		res = 0xff
-	}
-	return math.Float32frombits((sn << 31) | (res << 23) | (fc << 13))
-}
-
-func (n Num) Negate() Num {
-	return Num{bits: n.bits ^ 0x8000}
-}
-
-func (n Num) Add(rhs Num) Num {
-	return New(n.Float32() + rhs.Float32())
-}
-
-func (n Num) Sub(rhs Num) Num {
-	return New(n.Float32() - rhs.Float32())
-}
-
-func (n Num) Mul(rhs Num) Num {
-	return New(n.Float32() * rhs.Float32())
-}
-
-func (n Num) Div(rhs Num) Num {
-	return New(n.Float32() / rhs.Float32())
-}
-
-// Equal returns true if the value represented by n is == other
-func (n Num) Equal(other Num) bool {
-	return n.Float32() == other.Float32()
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return n.Float32() > other.Float32()
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return n.Float32() >= other.Float32()
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	return n.Float32() < other.Float32()
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return n.Float32() <= other.Float32()
-}
-
-// Max returns the largest Decimal128 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal128 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-func (n Num) Sign() int {
-	if n.IsZero() {
-		return 0
-	} else if n.Signbit() {
-		return -1
-	}
-	return 1
-}
-
-func (n Num) Signbit() bool { return (n.bits & 0x8000) != 0 }
-
-func (n Num) IsNaN() bool { return (n.bits & 0x7fff) > 0x7c00 }
-
-func (n Num) IsInf() bool { return (n.bits & 0x7c00) == 0x7c00 }
-
-func (n Num) IsZero() bool { return (n.bits & 0x7fff) == 0 }
-
-func (f Num) Uint16() uint16 { return f.bits }
-func (f Num) String() string { return strconv.FormatFloat(float64(f.Float32()), 'g', -1, 32) }
-
-func Inf() Num { return Num{bits: 0x7c00} }
-
-func NaN() Num { return Num{bits: 0x7fff} }
-
-func FromBits(src uint16) Num { return Num{bits: src} }
-
-func FromLEBytes(src []byte) Num {
-	return Num{bits: binary.LittleEndian.Uint16(src)}
-}
-
-func (f Num) PutLEBytes(dst []byte) {
-	binary.LittleEndian.PutUint16(dst, f.bits)
-}
-
-func (f Num) ToLEBytes() []byte {
-	dst := make([]byte, 2)
-	f.PutLEBytes(dst)
-	return dst
-}
diff --git a/go/arrow/float16/float16_test.go b/go/arrow/float16/float16_test.go
deleted file mode 100644
index cfde440c5f9e4..0000000000000
--- a/go/arrow/float16/float16_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package float16
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFloat16(t *testing.T) {
-	cases := map[Num]float32{
-		{bits: 0x3c00}: 1,
-		{bits: 0x4000}: 2,
-		{bits: 0xc000}: -2,
-		{bits: 0x0000}: 0,
-		{bits: 0x5b8f}: 241.875,
-		{bits: 0xdb8f}: -241.875,
-		{bits: 0x48c8}: 9.5625,
-		{bits: 0xc8c8}: -9.5625,
-	}
-	for k, v := range cases {
-		f := k.Float32()
-		assert.Equal(t, v, f, "float32 values should be the same")
-		i := New(v)
-		assert.Equal(t, k.bits, i.bits, "float16 values should be the same")
-		assert.Equal(t, k.Uint16(), i.Uint16(), "float16 values should be the same")
-		assert.Equal(t, k.String(), fmt.Sprintf("%v", v), "string representation differ")
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 + 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x4200}}, // 1 + 2 = 3
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x42AC}}, // 3.141 + 0.196 = 3.336
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 - 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0xBC00}}, // 1 - 2 = -1
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x41E3}}, // 3.141 - 0.196 = 2.944
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 * 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x4000}}, // 1 * 2 = 2
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x38EC}}, // 3.141 * 0.196 = 0.6153
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x3c00}, Num{bits: 0x0000}}, // 0 / 1 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x3800}}, // 1 / 2 = 0.5
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x4C01}}, // 3.141 * 0.196 = 16.02
-	} {
-		t.Run("div", func(t *testing.T) {
-			n := tc.n.Div(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want bool
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, false}, // 1 > 2 = false
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, false}, // 10 == 10 = false
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, true},  // 3.141 > 0.196 = true
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want bool
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, true},  // 1 < 2 = true
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, false}, // 10 == 10 = false
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, false}, // 3.141 < 0.196 = false
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want int
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, -1}, // cmp(1, 2) = -1
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, 0},  // cmp(10, 10) = 0
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, 1},  // cmp(3.141, 0.196) = 1
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  []Num
-		want Num
-	}{
-		{Num{bits: 0x3c00}, []Num{{bits: 0x4000}, {bits: 0x4580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x4580}}, // max(2, 5.5, 1, 3.14) = 5.5
-		{Num{bits: 0x4248}, []Num{{bits: 0xC000}, {bits: 0xC580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x4248}}, // max(-2, -5.5, 1, 3.14) = 3.14
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  []Num
-		want Num
-	}{
-		{Num{bits: 0x3c00}, []Num{{bits: 0x4000}, {bits: 0x4580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x3C00}}, // min(2, 5.5, 1, 3.14) = 1
-		{Num{bits: 0x4248}, []Num{{bits: 0x4000}, {bits: 0xC580}, {bits: 0xBC00}, {bits: 0x4247}}, Num{bits: 0xC580}}, // min(2, -5.5, -1, 3.14) = -5.5
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestAbs(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want Num
-	}{
-		{Num{bits: 0x4580}, Num{bits: 0x4580}}, // 5.5
-		{Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0
-		{Num{bits: 0xC580}, Num{bits: 0x4580}}, // -5.5
-	} {
-		t.Run("abs", func(t *testing.T) {
-			n := tc.n.Abs()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSign(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want int
-	}{
-		{Num{bits: 0x4580}, 1},  // 5.5
-		{Num{bits: 0x0000}, 0},  // 0
-		{Num{bits: 0x8000}, 0},  // -0
-		{Num{bits: 0xC580}, -1}, // -5.5
-	} {
-		t.Run("sign", func(t *testing.T) {
-			n := tc.n.Sign()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSignbit(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want bool
-	}{
-		{Num{bits: 0x4580}, false}, // 5.5
-		{Num{bits: 0x0000}, false}, // 0
-		{Num{bits: 0x8000}, true},  // -0
-		{Num{bits: 0xC580}, true},  // -5.5
-	} {
-		t.Run("signbit", func(t *testing.T) {
-			n := tc.n.Signbit()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestIsNaN(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want bool
-	}{
-		{NaN(), true},
-		{NaN().Negate(), true},
-		{Inf(), false},
-		{Inf().Negate(), false},
-		{Num{bits: 0x7c01}, true}, // nan
-		{Num{bits: 0xfc01}, true}, // -nan
-		{Num{bits: 0x7e00}, true}, // nan
-		{Num{bits: 0xfe00}, true}, // -nan
-	} {
-		t.Run("isnan", func(t *testing.T) {
-			n := tc.n.IsNaN()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/gen-flatbuffers.go b/go/arrow/gen-flatbuffers.go
deleted file mode 100644
index 720016e0bf168..0000000000000
--- a/go/arrow/gen-flatbuffers.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build ignore
-// +build ignore
-
-package main
-
-import (
-	"bytes"
-	"io/ioutil"
-	"log"
-	"os"
-	"os/exec"
-	"path/filepath"
-)
-
-func main() {
-	dir, err := ioutil.TempDir("", "go-arrow-")
-	if err != nil {
-		log.Fatalf("could not create top-level temporary directory: %v", err)
-	}
-	defer os.RemoveAll(dir)
-
-	genFormat(dir)
-}
-
-func genFormat(dir string) {
-	args := []string{"--go", "-o", filepath.Join(dir, "format")}
-	fnames, err := filepath.Glob("../../format/*.fbs")
-	if err != nil || len(fnames) == 0 {
-		log.Fatalf("could not retrieve list of format FlatBuffers files: files=%d err=%v",
-			len(fnames), err,
-		)
-	}
-	args = append(args, fnames...)
-
-	gen := exec.Command("flatc", args...)
-	gen.Stdout = os.Stdout
-	gen.Stderr = os.Stderr
-
-	err = gen.Run()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = os.MkdirAll("./internal/flatbuf", 0755)
-	if err != nil {
-		log.Fatalf("could not create ./internal/flatbuf directory: %v", err)
-	}
-
-	base := filepath.Join(dir, "format", "org", "apache", "arrow", "flatbuf")
-	fnames, err = filepath.Glob(filepath.Join(base, "*.go"))
-	if err != nil {
-		log.Fatalf("could not glob %v/*.go: %v", base, err)
-	}
-
-	for _, fname := range fnames {
-		dst := filepath.Join(".", "internal", "flatbuf", filepath.Base(fname))
-		process(dst, fname)
-	}
-}
-
-func process(dst, fname string) {
-	raw, err := ioutil.ReadFile(fname)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	f, err := os.Create(dst)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer f.Close()
-
-	if !bytes.HasPrefix(raw, []byte(hdr)) {
-		_, err = f.Write([]byte(hdr))
-		if err != nil {
-			log.Fatal(err)
-		}
-	}
-
-	_, err = f.Write(raw)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = f.Close()
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-const hdr = `// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-`
diff --git a/go/arrow/internal/arrdata/arrdata.go b/go/arrow/internal/arrdata/arrdata.go
deleted file mode 100644
index 5111f2dbc4da6..0000000000000
--- a/go/arrow/internal/arrdata/arrdata.go
+++ /dev/null
@@ -1,1835 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrdata exports arrays and records data ready to be used for tests.
-package arrdata
-
-import (
-	"fmt"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-)
-
-var (
-	Records     = make(map[string][]arrow.Record)
-	RecordNames []string
-)
-
-func init() {
-	Records["nulls"] = makeNullRecords()
-	Records["primitives"] = makePrimitiveRecords()
-	Records["structs"] = makeStructsRecords()
-	Records["lists"] = makeListsRecords()
-	Records["list_views"] = makeListViewsRecords()
-	Records["strings"] = makeStringsRecords()
-	Records["fixed_size_lists"] = makeFixedSizeListsRecords()
-	Records["fixed_width_types"] = makeFixedWidthTypesRecords()
-	Records["fixed_size_binaries"] = makeFixedSizeBinariesRecords()
-	Records["intervals"] = makeIntervalsRecords()
-	Records["durations"] = makeDurationsRecords()
-	Records["decimal128"] = makeDecimal128sRecords()
-	Records["decimal256"] = makeDecimal256sRecords()
-	Records["maps"] = makeMapsRecords()
-	Records["extension"] = makeExtensionRecords()
-	Records["union"] = makeUnionRecords()
-	Records["run_end_encoded"] = makeRunEndEncodedRecords()
-	Records["view_types"] = makeStringViewRecords()
-
-	for k := range Records {
-		RecordNames = append(RecordNames, k)
-	}
-	sort.Strings(RecordNames)
-}
-
-func makeNullRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2", "k3"},
-		[]string{"v1", "v2", "v3"},
-	)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "nulls", Type: arrow.Null, Nullable: true},
-		}, &meta,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makePrimitiveRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2", "k3"},
-		[]string{"v1", "v2", "v3"},
-	)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bools", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-			{Name: "int8s", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "int16s", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-			{Name: "int32s", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-			{Name: "int64s", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "uint8s", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-			{Name: "uint16s", Type: arrow.PrimitiveTypes.Uint16, Nullable: true},
-			{Name: "uint32s", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-			{Name: "uint64s", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-			{Name: "float32s", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-			{Name: "float64s", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, &meta,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int16{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int64{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []uint8{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint16{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint32{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint64{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []float32{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []float64{+1, +2, +3, +4, +5}, mask),
-		},
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int16{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int64{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []uint8{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint16{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint32{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint64{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []float32{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []float64{+11, +12, +13, +14, +15}, mask),
-		},
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int16{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int64{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []uint8{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint16{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint32{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint64{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []float32{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []float64{+21, +22, +23, +24, +25}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStructsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	fields := []arrow.Field{
-		{Name: "f1", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "f2", Type: arrow.BinaryTypes.String},
-	}
-	dtype := arrow.StructOf(fields...)
-	schema := arrow.NewSchema([]arrow.Field{{Name: "struct_nullable", Type: dtype, Nullable: true}}, nil)
-
-	mask := []bool{true, false, false, true, true, true, false, true}
-	chunks := [][]arrow.Array{
-		{
-			structOf(mem, dtype, [][]arrow.Array{
-				{
-					arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask[:5]),
-					arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask[:5]),
-					arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask[:5]),
-					arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-31, -32, -33, -34, -35}, mask[:5]),
-					arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-41, -42, -43, -44, -45}, mask[:5]),
-					arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-				},
-			}, []bool{true, false, true, true, true}),
-		},
-		{
-			structOf(mem, dtype, [][]arrow.Array{
-				{
-					arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask[:5]),
-					arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask[:5]),
-					arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask[:5]),
-					arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{31, 32, 33, 34, 35}, mask[:5]),
-					arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{41, 42, 43, 44, 45}, mask[:5]),
-					arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-				},
-			}, []bool{true, false, false, true, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeListsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "list_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-
-	chunks := [][]arrow.Array{
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask),
-				arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask),
-				arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask),
-			}, nil),
-		},
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, nil),
-		},
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, []bool{true, false, true}),
-		},
-		{
-			func() arrow.Array {
-				bldr := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-				defer bldr.Release()
-
-				return bldr.NewListArray()
-			}(),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeListViewsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.ListViewOf(arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "list_view_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-
-	chunks := [][]arrow.Array{
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask),
-				arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask),
-				arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask),
-			}, nil),
-		},
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, nil),
-		},
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{}, []bool{}),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, []bool{true, false, true}),
-		},
-		{
-			func() arrow.Array {
-				bldr := array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32)
-				defer bldr.Release()
-
-				return bldr.NewListViewArray()
-			}(),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeFixedSizeListsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	const N = 3
-	dtype := arrow.FixedSizeListOf(N, arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "fixed_size_list_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, true}
-
-	chunks := [][]arrow.Array{
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3}, mask),
-				arrayOf(mem, []int32{11, 12, 13}, mask),
-				arrayOf(mem, []int32{21, 22, 23}, mask),
-			}, nil),
-		},
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3}, mask),
-				arrayOf(mem, []int32{-11, -12, -13}, mask),
-				arrayOf(mem, []int32{-21, -22, -23}, mask),
-			}, nil),
-		},
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3}, mask),
-				arrayOf(mem, []int32{-11, -12, -13}, mask),
-				arrayOf(mem, []int32{-21, -22, -23}, mask),
-			}, []bool{true, false, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStringsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "strings", Type: arrow.BinaryTypes.String},
-		{Name: "bytes", Type: arrow.BinaryTypes.Binary},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []string{"1é", "2", "3", "4", "5"}, mask),
-			arrayOf(mem, [][]byte{[]byte("1é"), []byte("2"), []byte("3"), []byte("4"), []byte("5")}, mask),
-		},
-		{
-			arrayOf(mem, []string{"11", "22", "33", "44", "55"}, mask),
-			arrayOf(mem, [][]byte{[]byte("11"), []byte("22"), []byte("33"), []byte("44"), []byte("55")}, mask),
-		},
-		{
-			arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask),
-			arrayOf(mem, [][]byte{[]byte("111"), []byte("222"), []byte("333"), []byte("444"), []byte("555")}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type (
-	nullT        struct{}
-	time32s      arrow.Time32
-	time32ms     arrow.Time32
-	time64ns     arrow.Time64
-	time64us     arrow.Time64
-	timestamp_s  arrow.Timestamp
-	timestamp_ms arrow.Timestamp
-	timestamp_us arrow.Timestamp
-	timestamp_ns arrow.Timestamp
-)
-
-var (
-	null nullT
-)
-
-func makeFixedWidthTypesRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "float16s", Type: arrow.FixedWidthTypes.Float16, Nullable: true},
-			{Name: "time32ms", Type: arrow.FixedWidthTypes.Time32ms, Nullable: true},
-			{Name: "time32s", Type: arrow.FixedWidthTypes.Time32s, Nullable: true},
-			{Name: "time64ns", Type: arrow.FixedWidthTypes.Time64ns, Nullable: true},
-			{Name: "time64us", Type: arrow.FixedWidthTypes.Time64us, Nullable: true},
-			{Name: "timestamp_s", Type: arrow.FixedWidthTypes.Timestamp_s, Nullable: true},
-			{Name: "timestamp_ms", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: true},
-			{Name: "timestamp_us", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true},
-			{Name: "timestamp_ns", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: true},
-			{Name: "date32s", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-			{Name: "date64s", Type: arrow.FixedWidthTypes.Date64, Nullable: true},
-		}, nil,
-	)
-
-	float16s := func(vs []float32) []float16.Num {
-		o := make([]float16.Num, len(vs))
-		for i, v := range vs {
-			o[i] = float16.New(v)
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, float16s([]float32{+1, +2, +3, +4, +5}), mask),
-			arrayOf(mem, []time32ms{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time32s{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time64ns{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time64us{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []timestamp_s{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_ms{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_us{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_ns{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []arrow.Date32{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []arrow.Date64{-2, -1, 0, +1, +2}, mask),
-		},
-		{
-			arrayOf(mem, float16s([]float32{+11, +12, +13, +14, +15}), mask),
-			arrayOf(mem, []time32ms{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time32s{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time64ns{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time64us{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []timestamp_s{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_ms{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_us{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_ns{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []arrow.Date32{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []arrow.Date64{-12, -11, 10, +11, +12}, mask),
-		},
-		{
-			arrayOf(mem, float16s([]float32{+21, +22, +23, +24, +25}), mask),
-			arrayOf(mem, []time32ms{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time32s{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time64ns{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time64us{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []timestamp_s{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_ms{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_us{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_ns{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []arrow.Date32{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []arrow.Date64{-22, -21, 20, +21, +22}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type fsb3 string
-
-func makeFixedSizeBinariesRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "fixed_size_binary_3", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []fsb3{"001", "002", "003", "004", "005"}, mask),
-		},
-		{
-			arrayOf(mem, []fsb3{"011", "012", "013", "014", "015"}, mask),
-		},
-		{
-			arrayOf(mem, []fsb3{"021", "022", "023", "024", "025"}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeIntervalsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "months", Type: arrow.FixedWidthTypes.MonthInterval, Nullable: true},
-			{Name: "days", Type: arrow.FixedWidthTypes.DayTimeInterval, Nullable: true},
-			{Name: "nanos", Type: arrow.FixedWidthTypes.MonthDayNanoInterval, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []arrow.MonthInterval{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: 1, Milliseconds: 1},
-				{Days: 2, Milliseconds: 2},
-				{Days: 3, Milliseconds: 3},
-				{Days: 4, Milliseconds: 4},
-				{Days: 5, Milliseconds: 5}},
-				mask),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: 1, Days: 1, Nanoseconds: 1000},
-				{Months: 2, Days: 2, Nanoseconds: 2000},
-				{Months: 3, Days: 3, Nanoseconds: 3000},
-				{Months: 4, Days: 4, Nanoseconds: 4000},
-				{Months: 5, Days: 5, Nanoseconds: 5000}},
-				mask),
-		},
-		{
-			arrayOf(mem, []arrow.MonthInterval{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: -11, Milliseconds: -11},
-				{Days: -12, Milliseconds: -12},
-				{Days: -13, Milliseconds: -13},
-				{Days: -14, Milliseconds: -14},
-				{Days: -15, Milliseconds: -15}},
-				mask),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: -11, Days: -11, Nanoseconds: -11000},
-				{Months: -12, Days: -12, Nanoseconds: -12000},
-				{Months: -13, Days: -13, Nanoseconds: -13000},
-				{Months: -14, Days: -14, Nanoseconds: -14000},
-				{Months: -15, Days: -15, Nanoseconds: -15000}}, mask),
-		},
-		{
-			arrayOf(mem, []arrow.MonthInterval{21, 22, 23, 24, 25, 0}, append(mask, true)),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: 21, Milliseconds: 21},
-				{Days: 22, Milliseconds: 22},
-				{Days: 23, Milliseconds: 23},
-				{Days: 24, Milliseconds: 24},
-				{Days: 25, Milliseconds: 25},
-				{Days: 0, Milliseconds: 0}}, append(mask, true)),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: 21, Days: 21, Nanoseconds: 21000},
-				{Months: 22, Days: 22, Nanoseconds: 22000},
-				{Months: 23, Days: 23, Nanoseconds: 23000},
-				{Months: 24, Days: 24, Nanoseconds: 24000},
-				{Months: 25, Days: 25, Nanoseconds: 25000},
-				{Months: 0, Days: 0, Nanoseconds: 0}}, append(mask, true)),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type (
-	duration_s  arrow.Duration
-	duration_ms arrow.Duration
-	duration_us arrow.Duration
-	duration_ns arrow.Duration
-)
-
-func makeDurationsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "durations-s", Type: &arrow.DurationType{Unit: arrow.Second}, Nullable: true},
-			{Name: "durations-ms", Type: &arrow.DurationType{Unit: arrow.Millisecond}, Nullable: true},
-			{Name: "durations-us", Type: &arrow.DurationType{Unit: arrow.Microsecond}, Nullable: true},
-			{Name: "durations-ns", Type: &arrow.DurationType{Unit: arrow.Nanosecond}, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []duration_s{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_ms{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_us{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_ns{1, 2, 3, 4, 5}, mask),
-		},
-		{
-			arrayOf(mem, []duration_s{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_ms{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_us{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_ns{11, 12, 13, 14, 15}, mask),
-		},
-		{
-			arrayOf(mem, []duration_s{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_ms{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_us{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_ns{21, 22, 23, 24, 25}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-var (
-	decimal128Type = &arrow.Decimal128Type{Precision: 10, Scale: 1}
-	decimal256Type = &arrow.Decimal256Type{Precision: 72, Scale: 2}
-)
-
-func makeDecimal128sRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "dec128s", Type: decimal128Type, Nullable: true},
-		}, nil,
-	)
-
-	dec128s := func(vs []int64) []decimal128.Num {
-		o := make([]decimal128.Num, len(vs))
-		for i, v := range vs {
-			o[i] = decimal128.New(v, uint64(v))
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, dec128s([]int64{31, 32, 33, 34, 35}), mask),
-		},
-		{
-			arrayOf(mem, dec128s([]int64{41, 42, 43, 44, 45}), mask),
-		},
-		{
-			arrayOf(mem, dec128s([]int64{51, 52, 53, 54, 55}), mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeDecimal256sRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "dec256s", Type: decimal256Type, Nullable: true},
-		}, nil,
-	)
-
-	dec256s := func(vs []uint64) []decimal256.Num {
-		o := make([]decimal256.Num, len(vs))
-		for i, v := range vs {
-			o[i] = decimal256.New(v, v, v, v)
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, dec256s([]uint64{21, 22, 23, 24, 25}), mask),
-		},
-		{
-			arrayOf(mem, dec256s([]uint64{31, 32, 33, 34, 35}), mask),
-		},
-		{
-			arrayOf(mem, dec256s([]uint64{41, 42, 43, 44, 45}), mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeMapsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.MapOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String)
-	dtype.KeysSorted = true
-	schema := arrow.NewSchema([]arrow.Field{{Name: "map_int_utf8", Type: dtype, Nullable: true}}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			mapOf(mem, dtype.KeysSorted, []arrow.Array{
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-					},
-				}, nil),
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-					},
-				}, nil),
-			}, []bool{true, false, true, true, true}),
-		},
-		{
-			mapOf(mem, dtype.KeysSorted, []arrow.Array{
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-					},
-				}, nil),
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-					},
-				}, nil),
-			}, []bool{true, false, true, true, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeExtensionRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	p1Type := types.NewParametric1Type(6)
-	p2Type := types.NewParametric1Type(12)
-	p3Type := types.NewParametric2Type(2)
-	p4Type := types.NewParametric2Type(3)
-	p5Type := types.NewExtStructType()
-
-	arrow.RegisterExtensionType(p1Type)
-	arrow.RegisterExtensionType(p3Type)
-	arrow.RegisterExtensionType(p4Type)
-	arrow.RegisterExtensionType(p5Type)
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2"},
-		[]string{"v1", "v2"},
-	)
-
-	unregisteredMeta := arrow.NewMetadata(
-		append(meta.Keys(), ipc.ExtensionTypeKeyName, ipc.ExtensionMetadataKeyName),
-		append(meta.Values(), "unregistered", ""))
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "p1", Type: p1Type, Nullable: true, Metadata: meta},
-			{Name: "p2", Type: p2Type, Nullable: true, Metadata: meta},
-			{Name: "p3", Type: p3Type, Nullable: true, Metadata: meta},
-			{Name: "p4", Type: p4Type, Nullable: true, Metadata: meta},
-			{Name: "p5", Type: p5Type, Nullable: true, Metadata: meta},
-			{Name: "unreg", Type: arrow.PrimitiveTypes.Int8, Nullable: true, Metadata: unregisteredMeta},
-		}, nil)
-
-	mask := []bool{true, false, true, true, false}
-	chunks := [][]arrow.Array{
-		{
-			extArray(mem, p1Type, []int32{1, -1, 2, 3, -1}, mask),
-			extArray(mem, p2Type, []int32{2, -1, 3, 4, -1}, mask),
-			extArray(mem, p3Type, []int32{5, -1, 6, 7, 8}, mask),
-			extArray(mem, p4Type, []int32{5, -1, 7, 9, -1}, mask),
-			extArray(mem, p5Type, [][]arrow.Array{
-				{
-					arrayOf(mem, []int64{1, -1, 2, 3, -1}, mask),
-					arrayOf(mem, []float64{0.1, -1, 0.2, 0.3, -1}, mask),
-				},
-			}, mask),
-			arrayOf(mem, []int8{-1, -2, -3, -4, -5}, mask),
-		},
-		{
-			extArray(mem, p1Type, []int32{10, -1, 20, 30, -1}, mask),
-			extArray(mem, p2Type, []int32{20, -1, 30, 40, -1}, mask),
-			extArray(mem, p3Type, []int32{50, -1, 60, 70, 8}, mask),
-			extArray(mem, p4Type, []int32{50, -1, 70, 90, -1}, mask),
-			extArray(mem, p5Type, [][]arrow.Array{
-				{
-					arrayOf(mem, []int64{10, -1, 20, 30, -1}, mask),
-					arrayOf(mem, []float64{0.01, -1, 0.02, 0.03, -1}, mask),
-				},
-			}, mask),
-			arrayOf(mem, []int8{-11, -12, -13, -14, -15}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeUnionRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	unionFields := []arrow.Field{
-		{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	sparseType := arrow.SparseUnionOf(unionFields, typeCodes)
-	denseType := arrow.DenseUnionOf(unionFields, typeCodes)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "sparse", Type: sparseType, Nullable: true},
-		{Name: "dense", Type: denseType, Nullable: true},
-	}, nil)
-
-	sparseChildren := make([]arrow.Array, 4)
-	denseChildren := make([]arrow.Array, 4)
-
-	const length = 7
-
-	typeIDsBuffer := memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes([]uint8{5, 10, 5, 5, 10, 10, 5}))
-	sparseChildren[0] = arrayOf(mem, []int32{0, 1, 2, 3, 4, 5, 6},
-		[]bool{true, true, true, false, true, true, true})
-	defer sparseChildren[0].Release()
-	sparseChildren[1] = arrayOf(mem, []uint8{10, 11, 12, 13, 14, 15, 16},
-		nil)
-	defer sparseChildren[1].Release()
-	sparseChildren[2] = arrayOf(mem, []int32{0, -1, -2, -3, -4, -5, -6},
-		[]bool{true, true, true, true, true, true, false})
-	defer sparseChildren[2].Release()
-	sparseChildren[3] = arrayOf(mem, []uint8{100, 101, 102, 103, 104, 105, 106},
-		nil)
-	defer sparseChildren[3].Release()
-
-	denseChildren[0] = arrayOf(mem, []int32{0, 2, 3, 7}, []bool{true, false, true, true})
-	defer denseChildren[0].Release()
-	denseChildren[1] = arrayOf(mem, []uint8{11, 14, 15}, nil)
-	defer denseChildren[1].Release()
-	denseChildren[2] = arrayOf(mem, []int32{0, -2, -3, -7}, []bool{false, true, true, false})
-	defer denseChildren[2].Release()
-	denseChildren[3] = arrayOf(mem, []uint8{101, 104, 105}, nil)
-	defer denseChildren[3].Release()
-
-	offsetsBuffer := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes([]int32{0, 0, 1, 2, 1, 2, 3}))
-	sparse1 := array.NewSparseUnion(sparseType, length, sparseChildren[:2], typeIDsBuffer, 0)
-	dense1 := array.NewDenseUnion(denseType, length, denseChildren[:2], typeIDsBuffer, offsetsBuffer, 0)
-
-	sparse2 := array.NewSparseUnion(sparseType, length, sparseChildren[2:], typeIDsBuffer, 0)
-	dense2 := array.NewDenseUnion(denseType, length, denseChildren[2:], typeIDsBuffer, offsetsBuffer, 0)
-
-	defer sparse1.Release()
-	defer dense1.Release()
-	defer sparse2.Release()
-	defer dense2.Release()
-
-	return []arrow.Record{
-		array.NewRecord(schema, []arrow.Array{sparse1, dense1}, -1),
-		array.NewRecord(schema, []arrow.Array{sparse2, dense2}, -1)}
-}
-
-func makeRunEndEncodedRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "ree16", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)},
-		{Name: "ree32", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32)},
-		{Name: "ree64", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int64, arrow.BinaryTypes.Binary)},
-	}, nil)
-
-	schema.Field(1).Type.(*arrow.RunEndEncodedType).ValueNullable = false
-	isValid := []bool{true, false, true, false, true}
-	chunks := [][]arrow.Array{
-		{
-			runEndEncodedOf(
-				arrayOf(mem, []int16{5, 10, 20, 1020, 1120}, nil),
-				arrayOf(mem, []string{"foo", "bar", "baz", "foo", ""}, isValid), 1100, 20),
-			runEndEncodedOf(
-				arrayOf(mem, []int32{100, 200, 800, 1000, 1100}, nil),
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil), 1100, 0),
-			runEndEncodedOf(
-				arrayOf(mem, []int64{100, 250, 450, 800, 1100}, nil),
-				arrayOf(mem, [][]byte{{0xde, 0xad}, {0xbe, 0xef}, {0xde, 0xad, 0xbe, 0xef}, {}, {0xba, 0xad, 0xf0, 0x0d}}, isValid), 1100, 0),
-		},
-		{
-			runEndEncodedOf(
-				arrayOf(mem, []int16{110, 160, 170, 1070, 1120}, nil),
-				arrayOf(mem, []string{"super", "dee", "", "duper", "doo"}, isValid), 1100, 20),
-			runEndEncodedOf(
-				arrayOf(mem, []int32{100, 120, 710, 810, 1100}, nil),
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil), 1100, 0),
-			runEndEncodedOf(
-				arrayOf(mem, []int64{100, 250, 450, 800, 1100}, nil),
-				arrayOf(mem, [][]byte{{0xde, 0xad}, {0xbe, 0xef}, {0xde, 0xad, 0xbe, 0xef}, {}, {0xba, 0xad, 0xf0, 0x0d}}, isValid), 1100, 0),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStringViewRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "binary_view", Type: arrow.BinaryTypes.BinaryView, Nullable: true},
-		{Name: "string_view", Type: arrow.BinaryTypes.StringView, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é"), []byte("2"), []byte("3"), []byte("4"), []byte("5")}, mask),
-			viewTypeArrayOf(mem, []string{"1é", "2", "3", "4", "5"}, mask),
-		},
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é"), []byte("22222222222222"), []byte("33333333333333"), []byte("4444"), []byte("5555")}, mask),
-			viewTypeArrayOf(mem, []string{"1é", "22222222222222", "33333333333333", "4444", "5555"}, nil),
-		},
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é1é"), []byte("22222222222222"), []byte("33333333333333"), []byte("44"), []byte("55")}, nil),
-			viewTypeArrayOf(mem, []string{"1é1é", "22222222222222", "33333333333333", "44", "55"}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func viewTypeArrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []string:
-		bldr := array.NewStringViewBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-	case [][]byte:
-		bldr := array.NewBinaryViewBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-func extArray(mem memory.Allocator, dt arrow.ExtensionType, a interface{}, valids []bool) arrow.Array {
-	var storage arrow.Array
-	switch st := dt.StorageType().(type) {
-	case *arrow.StructType:
-		storage = structOf(mem, st, a.([][]arrow.Array), valids)
-	case *arrow.MapType:
-		storage = mapOf(mem, false, a.([]arrow.Array), valids)
-	case *arrow.ListType:
-		storage = listOf(mem, a.([]arrow.Array), valids)
-	default:
-		storage = arrayOf(mem, a, valids)
-	}
-	defer storage.Release()
-
-	return array.NewExtensionArrayWithStorage(dt, storage)
-}
-
-func arrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []nullT:
-		return array.NewNull(len(a))
-
-	case []bool:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewBooleanArray()
-
-	case []int8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt8Array()
-
-	case []int16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt16Array()
-
-	case []int32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt32Array()
-
-	case []int64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt64Array()
-
-	case []uint8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint8Array()
-
-	case []uint16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint16Array()
-
-	case []uint32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint32Array()
-
-	case []uint64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint64Array()
-
-	case []float16.Num:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat16Array()
-
-	case []float32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat32Array()
-
-	case []float64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat64Array()
-
-	case []decimal128.Num:
-		bldr := array.NewDecimal128Builder(mem, decimal128Type)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		aa := bldr.NewDecimal128Array()
-		return aa
-
-	case []decimal256.Num:
-		bldr := array.NewDecimal256Builder(mem, decimal256Type)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		aa := bldr.NewDecimal256Array()
-		return aa
-
-	case []string:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewStringArray()
-
-	case [][]byte:
-		bldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewBinaryArray()
-
-	case []time32s:
-		bldr := array.NewTime32Builder(mem, arrow.FixedWidthTypes.Time32s.(*arrow.Time32Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time32, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time32(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time32ms:
-		bldr := array.NewTime32Builder(mem, arrow.FixedWidthTypes.Time32ms.(*arrow.Time32Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time32, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time32(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time64ns:
-		bldr := array.NewTime64Builder(mem, arrow.FixedWidthTypes.Time64ns.(*arrow.Time64Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time64, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time64(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time64us:
-		bldr := array.NewTime64Builder(mem, arrow.FixedWidthTypes.Time64us.(*arrow.Time64Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time64, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time64(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_s:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_s.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_ms:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_ms.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_us:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_us.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_ns:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_ns.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []arrow.Date32:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.Date64:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []fsb3:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 3})
-		defer bldr.Release()
-		vs := make([][]byte, len(a))
-		for i, v := range a {
-			vs[i] = []byte(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []arrow.MonthInterval:
-		bldr := array.NewMonthIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.DayTimeInterval:
-		bldr := array.NewDayTimeIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.MonthDayNanoInterval:
-		bldr := array.NewMonthDayNanoIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []duration_s:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Second})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_ms:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Millisecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_us:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Microsecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_ns:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Nanosecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	default:
-		panic(fmt.Errorf("arrdata: invalid data slice type %T", a))
-	}
-}
-
-func listOf(mem memory.Allocator, values []arrow.Array, valids []bool) *array.List {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewListBuilder(mem, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListArray()
-}
-
-func listViewOf(mem memory.Allocator, values []arrow.Array, valids []bool) *array.ListView {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewListViewBuilder(mem, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.AppendWithSize(valid(i), value.Len())
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListViewArray()
-}
-
-func fixedSizeListOf(mem memory.Allocator, n int32, values []arrow.Array, valids []bool) *array.FixedSizeList {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewFixedSizeListBuilder(mem, n, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListArray()
-}
-
-func structOf(mem memory.Allocator, dtype *arrow.StructType, fields [][]arrow.Array, valids []bool) *array.Struct {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewStructBuilder(mem, dtype)
-	defer bldr.Release()
-
-	if valids == nil {
-		valids = make([]bool, fields[0][0].Len())
-		for i := range valids {
-			valids[i] = true
-		}
-	}
-
-	for i := range fields {
-		bldr.AppendValues(valids)
-		for j := range dtype.Fields() {
-			fbldr := bldr.FieldBuilder(j)
-			buildArray(fbldr, fields[i][j])
-		}
-	}
-
-	return bldr.NewStructArray()
-}
-
-func mapOf(mem memory.Allocator, sortedKeys bool, values []arrow.Array, valids []bool) *array.Map {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	pairType := values[0].DataType().(*arrow.StructType)
-	bldr := array.NewMapBuilder(mem, pairType.Field(0).Type, pairType.Field(1).Type, sortedKeys)
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	vb := bldr.ValueBuilder().(*array.StructBuilder)
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(vb.FieldBuilder(0), value.(*array.Struct).Field(0))
-		buildArray(vb.FieldBuilder(1), value.(*array.Struct).Field(1))
-	}
-
-	return bldr.NewMapArray()
-}
-
-func runEndEncodedOf(runEnds, values arrow.Array, logicalLen, offset int) arrow.Array {
-	defer runEnds.Release()
-	defer values.Release()
-	return array.NewRunEndEncodedArray(runEnds, values, logicalLen, offset)
-}
-
-func buildArray(bldr array.Builder, data arrow.Array) {
-	defer data.Release()
-
-	switch bldr := bldr.(type) {
-	case *array.BooleanBuilder:
-		data := data.(*array.Boolean)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int8Builder:
-		data := data.(*array.Int8)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int16Builder:
-		data := data.(*array.Int16)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int32Builder:
-		data := data.(*array.Int32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int64Builder:
-		data := data.(*array.Int64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint8Builder:
-		data := data.(*array.Uint8)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint16Builder:
-		data := data.(*array.Uint16)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint32Builder:
-		data := data.(*array.Uint32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint64Builder:
-		data := data.(*array.Uint64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Float32Builder:
-		data := data.(*array.Float32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Float64Builder:
-		data := data.(*array.Float64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.StringBuilder:
-		data := data.(*array.String)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.LargeStringBuilder:
-		data := data.(*array.LargeString)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.BinaryViewBuilder:
-		data := data.(*array.BinaryView)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-	case *array.StringViewBuilder:
-		data := data.(*array.StringView)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-	}
-}
diff --git a/go/arrow/internal/arrdata/ioutil.go b/go/arrow/internal/arrdata/ioutil.go
deleted file mode 100644
index 715451ad9634d..0000000000000
--- a/go/arrow/internal/arrdata/ioutil.go
+++ /dev/null
@@ -1,275 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrdata
-
-import (
-	"fmt"
-	"io"
-	"os"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// CheckArrowFile checks whether a given ARROW file contains the expected list of records.
-func CheckArrowFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewFileReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Close()
-
-	for i := 0; i < r.NumRecords(); i++ {
-		rec, err := r.Record(i)
-		if err != nil {
-			t.Fatalf("could not read record %d: %v", i, err)
-		}
-		if !array.RecordEqual(rec, recs[i]) {
-			t.Fatalf("records[%d] differ", i)
-		}
-	}
-
-	err = r.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-}
-
-func CheckArrowConcurrentFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewFileReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Close()
-
-	var g sync.WaitGroup
-	errs := make(chan error, r.NumRecords())
-	checkRecord := func(i int) {
-		defer g.Done()
-		rec, err := r.RecordAt(i)
-		if err != nil {
-			errs <- fmt.Errorf("could not read record %d: %v", i, err)
-			return
-		}
-		defer rec.Release()
-		if !array.RecordEqual(rec, recs[i]) {
-			errs <- fmt.Errorf("records[%d] differ", i)
-		}
-	}
-
-	for i := 0; i < r.NumRecords(); i++ {
-		g.Add(1)
-		go checkRecord(i)
-	}
-
-	g.Wait()
-	close(errs)
-
-	for err := range errs {
-		if err != nil {
-			t.Fatal(err)
-		}
-	}
-
-	err = r.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
-
-// CheckArrowStream checks whether a given ARROW stream contains the expected list of records.
-func CheckArrowStream(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		if !array.RecordEqual(rec, recs[n]) {
-			t.Fatalf("records[%d] differ, got: %s, expected %s", n, rec, recs[n])
-		}
-		n++
-	}
-
-	if len(recs) != n {
-		t.Fatalf("invalid number of records. got=%d, want=%d", n, len(recs))
-
-	}
-}
-
-// WriteFile writes a list of records to the given file descriptor, as an ARROW file.
-func WriteFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	w, err := ipc.NewFileWriter(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer w.Close()
-
-	for i, rec := range recs {
-		err = w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err = w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = f.Sync()
-	if err != nil {
-		t.Fatalf("could not sync data to disk: %v", err)
-	}
-
-	// put the cursor back at the start of the file before returning rather than
-	// leaving it at the end so the reader can just start reading from the handle
-	// immediately for the test.
-	_, err = f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatalf("could not seek to start: %v", err)
-	}
-}
-
-// WriteFile writes a list of records to the given file descriptor, as an ARROW file.
-func WriteFileCompressed(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record, codec flatbuf.CompressionType, concurrency int) {
-	t.Helper()
-
-	opts := []ipc.Option{ipc.WithSchema(schema), ipc.WithAllocator(mem), ipc.WithCompressConcurrency(concurrency)}
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		opts = append(opts, ipc.WithLZ4())
-	case flatbuf.CompressionTypeZSTD:
-		opts = append(opts, ipc.WithZstd())
-	default:
-		t.Fatalf("invalid compression codec %v, only LZ4_FRAME or ZSTD is allowed", codec)
-	}
-
-	w, err := ipc.NewFileWriter(f, opts...)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer w.Close()
-
-	for i, rec := range recs {
-		err = w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err = w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = f.Sync()
-	if err != nil {
-		t.Fatalf("could not sync data to disk: %v", err)
-	}
-
-	// put the cursor back at the start of the file before returning rather than
-	// leaving it at the end so the reader can just start reading from the handle
-	// immediately for the test.
-	_, err = f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatalf("could not seek to start: %v", err)
-	}
-}
-
-// WriteStream writes a list of records to the given file descriptor, as an ARROW stream.
-func WriteStream(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	w := ipc.NewWriter(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	defer w.Close()
-
-	for i, rec := range recs {
-		err := w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err := w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
-
-// WriteStreamCompressed writes a list of records to the given file descriptor as an ARROW stream
-// using the provided compression type.
-func WriteStreamCompressed(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record, codec flatbuf.CompressionType, np int) {
-	t.Helper()
-
-	opts := []ipc.Option{ipc.WithSchema(schema), ipc.WithAllocator(mem), ipc.WithCompressConcurrency(np)}
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		opts = append(opts, ipc.WithLZ4())
-	case flatbuf.CompressionTypeZSTD:
-		opts = append(opts, ipc.WithZstd())
-	default:
-		t.Fatalf("invalid compression codec %v, only LZ4_FRAME or ZSTD is allowed", codec)
-	}
-
-	w := ipc.NewWriter(f, opts...)
-	defer w.Close()
-
-	for i, rec := range recs {
-		err := w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err := w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
diff --git a/go/arrow/internal/arrjson/arrjson.go b/go/arrow/internal/arrjson/arrjson.go
deleted file mode 100644
index 42bbee8d5a2ec..0000000000000
--- a/go/arrow/internal/arrjson/arrjson.go
+++ /dev/null
@@ -1,2462 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrjson provides types and functions to encode and decode ARROW types and data
-// to and from JSON files.
-package arrjson
-
-import (
-	"bytes"
-	"encoding/hex"
-	"fmt"
-	"math/big"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Schema struct {
-	Fields    []FieldWrapper `json:"fields"`
-	arrowMeta arrow.Metadata `json:"-"`
-	Metadata  []metaKV       `json:"metadata,omitempty"`
-}
-
-func (s Schema) MarshalJSON() ([]byte, error) {
-	if s.arrowMeta.Len() > 0 {
-		s.Metadata = make([]metaKV, 0, s.arrowMeta.Len())
-		keys := s.arrowMeta.Keys()
-		vals := s.arrowMeta.Values()
-		for i := range keys {
-			s.Metadata = append(s.Metadata, metaKV{Key: keys[i], Value: vals[i]})
-		}
-	}
-	type alias Schema
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	enc.SetEscapeHTML(false)
-	err := enc.Encode(alias(s))
-	return buf.Bytes(), err
-}
-
-func (s *Schema) UnmarshalJSON(data []byte) error {
-	type Alias Schema
-	aux := &struct {
-		*Alias
-	}{Alias: (*Alias)(s)}
-	if err := json.Unmarshal(data, &aux); err != nil {
-		return err
-	}
-
-	var (
-		mdkeys = make([]string, 0)
-		mdvals = make([]string, 0)
-	)
-
-	for _, kv := range s.Metadata {
-		mdkeys = append(mdkeys, kv.Key)
-		mdvals = append(mdvals, kv.Value)
-	}
-
-	if len(s.Metadata) > 0 {
-		s.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-	}
-	return nil
-}
-
-// FieldWrapper gets used in order to hook into the JSON marshalling and
-// unmarshalling without creating an infinite loop when dealing with the
-// children fields.
-type FieldWrapper struct {
-	Field
-}
-
-type FieldDict struct {
-	ID      int             `json:"id"`
-	Type    json.RawMessage `json:"indexType"`
-	idxType arrow.DataType  `json:"-"`
-	Ordered bool            `json:"isOrdered"`
-}
-
-type Field struct {
-	Name string `json:"name"`
-	// the arrowType will get populated during unmarshalling by processing the
-	// Type, and will be used to generate the Type during Marshalling to JSON
-	arrowType arrow.DataType `json:"-"`
-	// leave this as a json RawMessage in order to partially unmarshal as needed
-	// during marshal/unmarshal time so we can determine what the structure is
-	// actually expected to be.
-	Type       json.RawMessage `json:"type"`
-	Nullable   bool            `json:"nullable"`
-	Children   []FieldWrapper  `json:"children"`
-	arrowMeta  arrow.Metadata  `json:"-"`
-	Dictionary *FieldDict      `json:"dictionary,omitempty"`
-	Metadata   []metaKV        `json:"metadata,omitempty"`
-}
-
-type metaKV struct {
-	Key   string `json:"key"`
-	Value string `json:"value"`
-}
-
-func typeToJSON(arrowType arrow.DataType) (json.RawMessage, error) {
-	var typ interface{}
-	switch dt := arrowType.(type) {
-	case *arrow.NullType:
-		typ = nameJSON{"null"}
-	case *arrow.BooleanType:
-		typ = nameJSON{"bool"}
-	case *arrow.Int8Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 8}
-	case *arrow.Int16Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 16}
-	case *arrow.Int32Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 32}
-	case *arrow.Int64Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 64}
-	case *arrow.Uint8Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 8}
-	case *arrow.Uint16Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 16}
-	case *arrow.Uint32Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 32}
-	case *arrow.Uint64Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 64}
-	case *arrow.Float16Type:
-		typ = floatJSON{"floatingpoint", "HALF"}
-	case *arrow.Float32Type:
-		typ = floatJSON{"floatingpoint", "SINGLE"}
-	case *arrow.Float64Type:
-		typ = floatJSON{"floatingpoint", "DOUBLE"}
-	case *arrow.BinaryType:
-		typ = nameJSON{"binary"}
-	case *arrow.LargeBinaryType:
-		typ = nameJSON{"largebinary"}
-	case *arrow.StringType:
-		typ = nameJSON{"utf8"}
-	case *arrow.LargeStringType:
-		typ = nameJSON{"largeutf8"}
-	case *arrow.BinaryViewType:
-		typ = nameJSON{"binaryview"}
-	case *arrow.StringViewType:
-		typ = nameJSON{"utf8view"}
-	case *arrow.Date32Type:
-		typ = unitZoneJSON{Name: "date", Unit: "DAY"}
-	case *arrow.Date64Type:
-		typ = unitZoneJSON{Name: "date", Unit: "MILLISECOND"}
-	case *arrow.MonthIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "YEAR_MONTH"}
-	case *arrow.DayTimeIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "DAY_TIME"}
-	case *arrow.MonthDayNanoIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "MONTH_DAY_NANO"}
-	case *arrow.DurationType:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = unitZoneJSON{Name: "duration", Unit: "SECOND"}
-		case arrow.Millisecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "MILLISECOND"}
-		case arrow.Microsecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "MICROSECOND"}
-		case arrow.Nanosecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "NANOSECOND"}
-		}
-	case *arrow.Time32Type:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "SECOND"}
-		case arrow.Millisecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "MILLISECOND"}
-		}
-	case *arrow.Time64Type:
-		switch dt.Unit {
-		case arrow.Microsecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "MICROSECOND"}
-		case arrow.Nanosecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "NANOSECOND"}
-		}
-	case *arrow.TimestampType:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "SECOND", TimeZone: dt.TimeZone}
-		case arrow.Millisecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "MILLISECOND", TimeZone: dt.TimeZone}
-		case arrow.Microsecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "MICROSECOND", TimeZone: dt.TimeZone}
-		case arrow.Nanosecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "NANOSECOND", TimeZone: dt.TimeZone}
-		}
-	case *arrow.ListType:
-		typ = nameJSON{"list"}
-	case *arrow.LargeListType:
-		typ = nameJSON{"largelist"}
-	case *arrow.ListViewType:
-		typ = nameJSON{"listview"}
-	case *arrow.LargeListViewType:
-		typ = nameJSON{"largelistview"}
-	case *arrow.MapType:
-		typ = mapJSON{Name: "map", KeysSorted: dt.KeysSorted}
-	case *arrow.StructType:
-		typ = nameJSON{"struct"}
-	case *arrow.FixedSizeListType:
-		typ = listSizeJSON{"fixedsizelist", dt.Len()}
-	case *arrow.FixedSizeBinaryType:
-		typ = byteWidthJSON{"fixedsizebinary", dt.ByteWidth}
-	case *arrow.Decimal128Type:
-		typ = decimalJSON{"decimal", int(dt.Scale), int(dt.Precision), 128}
-	case *arrow.Decimal256Type:
-		typ = decimalJSON{"decimal", int(dt.Scale), int(dt.Precision), 256}
-	case arrow.UnionType:
-		typ = unionJSON{"union", dt.Mode().String(), dt.TypeCodes()}
-	case *arrow.RunEndEncodedType:
-		typ = nameJSON{"runendencoded"}
-	default:
-		return nil, fmt.Errorf("unknown arrow.DataType %v", arrowType)
-	}
-
-	return json.Marshal(typ)
-}
-
-func (f FieldWrapper) MarshalJSON() ([]byte, error) {
-	// for extension types, add the extension type metadata appropriately
-	// and then marshal as normal for the storage type.
-	if f.arrowType.ID() == arrow.EXTENSION {
-		exType := f.arrowType.(arrow.ExtensionType)
-
-		mdkeys := append(f.arrowMeta.Keys(), ipc.ExtensionTypeKeyName)
-		mdvals := append(f.arrowMeta.Values(), exType.ExtensionName())
-
-		serializedData := exType.Serialize()
-		if len(serializedData) > 0 {
-			mdkeys = append(mdkeys, ipc.ExtensionMetadataKeyName)
-			mdvals = append(mdvals, string(serializedData))
-		}
-
-		f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-		f.arrowType = exType.StorageType()
-	}
-
-	var err error
-	if f.arrowType.ID() == arrow.DICTIONARY {
-		f.arrowType = f.arrowType.(*arrow.DictionaryType).ValueType
-		if f.Dictionary.Type, err = typeToJSON(f.Dictionary.idxType); err != nil {
-			return nil, err
-		}
-	}
-
-	if f.Type, err = typeToJSON(f.arrowType); err != nil {
-		return nil, err
-	}
-
-	// if we have metadata then add the key/value pairs to the json
-	if f.arrowMeta.Len() > 0 {
-		f.Metadata = make([]metaKV, 0, f.arrowMeta.Len())
-		for i := 0; i < f.arrowMeta.Len(); i++ {
-			f.Metadata = append(f.Metadata, metaKV{Key: f.arrowMeta.Keys()[i], Value: f.arrowMeta.Values()[i]})
-		}
-	}
-
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	enc.SetEscapeHTML(false)
-	err = enc.Encode(f.Field)
-	return buf.Bytes(), err
-}
-
-func typeFromJSON(typ json.RawMessage, children []FieldWrapper) (arrowType arrow.DataType, err error) {
-	tmp := nameJSON{}
-	if err = json.Unmarshal(typ, &tmp); err != nil {
-		return
-	}
-
-	switch tmp.Name {
-	case "null":
-		arrowType = arrow.Null
-	case "bool":
-		arrowType = arrow.FixedWidthTypes.Boolean
-	case "int":
-		t := bitWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Signed {
-		case true:
-			switch t.BitWidth {
-			case 8:
-				arrowType = arrow.PrimitiveTypes.Int8
-			case 16:
-				arrowType = arrow.PrimitiveTypes.Int16
-			case 32:
-				arrowType = arrow.PrimitiveTypes.Int32
-			case 64:
-				arrowType = arrow.PrimitiveTypes.Int64
-			}
-		default:
-			switch t.BitWidth {
-			case 8:
-				arrowType = arrow.PrimitiveTypes.Uint8
-			case 16:
-				arrowType = arrow.PrimitiveTypes.Uint16
-			case 32:
-				arrowType = arrow.PrimitiveTypes.Uint32
-			case 64:
-				arrowType = arrow.PrimitiveTypes.Uint64
-			}
-		}
-	case "floatingpoint":
-		t := floatJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Precision {
-		case "HALF":
-			arrowType = arrow.FixedWidthTypes.Float16
-		case "SINGLE":
-			arrowType = arrow.PrimitiveTypes.Float32
-		case "DOUBLE":
-			arrowType = arrow.PrimitiveTypes.Float64
-		}
-	case "binary":
-		arrowType = arrow.BinaryTypes.Binary
-	case "largebinary":
-		arrowType = arrow.BinaryTypes.LargeBinary
-	case "utf8":
-		arrowType = arrow.BinaryTypes.String
-	case "largeutf8":
-		arrowType = arrow.BinaryTypes.LargeString
-	case "binaryview":
-		arrowType = arrow.BinaryTypes.BinaryView
-	case "utf8view":
-		arrowType = arrow.BinaryTypes.StringView
-	case "date":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "DAY":
-			arrowType = arrow.FixedWidthTypes.Date32
-		case "MILLISECOND":
-			arrowType = arrow.FixedWidthTypes.Date64
-		}
-	case "time":
-		t := bitWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.BitWidth {
-		case 32:
-			switch t.Unit {
-			case "SECOND":
-				arrowType = arrow.FixedWidthTypes.Time32s
-			case "MILLISECOND":
-				arrowType = arrow.FixedWidthTypes.Time32ms
-			}
-		case 64:
-			switch t.Unit {
-			case "MICROSECOND":
-				arrowType = arrow.FixedWidthTypes.Time64us
-			case "NANOSECOND":
-				arrowType = arrow.FixedWidthTypes.Time64ns
-			}
-		}
-	case "timestamp":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = &arrow.TimestampType{TimeZone: t.TimeZone}
-		switch t.Unit {
-		case "SECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Second
-		case "MILLISECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Millisecond
-		case "MICROSECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Microsecond
-		case "NANOSECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Nanosecond
-		}
-	case "list":
-		arrowType = arrow.ListOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "largelist":
-		arrowType = arrow.LargeListOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "listview":
-		arrowType = arrow.ListViewOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "largelistview":
-		arrowType = arrow.LargeListViewOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "map":
-		t := mapJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		pairType := children[0].arrowType
-		arrowType = arrow.MapOf(pairType.(*arrow.StructType).Field(0).Type, pairType.(*arrow.StructType).Field(1).Type)
-		arrowType.(*arrow.MapType).KeysSorted = t.KeysSorted
-	case "struct":
-		arrowType = arrow.StructOf(fieldsFromJSON(children)...)
-	case "fixedsizebinary":
-		t := byteWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = &arrow.FixedSizeBinaryType{ByteWidth: t.ByteWidth}
-	case "fixedsizelist":
-		t := listSizeJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = arrow.FixedSizeListOfField(t.ListSize, arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "interval":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "YEAR_MONTH":
-			arrowType = arrow.FixedWidthTypes.MonthInterval
-		case "DAY_TIME":
-			arrowType = arrow.FixedWidthTypes.DayTimeInterval
-		case "MONTH_DAY_NANO":
-			arrowType = arrow.FixedWidthTypes.MonthDayNanoInterval
-		}
-	case "duration":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "SECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_s
-		case "MILLISECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_ms
-		case "MICROSECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_us
-		case "NANOSECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_ns
-		}
-	case "decimal":
-		t := decimalJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.BitWidth {
-		case 256:
-			arrowType = &arrow.Decimal256Type{Precision: int32(t.Precision), Scale: int32(t.Scale)}
-		case 128, 0: // default to 128 bits when missing
-			arrowType = &arrow.Decimal128Type{Precision: int32(t.Precision), Scale: int32(t.Scale)}
-		}
-	case "union":
-		t := unionJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Mode {
-		case "SPARSE":
-			arrowType = arrow.SparseUnionOf(fieldsFromJSON(children), t.TypeIDs)
-		case "DENSE":
-			arrowType = arrow.DenseUnionOf(fieldsFromJSON(children), t.TypeIDs)
-		}
-	case "runendencoded":
-		if len(children) != 2 {
-			err = fmt.Errorf("%w: run-end encoded array must have exactly 2 fields, but got %d",
-				arrow.ErrInvalid, len(children))
-			return
-		}
-		if children[0].Name != "run_ends" {
-			err = fmt.Errorf("%w: first child of run-end encoded array must be called run_ends, but got: %s",
-				arrow.ErrInvalid, children[0].Name)
-			return
-		}
-		switch children[0].arrowType.ID() {
-		case arrow.INT16, arrow.INT32, arrow.INT64:
-		default:
-			err = fmt.Errorf("%w: only int16, int32 and int64 type are supported as run ends array, but got: %s",
-				arrow.ErrInvalid, children[0].Type)
-			return
-		}
-
-		if children[0].Nullable {
-			err = fmt.Errorf("%w: run ends array cannot be nullable", arrow.ErrInvalid)
-			return
-		}
-		if children[1].Name != "values" {
-			err = fmt.Errorf("%w: second child of run-end encoded array must be called values, got: %s",
-				arrow.ErrInvalid, children[1].Name)
-			return
-		}
-		arrowType = arrow.RunEndEncodedOf(children[0].arrowType, children[1].arrowType)
-	}
-
-	if arrowType == nil {
-		err = fmt.Errorf("unhandled type unmarshalling from json: %s", tmp.Name)
-	}
-	return
-}
-
-func (f *FieldWrapper) UnmarshalJSON(data []byte) error {
-	var err error
-	if err = json.Unmarshal(data, &f.Field); err != nil {
-		return err
-	}
-
-	if f.arrowType, err = typeFromJSON(f.Type, f.Children); err != nil {
-		return err
-	}
-
-	if f.Dictionary != nil {
-		if f.Dictionary.idxType, err = typeFromJSON(f.Dictionary.Type, nil); err != nil {
-			return err
-		}
-		f.arrowType = &arrow.DictionaryType{IndexType: f.Dictionary.idxType, ValueType: f.arrowType}
-	}
-
-	if len(f.Metadata) > 0 { // unmarshal the key/value metadata pairs
-		var (
-			mdkeys         = make([]string, 0, len(f.Metadata))
-			mdvals         = make([]string, 0, len(f.Metadata))
-			extKeyIdx  int = -1
-			extDataIdx int = -1
-		)
-
-		for i, kv := range f.Metadata {
-			switch kv.Key {
-			case ipc.ExtensionTypeKeyName:
-				extKeyIdx = i
-			case ipc.ExtensionMetadataKeyName:
-				extDataIdx = i
-			}
-			mdkeys = append(mdkeys, kv.Key)
-			mdvals = append(mdvals, kv.Value)
-		}
-
-		if extKeyIdx == -1 { // no extension metadata just create the metadata
-			f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-			return nil
-		}
-
-		extType := arrow.GetExtensionType(mdvals[extKeyIdx])
-		if extType == nil { // unregistered extension type, just keep the metadata
-			f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-			return nil
-		}
-
-		var extData string
-		if extDataIdx > -1 {
-			extData = mdvals[extDataIdx]
-			// if both extension type and extension type metadata exist
-			// filter out both keys
-			newkeys := make([]string, 0, len(mdkeys)-2)
-			newvals := make([]string, 0, len(mdvals)-2)
-			for i := range mdkeys {
-				if i != extKeyIdx && i != extDataIdx {
-					newkeys = append(newkeys, mdkeys[i])
-					newvals = append(newvals, mdvals[i])
-				}
-			}
-			mdkeys = newkeys
-			mdvals = newvals
-		} else {
-			// if only extension type key is present, we can simplify filtering it out
-			mdkeys = append(mdkeys[:extKeyIdx], mdkeys[extKeyIdx+1:]...)
-			mdvals = append(mdvals[:extKeyIdx], mdvals[extKeyIdx+1:]...)
-		}
-
-		if f.arrowType, err = extType.Deserialize(f.arrowType, extData); err != nil {
-			return err
-		}
-
-		f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-	}
-
-	return err
-}
-
-// the structs below represent various configurations of the Type
-// json block and what fields will be expected. Sometimes there is
-// overlap between the same key used with different types, so it's
-// easier to partial unmarshal and then use these to ensure correct
-// typing.
-
-type nameJSON struct {
-	Name string `json:"name"`
-}
-
-type listSizeJSON struct {
-	Name     string `json:"name"`
-	ListSize int32  `json:"listSize,omitempty"`
-}
-
-type bitWidthJSON struct {
-	Name     string `json:"name"`
-	Signed   bool   `json:"isSigned,omitempty"`
-	BitWidth int    `json:"bitWidth,omitempty"`
-	Unit     string `json:"unit,omitempty"`
-}
-
-type floatJSON struct {
-	Name      string `json:"name"`
-	Precision string `json:"precision,omitempty"`
-}
-
-type unitZoneJSON struct {
-	Name     string `json:"name"`
-	Unit     string `json:"unit,omitempty"`
-	TimeZone string `json:"timezone,omitempty"`
-}
-
-type decimalJSON struct {
-	Name      string `json:"name"`
-	Scale     int    `json:"scale,omitempty"`
-	Precision int    `json:"precision,omitempty"`
-	BitWidth  int    `json:"bitWidth,omitempty"`
-}
-
-type byteWidthJSON struct {
-	Name      string `json:"name"`
-	ByteWidth int    `json:"byteWidth,omitempty"`
-}
-
-type mapJSON struct {
-	Name       string `json:"name"`
-	KeysSorted bool   `json:"keysSorted,omitempty"`
-}
-
-type unionJSON struct {
-	Name    string                `json:"name"`
-	Mode    string                `json:"mode"`
-	TypeIDs []arrow.UnionTypeCode `json:"typeIds"`
-}
-
-func schemaToJSON(schema *arrow.Schema, mapper *dictutils.Mapper) Schema {
-	return Schema{
-		Fields:    fieldsToJSON(schema.Fields(), dictutils.NewFieldPos(), mapper),
-		arrowMeta: schema.Metadata(),
-	}
-}
-
-func schemaFromJSON(schema Schema, memo *dictutils.Memo) *arrow.Schema {
-	sc := arrow.NewSchema(fieldsFromJSON(schema.Fields), &schema.arrowMeta)
-	dictInfoFromJSONFields(schema.Fields, dictutils.NewFieldPos(), memo)
-	return sc
-}
-
-func dictInfoFromJSONFields(fields []FieldWrapper, pos dictutils.FieldPos, memo *dictutils.Memo) {
-	for i, f := range fields {
-		dictInfoFromJSON(f, pos.Child(int32(i)), memo)
-	}
-}
-
-func dictInfoFromJSON(field FieldWrapper, pos dictutils.FieldPos, memo *dictutils.Memo) {
-	if field.Dictionary != nil {
-		typ := field.arrowType
-		if typ.ID() == arrow.EXTENSION {
-			typ = typ.(arrow.ExtensionType).StorageType()
-		}
-		valueType := typ.(*arrow.DictionaryType).ValueType
-
-		if err := memo.Mapper.AddField(int64(field.Dictionary.ID), pos.Path()); err != nil {
-			panic(err)
-		}
-		if err := memo.AddType(int64(field.Dictionary.ID), valueType); err != nil {
-			panic(err)
-		}
-	}
-	dictInfoFromJSONFields(field.Children, pos, memo)
-}
-
-func fieldsToJSON(fields []arrow.Field, parentPos dictutils.FieldPos, mapper *dictutils.Mapper) []FieldWrapper {
-	o := make([]FieldWrapper, len(fields))
-	for i, f := range fields {
-		pos := parentPos.Child(int32(i))
-		o[i] = FieldWrapper{Field{
-			Name:      f.Name,
-			arrowType: f.Type,
-			Nullable:  f.Nullable,
-			Children:  []FieldWrapper{},
-			arrowMeta: f.Metadata,
-		}}
-		typ := f.Type
-		if typ.ID() == arrow.EXTENSION {
-			typ = typ.(arrow.ExtensionType).StorageType()
-		}
-		if typ.ID() == arrow.DICTIONARY {
-			dictType := typ.(*arrow.DictionaryType)
-			typ = dictType.ValueType
-			dictID, err := mapper.GetFieldID(pos.Path())
-			if err != nil {
-				panic(err)
-			}
-			o[i].Dictionary = &FieldDict{
-				idxType: dictType.IndexType,
-				ID:      int(dictID),
-				Ordered: dictType.Ordered,
-			}
-		}
-
-		if dt, ok := typ.(arrow.NestedType); ok {
-			o[i].Children = fieldsToJSON(dt.Fields(), pos, mapper)
-		}
-	}
-	return o
-}
-
-func fieldsFromJSON(fields []FieldWrapper) []arrow.Field {
-	vs := make([]arrow.Field, len(fields))
-	for i, v := range fields {
-		vs[i] = fieldFromJSON(v.Field)
-	}
-	return vs
-}
-
-func fieldFromJSON(f Field) arrow.Field {
-	return arrow.Field{
-		Name:     f.Name,
-		Type:     f.arrowType,
-		Nullable: f.Nullable,
-		Metadata: f.arrowMeta,
-	}
-}
-
-type Dictionary struct {
-	ID   int64  `json:"id"`
-	Data Record `json:"data"`
-}
-
-func dictionariesFromJSON(mem memory.Allocator, dicts []Dictionary, memo *dictutils.Memo) {
-	for _, d := range dicts {
-		valueType, exists := memo.Type(d.ID)
-		if !exists {
-			panic(fmt.Errorf("arrow/json: no corresponding dictionary memo for id=%d", d.ID))
-		}
-
-		dict := arrayFromJSON(mem, valueType, d.Data.Columns[0])
-		defer dict.Release()
-		memo.Add(d.ID, dict)
-	}
-}
-
-type Record struct {
-	Count   int64   `json:"count"`
-	Columns []Array `json:"columns"`
-}
-
-func recordsFromJSON(mem memory.Allocator, schema *arrow.Schema, recs []Record, memo *dictutils.Memo) []arrow.Record {
-	vs := make([]arrow.Record, len(recs))
-	for i, rec := range recs {
-		vs[i] = recordFromJSON(mem, schema, rec, memo)
-	}
-	return vs
-}
-
-func recordFromJSON(mem memory.Allocator, schema *arrow.Schema, rec Record, memo *dictutils.Memo) arrow.Record {
-	arrs := arraysFromJSON(mem, schema, rec.Columns)
-	if err := dictutils.ResolveDictionaries(memo, arrs, dictutils.NewFieldPos(), mem); err != nil {
-		panic(err)
-	}
-
-	cols := make([]arrow.Array, len(arrs))
-	for i, d := range arrs {
-		cols[i] = array.MakeFromData(d)
-		defer d.Release()
-		defer cols[i].Release()
-	}
-	return array.NewRecord(schema, cols, int64(rec.Count))
-}
-
-func recordToJSON(rec arrow.Record) Record {
-	return Record{
-		Count:   rec.NumRows(),
-		Columns: arraysToJSON(rec.Schema(), rec.Columns()),
-	}
-}
-
-type Array struct {
-	Name     string                `json:"name"`
-	Count    int                   `json:"count"`
-	Valids   []int                 `json:"VALIDITY,omitempty"`
-	Data     []interface{}         `json:"DATA,omitempty"`
-	TypeID   []arrow.UnionTypeCode `json:"TYPE_ID,omitempty"`
-	Offset   interface{}           `json:"OFFSET,omitempty"`
-	Size     interface{}           `json:"SIZE,omitempty"`
-	Children []Array               `json:"children,omitempty"`
-	Variadic []string              `json:"VARIADIC_DATA_BUFFERS,omitempty"`
-	Views    []interface{}         `json:"VIEWS,omitempty"`
-}
-
-func (a *Array) MarshalJSON() ([]byte, error) {
-	type Alias Array
-	aux := struct {
-		*Alias
-		OutOffset interface{} `json:"OFFSET,omitempty"`
-		OutSize   interface{} `json:"SIZE,omitempty"`
-	}{Alias: (*Alias)(a), OutOffset: a.Offset, OutSize: a.Size}
-	return json.Marshal(aux)
-}
-
-func (a *Array) UnmarshalJSON(b []byte) (err error) {
-	type Alias Array
-	aux := &struct {
-		*Alias
-		RawOffset json.RawMessage `json:"OFFSET,omitempty"`
-		RawSize   json.RawMessage `json:"SIZE,omitempty"`
-	}{Alias: (*Alias)(a)}
-
-	dec := json.NewDecoder(bytes.NewReader(b))
-	dec.UseNumber()
-
-	if err = dec.Decode(&aux); err != nil {
-		return
-	}
-
-	// Offsets
-	if len(aux.RawOffset) == 0 {
-		return
-	}
-
-	var rawOffsets []interface{}
-	if err = json.Unmarshal(aux.RawOffset, &rawOffsets); err != nil {
-		return
-	}
-
-	if len(rawOffsets) == 0 {
-		return
-	}
-
-	switch rawOffsets[0].(type) {
-	case string:
-		out := make([]int64, len(rawOffsets))
-		for i, o := range rawOffsets {
-			out[i], err = strconv.ParseInt(o.(string), 10, 64)
-			if err != nil {
-				return
-			}
-		}
-		a.Offset = out
-	case float64:
-		out := make([]int32, len(rawOffsets))
-		for i, o := range rawOffsets {
-			out[i] = int32(o.(float64))
-		}
-		a.Offset = out
-	}
-
-	if len(aux.RawSize) == 0 {
-		return
-	}
-
-	// Sizes
-	var rawSizes []interface{}
-	if err = json.Unmarshal(aux.RawSize, &rawSizes); err != nil {
-		return
-	}
-
-	if len(rawSizes) == 0 {
-		return
-	}
-
-	switch rawSizes[0].(type) {
-	case string:
-		out := make([]int64, len(rawSizes))
-		for i, o := range rawSizes {
-			out[i], err = strconv.ParseInt(o.(string), 10, 64)
-			if err != nil {
-				return
-			}
-		}
-		a.Size = out
-	case float64:
-		out := make([]int32, len(rawSizes))
-		for i, o := range rawSizes {
-			out[i] = int32(o.(float64))
-		}
-		a.Size = out
-	}
-
-	return nil
-}
-
-func arraysFromJSON(mem memory.Allocator, schema *arrow.Schema, arrs []Array) []arrow.ArrayData {
-	o := make([]arrow.ArrayData, len(arrs))
-	for i, v := range arrs {
-		o[i] = arrayFromJSON(mem, schema.Field(i).Type, v)
-	}
-	return o
-}
-
-func arraysToJSON(schema *arrow.Schema, arrs []arrow.Array) []Array {
-	o := make([]Array, len(arrs))
-	for i, v := range arrs {
-		o[i] = arrayToJSON(schema.Field(i), v)
-	}
-	return o
-}
-
-func validsToBitmap(valids []bool, mem memory.Allocator) *memory.Buffer {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(int(bitutil.BytesForBits(int64(len(valids)))))
-
-	wr := bitutil.NewBitmapWriter(buf.Bytes(), 0, len(valids))
-	wr.AppendBools(valids)
-	wr.Finish()
-	return buf
-}
-
-func returnNewArrayData(bldr array.Builder) arrow.ArrayData {
-	arr := bldr.NewArray()
-	defer arr.Release()
-	arr.Data().Retain()
-	return arr.Data()
-}
-
-func arrayFromJSON(mem memory.Allocator, dt arrow.DataType, arr Array) arrow.ArrayData {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return array.NewNull(arr.Count).Data()
-
-	case *arrow.BooleanType:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		data := boolsFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int8Type:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		data := i8FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int16Type:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		data := i16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int32Type:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		data := i32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int64Type:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		data := i64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint8Type:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		data := u8FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint16Type:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		data := u16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint32Type:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		data := u32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint64Type:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		data := u64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float16Type:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-		data := f16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float32Type:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		data := f32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float64Type:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		data := f64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.StringType:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		data := strFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.LargeStringType:
-		bldr := array.NewLargeStringBuilder(mem)
-		defer bldr.Release()
-		data := strFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.LargeBinaryType:
-		bldr := array.NewBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		data := bytesFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.BinaryType:
-		bldr := array.NewBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		data := bytesFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case arrow.BinaryViewDataType:
-		valids := validsToBitmap(validsFromJSON(arr.Valids), mem)
-		nulls := arr.Count - bitutil.CountSetBits(valids.Bytes(), 0, arr.Count)
-		headers := stringHeadersFromJSON(mem, !dt.IsUtf8(), arr.Views)
-		extraBufs := variadicBuffersFromJSON(arr.Variadic)
-		defer valids.Release()
-		defer headers.Release()
-
-		return array.NewData(dt, arr.Count,
-			append([]*memory.Buffer{valids, headers}, extraBufs...),
-			nil, nulls, 0)
-
-	case *arrow.ListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.LargeListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Offset.([]int64)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.ListViewType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		var offsets, sizes *memory.Buffer
-		if arr.Count == 0 {
-			emptyBuffer := memory.NewBufferBytes(nil)
-			offsets, sizes = emptyBuffer, emptyBuffer
-		} else {
-			offsets = memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))
-			sizes = memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Size.([]int32)))
-		}
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap, offsets, sizes}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.LargeListViewType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		var offsets, sizes *memory.Buffer
-		if arr.Count == 0 {
-			emptyBuffer := memory.NewBufferBytes(nil)
-			offsets, sizes = emptyBuffer, emptyBuffer
-		} else {
-			offsets = memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Offset.([]int64)))
-			sizes = memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Size.([]int64)))
-		}
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap, offsets, sizes}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.FixedSizeListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.StructType:
-		valids := validsFromJSON(arr.Valids)
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-
-		fields := make([]arrow.ArrayData, dt.NumFields())
-		for i := range fields {
-			child := arrayFromJSON(mem, dt.Field(i).Type, arr.Children[i])
-			defer child.Release()
-			fields[i] = child
-		}
-
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap}, fields, nulls, 0)
-
-	case *arrow.FixedSizeBinaryType:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		strdata := strFromJSON(arr.Data)
-		data := make([][]byte, len(strdata))
-		for i, v := range strdata {
-			if len(v) != 2*dt.ByteWidth {
-				panic(fmt.Errorf("arrjson: invalid hex-string length (got=%d, want=%d)", len(v), 2*dt.ByteWidth))
-			}
-			vv, err := hex.DecodeString(v)
-			if err != nil {
-				panic(err)
-			}
-			data[i] = vv
-		}
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MapType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.Date32Type:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-		data := date32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Date64Type:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-		data := date64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Time32Type:
-		bldr := array.NewTime32Builder(mem, dt)
-		defer bldr.Release()
-		data := time32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Time64Type:
-		bldr := array.NewTime64Builder(mem, dt)
-		defer bldr.Release()
-		data := time64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.TimestampType:
-		bldr := array.NewTimestampBuilder(mem, dt)
-		defer bldr.Release()
-		data := timestampFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MonthIntervalType:
-		bldr := array.NewMonthIntervalBuilder(mem)
-		defer bldr.Release()
-		data := monthintervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.DayTimeIntervalType:
-		bldr := array.NewDayTimeIntervalBuilder(mem)
-		defer bldr.Release()
-		data := daytimeintervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MonthDayNanoIntervalType:
-		bldr := array.NewMonthDayNanoIntervalBuilder(mem)
-		defer bldr.Release()
-		data := monthDayNanointervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.DurationType:
-		bldr := array.NewDurationBuilder(mem, dt)
-		defer bldr.Release()
-		data := durationFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Decimal128Type:
-		bldr := array.NewDecimal128Builder(mem, dt)
-		defer bldr.Release()
-		data := decimal128FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Decimal256Type:
-		bldr := array.NewDecimal256Builder(mem, dt)
-		defer bldr.Release()
-		data := decimal256FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case arrow.ExtensionType:
-		storage := arrayFromJSON(mem, dt.StorageType(), arr)
-		defer storage.Release()
-		return array.NewData(dt, storage.Len(), storage.Buffers(), storage.Children(), storage.NullN(), storage.Offset())
-
-	case *arrow.DictionaryType:
-		indices := arrayFromJSON(mem, dt.IndexType, arr)
-		defer indices.Release()
-		return array.NewData(dt, indices.Len(), indices.Buffers(), indices.Children(), indices.NullN(), indices.Offset())
-
-	case *arrow.RunEndEncodedType:
-		runEnds := arrayFromJSON(mem, dt.RunEnds(), arr.Children[0])
-		defer runEnds.Release()
-		values := arrayFromJSON(mem, dt.Encoded(), arr.Children[1])
-		defer values.Release()
-		return array.NewData(dt, arr.Count, []*memory.Buffer{nil}, []arrow.ArrayData{runEnds, values}, 0, 0)
-
-	case arrow.UnionType:
-		fields := make([]arrow.ArrayData, dt.NumFields())
-		for i, f := range dt.Fields() {
-			child := arrayFromJSON(mem, f.Type, arr.Children[i])
-			defer child.Release()
-			fields[i] = child
-		}
-
-		typeIdBuf := memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(arr.TypeID))
-		defer typeIdBuf.Release()
-		buffers := []*memory.Buffer{nil, typeIdBuf}
-		if dt.Mode() == arrow.DenseMode {
-			var offsets []byte
-			if arr.Offset == nil {
-				offsets = []byte{}
-			} else {
-				offsets = arrow.Int32Traits.CastToBytes(arr.Offset.([]int32))
-			}
-			offsetBuf := memory.NewBufferBytes(offsets)
-			defer offsetBuf.Release()
-			buffers = append(buffers, offsetBuf)
-		}
-
-		return array.NewData(dt, arr.Count, buffers, fields, 0, 0)
-
-	default:
-		panic(fmt.Errorf("unknown data type %v %T", dt, dt))
-	}
-}
-
-func arrayToJSON(field arrow.Field, arr arrow.Array) Array {
-	switch arr := arr.(type) {
-	case *array.Null:
-		return Array{
-			Name:  field.Name,
-			Count: arr.Len(),
-		}
-
-	case *array.Boolean:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   boolsToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int8:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i8ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint8:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u8ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.String:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   strToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: arr.ValueOffsets(),
-		}
-
-	case *array.LargeString:
-		offsets := arr.ValueOffsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   strToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-		}
-
-	case *array.Binary:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   bytesToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: arr.ValueOffsets(),
-		}
-
-	case *array.LargeBinary:
-		offsets := arr.ValueOffsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   bytesToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-		}
-
-	case *array.StringView:
-		variadic := variadicBuffersToJSON(arr.Data().Buffers()[2:])
-		return Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Views:    stringHeadersToJSON(arr, false),
-			Variadic: variadic,
-		}
-	case *array.BinaryView:
-		variadic := variadicBuffersToJSON(arr.Data().Buffers()[2:])
-		return Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Views:    stringHeadersToJSON(arr, true),
-			Variadic: variadic,
-		}
-	case *array.List:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.ListType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.LargeList:
-		offsets := arr.Offsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.LargeListType).Elem()}, arr.ListValues()),
-			},
-		}
-
-	case *array.ListView:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Size:   arr.Sizes(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.ListViewType).Elem()}, arr.ListValues()),
-			},
-		}
-		if arr.Len() == 0 {
-			o.Offset, o.Size = []int32{}, []int32{}
-		}
-		return o
-
-	case *array.LargeListView:
-		offsets := arr.Offsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		sizes := arr.Sizes()
-		strSizes := make([]string, len(sizes))
-		for i, s := range sizes {
-			strSizes[i] = strconv.FormatInt(s, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-			Size:   strSizes,
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.LargeListViewType).Elem()}, arr.ListValues()),
-			},
-		}
-
-	case *array.Map:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "entries", Type: arr.DataType().(*arrow.MapType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.FixedSizeList:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "", Type: arr.DataType().(*arrow.FixedSizeListType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.Struct:
-		dt := arr.DataType().(*arrow.StructType)
-		o := Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Children: make([]Array, dt.NumFields()),
-		}
-		for i := range o.Children {
-			o.Children[i] = arrayToJSON(dt.Field(i), arr.Field(i))
-		}
-		return o
-
-	case *array.FixedSizeBinary:
-		dt := arr.DataType().(*arrow.FixedSizeBinaryType)
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Data:   make([]interface{}, arr.Len()),
-		}
-		for i := range o.Data {
-			v := []byte(strings.ToUpper(hex.EncodeToString(arr.Value(i))))
-			if len(v) != 2*dt.ByteWidth {
-				panic(fmt.Errorf("arrjson: invalid hex-string length (got=%d, want=%d)", len(v), 2*dt.ByteWidth))
-			}
-			o.Data[i] = string(v) // re-convert as string to prevent json.Marshal from base64-encoding it.
-		}
-		return o
-
-	case *array.Date32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   date32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Date64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   date64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Time32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   time32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Time64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   time64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Timestamp:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   timestampToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.MonthInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   monthintervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.DayTimeInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   daytimeintervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.MonthDayNanoInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   monthDayNanointervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.Duration:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   durationToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Decimal128:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   decimal128ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Decimal256:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   decimal256ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case array.ExtensionArray:
-		return arrayToJSON(field, arr.Storage())
-
-	case *array.Dictionary:
-		return arrayToJSON(field, arr.Indices())
-
-	case array.Union:
-		dt := arr.DataType().(arrow.UnionType)
-		o := Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			TypeID:   arr.RawTypeCodes(),
-			Children: make([]Array, dt.NumFields()),
-		}
-		if dt.Mode() == arrow.DenseMode {
-			o.Offset = arr.(*array.DenseUnion).RawValueOffsets()
-		}
-		fields := dt.Fields()
-		for i := range o.Children {
-			o.Children[i] = arrayToJSON(fields[i], arr.Field(i))
-		}
-		return o
-
-	case *array.RunEndEncoded:
-		dt := arr.DataType().(*arrow.RunEndEncodedType)
-		fields := dt.Fields()
-		runEnds := arr.LogicalRunEndsArray(memory.DefaultAllocator)
-		defer runEnds.Release()
-		values := arr.LogicalValuesArray()
-		defer values.Release()
-		return Array{
-			Name:  field.Name,
-			Count: arr.Len(),
-			Children: []Array{
-				arrayToJSON(fields[0], runEnds),
-				arrayToJSON(fields[1], values),
-			},
-		}
-
-	default:
-		panic(fmt.Errorf("unknown array type %T", arr))
-	}
-}
-
-func validsFromJSON(vs []int) []bool {
-	o := make([]bool, len(vs))
-	for i, v := range vs {
-		if v > 0 {
-			o[i] = true
-		}
-	}
-	return o
-}
-
-func validsToJSON(arr arrow.Array) []int {
-	o := make([]int, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = 1
-		}
-	}
-	return o
-}
-
-func boolsFromJSON(vs []interface{}) []bool {
-	o := make([]bool, len(vs))
-	for i, v := range vs {
-		o[i] = v.(bool)
-	}
-	return o
-}
-
-func boolsToJSON(arr *array.Boolean) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i8FromJSON(vs []interface{}) []int8 {
-	o := make([]int8, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int8(vv)
-	}
-	return o
-}
-
-func i8ToJSON(arr *array.Int8) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i16FromJSON(vs []interface{}) []int16 {
-	o := make([]int16, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int16(vv)
-	}
-	return o
-}
-
-func i16ToJSON(arr *array.Int16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i32FromJSON(vs []interface{}) []int32 {
-	o := make([]int32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int32(vv)
-	}
-	return o
-}
-
-func i32ToJSON(arr *array.Int32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i64FromJSON(vs []interface{}) []int64 {
-	o := make([]int64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = vv
-	}
-	return o
-}
-
-func i64ToJSON(arr *array.Int64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(arr.Value(i), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func u8FromJSON(vs []interface{}) []uint8 {
-	o := make([]uint8, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint8(vv)
-	}
-	return o
-}
-
-func u8ToJSON(arr *array.Uint8) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u16FromJSON(vs []interface{}) []uint16 {
-	o := make([]uint16, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint16(vv)
-	}
-	return o
-}
-
-func u16ToJSON(arr *array.Uint16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u32FromJSON(vs []interface{}) []uint32 {
-	o := make([]uint32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint32(vv)
-	}
-	return o
-}
-
-func u32ToJSON(arr *array.Uint32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u64FromJSON(vs []interface{}) []uint64 {
-	o := make([]uint64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseUint(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = vv
-	}
-	return o
-}
-
-func u64ToJSON(arr *array.Uint64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatUint(arr.Value(i), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func f16FromJSON(vs []interface{}) []float16.Num {
-	o := make([]float16.Num, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float16.New(float32(vv))
-	}
-	return o
-}
-
-func f16ToJSON(arr *array.Float16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).Float32()
-	}
-	return o
-}
-
-func f32FromJSON(vs []interface{}) []float32 {
-	o := make([]float32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float32(vv)
-	}
-	return o
-}
-
-func f32ToJSON(arr *array.Float32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func f64FromJSON(vs []interface{}) []float64 {
-	o := make([]float64, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float64(vv)
-	}
-	return o
-}
-
-func f64ToJSON(arr *array.Float64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func decimal128ToJSON(arr *array.Decimal128) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).BigInt().String()
-	}
-	return o
-}
-
-func decimal128FromJSON(vs []interface{}) []decimal128.Num {
-	var tmp big.Int
-	o := make([]decimal128.Num, len(vs))
-	for i, v := range vs {
-		if err := tmp.UnmarshalJSON([]byte(v.(string))); err != nil {
-			panic(fmt.Errorf("could not convert %v (%T) to decimal128: %w", v, v, err))
-		}
-
-		o[i] = decimal128.FromBigInt(&tmp)
-	}
-	return o
-}
-
-func decimal256ToJSON(arr *array.Decimal256) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).BigInt().String()
-	}
-	return o
-}
-
-func decimal256FromJSON(vs []interface{}) []decimal256.Num {
-	var tmp big.Int
-	o := make([]decimal256.Num, len(vs))
-	for i, v := range vs {
-		if err := tmp.UnmarshalJSON([]byte(v.(string))); err != nil {
-			panic(fmt.Errorf("could not convert %v (%T) to decimal128: %w", v, v, err))
-		}
-
-		o[i] = decimal256.FromBigInt(&tmp)
-	}
-	return o
-}
-
-func strFromJSON(vs []interface{}) []string {
-	o := make([]string, len(vs))
-	for i, v := range vs {
-		switch v := v.(type) {
-		case string:
-			o[i] = v
-		case json.Number:
-			o[i] = v.String()
-		default:
-			panic(fmt.Errorf("could not convert %v (%T) to a string", v, v))
-		}
-	}
-	return o
-}
-
-type strlike interface {
-	arrow.Array
-	Value(int) string
-}
-
-func strToJSON(arr strlike) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func bytesFromJSON(vs []interface{}) [][]byte {
-	o := make([][]byte, len(vs))
-	for i, v := range vs {
-		var err error
-		switch v := v.(type) {
-		case string:
-			o[i], err = hex.DecodeString(v)
-		case json.Number:
-			o[i], err = hex.DecodeString(v.String())
-		default:
-			panic(fmt.Errorf("could not convert %v (%T) to a string", v, v))
-		}
-		if err != nil {
-			panic(fmt.Errorf("could not decode %v: %v", v, err))
-		}
-	}
-	return o
-}
-
-type binarylike interface {
-	arrow.Array
-	Value(int) []byte
-}
-
-func bytesToJSON(arr binarylike) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = strings.ToUpper(hex.EncodeToString(arr.Value(i)))
-	}
-	return o
-}
-
-func date32FromJSON(vs []interface{}) []arrow.Date32 {
-	o := make([]arrow.Date32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Date32(vv)
-	}
-	return o
-}
-
-func date32ToJSON(arr *array.Date32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func date64FromJSON(vs []interface{}) []arrow.Date64 {
-	o := make([]arrow.Date64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Date64(vv)
-	}
-	return o
-}
-
-func date64ToJSON(arr *array.Date64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func time32FromJSON(vs []interface{}) []arrow.Time32 {
-	o := make([]arrow.Time32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Time32(vv)
-	}
-	return o
-}
-
-func time32ToJSON(arr *array.Time32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func time64FromJSON(vs []interface{}) []arrow.Time64 {
-	o := make([]arrow.Time64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Time64(vv)
-	}
-	return o
-}
-
-func time64ToJSON(arr *array.Time64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func timestampFromJSON(vs []interface{}) []arrow.Timestamp {
-	o := make([]arrow.Timestamp, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Timestamp(vv)
-	}
-	return o
-}
-
-func timestampToJSON(arr *array.Timestamp) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func monthintervalFromJSON(vs []interface{}) []arrow.MonthInterval {
-	o := make([]arrow.MonthInterval, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.MonthInterval(int32(vv))
-	}
-	return o
-}
-
-func monthintervalToJSON(arr *array.MonthInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func daytimeintervalFromJSON(vs []interface{}) []arrow.DayTimeInterval {
-	o := make([]arrow.DayTimeInterval, len(vs))
-	for i, vv := range vs {
-		v := vv.(map[string]interface{})
-		days, err := v["days"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		ms, err := v["milliseconds"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.DayTimeInterval{Days: int32(days), Milliseconds: int32(ms)}
-	}
-	return o
-}
-
-func daytimeintervalToJSON(arr *array.DayTimeInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func monthDayNanointervalFromJSON(vs []interface{}) []arrow.MonthDayNanoInterval {
-	o := make([]arrow.MonthDayNanoInterval, len(vs))
-	for i, vv := range vs {
-		v := vv.(map[string]interface{})
-		months, err := v["months"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		days, err := v["days"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		ns, err := v["nanoseconds"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.MonthDayNanoInterval{Months: int32(months), Days: int32(days), Nanoseconds: ns}
-	}
-	return o
-}
-
-func monthDayNanointervalToJSON(arr *array.MonthDayNanoInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func durationFromJSON(vs []interface{}) []arrow.Duration {
-	o := make([]arrow.Duration, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Duration(vv)
-	}
-	return o
-}
-
-func durationToJSON(arr *array.Duration) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func variadicBuffersFromJSON(bufs []string) []*memory.Buffer {
-	out := make([]*memory.Buffer, len(bufs))
-	for i, data := range bufs {
-		rawData, err := hex.DecodeString(data)
-		if err != nil {
-			panic(err)
-		}
-
-		out[i] = memory.NewBufferBytes(rawData)
-	}
-	return out
-}
-
-func variadicBuffersToJSON(bufs []*memory.Buffer) []string {
-	out := make([]string, len(bufs))
-	for i, data := range bufs {
-		out[i] = strings.ToUpper(hex.EncodeToString(data.Bytes()))
-	}
-	return out
-}
-
-func stringHeadersFromJSON(mem memory.Allocator, isBinary bool, data []interface{}) *memory.Buffer {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(arrow.ViewHeaderTraits.BytesRequired(len(data)))
-
-	values := arrow.ViewHeaderTraits.CastFromBytes(buf.Bytes())
-
-	for i, d := range data {
-		switch v := d.(type) {
-		case nil:
-			continue
-		case map[string]interface{}:
-			if inlined, ok := v["INLINED"]; ok {
-				if isBinary {
-					val, err := hex.DecodeString(inlined.(string))
-					if err != nil {
-						panic(fmt.Errorf("could not decode %v: %v", inlined, err))
-					}
-					values[i].SetBytes(val)
-				} else {
-					values[i].SetString(inlined.(string))
-				}
-				continue
-			}
-
-			idx, offset := v["BUFFER_INDEX"].(json.Number), v["OFFSET"].(json.Number)
-			bufIdx, err := idx.Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			bufOffset, err := offset.Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			values[i].SetIndexOffset(int32(bufIdx), int32(bufOffset))
-			prefix, err := hex.DecodeString(v["PREFIX_HEX"].(string))
-			if err != nil {
-				panic(err)
-			}
-			sz, err := v["SIZE"].(json.Number).Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			rawData := make([]byte, sz)
-			copy(rawData, prefix)
-			values[i].SetBytes(rawData)
-		}
-	}
-	return buf
-}
-
-func stringHeadersToJSON(arr array.ViewLike, isBinary bool) []interface{} {
-	type StringHeader struct {
-		Size      int     `json:"SIZE"`
-		Prefix    *string `json:"PREFIX_HEX,omitempty"`
-		BufferIdx *int    `json:"BUFFER_INDEX,omitempty"`
-		BufferOff *int    `json:"OFFSET,omitempty"`
-		Inlined   *string `json:"INLINED,omitempty"`
-	}
-
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		hdr := arr.ValueHeader(i)
-		if hdr.IsInline() {
-			data := hdr.InlineString()
-			if isBinary {
-				data = strings.ToUpper(hex.EncodeToString(hdr.InlineBytes()))
-			}
-			o[i] = StringHeader{
-				Size:    hdr.Len(),
-				Inlined: &data,
-			}
-			continue
-		}
-
-		idx, off := int(hdr.BufferIndex()), int(hdr.BufferOffset())
-		prefix := hdr.Prefix()
-		encodedPrefix := strings.ToUpper(hex.EncodeToString(prefix[:]))
-		o[i] = StringHeader{
-			Size:      hdr.Len(),
-			Prefix:    &encodedPrefix,
-			BufferIdx: &idx,
-			BufferOff: &off,
-		}
-	}
-	return o
-}
diff --git a/go/arrow/internal/arrjson/arrjson_test.go b/go/arrow/internal/arrjson/arrjson_test.go
deleted file mode 100644
index 7459ef8ae8f1d..0000000000000
--- a/go/arrow/internal/arrjson/arrjson_test.go
+++ /dev/null
@@ -1,6388 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"errors"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestReadWrite(t *testing.T) {
-	wantJSONs := make(map[string]string)
-	wantJSONs["nulls"] = makeNullWantJSONs()
-	wantJSONs["primitives"] = makePrimitiveWantJSONs()
-	wantJSONs["structs"] = makeStructsWantJSONs()
-	wantJSONs["lists"] = makeListsWantJSONs()
-	wantJSONs["list_views"] = makeListViewsWantJSONs()
-	wantJSONs["strings"] = makeStringsWantJSONs()
-	wantJSONs["fixed_size_lists"] = makeFixedSizeListsWantJSONs()
-	wantJSONs["fixed_width_types"] = makeFixedWidthTypesWantJSONs()
-	wantJSONs["fixed_size_binaries"] = makeFixedSizeBinariesWantJSONs()
-	wantJSONs["intervals"] = makeIntervalsWantJSONs()
-	wantJSONs["durations"] = makeDurationsWantJSONs()
-	wantJSONs["decimal128"] = makeDecimal128sWantJSONs()
-	wantJSONs["decimal256"] = makeDecimal256sWantJSONs()
-	wantJSONs["maps"] = makeMapsWantJSONs()
-	wantJSONs["extension"] = makeExtensionsWantJSONs()
-	wantJSONs["dictionary"] = makeDictionaryWantJSONs()
-	wantJSONs["union"] = makeUnionWantJSONs()
-	wantJSONs["run_end_encoded"] = makeRunEndEncodedWantJSONs()
-	wantJSONs["view_types"] = makeViewTypesWantJSONs()
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-read-write-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w, err := NewWriter(f, recs[0].Schema())
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer w.Close()
-
-			for i, rec := range recs {
-				err = w.Write(rec)
-				if err != nil {
-					t.Fatalf("could not write record[%d] to JSON: %v", i, err)
-				}
-			}
-
-			err = w.Close()
-			if err != nil {
-				t.Fatalf("could not close JSON writer: %v", err)
-			}
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatalf("could not sync data to disk: %v", err)
-			}
-
-			fileBytes, _ := os.ReadFile(f.Name())
-			assert.JSONEq(t, wantJSONs[name], string(fileBytes))
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatalf("could not rewind file: %v", err)
-			}
-
-			r, err := NewReader(f, WithAllocator(mem), WithSchema(recs[0].Schema()))
-			if err != nil {
-				raw, _ := os.ReadFile(f.Name())
-				t.Fatalf("could not read JSON file: %v\n%v\n", err, string(raw))
-			}
-			defer r.Release()
-
-			r.Retain()
-			r.Release()
-
-			if got, want := r.Schema(), recs[0].Schema(); !got.Equal(want) {
-				t.Fatalf("invalid schema\ngot:\n%v\nwant:\n%v\n", got, want)
-			}
-
-			if got, want := r.NumRecords(), len(recs); got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-
-			nrecs := 0
-			for {
-				rec, err := r.Read()
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				if err != nil {
-					t.Fatalf("could not read record[%d]: %v", nrecs, err)
-				}
-
-				if !array.RecordEqual(rec, recs[nrecs]) {
-					t.Fatalf("records[%d] differ", nrecs)
-				}
-				nrecs++
-			}
-
-			if got, want := nrecs, len(recs); got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func makeNullWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "nulls",
-        "type": {
-          "name": "null"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ],
-    "metadata": [
-      {
-        "key": "k1",
-        "value": "v1"
-      },
-      {
-        "key": "k2",
-        "value": "v2"
-      },
-      {
-        "key": "k3",
-        "value": "v3"
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makePrimitiveWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "bools",
-        "type": {
-          "name": "bool"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int8s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int16s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 16
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int32s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int64s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 64
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint8s",
-        "type": {
-          "name": "int",
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint16s",
-        "type": {
-          "name": "int",
-          "bitWidth": 16
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint32s",
-        "type": {
-          "name": "int",
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint64s",
-        "type": {
-          "name": "int",
-          "bitWidth": 64
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "float32s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "SINGLE"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "float64s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "DOUBLE"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ],
-    "metadata": [
-      {
-        "key": "k1",
-        "value": "v1"
-      },
-      {
-        "key": "k2",
-        "value": "v2"
-      },
-      {
-        "key": "k3",
-        "value": "v3"
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-1",
-            "0",
-            "0",
-            "-4",
-            "-5"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-11",
-            "0",
-            "0",
-            "-14",
-            "-15"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-21",
-            "0",
-            "0",
-            "-24",
-            "-25"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeStructsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "struct_nullable",
-        "type": {
-          "name": "struct"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "f1",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "f2",
-            "type": {
-              "name": "utf8"
-            },
-            "nullable": false,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 25,
-      "columns": [
-        {
-          "name": "struct_nullable",
-          "count": 25,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "f1",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25,
-                -31,
-                0,
-                0,
-                -34,
-                -35,
-                -41,
-                0,
-                0,
-                -44,
-                -45
-              ]
-            },
-            {
-              "name": "f2",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                "111",
-                "",
-                "",
-                "444",
-                "555",
-                "1111",
-                "",
-                "",
-                "1444",
-                "1555",
-                "2111",
-                "",
-                "",
-                "2444",
-                "2555",
-                "3111",
-                "",
-                "",
-                "3444",
-                "3555",
-                "4111",
-                "",
-                "",
-                "4444",
-                "4555"
-              ],
-              "OFFSET": [
-                0,
-                3,
-                3,
-                3,
-                6,
-                9,
-                13,
-                13,
-                13,
-                17,
-                21,
-                25,
-                25,
-                25,
-                29,
-                33,
-                37,
-                37,
-                37,
-                41,
-                45,
-                49,
-                49,
-                49,
-                53,
-                57
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 25,
-      "columns": [
-        {
-          "name": "struct_nullable",
-          "count": 25,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "f1",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25,
-                31,
-                0,
-                0,
-                34,
-                35,
-                41,
-                0,
-                0,
-                44,
-                45
-              ]
-            },
-            {
-              "name": "f2",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                "-111",
-                "",
-                "",
-                "-444",
-                "-555",
-                "-1111",
-                "",
-                "",
-                "-1444",
-                "-1555",
-                "-2111",
-                "",
-                "",
-                "-2444",
-                "-2555",
-                "-3111",
-                "",
-                "",
-                "-3444",
-                "-3555",
-                "-4111",
-                "",
-                "",
-                "-4444",
-                "-4555"
-              ],
-              "OFFSET": [
-                0,
-                4,
-                4,
-                4,
-                8,
-                12,
-                17,
-                17,
-                17,
-                22,
-                27,
-                32,
-                32,
-                32,
-                37,
-                42,
-                47,
-                47,
-                47,
-                52,
-                57,
-                62,
-                62,
-                62,
-                67,
-                72
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeListsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "list_nullable",
-        "type": {
-          "name": "list"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 0,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 0,
-          "children": [
-            {
-              "name": "item",
-              "count": 0
-            }
-          ],
-          "OFFSET": [
-            0
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeListViewsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "list_view_nullable",
-        "type": {
-          "name": "listview"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10
-          ],
-          "SIZE": [
-            5,
-            5,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10
-          ],
-          "SIZE": [
-            5,
-            5,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 10,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            5
-          ],
-          "SIZE": [
-            5,
-            0,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 0,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 0,
-          "children": [
-            {
-              "name": "item",
-              "count": 0
-            }
-          ],
-          "OFFSET": [
-          ],
-          "SIZE": [
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedSizeListsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "fixed_size_list_nullable",
-        "type": {
-          "name": "fixedsizelist",
-          "listSize": 3
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                3,
-                11,
-                0,
-                13,
-                21,
-                0,
-                23
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                -3,
-                -11,
-                0,
-                -13,
-                -21,
-                0,
-                -23
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                -3,
-                -11,
-                0,
-                -13,
-                -21,
-                0,
-                -23
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeStringsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "strings",
-        "type": {
-          "name": "utf8"
-        },
-        "nullable": false,
-        "children": []
-      },
-      {
-        "name": "bytes",
-        "type": {
-          "name": "binary"
-        },
-        "nullable": false,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1é",
-            "2",
-            "3",
-            "4",
-            "5"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            4,
-            5,
-            6,
-            7
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "31C3A9",
-            "32",
-            "33",
-            "34",
-            "35"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            4,
-            5,
-            6,
-            7
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "22",
-            "33",
-            "44",
-            "55"
-          ],
-          "OFFSET": [
-            0,
-            2,
-            4,
-            6,
-            8,
-            10
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "3131",
-            "3232",
-            "3333",
-            "3434",
-            "3535"
-          ],
-          "OFFSET": [
-            0,
-            2,
-            4,
-            6,
-            8,
-            10
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "111",
-            "222",
-            "333",
-            "444",
-            "555"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            6,
-            9,
-            12,
-            15
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "313131",
-            "323232",
-            "333333",
-            "343434",
-            "353535"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            6,
-            9,
-            12,
-            15
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedWidthTypesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "float16s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "HALF"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time32ms",
-        "type": {
-          "name": "time",
-          "bitWidth": 32,
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time32s",
-        "type": {
-          "name": "time",
-          "bitWidth": 32,
-          "unit": "SECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time64ns",
-        "type": {
-          "name": "time",
-          "bitWidth": 64,
-          "unit": "NANOSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time64us",
-        "type": {
-          "name": "time",
-          "bitWidth": 64,
-          "unit": "MICROSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_s",
-        "type": {
-          "name": "timestamp",
-          "unit": "SECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_ms",
-        "type": {
-          "name": "timestamp",
-          "unit": "MILLISECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_us",
-        "type": {
-          "name": "timestamp",
-          "unit": "MICROSECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_ns",
-        "type": {
-          "name": "timestamp",
-          "unit": "NANOSECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "date32s",
-        "type": {
-          "name": "date",
-          "unit": "DAY"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "date64s",
-        "type": {
-          "name": "date",
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedSizeBinariesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "fixed_size_binary_3",
-        "type": {
-          "name": "fixedsizebinary",
-          "byteWidth": 3
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303031",
-            "303032",
-            "303033",
-            "303034",
-            "303035"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303131",
-            "303132",
-            "303133",
-            "303134",
-            "303135"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303231",
-            "303232",
-            "303233",
-            "303234",
-            "303235"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeIntervalsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "months",
-        "type": {
-          "name": "interval",
-          "unit": "YEAR_MONTH"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "days",
-        "type": {
-          "name": "interval",
-          "unit": "DAY_TIME"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "nanos",
-        "type": {
-          "name": "interval",
-          "unit": "MONTH_DAY_NANO"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "months",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "days",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": 1,
-              "milliseconds": 1
-            },
-            {
-              "days": 2,
-              "milliseconds": 2
-            },
-            {
-              "days": 3,
-              "milliseconds": 3
-            },
-            {
-              "days": 4,
-              "milliseconds": 4
-            },
-            {
-              "days": 5,
-              "milliseconds": 5
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": 1,
-              "days": 1,
-              "nanoseconds": 1000
-            },
-            {
-              "months": 2,
-              "days": 2,
-              "nanoseconds": 2000
-            },
-            {
-              "months": 3,
-              "days": 3,
-              "nanoseconds": 3000
-            },
-            {
-              "months": 4,
-              "days": 4,
-              "nanoseconds": 4000
-            },
-            {
-              "months": 5,
-              "days": 5,
-              "nanoseconds": 5000
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "months",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "days",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": -11,
-              "milliseconds": -11
-            },
-            {
-              "days": -12,
-              "milliseconds": -12
-            },
-            {
-              "days": -13,
-              "milliseconds": -13
-            },
-            {
-              "days": -14,
-              "milliseconds": -14
-            },
-            {
-              "days": -15,
-              "milliseconds": -15
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": -11,
-              "days": -11,
-              "nanoseconds": -11000
-            },
-            {
-              "months": -12,
-              "days": -12,
-              "nanoseconds": -12000
-            },
-            {
-              "months": -13,
-              "days": -13,
-              "nanoseconds": -13000
-            },
-            {
-              "months": -14,
-              "days": -14,
-              "nanoseconds": -14000
-            },
-            {
-              "months": -15,
-              "days": -15,
-              "nanoseconds": -15000
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 6,
-      "columns": [
-        {
-          "name": "months",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25,
-            0
-          ]
-        },
-        {
-          "name": "days",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": 21,
-              "milliseconds": 21
-            },
-            {
-              "days": 22,
-              "milliseconds": 22
-            },
-            {
-              "days": 23,
-              "milliseconds": 23
-            },
-            {
-              "days": 24,
-              "milliseconds": 24
-            },
-            {
-              "days": 25,
-              "milliseconds": 25
-            },
-            {
-              "days": 0,
-              "milliseconds": 0
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": 21,
-              "days": 21,
-              "nanoseconds": 21000
-            },
-            {
-              "months": 22,
-              "days": 22,
-              "nanoseconds": 22000
-            },
-            {
-              "months": 23,
-              "days": 23,
-              "nanoseconds": 23000
-            },
-            {
-              "months": 24,
-              "days": 24,
-              "nanoseconds": 24000
-            },
-            {
-              "months": 25,
-              "days": 25,
-              "nanoseconds": 25000
-            },
-            {
-              "months": 0,
-              "days": 0,
-              "nanoseconds": 0
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDurationsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "durations-s",
-        "type": {
-          "name": "duration",
-          "unit": "SECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-ms",
-        "type": {
-          "name": "duration",
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-us",
-        "type": {
-          "name": "duration",
-          "unit": "MICROSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-ns",
-        "type": {
-          "name": "duration",
-          "unit": "NANOSECOND"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDecimal128sWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "dec128s",
-        "type": {
-          "name": "decimal",
-          "scale": 1,
-          "precision": 10,
-          "bitWidth": 128
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "571849066284996100127",
-            "590295810358705651744",
-            "608742554432415203361",
-            "627189298506124754978",
-            "645636042579834306595"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "756316507022091616297",
-            "774763251095801167914",
-            "793209995169510719531",
-            "811656739243220271148",
-            "830103483316929822765"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "940783947759187132467",
-            "959230691832896684084",
-            "977677435906606235701",
-            "996124179980315787318",
-            "1014570924054025338935"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDecimal256sWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "dec256s",
-        "type": {
-          "name": "decimal",
-          "scale": 2,
-          "precision": 72,
-          "bitWidth": 256
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "131819136443120296047697507592700702471267712715359757795349",
-            "138096238178506976811873579382829307350851889511329270071318",
-            "144373339913893657576049651172957912230436066307298782347287",
-            "150650441649280338340225722963086517110020243103268294623256",
-            "156927543384667019104401794753215121989604419899237806899225"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "194590153796987103689458225493986751267109480675054880555039",
-            "200867255532373784453634297284115356146693657471024392831008",
-            "207144357267760465217810369074243961026277834266993905106977",
-            "213421459003147145981986440864372565905862011062963417382946",
-            "219698560738533826746162512654501170785446187858932929658915"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "257361171150853911331218943395272800062951248634750003314729",
-            "263638272886240592095395015185401404942535425430719515590698",
-            "269915374621627272859571086975530009822119602226689027866667",
-            "276192476357013953623747158765658614701703779022658540142636",
-            "282469578092400634387923230555787219581287955818628052418605"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeMapsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "map_int_utf8",
-        "type": {
-          "name": "map",
-          "keysSorted": true
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "entries",
-            "type": {
-              "name": "struct"
-            },
-            "nullable": false,
-            "children": [
-              {
-                "name": "key",
-                "type": {
-                  "name": "int",
-                  "isSigned": true,
-                  "bitWidth": 32
-                },
-                "nullable": false,
-                "children": []
-              },
-              {
-                "name": "value",
-                "type": {
-                  "name": "utf8"
-                },
-                "nullable": true,
-                "children": []
-              }
-            ]
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 2,
-      "columns": [
-        {
-          "name": "map_int_utf8",
-          "count": 2,
-          "VALIDITY": [
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "entries",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "children": [
-                {
-                  "name": "key",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5
-                  ]
-                },
-                {
-                  "name": "value",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    "111",
-                    "",
-                    "",
-                    "444",
-                    "555",
-                    "1111",
-                    "",
-                    "",
-                    "1444",
-                    "1555",
-                    "2111",
-                    "",
-                    "",
-                    "2444",
-                    "2555",
-                    "3111",
-                    "",
-                    "",
-                    "3444",
-                    "3555",
-                    "4111",
-                    "",
-                    "",
-                    "4444",
-                    "4555",
-                    "-111",
-                    "",
-                    "",
-                    "-444",
-                    "-555",
-                    "-1111",
-                    "",
-                    "",
-                    "-1444",
-                    "-1555",
-                    "-2111",
-                    "",
-                    "",
-                    "-2444",
-                    "-2555",
-                    "-3111",
-                    "",
-                    "",
-                    "-3444",
-                    "-3555",
-                    "-4111",
-                    "",
-                    "",
-                    "-4444",
-                    "-4555"
-                  ],
-                  "OFFSET": [
-                    0,
-                    3,
-                    3,
-                    3,
-                    6,
-                    9,
-                    13,
-                    13,
-                    13,
-                    17,
-                    21,
-                    25,
-                    25,
-                    25,
-                    29,
-                    33,
-                    37,
-                    37,
-                    37,
-                    41,
-                    45,
-                    49,
-                    49,
-                    49,
-                    53,
-                    57,
-                    61,
-                    61,
-                    61,
-                    65,
-                    69,
-                    74,
-                    74,
-                    74,
-                    79,
-                    84,
-                    89,
-                    89,
-                    89,
-                    94,
-                    99,
-                    104,
-                    104,
-                    104,
-                    109,
-                    114,
-                    119,
-                    119,
-                    119,
-                    124,
-                    129
-                  ]
-                }
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            25,
-            50
-          ]
-        }
-      ]
-    },
-    {
-      "count": 2,
-      "columns": [
-        {
-          "name": "map_int_utf8",
-          "count": 2,
-          "VALIDITY": [
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "entries",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "children": [
-                {
-                  "name": "key",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5
-                  ]
-                },
-                {
-                  "name": "value",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    "-111",
-                    "",
-                    "",
-                    "-444",
-                    "-555",
-                    "-1111",
-                    "",
-                    "",
-                    "-1444",
-                    "-1555",
-                    "-2111",
-                    "",
-                    "",
-                    "-2444",
-                    "-2555",
-                    "-3111",
-                    "",
-                    "",
-                    "-3444",
-                    "-3555",
-                    "-4111",
-                    "",
-                    "",
-                    "-4444",
-                    "-4555",
-                    "111",
-                    "",
-                    "",
-                    "444",
-                    "555",
-                    "1111",
-                    "",
-                    "",
-                    "1444",
-                    "1555",
-                    "2111",
-                    "",
-                    "",
-                    "2444",
-                    "2555",
-                    "3111",
-                    "",
-                    "",
-                    "3444",
-                    "3555",
-                    "4111",
-                    "",
-                    "",
-                    "4444",
-                    "4555"
-                  ],
-                  "OFFSET": [
-                    0,
-                    4,
-                    4,
-                    4,
-                    8,
-                    12,
-                    17,
-                    17,
-                    17,
-                    22,
-                    27,
-                    32,
-                    32,
-                    32,
-                    37,
-                    42,
-                    47,
-                    47,
-                    47,
-                    52,
-                    57,
-                    62,
-                    62,
-                    62,
-                    67,
-                    72,
-                    75,
-                    75,
-                    75,
-                    78,
-                    81,
-                    85,
-                    85,
-                    85,
-                    89,
-                    93,
-                    97,
-                    97,
-                    97,
-                    101,
-                    105,
-                    109,
-                    109,
-                    109,
-                    113,
-                    117,
-                    121,
-                    121,
-                    121,
-                    125,
-                    129
-                  ]
-                }
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            25,
-            50
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDictionaryWantJSONs() string {
-	return `{
-    "schema": {
-      "fields": [
-        {
-          "name": "dict0",
-          "type": {
-            "name": "utf8"
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 0,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 8
-            },
-            "isOrdered": false
-          }
-        },
-        {
-          "name": "dict1",
-          "type": {
-            "name": "utf8"
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 1,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "isOrdered": false
-          }
-        },
-        {
-          "name": "dict2",
-          "type": {
-            "name": "int",
-            "isSigned": true,
-            "bitWidth": 64
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 2,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 16
-            },
-            "isOrdered": false
-          }
-        }
-      ]
-    },
-    "dictionaries": [
-      {
-        "id": 0,
-        "data": {
-          "count": 10,
-          "columns": [
-            {
-              "name": "DICT0",
-              "count": 10,
-              "VALIDITY": [
-                1,
-                1,
-                0,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                0
-              ],
-              "OFFSET": [
-                0,
-                7,
-                16,
-                16,
-                16,
-                16,
-                28,
-                39,
-                39,
-                46,
-                46
-              ],
-              "DATA": [
-                "gen3wjf",
-                "bbg61\u00b5\u00b0",
-                "",
-                "",
-                "",
-                "\u00f4\u00f42n\u20acm\u00a3",
-                "jb2b\u20acd\u20ac",
-                "",
-                "jfjddrg",
-                ""
-              ]
-            }
-          ]
-        }
-      },
-      {
-        "id": 1,
-        "data": {
-          "count": 5,
-          "columns": [
-            {
-              "name": "DICT1",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "OFFSET": [
-                0,
-                8,
-                18,
-                27,
-                35,
-                45
-              ],
-              "DATA": [
-                "\u00c2arcall",
-                "\u77e23b\u00b0eif",
-                "i3ak\u00b0k\u00b5",
-                "gp16\u00a3nd",
-                "f4\u00b01e\u00c2\u00b0"
-              ]
-            }
-          ]
-        }
-      },
-      {
-        "id": 2,
-        "data": {
-          "count": 50,
-          "columns": [
-            {
-              "name": "DICT2",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                0,
-                0,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1,
-                1,
-                0,
-                0,
-                0,
-                1,
-                0,
-                1,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                0,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "-2147483648",
-                "2147483647",
-                "97251241",
-                "-315526314",
-                "-256834552",
-                "-1159355470",
-                "800976983",
-                "-1728247486",
-                "-1784101814",
-                "1320684343",
-                "-788965748",
-                "1298782506",
-                "1971840342",
-                "686564052",
-                "-115364825",
-                "1787500433",
-                "-123446338",
-                "-1973712113",
-                "870684092",
-                "-994630427",
-                "-1826738974",
-                "461928552",
-                "1374967188",
-                "1317234669",
-                "1129789963",
-                "312195995",
-                "1535930156",
-                "-1610317326",
-                "-721673697",
-                "1443186644",
-                "-643456149",
-                "1132307434",
-                "1240578589",
-                "379611602",
-                "2011416968",
-                "165842874",
-                "-570054451",
-                "893435720",
-                "835998817",
-                "1223423131",
-                "-1677568310",
-                "-230900360",
-                "-229961726",
-                "2113303164",
-                "201112068",
-                "452691328",
-                "-1980985397",
-                "675701869",
-                "-1802109191",
-                "-669843831"
-              ]
-            }
-          ]
-        }
-      }
-    ],
-    "batches": [
-      {
-        "count": 7,
-        "columns": [
-          {
-            "name": "dict0",
-            "count": 7,
-            "VALIDITY": [
-              1,
-              1,
-              0,
-              1,
-              0,
-              1,
-              1
-            ],
-            "DATA": [
-              7,
-              6,
-              3,
-              1,
-              2,
-              9,
-              1
-            ]
-          },
-          {
-            "name": "dict1",
-            "count": 7,
-            "VALIDITY": [
-              1,
-              1,
-              0,
-              0,
-              0,
-              1,
-              0
-            ],
-            "DATA": [
-              0,
-              0,
-              3,
-              3,
-              4,
-              2,
-              3
-            ]
-          },
-          {
-            "name": "dict2",
-            "count": 7,
-            "VALIDITY": [
-              0,
-              1,
-              0,
-              1,
-              1,
-              0,
-              1
-            ],
-            "DATA": [
-              3,
-              11,
-              0,
-              33,
-              5,
-              21,
-              9
-            ]
-          }
-        ]
-      },
-      {
-        "count": 10,
-        "columns": [
-          {
-            "name": "dict0",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              0,
-              1,
-              0,
-              0,
-              1,
-              0,
-              1,
-              1
-            ],
-            "DATA": [
-              9,
-              4,
-              3,
-              9,
-              5,
-              7,
-              9,
-              4,
-              0,
-              9
-            ]
-          },
-          {
-            "name": "dict1",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              0,
-              1,
-              0,
-              0,
-              1,
-              1,
-              1,
-              0
-            ],
-            "DATA": [
-              1,
-              2,
-              4,
-              3,
-              3,
-              3,
-              2,
-              4,
-              4,
-              4
-            ]
-          },
-          {
-            "name": "dict2",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              1,
-              1,
-              1,
-              1,
-              0,
-              0,
-              1,
-              0
-            ],
-            "DATA": [
-              24,
-              26,
-              39,
-              4,
-              23,
-              23,
-              6,
-              28,
-              9,
-              49
-            ]
-          }
-        ]
-      }
-    ]
-  }`
-}
-
-func makeExtensionsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "p1",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-1"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0006\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p2",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-1"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u000c\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p3",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-2<param=2>"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0002\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p4",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-2<param=3>"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0003\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p5",
-        "type": {
-          "name": "struct"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "a",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 64
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "b",
-            "type": {
-              "name": "floatingpoint",
-              "precision": "DOUBLE"
-            },
-            "nullable": false,
-            "children": []
-          }
-        ],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "ext-struct-type"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "ext-struct-type-unique-code"
-          }
-        ]
-      },
-      {
-        "name": "unreg",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "unregistered"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": ""
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "p1",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            1,
-            -1,
-            2,
-            3,
-            -1
-          ]
-        },
-        {
-          "name": "p2",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            2,
-            -1,
-            3,
-            4,
-            -1
-          ]
-        },
-        {
-          "name": "p3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            5,
-            -1,
-            6,
-            7,
-            8
-          ]
-        },
-        {
-          "name": "p4",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            5,
-            -1,
-            7,
-            9,
-            -1
-          ]
-        },
-        {
-          "name": "p5",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "a",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "1",
-                "0",
-                "2",
-                "3",
-                "0"
-              ]
-            },
-            {
-              "name": "b",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0.1,
-                0,
-                0.2,
-                0.3,
-                0
-              ]
-            }
-          ]
-        },
-        {
-          "name": "unreg",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "p1",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            10,
-            -1,
-            20,
-            30,
-            -1
-          ]
-        },
-        {
-          "name": "p2",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            20,
-            -1,
-            30,
-            40,
-            -1
-          ]
-        },
-        {
-          "name": "p3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            50,
-            -1,
-            60,
-            70,
-            8
-          ]
-        },
-        {
-          "name": "p4",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            50,
-            -1,
-            70,
-            90,
-            -1
-          ]
-        },
-        {
-          "name": "p5",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "a",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "10",
-                "0",
-                "20",
-                "30",
-                "0"
-              ]
-            },
-            {
-              "name": "b",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0.01,
-                0,
-                0.02,
-                0.03,
-                0
-              ]
-            }
-          ]
-        },
-        {
-          "name": "unreg",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeUnionWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "sparse",
-        "type": {
-          "name": "union",
-          "mode": "SPARSE",
-          "typeIds": [
-            5,
-            10
-          ]
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "u0",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          },
-          {
-            "name": "u1",
-            "type": {
-              "name": "int",
-              "bitWidth": 8
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "dense",
-        "type": {
-          "name": "union",
-          "mode": "DENSE",
-          "typeIds": [
-            5,
-            10
-          ]
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "u0",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          },
-          {
-            "name": "u1",
-            "type": {
-              "name": "int",
-              "bitWidth": 8
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 7,
-      "columns": [
-        {
-          "name": "sparse",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                0,
-                1,
-                2,
-                3,
-                4,
-                5,
-                6
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                10,
-                11,
-                12,
-                13,
-                14,
-                15,
-                16
-              ]
-            }
-          ]
-        },
-        {
-          "name": "dense",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "OFFSET": [
-            0,
-            0,
-            1,
-            2,
-            1,
-            2,
-            3
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 4,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                0,
-                2,
-                3,
-                7
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 3,
-              "VALIDITY": [
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                11,
-                14,
-                15
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 7,
-      "columns": [
-        {
-          "name": "sparse",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0,
-                -1,
-                -2,
-                -3,
-                -4,
-                -5,
-                -6
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                101,
-                102,
-                103,
-                104,
-                105,
-                106
-              ]
-            }
-          ]
-        },
-        {
-          "name": "dense",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "OFFSET": [
-            0,
-            0,
-            1,
-            2,
-            1,
-            2,
-            3
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 4,
-              "VALIDITY": [
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0,
-                -2,
-                -3,
-                -7
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 3,
-              "VALIDITY": [
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                101,
-                104,
-                105
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeRunEndEncodedWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "ree16",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 16
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "utf8"
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "ree32",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "ree64",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 64
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "binary"
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 1100,
-      "columns": [
-        {
-          "name": "ree16",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 2,
-              "VALIDITY": [
-                1,
-                1
-              ],
-              "DATA": [
-                1000,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 2,
-              "VALIDITY": [
-                0,
-                1
-              ],
-              "DATA": [
-                "foo",
-                ""
-              ],
-              "OFFSET": [
-                9,
-                12,
-                12
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree32",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                200,
-                800,
-                1000,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                -2,
-                -3,
-                -4,
-                -5
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree64",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                "100",
-                "250",
-                "450",
-                "800",
-                "1100"
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "DEAD",
-                "BEEF",
-                "DEADBEEF",
-                "",
-                "BAADF00D"
-              ],
-              "OFFSET": [
-                0,
-                2,
-                4,
-                8,
-                8,
-                12
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 1100,
-      "columns": [
-        {
-          "name": "ree16",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                90,
-                140,
-                150,
-                1050,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "super",
-                "dee",
-                "",
-                "duper",
-                "doo"
-              ],
-              "OFFSET": [
-                0,
-                5,
-                8,
-                8,
-                13,
-                16
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree32",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                120,
-                710,
-                810,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                -2,
-                -3,
-                -4,
-                -5
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree64",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                "100",
-                "250",
-                "450",
-                "800",
-                "1100"
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "DEAD",
-                "BEEF",
-                "DEADBEEF",
-                "",
-                "BAADF00D"
-              ],
-              "OFFSET": [
-                0,
-                2,
-                4,
-                8,
-                8,
-                12
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeViewTypesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "binary_view",
-        "type": {
-          "name": "binaryview"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "string_view",
-        "type": {
-          "name": "utf8view"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "31C3A9"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "34"
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "35"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "1é" 
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "4"
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "5"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "31C3A9"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "34343434"
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "35353535"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "1é"              
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "32323232",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 0
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "33333333",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 14
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "4444"
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "5555"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [
-            "32323232323232323232323232323333333333333333333333333333"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 6,
-              "INLINED": "31C3A931C3A9"
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "32323232",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 0
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "33333333",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 14
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "3434"
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "3535"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [
-            "32323232323232323232323232323333333333333333333333333333"
-          ]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 6,
-              "INLINED": "1é1é"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "44"
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "55"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        }
-      ]
-    }
-  ]
-}`
-}
diff --git a/go/arrow/internal/arrjson/option.go b/go/arrow/internal/arrjson/option.go
deleted file mode 100644
index 261bc75b64e6f..0000000000000
--- a/go/arrow/internal/arrjson/option.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type config struct {
-	alloc  memory.Allocator
-	schema *arrow.Schema
-}
-
-func newConfig(opts ...Option) *config {
-	cfg := &config{
-		alloc: memory.NewGoAllocator(),
-	}
-
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return cfg
-}
-
-// Option is a functional option to configure opening or creating Arrow files
-// and streams.
-type Option func(*config)
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg *config) {
-		cfg.alloc = mem
-	}
-}
-
-// WithSchema specifies the Arrow schema to be used for reading or writing.
-func WithSchema(schema *arrow.Schema) Option {
-	return func(cfg *config) {
-		cfg.schema = schema
-	}
-}
diff --git a/go/arrow/internal/arrjson/reader.go b/go/arrow/internal/arrjson/reader.go
deleted file mode 100644
index 97fe2904cbe5f..0000000000000
--- a/go/arrow/internal/arrjson/reader.go
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Reader struct {
-	refs int64
-
-	schema *arrow.Schema
-	recs   []arrow.Record
-	memo   *dictutils.Memo
-
-	irec int // current record index. used for the arrio.Reader interface.
-}
-
-func NewReader(r io.Reader, opts ...Option) (*Reader, error) {
-	dec := json.NewDecoder(r)
-	dec.UseNumber()
-	var raw rawJSON
-	err := dec.Decode(&raw)
-	if err != nil {
-		return nil, err
-	}
-
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	memo := dictutils.NewMemo()
-	schema := schemaFromJSON(raw.Schema, &memo)
-	dictionariesFromJSON(cfg.alloc, raw.Dictionaries, &memo)
-	rr := &Reader{
-		refs:   1,
-		schema: schema,
-		recs:   recordsFromJSON(cfg.alloc, schema, raw.Records, &memo),
-		memo:   &memo,
-	}
-	return rr, nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		for i, rec := range r.recs {
-			if r.recs[i] != nil {
-				rec.Release()
-				r.recs[i] = nil
-			}
-		}
-		r.memo.Clear()
-		r.memo = nil
-	}
-}
-func (r *Reader) Schema() *arrow.Schema { return r.schema }
-func (r *Reader) NumRecords() int       { return len(r.recs) }
-
-func (r *Reader) Read() (arrow.Record, error) {
-	if r.irec == r.NumRecords() {
-		return nil, io.EOF
-	}
-	rec := r.recs[r.irec]
-	r.irec++
-	return rec, nil
-}
-
-func (r *Reader) ReadAt(index int) (arrow.Record, error) {
-	if index >= r.NumRecords() {
-		return nil, io.EOF
-	}
-	rec := r.recs[index]
-	return rec, nil
-}
-
-var (
-	_ arrio.Reader = (*Reader)(nil)
-)
diff --git a/go/arrow/internal/arrjson/writer.go b/go/arrow/internal/arrjson/writer.go
deleted file mode 100644
index 25004863abe0d..0000000000000
--- a/go/arrow/internal/arrjson/writer.go
+++ /dev/null
@@ -1,101 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const (
-	jsonIndent    = "  "
-	jsonPrefix    = "  "
-	jsonRecPrefix = "    "
-)
-
-type rawJSON struct {
-	Schema       Schema       `json:"schema"`
-	Records      []Record     `json:"batches"`
-	Dictionaries []Dictionary `json:"dictionaries,omitempty"`
-}
-
-type Writer struct {
-	w io.Writer
-
-	nrecs  int64
-	raw    rawJSON
-	mapper dictutils.Mapper
-}
-
-func NewWriter(w io.Writer, schema *arrow.Schema) (*Writer, error) {
-	ww := &Writer{
-		w: w,
-	}
-	ww.mapper.ImportSchema(schema)
-	ww.raw.Schema = schemaToJSON(schema, &ww.mapper)
-	ww.raw.Records = make([]Record, 0)
-	return ww, nil
-}
-
-func (w *Writer) Write(rec arrow.Record) error {
-	if w.nrecs == 0 {
-		pairs, err := dictutils.CollectDictionaries(rec, &w.mapper)
-		if err != nil {
-			return err
-		}
-
-		if len(pairs) > 0 {
-			w.raw.Dictionaries = make([]Dictionary, 0, len(pairs))
-		}
-
-		for _, p := range pairs {
-			defer p.Dict.Release()
-			sc := arrow.NewSchema([]arrow.Field{{Name: fmt.Sprintf("DICT%d", p.ID), Type: p.Dict.DataType(), Nullable: true}}, nil)
-			dummy := array.NewRecord(sc, []arrow.Array{p.Dict}, int64(p.Dict.Len()))
-			defer dummy.Release()
-			w.raw.Dictionaries = append(w.raw.Dictionaries, Dictionary{ID: p.ID, Data: recordToJSON(dummy)})
-		}
-	}
-
-	w.raw.Records = append(w.raw.Records, recordToJSON(rec))
-	w.nrecs++
-	return nil
-}
-
-func (w *Writer) Close() error {
-	if w.w == nil {
-		return nil
-	}
-
-	enc := json.NewEncoder(w.w)
-	enc.SetIndent("", jsonIndent)
-	// ensure that we don't convert <, >, !, etc. to their unicode equivalents
-	// in the output json since we aren't using this in an HTML context so that
-	// we can make sure that the json files match.
-	enc.SetEscapeHTML(false)
-	return enc.Encode(w.raw)
-}
-
-var (
-	_ arrio.Writer = (*Writer)(nil)
-)
diff --git a/go/arrow/internal/cdata_integration/entrypoints.go b/go/arrow/internal/cdata_integration/entrypoints.go
deleted file mode 100644
index 06f7cc8a41019..0000000000000
--- a/go/arrow/internal/cdata_integration/entrypoints.go
+++ /dev/null
@@ -1,193 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cdata_integration
-// +build cdata_integration
-
-package main
-
-import (
-	"fmt"
-	"os"
-	"runtime"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/cdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// #include <stdint.h>
-// #include <stdlib.h>
-import "C"
-
-var alloc = memory.NewCheckedAllocator(memory.NewGoAllocator())
-
-//export ArrowGo_BytesAllocated
-func ArrowGo_BytesAllocated() int64 {
-	return int64(alloc.CurrentAlloc())
-}
-
-//export ArrowGo_RunGC
-func ArrowGo_RunGC() {
-	runtime.GC()
-}
-
-//export ArrowGo_FreeError
-func ArrowGo_FreeError(cError *C.char) {
-	C.free(unsafe.Pointer(cError))
-}
-
-// When used in a defer() statement, this functions catches an incoming
-// panic and converts it into a regular error. This avoids crashing the
-// archery integration process and lets other tests proceed.
-// Not all panics may be caught and some will still crash the process, though.
-func handlePanic(err *error) {
-	if e := recover(); e != nil {
-		// Add a prefix while wrapping the panic-error
-		*err = utils.FormatRecoveredError("panic", e)
-	}
-}
-
-func newJsonReader(cJsonPath *C.char) (*arrjson.Reader, error) {
-	jsonPath := C.GoString(cJsonPath)
-
-	f, err := os.Open(jsonPath)
-	if err != nil {
-		return nil, fmt.Errorf("could not open JSON file %q: %w", jsonPath, err)
-	}
-	defer f.Close()
-
-	jsonReader, err := arrjson.NewReader(f, arrjson.WithAllocator(alloc))
-	if err != nil {
-		return nil, fmt.Errorf("could not open JSON file reader from file %q: %w", jsonPath, err)
-	}
-	return jsonReader, nil
-}
-
-func exportSchemaFromJson(cJsonPath *C.char, out *cdata.CArrowSchema) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	defer handlePanic(&err)
-	cdata.ExportArrowSchema(schema, out)
-	return err
-}
-
-func importSchemaAndCompareToJson(cJsonPath *C.char, cSchema *cdata.CArrowSchema) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	importedSchema, err := cdata.ImportCArrowSchema(cSchema)
-	if err != nil {
-		return err
-	}
-	if !schema.Equal(importedSchema) || !schema.Metadata().Equal(importedSchema.Metadata()) {
-		return fmt.Errorf(
-			"Schemas are different:\n- Json Schema: %s\n- Imported Schema: %s",
-			schema.String(),
-			importedSchema.String())
-	}
-	return nil
-}
-
-func exportBatchFromJson(cJsonPath *C.char, num_batch int, out *cdata.CArrowArray) error {
-	// XXX this function exports a single batch at a time, but the JSON reader
-	// reads all batches at construction.
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	batch, err := jsonReader.ReadAt(num_batch)
-	if err != nil {
-		return err
-	}
-	defer handlePanic(&err)
-	cdata.ExportArrowRecordBatch(batch, out, nil)
-	return err
-}
-
-func importBatchAndCompareToJson(cJsonPath *C.char, num_batch int, cArray *cdata.CArrowArray) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	batch, err := jsonReader.ReadAt(num_batch)
-	if err != nil {
-		return err
-	}
-
-	importedBatch, err := cdata.ImportCRecordBatchWithSchema(cArray, schema)
-	if err != nil {
-		return err
-	}
-	defer importedBatch.Release()
-	if !array.RecordEqual(batch, importedBatch) {
-		return fmt.Errorf(
-			"Batches are different:\n- Json Batch: %v\n- Imported Batch: %v",
-			batch, importedBatch)
-	}
-	return nil
-}
-
-//export ArrowGo_ExportSchemaFromJson
-func ArrowGo_ExportSchemaFromJson(cJsonPath *C.char, out uintptr) *C.char {
-	err := exportSchemaFromJson(cJsonPath, cdata.SchemaFromPtr(out))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ExportBatchFromJson
-func ArrowGo_ExportBatchFromJson(cJsonPath *C.char, num_batch int, out uintptr) *C.char {
-	err := exportBatchFromJson(cJsonPath, num_batch, cdata.ArrayFromPtr(out))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ImportSchemaAndCompareToJson
-func ArrowGo_ImportSchemaAndCompareToJson(cJsonPath *C.char, cSchema uintptr) *C.char {
-	err := importSchemaAndCompareToJson(cJsonPath, cdata.SchemaFromPtr(cSchema))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ImportBatchAndCompareToJson
-func ArrowGo_ImportBatchAndCompareToJson(cJsonPath *C.char, num_batch int, cArray uintptr) *C.char {
-	err := importBatchAndCompareToJson(cJsonPath, num_batch, cdata.ArrayFromPtr(cArray))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-func main() {}
diff --git a/go/arrow/internal/debug/assert_off.go b/go/arrow/internal/debug/assert_off.go
deleted file mode 100644
index 1450ecc98a26e..0000000000000
--- a/go/arrow/internal/debug/assert_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !assert
-// +build !assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {}
diff --git a/go/arrow/internal/debug/assert_on.go b/go/arrow/internal/debug/assert_on.go
deleted file mode 100644
index 4a57169b31358..0000000000000
--- a/go/arrow/internal/debug/assert_on.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build assert
-// +build assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {
-	if !cond {
-		panic(getStringValue(msg))
-	}
-}
diff --git a/go/arrow/internal/debug/doc.go b/go/arrow/internal/debug/doc.go
deleted file mode 100644
index 094e427a22e09..0000000000000
--- a/go/arrow/internal/debug/doc.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package debug provides APIs for conditional runtime assertions and debug logging.
-
-# Using Assert
-
-To enable runtime assertions, build with the assert tag. When the assert tag is omitted,
-the code for the assertion will be omitted from the binary.
-
-# Using Log
-
-To enable runtime debug logs, build with the debug tag. When the debug tag is omitted,
-the code for logging will be omitted from the binary.
-*/
-package debug
diff --git a/go/arrow/internal/debug/log_off.go b/go/arrow/internal/debug/log_off.go
deleted file mode 100644
index 760a5cdc0dc01..0000000000000
--- a/go/arrow/internal/debug/log_off.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !debug
-// +build !debug
-
-package debug
-
-func Log(interface{}) {}
diff --git a/go/arrow/internal/debug/log_on.go b/go/arrow/internal/debug/log_on.go
deleted file mode 100644
index 2588e7d1069f0..0000000000000
--- a/go/arrow/internal/debug/log_on.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug
-// +build debug
-
-package debug
-
-import (
-	"log"
-	"os"
-)
-
-var (
-	debug = log.New(os.Stderr, "[D] ", log.LstdFlags)
-)
-
-func Log(msg interface{}) {
-	debug.Output(1, getStringValue(msg))
-}
diff --git a/go/arrow/internal/debug/util.go b/go/arrow/internal/debug/util.go
deleted file mode 100644
index ea4eba7fb5cb8..0000000000000
--- a/go/arrow/internal/debug/util.go
+++ /dev/null
@@ -1,38 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug || assert
-// +build debug assert
-
-package debug
-
-import "fmt"
-
-func getStringValue(v interface{}) string {
-	switch a := v.(type) {
-	case func() string:
-		return a()
-
-	case string:
-		return a
-
-	case fmt.Stringer:
-		return a.String()
-
-	default:
-		panic(fmt.Sprintf("unexpected type, %t", v))
-	}
-}
diff --git a/go/arrow/internal/dictutils/dict.go b/go/arrow/internal/dictutils/dict.go
deleted file mode 100644
index da18c2d0e3fae..0000000000000
--- a/go/arrow/internal/dictutils/dict.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package dictutils
-
-import (
-	"errors"
-	"fmt"
-	"hash/maphash"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type Kind int8
-
-const (
-	KindNew Kind = iota
-	KindDelta
-	KindReplacement
-)
-
-type FieldPos struct {
-	parent       *FieldPos
-	index, depth int32
-}
-
-func NewFieldPos() FieldPos { return FieldPos{index: -1} }
-
-func (f *FieldPos) Child(index int32) FieldPos {
-	return FieldPos{parent: f, index: index, depth: f.depth + 1}
-}
-
-func (f *FieldPos) Path() []int32 {
-	path := make([]int32, f.depth)
-	cur := f
-	for i := f.depth - 1; i >= 0; i-- {
-		path[i] = int32(cur.index)
-		cur = cur.parent
-	}
-	return path
-}
-
-type Mapper struct {
-	pathToID map[uint64]int64
-	hasher   maphash.Hash
-}
-
-func (d *Mapper) NumDicts() int {
-	unique := make(map[int64]bool)
-	for _, id := range d.pathToID {
-		unique[id] = true
-	}
-	return len(unique)
-}
-
-func (d *Mapper) AddField(id int64, fieldPath []int32) error {
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(fieldPath))
-	defer d.hasher.Reset()
-
-	sum := d.hasher.Sum64()
-	if _, ok := d.pathToID[sum]; ok {
-		return errors.New("field already mapped to id")
-	}
-
-	d.pathToID[sum] = id
-	return nil
-}
-
-func (d *Mapper) GetFieldID(fieldPath []int32) (int64, error) {
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(fieldPath))
-	defer d.hasher.Reset()
-
-	id, ok := d.pathToID[d.hasher.Sum64()]
-	if !ok {
-		return -1, errors.New("arrow/ipc: dictionary field not found")
-	}
-	return id, nil
-}
-
-func (d *Mapper) NumFields() int {
-	return len(d.pathToID)
-}
-
-func (d *Mapper) InsertPath(pos FieldPos) {
-	id := len(d.pathToID)
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(pos.Path()))
-
-	d.pathToID[d.hasher.Sum64()] = int64(id)
-	d.hasher.Reset()
-}
-
-func (d *Mapper) ImportField(pos FieldPos, field arrow.Field) {
-	dt := field.Type
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		d.InsertPath(pos)
-		// import nested dicts
-		if nested, ok := dt.(*arrow.DictionaryType).ValueType.(arrow.NestedType); ok {
-			d.ImportFields(pos, nested.Fields())
-		}
-		return
-	}
-
-	if nested, ok := dt.(arrow.NestedType); ok {
-		d.ImportFields(pos, nested.Fields())
-	}
-}
-
-func (d *Mapper) ImportFields(pos FieldPos, fields []arrow.Field) {
-	for i := range fields {
-		d.ImportField(pos.Child(int32(i)), fields[i])
-	}
-}
-
-func (d *Mapper) ImportSchema(schema *arrow.Schema) {
-	d.pathToID = make(map[uint64]int64)
-	// This code path intentionally avoids calling ImportFields with
-	// schema.Fields to avoid allocations.
-	pos := NewFieldPos()
-	for i := 0; i < schema.NumFields(); i++ {
-		d.ImportField(pos.Child(int32(i)), schema.Field(i))
-	}
-}
-
-func hasUnresolvedNestedDict(data arrow.ArrayData) bool {
-	d := data.(*array.Data)
-	if d.DataType().ID() == arrow.DICTIONARY {
-		if d.Dictionary().(*array.Data) == nil {
-			return true
-		}
-		if hasUnresolvedNestedDict(d.Dictionary()) {
-			return true
-		}
-	}
-	for _, c := range d.Children() {
-		if hasUnresolvedNestedDict(c) {
-			return true
-		}
-	}
-	return false
-}
-
-type dictpair struct {
-	ID   int64
-	Dict arrow.Array
-}
-
-type dictCollector struct {
-	dictionaries []dictpair
-	mapper       *Mapper
-}
-
-func (d *dictCollector) visitChildren(pos FieldPos, typ arrow.DataType, arr arrow.Array) error {
-	for i, c := range arr.Data().Children() {
-		child := array.MakeFromData(c)
-		defer child.Release()
-		if err := d.visit(pos.Child(int32(i)), child); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (d *dictCollector) visit(pos FieldPos, arr arrow.Array) error {
-	dt := arr.DataType()
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-		arr = arr.(array.ExtensionArray).Storage()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		dictarr := arr.(*array.Dictionary)
-		dict := dictarr.Dictionary()
-
-		// traverse the dictionary to first gather any nested dictionaries
-		// so they appear in the output before their respective parents
-		dictType := dt.(*arrow.DictionaryType)
-		d.visitChildren(pos, dictType.ValueType, dict)
-
-		id, err := d.mapper.GetFieldID(pos.Path())
-		if err != nil {
-			return err
-		}
-		dict.Retain()
-		d.dictionaries = append(d.dictionaries, dictpair{ID: id, Dict: dict})
-		return nil
-	}
-	return d.visitChildren(pos, dt, arr)
-}
-
-func (d *dictCollector) collect(batch arrow.Record) error {
-	var (
-		pos    = NewFieldPos()
-		schema = batch.Schema()
-	)
-	d.dictionaries = make([]dictpair, 0, d.mapper.NumFields())
-	for i := range schema.Fields() {
-		if err := d.visit(pos.Child(int32(i)), batch.Column(i)); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-type dictMap map[int64][]arrow.ArrayData
-type dictTypeMap map[int64]arrow.DataType
-
-type Memo struct {
-	Mapper  Mapper
-	dict2id map[arrow.ArrayData]int64
-
-	id2type dictTypeMap
-	id2dict dictMap // map of dictionary ID to dictionary array
-}
-
-func NewMemo() Memo {
-	return Memo{
-		dict2id: make(map[arrow.ArrayData]int64),
-		id2dict: make(dictMap),
-		id2type: make(dictTypeMap),
-		Mapper: Mapper{
-			pathToID: make(map[uint64]int64),
-		},
-	}
-}
-
-func (memo *Memo) Len() int { return len(memo.id2dict) }
-
-func (memo *Memo) Clear() {
-	for id, v := range memo.id2dict {
-		delete(memo.id2dict, id)
-		for _, d := range v {
-			delete(memo.dict2id, d)
-			d.Release()
-		}
-	}
-}
-
-func (memo *Memo) reify(id int64, mem memory.Allocator) (arrow.ArrayData, error) {
-	v, ok := memo.id2dict[id]
-	if !ok {
-		return nil, fmt.Errorf("arrow/ipc: no dictionaries found for id=%d", id)
-	}
-
-	if len(v) == 1 {
-		return v[0], nil
-	}
-
-	// there are deltas we need to concatenate them with the first dictionary
-	toCombine := make([]arrow.Array, 0, len(v))
-	// NOTE: at this point the dictionary data may not be trusted. it needs to
-	// be validated as concatenation can crash on invalid or corrupted data.
-	for _, data := range v {
-		if hasUnresolvedNestedDict(data) {
-			return nil, fmt.Errorf("arrow/ipc: delta dict with unresolved nested dictionary not implemented")
-		}
-		arr := array.MakeFromData(data)
-		defer arr.Release()
-
-		toCombine = append(toCombine, arr)
-		defer data.Release()
-	}
-
-	combined, err := array.Concatenate(toCombine, mem)
-	if err != nil {
-		return nil, err
-	}
-	defer combined.Release()
-	combined.Data().Retain()
-
-	memo.id2dict[id] = []arrow.ArrayData{combined.Data()}
-	return combined.Data(), nil
-}
-
-func (memo *Memo) Dict(id int64, mem memory.Allocator) (arrow.ArrayData, error) {
-	return memo.reify(id, mem)
-}
-
-func (memo *Memo) AddType(id int64, typ arrow.DataType) error {
-	if existing, dup := memo.id2type[id]; dup && !arrow.TypeEqual(existing, typ) {
-		return fmt.Errorf("arrow/ipc: conflicting dictionary types for id %d", id)
-	}
-
-	memo.id2type[id] = typ
-	return nil
-}
-
-func (memo *Memo) Type(id int64) (arrow.DataType, bool) {
-	t, ok := memo.id2type[id]
-	return t, ok
-}
-
-// func (memo *dictMemo) ID(v arrow.Array) int64 {
-// 	id, ok := memo.dict2id[v]
-// 	if ok {
-// 		return id
-// 	}
-
-// 	v.Retain()
-// 	id = int64(len(memo.dict2id))
-// 	memo.dict2id[v] = id
-// 	memo.id2dict[id] = v
-// 	return id
-// }
-
-func (memo Memo) HasDict(v arrow.ArrayData) bool {
-	_, ok := memo.dict2id[v]
-	return ok
-}
-
-func (memo Memo) HasID(id int64) bool {
-	_, ok := memo.id2dict[id]
-	return ok
-}
-
-func (memo *Memo) Add(id int64, v arrow.ArrayData) {
-	if _, dup := memo.id2dict[id]; dup {
-		panic(fmt.Errorf("arrow/ipc: duplicate id=%d", id))
-	}
-	v.Retain()
-	memo.id2dict[id] = []arrow.ArrayData{v}
-	memo.dict2id[v] = id
-}
-
-func (memo *Memo) AddDelta(id int64, v arrow.ArrayData) {
-	d, ok := memo.id2dict[id]
-	if !ok {
-		panic(fmt.Errorf("arrow/ipc: adding delta to non-existing id=%d", id))
-	}
-	v.Retain()
-	memo.id2dict[id] = append(d, v)
-}
-
-// AddOrReplace puts the provided dictionary into the memo table. If it
-// already exists, then the new data will replace it. Otherwise it is added
-// to the memo table.
-func (memo *Memo) AddOrReplace(id int64, v arrow.ArrayData) bool {
-	d, ok := memo.id2dict[id]
-	if ok {
-		// replace the dictionary and release any existing ones
-		for _, dict := range d {
-			dict.Release()
-		}
-		d[0] = v
-		d = d[:1]
-	} else {
-		d = []arrow.ArrayData{v}
-	}
-	v.Retain()
-	memo.id2dict[id] = d
-	return !ok
-}
-
-func CollectDictionaries(batch arrow.Record, mapper *Mapper) (out []dictpair, err error) {
-	collector := dictCollector{mapper: mapper}
-	err = collector.collect(batch)
-	out = collector.dictionaries
-	return
-}
-
-func ResolveFieldDict(memo *Memo, data arrow.ArrayData, pos FieldPos, mem memory.Allocator) error {
-	typ := data.DataType()
-	if typ.ID() == arrow.EXTENSION {
-		typ = typ.(arrow.ExtensionType).StorageType()
-	}
-	if typ.ID() == arrow.DICTIONARY {
-		id, err := memo.Mapper.GetFieldID(pos.Path())
-		if err != nil {
-			return err
-		}
-		dictData, err := memo.Dict(id, mem)
-		if err != nil {
-			return err
-		}
-		data.(*array.Data).SetDictionary(dictData)
-		if err := ResolveFieldDict(memo, dictData, pos, mem); err != nil {
-			return err
-		}
-	}
-	return ResolveDictionaries(memo, data.Children(), pos, mem)
-}
-
-func ResolveDictionaries(memo *Memo, cols []arrow.ArrayData, parentPos FieldPos, mem memory.Allocator) error {
-	for i, c := range cols {
-		if c == nil {
-			continue
-		}
-		if err := ResolveFieldDict(memo, c, parentPos.Child(int32(i)), mem); err != nil {
-			return err
-		}
-	}
-	return nil
-}
diff --git a/go/arrow/internal/dictutils/dict_test.go b/go/arrow/internal/dictutils/dict_test.go
deleted file mode 100644
index 7a68ae3073ddb..0000000000000
--- a/go/arrow/internal/dictutils/dict_test.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package dictutils_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestDictMemo(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	bldr.AppendValues([]float64{1.0, 1.1, 1.2, 1.3}, nil)
-	f0 := bldr.NewFloat64Array()
-	defer f0.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f1 := bldr.NewFloat64Array()
-	defer f1.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f2 := bldr.NewFloat64Array()
-	defer f2.Release()
-
-	memo := dictutils.NewMemo()
-	defer memo.Clear()
-
-	if got, want := memo.Len(), 0; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	memo.Add(0, f0.Data())
-	memo.Add(1, f1.Data())
-
-	if !memo.HasID(0) {
-		t.Fatalf("could not find id=0")
-	}
-
-	if !memo.HasID(1) {
-		t.Fatalf("could not find id=1")
-	}
-
-	if got, want := memo.Len(), 2; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	var ff arrow.Array
-
-	ff = f0
-	if !memo.HasDict(ff.Data()) {
-		t.Fatalf("failed to find f0 through interface")
-	}
-
-	ff = f1
-	if !memo.HasDict(ff.Data()) {
-		t.Fatalf("failed to find f1 through interface")
-	}
-
-	ff = f2
-	if memo.HasDict(ff.Data()) {
-		t.Fatalf("should not have found f2")
-	}
-
-	fct := func(v arrow.Array) arrow.Array {
-		return v
-	}
-
-	if !memo.HasDict(fct(f1).Data()) {
-		t.Fatalf("failed to find dict through func through interface")
-	}
-
-	if memo.HasDict(f2.Data()) {
-		t.Fatalf("should not have found f2")
-	}
-
-	ff = f0
-	for i, f := range []arrow.Array{f0, f1, ff, fct(f0), fct(f1)} {
-		if !memo.HasDict(f.Data()) {
-			t.Fatalf("failed to find dict %d", i)
-		}
-	}
-
-	v, err := memo.Dict(0, mem)
-	if err != nil {
-		t.Fatalf("expected to find id=0")
-	}
-	if v != f0.Data() {
-		t.Fatalf("expected fo find id=0 array")
-	}
-
-	_, err = memo.Dict(2, mem)
-	if err == nil {
-		t.Fatalf("should not have found id=2")
-	}
-	_, err = memo.Dict(-2, mem)
-	if err == nil {
-		t.Fatalf("should not have found id=-2")
-	}
-
-	// test we don't leak nor "double-delete" when adding an array multiple times.
-	memo.Add(42, f2.Data())
-	memo.Add(43, f2.Data())
-	if got, want := memo.Len(), 4; got != want {
-		t.Fatalf("invalid length. got=%d, want=%d", got, want)
-	}
-}
-
-func TestDictMemoPanics(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	bldr.AppendValues([]float64{1.0, 1.1, 1.2, 1.3}, nil)
-	f0 := bldr.NewFloat64Array()
-	defer f0.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f1 := bldr.NewFloat64Array()
-	defer f1.Release()
-
-	for _, tc := range []struct {
-		vs  []arrow.Array
-		ids []int64
-	}{
-		{
-			vs:  []arrow.Array{f0, f1},
-			ids: []int64{0, 0},
-		},
-		{
-			vs:  []arrow.Array{f0, f0},
-			ids: []int64{0, 0},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("should have panicked!")
-				}
-				if got, want := e.(error), fmt.Errorf("arrow/ipc: duplicate id=%d", 0); got.Error() != want.Error() {
-					t.Fatalf("invalid panic message.\ngot= %q\nwant=%q", got, want)
-				}
-			}()
-
-			memo := dictutils.NewMemo()
-			defer memo.Clear()
-
-			if got, want := memo.Len(), 0; got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-
-			memo.Add(tc.ids[0], tc.vs[0].Data())
-			memo.Add(tc.ids[1], tc.vs[1].Data())
-		})
-	}
-}
diff --git a/go/arrow/internal/flatbuf/Binary.go b/go/arrow/internal/flatbuf/Binary.go
deleted file mode 100644
index 95e015595b548..0000000000000
--- a/go/arrow/internal/flatbuf/Binary.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Opaque binary data
-type Binary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBinary(buf []byte, offset flatbuffers.UOffsetT) *Binary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Binary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Binary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Binary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/BinaryView.go b/go/arrow/internal/flatbuf/BinaryView.go
deleted file mode 100644
index f6906674bdbc7..0000000000000
--- a/go/arrow/internal/flatbuf/BinaryView.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Logically the same as Binary, but the internal representation uses a view
-// / struct that contains the string length and either the string's entire data
-// / inline (for small strings) or an inlined prefix, an index of another buffer,
-// / and an offset pointing to a slice in that buffer (for non-small strings).
-// /
-// / Since it uses a variable number of data buffers, each Field with this type
-// / must have a corresponding entry in `variadicBufferCounts`.
-type BinaryView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBinaryView(buf []byte, offset flatbuffers.UOffsetT) *BinaryView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &BinaryView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *BinaryView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *BinaryView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BinaryViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BinaryViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Block.go b/go/arrow/internal/flatbuf/Block.go
deleted file mode 100644
index 8e33d3e641543..0000000000000
--- a/go/arrow/internal/flatbuf/Block.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Block struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *Block) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Block) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / Index to the start of the RecordBlock (note this is past the Message header)
-func (rcv *Block) Offset() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / Index to the start of the RecordBlock (note this is past the Message header)
-func (rcv *Block) MutateOffset(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / Length of the metadata
-func (rcv *Block) MetaDataLength() int32 {
-	return rcv._tab.GetInt32(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / Length of the metadata
-func (rcv *Block) MutateMetaDataLength(n int32) bool {
-	return rcv._tab.MutateInt32(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-// / Length of the data (this is aligned so there can be a gap between this and
-// / the metadata).
-func (rcv *Block) BodyLength() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(16))
-}
-
-// / Length of the data (this is aligned so there can be a gap between this and
-// / the metadata).
-func (rcv *Block) MutateBodyLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(16), n)
-}
-
-func CreateBlock(builder *flatbuffers.Builder, offset int64, metaDataLength int32, bodyLength int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 24)
-	builder.PrependInt64(bodyLength)
-	builder.Pad(4)
-	builder.PrependInt32(metaDataLength)
-	builder.PrependInt64(offset)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/BodyCompression.go b/go/arrow/internal/flatbuf/BodyCompression.go
deleted file mode 100644
index c23c29190216b..0000000000000
--- a/go/arrow/internal/flatbuf/BodyCompression.go
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Optional compression for the memory buffers constituting IPC message
-// / bodies. Intended for use with RecordBatch but could be used for other
-// / message types
-type BodyCompression struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBodyCompression(buf []byte, offset flatbuffers.UOffsetT) *BodyCompression {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &BodyCompression{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *BodyCompression) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *BodyCompression) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Compressor library.
-// / For LZ4_FRAME, each compressed buffer must consist of a single frame.
-func (rcv *BodyCompression) Codec() CompressionType {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return CompressionType(rcv._tab.GetInt8(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Compressor library.
-// / For LZ4_FRAME, each compressed buffer must consist of a single frame.
-func (rcv *BodyCompression) MutateCodec(n CompressionType) bool {
-	return rcv._tab.MutateInt8Slot(4, int8(n))
-}
-
-// / Indicates the way the record batch body was compressed
-func (rcv *BodyCompression) Method() BodyCompressionMethod {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return BodyCompressionMethod(rcv._tab.GetInt8(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Indicates the way the record batch body was compressed
-func (rcv *BodyCompression) MutateMethod(n BodyCompressionMethod) bool {
-	return rcv._tab.MutateInt8Slot(6, int8(n))
-}
-
-func BodyCompressionStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func BodyCompressionAddCodec(builder *flatbuffers.Builder, codec CompressionType) {
-	builder.PrependInt8Slot(0, int8(codec), 0)
-}
-func BodyCompressionAddMethod(builder *flatbuffers.Builder, method BodyCompressionMethod) {
-	builder.PrependInt8Slot(1, int8(method), 0)
-}
-func BodyCompressionEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/BodyCompressionMethod.go b/go/arrow/internal/flatbuf/BodyCompressionMethod.go
deleted file mode 100644
index bb7234b3989b5..0000000000000
--- a/go/arrow/internal/flatbuf/BodyCompressionMethod.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / Provided for forward compatibility in case we need to support different
-// / strategies for compressing the IPC message body (like whole-body
-// / compression rather than buffer-level) in the future
-type BodyCompressionMethod int8
-
-const (
-	/// Each constituent buffer is first compressed with the indicated
-	/// compressor, and then written with the uncompressed length in the first 8
-	/// bytes as a 64-bit little-endian signed integer followed by the compressed
-	/// buffer bytes (and then padding as required by the protocol). The
-	/// uncompressed length may be set to -1 to indicate that the data that
-	/// follows is not compressed, which can be useful for cases where
-	/// compression does not yield appreciable savings.
-	BodyCompressionMethodBUFFER BodyCompressionMethod = 0
-)
-
-var EnumNamesBodyCompressionMethod = map[BodyCompressionMethod]string{
-	BodyCompressionMethodBUFFER: "BUFFER",
-}
-
-var EnumValuesBodyCompressionMethod = map[string]BodyCompressionMethod{
-	"BUFFER": BodyCompressionMethodBUFFER,
-}
-
-func (v BodyCompressionMethod) String() string {
-	if s, ok := EnumNamesBodyCompressionMethod[v]; ok {
-		return s
-	}
-	return "BodyCompressionMethod(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Bool.go b/go/arrow/internal/flatbuf/Bool.go
deleted file mode 100644
index 6a4a9d2686770..0000000000000
--- a/go/arrow/internal/flatbuf/Bool.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Bool struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBool(buf []byte, offset flatbuffers.UOffsetT) *Bool {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Bool{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Bool) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Bool) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BoolStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BoolEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Buffer.go b/go/arrow/internal/flatbuf/Buffer.go
deleted file mode 100644
index e650e06a57026..0000000000000
--- a/go/arrow/internal/flatbuf/Buffer.go
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A Buffer represents a single contiguous memory segment
-type Buffer struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *Buffer) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Buffer) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / The relative offset into the shared memory page where the bytes for this
-// / buffer starts
-func (rcv *Buffer) Offset() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / The relative offset into the shared memory page where the bytes for this
-// / buffer starts
-func (rcv *Buffer) MutateOffset(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / The absolute length (in bytes) of the memory buffer. The memory is found
-// / from offset (inclusive) to offset + length (non-inclusive). When building
-// / messages using the encapsulated IPC message, padding bytes may be written
-// / after a buffer, but such padding bytes do not need to be accounted for in
-// / the size here.
-func (rcv *Buffer) Length() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / The absolute length (in bytes) of the memory buffer. The memory is found
-// / from offset (inclusive) to offset + length (non-inclusive). When building
-// / messages using the encapsulated IPC message, padding bytes may be written
-// / after a buffer, but such padding bytes do not need to be accounted for in
-// / the size here.
-func (rcv *Buffer) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-func CreateBuffer(builder *flatbuffers.Builder, offset int64, length int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 16)
-	builder.PrependInt64(length)
-	builder.PrependInt64(offset)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/CompressionType.go b/go/arrow/internal/flatbuf/CompressionType.go
deleted file mode 100644
index 96e9df0721c9f..0000000000000
--- a/go/arrow/internal/flatbuf/CompressionType.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type CompressionType int8
-
-const (
-	CompressionTypeLZ4_FRAME CompressionType = 0
-	CompressionTypeZSTD      CompressionType = 1
-)
-
-var EnumNamesCompressionType = map[CompressionType]string{
-	CompressionTypeLZ4_FRAME: "LZ4_FRAME",
-	CompressionTypeZSTD:      "ZSTD",
-}
-
-var EnumValuesCompressionType = map[string]CompressionType{
-	"LZ4_FRAME": CompressionTypeLZ4_FRAME,
-	"ZSTD":      CompressionTypeZSTD,
-}
-
-func (v CompressionType) String() string {
-	if s, ok := EnumNamesCompressionType[v]; ok {
-		return s
-	}
-	return "CompressionType(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Date.go b/go/arrow/internal/flatbuf/Date.go
deleted file mode 100644
index 985a8f79955a4..0000000000000
--- a/go/arrow/internal/flatbuf/Date.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Date is either a 32-bit or 64-bit signed integer type representing an
-// / elapsed time since UNIX epoch (1970-01-01), stored in either of two units:
-// /
-// / * Milliseconds (64 bits) indicating UNIX time elapsed since the epoch (no
-// /   leap seconds), where the values are evenly divisible by 86400000
-// / * Days (32 bits) since the UNIX epoch
-type Date struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDate(buf []byte, offset flatbuffers.UOffsetT) *Date {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Date{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Date) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Date) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Date) Unit() DateUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return DateUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Date) MutateUnit(n DateUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func DateStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func DateAddUnit(builder *flatbuffers.Builder, unit DateUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func DateEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DateUnit.go b/go/arrow/internal/flatbuf/DateUnit.go
deleted file mode 100644
index 8a12eec175fcf..0000000000000
--- a/go/arrow/internal/flatbuf/DateUnit.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type DateUnit int16
-
-const (
-	DateUnitDAY         DateUnit = 0
-	DateUnitMILLISECOND DateUnit = 1
-)
-
-var EnumNamesDateUnit = map[DateUnit]string{
-	DateUnitDAY:         "DAY",
-	DateUnitMILLISECOND: "MILLISECOND",
-}
-
-var EnumValuesDateUnit = map[string]DateUnit{
-	"DAY":         DateUnitDAY,
-	"MILLISECOND": DateUnitMILLISECOND,
-}
-
-func (v DateUnit) String() string {
-	if s, ok := EnumNamesDateUnit[v]; ok {
-		return s
-	}
-	return "DateUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Decimal.go b/go/arrow/internal/flatbuf/Decimal.go
deleted file mode 100644
index 2fc9d5ad6586c..0000000000000
--- a/go/arrow/internal/flatbuf/Decimal.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Exact decimal value represented as an integer value in two's
-// / complement. Currently only 128-bit (16-byte) and 256-bit (32-byte) integers
-// / are used. The representation uses the endianness indicated
-// / in the Schema.
-type Decimal struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDecimal(buf []byte, offset flatbuffers.UOffsetT) *Decimal {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Decimal{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Decimal) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Decimal) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Total number of decimal digits
-func (rcv *Decimal) Precision() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Total number of decimal digits
-func (rcv *Decimal) MutatePrecision(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-// / Number of digits after the decimal point "."
-func (rcv *Decimal) Scale() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of digits after the decimal point "."
-func (rcv *Decimal) MutateScale(n int32) bool {
-	return rcv._tab.MutateInt32Slot(6, n)
-}
-
-// / Number of bits per value. The only accepted widths are 128 and 256.
-// / We use bitWidth for consistency with Int::bitWidth.
-func (rcv *Decimal) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 128
-}
-
-// / Number of bits per value. The only accepted widths are 128 and 256.
-// / We use bitWidth for consistency with Int::bitWidth.
-func (rcv *Decimal) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(8, n)
-}
-
-func DecimalStart(builder *flatbuffers.Builder) {
-	builder.StartObject(3)
-}
-func DecimalAddPrecision(builder *flatbuffers.Builder, precision int32) {
-	builder.PrependInt32Slot(0, precision, 0)
-}
-func DecimalAddScale(builder *flatbuffers.Builder, scale int32) {
-	builder.PrependInt32Slot(1, scale, 0)
-}
-func DecimalAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(2, bitWidth, 128)
-}
-func DecimalEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryBatch.go b/go/arrow/internal/flatbuf/DictionaryBatch.go
deleted file mode 100644
index 999c5fda46384..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryBatch.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / For sending dictionary encoding information. Any Field can be
-// / dictionary-encoded, but in this case none of its children may be
-// / dictionary-encoded.
-// / There is one vector / column per dictionary, but that vector / column
-// / may be spread across multiple dictionary batches by using the isDelta
-// / flag
-type DictionaryBatch struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDictionaryBatch(buf []byte, offset flatbuffers.UOffsetT) *DictionaryBatch {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &DictionaryBatch{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *DictionaryBatch) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *DictionaryBatch) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *DictionaryBatch) Id() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *DictionaryBatch) MutateId(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-func (rcv *DictionaryBatch) Data(obj *RecordBatch) *RecordBatch {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(RecordBatch)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / If isDelta is true the values in the dictionary are to be appended to a
-// / dictionary with the indicated id. If isDelta is false this dictionary
-// / should replace the existing dictionary.
-func (rcv *DictionaryBatch) IsDelta() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / If isDelta is true the values in the dictionary are to be appended to a
-// / dictionary with the indicated id. If isDelta is false this dictionary
-// / should replace the existing dictionary.
-func (rcv *DictionaryBatch) MutateIsDelta(n bool) bool {
-	return rcv._tab.MutateBoolSlot(8, n)
-}
-
-func DictionaryBatchStart(builder *flatbuffers.Builder) {
-	builder.StartObject(3)
-}
-func DictionaryBatchAddId(builder *flatbuffers.Builder, id int64) {
-	builder.PrependInt64Slot(0, id, 0)
-}
-func DictionaryBatchAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(data), 0)
-}
-func DictionaryBatchAddIsDelta(builder *flatbuffers.Builder, isDelta bool) {
-	builder.PrependBoolSlot(2, isDelta, false)
-}
-func DictionaryBatchEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryEncoding.go b/go/arrow/internal/flatbuf/DictionaryEncoding.go
deleted file mode 100644
index 44c3874219f1c..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryEncoding.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type DictionaryEncoding struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDictionaryEncoding(buf []byte, offset flatbuffers.UOffsetT) *DictionaryEncoding {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &DictionaryEncoding{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *DictionaryEncoding) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *DictionaryEncoding) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The known dictionary id in the application where this data is used. In
-// / the file or streaming formats, the dictionary ids are found in the
-// / DictionaryBatch messages
-func (rcv *DictionaryEncoding) Id() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / The known dictionary id in the application where this data is used. In
-// / the file or streaming formats, the dictionary ids are found in the
-// / DictionaryBatch messages
-func (rcv *DictionaryEncoding) MutateId(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / The dictionary indices are constrained to be non-negative integers. If
-// / this field is null, the indices must be signed int32. To maximize
-// / cross-language compatibility and performance, implementations are
-// / recommended to prefer signed integer types over unsigned integer types
-// / and to avoid uint64 indices unless they are required by an application.
-func (rcv *DictionaryEncoding) IndexType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The dictionary indices are constrained to be non-negative integers. If
-// / this field is null, the indices must be signed int32. To maximize
-// / cross-language compatibility and performance, implementations are
-// / recommended to prefer signed integer types over unsigned integer types
-// / and to avoid uint64 indices unless they are required by an application.
-// / By default, dictionaries are not ordered, or the order does not have
-// / semantic meaning. In some statistical, applications, dictionary-encoding
-// / is used to represent ordered categorical data, and we provide a way to
-// / preserve that metadata here
-func (rcv *DictionaryEncoding) IsOrdered() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / By default, dictionaries are not ordered, or the order does not have
-// / semantic meaning. In some statistical, applications, dictionary-encoding
-// / is used to represent ordered categorical data, and we provide a way to
-// / preserve that metadata here
-func (rcv *DictionaryEncoding) MutateIsOrdered(n bool) bool {
-	return rcv._tab.MutateBoolSlot(8, n)
-}
-
-func (rcv *DictionaryEncoding) DictionaryKind() DictionaryKind {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return DictionaryKind(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *DictionaryEncoding) MutateDictionaryKind(n DictionaryKind) bool {
-	return rcv._tab.MutateInt16Slot(10, int16(n))
-}
-
-func DictionaryEncodingStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func DictionaryEncodingAddId(builder *flatbuffers.Builder, id int64) {
-	builder.PrependInt64Slot(0, id, 0)
-}
-func DictionaryEncodingAddIndexType(builder *flatbuffers.Builder, indexType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indexType), 0)
-}
-func DictionaryEncodingAddIsOrdered(builder *flatbuffers.Builder, isOrdered bool) {
-	builder.PrependBoolSlot(2, isOrdered, false)
-}
-func DictionaryEncodingAddDictionaryKind(builder *flatbuffers.Builder, dictionaryKind DictionaryKind) {
-	builder.PrependInt16Slot(3, int16(dictionaryKind), 0)
-}
-func DictionaryEncodingEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryKind.go b/go/arrow/internal/flatbuf/DictionaryKind.go
deleted file mode 100644
index 6825100515612..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryKind.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Dictionary encoding metadata
-// / Maintained for forwards compatibility, in the future
-// / Dictionaries might be explicit maps between integers and values
-// / allowing for non-contiguous index values
-type DictionaryKind int16
-
-const (
-	DictionaryKindDenseArray DictionaryKind = 0
-)
-
-var EnumNamesDictionaryKind = map[DictionaryKind]string{
-	DictionaryKindDenseArray: "DenseArray",
-}
-
-var EnumValuesDictionaryKind = map[string]DictionaryKind{
-	"DenseArray": DictionaryKindDenseArray,
-}
-
-func (v DictionaryKind) String() string {
-	if s, ok := EnumNamesDictionaryKind[v]; ok {
-		return s
-	}
-	return "DictionaryKind(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Duration.go b/go/arrow/internal/flatbuf/Duration.go
deleted file mode 100644
index 57b7b2a037f19..0000000000000
--- a/go/arrow/internal/flatbuf/Duration.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Duration struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDuration(buf []byte, offset flatbuffers.UOffsetT) *Duration {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Duration{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Duration) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Duration) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Duration) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Duration) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func DurationStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func DurationAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func DurationEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Endianness.go b/go/arrow/internal/flatbuf/Endianness.go
deleted file mode 100644
index c9619b7b0d978..0000000000000
--- a/go/arrow/internal/flatbuf/Endianness.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Endianness of the platform producing the data
-type Endianness int16
-
-const (
-	EndiannessLittle Endianness = 0
-	EndiannessBig    Endianness = 1
-)
-
-var EnumNamesEndianness = map[Endianness]string{
-	EndiannessLittle: "Little",
-	EndiannessBig:    "Big",
-}
-
-var EnumValuesEndianness = map[string]Endianness{
-	"Little": EndiannessLittle,
-	"Big":    EndiannessBig,
-}
-
-func (v Endianness) String() string {
-	if s, ok := EnumNamesEndianness[v]; ok {
-		return s
-	}
-	return "Endianness(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Feature.go b/go/arrow/internal/flatbuf/Feature.go
deleted file mode 100644
index 2204c440ed4fe..0000000000000
--- a/go/arrow/internal/flatbuf/Feature.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / Represents Arrow Features that might not have full support
-// / within implementations. This is intended to be used in
-// / two scenarios:
-// /  1.  A mechanism for readers of Arrow Streams
-// /      and files to understand that the stream or file makes
-// /      use of a feature that isn't supported or unknown to
-// /      the implementation (and therefore can meet the Arrow
-// /      forward compatibility guarantees).
-// /  2.  A means of negotiating between a client and server
-// /      what features a stream is allowed to use. The enums
-// /      values here are intented to represent higher level
-// /      features, additional details maybe negotiated
-// /      with key-value pairs specific to the protocol.
-// /
-// / Enums added to this list should be assigned power-of-two values
-// / to facilitate exchanging and comparing bitmaps for supported
-// / features.
-type Feature int64
-
-const (
-	/// Needed to make flatbuffers happy.
-	FeatureUNUSED Feature = 0
-	/// The stream makes use of multiple full dictionaries with the
-	/// same ID and assumes clients implement dictionary replacement
-	/// correctly.
-	FeatureDICTIONARY_REPLACEMENT Feature = 1
-	/// The stream makes use of compressed bodies as described
-	/// in Message.fbs.
-	FeatureCOMPRESSED_BODY Feature = 2
-)
-
-var EnumNamesFeature = map[Feature]string{
-	FeatureUNUSED:                 "UNUSED",
-	FeatureDICTIONARY_REPLACEMENT: "DICTIONARY_REPLACEMENT",
-	FeatureCOMPRESSED_BODY:        "COMPRESSED_BODY",
-}
-
-var EnumValuesFeature = map[string]Feature{
-	"UNUSED":                 FeatureUNUSED,
-	"DICTIONARY_REPLACEMENT": FeatureDICTIONARY_REPLACEMENT,
-	"COMPRESSED_BODY":        FeatureCOMPRESSED_BODY,
-}
-
-func (v Feature) String() string {
-	if s, ok := EnumNamesFeature[v]; ok {
-		return s
-	}
-	return "Feature(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Field.go b/go/arrow/internal/flatbuf/Field.go
deleted file mode 100644
index 8aed29bc48137..0000000000000
--- a/go/arrow/internal/flatbuf/Field.go
+++ /dev/null
@@ -1,188 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A field represents a named column in a record / row batch or child of a
-// / nested type.
-type Field struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsField(buf []byte, offset flatbuffers.UOffsetT) *Field {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Field{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Field) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Field) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Name is not required, in i.e. a List
-func (rcv *Field) Name() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / Name is not required, in i.e. a List
-// / Whether or not this field can contain nulls. Should be true in general.
-func (rcv *Field) Nullable() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / Whether or not this field can contain nulls. Should be true in general.
-func (rcv *Field) MutateNullable(n bool) bool {
-	return rcv._tab.MutateBoolSlot(6, n)
-}
-
-func (rcv *Field) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Field) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(8, byte(n))
-}
-
-// / This is the type of the decoded value if the field is dictionary encoded.
-func (rcv *Field) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / This is the type of the decoded value if the field is dictionary encoded.
-// / Present only if the field is dictionary encoded.
-func (rcv *Field) Dictionary(obj *DictionaryEncoding) *DictionaryEncoding {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(DictionaryEncoding)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / Present only if the field is dictionary encoded.
-// / children apply only to nested data types like Struct, List and Union. For
-// / primitive types children will have length 0.
-func (rcv *Field) Children(obj *Field, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Field) ChildrenLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / children apply only to nested data types like Struct, List and Union. For
-// / primitive types children will have length 0.
-// / User-defined metadata
-func (rcv *Field) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Field) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func FieldStart(builder *flatbuffers.Builder) {
-	builder.StartObject(7)
-}
-func FieldAddName(builder *flatbuffers.Builder, name flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(name), 0)
-}
-func FieldAddNullable(builder *flatbuffers.Builder, nullable bool) {
-	builder.PrependBoolSlot(1, nullable, false)
-}
-func FieldAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(2, byte(typeType), 0)
-}
-func FieldAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(type_), 0)
-}
-func FieldAddDictionary(builder *flatbuffers.Builder, dictionary flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(dictionary), 0)
-}
-func FieldAddChildren(builder *flatbuffers.Builder, children flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(5, flatbuffers.UOffsetT(children), 0)
-}
-func FieldStartChildrenVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FieldAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(6, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func FieldStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FieldEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FieldNode.go b/go/arrow/internal/flatbuf/FieldNode.go
deleted file mode 100644
index 0e258a3d2cde8..0000000000000
--- a/go/arrow/internal/flatbuf/FieldNode.go
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Data structures for describing a table row batch (a collection of
-// / equal-length Arrow arrays)
-// / Metadata about a field at some level of a nested type tree (but not
-// / its children).
-// /
-// / For example, a List<Int16> with values `[[1, 2, 3], null, [4], [5, 6], null]`
-// / would have {length: 5, null_count: 2} for its List node, and {length: 6,
-// / null_count: 0} for its Int16 node, as separate FieldNode structs
-type FieldNode struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *FieldNode) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FieldNode) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / The number of value slots in the Arrow array at this level of a nested
-// / tree
-func (rcv *FieldNode) Length() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / The number of value slots in the Arrow array at this level of a nested
-// / tree
-func (rcv *FieldNode) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / The number of observed nulls. Fields with null_count == 0 may choose not
-// / to write their physical validity bitmap out as a materialized buffer,
-// / instead setting the length of the bitmap buffer to 0.
-func (rcv *FieldNode) NullCount() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / The number of observed nulls. Fields with null_count == 0 may choose not
-// / to write their physical validity bitmap out as a materialized buffer,
-// / instead setting the length of the bitmap buffer to 0.
-func (rcv *FieldNode) MutateNullCount(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-func CreateFieldNode(builder *flatbuffers.Builder, length int64, nullCount int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 16)
-	builder.PrependInt64(nullCount)
-	builder.PrependInt64(length)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/FixedSizeBinary.go b/go/arrow/internal/flatbuf/FixedSizeBinary.go
deleted file mode 100644
index 2725dfb90b966..0000000000000
--- a/go/arrow/internal/flatbuf/FixedSizeBinary.go
+++ /dev/null
@@ -1,67 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FixedSizeBinary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFixedSizeBinary(buf []byte, offset flatbuffers.UOffsetT) *FixedSizeBinary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FixedSizeBinary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FixedSizeBinary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FixedSizeBinary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Number of bytes per value
-func (rcv *FixedSizeBinary) ByteWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of bytes per value
-func (rcv *FixedSizeBinary) MutateByteWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func FixedSizeBinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FixedSizeBinaryAddByteWidth(builder *flatbuffers.Builder, byteWidth int32) {
-	builder.PrependInt32Slot(0, byteWidth, 0)
-}
-func FixedSizeBinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FixedSizeList.go b/go/arrow/internal/flatbuf/FixedSizeList.go
deleted file mode 100644
index 534ca27f2fe21..0000000000000
--- a/go/arrow/internal/flatbuf/FixedSizeList.go
+++ /dev/null
@@ -1,67 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FixedSizeList struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFixedSizeList(buf []byte, offset flatbuffers.UOffsetT) *FixedSizeList {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FixedSizeList{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FixedSizeList) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FixedSizeList) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Number of list items per value
-func (rcv *FixedSizeList) ListSize() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of list items per value
-func (rcv *FixedSizeList) MutateListSize(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func FixedSizeListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FixedSizeListAddListSize(builder *flatbuffers.Builder, listSize int32) {
-	builder.PrependInt32Slot(0, listSize, 0)
-}
-func FixedSizeListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FloatingPoint.go b/go/arrow/internal/flatbuf/FloatingPoint.go
deleted file mode 100644
index 241d448dcf9fd..0000000000000
--- a/go/arrow/internal/flatbuf/FloatingPoint.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FloatingPoint struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFloatingPoint(buf []byte, offset flatbuffers.UOffsetT) *FloatingPoint {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FloatingPoint{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FloatingPoint) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FloatingPoint) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *FloatingPoint) Precision() Precision {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Precision(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *FloatingPoint) MutatePrecision(n Precision) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func FloatingPointStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FloatingPointAddPrecision(builder *flatbuffers.Builder, precision Precision) {
-	builder.PrependInt16Slot(0, int16(precision), 0)
-}
-func FloatingPointEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Footer.go b/go/arrow/internal/flatbuf/Footer.go
deleted file mode 100644
index d65af41e7f62e..0000000000000
--- a/go/arrow/internal/flatbuf/Footer.go
+++ /dev/null
@@ -1,162 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Arrow File metadata
-// /
-type Footer struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFooter(buf []byte, offset flatbuffers.UOffsetT) *Footer {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Footer{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Footer) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Footer) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Footer) Version() MetadataVersion {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return MetadataVersion(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Footer) MutateVersion(n MetadataVersion) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Footer) Schema(obj *Schema) *Schema {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Schema)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-func (rcv *Footer) Dictionaries(obj *Block, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 24
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) DictionariesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Footer) RecordBatches(obj *Block, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 24
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) RecordBatchesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func (rcv *Footer) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func FooterStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func FooterAddVersion(builder *flatbuffers.Builder, version MetadataVersion) {
-	builder.PrependInt16Slot(0, int16(version), 0)
-}
-func FooterAddSchema(builder *flatbuffers.Builder, schema flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(schema), 0)
-}
-func FooterAddDictionaries(builder *flatbuffers.Builder, dictionaries flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(dictionaries), 0)
-}
-func FooterStartDictionariesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(24, numElems, 8)
-}
-func FooterAddRecordBatches(builder *flatbuffers.Builder, recordBatches flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(recordBatches), 0)
-}
-func FooterStartRecordBatchesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(24, numElems, 8)
-}
-func FooterAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func FooterStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FooterEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Int.go b/go/arrow/internal/flatbuf/Int.go
deleted file mode 100644
index 9f4b1911705cd..0000000000000
--- a/go/arrow/internal/flatbuf/Int.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Int struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsInt(buf []byte, offset flatbuffers.UOffsetT) *Int {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Int{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Int) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Int) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Int) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *Int) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func (rcv *Int) IsSigned() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-func (rcv *Int) MutateIsSigned(n bool) bool {
-	return rcv._tab.MutateBoolSlot(6, n)
-}
-
-func IntStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func IntAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(0, bitWidth, 0)
-}
-func IntAddIsSigned(builder *flatbuffers.Builder, isSigned bool) {
-	builder.PrependBoolSlot(1, isSigned, false)
-}
-func IntEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Interval.go b/go/arrow/internal/flatbuf/Interval.go
deleted file mode 100644
index 12c56d5c21001..0000000000000
--- a/go/arrow/internal/flatbuf/Interval.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Interval struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsInterval(buf []byte, offset flatbuffers.UOffsetT) *Interval {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Interval{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Interval) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Interval) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Interval) Unit() IntervalUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return IntervalUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Interval) MutateUnit(n IntervalUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func IntervalStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func IntervalAddUnit(builder *flatbuffers.Builder, unit IntervalUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 0)
-}
-func IntervalEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/IntervalUnit.go b/go/arrow/internal/flatbuf/IntervalUnit.go
deleted file mode 100644
index f3ed1ae7b53a3..0000000000000
--- a/go/arrow/internal/flatbuf/IntervalUnit.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type IntervalUnit int16
-
-const (
-	IntervalUnitYEAR_MONTH     IntervalUnit = 0
-	IntervalUnitDAY_TIME       IntervalUnit = 1
-	IntervalUnitMONTH_DAY_NANO IntervalUnit = 2
-)
-
-var EnumNamesIntervalUnit = map[IntervalUnit]string{
-	IntervalUnitYEAR_MONTH:     "YEAR_MONTH",
-	IntervalUnitDAY_TIME:       "DAY_TIME",
-	IntervalUnitMONTH_DAY_NANO: "MONTH_DAY_NANO",
-}
-
-var EnumValuesIntervalUnit = map[string]IntervalUnit{
-	"YEAR_MONTH":     IntervalUnitYEAR_MONTH,
-	"DAY_TIME":       IntervalUnitDAY_TIME,
-	"MONTH_DAY_NANO": IntervalUnitMONTH_DAY_NANO,
-}
-
-func (v IntervalUnit) String() string {
-	if s, ok := EnumNamesIntervalUnit[v]; ok {
-		return s
-	}
-	return "IntervalUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/KeyValue.go b/go/arrow/internal/flatbuf/KeyValue.go
deleted file mode 100644
index 0cd5dc62923e3..0000000000000
--- a/go/arrow/internal/flatbuf/KeyValue.go
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / user defined key value pairs to add custom metadata to arrow
-// / key namespacing is the responsibility of the user
-type KeyValue struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsKeyValue(buf []byte, offset flatbuffers.UOffsetT) *KeyValue {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &KeyValue{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *KeyValue) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *KeyValue) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *KeyValue) Key() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-func (rcv *KeyValue) Value() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-func KeyValueStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func KeyValueAddKey(builder *flatbuffers.Builder, key flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(key), 0)
-}
-func KeyValueAddValue(builder *flatbuffers.Builder, value flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(value), 0)
-}
-func KeyValueEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeBinary.go b/go/arrow/internal/flatbuf/LargeBinary.go
deleted file mode 100644
index b25ecc41aff51..0000000000000
--- a/go/arrow/internal/flatbuf/LargeBinary.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as Binary, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeBinary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeBinary(buf []byte, offset flatbuffers.UOffsetT) *LargeBinary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeBinary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeBinary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeBinary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeBinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeBinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeList.go b/go/arrow/internal/flatbuf/LargeList.go
deleted file mode 100644
index d8bfb9c07df76..0000000000000
--- a/go/arrow/internal/flatbuf/LargeList.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as List, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeList struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeList(buf []byte, offset flatbuffers.UOffsetT) *LargeList {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeList{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeList) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeList) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeListView.go b/go/arrow/internal/flatbuf/LargeListView.go
deleted file mode 100644
index 4608c1dec53d8..0000000000000
--- a/go/arrow/internal/flatbuf/LargeListView.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as ListView, but with 64-bit offsets and sizes, allowing to represent
-// / extremely large data values.
-type LargeListView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeListView(buf []byte, offset flatbuffers.UOffsetT) *LargeListView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeListView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeListView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeListView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeListViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeListViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeUtf8.go b/go/arrow/internal/flatbuf/LargeUtf8.go
deleted file mode 100644
index 4478fed856e6d..0000000000000
--- a/go/arrow/internal/flatbuf/LargeUtf8.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as Utf8, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeUtf8 struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeUtf8(buf []byte, offset flatbuffers.UOffsetT) *LargeUtf8 {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeUtf8{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeUtf8) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeUtf8) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeUtf8Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeUtf8End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/List.go b/go/arrow/internal/flatbuf/List.go
deleted file mode 100644
index ba84319d3f690..0000000000000
--- a/go/arrow/internal/flatbuf/List.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type List struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsList(buf []byte, offset flatbuffers.UOffsetT) *List {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &List{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *List) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *List) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func ListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func ListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/ListView.go b/go/arrow/internal/flatbuf/ListView.go
deleted file mode 100644
index cde43cf5b6893..0000000000000
--- a/go/arrow/internal/flatbuf/ListView.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Represents the same logical types that List can, but contains offsets and
-// / sizes allowing for writes in any order and sharing of child values among
-// / list values.
-type ListView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsListView(buf []byte, offset flatbuffers.UOffsetT) *ListView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &ListView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *ListView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *ListView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func ListViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func ListViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Map.go b/go/arrow/internal/flatbuf/Map.go
deleted file mode 100644
index d4871e558199f..0000000000000
--- a/go/arrow/internal/flatbuf/Map.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A Map is a logical nested type that is represented as
-// /
-// / List<entries: Struct<key: K, value: V>>
-// /
-// / In this layout, the keys and values are each respectively contiguous. We do
-// / not constrain the key and value types, so the application is responsible
-// / for ensuring that the keys are hashable and unique. Whether the keys are sorted
-// / may be set in the metadata for this field.
-// /
-// / In a field with Map type, the field has a child Struct field, which then
-// / has two children: key type and the second the value type. The names of the
-// / child fields may be respectively "entries", "key", and "value", but this is
-// / not enforced.
-// /
-// / Map
-// / ```text
-// /   - child[0] entries: Struct
-// /     - child[0] key: K
-// /     - child[1] value: V
-// / ```
-// / Neither the "entries" field nor the "key" field may be nullable.
-// /
-// / The metadata is structured so that Arrow systems without special handling
-// / for Map can make Map an alias for List. The "layout" attribute for the Map
-// / field must have the same contents as a List.
-type Map struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsMap(buf []byte, offset flatbuffers.UOffsetT) *Map {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Map{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Map) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Map) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Set to true if the keys within each value are sorted
-func (rcv *Map) KeysSorted() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / Set to true if the keys within each value are sorted
-func (rcv *Map) MutateKeysSorted(n bool) bool {
-	return rcv._tab.MutateBoolSlot(4, n)
-}
-
-func MapStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func MapAddKeysSorted(builder *flatbuffers.Builder, keysSorted bool) {
-	builder.PrependBoolSlot(0, keysSorted, false)
-}
-func MapEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Message.go b/go/arrow/internal/flatbuf/Message.go
deleted file mode 100644
index f4b4a0ff80eef..0000000000000
--- a/go/arrow/internal/flatbuf/Message.go
+++ /dev/null
@@ -1,133 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Message struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsMessage(buf []byte, offset flatbuffers.UOffsetT) *Message {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Message{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Message) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Message) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Message) Version() MetadataVersion {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return MetadataVersion(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Message) MutateVersion(n MetadataVersion) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Message) HeaderType() MessageHeader {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return MessageHeader(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Message) MutateHeaderType(n MessageHeader) bool {
-	return rcv._tab.MutateByteSlot(6, byte(n))
-}
-
-func (rcv *Message) Header(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-func (rcv *Message) BodyLength() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *Message) MutateBodyLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(10, n)
-}
-
-func (rcv *Message) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Message) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func MessageStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func MessageAddVersion(builder *flatbuffers.Builder, version MetadataVersion) {
-	builder.PrependInt16Slot(0, int16(version), 0)
-}
-func MessageAddHeaderType(builder *flatbuffers.Builder, headerType MessageHeader) {
-	builder.PrependByteSlot(1, byte(headerType), 0)
-}
-func MessageAddHeader(builder *flatbuffers.Builder, header flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(header), 0)
-}
-func MessageAddBodyLength(builder *flatbuffers.Builder, bodyLength int64) {
-	builder.PrependInt64Slot(3, bodyLength, 0)
-}
-func MessageAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func MessageStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func MessageEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/MessageHeader.go b/go/arrow/internal/flatbuf/MessageHeader.go
deleted file mode 100644
index d7f9907c7a7a2..0000000000000
--- a/go/arrow/internal/flatbuf/MessageHeader.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / The root Message type
-// / This union enables us to easily send different message types without
-// / redundant storage, and in the future we can easily add new message types.
-// /
-// / Arrow implementations do not need to implement all of the message types,
-// / which may include experimental metadata types. For maximum compatibility,
-// / it is best to send data using RecordBatch
-type MessageHeader byte
-
-const (
-	MessageHeaderNONE            MessageHeader = 0
-	MessageHeaderSchema          MessageHeader = 1
-	MessageHeaderDictionaryBatch MessageHeader = 2
-	MessageHeaderRecordBatch     MessageHeader = 3
-	MessageHeaderTensor          MessageHeader = 4
-	MessageHeaderSparseTensor    MessageHeader = 5
-)
-
-var EnumNamesMessageHeader = map[MessageHeader]string{
-	MessageHeaderNONE:            "NONE",
-	MessageHeaderSchema:          "Schema",
-	MessageHeaderDictionaryBatch: "DictionaryBatch",
-	MessageHeaderRecordBatch:     "RecordBatch",
-	MessageHeaderTensor:          "Tensor",
-	MessageHeaderSparseTensor:    "SparseTensor",
-}
-
-var EnumValuesMessageHeader = map[string]MessageHeader{
-	"NONE":            MessageHeaderNONE,
-	"Schema":          MessageHeaderSchema,
-	"DictionaryBatch": MessageHeaderDictionaryBatch,
-	"RecordBatch":     MessageHeaderRecordBatch,
-	"Tensor":          MessageHeaderTensor,
-	"SparseTensor":    MessageHeaderSparseTensor,
-}
-
-func (v MessageHeader) String() string {
-	if s, ok := EnumNamesMessageHeader[v]; ok {
-		return s
-	}
-	return "MessageHeader(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/MetadataVersion.go b/go/arrow/internal/flatbuf/MetadataVersion.go
deleted file mode 100644
index bb5e99dd588ad..0000000000000
--- a/go/arrow/internal/flatbuf/MetadataVersion.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type MetadataVersion int16
-
-const (
-	/// 0.1.0 (October 2016).
-	MetadataVersionV1 MetadataVersion = 0
-	/// 0.2.0 (February 2017). Non-backwards compatible with V1.
-	MetadataVersionV2 MetadataVersion = 1
-	/// 0.3.0 -> 0.7.1 (May - December 2017). Non-backwards compatible with V2.
-	MetadataVersionV3 MetadataVersion = 2
-	/// >= 0.8.0 (December 2017). Non-backwards compatible with V3.
-	MetadataVersionV4 MetadataVersion = 3
-	/// >= 1.0.0 (July 2020). Backwards compatible with V4 (V5 readers can read V4
-	/// metadata and IPC messages). Implementations are recommended to provide a
-	/// V4 compatibility mode with V5 format changes disabled.
-	///
-	/// Incompatible changes between V4 and V5:
-	/// - Union buffer layout has changed. In V5, Unions don't have a validity
-	///   bitmap buffer.
-	MetadataVersionV5 MetadataVersion = 4
-)
-
-var EnumNamesMetadataVersion = map[MetadataVersion]string{
-	MetadataVersionV1: "V1",
-	MetadataVersionV2: "V2",
-	MetadataVersionV3: "V3",
-	MetadataVersionV4: "V4",
-	MetadataVersionV5: "V5",
-}
-
-var EnumValuesMetadataVersion = map[string]MetadataVersion{
-	"V1": MetadataVersionV1,
-	"V2": MetadataVersionV2,
-	"V3": MetadataVersionV3,
-	"V4": MetadataVersionV4,
-	"V5": MetadataVersionV5,
-}
-
-func (v MetadataVersion) String() string {
-	if s, ok := EnumNamesMetadataVersion[v]; ok {
-		return s
-	}
-	return "MetadataVersion(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Null.go b/go/arrow/internal/flatbuf/Null.go
deleted file mode 100644
index 3b93a1b6ee965..0000000000000
--- a/go/arrow/internal/flatbuf/Null.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / These are stored in the flatbuffer in the Type union below
-type Null struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsNull(buf []byte, offset flatbuffers.UOffsetT) *Null {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Null{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Null) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Null) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func NullStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func NullEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Precision.go b/go/arrow/internal/flatbuf/Precision.go
deleted file mode 100644
index d8021ccc44319..0000000000000
--- a/go/arrow/internal/flatbuf/Precision.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type Precision int16
-
-const (
-	PrecisionHALF   Precision = 0
-	PrecisionSINGLE Precision = 1
-	PrecisionDOUBLE Precision = 2
-)
-
-var EnumNamesPrecision = map[Precision]string{
-	PrecisionHALF:   "HALF",
-	PrecisionSINGLE: "SINGLE",
-	PrecisionDOUBLE: "DOUBLE",
-}
-
-var EnumValuesPrecision = map[string]Precision{
-	"HALF":   PrecisionHALF,
-	"SINGLE": PrecisionSINGLE,
-	"DOUBLE": PrecisionDOUBLE,
-}
-
-func (v Precision) String() string {
-	if s, ok := EnumNamesPrecision[v]; ok {
-		return s
-	}
-	return "Precision(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/RecordBatch.go b/go/arrow/internal/flatbuf/RecordBatch.go
deleted file mode 100644
index 52c72a8a20ae4..0000000000000
--- a/go/arrow/internal/flatbuf/RecordBatch.go
+++ /dev/null
@@ -1,214 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A data header describing the shared memory layout of a "record" or "row"
-// / batch. Some systems call this a "row batch" internally and others a "record
-// / batch".
-type RecordBatch struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRecordBatch(buf []byte, offset flatbuffers.UOffsetT) *RecordBatch {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RecordBatch{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RecordBatch) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RecordBatch) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / number of records / rows. The arrays in the batch should all have this
-// / length
-func (rcv *RecordBatch) Length() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / number of records / rows. The arrays in the batch should all have this
-// / length
-func (rcv *RecordBatch) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / Nodes correspond to the pre-ordered flattened logical schema
-func (rcv *RecordBatch) Nodes(obj *FieldNode, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *RecordBatch) NodesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Nodes correspond to the pre-ordered flattened logical schema
-// / Buffers correspond to the pre-ordered flattened buffer tree
-// /
-// / The number of buffers appended to this list depends on the schema. For
-// / example, most primitive arrays will have 2 buffers, 1 for the validity
-// / bitmap and 1 for the values. For struct arrays, there will only be a
-// / single buffer for the validity (nulls) bitmap
-func (rcv *RecordBatch) Buffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *RecordBatch) BuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Buffers correspond to the pre-ordered flattened buffer tree
-// /
-// / The number of buffers appended to this list depends on the schema. For
-// / example, most primitive arrays will have 2 buffers, 1 for the validity
-// / bitmap and 1 for the values. For struct arrays, there will only be a
-// / single buffer for the validity (nulls) bitmap
-// / Optional compression of the message body
-func (rcv *RecordBatch) Compression(obj *BodyCompression) *BodyCompression {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(BodyCompression)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / Optional compression of the message body
-// / Some types such as Utf8View are represented using a variable number of buffers.
-// / For each such Field in the pre-ordered flattened logical schema, there will be
-// / an entry in variadicBufferCounts to indicate the number of number of variadic
-// / buffers which belong to that Field in the current RecordBatch.
-// /
-// / For example, the schema
-// /     col1: Struct<alpha: Int32, beta: BinaryView, gamma: Float64>
-// /     col2: Utf8View
-// / contains two Fields with variadic buffers so variadicBufferCounts will have
-// / two entries, the first counting the variadic buffers of `col1.beta` and the
-// / second counting `col2`'s.
-// /
-// / This field may be omitted if and only if the schema contains no Fields with
-// / a variable number of buffers, such as BinaryView and Utf8View.
-func (rcv *RecordBatch) VariadicBufferCounts(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *RecordBatch) VariadicBufferCountsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Some types such as Utf8View are represented using a variable number of buffers.
-// / For each such Field in the pre-ordered flattened logical schema, there will be
-// / an entry in variadicBufferCounts to indicate the number of number of variadic
-// / buffers which belong to that Field in the current RecordBatch.
-// /
-// / For example, the schema
-// /     col1: Struct<alpha: Int32, beta: BinaryView, gamma: Float64>
-// /     col2: Utf8View
-// / contains two Fields with variadic buffers so variadicBufferCounts will have
-// / two entries, the first counting the variadic buffers of `col1.beta` and the
-// / second counting `col2`'s.
-// /
-// / This field may be omitted if and only if the schema contains no Fields with
-// / a variable number of buffers, such as BinaryView and Utf8View.
-func (rcv *RecordBatch) MutateVariadicBufferCounts(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-func RecordBatchStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func RecordBatchAddLength(builder *flatbuffers.Builder, length int64) {
-	builder.PrependInt64Slot(0, length, 0)
-}
-func RecordBatchAddNodes(builder *flatbuffers.Builder, nodes flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(nodes), 0)
-}
-func RecordBatchStartNodesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func RecordBatchAddBuffers(builder *flatbuffers.Builder, buffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(buffers), 0)
-}
-func RecordBatchStartBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func RecordBatchAddCompression(builder *flatbuffers.Builder, compression flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(compression), 0)
-}
-func RecordBatchAddVariadicBufferCounts(builder *flatbuffers.Builder, variadicBufferCounts flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(variadicBufferCounts), 0)
-}
-func RecordBatchStartVariadicBufferCountsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func RecordBatchEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/RunEndEncoded.go b/go/arrow/internal/flatbuf/RunEndEncoded.go
deleted file mode 100644
index b88460b2e22bc..0000000000000
--- a/go/arrow/internal/flatbuf/RunEndEncoded.go
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Contains two child arrays, run_ends and values.
-// / The run_ends child array must be a 16/32/64-bit integer array
-// / which encodes the indices at which the run with the value in
-// / each corresponding index in the values child array ends.
-// / Like list/struct types, the value array can be of any type.
-type RunEndEncoded struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRunEndEncoded(buf []byte, offset flatbuffers.UOffsetT) *RunEndEncoded {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RunEndEncoded{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RunEndEncoded) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RunEndEncoded) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func RunEndEncodedStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func RunEndEncodedEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/RunLengthEncoded.go b/go/arrow/internal/flatbuf/RunLengthEncoded.go
deleted file mode 100644
index 8822c0660007a..0000000000000
--- a/go/arrow/internal/flatbuf/RunLengthEncoded.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type RunLengthEncoded struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRunLengthEncoded(buf []byte, offset flatbuffers.UOffsetT) *RunLengthEncoded {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RunLengthEncoded{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RunLengthEncoded) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RunLengthEncoded) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func RunLengthEncodedStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func RunLengthEncodedEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Schema.go b/go/arrow/internal/flatbuf/Schema.go
deleted file mode 100644
index ae5b248a766e3..0000000000000
--- a/go/arrow/internal/flatbuf/Schema.go
+++ /dev/null
@@ -1,159 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A Schema describes the columns in a row batch
-type Schema struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSchema(buf []byte, offset flatbuffers.UOffsetT) *Schema {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Schema{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Schema) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Schema) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / endianness of the buffer
-// / it is Little Endian by default
-// / if endianness doesn't match the underlying system then the vectors need to be converted
-func (rcv *Schema) Endianness() Endianness {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Endianness(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / endianness of the buffer
-// / it is Little Endian by default
-// / if endianness doesn't match the underlying system then the vectors need to be converted
-func (rcv *Schema) MutateEndianness(n Endianness) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Schema) Fields(obj *Field, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Schema) FieldsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Schema) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Schema) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Features used in the stream/file.
-func (rcv *Schema) Features(j int) Feature {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return Feature(rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8)))
-	}
-	return 0
-}
-
-func (rcv *Schema) FeaturesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Features used in the stream/file.
-func (rcv *Schema) MutateFeatures(j int, n Feature) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), int64(n))
-	}
-	return false
-}
-
-func SchemaStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SchemaAddEndianness(builder *flatbuffers.Builder, endianness Endianness) {
-	builder.PrependInt16Slot(0, int16(endianness), 0)
-}
-func SchemaAddFields(builder *flatbuffers.Builder, fields flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(fields), 0)
-}
-func SchemaStartFieldsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SchemaAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func SchemaStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SchemaAddFeatures(builder *flatbuffers.Builder, features flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(features), 0)
-}
-func SchemaStartFeaturesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func SchemaEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go b/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go
deleted file mode 100644
index 2d86fdef785d7..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type SparseMatrixCompressedAxis int16
-
-const (
-	SparseMatrixCompressedAxisRow    SparseMatrixCompressedAxis = 0
-	SparseMatrixCompressedAxisColumn SparseMatrixCompressedAxis = 1
-)
-
-var EnumNamesSparseMatrixCompressedAxis = map[SparseMatrixCompressedAxis]string{
-	SparseMatrixCompressedAxisRow:    "Row",
-	SparseMatrixCompressedAxisColumn: "Column",
-}
-
-var EnumValuesSparseMatrixCompressedAxis = map[string]SparseMatrixCompressedAxis{
-	"Row":    SparseMatrixCompressedAxisRow,
-	"Column": SparseMatrixCompressedAxisColumn,
-}
-
-func (v SparseMatrixCompressedAxis) String() string {
-	if s, ok := EnumNamesSparseMatrixCompressedAxis[v]; ok {
-		return s
-	}
-	return "SparseMatrixCompressedAxis(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go b/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go
deleted file mode 100644
index 2477af100355c..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse Row format, that is matrix-specific.
-type SparseMatrixIndexCSR struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseMatrixIndexCSR(buf []byte, offset flatbuffers.UOffsetT) *SparseMatrixIndexCSR {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseMatrixIndexCSR{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseMatrixIndexCSR) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseMatrixIndexCSR) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The type of values in indptrBuffer
-func (rcv *SparseMatrixIndexCSR) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indptrBuffer
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from indptr[i] to indptr[i+1] in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// /
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// /
-// / The array of non-zero values in X is:
-// /
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// /
-// / And the indptr of X is:
-// /
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-func (rcv *SparseMatrixIndexCSR) IndptrBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from indptr[i] to indptr[i+1] in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// /
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// /
-// / The array of non-zero values in X is:
-// /
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// /
-// / And the indptr of X is:
-// /
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / The type of values in indicesBuffer
-func (rcv *SparseMatrixIndexCSR) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// /
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// /
-// / Note that the indices are sorted in lexicographical order for each row.
-func (rcv *SparseMatrixIndexCSR) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// /
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// /
-// / Note that the indices are sorted in lexicographical order for each row.
-func SparseMatrixIndexCSRStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SparseMatrixIndexCSRAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseMatrixIndexCSRAddIndptrBuffer(builder *flatbuffers.Builder, indptrBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(1, flatbuffers.UOffsetT(indptrBuffer), 0)
-}
-func SparseMatrixIndexCSRAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseMatrixIndexCSRAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(3, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseMatrixIndexCSREnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go b/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go
deleted file mode 100644
index 7f262deedbfc1..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go
+++ /dev/null
@@ -1,200 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse format, that is matrix-specific.
-type SparseMatrixIndexCSX struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseMatrixIndexCSX(buf []byte, offset flatbuffers.UOffsetT) *SparseMatrixIndexCSX {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseMatrixIndexCSX{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseMatrixIndexCSX) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseMatrixIndexCSX) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Which axis, row or column, is compressed
-func (rcv *SparseMatrixIndexCSX) CompressedAxis() SparseMatrixCompressedAxis {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return SparseMatrixCompressedAxis(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Which axis, row or column, is compressed
-func (rcv *SparseMatrixIndexCSX) MutateCompressedAxis(n SparseMatrixCompressedAxis) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-// / The type of values in indptrBuffer
-func (rcv *SparseMatrixIndexCSX) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indptrBuffer
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from `indptr[i]` to `indptr[i+1]` in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// / ```text
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// / ```
-// / The array of non-zero values in X is:
-// / ```text
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// / ```
-// / And the indptr of X is:
-// / ```text
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / ```
-func (rcv *SparseMatrixIndexCSX) IndptrBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from `indptr[i]` to `indptr[i+1]` in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// / ```text
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// / ```
-// / The array of non-zero values in X is:
-// / ```text
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// / ```
-// / And the indptr of X is:
-// / ```text
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / ```
-// / The type of values in indicesBuffer
-func (rcv *SparseMatrixIndexCSX) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// / ```text
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// / ```
-// / Note that the indices are sorted in lexicographical order for each row.
-func (rcv *SparseMatrixIndexCSX) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// / ```text
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// / ```
-// / Note that the indices are sorted in lexicographical order for each row.
-func SparseMatrixIndexCSXStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func SparseMatrixIndexCSXAddCompressedAxis(builder *flatbuffers.Builder, compressedAxis SparseMatrixCompressedAxis) {
-	builder.PrependInt16Slot(0, int16(compressedAxis), 0)
-}
-func SparseMatrixIndexCSXAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseMatrixIndexCSXAddIndptrBuffer(builder *flatbuffers.Builder, indptrBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(2, flatbuffers.UOffsetT(indptrBuffer), 0)
-}
-func SparseMatrixIndexCSXAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseMatrixIndexCSXAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(4, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseMatrixIndexCSXEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensor.go b/go/arrow/internal/flatbuf/SparseTensor.go
deleted file mode 100644
index 8f67e1fc08b84..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensor.go
+++ /dev/null
@@ -1,175 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type SparseTensor struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensor(buf []byte, offset flatbuffers.UOffsetT) *SparseTensor {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensor{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensor) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensor) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *SparseTensor) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *SparseTensor) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(4, byte(n))
-}
-
-// / The type of data contained in a value cell.
-// / Currently only fixed-width value types are supported,
-// / no strings or nested types.
-func (rcv *SparseTensor) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / The type of data contained in a value cell.
-// / Currently only fixed-width value types are supported,
-// / no strings or nested types.
-// / The dimensions of the tensor, optionally named.
-func (rcv *SparseTensor) Shape(obj *TensorDim, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensor) ShapeLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / The dimensions of the tensor, optionally named.
-// / The number of non-zero values in a sparse tensor.
-func (rcv *SparseTensor) NonZeroLength() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / The number of non-zero values in a sparse tensor.
-func (rcv *SparseTensor) MutateNonZeroLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(10, n)
-}
-
-func (rcv *SparseTensor) SparseIndexType() SparseTensorIndex {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return SparseTensorIndex(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *SparseTensor) MutateSparseIndexType(n SparseTensorIndex) bool {
-	return rcv._tab.MutateByteSlot(12, byte(n))
-}
-
-// / Sparse tensor index
-func (rcv *SparseTensor) SparseIndex(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / Sparse tensor index
-// / The location and size of the tensor's data
-func (rcv *SparseTensor) Data(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the tensor's data
-func SparseTensorStart(builder *flatbuffers.Builder) {
-	builder.StartObject(7)
-}
-func SparseTensorAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(0, byte(typeType), 0)
-}
-func SparseTensorAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(type_), 0)
-}
-func SparseTensorAddShape(builder *flatbuffers.Builder, shape flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(shape), 0)
-}
-func SparseTensorStartShapeVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SparseTensorAddNonZeroLength(builder *flatbuffers.Builder, nonZeroLength int64) {
-	builder.PrependInt64Slot(3, nonZeroLength, 0)
-}
-func SparseTensorAddSparseIndexType(builder *flatbuffers.Builder, sparseIndexType SparseTensorIndex) {
-	builder.PrependByteSlot(4, byte(sparseIndexType), 0)
-}
-func SparseTensorAddSparseIndex(builder *flatbuffers.Builder, sparseIndex flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(5, flatbuffers.UOffsetT(sparseIndex), 0)
-}
-func SparseTensorAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(6, flatbuffers.UOffsetT(data), 0)
-}
-func SparseTensorEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndex.go b/go/arrow/internal/flatbuf/SparseTensorIndex.go
deleted file mode 100644
index 42aa818b0b33f..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndex.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type SparseTensorIndex byte
-
-const (
-	SparseTensorIndexNONE                 SparseTensorIndex = 0
-	SparseTensorIndexSparseTensorIndexCOO SparseTensorIndex = 1
-	SparseTensorIndexSparseMatrixIndexCSX SparseTensorIndex = 2
-	SparseTensorIndexSparseTensorIndexCSF SparseTensorIndex = 3
-)
-
-var EnumNamesSparseTensorIndex = map[SparseTensorIndex]string{
-	SparseTensorIndexNONE:                 "NONE",
-	SparseTensorIndexSparseTensorIndexCOO: "SparseTensorIndexCOO",
-	SparseTensorIndexSparseMatrixIndexCSX: "SparseMatrixIndexCSX",
-	SparseTensorIndexSparseTensorIndexCSF: "SparseTensorIndexCSF",
-}
-
-var EnumValuesSparseTensorIndex = map[string]SparseTensorIndex{
-	"NONE":                 SparseTensorIndexNONE,
-	"SparseTensorIndexCOO": SparseTensorIndexSparseTensorIndexCOO,
-	"SparseMatrixIndexCSX": SparseTensorIndexSparseMatrixIndexCSX,
-	"SparseTensorIndexCSF": SparseTensorIndexSparseTensorIndexCSF,
-}
-
-func (v SparseTensorIndex) String() string {
-	if s, ok := EnumNamesSparseTensorIndex[v]; ok {
-		return s
-	}
-	return "SparseTensorIndex(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go b/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go
deleted file mode 100644
index bf1c218e2e415..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go
+++ /dev/null
@@ -1,179 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / EXPERIMENTAL: Data structures for sparse tensors
-// / Coordinate (COO) format of sparse tensor index.
-// /
-// / COO's index list are represented as a NxM matrix,
-// / where N is the number of non-zero values,
-// / and M is the number of dimensions of a sparse tensor.
-// /
-// / indicesBuffer stores the location and size of the data of this indices
-// / matrix.  The value type and the stride of the indices matrix is
-// / specified in indicesType and indicesStrides fields.
-// /
-// / For example, let X be a 2x3x4x5 tensor, and it has the following
-// / 6 non-zero values:
-// / ```text
-// /   X[0, 1, 2, 0] := 1
-// /   X[1, 1, 2, 3] := 2
-// /   X[0, 2, 1, 0] := 3
-// /   X[0, 1, 3, 0] := 4
-// /   X[0, 1, 2, 1] := 5
-// /   X[1, 2, 0, 4] := 6
-// / ```
-// / In COO format, the index matrix of X is the following 4x6 matrix:
-// / ```text
-// /   [[0, 0, 0, 0, 1, 1],
-// /    [1, 1, 1, 2, 1, 2],
-// /    [2, 2, 3, 1, 2, 0],
-// /    [0, 1, 0, 0, 3, 4]]
-// / ```
-// / When isCanonical is true, the indices is sorted in lexicographical order
-// / (row-major order), and it does not have duplicated entries.  Otherwise,
-// / the indices may not be sorted, or may have duplicated entries.
-type SparseTensorIndexCOO struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensorIndexCOO(buf []byte, offset flatbuffers.UOffsetT) *SparseTensorIndexCOO {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensorIndexCOO{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensorIndexCOO) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensorIndexCOO) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The type of values in indicesBuffer
-func (rcv *SparseTensorIndexCOO) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *SparseTensorIndexCOO) IndicesStrides(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *SparseTensorIndexCOO) IndicesStridesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *SparseTensorIndexCOO) MutateIndicesStrides(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-// / The location and size of the indices matrix's data
-func (rcv *SparseTensorIndexCOO) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the indices matrix's data
-// / This flag is true if and only if the indices matrix is sorted in
-// / row-major order, and does not have duplicated entries.
-// / This sort order is the same as of Tensorflow's SparseTensor,
-// / but it is inverse order of SciPy's canonical coo_matrix
-// / (SciPy employs column-major order for its coo_matrix).
-func (rcv *SparseTensorIndexCOO) IsCanonical() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / This flag is true if and only if the indices matrix is sorted in
-// / row-major order, and does not have duplicated entries.
-// / This sort order is the same as of Tensorflow's SparseTensor,
-// / but it is inverse order of SciPy's canonical coo_matrix
-// / (SciPy employs column-major order for its coo_matrix).
-func (rcv *SparseTensorIndexCOO) MutateIsCanonical(n bool) bool {
-	return rcv._tab.MutateBoolSlot(10, n)
-}
-
-func SparseTensorIndexCOOStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SparseTensorIndexCOOAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseTensorIndexCOOAddIndicesStrides(builder *flatbuffers.Builder, indicesStrides flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indicesStrides), 0)
-}
-func SparseTensorIndexCOOStartIndicesStridesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func SparseTensorIndexCOOAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(2, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseTensorIndexCOOAddIsCanonical(builder *flatbuffers.Builder, isCanonical bool) {
-	builder.PrependBoolSlot(3, isCanonical, false)
-}
-func SparseTensorIndexCOOEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go b/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go
deleted file mode 100644
index 66226e0412c21..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go
+++ /dev/null
@@ -1,291 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse Fiber (CSF) sparse tensor index.
-type SparseTensorIndexCSF struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensorIndexCSF(buf []byte, offset flatbuffers.UOffsetT) *SparseTensorIndexCSF {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensorIndexCSF{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensorIndexCSF) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensorIndexCSF) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / CSF is a generalization of compressed sparse row (CSR) index.
-// / See [smith2017knl](http://shaden.io/pub-files/smith2017knl.pdf)
-// /
-// / CSF index recursively compresses each dimension of a tensor into a set
-// / of prefix trees. Each path from a root to leaf forms one tensor
-// / non-zero index. CSF is implemented with two arrays of buffers and one
-// / arrays of integers.
-// /
-// / For example, let X be a 2x3x4x5 tensor and let it have the following
-// / 8 non-zero values:
-// / ```text
-// /   X[0, 0, 0, 1] := 1
-// /   X[0, 0, 0, 2] := 2
-// /   X[0, 1, 0, 0] := 3
-// /   X[0, 1, 0, 2] := 4
-// /   X[0, 1, 1, 0] := 5
-// /   X[1, 1, 1, 0] := 6
-// /   X[1, 1, 1, 1] := 7
-// /   X[1, 1, 1, 2] := 8
-// / ```
-// / As a prefix tree this would be represented as:
-// / ```text
-// /         0          1
-// /        / \         |
-// /       0   1        1
-// /      /   / \       |
-// /     0   0   1      1
-// /    /|  /|   |    /| |
-// /   1 2 0 2   0   0 1 2
-// / ```
-// / The type of values in indptrBuffers
-func (rcv *SparseTensorIndexCSF) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / CSF is a generalization of compressed sparse row (CSR) index.
-// / See [smith2017knl](http://shaden.io/pub-files/smith2017knl.pdf)
-// /
-// / CSF index recursively compresses each dimension of a tensor into a set
-// / of prefix trees. Each path from a root to leaf forms one tensor
-// / non-zero index. CSF is implemented with two arrays of buffers and one
-// / arrays of integers.
-// /
-// / For example, let X be a 2x3x4x5 tensor and let it have the following
-// / 8 non-zero values:
-// / ```text
-// /   X[0, 0, 0, 1] := 1
-// /   X[0, 0, 0, 2] := 2
-// /   X[0, 1, 0, 0] := 3
-// /   X[0, 1, 0, 2] := 4
-// /   X[0, 1, 1, 0] := 5
-// /   X[1, 1, 1, 0] := 6
-// /   X[1, 1, 1, 1] := 7
-// /   X[1, 1, 1, 2] := 8
-// / ```
-// / As a prefix tree this would be represented as:
-// / ```text
-// /         0          1
-// /        / \         |
-// /       0   1        1
-// /      /   / \       |
-// /     0   0   1      1
-// /    /|  /|   |    /| |
-// /   1 2 0 2   0   0 1 2
-// / ```
-// / The type of values in indptrBuffers
-// / indptrBuffers stores the sparsity structure.
-// / Each two consecutive dimensions in a tensor correspond to a buffer in
-// / indptrBuffers. A pair of consecutive values at `indptrBuffers[dim][i]`
-// / and `indptrBuffers[dim][i + 1]` signify a range of nodes in
-// / `indicesBuffers[dim + 1]` who are children of `indicesBuffers[dim][i]` node.
-// /
-// / For example, the indptrBuffers for the above X is:
-// / ```text
-// /   indptrBuffer(X) = [
-// /                       [0, 2, 3],
-// /                       [0, 1, 3, 4],
-// /                       [0, 2, 4, 5, 8]
-// /                     ].
-// / ```
-func (rcv *SparseTensorIndexCSF) IndptrBuffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensorIndexCSF) IndptrBuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / indptrBuffers stores the sparsity structure.
-// / Each two consecutive dimensions in a tensor correspond to a buffer in
-// / indptrBuffers. A pair of consecutive values at `indptrBuffers[dim][i]`
-// / and `indptrBuffers[dim][i + 1]` signify a range of nodes in
-// / `indicesBuffers[dim + 1]` who are children of `indicesBuffers[dim][i]` node.
-// /
-// / For example, the indptrBuffers for the above X is:
-// / ```text
-// /   indptrBuffer(X) = [
-// /                       [0, 2, 3],
-// /                       [0, 1, 3, 4],
-// /                       [0, 2, 4, 5, 8]
-// /                     ].
-// / ```
-// / The type of values in indicesBuffers
-func (rcv *SparseTensorIndexCSF) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffers
-// / indicesBuffers stores values of nodes.
-// / Each tensor dimension corresponds to a buffer in indicesBuffers.
-// / For example, the indicesBuffers for the above X is:
-// / ```text
-// /   indicesBuffer(X) = [
-// /                        [0, 1],
-// /                        [0, 1, 1],
-// /                        [0, 0, 1, 1],
-// /                        [1, 2, 0, 2, 0, 0, 1, 2]
-// /                      ].
-// / ```
-func (rcv *SparseTensorIndexCSF) IndicesBuffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensorIndexCSF) IndicesBuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / indicesBuffers stores values of nodes.
-// / Each tensor dimension corresponds to a buffer in indicesBuffers.
-// / For example, the indicesBuffers for the above X is:
-// / ```text
-// /   indicesBuffer(X) = [
-// /                        [0, 1],
-// /                        [0, 1, 1],
-// /                        [0, 0, 1, 1],
-// /                        [1, 2, 0, 2, 0, 0, 1, 2]
-// /                      ].
-// / ```
-// / axisOrder stores the sequence in which dimensions were traversed to
-// / produce the prefix tree.
-// / For example, the axisOrder for the above X is:
-// / ```text
-// /   axisOrder(X) = [0, 1, 2, 3].
-// / ```
-func (rcv *SparseTensorIndexCSF) AxisOrder(j int) int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt32(a + flatbuffers.UOffsetT(j*4))
-	}
-	return 0
-}
-
-func (rcv *SparseTensorIndexCSF) AxisOrderLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / axisOrder stores the sequence in which dimensions were traversed to
-// / produce the prefix tree.
-// / For example, the axisOrder for the above X is:
-// / ```text
-// /   axisOrder(X) = [0, 1, 2, 3].
-// / ```
-func (rcv *SparseTensorIndexCSF) MutateAxisOrder(j int, n int32) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt32(a+flatbuffers.UOffsetT(j*4), n)
-	}
-	return false
-}
-
-func SparseTensorIndexCSFStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func SparseTensorIndexCSFAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseTensorIndexCSFAddIndptrBuffers(builder *flatbuffers.Builder, indptrBuffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indptrBuffers), 0)
-}
-func SparseTensorIndexCSFStartIndptrBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func SparseTensorIndexCSFAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseTensorIndexCSFAddIndicesBuffers(builder *flatbuffers.Builder, indicesBuffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(indicesBuffers), 0)
-}
-func SparseTensorIndexCSFStartIndicesBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func SparseTensorIndexCSFAddAxisOrder(builder *flatbuffers.Builder, axisOrder flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(axisOrder), 0)
-}
-func SparseTensorIndexCSFStartAxisOrderVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SparseTensorIndexCSFEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Struct_.go b/go/arrow/internal/flatbuf/Struct_.go
deleted file mode 100644
index 73752a17e00fa..0000000000000
--- a/go/arrow/internal/flatbuf/Struct_.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A Struct_ in the flatbuffer metadata is the same as an Arrow Struct
-// / (according to the physical memory layout). We used Struct_ here as
-// / Struct is a reserved word in Flatbuffers
-type Struct_ struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsStruct_(buf []byte, offset flatbuffers.UOffsetT) *Struct_ {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Struct_{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Struct_) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Struct_) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Struct_Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Struct_End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Tensor.go b/go/arrow/internal/flatbuf/Tensor.go
deleted file mode 100644
index 47bfe8067b57b..0000000000000
--- a/go/arrow/internal/flatbuf/Tensor.go
+++ /dev/null
@@ -1,163 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Tensor struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTensor(buf []byte, offset flatbuffers.UOffsetT) *Tensor {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Tensor{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Tensor) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Tensor) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Tensor) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Tensor) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(4, byte(n))
-}
-
-// / The type of data contained in a value cell. Currently only fixed-width
-// / value types are supported, no strings or nested types
-func (rcv *Tensor) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / The type of data contained in a value cell. Currently only fixed-width
-// / value types are supported, no strings or nested types
-// / The dimensions of the tensor, optionally named
-func (rcv *Tensor) Shape(obj *TensorDim, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Tensor) ShapeLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / The dimensions of the tensor, optionally named
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *Tensor) Strides(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *Tensor) StridesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *Tensor) MutateStrides(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-// / The location and size of the tensor's data
-func (rcv *Tensor) Data(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the tensor's data
-func TensorStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func TensorAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(0, byte(typeType), 0)
-}
-func TensorAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(type_), 0)
-}
-func TensorAddShape(builder *flatbuffers.Builder, shape flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(shape), 0)
-}
-func TensorStartShapeVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func TensorAddStrides(builder *flatbuffers.Builder, strides flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(strides), 0)
-}
-func TensorStartStridesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func TensorAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(4, flatbuffers.UOffsetT(data), 0)
-}
-func TensorEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/TensorDim.go b/go/arrow/internal/flatbuf/TensorDim.go
deleted file mode 100644
index c6413b6a8c0bd..0000000000000
--- a/go/arrow/internal/flatbuf/TensorDim.go
+++ /dev/null
@@ -1,83 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Data structures for dense tensors
-// / Shape data for a single axis in a tensor
-type TensorDim struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTensorDim(buf []byte, offset flatbuffers.UOffsetT) *TensorDim {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &TensorDim{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *TensorDim) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *TensorDim) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Length of dimension
-func (rcv *TensorDim) Size() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Length of dimension
-func (rcv *TensorDim) MutateSize(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / Name of the dimension, optional
-func (rcv *TensorDim) Name() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / Name of the dimension, optional
-func TensorDimStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TensorDimAddSize(builder *flatbuffers.Builder, size int64) {
-	builder.PrependInt64Slot(0, size, 0)
-}
-func TensorDimAddName(builder *flatbuffers.Builder, name flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(name), 0)
-}
-func TensorDimEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Time.go b/go/arrow/internal/flatbuf/Time.go
deleted file mode 100644
index 13038a6e33280..0000000000000
--- a/go/arrow/internal/flatbuf/Time.go
+++ /dev/null
@@ -1,94 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Time is either a 32-bit or 64-bit signed integer type representing an
-// / elapsed time since midnight, stored in either of four units: seconds,
-// / milliseconds, microseconds or nanoseconds.
-// /
-// / The integer `bitWidth` depends on the `unit` and must be one of the following:
-// / * SECOND and MILLISECOND: 32 bits
-// / * MICROSECOND and NANOSECOND: 64 bits
-// /
-// / The allowed values are between 0 (inclusive) and 86400 (=24*60*60) seconds
-// / (exclusive), adjusted for the time unit (for example, up to 86400000
-// / exclusive for the MILLISECOND unit).
-// / This definition doesn't allow for leap seconds. Time values from
-// / measurements with leap seconds will need to be corrected when ingesting
-// / into Arrow (for example by replacing the value 86400 with 86399).
-type Time struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTime(buf []byte, offset flatbuffers.UOffsetT) *Time {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Time{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Time) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Time) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Time) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Time) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Time) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 32
-}
-
-func (rcv *Time) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(6, n)
-}
-
-func TimeStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TimeAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func TimeAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(1, bitWidth, 32)
-}
-func TimeEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/TimeUnit.go b/go/arrow/internal/flatbuf/TimeUnit.go
deleted file mode 100644
index df14ece4f187b..0000000000000
--- a/go/arrow/internal/flatbuf/TimeUnit.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type TimeUnit int16
-
-const (
-	TimeUnitSECOND      TimeUnit = 0
-	TimeUnitMILLISECOND TimeUnit = 1
-	TimeUnitMICROSECOND TimeUnit = 2
-	TimeUnitNANOSECOND  TimeUnit = 3
-)
-
-var EnumNamesTimeUnit = map[TimeUnit]string{
-	TimeUnitSECOND:      "SECOND",
-	TimeUnitMILLISECOND: "MILLISECOND",
-	TimeUnitMICROSECOND: "MICROSECOND",
-	TimeUnitNANOSECOND:  "NANOSECOND",
-}
-
-var EnumValuesTimeUnit = map[string]TimeUnit{
-	"SECOND":      TimeUnitSECOND,
-	"MILLISECOND": TimeUnitMILLISECOND,
-	"MICROSECOND": TimeUnitMICROSECOND,
-	"NANOSECOND":  TimeUnitNANOSECOND,
-}
-
-func (v TimeUnit) String() string {
-	if s, ok := EnumNamesTimeUnit[v]; ok {
-		return s
-	}
-	return "TimeUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Timestamp.go b/go/arrow/internal/flatbuf/Timestamp.go
deleted file mode 100644
index ce172bacdd3c3..0000000000000
--- a/go/arrow/internal/flatbuf/Timestamp.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Timestamp is a 64-bit signed integer representing an elapsed time since a
-// / fixed epoch, stored in either of four units: seconds, milliseconds,
-// / microseconds or nanoseconds, and is optionally annotated with a timezone.
-// /
-// / Timestamp values do not include any leap seconds (in other words, all
-// / days are considered 86400 seconds long).
-// /
-// / Timestamps with a non-empty timezone
-// / ------------------------------------
-// /
-// / If a Timestamp column has a non-empty timezone value, its epoch is
-// / 1970-01-01 00:00:00 (January 1st 1970, midnight) in the *UTC* timezone
-// / (the Unix epoch), regardless of the Timestamp's own timezone.
-// /
-// / Therefore, timestamp values with a non-empty timezone correspond to
-// / physical points in time together with some additional information about
-// / how the data was obtained and/or how to display it (the timezone).
-// /
-// /   For example, the timestamp value 0 with the timezone string "Europe/Paris"
-// /   corresponds to "January 1st 1970, 00h00" in the UTC timezone, but the
-// /   application may prefer to display it as "January 1st 1970, 01h00" in
-// /   the Europe/Paris timezone (which is the same physical point in time).
-// /
-// / One consequence is that timestamp values with a non-empty timezone
-// / can be compared and ordered directly, since they all share the same
-// / well-known point of reference (the Unix epoch).
-// /
-// / Timestamps with an unset / empty timezone
-// / -----------------------------------------
-// /
-// / If a Timestamp column has no timezone value, its epoch is
-// / 1970-01-01 00:00:00 (January 1st 1970, midnight) in an *unknown* timezone.
-// /
-// / Therefore, timestamp values without a timezone cannot be meaningfully
-// / interpreted as physical points in time, but only as calendar / clock
-// / indications ("wall clock time") in an unspecified timezone.
-// /
-// /   For example, the timestamp value 0 with an empty timezone string
-// /   corresponds to "January 1st 1970, 00h00" in an unknown timezone: there
-// /   is not enough information to interpret it as a well-defined physical
-// /   point in time.
-// /
-// / One consequence is that timestamp values without a timezone cannot
-// / be reliably compared or ordered, since they may have different points of
-// / reference.  In particular, it is *not* possible to interpret an unset
-// / or empty timezone as the same as "UTC".
-// /
-// / Conversion between timezones
-// / ----------------------------
-// /
-// / If a Timestamp column has a non-empty timezone, changing the timezone
-// / to a different non-empty value is a metadata-only operation:
-// / the timestamp values need not change as their point of reference remains
-// / the same (the Unix epoch).
-// /
-// / However, if a Timestamp column has no timezone value, changing it to a
-// / non-empty value requires to think about the desired semantics.
-// / One possibility is to assume that the original timestamp values are
-// / relative to the epoch of the timezone being set; timestamp values should
-// / then adjusted to the Unix epoch (for example, changing the timezone from
-// / empty to "Europe/Paris" would require converting the timestamp values
-// / from "Europe/Paris" to "UTC", which seems counter-intuitive but is
-// / nevertheless correct).
-// /
-// / Guidelines for encoding data from external libraries
-// / ----------------------------------------------------
-// /
-// / Date & time libraries often have multiple different data types for temporal
-// / data. In order to ease interoperability between different implementations the
-// / Arrow project has some recommendations for encoding these types into a Timestamp
-// / column.
-// /
-// / An "instant" represents a physical point in time that has no relevant timezone
-// / (for example, astronomical data). To encode an instant, use a Timestamp with
-// / the timezone string set to "UTC", and make sure the Timestamp values
-// / are relative to the UTC epoch (January 1st 1970, midnight).
-// /
-// / A "zoned date-time" represents a physical point in time annotated with an
-// / informative timezone (for example, the timezone in which the data was
-// / recorded).  To encode a zoned date-time, use a Timestamp with the timezone
-// / string set to the name of the timezone, and make sure the Timestamp values
-// / are relative to the UTC epoch (January 1st 1970, midnight).
-// /
-// /  (There is some ambiguity between an instant and a zoned date-time with the
-// /   UTC timezone.  Both of these are stored the same in Arrow.  Typically,
-// /   this distinction does not matter.  If it does, then an application should
-// /   use custom metadata or an extension type to distinguish between the two cases.)
-// /
-// / An "offset date-time" represents a physical point in time combined with an
-// / explicit offset from UTC.  To encode an offset date-time, use a Timestamp
-// / with the timezone string set to the numeric timezone offset string
-// / (e.g. "+03:00"), and make sure the Timestamp values are relative to
-// / the UTC epoch (January 1st 1970, midnight).
-// /
-// / A "naive date-time" (also called "local date-time" in some libraries)
-// / represents a wall clock time combined with a calendar date, but with
-// / no indication of how to map this information to a physical point in time.
-// / Naive date-times must be handled with care because of this missing
-// / information, and also because daylight saving time (DST) may make
-// / some values ambiguous or nonexistent. A naive date-time may be
-// / stored as a struct with Date and Time fields. However, it may also be
-// / encoded into a Timestamp column with an empty timezone. The timestamp
-// / values should be computed "as if" the timezone of the date-time values
-// / was UTC; for example, the naive date-time "January 1st 1970, 00h00" would
-// / be encoded as timestamp value 0.
-type Timestamp struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTimestamp(buf []byte, offset flatbuffers.UOffsetT) *Timestamp {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Timestamp{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Timestamp) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Timestamp) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Timestamp) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Timestamp) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-// / The timezone is an optional string indicating the name of a timezone,
-// / one of:
-// /
-// / * As used in the Olson timezone database (the "tz database" or
-// /   "tzdata"), such as "America/New_York".
-// / * An absolute timezone offset of the form "+XX:XX" or "-XX:XX",
-// /   such as "+07:30".
-// /
-// / Whether a timezone string is present indicates different semantics about
-// / the data (see above).
-func (rcv *Timestamp) Timezone() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / The timezone is an optional string indicating the name of a timezone,
-// / one of:
-// /
-// / * As used in the Olson timezone database (the "tz database" or
-// /   "tzdata"), such as "America/New_York".
-// / * An absolute timezone offset of the form "+XX:XX" or "-XX:XX",
-// /   such as "+07:30".
-// /
-// / Whether a timezone string is present indicates different semantics about
-// / the data (see above).
-func TimestampStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TimestampAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 0)
-}
-func TimestampAddTimezone(builder *flatbuffers.Builder, timezone flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(timezone), 0)
-}
-func TimestampEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Type.go b/go/arrow/internal/flatbuf/Type.go
deleted file mode 100644
index df8ba8650e1cd..0000000000000
--- a/go/arrow/internal/flatbuf/Type.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Top-level Type value, enabling extensible type-specific metadata. We can
-// / add new logical types to Type without breaking backwards compatibility
-type Type byte
-
-const (
-	TypeNONE            Type = 0
-	TypeNull            Type = 1
-	TypeInt             Type = 2
-	TypeFloatingPoint   Type = 3
-	TypeBinary          Type = 4
-	TypeUtf8            Type = 5
-	TypeBool            Type = 6
-	TypeDecimal         Type = 7
-	TypeDate            Type = 8
-	TypeTime            Type = 9
-	TypeTimestamp       Type = 10
-	TypeInterval        Type = 11
-	TypeList            Type = 12
-	TypeStruct_         Type = 13
-	TypeUnion           Type = 14
-	TypeFixedSizeBinary Type = 15
-	TypeFixedSizeList   Type = 16
-	TypeMap             Type = 17
-	TypeDuration        Type = 18
-	TypeLargeBinary     Type = 19
-	TypeLargeUtf8       Type = 20
-	TypeLargeList       Type = 21
-	TypeRunEndEncoded   Type = 22
-	TypeBinaryView      Type = 23
-	TypeUtf8View        Type = 24
-	TypeListView        Type = 25
-	TypeLargeListView   Type = 26
-)
-
-var EnumNamesType = map[Type]string{
-	TypeNONE:            "NONE",
-	TypeNull:            "Null",
-	TypeInt:             "Int",
-	TypeFloatingPoint:   "FloatingPoint",
-	TypeBinary:          "Binary",
-	TypeUtf8:            "Utf8",
-	TypeBool:            "Bool",
-	TypeDecimal:         "Decimal",
-	TypeDate:            "Date",
-	TypeTime:            "Time",
-	TypeTimestamp:       "Timestamp",
-	TypeInterval:        "Interval",
-	TypeList:            "List",
-	TypeStruct_:         "Struct_",
-	TypeUnion:           "Union",
-	TypeFixedSizeBinary: "FixedSizeBinary",
-	TypeFixedSizeList:   "FixedSizeList",
-	TypeMap:             "Map",
-	TypeDuration:        "Duration",
-	TypeLargeBinary:     "LargeBinary",
-	TypeLargeUtf8:       "LargeUtf8",
-	TypeLargeList:       "LargeList",
-	TypeRunEndEncoded:   "RunEndEncoded",
-	TypeBinaryView:      "BinaryView",
-	TypeUtf8View:        "Utf8View",
-	TypeListView:        "ListView",
-	TypeLargeListView:   "LargeListView",
-}
-
-var EnumValuesType = map[string]Type{
-	"NONE":            TypeNONE,
-	"Null":            TypeNull,
-	"Int":             TypeInt,
-	"FloatingPoint":   TypeFloatingPoint,
-	"Binary":          TypeBinary,
-	"Utf8":            TypeUtf8,
-	"Bool":            TypeBool,
-	"Decimal":         TypeDecimal,
-	"Date":            TypeDate,
-	"Time":            TypeTime,
-	"Timestamp":       TypeTimestamp,
-	"Interval":        TypeInterval,
-	"List":            TypeList,
-	"Struct_":         TypeStruct_,
-	"Union":           TypeUnion,
-	"FixedSizeBinary": TypeFixedSizeBinary,
-	"FixedSizeList":   TypeFixedSizeList,
-	"Map":             TypeMap,
-	"Duration":        TypeDuration,
-	"LargeBinary":     TypeLargeBinary,
-	"LargeUtf8":       TypeLargeUtf8,
-	"LargeList":       TypeLargeList,
-	"RunEndEncoded":   TypeRunEndEncoded,
-	"BinaryView":      TypeBinaryView,
-	"Utf8View":        TypeUtf8View,
-	"ListView":        TypeListView,
-	"LargeListView":   TypeLargeListView,
-}
-
-func (v Type) String() string {
-	if s, ok := EnumNamesType[v]; ok {
-		return s
-	}
-	return "Type(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Union.go b/go/arrow/internal/flatbuf/Union.go
deleted file mode 100644
index 0367fb3c1fb94..0000000000000
--- a/go/arrow/internal/flatbuf/Union.go
+++ /dev/null
@@ -1,101 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A union is a complex type with children in Field
-// / By default ids in the type vector refer to the offsets in the children
-// / optionally typeIds provides an indirection between the child offset and the type id
-// / for each child `typeIds[offset]` is the id used in the type vector
-type Union struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUnion(buf []byte, offset flatbuffers.UOffsetT) *Union {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Union{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Union) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Union) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Union) Mode() UnionMode {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return UnionMode(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Union) MutateMode(n UnionMode) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Union) TypeIds(j int) int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt32(a + flatbuffers.UOffsetT(j*4))
-	}
-	return 0
-}
-
-func (rcv *Union) TypeIdsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Union) MutateTypeIds(j int, n int32) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt32(a+flatbuffers.UOffsetT(j*4), n)
-	}
-	return false
-}
-
-func UnionStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func UnionAddMode(builder *flatbuffers.Builder, mode UnionMode) {
-	builder.PrependInt16Slot(0, int16(mode), 0)
-}
-func UnionAddTypeIds(builder *flatbuffers.Builder, typeIds flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(typeIds), 0)
-}
-func UnionStartTypeIdsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func UnionEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/UnionMode.go b/go/arrow/internal/flatbuf/UnionMode.go
deleted file mode 100644
index 357c1f3cb5f3a..0000000000000
--- a/go/arrow/internal/flatbuf/UnionMode.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type UnionMode int16
-
-const (
-	UnionModeSparse UnionMode = 0
-	UnionModeDense  UnionMode = 1
-)
-
-var EnumNamesUnionMode = map[UnionMode]string{
-	UnionModeSparse: "Sparse",
-	UnionModeDense:  "Dense",
-}
-
-var EnumValuesUnionMode = map[string]UnionMode{
-	"Sparse": UnionModeSparse,
-	"Dense":  UnionModeDense,
-}
-
-func (v UnionMode) String() string {
-	if s, ok := EnumNamesUnionMode[v]; ok {
-		return s
-	}
-	return "UnionMode(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Utf8.go b/go/arrow/internal/flatbuf/Utf8.go
deleted file mode 100644
index cab4ce7743ca9..0000000000000
--- a/go/arrow/internal/flatbuf/Utf8.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Unicode with UTF-8 encoding
-type Utf8 struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUtf8(buf []byte, offset flatbuffers.UOffsetT) *Utf8 {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Utf8{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Utf8) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Utf8) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Utf8Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Utf8End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Utf8View.go b/go/arrow/internal/flatbuf/Utf8View.go
deleted file mode 100644
index f294126a618b6..0000000000000
--- a/go/arrow/internal/flatbuf/Utf8View.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Logically the same as Utf8, but the internal representation uses a view
-// / struct that contains the string length and either the string's entire data
-// / inline (for small strings) or an inlined prefix, an index of another buffer,
-// / and an offset pointing to a slice in that buffer (for non-small strings).
-// /
-// / Since it uses a variable number of data buffers, each Field with this type
-// / must have a corresponding entry in `variadicBufferCounts`.
-type Utf8View struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUtf8View(buf []byte, offset flatbuffers.UOffsetT) *Utf8View {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Utf8View{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Utf8View) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Utf8View) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Utf8ViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Utf8ViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
deleted file mode 100755
index 105491d38e936..0000000000000
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Client for use with Arrow Flight Integration tests via archery
-package main
-
-import (
-	"flag"
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/flight_integration"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-var (
-	host     = flag.String("host", "localhost", "Server host to connect to")
-	port     = flag.Int("port", 31337, "Server port to connect to")
-	path     = flag.String("path", "", "Resource path to request")
-	scenario = flag.String("scenario", "", "Integration test scenario to run")
-)
-
-const retries = 3
-
-func main() {
-	flag.Parse()
-
-	c := flight_integration.GetScenario(*scenario, *path)
-	var err error
-	for i := 0; i < retries; i++ {
-		err = c.RunClient(fmt.Sprintf("%s:%d", *host, *port), grpc.WithTransportCredentials(insecure.NewCredentials()))
-		if err == nil {
-			break
-		}
-		time.Sleep(time.Duration(i+1) * 500 * time.Millisecond)
-	}
-	if err != nil {
-		panic(err)
-	}
-}
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
deleted file mode 100644
index 5de4076b708b2..0000000000000
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
+++ /dev/null
@@ -1,43 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"net"
-	"os"
-	"syscall"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/flight_integration"
-)
-
-var (
-	port     = flag.Int("port", 31337, "Server port to listen on")
-	scenario = flag.String("scenario", "", "Integration test scenario to run")
-)
-
-func main() {
-	flag.Parse()
-
-	s := flight_integration.GetScenario(*scenario)
-	srv := s.MakeServer(*port)
-	srv.SetShutdownOnSignals(syscall.SIGTERM, os.Interrupt)
-	_, p, _ := net.SplitHostPort(srv.Addr().String())
-	fmt.Printf("Server listening on localhost:%s\n", p)
-	srv.Serve()
-}
diff --git a/go/arrow/internal/flight_integration/middleware.go b/go/arrow/internal/flight_integration/middleware.go
deleted file mode 100644
index 073b284395306..0000000000000
--- a/go/arrow/internal/flight_integration/middleware.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_integration
-
-import (
-	"context"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-)
-
-type testServerMiddleware struct{}
-
-func (testServerMiddleware) StartCall(ctx context.Context) context.Context {
-	var val string
-
-	md, ok := metadata.FromIncomingContext(ctx)
-	if ok {
-		received := md.Get("x-middleware")
-		if len(received) > 0 {
-			val = received[0]
-		}
-	}
-
-	grpc.SetHeader(ctx, metadata.Pairs("x-middleware", val))
-	return nil
-}
-
-func (testServerMiddleware) CallCompleted(_ context.Context, _ error) {}
-
-type testClientMiddleware struct {
-	received string
-}
-
-func (tm *testClientMiddleware) StartCall(ctx context.Context) context.Context {
-	return metadata.AppendToOutgoingContext(ctx, "x-middleware", "expected value")
-}
-
-func (tm *testClientMiddleware) HeadersReceived(_ context.Context, md metadata.MD) {
-	received := md.Get("x-middleware")
-	if len(received) > 0 {
-		tm.received = received[0]
-	}
-}
diff --git a/go/arrow/internal/flight_integration/scenario.go b/go/arrow/internal/flight_integration/scenario.go
deleted file mode 100644
index b9535002a0a17..0000000000000
--- a/go/arrow/internal/flight_integration/scenario.go
+++ /dev/null
@@ -1,3082 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_integration
-
-import (
-	"bytes"
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"math"
-	"net"
-	"os"
-	"reflect"
-	"sort"
-	"strconv"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	timestamppb "google.golang.org/protobuf/types/known/timestamppb"
-)
-
-type Scenario interface {
-	MakeServer(port int) flight.Server
-	RunClient(addr string, opts ...grpc.DialOption) error
-}
-
-func GetScenario(name string, args ...string) Scenario {
-	switch name {
-	case "auth:basic_proto":
-		return &authBasicProtoTester{}
-	case "middleware":
-		return &middlewareScenarioTester{}
-	case "ordered":
-		return &orderedScenarioTester{}
-	case "expiration_time:do_get":
-		return &expirationTimeDoGetScenarioTester{}
-	case "expiration_time:list_actions":
-		return &expirationTimeListActionsScenarioTester{}
-	case "expiration_time:cancel_flight_info":
-		return &expirationTimeCancelFlightInfoScenarioTester{}
-	case "expiration_time:renew_flight_endpoint":
-		return &expirationTimeRenewFlightEndpointScenarioTester{}
-	case "location:reuse_connection":
-		return &locationReuseConnectionScenarioTester{}
-	case "poll_flight_info":
-		return &pollFlightInfoScenarioTester{}
-	case "app_metadata_flight_info_endpoint":
-		return &appMetadataFlightInfoEndpointScenarioTester{}
-	case "flight_sql":
-		return &flightSqlScenarioTester{}
-	case "flight_sql:extension":
-		return &flightSqlExtensionScenarioTester{}
-	case "session_options":
-		return &sessionOptionsScenarioTester{}
-	case "flight_sql:ingestion":
-		return &flightSqlIngestionScenarioTester{}
-	case "":
-		if len(args) > 0 {
-			return &defaultIntegrationTester{path: args[0]}
-		}
-		return &defaultIntegrationTester{}
-	}
-	panic(fmt.Errorf("scenario not found: %s", name))
-}
-
-func initServer(port int, srv flight.Server) int {
-	srv.Init(fmt.Sprintf("0.0.0.0:%d", port))
-	_, p, _ := net.SplitHostPort(srv.Addr().String())
-	port, _ = strconv.Atoi(p)
-	return port
-}
-
-type integrationDataSet struct {
-	schema *arrow.Schema
-	chunks []arrow.Record
-}
-
-func consumeFlightLocation(ctx context.Context, loc *flight.Location, tkt *flight.Ticket, orig []arrow.Record, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(loc.GetUri(), nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	stream, err := client.DoGet(ctx, tkt)
-	if err != nil {
-		return err
-	}
-
-	rdr, err := flight.NewRecordReader(stream)
-	if err != nil {
-		return err
-	}
-	defer rdr.Release()
-
-	for i, chunk := range orig {
-		if !rdr.Next() {
-			return fmt.Errorf("got fewer batches than expected, received so far: %d, expected: %d", i, len(orig))
-		}
-
-		if !array.RecordEqual(chunk, rdr.Record()) {
-			return fmt.Errorf("batch %d doesn't match", i)
-		}
-
-		if string(rdr.LatestAppMetadata()) != strconv.Itoa(i) {
-			return fmt.Errorf("expected metadata value: %s, but got: %s", strconv.Itoa(i), string(rdr.LatestAppMetadata()))
-		}
-	}
-
-	if rdr.Next() {
-		return fmt.Errorf("got more batches than the expected: %d", len(orig))
-	}
-
-	return nil
-}
-
-type defaultIntegrationTester struct {
-	flight.BaseFlightServer
-
-	port           int
-	path           string
-	uploadedChunks map[string]integrationDataSet
-}
-
-func (s *defaultIntegrationTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-
-	descr := &flight.FlightDescriptor{
-		Type: flight.DescriptorPATH,
-		Path: []string{s.path},
-	}
-
-	fmt.Println("Opening JSON file '", s.path, "'")
-	r, err := os.Open(s.path)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file: %q: %w", s.path, err)
-	}
-
-	rdr, err := arrjson.NewReader(r)
-	if err != nil {
-		return fmt.Errorf("could not create JSON file reader from file: %q: %w", s.path, err)
-	}
-
-	dataSet := integrationDataSet{
-		chunks: make([]arrow.Record, 0),
-		schema: rdr.Schema(),
-	}
-
-	for {
-		rec, err := rdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			return err
-		}
-		defer rec.Release()
-		dataSet.chunks = append(dataSet.chunks, rec)
-	}
-
-	stream, err := client.DoPut(ctx)
-	if err != nil {
-		return err
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(dataSet.schema))
-	wr.SetFlightDescriptor(descr)
-
-	for i, rec := range dataSet.chunks {
-		metadata := []byte(strconv.Itoa(i))
-		if err := wr.WriteWithAppMetadata(rec, metadata); err != nil {
-			return err
-		}
-
-		pr, err := stream.Recv()
-		if err != nil {
-			return err
-		}
-
-		acked := pr.GetAppMetadata()
-		switch {
-		case len(acked) == 0:
-			return fmt.Errorf("expected metadata value: %s, but got nothing", string(metadata))
-		case !bytes.Equal(metadata, acked):
-			return fmt.Errorf("expected metadata value: %s, but got: %s", string(metadata), string(acked))
-		}
-	}
-
-	wr.Close()
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	for {
-		_, err = stream.Recv()
-		if err != nil {
-			if err != io.EOF {
-				return err
-			}
-			break
-		}
-	}
-
-	info, err := client.GetFlightInfo(ctx, descr)
-	if err != nil {
-		return err
-	}
-
-	if len(info.Endpoint) == 0 {
-		fmt.Fprintln(os.Stderr, "no endpoints returned from flight server.")
-		return fmt.Errorf("no endpoints returned from flight server")
-	}
-
-	for _, ep := range info.Endpoint {
-		if len(ep.Location) == 0 {
-			return fmt.Errorf("no locations returned from flight server")
-		}
-
-		for _, loc := range ep.Location {
-			consumeFlightLocation(ctx, loc, ep.Ticket, dataSet.chunks, opts...)
-		}
-	}
-
-	return nil
-}
-
-func (s *defaultIntegrationTester) MakeServer(port int) flight.Server {
-	s.uploadedChunks = make(map[string]integrationDataSet)
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(s)
-	s.port = initServer(port, srv)
-	return srv
-}
-
-func (s *defaultIntegrationTester) GetFlightInfo(ctx context.Context, in *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if in.Type == flight.DescriptorPATH {
-		if len(in.Path) == 0 {
-			return nil, status.Error(codes.InvalidArgument, "invalid path")
-		}
-
-		data, ok := s.uploadedChunks[in.Path[0]]
-		if !ok {
-			return nil, status.Errorf(codes.NotFound, "could not find flight: %s", in.Path[0])
-		}
-
-		flightData := &flight.FlightInfo{
-			Schema:           flight.SerializeSchema(data.schema, memory.DefaultAllocator),
-			FlightDescriptor: in,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket:   &flight.Ticket{Ticket: []byte(in.Path[0])},
-				Location: []*flight.Location{{Uri: fmt.Sprintf("grpc+tcp://127.0.0.1:%d", s.port)}},
-			}},
-			TotalRecords: 0,
-			TotalBytes:   -1,
-		}
-		for _, r := range data.chunks {
-			flightData.TotalRecords += r.NumRows()
-		}
-		return flightData, nil
-	}
-	return nil, status.Error(codes.Unimplemented, in.Type.String())
-}
-
-func (s *defaultIntegrationTester) DoGet(tkt *flight.Ticket, stream flight.FlightService_DoGetServer) error {
-	data, ok := s.uploadedChunks[string(tkt.Ticket)]
-	if !ok {
-		return status.Errorf(codes.NotFound, "could not find flight: %s", string(tkt.Ticket))
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(data.schema))
-	defer wr.Close()
-	for i, rec := range data.chunks {
-		wr.WriteWithAppMetadata(rec, []byte(strconv.Itoa(i)))
-	}
-
-	return nil
-}
-
-func (s *defaultIntegrationTester) DoPut(stream flight.FlightService_DoPutServer) error {
-	rdr, err := flight.NewRecordReader(stream)
-	if err != nil {
-		return status.Error(codes.Internal, err.Error())
-	}
-
-	var (
-		key     string
-		dataset integrationDataSet
-	)
-
-	// creating the reader should have gotten the first message which would
-	// have the schema, which should have a populated flight descriptor
-	desc := rdr.LatestFlightDescriptor()
-	if desc.Type != flight.DescriptorPATH || len(desc.Path) < 1 {
-		return status.Error(codes.InvalidArgument, "must specify a path")
-	}
-
-	key = desc.Path[0]
-	dataset.schema = rdr.Schema()
-	dataset.chunks = make([]arrow.Record, 0)
-	for rdr.Next() {
-		rec := rdr.Record()
-		rec.Retain()
-
-		dataset.chunks = append(dataset.chunks, rec)
-		if len(rdr.LatestAppMetadata()) > 0 {
-			stream.Send(&flight.PutResult{AppMetadata: rdr.LatestAppMetadata()})
-		}
-	}
-	s.uploadedChunks[key] = dataset
-	return nil
-}
-
-func CheckActionResults(ctx context.Context, client flight.Client, action *flight.Action, results []string) error {
-	stream, err := client.DoAction(ctx, action)
-	if err != nil {
-		return err
-	}
-	defer stream.CloseSend()
-
-	for _, expected := range results {
-		res, err := stream.Recv()
-		if err != nil {
-			return err
-		}
-
-		actual := string(res.Body)
-		if expected != actual {
-			return fmt.Errorf("got wrong result: expected: %s, got: %s", expected, actual)
-		}
-	}
-
-	res, err := stream.Recv()
-	if res != nil || err != io.EOF {
-		return xerrors.New("action result stream had too many entries")
-	}
-	return nil
-}
-
-const (
-	authUsername = "arrow"
-	authPassword = "flight"
-)
-
-type authBasicValidator struct {
-	auth flight.BasicAuth
-}
-
-func (a *authBasicValidator) Authenticate(conn flight.AuthConn) error {
-	token, err := conn.Read()
-	if err != nil {
-		return err
-	}
-
-	var incoming flight.BasicAuth
-	if err = proto.Unmarshal(token, &incoming); err != nil {
-		return err
-	}
-
-	if incoming.Username != a.auth.Username || incoming.Password != a.auth.Password {
-		return status.Error(codes.Unauthenticated, "invalid token")
-	}
-
-	return conn.Send([]byte(a.auth.Username))
-}
-
-func (a *authBasicValidator) IsValid(token string) (interface{}, error) {
-	if token != a.auth.Username {
-		return nil, status.Error(codes.Unauthenticated, "invalid token")
-	}
-	return token, nil
-}
-
-type clientAuthBasic struct {
-	auth  *flight.BasicAuth
-	token string
-}
-
-func (c *clientAuthBasic) Authenticate(_ context.Context, conn flight.AuthConn) error {
-	if c.auth != nil {
-		data, err := proto.Marshal(c.auth)
-		if err != nil {
-			return err
-		}
-		if err = conn.Send(data); err != nil {
-			return err
-		}
-
-		token, err := conn.Read()
-		c.token = string(token)
-		if err != io.EOF {
-			return err
-		}
-	}
-	return nil
-}
-
-func (c *clientAuthBasic) GetToken(context.Context) (string, error) {
-	return c.token, nil
-}
-
-type authBasicProtoTester struct {
-	flight.BaseFlightServer
-}
-
-func (s *authBasicProtoTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	auth := &clientAuthBasic{}
-
-	client, err := flight.NewClientWithMiddleware(addr, auth, nil, opts...)
-	if err != nil {
-		return err
-	}
-
-	ctx := context.Background()
-	stream, err := client.DoAction(ctx, &flight.Action{})
-	if err != nil {
-		return err
-	}
-
-	// should fail unauthenticated
-	_, err = stream.Recv()
-	st, ok := status.FromError(err)
-	if !ok {
-		return err
-	}
-
-	if st.Code() != codes.Unauthenticated {
-		return fmt.Errorf("expected Unauthenticated, got %s", st.Code())
-	}
-
-	auth.auth = &flight.BasicAuth{Username: authUsername, Password: authPassword}
-	if err := client.Authenticate(ctx); err != nil {
-		return err
-	}
-	return CheckActionResults(ctx, client, &flight.Action{}, []string{authUsername})
-}
-
-func (s *authBasicProtoTester) MakeServer(port int) flight.Server {
-	s.SetAuthHandler(&authBasicValidator{
-		auth: flight.BasicAuth{Username: authUsername, Password: authPassword}})
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(s)
-	initServer(port, srv)
-	return srv
-}
-
-func (authBasicProtoTester) DoAction(_ *flight.Action, stream flight.FlightService_DoActionServer) error {
-	auth := flight.AuthFromContext(stream.Context())
-	stream.Send(&flight.Result{Body: []byte(auth.(string))})
-	return nil
-}
-
-type middlewareScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (m *middlewareScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	tm := &testClientMiddleware{}
-	client, err := flight.NewClientWithMiddleware(addr, nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(tm)}, opts...)
-	if err != nil {
-		return err
-	}
-
-	ctx := context.Background()
-	// this call is expected to fail
-	_, err = client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD})
-	if err == nil {
-		return xerrors.New("expected call to fail")
-	}
-
-	if tm.received != "expected value" {
-		return fmt.Errorf("expected to receive header 'x-middleware: expected value', but instead got %s", tm.received)
-	}
-
-	fmt.Fprintln(os.Stderr, "Headers received successfully on failing call.")
-	tm.received = ""
-	_, err = client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("success")})
-	if err != nil {
-		return err
-	}
-
-	if tm.received != "expected value" {
-		return fmt.Errorf("expected to receive header 'x-middleware: expected value', but instead got %s", tm.received)
-	}
-	fmt.Fprintln(os.Stderr, "Headers received successfully on passing call.")
-	return nil
-}
-
-func (m *middlewareScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(testServerMiddleware{})})
-	srv.RegisterFlightService(m)
-	initServer(port, srv)
-	return srv
-}
-
-func (m *middlewareScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if desc.Type != flight.DescriptorCMD || string(desc.Cmd) != "success" {
-		return nil, status.Error(codes.Unknown, "unknown")
-	}
-
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(arrow.NewSchema([]arrow.Field{}, nil), memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket:   &flight.Ticket{Ticket: []byte("foo")},
-			Location: []*flight.Location{{Uri: "grpc+tcp://localhost:10010"}},
-		}},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-type orderedScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (o *orderedScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("ordered")})
-	if err != nil {
-		return err
-	}
-
-	if !info.GetOrdered() {
-		return fmt.Errorf("expected to server return FlightInfo.ordered = true")
-	}
-
-	var recs []arrow.Record
-	for _, ep := range info.Endpoint {
-		if len(ep.Location) != 0 {
-			return fmt.Errorf("expected to receive empty locations to use the original service: %s",
-				ep.Location)
-		}
-
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-
-		rdr, err := flight.NewRecordReader(stream)
-		if err != nil {
-			return err
-		}
-		defer rdr.Release()
-
-		for rdr.Next() {
-			record := rdr.Record()
-			record.Retain()
-			defer record.Release()
-			recs = append(recs, record)
-		}
-		if rdr.Err() != nil {
-			return rdr.Err()
-		}
-	}
-
-	// Build expected records
-	mem := memory.DefaultAllocator
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	expected_table, _ := array.TableFromJSON(mem, schema, []string{
-		`[
-                   {"number": 1},
-                   {"number": 2},
-                   {"number": 3}
-                 ]`,
-		`[
-                   {"number": 10},
-                   {"number": 20},
-                   {"number": 30}
-                 ]`,
-		`[
-                   {"number": 100},
-                   {"number": 200},
-                   {"number": 300}
-                 ]`,
-	})
-	defer expected_table.Release()
-
-	table := array.NewTableFromRecords(schema, recs)
-	defer table.Release()
-	if !array.TableEqual(table, expected_table) {
-		return fmt.Errorf("read data isn't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"num-rows: %d\n"+
-			"num-cols: %d\n"+
-			"Actual:\n"+
-			"%s\n"+
-			"num-rows: %d\n"+
-			"num-cols: %d",
-			expected_table.Schema(),
-			expected_table.NumRows(),
-			expected_table.NumCols(),
-			table.Schema(),
-			table.NumRows(),
-			table.NumCols())
-	}
-
-	return nil
-}
-
-func (o *orderedScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(o)
-	initServer(port, srv)
-	return srv
-}
-
-func (o *orderedScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	ordered := desc.Type == flight.DescriptorCMD && string(desc.Cmd) == "ordered"
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("1")},
-				Location: []*flight.Location{},
-			},
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("2")},
-				Location: []*flight.Location{},
-			},
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("3")},
-				Location: []*flight.Location{},
-			},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-		Ordered:      ordered,
-	}, nil
-}
-
-func (o *orderedScenarioTester) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-	if string(tkt.GetTicket()) == "1" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	} else if string(tkt.GetTicket()) == "2" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{10, 20, 30}, nil)
-	} else if string(tkt.GetTicket()) == "3" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{100, 200, 300}, nil)
-	}
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(schema))
-	rec := b.NewRecord()
-	defer rec.Release()
-	w.Write(rec)
-
-	return nil
-}
-
-type expirationTimeEndpointStatus struct {
-	expirationTime *time.Time
-	numGets        uint32
-	cancelled      bool
-}
-
-type expirationTimeScenarioTester struct {
-	flight.BaseFlightServer
-	statuses map[int]expirationTimeEndpointStatus
-}
-
-func (tester *expirationTimeScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *expirationTimeScenarioTester) AppendGetFlightInfo(endpoints []*flight.FlightEndpoint, ticket string, expirationTime *time.Time) []*flight.FlightEndpoint {
-	index := len(tester.statuses)
-	endpoint := flight.FlightEndpoint{
-		Ticket:   &flight.Ticket{Ticket: []byte(strconv.Itoa(index) + ": " + ticket)},
-		Location: []*flight.Location{},
-	}
-	if expirationTime != nil {
-		endpoint.ExpirationTime = timestamppb.New(*expirationTime)
-	}
-	endpoints = append(endpoints, &endpoint)
-	tester.statuses[index] = expirationTimeEndpointStatus{
-		expirationTime: expirationTime,
-		numGets:        0,
-		cancelled:      false,
-	}
-	return endpoints
-}
-
-func (tester *expirationTimeScenarioTester) ExtractIndexFromTicket(ticket string) (int, error) {
-	indexString := strings.SplitN(ticket, ":", 2)[0]
-	index, err := strconv.Atoi(indexString)
-	if err != nil {
-		return 0, fmt.Errorf("invalid flight: no index: %s: %s", ticket, err)
-	}
-	if index >= len(tester.statuses) {
-		return 0, fmt.Errorf("invalid flight: out of index: %s", ticket)
-	}
-	return index, nil
-}
-
-func (tester *expirationTimeScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	tester.statuses = make(map[int]expirationTimeEndpointStatus)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	var endpoints []*flight.FlightEndpoint
-	endpoints = tester.AppendGetFlightInfo(endpoints, "No expiration time", nil)
-	expirationTime5 := time.Now().Add(time.Second * 5)
-	endpoints = tester.AppendGetFlightInfo(endpoints, "5 seconds", &expirationTime5)
-	expirationTime6 := time.Now().Add(time.Second * 6)
-	endpoints = tester.AppendGetFlightInfo(endpoints, "6 seconds", &expirationTime6)
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (tester *expirationTimeScenarioTester) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	ticket := string(tkt.GetTicket())
-	index, err := tester.ExtractIndexFromTicket(ticket)
-	if err != nil {
-		return err
-	}
-	st := tester.statuses[index]
-	if st.cancelled {
-		return status.Errorf(codes.InvalidArgument,
-			"Invalid flight: cancelled: %s", ticket)
-	}
-	if st.expirationTime == nil {
-		if st.numGets > 0 {
-			return status.Errorf(codes.InvalidArgument,
-				"Invalid flight: "+
-					"can't read multiple times: %s", ticket)
-		}
-	} else {
-		availableDuration := time.Until(*st.expirationTime)
-		if availableDuration < 0 {
-			return status.Errorf(codes.InvalidArgument,
-				"Invalid flight: expired: %s", ticket)
-		}
-	}
-	st.numGets++
-	tester.statuses[index] = st
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-	b.Field(0).(*array.Uint32Builder).AppendValues([]uint32{uint32(index)}, nil)
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(schema))
-	rec := b.NewRecord()
-	defer rec.Release()
-	w.Write(rec)
-
-	return nil
-}
-
-func (tester *expirationTimeScenarioTester) ListActions(_ *flight.Empty, stream flight.FlightService_ListActionsServer) error {
-	actions := []string{
-		flight.CancelFlightInfoActionType,
-		flight.RenewFlightEndpointActionType,
-	}
-
-	for _, a := range actions {
-		if err := stream.Send(&flight.ActionType{Type: a}); err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-func packActionResult(msg proto.Message) (*flight.Result, error) {
-	ret := &flight.Result{}
-	var err error
-	if ret.Body, err = proto.Marshal(msg); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-	return ret, nil
-}
-
-func (tester *expirationTimeScenarioTester) DoAction(cmd *flight.Action, stream flight.FlightService_DoActionServer) error {
-	switch cmd.Type {
-	case flight.CancelFlightInfoActionType:
-		var request flight.CancelFlightInfoRequest
-		if err := proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		cancelStatus := flight.CancelStatusUnspecified
-		for _, ep := range request.Info.Endpoint {
-			ticket := string(ep.Ticket.Ticket)
-			index, err := tester.ExtractIndexFromTicket(ticket)
-			if err == nil {
-				st := tester.statuses[index]
-				if st.cancelled {
-					cancelStatus = flight.CancelStatusNotCancellable
-				} else {
-					st.cancelled = true
-					if cancelStatus == flight.CancelStatusUnspecified {
-						cancelStatus = flight.CancelStatusCancelled
-					}
-					tester.statuses[index] = st
-				}
-			} else {
-				cancelStatus = flight.CancelStatusNotCancellable
-			}
-		}
-		result := flight.CancelFlightInfoResult{Status: cancelStatus}
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		if err = stream.Send(out); err != nil {
-			return err
-		}
-		return nil
-	case flight.RenewFlightEndpointActionType:
-		var request flight.RenewFlightEndpointRequest
-		if err := proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		endpoint := request.Endpoint
-		ticket := string(endpoint.Ticket.Ticket)
-		index, err := tester.ExtractIndexFromTicket(ticket)
-		if err != nil {
-			return err
-		}
-		endpoint.Ticket.Ticket = []byte(string(endpoint.Ticket.Ticket) + ": renewed (+ 10 seconds)")
-		renewedExpirationTime := time.Now().Add(time.Second * 10)
-		endpoint.ExpirationTime = timestamppb.New(renewedExpirationTime)
-		st := tester.statuses[index]
-		st.expirationTime = &renewedExpirationTime
-		tester.statuses[index] = st
-		out, err := packActionResult(endpoint)
-		if err != nil {
-			return err
-		}
-		if err = stream.Send(out); err != nil {
-			return err
-		}
-		return nil
-	default:
-		return status.Errorf(codes.InvalidArgument, "unsupported action: %s", cmd.Type)
-	}
-}
-
-type expirationTimeDoGetScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeDoGetScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	var recs []arrow.Record
-	for _, ep := range info.Endpoint {
-		if len(recs) == 0 {
-			if ep.ExpirationTime != nil {
-				return fmt.Errorf("endpoints[0] must not have " +
-					"expiration time")
-			}
-		} else {
-			if ep.ExpirationTime == nil {
-				return fmt.Errorf("endpoints[1] must have " +
-					"expiration time")
-			}
-		}
-
-		if len(ep.Location) != 0 {
-			return fmt.Errorf("expected to receive empty locations to use the original service: %s",
-				ep.Location)
-		}
-
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-
-		rdr, err := flight.NewRecordReader(stream)
-		if err != nil {
-			return err
-		}
-		defer rdr.Release()
-
-		for rdr.Next() {
-			record := rdr.Record()
-			record.Retain()
-			defer record.Release()
-			recs = append(recs, record)
-		}
-		if rdr.Err() != nil {
-			return rdr.Err()
-		}
-	}
-
-	// Build expected records
-	mem := memory.DefaultAllocator
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	expectedTable, _ := array.TableFromJSON(mem, schema, []string{
-		`[{"number": 0}]`,
-		`[{"number": 1}]`,
-		`[{"number": 2}]`,
-	})
-	defer expectedTable.Release()
-
-	table := array.NewTableFromRecords(schema, recs)
-	defer table.Release()
-	if !array.TableEqual(table, expectedTable) {
-		return fmt.Errorf("read data isn't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"numRows: %d\n"+
-			"numCols: %d\n"+
-			"Actual:\n"+
-			"%s\n"+
-			"numRows: %d\n"+
-			"numCols: %d",
-			expectedTable.Schema(),
-			expectedTable.NumRows(),
-			expectedTable.NumCols(),
-			table.Schema(),
-			table.NumRows(),
-			table.NumCols())
-	}
-
-	return nil
-}
-
-type expirationTimeListActionsScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeListActionsScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	stream, err := client.ListActions(ctx, &flight.Empty{})
-	if err != nil {
-		return err
-	}
-
-	var actionTypeNames []string
-	for {
-		actionType, err := stream.Recv()
-		if errors.Is(err, io.EOF) {
-			break
-		}
-		if err != nil {
-			return err
-		}
-		actionTypeNames = append(actionTypeNames, actionType.Type)
-	}
-	sort.Strings(actionTypeNames)
-	expectedActionTypeNames := []string{
-		"CancelFlightInfo",
-		"RenewFlightEndpoint",
-	}
-	if !reflect.DeepEqual(actionTypeNames, expectedActionTypeNames) {
-		return fmt.Errorf("action types aren't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"Actual:\n"+
-			"%s",
-			expectedActionTypeNames,
-			actionTypeNames)
-	}
-
-	return nil
-}
-
-type expirationTimeCancelFlightInfoScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeCancelFlightInfoScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	request := flight.CancelFlightInfoRequest{Info: info}
-	result, err := client.CancelFlightInfo(ctx, &request)
-	if err != nil && !errors.Is(err, io.EOF) {
-		return err
-	}
-	if result.Status != flight.CancelStatusCancelled {
-		return fmt.Errorf("invalid: CancelFlightInfo must return CANCEL_STATUS_CANCELLED: %s", result.Status)
-	}
-	for _, ep := range info.Endpoint {
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-		rdr, err := flight.NewRecordReader(stream)
-		if err == nil {
-			rdr.Release()
-			return fmt.Errorf("invalid: DoGet after CancelFlightInfo must be failed")
-		}
-	}
-
-	return nil
-}
-
-type expirationTimeRenewFlightEndpointScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeRenewFlightEndpointScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	// Renew all endpoints that have expiration time
-	for _, ep := range info.Endpoint {
-		if ep.ExpirationTime == nil {
-			continue
-		}
-		expirationTime := ep.ExpirationTime.AsTime()
-		request := flight.RenewFlightEndpointRequest{Endpoint: ep}
-		renewedEndpoint, err := client.RenewFlightEndpoint(ctx, &request)
-		if err != nil {
-			return err
-		}
-		if renewedEndpoint.ExpirationTime == nil {
-			return fmt.Errorf("renewed endpoint must have expiration time: %s",
-				renewedEndpoint)
-		}
-		renewedExpirationTime := renewedEndpoint.ExpirationTime.AsTime()
-		if renewedExpirationTime.Sub(expirationTime) <= 0 {
-			return fmt.Errorf("renewed endpoint must have newer expiration time\n"+
-				"Original: %s\nRenewed: %s",
-				ep, renewedEndpoint)
-		}
-	}
-
-	return nil
-}
-
-type locationReuseConnectionScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (m *locationReuseConnectionScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(arrow.NewSchema([]arrow.Field{}, nil), memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket:   &flight.Ticket{Ticket: []byte("reuse")},
-			Location: []*flight.Location{{Uri: flight.LocationReuseConnection}},
-		}},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-func (tester *locationReuseConnectionScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *locationReuseConnectionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("reuse")})
-	if err != nil {
-		return err
-	}
-
-	if len(info.Endpoint) != 1 {
-		return fmt.Errorf("expected 1 endpoint, got %d", len(info.Endpoint))
-	}
-	endpoint := info.Endpoint[0]
-	if len(endpoint.Location) != 1 {
-		return fmt.Errorf("expected 1 location, got %d", len(endpoint.Location))
-	} else if endpoint.Location[0].Uri != flight.LocationReuseConnection {
-		return fmt.Errorf("expected %s, got %s", flight.LocationReuseConnection, endpoint.Location[0].Uri)
-	}
-
-	return nil
-}
-
-type pollFlightInfoScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (tester *pollFlightInfoScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *pollFlightInfoScenarioTester) PollFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	endpoints := []*flight.FlightEndpoint{
-		{
-			Ticket:   &flight.Ticket{Ticket: []byte("long-running query")},
-			Location: []*flight.Location{},
-		},
-	}
-	info := &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-	pollDesc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("poll"),
-	}
-	if desc.Type == pollDesc.Type && string(desc.Cmd) == string(pollDesc.Cmd) {
-		progress := float64(1.0)
-		return &flight.PollInfo{
-			Info:             info,
-			FlightDescriptor: nil,
-			Progress:         &progress,
-			ExpirationTime:   nil,
-		}, nil
-	} else {
-		progress := float64(0.1)
-		return &flight.PollInfo{
-			Info:             info,
-			FlightDescriptor: &pollDesc,
-			Progress:         &progress,
-			ExpirationTime:   timestamppb.New(time.Now().Add(time.Second * 10)),
-		}, nil
-	}
-}
-
-func (tester *pollFlightInfoScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	desc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("heavy query"),
-	}
-	info, err := client.PollFlightInfo(ctx, &desc)
-	if err != nil {
-		return err
-	}
-	switch {
-	case info.FlightDescriptor == nil:
-		return fmt.Errorf("description is missing: %s", info.String())
-	case info.Progress == nil:
-		return fmt.Errorf("progress is missing: %s", info.String())
-	case !(0.0 <= *info.Progress && *info.Progress <= 1.0):
-		return fmt.Errorf("invalid progress: %s", info.String())
-	case info.ExpirationTime == nil:
-		return fmt.Errorf("expiration time is missing: %s", info.String())
-	}
-
-	info, err = client.PollFlightInfo(ctx, info.FlightDescriptor)
-	if err != nil {
-		return err
-	}
-	switch {
-	case info.FlightDescriptor != nil:
-		return fmt.Errorf("retried but no finished yet: %s", info.String())
-	case info.Progress == nil:
-		return fmt.Errorf("progress is missing in finished query: %s",
-			info.String())
-	case math.Abs(*info.Progress-1.0) > 1e-5:
-		return fmt.Errorf("progress for finished query isn't 1.0: %s",
-			info.String())
-	case info.ExpirationTime != nil:
-		return fmt.Errorf("expiration time must not be set for finished query: %s",
-			info.String())
-	}
-
-	return nil
-}
-
-type appMetadataFlightInfoEndpointScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-
-	if desc.Type != flight.DescriptorCMD {
-		return nil, fmt.Errorf("%w: should have received CMD descriptor", arrow.ErrInvalid)
-	}
-	endpoints := []*flight.FlightEndpoint{{AppMetadata: desc.Cmd}}
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-		AppMetadata:      desc.Cmd,
-	}, nil
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	desc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("foobar"),
-	}
-	info, err := client.GetFlightInfo(ctx, &desc)
-	if err != nil {
-		return err
-	}
-	switch {
-	case !bytes.Equal(desc.Cmd, info.AppMetadata):
-		return fmt.Errorf("invalid flight info app_metadata: %s, expected: %s", info.AppMetadata, desc.Cmd)
-	case len(info.Endpoint) != 1:
-		return fmt.Errorf("expected exactly 1 flight endpoint, got: %d", len(info.Endpoint))
-	case !bytes.Equal(desc.Cmd, info.Endpoint[0].AppMetadata):
-		return fmt.Errorf("invalid flight endpoint app_metadata: %s, expected: %s", info.Endpoint[0].AppMetadata, desc.Cmd)
-	}
-	return nil
-}
-
-const (
-	updateStatementExpectedRows                        int64 = 10000
-	updateStatementWithTransactionExpectedRows         int64 = 15000
-	updatePreparedStatementExpectedRows                int64 = 20000
-	updatePreparedStatementWithTransactionExpectedRows int64 = 25000
-	ingestStatementExpectedRows                        int64 = 3
-)
-
-type flightSqlScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (m *flightSqlScenarioTester) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: desc.Cmd}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-}
-
-func (m *flightSqlScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSql, false)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstrait, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstraitMinVersion, "min_version")
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion, "max_version")
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerTransaction, int32(flightsql.SqlTransactionSavepoint))
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerCancel, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerStatementTimeout, int32(42))
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerTransactionTimeout, int32(7))
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(m))
-	initServer(port, srv)
-	return srv
-}
-
-func assertEq(expected, actual interface{}) error {
-	v := reflect.Indirect(reflect.ValueOf(actual))
-	if !reflect.DeepEqual(expected, v.Interface()) {
-		return fmt.Errorf("expected: '%s', got: '%s'", expected, actual)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	if err := m.ValidateMetadataRetrieval(client); err != nil {
-		return err
-	}
-
-	if err := m.ValidateStatementExecution(client); err != nil {
-		return err
-	}
-
-	return m.ValidatePreparedStatementExecution(client)
-}
-
-func (m *flightSqlScenarioTester) validate(expected *arrow.Schema, result *flight.FlightInfo, client *flightsql.Client) error {
-	rdr, err := client.DoGet(context.Background(), result.Endpoint[0].Ticket)
-	if err != nil {
-		return err
-	}
-
-	if !expected.Equal(rdr.Schema()) {
-		return fmt.Errorf("expected: %s, got: %s", expected, rdr.Schema())
-	}
-	for {
-		_, err := rdr.Read()
-		if err == io.EOF {
-			break
-		}
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) validateSchema(expected *arrow.Schema, result *flight.SchemaResult) error {
-	schema, err := flight.DeserializeSchema(result.GetSchema(), memory.DefaultAllocator)
-	if err != nil {
-		return err
-	}
-	if !expected.Equal(schema) {
-		return fmt.Errorf("expected: %s, got: %s", expected, schema)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidateMetadataRetrieval(client *flightsql.Client) error {
-	var (
-		catalog               = "catalog"
-		dbSchemaFilterPattern = "db_schema_filter_pattern"
-		tableFilterPattern    = "table_filter_pattern"
-		table                 = "table"
-		dbSchema              = "db_schema"
-		tableTypes            = []string{"table", "view"}
-
-		ref   = flightsql.TableRef{Catalog: &catalog, DBSchema: &dbSchema, Table: table}
-		pkRef = flightsql.TableRef{Catalog: proto.String("pk_catalog"), DBSchema: proto.String("pk_db_schema"), Table: "pk_table"}
-		fkRef = flightsql.TableRef{Catalog: proto.String("fk_catalog"), DBSchema: proto.String("fk_db_schema"), Table: "fk_table"}
-
-		ctx = context.Background()
-	)
-
-	info, err := client.GetCatalogs(ctx)
-	if err != nil {
-		return err
-	}
-	if err := m.validate(schema_ref.Catalogs, info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetCatalogsSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err := m.validateSchema(schema_ref.Catalogs, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.DBSchemas, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetDBSchemasSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.DBSchemas, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetTables(ctx, &flightsql.GetTablesOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern, TableNameFilterPattern: &tableFilterPattern, IncludeSchema: true, TableTypes: tableTypes})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.TablesWithIncludedSchema, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: true})
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.TablesWithIncludedSchema, schema); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: false})
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.Tables, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetTableTypes(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.TableTypes, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTableTypesSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.TableTypes, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetPrimaryKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.PrimaryKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetPrimaryKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.PrimaryKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetExportedKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.ExportedKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetExportedKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.ExportedKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetImportedKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.ImportedKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetImportedKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.ImportedKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetCrossReference(ctx, pkRef, fkRef)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.CrossReference, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetCrossReferenceSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.CrossReference, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetXdbcTypeInfo(ctx, nil)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.XdbcTypeInfo, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetXdbcTypeInfoSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.XdbcTypeInfo, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetSqlInfo(ctx, []flightsql.SqlInfo{flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfoFlightSqlServerReadOnly})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.SqlInfo, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetSqlInfoSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.SqlInfo, schema); err != nil {
-		return err
-	}
-
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidateStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	info, err := client.Execute(ctx, "SELECT STATEMENT")
-	if err != nil {
-		return err
-	}
-	if err = m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetExecuteSchema(ctx, "SELECT STATEMENT")
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	updateResult, err := client.ExecuteUpdate(ctx, "UPDATE STATEMENT")
-	if err != nil {
-		return err
-	}
-	if updateResult != updateStatementExpectedRows {
-		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updateStatementExpectedRows, updateResult)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidatePreparedStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	prepared, err := client.Prepare(ctx, "SELECT PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-	prepared.SetParameters(params)
-
-	info, err := prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-	schema, err := prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	if err = prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	updatePrepared, err := client.Prepare(ctx, "UPDATE PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-	updateResult, err := updatePrepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if updateResult != updatePreparedStatementExpectedRows {
-		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updatePreparedStatementExpectedRows, updateResult)
-	}
-	return updatePrepared.Close(ctx)
-}
-
-func (m *flightSqlScenarioTester) doGetForTestCase(schema *arrow.Schema) chan flight.StreamChunk {
-	ch := make(chan flight.StreamChunk)
-	close(ch)
-	return ch
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq(selectStatement, cmd.GetQuery()); err != nil {
-		return nil, err
-	}
-
-	var (
-		ticket []byte
-		schema *arrow.Schema
-	)
-	if len(cmd.GetTransactionId()) == 0 {
-		ticket = []byte("SELECT STATEMENT HANDLE")
-		schema = getQuerySchema()
-	} else {
-		ticket = []byte("SELECT STATEMENT WITH TXN HANDLE")
-		schema = getQueryWithTransactionSchema()
-	}
-
-	handle, err := flightsql.CreateStatementQueryTicket(ticket)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: handle}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSubstraitPlan(ctx context.Context, cmd flightsql.StatementSubstraitPlan, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return nil, fmt.Errorf("%w: unexpected plan in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return nil, fmt.Errorf("%w: unexpected version in GetFlightInfoSubstraitPlan", err)
-	}
-
-	var (
-		ticket []byte
-		schema *arrow.Schema
-	)
-	if len(cmd.GetTransactionId()) == 0 {
-		ticket = []byte("PLAN HANDLE")
-		schema = getQuerySchema()
-	} else {
-		ticket = []byte("PLAN WITH TXN HANDLE")
-		schema = getQueryWithTransactionSchema()
-	}
-
-	handle, err := flightsql.CreateStatementQueryTicket(ticket)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: handle}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (m *flightSqlScenarioTester) GetSchemaStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if err := assertEq(selectStatement, cmd.GetQuery()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected statement in GetSchemaStatement", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-}
-
-func (m *flightSqlScenarioTester) GetSchemaSubstraitPlan(ctx context.Context, cmd flightsql.StatementSubstraitPlan, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return nil, fmt.Errorf("%w: unexpected plan in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return nil, fmt.Errorf("%w: unexpected version in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-}
-
-func (m *flightSqlScenarioTester) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	switch string(cmd.GetStatementHandle()) {
-	case "SELECT STATEMENT HANDLE", "PLAN HANDLE":
-		return getQuerySchema(), m.doGetForTestCase(getQuerySchema()), nil
-	case "SELECT STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return getQueryWithTransactionSchema(), m.doGetForTestCase(getQueryWithTransactionSchema()), nil
-	}
-
-	return nil, nil, fmt.Errorf("%w: unknown handle %s", arrow.ErrInvalid, string(cmd.GetStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return m.flightInfoForCommand(desc, getQuerySchema()), nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return m.flightInfoForCommand(desc, getQueryWithTransactionSchema()), nil
-	}
-	return nil, fmt.Errorf("%w: invalid handle for GetFlightInfoPreparedStatement %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetSchemaPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-	}
-	return nil, fmt.Errorf("%w: invalid handle for GetSchemaPreparedStatement %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) DoGetPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return getQuerySchema(), m.doGetForTestCase(getQuerySchema()), nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return getQueryWithTransactionSchema(), m.doGetForTestCase(getQueryWithTransactionSchema()), nil
-	}
-	return nil, nil, fmt.Errorf("%w: invalid handle: %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.Catalogs), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetCatalogs(_ context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.Catalogs, m.doGetForTestCase(schema_ref.Catalogs), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetXdbcTypeInfo(context.Context, flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.XdbcTypeInfo, m.doGetForTestCase(schema_ref.XdbcTypeInfo), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSqlInfo(ctx context.Context, cmd flightsql.GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if len(cmd.GetInfo()) == 2 {
-		// integration test for the protocol messages
-
-		if err := assertEq(int(2), len(cmd.GetInfo())); err != nil {
-			return nil, err
-		}
-		if err := assertEq(flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfo(cmd.GetInfo()[0])); err != nil {
-			return nil, err
-		}
-		if err := assertEq(flightsql.SqlInfoFlightSqlServerReadOnly, flightsql.SqlInfo(cmd.GetInfo()[1])); err != nil {
-			return nil, err
-		}
-
-		return m.flightInfoForCommand(desc, schema_ref.SqlInfo), nil
-	}
-
-	// integration test for the values themselves
-	return m.BaseServer.GetFlightInfoSqlInfo(ctx, cmd, desc)
-}
-
-func (m *flightSqlScenarioTester) DoGetSqlInfo(ctx context.Context, cmd flightsql.GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	if len(cmd.GetInfo()) == 2 {
-		return schema_ref.SqlInfo, m.doGetForTestCase(schema_ref.SqlInfo), nil
-	}
-
-	return m.BaseServer.DoGetSqlInfo(ctx, cmd)
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetDBSchemas(context.Context, flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.DBSchemas, m.doGetForTestCase(schema_ref.DBSchemas), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table_filter_pattern", cmd.GetTableNameFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq(int(2), len(cmd.GetTableTypes())); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.GetTableTypes()[0]); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("view", cmd.GetTableTypes()[1]); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq(true, cmd.GetIncludeSchema()); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.TablesWithIncludedSchema), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetTables(context.Context, flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.TablesWithIncludedSchema, m.doGetForTestCase(schema_ref.TablesWithIncludedSchema), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.TableTypes, m.doGetForTestCase(schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetPrimaryKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.PrimaryKeys, m.doGetForTestCase(schema_ref.PrimaryKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoExportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetExportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.ExportedKeys, m.doGetForTestCase(schema_ref.ExportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoImportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetImportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.ImportedKeys, m.doGetForTestCase(schema_ref.ImportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoCrossReference(_ context.Context, cmd flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("pk_catalog", cmd.PKRef.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("pk_db_schema", cmd.PKRef.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("pk_table", cmd.PKRef.Table); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_catalog", cmd.FKRef.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_db_schema", cmd.FKRef.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_table", cmd.FKRef.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetCrossReference(context.Context, flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.CrossReference, m.doGetForTestCase(schema_ref.CrossReference), nil
-}
-
-func (m *flightSqlScenarioTester) DoPutCommandStatementUpdate(_ context.Context, cmd flightsql.StatementUpdate) (int64, error) {
-	if err := assertEq("UPDATE STATEMENT", cmd.GetQuery()); err != nil {
-		return 0, err
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return updateStatementExpectedRows, nil
-	}
-	return updateStatementWithTransactionExpectedRows, nil
-}
-
-func (m *flightSqlScenarioTester) DoPutCommandSubstraitPlan(_ context.Context, cmd flightsql.StatementSubstraitPlan) (int64, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return 0, fmt.Errorf("%w: wrong plan for DoPutCommandSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return 0, fmt.Errorf("%w: unexpected version in DoPutCommandSubstraitPlan", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return updateStatementExpectedRows, nil
-	}
-	return updateStatementWithTransactionExpectedRows, nil
-}
-
-func (m *flightSqlScenarioTester) CreatePreparedStatement(_ context.Context, request flightsql.ActionCreatePreparedStatementRequest) (res flightsql.ActionCreatePreparedStatementResult, err error) {
-	switch request.GetQuery() {
-	case "SELECT PREPARED STATEMENT", "UPDATE PREPARED STATEMENT":
-	default:
-		return res, fmt.Errorf("%w: unexpected query %s", arrow.ErrInvalid, request.GetQuery())
-	}
-
-	handle := request.GetQuery()
-	if len(request.GetTransactionId()) != 0 {
-		handle += " WITH TXN"
-	}
-	res.Handle = []byte(handle + " HANDLE")
-	return
-}
-
-func (m *flightSqlScenarioTester) CreatePreparedSubstraitPlan(_ context.Context, request flightsql.ActionCreatePreparedSubstraitPlanRequest) (res flightsql.ActionCreatePreparedStatementResult, err error) {
-	if err := assertEq([]byte(substraitPlanText), request.GetPlan().Plan); err != nil {
-		return res, fmt.Errorf("%w: wrong plan for CreatePreparedSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, request.GetPlan().Version); err != nil {
-		return res, fmt.Errorf("%w: unexpected version in DoPutCommandSubstraitPlan", err)
-	}
-
-	if len(request.GetTransactionId()) == 0 {
-		res.Handle = []byte("PLAN HANDLE")
-	} else {
-		res.Handle = []byte("PLAN WITH TXN HANDLE")
-	}
-	return
-}
-
-func (m *flightSqlScenarioTester) ClosePreparedStatement(_ context.Context, request flightsql.ActionClosePreparedStatementRequest) error {
-	switch string(request.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE",
-		"UPDATE PREPARED STATEMENT HANDLE",
-		"PLAN HANDLE",
-		"SELECT PREPARED STATEMENT WITH TXN HANDLE",
-		"UPDATE PREPARED STATEMENT WITH TXN HANDLE",
-		"PLAN WITH TXN HANDLE":
-	default:
-		return fmt.Errorf("%w: invalid handle for ClosePreparedStatement: %s",
-			arrow.ErrInvalid, string(request.GetPreparedStatementHandle()))
-	}
-
-	return nil
-}
-
-func (m *flightSqlScenarioTester) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) ([]byte, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE",
-		"SELECT PREPARED STATEMENT WITH TXN HANDLE",
-		"PLAN HANDLE", "PLAN WITH TXN HANDLE":
-		actualSchema := rdr.Schema()
-		return cmd.GetPreparedStatementHandle(), assertEq(true, actualSchema.Equal(getQuerySchema()))
-	}
-
-	return cmd.GetPreparedStatementHandle(), fmt.Errorf("%w: handle for DoPutPreparedStatementQuery '%s'",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) DoPutPreparedStatementUpdate(_ context.Context, cmd flightsql.PreparedStatementUpdate, _ flight.MessageReader) (int64, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "UPDATE PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return updatePreparedStatementExpectedRows, nil
-	case "UPDATE PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return updatePreparedStatementWithTransactionExpectedRows, nil
-	}
-
-	return 0, fmt.Errorf("%w: handle for DoPutPreparedStatementUpdate '%s'",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) BeginSavepoint(_ context.Context, request flightsql.ActionBeginSavepointRequest) ([]byte, error) {
-	if err := assertEq(savepointName, request.GetName()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected savepoint name in BeginSavepoint", err)
-	}
-
-	if err := assertEq([]byte(transactionID), request.GetTransactionId()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected transaction ID in BeginSavepoint", err)
-	}
-
-	return []byte(savepointID), nil
-}
-
-func (m *flightSqlScenarioTester) BeginTransaction(context.Context, flightsql.ActionBeginTransactionRequest) ([]byte, error) {
-	return []byte(transactionID), nil
-}
-
-func (m *flightSqlScenarioTester) CancelFlightInfo(_ context.Context, request *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error) {
-	result := flight.CancelFlightInfoResult{Status: flight.CancelStatusUnspecified}
-	if err := assertEq(1, len(request.Info.Endpoint)); err != nil {
-		return result, fmt.Errorf("%w: expected 1 endpoint for CancelQuery", err)
-	}
-
-	endpoint := request.Info.Endpoint[0]
-	tkt, err := flightsql.GetStatementQueryTicket(endpoint.Ticket)
-	if err != nil {
-		return result, err
-	}
-
-	if err := assertEq([]byte("PLAN HANDLE"), tkt.GetStatementHandle()); err != nil {
-		return result, fmt.Errorf("%w: unexpected ticket in CancelQuery", err)
-	}
-
-	result.Status = flight.CancelStatusCancelled
-	return result, nil
-}
-
-func (m *flightSqlScenarioTester) EndSavepoint(_ context.Context, request flightsql.ActionEndSavepointRequest) error {
-	switch request.GetAction() {
-	case flightsql.EndSavepointRelease, flightsql.EndSavepointRollback:
-		if err := assertEq([]byte(savepointID), request.GetSavepointId()); err != nil {
-			return fmt.Errorf("%w: unexpected savepoint ID in EndSavepoint", err)
-		}
-		return nil
-	}
-
-	return fmt.Errorf("%w: unknown action %v", arrow.ErrInvalid, request.GetAction())
-}
-
-func (m *flightSqlScenarioTester) EndTransaction(_ context.Context, request flightsql.ActionEndTransactionRequest) error {
-	switch request.GetAction() {
-	case flightsql.EndTransactionCommit, flightsql.EndTransactionRollback:
-		if err := assertEq([]byte(transactionID), request.GetTransactionId()); err != nil {
-			return fmt.Errorf("%w: unexpected transaction ID in EndTransaction", err)
-		}
-		return nil
-	}
-
-	return fmt.Errorf("%w: unknown action %v", arrow.ErrInvalid, request.GetAction())
-}
-
-// schema to be returned for mocking the statement/prepared statement results
-func getQuerySchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: *flightsql.NewColumnMetadataBuilder().
-				TableName("test").
-				IsAutoIncrement(true).
-				IsCaseSensitive(false).
-				TypeName("type_test").
-				SchemaName("schema_test").
-				IsSearchable(true).
-				CatalogName("catalog_test").
-				Precision(100).
-				Build().Data}}, nil)
-}
-
-func getQueryWithTransactionSchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "pkey", Type: arrow.PrimitiveTypes.Int32, Nullable: true,
-			Metadata: *flightsql.NewColumnMetadataBuilder().
-				TableName("test").
-				IsAutoIncrement(true).
-				IsCaseSensitive(false).
-				TypeName("type_test").
-				SchemaName("schema_test").
-				IsSearchable(true).
-				CatalogName("catalog_test").
-				Precision(100).Build().Data}}, nil)
-}
-
-const (
-	substraitPlanText    = "plan"
-	substraitPlanVersion = "version"
-	selectStatement      = "SELECT STATEMENT"
-	savepointID          = "savepoint_id"
-	savepointName        = "savepoint_name"
-	transactionID        = "transaction_id"
-)
-
-var substraitPlan = flightsql.SubstraitPlan{
-	Plan: []byte(substraitPlanText), Version: substraitPlanVersion}
-
-type flightSqlExtensionScenarioTester struct {
-	flightSqlScenarioTester
-}
-
-func (m *flightSqlExtensionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	if err := m.ValidateMetadataRetrieval(client); err != nil {
-		return err
-	}
-
-	if err := m.ValidateStatementExecution(client); err != nil {
-		return err
-	}
-	if err := m.ValidatePreparedStatementExecution(client); err != nil {
-		return err
-	}
-
-	return m.ValidateTransactions(client)
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateMetadataRetrieval(client *flightsql.Client) error {
-	sqlInfo := []flightsql.SqlInfo{
-		flightsql.SqlInfoFlightSqlServerSql,
-		flightsql.SqlInfoFlightSqlServerSubstrait,
-		flightsql.SqlInfoFlightSqlServerSubstraitMinVersion,
-		flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion,
-		flightsql.SqlInfoFlightSqlServerTransaction,
-		flightsql.SqlInfoFlightSqlServerCancel,
-		flightsql.SqlInfoFlightSqlServerStatementTimeout,
-		flightsql.SqlInfoFlightSqlServerTransactionTimeout,
-	}
-	ctx := context.Background()
-
-	info, err := client.GetSqlInfo(ctx, sqlInfo)
-	if err != nil {
-		return err
-	}
-
-	rdr, err := client.DoGet(ctx, info.Endpoint[0].Ticket)
-	if err != nil {
-		return err
-	}
-	defer rdr.Release()
-
-	actualSchema := rdr.Schema()
-	if !schema_ref.SqlInfo.Equal(actualSchema) {
-		return fmt.Errorf("%w: schemas did not match. expected: %s\n got: %s",
-			arrow.ErrInvalid, schema_ref.SqlInfo, actualSchema)
-	}
-
-	infoValues := make(flightsql.SqlInfoResultMap)
-	for rdr.Next() {
-		rec := rdr.Record()
-		names, values := rec.Column(0).(*array.Uint32), rec.Column(1).(*array.DenseUnion)
-
-		for i := 0; i < int(rec.NumRows()); i++ {
-			code := names.Value(i)
-			if _, ok := infoValues[code]; ok {
-				return fmt.Errorf("%w: duplicate SqlInfo value %d", arrow.ErrInvalid, code)
-			}
-
-			switch values.TypeCode(i) {
-			case 0: // string
-				infoValues[code] = values.Field(0).(*array.String).
-					Value(int(values.ValueOffset(i)))
-			case 1: // bool
-				infoValues[code] = values.Field(1).(*array.Boolean).
-					Value(int(values.ValueOffset(i)))
-			case 2: // int64
-				infoValues[code] = values.Field(2).(*array.Int64).
-					Value(int(values.ValueOffset(i)))
-			case 3: // int32
-				infoValues[code] = values.Field(3).(*array.Int32).
-					Value(int(values.ValueOffset(i)))
-			default:
-				return fmt.Errorf("%w: decoding SqlInfoResult of type code %d",
-					arrow.ErrNotImplemented, values.TypeCode(i))
-			}
-		}
-	}
-
-	if rdr.Err() != nil {
-		return rdr.Err()
-	}
-
-	for k, v := range infoValues {
-		switch k {
-		case uint32(flightsql.SqlInfoFlightSqlServerSql):
-			if err := assertEq(false, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstrait):
-			if err := assertEq(true, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstraitMinVersion):
-			if err := assertEq("min_version", v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion):
-			if err := assertEq("max_version", v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerTransaction):
-			if err := assertEq(int32(flightsql.SqlTransactionSavepoint), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerCancel):
-			if err := assertEq(true, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerStatementTimeout):
-			if err := assertEq(int32(42), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerTransactionTimeout):
-			if err := assertEq(int32(7), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		}
-
-	}
-
-	return nil
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	info, err := client.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-	if err := m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetExecuteSubstraitSchema(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	info, err = client.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	//lint:ignore SA1019 for backward compatibility
-	cancelResult, err := client.CancelQuery(ctx, info)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(flightsql.CancelResultCancelled, cancelResult); err != nil {
-		return fmt.Errorf("%w: wrong cancel result", err)
-	}
-
-	updatedRows, err := client.ExecuteSubstraitUpdate(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementExpectedRows, updatedRows); err != nil {
-		return fmt.Errorf("%w: wrong number of updated rows for ExecuteSubstraitUpdate", err)
-	}
-
-	return nil
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidatePreparedStatementExecution(client *flightsql.Client) error {
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-
-	ctx := context.Background()
-	stmt, err := client.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	stmt.SetParameters(params)
-	info, err := stmt.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := stmt.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	if err := stmt.Close(ctx); err != nil {
-		return err
-	}
-
-	updateStmt, err := client.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	updatedRows, err := updateStmt.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementExpectedRows, updatedRows); err != nil {
-		return err
-	}
-
-	return updateStmt.Close(ctx)
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateTransactions(client *flightsql.Client) error {
-	ctx := context.Background()
-	txn, err := client.BeginTransaction(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(transactionID), []byte(txn.ID())); err != nil {
-		return err
-	}
-
-	sp, err := txn.BeginSavepoint(ctx, savepointName)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(savepointID), []byte(sp)); err != nil {
-		return err
-	}
-
-	info, err := txn.Execute(ctx, selectStatement)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	info, err = txn.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := txn.GetExecuteSchema(ctx, selectStatement)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	schema, err = txn.GetExecuteSubstraitSchema(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	updated, err := txn.ExecuteUpdate(ctx, "UPDATE STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	updated, err = txn.ExecuteSubstraitUpdate(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-
-	prepared, err := txn.Prepare(ctx, "SELECT PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-	prepared.SetParameters(params)
-
-	info, err = prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err = prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-	prepared.SetParameters(params)
-
-	info, err = prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err = prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.Prepare(ctx, "UPDATE PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	updated, err = prepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	updated, err = prepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	if err := txn.RollbackSavepoint(ctx, sp); err != nil {
-		return err
-	}
-
-	sp2, err := txn.BeginSavepoint(ctx, savepointName)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(savepointID), []byte(sp2)); err != nil {
-		return err
-	}
-
-	if err := txn.ReleaseSavepoint(ctx, sp); err != nil {
-		return err
-	}
-
-	if err := txn.Commit(ctx); err != nil {
-		return err
-	}
-
-	txn, err = client.BeginTransaction(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(transactionID), []byte(txn.ID())); err != nil {
-		return err
-	}
-
-	return txn.Rollback(ctx)
-}
-
-type sessionOptionsScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (tester *sessionOptionsScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(session.NewServerSessionMiddleware(nil)),
-	})
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(tester))
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *sessionOptionsScenarioTester) SetSessionOptions(ctx context.Context, req *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	errors := make(map[string]*flight.SetSessionOptionsResultError)
-	for key, val := range req.GetSessionOptions() {
-		if key == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidName}
-			continue
-		}
-		if val.GetStringValue() == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidValue}
-			continue
-		}
-
-		session.SetSessionOption(key, val)
-	}
-
-	return &flight.SetSessionOptionsResult{Errors: errors}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) GetSessionOptions(ctx context.Context, req *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.GetSessionOptionsResult{SessionOptions: session.GetSessionOptions()}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) CloseSession(ctx context.Context, req *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	if err = session.Close(); err != nil {
-		return nil, err
-	}
-
-	return &flight.CloseSessionResult{Status: flight.CloseSessionResultClosed}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	middleware := []flight.ClientMiddleware{
-		flight.NewClientCookieMiddleware(),
-	}
-	client, err := flight.NewClientWithMiddleware(addr, nil, middleware, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	// Run validations in order. We are changing session state in each step, so order is made explicit.
-	ctx := context.Background()
-	if err = tester.ValidateFirstGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateSecondSetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateThirdGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateFourthRemoveOption(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateFifthGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateSixthCloseSession(ctx, client); err != nil {
-		return err
-	}
-
-	// C++ impl currently fails with "Invalid or expired arrow_flight_session_id cookie", likely related to GH-39791
-	// if err = tester.ValidateSeventhGetSessionOptions(ctx, client); err != nil {
-	// 	return err
-	// }
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFirstGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != 0 {
-		return fmt.Errorf("expected new session to be empty, but found %d options already set", len(opts))
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSecondSetSessionOptions(ctx context.Context, client flight.Client) error {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":                int64(123),
-		"bardouble":              456.0,
-		"lol_invalid":            "this won't get set",
-		"key_with_invalid_value": "lol_invalid",
-		"big_ol_string_list":     []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	res, err := client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	if err != nil {
-		return err
-	}
-
-	expectedErrs := map[string]*flight.SetSessionOptionsResultError{
-		"lol_invalid":            {Value: flight.SetSessionOptionsResultErrorInvalidName},
-		"key_with_invalid_value": {Value: flight.SetSessionOptionsResultErrorInvalidValue},
-	}
-
-	errs := res.GetErrors()
-	if len(errs) != len(expectedErrs) {
-		return fmt.Errorf("errors expected: %d, got: %d", len(expectedErrs), len(errs))
-	}
-
-	for key, val := range errs {
-		if !reflect.DeepEqual(val, expectedErrs[key]) {
-			return fmt.Errorf("error mismatch for key %s. expected: %s, got: %s", key, expectedErrs[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateThirdGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	expectedOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != len(expectedOpts) {
-		return fmt.Errorf("options expected: %d, got: %d", len(expectedOpts), len(opts))
-	}
-
-	for key, val := range opts {
-		if !reflect.DeepEqual(val, expectedOpts[key]) {
-			return fmt.Errorf("session options mismatch for key %s. expected: %s, got: %s", key, expectedOpts[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFourthRemoveOption(ctx context.Context, client flight.Client) error {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong": nil,
-	})
-	if err != nil {
-		return err
-	}
-
-	res, err := client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	if err != nil {
-		return err
-	}
-
-	errs := res.GetErrors()
-	if len(errs) != 0 {
-		return fmt.Errorf("errors expected: %d, got: %d", 0, len(errs))
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFifthGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	expectedOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != len(expectedOpts) {
-		return fmt.Errorf("options expected: %d, got: %d", len(expectedOpts), len(opts))
-	}
-
-	for key, val := range opts {
-		if !reflect.DeepEqual(val, expectedOpts[key]) {
-			return fmt.Errorf("session options mismatch for key %s. expected: %s, got: %s", key, expectedOpts[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSixthCloseSession(ctx context.Context, client flight.Client) error {
-	res, err := client.CloseSession(ctx, &flight.CloseSessionRequest{})
-	if err != nil {
-		return err
-	}
-
-	if res.GetStatus() != flight.CloseSessionResultClosed {
-		return fmt.Errorf("expected session to successfully close, but found status: %s", res.GetStatus())
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSeventhGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != 0 {
-		return fmt.Errorf("expected new session to be empty, but found %d options already set", len(opts))
-	}
-
-	return nil
-}
-
-type flightSqlIngestionScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (m *flightSqlIngestionScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerBulkIngestion, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerIngestTransactionsSupported, true)
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(m))
-	initServer(port, srv)
-	return srv
-}
-
-func (m *flightSqlIngestionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	return m.ValidateIngestion(client)
-}
-
-func (m *flightSqlIngestionScenarioTester) ValidateIngestion(client *flightsql.Client) error {
-	ctx := context.Background()
-	opts := getIngestOptions()
-	ingestResult, err := client.ExecuteIngest(ctx, getIngestRecords(), opts)
-	if err != nil {
-		return err
-	}
-	if ingestResult != ingestStatementExpectedRows {
-		return fmt.Errorf("expected ingest return %d got %d", ingestStatementExpectedRows, ingestResult)
-	}
-	return nil
-}
-
-func (m *flightSqlIngestionScenarioTester) DoPutCommandStatementIngest(ctx context.Context, cmd flightsql.StatementIngest, rdr flight.MessageReader) (int64, error) {
-	expectedSchema := getIngestSchema()
-	expectedOpts := getIngestOptions()
-
-	if err := assertEq(expectedOpts.TableDefinitionOptions.IfExists, cmd.GetTableDefinitionOptions().IfExists); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.TableDefinitionOptions.IfNotExist, cmd.GetTableDefinitionOptions().IfNotExist); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Table, cmd.GetTable()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(*expectedOpts.Schema, cmd.GetSchema()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(*expectedOpts.Catalog, cmd.GetCatalog()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Temporary, cmd.GetTemporary()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.TransactionId, cmd.GetTransactionId()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Options, cmd.GetOptions()); err != nil {
-		return 0, err
-	}
-
-	var nRecords int64
-	for rdr.Next() {
-		rec := rdr.Record()
-		nRecords += rec.NumRows()
-
-		if err := assertEq(true, expectedSchema.Equal(rec.Schema())); err != nil {
-			return 0, err
-		}
-	}
-
-	return nRecords, nil
-}
-
-// Options to assert before/after mocked ingest call
-func getIngestOptions() *flightsql.ExecuteIngestOpts {
-	tableDefinitionOptions := flightsql.TableDefinitionOptions{
-		IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-		IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-	}
-	table := "test_table"
-	schema := "test_schema"
-	catalog := "test_catalog"
-	temporary := true
-	transactionId := []byte("123")
-	options := map[string]string{
-		"key1": "val1",
-		"key2": "val2",
-	}
-
-	return &flightsql.ExecuteIngestOpts{
-		TableDefinitionOptions: &tableDefinitionOptions,
-		Table:                  table,
-		Schema:                 &schema,
-		Catalog:                &catalog,
-		Temporary:              temporary,
-		TransactionId:          transactionId,
-		Options:                options,
-	}
-}
-
-// Schema for ingest records; asserted on records received by handler
-func getIngestSchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{{Name: "test_field", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-}
-
-// Prepare records for ingestion with known length and schema
-func getIngestRecords() array.RecordReader {
-	schema := getIngestSchema()
-
-	arr := array.MakeArrayOfNull(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, int(ingestStatementExpectedRows))
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, ingestStatementExpectedRows)
-	defer rec.Release()
-
-	rdr, _ := array.NewRecordReader(schema, []arrow.Record{rec})
-
-	return rdr
-}
diff --git a/go/arrow/internal/testing/gen/random_array_gen.go b/go/arrow/internal/testing/gen/random_array_gen.go
deleted file mode 100644
index b4623bc4c3596..0000000000000
--- a/go/arrow/internal/testing/gen/random_array_gen.go
+++ /dev/null
@@ -1,594 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package gen
-
-import (
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-// RandomArrayGenerator is a struct used for constructing Random Arrow arrays
-// for use with testing.
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-	mem      memory.Allocator
-}
-
-// NewRandomArrayGenerator constructs a new generator with the requested Seed
-func NewRandomArrayGenerator(seed uint64, mem memory.Allocator) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src), mem}
-}
-
-// GenerateBitmap generates a bitmap of n bits and stores it into buffer. Prob is the probability
-// that a given bit will be zero, with 1-prob being the probability it will be 1. The return value
-// is the number of bits that were left unset. The assumption being that buffer is currently
-// zero initialized as this function does not clear any bits, it only sets 1s.
-func (r *RandomArrayGenerator) GenerateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	// bernoulli distribution uses P to determine the probability of a 0 or a 1,
-	// which we'll use to generate the bitmap.
-	dist := distuv.Bernoulli{P: 1 - prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := 0; int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-func (r *RandomArrayGenerator) Boolean(size int64, prob, nullProb float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullcount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(r.mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	defer buffers[0].Release()
-	nullcount = r.GenerateBitmap(buffers[0].Bytes(), size, nullProb)
-
-	buffers[1] = memory.NewResizableBuffer(r.mem)
-	buffers[1].Resize(int(bitutil.BytesForBits(size)))
-	defer buffers[1].Release()
-	r.GenerateBitmap(buffers[1].Bytes(), size, prob)
-
-	data := array.NewData(arrow.FixedWidthTypes.Boolean, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewBooleanData(data)
-}
-
-func (r *RandomArrayGenerator) baseGenPrimitive(size int64, prob float64, byteWidth int) ([]*memory.Buffer, int64) {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(r.mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(r.mem)
-	buffers[1].Resize(int(size) * byteWidth)
-
-	return buffers, nullCount
-}
-
-func (r *RandomArrayGenerator) Int8(size int64, min, max int8, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int8SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int8(dist.Intn(int(max)-int(min+1))) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int8, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt8Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint8(size int64, min, max uint8, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint8SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint8(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint8, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint8Data(data)
-}
-
-func (r *RandomArrayGenerator) Int16(size int64, min, max int16, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int16SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int16Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int16(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int16, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt16Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint16(size int64, min, max uint16, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint16SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint16Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint16(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint16, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint16Data(data)
-}
-
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int32(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt32Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint32(size int64, min, max uint32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint32(dist.Uint64n(uint64(max)-uint64(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint32Data(data)
-}
-
-func (r *RandomArrayGenerator) Int64(size int64, min, max int64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-	if max == math.MaxInt64 && min == math.MinInt64 {
-		for i := int64(0); i < size; i++ {
-			out[i] = int64(dist.Uint64())
-		}
-	} else {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Int63n(max-min+1) + min
-		}
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt64Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint64(size int64, min, max uint64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint64Traits.CastFromBytes(buffers[1].Bytes())
-	if max == math.MaxUint64 {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Uint64() + min
-		}
-	} else {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Uint64n(max-min+1) + min
-		}
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint64Data(data)
-}
-
-func (r *RandomArrayGenerator) Float32(size int64, min, max float32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Float32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = min + dist.Float32()*(max+1-min)
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Float32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewFloat32Data(data)
-}
-
-func (r *RandomArrayGenerator) Float64(size int64, min, max float64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Float64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.NormFloat64() + (max - min)
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Float64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewFloat64Data(data)
-}
-
-func (r *RandomArrayGenerator) String(size int64, minLength, maxLength int, nullprob float64) arrow.Array {
-	lengths := r.Int32(size, int32(minLength), int32(maxLength), nullprob).(*array.Int32)
-	defer lengths.Release()
-
-	bldr := array.NewStringBuilder(r.mem)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int32) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsValid(i) {
-			bldr.Append(gen(lengths.Value(i)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) LargeString(size int64, minLength, maxLength int64, nullprob float64) arrow.Array {
-	lengths := r.Int64(size, minLength, maxLength, nullprob).(*array.Int64)
-	defer lengths.Release()
-
-	bldr := array.NewLargeStringBuilder(r.mem)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int64) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int63n(int64('z')-int64('A')+1) + int64('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsValid(i) {
-			bldr.Append(gen(lengths.Value(i)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) StringView(size int64, minLength, maxLength int64, nullProb float64) arrow.Array {
-	return r.generateBinaryView(arrow.BinaryTypes.StringView, size, minLength, maxLength, nullProb)
-}
-
-func (r *RandomArrayGenerator) generateBinaryView(dt arrow.DataType, size int64, minLength, maxLength int64, nullProb float64) arrow.Array {
-	lengths := r.Int32(size, int32(minLength), int32(maxLength), nullProb).(*array.Int32)
-	defer lengths.Release()
-
-	bldr := array.NewBuilder(r.mem, dt).(array.StringLikeBuilder)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int32) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsNull(i) {
-			bldr.AppendNull()
-			continue
-		}
-		bldr.Append(gen(lengths.Value(i)))
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) Numeric(dt arrow.Type, size int64, min, max int64, nullprob float64) arrow.Array {
-	switch dt {
-	case arrow.INT8:
-		return r.Int8(size, int8(min), int8(max), nullprob)
-	case arrow.UINT8:
-		return r.Uint8(size, uint8(min), uint8(max), nullprob)
-	case arrow.INT16:
-		return r.Int16(size, int16(min), int16(max), nullprob)
-	case arrow.UINT16:
-		return r.Uint16(size, uint16(min), uint16(max), nullprob)
-	case arrow.INT32:
-		return r.Int32(size, int32(min), int32(max), nullprob)
-	case arrow.UINT32:
-		return r.Uint32(size, uint32(min), uint32(max), nullprob)
-	case arrow.INT64:
-		return r.Int64(size, int64(min), int64(max), nullprob)
-	case arrow.UINT64:
-		return r.Uint64(size, uint64(min), uint64(max), nullprob)
-	case arrow.FLOAT32:
-		return r.Float32(size, float32(min), float32(max), nullprob)
-	case arrow.FLOAT64:
-		return r.Float64(size, float64(min), float64(max), nullprob)
-	}
-	panic("invalid type for random numeric array")
-}
-
-// Generate an array of random offsets based on a given sizes array for
-// list-view arrays.
-//
-// Pre-condition: every non-null sizes[i] <= valuesLength.
-func viewOffsetsFromLengthsArray32(
-	seed uint64, avgLength int32, valuesLength int32,
-	sizesArray *array.Int32, forceEmptyNulls bool,
-	zeroUndefinedOffsets bool) *memory.Buffer {
-	sizes := sizesArray.Int32Values()
-	offsets := make([]int32, sizesArray.Len())
-
-	offsetDeltaRand := rand.New(rand.NewSource(seed))
-	sampleOffset := func(offsetBase int32) int32 {
-		delta := int32(offsetDeltaRand.Int63n(2*int64(avgLength)) - int64(avgLength))
-		offset := offsetBase + delta
-		if offset < 0 {
-			return 0
-		}
-		return offset
-	}
-	offsetBase := int32(0)
-	for i := 0; i < sizesArray.Len(); i += 1 {
-		isNull := sizesArray.IsNull(i)
-		if forceEmptyNulls && isNull {
-			sizes[i] = 0
-		}
-		if zeroUndefinedOffsets && (isNull || sizes[i] == 0) {
-			offsets[i] = 0
-		} else {
-			offset := sampleOffset(offsetBase)
-			if offset > valuesLength-sizes[i] {
-				offset = valuesLength - sizes[i]
-			}
-			offsets[i] = offset
-		}
-		offsetBase += avgLength
-	}
-
-	return memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-}
-
-// Generate an array of random offsets based on a given sizes array for
-// large list-view arrays.
-//
-// Pre-condition: every non-null sizes[i] <= valuesLength.
-func viewOffsetsFromLengthsArray64(
-	seed uint64, avgLength int64, valuesLength int64,
-	sizesArray *array.Int64, forceEmptyNulls bool,
-	zeroUndefinedOffsets bool) *memory.Buffer {
-	sizes := sizesArray.Int64Values()
-	offsets := make([]int64, sizesArray.Len())
-
-	offsetDeltaRand := rand.New(rand.NewSource(seed))
-	sampleOffset := func(offsetBase int64) int64 {
-		delta := int64(offsetDeltaRand.Int63n(2*avgLength) - avgLength)
-		offset := offsetBase + delta
-		if offset < 0 {
-			return 0
-		}
-		return offset
-	}
-	offsetBase := int64(0)
-	for i := 0; i < sizesArray.Len(); i += 1 {
-		isNull := sizesArray.IsNull(i)
-		if forceEmptyNulls && isNull {
-			sizes[i] = 0
-		}
-		if zeroUndefinedOffsets && (isNull || sizes[i] == 0) {
-			offsets[i] = 0
-		} else {
-			offset := sampleOffset(offsetBase)
-			if offset > valuesLength-sizes[i] {
-				offset = valuesLength - sizes[i]
-			}
-			offsets[i] = offset
-		}
-		offsetBase += avgLength
-	}
-
-	return memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(offsets))
-}
-
-// Generate a random data for ListView or LargeListView arrays.
-func (r *RandomArrayGenerator) genListViewData(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int, nullprob float64,
-	forceEmptyNulls bool, zeroUndefinedOffsets bool) arrow.ArrayData {
-	offsetByteWidth := dt.Layout().Buffers[1].ByteWidth
-	var lengths arrow.Array
-	if offsetByteWidth == 4 {
-		lengths = r.Int32(length, int32(minLength), int32(maxLength), nullprob)
-	} else {
-		lengths = r.Int64(length, int64(minLength), int64(maxLength), nullprob)
-	}
-	defer lengths.Release()
-
-	// List-views don't have to be disjoint, so let's make the valuesLength a
-	// multiple of the average list-view size. To make sure every list view
-	// into the values array can fit, it should be at least maxLength.
-	avgLength := minLength + (maxLength-minLength)/2
-	valuesLength := int64(avgLength) * (length - int64(lengths.NullN()))
-	if valuesLength < int64(maxLength) {
-		valuesLength = int64(maxLength)
-	}
-	debug.Assert(offsetByteWidth == 8 || valuesLength < math.MaxInt32,
-		"valuesLength must be less than math.MaxInt32")
-
-	values := r.ArrayOf(dt.Elem().ID(), int64(valuesLength), 0.0)
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if offsetByteWidth == 4 {
-		lengths32 := lengths.(*array.Int32)
-		offsets = viewOffsetsFromLengthsArray32(r.seed, int32(avgLength), int32(valuesLength), lengths32,
-			forceEmptyNulls, zeroUndefinedOffsets)
-	} else {
-		lengths64 := lengths.(*array.Int64)
-		offsets = viewOffsetsFromLengthsArray64(r.seed, int64(avgLength), int64(valuesLength), lengths64,
-			forceEmptyNulls, zeroUndefinedOffsets)
-	}
-	defer offsets.Release()
-
-	buffers := []*memory.Buffer{
-		memory.NewBufferBytes(lengths.NullBitmapBytes()),
-		offsets,
-		memory.NewBufferBytes(lengths.Data().Buffers()[1].Bytes()),
-	}
-	childData := []arrow.ArrayData{values.Data()}
-	return array.NewData(dt, int(length), buffers, childData, int(lengths.NullN()), 0)
-}
-
-func (r *RandomArrayGenerator) ListView(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int32, nullprob float64) *array.ListView {
-	forceEmptyNulls := false
-	zeroUndefineOffsets := false
-	data := r.genListViewData(dt, length, int(minLength), int(maxLength), nullprob,
-		forceEmptyNulls, zeroUndefineOffsets)
-	defer data.Release()
-	return array.NewListViewData(data)
-}
-
-func (r *RandomArrayGenerator) LargeListView(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int64, nullprob float64) *array.LargeListView {
-	forceEmptyNulls := false
-	zeroUndefineOffsets := false
-	data := r.genListViewData(dt, length, int(minLength), int(maxLength), nullprob,
-		forceEmptyNulls, zeroUndefineOffsets)
-	defer data.Release()
-	return array.NewLargeListViewData(data)
-}
-
-func (r *RandomArrayGenerator) ArrayOf(dt arrow.Type, size int64, nullprob float64) arrow.Array {
-	switch dt {
-	case arrow.BOOL:
-		return r.Boolean(size, 0.50, nullprob)
-	case arrow.STRING:
-		return r.String(size, 0, 20, nullprob)
-	case arrow.LARGE_STRING:
-		return r.LargeString(size, 0, 20, nullprob)
-	case arrow.INT8:
-		return r.Int8(size, math.MinInt8, math.MaxInt8, nullprob)
-	case arrow.UINT8:
-		return r.Uint8(size, 0, math.MaxUint8, nullprob)
-	case arrow.INT16:
-		return r.Int16(size, math.MinInt16, math.MaxInt16, nullprob)
-	case arrow.UINT16:
-		return r.Uint16(size, 0, math.MaxUint16, nullprob)
-	case arrow.INT32:
-		return r.Int32(size, math.MinInt32, math.MaxInt32, nullprob)
-	case arrow.UINT32:
-		return r.Uint32(size, 0, math.MaxUint32, nullprob)
-	case arrow.INT64:
-		return r.Int64(size, math.MinInt64, math.MaxInt64, nullprob)
-	case arrow.UINT64:
-		return r.Uint64(size, 0, math.MaxUint64, nullprob)
-	case arrow.FLOAT32:
-		return r.Float32(size, -math.MaxFloat32, math.MaxFloat32, nullprob)
-	case arrow.FLOAT64:
-		return r.Float64(size, -math.MaxFloat64, math.MaxFloat64, nullprob)
-	}
-	panic("unimplemented ArrayOf type")
-}
diff --git a/go/arrow/internal/testing/tools/bits.go b/go/arrow/internal/testing/tools/bits.go
deleted file mode 100644
index ea6a5432e5c91..0000000000000
--- a/go/arrow/internal/testing/tools/bits.go
+++ /dev/null
@@ -1,40 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools
-
-import "math/bits"
-
-// IntsToBitsLSB encodes ints as LSB 0 bit numbering per https://en.wikipedia.org/wiki/Bit_numbering#LSB_0_bit_numbering
-// The low bit of each nibble is tested, therefore integers should be written as 8-digit
-// hex numbers consisting of 1s or 0s.
-//
-//	IntsToBitsLSB(0x11001010) -> 0x35
-func IntsToBitsLSB(v ...int32) []byte {
-	res := make([]byte, 0, len(v))
-	for _, b := range v {
-		c := uint8(0)
-		for i := uint(0); i < 8; i++ {
-			if b&1 == 1 {
-				c |= 1 << i
-			}
-			b >>= 4
-		}
-		c = bits.Reverse8(c)
-		res = append(res, c)
-	}
-	return res
-}
diff --git a/go/arrow/internal/testing/tools/bits_test.go b/go/arrow/internal/testing/tools/bits_test.go
deleted file mode 100644
index 6897485e4c702..0000000000000
--- a/go/arrow/internal/testing/tools/bits_test.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestIntsToBitsLSB(t *testing.T) {
-	tests := []struct {
-		in  int32
-		exp byte
-	}{
-		{0x11001010, 0x53},
-		{0x00001111, 0xf0},
-		{0x11110000, 0x0f},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("%08x", test.in), func(t *testing.T) {
-			got := tools.IntsToBitsLSB(test.in)
-			assert.Equal(t, []byte{test.exp}, got)
-		})
-	}
-}
diff --git a/go/arrow/internal/testing/tools/bool.go b/go/arrow/internal/testing/tools/bool.go
deleted file mode 100644
index 757a8f52811ab..0000000000000
--- a/go/arrow/internal/testing/tools/bool.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools
-
-func Bools(v ...int) []bool {
-	res := make([]bool, len(v))
-	for i, b := range v {
-		res[i] = b != 0
-	}
-	return res
-}
diff --git a/go/arrow/internal/testing/tools/data_types.go b/go/arrow/internal/testing/tools/data_types.go
deleted file mode 100644
index 545e3f8bc3a2c..0000000000000
--- a/go/arrow/internal/testing/tools/data_types.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package tools
-
-import (
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-var typMap = map[reflect.Type]arrow.DataType{
-	reflect.TypeOf(false):           arrow.FixedWidthTypes.Boolean,
-	reflect.TypeOf(int8(0)):         arrow.PrimitiveTypes.Int8,
-	reflect.TypeOf(int16(0)):        arrow.PrimitiveTypes.Int16,
-	reflect.TypeOf(int32(0)):        arrow.PrimitiveTypes.Int32,
-	reflect.TypeOf(int64(0)):        arrow.PrimitiveTypes.Int64,
-	reflect.TypeOf(uint8(0)):        arrow.PrimitiveTypes.Uint8,
-	reflect.TypeOf(uint16(0)):       arrow.PrimitiveTypes.Uint16,
-	reflect.TypeOf(uint32(0)):       arrow.PrimitiveTypes.Uint32,
-	reflect.TypeOf(uint64(0)):       arrow.PrimitiveTypes.Uint64,
-	reflect.TypeOf(float32(0)):      arrow.PrimitiveTypes.Float32,
-	reflect.TypeOf(float64(0)):      arrow.PrimitiveTypes.Float64,
-	reflect.TypeOf(string("")):      arrow.BinaryTypes.String,
-	reflect.TypeOf(arrow.Date32(0)): arrow.FixedWidthTypes.Date32,
-	reflect.TypeOf(arrow.Date64(0)): arrow.FixedWidthTypes.Date64,
-	reflect.TypeOf(true):            arrow.FixedWidthTypes.Boolean,
-	reflect.TypeOf(float16.Num{}):   arrow.FixedWidthTypes.Float16,
-	reflect.TypeOf([]byte{}):        arrow.BinaryTypes.Binary,
-}
-
-func GetDataType[T constraints.Integer | constraints.Float | bool | string | []byte | float16.Num]() arrow.DataType {
-	var z T
-	return typMap[reflect.TypeOf(z)]
-}
diff --git a/go/arrow/internal/utils.go b/go/arrow/internal/utils.go
deleted file mode 100644
index bafd0cf0f6926..0000000000000
--- a/go/arrow/internal/utils.go
+++ /dev/null
@@ -1,59 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package internal
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-)
-
-const CurMetadataVersion = flatbuf.MetadataVersionV5
-
-// DefaultHasValidityBitmap is a convenience function equivalent to
-// calling HasValidityBitmap with CurMetadataVersion.
-func DefaultHasValidityBitmap(id arrow.Type) bool { return HasValidityBitmap(id, CurMetadataVersion) }
-
-// HasValidityBitmap returns whether the given type at the provided version is
-// expected to have a validity bitmap in it's representation.
-//
-// Typically this is necessary because of the change between V4 and V5
-// where union types no longer have validity bitmaps.
-func HasValidityBitmap(id arrow.Type, version flatbuf.MetadataVersion) bool {
-	// in <=V4 Null types had no validity bitmap
-	// in >=V5 Null and Union types have no validity bitmap
-	if version < flatbuf.MetadataVersionV5 {
-		return id != arrow.NULL
-	}
-
-	switch id {
-	case arrow.NULL, arrow.DENSE_UNION, arrow.SPARSE_UNION, arrow.RUN_END_ENCODED:
-		return false
-	}
-	return true
-}
-
-// HasBufferSizesBuffer returns whether a given type has an extra buffer
-// in the C ABI to store the sizes of other buffers. Currently this is only
-// StringView and BinaryView.
-func HasBufferSizesBuffer(id arrow.Type) bool {
-	switch id {
-	case arrow.STRING_VIEW, arrow.BINARY_VIEW:
-		return true
-	default:
-		return false
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main.go b/go/arrow/ipc/cmd/arrow-cat/main.go
deleted file mode 100644
index 3e8d47a86c249..0000000000000
--- a/go/arrow/ipc/cmd/arrow-cat/main.go
+++ /dev/null
@@ -1,215 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Command arrow-cat displays the content of an Arrow stream or file.
-//
-// Examples:
-//
-//	$> arrow-cat ./testdata/primitives.data
-//	version: V4
-//	record 1/3...
-//	  col[0] "bools": [true (null) (null) false true]
-//	  col[1] "int8s": [-1 (null) (null) -4 -5]
-//	  col[2] "int16s": [-1 (null) (null) -4 -5]
-//	  col[3] "int32s": [-1 (null) (null) -4 -5]
-//	  col[4] "int64s": [-1 (null) (null) -4 -5]
-//	  col[5] "uint8s": [1 (null) (null) 4 5]
-//	  col[6] "uint16s": [1 (null) (null) 4 5]
-//	  col[7] "uint32s": [1 (null) (null) 4 5]
-//	  col[8] "uint64s": [1 (null) (null) 4 5]
-//	  col[9] "float32s": [1 (null) (null) 4 5]
-//	  col[10] "float64s": [1 (null) (null) 4 5]
-//	record 2/3...
-//	  col[0] "bools": [true (null) (null) false true]
-//	[...]
-//
-//	$> gen-arrow-stream | arrow-cat
-//	record 1...
-//	  col[0] "bools": [true (null) (null) false true]
-//	  col[1] "int8s": [-1 (null) (null) -4 -5]
-//	  col[2] "int16s": [-1 (null) (null) -4 -5]
-//	  col[3] "int32s": [-1 (null) (null) -4 -5]
-//	  col[4] "int64s": [-1 (null) (null) -4 -5]
-//	  col[5] "uint8s": [1 (null) (null) 4 5]
-//	  col[6] "uint16s": [1 (null) (null) 4 5]
-//	  col[7] "uint32s": [1 (null) (null) 4 5]
-//	  col[8] "uint64s": [1 (null) (null) 4 5]
-//	  col[9] "float32s": [1 (null) (null) 4 5]
-//	  col[10] "float64s": [1 (null) (null) 4 5]
-//	record 2...
-//	  col[0] "bools": [true (null) (null) false true]
-//	[...]
-package main
-
-import (
-	"bytes"
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-cat: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	var err error
-	switch flag.NArg() {
-	case 0:
-		err = processStream(os.Stdout, os.Stdin)
-	default:
-		err = processFiles(os.Stdout, flag.Args())
-	}
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w io.Writer, rin io.Reader) error {
-	mem := memory.NewGoAllocator()
-	for {
-		r, err := ipc.NewReader(rin, ipc.WithAllocator(mem))
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			return err
-		}
-
-		n := 0
-		for r.Next() {
-			n++
-			fmt.Fprintf(w, "record %d...\n", n)
-			rec := r.Record()
-			for i, col := range rec.Columns() {
-				fmt.Fprintf(w, "  col[%d] %q: %v\n", i, rec.ColumnName(i), col)
-			}
-		}
-		r.Release()
-	}
-	return nil
-}
-
-func processFiles(w io.Writer, names []string) error {
-	for _, name := range names {
-		err := processFile(w, name)
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func processFile(w io.Writer, fname string) error {
-
-	f, err := os.Open(fname)
-	if err != nil {
-		return err
-	}
-	defer f.Close()
-
-	hdr := make([]byte, len(ipc.Magic))
-	_, err = io.ReadFull(f, hdr)
-	if err != nil {
-		return fmt.Errorf("could not read file header: %w", err)
-	}
-	f.Seek(0, io.SeekStart)
-
-	if !bytes.Equal(hdr, ipc.Magic) {
-		// try as a stream.
-		return processStream(w, f)
-	}
-
-	mem := memory.NewGoAllocator()
-
-	r, err := ipc.NewFileReader(f, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer r.Close()
-
-	fmt.Fprintf(w, "version: %v\n", r.Version())
-	for i := 0; i < r.NumRecords(); i++ {
-		fmt.Fprintf(w, "record %d/%d...\n", i+1, r.NumRecords())
-		rec, err := r.Record(i)
-		if err != nil {
-			return err
-		}
-
-		for i, col := range rec.Columns() {
-			fmt.Fprintf(w, "  col[%d] %q: %v\n", i, rec.ColumnName(i), col)
-		}
-	}
-
-	return nil
-}
-
-func init() {
-	flag.Usage = func() {
-		fmt.Fprintf(os.Stderr, `Command arrow-cat displays the content of an Arrow stream or file.
-
-Usage: arrow-cat [OPTIONS] [FILE1 [FILE2 [...]]]
-
-Examples:
-
- $> arrow-cat ./testdata/primitives.data
- version: V4
- record 1/3...
-   col[0] "bools": [true (null) (null) false true]
-   col[1] "int8s": [-1 (null) (null) -4 -5]
-   col[2] "int16s": [-1 (null) (null) -4 -5]
-   col[3] "int32s": [-1 (null) (null) -4 -5]
-   col[4] "int64s": [-1 (null) (null) -4 -5]
-   col[5] "uint8s": [1 (null) (null) 4 5]
-   col[6] "uint16s": [1 (null) (null) 4 5]
-   col[7] "uint32s": [1 (null) (null) 4 5]
-   col[8] "uint64s": [1 (null) (null) 4 5]
-   col[9] "float32s": [1 (null) (null) 4 5]
-   col[10] "float64s": [1 (null) (null) 4 5]
- record 2/3...
-   col[0] "bools": [true (null) (null) false true]
- [...]
-
- $> gen-arrow-stream | arrow-cat
- record 1...
-   col[0] "bools": [true (null) (null) false true]
-   col[1] "int8s": [-1 (null) (null) -4 -5]
-   col[2] "int16s": [-1 (null) (null) -4 -5]
-   col[3] "int32s": [-1 (null) (null) -4 -5]
-   col[4] "int64s": [-1 (null) (null) -4 -5]
-   col[5] "uint8s": [1 (null) (null) 4 5]
-   col[6] "uint16s": [1 (null) (null) 4 5]
-   col[7] "uint32s": [1 (null) (null) 4 5]
-   col[8] "uint64s": [1 (null) (null) 4 5]
-   col[9] "float32s": [1 (null) (null) 4 5]
-   col[10] "float64s": [1 (null) (null) 4 5]
- record 2...
-   col[0] "bools": [true (null) (null) false true]
- [...]
-`)
-		os.Exit(0)
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main_test.go b/go/arrow/ipc/cmd/arrow-cat/main_test.go
deleted file mode 100644
index 904480ed374d4..0000000000000
--- a/go/arrow/ipc/cmd/arrow-cat/main_test.go
+++ /dev/null
@@ -1,573 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestCatStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name string
-		want string
-	}{
-		{
-			name: "primitives",
-			want: `record 1...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			name: "structs",
-			want: `record 1...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			name: "lists",
-			want: `record 1...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			name: "strings",
-			want: `record 1...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `record 1...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `record 1...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `record 1...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-cat-stream-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				w := ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			f, err := os.Open(fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w := new(bytes.Buffer)
-			err = processStream(w, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
-
-func TestCatFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name   string
-		want   string
-		stream bool
-	}{
-		{
-			stream: true,
-			name:   "primitives",
-			want: `record 1...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			name: "primitives",
-			want: `version: V5
-record 1/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			stream: true,
-			name:   "structs",
-			want: `record 1...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			name: "structs",
-			want: `version: V5
-record 1/2...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2/2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			stream: true,
-			name:   "lists",
-			want: `record 1...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			name: "lists",
-			want: `version: V5
-record 1/4...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2/4...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3/4...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4/4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			stream: true,
-			name:   "strings",
-			want: `record 1...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			name: "strings",
-			want: `version: V5
-record 1/3...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2/3...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3/3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_lists",
-			want: `record 1...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `version: V5
-record 1/3...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2/3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3/3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_width_types",
-			want: `record 1...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `version: V5
-record 1/3...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2/3...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3/3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_binaries",
-			want: `record 1...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `version: V5
-record 1/3...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2/3...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3/3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-	} {
-		t.Run(fmt.Sprintf("%s-stream=%v", tc.name, tc.stream), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-cat-file-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				var w interface {
-					io.Closer
-					Write(arrow.Record) error
-				}
-
-				switch {
-				case tc.stream:
-					w = ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				default:
-					w, err = ipc.NewFileWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			w := new(bytes.Buffer)
-			err := processFile(w, fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
deleted file mode 100644
index e8cdcd66ea3cb..0000000000000
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
+++ /dev/null
@@ -1,84 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-file-to-stream: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	if flag.NArg() != 1 {
-		flag.Usage()
-		log.Fatalf("missing path to input ARROW file")
-	}
-
-	err := processFile(os.Stdout, flag.Arg(0))
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processFile(w io.Writer, fname string) error {
-	r, err := os.Open(fname)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer r.Close()
-
-	mem := memory.NewGoAllocator()
-
-	rr, err := ipc.NewFileReader(r, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer rr.Close()
-
-	ww := ipc.NewWriter(w, ipc.WithAllocator(mem), ipc.WithSchema(rr.Schema()))
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not copy ARROW stream: %w", err)
-	}
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records written (got=%d, want=%d)", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close output ARROW stream: %w", err)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
deleted file mode 100644
index e31430f5fa392..0000000000000
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
+++ /dev/null
@@ -1,68 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestFileToStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-file-to-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteFile(t, f, mem, recs[0].Schema(), recs)
-
-			o, err := os.CreateTemp(tempDir, "go-arrow-file-to-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer o.Close()
-
-			err = processFile(o, f.Name())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = o.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = o.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			arrdata.CheckArrowStream(t, o, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
deleted file mode 100644
index c47a091268be9..0000000000000
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
+++ /dev/null
@@ -1,224 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-)
-
-func main() {
-	log.SetPrefix("arrow-json: ")
-	log.SetFlags(0)
-
-	var (
-		arrowPath = flag.String("arrow", "", "path to ARROW file")
-		jsonPath  = flag.String("json", "", "path to JSON file")
-		mode      = flag.String("mode", "VALIDATE", "mode of integration testing tool (ARROW_TO_JSON, JSON_TO_ARROW, VALIDATE)")
-		verbose   = flag.Bool("verbose", true, "enable/disable verbose mode")
-	)
-
-	flag.Parse()
-
-	err := runCommand(*jsonPath, *arrowPath, *mode, *verbose)
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func runCommand(jsonName, arrowName, mode string, verbose bool) error {
-	if jsonName == "" {
-		return fmt.Errorf("must specify json file name")
-	}
-
-	if arrowName == "" {
-		return fmt.Errorf("must specify arrow file name")
-	}
-
-	switch mode {
-	case "ARROW_TO_JSON":
-		return cnvToJSON(arrowName, jsonName, verbose)
-	case "JSON_TO_ARROW":
-		return cnvToARROW(arrowName, jsonName, verbose)
-	case "VALIDATE":
-		return validate(arrowName, jsonName, verbose)
-	default:
-		return fmt.Errorf("unknown command %q", mode)
-	}
-}
-
-func cnvToJSON(arrowName, jsonName string, verbose bool) error {
-	r, err := os.Open(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file %q: %w", arrowName, err)
-	}
-	defer r.Close()
-
-	w, err := os.Create(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not create JSON file %q: %w", jsonName, err)
-	}
-	defer w.Close()
-
-	rr, err := ipc.NewFileReader(r)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file reader from file %q: %w", arrowName, err)
-	}
-	defer rr.Close()
-
-	if verbose {
-		log.Printf("found schema:\n%v\n", rr.Schema())
-	}
-
-	ww, err := arrjson.NewWriter(w, rr.Schema())
-	if err != nil {
-		return fmt.Errorf("could not create JSON encoder: %w", err)
-	}
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not convert ARROW file reader data to JSON data: %w", err)
-	}
-
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records copied (got=%d, want=%d", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close JSON encoder %q: %w", jsonName, err)
-	}
-
-	err = w.Close()
-	if err != nil {
-		return fmt.Errorf("could not close JSON file %q: %w", jsonName, err)
-	}
-
-	return nil
-}
-
-func cnvToARROW(arrowName, jsonName string, verbose bool) error {
-	r, err := os.Open(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file %q: %w", jsonName, err)
-	}
-	defer r.Close()
-
-	w, err := os.Create(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file %q: %w", arrowName, err)
-	}
-	defer w.Close()
-
-	rr, err := arrjson.NewReader(r)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file reader from file %q: %w", jsonName, err)
-	}
-
-	if verbose {
-		log.Printf("found schema:\n%v\n", rr.Schema())
-	}
-
-	ww, err := ipc.NewFileWriter(w, ipc.WithSchema(rr.Schema()))
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file writer: %w", err)
-	}
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not convert JSON data to ARROW data: %w", err)
-	}
-
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records copied (got=%d, want=%d", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close ARROW file writer %q: %w", arrowName, err)
-	}
-
-	err = w.Close()
-	if err != nil {
-		return fmt.Errorf("could not close ARROW file %q: %w", arrowName, err)
-	}
-
-	return nil
-}
-
-func validate(arrowName, jsonName string, verbose bool) error {
-	jr, err := os.Open(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file %q: %w", jsonName, err)
-	}
-	defer jr.Close()
-
-	jrr, err := arrjson.NewReader(jr)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file reader from file %q: %w", jsonName, err)
-	}
-
-	ar, err := os.Open(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file %q: %w", arrowName, err)
-	}
-	defer ar.Close()
-
-	arr, err := ipc.NewFileReader(ar)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file reader from file %q: %w", arrowName, err)
-	}
-	defer arr.Close()
-
-	if !arr.Schema().Equal(jrr.Schema()) {
-		if verbose {
-			log.Printf("JSON schema:\n%v\nArrow schema:\n%v", jrr.Schema(), arr.Schema())
-		}
-		return fmt.Errorf("schemas did not match")
-	}
-
-	for i := 0; i < arr.NumRecords(); i++ {
-		arec, err := arr.Read()
-		if err != nil {
-			return fmt.Errorf("could not read record %d from ARROW file: %w", i, err)
-		}
-		jrec, err := jrr.Read()
-		if err != nil {
-			return fmt.Errorf("could not read record %d from JSON file: %w", i, err)
-		}
-		if !array.RecordApproxEqual(jrec, arec) {
-			return fmt.Errorf("record batch %d did not match\nJSON:\n%v\nARROW:\n%v",
-				i, jrec, arec,
-			)
-		}
-	}
-
-	if jn, an := jrr.NumRecords(), arr.NumRecords(); jn != an {
-		return fmt.Errorf("different number of record batches: %d (JSON) vs %d (Arrow)", jn, an)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
deleted file mode 100644
index 44e6aeb472f32..0000000000000
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestIntegration(t *testing.T) {
-	tempDir := t.TempDir()
-
-	const verbose = true
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			if name == "decimal128" {
-				t.Skip() // FIXME(sbinet): implement full decimal128 support
-			}
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			af1, err := os.CreateTemp(tempDir, "go-arrow-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af1.Close()
-
-			arrdata.WriteFile(t, af1, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowFile(t, af1, mem, recs[0].Schema(), recs)
-
-			aj, err := os.CreateTemp(tempDir, "arrow-json-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer aj.Close()
-
-			err = cnvToJSON(af1.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = validate(af1.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			af2, err := os.CreateTemp(tempDir, "go-arrow-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af2.Close()
-
-			err = cnvToARROW(af2.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = validate(af2.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			af2, err = os.Open(af2.Name())
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af2.Close()
-
-			arrdata.CheckArrowFile(t, af2, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-ls/main.go b/go/arrow/ipc/cmd/arrow-ls/main.go
deleted file mode 100644
index f461131786d02..0000000000000
--- a/go/arrow/ipc/cmd/arrow-ls/main.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Command arrow-ls displays the listing of an Arrow file.
-//
-// Examples:
-//
-//	$> arrow-ls ./testdata/primitives.data
-//	version: V4
-//	schema:
-//	  fields: 11
-//	    - bools: type=bool, nullable
-//	    - int8s: type=int8, nullable
-//	    - int16s: type=int16, nullable
-//	    - int32s: type=int32, nullable
-//	    - int64s: type=int64, nullable
-//	    - uint8s: type=uint8, nullable
-//	    - uint16s: type=uint16, nullable
-//	    - uint32s: type=uint32, nullable
-//	    - uint64s: type=uint64, nullable
-//	    - float32s: type=float32, nullable
-//	    - float64s: type=float64, nullable
-//	records: 3
-//
-//	$> gen-arrow-stream | arrow-ls
-//	schema:
-//	  fields: 11
-//	    - bools: type=bool, nullable
-//	    - int8s: type=int8, nullable
-//	    - int16s: type=int16, nullable
-//	    - int32s: type=int32, nullable
-//	    - int64s: type=int64, nullable
-//	    - uint8s: type=uint8, nullable
-//	    - uint16s: type=uint16, nullable
-//	    - uint32s: type=uint32, nullable
-//	    - uint64s: type=uint64, nullable
-//	    - float32s: type=float32, nullable
-//	    - float64s: type=float64, nullable
-//	records: 3
-package main
-
-import (
-	"bytes"
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-ls: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	var err error
-	switch flag.NArg() {
-	case 0:
-		err = processStream(os.Stdout, os.Stdin)
-	default:
-		err = processFiles(os.Stdout, flag.Args())
-	}
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w io.Writer, rin io.Reader) error {
-	mem := memory.NewGoAllocator()
-
-	for {
-		r, err := ipc.NewReader(rin, ipc.WithAllocator(mem))
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				return nil
-			}
-			return err
-		}
-
-		fmt.Fprintf(w, "%v\n", r.Schema())
-
-		nrecs := 0
-		for r.Next() {
-			nrecs++
-		}
-		fmt.Fprintf(w, "records: %d\n", nrecs)
-		r.Release()
-	}
-	return nil
-}
-
-func processFiles(w io.Writer, names []string) error {
-	for _, name := range names {
-		err := processFile(w, name)
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func processFile(w io.Writer, fname string) error {
-
-	f, err := os.Open(fname)
-	if err != nil {
-		return err
-	}
-	defer f.Close()
-
-	hdr := make([]byte, len(ipc.Magic))
-	_, err = io.ReadFull(f, hdr)
-	if err != nil {
-		return fmt.Errorf("could not read file header: %w", err)
-	}
-	f.Seek(0, io.SeekStart)
-
-	if !bytes.Equal(hdr, ipc.Magic) {
-		// try as a stream.
-		return processStream(w, f)
-	}
-
-	mem := memory.NewGoAllocator()
-
-	r, err := ipc.NewFileReader(f, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer r.Close()
-
-	fmt.Fprintf(w, "version: %v\n", r.Version())
-	fmt.Fprintf(w, "%v\n", r.Schema())
-	fmt.Fprintf(w, "records: %d\n", r.NumRecords())
-
-	return nil
-}
-
-func init() {
-	flag.Usage = func() {
-		fmt.Fprintf(os.Stderr, `Command arrow-ls displays the listing of an Arrow file.
-
-Usage: arrow-ls [OPTIONS] [FILE1 [FILE2 [...]]]
-
-Examples:
-
- $> arrow-ls ./testdata/primitives.data
- version: V4
- schema:
-   fields: 11
-     - bools: type=bool, nullable
-     - int8s: type=int8, nullable
-     - int16s: type=int16, nullable
-     - int32s: type=int32, nullable
-     - int64s: type=int64, nullable
-     - uint8s: type=uint8, nullable
-     - uint16s: type=uint16, nullable
-     - uint32s: type=uint32, nullable
-     - uint64s: type=uint64, nullable
-     - float32s: type=float32, nullable
-     - float64s: type=float64, nullable
- records: 3
-
- $> gen-arrow-stream | arrow-ls
- schema:
-   fields: 11
-     - bools: type=bool, nullable
-     - int8s: type=int8, nullable
-     - int16s: type=int16, nullable
-     - int32s: type=int32, nullable
-     - int64s: type=int64, nullable
-     - uint8s: type=uint8, nullable
-     - uint16s: type=uint16, nullable
-     - uint32s: type=uint32, nullable
-     - uint64s: type=uint64, nullable
-     - float32s: type=float32, nullable
-     - float64s: type=float64, nullable
- records: 3
-`)
-		os.Exit(0)
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-ls/main_test.go b/go/arrow/ipc/cmd/arrow-ls/main_test.go
deleted file mode 100644
index 6ec8ef862bc14..0000000000000
--- a/go/arrow/ipc/cmd/arrow-ls/main_test.go
+++ /dev/null
@@ -1,332 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestLsStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name string
-		want string
-	}{
-		{
-			name: "primitives",
-			want: `schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			name: "structs",
-			want: `schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			name: "lists",
-			want: `schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			name: "strings",
-			want: `schema:
-  fields: 2
-    - strings: type=utf8
-    - bytes: type=binary
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `schema:
-  fields: 1
-    - fixed_size_list_nullable: type=fixed_size_list<item: int32, nullable>[3], nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `schema:
-  fields: 11
-    - float16s: type=float16, nullable
-    - time32ms: type=time32[ms], nullable
-    - time32s: type=time32[s], nullable
-    - time64ns: type=time64[ns], nullable
-    - time64us: type=time64[us], nullable
-    - timestamp_s: type=timestamp[s, tz=UTC], nullable
-    - timestamp_ms: type=timestamp[ms, tz=UTC], nullable
-    - timestamp_us: type=timestamp[us, tz=UTC], nullable
-    - timestamp_ns: type=timestamp[ns, tz=UTC], nullable
-    - date32s: type=date32, nullable
-    - date64s: type=date64, nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-ls-stream-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				w := ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			f, err := os.Open(fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w := new(bytes.Buffer)
-			err = processStream(w, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
-
-func TestLsFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		stream bool
-		name   string
-		want   string
-	}{
-		{
-			stream: true,
-			name:   "primitives",
-			want: `schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			name: "primitives",
-			want: `version: V5
-schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			stream: true,
-			name:   "structs",
-			want: `schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			name: "structs",
-			want: `version: V5
-schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			stream: true,
-			name:   "lists",
-			want: `schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			name: "lists",
-			want: `version: V5
-schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_binaries",
-			want: `schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `version: V5
-schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-	} {
-		t.Run(fmt.Sprintf("%s-stream=%v", tc.name, tc.stream), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-ls-file-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				var w interface {
-					io.Closer
-					Write(arrow.Record) error
-				}
-
-				switch {
-				case tc.stream:
-					w = ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				default:
-					w, err = ipc.NewFileWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			w := new(bytes.Buffer)
-			err := processFile(w, fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
deleted file mode 100644
index 5c9b768995ec9..0000000000000
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
+++ /dev/null
@@ -1,72 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-stream-to-file: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	err := processStream(os.Stdout, os.Stdin)
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w *os.File, r io.Reader) error {
-	mem := memory.NewGoAllocator()
-
-	rr, err := ipc.NewReader(r, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-
-	ww, err := ipc.NewFileWriter(w, ipc.WithAllocator(mem), ipc.WithSchema(rr.Schema()))
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file writer: %w", err)
-	}
-	defer ww.Close()
-
-	_, err = arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not copy ARROW stream: %w", err)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close output ARROW file: %w", err)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
deleted file mode 100644
index 13c566f3593cd..0000000000000
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestStreamToFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-stream-to-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteStream(t, f, mem, recs[0].Schema(), recs)
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			o, err := os.CreateTemp(tempDir, "go-arrow-stream-to-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer o.Close()
-
-			err = processStream(o, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = o.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = o.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			arrdata.CheckArrowFile(t, o, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/compression.go b/go/arrow/ipc/compression.go
deleted file mode 100644
index 501d9b7c38159..0000000000000
--- a/go/arrow/ipc/compression.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/klauspost/compress/zstd"
-	"github.com/pierrec/lz4/v4"
-)
-
-type compressor interface {
-	MaxCompressedLen(n int) int
-	Reset(io.Writer)
-	io.WriteCloser
-	Type() flatbuf.CompressionType
-}
-
-type lz4Compressor struct {
-	*lz4.Writer
-}
-
-func (lz4Compressor) MaxCompressedLen(n int) int {
-	return lz4.CompressBlockBound(n)
-}
-
-func (lz4Compressor) Type() flatbuf.CompressionType {
-	return flatbuf.CompressionTypeLZ4_FRAME
-}
-
-type zstdCompressor struct {
-	*zstd.Encoder
-}
-
-// from zstd.h, ZSTD_COMPRESSBOUND
-func (zstdCompressor) MaxCompressedLen(len int) int {
-	debug.Assert(len >= 0, "MaxCompressedLen called with len less than 0")
-	extra := uint((uint(128<<10) - uint(len)) >> 11)
-	if len >= (128 << 10) {
-		extra = 0
-	}
-	return int(uint(len+(len>>8)) + extra)
-}
-
-func (zstdCompressor) Type() flatbuf.CompressionType {
-	return flatbuf.CompressionTypeZSTD
-}
-
-func getCompressor(codec flatbuf.CompressionType) compressor {
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		w := lz4.NewWriter(nil)
-		// options here chosen in order to match the C++ implementation
-		w.Apply(lz4.ChecksumOption(false), lz4.BlockSizeOption(lz4.Block64Kb))
-		return &lz4Compressor{w}
-	case flatbuf.CompressionTypeZSTD:
-		enc, err := zstd.NewWriter(nil)
-		if err != nil {
-			panic(err)
-		}
-		return zstdCompressor{enc}
-	}
-	return nil
-}
-
-type decompressor interface {
-	io.Reader
-	Reset(io.Reader)
-	Close()
-}
-
-type zstdDecompressor struct {
-	*zstd.Decoder
-}
-
-func (z *zstdDecompressor) Reset(r io.Reader) {
-	if err := z.Decoder.Reset(r); err != nil {
-		panic(err)
-	}
-}
-
-func (z *zstdDecompressor) Close() {
-	z.Decoder.Close()
-}
-
-type lz4Decompressor struct {
-	*lz4.Reader
-}
-
-func (z *lz4Decompressor) Close() {
-	z.Reader.Reset(nil)
-}
-
-func getDecompressor(codec flatbuf.CompressionType) decompressor {
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		return &lz4Decompressor{lz4.NewReader(nil)}
-	case flatbuf.CompressionTypeZSTD:
-		dec, err := zstd.NewReader(nil)
-		if err != nil {
-			panic(err)
-		}
-		return &zstdDecompressor{dec}
-	}
-	return nil
-}
-
-type bufferWriter struct {
-	buf *memory.Buffer
-	pos int
-}
-
-func (bw *bufferWriter) Write(p []byte) (n int, err error) {
-	if bw.pos+len(p) >= bw.buf.Cap() {
-		bw.buf.Reserve(bw.pos + len(p))
-	}
-	n = copy(bw.buf.Buf()[bw.pos:], p)
-	bw.pos += n
-	return
-}
diff --git a/go/arrow/ipc/endian_swap.go b/go/arrow/ipc/endian_swap.go
deleted file mode 100644
index f10adf5c13e7d..0000000000000
--- a/go/arrow/ipc/endian_swap.go
+++ /dev/null
@@ -1,166 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"errors"
-	"fmt"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// swap the endianness of the array's buffers as needed in-place to save
-// the cost of reallocation.
-//
-// assumes that nested data buffers are never re-used, if an *array.Data
-// child is re-used among the children or the dictionary then this might
-// end up double-swapping (putting it back into the original endianness).
-// if it is needed to support re-using the buffers, then this can be
-// re-factored to instead return a NEW array.Data object with newly
-// allocated buffers, rather than doing it in place.
-//
-// For now this is intended to be used by the IPC readers after loading
-// arrays from an IPC message which currently is guaranteed to not re-use
-// buffers between arrays.
-func swapEndianArrayData(data *array.Data) error {
-	if data.Offset() != 0 {
-		return errors.New("unsupported data format: data.offset != 0")
-	}
-	if err := swapType(data.DataType(), data); err != nil {
-		return err
-	}
-	return swapChildren(data.Children())
-}
-
-func swapChildren(children []arrow.ArrayData) (err error) {
-	for i := range children {
-		if err = swapEndianArrayData(children[i].(*array.Data)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-func swapType(dt arrow.DataType, data *array.Data) (err error) {
-	switch dt.ID() {
-	case arrow.BINARY, arrow.STRING:
-		swapOffsets(1, 32, data)
-		return
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		swapOffsets(1, 64, data)
-		return
-	case arrow.NULL, arrow.BOOL, arrow.INT8, arrow.UINT8,
-		arrow.FIXED_SIZE_BINARY, arrow.FIXED_SIZE_LIST, arrow.STRUCT:
-		return
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.Decimal128Type:
-		rawdata := arrow.Uint64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		length := data.Buffers()[1].Len() / arrow.Decimal128SizeBytes
-		for i := 0; i < length; i++ {
-			idx := i * 2
-			tmp := bits.ReverseBytes64(rawdata[idx])
-			rawdata[idx] = bits.ReverseBytes64(rawdata[idx+1])
-			rawdata[idx+1] = tmp
-		}
-	case *arrow.Decimal256Type:
-		rawdata := arrow.Uint64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		length := data.Buffers()[1].Len() / arrow.Decimal256SizeBytes
-		for i := 0; i < length; i++ {
-			idx := i * 4
-			tmp0 := bits.ReverseBytes64(rawdata[idx])
-			tmp1 := bits.ReverseBytes64(rawdata[idx+1])
-			tmp2 := bits.ReverseBytes64(rawdata[idx+2])
-			rawdata[idx] = bits.ReverseBytes64(rawdata[idx+3])
-			rawdata[idx+1] = tmp2
-			rawdata[idx+2] = tmp1
-			rawdata[idx+3] = tmp0
-		}
-	case arrow.UnionType:
-		if dt.Mode() == arrow.DenseMode {
-			swapOffsets(2, 32, data)
-		}
-	case *arrow.ListType:
-		swapOffsets(1, 32, data)
-	case *arrow.LargeListType:
-		swapOffsets(1, 64, data)
-	case *arrow.MapType:
-		swapOffsets(1, 32, data)
-	case *arrow.DayTimeIntervalType:
-		byteSwapBuffer(32, data.Buffers()[1])
-	case *arrow.MonthDayNanoIntervalType:
-		rawdata := arrow.MonthDayNanoIntervalTraits.CastFromBytes(data.Buffers()[1].Bytes())
-		for i, tmp := range rawdata {
-			rawdata[i].Days = int32(bits.ReverseBytes32(uint32(tmp.Days)))
-			rawdata[i].Months = int32(bits.ReverseBytes32(uint32(tmp.Months)))
-			rawdata[i].Nanoseconds = int64(bits.ReverseBytes64(uint64(tmp.Nanoseconds)))
-		}
-	case arrow.ExtensionType:
-		return swapType(dt.StorageType(), data)
-	case *arrow.DictionaryType:
-		// dictionary itself was already swapped in ReadDictionary calls
-		return swapType(dt.IndexType, data)
-	case arrow.FixedWidthDataType:
-		byteSwapBuffer(dt.BitWidth(), data.Buffers()[1])
-	default:
-		err = fmt.Errorf("%w: swapping endianness of %s", arrow.ErrNotImplemented, dt)
-	}
-
-	return
-}
-
-// this can get called on an invalid Array Data object by the IPC reader,
-// so we won't rely on the data.length and will instead rely on the buffer's
-// own size instead.
-func byteSwapBuffer(bw int, buf *memory.Buffer) {
-	if bw == 1 || buf == nil {
-		// if byte width == 1, no need to swap anything
-		return
-	}
-
-	switch bw {
-	case 16:
-		data := arrow.Uint16Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes16(data[i])
-		}
-	case 32:
-		data := arrow.Uint32Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes32(data[i])
-		}
-	case 64:
-		data := arrow.Uint64Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes64(data[i])
-		}
-	}
-}
-
-func swapOffsets(index int, bitWidth int, data *array.Data) {
-	if data.Buffers()[index] == nil || data.Buffers()[index].Len() == 0 {
-		return
-	}
-
-	// other than unions, offset has one more element than the data.length
-	// don't yet implement large types, so hardcode 32bit offsets for now
-	byteSwapBuffer(bitWidth, data.Buffers()[index])
-}
diff --git a/go/arrow/ipc/endian_swap_test.go b/go/arrow/ipc/endian_swap_test.go
deleted file mode 100644
index 498b7decad146..0000000000000
--- a/go/arrow/ipc/endian_swap_test.go
+++ /dev/null
@@ -1,300 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func AssertArrayDataEqualWithSwappedEndian(t *testing.T, target, expected arrow.ArrayData) bool {
-	assert.NoError(t, swapEndianArrayData(target.(*array.Data)))
-	swappedArray := array.MakeFromData(target)
-	defer swappedArray.Release()
-
-	expectedArray := array.MakeFromData(expected)
-	defer expectedArray.Release()
-
-	return assert.Truef(t, array.Equal(swappedArray, expectedArray), "got: %s, expected: %s\n", swappedArray, expectedArray)
-}
-
-func TestSwapEndianPrimitiveArrayData(t *testing.T) {
-	nullBuffer := memory.NewBufferBytes([]byte("\xff"))
-
-	tests := []struct {
-		dt              arrow.DataType
-		len             int
-		input, expected string
-	}{
-		{arrow.Null, 0, "", ""},
-		{arrow.PrimitiveTypes.Int32, 0, "", ""},
-		{arrow.FixedWidthTypes.Boolean, 8, "01234567", "01234567"},
-		{arrow.PrimitiveTypes.Int8, 8, "01234567", "01234567"},
-		{arrow.PrimitiveTypes.Uint16, 4, "01234567", "10325476"},
-		{arrow.PrimitiveTypes.Int32, 2, "01234567", "32107654"},
-		{arrow.PrimitiveTypes.Uint64, 1, "01234567", "76543210"},
-		{&arrow.Decimal128Type{Precision: 38, Scale: 10}, 1, "0123456789abcdef", "fedcba9876543210"},
-		{&arrow.Decimal256Type{Precision: 72, Scale: 10}, 1, "0123456789abcdef0123456789abcdef", "fedcba9876543210fedcba9876543210"},
-		{arrow.PrimitiveTypes.Float32, 2, "01200560", "02100650"},
-		{arrow.PrimitiveTypes.Float64, 1, "01200560", "06500210"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dt.String(), func(t *testing.T) {
-			var target, expected arrow.ArrayData
-			if tt.dt == arrow.Null {
-				target = array.NewData(arrow.Null, 0, []*memory.Buffer{nil}, nil, 0, 0)
-				expected = target
-			} else {
-				target = array.NewData(tt.dt, tt.len, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte(tt.input))}, nil, 0, 0)
-				expected = array.NewData(tt.dt, tt.len, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte(tt.expected))}, nil, 0, 0)
-				defer target.Release()
-				defer expected.Release()
-			}
-			AssertArrayDataEqualWithSwappedEndian(t, target, expected)
-		})
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int64, 1, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte("01234567"))}, nil, 0, 1)
-	assert.Error(t, swapEndianArrayData(data))
-}
-
-func replaceBuffer(data *array.Data, idx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	buffers := out.Buffers()
-	buffers[idx].Release()
-	buffers[idx] = memory.NewBufferBytes(bufdata)
-	return out
-}
-
-func replaceBuffersInChild(data *array.Data, childIdx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	// assume updating only buffer[1] in child data
-	children := out.Children()
-	child := children[childIdx].(*array.Data).Copy()
-	children[childIdx].Release()
-	child.Buffers()[1].Release()
-	child.Buffers()[1] = memory.NewBufferBytes(bufdata)
-	children[childIdx] = child
-
-	return out
-}
-
-func replaceBuffersInDict(data *array.Data, bufferIdx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	dictData := out.Dictionary().(*array.Data).Copy()
-	dictData.Buffers()[bufferIdx].Release()
-	dictData.Buffers()[bufferIdx] = memory.NewBufferBytes(bufdata)
-	defer dictData.Release()
-	out.SetDictionary(dictData)
-	return out
-}
-
-func TestSwapEndianArrayDataBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	// binary type assumes the json string data is base64 encoded
-	// MDEyMw== -> 0123
-	// NDU= -> 45
-	arr, _, err := array.FromJSON(mem, arrow.BinaryTypes.Binary, strings.NewReader(`["MDEyMw==", null, "NDU="]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var offsets []byte
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-	}
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ABCD", null, "EF"]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var offsets []byte
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayListType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[[0, 1, 2, 3], null, [4, 5]]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var (
-		offsets, data []byte
-	)
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-		data = []byte{0, 0, 0, 0, 1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0, 4, 0, 0, 0, 5, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-		data = []byte{0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0, 4, 0, 0, 0, 5}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	test = replaceBuffersInChild(test, 0, data)
-	defer test.Release()
-
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayFixedSizeList(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[[0, 1], null, [2, 3]]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var data []byte
-	if endian.IsBigEndian {
-		data = []byte{0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
-	} else {
-		data = []byte{0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffersInChild(expected, 0, data)
-	defer test.Release()
-
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayDictType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int16}
-	dict, _, err := array.FromJSON(mem, dt.ValueType, strings.NewReader(`[4, 5, 6, 7]`))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	indices, _, _ := array.FromJSON(mem, dt.IndexType, strings.NewReader("[0, 2, 3]"))
-	defer indices.Release()
-
-	arr := array.NewDictionaryArray(dt, indices, dict)
-	defer arr.Release()
-
-	var (
-		data1, data2 []byte
-	)
-	if endian.IsBigEndian {
-		data1 = []byte{0, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
-		data2 = []byte{4, 0, 5, 0, 6, 0, 7, 0}
-	} else {
-		data1 = []byte{0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3}
-		data2 = []byte{0, 4, 0, 5, 0, 6, 0, 7}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, data1)
-	defer test.Release()
-	test = replaceBuffersInDict(test, 1, data2)
-	defer test.Release()
-
-	// dictionary must be explicitly swapped!
-	assert.NoError(t, swapEndianArrayData(test.Dictionary().(*array.Data)))
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayStruct(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	), strings.NewReader(`[{"a": 4, "b": null}, {"a": null, "b": "foo"}]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var data1, data2 []byte
-	if endian.IsBigEndian {
-		data1 = []byte{4, 0, 0, 0, 0, 0, 0, 0}
-		data2 = []byte{0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0}
-	} else {
-		data1 = []byte{0, 0, 0, 4, 0, 0, 0, 0}
-		data2 = []byte{0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffersInChild(expected, 0, data1)
-	defer test.Release()
-	test = replaceBuffersInChild(test, 1, data2)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayExtensionType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arrInt16, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[0, 1, 2, 3]`))
-	defer arrInt16.Release()
-
-	extData := array.NewData(types.NewSmallintType(), arrInt16.Len(), arrInt16.Data().Buffers(), nil, 0, 0)
-	defer extData.Release()
-
-	arr := array.MakeFromData(extData)
-	defer arr.Release()
-
-	var data []byte
-	if endian.IsBigEndian {
-		data = []byte{0, 0, 1, 0, 2, 0, 3, 0}
-	} else {
-		data = []byte{0, 0, 0, 1, 0, 2, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, data)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
diff --git a/go/arrow/ipc/file_reader.go b/go/arrow/ipc/file_reader.go
deleted file mode 100644
index 947bbd474328f..0000000000000
--- a/go/arrow/ipc/file_reader.go
+++ /dev/null
@@ -1,770 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// FileReader is an Arrow file reader.
-type FileReader struct {
-	r ReadAtSeeker
-
-	footer struct {
-		offset int64
-		buffer *memory.Buffer
-		data   *flatbuf.Footer
-	}
-
-	// fields dictTypeMap
-	memo dictutils.Memo
-
-	schema *arrow.Schema
-	record arrow.Record
-
-	irec int   // current record index. used for the arrio.Reader interface
-	err  error // last error
-
-	mem            memory.Allocator
-	swapEndianness bool
-}
-
-// NewFileReader opens an Arrow file using the provided reader r.
-func NewFileReader(r ReadAtSeeker, opts ...Option) (*FileReader, error) {
-	var (
-		cfg = newConfig(opts...)
-		err error
-
-		f = FileReader{
-			r:    r,
-			memo: dictutils.NewMemo(),
-			mem:  cfg.alloc,
-		}
-	)
-
-	if cfg.footer.offset <= 0 {
-		cfg.footer.offset, err = f.r.Seek(0, io.SeekEnd)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could retrieve footer offset: %w", err)
-		}
-	}
-	f.footer.offset = cfg.footer.offset
-
-	err = f.readFooter()
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not decode footer: %w", err)
-	}
-
-	err = f.readSchema(cfg.ensureNativeEndian)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not decode schema: %w", err)
-	}
-
-	if cfg.schema != nil && !cfg.schema.Equal(f.schema) {
-		return nil, fmt.Errorf("arrow/ipc: inconsistent schema for reading (got: %v, want: %v)", f.schema, cfg.schema)
-	}
-
-	return &f, err
-}
-
-func (f *FileReader) readFooter() error {
-	var err error
-
-	if f.footer.offset <= int64(len(Magic)*2+4) {
-		return fmt.Errorf("arrow/ipc: file too small (size=%d)", f.footer.offset)
-	}
-
-	eof := int64(len(Magic) + 4)
-	buf := make([]byte, eof)
-	n, err := f.r.ReadAt(buf, f.footer.offset-eof)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read footer: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("arrow/ipc: could not read %d bytes from end of file", len(buf))
-	}
-
-	if !bytes.Equal(buf[4:], Magic) {
-		return errNotArrowFile
-	}
-
-	size := int64(binary.LittleEndian.Uint32(buf[:4]))
-	if size <= 0 || size+int64(len(Magic)*2+4) > f.footer.offset {
-		return errInconsistentFileMetadata
-	}
-
-	buf = make([]byte, size)
-	n, err = f.r.ReadAt(buf, f.footer.offset-size-eof)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read footer data: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("arrow/ipc: could not read %d bytes from footer data", len(buf))
-	}
-
-	f.footer.buffer = memory.NewBufferBytes(buf)
-	f.footer.data = flatbuf.GetRootAsFooter(buf, 0)
-	return err
-}
-
-func (f *FileReader) readSchema(ensureNativeEndian bool) error {
-	var (
-		err  error
-		kind dictutils.Kind
-	)
-
-	schema := f.footer.data.Schema(nil)
-	if schema == nil {
-		return fmt.Errorf("arrow/ipc: could not load schema from flatbuffer data")
-	}
-	f.schema, err = schemaFromFB(schema, &f.memo)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read schema: %w", err)
-	}
-
-	if ensureNativeEndian && !f.schema.IsNativeEndian() {
-		f.swapEndianness = true
-		f.schema = f.schema.WithEndianness(endian.NativeEndian)
-	}
-
-	for i := 0; i < f.NumDictionaries(); i++ {
-		blk, err := f.dict(i)
-		if err != nil {
-			return fmt.Errorf("arrow/ipc: could not read dictionary[%d]: %w", i, err)
-		}
-		switch {
-		case !bitutil.IsMultipleOf8(blk.Offset):
-			return fmt.Errorf("arrow/ipc: invalid file offset=%d for dictionary %d", blk.Offset, i)
-		case !bitutil.IsMultipleOf8(int64(blk.Meta)):
-			return fmt.Errorf("arrow/ipc: invalid file metadata=%d position for dictionary %d", blk.Meta, i)
-		case !bitutil.IsMultipleOf8(blk.Body):
-			return fmt.Errorf("arrow/ipc: invalid file body=%d position for dictionary %d", blk.Body, i)
-		}
-
-		msg, err := blk.NewMessage()
-		if err != nil {
-			return err
-		}
-
-		kind, err = readDictionary(&f.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), f.swapEndianness, f.mem)
-		if err != nil {
-			return err
-		}
-		if kind == dictutils.KindReplacement {
-			return errors.New("arrow/ipc: unsupported dictionary replacement in IPC file")
-		}
-	}
-
-	return err
-}
-
-func (f *FileReader) block(i int) (fileBlock, error) {
-	var blk flatbuf.Block
-	if !f.footer.data.RecordBatches(&blk, i) {
-		return fileBlock{}, fmt.Errorf("arrow/ipc: could not extract file block %d", i)
-	}
-
-	return fileBlock{
-		Offset: blk.Offset(),
-		Meta:   blk.MetaDataLength(),
-		Body:   blk.BodyLength(),
-		r:      f.r,
-		mem:    f.mem,
-	}, nil
-}
-
-func (f *FileReader) dict(i int) (fileBlock, error) {
-	var blk flatbuf.Block
-	if !f.footer.data.Dictionaries(&blk, i) {
-		return fileBlock{}, fmt.Errorf("arrow/ipc: could not extract dictionary block %d", i)
-	}
-
-	return fileBlock{
-		Offset: blk.Offset(),
-		Meta:   blk.MetaDataLength(),
-		Body:   blk.BodyLength(),
-		r:      f.r,
-		mem:    f.mem,
-	}, nil
-}
-
-func (f *FileReader) Schema() *arrow.Schema {
-	return f.schema
-}
-
-func (f *FileReader) NumDictionaries() int {
-	if f.footer.data == nil {
-		return 0
-	}
-	return f.footer.data.DictionariesLength()
-}
-
-func (f *FileReader) NumRecords() int {
-	return f.footer.data.RecordBatchesLength()
-}
-
-func (f *FileReader) Version() MetadataVersion {
-	return MetadataVersion(f.footer.data.Version())
-}
-
-// Close cleans up resources used by the File.
-// Close does not close the underlying reader.
-func (f *FileReader) Close() error {
-	if f.footer.data != nil {
-		f.footer.data = nil
-	}
-
-	if f.footer.buffer != nil {
-		f.footer.buffer.Release()
-		f.footer.buffer = nil
-	}
-
-	if f.record != nil {
-		f.record.Release()
-		f.record = nil
-	}
-	return nil
-}
-
-// Record returns the i-th record from the file.
-// The returned value is valid until the next call to Record.
-// Users need to call Retain on that Record to keep it valid for longer.
-func (f *FileReader) Record(i int) (arrow.Record, error) {
-	record, err := f.RecordAt(i)
-	if err != nil {
-		return nil, err
-	}
-
-	if f.record != nil {
-		f.record.Release()
-	}
-
-	f.record = record
-	return record, nil
-}
-
-// Record returns the i-th record from the file. Ownership is transferred to the
-// caller and must call Release() to free the memory. This method is safe to
-// call concurrently.
-func (f *FileReader) RecordAt(i int) (arrow.Record, error) {
-	if i < 0 || i > f.NumRecords() {
-		panic("arrow/ipc: record index out of bounds")
-	}
-
-	blk, err := f.block(i)
-	if err != nil {
-		return nil, err
-	}
-	switch {
-	case !bitutil.IsMultipleOf8(blk.Offset):
-		return nil, fmt.Errorf("arrow/ipc: invalid file offset=%d for record %d", blk.Offset, i)
-	case !bitutil.IsMultipleOf8(int64(blk.Meta)):
-		return nil, fmt.Errorf("arrow/ipc: invalid file metadata=%d position for record %d", blk.Meta, i)
-	case !bitutil.IsMultipleOf8(blk.Body):
-		return nil, fmt.Errorf("arrow/ipc: invalid file body=%d position for record %d", blk.Body, i)
-	}
-
-	msg, err := blk.NewMessage()
-	if err != nil {
-		return nil, err
-	}
-	defer msg.Release()
-
-	if msg.Type() != MessageRecordBatch {
-		return nil, fmt.Errorf("arrow/ipc: message %d is not a Record", i)
-	}
-
-	return newRecord(f.schema, &f.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), f.swapEndianness, f.mem), nil
-}
-
-// Read reads the current record from the underlying stream and an error, if any.
-// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-//
-// The returned record value is valid until the next call to Read.
-// Users need to call Retain on that Record to keep it valid for longer.
-func (f *FileReader) Read() (rec arrow.Record, err error) {
-	if f.irec == f.NumRecords() {
-		return nil, io.EOF
-	}
-	rec, f.err = f.Record(f.irec)
-	f.irec++
-	return rec, f.err
-}
-
-// ReadAt reads the i-th record from the underlying stream and an error, if any.
-func (f *FileReader) ReadAt(i int64) (arrow.Record, error) {
-	return f.Record(int(i))
-}
-
-func newRecord(schema *arrow.Schema, memo *dictutils.Memo, meta *memory.Buffer, body ReadAtSeeker, swapEndianness bool, mem memory.Allocator) arrow.Record {
-	var (
-		msg   = flatbuf.GetRootAsMessage(meta.Bytes(), 0)
-		md    flatbuf.RecordBatch
-		codec decompressor
-	)
-	initFB(&md, msg.Header)
-	rows := md.Length()
-
-	bodyCompress := md.Compression(nil)
-	if bodyCompress != nil {
-		codec = getDecompressor(bodyCompress.Codec())
-		defer codec.Close()
-	}
-
-	ctx := &arrayLoaderContext{
-		src: ipcSource{
-			meta:  &md,
-			r:     body,
-			codec: codec,
-			mem:   mem,
-		},
-		memo:    memo,
-		max:     kMaxNestingDepth,
-		version: MetadataVersion(msg.Version()),
-	}
-
-	pos := dictutils.NewFieldPos()
-	cols := make([]arrow.Array, schema.NumFields())
-	for i := 0; i < schema.NumFields(); i++ {
-		data := ctx.loadArray(schema.Field(i).Type)
-		defer data.Release()
-
-		if err := dictutils.ResolveFieldDict(memo, data, pos.Child(int32(i)), mem); err != nil {
-			panic(err)
-		}
-
-		if swapEndianness {
-			swapEndianArrayData(data.(*array.Data))
-		}
-
-		cols[i] = array.MakeFromData(data)
-		defer cols[i].Release()
-	}
-
-	return array.NewRecord(schema, cols, rows)
-}
-
-type ipcSource struct {
-	meta  *flatbuf.RecordBatch
-	r     ReadAtSeeker
-	codec decompressor
-	mem   memory.Allocator
-}
-
-func (src *ipcSource) buffer(i int) *memory.Buffer {
-	var buf flatbuf.Buffer
-	if !src.meta.Buffers(&buf, i) {
-		panic("arrow/ipc: buffer index out of bound")
-	}
-
-	if buf.Length() == 0 {
-		return memory.NewBufferBytes(nil)
-	}
-
-	raw := memory.NewResizableBuffer(src.mem)
-	if src.codec == nil {
-		raw.Resize(int(buf.Length()))
-		_, err := src.r.ReadAt(raw.Bytes(), buf.Offset())
-		if err != nil {
-			panic(err)
-		}
-	} else {
-		sr := io.NewSectionReader(src.r, buf.Offset(), buf.Length())
-		var uncompressedSize uint64
-
-		err := binary.Read(sr, binary.LittleEndian, &uncompressedSize)
-		if err != nil {
-			panic(err)
-		}
-
-		var r io.Reader = sr
-		// check for an uncompressed buffer
-		if int64(uncompressedSize) != -1 {
-			raw.Resize(int(uncompressedSize))
-			src.codec.Reset(sr)
-			r = src.codec
-		} else {
-			raw.Resize(int(buf.Length() - 8))
-		}
-
-		if _, err = io.ReadFull(r, raw.Bytes()); err != nil {
-			panic(err)
-		}
-	}
-
-	return raw
-}
-
-func (src *ipcSource) fieldMetadata(i int) *flatbuf.FieldNode {
-	var node flatbuf.FieldNode
-	if !src.meta.Nodes(&node, i) {
-		panic("arrow/ipc: field metadata out of bound")
-	}
-	return &node
-}
-
-func (src *ipcSource) variadicCount(i int) int64 {
-	return src.meta.VariadicBufferCounts(i)
-}
-
-type arrayLoaderContext struct {
-	src       ipcSource
-	ifield    int
-	ibuffer   int
-	ivariadic int
-	max       int
-	memo      *dictutils.Memo
-	version   MetadataVersion
-}
-
-func (ctx *arrayLoaderContext) field() *flatbuf.FieldNode {
-	field := ctx.src.fieldMetadata(ctx.ifield)
-	ctx.ifield++
-	return field
-}
-
-func (ctx *arrayLoaderContext) buffer() *memory.Buffer {
-	buf := ctx.src.buffer(ctx.ibuffer)
-	ctx.ibuffer++
-	return buf
-}
-
-func (ctx *arrayLoaderContext) variadic() int64 {
-	v := ctx.src.variadicCount(ctx.ivariadic)
-	ctx.ivariadic++
-	return v
-}
-
-func (ctx *arrayLoaderContext) loadArray(dt arrow.DataType) arrow.ArrayData {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return ctx.loadNull()
-
-	case *arrow.DictionaryType:
-		indices := ctx.loadPrimitive(dt.IndexType)
-		defer indices.Release()
-		return array.NewData(dt, indices.Len(), indices.Buffers(), indices.Children(), indices.NullN(), indices.Offset())
-
-	case *arrow.BooleanType,
-		*arrow.Int8Type, *arrow.Int16Type, *arrow.Int32Type, *arrow.Int64Type,
-		*arrow.Uint8Type, *arrow.Uint16Type, *arrow.Uint32Type, *arrow.Uint64Type,
-		*arrow.Float16Type, *arrow.Float32Type, *arrow.Float64Type,
-		*arrow.Decimal128Type, *arrow.Decimal256Type,
-		*arrow.Time32Type, *arrow.Time64Type,
-		*arrow.TimestampType,
-		*arrow.Date32Type, *arrow.Date64Type,
-		*arrow.MonthIntervalType, *arrow.DayTimeIntervalType, *arrow.MonthDayNanoIntervalType,
-		*arrow.DurationType:
-		return ctx.loadPrimitive(dt)
-
-	case *arrow.BinaryType, *arrow.StringType, *arrow.LargeStringType, *arrow.LargeBinaryType:
-		return ctx.loadBinary(dt)
-
-	case arrow.BinaryViewDataType:
-		return ctx.loadBinaryView(dt)
-
-	case *arrow.FixedSizeBinaryType:
-		return ctx.loadFixedSizeBinary(dt)
-
-	case *arrow.ListType:
-		return ctx.loadList(dt)
-
-	case *arrow.LargeListType:
-		return ctx.loadList(dt)
-
-	case *arrow.ListViewType:
-		return ctx.loadListView(dt)
-
-	case *arrow.LargeListViewType:
-		return ctx.loadListView(dt)
-
-	case *arrow.FixedSizeListType:
-		return ctx.loadFixedSizeList(dt)
-
-	case *arrow.StructType:
-		return ctx.loadStruct(dt)
-
-	case *arrow.MapType:
-		return ctx.loadMap(dt)
-
-	case arrow.ExtensionType:
-		storage := ctx.loadArray(dt.StorageType())
-		defer storage.Release()
-		return array.NewData(dt, storage.Len(), storage.Buffers(), storage.Children(), storage.NullN(), storage.Offset())
-
-	case *arrow.RunEndEncodedType:
-		field, buffers := ctx.loadCommon(dt.ID(), 1)
-		defer memory.ReleaseBuffers(buffers)
-
-		runEnds := ctx.loadChild(dt.RunEnds())
-		defer runEnds.Release()
-		values := ctx.loadChild(dt.Encoded())
-		defer values.Release()
-
-		return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{runEnds, values}, int(field.NullCount()), 0)
-
-	case arrow.UnionType:
-		return ctx.loadUnion(dt)
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: array type %T not handled yet", dt))
-	}
-}
-
-func (ctx *arrayLoaderContext) loadCommon(typ arrow.Type, nbufs int) (*flatbuf.FieldNode, []*memory.Buffer) {
-	buffers := make([]*memory.Buffer, 0, nbufs)
-	field := ctx.field()
-
-	var buf *memory.Buffer
-
-	if internal.HasValidityBitmap(typ, flatbuf.MetadataVersion(ctx.version)) {
-		switch field.NullCount() {
-		case 0:
-			ctx.ibuffer++
-		default:
-			buf = ctx.buffer()
-		}
-	}
-	buffers = append(buffers, buf)
-
-	return field, buffers
-}
-
-func (ctx *arrayLoaderContext) loadChild(dt arrow.DataType) arrow.ArrayData {
-	if ctx.max == 0 {
-		panic("arrow/ipc: nested type limit reached")
-	}
-	ctx.max--
-	sub := ctx.loadArray(dt)
-	ctx.max++
-	return sub
-}
-
-func (ctx *arrayLoaderContext) loadNull() arrow.ArrayData {
-	field := ctx.field()
-	return array.NewData(arrow.Null, int(field.Length()), nil, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadPrimitive(dt arrow.DataType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-
-	switch field.Length() {
-	case 0:
-		buffers = append(buffers, nil)
-		ctx.ibuffer++
-	default:
-		buffers = append(buffers, ctx.buffer())
-	}
-
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadBinary(dt arrow.DataType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 3)
-	buffers = append(buffers, ctx.buffer(), ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadBinaryView(dt arrow.DataType) arrow.ArrayData {
-	nVariadicBufs := ctx.variadic()
-	field, buffers := ctx.loadCommon(dt.ID(), 2+int(nVariadicBufs))
-	buffers = append(buffers, ctx.buffer())
-	for i := 0; i < int(nVariadicBufs); i++ {
-		buffers = append(buffers, ctx.buffer())
-	}
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadFixedSizeBinary(dt *arrow.FixedSizeBinaryType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadMap(dt *arrow.MapType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadList(dt arrow.ListLikeType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadListView(dt arrow.VarLenListLikeType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 3)
-	buffers = append(buffers, ctx.buffer(), ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadFixedSizeList(dt *arrow.FixedSizeListType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 1)
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadStruct(dt *arrow.StructType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 1)
-	defer memory.ReleaseBuffers(buffers)
-
-	subs := make([]arrow.ArrayData, dt.NumFields())
-	for i, f := range dt.Fields() {
-		subs[i] = ctx.loadChild(f.Type)
-	}
-	defer func() {
-		for i := range subs {
-			subs[i].Release()
-		}
-	}()
-
-	return array.NewData(dt, int(field.Length()), buffers, subs, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadUnion(dt arrow.UnionType) arrow.ArrayData {
-	// Sparse unions have 2 buffers (a nil validity bitmap, and the type ids)
-	nBuffers := 2
-	// Dense unions have a third buffer, the offsets
-	if dt.Mode() == arrow.DenseMode {
-		nBuffers = 3
-	}
-
-	field, buffers := ctx.loadCommon(dt.ID(), nBuffers)
-	if field.NullCount() != 0 && buffers[0] != nil {
-		panic("arrow/ipc: cannot read pre-1.0.0 union array with top-level validity bitmap")
-	}
-
-	switch field.Length() {
-	case 0:
-		buffers = append(buffers, memory.NewBufferBytes([]byte{}))
-		ctx.ibuffer++
-		if dt.Mode() == arrow.DenseMode {
-			buffers = append(buffers, nil)
-			ctx.ibuffer++
-		}
-	default:
-		buffers = append(buffers, ctx.buffer())
-		if dt.Mode() == arrow.DenseMode {
-			buffers = append(buffers, ctx.buffer())
-		}
-	}
-
-	defer memory.ReleaseBuffers(buffers)
-	subs := make([]arrow.ArrayData, dt.NumFields())
-	for i, f := range dt.Fields() {
-		subs[i] = ctx.loadChild(f.Type)
-	}
-	defer func() {
-		for i := range subs {
-			subs[i].Release()
-		}
-	}()
-	return array.NewData(dt, int(field.Length()), buffers, subs, 0, 0)
-}
-
-func readDictionary(memo *dictutils.Memo, meta *memory.Buffer, body ReadAtSeeker, swapEndianness bool, mem memory.Allocator) (dictutils.Kind, error) {
-	var (
-		msg   = flatbuf.GetRootAsMessage(meta.Bytes(), 0)
-		md    flatbuf.DictionaryBatch
-		data  flatbuf.RecordBatch
-		codec decompressor
-	)
-	initFB(&md, msg.Header)
-
-	md.Data(&data)
-	bodyCompress := data.Compression(nil)
-	if bodyCompress != nil {
-		codec = getDecompressor(bodyCompress.Codec())
-		defer codec.Close()
-	}
-
-	id := md.Id()
-	// look up the dictionary value type, which must have been added to the
-	// memo already before calling this function
-	valueType, ok := memo.Type(id)
-	if !ok {
-		return 0, fmt.Errorf("arrow/ipc: no dictionary type found with id: %d", id)
-	}
-
-	ctx := &arrayLoaderContext{
-		src: ipcSource{
-			meta:  &data,
-			codec: codec,
-			r:     body,
-			mem:   mem,
-		},
-		memo: memo,
-		max:  kMaxNestingDepth,
-	}
-
-	dict := ctx.loadArray(valueType)
-	defer dict.Release()
-
-	if swapEndianness {
-		swapEndianArrayData(dict.(*array.Data))
-	}
-
-	if md.IsDelta() {
-		memo.AddDelta(id, dict)
-		return dictutils.KindDelta, nil
-	}
-	if memo.AddOrReplace(id, dict) {
-		return dictutils.KindNew, nil
-	}
-	return dictutils.KindReplacement, nil
-}
diff --git a/go/arrow/ipc/file_test.go b/go/arrow/ipc/file_test.go
deleted file mode 100644
index b9a4547a5126a..0000000000000
--- a/go/arrow/ipc/file_test.go
+++ /dev/null
@@ -1,117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"bytes"
-	"fmt"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteFile(t, f, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowFile(t, f, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowConcurrentFile(t, f, mem, recs[0].Schema(), recs)
-		})
-	}
-}
-
-func TestFileCompressed(t *testing.T) {
-	tempDir := t.TempDir()
-
-	compressTypes := []flatbuf.CompressionType{
-		flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD,
-	}
-
-	for _, codec := range compressTypes {
-		for name, recs := range arrdata.Records {
-			for _, n := range []int{0, 1, 2, 3} {
-				t.Run(fmt.Sprintf("%s compress concurrency %d", name, n), func(t *testing.T) {
-					mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-					defer mem.AssertSize(t, 0)
-
-					f, err := os.CreateTemp(tempDir, "go-arrow-file-")
-					if err != nil {
-						t.Fatal(err)
-					}
-					defer f.Close()
-
-					arrdata.WriteFileCompressed(t, f, mem, recs[0].Schema(), recs, codec, n)
-					arrdata.CheckArrowFile(t, f, mem, recs[0].Schema(), recs)
-					arrdata.CheckArrowConcurrentFile(t, f, mem, recs[0].Schema(), recs)
-				})
-			}
-		}
-	}
-}
-
-func TestFileEmbedsStream(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recs := arrdata.Records["primitives"]
-	schema := recs[0].Schema()
-
-	var buf bytes.Buffer
-	w, err := ipc.NewFileWriter(&buf, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	require.NoError(t, err)
-	defer w.Close()
-
-	for _, rec := range recs {
-		require.NoError(t, w.Write(rec))
-	}
-
-	require.NoError(t, w.Close())
-
-	// we should be able to read a valid ipc stream within the ipc file
-
-	// create an ipc stream reader, skipping the file magic+padding bytes
-	rdr, err := ipc.NewReader(bytes.NewReader(buf.Bytes()[8:]), ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	require.NoError(t, err)
-	defer rdr.Release()
-
-	// the stream reader should know to stop before the footer if the EOS indicator is properly written
-	var i int
-	for rdr.Next() {
-		rec := rdr.Record()
-		require.Truef(t, array.RecordEqual(rec, recs[i]), "records[%d] differ", i)
-		i++
-	}
-
-	require.NoError(t, rdr.Err())
-}
diff --git a/go/arrow/ipc/file_writer.go b/go/arrow/ipc/file_writer.go
deleted file mode 100644
index 9a3d7d3dbeb02..0000000000000
--- a/go/arrow/ipc/file_writer.go
+++ /dev/null
@@ -1,354 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// PayloadWriter is an interface for injecting a different payloadwriter
-// allowing more reusability with the Writer object with other scenarios,
-// such as with Flight data
-type PayloadWriter interface {
-	Start() error
-	WritePayload(Payload) error
-	Close() error
-}
-
-type fileWriter struct {
-	streamWriter
-
-	schema *arrow.Schema
-	dicts  []fileBlock
-	recs   []fileBlock
-}
-
-func (w *fileWriter) Start() error {
-	var err error
-
-	// only necessary to align to 8-byte boundary at the start of the file
-	_, err = w.Write(Magic)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write magic Arrow bytes: %w", err)
-	}
-
-	err = w.align(kArrowIPCAlignment)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not align start block: %w", err)
-	}
-
-	return w.streamWriter.Start()
-}
-
-func (w *fileWriter) WritePayload(p Payload) error {
-	blk := fileBlock{Offset: w.pos, Meta: 0, Body: p.size}
-	n, err := writeIPCPayload(w, p)
-	if err != nil {
-		return err
-	}
-
-	blk.Meta = int32(n)
-
-	switch flatbuf.MessageHeader(p.msg) {
-	case flatbuf.MessageHeaderDictionaryBatch:
-		w.dicts = append(w.dicts, blk)
-	case flatbuf.MessageHeaderRecordBatch:
-		w.recs = append(w.recs, blk)
-	}
-
-	return nil
-}
-
-func (w *fileWriter) Close() error {
-	var err error
-
-	if err = w.streamWriter.Close(); err != nil {
-		return err
-	}
-
-	pos := w.pos
-	if err = writeFileFooter(w.schema, w.dicts, w.recs, w); err != nil {
-		return fmt.Errorf("arrow/ipc: could not write file footer: %w", err)
-	}
-
-	size := w.pos - pos
-	if size <= 0 {
-		return fmt.Errorf("arrow/ipc: invalid file footer size (size=%d)", size)
-	}
-
-	buf := make([]byte, 4)
-	binary.LittleEndian.PutUint32(buf, uint32(size))
-	_, err = w.Write(buf)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write file footer size: %w", err)
-	}
-
-	_, err = w.Write(Magic)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write Arrow magic bytes: %w", err)
-	}
-
-	return nil
-}
-
-func (w *fileWriter) align(align int32) error {
-	remainder := paddedLength(w.pos, align) - w.pos
-	if remainder == 0 {
-		return nil
-	}
-
-	_, err := w.Write(paddingBytes[:int(remainder)])
-	return err
-}
-
-func writeIPCPayload(w io.Writer, p Payload) (int, error) {
-	n, err := writeMessage(p.meta, kArrowIPCAlignment, w)
-	if err != nil {
-		return n, err
-	}
-
-	// now write the buffers
-	for _, buf := range p.body {
-		var (
-			size    int64
-			padding int64
-		)
-
-		// the buffer might be null if we are handling zero row lengths.
-		if buf != nil {
-			size = int64(buf.Len())
-			padding = bitutil.CeilByte64(size) - size
-		}
-
-		if size > 0 {
-			_, err = w.Write(buf.Bytes())
-			if err != nil {
-				return n, fmt.Errorf("arrow/ipc: could not write payload message body: %w", err)
-			}
-		}
-
-		if padding > 0 {
-			_, err = w.Write(paddingBytes[:padding])
-			if err != nil {
-				return n, fmt.Errorf("arrow/ipc: could not write payload message padding: %w", err)
-			}
-		}
-	}
-
-	return n, err
-}
-
-// Payload is the underlying message object which is passed to the payload writer
-// for actually writing out ipc messages
-type Payload struct {
-	msg  MessageType
-	meta *memory.Buffer
-	body []*memory.Buffer
-	size int64 // length of body
-}
-
-// Meta returns the buffer containing the metadata for this payload,
-// callers must call Release on the buffer
-func (p *Payload) Meta() *memory.Buffer {
-	if p.meta != nil {
-		p.meta.Retain()
-	}
-	return p.meta
-}
-
-// SerializeBody serializes the body buffers and writes them to the provided
-// writer.
-func (p *Payload) SerializeBody(w io.Writer) error {
-	for _, data := range p.body {
-		if data == nil {
-			continue
-		}
-
-		size := int64(data.Len())
-		padding := bitutil.CeilByte64(size) - size
-		if size > 0 {
-			if _, err := w.Write(data.Bytes()); err != nil {
-				return fmt.Errorf("arrow/ipc: could not write payload message body: %w", err)
-			}
-
-			if padding > 0 {
-				if _, err := w.Write(paddingBytes[:padding]); err != nil {
-					return fmt.Errorf("arrow/ipc: could not write payload message padding bytes: %w", err)
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func (p *Payload) Release() {
-	if p.meta != nil {
-		p.meta.Release()
-		p.meta = nil
-	}
-	for i, b := range p.body {
-		if b == nil {
-			continue
-		}
-		b.Release()
-		p.body[i] = nil
-	}
-}
-
-type payloads []Payload
-
-func (ps payloads) Release() {
-	for i := range ps {
-		ps[i].Release()
-	}
-}
-
-// FileWriter is an Arrow file writer.
-type FileWriter struct {
-	w io.Writer
-
-	mem memory.Allocator
-
-	headerStarted bool
-	footerWritten bool
-
-	pw PayloadWriter
-
-	schema          *arrow.Schema
-	mapper          dictutils.Mapper
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-
-	// map of the last written dictionaries by id
-	// so we can avoid writing the same dictionary over and over
-	// also needed for correctness when writing IPC format which
-	// does not allow replacements or deltas.
-	lastWrittenDicts map[int64]arrow.Array
-}
-
-// NewFileWriter opens an Arrow file using the provided writer w.
-func NewFileWriter(w io.Writer, opts ...Option) (*FileWriter, error) {
-	var (
-		cfg = newConfig(opts...)
-		err error
-	)
-
-	f := FileWriter{
-		w:               w,
-		pw:              &fileWriter{streamWriter: streamWriter{w: w}, schema: cfg.schema},
-		mem:             cfg.alloc,
-		schema:          cfg.schema,
-		codec:           cfg.codec,
-		compressNP:      cfg.compressNP,
-		minSpaceSavings: cfg.minSpaceSavings,
-		compressors:     make([]compressor, cfg.compressNP),
-	}
-
-	return &f, err
-}
-
-func (f *FileWriter) Close() error {
-	err := f.checkStarted()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write empty file: %w", err)
-	}
-
-	if f.footerWritten {
-		return nil
-	}
-
-	err = f.pw.Close()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not close payload writer: %w", err)
-	}
-	f.footerWritten = true
-
-	return nil
-}
-
-func (f *FileWriter) Write(rec arrow.Record) error {
-	schema := rec.Schema()
-	if schema == nil || !schema.Equal(f.schema) {
-		return errInconsistentSchema
-	}
-
-	if err := f.checkStarted(); err != nil {
-		return fmt.Errorf("arrow/ipc: could not write header: %w", err)
-	}
-
-	const allow64b = true
-	var (
-		data = Payload{msg: MessageRecordBatch}
-		enc  = newRecordEncoder(
-			f.mem, 0, kMaxNestingDepth, allow64b, f.codec, f.compressNP, f.minSpaceSavings, f.compressors,
-		)
-	)
-	defer data.Release()
-
-	err := writeDictionaryPayloads(f.mem, rec, true, false, &f.mapper, f.lastWrittenDicts, f.pw, enc)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: failure writing dictionary batches: %w", err)
-	}
-
-	enc.reset()
-	if err := enc.Encode(&data, rec); err != nil {
-		return fmt.Errorf("arrow/ipc: could not encode record to payload: %w", err)
-	}
-
-	return f.pw.WritePayload(data)
-}
-
-func (f *FileWriter) checkStarted() error {
-	if !f.headerStarted {
-		return f.start()
-	}
-	return nil
-}
-
-func (f *FileWriter) start() error {
-	f.headerStarted = true
-	err := f.pw.Start()
-	if err != nil {
-		return err
-	}
-
-	f.mapper.ImportSchema(f.schema)
-	f.lastWrittenDicts = make(map[int64]arrow.Array)
-
-	// write out schema payloads
-	ps := payloadFromSchema(f.schema, f.mem, &f.mapper)
-	defer ps.Release()
-
-	for _, data := range ps {
-		err = f.pw.WritePayload(data)
-		if err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/ipc.go b/go/arrow/ipc/ipc.go
deleted file mode 100644
index 76d12f061efa5..0000000000000
--- a/go/arrow/ipc/ipc.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const (
-	errNotArrowFile             = errString("arrow/ipc: not an Arrow file")
-	errInconsistentFileMetadata = errString("arrow/ipc: file is smaller than indicated metadata size")
-	errInconsistentSchema       = errString("arrow/ipc: tried to write record batch with different schema")
-	errMaxRecursion             = errString("arrow/ipc: max recursion depth reached")
-	errBigArray                 = errString("arrow/ipc: array larger than 2^31-1 in length")
-
-	kArrowAlignment    = 64 // buffers are padded to 64b boundaries (for SIMD)
-	kTensorAlignment   = 64 // tensors are padded to 64b boundaries
-	kArrowIPCAlignment = 8  // align on 8b boundaries in IPC
-)
-
-var (
-	paddingBytes  [kArrowAlignment]byte
-	kEOS                 = [8]byte{0xFF, 0xFF, 0xFF, 0xFF, 0, 0, 0, 0} // end of stream message
-	kIPCContToken uint32 = 0xFFFFFFFF                                  // 32b continuation indicator for FlatBuffers 8b alignment
-)
-
-func paddedLength(nbytes int64, alignment int32) int64 {
-	align := int64(alignment)
-	return ((nbytes + align - 1) / align) * align
-}
-
-type errString string
-
-func (s errString) Error() string {
-	return string(s)
-}
-
-type ReadAtSeeker interface {
-	io.Reader
-	io.Seeker
-	io.ReaderAt
-}
-
-type config struct {
-	alloc  memory.Allocator
-	schema *arrow.Schema
-	footer struct {
-		offset int64
-	}
-	codec              flatbuf.CompressionType
-	compressNP         int
-	ensureNativeEndian bool
-	noAutoSchema       bool
-	emitDictDeltas     bool
-	minSpaceSavings    *float64
-}
-
-func newConfig(opts ...Option) *config {
-	cfg := &config{
-		alloc:              memory.NewGoAllocator(),
-		codec:              -1, // uncompressed
-		ensureNativeEndian: true,
-		compressNP:         1,
-	}
-
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return cfg
-}
-
-// Option is a functional option to configure opening or creating Arrow files
-// and streams.
-type Option func(*config)
-
-// WithFooterOffset specifies the Arrow footer position in bytes.
-func WithFooterOffset(offset int64) Option {
-	return func(cfg *config) {
-		cfg.footer.offset = offset
-	}
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg *config) {
-		cfg.alloc = mem
-	}
-}
-
-// WithSchema specifies the Arrow schema to be used for reading or writing.
-func WithSchema(schema *arrow.Schema) Option {
-	return func(cfg *config) {
-		cfg.schema = schema
-	}
-}
-
-// WithLZ4 tells the writer to use LZ4 Frame compression on the data
-// buffers before writing. Requires >= Arrow 1.0.0 to read/decompress
-func WithLZ4() Option {
-	return func(cfg *config) {
-		cfg.codec = flatbuf.CompressionTypeLZ4_FRAME
-	}
-}
-
-// WithZstd tells the writer to use ZSTD compression on the data
-// buffers before writing. Requires >= Arrow 1.0.0 to read/decompress
-func WithZstd() Option {
-	return func(cfg *config) {
-		cfg.codec = flatbuf.CompressionTypeZSTD
-	}
-}
-
-// WithCompressConcurrency specifies a number of goroutines to spin up for
-// concurrent compression of the body buffers when writing compress IPC records.
-// If n <= 1 then compression will be done serially without goroutine
-// parallelization. Default is 1.
-func WithCompressConcurrency(n int) Option {
-	return func(cfg *config) {
-		if n <= 0 {
-			n = 1
-		}
-		cfg.compressNP = n
-	}
-}
-
-// WithEnsureNativeEndian specifies whether or not to automatically byte-swap
-// buffers with endian-sensitive data if the schema's endianness is not the
-// platform-native endianness. This includes all numeric types, temporal types,
-// decimal types, as well as the offset buffers of variable-sized binary and
-// list-like types.
-//
-// This is only relevant to ipc Reader objects, not to writers. This defaults
-// to true.
-func WithEnsureNativeEndian(v bool) Option {
-	return func(cfg *config) {
-		cfg.ensureNativeEndian = v
-	}
-}
-
-// WithDelayedReadSchema alters the ipc.Reader behavior to delay attempting
-// to read the schema from the stream until the first call to Next instead
-// of immediately attempting to read a schema from the stream when created.
-func WithDelayReadSchema(v bool) Option {
-	return func(cfg *config) {
-		cfg.noAutoSchema = v
-	}
-}
-
-// WithDictionaryDeltas specifies whether or not to emit dictionary deltas.
-func WithDictionaryDeltas(v bool) Option {
-	return func(cfg *config) {
-		cfg.emitDictDeltas = v
-	}
-}
-
-// WithMinSpaceSavings specifies a percentage of space savings for
-// compression to be applied to buffers.
-//
-// Space savings is calculated as (1.0 - compressedSize / uncompressedSize).
-//
-// For example, if minSpaceSavings = 0.1, a 100-byte body buffer won't
-// undergo compression if its expected compressed size exceeds 90 bytes.
-// If this option is unset, compression will be used indiscriminately. If
-// no codec was supplied, this option is ignored.
-//
-// Values outside of the range [0,1] are handled as errors.
-//
-// Note that enabling this option may result in unreadable data for Arrow
-// Go and C++ versions prior to 12.0.0.
-func WithMinSpaceSavings(savings float64) Option {
-	return func(cfg *config) {
-		cfg.minSpaceSavings = &savings
-	}
-}
-
-var (
-	_ arrio.Reader = (*Reader)(nil)
-	_ arrio.Writer = (*Writer)(nil)
-	_ arrio.Reader = (*FileReader)(nil)
-	_ arrio.Writer = (*FileWriter)(nil)
-
-	_ arrio.ReaderAt = (*FileReader)(nil)
-)
diff --git a/go/arrow/ipc/ipc_test.go b/go/arrow/ipc/ipc_test.go
deleted file mode 100644
index 7df9bc8c28bb0..0000000000000
--- a/go/arrow/ipc/ipc_test.go
+++ /dev/null
@@ -1,690 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"io"
-	"math/rand"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestArrow12072(t *testing.T) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "idx", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "A", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "B", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "C", Type: arrow.BinaryTypes.String},
-		},
-		nil, // no metadata
-	)
-	mem := memory.NewGoAllocator()
-	counter := int64(0)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	const size = 3
-	for i := 0; i < size; i++ {
-		b.Field(0).(*array.Int64Builder).AppendValues([]int64{counter}, nil)
-		counter++
-		b.Field(1).(*array.Int64Builder).AppendValues(
-			[]int64{int64(rand.Intn(100))}, nil)
-		b.Field(2).(*array.Int64Builder).AppendValues(
-			[]int64{int64(rand.Intn(100))}, nil)
-		b.Field(3).(*array.StringBuilder).AppendValues(
-			[]string{strconv.Itoa(rand.Intn(100))}, nil)
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec})
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 1)
-	defer tr.Release()
-
-	data := []arrow.Record{}
-	for tr.Next() {
-		rec := tr.Record()
-		rec.Retain()
-		defer rec.Release()
-		data = append(data, rec)
-	}
-
-	// tests writing out and then reading back in slices of the same record of length 1 each
-	// testing the bug that was reported in ARROW-12072 involving offsets for string arrays
-	// and correct truncation of slices when writing ipc FixedWidthDataType
-	for _, rec := range data {
-		var buf []byte
-		assert.NotPanics(t, func() {
-			var output bytes.Buffer
-			w := ipc.NewWriter(&output, ipc.WithSchema(rec.Schema()))
-			assert.NoError(t, w.Write(rec))
-			assert.NoError(t, w.Close())
-			buf = output.Bytes()
-		})
-
-		assert.NotPanics(t, func() {
-			rdr, err := ipc.NewReader(bytes.NewReader(buf))
-			assert.NoError(t, err)
-			for rdr.Next() {
-				out := rdr.Record()
-				assert.Truef(t, array.RecordEqual(rec, out), "expected: %s\ngot: %s\n", rec, out)
-			}
-			assert.NoError(t, rdr.Err())
-		})
-	}
-}
-
-type testMessageReader struct {
-	counter int
-}
-
-func (r *testMessageReader) Message() (*ipc.Message, error) {
-	if r.counter == 0 {
-		r.counter++
-		// return schema message
-		schema := arrow.NewSchema([]arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Int32},
-		}, nil)
-		var buf bytes.Buffer
-		writer := ipc.NewWriter(&buf, ipc.WithSchema(schema))
-		if err := writer.Close(); err != nil {
-			return nil, err
-		}
-		reader := ipc.NewMessageReader(&buf)
-		return reader.Message()
-	}
-	// return error
-	return nil, errors.New("Error!")
-}
-func (r *testMessageReader) Release() {}
-func (r *testMessageReader) Retain()  {}
-
-// Ensure that if the MessageReader errors, we get the error from Read
-func TestArrow14769(t *testing.T) {
-	reader, err := ipc.NewReaderFromMessageReader(&testMessageReader{})
-	if err != nil {
-		t.Fatal(err)
-	}
-	_, err = reader.Read()
-	if err == nil || errors.Is(err, io.EOF) {
-		t.Fatalf("Expected an error, got %s", err)
-	}
-	if err.Error() != "Error!" {
-		t.Fatalf("Expected an error, not %s", err)
-	}
-}
-
-func makeTestCol(t *testing.T, alloc memory.Allocator, vals []int32, nulls []bool) (arrow.Field, *arrow.Column) {
-	t.Helper()
-	fld := arrow.Field{Name: "test", Type: arrow.PrimitiveTypes.Int32, Nullable: nulls != nil}
-
-	b := array.NewInt32Builder(alloc)
-	defer b.Release()
-	b.AppendValues(vals, nulls)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	chk := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{arr})
-	defer chk.Release()
-
-	return fld, arrow.NewColumn(fld, chk)
-}
-
-func makeTestTable(t *testing.T, fld arrow.Field, col *arrow.Column) arrow.Table {
-	t.Helper()
-	schema := arrow.NewSchema([]arrow.Field{fld}, nil)
-	return array.NewTable(schema, []arrow.Column{*col}, -1)
-}
-
-func writeThenReadTable(t *testing.T, alloc memory.Allocator, table arrow.Table) arrow.Table {
-	t.Helper()
-
-	// write the table into a buffer
-	buf := new(bytes.Buffer)
-	writer := ipc.NewWriter(buf, ipc.WithAllocator(alloc), ipc.WithSchema(table.Schema()))
-	tr := array.NewTableReader(table, 0)
-	defer tr.Release()
-	for tr.Next() {
-		require.NoError(t, writer.Write(tr.Record()))
-	}
-	require.NoError(t, writer.Close())
-
-	// read the table from the buffer
-	reader, err := ipc.NewReader(buf, ipc.WithAllocator(alloc))
-	require.NoError(t, err)
-	defer reader.Release()
-	records := make([]arrow.Record, 0)
-	for reader.Next() {
-		rec := reader.Record()
-		rec.Retain()
-		defer rec.Release()
-		records = append(records, rec)
-	}
-	require.NoError(t, reader.Err())
-	return array.NewTableFromRecords(reader.Schema(), records)
-}
-
-func TestWriteColumnWithOffset(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	t.Run("some nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{true, false, true, false, true, false, true, false, true, false, true}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		assert.True(t, colArr.IsNull(0))
-		assert.False(t, colArr.IsNull(1))
-		assert.True(t, colArr.IsNull(2))
-		assert.False(t, colArr.IsNull(3))
-		assert.True(t, colArr.IsNull(4))
-	})
-
-	t.Run("all nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{false, false, false, false, false, false, false, false, false, false, false}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		for i := 0; i < colArr.Len(); i++ {
-			assert.True(t, colArr.IsNull(i))
-		}
-	})
-
-	t.Run("no nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{true, true, true, true, true, true, true, true, true, true, true}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		for i := 0; i < colArr.Len(); i++ {
-			assert.False(t, colArr.IsNull(i))
-		}
-	})
-}
-
-func TestIPCTable(t *testing.T) {
-	pool := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{{Name: "f1", Type: arrow.PrimitiveTypes.Int32}}, nil)
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4}, []bool{true, true, false, true})
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1})
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	ipcWriter := ipc.NewWriter(&buf, ipc.WithAllocator(pool), ipc.WithSchema(schema))
-	defer func(ipcWriter *ipc.Writer) {
-		err := ipcWriter.Close()
-		if err != nil {
-			t.Fatalf("error closing ipc writer: %s", err.Error())
-		}
-	}(ipcWriter)
-
-	t.Log("Reading data before")
-	tr := array.NewTableReader(tbl, 2)
-	defer tr.Release()
-
-	n := 0
-	for tr.Next() {
-		rec := tr.Record()
-		for i, col := range rec.Columns() {
-			t.Logf("rec[%d][%q]: %v nulls:%v\n", n,
-				rec.ColumnName(i), col, col.NullBitmapBytes())
-		}
-		n++
-		err := ipcWriter.Write(rec)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	t.Log("Reading data after")
-	ipcReader, err := ipc.NewReader(bytes.NewReader(buf.Bytes()), ipc.WithAllocator(pool))
-	if err != nil {
-		panic(err)
-	}
-	n = 0
-	for ipcReader.Next() {
-		rec := ipcReader.Record()
-		for i, col := range rec.Columns() {
-			t.Logf("rec[%d][%q]: %v nulls:%v\n", n,
-				rec.ColumnName(i), col, col.NullBitmapBytes())
-		}
-		n++
-	}
-}
-
-// ARROW-18317
-func TestDictionary(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	// A schema with a single dictionary field
-	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Uint16,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}}}, nil)
-
-	// IPC writer and reader
-	var bufWriter bytes.Buffer
-	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(false))
-	defer ipcWriter.Close()
-
-	bufReader := bytes.NewReader([]byte{})
-	var ipcReader *ipc.Reader
-
-	bldr := array.NewBuilder(pool, schema.Field(0).Type)
-	defer bldr.Release()
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	// Create a first record with field = "value_0"
-	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err := record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	require.JSONEq(t, string(expectedJson), string(json))
-
-	// Create a second record with field = "value_1"
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
-	arr = bldr.NewArray()
-	defer arr.Release()
-	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
-
-	// record, _, err = array.RecordFromJSON(pool, schema, strings.NewReader(`[{"field": ["value_1"]}]`))
-	// require.NoError(t, err)
-	defer record.Release()
-
-	expectedJson, err = record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	// field = "value_0" but should be "value_1"
-	require.JSONEq(t, string(expectedJson), string(json))
-	require.NoError(t, ipcReader.Err())
-	ipcReader.Release()
-}
-
-// ARROW-18326
-func TestDictionaryDeltas(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	// A schema with a single dictionary field
-	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Uint16,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}}}, nil)
-
-	// IPC writer and reader
-	var bufWriter bytes.Buffer
-	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(true))
-	defer ipcWriter.Close()
-
-	bufReader := bytes.NewReader([]byte{})
-	var ipcReader *ipc.Reader
-
-	bldr := array.NewBuilder(pool, schema.Field(0).Type)
-	defer bldr.Release()
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	// Create a first record with field = "value_0"
-	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err := record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	require.JSONEq(t, string(expectedJson), string(json))
-
-	// Create a second record with field = "value_1"
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
-	arr = bldr.NewArray()
-	defer arr.Release()
-	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err = record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	// field = "value_0" but should be "value_1"
-	require.JSONEq(t, string(expectedJson), string(json))
-	require.NoError(t, ipcReader.Err())
-	ipcReader.Release()
-}
-
-// Encode and decode a record over a tuple of IPC writer and reader.
-// IPC writer and reader are the same from one call to another.
-func encodeDecodeIpcStream(t *testing.T,
-	record arrow.Record,
-	bufWriter *bytes.Buffer, ipcWriter *ipc.Writer,
-	bufReader *bytes.Reader, ipcReader *ipc.Reader) ([]byte, *ipc.Reader, error) {
-
-	// Serialize the record via an ipc writer
-	if err := ipcWriter.Write(record); err != nil {
-		return nil, ipcReader, err
-	}
-	serializedRecord := bufWriter.Bytes()
-	bufWriter.Reset()
-
-	// Deserialize the record via an ipc reader
-	bufReader.Reset(serializedRecord)
-	if ipcReader == nil {
-		newIpcReader, err := ipc.NewReader(bufReader)
-		if err != nil {
-			return nil, newIpcReader, err
-		}
-		ipcReader = newIpcReader
-	}
-	ipcReader.Next()
-	record = ipcReader.Record()
-
-	// Return the decoded record as a json string
-	json, err := record.MarshalJSON()
-	if err != nil {
-		return nil, ipcReader, err
-	}
-	return json, ipcReader, nil
-}
-
-func Example_mapSlice() {
-	mem := memory.DefaultAllocator
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "map",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
-		[{"key": "index1", "value": "main2"}],
-		[{"key": "index3", "value": "main4"}, {"key": "tag_int", "value": ""}],
-		[{"key":"index5","value":"main6"},{"key":"tag_int","value":""}],
-		[{"key":"index6","value":"main7"},{"key":"tag_int","value":""}],
-		[{"key":"index7","value":"main8"},{"key":"tag_int","value":""}],
-		[{"key":"index8","value":"main9"}]
-	]`))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-	rec2 := rec.NewSlice(1, 2)
-	defer rec2.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	if err := w.Write(rec2); err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-
-	r, err := ipc.NewReader(&buf)
-	if err != nil {
-		panic(err)
-	}
-	defer r.Release()
-
-	r.Next()
-	fmt.Println(r.Record())
-
-	// Output:
-	// record:
-	//   schema:
-	//   fields: 1
-	//     - map: type=map<utf8, utf8, items_nullable>
-	//   rows: 1
-	//   col[0][map]: [{["index3" "tag_int"] ["main4" ""]}]
-}
-
-func Example_listSlice() {
-	mem := memory.DefaultAllocator
-	dt := arrow.ListOf(arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "list",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
-		["index1"], 
-		["index3", "tag_int"], ["index5", "tag_int"],
-		["index6", "tag_int"], ["index7", "tag_int"], 
-		["index7", "tag_int"],
-		["index8"]
-	]`))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-	rec2 := rec.NewSlice(1, 2)
-	defer rec2.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	if err := w.Write(rec2); err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-
-	r, err := ipc.NewReader(&buf)
-	if err != nil {
-		panic(err)
-	}
-	defer r.Release()
-
-	r.Next()
-	fmt.Println(r.Record())
-
-	// Output:
-	// record:
-	//   schema:
-	//   fields: 1
-	//     - list: type=list<item: utf8, nullable>
-	//   rows: 1
-	//   col[0][list]: [["index3" "tag_int"]]
-}
-
-func TestIpcEmptyMap(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "map",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	require.NoError(t, w.Write(rec))
-	assert.NoError(t, w.Close())
-
-	r, err := ipc.NewReader(&buf)
-	require.NoError(t, err)
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	assert.Zero(t, r.Record().NumRows())
-	assert.True(t, arrow.TypeEqual(dt, r.Record().Column(0).DataType()))
-}
-
-// GH-41993
-func TestArrowBinaryIPCWriterTruncatedVOffsets(t *testing.T) {
-	var buf bytes.Buffer
-	buf.WriteString("apple")
-	buf.WriteString("pear")
-	buf.WriteString("banana")
-	values := buf.Bytes()
-
-	offsets := []int32{5, 9, 15} // <-- only "pear" and "banana"
-	voffsets := arrow.Int32Traits.CastToBytes(offsets)
-
-	validity := []byte{0}
-	bitutil.SetBit(validity, 0)
-	bitutil.SetBit(validity, 1)
-
-	data := array.NewData(
-		arrow.BinaryTypes.String,
-		2, // <-- only "pear" and "banana"
-		[]*memory.Buffer{
-			memory.NewBufferBytes(validity),
-			memory.NewBufferBytes(voffsets),
-			memory.NewBufferBytes(values),
-		},
-		nil,
-		0,
-		0,
-	)
-
-	str := array.NewStringData(data)
-	require.Equal(t, 2, str.Len())
-	require.Equal(t, "pear", str.Value(0))
-	require.Equal(t, "banana", str.Value(1))
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name:     "string",
-			Type:     arrow.BinaryTypes.String,
-			Nullable: true,
-		},
-	}, nil)
-	record := array.NewRecord(schema, []arrow.Array{str}, 2)
-
-	var output bytes.Buffer
-	writer := ipc.NewWriter(&output, ipc.WithSchema(schema))
-
-	require.NoError(t, writer.Write(record))
-	require.NoError(t, writer.Close())
-
-	reader, err := ipc.NewReader(bytes.NewReader(output.Bytes()), ipc.WithSchema(schema))
-	require.NoError(t, err)
-	defer reader.Release()
-
-	require.True(t, reader.Next())
-	require.NoError(t, reader.Err())
-
-	rec := reader.Record()
-	require.EqualValues(t, 1, rec.NumCols())
-	require.EqualValues(t, 2, rec.NumRows())
-
-	col, ok := rec.Column(0).(*array.String)
-	require.True(t, ok)
-	require.Equal(t, "pear", col.Value(0))
-	require.Equal(t, "banana", col.Value(1))
-
-	require.False(t, reader.Next())
-}
diff --git a/go/arrow/ipc/message.go b/go/arrow/ipc/message.go
deleted file mode 100644
index 897f031791b2b..0000000000000
--- a/go/arrow/ipc/message.go
+++ /dev/null
@@ -1,242 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// MetadataVersion represents the Arrow metadata version.
-type MetadataVersion flatbuf.MetadataVersion
-
-const (
-	MetadataV1 = MetadataVersion(flatbuf.MetadataVersionV1) // version for Arrow Format-0.1.0
-	MetadataV2 = MetadataVersion(flatbuf.MetadataVersionV2) // version for Arrow Format-0.2.0
-	MetadataV3 = MetadataVersion(flatbuf.MetadataVersionV3) // version for Arrow Format-0.3.0 to 0.7.1
-	MetadataV4 = MetadataVersion(flatbuf.MetadataVersionV4) // version for >= Arrow Format-0.8.0
-	MetadataV5 = MetadataVersion(flatbuf.MetadataVersionV5) // version for >= Arrow Format-1.0.0, backward compatible with v4
-)
-
-func (m MetadataVersion) String() string {
-	if v, ok := flatbuf.EnumNamesMetadataVersion[flatbuf.MetadataVersion(m)]; ok {
-		return v
-	}
-	return fmt.Sprintf("MetadataVersion(%d)", int16(m))
-}
-
-// MessageType represents the type of Message in an Arrow format.
-type MessageType flatbuf.MessageHeader
-
-const (
-	MessageNone            = MessageType(flatbuf.MessageHeaderNONE)
-	MessageSchema          = MessageType(flatbuf.MessageHeaderSchema)
-	MessageDictionaryBatch = MessageType(flatbuf.MessageHeaderDictionaryBatch)
-	MessageRecordBatch     = MessageType(flatbuf.MessageHeaderRecordBatch)
-	MessageTensor          = MessageType(flatbuf.MessageHeaderTensor)
-	MessageSparseTensor    = MessageType(flatbuf.MessageHeaderSparseTensor)
-)
-
-func (m MessageType) String() string {
-	if v, ok := flatbuf.EnumNamesMessageHeader[flatbuf.MessageHeader(m)]; ok {
-		return v
-	}
-	return fmt.Sprintf("MessageType(%d)", int(m))
-}
-
-// Message is an IPC message, including metadata and body.
-type Message struct {
-	refCount int64
-	msg      *flatbuf.Message
-	meta     *memory.Buffer
-	body     *memory.Buffer
-}
-
-// NewMessage creates a new message from the metadata and body buffers.
-// NewMessage panics if any of these buffers is nil.
-func NewMessage(meta, body *memory.Buffer) *Message {
-	if meta == nil || body == nil {
-		panic("arrow/ipc: nil buffers")
-	}
-	meta.Retain()
-	body.Retain()
-	return &Message{
-		refCount: 1,
-		msg:      flatbuf.GetRootAsMessage(meta.Bytes(), 0),
-		meta:     meta,
-		body:     body,
-	}
-}
-
-func newMessageFromFB(meta *flatbuf.Message, body *memory.Buffer) *Message {
-	if meta == nil || body == nil {
-		panic("arrow/ipc: nil buffers")
-	}
-	body.Retain()
-	return &Message{
-		refCount: 1,
-		msg:      meta,
-		meta:     memory.NewBufferBytes(meta.Table().Bytes),
-		body:     body,
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (msg *Message) Retain() {
-	atomic.AddInt64(&msg.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (msg *Message) Release() {
-	debug.Assert(atomic.LoadInt64(&msg.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&msg.refCount, -1) == 0 {
-		msg.meta.Release()
-		msg.body.Release()
-		msg.msg = nil
-		msg.meta = nil
-		msg.body = nil
-	}
-}
-
-func (msg *Message) Version() MetadataVersion {
-	return MetadataVersion(msg.msg.Version())
-}
-
-func (msg *Message) Type() MessageType {
-	return MessageType(msg.msg.HeaderType())
-}
-
-func (msg *Message) BodyLen() int64 {
-	return msg.msg.BodyLength()
-}
-
-type MessageReader interface {
-	Message() (*Message, error)
-	Release()
-	Retain()
-}
-
-// MessageReader reads messages from an io.Reader.
-type messageReader struct {
-	r io.Reader
-
-	refCount int64
-	msg      *Message
-
-	mem memory.Allocator
-}
-
-// NewMessageReader returns a reader that reads messages from an input stream.
-func NewMessageReader(r io.Reader, opts ...Option) MessageReader {
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return &messageReader{r: r, refCount: 1, mem: cfg.alloc}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *messageReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *messageReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.msg != nil {
-			r.msg.Release()
-			r.msg = nil
-		}
-	}
-}
-
-// Message returns the current message that has been extracted from the
-// underlying stream.
-// It is valid until the next call to Message.
-func (r *messageReader) Message() (*Message, error) {
-	var buf = make([]byte, 4)
-	_, err := io.ReadFull(r.r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read continuation indicator: %w", err)
-	}
-	var (
-		cid    = binary.LittleEndian.Uint32(buf)
-		msgLen int32
-	)
-	switch cid {
-	case 0:
-		// EOS message.
-		return nil, io.EOF // FIXME(sbinet): send nil instead? or a special EOS error?
-	case kIPCContToken:
-		_, err = io.ReadFull(r.r, buf)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could not read message length: %w", err)
-		}
-		msgLen = int32(binary.LittleEndian.Uint32(buf))
-		if msgLen == 0 {
-			// optional 0 EOS control message
-			return nil, io.EOF // FIXME(sbinet): send nil instead? or a special EOS error?
-		}
-
-	default:
-		// ARROW-6314: backwards compatibility for reading old IPC
-		// messages produced prior to version 0.15.0
-		msgLen = int32(cid)
-	}
-
-	buf = make([]byte, msgLen)
-	_, err = io.ReadFull(r.r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message metadata: %w", err)
-	}
-
-	meta := flatbuf.GetRootAsMessage(buf, 0)
-	bodyLen := meta.BodyLength()
-
-	body := memory.NewResizableBuffer(r.mem)
-	defer body.Release()
-	body.Resize(int(bodyLen))
-
-	_, err = io.ReadFull(r.r, body.Bytes())
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message body: %w", err)
-	}
-
-	if r.msg != nil {
-		r.msg.Release()
-		r.msg = nil
-	}
-	r.msg = newMessageFromFB(meta, body)
-
-	return r.msg, nil
-}
diff --git a/go/arrow/ipc/message_test.go b/go/arrow/ipc/message_test.go
deleted file mode 100644
index e5760c6f70719..0000000000000
--- a/go/arrow/ipc/message_test.go
+++ /dev/null
@@ -1,103 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"errors"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestMessageReaderBodyInAllocator(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	const numRecords = 3
-	buf := writeRecordsIntoBuffer(t, numRecords)
-	r := NewMessageReader(buf, WithAllocator(mem))
-	defer r.Release()
-
-	msgs := make([]*Message, 0)
-	for {
-		m, err := r.Message()
-		if errors.Is(err, io.EOF) {
-			break
-		}
-		if err != nil {
-			t.Fatal(err)
-		}
-		m.Retain()
-		msgs = append(msgs, m)
-	}
-	if len(msgs) != numRecords+1 {
-		t.Fatalf("expected %d messages but got %d", numRecords+1, len(msgs))
-	}
-
-	if mem.CurrentAlloc() <= 0 {
-		t.Fatal("message bodies should have been allocated")
-	}
-
-	for _, m := range msgs {
-		m.Release()
-	}
-}
-
-func writeRecordsIntoBuffer(t *testing.T, numRecords int) *bytes.Buffer {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	s, recs := getTestRecords(mem, numRecords)
-	buf := new(bytes.Buffer)
-	w := NewWriter(buf, WithAllocator(mem), WithSchema(s))
-	for _, rec := range recs {
-		err := w.Write(rec)
-		rec.Release()
-		if err != nil {
-			t.Fatal(err)
-		}
-	}
-	if err := w.Close(); err != nil {
-		t.Fatal(err)
-	}
-	return buf
-}
-
-func getTestRecords(mem memory.Allocator, numRecords int) (*arrow.Schema, []arrow.Record) {
-	meta := arrow.NewMetadata([]string{}, []string{})
-	s := arrow.NewSchema([]arrow.Field{
-		{Name: "test-col", Type: arrow.PrimitiveTypes.Int64},
-	}, &meta)
-
-	builder := array.NewRecordBuilder(mem, s)
-	defer builder.Release()
-
-	recs := make([]arrow.Record, numRecords)
-	for i := 0; i < len(recs); i++ {
-		col := builder.Field(0).(*array.Int64Builder)
-		for i := 0; i < 10; i++ {
-			col.Append(int64(i))
-		}
-		recs[i] = builder.NewRecord()
-	}
-
-	return s, recs
-}
diff --git a/go/arrow/ipc/metadata.go b/go/arrow/ipc/metadata.go
deleted file mode 100644
index ba90c993885d6..0000000000000
--- a/go/arrow/ipc/metadata.go
+++ /dev/null
@@ -1,1317 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// Magic string identifying an Apache Arrow file.
-var Magic = []byte("ARROW1")
-
-const (
-	currentMetadataVersion = MetadataV5
-	minMetadataVersion     = MetadataV4
-
-	// constants for the extension type metadata keys for the type name and
-	// any extension metadata to be passed to deserialize.
-	ExtensionTypeKeyName     = "ARROW:extension:name"
-	ExtensionMetadataKeyName = "ARROW:extension:metadata"
-
-	// ARROW-109: We set this number arbitrarily to help catch user mistakes. For
-	// deeply nested schemas, it is expected the user will indicate explicitly the
-	// maximum allowed recursion depth
-	kMaxNestingDepth = 64
-)
-
-type startVecFunc func(b *flatbuffers.Builder, n int) flatbuffers.UOffsetT
-
-type fieldMetadata struct {
-	Len    int64
-	Nulls  int64
-	Offset int64
-}
-
-type bufferMetadata struct {
-	Offset int64 // relative offset into the memory page to the starting byte of the buffer
-	Len    int64 // absolute length in bytes of the buffer
-}
-
-type fileBlock struct {
-	Offset int64
-	Meta   int32
-	Body   int64
-
-	r   io.ReaderAt
-	mem memory.Allocator
-}
-
-func fileBlocksToFB(b *flatbuffers.Builder, blocks []fileBlock, start startVecFunc) flatbuffers.UOffsetT {
-	start(b, len(blocks))
-	for i := len(blocks) - 1; i >= 0; i-- {
-		blk := blocks[i]
-		flatbuf.CreateBlock(b, blk.Offset, blk.Meta, blk.Body)
-	}
-
-	return b.EndVector(len(blocks))
-}
-
-func (blk fileBlock) NewMessage() (*Message, error) {
-	var (
-		err  error
-		buf  []byte
-		body *memory.Buffer
-		meta *memory.Buffer
-		r    = blk.section()
-	)
-
-	meta = memory.NewResizableBuffer(blk.mem)
-	meta.Resize(int(blk.Meta))
-	defer meta.Release()
-
-	buf = meta.Bytes()
-	_, err = io.ReadFull(r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message metadata: %w", err)
-	}
-
-	prefix := 0
-	switch binary.LittleEndian.Uint32(buf) {
-	case 0:
-	case kIPCContToken:
-		prefix = 8
-	default:
-		// ARROW-6314: backwards compatibility for reading old IPC
-		// messages produced prior to version 0.15.0
-		prefix = 4
-	}
-
-	// drop buf-size already known from blk.Meta
-	meta = memory.SliceBuffer(meta, prefix, int(blk.Meta)-prefix)
-	defer meta.Release()
-
-	body = memory.NewResizableBuffer(blk.mem)
-	defer body.Release()
-	body.Resize(int(blk.Body))
-	buf = body.Bytes()
-	_, err = io.ReadFull(r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message body: %w", err)
-	}
-
-	return NewMessage(meta, body), nil
-}
-
-func (blk fileBlock) section() io.Reader {
-	return io.NewSectionReader(blk.r, blk.Offset, int64(blk.Meta)+blk.Body)
-}
-
-func unitFromFB(unit flatbuf.TimeUnit) arrow.TimeUnit {
-	switch unit {
-	case flatbuf.TimeUnitSECOND:
-		return arrow.Second
-	case flatbuf.TimeUnitMILLISECOND:
-		return arrow.Millisecond
-	case flatbuf.TimeUnitMICROSECOND:
-		return arrow.Microsecond
-	case flatbuf.TimeUnitNANOSECOND:
-		return arrow.Nanosecond
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid flatbuf.TimeUnit(%d) value", unit))
-	}
-}
-
-func unitToFB(unit arrow.TimeUnit) flatbuf.TimeUnit {
-	switch unit {
-	case arrow.Second:
-		return flatbuf.TimeUnitSECOND
-	case arrow.Millisecond:
-		return flatbuf.TimeUnitMILLISECOND
-	case arrow.Microsecond:
-		return flatbuf.TimeUnitMICROSECOND
-	case arrow.Nanosecond:
-		return flatbuf.TimeUnitNANOSECOND
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid arrow.TimeUnit(%d) value", unit))
-	}
-}
-
-// initFB is a helper function to handle flatbuffers' polymorphism.
-func initFB(t interface {
-	Table() flatbuffers.Table
-	Init([]byte, flatbuffers.UOffsetT)
-}, f func(tbl *flatbuffers.Table) bool) {
-	tbl := t.Table()
-	if !f(&tbl) {
-		panic(fmt.Errorf("arrow/ipc: could not initialize %T from flatbuffer", t))
-	}
-	t.Init(tbl.Bytes, tbl.Pos)
-}
-
-func fieldFromFB(field *flatbuf.Field, pos dictutils.FieldPos, memo *dictutils.Memo) (arrow.Field, error) {
-	var (
-		err error
-		o   arrow.Field
-	)
-
-	o.Name = string(field.Name())
-	o.Nullable = field.Nullable()
-	o.Metadata, err = metadataFromFB(field)
-	if err != nil {
-		return o, err
-	}
-
-	n := field.ChildrenLength()
-	children := make([]arrow.Field, n)
-	for i := range children {
-		var childFB flatbuf.Field
-		if !field.Children(&childFB, i) {
-			return o, fmt.Errorf("arrow/ipc: could not load field child %d", i)
-
-		}
-		child, err := fieldFromFB(&childFB, pos.Child(int32(i)), memo)
-		if err != nil {
-			return o, fmt.Errorf("arrow/ipc: could not convert field child %d: %w", i, err)
-		}
-		children[i] = child
-	}
-
-	o.Type, err = typeFromFB(field, pos, children, &o.Metadata, memo)
-	if err != nil {
-		return o, fmt.Errorf("arrow/ipc: could not convert field type: %w", err)
-	}
-
-	return o, nil
-}
-
-func fieldToFB(b *flatbuffers.Builder, pos dictutils.FieldPos, field arrow.Field, memo *dictutils.Mapper) flatbuffers.UOffsetT {
-	var visitor = fieldVisitor{b: b, memo: memo, pos: pos, meta: make(map[string]string)}
-	return visitor.result(field)
-}
-
-type fieldVisitor struct {
-	b      *flatbuffers.Builder
-	memo   *dictutils.Mapper
-	pos    dictutils.FieldPos
-	dtype  flatbuf.Type
-	offset flatbuffers.UOffsetT
-	kids   []flatbuffers.UOffsetT
-	meta   map[string]string
-}
-
-func (fv *fieldVisitor) visit(field arrow.Field) {
-	dt := field.Type
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		fv.dtype = flatbuf.TypeNull
-		flatbuf.NullStart(fv.b)
-		fv.offset = flatbuf.NullEnd(fv.b)
-
-	case *arrow.BooleanType:
-		fv.dtype = flatbuf.TypeBool
-		flatbuf.BoolStart(fv.b)
-		fv.offset = flatbuf.BoolEnd(fv.b)
-
-	case *arrow.Uint8Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint16Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint32Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint64Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Int8Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int16Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int32Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int64Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Float16Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Float32Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Float64Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Decimal128Type:
-		fv.dtype = flatbuf.TypeDecimal
-		flatbuf.DecimalStart(fv.b)
-		flatbuf.DecimalAddPrecision(fv.b, dt.Precision)
-		flatbuf.DecimalAddScale(fv.b, dt.Scale)
-		flatbuf.DecimalAddBitWidth(fv.b, 128)
-		fv.offset = flatbuf.DecimalEnd(fv.b)
-
-	case *arrow.Decimal256Type:
-		fv.dtype = flatbuf.TypeDecimal
-		flatbuf.DecimalStart(fv.b)
-		flatbuf.DecimalAddPrecision(fv.b, dt.Precision)
-		flatbuf.DecimalAddScale(fv.b, dt.Scale)
-		flatbuf.DecimalAddBitWidth(fv.b, 256)
-		fv.offset = flatbuf.DecimalEnd(fv.b)
-
-	case *arrow.FixedSizeBinaryType:
-		fv.dtype = flatbuf.TypeFixedSizeBinary
-		flatbuf.FixedSizeBinaryStart(fv.b)
-		flatbuf.FixedSizeBinaryAddByteWidth(fv.b, int32(dt.ByteWidth))
-		fv.offset = flatbuf.FixedSizeBinaryEnd(fv.b)
-
-	case *arrow.BinaryType:
-		fv.dtype = flatbuf.TypeBinary
-		flatbuf.BinaryStart(fv.b)
-		fv.offset = flatbuf.BinaryEnd(fv.b)
-
-	case *arrow.LargeBinaryType:
-		fv.dtype = flatbuf.TypeLargeBinary
-		flatbuf.LargeBinaryStart(fv.b)
-		fv.offset = flatbuf.LargeBinaryEnd(fv.b)
-
-	case *arrow.StringType:
-		fv.dtype = flatbuf.TypeUtf8
-		flatbuf.Utf8Start(fv.b)
-		fv.offset = flatbuf.Utf8End(fv.b)
-
-	case *arrow.LargeStringType:
-		fv.dtype = flatbuf.TypeLargeUtf8
-		flatbuf.LargeUtf8Start(fv.b)
-		fv.offset = flatbuf.LargeUtf8End(fv.b)
-
-	case *arrow.BinaryViewType:
-		fv.dtype = flatbuf.TypeBinaryView
-		flatbuf.BinaryViewStart(fv.b)
-		fv.offset = flatbuf.BinaryViewEnd(fv.b)
-
-	case *arrow.StringViewType:
-		fv.dtype = flatbuf.TypeUtf8View
-		flatbuf.Utf8ViewStart(fv.b)
-		fv.offset = flatbuf.Utf8ViewEnd(fv.b)
-
-	case *arrow.Date32Type:
-		fv.dtype = flatbuf.TypeDate
-		flatbuf.DateStart(fv.b)
-		flatbuf.DateAddUnit(fv.b, flatbuf.DateUnitDAY)
-		fv.offset = flatbuf.DateEnd(fv.b)
-
-	case *arrow.Date64Type:
-		fv.dtype = flatbuf.TypeDate
-		flatbuf.DateStart(fv.b)
-		flatbuf.DateAddUnit(fv.b, flatbuf.DateUnitMILLISECOND)
-		fv.offset = flatbuf.DateEnd(fv.b)
-
-	case *arrow.Time32Type:
-		fv.dtype = flatbuf.TypeTime
-		flatbuf.TimeStart(fv.b)
-		flatbuf.TimeAddUnit(fv.b, unitToFB(dt.Unit))
-		flatbuf.TimeAddBitWidth(fv.b, 32)
-		fv.offset = flatbuf.TimeEnd(fv.b)
-
-	case *arrow.Time64Type:
-		fv.dtype = flatbuf.TypeTime
-		flatbuf.TimeStart(fv.b)
-		flatbuf.TimeAddUnit(fv.b, unitToFB(dt.Unit))
-		flatbuf.TimeAddBitWidth(fv.b, 64)
-		fv.offset = flatbuf.TimeEnd(fv.b)
-
-	case *arrow.TimestampType:
-		fv.dtype = flatbuf.TypeTimestamp
-		unit := unitToFB(dt.Unit)
-		var tz flatbuffers.UOffsetT
-		if dt.TimeZone != "" {
-			tz = fv.b.CreateString(dt.TimeZone)
-		}
-		flatbuf.TimestampStart(fv.b)
-		flatbuf.TimestampAddUnit(fv.b, unit)
-		flatbuf.TimestampAddTimezone(fv.b, tz)
-		fv.offset = flatbuf.TimestampEnd(fv.b)
-
-	case *arrow.StructType:
-		fv.dtype = flatbuf.TypeStruct_
-		offsets := make([]flatbuffers.UOffsetT, dt.NumFields())
-		for i, field := range dt.Fields() {
-			offsets[i] = fieldToFB(fv.b, fv.pos.Child(int32(i)), field, fv.memo)
-		}
-		flatbuf.Struct_Start(fv.b)
-		for i := len(offsets) - 1; i >= 0; i-- {
-			fv.b.PrependUOffsetT(offsets[i])
-		}
-		fv.offset = flatbuf.Struct_End(fv.b)
-		fv.kids = append(fv.kids, offsets...)
-
-	case *arrow.ListType:
-		fv.dtype = flatbuf.TypeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.ListStart(fv.b)
-		fv.offset = flatbuf.ListEnd(fv.b)
-
-	case *arrow.LargeListType:
-		fv.dtype = flatbuf.TypeLargeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.LargeListStart(fv.b)
-		fv.offset = flatbuf.LargeListEnd(fv.b)
-
-	case *arrow.ListViewType:
-		fv.dtype = flatbuf.TypeListView
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.ListViewStart(fv.b)
-		fv.offset = flatbuf.ListViewEnd(fv.b)
-
-	case *arrow.LargeListViewType:
-		fv.dtype = flatbuf.TypeLargeListView
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.LargeListViewStart(fv.b)
-		fv.offset = flatbuf.LargeListViewEnd(fv.b)
-
-	case *arrow.FixedSizeListType:
-		fv.dtype = flatbuf.TypeFixedSizeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.FixedSizeListStart(fv.b)
-		flatbuf.FixedSizeListAddListSize(fv.b, dt.Len())
-		fv.offset = flatbuf.FixedSizeListEnd(fv.b)
-
-	case *arrow.MonthIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitYEAR_MONTH)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.DayTimeIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitDAY_TIME)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.MonthDayNanoIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitMONTH_DAY_NANO)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.DurationType:
-		fv.dtype = flatbuf.TypeDuration
-		unit := unitToFB(dt.Unit)
-		flatbuf.DurationStart(fv.b)
-		flatbuf.DurationAddUnit(fv.b, unit)
-		fv.offset = flatbuf.DurationEnd(fv.b)
-
-	case *arrow.MapType:
-		fv.dtype = flatbuf.TypeMap
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.MapStart(fv.b)
-		flatbuf.MapAddKeysSorted(fv.b, dt.KeysSorted)
-		fv.offset = flatbuf.MapEnd(fv.b)
-
-	case *arrow.RunEndEncodedType:
-		fv.dtype = flatbuf.TypeRunEndEncoded
-		var offsets [2]flatbuffers.UOffsetT
-		offsets[0] = fieldToFB(fv.b, fv.pos.Child(0),
-			arrow.Field{Name: "run_ends", Type: dt.RunEnds()}, fv.memo)
-		offsets[1] = fieldToFB(fv.b, fv.pos.Child(1),
-			arrow.Field{Name: "values", Type: dt.Encoded(), Nullable: true}, fv.memo)
-		flatbuf.RunEndEncodedStart(fv.b)
-		fv.b.PrependUOffsetT(offsets[1])
-		fv.b.PrependUOffsetT(offsets[0])
-		fv.offset = flatbuf.RunEndEncodedEnd(fv.b)
-		fv.kids = append(fv.kids, offsets[0], offsets[1])
-
-	case arrow.ExtensionType:
-		field.Type = dt.StorageType()
-		fv.visit(field)
-		fv.meta[ExtensionTypeKeyName] = dt.ExtensionName()
-		fv.meta[ExtensionMetadataKeyName] = string(dt.Serialize())
-
-	case *arrow.DictionaryType:
-		field.Type = dt.ValueType
-		fv.visit(field)
-
-	case arrow.UnionType:
-		fv.dtype = flatbuf.TypeUnion
-		offsets := make([]flatbuffers.UOffsetT, dt.NumFields())
-		for i, field := range dt.Fields() {
-			offsets[i] = fieldToFB(fv.b, fv.pos.Child(int32(i)), field, fv.memo)
-		}
-
-		codes := dt.TypeCodes()
-		flatbuf.UnionStartTypeIdsVector(fv.b, len(codes))
-
-		for i := len(codes) - 1; i >= 0; i-- {
-			fv.b.PlaceInt32(int32(codes[i]))
-		}
-		fbTypeIDs := fv.b.EndVector(len(dt.TypeCodes()))
-		flatbuf.UnionStart(fv.b)
-		switch dt.Mode() {
-		case arrow.SparseMode:
-			flatbuf.UnionAddMode(fv.b, flatbuf.UnionModeSparse)
-		case arrow.DenseMode:
-			flatbuf.UnionAddMode(fv.b, flatbuf.UnionModeDense)
-		default:
-			panic("invalid union mode")
-		}
-		flatbuf.UnionAddTypeIds(fv.b, fbTypeIDs)
-		fv.offset = flatbuf.UnionEnd(fv.b)
-		fv.kids = append(fv.kids, offsets...)
-
-	default:
-		err := fmt.Errorf("arrow/ipc: invalid data type %v", dt)
-		panic(err) // FIXME(sbinet): implement all data-types.
-	}
-}
-
-func (fv *fieldVisitor) result(field arrow.Field) flatbuffers.UOffsetT {
-	nameFB := fv.b.CreateString(field.Name)
-
-	fv.visit(field)
-
-	flatbuf.FieldStartChildrenVector(fv.b, len(fv.kids))
-	for i := len(fv.kids) - 1; i >= 0; i-- {
-		fv.b.PrependUOffsetT(fv.kids[i])
-	}
-	kidsFB := fv.b.EndVector(len(fv.kids))
-
-	storageType := field.Type
-	if storageType.ID() == arrow.EXTENSION {
-		storageType = storageType.(arrow.ExtensionType).StorageType()
-	}
-
-	var dictFB flatbuffers.UOffsetT
-	if storageType.ID() == arrow.DICTIONARY {
-		idxType := field.Type.(*arrow.DictionaryType).IndexType.(arrow.FixedWidthDataType)
-
-		dictID, err := fv.memo.GetFieldID(fv.pos.Path())
-		if err != nil {
-			panic(err)
-		}
-		var signed bool
-		switch idxType.ID() {
-		case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-			signed = false
-		case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-			signed = true
-		}
-		indexTypeOffset := intToFB(fv.b, int32(idxType.BitWidth()), signed)
-		flatbuf.DictionaryEncodingStart(fv.b)
-		flatbuf.DictionaryEncodingAddId(fv.b, dictID)
-		flatbuf.DictionaryEncodingAddIndexType(fv.b, indexTypeOffset)
-		flatbuf.DictionaryEncodingAddIsOrdered(fv.b, field.Type.(*arrow.DictionaryType).Ordered)
-		dictFB = flatbuf.DictionaryEncodingEnd(fv.b)
-	}
-
-	var (
-		metaFB flatbuffers.UOffsetT
-		kvs    []flatbuffers.UOffsetT
-	)
-	for i, k := range field.Metadata.Keys() {
-		v := field.Metadata.Values()[i]
-		kk := fv.b.CreateString(k)
-		vv := fv.b.CreateString(v)
-		flatbuf.KeyValueStart(fv.b)
-		flatbuf.KeyValueAddKey(fv.b, kk)
-		flatbuf.KeyValueAddValue(fv.b, vv)
-		kvs = append(kvs, flatbuf.KeyValueEnd(fv.b))
-	}
-	{
-		keys := make([]string, 0, len(fv.meta))
-		for k := range fv.meta {
-			keys = append(keys, k)
-		}
-		sort.Strings(keys)
-		for _, k := range keys {
-			v := fv.meta[k]
-			kk := fv.b.CreateString(k)
-			vv := fv.b.CreateString(v)
-			flatbuf.KeyValueStart(fv.b)
-			flatbuf.KeyValueAddKey(fv.b, kk)
-			flatbuf.KeyValueAddValue(fv.b, vv)
-			kvs = append(kvs, flatbuf.KeyValueEnd(fv.b))
-		}
-	}
-	if len(kvs) > 0 {
-		flatbuf.FieldStartCustomMetadataVector(fv.b, len(kvs))
-		for i := len(kvs) - 1; i >= 0; i-- {
-			fv.b.PrependUOffsetT(kvs[i])
-		}
-		metaFB = fv.b.EndVector(len(kvs))
-	}
-
-	flatbuf.FieldStart(fv.b)
-	flatbuf.FieldAddName(fv.b, nameFB)
-	flatbuf.FieldAddNullable(fv.b, field.Nullable)
-	flatbuf.FieldAddTypeType(fv.b, fv.dtype)
-	flatbuf.FieldAddType(fv.b, fv.offset)
-	flatbuf.FieldAddDictionary(fv.b, dictFB)
-	flatbuf.FieldAddChildren(fv.b, kidsFB)
-	flatbuf.FieldAddCustomMetadata(fv.b, metaFB)
-
-	offset := flatbuf.FieldEnd(fv.b)
-
-	return offset
-}
-
-func typeFromFB(field *flatbuf.Field, pos dictutils.FieldPos, children []arrow.Field, md *arrow.Metadata, memo *dictutils.Memo) (arrow.DataType, error) {
-	var data flatbuffers.Table
-	if !field.Type(&data) {
-		return nil, fmt.Errorf("arrow/ipc: could not load field type data")
-	}
-
-	dt, err := concreteTypeFromFB(field.TypeType(), data, children)
-	if err != nil {
-		return dt, err
-	}
-
-	var (
-		dictID        = int64(-1)
-		dictValueType arrow.DataType
-		encoding      = field.Dictionary(nil)
-	)
-	if encoding != nil {
-		var idt flatbuf.Int
-		encoding.IndexType(&idt)
-		idxType, err := intFromFB(idt)
-		if err != nil {
-			return nil, err
-		}
-
-		dictValueType = dt
-		dt = &arrow.DictionaryType{IndexType: idxType, ValueType: dictValueType, Ordered: encoding.IsOrdered()}
-		dictID = encoding.Id()
-
-		if err = memo.Mapper.AddField(dictID, pos.Path()); err != nil {
-			return dt, err
-		}
-		if err = memo.AddType(dictID, dictValueType); err != nil {
-			return dt, err
-		}
-
-	}
-
-	// look for extension metadata in custom metadata field.
-	if md.Len() > 0 {
-		i := md.FindKey(ExtensionTypeKeyName)
-		if i < 0 {
-			return dt, err
-		}
-
-		extType := arrow.GetExtensionType(md.Values()[i])
-		if extType == nil {
-			// if the extension type is unknown, we do not error here.
-			// simply return the storage type.
-			return dt, err
-		}
-
-		var (
-			data    string
-			dataIdx int
-		)
-
-		if dataIdx = md.FindKey(ExtensionMetadataKeyName); dataIdx >= 0 {
-			data = md.Values()[dataIdx]
-		}
-
-		dt, err = extType.Deserialize(dt, data)
-		if err != nil {
-			return dt, err
-		}
-
-		mdkeys := md.Keys()
-		mdvals := md.Values()
-		if dataIdx < 0 {
-			// if there was no extension metadata, just the name, we only have to
-			// remove the extension name metadata key/value to ensure roundtrip
-			// metadata consistency
-			*md = arrow.NewMetadata(append(mdkeys[:i], mdkeys[i+1:]...), append(mdvals[:i], mdvals[i+1:]...))
-		} else {
-			// if there was extension metadata, we need to remove both the type name
-			// and the extension metadata keys and values.
-			newkeys := make([]string, 0, md.Len()-2)
-			newvals := make([]string, 0, md.Len()-2)
-			for j := range mdkeys {
-				if j != i && j != dataIdx { // copy everything except the extension metadata keys/values
-					newkeys = append(newkeys, mdkeys[j])
-					newvals = append(newvals, mdvals[j])
-				}
-			}
-			*md = arrow.NewMetadata(newkeys, newvals)
-		}
-	}
-
-	return dt, err
-}
-
-func concreteTypeFromFB(typ flatbuf.Type, data flatbuffers.Table, children []arrow.Field) (arrow.DataType, error) {
-	switch typ {
-	case flatbuf.TypeNONE:
-		return nil, fmt.Errorf("arrow/ipc: Type metadata cannot be none")
-
-	case flatbuf.TypeNull:
-		return arrow.Null, nil
-
-	case flatbuf.TypeInt:
-		var dt flatbuf.Int
-		dt.Init(data.Bytes, data.Pos)
-		return intFromFB(dt)
-
-	case flatbuf.TypeFloatingPoint:
-		var dt flatbuf.FloatingPoint
-		dt.Init(data.Bytes, data.Pos)
-		return floatFromFB(dt)
-
-	case flatbuf.TypeDecimal:
-		var dt flatbuf.Decimal
-		dt.Init(data.Bytes, data.Pos)
-		return decimalFromFB(dt)
-
-	case flatbuf.TypeBinary:
-		return arrow.BinaryTypes.Binary, nil
-
-	case flatbuf.TypeFixedSizeBinary:
-		var dt flatbuf.FixedSizeBinary
-		dt.Init(data.Bytes, data.Pos)
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(dt.ByteWidth())}, nil
-
-	case flatbuf.TypeUtf8:
-		return arrow.BinaryTypes.String, nil
-
-	case flatbuf.TypeLargeBinary:
-		return arrow.BinaryTypes.LargeBinary, nil
-
-	case flatbuf.TypeLargeUtf8:
-		return arrow.BinaryTypes.LargeString, nil
-
-	case flatbuf.TypeUtf8View:
-		return arrow.BinaryTypes.StringView, nil
-
-	case flatbuf.TypeBinaryView:
-		return arrow.BinaryTypes.BinaryView, nil
-
-	case flatbuf.TypeBool:
-		return arrow.FixedWidthTypes.Boolean, nil
-
-	case flatbuf.TypeList:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: List must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.ListOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeLargeList:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: LargeList must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.LargeListOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeListView:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: ListView must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.ListViewOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeLargeListView:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: LargeListView must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.LargeListViewOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeFixedSizeList:
-		var dt flatbuf.FixedSizeList
-		dt.Init(data.Bytes, data.Pos)
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: FixedSizeList must have exactly 1 child field (got=%d)", len(children))
-		}
-		ret := arrow.FixedSizeListOfField(dt.ListSize(), children[0])
-		return ret, nil
-
-	case flatbuf.TypeStruct_:
-		return arrow.StructOf(children...), nil
-
-	case flatbuf.TypeUnion:
-		var dt flatbuf.Union
-		dt.Init(data.Bytes, data.Pos)
-		var (
-			mode    arrow.UnionMode
-			typeIDs []arrow.UnionTypeCode
-		)
-
-		switch dt.Mode() {
-		case flatbuf.UnionModeSparse:
-			mode = arrow.SparseMode
-		case flatbuf.UnionModeDense:
-			mode = arrow.DenseMode
-		}
-
-		typeIDLen := dt.TypeIdsLength()
-
-		if typeIDLen == 0 {
-			for i := range children {
-				typeIDs = append(typeIDs, int8(i))
-			}
-		} else {
-			for i := 0; i < typeIDLen; i++ {
-				id := dt.TypeIds(i)
-				code := arrow.UnionTypeCode(id)
-				if int32(code) != id {
-					return nil, errors.New("union type id out of bounds")
-				}
-				typeIDs = append(typeIDs, code)
-			}
-		}
-
-		return arrow.UnionOf(mode, children, typeIDs), nil
-
-	case flatbuf.TypeTime:
-		var dt flatbuf.Time
-		dt.Init(data.Bytes, data.Pos)
-		return timeFromFB(dt)
-
-	case flatbuf.TypeTimestamp:
-		var dt flatbuf.Timestamp
-		dt.Init(data.Bytes, data.Pos)
-		return timestampFromFB(dt)
-
-	case flatbuf.TypeDate:
-		var dt flatbuf.Date
-		dt.Init(data.Bytes, data.Pos)
-		return dateFromFB(dt)
-
-	case flatbuf.TypeInterval:
-		var dt flatbuf.Interval
-		dt.Init(data.Bytes, data.Pos)
-		return intervalFromFB(dt)
-
-	case flatbuf.TypeDuration:
-		var dt flatbuf.Duration
-		dt.Init(data.Bytes, data.Pos)
-		return durationFromFB(dt)
-
-	case flatbuf.TypeMap:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: Map must have exactly 1 child field")
-		}
-
-		if children[0].Nullable || children[0].Type.ID() != arrow.STRUCT || len(children[0].Type.(*arrow.StructType).Fields()) != 2 {
-			return nil, fmt.Errorf("arrow/ipc: Map's key-item pairs must be non-nullable structs")
-		}
-
-		pairType := children[0].Type.(*arrow.StructType)
-		if pairType.Field(0).Nullable {
-			return nil, fmt.Errorf("arrow/ipc: Map's keys must be non-nullable")
-		}
-
-		var dt flatbuf.Map
-		dt.Init(data.Bytes, data.Pos)
-		ret := arrow.MapOf(pairType.Field(0).Type, pairType.Field(1).Type)
-		ret.SetItemNullable(pairType.Field(1).Nullable)
-		ret.KeysSorted = dt.KeysSorted()
-		return ret, nil
-
-	case flatbuf.TypeRunEndEncoded:
-		if len(children) != 2 {
-			return nil, fmt.Errorf("%w: arrow/ipc: RunEndEncoded must have exactly 2 child fields", arrow.ErrInvalid)
-		}
-		switch children[0].Type.ID() {
-		case arrow.INT16, arrow.INT32, arrow.INT64:
-		default:
-			return nil, fmt.Errorf("%w: arrow/ipc: run-end encoded run_ends field must be one of int16, int32, or int64 type", arrow.ErrInvalid)
-		}
-		return arrow.RunEndEncodedOf(children[0].Type, children[1].Type), nil
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: type %v not implemented", flatbuf.EnumNamesType[typ]))
-	}
-}
-
-func intFromFB(data flatbuf.Int) (arrow.DataType, error) {
-	bw := data.BitWidth()
-	if bw > 64 {
-		return nil, fmt.Errorf("arrow/ipc: integers with more than 64 bits not implemented (bits=%d)", bw)
-	}
-	if bw < 8 {
-		return nil, fmt.Errorf("arrow/ipc: integers with less than 8 bits not implemented (bits=%d)", bw)
-	}
-
-	switch bw {
-	case 8:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint8, nil
-		}
-		return arrow.PrimitiveTypes.Int8, nil
-
-	case 16:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint16, nil
-		}
-		return arrow.PrimitiveTypes.Int16, nil
-
-	case 32:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint32, nil
-		}
-		return arrow.PrimitiveTypes.Int32, nil
-
-	case 64:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint64, nil
-		}
-		return arrow.PrimitiveTypes.Int64, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: integers not in cstdint are not implemented")
-	}
-}
-
-func intToFB(b *flatbuffers.Builder, bw int32, isSigned bool) flatbuffers.UOffsetT {
-	flatbuf.IntStart(b)
-	flatbuf.IntAddBitWidth(b, bw)
-	flatbuf.IntAddIsSigned(b, isSigned)
-	return flatbuf.IntEnd(b)
-}
-
-func floatFromFB(data flatbuf.FloatingPoint) (arrow.DataType, error) {
-	switch p := data.Precision(); p {
-	case flatbuf.PrecisionHALF:
-		return arrow.FixedWidthTypes.Float16, nil
-	case flatbuf.PrecisionSINGLE:
-		return arrow.PrimitiveTypes.Float32, nil
-	case flatbuf.PrecisionDOUBLE:
-		return arrow.PrimitiveTypes.Float64, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: floating point type with %d precision not implemented", p)
-	}
-}
-
-func floatToFB(b *flatbuffers.Builder, bw int32) flatbuffers.UOffsetT {
-	switch bw {
-	case 16:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionHALF)
-		return flatbuf.FloatingPointEnd(b)
-	case 32:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionSINGLE)
-		return flatbuf.FloatingPointEnd(b)
-	case 64:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionDOUBLE)
-		return flatbuf.FloatingPointEnd(b)
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid floating point precision %d-bits", bw))
-	}
-}
-
-func decimalFromFB(data flatbuf.Decimal) (arrow.DataType, error) {
-	switch data.BitWidth() {
-	case 128:
-		return &arrow.Decimal128Type{Precision: data.Precision(), Scale: data.Scale()}, nil
-	case 256:
-		return &arrow.Decimal256Type{Precision: data.Precision(), Scale: data.Scale()}, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: invalid decimal bitwidth: %d", data.BitWidth())
-	}
-}
-
-func timeFromFB(data flatbuf.Time) (arrow.DataType, error) {
-	bw := data.BitWidth()
-	unit := unitFromFB(data.Unit())
-
-	switch bw {
-	case 32:
-		switch unit {
-		case arrow.Millisecond:
-			return arrow.FixedWidthTypes.Time32ms, nil
-		case arrow.Second:
-			return arrow.FixedWidthTypes.Time32s, nil
-		default:
-			return nil, fmt.Errorf("arrow/ipc: Time32 type with %v unit not implemented", unit)
-		}
-	case 64:
-		switch unit {
-		case arrow.Nanosecond:
-			return arrow.FixedWidthTypes.Time64ns, nil
-		case arrow.Microsecond:
-			return arrow.FixedWidthTypes.Time64us, nil
-		default:
-			return nil, fmt.Errorf("arrow/ipc: Time64 type with %v unit not implemented", unit)
-		}
-	default:
-		return nil, fmt.Errorf("arrow/ipc: Time type with %d bitwidth not implemented", bw)
-	}
-}
-
-func timestampFromFB(data flatbuf.Timestamp) (arrow.DataType, error) {
-	unit := unitFromFB(data.Unit())
-	tz := string(data.Timezone())
-	return &arrow.TimestampType{Unit: unit, TimeZone: tz}, nil
-}
-
-func dateFromFB(data flatbuf.Date) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.DateUnitDAY:
-		return arrow.FixedWidthTypes.Date32, nil
-	case flatbuf.DateUnitMILLISECOND:
-		return arrow.FixedWidthTypes.Date64, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Date type with %d unit not implemented", data.Unit())
-}
-
-func intervalFromFB(data flatbuf.Interval) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.IntervalUnitYEAR_MONTH:
-		return arrow.FixedWidthTypes.MonthInterval, nil
-	case flatbuf.IntervalUnitDAY_TIME:
-		return arrow.FixedWidthTypes.DayTimeInterval, nil
-	case flatbuf.IntervalUnitMONTH_DAY_NANO:
-		return arrow.FixedWidthTypes.MonthDayNanoInterval, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Interval type with %d unit not implemented", data.Unit())
-}
-
-func durationFromFB(data flatbuf.Duration) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.TimeUnitSECOND:
-		return arrow.FixedWidthTypes.Duration_s, nil
-	case flatbuf.TimeUnitMILLISECOND:
-		return arrow.FixedWidthTypes.Duration_ms, nil
-	case flatbuf.TimeUnitMICROSECOND:
-		return arrow.FixedWidthTypes.Duration_us, nil
-	case flatbuf.TimeUnitNANOSECOND:
-		return arrow.FixedWidthTypes.Duration_ns, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Duration type with %d unit not implemented", data.Unit())
-}
-
-type customMetadataer interface {
-	CustomMetadataLength() int
-	CustomMetadata(*flatbuf.KeyValue, int) bool
-}
-
-func metadataFromFB(md customMetadataer) (arrow.Metadata, error) {
-	var (
-		keys = make([]string, md.CustomMetadataLength())
-		vals = make([]string, md.CustomMetadataLength())
-	)
-
-	for i := range keys {
-		var kv flatbuf.KeyValue
-		if !md.CustomMetadata(&kv, i) {
-			return arrow.Metadata{}, fmt.Errorf("arrow/ipc: could not read key-value %d from flatbuffer", i)
-		}
-		keys[i] = string(kv.Key())
-		vals[i] = string(kv.Value())
-	}
-
-	return arrow.NewMetadata(keys, vals), nil
-}
-
-func metadataToFB(b *flatbuffers.Builder, meta arrow.Metadata, start startVecFunc) flatbuffers.UOffsetT {
-	if meta.Len() == 0 {
-		return 0
-	}
-
-	n := meta.Len()
-	kvs := make([]flatbuffers.UOffsetT, n)
-	for i := range kvs {
-		k := b.CreateString(meta.Keys()[i])
-		v := b.CreateString(meta.Values()[i])
-		flatbuf.KeyValueStart(b)
-		flatbuf.KeyValueAddKey(b, k)
-		flatbuf.KeyValueAddValue(b, v)
-		kvs[i] = flatbuf.KeyValueEnd(b)
-	}
-
-	start(b, n)
-	for i := n - 1; i >= 0; i-- {
-		b.PrependUOffsetT(kvs[i])
-	}
-	return b.EndVector(n)
-}
-
-func schemaFromFB(schema *flatbuf.Schema, memo *dictutils.Memo) (*arrow.Schema, error) {
-	var (
-		err    error
-		fields = make([]arrow.Field, schema.FieldsLength())
-		pos    = dictutils.NewFieldPos()
-	)
-
-	for i := range fields {
-		var field flatbuf.Field
-		if !schema.Fields(&field, i) {
-			return nil, fmt.Errorf("arrow/ipc: could not read field %d from schema", i)
-		}
-
-		fields[i], err = fieldFromFB(&field, pos.Child(int32(i)), memo)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could not convert field %d from flatbuf: %w", i, err)
-		}
-	}
-
-	md, err := metadataFromFB(schema)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not convert schema metadata from flatbuf: %w", err)
-	}
-
-	return arrow.NewSchemaWithEndian(fields, &md, endian.Endianness(schema.Endianness())), nil
-}
-
-func schemaToFB(b *flatbuffers.Builder, schema *arrow.Schema, memo *dictutils.Mapper) flatbuffers.UOffsetT {
-	fields := make([]flatbuffers.UOffsetT, schema.NumFields())
-	pos := dictutils.NewFieldPos()
-	for i := 0; i < schema.NumFields(); i++ {
-		fields[i] = fieldToFB(b, pos.Child(int32(i)), schema.Field(i), memo)
-	}
-
-	flatbuf.SchemaStartFieldsVector(b, len(fields))
-	for i := len(fields) - 1; i >= 0; i-- {
-		b.PrependUOffsetT(fields[i])
-	}
-	fieldsFB := b.EndVector(len(fields))
-
-	metaFB := metadataToFB(b, schema.Metadata(), flatbuf.SchemaStartCustomMetadataVector)
-
-	flatbuf.SchemaStart(b)
-	flatbuf.SchemaAddEndianness(b, flatbuf.Endianness(schema.Endianness()))
-	flatbuf.SchemaAddFields(b, fieldsFB)
-	flatbuf.SchemaAddCustomMetadata(b, metaFB)
-	offset := flatbuf.SchemaEnd(b)
-
-	return offset
-}
-
-// payloadFromSchema returns a slice of payloads corresponding to the given schema.
-// Callers of payloadFromSchema will need to call Release after use.
-func payloadFromSchema(schema *arrow.Schema, mem memory.Allocator, memo *dictutils.Mapper) payloads {
-	ps := make(payloads, 1)
-	ps[0].msg = MessageSchema
-	ps[0].meta = writeSchemaMessage(schema, mem, memo)
-
-	return ps
-}
-
-func writeFBBuilder(b *flatbuffers.Builder, mem memory.Allocator) *memory.Buffer {
-	raw := b.FinishedBytes()
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(len(raw))
-	copy(buf.Bytes(), raw)
-	return buf
-}
-
-func writeMessageFB(b *flatbuffers.Builder, mem memory.Allocator, hdrType flatbuf.MessageHeader, hdr flatbuffers.UOffsetT, bodyLen int64) *memory.Buffer {
-
-	flatbuf.MessageStart(b)
-	flatbuf.MessageAddVersion(b, flatbuf.MetadataVersion(currentMetadataVersion))
-	flatbuf.MessageAddHeaderType(b, hdrType)
-	flatbuf.MessageAddHeader(b, hdr)
-	flatbuf.MessageAddBodyLength(b, bodyLen)
-	msg := flatbuf.MessageEnd(b)
-	b.Finish(msg)
-
-	return writeFBBuilder(b, mem)
-}
-
-func writeSchemaMessage(schema *arrow.Schema, mem memory.Allocator, dict *dictutils.Mapper) *memory.Buffer {
-	b := flatbuffers.NewBuilder(1024)
-	schemaFB := schemaToFB(b, schema, dict)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderSchema, schemaFB, 0)
-}
-
-func writeFileFooter(schema *arrow.Schema, dicts, recs []fileBlock, w io.Writer) error {
-	var (
-		b    = flatbuffers.NewBuilder(1024)
-		memo dictutils.Mapper
-	)
-	memo.ImportSchema(schema)
-
-	schemaFB := schemaToFB(b, schema, &memo)
-	dictsFB := fileBlocksToFB(b, dicts, flatbuf.FooterStartDictionariesVector)
-	recsFB := fileBlocksToFB(b, recs, flatbuf.FooterStartRecordBatchesVector)
-
-	flatbuf.FooterStart(b)
-	flatbuf.FooterAddVersion(b, flatbuf.MetadataVersion(currentMetadataVersion))
-	flatbuf.FooterAddSchema(b, schemaFB)
-	flatbuf.FooterAddDictionaries(b, dictsFB)
-	flatbuf.FooterAddRecordBatches(b, recsFB)
-	footer := flatbuf.FooterEnd(b)
-
-	b.Finish(footer)
-
-	_, err := w.Write(b.FinishedBytes())
-	return err
-}
-
-func writeRecordMessage(mem memory.Allocator, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) *memory.Buffer {
-	b := flatbuffers.NewBuilder(0)
-	recFB := recordToFB(b, size, bodyLength, fields, meta, codec, variadicCounts)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderRecordBatch, recFB, bodyLength)
-}
-
-func writeDictionaryMessage(mem memory.Allocator, id int64, isDelta bool, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) *memory.Buffer {
-	b := flatbuffers.NewBuilder(0)
-	recFB := recordToFB(b, size, bodyLength, fields, meta, codec, variadicCounts)
-
-	flatbuf.DictionaryBatchStart(b)
-	flatbuf.DictionaryBatchAddId(b, id)
-	flatbuf.DictionaryBatchAddData(b, recFB)
-	flatbuf.DictionaryBatchAddIsDelta(b, isDelta)
-	dictFB := flatbuf.DictionaryBatchEnd(b)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderDictionaryBatch, dictFB, bodyLength)
-}
-
-func recordToFB(b *flatbuffers.Builder, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) flatbuffers.UOffsetT {
-	fieldsFB := writeFieldNodes(b, fields, flatbuf.RecordBatchStartNodesVector)
-	metaFB := writeBuffers(b, meta, flatbuf.RecordBatchStartBuffersVector)
-	var bodyCompressFB flatbuffers.UOffsetT
-	if codec != -1 {
-		bodyCompressFB = writeBodyCompression(b, codec)
-	}
-
-	var vcFB *flatbuffers.UOffsetT
-	if len(variadicCounts) > 0 {
-		flatbuf.RecordBatchStartVariadicBufferCountsVector(b, len(variadicCounts))
-		for i := len(variadicCounts) - 1; i >= 0; i-- {
-			b.PrependInt64(variadicCounts[i])
-		}
-		vcFBVal := b.EndVector(len(variadicCounts))
-		vcFB = &vcFBVal
-	}
-
-	flatbuf.RecordBatchStart(b)
-	flatbuf.RecordBatchAddLength(b, size)
-	flatbuf.RecordBatchAddNodes(b, fieldsFB)
-	flatbuf.RecordBatchAddBuffers(b, metaFB)
-	if vcFB != nil {
-		flatbuf.RecordBatchAddVariadicBufferCounts(b, *vcFB)
-	}
-
-	if codec != -1 {
-		flatbuf.RecordBatchAddCompression(b, bodyCompressFB)
-	}
-
-	return flatbuf.RecordBatchEnd(b)
-}
-
-func writeFieldNodes(b *flatbuffers.Builder, fields []fieldMetadata, start startVecFunc) flatbuffers.UOffsetT {
-
-	start(b, len(fields))
-	for i := len(fields) - 1; i >= 0; i-- {
-		field := fields[i]
-		if field.Offset != 0 {
-			panic(fmt.Errorf("arrow/ipc: field metadata for IPC must have offset 0"))
-		}
-		flatbuf.CreateFieldNode(b, field.Len, field.Nulls)
-	}
-
-	return b.EndVector(len(fields))
-}
-
-func writeBuffers(b *flatbuffers.Builder, buffers []bufferMetadata, start startVecFunc) flatbuffers.UOffsetT {
-	start(b, len(buffers))
-	for i := len(buffers) - 1; i >= 0; i-- {
-		buffer := buffers[i]
-		flatbuf.CreateBuffer(b, buffer.Offset, buffer.Len)
-	}
-	return b.EndVector(len(buffers))
-}
-
-func writeBodyCompression(b *flatbuffers.Builder, codec flatbuf.CompressionType) flatbuffers.UOffsetT {
-	flatbuf.BodyCompressionStart(b)
-	flatbuf.BodyCompressionAddCodec(b, codec)
-	flatbuf.BodyCompressionAddMethod(b, flatbuf.BodyCompressionMethodBUFFER)
-	return flatbuf.BodyCompressionEnd(b)
-}
-
-func writeMessage(msg *memory.Buffer, alignment int32, w io.Writer) (int, error) {
-	var (
-		n   int
-		err error
-	)
-
-	// ARROW-3212: we do not make any assumption on whether the output stream is aligned or not.
-	paddedMsgLen := int32(msg.Len()) + 8
-	remainder := paddedMsgLen % alignment
-	if remainder != 0 {
-		paddedMsgLen += alignment - remainder
-	}
-
-	tmp := make([]byte, 4)
-
-	// write continuation indicator, to address 8-byte alignment requirement from FlatBuffers.
-	binary.LittleEndian.PutUint32(tmp, kIPCContToken)
-	_, err = w.Write(tmp)
-	if err != nil {
-		return 0, fmt.Errorf("arrow/ipc: could not write continuation bit indicator: %w", err)
-	}
-
-	// the returned message size includes the length prefix, the flatbuffer, + padding
-	n = int(paddedMsgLen)
-
-	// write the flatbuffer size prefix, including padding
-	sizeFB := paddedMsgLen - 8
-	binary.LittleEndian.PutUint32(tmp, uint32(sizeFB))
-	_, err = w.Write(tmp)
-	if err != nil {
-		return n, fmt.Errorf("arrow/ipc: could not write message flatbuffer size prefix: %w", err)
-	}
-
-	// write the flatbuffer
-	_, err = w.Write(msg.Bytes())
-	if err != nil {
-		return n, fmt.Errorf("arrow/ipc: could not write message flatbuffer: %w", err)
-	}
-
-	// write any padding
-	padding := paddedMsgLen - int32(msg.Len()) - 8
-	if padding > 0 {
-		_, err = w.Write(paddingBytes[:padding])
-		if err != nil {
-			return n, fmt.Errorf("arrow/ipc: could not write message padding bytes: %w", err)
-		}
-	}
-
-	return n, err
-}
diff --git a/go/arrow/ipc/metadata_test.go b/go/arrow/ipc/metadata_test.go
deleted file mode 100644
index 14b8da2cf7cf7..0000000000000
--- a/go/arrow/ipc/metadata_test.go
+++ /dev/null
@@ -1,227 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	flatbuffers "github.com/google/flatbuffers/go"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRWSchema(t *testing.T) {
-	meta := arrow.NewMetadata([]string{"k1", "k2", "k3"}, []string{"v1", "v2", "v3"})
-
-	mType := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	mType.SetItemNullable(false)
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		memo   dictutils.Memo
-	}{
-		{
-			schema: arrow.NewSchema([]arrow.Field{
-				{Name: "f1", Type: arrow.PrimitiveTypes.Int64},
-				{Name: "f2", Type: arrow.PrimitiveTypes.Uint16},
-				{Name: "f3", Type: arrow.PrimitiveTypes.Float64},
-				{Name: "f4", Type: mType},
-			}, &meta),
-			memo: dictutils.Memo{},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			b := flatbuffers.NewBuilder(0)
-
-			tc.memo.Mapper.ImportSchema(tc.schema)
-			offset := schemaToFB(b, tc.schema, &tc.memo.Mapper)
-			b.Finish(offset)
-
-			buf := b.FinishedBytes()
-
-			fb := flatbuf.GetRootAsSchema(buf, 0)
-			got, err := schemaFromFB(fb, &tc.memo)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !got.Equal(tc.schema) {
-				t.Fatalf("r/w schema failed:\ngot = %#v\nwant= %#v\n", got, tc.schema)
-			}
-
-			{
-				got := got.Metadata()
-				want := tc.schema.Metadata()
-				if got.Len() != want.Len() {
-					t.Fatalf("invalid metadata len: got=%d, want=%d", got.Len(), want.Len())
-				}
-				if got, want := got.Keys(), want.Keys(); !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata keys:\ngot =%v\nwant=%v\n", got, want)
-				}
-				if got, want := got.Values(), want.Values(); !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata values:\ngot =%v\nwant=%v\n", got, want)
-				}
-			}
-		})
-	}
-}
-
-func TestRWFooter(t *testing.T) {
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		dicts  []fileBlock
-		recs   []fileBlock
-	}{
-		{
-			schema: arrow.NewSchema([]arrow.Field{
-				{Name: "f1", Type: arrow.PrimitiveTypes.Int64},
-				{Name: "f2", Type: arrow.PrimitiveTypes.Uint16},
-				{Name: "f3", Type: arrow.PrimitiveTypes.Float64},
-			}, nil),
-			dicts: []fileBlock{
-				{Offset: 1, Meta: 2, Body: 3},
-				{Offset: 4, Meta: 5, Body: 6},
-				{Offset: 7, Meta: 8, Body: 9},
-			},
-			recs: []fileBlock{
-				{Offset: 0, Meta: 10, Body: 30},
-				{Offset: 10, Meta: 30, Body: 60},
-				{Offset: 20, Meta: 30, Body: 40},
-			},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			o := new(bytes.Buffer)
-
-			err := writeFileFooter(tc.schema, tc.dicts, tc.recs, o)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			footer := flatbuf.GetRootAsFooter(o.Bytes(), 0)
-
-			if got, want := MetadataVersion(footer.Version()), currentMetadataVersion; got != want {
-				t.Errorf("invalid metadata version: got=%[1]d %#[1]x, want=%[2]d %#[2]x", int16(got), int16(want))
-			}
-
-			schema, err := schemaFromFB(footer.Schema(nil), nil)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !schema.Equal(tc.schema) {
-				t.Fatalf("schema r/w error:\ngot= %v\nwant=%v", schema, tc.schema)
-			}
-
-			if got, want := footer.DictionariesLength(), len(tc.dicts); got != want {
-				t.Fatalf("dicts len differ: got=%d, want=%d", got, want)
-			}
-
-			for i, dict := range tc.dicts {
-				var blk flatbuf.Block
-				if !footer.Dictionaries(&blk, i) {
-					t.Fatalf("could not get dictionary %d", i)
-				}
-				got := fileBlock{Offset: blk.Offset(), Meta: blk.MetaDataLength(), Body: blk.BodyLength()}
-				want := dict
-				if got != want {
-					t.Errorf("dict[%d] differ:\ngot= %v\nwant=%v", i, got, want)
-				}
-			}
-
-			if got, want := footer.RecordBatchesLength(), len(tc.recs); got != want {
-				t.Fatalf("recs len differ: got=%d, want=%d", got, want)
-			}
-
-			for i, rec := range tc.recs {
-				var blk flatbuf.Block
-				if !footer.RecordBatches(&blk, i) {
-					t.Fatalf("could not get record %d", i)
-				}
-				got := fileBlock{Offset: blk.Offset(), Meta: blk.MetaDataLength(), Body: blk.BodyLength()}
-				want := rec
-				if got != want {
-					t.Errorf("record[%d] differ:\ngot= %v\nwant=%v", i, got, want)
-				}
-			}
-		})
-	}
-}
-
-func exampleUUID(mem memory.Allocator) arrow.Array {
-	extType := extensions.NewUUIDType()
-	bldr := array.NewExtensionBuilder(mem, extType)
-	defer bldr.Release()
-
-	bldr.Builder.(*array.FixedSizeBinaryBuilder).AppendValues(
-		[][]byte{nil, []byte("abcdefghijklmno0"), []byte("abcdefghijklmno1"), []byte("abcdefghijklmno2")},
-		[]bool{false, true, true, true})
-
-	return bldr.NewArray()
-}
-
-func TestUnrecognizedExtensionType(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	extArr := exampleUUID(pool)
-	defer extArr.Release()
-
-	batch := array.NewRecord(
-		arrow.NewSchema([]arrow.Field{
-			{Name: "f0", Type: extArr.DataType(), Nullable: true}}, nil),
-		[]arrow.Array{extArr}, 4)
-	defer batch.Release()
-
-	storageArr := extArr.(array.ExtensionArray).Storage()
-
-	var buf bytes.Buffer
-	wr := NewWriter(&buf, WithAllocator(pool), WithSchema(batch.Schema()))
-	assert.NoError(t, wr.Write(batch))
-	wr.Close()
-
-	// unregister the uuid type before we read back the buffer so it is
-	// unrecognized when reading back the record batch.
-	assert.NoError(t, arrow.UnregisterExtensionType("arrow.uuid"))
-	// re-register once the test is complete
-	defer arrow.RegisterExtensionType(extensions.NewUUIDType())
-	rdr, err := NewReader(&buf, WithAllocator(pool))
-	defer rdr.Release()
-
-	assert.NoError(t, err)
-	assert.True(t, rdr.Next())
-
-	rec := rdr.Record()
-	assert.NotNil(t, rec)
-
-	// create a record batch with the same data, but the field should contain the
-	// extension metadata and be of the storage type instead of being the extension type.
-	extMetadata := arrow.NewMetadata([]string{ExtensionTypeKeyName, ExtensionMetadataKeyName}, []string{"uuid", "uuid-serialized"})
-	batchNoExt := array.NewRecord(
-		arrow.NewSchema([]arrow.Field{
-			{Name: "f0", Type: storageArr.DataType(), Nullable: true, Metadata: extMetadata},
-		}, nil), []arrow.Array{storageArr}, 4)
-	defer batchNoExt.Release()
-
-	assert.Truef(t, array.RecordEqual(rec, batchNoExt), "expected: %s\ngot: %s\n", batchNoExt, rec)
-}
diff --git a/go/arrow/ipc/reader.go b/go/arrow/ipc/reader.go
deleted file mode 100644
index 147b22213debf..0000000000000
--- a/go/arrow/ipc/reader.go
+++ /dev/null
@@ -1,286 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Reader reads records from an io.Reader.
-// Reader expects a schema (plus any dictionaries) as the first messages
-// in the stream, followed by records.
-type Reader struct {
-	r      MessageReader
-	schema *arrow.Schema
-
-	refCount int64
-	rec      arrow.Record
-	err      error
-
-	// types dictTypeMap
-	memo               dictutils.Memo
-	readInitialDicts   bool
-	done               bool
-	swapEndianness     bool
-	ensureNativeEndian bool
-	expectedSchema     *arrow.Schema
-
-	mem memory.Allocator
-}
-
-// NewReaderFromMessageReader allows constructing a new reader object with the
-// provided MessageReader allowing injection of reading messages other than
-// by simple streaming bytes such as Arrow Flight which receives a protobuf message
-func NewReaderFromMessageReader(r MessageReader, opts ...Option) (reader *Reader, err error) {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/ipc: unknown error while reading", pErr)
-		}
-	}()
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	rr := &Reader{
-		r:        r,
-		refCount: 1,
-		// types:    make(dictTypeMap),
-		memo:               dictutils.NewMemo(),
-		mem:                cfg.alloc,
-		ensureNativeEndian: cfg.ensureNativeEndian,
-		expectedSchema:     cfg.schema,
-	}
-
-	if !cfg.noAutoSchema {
-		if err := rr.readSchema(cfg.schema); err != nil {
-			return nil, err
-		}
-	}
-
-	return rr, nil
-}
-
-// NewReader returns a reader that reads records from an input stream.
-func NewReader(r io.Reader, opts ...Option) (*Reader, error) {
-	return NewReaderFromMessageReader(NewMessageReader(r, opts...), opts...)
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying stream.
-func (r *Reader) Err() error { return r.err }
-
-func (r *Reader) Schema() *arrow.Schema {
-	if r.schema == nil {
-		if err := r.readSchema(r.expectedSchema); err != nil {
-			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
-			r.done = true
-		}
-	}
-	return r.schema
-}
-
-func (r *Reader) readSchema(schema *arrow.Schema) error {
-	msg, err := r.r.Message()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read message schema: %w", err)
-	}
-
-	if msg.Type() != MessageSchema {
-		return fmt.Errorf("arrow/ipc: invalid message type (got=%v, want=%v)", msg.Type(), MessageSchema)
-	}
-
-	// FIXME(sbinet) refactor msg-header handling.
-	var schemaFB flatbuf.Schema
-	initFB(&schemaFB, msg.msg.Header)
-
-	r.schema, err = schemaFromFB(&schemaFB, &r.memo)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not decode schema from message schema: %w", err)
-	}
-
-	// check the provided schema match the one read from stream.
-	if schema != nil && !schema.Equal(r.schema) {
-		return errInconsistentSchema
-	}
-
-	if r.ensureNativeEndian && !r.schema.IsNativeEndian() {
-		r.swapEndianness = true
-		r.schema = r.schema.WithEndianness(endian.NativeEndian)
-	}
-
-	return nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.rec != nil {
-			r.rec.Release()
-			r.rec = nil
-		}
-		if r.r != nil {
-			r.r.Release()
-			r.r = nil
-		}
-		r.memo.Clear()
-	}
-}
-
-// Next returns whether a Record could be extracted from the underlying stream.
-func (r *Reader) Next() bool {
-	if r.rec != nil {
-		r.rec.Release()
-		r.rec = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *Reader) getInitialDicts() bool {
-	var msg *Message
-	// we have to get all dictionaries before reconstructing the first
-	// record. subsequent deltas and replacements modify the memo
-	numDicts := r.memo.Mapper.NumDicts()
-	// there should be numDicts dictionary messages
-	for i := 0; i < numDicts; i++ {
-		msg, r.err = r.r.Message()
-		if r.err != nil {
-			r.done = true
-			if r.err == io.EOF {
-				if i == 0 {
-					r.err = nil
-				} else {
-					r.err = fmt.Errorf("arrow/ipc: IPC stream ended without reading the expected (%d) dictionaries", numDicts)
-				}
-			}
-			return false
-		}
-
-		if msg.Type() != MessageDictionaryBatch {
-			r.err = fmt.Errorf("arrow/ipc: IPC stream did not have the expected (%d) dictionaries at the start of the stream", numDicts)
-		}
-		if _, err := readDictionary(&r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem); err != nil {
-			r.done = true
-			r.err = err
-			return false
-		}
-	}
-	r.readInitialDicts = true
-	return true
-}
-
-func (r *Reader) next() bool {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			r.err = utils.FormatRecoveredError("arrow/ipc: unknown error while reading", pErr)
-		}
-	}()
-	if r.schema == nil {
-		if err := r.readSchema(r.expectedSchema); err != nil {
-			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
-			r.done = true
-			return false
-		}
-	}
-
-	if !r.readInitialDicts && !r.getInitialDicts() {
-		return false
-	}
-
-	var msg *Message
-	msg, r.err = r.r.Message()
-
-	for msg != nil && msg.Type() == MessageDictionaryBatch {
-		if _, r.err = readDictionary(&r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem); r.err != nil {
-			r.done = true
-			return false
-		}
-		msg, r.err = r.r.Message()
-	}
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-
-	if got, want := msg.Type(), MessageRecordBatch; got != want {
-		r.err = fmt.Errorf("arrow/ipc: invalid message type (got=%v, want=%v", got, want)
-		return false
-	}
-
-	r.rec = newRecord(r.schema, &r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem)
-	return true
-}
-
-// Record returns the current record that has been extracted from the
-// underlying stream.
-// It is valid until the next call to Next.
-func (r *Reader) Record() arrow.Record {
-	return r.rec
-}
-
-// Read reads the current record from the underlying stream and an error, if any.
-// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-func (r *Reader) Read() (arrow.Record, error) {
-	if r.rec != nil {
-		r.rec.Release()
-		r.rec = nil
-	}
-
-	if !r.next() {
-		if r.done && r.err == nil {
-			return nil, io.EOF
-		}
-		return nil, r.err
-	}
-
-	return r.rec, nil
-}
-
-var (
-	_ array.RecordReader = (*Reader)(nil)
-)
diff --git a/go/arrow/ipc/reader_test.go b/go/arrow/ipc/reader_test.go
deleted file mode 100644
index 44aee19ecadd6..0000000000000
--- a/go/arrow/ipc/reader_test.go
+++ /dev/null
@@ -1,185 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestReaderCatchPanic(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	buf := new(bytes.Buffer)
-	writer := NewWriter(buf, WithSchema(schema))
-	require.NoError(t, writer.Write(rec))
-
-	for i := buf.Len() - 100; i < buf.Len(); i++ {
-		buf.Bytes()[i] = 0
-	}
-
-	reader, err := NewReader(buf)
-	require.NoError(t, err)
-
-	_, err = reader.Read()
-	if assert.Error(t, err) {
-		assert.Contains(t, err.Error(), "arrow/ipc: unknown error while reading")
-	}
-}
-
-func TestReaderCheckedAllocator(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer alloc.AssertSize(t, 0)
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name: "s",
-			Type: &arrow.DictionaryType{
-				ValueType: arrow.BinaryTypes.String,
-				IndexType: arrow.PrimitiveTypes.Int32,
-			},
-		},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	bldr := b.Field(0).(*array.BinaryDictionaryBuilder)
-	bldr.Append([]byte("foo"))
-	bldr.Append([]byte("bar"))
-	bldr.Append([]byte("baz"))
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	buf := new(bytes.Buffer)
-	writer := NewWriter(buf, WithSchema(schema), WithAllocator(alloc))
-	defer writer.Close()
-	require.NoError(t, writer.Write(rec))
-
-	reader, err := NewReader(buf, WithAllocator(alloc))
-	require.NoError(t, err)
-	defer reader.Release()
-
-	_, err = reader.Read()
-	require.NoError(t, err)
-}
-
-func BenchmarkIPC(b *testing.B) {
-	alloc := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer alloc.AssertSize(b, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name: "s",
-			Type: &arrow.DictionaryType{
-				ValueType: arrow.BinaryTypes.String,
-				IndexType: arrow.PrimitiveTypes.Int32,
-			},
-		},
-	}, nil)
-
-	rb := array.NewRecordBuilder(alloc, schema)
-	defer rb.Release()
-
-	bldr := rb.Field(0).(*array.BinaryDictionaryBuilder)
-	bldr.Append([]byte("foo"))
-	bldr.Append([]byte("bar"))
-	bldr.Append([]byte("baz"))
-
-	rec := rb.NewRecord()
-	defer rec.Release()
-
-	for _, codec := range []struct {
-		name        string
-		codecOption Option
-	}{
-		{
-			name: "plain",
-		},
-		{
-			name:        "zstd",
-			codecOption: WithZstd(),
-		},
-		{
-			name:        "lz4",
-			codecOption: WithLZ4(),
-		},
-	} {
-		options := []Option{WithSchema(schema), WithAllocator(alloc)}
-		if codec.codecOption != nil {
-			options = append(options, codec.codecOption)
-		}
-		b.Run(fmt.Sprintf("Writer/codec=%s", codec.name), func(b *testing.B) {
-			buf := new(bytes.Buffer)
-			for i := 0; i < b.N; i++ {
-				func() {
-					buf.Reset()
-					writer := NewWriter(buf, options...)
-					defer writer.Close()
-					if err := writer.Write(rec); err != nil {
-						b.Fatal(err)
-					}
-				}()
-			}
-		})
-
-		b.Run(fmt.Sprintf("Reader/codec=%s", codec.name), func(b *testing.B) {
-			buf := new(bytes.Buffer)
-			writer := NewWriter(buf, options...)
-			defer writer.Close()
-			require.NoError(b, writer.Write(rec))
-			bufBytes := buf.Bytes()
-
-			b.ResetTimer()
-			for i := 0; i < b.N; i++ {
-				func() {
-					reader, err := NewReader(bytes.NewReader(bufBytes), WithAllocator(alloc))
-					if err != nil {
-						b.Fatal(err)
-					}
-					defer reader.Release()
-					for {
-						if _, err := reader.Read(); err != nil {
-							if err == io.EOF {
-								break
-							}
-							b.Fatal(err)
-						}
-					}
-				}()
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/stream_test.go b/go/arrow/ipc/stream_test.go
deleted file mode 100644
index b044acff5350d..0000000000000
--- a/go/arrow/ipc/stream_test.go
+++ /dev/null
@@ -1,102 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"io"
-	"os"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteStream(t, f, mem, recs[0].Schema(), recs)
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatalf("could not sync data to disk: %v", err)
-			}
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatalf("could not seek to start: %v", err)
-			}
-
-			arrdata.CheckArrowStream(t, f, mem, recs[0].Schema(), recs)
-		})
-	}
-}
-
-func TestStreamCompressed(t *testing.T) {
-	tempDir := t.TempDir()
-
-	compressTypes := []flatbuf.CompressionType{
-		flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD,
-	}
-
-	for np := 0; np < 3; np++ {
-		t.Run("compress concurrency "+strconv.Itoa(np), func(t *testing.T) {
-			for _, codec := range compressTypes {
-				t.Run(codec.String(), func(t *testing.T) {
-					for name, recs := range arrdata.Records {
-						t.Run(name, func(t *testing.T) {
-							mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-							defer mem.AssertSize(t, 0)
-
-							f, err := os.CreateTemp(tempDir, "go-arrow-stream-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer f.Close()
-
-							arrdata.WriteStreamCompressed(t, f, mem, recs[0].Schema(), recs, codec, np)
-
-							err = f.Sync()
-							if err != nil {
-								t.Fatalf("could not sync data to disk: %v", err)
-							}
-
-							_, err = f.Seek(0, io.SeekStart)
-							if err != nil {
-								t.Fatalf("could not seek to start: %v", err)
-							}
-
-							arrdata.CheckArrowStream(t, f, mem, recs[0].Schema(), recs)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/writer.go b/go/arrow/ipc/writer.go
deleted file mode 100644
index 5a280fbf84a1f..0000000000000
--- a/go/arrow/ipc/writer.go
+++ /dev/null
@@ -1,1095 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"context"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-	"math"
-	"sync"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-type streamWriter struct {
-	w   io.Writer
-	pos int64
-}
-
-func (w *streamWriter) Start() error { return nil }
-func (w *streamWriter) Close() error {
-	_, err := w.Write(kEOS[:])
-	return err
-}
-
-func (w *streamWriter) WritePayload(p Payload) error {
-	_, err := writeIPCPayload(w, p)
-	if err != nil {
-		return err
-	}
-	return nil
-}
-
-func (w *streamWriter) Write(p []byte) (int, error) {
-	n, err := w.w.Write(p)
-	w.pos += int64(n)
-	return n, err
-}
-
-func hasNestedDict(data arrow.ArrayData) bool {
-	if data.DataType().ID() == arrow.DICTIONARY {
-		return true
-	}
-	for _, c := range data.Children() {
-		if hasNestedDict(c) {
-			return true
-		}
-	}
-	return false
-}
-
-// Writer is an Arrow stream writer.
-type Writer struct {
-	w io.Writer
-
-	mem memory.Allocator
-	pw  PayloadWriter
-
-	started         bool
-	schema          *arrow.Schema
-	mapper          dictutils.Mapper
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-
-	// map of the last written dictionaries by id
-	// so we can avoid writing the same dictionary over and over
-	lastWrittenDicts map[int64]arrow.Array
-	emitDictDeltas   bool
-}
-
-// NewWriterWithPayloadWriter constructs a writer with the provided payload writer
-// instead of the default stream payload writer. This makes the writer more
-// reusable such as by the Arrow Flight writer.
-func NewWriterWithPayloadWriter(pw PayloadWriter, opts ...Option) *Writer {
-	cfg := newConfig(opts...)
-	return &Writer{
-		mem:             cfg.alloc,
-		pw:              pw,
-		schema:          cfg.schema,
-		codec:           cfg.codec,
-		compressNP:      cfg.compressNP,
-		minSpaceSavings: cfg.minSpaceSavings,
-		emitDictDeltas:  cfg.emitDictDeltas,
-		compressors:     make([]compressor, cfg.compressNP),
-	}
-}
-
-// NewWriter returns a writer that writes records to the provided output stream.
-func NewWriter(w io.Writer, opts ...Option) *Writer {
-	cfg := newConfig(opts...)
-	return &Writer{
-		w:              w,
-		mem:            cfg.alloc,
-		pw:             &streamWriter{w: w},
-		schema:         cfg.schema,
-		codec:          cfg.codec,
-		emitDictDeltas: cfg.emitDictDeltas,
-		compressNP:     cfg.compressNP,
-		compressors:    make([]compressor, cfg.compressNP),
-	}
-}
-
-func (w *Writer) Close() error {
-	if !w.started {
-		err := w.start()
-		if err != nil {
-			return err
-		}
-	}
-
-	if w.pw == nil {
-		return nil
-	}
-
-	err := w.pw.Close()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not close payload writer: %w", err)
-	}
-	w.pw = nil
-
-	for _, d := range w.lastWrittenDicts {
-		d.Release()
-	}
-
-	return nil
-}
-
-func (w *Writer) Write(rec arrow.Record) (err error) {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/ipc: unknown error while writing", pErr)
-		}
-	}()
-
-	incomingSchema := rec.Schema()
-
-	if !w.started {
-		if w.schema == nil {
-			w.schema = incomingSchema
-		}
-		err := w.start()
-		if err != nil {
-			return err
-		}
-	}
-
-	if incomingSchema == nil || !incomingSchema.Equal(w.schema) {
-		return errInconsistentSchema
-	}
-
-	const allow64b = true
-	var (
-		data = Payload{msg: MessageRecordBatch}
-		enc  = newRecordEncoder(
-			w.mem,
-			0,
-			kMaxNestingDepth,
-			allow64b,
-			w.codec,
-			w.compressNP,
-			w.minSpaceSavings,
-			w.compressors,
-		)
-	)
-	defer data.Release()
-
-	err = writeDictionaryPayloads(w.mem, rec, false, w.emitDictDeltas, &w.mapper, w.lastWrittenDicts, w.pw, enc)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: failure writing dictionary batches: %w", err)
-	}
-
-	enc.reset()
-	if err := enc.Encode(&data, rec); err != nil {
-		return fmt.Errorf("arrow/ipc: could not encode record to payload: %w", err)
-	}
-
-	return w.pw.WritePayload(data)
-}
-
-func writeDictionaryPayloads(mem memory.Allocator, batch arrow.Record, isFileFormat bool, emitDictDeltas bool, mapper *dictutils.Mapper, lastWrittenDicts map[int64]arrow.Array, pw PayloadWriter, encoder *recordEncoder) error {
-	dictionaries, err := dictutils.CollectDictionaries(batch, mapper)
-	if err != nil {
-		return err
-	}
-	defer func() {
-		for _, d := range dictionaries {
-			d.Dict.Release()
-		}
-	}()
-
-	eqopt := array.WithNaNsEqual(true)
-	for _, pair := range dictionaries {
-		encoder.reset()
-		var (
-			deltaStart int64
-			enc        = dictEncoder{encoder}
-		)
-		lastDict, exists := lastWrittenDicts[pair.ID]
-		if exists {
-			if lastDict.Data() == pair.Dict.Data() {
-				continue
-			}
-			newLen, lastLen := pair.Dict.Len(), lastDict.Len()
-			if lastLen == newLen && array.ApproxEqual(lastDict, pair.Dict, eqopt) {
-				// same dictionary by value
-				// might cost CPU, but required for IPC file format
-				continue
-			}
-			if isFileFormat {
-				return errors.New("arrow/ipc: Dictionary replacement detected when writing IPC file format. Arrow IPC File only supports single dictionary per field")
-			}
-
-			if newLen > lastLen &&
-				emitDictDeltas &&
-				!hasNestedDict(pair.Dict.Data()) &&
-				(array.SliceApproxEqual(lastDict, 0, int64(lastLen), pair.Dict, 0, int64(lastLen), eqopt)) {
-				deltaStart = int64(lastLen)
-			}
-		}
-
-		var data = Payload{msg: MessageDictionaryBatch}
-		defer data.Release()
-
-		dict := pair.Dict
-		if deltaStart > 0 {
-			dict = array.NewSlice(dict, deltaStart, int64(dict.Len()))
-			defer dict.Release()
-		}
-		if err := enc.Encode(&data, pair.ID, deltaStart > 0, dict); err != nil {
-			return err
-		}
-
-		if err := pw.WritePayload(data); err != nil {
-			return err
-		}
-
-		lastWrittenDicts[pair.ID] = pair.Dict
-		if lastDict != nil {
-			lastDict.Release()
-		}
-		pair.Dict.Retain()
-	}
-	return nil
-}
-
-func (w *Writer) start() error {
-	w.started = true
-
-	w.mapper.ImportSchema(w.schema)
-	w.lastWrittenDicts = make(map[int64]arrow.Array)
-
-	// write out schema payloads
-	ps := payloadFromSchema(w.schema, w.mem, &w.mapper)
-	defer ps.Release()
-
-	for _, data := range ps {
-		err := w.pw.WritePayload(data)
-		if err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-type dictEncoder struct {
-	*recordEncoder
-}
-
-func (d *dictEncoder) encodeMetadata(p *Payload, isDelta bool, id, nrows int64) error {
-	p.meta = writeDictionaryMessage(d.mem, id, isDelta, nrows, p.size, d.fields, d.meta, d.codec, d.variadicCounts)
-	return nil
-}
-
-func (d *dictEncoder) Encode(p *Payload, id int64, isDelta bool, dict arrow.Array) error {
-	d.start = 0
-	defer func() {
-		d.start = 0
-	}()
-
-	schema := arrow.NewSchema([]arrow.Field{{Name: "dictionary", Type: dict.DataType(), Nullable: true}}, nil)
-	batch := array.NewRecord(schema, []arrow.Array{dict}, int64(dict.Len()))
-	defer batch.Release()
-	if err := d.encode(p, batch); err != nil {
-		return err
-	}
-
-	return d.encodeMetadata(p, isDelta, id, batch.NumRows())
-}
-
-type recordEncoder struct {
-	mem memory.Allocator
-
-	fields         []fieldMetadata
-	meta           []bufferMetadata
-	variadicCounts []int64
-
-	depth           int64
-	start           int64
-	allow64b        bool
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-}
-
-func newRecordEncoder(
-	mem memory.Allocator,
-	startOffset,
-	maxDepth int64,
-	allow64b bool,
-	codec flatbuf.CompressionType,
-	compressNP int,
-	minSpaceSavings *float64,
-	compressors []compressor,
-) *recordEncoder {
-	return &recordEncoder{
-		mem:             mem,
-		start:           startOffset,
-		depth:           maxDepth,
-		allow64b:        allow64b,
-		codec:           codec,
-		compressNP:      compressNP,
-		compressors:     compressors,
-		minSpaceSavings: minSpaceSavings,
-	}
-}
-
-func (w *recordEncoder) shouldCompress(uncompressed, compressed int) bool {
-	debug.Assert(uncompressed > 0, "uncompressed size is 0")
-	if w.minSpaceSavings == nil {
-		return true
-	}
-
-	savings := 1.0 - float64(compressed)/float64(uncompressed)
-	return savings >= *w.minSpaceSavings
-}
-
-func (w *recordEncoder) reset() {
-	w.start = 0
-	w.fields = make([]fieldMetadata, 0)
-}
-
-func (w *recordEncoder) getCompressor(id int) compressor {
-	if w.compressors[id] == nil {
-		w.compressors[id] = getCompressor(w.codec)
-	}
-	return w.compressors[id]
-}
-
-func (w *recordEncoder) compressBodyBuffers(p *Payload) error {
-	compress := func(idx int, codec compressor) error {
-		if p.body[idx] == nil || p.body[idx].Len() == 0 {
-			return nil
-		}
-
-		buf := memory.NewResizableBuffer(w.mem)
-		buf.Reserve(codec.MaxCompressedLen(p.body[idx].Len()) + arrow.Int64SizeBytes)
-
-		binary.LittleEndian.PutUint64(buf.Buf(), uint64(p.body[idx].Len()))
-		bw := &bufferWriter{buf: buf, pos: arrow.Int64SizeBytes}
-		codec.Reset(bw)
-
-		n, err := codec.Write(p.body[idx].Bytes())
-		if err != nil {
-			return err
-		}
-		if err := codec.Close(); err != nil {
-			return err
-		}
-
-		finalLen := bw.pos
-		compressedLen := bw.pos - arrow.Int64SizeBytes
-		if !w.shouldCompress(n, compressedLen) {
-			n = copy(buf.Buf()[arrow.Int64SizeBytes:], p.body[idx].Bytes())
-			// size of -1 indicates to the reader that the body
-			// doesn't need to be decompressed
-			var noprefix int64 = -1
-			binary.LittleEndian.PutUint64(buf.Buf(), uint64(noprefix))
-			finalLen = n + arrow.Int64SizeBytes
-		}
-		bw.buf.Resize(finalLen)
-		p.body[idx].Release()
-		p.body[idx] = buf
-		return nil
-	}
-
-	if w.compressNP <= 1 {
-		codec := w.getCompressor(0)
-		for idx := range p.body {
-			if err := compress(idx, codec); err != nil {
-				return err
-			}
-		}
-		return nil
-	}
-
-	var (
-		wg          sync.WaitGroup
-		ch          = make(chan int)
-		errch       = make(chan error)
-		ctx, cancel = context.WithCancel(context.Background())
-	)
-	defer cancel()
-
-	for workerID := 0; workerID < w.compressNP; workerID++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			codec := w.getCompressor(id)
-			for {
-				select {
-				case idx, ok := <-ch:
-					if !ok {
-						// we're done, channel is closed!
-						return
-					}
-
-					if err := compress(idx, codec); err != nil {
-						errch <- err
-						cancel()
-						return
-					}
-				case <-ctx.Done():
-					// cancelled, return early
-					return
-				}
-			}
-		}(workerID)
-	}
-
-	for idx := range p.body {
-		ch <- idx
-	}
-
-	close(ch)
-	wg.Wait()
-	close(errch)
-
-	return <-errch
-}
-
-func (w *recordEncoder) encode(p *Payload, rec arrow.Record) error {
-	// perform depth-first traversal of the row-batch
-	for i, col := range rec.Columns() {
-		err := w.visit(p, col)
-		if err != nil {
-			return fmt.Errorf("arrow/ipc: could not encode column %d (%q): %w", i, rec.ColumnName(i), err)
-		}
-	}
-
-	if w.codec != -1 {
-		if w.minSpaceSavings != nil {
-			pct := *w.minSpaceSavings
-			if pct < 0 || pct > 1 {
-				p.Release()
-				return fmt.Errorf("%w: minSpaceSavings not in range [0,1]. Provided %.05f",
-					arrow.ErrInvalid, pct)
-			}
-		}
-		w.compressBodyBuffers(p)
-	}
-
-	// position for the start of a buffer relative to the passed frame of reference.
-	// may be 0 or some other position in an address space.
-	offset := w.start
-	w.meta = make([]bufferMetadata, len(p.body))
-
-	// construct the metadata for the record batch header
-	for i, buf := range p.body {
-		var (
-			size    int64
-			padding int64
-		)
-		// the buffer might be null if we are handling zero row lengths.
-		if buf != nil {
-			size = int64(buf.Len())
-			padding = bitutil.CeilByte64(size) - size
-		}
-		w.meta[i] = bufferMetadata{
-			Offset: offset,
-			// even though we add padding, we need the Len to be correct
-			// so that decompressing works properly.
-			Len: size,
-		}
-		offset += size + padding
-	}
-
-	p.size = offset - w.start
-	if !bitutil.IsMultipleOf8(p.size) {
-		panic("not aligned")
-	}
-
-	return nil
-}
-
-func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
-	if w.depth <= 0 {
-		return errMaxRecursion
-	}
-
-	if !w.allow64b && arr.Len() > math.MaxInt32 {
-		return errBigArray
-	}
-
-	if arr.DataType().ID() == arrow.EXTENSION {
-		arr := arr.(array.ExtensionArray)
-		err := w.visit(p, arr.Storage())
-		if err != nil {
-			return fmt.Errorf("failed visiting storage of for array %T: %w", arr, err)
-		}
-		return nil
-	}
-
-	if arr.DataType().ID() == arrow.DICTIONARY {
-		arr := arr.(*array.Dictionary)
-		return w.visit(p, arr.Indices())
-	}
-
-	// add all common elements
-	w.fields = append(w.fields, fieldMetadata{
-		Len:    int64(arr.Len()),
-		Nulls:  int64(arr.NullN()),
-		Offset: 0,
-	})
-
-	if arr.DataType().ID() == arrow.NULL {
-		return nil
-	}
-
-	if internal.HasValidityBitmap(arr.DataType().ID(), flatbuf.MetadataVersion(currentMetadataVersion)) {
-		switch arr.NullN() {
-		case 0:
-			// there are no null values, drop the null bitmap
-			p.body = append(p.body, nil)
-		default:
-			data := arr.Data()
-			var bitmap *memory.Buffer
-			if data.NullN() == data.Len() {
-				// every value is null, just use a new zero-initialized bitmap to avoid the expense of copying
-				bitmap = memory.NewResizableBuffer(w.mem)
-				minLength := paddedLength(bitutil.BytesForBits(int64(data.Len())), kArrowAlignment)
-				bitmap.Resize(int(minLength))
-			} else {
-				// otherwise truncate and copy the bits
-				bitmap = newTruncatedBitmap(w.mem, int64(data.Offset()), int64(data.Len()), data.Buffers()[0])
-			}
-			p.body = append(p.body, bitmap)
-		}
-	}
-
-	switch dtype := arr.DataType().(type) {
-	case *arrow.NullType:
-		// ok. NullArrays are completely empty.
-
-	case *arrow.BooleanType:
-		var (
-			data = arr.Data()
-			bitm *memory.Buffer
-		)
-
-		if data.Len() != 0 {
-			bitm = newTruncatedBitmap(w.mem, int64(data.Offset()), int64(data.Len()), data.Buffers()[1])
-		}
-		p.body = append(p.body, bitm)
-
-	case arrow.FixedWidthDataType:
-		data := arr.Data()
-		values := data.Buffers()[1]
-		arrLen := int64(arr.Len())
-		typeWidth := int64(dtype.BitWidth() / 8)
-		minLength := paddedLength(arrLen*typeWidth, kArrowAlignment)
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, minLength):
-			// non-zero offset: slice the buffer
-			offset := int64(data.Offset()) * typeWidth
-			// send padding if available
-			len := minI64(bitutil.CeilByte64(arrLen*typeWidth), int64(values.Len())-offset)
-			values = memory.NewBufferBytes(values.Bytes()[offset : offset+len])
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, values)
-
-	case *arrow.BinaryType, *arrow.LargeBinaryType, *arrow.StringType, *arrow.LargeStringType:
-		arr := arr.(array.BinaryLike)
-		voffsets := w.getZeroBasedValueOffsets(arr)
-		data := arr.Data()
-		values := data.Buffers()[2]
-
-		var totalDataBytes int64
-		if voffsets != nil {
-			totalDataBytes = int64(len(arr.ValueBytes()))
-		}
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, totalDataBytes):
-			// slice data buffer to include the range we need now.
-			var (
-				beg = arr.ValueOffset64(0)
-				len = minI64(paddedLength(totalDataBytes, kArrowAlignment), int64(totalDataBytes))
-			)
-			values = memory.NewBufferBytes(data.Buffers()[2].Bytes()[beg : beg+len])
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, voffsets)
-		p.body = append(p.body, values)
-
-	case arrow.BinaryViewDataType:
-		data := arr.Data()
-		values := data.Buffers()[1]
-		arrLen := int64(arr.Len())
-		typeWidth := int64(arrow.ViewHeaderSizeBytes)
-		minLength := paddedLength(arrLen*typeWidth, kArrowAlignment)
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, minLength):
-			// non-zero offset: slice the buffer
-			offset := data.Offset() * int(typeWidth)
-			// send padding if available
-			len := int(minI64(bitutil.CeilByte64(arrLen*typeWidth), int64(values.Len()-offset)))
-			values = memory.SliceBuffer(values, offset, len)
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, values)
-
-		w.variadicCounts = append(w.variadicCounts, int64(len(data.Buffers())-2))
-		for _, b := range data.Buffers()[2:] {
-			b.Retain()
-			p.body = append(p.body, b)
-		}
-
-	case *arrow.StructType:
-		w.depth--
-		arr := arr.(*array.Struct)
-		for i := 0; i < arr.NumField(); i++ {
-			err := w.visit(p, arr.Field(i))
-			if err != nil {
-				return fmt.Errorf("could not visit field %d of struct-array: %w", i, err)
-			}
-		}
-		w.depth++
-
-	case *arrow.SparseUnionType:
-		offset, length := arr.Data().Offset(), arr.Len()
-		arr := arr.(*array.SparseUnion)
-		typeCodes := getTruncatedBuffer(int64(offset), int64(length), int32(unsafe.Sizeof(arrow.UnionTypeCode(0))), arr.TypeCodes())
-		p.body = append(p.body, typeCodes)
-
-		w.depth--
-		for i := 0; i < arr.NumFields(); i++ {
-			err := w.visit(p, arr.Field(i))
-			if err != nil {
-				return fmt.Errorf("could not visit field %d of sparse union array: %w", i, err)
-			}
-		}
-		w.depth++
-	case *arrow.DenseUnionType:
-		offset, length := arr.Data().Offset(), arr.Len()
-		arr := arr.(*array.DenseUnion)
-		typeCodes := getTruncatedBuffer(int64(offset), int64(length), int32(unsafe.Sizeof(arrow.UnionTypeCode(0))), arr.TypeCodes())
-		p.body = append(p.body, typeCodes)
-
-		w.depth--
-		dt := arr.UnionType()
-
-		// union type codes are not necessarily 0-indexed
-		maxCode := dt.MaxTypeCode()
-
-		// allocate an array of child offsets. Set all to -1 to indicate we
-		// haven't observed a first occurrence of a particular child yet
-		offsets := make([]int32, maxCode+1)
-		lengths := make([]int32, maxCode+1)
-		offsets[0], lengths[0] = -1, 0
-		for i := 1; i < len(offsets); i *= 2 {
-			copy(offsets[i:], offsets[:i])
-			copy(lengths[i:], lengths[:i])
-		}
-
-		var valueOffsets *memory.Buffer
-		if offset != 0 {
-			valueOffsets = w.rebaseDenseUnionValueOffsets(arr, offsets, lengths)
-		} else {
-			valueOffsets = getTruncatedBuffer(int64(offset), int64(length), int32(arrow.Int32SizeBytes), arr.ValueOffsets())
-		}
-		p.body = append(p.body, valueOffsets)
-
-		// visit children and slice accordingly
-		for i := range dt.Fields() {
-			child := arr.Field(i)
-			// for sliced unions it's tricky to know how much to truncate
-			// the children. For now we'll truncate the children to be
-			// no longer than the parent union.
-
-			if offset != 0 {
-				code := dt.TypeCodes()[i]
-				childOffset := offsets[code]
-				childLen := lengths[code]
-
-				if childOffset > 0 {
-					child = array.NewSlice(child, int64(childOffset), int64(childOffset+childLen))
-					defer child.Release()
-				} else if childLen < int32(child.Len()) {
-					child = array.NewSlice(child, 0, int64(childLen))
-					defer child.Release()
-				}
-			}
-			if err := w.visit(p, child); err != nil {
-				return fmt.Errorf("could not visit field %d of dense union array: %w", i, err)
-			}
-		}
-		w.depth++
-	case *arrow.MapType, *arrow.ListType, *arrow.LargeListType:
-		arr := arr.(array.ListLike)
-		voffsets := w.getZeroBasedValueOffsets(arr)
-		p.body = append(p.body, voffsets)
-
-		w.depth--
-		var (
-			values        = arr.ListValues()
-			mustRelease   = false
-			values_offset int64
-			values_end    int64
-		)
-		defer func() {
-			if mustRelease {
-				values.Release()
-			}
-		}()
-
-		if arr.Len() > 0 && voffsets != nil {
-			values_offset, _ = arr.ValueOffsets(0)
-			_, values_end = arr.ValueOffsets(arr.Len() - 1)
-		}
-
-		if arr.Len() != 0 || values_end < int64(values.Len()) {
-			// must also slice the values
-			values = array.NewSlice(values, values_offset, values_end)
-			mustRelease = true
-		}
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.ListViewType, *arrow.LargeListViewType:
-		arr := arr.(array.VarLenListLike)
-
-		voffsets, minOffset, maxEnd := w.getZeroBasedListViewOffsets(arr)
-		vsizes := w.getListViewSizes(arr)
-
-		p.body = append(p.body, voffsets)
-		p.body = append(p.body, vsizes)
-
-		w.depth--
-		var (
-			values = arr.ListValues()
-		)
-
-		if minOffset != 0 || maxEnd < int64(values.Len()) {
-			values = array.NewSlice(values, minOffset, maxEnd)
-			defer values.Release()
-		}
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.FixedSizeListType:
-		arr := arr.(*array.FixedSizeList)
-
-		w.depth--
-
-		size := int64(arr.DataType().(*arrow.FixedSizeListType).Len())
-		beg := int64(arr.Offset()) * size
-		end := int64(arr.Offset()+arr.Len()) * size
-
-		values := array.NewSlice(arr.ListValues(), beg, end)
-		defer values.Release()
-
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.RunEndEncodedType:
-		arr := arr.(*array.RunEndEncoded)
-		w.depth--
-		child := arr.LogicalRunEndsArray(w.mem)
-		defer child.Release()
-		if err := w.visit(p, child); err != nil {
-			return err
-		}
-		child = arr.LogicalValuesArray()
-		defer child.Release()
-		if err := w.visit(p, child); err != nil {
-			return err
-		}
-		w.depth++
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: unknown array %T (dtype=%T)", arr, dtype))
-	}
-
-	return nil
-}
-
-func (w *recordEncoder) getZeroBasedValueOffsets(arr arrow.Array) *memory.Buffer {
-	data := arr.Data()
-	voffsets := data.Buffers()[1]
-	offsetTraits := arr.DataType().(arrow.OffsetsDataType).OffsetTypeTraits()
-	offsetBytesNeeded := offsetTraits.BytesRequired(data.Len() + 1)
-
-	if voffsets == nil || voffsets.Len() == 0 {
-		return nil
-	}
-
-	dataTypeWidth := arr.DataType().Layout().Buffers[1].ByteWidth
-
-	// if we have a non-zero offset, then the value offsets do not start at
-	// zero. we must a) create a new offsets array with shifted offsets and
-	// b) slice the values array accordingly
-	hasNonZeroOffset := data.Offset() != 0
-
-	// or if there are more value offsets than values (the array has been sliced)
-	// we need to trim off the trailing offsets
-	hasMoreOffsetsThanValues := offsetBytesNeeded < voffsets.Len()
-
-	// or if the offsets do not start from the zero index, we need to shift them
-	// and slice the values array
-	var firstOffset int64
-	if dataTypeWidth == 8 {
-		firstOffset = arrow.Int64Traits.CastFromBytes(voffsets.Bytes())[0]
-	} else {
-		firstOffset = int64(arrow.Int32Traits.CastFromBytes(voffsets.Bytes())[0])
-	}
-	offsetsDoNotStartFromZero := firstOffset != 0
-
-	// determine whether the offsets array should be shifted
-	needsTruncateAndShift := hasNonZeroOffset || hasMoreOffsetsThanValues || offsetsDoNotStartFromZero
-
-	if needsTruncateAndShift {
-		shiftedOffsets := memory.NewResizableBuffer(w.mem)
-		shiftedOffsets.Resize(offsetBytesNeeded)
-
-		switch dataTypeWidth {
-		case 8:
-			dest := arrow.Int64Traits.CastFromBytes(shiftedOffsets.Bytes())
-			offsets := arrow.Int64Traits.CastFromBytes(voffsets.Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-
-			startOffset := offsets[0]
-			for i, o := range offsets {
-				dest[i] = o - startOffset
-			}
-
-		default:
-			debug.Assert(arr.DataType().Layout().Buffers[1].ByteWidth == 4, "invalid offset bytewidth")
-			dest := arrow.Int32Traits.CastFromBytes(shiftedOffsets.Bytes())
-			offsets := arrow.Int32Traits.CastFromBytes(voffsets.Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-
-			startOffset := offsets[0]
-			for i, o := range offsets {
-				dest[i] = o - startOffset
-			}
-		}
-
-		voffsets = shiftedOffsets
-	} else {
-		voffsets.Retain()
-	}
-
-	return voffsets
-}
-
-func getZeroBasedListViewOffsets[OffsetT int32 | int64](mem memory.Allocator, arr array.VarLenListLike) (valueOffsets *memory.Buffer, minOffset, maxEnd OffsetT) {
-	requiredBytes := int(unsafe.Sizeof(minOffset)) * arr.Len()
-	if arr.Data().Offset() == 0 {
-		// slice offsets to used extent, in case we have truncated slice
-		minOffset, maxEnd = 0, OffsetT(arr.ListValues().Len())
-		valueOffsets = arr.Data().Buffers()[1]
-		if valueOffsets.Len() > requiredBytes {
-			valueOffsets = memory.SliceBuffer(valueOffsets, 0, requiredBytes)
-		} else {
-			valueOffsets.Retain()
-		}
-		return
-	}
-
-	// non-zero offset, it's likely that the smallest offset is not zero
-	// we must a) create a new offsets array with shifted offsets and
-	// b) slice the values array accordingly
-
-	valueOffsets = memory.NewResizableBuffer(mem)
-	valueOffsets.Resize(requiredBytes)
-	if arr.Len() > 0 {
-		// max value of int32/int64 based on type
-		minOffset = (^OffsetT(0)) << ((8 * unsafe.Sizeof(minOffset)) - 1)
-		for i := 0; i < arr.Len(); i++ {
-			start, end := arr.ValueOffsets(i)
-			minOffset = utils.Min(minOffset, OffsetT(start))
-			maxEnd = utils.Max(maxEnd, OffsetT(end))
-		}
-	}
-
-	offsets := arrow.GetData[OffsetT](arr.Data().Buffers()[1].Bytes())[arr.Data().Offset():]
-	destOffset := arrow.GetData[OffsetT](valueOffsets.Bytes())
-	for i := 0; i < arr.Len(); i++ {
-		destOffset[i] = offsets[i] - minOffset
-	}
-	return
-}
-
-func getListViewSizes[OffsetT int32 | int64](arr array.VarLenListLike) *memory.Buffer {
-	var z OffsetT
-	requiredBytes := int(unsafe.Sizeof(z)) * arr.Len()
-	sizes := arr.Data().Buffers()[2]
-
-	if arr.Data().Offset() != 0 || sizes.Len() > requiredBytes {
-		// slice offsets to used extent, in case we have truncated slice
-		offsetBytes := arr.Data().Offset() * int(unsafe.Sizeof(z))
-		sizes = memory.SliceBuffer(sizes, offsetBytes, requiredBytes)
-	} else {
-		sizes.Retain()
-	}
-	return sizes
-}
-
-func (w *recordEncoder) getZeroBasedListViewOffsets(arr array.VarLenListLike) (*memory.Buffer, int64, int64) {
-	if arr.Len() == 0 {
-		return nil, 0, 0
-	}
-
-	var (
-		outOffsets     *memory.Buffer
-		minOff, maxEnd int64
-	)
-
-	switch v := arr.(type) {
-	case *array.ListView:
-		voffsets, outOff, outEnd := getZeroBasedListViewOffsets[int32](w.mem, v)
-		outOffsets = voffsets
-		minOff, maxEnd = int64(outOff), int64(outEnd)
-	case *array.LargeListView:
-		outOffsets, minOff, maxEnd = getZeroBasedListViewOffsets[int64](w.mem, v)
-	}
-	return outOffsets, minOff, maxEnd
-}
-
-func (w *recordEncoder) getListViewSizes(arr array.VarLenListLike) *memory.Buffer {
-	if arr.Len() == 0 {
-		return nil
-	}
-
-	switch v := arr.(type) {
-	case *array.ListView:
-		return getListViewSizes[int32](v)
-	case *array.LargeListView:
-		return getListViewSizes[int64](v)
-	}
-	return nil
-}
-
-func (w *recordEncoder) rebaseDenseUnionValueOffsets(arr *array.DenseUnion, offsets, lengths []int32) *memory.Buffer {
-	// this case sucks. Because the offsets are different for each
-	// child array, when we have a sliced array, we need to re-base
-	// the value offsets for each array! ew.
-	unshiftedOffsets := arr.RawValueOffsets()
-	codes := arr.RawTypeCodes()
-
-	shiftedOffsetsBuf := memory.NewResizableBuffer(w.mem)
-	shiftedOffsetsBuf.Resize(arrow.Int32Traits.BytesRequired(arr.Len()))
-	shiftedOffsets := arrow.Int32Traits.CastFromBytes(shiftedOffsetsBuf.Bytes())
-
-	// compute shifted offsets by subtracting child offset
-	for i, c := range codes {
-		if offsets[c] == -1 {
-			// offsets are guaranteed to be increasing according to the spec
-			// so the first offset we find for a child is the initial offset
-			// and will become the "0" for this child.
-			offsets[c] = unshiftedOffsets[i]
-			shiftedOffsets[i] = 0
-		} else {
-			shiftedOffsets[i] = unshiftedOffsets[i] - offsets[c]
-		}
-		lengths[c] = maxI32(lengths[c], shiftedOffsets[i]+1)
-	}
-	return shiftedOffsetsBuf
-}
-
-func (w *recordEncoder) Encode(p *Payload, rec arrow.Record) error {
-	if err := w.encode(p, rec); err != nil {
-		return err
-	}
-	return w.encodeMetadata(p, rec.NumRows())
-}
-
-func (w *recordEncoder) encodeMetadata(p *Payload, nrows int64) error {
-	p.meta = writeRecordMessage(w.mem, nrows, p.size, w.fields, w.meta, w.codec, w.variadicCounts)
-	return nil
-}
-
-func newTruncatedBitmap(mem memory.Allocator, offset, length int64, input *memory.Buffer) *memory.Buffer {
-	if input == nil {
-		return nil
-	}
-
-	minLength := paddedLength(bitutil.BytesForBits(length), kArrowAlignment)
-	switch {
-	case offset != 0 || minLength < int64(input.Len()):
-		// with a sliced array / non-zero offset, we must copy the bitmap
-		buf := memory.NewResizableBuffer(mem)
-		buf.Resize(int(minLength))
-		bitutil.CopyBitmap(input.Bytes(), int(offset), int(length), buf.Bytes(), 0)
-		return buf
-	default:
-		input.Retain()
-		return input
-	}
-}
-
-func getTruncatedBuffer(offset, length int64, byteWidth int32, buf *memory.Buffer) *memory.Buffer {
-	if buf == nil {
-		return buf
-	}
-
-	paddedLen := paddedLength(length*int64(byteWidth), kArrowAlignment)
-	if offset != 0 || paddedLen < int64(buf.Len()) {
-		return memory.SliceBuffer(buf, int(offset*int64(byteWidth)), int(minI64(paddedLen, int64(buf.Len()))))
-	}
-	buf.Retain()
-	return buf
-}
-
-func needTruncate(offset int64, buf *memory.Buffer, minLength int64) bool {
-	if buf == nil {
-		return false
-	}
-	return offset != 0 || minLength < int64(buf.Len())
-}
-
-func minI64(a, b int64) int64 {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func maxI32(a, b int32) int32 {
-	if a > b {
-		return a
-	}
-	return b
-}
diff --git a/go/arrow/ipc/writer_test.go b/go/arrow/ipc/writer_test.go
deleted file mode 100644
index 60d811e68e87e..0000000000000
--- a/go/arrow/ipc/writer_test.go
+++ /dev/null
@@ -1,256 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-// reproducer from ARROW-13529
-func TestSliceAndWrite(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	sliceAndWrite := func(rec arrow.Record, schema *arrow.Schema) {
-		slice := rec.NewSlice(1, 2)
-		defer slice.Release()
-
-		fmt.Println(slice.Columns()[0].(*array.String).Value(0))
-
-		var buf bytes.Buffer
-		w := NewWriter(&buf, WithSchema(schema))
-		w.Write(slice)
-		w.Close()
-	}
-
-	assert.NotPanics(t, func() {
-		for i := 0; i < 2; i++ {
-			sliceAndWrite(rec, schema)
-		}
-	})
-}
-
-func TestNewTruncatedBitmap(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	assert.Nil(t, newTruncatedBitmap(alloc, 0, 0, nil), "input bitmap is null")
-
-	buf := memory.NewBufferBytes(make([]byte, bitutil.BytesForBits(8)))
-	defer buf.Release()
-
-	bitutil.SetBit(buf.Bytes(), 0)
-	bitutil.SetBit(buf.Bytes(), 2)
-	bitutil.SetBit(buf.Bytes(), 4)
-	bitutil.SetBit(buf.Bytes(), 6)
-
-	assert.Same(t, buf, newTruncatedBitmap(alloc, 0, 8, buf), "no truncation necessary")
-
-	result := newTruncatedBitmap(alloc, 1, 7, buf)
-	defer result.Release()
-	for i, exp := range []bool{false, true, false, true, false, true, false} {
-		assert.Equal(t, exp, bitutil.BitIsSet(result.Bytes(), i), "truncate for offset")
-	}
-
-	buf = memory.NewBufferBytes(make([]byte, 128))
-	defer buf.Release()
-	bitutil.SetBitsTo(buf.Bytes(), 0, 128*8, true)
-
-	result = newTruncatedBitmap(alloc, 0, 8, buf)
-	defer result.Release()
-	assert.Equal(t, 64, result.Len(), "truncate to smaller buffer")
-	assert.Equal(t, 8, bitutil.CountSetBits(result.Bytes(), 0, 8))
-}
-
-func TestGetZeroBasedValueOffsets(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	vals := []string{"a", "b", "c", "d", "e", "f", "g", "h", "i", "j"}
-	b := array.NewStringBuilder(alloc)
-	defer b.Release()
-	b.AppendValues(vals, nil)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	env := &recordEncoder{mem: alloc}
-
-	offsets := env.getZeroBasedValueOffsets(arr)
-	defer offsets.Release()
-	assert.Equal(t, 44, offsets.Len(), "include all offsets if array is not sliced")
-
-	sl := array.NewSlice(arr, 0, 4)
-	defer sl.Release()
-
-	offsets = env.getZeroBasedValueOffsets(sl)
-	defer offsets.Release()
-	assert.Equal(t, 20, offsets.Len(), "trim trailing offsets after slice")
-}
-
-func TestWriterCatchPanic(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	// mess up the first offset for the string column
-	offsetBuf := rec.Column(0).Data().Buffers()[1]
-	bitutil.SetBitsTo(offsetBuf.Bytes(), 0, 32, true)
-
-	buf := new(bytes.Buffer)
-
-	writer := NewWriter(buf, WithSchema(schema))
-	assert.EqualError(t, writer.Write(rec), "arrow/ipc: unknown error while writing: runtime error: slice bounds out of range [-1:]")
-}
-
-func TestWriterMemCompression(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := NewWriter(&buf, WithAllocator(mem), WithSchema(schema), WithZstd())
-	defer w.Close()
-
-	require.NoError(t, w.Write(rec))
-}
-
-func TestWriteWithCompressionAndMinSavings(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	// a small batch that is known to be compressible
-	batch, _, err := array.RecordFromJSON(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "n", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil),
-		strings.NewReader(`[
-			{"n": 0}, {"n": 1}, {"n": 2}, {"n": 3}, {"n": 4},
-			{"n": 5}, {"n": 6}, {"n": 7}, {"n": 8}, {"n": 9}]`))
-	require.NoError(t, err)
-	defer batch.Release()
-
-	prefixedSize := func(buf *memory.Buffer) int64 {
-		if buf.Len() < arrow.Int64SizeBytes {
-			return 0
-		}
-		return int64(binary.LittleEndian.Uint64(buf.Bytes()))
-	}
-	contentSize := func(buf *memory.Buffer) int64 {
-		return int64(buf.Len()) - int64(arrow.Int64SizeBytes)
-	}
-
-	for _, codec := range []flatbuf.CompressionType{flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD} {
-		compressors := []compressor{getCompressor(codec)}
-		enc := newRecordEncoder(mem, 0, 5, true, codec, 1, nil, compressors)
-		var payload Payload
-		require.NoError(t, enc.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-
-		// compute the savings when body buffers are compressed unconditionally.
-		// We also validate that our test batch is indeed compressible.
-		uncompressedSize, compressedSize := prefixedSize(payload.body[1]), contentSize(payload.body[1])
-		assert.Less(t, compressedSize, uncompressedSize)
-		assert.Greater(t, compressedSize, int64(0))
-		expectedSavings := 1.0 - float64(compressedSize)/float64(uncompressedSize)
-
-		compressEncoder := newRecordEncoder(mem, 0, 5, true, codec, 1, &expectedSavings, compressors)
-		payload.Release()
-		payload.body = payload.body[:0]
-		require.NoError(t, compressEncoder.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-		assert.Equal(t, uncompressedSize, prefixedSize(payload.body[1]))
-		assert.Equal(t, compressedSize, contentSize(payload.body[1]))
-
-		payload.Release()
-		payload.body = payload.body[:0]
-		// slightly bump the threshold. the body buffer should now be prefixed
-		// with -1 and its content left uncompressed
-		minSavings := math.Nextafter(expectedSavings, 1.0)
-		compressEncoder.minSpaceSavings = &minSavings
-		require.NoError(t, compressEncoder.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-		assert.EqualValues(t, -1, prefixedSize(payload.body[1]))
-		assert.Equal(t, uncompressedSize, contentSize(payload.body[1]))
-		payload.Release()
-		payload.body = payload.body[:0]
-
-		for _, outOfRange := range []float64{math.Nextafter(1.0, 2.0), math.Nextafter(0, -1)} {
-			compressEncoder.minSpaceSavings = &outOfRange
-			err := compressEncoder.encode(&payload, batch)
-			assert.ErrorIs(t, err, arrow.ErrInvalid)
-			assert.ErrorContains(t, err, "minSpaceSavings not in range [0,1]")
-		}
-	}
-}
-
-func TestWriterInferSchema(t *testing.T) {
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, arrow.NewSchema([]arrow.Field{{Name: "col", Type: arrow.PrimitiveTypes.Int8}}, nil))
-	bldr.Field(0).(*array.Int8Builder).AppendValues([]int8{1, 2, 3, 4, 5}, nil)
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := NewWriter(&buf)
-
-	require.NoError(t, w.Write(rec))
-	require.NoError(t, w.Close())
-
-	r, err := NewReader(&buf)
-	require.NoError(t, err)
-	defer r.Release()
-
-	require.True(t, r.Schema().Equal(rec.Schema()))
-}
diff --git a/go/arrow/math/Makefile b/go/arrow/math/Makefile
deleted file mode 100644
index 3cc392071cde1..0000000000000
--- a/go/arrow/math/Makefile
+++ /dev/null
@@ -1,110 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST=go test
-GOPATH=$(realpath ../../../../../..)
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables \
-	-fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma -mllvm -force-vector-width=32
-ASM_FLAGS_SSE4=-msse4
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	     -fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-INTEL_SOURCES := \
-	float64_avx2_amd64.s float64_sse4_amd64.s \
-	int64_avx2_amd64.s int64_sse4_amd64.s \
-	uint64_avx2_amd64.s uint64_sse4_amd64.s
-
-.PHONEY: assembly
-
-#
-# ARROW-15172: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# The related Arm64 assembly (uint64_neon_arm64.s, int64_neon_arm64.s, float64_neon_arm64.s) were generated by asm2plan9s.
-# And manually formatted them as the Arm64 Plan9.
-#
-assembly: $(INTEL_SOURCES)
-
-generate: ../bin/tmpl
-	../bin/tmpl -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_arm64.go.tmpl=float64_arm64.go type_ppc64le.go.tmpl=float64_ppc64le.go type_s390x.go.tmpl=float64_s390x.go type_noasm.go.tmpl=float64_noasm.go type_test.go.tmpl=float64_test.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=float64_avx2_amd64.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=float64_sse4_amd64.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=float64_neon_arm64.go
-	../bin/tmpl -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_arm64.go.tmpl=int64_arm64.go type_ppc64le.go.tmpl=int64_ppc64le.go type_s390x.go.tmpl=int64_s390x.go type_noasm.go.tmpl=int64_noasm.go type_test.go.tmpl=int64_test.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=int64_avx2_amd64.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=int64_sse4_amd64.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=int64_neon_arm64.go
-	../bin/tmpl -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_arm64.go.tmpl=uint64_arm64.go type_ppc64le.go.tmpl=uint64_ppc64le.go type_s390x.go.tmpl=uint64_s390x.go type_noasm.go.tmpl=uint64_noasm.go type_test.go.tmpl=uint64_test.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=uint64_avx2_amd64.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=uint64_sse4_amd64.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=uint64_neon_arm64.go
-
-_lib/float64_avx2.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/float64_sse4.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/float64_neon.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-float64_avx2_amd64.s: _lib/float64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-float64_sse4_amd64.s: _lib/float64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-_lib/int64_avx2.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/int64_sse4.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/int64_neon.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-int64_avx2_amd64.s: _lib/int64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-int64_sse4_amd64.s: _lib/int64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-_lib/uint64_avx2.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/uint64_sse4.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/uint64_neon.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-uint64_avx2_amd64.s: _lib/uint64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-uint64_sse4_amd64.s: _lib/uint64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
diff --git a/go/arrow/math/_lib/.gitignore b/go/arrow/math/_lib/.gitignore
deleted file mode 100644
index 72757d396c0a0..0000000000000
--- a/go/arrow/math/_lib/.gitignore
+++ /dev/null
@@ -1,18 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-.idea
-cmake-build-*
\ No newline at end of file
diff --git a/go/arrow/math/_lib/CMakeLists.txt b/go/arrow/math/_lib/CMakeLists.txt
deleted file mode 100644
index 050bd40804fc0..0000000000000
--- a/go/arrow/math/_lib/CMakeLists.txt
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-cmake_minimum_required(VERSION 3.6)
-
-project(math-func)
-set(CMAKE_C_STANDARD 99)
-
-add_library(memory STATIC float64.c int64.c uint64.c)
diff --git a/go/arrow/math/_lib/arch.h b/go/arrow/math/_lib/arch.h
deleted file mode 100644
index 2d279de56ea17..0000000000000
--- a/go/arrow/math/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if  defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/arrow/math/_lib/float64.c b/go/arrow/math/_lib/float64.c
deleted file mode 100644
index 9f59141666d7c..0000000000000
--- a/go/arrow/math/_lib/float64.c
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-
-void FULL_NAME(sum_float64)(double buf[], size_t len, double *res) {
-    double acc = 0.0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/float64_avx2.s b/go/arrow/math/_lib/float64_avx2.s
deleted file mode 100644
index 8d90a949303ff..0000000000000
--- a/go/arrow/math/_lib/float64_avx2.s
+++ /dev/null
@@ -1,176 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/float64.c"
-	.globl	sum_float64_avx2
-	.p2align	4, 0x90
-	.type	sum_float64_avx2,@function
-sum_float64_avx2:                       # @sum_float64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	vxorpd	xmm0, xmm0, xmm0
-	test	rsi, rsi
-	je	.LBB0_14
-# BB#1:
-	cmp	rsi, 31
-	jbe	.LBB0_2
-# BB#5:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_2
-# BB#6:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_7
-# BB#8:
-	neg	rax
-	vxorpd	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vxorpd	ymm1, ymm1, ymm1
-	vxorpd	ymm2, ymm2, ymm2
-	vxorpd	ymm3, ymm3, ymm3
-	vxorpd	ymm4, ymm4, ymm4
-	vxorpd	ymm5, ymm5, ymm5
-	vxorpd	ymm6, ymm6, ymm6
-	vxorpd	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vaddpd	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vaddpd	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vaddpd	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.LBB0_2:
-	xor	r9d, r9d
-.LBB0_3:
-	lea	rax, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm0, xmm0, qword ptr [rax]
-	add	rax, 8
-	dec	rsi
-	jne	.LBB0_4
-.LBB0_14:
-	vmovsd	qword ptr [rdx], xmm0
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_7:
-	xor	ecx, ecx
-	vxorpd	ymm0, ymm0, ymm0
-	vxorpd	ymm1, ymm1, ymm1
-	vxorpd	ymm2, ymm2, ymm2
-	vxorpd	ymm3, ymm3, ymm3
-	vxorpd	ymm4, ymm4, ymm4
-	vxorpd	ymm5, ymm5, ymm5
-	vxorpd	ymm6, ymm6, ymm6
-	vxorpd	ymm7, ymm7, ymm7
-.LBB0_10:
-	cmp	r8, 224
-	jb	.LBB0_13
-# BB#11:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_12
-.LBB0_13:
-	vaddpd	ymm1, ymm1, ymm5
-	vaddpd	ymm3, ymm3, ymm7
-	vaddpd	ymm0, ymm0, ymm4
-	vaddpd	ymm2, ymm2, ymm6
-	vaddpd	ymm0, ymm0, ymm2
-	vaddpd	ymm1, ymm1, ymm3
-	vaddpd	ymm0, ymm0, ymm1
-	vextractf128	xmm1, ymm0, 1
-	vaddpd	ymm0, ymm0, ymm1
-	vhaddpd	ymm0, ymm0, ymm0
-	cmp	r9, rsi
-	jne	.LBB0_3
-	jmp	.LBB0_14
-.Lfunc_end0:
-	.size	sum_float64_avx2, .Lfunc_end0-sum_float64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/float64_neon.s b/go/arrow/math/_lib/float64_neon.s
deleted file mode 100644
index 6e5b06c6f7242..0000000000000
--- a/go/arrow/math/_lib/float64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"float64.c"
-	.globl	sum_float64_neon        // -- Begin function sum_float64_neon
-	.p2align	2
-	.type	sum_float64_neon,@function
-sum_float64_neon:                       // @sum_float64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	fmov	d0, xzr
-	b	.LBB0_7
-.LBB0_3:
-	fmov	d0, xzr
-	str	d0, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	fadd	v0.2d, v2.2d, v0.2d
-	fadd	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	fadd	v0.2d, v1.2d, v0.2d
-	dup	v1.2d, v0.d[1]
-	cmp	x8, x1
-	fadd	v0.2d, v0.2d, v1.2d
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x9, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	d1, [x9], #8
-	subs	x8, x8, #1              // =1
-	fadd	d0, d1, d0
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	d0, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_float64_neon, .Lfunc_end0-sum_float64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/float64_sse4.s b/go/arrow/math/_lib/float64_sse4.s
deleted file mode 100644
index 7a454ee2de37a..0000000000000
--- a/go/arrow/math/_lib/float64_sse4.s
+++ /dev/null
@@ -1,103 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/float64.c"
-	.globl	sum_float64_sse4
-	.p2align	4, 0x90
-	.type	sum_float64_sse4,@function
-sum_float64_sse4:                       # @sum_float64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	xorpd	xmm0, xmm0
-	test	rsi, rsi
-	je	.LBB0_14
-# BB#1:
-	cmp	rsi, 3
-	jbe	.LBB0_2
-# BB#5:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_2
-# BB#6:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_7
-# BB#8:
-	neg	rax
-	xorpd	xmm0, xmm0
-	xor	ecx, ecx
-	xorpd	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdi + 8*rcx]
-	movupd	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	addpd	xmm0, xmm2
-	addpd	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.LBB0_2:
-	xor	r9d, r9d
-.LBB0_3:
-	lea	rax, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	addsd	xmm0, qword ptr [rax]
-	add	rax, 8
-	dec	rsi
-	jne	.LBB0_4
-.LBB0_14:
-	movsd	qword ptr [rdx], xmm0
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_7:
-	xor	ecx, ecx
-	xorpd	xmm0, xmm0
-	xorpd	xmm1, xmm1
-.LBB0_10:
-	cmp	r8, 12
-	jb	.LBB0_13
-# BB#11:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx - 112]
-	movupd	xmm3, xmmword ptr [rcx - 96]
-	movupd	xmm4, xmmword ptr [rcx - 80]
-	movupd	xmm5, xmmword ptr [rcx - 64]
-	addpd	xmm2, xmm0
-	addpd	xmm3, xmm1
-	movupd	xmm6, xmmword ptr [rcx - 48]
-	movupd	xmm7, xmmword ptr [rcx - 32]
-	addpd	xmm6, xmm4
-	addpd	xmm6, xmm2
-	addpd	xmm7, xmm5
-	addpd	xmm7, xmm3
-	movupd	xmm0, xmmword ptr [rcx - 16]
-	movupd	xmm1, xmmword ptr [rcx]
-	addpd	xmm0, xmm6
-	addpd	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_12
-.LBB0_13:
-	addpd	xmm0, xmm1
-	haddpd	xmm0, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_3
-	jmp	.LBB0_14
-.Lfunc_end0:
-	.size	sum_float64_sse4, .Lfunc_end0-sum_float64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/int64.c b/go/arrow/math/_lib/int64.c
deleted file mode 100644
index 4f47bcd94802a..0000000000000
--- a/go/arrow/math/_lib/int64.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-#include <stdint.h>
-
-void FULL_NAME(sum_int64)(int64_t buf[], size_t len, int64_t *res) {
-    int64_t acc = 0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/int64_avx2.s b/go/arrow/math/_lib/int64_avx2.s
deleted file mode 100644
index f088c49e8b09a..0000000000000
--- a/go/arrow/math/_lib/int64_avx2.s
+++ /dev/null
@@ -1,181 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/int64.c"
-	.globl	sum_int64_avx2
-	.p2align	4, 0x90
-	.type	sum_int64_avx2,@function
-sum_int64_avx2:                         # @sum_int64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 31
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	vpxor	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	vpxor	ymm0, ymm0, ymm0
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-.LBB0_11:
-	cmp	r8, 224
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_13
-.LBB0_14:
-	vpaddq	ymm1, ymm1, ymm5
-	vpaddq	ymm3, ymm3, ymm7
-	vpaddq	ymm0, ymm0, ymm4
-	vpaddq	ymm2, ymm2, ymm6
-	vpaddq	ymm0, ymm0, ymm2
-	vpaddq	ymm1, ymm1, ymm3
-	vpaddq	ymm0, ymm0, ymm1
-	vextracti128	xmm1, ymm0, 1
-	vpaddq	ymm0, ymm0, ymm1
-	vpshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpaddq	ymm0, ymm0, ymm1
-	vmovq	rax, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_int64_avx2, .Lfunc_end0-sum_int64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/int64_neon.s b/go/arrow/math/_lib/int64_neon.s
deleted file mode 100644
index d8eca7a826bae..0000000000000
--- a/go/arrow/math/_lib/int64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"int64.c"
-	.globl	sum_int64_neon          // -- Begin function sum_int64_neon
-	.p2align	2
-	.type	sum_int64_neon,@function
-sum_int64_neon:                         // @sum_int64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	mov	x9, xzr
-	b	.LBB0_7
-.LBB0_3:
-	mov	x9, xzr
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	add	v0.2d, v2.2d, v0.2d
-	add	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	add	v0.2d, v1.2d, v0.2d
-	addp	d0, v0.2d
-	cmp	x8, x1
-	fmov	x9, d0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x10, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1              // =1
-	add	x9, x11, x9
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_int64_neon, .Lfunc_end0-sum_int64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/int64_sse4.s b/go/arrow/math/_lib/int64_sse4.s
deleted file mode 100644
index d433260f7fb42..0000000000000
--- a/go/arrow/math/_lib/int64_sse4.s
+++ /dev/null
@@ -1,108 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/int64.c"
-	.globl	sum_int64_sse4
-	.p2align	4, 0x90
-	.type	sum_int64_sse4,@function
-sum_int64_sse4:                         # @sum_int64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 3
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	pxor	xmm0, xmm0
-	xor	ecx, ecx
-	pxor	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdi + 8*rcx]
-	movdqu	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	paddq	xmm0, xmm2
-	paddq	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	pxor	xmm0, xmm0
-	pxor	xmm1, xmm1
-.LBB0_11:
-	cmp	r8, 12
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx - 112]
-	movdqu	xmm3, xmmword ptr [rcx - 96]
-	movdqu	xmm4, xmmword ptr [rcx - 80]
-	movdqu	xmm5, xmmword ptr [rcx - 64]
-	paddq	xmm2, xmm0
-	paddq	xmm3, xmm1
-	movdqu	xmm6, xmmword ptr [rcx - 48]
-	movdqu	xmm7, xmmword ptr [rcx - 32]
-	paddq	xmm6, xmm4
-	paddq	xmm6, xmm2
-	paddq	xmm7, xmm5
-	paddq	xmm7, xmm3
-	movdqu	xmm0, xmmword ptr [rcx - 16]
-	movdqu	xmm1, xmmword ptr [rcx]
-	paddq	xmm0, xmm6
-	paddq	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_13
-.LBB0_14:
-	paddq	xmm0, xmm1
-	pshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	paddq	xmm1, xmm0
-	movq	rax, xmm1
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_int64_sse4, .Lfunc_end0-sum_int64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/uint64.c b/go/arrow/math/_lib/uint64.c
deleted file mode 100644
index b1d40836e02c4..0000000000000
--- a/go/arrow/math/_lib/uint64.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-#include <stdint.h>
-
-void FULL_NAME(sum_uint64)(uint64_t buf[], size_t len, uint64_t *res) {
-    uint64_t acc = 0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/uint64_avx2.s b/go/arrow/math/_lib/uint64_avx2.s
deleted file mode 100644
index e4502ee06ca40..0000000000000
--- a/go/arrow/math/_lib/uint64_avx2.s
+++ /dev/null
@@ -1,181 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/uint64.c"
-	.globl	sum_uint64_avx2
-	.p2align	4, 0x90
-	.type	sum_uint64_avx2,@function
-sum_uint64_avx2:                        # @sum_uint64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 31
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	vpxor	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	vpxor	ymm0, ymm0, ymm0
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-.LBB0_11:
-	cmp	r8, 224
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_13
-.LBB0_14:
-	vpaddq	ymm1, ymm1, ymm5
-	vpaddq	ymm3, ymm3, ymm7
-	vpaddq	ymm0, ymm0, ymm4
-	vpaddq	ymm2, ymm2, ymm6
-	vpaddq	ymm0, ymm0, ymm2
-	vpaddq	ymm1, ymm1, ymm3
-	vpaddq	ymm0, ymm0, ymm1
-	vextracti128	xmm1, ymm0, 1
-	vpaddq	ymm0, ymm0, ymm1
-	vpshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpaddq	ymm0, ymm0, ymm1
-	vmovq	rax, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_uint64_avx2, .Lfunc_end0-sum_uint64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/uint64_neon.s b/go/arrow/math/_lib/uint64_neon.s
deleted file mode 100644
index 3507ac7ce9142..0000000000000
--- a/go/arrow/math/_lib/uint64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"uint64.c"
-	.globl	sum_uint64_neon         // -- Begin function sum_uint64_neon
-	.p2align	2
-	.type	sum_uint64_neon,@function
-sum_uint64_neon:                        // @sum_uint64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	mov	x9, xzr
-	b	.LBB0_7
-.LBB0_3:
-	mov	x9, xzr
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	add	v0.2d, v2.2d, v0.2d
-	add	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	add	v0.2d, v1.2d, v0.2d
-	addp	d0, v0.2d
-	cmp	x8, x1
-	fmov	x9, d0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x10, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1              // =1
-	add	x9, x11, x9
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_uint64_neon, .Lfunc_end0-sum_uint64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/uint64_sse4.s b/go/arrow/math/_lib/uint64_sse4.s
deleted file mode 100644
index 04b4cc8536189..0000000000000
--- a/go/arrow/math/_lib/uint64_sse4.s
+++ /dev/null
@@ -1,108 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/uint64.c"
-	.globl	sum_uint64_sse4
-	.p2align	4, 0x90
-	.type	sum_uint64_sse4,@function
-sum_uint64_sse4:                        # @sum_uint64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 3
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	pxor	xmm0, xmm0
-	xor	ecx, ecx
-	pxor	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdi + 8*rcx]
-	movdqu	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	paddq	xmm0, xmm2
-	paddq	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	pxor	xmm0, xmm0
-	pxor	xmm1, xmm1
-.LBB0_11:
-	cmp	r8, 12
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx - 112]
-	movdqu	xmm3, xmmword ptr [rcx - 96]
-	movdqu	xmm4, xmmword ptr [rcx - 80]
-	movdqu	xmm5, xmmword ptr [rcx - 64]
-	paddq	xmm2, xmm0
-	paddq	xmm3, xmm1
-	movdqu	xmm6, xmmword ptr [rcx - 48]
-	movdqu	xmm7, xmmword ptr [rcx - 32]
-	paddq	xmm6, xmm4
-	paddq	xmm6, xmm2
-	paddq	xmm7, xmm5
-	paddq	xmm7, xmm3
-	movdqu	xmm0, xmmword ptr [rcx - 16]
-	movdqu	xmm1, xmmword ptr [rcx]
-	paddq	xmm0, xmm6
-	paddq	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_13
-.LBB0_14:
-	paddq	xmm0, xmm1
-	pshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	paddq	xmm1, xmm0
-	movq	rax, xmm1
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_uint64_sse4, .Lfunc_end0-sum_uint64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/doc.go b/go/arrow/math/doc.go
deleted file mode 100644
index 30d50a2f16e8f..0000000000000
--- a/go/arrow/math/doc.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package math provides optimized mathematical functions for processing Arrow arrays.
-*/
-package math
-
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_test.go.tmpl=float64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=float64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=float64_sse4_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_test.go.tmpl=int64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=int64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=int64_sse4_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_test.go.tmpl=uint64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=uint64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=uint64_sse4_amd64.go
diff --git a/go/arrow/math/float64.go b/go/arrow/math/float64.go
deleted file mode 100644
index b5429e50aec09..0000000000000
--- a/go/arrow/math/float64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Float64Funcs struct {
-	sum func(a *array.Float64) float64
-}
-
-var (
-	Float64 Float64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Float64Funcs) Sum(a *array.Float64) float64 {
-	if a.Len() == 0 {
-		return float64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_float64_go(a *array.Float64) float64 {
-	acc := float64(0)
-	for _, v := range a.Float64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/float64.tmpldata b/go/arrow/math/float64.tmpldata
deleted file mode 100644
index de54eea2a1056..0000000000000
--- a/go/arrow/math/float64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Float64",
-  "Type": "float64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/float64_amd64.go b/go/arrow/math/float64_amd64.go
deleted file mode 100644
index ef40cf613a3c9..0000000000000
--- a/go/arrow/math/float64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64AVX2() {
-	Float64.sum = sum_float64_avx2
-}
-
-func initFloat64SSE4() {
-	Float64.sum = sum_float64_sse4
-}
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_arm64.go b/go/arrow/math/float64_arm64.go
deleted file mode 100644
index 31ed189d5aeaa..0000000000000
--- a/go/arrow/math/float64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64NEON() {
-	Float64.sum = sum_float64_neon
-}
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_avx2_amd64.go b/go/arrow/math/float64_avx2_amd64.go
deleted file mode 100644
index 8f11b1f2481a3..0000000000000
--- a/go/arrow/math/float64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_avx2(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_avx2_amd64.s b/go/arrow/math/float64_avx2_amd64.s
deleted file mode 100644
index e5fe247ec158c..0000000000000
--- a/go/arrow/math/float64_avx2_amd64.s
+++ /dev/null
@@ -1,167 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_float64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_14
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_2
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_2
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_7
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc057fdc5         // vxorpd    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc957f5c5         // vxorpd    ymm1, ymm1, ymm1
-	LONG $0xd257edc5         // vxorpd    ymm2, ymm2, ymm2
-	LONG $0xdb57e5c5         // vxorpd    ymm3, ymm3, ymm3
-	LONG $0xe457ddc5         // vxorpd    ymm4, ymm4, ymm4
-	LONG $0xed57d5c5         // vxorpd    ymm5, ymm5, ymm5
-	LONG $0xf657cdc5         // vxorpd    ymm6, ymm6, ymm6
-	LONG $0xff57c5c5         // vxorpd    ymm7, ymm7, ymm7
-
-LBB0_9:
-	LONG $0x0458fdc5; BYTE $0xcf         // vaddpd    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4c58f5c5; WORD $0x20cf       // vaddpd    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x5458edc5; WORD $0x40cf       // vaddpd    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5c58e5c5; WORD $0x60cf       // vaddpd    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa458ddc5; BYTE $0x00 // vaddpd    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfac58d5c5; BYTE $0x00 // vaddpd    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb458cdc5; BYTE $0x00 // vaddpd    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbc58c5c5; BYTE $0x00 // vaddpd    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB0_3:
-	LONG $0xcf048d4a         // lea    rax, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_4:
-	LONG $0x0058fbc5         // vaddsd    xmm0, xmm0, qword [rax]
-	LONG $0x08c08348         // add    rax, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_4
-
-LBB0_14:
-	LONG $0x0211fbc5 // vmovsd    qword [rdx], xmm0
-	VZEROUPPER
-	RET
-
-LBB0_7:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc057fdc5 // vxorpd    ymm0, ymm0, ymm0
-	LONG $0xc957f5c5 // vxorpd    ymm1, ymm1, ymm1
-	LONG $0xd257edc5 // vxorpd    ymm2, ymm2, ymm2
-	LONG $0xdb57e5c5 // vxorpd    ymm3, ymm3, ymm3
-	LONG $0xe457ddc5 // vxorpd    ymm4, ymm4, ymm4
-	LONG $0xed57d5c5 // vxorpd    ymm5, ymm5, ymm5
-	LONG $0xf657cdc5 // vxorpd    ymm6, ymm6, ymm6
-	LONG $0xff57c5c5 // vxorpd    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_12:
-	QUAD $0xfffff9e0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff9609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff9409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff9208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff9008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x7958c5c5; BYTE $0xe0               // vaddpd    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x7158cdc5; BYTE $0xc0               // vaddpd    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x6958d5c5; BYTE $0xa0               // vaddpd    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x6158ddc5; BYTE $0x80               // vaddpd    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x0158fdc5                           // vaddpd    ymm0, ymm0, yword [rcx]
-	LONG $0x4958f5c5; BYTE $0x20               // vaddpd    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x5158edc5; BYTE $0x40               // vaddpd    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x5958e5c5; BYTE $0x60               // vaddpd    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_12
-
-LBB0_13:
-	LONG $0xcd58f5c5               // vaddpd    ymm1, ymm1, ymm5
-	LONG $0xdf58e5c5               // vaddpd    ymm3, ymm3, ymm7
-	LONG $0xc458fdc5               // vaddpd    ymm0, ymm0, ymm4
-	LONG $0xd658edc5               // vaddpd    ymm2, ymm2, ymm6
-	LONG $0xc258fdc5               // vaddpd    ymm0, ymm0, ymm2
-	LONG $0xcb58f5c5               // vaddpd    ymm1, ymm1, ymm3
-	LONG $0xc158fdc5               // vaddpd    ymm0, ymm0, ymm1
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc158fdc5               // vaddpd    ymm0, ymm0, ymm1
-	LONG $0xc07cfdc5               // vhaddpd    ymm0, ymm0, ymm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_3
-	JMP  LBB0_14
diff --git a/go/arrow/math/float64_neon_arm64.go b/go/arrow/math/float64_neon_arm64.go
deleted file mode 100755
index c41801714ea20..0000000000000
--- a/go/arrow/math/float64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_neon(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_neon_arm64.s b/go/arrow/math/float64_neon_arm64.s
deleted file mode 100755
index 05f4a275d63e2..0000000000000
--- a/go/arrow/math/float64_neon_arm64.s
+++ /dev/null
@@ -1,43 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_float64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_float64_neon(SB), $0-24
-
-	MOVD buf+0(FP), R0
-	MOVD len+8(FP), R1
-	MOVD res+16(FP), R2
-
-    WORD $0xd343fc29 // lsr    x9, x1, #3
-    WORD $0x92400828 // and    x8, x1, #0x7
-    CBZ R9, LBB0_6
-    WORD $0x927df02a // and    x10, x1, #0xfffffffffffffff8
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0xaa0003eb // mov    x11, x0
-LBB0_2:
-    WORD $0x4cdf2d61 // ld1    { v1.2d, v2.2d, v3.2d, v4.2d }, [x11], #64
-    WORD $0xf1000529 // subs    x9, x9, #1
-    WORD $0x4e61d400 // fadd    v0.2d, v0.2d, v1.2d
-    WORD $0x4e60d440 // fadd    v0.2d, v2.2d, v0.2d
-    WORD $0x4e60d460 // fadd    v0.2d, v3.2d, v0.2d
-    WORD $0x4e60d480 // fadd    v0.2d, v4.2d, v0.2d
-    BNE LBB0_2
-    WORD $0x8b0a0c00 // add    x0, x0, x10, lsl #3
-    WORD $0x7e70d800 // faddp    d0, v0.2d
-    CBZ R8, LBB0_5
-LBB0_4:
-    WORD $0xfc408401 // ldr    d1, [x0], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e612800 // fadd    d0, d0, d1
-    BNE LBB0_4
-LBB0_5:
-    WORD $0xfd000040 // str    d0, [x2]
-    RET
-LBB0_6:
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0x7e70d800 // faddp    d0, v0.2d
-    CBNZ R8, LBB0_4
-	JMP LBB0_5
diff --git a/go/arrow/math/float64_noasm.go b/go/arrow/math/float64_noasm.go
deleted file mode 100644
index bfa3e6e589d1d..0000000000000
--- a/go/arrow/math/float64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_ppc64le.go b/go/arrow/math/float64_ppc64le.go
deleted file mode 100644
index 3d962005cebda..0000000000000
--- a/go/arrow/math/float64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_s390x.go b/go/arrow/math/float64_s390x.go
deleted file mode 100644
index cf091f53d1761..0000000000000
--- a/go/arrow/math/float64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_sse4_amd64.go b/go/arrow/math/float64_sse4_amd64.go
deleted file mode 100644
index bdd17559edfaf..0000000000000
--- a/go/arrow/math/float64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_sse4(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_sse4_amd64.s b/go/arrow/math/float64_sse4_amd64.s
deleted file mode 100644
index 957efa427cad2..0000000000000
--- a/go/arrow/math/float64_sse4_amd64.s
+++ /dev/null
@@ -1,94 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_float64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_14
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_2
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_2
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_7
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9570f66         // xorpd    xmm1, xmm1
-
-LBB0_9:
-	LONG $0x14100f66; BYTE $0xcf   // movupd    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c100f66; WORD $0x10cf // movupd    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2580f66               // addpd    xmm0, xmm2
-	LONG $0xcb580f66               // addpd    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB0_3:
-	LONG $0xcf048d4a         // lea    rax, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_4:
-	LONG $0x00580ff2         // addsd    xmm0, qword [rax]
-	LONG $0x08c08348         // add    rax, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_4
-
-LBB0_14:
-	LONG $0x02110ff2 // movsd    qword [rdx], xmm0
-	RET
-
-LBB0_7:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0570f66 // xorpd    xmm0, xmm0
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_13
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_12:
-	LONG $0x51100f66; BYTE $0x90 // movupd    xmm2, oword [rcx - 112]
-	LONG $0x59100f66; BYTE $0xa0 // movupd    xmm3, oword [rcx - 96]
-	LONG $0x61100f66; BYTE $0xb0 // movupd    xmm4, oword [rcx - 80]
-	LONG $0x69100f66; BYTE $0xc0 // movupd    xmm5, oword [rcx - 64]
-	LONG $0xd0580f66             // addpd    xmm2, xmm0
-	LONG $0xd9580f66             // addpd    xmm3, xmm1
-	LONG $0x71100f66; BYTE $0xd0 // movupd    xmm6, oword [rcx - 48]
-	LONG $0x79100f66; BYTE $0xe0 // movupd    xmm7, oword [rcx - 32]
-	LONG $0xf4580f66             // addpd    xmm6, xmm4
-	LONG $0xf2580f66             // addpd    xmm6, xmm2
-	LONG $0xfd580f66             // addpd    xmm7, xmm5
-	LONG $0xfb580f66             // addpd    xmm7, xmm3
-	LONG $0x41100f66; BYTE $0xf0 // movupd    xmm0, oword [rcx - 16]
-	LONG $0x09100f66             // movupd    xmm1, oword [rcx]
-	LONG $0xc6580f66             // addpd    xmm0, xmm6
-	LONG $0xcf580f66             // addpd    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_12
-
-LBB0_13:
-	LONG $0xc1580f66         // addpd    xmm0, xmm1
-	LONG $0xc07c0f66         // haddpd    xmm0, xmm0
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_3
-	JMP  LBB0_14
diff --git a/go/arrow/math/float64_test.go b/go/arrow/math/float64_test.go
deleted file mode 100644
index de1a1ef1ec3be..0000000000000
--- a/go/arrow/math/float64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFloat64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayFloat64(10000, mem)
-	defer vec.Release()
-	res := math.Float64.Sum(vec)
-	assert.Equal(t, res, float64(49995000))
-}
-
-func TestFloat64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewFloat64Builder(mem)
-	defer b.Release()
-	vec := b.NewFloat64Array()
-	defer vec.Release()
-	res := math.Float64.Sum(vec)
-	assert.Equal(t, res, float64(0))
-}
-
-func makeArrayFloat64(l int, mem memory.Allocator) *array.Float64 {
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(float64(i))
-	}
-	return fb.NewFloat64Array()
-}
-
-func benchmarkFloat64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayFloat64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Float64.Sum(vec)
-	}
-}
-
-func BenchmarkFloat64Funcs_Sum_256(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 256)
-}
-
-func BenchmarkFloat64Funcs_Sum_1024(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkFloat64Funcs_Sum_8192(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkFloat64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/math/int64.go b/go/arrow/math/int64.go
deleted file mode 100644
index a7d2b76b69704..0000000000000
--- a/go/arrow/math/int64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Int64Funcs struct {
-	sum func(a *array.Int64) int64
-}
-
-var (
-	Int64 Int64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Int64Funcs) Sum(a *array.Int64) int64 {
-	if a.Len() == 0 {
-		return int64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_int64_go(a *array.Int64) int64 {
-	acc := int64(0)
-	for _, v := range a.Int64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/int64.tmpldata b/go/arrow/math/int64.tmpldata
deleted file mode 100644
index 94669f9d3897e..0000000000000
--- a/go/arrow/math/int64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Int64",
-  "Type": "int64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/int64_amd64.go b/go/arrow/math/int64_amd64.go
deleted file mode 100644
index ed616e84264e8..0000000000000
--- a/go/arrow/math/int64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64AVX2() {
-	Int64.sum = sum_int64_avx2
-}
-
-func initInt64SSE4() {
-	Int64.sum = sum_int64_sse4
-}
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_arm64.go b/go/arrow/math/int64_arm64.go
deleted file mode 100644
index 7bd200746e1b9..0000000000000
--- a/go/arrow/math/int64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64NEON() {
-	Int64.sum = sum_int64_neon
-}
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_avx2_amd64.go b/go/arrow/math/int64_avx2_amd64.go
deleted file mode 100644
index 353338d43282a..0000000000000
--- a/go/arrow/math/int64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_avx2(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_avx2_amd64.s b/go/arrow/math/int64_avx2_amd64.s
deleted file mode 100644
index 10d234cc4ac73..0000000000000
--- a/go/arrow/math/int64_avx2_amd64.s
+++ /dev/null
@@ -1,173 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_int64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_3
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0effdc5         // vpxor    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9eff5c5         // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5         // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5         // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5         // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5         // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5         // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5         // vpxor    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0x04d4fdc5; BYTE $0xcf         // vpaddq    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4cd4f5c5; WORD $0x20cf       // vpaddq    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x54d4edc5; WORD $0x40cf       // vpaddq    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5cd4e5c5; WORD $0x60cf       // vpaddq    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa4d4ddc5; BYTE $0x00 // vpaddq    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfacd4d5c5; BYTE $0x00 // vpaddq    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb4d4cdc5; BYTE $0x00 // vpaddq    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbcd4c5c5; BYTE $0x00 // vpaddq    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0effdc5 // vpxor    ymm0, ymm0, ymm0
-	LONG $0xc9eff5c5 // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5 // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5 // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5 // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5 // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5 // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5 // vpxor    ymm7, ymm7, ymm7
-
-LBB0_11:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_13:
-	QUAD $0xfffff9e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff96099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff94091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff92089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff90081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x79d4c5c5; BYTE $0xe0               // vpaddq    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x71d4cdc5; BYTE $0xc0               // vpaddq    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x69d4d5c5; BYTE $0xa0               // vpaddq    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x61d4ddc5; BYTE $0x80               // vpaddq    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x01d4fdc5                           // vpaddq    ymm0, ymm0, yword [rcx]
-	LONG $0x49d4f5c5; BYTE $0x20               // vpaddq    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x51d4edc5; BYTE $0x40               // vpaddq    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x59d4e5c5; BYTE $0x60               // vpaddq    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xcdd4f5c5               // vpaddq    ymm1, ymm1, ymm5
-	LONG $0xdfd4e5c5               // vpaddq    ymm3, ymm3, ymm7
-	LONG $0xc4d4fdc5               // vpaddq    ymm0, ymm0, ymm4
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xc2d4fdc5               // vpaddq    ymm0, ymm0, ymm2
-	LONG $0xcbd4f5c5               // vpaddq    ymm1, ymm1, ymm3
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/int64_neon_arm64.go b/go/arrow/math/int64_neon_arm64.go
deleted file mode 100755
index 29c5a8eed6c89..0000000000000
--- a/go/arrow/math/int64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_neon(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_neon_arm64.s b/go/arrow/math/int64_neon_arm64.s
deleted file mode 100755
index 4f55163c72541..0000000000000
--- a/go/arrow/math/int64_neon_arm64.s
+++ /dev/null
@@ -1,58 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_int64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_int64_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	res+16(FP), R2
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x910003fd // mov x29, sp
-	CBZ R1, LBB0_3
-	WORD $0xf1000c3f // cmp x1, #3
-	BHI LBB0_4
-	WORD $0xaa1f03e8 // mov     x8, xzr
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	JMP LBB0_7
-LBB0_3:
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927ef428 // and     x8, x1, #0xfffffffffffffffc
-	WORD $0x91004009 // add     x9, x0, #16
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0xaa0803ea // mov     x10, x8
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-LBB0_5:
-	WORD $0xad7f8d22 // ldp     q2, q3, [x9, #-16]
-	WORD $0xf100114a // subs    x10, x10, #4
-	WORD $0x91008129 // add     x9, x9, #32
-	WORD $0x4ee08440 // add     v0.2d, v2.2d, v0.2d
-	WORD $0x4ee18461 // add     v1.2d, v3.2d, v1.2d
-	BNE LBB0_5
-
-	WORD $0x4ee08420 // add     v0.2d, v1.2d, v0.2d
-	WORD $0x5ef1b800 // addp    d0, v0.2d
-	WORD $0xeb01011f // cmp     x8, x1
-	WORD $0x9e660009 // fmov    x9, d0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b080c0a // add     x10, x0, x8, lsl #3
-	WORD $0xcb080028 // sub     x8, x1, x8
-LBB0_8:
-	WORD $0xf840854b // ldr     x11, [x10], #8
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0x8b090169 // add     x9, x11, x9
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-
diff --git a/go/arrow/math/int64_noasm.go b/go/arrow/math/int64_noasm.go
deleted file mode 100644
index 09e945da7512d..0000000000000
--- a/go/arrow/math/int64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_ppc64le.go b/go/arrow/math/int64_ppc64le.go
deleted file mode 100644
index ff40824cc1058..0000000000000
--- a/go/arrow/math/int64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_s390x.go b/go/arrow/math/int64_s390x.go
deleted file mode 100644
index d32d860ca0cc9..0000000000000
--- a/go/arrow/math/int64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_sse4_amd64.go b/go/arrow/math/int64_sse4_amd64.go
deleted file mode 100644
index cf443c5f1a7ec..0000000000000
--- a/go/arrow/math/int64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_sse4(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_sse4_amd64.s b/go/arrow/math/int64_sse4_amd64.s
deleted file mode 100644
index ef27eee1649f1..0000000000000
--- a/go/arrow/math/int64_sse4_amd64.s
+++ /dev/null
@@ -1,100 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_int64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_3
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x146f0ff3; BYTE $0xcf   // movdqu    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c6f0ff3; WORD $0x10cf // movdqu    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2d40f66               // paddq    xmm0, xmm2
-	LONG $0xcbd40f66               // paddq    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-
-LBB0_11:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_13:
-	LONG $0x516f0ff3; BYTE $0x90 // movdqu    xmm2, oword [rcx - 112]
-	LONG $0x596f0ff3; BYTE $0xa0 // movdqu    xmm3, oword [rcx - 96]
-	LONG $0x616f0ff3; BYTE $0xb0 // movdqu    xmm4, oword [rcx - 80]
-	LONG $0x696f0ff3; BYTE $0xc0 // movdqu    xmm5, oword [rcx - 64]
-	LONG $0xd0d40f66             // paddq    xmm2, xmm0
-	LONG $0xd9d40f66             // paddq    xmm3, xmm1
-	LONG $0x716f0ff3; BYTE $0xd0 // movdqu    xmm6, oword [rcx - 48]
-	LONG $0x796f0ff3; BYTE $0xe0 // movdqu    xmm7, oword [rcx - 32]
-	LONG $0xf4d40f66             // paddq    xmm6, xmm4
-	LONG $0xf2d40f66             // paddq    xmm6, xmm2
-	LONG $0xfdd40f66             // paddq    xmm7, xmm5
-	LONG $0xfbd40f66             // paddq    xmm7, xmm3
-	LONG $0x416f0ff3; BYTE $0xf0 // movdqu    xmm0, oword [rcx - 16]
-	LONG $0x096f0ff3             // movdqu    xmm1, oword [rcx]
-	LONG $0xc6d40f66             // paddq    xmm0, xmm6
-	LONG $0xcfd40f66             // paddq    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xc1d40f66             // paddq    xmm0, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0xc8d40f66             // paddq    xmm1, xmm0
-	LONG $0x7e0f4866; BYTE $0xc8 // movq    rax, xmm1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/int64_test.go b/go/arrow/math/int64_test.go
deleted file mode 100644
index 0719d6955b367..0000000000000
--- a/go/arrow/math/int64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayInt64(10000, mem)
-	defer vec.Release()
-	res := math.Int64.Sum(vec)
-	assert.Equal(t, res, int64(49995000))
-}
-
-func TestInt64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewInt64Builder(mem)
-	defer b.Release()
-	vec := b.NewInt64Array()
-	defer vec.Release()
-	res := math.Int64.Sum(vec)
-	assert.Equal(t, res, int64(0))
-}
-
-func makeArrayInt64(l int, mem memory.Allocator) *array.Int64 {
-	fb := array.NewInt64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(int64(i))
-	}
-	return fb.NewInt64Array()
-}
-
-func benchmarkInt64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayInt64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Int64.Sum(vec)
-	}
-}
-
-func BenchmarkInt64Funcs_Sum_256(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 256)
-}
-
-func BenchmarkInt64Funcs_Sum_1024(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkInt64Funcs_Sum_8192(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkInt64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/math/math_amd64.go b/go/arrow/math/math_amd64.go
deleted file mode 100644
index 2397eef718df9..0000000000000
--- a/go/arrow/math/math_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		initAVX2()
-	} else if cpu.X86.HasSSE42 {
-		initSSE4()
-	} else {
-		initGo()
-	}
-}
-
-func initAVX2() {
-	initFloat64AVX2()
-	initInt64AVX2()
-	initUint64AVX2()
-}
-
-func initSSE4() {
-	initFloat64SSE4()
-	initInt64SSE4()
-	initUint64SSE4()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_arm64.go b/go/arrow/math/math_arm64.go
deleted file mode 100644
index b150eb061f9f5..0000000000000
--- a/go/arrow/math/math_arm64.go
+++ /dev/null
@@ -1,44 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		initNEON()
-	} else {
-		initGo()
-	}
-}
-
-func initNEON() {
-	initFloat64NEON()
-	initInt64NEON()
-	initUint64NEON()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_noasm.go b/go/arrow/math/math_noasm.go
deleted file mode 100644
index 5527ebf801891..0000000000000
--- a/go/arrow/math/math_noasm.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_ppc64le.go b/go/arrow/math/math_ppc64le.go
deleted file mode 100644
index 85c8f2fe2e758..0000000000000
--- a/go/arrow/math/math_ppc64le.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_s390x.go b/go/arrow/math/math_s390x.go
deleted file mode 100644
index 85c8f2fe2e758..0000000000000
--- a/go/arrow/math/math_s390x.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/type.go.tmpl b/go/arrow/math/type.go.tmpl
deleted file mode 100644
index 28becffdb3842..0000000000000
--- a/go/arrow/math/type.go.tmpl
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$def := .D}}
-{{with .In}}
-type {{.Name}}Funcs struct {
-	sum func(a *array.{{.Name}}) {{.Type}}
-}
-
-var (
-	{{.Name}} {{.Name}}Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f {{.Name}}Funcs) Sum(a *array.{{.Name}}) {{.Type}} {
-	if a.Len() == 0 {
-		return {{.Type}}(0)
-	}
-	return f.sum(a)
-}
-
-func sum_{{.Type}}_go(a *array.{{.Name}}) {{.Type}} {
-	acc := {{.Type}}(0)
-	for _, v := range a.{{.Name}}Values() {
-		acc += v
-	}
-	return acc
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_amd64.go.tmpl b/go/arrow/math/type_amd64.go.tmpl
deleted file mode 100644
index c3c27498be5dc..0000000000000
--- a/go/arrow/math/type_amd64.go.tmpl
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}AVX2() {
-	{{.Name}}.sum = sum_{{.Type}}_avx2
-}
-
-func init{{.Name}}SSE4() {
-	{{.Name}}.sum = sum_{{.Type}}_sse4
-}
-
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_arm64.go.tmpl b/go/arrow/math/type_arm64.go.tmpl
deleted file mode 100755
index 1603c48c38e50..0000000000000
--- a/go/arrow/math/type_arm64.go.tmpl
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}NEON() {
-	{{.Name}}.sum = sum_{{.Type}}_neon
-}
-
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_noasm.go.tmpl b/go/arrow/math/type_noasm.go.tmpl
deleted file mode 100644
index 66802f0fe50ac..0000000000000
--- a/go/arrow/math/type_noasm.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_ppc64le.go.tmpl b/go/arrow/math/type_ppc64le.go.tmpl
deleted file mode 100644
index 49a7fc634fd67..0000000000000
--- a/go/arrow/math/type_ppc64le.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
diff --git a/go/arrow/math/type_s390x.go.tmpl b/go/arrow/math/type_s390x.go.tmpl
deleted file mode 100644
index 49a7fc634fd67..0000000000000
--- a/go/arrow/math/type_s390x.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
diff --git a/go/arrow/math/type_simd_amd64.go.tmpl b/go/arrow/math/type_simd_amd64.go.tmpl
deleted file mode 100644
index cb11dc0ff808c..0000000000000
--- a/go/arrow/math/type_simd_amd64.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-//go:noescape
-func _sum_{{$name}}(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_{{$name}}(a *array.{{.Name}}) {{.Type}} {
-	buf := a.{{.Name}}Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res {{.Type}}
-	)
-	_sum_{{$name}}(p1, p2, unsafe.Pointer(&res))
-	return res
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_simd_arm64.go.tmpl b/go/arrow/math/type_simd_arm64.go.tmpl
deleted file mode 100755
index cb11dc0ff808c..0000000000000
--- a/go/arrow/math/type_simd_arm64.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-//go:noescape
-func _sum_{{$name}}(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_{{$name}}(a *array.{{.Name}}) {{.Type}} {
-	buf := a.{{.Name}}Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res {{.Type}}
-	)
-	_sum_{{$name}}(p1, p2, unsafe.Pointer(&res))
-	return res
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_test.go.tmpl b/go/arrow/math/type_test.go.tmpl
deleted file mode 100644
index cc3d39a4a1ad6..0000000000000
--- a/go/arrow/math/type_test.go.tmpl
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-func Test{{.Name}}Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArray{{.Name}}(10000, mem)
-	defer vec.Release()
-	res := math.{{.Name}}.Sum(vec)
-	assert.Equal(t, res, {{.Type}}(49995000))
-}
-
-func Test{{.Name}}Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.New{{.Name}}Builder(mem)
-	defer b.Release()
-	vec := b.New{{.Name}}Array()
-	defer vec.Release()
-	res := math.{{.Name}}.Sum(vec)
-	assert.Equal(t, res, {{.Type}}(0))
-}
-
-func makeArray{{.Name}}(l int, mem memory.Allocator) *array.{{.Name}} {
-	fb := array.New{{.Name}}Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append({{.Type}}(i))
-	}
-	return fb.New{{.Name}}Array()
-}
-
-func benchmark{{.Name}}Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArray{{.Name}}(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.{{.Name}}.Sum(vec)
-	}
-}
-
-func Benchmark{{.Name}}Funcs_Sum_256(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 256)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_1024(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 1024)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_8192(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 8192)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_1000000(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 1e6)
-}
-{{end}}
diff --git a/go/arrow/math/uint64.go b/go/arrow/math/uint64.go
deleted file mode 100644
index 2a24886ee5510..0000000000000
--- a/go/arrow/math/uint64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Uint64Funcs struct {
-	sum func(a *array.Uint64) uint64
-}
-
-var (
-	Uint64 Uint64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Uint64Funcs) Sum(a *array.Uint64) uint64 {
-	if a.Len() == 0 {
-		return uint64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_uint64_go(a *array.Uint64) uint64 {
-	acc := uint64(0)
-	for _, v := range a.Uint64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/uint64.tmpldata b/go/arrow/math/uint64.tmpldata
deleted file mode 100644
index 22165eb1d00ed..0000000000000
--- a/go/arrow/math/uint64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Uint64",
-  "Type": "uint64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/uint64_amd64.go b/go/arrow/math/uint64_amd64.go
deleted file mode 100644
index 726d3425614f8..0000000000000
--- a/go/arrow/math/uint64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64AVX2() {
-	Uint64.sum = sum_uint64_avx2
-}
-
-func initUint64SSE4() {
-	Uint64.sum = sum_uint64_sse4
-}
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_arm64.go b/go/arrow/math/uint64_arm64.go
deleted file mode 100644
index 54981c2278150..0000000000000
--- a/go/arrow/math/uint64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64NEON() {
-	Uint64.sum = sum_uint64_neon
-}
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_avx2_amd64.go b/go/arrow/math/uint64_avx2_amd64.go
deleted file mode 100644
index ba6ea29b92201..0000000000000
--- a/go/arrow/math/uint64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_avx2(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_avx2_amd64.s b/go/arrow/math/uint64_avx2_amd64.s
deleted file mode 100644
index 7edfd476aac25..0000000000000
--- a/go/arrow/math/uint64_avx2_amd64.s
+++ /dev/null
@@ -1,173 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_uint64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_3
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0effdc5         // vpxor    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9eff5c5         // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5         // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5         // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5         // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5         // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5         // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5         // vpxor    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0x04d4fdc5; BYTE $0xcf         // vpaddq    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4cd4f5c5; WORD $0x20cf       // vpaddq    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x54d4edc5; WORD $0x40cf       // vpaddq    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5cd4e5c5; WORD $0x60cf       // vpaddq    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa4d4ddc5; BYTE $0x00 // vpaddq    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfacd4d5c5; BYTE $0x00 // vpaddq    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb4d4cdc5; BYTE $0x00 // vpaddq    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbcd4c5c5; BYTE $0x00 // vpaddq    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0effdc5 // vpxor    ymm0, ymm0, ymm0
-	LONG $0xc9eff5c5 // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5 // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5 // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5 // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5 // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5 // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5 // vpxor    ymm7, ymm7, ymm7
-
-LBB0_11:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_13:
-	QUAD $0xfffff9e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff96099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff94091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff92089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff90081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x79d4c5c5; BYTE $0xe0               // vpaddq    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x71d4cdc5; BYTE $0xc0               // vpaddq    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x69d4d5c5; BYTE $0xa0               // vpaddq    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x61d4ddc5; BYTE $0x80               // vpaddq    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x01d4fdc5                           // vpaddq    ymm0, ymm0, yword [rcx]
-	LONG $0x49d4f5c5; BYTE $0x20               // vpaddq    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x51d4edc5; BYTE $0x40               // vpaddq    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x59d4e5c5; BYTE $0x60               // vpaddq    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xcdd4f5c5               // vpaddq    ymm1, ymm1, ymm5
-	LONG $0xdfd4e5c5               // vpaddq    ymm3, ymm3, ymm7
-	LONG $0xc4d4fdc5               // vpaddq    ymm0, ymm0, ymm4
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xc2d4fdc5               // vpaddq    ymm0, ymm0, ymm2
-	LONG $0xcbd4f5c5               // vpaddq    ymm1, ymm1, ymm3
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/uint64_neon_arm64.go b/go/arrow/math/uint64_neon_arm64.go
deleted file mode 100755
index b83ca85e55701..0000000000000
--- a/go/arrow/math/uint64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_neon(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_neon_arm64.s b/go/arrow/math/uint64_neon_arm64.s
deleted file mode 100755
index edbc1a630789b..0000000000000
--- a/go/arrow/math/uint64_neon_arm64.s
+++ /dev/null
@@ -1,58 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_uint64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_uint64_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	res+16(FP), R2
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x910003fd // mov x29, sp
-	CBZ R1, LBB0_3
-	WORD $0xf1000c3f // cmp x1, #3
-	BHI LBB0_4
-	WORD $0xaa1f03e8 // mov     x8, xzr
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	JMP LBB0_7
-LBB0_3:
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927ef428 // and     x8, x1, #0xfffffffffffffffc
-	WORD $0x91004009 // add     x9, x0, #16
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0xaa0803ea // mov     x10, x8
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-LBB0_5:
-	WORD $0xad7f8d22 // ldp     q2, q3, [x9, #-16]
-	WORD $0xf100114a // subs    x10, x10, #4
-	WORD $0x91008129 // add     x9, x9, #32
-	WORD $0x4ee08440 // add     v0.2d, v2.2d, v0.2d
-	WORD $0x4ee18461 // add     v1.2d, v3.2d, v1.2d
-	BNE LBB0_5
-
-	WORD $0x4ee08420 // add     v0.2d, v1.2d, v0.2d
-	WORD $0x5ef1b800 // addp    d0, v0.2d
-	WORD $0xeb01011f // cmp     x8, x1
-	WORD $0x9e660009 // fmov    x9, d0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b080c0a // add     x10, x0, x8, lsl #3
-	WORD $0xcb080028 // sub     x8, x1, x8
-LBB0_8:
-	WORD $0xf840854b // ldr     x11, [x10], #8
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0x8b090169 // add     x9, x11, x9
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-
diff --git a/go/arrow/math/uint64_noasm.go b/go/arrow/math/uint64_noasm.go
deleted file mode 100644
index c40ecc467890b..0000000000000
--- a/go/arrow/math/uint64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_ppc64le.go b/go/arrow/math/uint64_ppc64le.go
deleted file mode 100644
index b6b1c536af40b..0000000000000
--- a/go/arrow/math/uint64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_s390x.go b/go/arrow/math/uint64_s390x.go
deleted file mode 100644
index d6e7da7cf36c9..0000000000000
--- a/go/arrow/math/uint64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_sse4_amd64.go b/go/arrow/math/uint64_sse4_amd64.go
deleted file mode 100644
index a91ff4e5100d1..0000000000000
--- a/go/arrow/math/uint64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_sse4(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_sse4_amd64.s b/go/arrow/math/uint64_sse4_amd64.s
deleted file mode 100644
index 1af9cfeb582a9..0000000000000
--- a/go/arrow/math/uint64_sse4_amd64.s
+++ /dev/null
@@ -1,100 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_uint64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_3
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x146f0ff3; BYTE $0xcf   // movdqu    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c6f0ff3; WORD $0x10cf // movdqu    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2d40f66               // paddq    xmm0, xmm2
-	LONG $0xcbd40f66               // paddq    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-
-LBB0_11:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_13:
-	LONG $0x516f0ff3; BYTE $0x90 // movdqu    xmm2, oword [rcx - 112]
-	LONG $0x596f0ff3; BYTE $0xa0 // movdqu    xmm3, oword [rcx - 96]
-	LONG $0x616f0ff3; BYTE $0xb0 // movdqu    xmm4, oword [rcx - 80]
-	LONG $0x696f0ff3; BYTE $0xc0 // movdqu    xmm5, oword [rcx - 64]
-	LONG $0xd0d40f66             // paddq    xmm2, xmm0
-	LONG $0xd9d40f66             // paddq    xmm3, xmm1
-	LONG $0x716f0ff3; BYTE $0xd0 // movdqu    xmm6, oword [rcx - 48]
-	LONG $0x796f0ff3; BYTE $0xe0 // movdqu    xmm7, oword [rcx - 32]
-	LONG $0xf4d40f66             // paddq    xmm6, xmm4
-	LONG $0xf2d40f66             // paddq    xmm6, xmm2
-	LONG $0xfdd40f66             // paddq    xmm7, xmm5
-	LONG $0xfbd40f66             // paddq    xmm7, xmm3
-	LONG $0x416f0ff3; BYTE $0xf0 // movdqu    xmm0, oword [rcx - 16]
-	LONG $0x096f0ff3             // movdqu    xmm1, oword [rcx]
-	LONG $0xc6d40f66             // paddq    xmm0, xmm6
-	LONG $0xcfd40f66             // paddq    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xc1d40f66             // paddq    xmm0, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0xc8d40f66             // paddq    xmm1, xmm0
-	LONG $0x7e0f4866; BYTE $0xc8 // movq    rax, xmm1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/uint64_test.go b/go/arrow/math/uint64_test.go
deleted file mode 100644
index 20418557b2101..0000000000000
--- a/go/arrow/math/uint64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestUint64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayUint64(10000, mem)
-	defer vec.Release()
-	res := math.Uint64.Sum(vec)
-	assert.Equal(t, res, uint64(49995000))
-}
-
-func TestUint64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewUint64Builder(mem)
-	defer b.Release()
-	vec := b.NewUint64Array()
-	defer vec.Release()
-	res := math.Uint64.Sum(vec)
-	assert.Equal(t, res, uint64(0))
-}
-
-func makeArrayUint64(l int, mem memory.Allocator) *array.Uint64 {
-	fb := array.NewUint64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(uint64(i))
-	}
-	return fb.NewUint64Array()
-}
-
-func benchmarkUint64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayUint64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Uint64.Sum(vec)
-	}
-}
-
-func BenchmarkUint64Funcs_Sum_256(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 256)
-}
-
-func BenchmarkUint64Funcs_Sum_1024(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkUint64Funcs_Sum_8192(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkUint64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/memory/Makefile b/go/arrow/memory/Makefile
deleted file mode 100644
index 1cc4079c4571e..0000000000000
--- a/go/arrow/memory/Makefile
+++ /dev/null
@@ -1,66 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST=go test
-GOPATH=$(realpath ../../../..)
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables \
-	-fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma -mllvm -force-vector-width=32
-ASM_FLAGS_SSE3=-msse3
-ASM_FLAGS_SSE4=-msse4
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-
-INTEL_SOURCES := \
-	memory_avx2_amd64.s memory_sse4_amd64.s
-
-.PHONEY: assembly
-
-#
-# ARROW-15320: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# memory_neon_arm64.s were generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/memory_avx2.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/memory_sse4.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/memory_neon.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-memory_avx2_amd64.s: _lib/memory_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-memory_sse4_amd64.s: _lib/memory_sse4.s
-	$(C2GOASM) -a -f $^ $@
diff --git a/go/arrow/memory/_lib/.gitignore b/go/arrow/memory/_lib/.gitignore
deleted file mode 100644
index 72757d396c0a0..0000000000000
--- a/go/arrow/memory/_lib/.gitignore
+++ /dev/null
@@ -1,18 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-.idea
-cmake-build-*
\ No newline at end of file
diff --git a/go/arrow/memory/_lib/CMakeLists.txt b/go/arrow/memory/_lib/CMakeLists.txt
deleted file mode 100644
index 6126acd7c67f0..0000000000000
--- a/go/arrow/memory/_lib/CMakeLists.txt
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-cmake_minimum_required(VERSION 3.6)
-
-project(memory-func)
-set(CMAKE_C_STANDARD 99)
-
-add_library(memory STATIC memory.c)
diff --git a/go/arrow/memory/_lib/arch.h b/go/arrow/memory/_lib/arch.h
deleted file mode 100644
index 6e5a519b21c7b..0000000000000
--- a/go/arrow/memory/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if  defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
\ No newline at end of file
diff --git a/go/arrow/memory/_lib/memory.c b/go/arrow/memory/_lib/memory.c
deleted file mode 100644
index 3b03a21d3c8f9..0000000000000
--- a/go/arrow/memory/_lib/memory.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-
-void FULL_NAME(memset)(void *buf, size_t len, int v) {
-    char *bytes = buf;
-    char *end   = buf+len;
-    const char val = v;
-    while (bytes < end) {
-        *bytes++ = val;
-    }
-}
diff --git a/go/arrow/memory/_lib/memory_avx2.s b/go/arrow/memory/_lib/memory_avx2.s
deleted file mode 100644
index f53fa15c5eff1..0000000000000
--- a/go/arrow/memory/_lib/memory_avx2.s
+++ /dev/null
@@ -1,97 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/memory.c"
-	.globl	memset_avx2
-	.p2align	4, 0x90
-	.type	memset_avx2,@function
-memset_avx2:                            # @memset_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	lea	r11, [rdi + rsi]
-	cmp	r11, rdi
-	jbe	.LBB0_13
-# BB#1:
-	cmp	rsi, 128
-	jb	.LBB0_12
-# BB#2:
-	mov	r8, rsi
-	and	r8, -128
-	mov	r10, rsi
-	and	r10, -128
-	je	.LBB0_12
-# BB#3:
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	r9, [r10 - 128]
-	mov	eax, r9d
-	shr	eax, 7
-	inc	eax
-	and	rax, 3
-	je	.LBB0_4
-# BB#5:
-	neg	rax
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymmword ptr [rdi + rcx], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 32], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 64], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 96], ymm0
-	sub	rcx, -128
-	inc	rax
-	jne	.LBB0_6
-	jmp	.LBB0_7
-.LBB0_4:
-	xor	ecx, ecx
-.LBB0_7:
-	cmp	r9, 384
-	jb	.LBB0_10
-# BB#8:
-	mov	rax, r10
-	sub	rax, rcx
-	lea	rcx, [rdi + rcx + 480]
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymmword ptr [rcx - 480], ymm0
-	vmovdqu	ymmword ptr [rcx - 448], ymm0
-	vmovdqu	ymmword ptr [rcx - 416], ymm0
-	vmovdqu	ymmword ptr [rcx - 384], ymm0
-	vmovdqu	ymmword ptr [rcx - 352], ymm0
-	vmovdqu	ymmword ptr [rcx - 320], ymm0
-	vmovdqu	ymmword ptr [rcx - 288], ymm0
-	vmovdqu	ymmword ptr [rcx - 256], ymm0
-	vmovdqu	ymmword ptr [rcx - 224], ymm0
-	vmovdqu	ymmword ptr [rcx - 192], ymm0
-	vmovdqu	ymmword ptr [rcx - 160], ymm0
-	vmovdqu	ymmword ptr [rcx - 128], ymm0
-	vmovdqu	ymmword ptr [rcx - 96], ymm0
-	vmovdqu	ymmword ptr [rcx - 64], ymm0
-	vmovdqu	ymmword ptr [rcx - 32], ymm0
-	vmovdqu	ymmword ptr [rcx], ymm0
-	add	rcx, 512
-	add	rax, -512
-	jne	.LBB0_9
-.LBB0_10:
-	cmp	r10, rsi
-	je	.LBB0_13
-# BB#11:
-	add	rdi, r8
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rdi], dl
-	inc	rdi
-	cmp	r11, rdi
-	jne	.LBB0_12
-.LBB0_13:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	memset_avx2, .Lfunc_end0-memset_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/memory/_lib/memory_neon.s b/go/arrow/memory/_lib/memory_neon.s
deleted file mode 100644
index f0ac4fe7933bd..0000000000000
--- a/go/arrow/memory/_lib/memory_neon.s
+++ /dev/null
@@ -1,46 +0,0 @@
-	.text
-	.file	"memory.c"
-	.globl	memset_neon             // -- Begin function memset_neon
-	.p2align	2
-	.type	memset_neon,@function
-memset_neon:                            // @memset_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	add	x8, x0, x1
-	cmp	x8, x0
-	mov	x29, sp
-	b.ls	.LBB0_7
-// %bb.1:
-	cmp	x1, #32                 // =32
-	b.hs	.LBB0_3
-// %bb.2:
-	mov	x9, x0
-	b	.LBB0_6
-.LBB0_3:
-	and	x10, x1, #0xffffffffffffffe0
-	dup	v0.16b, w2
-	add	x9, x0, x10
-	add	x11, x0, #16            // =16
-	mov	x12, x10
-.LBB0_4:                                // =>This Inner Loop Header: Depth=1
-	stp	q0, q0, [x11, #-16]
-	subs	x12, x12, #32           // =32
-	add	x11, x11, #32           // =32
-	b.ne	.LBB0_4
-// %bb.5:
-	cmp	x10, x1
-	b.eq	.LBB0_7
-.LBB0_6:                                // =>This Inner Loop Header: Depth=1
-	strb	w2, [x9], #1
-	cmp	x8, x9
-	b.ne	.LBB0_6
-.LBB0_7:
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	memset_neon, .Lfunc_end0-memset_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/memory/_lib/memory_sse4.s b/go/arrow/memory/_lib/memory_sse4.s
deleted file mode 100644
index 4b44cd31c315f..0000000000000
--- a/go/arrow/memory/_lib/memory_sse4.s
+++ /dev/null
@@ -1,96 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/memory.c"
-	.globl	memset_sse4
-	.p2align	4, 0x90
-	.type	memset_sse4,@function
-memset_sse4:                            # @memset_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	lea	r11, [rdi + rsi]
-	cmp	r11, rdi
-	jbe	.LBB0_13
-# BB#1:
-	cmp	rsi, 32
-	jb	.LBB0_12
-# BB#2:
-	mov	r8, rsi
-	and	r8, -32
-	mov	r10, rsi
-	and	r10, -32
-	je	.LBB0_12
-# BB#3:
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	r9, [r10 - 32]
-	mov	ecx, r9d
-	shr	ecx, 5
-	inc	ecx
-	and	rcx, 7
-	je	.LBB0_4
-# BB#5:
-	neg	rcx
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmmword ptr [rdi + rax], xmm0
-	movdqu	xmmword ptr [rdi + rax + 16], xmm0
-	add	rax, 32
-	inc	rcx
-	jne	.LBB0_6
-	jmp	.LBB0_7
-.LBB0_4:
-	xor	eax, eax
-.LBB0_7:
-	cmp	r9, 224
-	jb	.LBB0_10
-# BB#8:
-	mov	rcx, r10
-	sub	rcx, rax
-	lea	rax, [rdi + rax + 240]
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmmword ptr [rax - 240], xmm0
-	movdqu	xmmword ptr [rax - 224], xmm0
-	movdqu	xmmword ptr [rax - 208], xmm0
-	movdqu	xmmword ptr [rax - 192], xmm0
-	movdqu	xmmword ptr [rax - 176], xmm0
-	movdqu	xmmword ptr [rax - 160], xmm0
-	movdqu	xmmword ptr [rax - 144], xmm0
-	movdqu	xmmword ptr [rax - 128], xmm0
-	movdqu	xmmword ptr [rax - 112], xmm0
-	movdqu	xmmword ptr [rax - 96], xmm0
-	movdqu	xmmword ptr [rax - 80], xmm0
-	movdqu	xmmword ptr [rax - 64], xmm0
-	movdqu	xmmword ptr [rax - 48], xmm0
-	movdqu	xmmword ptr [rax - 32], xmm0
-	movdqu	xmmword ptr [rax - 16], xmm0
-	movdqu	xmmword ptr [rax], xmm0
-	add	rax, 256
-	add	rcx, -256
-	jne	.LBB0_9
-.LBB0_10:
-	cmp	r10, rsi
-	je	.LBB0_13
-# BB#11:
-	add	rdi, r8
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rdi], dl
-	inc	rdi
-	cmp	r11, rdi
-	jne	.LBB0_12
-.LBB0_13:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	memset_sse4, .Lfunc_end0-memset_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/memory/allocator.go b/go/arrow/memory/allocator.go
deleted file mode 100644
index 1427190eaacd4..0000000000000
--- a/go/arrow/memory/allocator.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-const (
-	alignment = 64
-)
-
-type Allocator interface {
-	Allocate(size int) []byte
-	Reallocate(size int, b []byte) []byte
-	Free(b []byte)
-}
diff --git a/go/arrow/memory/buffer.go b/go/arrow/memory/buffer.go
deleted file mode 100644
index 586ff387f83de..0000000000000
--- a/go/arrow/memory/buffer.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Buffer is a wrapper type for a buffer of bytes.
-type Buffer struct {
-	refCount int64
-	buf      []byte
-	length   int
-	mutable  bool
-	mem      Allocator
-
-	parent *Buffer
-}
-
-// NewBufferWithAllocator returns a buffer with the mutable flag set
-// as false. The intention here is to allow wrapping a byte slice along
-// with an allocator as a buffer to track the lifetime via refcounts
-// in order to call Free when the refcount goes to zero.
-//
-// The primary example this is used for, is currently importing data
-// through the c data interface and tracking the lifetime of the
-// imported buffers.
-func NewBufferWithAllocator(data []byte, mem Allocator) *Buffer {
-	return &Buffer{refCount: 1, buf: data, length: len(data), mem: mem}
-}
-
-// NewBufferBytes creates a fixed-size buffer from the specified data.
-func NewBufferBytes(data []byte) *Buffer {
-	return &Buffer{refCount: 0, buf: data, length: len(data)}
-}
-
-// NewResizableBuffer creates a mutable, resizable buffer with an Allocator for managing memory.
-func NewResizableBuffer(mem Allocator) *Buffer {
-	return &Buffer{refCount: 1, mutable: true, mem: mem}
-}
-
-func SliceBuffer(buf *Buffer, offset, length int) *Buffer {
-	buf.Retain()
-	return &Buffer{refCount: 1, parent: buf, buf: buf.Bytes()[offset : offset+length], length: length}
-}
-
-// Parent returns either nil or a pointer to the parent buffer if this buffer
-// was sliced from another.
-func (b *Buffer) Parent() *Buffer { return b.parent }
-
-// Retain increases the reference count by 1.
-func (b *Buffer) Retain() {
-	if b.mem != nil || b.parent != nil {
-		atomic.AddInt64(&b.refCount, 1)
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Buffer) Release() {
-	if b.mem != nil || b.parent != nil {
-		debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-		if atomic.AddInt64(&b.refCount, -1) == 0 {
-			if b.mem != nil {
-				b.mem.Free(b.buf)
-			} else {
-				b.parent.Release()
-				b.parent = nil
-			}
-			b.buf, b.length = nil, 0
-		}
-	}
-}
-
-// Reset resets the buffer for reuse.
-func (b *Buffer) Reset(buf []byte) {
-	if b.parent != nil {
-		b.parent.Release()
-		b.parent = nil
-	}
-	b.buf = buf
-	b.length = len(buf)
-}
-
-// Buf returns the slice of memory allocated by the Buffer, which is adjusted by calling Reserve.
-func (b *Buffer) Buf() []byte { return b.buf }
-
-// Bytes returns a slice of size Len, which is adjusted by calling Resize.
-func (b *Buffer) Bytes() []byte { return b.buf[:b.length] }
-
-// Mutable returns a bool indicating whether the buffer is mutable or not.
-func (b *Buffer) Mutable() bool { return b.mutable }
-
-// Len returns the length of the buffer.
-func (b *Buffer) Len() int { return b.length }
-
-// Cap returns the capacity of the buffer.
-func (b *Buffer) Cap() int { return len(b.buf) }
-
-// Reserve reserves the provided amount of capacity for the buffer.
-func (b *Buffer) Reserve(capacity int) {
-	if capacity > len(b.buf) {
-		newCap := roundUpToMultipleOf64(capacity)
-		if len(b.buf) == 0 {
-			b.buf = b.mem.Allocate(newCap)
-		} else {
-			b.buf = b.mem.Reallocate(newCap, b.buf)
-		}
-	}
-}
-
-// Resize resizes the buffer to the target size.
-func (b *Buffer) Resize(newSize int) {
-	b.resize(newSize, true)
-}
-
-// ResizeNoShrink resizes the buffer to the target size, but will not
-// shrink it.
-func (b *Buffer) ResizeNoShrink(newSize int) {
-	b.resize(newSize, false)
-}
-
-func (b *Buffer) resize(newSize int, shrink bool) {
-	if !shrink || newSize > b.length {
-		b.Reserve(newSize)
-	} else {
-		// Buffer is not growing, so shrink to the requested size without
-		// excess space.
-		newCap := roundUpToMultipleOf64(newSize)
-		if len(b.buf) != newCap {
-			if newSize == 0 {
-				b.mem.Free(b.buf)
-				b.buf = nil
-			} else {
-				b.buf = b.mem.Reallocate(newCap, b.buf)
-			}
-		}
-	}
-	b.length = newSize
-}
diff --git a/go/arrow/memory/buffer_test.go b/go/arrow/memory/buffer_test.go
deleted file mode 100644
index ddc5871c85379..0000000000000
--- a/go/arrow/memory/buffer_test.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewResizableBuffer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-	buf.Retain() // refCount == 2
-
-	exp := 10
-	buf.Resize(exp)
-	assert.NotNil(t, buf.Bytes())
-	assert.Equal(t, exp, len(buf.Bytes()))
-	assert.Equal(t, exp, buf.Len())
-
-	buf.Release() // refCount == 1
-	assert.NotNil(t, buf.Bytes())
-
-	buf.Release() // refCount == 0
-	assert.Nil(t, buf.Bytes())
-	assert.Zero(t, buf.Len())
-}
-
-func TestBufferReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-
-	newBytes := []byte("some-new-bytes")
-	buf.Reset(newBytes)
-	assert.Equal(t, newBytes, buf.Bytes())
-	assert.Equal(t, len(newBytes), buf.Len())
-}
-
-func TestBufferSlice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(1024)
-	assert.Equal(t, 1024, mem.CurrentAlloc())
-
-	slice := memory.SliceBuffer(buf, 512, 256)
-	buf.Release()
-	assert.Equal(t, 1024, mem.CurrentAlloc())
-	slice.Release()
-}
diff --git a/go/arrow/memory/cgo_allocator.go b/go/arrow/memory/cgo_allocator.go
deleted file mode 100644
index c3cb0df47523d..0000000000000
--- a/go/arrow/memory/cgo_allocator.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc
-// +build cgo,ccalloc
-
-package memory
-
-import (
-	"runtime"
-
-	cga "github.com/apache/arrow/go/v18/arrow/memory/internal/cgoalloc"
-)
-
-// CgoArrowAllocator is an allocator which exposes the C++ memory pool class
-// from the Arrow C++ Library as an allocator for memory buffers to use in Go.
-// The build tag 'ccalloc' must be used in order to include it as it requires
-// linking against the arrow library.
-//
-// The primary reason to use this would be as an allocator when dealing with
-// exporting data across the cdata interface in order to ensure that the memory
-// is allocated safely on the C side so it can be held on the CGO side beyond
-// the context of a single function call. If the memory in use isn't allocated
-// on the C side, then it is not safe for any pointers to data to be held outside
-// of Go beyond the context of a single Cgo function call as it will be invisible
-// to the Go garbage collector and could potentially get moved without being updated.
-//
-// As an alternative, if the arrow C++ libraries aren't available, remember that
-// Allocator is an interface, so anything which can allocate data using C/C++ can
-// be exposed and then used to meet the Allocator interface if wanting to export data
-// across the Cgo interfaces.
-type CgoArrowAllocator struct {
-	pool cga.CGOMemPool
-}
-
-// Allocate does what it says on the tin, allocates a chunk of memory using the underlying
-// memory pool, however CGO calls are 'relatively' expensive, which means doing tons of
-// small allocations can end up being expensive and potentially slower than just using
-// go memory. This means that preallocating via reserve becomes much more important when
-// using this allocator.
-//
-// Future development TODO: look into converting this more into a slab style allocator
-// which amortizes the cost of smaller allocations by allocating bigger chunks of memory
-// and passes them out.
-func (alloc *CgoArrowAllocator) Allocate(size int) []byte {
-	b := cga.CgoPoolAlloc(alloc.pool, size)
-	return b
-}
-
-func (alloc *CgoArrowAllocator) Free(b []byte) {
-	cga.CgoPoolFree(alloc.pool, b)
-}
-
-func (alloc *CgoArrowAllocator) Reallocate(size int, b []byte) []byte {
-	oldSize := len(b)
-	out := cga.CgoPoolRealloc(alloc.pool, size, b)
-
-	if size > oldSize {
-		// zero initialize the slice like go would do normally
-		// C won't zero initialize the memory.
-		Set(out[oldSize:], 0)
-	}
-	return out
-}
-
-// AllocatedBytes returns the current total of bytes that have been allocated by
-// the memory pool on the C++ side.
-func (alloc *CgoArrowAllocator) AllocatedBytes() int64 {
-	return cga.CgoPoolCurBytes(alloc.pool)
-}
-
-// AssertSize can be used for testing to ensure and check that there are no memory
-// leaks using the allocator.
-func (alloc *CgoArrowAllocator) AssertSize(t TestingT, sz int) {
-	cur := alloc.AllocatedBytes()
-	if int64(sz) != cur {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, cur)
-	}
-}
-
-// NewCgoArrowAllocator creates a new allocator which is backed by the C++ Arrow
-// memory pool object which could potentially be using jemalloc or mimalloc or
-// otherwise as its backend. Memory allocated by this is invisible to the Go
-// garbage collector, and as such care should be taken to avoid any memory leaks.
-//
-// A finalizer is set on the allocator so when the allocator object itself is eventually
-// cleaned up by the garbage collector, it will delete the associated C++ memory pool
-// object. If the build tag 'cclog' is added, then the memory pool will output a log line
-// for every time memory is allocated, freed or reallocated.
-func NewCgoArrowAllocator() *CgoArrowAllocator {
-	alloc := &CgoArrowAllocator{pool: cga.NewCgoArrowAllocator(enableLogging)}
-	runtime.SetFinalizer(alloc, func(a *CgoArrowAllocator) { cga.ReleaseCGOMemPool(a.pool) })
-	return alloc
-}
diff --git a/go/arrow/memory/cgo_allocator_defaults.go b/go/arrow/memory/cgo_allocator_defaults.go
deleted file mode 100644
index 0a2e9a342d37c..0000000000000
--- a/go/arrow/memory/cgo_allocator_defaults.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc && !cclog
-// +build cgo,ccalloc,!cclog
-
-package memory
-
-const enableLogging = false
diff --git a/go/arrow/memory/cgo_allocator_logging.go b/go/arrow/memory/cgo_allocator_logging.go
deleted file mode 100644
index fe2e3a940ce21..0000000000000
--- a/go/arrow/memory/cgo_allocator_logging.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc && cclog
-// +build cgo,ccalloc,cclog
-
-package memory
-
-const enableLogging = true
diff --git a/go/arrow/memory/cgo_allocator_test.go b/go/arrow/memory/cgo_allocator_test.go
deleted file mode 100644
index 4c07cc326c87f..0000000000000
--- a/go/arrow/memory/cgo_allocator_test.go
+++ /dev/null
@@ -1,82 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc
-// +build cgo,ccalloc
-
-package memory
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestCgoArrowAllocator_Allocate(t *testing.T) {
-	tests := []struct {
-		name string
-		sz   int
-	}{
-		{"lt alignment", 33},
-		{"gt alignment unaligned", 65},
-		{"eq alignment", 64},
-		{"large unaligned", 4097},
-		{"large aligned", 8192},
-	}
-
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			alloc := NewCgoArrowAllocator()
-			buf := alloc.Allocate(test.sz)
-			assert.NotNil(t, buf)
-			assert.Len(t, buf, test.sz)
-
-			alloc.AssertSize(t, test.sz)
-			defer alloc.AssertSize(t, 0)
-			defer alloc.Free(buf)
-		})
-	}
-}
-
-func TestCgoArrowAllocator_Reallocate(t *testing.T) {
-	tests := []struct {
-		name     string
-		sz1, sz2 int
-	}{
-		{"smaller", 200, 100},
-		{"same", 200, 200},
-		{"larger", 200, 300},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			alloc := NewCgoArrowAllocator()
-			buf := alloc.Allocate(test.sz1)
-			for i := range buf {
-				buf[i] = byte(i & 0xFF)
-			}
-
-			exp := make([]byte, test.sz2)
-			copy(exp, buf)
-
-			newBuf := alloc.Reallocate(test.sz2, buf)
-			assert.Equal(t, exp, newBuf)
-
-			alloc.AssertSize(t, test.sz2)
-			defer alloc.AssertSize(t, 0)
-			defer alloc.Free(newBuf)
-		})
-	}
-}
diff --git a/go/arrow/memory/checked_allocator.go b/go/arrow/memory/checked_allocator.go
deleted file mode 100644
index 78a09a57d74ba..0000000000000
--- a/go/arrow/memory/checked_allocator.go
+++ /dev/null
@@ -1,221 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !tinygo
-// +build !tinygo
-
-package memory
-
-import (
-	"fmt"
-	"os"
-	"runtime"
-	"strconv"
-	"strings"
-	"sync"
-	"sync/atomic"
-	"unsafe"
-)
-
-type CheckedAllocator struct {
-	mem Allocator
-	sz  int64
-
-	allocs sync.Map
-}
-
-func NewCheckedAllocator(mem Allocator) *CheckedAllocator {
-	return &CheckedAllocator{mem: mem}
-}
-
-func (a *CheckedAllocator) CurrentAlloc() int { return int(atomic.LoadInt64(&a.sz)) }
-
-func (a *CheckedAllocator) Allocate(size int) []byte {
-	atomic.AddInt64(&a.sz, int64(size))
-	out := a.mem.Allocate(size)
-	if size == 0 {
-		return out
-	}
-
-	ptr := uintptr(unsafe.Pointer(&out[0]))
-	pcs := make([]uintptr, maxRetainedFrames)
-
-	// For historical reasons the meaning of the skip argument
-	// differs between Caller and Callers. For Callers, 0 identifies
-	// the frame for the caller itself. We skip 2 additional frames
-	// here to get to the caller right before the call to Allocate.
-	runtime.Callers(allocFrames+2, pcs)
-	callersFrames := runtime.CallersFrames(pcs)
-	if pc, _, l, ok := runtime.Caller(allocFrames); ok {
-		a.allocs.Store(ptr, &dalloc{pc: pc, line: l, sz: size, callersFrames: callersFrames})
-	}
-	return out
-}
-
-func (a *CheckedAllocator) Reallocate(size int, b []byte) []byte {
-	atomic.AddInt64(&a.sz, int64(size-len(b)))
-
-	oldptr := uintptr(unsafe.Pointer(&b[0]))
-	out := a.mem.Reallocate(size, b)
-	if size == 0 {
-		return out
-	}
-
-	newptr := uintptr(unsafe.Pointer(&out[0]))
-	a.allocs.Delete(oldptr)
-	pcs := make([]uintptr, maxRetainedFrames)
-
-	// For historical reasons the meaning of the skip argument
-	// differs between Caller and Callers. For Callers, 0 identifies
-	// the frame for the caller itself. We skip 2 additional frames
-	// here to get to the caller right before the call to Reallocate.
-	runtime.Callers(reallocFrames+2, pcs)
-	callersFrames := runtime.CallersFrames(pcs)
-	if pc, _, l, ok := runtime.Caller(reallocFrames); ok {
-		a.allocs.Store(newptr, &dalloc{pc: pc, line: l, sz: size, callersFrames: callersFrames})
-	}
-
-	return out
-}
-
-func (a *CheckedAllocator) Free(b []byte) {
-	atomic.AddInt64(&a.sz, int64(len(b)*-1))
-	defer a.mem.Free(b)
-
-	if len(b) == 0 {
-		return
-	}
-
-	ptr := uintptr(unsafe.Pointer(&b[0]))
-	a.allocs.Delete(ptr)
-}
-
-// typically the allocations are happening in memory.Buffer, not by consumers calling
-// allocate/reallocate directly. As a result, we want to skip the caller frames
-// of the inner workings of Buffer in order to find the caller that actually triggered
-// the allocation via a call to Resize/Reserve/etc.
-const (
-	defAllocFrames       = 4
-	defReallocFrames     = 3
-	defMaxRetainedFrames = 0
-)
-
-// Use the environment variables ARROW_CHECKED_ALLOC_FRAMES and ARROW_CHECKED_REALLOC_FRAMES
-// to control how many frames it skips when storing the caller for allocations/reallocs
-// when using this to find memory leaks. Use ARROW_CHECKED_MAX_RETAINED_FRAMES to control how
-// many frames are retained for printing the stack trace of a leak.
-var allocFrames, reallocFrames, maxRetainedFrames int = defAllocFrames, defReallocFrames, defMaxRetainedFrames
-
-func init() {
-	if val, ok := os.LookupEnv("ARROW_CHECKED_ALLOC_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			allocFrames = f
-		}
-	}
-
-	if val, ok := os.LookupEnv("ARROW_CHECKED_REALLOC_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			reallocFrames = f
-		}
-	}
-
-	if val, ok := os.LookupEnv("ARROW_CHECKED_MAX_RETAINED_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			maxRetainedFrames = f
-		}
-	}
-}
-
-type dalloc struct {
-	pc            uintptr
-	line          int
-	sz            int
-	callersFrames *runtime.Frames
-}
-
-type TestingT interface {
-	Errorf(format string, args ...interface{})
-	Helper()
-}
-
-func (a *CheckedAllocator) AssertSize(t TestingT, sz int) {
-	a.allocs.Range(func(_, value interface{}) bool {
-		info := value.(*dalloc)
-		f := runtime.FuncForPC(info.pc)
-		frames := info.callersFrames
-		var callersMsg strings.Builder
-		for {
-			frame, more := frames.Next()
-			if frame.Line == 0 {
-				break
-			}
-			callersMsg.WriteString("\t")
-			// frame.Func is a useful source of information if it's present.
-			// It may be nil for non-Go code or fully inlined functions.
-			if fn := frame.Func; fn != nil {
-				// format as func name + the offset in bytes from func entrypoint
-				callersMsg.WriteString(fmt.Sprintf("%s+%x", fn.Name(), frame.PC-fn.Entry()))
-			} else {
-				// fallback to outer func name + file line
-				callersMsg.WriteString(fmt.Sprintf("%s, line %d", frame.Function, frame.Line))
-			}
-
-			// Write a proper file name + line, so it's really easy to find the leak
-			callersMsg.WriteString("\n\t\t")
-			callersMsg.WriteString(frame.File + ":" + strconv.Itoa(frame.Line))
-			callersMsg.WriteString("\n")
-			if !more {
-				break
-			}
-		}
-
-		file, line := f.FileLine(info.pc)
-		t.Errorf("LEAK of %d bytes FROM\n\t%s+%x\n\t\t%s:%d\n%v",
-			info.sz,
-			f.Name(), info.pc-f.Entry(), // func name + offset in bytes between frame & entrypoint to func
-			file, line, // a proper file name + line, so it's really easy to find the leak
-			callersMsg.String(),
-		)
-		return true
-	})
-
-	if int(atomic.LoadInt64(&a.sz)) != sz {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, a.sz)
-	}
-}
-
-type CheckedAllocatorScope struct {
-	alloc *CheckedAllocator
-	sz    int
-}
-
-func NewCheckedAllocatorScope(alloc *CheckedAllocator) *CheckedAllocatorScope {
-	sz := atomic.LoadInt64(&alloc.sz)
-	return &CheckedAllocatorScope{alloc: alloc, sz: int(sz)}
-}
-
-func (c *CheckedAllocatorScope) CheckSize(t TestingT) {
-	sz := int(atomic.LoadInt64(&c.alloc.sz))
-	if c.sz != sz {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", c.sz, sz)
-	}
-}
-
-var (
-	_ Allocator = (*CheckedAllocator)(nil)
-)
diff --git a/go/arrow/memory/default_allocator.go b/go/arrow/memory/default_allocator.go
deleted file mode 100644
index f60caccdb0e52..0000000000000
--- a/go/arrow/memory/default_allocator.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !mallocator || !cgo
-
-package memory
-
-// DefaultAllocator is a default implementation of Allocator and can be used anywhere
-// an Allocator is required.
-//
-// DefaultAllocator is safe to use from multiple goroutines.
-var DefaultAllocator Allocator = NewGoAllocator()
diff --git a/go/arrow/memory/default_mallocator.go b/go/arrow/memory/default_mallocator.go
deleted file mode 100644
index c1a4ed095fadf..0000000000000
--- a/go/arrow/memory/default_mallocator.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build mallocator && cgo
-
-package memory
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-)
-
-// DefaultAllocator is a default implementation of Allocator and can be used anywhere
-// an Allocator is required.
-//
-// DefaultAllocator is safe to use from multiple goroutines.
-var DefaultAllocator Allocator = mallocator.NewMallocator()
diff --git a/go/arrow/memory/default_mallocator_test.go b/go/arrow/memory/default_mallocator_test.go
deleted file mode 100644
index 7667de1111a31..0000000000000
--- a/go/arrow/memory/default_mallocator_test.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build mallocator && cgo
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDefaultAllocator(t *testing.T) {
-	assert.IsType(t, &mallocator.Mallocator{}, memory.DefaultAllocator)
-}
diff --git a/go/arrow/memory/doc.go b/go/arrow/memory/doc.go
deleted file mode 100644
index 20a28e4e2a466..0000000000000
--- a/go/arrow/memory/doc.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package memory provides support for allocating and manipulating memory at a low level.
-
-The build tag 'mallocator' will switch the default allocator to one backed by libc malloc. This also requires CGO.
-*/
-package memory
diff --git a/go/arrow/memory/go_allocator.go b/go/arrow/memory/go_allocator.go
deleted file mode 100644
index 1017eb688d2ff..0000000000000
--- a/go/arrow/memory/go_allocator.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-type GoAllocator struct{}
-
-func NewGoAllocator() *GoAllocator { return &GoAllocator{} }
-
-func (a *GoAllocator) Allocate(size int) []byte {
-	buf := make([]byte, size+alignment) // padding for 64-byte alignment
-	addr := int(addressOf(buf))
-	next := roundUpToMultipleOf64(addr)
-	if addr != next {
-		shift := next - addr
-		return buf[shift : size+shift : size+shift]
-	}
-	return buf[:size:size]
-}
-
-func (a *GoAllocator) Reallocate(size int, b []byte) []byte {
-	if cap(b) >= size {
-		return b[:size]
-	}
-	newBuf := a.Allocate(size)
-	copy(newBuf, b)
-	return newBuf
-}
-
-func (a *GoAllocator) Free(b []byte) {}
-
-var (
-	_ Allocator = (*GoAllocator)(nil)
-)
diff --git a/go/arrow/memory/go_allocator_test.go b/go/arrow/memory/go_allocator_test.go
deleted file mode 100644
index d146e301ae575..0000000000000
--- a/go/arrow/memory/go_allocator_test.go
+++ /dev/null
@@ -1,76 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func isAlignedTo(addr, alignment int) bool {
-	return addr&(alignment-1) == 0
-}
-
-func TestGoAllocator_Allocate(t *testing.T) {
-	tests := []struct {
-		name string
-		sz   int
-	}{
-		{"lt alignment", 33},
-		{"gt alignment unaligned", 65},
-		{"eq alignment", 64},
-		{"large unaligned", 4097},
-		{"large aligned", 8192},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			a := &GoAllocator{}
-			buf := a.Allocate(test.sz)
-			addr := addressOf(buf)
-			assert.True(t, isAlignedTo(int(addr), alignment))
-			assert.Equal(t, test.sz, len(buf), "invalid len")
-			assert.Equal(t, test.sz, cap(buf), "invalid cap")
-		})
-	}
-}
-
-func TestGoAllocator_Reallocate(t *testing.T) {
-	tests := []struct {
-		name     string
-		sz1, sz2 int
-	}{
-		{"smaller", 200, 100},
-		{"same", 200, 200},
-		{"larger", 200, 300},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			a := &GoAllocator{}
-			buf := a.Allocate(test.sz1)
-			for i := range buf {
-				buf[i] = byte(i & 0xff)
-			}
-
-			exp := make([]byte, test.sz2)
-			copy(exp, buf)
-
-			newBuf := a.Reallocate(test.sz2, buf)
-			assert.Equal(t, exp, newBuf)
-		})
-	}
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.cc b/go/arrow/memory/internal/cgoalloc/allocator.cc
deleted file mode 100644
index b2b0373740dda..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.cc
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// +build ccalloc
-
-#include "allocator.h"
-#include "arrow/memory_pool.h"
-#include "helpers.h"
-
-struct mem_holder {
-    std::unique_ptr<arrow::MemoryPool> owned_pool;    
-    arrow::MemoryPool* pool;
-};
-
-ArrowMemoryPool arrow_create_memory_pool(bool enable_logging) {
-    auto holder = std::make_shared<mem_holder>();    
-    if (enable_logging) {        
-        holder->owned_pool.reset(new arrow::LoggingMemoryPool(arrow::default_memory_pool()));
-        holder->pool = holder->owned_pool.get();
-    } else {
-        holder->pool = arrow::default_memory_pool();
-    }
-
-    return create_ref(holder);
-}
-
-void arrow_release_pool(ArrowMemoryPool pool) {
-    release_ref<mem_holder>(pool);
-}
-
-int arrow_pool_allocate(ArrowMemoryPool pool, int64_t size, uint8_t** out) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    auto status = holder->pool->Allocate(size, out);
-    if (!status.ok()) {
-        return 1;
-    }
-    return 0;
-}
-
-void arrow_pool_free(ArrowMemoryPool pool, uint8_t* buffer, int64_t size) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    holder->pool->Free(buffer, size);
-}
-
-int arrow_pool_reallocate(ArrowMemoryPool pool, int64_t old_size, int64_t new_size, uint8_t** ptr) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    auto status = holder->pool->Reallocate(old_size, new_size, ptr);
-    if (!status.ok()) {
-        return 1;
-    }
-    return 0;
-}
-
-int64_t arrow_pool_bytes_allocated(ArrowMemoryPool pool) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    return holder->pool->bytes_allocated();
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.go b/go/arrow/memory/internal/cgoalloc/allocator.go
deleted file mode 100644
index 48f34d86266d2..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build ccalloc
-// +build ccalloc
-
-package cgoalloc
-
-// #cgo !windows pkg-config: arrow
-// #cgo CXXFLAGS: -std=c++17
-// #cgo windows LDFLAGS:  -larrow
-// #include "allocator.h"
-import "C"
-import (
-	"reflect"
-	"unsafe"
-)
-
-// CGOMemPool is an alias to the typedef'd uintptr from the allocator.h file
-type CGOMemPool = C.ArrowMemoryPool
-
-// CgoPoolAlloc allocates a block of memory of length 'size' using the memory
-// pool that is passed in.
-func CgoPoolAlloc(pool CGOMemPool, size int) []byte {
-	var ret []byte
-	if size == 0 {
-		return ret
-	}
-
-	var out *C.uint8_t
-	C.arrow_pool_allocate(pool, C.int64_t(size), (**C.uint8_t)(unsafe.Pointer(&out)))
-
-	s := (*reflect.SliceHeader)(unsafe.Pointer(&ret))
-	s.Data = uintptr(unsafe.Pointer(out))
-	s.Len = size
-	s.Cap = size
-
-	return ret
-}
-
-// CgoPoolRealloc calls 'reallocate' on the block of memory passed in which must
-// be a slice that was returned by CgoPoolAlloc or CgoPoolRealloc.
-func CgoPoolRealloc(pool CGOMemPool, size int, b []byte) []byte {
-	if len(b) == 0 {
-		return CgoPoolAlloc(pool, size)
-	}
-
-	oldSize := C.int64_t(len(b))
-	data := (*C.uint8_t)(unsafe.Pointer(&b[0]))
-	C.arrow_pool_reallocate(pool, oldSize, C.int64_t(size), &data)
-
-	var ret []byte
-	s := (*reflect.SliceHeader)(unsafe.Pointer(&ret))
-	s.Data = uintptr(unsafe.Pointer(data))
-	s.Len = size
-	s.Cap = size
-
-	return ret
-}
-
-// CgoPoolFree uses the indicated memory pool to free a block of memory. The
-// slice passed in *must* be a slice which was returned by CgoPoolAlloc or
-// CgoPoolRealloc.
-func CgoPoolFree(pool CGOMemPool, b []byte) {
-	if len(b) == 0 {
-		return
-	}
-
-	oldSize := C.int64_t(len(b))
-	data := (*C.uint8_t)(unsafe.Pointer(&b[0]))
-	C.arrow_pool_free(pool, data, oldSize)
-}
-
-// CgoPoolCurBytes returns the current number of bytes allocated by the
-// passed in memory pool.
-func CgoPoolCurBytes(pool CGOMemPool) int64 {
-	return int64(C.arrow_pool_bytes_allocated(pool))
-}
-
-// ReleaseCGOMemPool deletes and frees the memory associated with the
-// passed in memory pool on the C++ side.
-func ReleaseCGOMemPool(pool CGOMemPool) {
-	C.arrow_release_pool(pool)
-}
-
-// NewCgoArrowAllocator constructs a new memory pool in C++ and returns
-// a reference to it which can then be used with the other functions
-// here in order to use it.
-//
-// Optionally if logging is true, a logging proxy will be wrapped around
-// the memory pool so that it will output a line every time memory is
-// allocated, reallocated or freed along with the size of the allocation.
-func NewCgoArrowAllocator(logging bool) CGOMemPool {
-	return C.arrow_create_memory_pool(C.bool(logging))
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.h b/go/arrow/memory/internal/cgoalloc/allocator.h
deleted file mode 100644
index 0c87443754fab..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.h
+++ /dev/null
@@ -1,39 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <stdint.h>
-#include <stdbool.h>
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-typedef uintptr_t ArrowMemoryPool;
-
-ArrowMemoryPool arrow_create_memory_pool(bool enable_logging);
-int arrow_pool_allocate(ArrowMemoryPool pool, int64_t size, uint8_t** out);
-int arrow_pool_reallocate(ArrowMemoryPool pool, int64_t old_size, int64_t new_size, uint8_t** ptr);
-void arrow_pool_free(ArrowMemoryPool pool, uint8_t* buffer, int64_t size);
-int64_t arrow_pool_bytes_allocated(ArrowMemoryPool pool);
-void arrow_release_pool(ArrowMemoryPool pool);
-
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/memory/internal/cgoalloc/helpers.h b/go/arrow/memory/internal/cgoalloc/helpers.h
deleted file mode 100644
index fa5feb6a99438..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/helpers.h
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <cstdint>
-#include <memory>
-
-// helper functions to be included by C++ code for interacting with Cgo
-
-// create_ref will construct a shared_ptr on the heap and return a pointer
-// to it. the returned uintptr_t can then be used with retrieve_instance
-// to get back the shared_ptr and object it refers to. This ensures that
-// the object outlives the exported function so that Go can use it.
-template <typename T>
-uintptr_t create_ref(std::shared_ptr<T> t) {
-    std::shared_ptr<T>* retained_ptr = new std::shared_ptr<T>(t);
-    return reinterpret_cast<uintptr_t>(retained_ptr);
-}
-
-// retrieve_instance is used to get back the shared_ptr which was created with
-// create_ref in order to use it in functions where the caller passes back the
-// uintptr_t so that an object can be managed by C++ while a reference to it
-// is passed around in C/CGO
-template <typename T>
-std::shared_ptr<T> retrieve_instance(uintptr_t ref) {
-    std::shared_ptr<T>* retrieved_ptr = reinterpret_cast<std::shared_ptr<T>*>(ref);
-    return *retrieved_ptr;
-}
-
-// release_ref deletes the shared_ptr that was created by create_ref, freeing the
-// object if it was the last shared_ptr which referenced it as per normal smart_ptr
-// rules.
-template <typename T>
-void release_ref(uintptr_t ref) {
-    std::shared_ptr<T>* retrieved_ptr = reinterpret_cast<std::shared_ptr<T>*>(ref);
-    delete retrieved_ptr;
-}
diff --git a/go/arrow/memory/mallocator/doc.go b/go/arrow/memory/mallocator/doc.go
deleted file mode 100644
index a399d85ee877b..0000000000000
--- a/go/arrow/memory/mallocator/doc.go
+++ /dev/null
@@ -1,21 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// Package mallocator defines an allocator implementation for
-// memory.Allocator which defers to libc malloc. It requires
-// usage of CGO.
-package mallocator
diff --git a/go/arrow/memory/mallocator/mallocator.go b/go/arrow/memory/mallocator/mallocator.go
deleted file mode 100644
index 9483bdfc2a05f..0000000000000
--- a/go/arrow/memory/mallocator/mallocator.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-package mallocator
-
-// #include <stdlib.h>
-// #include <string.h>
-//
-// void* realloc_and_initialize(void* ptr, size_t old_len, size_t new_len) {
-//   void* new_ptr = realloc(ptr, new_len);
-//   if (new_ptr && new_len > old_len) {
-//     memset(new_ptr + old_len, 0, new_len - old_len);
-//   }
-//   return new_ptr;
-// }
-import "C"
-
-import (
-	"sync/atomic"
-	"unsafe"
-)
-
-// Mallocator is an allocator which defers to libc malloc.
-//
-// The primary reason to use this is when exporting data across the C Data
-// Interface. CGO requires that pointers to Go memory are not stored in C
-// memory, which is exactly what the C Data Interface would otherwise
-// require. By allocating with Mallocator up front, we can safely export the
-// buffers in Arrow arrays without copying buffers or violating CGO rules.
-//
-// The build tag 'mallocator' will also make this the default allocator.
-type Mallocator struct {
-	allocatedBytes uint64
-}
-
-func NewMallocator() *Mallocator { return &Mallocator{} }
-
-func (alloc *Mallocator) Allocate(size int) []byte {
-	// Use calloc to zero-initialize memory.
-	// > ...the current implementation may sometimes cause a runtime error if the
-	// > contents of the C memory appear to be a Go pointer. Therefore, avoid
-	// > passing uninitialized C memory to Go code if the Go code is going to store
-	// > pointer values in it. Zero out the memory in C before passing it to Go.
-	if size < 0 {
-		panic("mallocator: negative size")
-	}
-	ptr, err := C.calloc(C.size_t(size), 1)
-	if err != nil {
-		// under some circumstances and allocation patterns, we can end up in a scenario
-		// where for some reason calloc return ENOMEM even though there is definitely memory
-		// available for use. So we attempt to fallback to simply doing malloc + memset in
-		// this case. If malloc returns a nil pointer, then we know we're out of memory
-		// and will surface the error.
-		if ptr = C.malloc(C.size_t(size)); ptr == nil {
-			panic(err)
-		}
-		C.memset(ptr, 0, C.size_t(size))
-	} else if ptr == nil {
-		panic("mallocator: out of memory")
-	}
-
-	atomic.AddUint64(&alloc.allocatedBytes, uint64(size))
-	return unsafe.Slice((*byte)(ptr), size)
-}
-
-func (alloc *Mallocator) Free(b []byte) {
-	sz := len(b)
-	C.free(getPtr(b))
-	// Subtract sh.Len via two's complement (since atomic doesn't offer subtract)
-	atomic.AddUint64(&alloc.allocatedBytes, ^(uint64(sz) - 1))
-}
-
-func (alloc *Mallocator) Reallocate(size int, b []byte) []byte {
-	if size < 0 {
-		panic("mallocator: negative size")
-	}
-	cp := cap(b)
-	ptr, err := C.realloc_and_initialize(getPtr(b), C.size_t(cp), C.size_t(size))
-	if err != nil {
-		panic(err)
-	} else if ptr == nil && size != 0 {
-		panic("mallocator: out of memory")
-	}
-	delta := size - len(b)
-	if delta >= 0 {
-		atomic.AddUint64(&alloc.allocatedBytes, uint64(delta))
-	} else {
-		atomic.AddUint64(&alloc.allocatedBytes, ^(uint64(-delta) - 1))
-	}
-	return unsafe.Slice((*byte)(ptr), size)
-}
-
-func (alloc *Mallocator) AllocatedBytes() int64 {
-	return int64(alloc.allocatedBytes)
-}
-
-// Duplicate interface to avoid circular import
-type TestingT interface {
-	Errorf(format string, args ...interface{})
-	Helper()
-}
-
-func (alloc *Mallocator) AssertSize(t TestingT, sz int) {
-	cur := alloc.AllocatedBytes()
-	if int64(sz) != cur {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, cur)
-	}
-}
diff --git a/go/arrow/memory/mallocator/mallocator_test.go b/go/arrow/memory/mallocator/mallocator_test.go
deleted file mode 100644
index 5e1482b73697f..0000000000000
--- a/go/arrow/memory/mallocator/mallocator_test.go
+++ /dev/null
@@ -1,127 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build cgo
-
-package mallocator_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMallocatorAllocate(t *testing.T) {
-	sizes := []int{0, 1, 4, 33, 65, 4095, 4096, 8193}
-	for _, size := range sizes {
-		t.Run(fmt.Sprint(size), func(t *testing.T) {
-			a := mallocator.NewMallocator()
-			buf := a.Allocate(size)
-			defer a.Free(buf)
-
-			assert.Equal(t, size, len(buf))
-			assert.LessOrEqual(t, size, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-		})
-	}
-}
-
-func TestMallocatorReallocate(t *testing.T) {
-	sizes := []struct {
-		before, after int
-	}{
-		{0, 1},
-		{1, 0},
-		{1, 2},
-		{1, 33},
-		{4, 4},
-		{32, 16},
-		{32, 1},
-	}
-	for _, test := range sizes {
-		t.Run(fmt.Sprintf("%dTo%d", test.before, test.after), func(t *testing.T) {
-			a := mallocator.NewMallocator()
-			buf := a.Allocate(test.before)
-
-			assert.Equal(t, test.before, len(buf))
-			assert.LessOrEqual(t, test.before, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-
-			buf = a.Reallocate(test.after, buf)
-			defer a.Free(buf)
-			assert.Equal(t, test.after, len(buf))
-			assert.LessOrEqual(t, test.after, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-		})
-	}
-}
-
-func TestMallocatorAssertSize(t *testing.T) {
-	a := mallocator.NewMallocator()
-	assert.Equal(t, int64(0), a.AllocatedBytes())
-
-	buf1 := a.Allocate(64)
-	a.AssertSize(t, 64)
-
-	buf2 := a.Allocate(128)
-	a.AssertSize(t, 192)
-	assert.Equal(t, int64(192), a.AllocatedBytes())
-
-	a.Free(buf1)
-	a.AssertSize(t, 128)
-	assert.Equal(t, int64(128), a.AllocatedBytes())
-
-	buf2 = a.Reallocate(256, buf2)
-	a.AssertSize(t, 256)
-	assert.Equal(t, int64(256), a.AllocatedBytes())
-
-	buf2 = a.Reallocate(64, buf2)
-	a.AssertSize(t, 64)
-	assert.Equal(t, int64(64), a.AllocatedBytes())
-
-	a.Free(buf2)
-	a.AssertSize(t, 0)
-	assert.Equal(t, int64(0), a.AllocatedBytes())
-}
-
-func TestMallocatorAllocateNegative(t *testing.T) {
-	a := mallocator.NewMallocator()
-	assert.PanicsWithValue(t, "mallocator: negative size", func() {
-		a.Allocate(-1)
-	})
-}
-
-func TestMallocatorReallocateNegative(t *testing.T) {
-	a := mallocator.NewMallocator()
-	buf := a.Allocate(1)
-	defer a.Free(buf)
-
-	assert.PanicsWithValue(t, "mallocator: negative size", func() {
-		a.Reallocate(-1, buf)
-	})
-}
diff --git a/go/arrow/memory/mallocator/mallocator_util.go b/go/arrow/memory/mallocator/mallocator_util.go
deleted file mode 100644
index 0ab5f8f515e17..0000000000000
--- a/go/arrow/memory/mallocator/mallocator_util.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.20 || tinygo
-
-package mallocator
-
-import "unsafe"
-
-func getPtr(b []byte) unsafe.Pointer {
-	return unsafe.Pointer(unsafe.SliceData(b))
-}
diff --git a/go/arrow/memory/memory.go b/go/arrow/memory/memory.go
deleted file mode 100644
index 43627f5ed18ba..0000000000000
--- a/go/arrow/memory/memory.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-var (
-	memset func(b []byte, c byte) = memory_memset_go
-)
-
-// Set assigns the value c to every element of the slice buf.
-func Set(buf []byte, c byte) {
-	memset(buf, c)
-}
-
-// memory_memset_go reference implementation
-func memory_memset_go(buf []byte, c byte) {
-	for i := 0; i < len(buf); i++ {
-		buf[i] = c
-	}
-}
diff --git a/go/arrow/memory/memory_amd64.go b/go/arrow/memory/memory_amd64.go
deleted file mode 100644
index 895ddc07cf81f..0000000000000
--- a/go/arrow/memory/memory_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		memset = memory_memset_avx2
-	} else if cpu.X86.HasSSE42 {
-		memset = memory_memset_sse4
-	} else {
-		memset = memory_memset_go
-	}
-}
diff --git a/go/arrow/memory/memory_arm64.go b/go/arrow/memory/memory_arm64.go
deleted file mode 100755
index 5260334958526..0000000000000
--- a/go/arrow/memory/memory_arm64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		memset = memory_memset_neon
-	} else {
-		memset = memory_memset_go
-	}
-}
diff --git a/go/arrow/memory/memory_avx2_amd64.go b/go/arrow/memory/memory_avx2_amd64.go
deleted file mode 100644
index 39fb3a5f7692f..0000000000000
--- a/go/arrow/memory/memory_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_avx2(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_avx2(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-
-	var (
-		p1 = unsafe.Pointer(&buf[0])
-		p2 = uintptr(len(buf))
-		p3 = uintptr(c)
-	)
-	if len(buf) > 2000 || isMultipleOfPowerOf2(len(buf), 256) {
-		_memset_avx2(p1, p2, p3)
-	} else {
-		_memset_sse4(p1, p2, p3)
-	}
-}
diff --git a/go/arrow/memory/memory_avx2_amd64.s b/go/arrow/memory/memory_avx2_amd64.s
deleted file mode 100644
index 2a77807cb27c3..0000000000000
--- a/go/arrow/memory/memory_avx2_amd64.s
+++ /dev/null
@@ -1,85 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_memset_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ c+16(FP), DX
-
-	LONG $0x371c8d4c                           // lea    r11, [rdi + rsi]
-	WORD $0x3949; BYTE $0xfb                   // cmp    r11, rdi
-	JBE  LBB0_13
-	LONG $0x80fe8148; WORD $0x0000; BYTE $0x00 // cmp    rsi, 128
-	JB   LBB0_12
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0x80e08349                           // and    r8, -128
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	LONG $0x80e28349                           // and    r10, -128
-	JE   LBB0_12
-	LONG $0xc26ef9c5                           // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0               // vpbroadcastb    ymm0, xmm0
-	LONG $0x804a8d4d                           // lea    r9, [r10 - 128]
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	WORD $0xe8c1; BYTE $0x07                   // shr    eax, 7
-	WORD $0xc0ff                               // inc    eax
-	LONG $0x03e08348                           // and    rax, 3
-	JE   LBB0_4
-	WORD $0xf748; BYTE $0xd8                   // neg    rax
-	WORD $0xc931                               // xor    ecx, ecx
-
-LBB0_6:
-	LONG $0x047ffec5; BYTE $0x0f   // vmovdqu    yword [rdi + rcx], ymm0
-	LONG $0x447ffec5; WORD $0x200f // vmovdqu    yword [rdi + rcx + 32], ymm0
-	LONG $0x447ffec5; WORD $0x400f // vmovdqu    yword [rdi + rcx + 64], ymm0
-	LONG $0x447ffec5; WORD $0x600f // vmovdqu    yword [rdi + rcx + 96], ymm0
-	LONG $0x80e98348               // sub    rcx, -128
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_6
-	JMP  LBB0_7
-
-LBB0_4:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB0_7:
-	LONG $0x80f98149; WORD $0x0001; BYTE $0x00 // cmp    r9, 384
-	JB   LBB0_10
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x000001e00f8c8d48                   // lea    rcx, [rdi + rcx + 480]
-
-LBB0_9:
-	QUAD $0xfffffe20817ffec5                   // vmovdqu    yword [rcx - 480], ymm0
-	QUAD $0xfffffe40817ffec5                   // vmovdqu    yword [rcx - 448], ymm0
-	QUAD $0xfffffe60817ffec5                   // vmovdqu    yword [rcx - 416], ymm0
-	QUAD $0xfffffe80817ffec5                   // vmovdqu    yword [rcx - 384], ymm0
-	QUAD $0xfffffea0817ffec5                   // vmovdqu    yword [rcx - 352], ymm0
-	QUAD $0xfffffec0817ffec5                   // vmovdqu    yword [rcx - 320], ymm0
-	QUAD $0xfffffee0817ffec5                   // vmovdqu    yword [rcx - 288], ymm0
-	QUAD $0xffffff00817ffec5                   // vmovdqu    yword [rcx - 256], ymm0
-	QUAD $0xffffff20817ffec5                   // vmovdqu    yword [rcx - 224], ymm0
-	QUAD $0xffffff40817ffec5                   // vmovdqu    yword [rcx - 192], ymm0
-	QUAD $0xffffff60817ffec5                   // vmovdqu    yword [rcx - 160], ymm0
-	LONG $0x417ffec5; BYTE $0x80               // vmovdqu    yword [rcx - 128], ymm0
-	LONG $0x417ffec5; BYTE $0xa0               // vmovdqu    yword [rcx - 96], ymm0
-	LONG $0x417ffec5; BYTE $0xc0               // vmovdqu    yword [rcx - 64], ymm0
-	LONG $0x417ffec5; BYTE $0xe0               // vmovdqu    yword [rcx - 32], ymm0
-	LONG $0x017ffec5                           // vmovdqu    yword [rcx], ymm0
-	LONG $0x00c18148; WORD $0x0002; BYTE $0x00 // add    rcx, 512
-	LONG $0xfe000548; WORD $0xffff             // add    rax, -512
-	JNE  LBB0_9
-
-LBB0_10:
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JE   LBB0_13
-	WORD $0x014c; BYTE $0xc7 // add    rdi, r8
-
-LBB0_12:
-	WORD $0x1788             // mov    byte [rdi], dl
-	WORD $0xff48; BYTE $0xc7 // inc    rdi
-	WORD $0x3949; BYTE $0xfb // cmp    r11, rdi
-	JNE  LBB0_12
-
-LBB0_13:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/memory/memory_js_wasm.go b/go/arrow/memory/memory_js_wasm.go
deleted file mode 100644
index 5cc0c84d39ee7..0000000000000
--- a/go/arrow/memory/memory_js_wasm.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build wasm
-// +build wasm
-
-package memory
-
-func init() {
-	memset = memory_memset_go
-}
diff --git a/go/arrow/memory/memory_neon_arm64.go b/go/arrow/memory/memory_neon_arm64.go
deleted file mode 100755
index 806ca575f22dd..0000000000000
--- a/go/arrow/memory/memory_neon_arm64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_neon(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_neon(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-	_memset_neon(unsafe.Pointer(&buf[0]), uintptr(len(buf)), uintptr(c))
-}
diff --git a/go/arrow/memory/memory_neon_arm64.s b/go/arrow/memory/memory_neon_arm64.s
deleted file mode 100755
index 18655cc7a25c7..0000000000000
--- a/go/arrow/memory/memory_neon_arm64.s
+++ /dev/null
@@ -1,43 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15320:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _memset_neon(buf unsafe.Pointer, len, c uintptr)
-TEXT ·_memset_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	c+16(FP), R2
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x8b010008 // add    x8, x0, x1
-	WORD $0xeb00011f // cmp    x8, x0
-	WORD $0x910003fd // mov    x29, sp
-	BLS	LBB0_7
-
-	WORD $0xf100803f // cmp    x1, #32
-	BHS	LBB0_3
-	WORD $0xaa0003e9 // mov    x9, x0
-	JMP	LBB0_6
-LBB0_3:
-	WORD $0x927be82a // and    x10, x1, #0xffffffffffffffe0
-	WORD $0x4e010c40 // dup    v0.16b, w2
-	WORD $0x8b0a0009 // add    x9, x0, x10
-	WORD $0x9100400b // add    x11, x0, #16
-	WORD $0xaa0a03ec // mov    x12, x10
-LBB0_4:
-	WORD $0xad3f8160 // stp    q0, q0, [x11, #-16]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE	LBB0_4
-	WORD $0xeb01015f // cmp    x10, x1
-	BEQ	LBB0_7
-LBB0_6:
-	WORD $0x38001522 // strb    w2, [x9], #1
-	WORD $0xeb09011f // cmp    x8, x9
-	BNE	LBB0_6
-LBB0_7:
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
diff --git a/go/arrow/memory/memory_noasm.go b/go/arrow/memory/memory_noasm.go
deleted file mode 100644
index 44f19c091c7e0..0000000000000
--- a/go/arrow/memory/memory_noasm.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package memory
-
-func init() {
-	memset = memory_memset_go
-}
diff --git a/go/arrow/memory/memory_sse4_amd64.go b/go/arrow/memory/memory_sse4_amd64.go
deleted file mode 100644
index 1711a1ee3eaf7..0000000000000
--- a/go/arrow/memory/memory_sse4_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_sse4(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_sse4(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-	_memset_sse4(unsafe.Pointer(&buf[0]), uintptr(len(buf)), uintptr(c))
-}
diff --git a/go/arrow/memory/memory_sse4_amd64.s b/go/arrow/memory/memory_sse4_amd64.s
deleted file mode 100644
index b1906f99b7161..0000000000000
--- a/go/arrow/memory/memory_sse4_amd64.s
+++ /dev/null
@@ -1,84 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_memset_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ c+16(FP), DX
-
-	LONG $0x371c8d4c             // lea    r11, [rdi + rsi]
-	WORD $0x3949; BYTE $0xfb     // cmp    r11, rdi
-	JBE  LBB0_13
-	LONG $0x20fe8348             // cmp    rsi, 32
-	JB   LBB0_12
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	LONG $0xe0e08349             // and    r8, -32
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	LONG $0xe0e28349             // and    r10, -32
-	JE   LBB0_12
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04a8d4d             // lea    r9, [r10 - 32]
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe9c1; BYTE $0x05     // shr    ecx, 5
-	WORD $0xc1ff                 // inc    ecx
-	LONG $0x07e18348             // and    rcx, 7
-	JE   LBB0_4
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_6:
-	LONG $0x047f0ff3; BYTE $0x07   // movdqu    oword [rdi + rax], xmm0
-	LONG $0x447f0ff3; WORD $0x1007 // movdqu    oword [rdi + rax + 16], xmm0
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff48; BYTE $0xc1       // inc    rcx
-	JNE  LBB0_6
-	JMP  LBB0_7
-
-LBB0_4:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_7:
-	LONG $0xe0f98149; WORD $0x0000; BYTE $0x00 // cmp    r9, 224
-	JB   LBB0_10
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	WORD $0x2948; BYTE $0xc1                   // sub    rcx, rax
-	QUAD $0x000000f007848d48                   // lea    rax, [rdi + rax + 240]
-
-LBB0_9:
-	QUAD $0xffffff10807f0ff3                   // movdqu    oword [rax - 240], xmm0
-	QUAD $0xffffff20807f0ff3                   // movdqu    oword [rax - 224], xmm0
-	QUAD $0xffffff30807f0ff3                   // movdqu    oword [rax - 208], xmm0
-	QUAD $0xffffff40807f0ff3                   // movdqu    oword [rax - 192], xmm0
-	QUAD $0xffffff50807f0ff3                   // movdqu    oword [rax - 176], xmm0
-	QUAD $0xffffff60807f0ff3                   // movdqu    oword [rax - 160], xmm0
-	QUAD $0xffffff70807f0ff3                   // movdqu    oword [rax - 144], xmm0
-	LONG $0x407f0ff3; BYTE $0x80               // movdqu    oword [rax - 128], xmm0
-	LONG $0x407f0ff3; BYTE $0x90               // movdqu    oword [rax - 112], xmm0
-	LONG $0x407f0ff3; BYTE $0xa0               // movdqu    oword [rax - 96], xmm0
-	LONG $0x407f0ff3; BYTE $0xb0               // movdqu    oword [rax - 80], xmm0
-	LONG $0x407f0ff3; BYTE $0xc0               // movdqu    oword [rax - 64], xmm0
-	LONG $0x407f0ff3; BYTE $0xd0               // movdqu    oword [rax - 48], xmm0
-	LONG $0x407f0ff3; BYTE $0xe0               // movdqu    oword [rax - 32], xmm0
-	LONG $0x407f0ff3; BYTE $0xf0               // movdqu    oword [rax - 16], xmm0
-	LONG $0x007f0ff3                           // movdqu    oword [rax], xmm0
-	LONG $0x01000548; WORD $0x0000             // add    rax, 256
-	LONG $0x00c18148; WORD $0xffff; BYTE $0xff // add    rcx, -256
-	JNE  LBB0_9
-
-LBB0_10:
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JE   LBB0_13
-	WORD $0x014c; BYTE $0xc7 // add    rdi, r8
-
-LBB0_12:
-	WORD $0x1788             // mov    byte [rdi], dl
-	WORD $0xff48; BYTE $0xc7 // inc    rdi
-	WORD $0x3949; BYTE $0xfb // cmp    r11, rdi
-	JNE  LBB0_12
-
-LBB0_13:
-	RET
diff --git a/go/arrow/memory/memory_test.go b/go/arrow/memory/memory_test.go
deleted file mode 100644
index 4a823494ff99b..0000000000000
--- a/go/arrow/memory/memory_test.go
+++ /dev/null
@@ -1,125 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func makeExpectedBuf(sz, lo, hi int, c byte) []byte {
-	buf := make([]byte, sz)
-	for i := lo; i < hi; i++ {
-		buf[i] = c
-	}
-	return buf
-}
-
-func TestSet(t *testing.T) {
-	tests := []struct {
-		name   string
-		sz     int
-		lo, hi int
-		c      byte
-	}{
-		{"sz=0", 0, 0, 0, 0x00},
-		{"all,sz=7", 7, 0, 7, 0x1f},
-		{"part,sz=7", 7, 3, 4, 0x1f},
-		{"last,sz=7", 7, 6, 7, 0x1f},
-		{"all,sz=25", 25, 0, 25, 0x1f},
-		{"part,sz=25", 25, 13, 19, 0x1f},
-		{"last,sz=25", 25, 24, 25, 0x1f},
-		{"all,sz=4096", 4096, 0, 4096, 0x1f},
-		{"part,sz=4096", 4096, 1000, 3000, 0x1f},
-		{"last,sz=4096", 4096, 4095, 4096, 0x1f},
-		{"all,sz=16384", 16384, 0, 16384, 0x1f},
-		{"part,sz=16384", 16384, 3333, 10000, 0x1f},
-		{"last,sz=16384", 16384, 16383, 16384, 0x1f},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			buf := make([]byte, test.sz)
-			memory.Set(buf[test.lo:test.hi], test.c)
-			exp := makeExpectedBuf(test.sz, test.lo, test.hi, test.c)
-			assert.Equal(t, exp, buf)
-		})
-	}
-}
-
-func benchmarkSet(b *testing.B, n int64) {
-	buf := make([]byte, n)
-	b.SetBytes(n)
-	b.ResetTimer()
-
-	for i := 0; i < b.N; i++ {
-		memory.Set(buf, 0x1f)
-	}
-}
-
-func BenchmarkSet_8(b *testing.B) {
-	benchmarkSet(b, 8)
-}
-
-func BenchmarkSet_32(b *testing.B) {
-	benchmarkSet(b, 32)
-}
-
-func BenchmarkSet_64(b *testing.B) {
-	benchmarkSet(b, 64)
-}
-
-func BenchmarkSet_500(b *testing.B) {
-	benchmarkSet(b, 500)
-}
-
-func BenchmarkSet_512(b *testing.B) {
-	benchmarkSet(b, 512)
-}
-
-func BenchmarkSet_1000(b *testing.B) {
-	benchmarkSet(b, 1000)
-}
-
-func BenchmarkSet_1024(b *testing.B) {
-	benchmarkSet(b, 1024)
-}
-
-func BenchmarkSet_2000(b *testing.B) {
-	benchmarkSet(b, 2000)
-}
-
-func BenchmarkSet_2048(b *testing.B) {
-	benchmarkSet(b, 2048)
-}
-
-func BenchmarkSet_4000(b *testing.B) {
-	benchmarkSet(b, 4000)
-}
-
-func BenchmarkSet_4096(b *testing.B) {
-	benchmarkSet(b, 4096)
-}
-
-func BenchmarkSet_8000(b *testing.B) {
-	benchmarkSet(b, 8000)
-}
-
-func BenchmarkSet_8192(b *testing.B) {
-	benchmarkSet(b, 8192)
-}
diff --git a/go/arrow/memory/util.go b/go/arrow/memory/util.go
deleted file mode 100644
index 6cc7ec91b9638..0000000000000
--- a/go/arrow/memory/util.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import "unsafe"
-
-func roundToPowerOf2(v, round int) int {
-	forceCarry := round - 1
-	truncateMask := ^forceCarry
-	return (v + forceCarry) & truncateMask
-}
-
-func roundUpToMultipleOf64(v int) int {
-	return roundToPowerOf2(v, 64)
-}
-
-func isMultipleOfPowerOf2(v int, d int) bool {
-	return (v & (d - 1)) == 0
-}
-
-func addressOf(b []byte) uintptr {
-	return uintptr(unsafe.Pointer(&b[0]))
-}
-
-func ReleaseBuffers(buffers []*Buffer) {
-	for _, b := range buffers {
-		if b != nil {
-			b.Release()
-		}
-	}
-}
diff --git a/go/arrow/memory/util_test.go b/go/arrow/memory/util_test.go
deleted file mode 100644
index d8afe80a069e3..0000000000000
--- a/go/arrow/memory/util_test.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRoundToPowerOf2(t *testing.T) {
-	tests := []struct {
-		v, round int
-		exp      int
-	}{
-		{60, 64, 64},
-		{122, 64, 128},
-		{16, 64, 64},
-		{64, 64, 64},
-		{13, 8, 16},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("v%d_r%d", test.v, test.round), func(t *testing.T) {
-			a := roundToPowerOf2(test.v, test.round)
-			assert.Equal(t, test.exp, a)
-		})
-	}
-}
-
-func TestIsMultipleOfPowerOf2(t *testing.T) {
-	tests := []struct {
-		v, d int
-		exp  bool
-	}{
-		{200, 256, false},
-		{256, 256, true},
-		{500, 256, false},
-		{512, 256, true},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("%d_%d_%t", test.v, test.d, test.exp), func(t *testing.T) {
-			got := isMultipleOfPowerOf2(test.v, test.d)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
diff --git a/go/arrow/numeric.schema.json b/go/arrow/numeric.schema.json
deleted file mode 100644
index 7fa2800a57a37..0000000000000
--- a/go/arrow/numeric.schema.json
+++ /dev/null
@@ -1,15 +0,0 @@
-{
-  "title": "templates",
-  "type": "array",
-  "items": {
-    "title": "template",
-    "type": "object",
-    "properties": {
-      "Name": {
-        "type": "string",
-        "description": "The name of the template type"
-      }
-    },
-    "required": ["Name"]
-  }
-}
\ No newline at end of file
diff --git a/go/arrow/numeric.tmpldata b/go/arrow/numeric.tmpldata
deleted file mode 100644
index 3c2d63b7cb2bb..0000000000000
--- a/go/arrow/numeric.tmpldata
+++ /dev/null
@@ -1,135 +0,0 @@
-[
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "Type": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint64",
-    "name": "uint64",
-    "Type": "uint64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "Type": "float64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "Type": "int32",
-    "Default": "0",
-    "Size": "4",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint32",
-    "name": "uint32",
-    "Type": "uint32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "Type": "float32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Int16",
-    "name": "int16",
-    "Type": "int16",
-    "Default": "0",
-    "Size": "2"
-  },
-  {
-    "Name": "Uint16",
-    "name": "uint16",
-    "Type": "uint16",
-    "Default": "0",
-    "Size": "2"
-  },
-  {
-    "Name": "Int8",
-    "name": "int8",
-    "Type": "int8",
-    "Default": "0",
-    "Size": "1",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint8",
-    "name": "uint8",
-    "Type": "uint8",
-    "Default": "0",
-    "Size": "1"
-  },
-  {
-    "Name": "Time32",
-    "name": "time32",
-    "Type": "Time32",
-    "QualifiedType": "arrow.Time32",
-    "InternalType": "int32",
-    "Default": "0",
-    "Size": "4",
-    "Opt": {
-      "Parametric": true
-    }
-  },
-  {
-    "Name": "Time64",
-    "name": "time64",
-    "Type": "Time64",
-    "QualifiedType": "arrow.Time64",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "Parametric": true
-    }
-  },
-  {
-    "Name": "Date32",
-    "name": "date32",
-    "Type": "Date32",
-    "QualifiedType": "arrow.Date32",
-    "InternalType": "int32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Date64",
-    "name": "date64",
-    "Type": "Date64",
-    "QualifiedType": "arrow.Date64",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Duration",
-    "name": "duration",
-    "Type": "Duration",
-    "QualifiedType": "arrow.Duration",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "Parametric": true
-    }
-  }
-]
diff --git a/go/arrow/record.go b/go/arrow/record.go
deleted file mode 100644
index b812fcd481a60..0000000000000
--- a/go/arrow/record.go
+++ /dev/null
@@ -1,49 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import "github.com/apache/arrow/go/v18/internal/json"
-
-// Record is a collection of equal-length arrays matching a particular Schema.
-// Also known as a RecordBatch in the spec and in some implementations.
-//
-// It is also possible to construct a Table from a collection of Records that
-// all have the same schema.
-type Record interface {
-	json.Marshaler
-
-	Release()
-	Retain()
-
-	Schema() *Schema
-
-	NumRows() int64
-	NumCols() int64
-
-	Columns() []Array
-	Column(i int) Array
-	ColumnName(i int) string
-	SetColumn(i int, col Array) (Record, error)
-
-	// NewSlice constructs a zero-copy slice of the record with the indicated
-	// indices i and j, corresponding to array[i:j].
-	// The returned record must be Release()'d after use.
-	//
-	// NewSlice panics if the slice is outside the valid range of the record array.
-	// NewSlice panics if j < i.
-	NewSlice(i, j int64) Record
-}
diff --git a/go/arrow/scalar/append.go b/go/arrow/scalar/append.go
deleted file mode 100644
index 3a5823775457d..0000000000000
--- a/go/arrow/scalar/append.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package scalar
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-type primitives interface {
-	bool | float16.Num | decimal128.Num |
-		decimal256.Num | constraints.Integer | constraints.Float |
-		arrow.DayTimeInterval | arrow.MonthInterval | arrow.MonthDayNanoInterval
-}
-
-type builder[T primitives | []byte] interface {
-	AppendNull()
-	UnsafeAppend(T)
-	UnsafeAppendBoolToBitmap(bool)
-}
-
-type binaryBuilder interface {
-	builder[[]byte]
-	ReserveData(int)
-}
-
-func appendPrimitive[T primitives, B builder[T]](bldr B, scalars []Scalar) {
-	for _, sc := range scalars {
-		if sc.IsValid() {
-			bldr.UnsafeAppend(sc.value().(T))
-		} else {
-			bldr.UnsafeAppendBoolToBitmap(false)
-		}
-	}
-}
-
-func appendBinary(bldr binaryBuilder, scalars []Scalar) {
-	var dataSize int
-	for _, s := range scalars {
-		s := s.(BinaryScalar)
-		if s.IsValid() {
-			dataSize += len(s.Data())
-		}
-	}
-
-	bldr.ReserveData(dataSize)
-	for _, sc := range scalars {
-		s := sc.(BinaryScalar)
-		if s.IsValid() {
-			bldr.UnsafeAppend(s.Data())
-		} else {
-			bldr.AppendNull()
-		}
-	}
-}
-
-// Append requires the passed in builder and scalar to have the same datatype
-// otherwise it will return an error. Will return arrow.ErrNotImplemented if
-// the type hasn't been implemented for this.
-//
-// NOTE only available in go1.18+
-func Append(bldr array.Builder, s Scalar) error {
-	return AppendSlice(bldr, []Scalar{s})
-}
-
-// AppendSlice requires the passed in builder and all scalars in the slice
-// to have the same datatype otherwise it will return an error. Will return
-// arrow.ErrNotImplemented if the type hasn't been implemented for this.
-//
-// NOTE only available in go1.18+
-func AppendSlice(bldr array.Builder, scalars []Scalar) error {
-	if len(scalars) == 0 {
-		return nil
-	}
-
-	ty := bldr.Type()
-	for _, sc := range scalars {
-		if !arrow.TypeEqual(ty, sc.DataType()) {
-			return fmt.Errorf("%w: cannot append scalar of type %s to builder for type %s",
-				arrow.ErrInvalid, scalars[0].DataType(), bldr.Type())
-		}
-	}
-
-	bldr.Reserve(len(scalars))
-	switch bldr := bldr.(type) {
-	case *array.BooleanBuilder:
-		appendPrimitive[bool](bldr, scalars)
-	case *array.Decimal128Builder:
-		appendPrimitive[decimal128.Num](bldr, scalars)
-	case *array.Decimal256Builder:
-		appendPrimitive[decimal256.Num](bldr, scalars)
-	case *array.FixedSizeBinaryBuilder:
-		for _, sc := range scalars {
-			s := sc.(*FixedSizeBinary)
-			if s.Valid {
-				bldr.UnsafeAppend(s.Value.Bytes())
-			} else {
-				bldr.UnsafeAppendBoolToBitmap(false)
-			}
-		}
-	case *array.Int8Builder:
-		appendPrimitive[int8](bldr, scalars)
-	case *array.Uint8Builder:
-		appendPrimitive[uint8](bldr, scalars)
-	case *array.Int16Builder:
-		appendPrimitive[int16](bldr, scalars)
-	case *array.Uint16Builder:
-		appendPrimitive[uint16](bldr, scalars)
-	case *array.Int32Builder:
-		appendPrimitive[int32](bldr, scalars)
-	case *array.Uint32Builder:
-		appendPrimitive[uint32](bldr, scalars)
-	case *array.Int64Builder:
-		appendPrimitive[int64](bldr, scalars)
-	case *array.Uint64Builder:
-		appendPrimitive[uint64](bldr, scalars)
-	case *array.Float16Builder:
-		appendPrimitive[float16.Num](bldr, scalars)
-	case *array.Float32Builder:
-		appendPrimitive[float32](bldr, scalars)
-	case *array.Float64Builder:
-		appendPrimitive[float64](bldr, scalars)
-	case *array.Date32Builder:
-		appendPrimitive[arrow.Date32](bldr, scalars)
-	case *array.Date64Builder:
-		appendPrimitive[arrow.Date64](bldr, scalars)
-	case *array.Time32Builder:
-		appendPrimitive[arrow.Time32](bldr, scalars)
-	case *array.Time64Builder:
-		appendPrimitive[arrow.Time64](bldr, scalars)
-	case *array.DayTimeIntervalBuilder:
-		appendPrimitive[arrow.DayTimeInterval](bldr, scalars)
-	case *array.MonthIntervalBuilder:
-		appendPrimitive[arrow.MonthInterval](bldr, scalars)
-	case *array.MonthDayNanoIntervalBuilder:
-		appendPrimitive[arrow.MonthDayNanoInterval](bldr, scalars)
-	case *array.DurationBuilder:
-		appendPrimitive[arrow.Duration](bldr, scalars)
-	case *array.TimestampBuilder:
-		appendPrimitive[arrow.Timestamp](bldr, scalars)
-	case array.StringLikeBuilder:
-		appendBinary(bldr, scalars)
-	case *array.BinaryBuilder:
-		appendBinary(bldr, scalars)
-	case array.ListLikeBuilder:
-		var numChildren int
-		for _, s := range scalars {
-			if !s.IsValid() {
-				continue
-			}
-			numChildren += s.(ListScalar).GetList().Len()
-		}
-		bldr.ValueBuilder().Reserve(numChildren)
-
-		for _, s := range scalars {
-			bldr.Append(s.IsValid())
-			if s.IsValid() {
-				list := s.(ListScalar).GetList()
-				for i := 0; i < list.Len(); i++ {
-					sc, err := GetScalar(list, i)
-					if err != nil {
-						return err
-					}
-					if err := Append(bldr.ValueBuilder(), sc); err != nil {
-						return err
-					}
-				}
-			}
-		}
-	case *array.StructBuilder:
-		for _, sc := range scalars {
-			s := sc.(*Struct)
-			for i := 0; i < bldr.NumField(); i++ {
-				if !s.Valid || s.Value[i] == nil {
-					bldr.FieldBuilder(i).UnsafeAppendBoolToBitmap(false)
-				} else {
-					if err := Append(bldr.FieldBuilder(i), s.Value[i]); err != nil {
-						return err
-					}
-				}
-			}
-			bldr.UnsafeAppendBoolToBitmap(s.Valid)
-		}
-	case *array.SparseUnionBuilder:
-		ty := ty.(*arrow.SparseUnionType)
-		for i := 0; i < bldr.NumChildren(); i++ {
-			bldr.Child(i).Reserve(len(scalars))
-		}
-
-		for _, s := range scalars {
-			// for each scalar
-			// 1. append the type code
-			// 2. append the value to the corresponding child
-			// 3. append null to the other children
-			s := s.(*SparseUnion)
-			bldr.Append(s.TypeCode)
-			for i := range ty.Fields() {
-				child := bldr.Child(i)
-				if s.ChildID == i {
-					if s.Valid {
-						if err := Append(child, s.Value[i]); err != nil {
-							return err
-						}
-					} else {
-						child.UnsafeAppendBoolToBitmap(false)
-					}
-				} else {
-					child.UnsafeAppendBoolToBitmap(false)
-				}
-			}
-		}
-	case *array.DenseUnionBuilder:
-		ty := ty.(*arrow.DenseUnionType)
-		for i := 0; i < bldr.NumChildren(); i++ {
-			bldr.Child(i).Reserve(len(scalars))
-		}
-
-		for _, s := range scalars {
-			s := s.(*DenseUnion)
-			fieldIndex := ty.ChildIDs()[s.TypeCode]
-			bldr.Append(s.TypeCode)
-
-			for i := range ty.Fields() {
-				child := bldr.Child(i)
-				if i == fieldIndex {
-					if s.Valid {
-						if err := Append(child, s.Value); err != nil {
-							return err
-						}
-					} else {
-						child.UnsafeAppendBoolToBitmap(false)
-					}
-				}
-			}
-		}
-	default:
-		return fmt.Errorf("%w: append scalar for type %s", arrow.ErrNotImplemented, ty)
-	}
-
-	return nil
-}
diff --git a/go/arrow/scalar/append_test.go b/go/arrow/scalar/append_test.go
deleted file mode 100644
index a8eca4ee455b4..0000000000000
--- a/go/arrow/scalar/append_test.go
+++ /dev/null
@@ -1,244 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package scalar_test
-
-import (
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-type primitiveTypes interface {
-	constraints.Integer | constraints.Float
-}
-
-func draw[T constraints.Integer](n int64, min, max T) []T {
-	const seed = 1337
-	gen := rand.New(rand.NewSource(seed))
-
-	normalizedMin := uint64(math.Abs(float64(min)))
-	normalizedMax := uint64(max) + normalizedMin
-
-	out := make([]T, n)
-	for i := range out {
-		out[i] = T(gen.Uint64n(normalizedMax) - normalizedMin)
-	}
-	return out
-}
-
-func drawFloat[T float32 | float64](n int64) []T {
-	const seed = 0xdeadbeef
-	d := distuv.Uniform{
-		Min: -1000.0, Max: 1000.0,
-		Src: rand.NewSource(seed),
-	}
-
-	out := make([]T, n)
-	for i := range out {
-		out[i] = T(d.Rand())
-	}
-	return out
-}
-
-func drawBytes[T string | []byte](n int64, minLen, maxLen int) []T {
-	const seed = 1337
-	gen := rand.New(rand.NewSource(seed))
-
-	out := make([]T, n)
-	for i := range out {
-		l := gen.Intn(maxLen-minLen+1) + minLen
-		buf := make([]byte, l)
-		for j := range buf {
-			buf[j] = uint8(gen.Intn(int('z')-int('A')+1) + int('A'))
-		}
-		out[i] = T(buf)
-	}
-	return out
-}
-
-func randomBools(n int64, pctFalse float64) []bool {
-	const seed = 0
-	d := distuv.Uniform{
-		Min: 0.0, Max: 1.0,
-		Src: rand.NewSource(seed),
-	}
-
-	out := make([]bool, n)
-	for i := range out {
-		out[i] = d.Rand() > pctFalse
-	}
-	return out
-}
-
-type builder[T primitiveTypes | string | []byte] interface {
-	array.Builder
-	Append(T)
-}
-
-type PrimitiveAppendTestSuite[T primitiveTypes | string | []byte] struct {
-	suite.Suite
-
-	mem     *memory.CheckedAllocator
-	dt      arrow.DataType
-	bldr    builder[T]
-	bldrNN  builder[T]
-	scalars []scalar.Scalar
-
-	getRand func(n int64) []T
-
-	draws      []T
-	validBytes []bool
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) SetupTest() {
-	pt.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	pt.dt = tools.GetDataType[T]()
-	pt.bldr = array.NewBuilder(pt.mem, pt.dt).(builder[T])
-	pt.bldrNN = array.NewBuilder(pt.mem, pt.dt).(builder[T])
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) TearDownTest() {
-	pt.bldr.Release()
-	pt.bldrNN.Release()
-
-	pt.mem.AssertSize(pt.T(), 0)
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) randomData(n int64, pctNull float64) {
-	pt.draws = pt.getRand(n)
-	pt.validBytes = randomBools(n, pctNull)
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) TestAppendScalar() {
-	const size int = 1000
-
-	pt.randomData(int64(size), 0.1)
-
-	pt.bldr.Reserve(size)
-	pt.scalars = make([]scalar.Scalar, size)
-
-	var nullCount int
-	for i := 0; i < 1000; i++ {
-		if pt.validBytes[i] {
-			pt.bldr.Append(pt.draws[i])
-			pt.scalars[i] = scalar.MakeScalar(pt.draws[i])
-		} else {
-			pt.bldr.AppendNull()
-			nullCount++
-			pt.scalars[i] = scalar.MakeNullScalar(pt.dt)
-		}
-	}
-
-	pt.Require().NoError(scalar.AppendSlice(pt.bldrNN, pt.scalars))
-
-	pt.Equal(nullCount, pt.bldr.NullN())
-	pt.Equal(nullCount, pt.bldrNN.NullN())
-	pt.Equal(1000, pt.bldr.Len())
-	pt.Equal(1024, pt.bldr.Cap())
-	pt.Equal(1000, pt.bldrNN.Len())
-	pt.Equal(1024, pt.bldrNN.Cap())
-
-	expected := pt.bldr.NewArray()
-	defer expected.Release()
-	out := pt.bldrNN.NewArray()
-	defer out.Release()
-	pt.Truef(array.Equal(expected, out), "expected: %s, got: %s", expected, out)
-}
-
-type PrimitiveIntegralAppendTestSuite[T constraints.Integer] struct {
-	PrimitiveAppendTestSuite[T]
-	min, max T
-}
-
-func (pt *PrimitiveIntegralAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = func(n int64) []T {
-		return draw(n, pt.min, pt.max)
-	}
-}
-
-type PrimitiveFloatingAppendTestSuite[T float32 | float64] struct {
-	PrimitiveAppendTestSuite[T]
-}
-
-func (pt *PrimitiveFloatingAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = drawFloat[T]
-}
-
-type PrimitiveStringAppendTestSuite[T string | []byte] struct {
-	PrimitiveAppendTestSuite[T]
-}
-
-func (pt *PrimitiveStringAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = func(n int64) []T {
-		return drawBytes[T](n, 3, 9)
-	}
-}
-
-func TestPrimitiveAppendScalar(t *testing.T) {
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int8]{min: math.MinInt8, max: math.MaxInt8})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int16]{min: math.MinInt16, max: math.MaxInt16})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int32]{min: math.MinInt32, max: math.MaxInt32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date32]{min: math.MinInt32, max: math.MaxInt32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date64]{min: math.MinInt64, max: math.MaxInt64})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int64]{min: math.MinInt64, max: math.MaxInt64})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint8]{min: 0, max: math.MaxUint8})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint16]{min: 0, max: math.MaxUint16})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint32]{min: 0, max: math.MaxUint32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint64]{min: 0, max: math.MaxUint64})
-	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float32]))
-	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float64]))
-	suite.Run(t, new(PrimitiveStringAppendTestSuite[string]))
-	suite.Run(t, new(PrimitiveStringAppendTestSuite[[]byte]))
-}
-
-func TestAppendMapScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	expected, _, err := array.FromJSON(mem, arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int8),
-		strings.NewReader(`[[{"key": "a", "value": 1}, {"key": "b", "value": 2}]]`))
-	require.NoError(t, err)
-	defer expected.Release()
-
-	mapScalar, err := scalar.GetScalar(expected, 0)
-	require.NoError(t, err)
-	defer mapScalar.(scalar.Releasable).Release()
-
-	bldr := array.NewBuilder(mem, mapScalar.DataType())
-	defer bldr.Release()
-
-	require.NoError(t, scalar.Append(bldr, mapScalar))
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	assert.Truef(t, array.Equal(expected, result), "expected: %s, got: %s", expected, result)
-}
diff --git a/go/arrow/scalar/binary.go b/go/arrow/scalar/binary.go
deleted file mode 100644
index 26c153dc7a46d..0000000000000
--- a/go/arrow/scalar/binary.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"bytes"
-	"fmt"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type BinaryScalar interface {
-	Scalar
-
-	Retain()
-	Release()
-	Buffer() *memory.Buffer
-	Data() []byte
-}
-
-type Binary struct {
-	scalar
-
-	Value *memory.Buffer
-}
-
-func (b *Binary) Retain() {
-	if b.Value != nil {
-		b.Value.Retain()
-	}
-}
-
-func (b *Binary) Release() {
-	if b.Value != nil {
-		b.Value.Release()
-	}
-}
-
-func (b *Binary) value() interface{} { return b.Value }
-func (b *Binary) Data() []byte       { return b.Value.Bytes() }
-func (b *Binary) equals(rhs Scalar) bool {
-	return bytes.Equal(b.Value.Bytes(), rhs.(BinaryScalar).Data())
-}
-func (b *Binary) Buffer() *memory.Buffer { return b.Value }
-func (b *Binary) String() string {
-	if !b.Valid {
-		return "null"
-	}
-
-	return string(b.Value.Bytes())
-}
-
-func (b *Binary) CastTo(to arrow.DataType) (Scalar, error) {
-	if !b.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.BINARY:
-		return NewBinaryScalar(b.Value, b.Type), nil
-	case arrow.LARGE_BINARY:
-		return NewLargeBinaryScalar(b.Value), nil
-	case arrow.STRING:
-		return NewStringScalarFromBuffer(b.Value), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalarFromBuffer(b.Value), nil
-	case arrow.FIXED_SIZE_BINARY:
-		if b.Value.Len() == to.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return NewFixedSizeBinaryScalar(b.Value, to), nil
-		}
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null binary scalar to type %s", to)
-}
-
-func (b *Binary) Validate() (err error) {
-	err = b.scalar.Validate()
-	if err == nil {
-		err = validateOptional(&b.scalar, b.Value, "value")
-	}
-	return
-}
-
-func (b *Binary) ValidateFull() error {
-	return b.Validate()
-}
-
-func NewBinaryScalar(val *memory.Buffer, typ arrow.DataType) *Binary {
-	val.Retain()
-	return &Binary{scalar{typ, true}, val}
-}
-
-type LargeBinary struct {
-	*Binary
-}
-
-func NewLargeBinaryScalar(val *memory.Buffer) *LargeBinary {
-	return &LargeBinary{NewBinaryScalar(val, arrow.BinaryTypes.LargeBinary)}
-}
-
-type String struct {
-	*Binary
-}
-
-func (s *String) Validate() error {
-	return s.Binary.Validate()
-}
-
-func (s *String) ValidateFull() (err error) {
-	if err = s.Validate(); err != nil {
-		return
-	}
-	if s.Valid && !utf8.ValidString(string(s.Value.Bytes())) {
-		err = fmt.Errorf("%s scalar contains invalid utf8 data", s.Type)
-	}
-	return
-}
-
-func (s *String) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if to.ID() == arrow.FIXED_SIZE_BINARY {
-		if s.Value.Len() == to.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return NewFixedSizeBinaryScalar(s.Value, to), nil
-		}
-		return nil, fmt.Errorf("cannot convert string scalar of %s to type %s", string(s.Value.Bytes()), to)
-	}
-
-	return ParseScalar(to, string(s.Value.Bytes()))
-}
-
-func NewStringScalar(val string) *String {
-	buf := memory.NewBufferBytes([]byte(val))
-	defer buf.Release()
-	return NewStringScalarFromBuffer(buf)
-}
-
-func NewStringScalarFromBuffer(val *memory.Buffer) *String {
-	// NewBinaryScalar will call Retain on val, so we don't have to
-	return &String{NewBinaryScalar(val, arrow.BinaryTypes.String)}
-}
-
-// alias the String struct we are embedding so it doesn't hide the
-// String() function that we want to expose
-type stringScalar = String
-
-type LargeString struct {
-	*stringScalar
-}
-
-func NewLargeStringScalar(val string) *LargeString {
-	buf := memory.NewBufferBytes([]byte(val))
-	defer buf.Release()
-	return NewLargeStringScalarFromBuffer(buf)
-}
-
-func NewLargeStringScalarFromBuffer(val *memory.Buffer) *LargeString {
-	// NewBinaryScalar will call retain on val, so we don't have to
-	return &LargeString{stringScalar: &String{NewBinaryScalar(val, arrow.BinaryTypes.LargeString)}}
-}
-
-type FixedSizeBinary struct {
-	*Binary
-}
-
-func (b *FixedSizeBinary) Validate() (err error) {
-	if err = b.Binary.Validate(); err != nil {
-		return
-	}
-
-	if b.Valid {
-		width := b.Type.(*arrow.FixedSizeBinaryType).ByteWidth
-		if b.Value.Len() != width {
-			err = fmt.Errorf("%s scalar should have a value of size %d, got %d", b.Type, width, b.Value.Len())
-		}
-	}
-	return
-}
-
-func (b *FixedSizeBinary) ValidateFull() error { return b.Validate() }
-
-func NewFixedSizeBinaryScalar(val *memory.Buffer, typ arrow.DataType) *FixedSizeBinary {
-	// NewBinaryScalar will call Retain on val, so we don't have to
-	return &FixedSizeBinary{NewBinaryScalar(val, typ)}
-}
diff --git a/go/arrow/scalar/compare.go b/go/arrow/scalar/compare.go
deleted file mode 100644
index d32a685b819c6..0000000000000
--- a/go/arrow/scalar/compare.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-// Equals returns true if two scalars are equal, which means they have the same
-// datatype, validity and value.
-func Equals(left, right Scalar) bool {
-	if left == right {
-		return true
-	}
-
-	if !arrow.TypeEqual(left.DataType(), right.DataType()) {
-		return false
-	}
-
-	if left.IsValid() != right.IsValid() {
-		return false
-	}
-
-	if !left.IsValid() {
-		return true
-	}
-
-	return left.equals(right)
-}
-
-type equalOption struct {
-	atol   float64 // absolute tolerance
-	nansEq bool    // whether NaNs are considered equal
-}
-
-// EqualOption is a functional option type used to configure how Records and Arrays are compared.
-type EqualOption func(*equalOption)
-
-// WithNaNsEqual configures the comparison functions so that NaNs are considered equal.
-func WithNaNsEqual(val bool) EqualOption {
-	return func(eo *equalOption) {
-		eo.nansEq = val
-	}
-}
-
-// WithAbsTolerance configures the comparison functions so that 2 floating point values
-// v1 and v2 are considered equal if |v1-v2| <= atol.
-func WithAbsTolerance(atol float64) EqualOption {
-	return func(eo *equalOption) {
-		eo.atol = atol
-	}
-}
-
-const defaultAbsoluteTolerance = 1e-5
-
-type approxEqualScalar interface {
-	approxEquals(Scalar, equalOption) bool
-}
-
-func ApproxEquals(left, right Scalar, opts ...EqualOption) bool {
-	eq := equalOption{
-		atol:   defaultAbsoluteTolerance,
-		nansEq: false,
-	}
-	for _, opt := range opts {
-		opt(&eq)
-	}
-
-	switch {
-	case left == right:
-		return true
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	case left.IsValid() != right.IsValid():
-		return false
-	case !left.IsValid():
-		return true
-	}
-
-	if approx, ok := left.(approxEqualScalar); ok {
-		return approx.approxEquals(right, eq)
-	}
-
-	return left.equals(right)
-}
diff --git a/go/arrow/scalar/nested.go b/go/arrow/scalar/nested.go
deleted file mode 100644
index 5f3447e686873..0000000000000
--- a/go/arrow/scalar/nested.go
+++ /dev/null
@@ -1,808 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-type ListScalar interface {
-	Scalar
-	GetList() arrow.Array
-	Release()
-	Retain()
-}
-
-type List struct {
-	scalar
-	Value arrow.Array
-}
-
-func (l *List) Release() {
-	if l.Value != nil {
-		l.Value.Release()
-	}
-}
-
-func (l *List) Retain() {
-	if l.Value != nil {
-		l.Value.Retain()
-	}
-}
-
-func (l *List) value() interface{}   { return l.Value }
-func (l *List) GetList() arrow.Array { return l.Value }
-func (l *List) equals(rhs Scalar) bool {
-	return array.Equal(l.Value, rhs.(ListScalar).GetList())
-}
-func (l *List) Validate() (err error) {
-	if err = l.scalar.Validate(); err != nil {
-		return
-	}
-	if err = validateOptional(&l.scalar, l.Value, "value"); err != nil {
-		return
-	}
-
-	if !l.Valid {
-		return
-	}
-
-	valueType := l.Type.(arrow.ListLikeType).Elem()
-	listType := l.Type
-
-	if !arrow.TypeEqual(l.Value.DataType(), valueType) {
-		err = fmt.Errorf("%s scalar should have a value of type %s, got %s",
-			listType, valueType, l.Value.DataType())
-	}
-	return
-}
-
-func (l *List) ValidateFull() error { return l.Validate() }
-func (l *List) CastTo(to arrow.DataType) (Scalar, error) {
-	if !l.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(l.Type, to) {
-		return l, nil
-	}
-
-	if to.ID() == arrow.STRING {
-		var bld bytes.Buffer
-		fmt.Fprint(&bld, l.Value)
-		buf := memory.NewBufferBytes(bld.Bytes())
-		defer buf.Release()
-		return NewStringScalarFromBuffer(buf), nil
-	}
-
-	return nil, fmt.Errorf("cannot convert non-nil list scalar to type %s", to)
-}
-
-func (l *List) String() string {
-	if !l.Valid {
-		return "null"
-	}
-	val, err := l.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewListScalar(val arrow.Array) *List {
-	return &List{scalar{arrow.ListOf(val.DataType()), true}, array.MakeFromData(val.Data())}
-}
-
-func NewListScalarData(val arrow.ArrayData) *List {
-	return &List{scalar{arrow.ListOf(val.DataType()), true}, array.MakeFromData(val)}
-}
-
-type LargeList struct {
-	*List
-}
-
-func NewLargeListScalar(val arrow.Array) *LargeList {
-	return &LargeList{&List{scalar{arrow.LargeListOf(val.DataType()), true}, array.MakeFromData(val.Data())}}
-}
-
-func NewLargeListScalarData(val arrow.ArrayData) *LargeList {
-	return &LargeList{&List{scalar{arrow.LargeListOf(val.DataType()), true}, array.MakeFromData(val)}}
-}
-
-func makeMapType(typ *arrow.StructType) *arrow.MapType {
-	debug.Assert(typ.NumFields() == 2, "must pass struct with only 2 fields for MapScalar")
-	return arrow.MapOf(typ.Field(0).Type, typ.Field(1).Type)
-}
-
-type Map struct {
-	*List
-}
-
-func NewMapScalar(val arrow.Array) *Map {
-	return &Map{&List{scalar{makeMapType(val.DataType().(*arrow.StructType)), true}, array.MakeFromData(val.Data())}}
-}
-
-type FixedSizeList struct {
-	*List
-}
-
-func (f *FixedSizeList) Validate() (err error) {
-	if err = f.List.Validate(); err != nil {
-		return
-	}
-
-	if f.Valid {
-		listType := f.Type.(*arrow.FixedSizeListType)
-		if f.Value.Len() != int(listType.Len()) {
-			return fmt.Errorf("%s scalar should have a child value of length %d, got %d",
-				f.Type, listType.Len(), f.Value.Len())
-		}
-	}
-	return
-}
-
-func (f *FixedSizeList) ValidateFull() error { return f.Validate() }
-
-func NewFixedSizeListScalar(val arrow.Array) *FixedSizeList {
-	return NewFixedSizeListScalarWithType(val, arrow.FixedSizeListOf(int32(val.Len()), val.DataType()))
-}
-
-func NewFixedSizeListScalarWithType(val arrow.Array, typ arrow.DataType) *FixedSizeList {
-	debug.Assert(val.Len() == int(typ.(*arrow.FixedSizeListType).Len()), "length of value for fixed size list scalar must match type")
-	return &FixedSizeList{&List{scalar{typ, true}, array.MakeFromData(val.Data())}}
-}
-
-type Vector []Scalar
-
-type Struct struct {
-	scalar
-	Value Vector
-}
-
-func (s *Struct) Release() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Release()
-		}
-	}
-}
-
-func (s *Struct) Field(name string) (Scalar, error) {
-	idx, ok := s.Type.(*arrow.StructType).FieldIdx(name)
-	if !ok {
-		return nil, fmt.Errorf("no field named %s found in struct scalar %s", name, s.Type)
-	}
-
-	return s.Value[idx], nil
-}
-
-func (s *Struct) value() interface{} { return s.Value }
-
-func (s *Struct) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Struct) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if to.ID() != arrow.STRING {
-		return nil, fmt.Errorf("cannot cast non-null struct scalar to type %s", to)
-	}
-
-	var bld bytes.Buffer
-	st := s.Type.(*arrow.StructType)
-	bld.WriteByte('{')
-	for i, v := range s.Value {
-		if i > 0 {
-			bld.WriteString(", ")
-		}
-		bld.WriteString(fmt.Sprintf("%s:%s = %s", st.Field(i).Name, st.Field(i).Type, v.String()))
-	}
-	bld.WriteByte('}')
-	buf := memory.NewBufferBytes(bld.Bytes())
-	defer buf.Release()
-	return NewStringScalarFromBuffer(buf), nil
-}
-
-func (s *Struct) equals(rhs Scalar) bool {
-	right := rhs.(*Struct)
-	if len(s.Value) != len(right.Value) {
-		return false
-	}
-
-	for i := range s.Value {
-		if !Equals(s.Value[i], right.Value[i]) {
-			return false
-		}
-	}
-	return true
-}
-
-func (s *Struct) Validate() (err error) {
-	if err = s.scalar.Validate(); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		for _, v := range s.Value {
-			if v.IsValid() {
-				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
-				return
-			}
-		}
-		return
-	}
-
-	st := s.Type.(*arrow.StructType)
-	num := st.NumFields()
-	if len(s.Value) != num {
-		return fmt.Errorf("non-null %s scalar should have %d child values, got %d", s.Type, num, len(s.Value))
-	}
-
-	for i, f := range st.Fields() {
-		if s.Value[i] == nil {
-			return fmt.Errorf("non-null %s scalar has missing child value at index %d", s.Type, i)
-		}
-
-		err = s.Value[i].Validate()
-		if err != nil {
-			return fmt.Errorf("%s scalar fails validation for child at index %d: %w", s.Type, i, err)
-		}
-
-		if !arrow.TypeEqual(s.Value[i].DataType(), f.Type) {
-			return fmt.Errorf("%s scalar should have a child value of type %s at index %d, got %s", s.Type, f.Type, i, s.Value[i].DataType())
-		}
-	}
-	return
-}
-
-func (s *Struct) ValidateFull() (err error) {
-	if err = s.scalar.ValidateFull(); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		for _, v := range s.Value {
-			if v.IsValid() {
-				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
-				return
-			}
-		}
-		return
-	}
-
-	st := s.Type.(*arrow.StructType)
-	num := st.NumFields()
-	if len(s.Value) != num {
-		return fmt.Errorf("non-null %s scalar should have %d child values, got %d", s.Type, num, len(s.Value))
-	}
-
-	for i, f := range st.Fields() {
-		if s.Value[i] == nil {
-			return fmt.Errorf("non-null %s scalar has missing child value at index %d", s.Type, i)
-		}
-
-		err = s.Value[i].ValidateFull()
-		if err != nil {
-			return fmt.Errorf("%s scalar fails validation for child at index %d: %w", s.Type, i, err)
-		}
-
-		if !arrow.TypeEqual(s.Value[i].DataType(), f.Type) {
-			return fmt.Errorf("%s scalar should have a child value of type %s at index %d, got %s", s.Type, f.Type, i, s.Value[i].DataType())
-		}
-	}
-	return
-}
-
-func NewStructScalar(val []Scalar, typ arrow.DataType) *Struct {
-	return &Struct{scalar{typ, true}, val}
-}
-
-func NewStructScalarWithNames(val []Scalar, names []string) (*Struct, error) {
-	if len(val) != len(names) {
-		return nil, xerrors.New("mismatching number of field names and child scalars")
-	}
-
-	fields := make([]arrow.Field, len(names))
-	for i, n := range names {
-		fields[i] = arrow.Field{Name: n, Type: val[i].DataType(), Nullable: true}
-	}
-	return NewStructScalar(val, arrow.StructOf(fields...)), nil
-}
-
-type Dictionary struct {
-	scalar
-
-	Value struct {
-		Index Scalar
-		Dict  arrow.Array
-	}
-}
-
-func NewNullDictScalar(dt arrow.DataType) *Dictionary {
-	ret := &Dictionary{scalar: scalar{dt, false}}
-	ret.Value.Index = MakeNullScalar(dt.(*arrow.DictionaryType).IndexType)
-	ret.Value.Dict = nil
-	return ret
-}
-
-func NewDictScalar(index Scalar, dict arrow.Array) *Dictionary {
-	ret := &Dictionary{scalar: scalar{&arrow.DictionaryType{IndexType: index.DataType(), ValueType: dict.DataType()}, index.IsValid()}}
-	ret.Value.Index = index
-	ret.Value.Dict = dict
-	ret.Retain()
-	return ret
-}
-
-func (s *Dictionary) Data() []byte { return s.Value.Index.(PrimitiveScalar).Data() }
-
-func (s *Dictionary) Retain() {
-	if r, ok := s.Value.Index.(Releasable); ok {
-		r.Retain()
-	}
-	if s.Value.Dict != (arrow.Array)(nil) {
-		s.Value.Dict.Retain()
-	}
-}
-
-func (s *Dictionary) Release() {
-	if r, ok := s.Value.Index.(Releasable); ok {
-		r.Release()
-	}
-	if s.Value.Dict != (arrow.Array)(nil) {
-		s.Value.Dict.Release()
-	}
-}
-
-func (s *Dictionary) Validate() (err error) {
-	dt, ok := s.Type.(*arrow.DictionaryType)
-	if !ok {
-		return errors.New("arrow/scalar: dictionary scalar should have type Dictionary")
-	}
-
-	if s.Value.Index == (Scalar)(nil) {
-		return fmt.Errorf("%s scalar doesn't have an index value", dt)
-	}
-
-	if err = s.Value.Index.Validate(); err != nil {
-		return fmt.Errorf("%s scalar fails validation for index value: %w", dt, err)
-	}
-
-	if !arrow.TypeEqual(s.Value.Index.DataType(), dt.IndexType) {
-		return fmt.Errorf("%s scalar should have an index value of type %s, got %s",
-			dt, dt.IndexType, s.Value.Index.DataType())
-	}
-
-	if s.IsValid() && !s.Value.Index.IsValid() {
-		return fmt.Errorf("non-null %s scalar has null index value", dt)
-	}
-
-	if !s.IsValid() && s.Value.Index.IsValid() {
-		return fmt.Errorf("null %s scalar has non-null index value", dt)
-	}
-
-	if !s.IsValid() {
-		return
-	}
-
-	if s.Value.Dict == (arrow.Array)(nil) {
-		return fmt.Errorf("%s scalar doesn't have a dictionary value", dt)
-	}
-
-	if !arrow.TypeEqual(s.Value.Dict.DataType(), dt.ValueType) {
-		return fmt.Errorf("%s scalar's value type doesn't match dict type: got %s", dt, s.Value.Dict.DataType())
-	}
-
-	return
-}
-
-func (s *Dictionary) ValidateFull() (err error) {
-	if err = s.Validate(); err != nil {
-		return
-	}
-
-	if !s.Value.Index.IsValid() {
-		return nil
-	}
-
-	max := s.Value.Dict.Len() - 1
-	switch idx := s.Value.Index.value().(type) {
-	case int8:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint8:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int16:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint16:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int32:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint32:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int64:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint64:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	}
-
-	return
-}
-
-func (s *Dictionary) String() string {
-	if !s.Valid {
-		return "null"
-	}
-
-	return s.Value.Dict.String() + "[" + s.Value.Index.String() + "]"
-}
-
-func (s *Dictionary) equals(rhs Scalar) bool {
-	return s.Value.Index.equals(rhs.(*Dictionary).Value.Index) &&
-		array.Equal(s.Value.Dict, rhs.(*Dictionary).Value.Dict)
-}
-
-func (s *Dictionary) CastTo(arrow.DataType) (Scalar, error) {
-	return nil, fmt.Errorf("cast from scalar %s not implemented", s.DataType())
-}
-
-func (s *Dictionary) GetEncodedValue() (Scalar, error) {
-	dt := s.Type.(*arrow.DictionaryType)
-	if !s.IsValid() {
-		return MakeNullScalar(dt.ValueType), nil
-	}
-
-	var idxValue int
-	switch dt.IndexType.ID() {
-	case arrow.INT8:
-		idxValue = int(s.Value.Index.value().(int8))
-	case arrow.UINT8:
-		idxValue = int(s.Value.Index.value().(uint8))
-	case arrow.INT16:
-		idxValue = int(s.Value.Index.value().(int16))
-	case arrow.UINT16:
-		idxValue = int(s.Value.Index.value().(uint16))
-	case arrow.INT32:
-		idxValue = int(s.Value.Index.value().(int32))
-	case arrow.UINT32:
-		idxValue = int(s.Value.Index.value().(uint32))
-	case arrow.INT64:
-		idxValue = int(s.Value.Index.value().(int64))
-	case arrow.UINT64:
-		idxValue = int(s.Value.Index.value().(uint64))
-	default:
-		return nil, fmt.Errorf("unimplemented dictionary type %s", dt.IndexType)
-	}
-	return GetScalar(s.Value.Dict, idxValue)
-}
-
-func (s *Dictionary) value() interface{} {
-	return s.Value.Index.value()
-}
-
-type Union interface {
-	Scalar
-	ChildValue() Scalar
-	Release()
-}
-
-type SparseUnion struct {
-	scalar
-
-	TypeCode arrow.UnionTypeCode
-	Value    []Scalar
-	ChildID  int
-}
-
-func (s *SparseUnion) equals(rhs Scalar) bool {
-	right := rhs.(*SparseUnion)
-	return Equals(s.ChildValue(), right.ChildValue())
-}
-
-func (s *SparseUnion) value() interface{} { return s.ChildValue() }
-
-func (s *SparseUnion) String() string {
-	dt := s.Type.(*arrow.SparseUnionType)
-	val := s.ChildValue()
-	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + val.String() + "}"
-}
-
-func (s *SparseUnion) Retain() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Retain()
-		}
-	}
-}
-
-func (s *SparseUnion) Release() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Release()
-		}
-	}
-}
-
-func (s *SparseUnion) Validate() (err error) {
-	dt := s.Type.(*arrow.SparseUnionType)
-	if dt.NumFields() != len(s.Value) {
-		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", dt.NumFields(), len(s.Value))
-	}
-
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-
-	for i, f := range dt.Fields() {
-		v := s.Value[i]
-		if !arrow.TypeEqual(f.Type, v.DataType()) {
-			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
-		}
-		if err = v.Validate(); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (s *SparseUnion) ValidateFull() (err error) {
-	dt := s.Type.(*arrow.SparseUnionType)
-	if dt.NumFields() != len(s.Value) {
-		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", dt.NumFields(), len(s.Value))
-	}
-
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-
-	for i, f := range dt.Fields() {
-		v := s.Value[i]
-		if !arrow.TypeEqual(f.Type, v.DataType()) {
-			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
-		}
-		if err = v.ValidateFull(); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (s *SparseUnion) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.STRING:
-		return NewStringScalar(s.String()), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalar(s.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
-}
-
-func (s *SparseUnion) ChildValue() Scalar { return s.Value[s.ChildID] }
-
-func NewSparseUnionScalar(val []Scalar, code arrow.UnionTypeCode, dt *arrow.SparseUnionType) *SparseUnion {
-	ret := &SparseUnion{
-		scalar:   scalar{dt, true},
-		TypeCode: code,
-		Value:    val,
-		ChildID:  dt.ChildIDs()[code],
-	}
-	ret.Valid = ret.Value[ret.ChildID].IsValid()
-	return ret
-}
-
-func NewSparseUnionScalarFromValue(val Scalar, idx int, dt *arrow.SparseUnionType) *SparseUnion {
-	code := dt.TypeCodes()[idx]
-	values := make([]Scalar, dt.NumFields())
-	for i, f := range dt.Fields() {
-		if i == idx {
-			values[i] = val
-		} else {
-			values[i] = MakeNullScalar(f.Type)
-		}
-	}
-	return NewSparseUnionScalar(values, code, dt)
-}
-
-type DenseUnion struct {
-	scalar
-
-	TypeCode arrow.UnionTypeCode
-	Value    Scalar
-}
-
-func (s *DenseUnion) equals(rhs Scalar) bool {
-	right := rhs.(*DenseUnion)
-	return Equals(s.Value, right.Value)
-}
-
-func (s *DenseUnion) value() interface{} { return s.ChildValue() }
-
-func (s *DenseUnion) String() string {
-	dt := s.Type.(*arrow.DenseUnionType)
-	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + s.Value.String() + "}"
-}
-
-func (s *DenseUnion) Retain() {
-	if v, ok := s.Value.(Releasable); ok {
-		v.Retain()
-	}
-}
-
-func (s *DenseUnion) Release() {
-	if v, ok := s.Value.(Releasable); ok {
-		v.Release()
-	}
-}
-
-func (s *DenseUnion) Validate() (err error) {
-	dt := s.Type.(*arrow.DenseUnionType)
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
-	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
-		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
-			s.Type, s.TypeCode, fieldType, s.Value.DataType())
-	}
-	return s.Value.Validate()
-}
-
-func (s *DenseUnion) ValidateFull() error {
-	dt := s.Type.(*arrow.DenseUnionType)
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
-	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
-		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
-			s.Type, s.TypeCode, fieldType, s.Value.DataType())
-	}
-	return s.Value.ValidateFull()
-}
-
-func (s *DenseUnion) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.STRING:
-		return NewStringScalar(s.String()), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalar(s.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
-}
-
-func (s *DenseUnion) ChildValue() Scalar { return s.Value }
-
-func NewDenseUnionScalar(v Scalar, code arrow.UnionTypeCode, dt *arrow.DenseUnionType) *DenseUnion {
-	return &DenseUnion{scalar: scalar{dt, v.IsValid()}, TypeCode: code, Value: v}
-}
-
-type RunEndEncoded struct {
-	scalar
-
-	Value Scalar
-}
-
-func NewRunEndEncodedScalar(v Scalar, dt *arrow.RunEndEncodedType) *RunEndEncoded {
-	return &RunEndEncoded{scalar: scalar{dt, v.IsValid()}, Value: v}
-}
-
-func (s *RunEndEncoded) Release() {
-	if r, ok := s.Value.(Releasable); ok {
-		r.Release()
-	}
-}
-
-func (s *RunEndEncoded) value() interface{} { return s.Value.value() }
-
-func (s *RunEndEncoded) Validate() (err error) {
-	if err = s.Value.Validate(); err != nil {
-		return
-	}
-
-	if err = validateOptional(&s.scalar, s.value(), "value"); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		return
-	}
-
-	if s.Type.ID() != arrow.RUN_END_ENCODED {
-		return fmt.Errorf("%w: run-end-encoded scalar should not have type %s",
-			arrow.ErrInvalid, s.Type)
-	}
-
-	if !arrow.TypeEqual(s.Value.DataType(), s.Type.(*arrow.RunEndEncodedType).Encoded()) {
-		return fmt.Errorf("%w: run-end-encoded scalar value type %s does not match type %s",
-			arrow.ErrInvalid, s.Value.DataType(), s.Type)
-	}
-	return
-}
-
-func (s *RunEndEncoded) ValidateFull() error { return s.Validate() }
-
-func (s *RunEndEncoded) equals(rhs Scalar) bool {
-	other := rhs.(*RunEndEncoded)
-	return Equals(s.Value, other.Value)
-}
-
-func (s *RunEndEncoded) String() string {
-	return s.Value.String()
-}
-
-func (s *RunEndEncoded) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(s.Type, to) {
-		return s, nil
-	}
-
-	if otherREE, ok := to.(*arrow.RunEndEncodedType); ok {
-		sc, err := s.Value.CastTo(otherREE.Encoded())
-		if err != nil {
-			return nil, err
-		}
-
-		return NewRunEndEncodedScalar(sc, otherREE), nil
-	}
-
-	return s.Value.CastTo(to)
-}
diff --git a/go/arrow/scalar/numeric.gen.go b/go/arrow/scalar/numeric.gen.go
deleted file mode 100644
index 25bdc242ae8c9..0000000000000
--- a/go/arrow/scalar/numeric.gen.go
+++ /dev/null
@@ -1,797 +0,0 @@
-// Code generated by scalar/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"fmt"
-	"math"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-)
-
-type Int8 struct {
-	scalar
-	Value int8
-}
-
-func (s *Int8) Data() []byte {
-	return (*[arrow.Int8SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int8) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int8).Value
-}
-
-func (s *Int8) value() interface{} {
-	return s.Value
-}
-
-func (s *Int8) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int8) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int8 to type %s", dt)
-}
-
-func NewInt8Scalar(val int8) *Int8 {
-	return &Int8{scalar{Type: arrow.PrimitiveTypes.Int8, Valid: true}, val}
-}
-
-type Int16 struct {
-	scalar
-	Value int16
-}
-
-func (s *Int16) Data() []byte {
-	return (*[arrow.Int16SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int16) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int16).Value
-}
-
-func (s *Int16) value() interface{} {
-	return s.Value
-}
-
-func (s *Int16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int16) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int16 to type %s", dt)
-}
-
-func NewInt16Scalar(val int16) *Int16 {
-	return &Int16{scalar{Type: arrow.PrimitiveTypes.Int16, Valid: true}, val}
-}
-
-type Int32 struct {
-	scalar
-	Value int32
-}
-
-func (s *Int32) Data() []byte {
-	return (*[arrow.Int32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int32).Value
-}
-
-func (s *Int32) value() interface{} {
-	return s.Value
-}
-
-func (s *Int32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int32 to type %s", dt)
-}
-
-func NewInt32Scalar(val int32) *Int32 {
-	return &Int32{scalar{Type: arrow.PrimitiveTypes.Int32, Valid: true}, val}
-}
-
-type Int64 struct {
-	scalar
-	Value int64
-}
-
-func (s *Int64) Data() []byte {
-	return (*[arrow.Int64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int64).Value
-}
-
-func (s *Int64) value() interface{} {
-	return s.Value
-}
-
-func (s *Int64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int64 to type %s", dt)
-}
-
-func NewInt64Scalar(val int64) *Int64 {
-	return &Int64{scalar{Type: arrow.PrimitiveTypes.Int64, Valid: true}, val}
-}
-
-type Uint8 struct {
-	scalar
-	Value uint8
-}
-
-func (s *Uint8) Data() []byte {
-	return (*[arrow.Uint8SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint8) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint8).Value
-}
-
-func (s *Uint8) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint8) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint8) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint8 to type %s", dt)
-}
-
-func NewUint8Scalar(val uint8) *Uint8 {
-	return &Uint8{scalar{Type: arrow.PrimitiveTypes.Uint8, Valid: true}, val}
-}
-
-type Uint16 struct {
-	scalar
-	Value uint16
-}
-
-func (s *Uint16) Data() []byte {
-	return (*[arrow.Uint16SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint16) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint16).Value
-}
-
-func (s *Uint16) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint16) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint16 to type %s", dt)
-}
-
-func NewUint16Scalar(val uint16) *Uint16 {
-	return &Uint16{scalar{Type: arrow.PrimitiveTypes.Uint16, Valid: true}, val}
-}
-
-type Uint32 struct {
-	scalar
-	Value uint32
-}
-
-func (s *Uint32) Data() []byte {
-	return (*[arrow.Uint32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint32).Value
-}
-
-func (s *Uint32) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint32 to type %s", dt)
-}
-
-func NewUint32Scalar(val uint32) *Uint32 {
-	return &Uint32{scalar{Type: arrow.PrimitiveTypes.Uint32, Valid: true}, val}
-}
-
-type Uint64 struct {
-	scalar
-	Value uint64
-}
-
-func (s *Uint64) Data() []byte {
-	return (*[arrow.Uint64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint64).Value
-}
-
-func (s *Uint64) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint64 to type %s", dt)
-}
-
-func NewUint64Scalar(val uint64) *Uint64 {
-	return &Uint64{scalar{Type: arrow.PrimitiveTypes.Uint64, Valid: true}, val}
-}
-
-type Float32 struct {
-	scalar
-	Value float32
-}
-
-func (s *Float32) Data() []byte {
-	return (*[arrow.Float32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Float32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Float32).Value
-}
-
-func (s *Float32) approxEquals(rhs Scalar, eq equalOption) bool {
-	v1 := float64(s.Value)
-	v2 := float64(rhs.(*Float32).Value)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (s *Float32) value() interface{} {
-	return s.Value
-}
-
-func (s *Float32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Float32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(v, dt), nil
-	case *arrow.Decimal256Type:
-		v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(v, dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type float32 to type %s", dt)
-}
-
-func NewFloat32Scalar(val float32) *Float32 {
-	return &Float32{scalar{Type: arrow.PrimitiveTypes.Float32, Valid: true}, val}
-}
-
-type Float64 struct {
-	scalar
-	Value float64
-}
-
-func (s *Float64) Data() []byte {
-	return (*[arrow.Float64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Float64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Float64).Value
-}
-
-func (s *Float64) approxEquals(rhs Scalar, eq equalOption) bool {
-	v1 := float64(s.Value)
-	v2 := float64(rhs.(*Float64).Value)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (s *Float64) value() interface{} {
-	return s.Value
-}
-
-func (s *Float64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Float64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(v, dt), nil
-	case *arrow.Decimal256Type:
-		v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(v, dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type float64 to type %s", dt)
-}
-
-func NewFloat64Scalar(val float64) *Float64 {
-	return &Float64{scalar{Type: arrow.PrimitiveTypes.Float64, Valid: true}, val}
-}
-
-var numericMap = map[arrow.Type]struct {
-	scalarFunc reflect.Value
-	valueType  reflect.Type
-}{
-	arrow.INT8:    {scalarFunc: reflect.ValueOf(NewInt8Scalar), valueType: reflect.TypeOf(int8(0))},
-	arrow.INT16:   {scalarFunc: reflect.ValueOf(NewInt16Scalar), valueType: reflect.TypeOf(int16(0))},
-	arrow.INT32:   {scalarFunc: reflect.ValueOf(NewInt32Scalar), valueType: reflect.TypeOf(int32(0))},
-	arrow.INT64:   {scalarFunc: reflect.ValueOf(NewInt64Scalar), valueType: reflect.TypeOf(int64(0))},
-	arrow.UINT8:   {scalarFunc: reflect.ValueOf(NewUint8Scalar), valueType: reflect.TypeOf(uint8(0))},
-	arrow.UINT16:  {scalarFunc: reflect.ValueOf(NewUint16Scalar), valueType: reflect.TypeOf(uint16(0))},
-	arrow.UINT32:  {scalarFunc: reflect.ValueOf(NewUint32Scalar), valueType: reflect.TypeOf(uint32(0))},
-	arrow.UINT64:  {scalarFunc: reflect.ValueOf(NewUint64Scalar), valueType: reflect.TypeOf(uint64(0))},
-	arrow.FLOAT32: {scalarFunc: reflect.ValueOf(NewFloat32Scalar), valueType: reflect.TypeOf(float32(0))},
-	arrow.FLOAT64: {scalarFunc: reflect.ValueOf(NewFloat64Scalar), valueType: reflect.TypeOf(float64(0))},
-}
-
-var (
-	_ Scalar = (*Int8)(nil)
-	_ Scalar = (*Int16)(nil)
-	_ Scalar = (*Int32)(nil)
-	_ Scalar = (*Int64)(nil)
-	_ Scalar = (*Uint8)(nil)
-	_ Scalar = (*Uint16)(nil)
-	_ Scalar = (*Uint32)(nil)
-	_ Scalar = (*Uint64)(nil)
-	_ Scalar = (*Float32)(nil)
-	_ Scalar = (*Float64)(nil)
-)
diff --git a/go/arrow/scalar/numeric.gen.go.tmpl b/go/arrow/scalar/numeric.gen.go.tmpl
deleted file mode 100644
index c0733d6e515be..0000000000000
--- a/go/arrow/scalar/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,149 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-{{range .In}}
-type {{.Name}} struct {
-    scalar
-    Value {{.Type}}
-}
-
-func (s *{{.Name}}) Data() []byte {
-    return (*[arrow.{{.Name}}SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *{{.Name}}) equals(rhs Scalar) bool {
-    return s.Value == rhs.(*{{.Name}}).Value
-}
-
-{{if or (eq .Name "Float32") (eq .Name "Float64") }}
-func (s *{{.Name}}) approxEquals(rhs Scalar, eq equalOption) bool {
-    v1 := float64(s.Value)
-    v2 := float64(rhs.(*{{.Name}}).Value)
-    switch {
-    case eq.nansEq:
-        return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-    default:
-        return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-    }
-}
-{{end}}
-
-func (s *{{.Name}}) value() interface{} {
-    return s.Value
-}
-
-func (s *{{.Name}}) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *{{.Name}}) CastTo(dt arrow.DataType) (Scalar, error) {
-    if !s.Valid {
-        return MakeNullScalar(dt), nil
-    }
-
-    r, ok := numericMap[dt.ID()]
-    if ok {
-        return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-    }
-
-    switch dt := dt.(type) {
-    case *arrow.BooleanType:
-        return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-    case *arrow.StringType:
-        return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-    case *arrow.LargeStringType:
-        return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-    case *arrow.Decimal128Type:
-{{if eq .Name "Float32" -}}
-        v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal128Scalar(v, dt), nil
-{{else if eq .Name "Float64" -}}
-        v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal128Scalar(v, dt), nil
-{{else if eq .Name "Uint64" -}}
-        return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
-{{else -}}
-        return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-{{end -}}
-    case *arrow.Decimal256Type:
-{{if eq .Name "Float32" -}}
-        v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal256Scalar(v, dt), nil
-{{else if eq .Name "Float64" -}}
-        v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal256Scalar(v, dt), nil
-{{else if eq .Name "Uint64" -}}
-        return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
-{{else -}}
-        return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-{{end -}}
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type {{.Type}} to type %s", dt)
-}
-
-func New{{.Name}}Scalar(val {{.Type}}) *{{.Name}} {
-    return &{{.Name}}{scalar{Type: arrow.PrimitiveTypes.{{.Name}}, Valid: true}, val}
-}
-{{end}}
-
-var numericMap = map[arrow.Type]struct{
-    scalarFunc reflect.Value
-    valueType reflect.Type
-}{
-{{range .In -}}
-    arrow.{{.Name|upper}}: {scalarFunc: reflect.ValueOf(New{{.Name}}Scalar), valueType: reflect.TypeOf({{.Type}}(0)) },
-{{end}}
-}
-
-var (
-{{range .In -}}
-    _ Scalar = (*{{.Name}})(nil)
-{{end}}
-)
diff --git a/go/arrow/scalar/numeric.gen.go.tmpldata b/go/arrow/scalar/numeric.gen.go.tmpldata
deleted file mode 100644
index 415b51b2e16bd..0000000000000
--- a/go/arrow/scalar/numeric.gen.go.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "Type": "int8",
-    "Size": 8
-  },
-  {
-    "Name": "Int16",
-    "Type": "int16",
-    "Size": 16
-  },
-  {
-    "Name": "Int32",
-    "Type": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Int64",
-    "Type": "int64",
-    "Size": 64
-  },
-  {
-    "Name": "Uint8",
-    "Type": "uint8",
-    "Size": 8
-  },
-  {
-    "Name": "Uint16",
-    "Type": "uint16",
-    "Size": 16
-  },
-  {
-    "Name": "Uint32",
-    "Type": "uint32",
-    "Size": 32
-  },
-  {
-    "Name": "Uint64",
-    "Type": "uint64",
-    "Size": 64
-  },
-  {
-    "Name": "Float32",
-    "Type": "float32",
-    "Size": 32
-  },
-  {
-    "Name": "Float64",
-    "Type": "float64",
-    "Size": 64
-  }
-]
diff --git a/go/arrow/scalar/numeric.gen_test.go b/go/arrow/scalar/numeric.gen_test.go
deleted file mode 100644
index 9349022b65591..0000000000000
--- a/go/arrow/scalar/numeric.gen_test.go
+++ /dev/null
@@ -1,377 +0,0 @@
-// Code generated by scalar/numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBasicInt8Scalars(t *testing.T) {
-	value := int8(1)
-
-	scalarVal := scalar.NewInt8Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int8
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int8(2)
-	scalarOther := scalar.NewInt8Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int8)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt8(t *testing.T) {
-	three := scalar.MakeScalar(int8(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt8Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt8Scalar(3), int8(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int8, "3", scalar.NewInt8Scalar(3))
-}
-
-func TestBasicInt16Scalars(t *testing.T) {
-	value := int16(1)
-
-	scalarVal := scalar.NewInt16Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int16
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int16(2)
-	scalarOther := scalar.NewInt16Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int16)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt16(t *testing.T) {
-	three := scalar.MakeScalar(int16(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt16Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt16Scalar(3), int16(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int16, "3", scalar.NewInt16Scalar(3))
-}
-
-func TestBasicInt32Scalars(t *testing.T) {
-	value := int32(1)
-
-	scalarVal := scalar.NewInt32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int32(2)
-	scalarOther := scalar.NewInt32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt32(t *testing.T) {
-	three := scalar.MakeScalar(int32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt32Scalar(3), int32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int32, "3", scalar.NewInt32Scalar(3))
-}
-
-func TestBasicInt64Scalars(t *testing.T) {
-	value := int64(1)
-
-	scalarVal := scalar.NewInt64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int64(2)
-	scalarOther := scalar.NewInt64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt64(t *testing.T) {
-	three := scalar.MakeScalar(int64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt64Scalar(3), int64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int64, "3", scalar.NewInt64Scalar(3))
-}
-
-func TestBasicUint8Scalars(t *testing.T) {
-	value := uint8(1)
-
-	scalarVal := scalar.NewUint8Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint8
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint8(2)
-	scalarOther := scalar.NewUint8Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint8)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint8(t *testing.T) {
-	three := scalar.MakeScalar(uint8(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint8Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint8Scalar(3), uint8(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint8, "3", scalar.NewUint8Scalar(3))
-}
-
-func TestBasicUint16Scalars(t *testing.T) {
-	value := uint16(1)
-
-	scalarVal := scalar.NewUint16Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint16
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint16(2)
-	scalarOther := scalar.NewUint16Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint16)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint16(t *testing.T) {
-	three := scalar.MakeScalar(uint16(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint16Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint16Scalar(3), uint16(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint16, "3", scalar.NewUint16Scalar(3))
-}
-
-func TestBasicUint32Scalars(t *testing.T) {
-	value := uint32(1)
-
-	scalarVal := scalar.NewUint32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint32(2)
-	scalarOther := scalar.NewUint32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint32(t *testing.T) {
-	three := scalar.MakeScalar(uint32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint32Scalar(3), uint32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint32, "3", scalar.NewUint32Scalar(3))
-}
-
-func TestBasicUint64Scalars(t *testing.T) {
-	value := uint64(1)
-
-	scalarVal := scalar.NewUint64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint64(2)
-	scalarOther := scalar.NewUint64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint64(t *testing.T) {
-	three := scalar.MakeScalar(uint64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint64Scalar(3), uint64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint64, "3", scalar.NewUint64Scalar(3))
-}
-
-func TestBasicFloat32Scalars(t *testing.T) {
-	value := float32(1)
-
-	scalarVal := scalar.NewFloat32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Float32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := float32(2)
-	scalarOther := scalar.NewFloat32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Float32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarFloat32(t *testing.T) {
-	three := scalar.MakeScalar(float32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewFloat32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewFloat32Scalar(3), float32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Float32, "3", scalar.NewFloat32Scalar(3))
-}
-
-func TestBasicFloat64Scalars(t *testing.T) {
-	value := float64(1)
-
-	scalarVal := scalar.NewFloat64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Float64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := float64(2)
-	scalarOther := scalar.NewFloat64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarFloat64(t *testing.T) {
-	three := scalar.MakeScalar(float64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewFloat64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewFloat64Scalar(3), float64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Float64, "3", scalar.NewFloat64Scalar(3))
-}
diff --git a/go/arrow/scalar/numeric.gen_test.go.tmpl b/go/arrow/scalar/numeric.gen_test.go.tmpl
deleted file mode 100644
index f5de3f9dcbfa3..0000000000000
--- a/go/arrow/scalar/numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,63 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-
-{{range .In}}
-func TestBasic{{.Name}}Scalars(t *testing.T) {
-	value := {{.Type}}(1)
-
-	scalarVal := scalar.New{{.Name}}Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.{{.Name}}
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := {{.Type}}(2)
-	scalarOther := scalar.New{{.Name}}Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.{{.Name}})
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalar{{.Name}}(t *testing.T) {
-	three := scalar.MakeScalar({{.Type}}(3))	
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.New{{.Name}}Scalar(3), three)
-
-	assertMakeScalar(t, scalar.New{{.Name}}Scalar(3), {{.Type}}(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.{{.Name}}, "3", scalar.New{{.Name}}Scalar(3))
-}
-{{end}}
diff --git a/go/arrow/scalar/parse.go b/go/arrow/scalar/parse.go
deleted file mode 100644
index 27db42afa69b1..0000000000000
--- a/go/arrow/scalar/parse.go
+++ /dev/null
@@ -1,777 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"errors"
-	"fmt"
-	"math/bits"
-	"reflect"
-	"strconv"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type TypeToScalar interface {
-	ToScalar() (Scalar, error)
-}
-
-type TypeFromScalar interface {
-	FromStructScalar(*Struct) error
-}
-
-type hasTypename interface {
-	TypeName() string
-}
-
-var (
-	hasTypenameType = reflect.TypeOf((*hasTypename)(nil)).Elem()
-	dataTypeType    = reflect.TypeOf((*arrow.DataType)(nil)).Elem()
-)
-
-func FromScalar(sc *Struct, val interface{}) error {
-	if sc == nil || len(sc.Value) == 0 {
-		return nil
-	}
-
-	if v, ok := val.(TypeFromScalar); ok {
-		return v.FromStructScalar(sc)
-	}
-
-	v := reflect.ValueOf(val)
-	if v.Kind() != reflect.Ptr {
-		return errors.New("fromscalar must be given a pointer to an object to populate")
-	}
-	value := reflect.Indirect(v)
-
-	for i := 0; i < value.Type().NumField(); i++ {
-		fld := value.Type().Field(i)
-		tag := fld.Tag.Get("compute")
-		if tag == "-" || fld.Name == "_type_name" {
-			continue
-		}
-
-		fldVal, err := sc.Field(tag)
-		if err != nil {
-			return err
-		}
-		if err := setFromScalar(fldVal, value.Field(i)); err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-func setFromScalar(s Scalar, v reflect.Value) error {
-	if v.Type() == dataTypeType {
-		v.Set(reflect.ValueOf(s.DataType()))
-		return nil
-	}
-
-	switch s := s.(type) {
-	case BinaryScalar:
-		value := s.value().(*memory.Buffer)
-		switch v.Kind() {
-		case reflect.String:
-			if value == nil {
-				v.SetString("")
-			} else {
-				v.SetString(string(value.Bytes()))
-			}
-		default:
-			if value == nil {
-				v.SetBytes(nil)
-			} else {
-				v.SetBytes(value.Bytes())
-			}
-		}
-	case ListScalar:
-		return fromListScalar(s, v)
-	case *Struct:
-		return FromScalar(s, v.Interface())
-	default:
-		if v.Type() == reflect.TypeOf(arrow.TimeUnit(0)) {
-			v.Set(reflect.ValueOf(arrow.TimeUnit(s.value().(uint32))))
-		} else {
-			v.Set(reflect.ValueOf(s.value()))
-		}
-	}
-	return nil
-}
-
-func ToScalar(val interface{}, mem memory.Allocator) (Scalar, error) {
-	switch v := val.(type) {
-	case arrow.DataType:
-		return MakeScalar(v), nil
-	case TypeToScalar:
-		return v.ToScalar()
-	}
-
-	v := reflect.Indirect(reflect.ValueOf(val))
-	switch v.Kind() {
-	case reflect.Struct:
-		scalars := make([]Scalar, 0, v.Type().NumField())
-		fields := make([]string, 0, v.Type().NumField())
-		for i := 0; i < v.Type().NumField(); i++ {
-			fld := v.Type().Field(i)
-			tag := fld.Tag.Get("compute")
-			if tag == "-" {
-				continue
-			}
-
-			fldVal := v.Field(i)
-			s, err := ToScalar(fldVal.Interface(), mem)
-			if err != nil {
-				return nil, err
-			}
-			scalars = append(scalars, s)
-			fields = append(fields, tag)
-		}
-
-		if v.Type().Implements(hasTypenameType) {
-			t := val.(hasTypename)
-			scalars = append(scalars, NewBinaryScalar(memory.NewBufferBytes([]byte(t.TypeName())), arrow.BinaryTypes.Binary))
-			fields = append(fields, "_type_name")
-		}
-
-		return NewStructScalarWithNames(scalars, fields)
-	case reflect.Slice:
-		return createListScalar(v, mem)
-	default:
-		return MakeScalar(val), nil
-	}
-}
-
-func createListScalar(sliceval reflect.Value, mem memory.Allocator) (Scalar, error) {
-	if sliceval.Kind() != reflect.Slice {
-		return nil, fmt.Errorf("createListScalar only works for slices, not %s", sliceval.Kind())
-	}
-
-	var arr arrow.Array
-
-	switch sliceval.Type().Elem().Kind() {
-	case reflect.String:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]string), nil)
-		arr = bldr.NewArray()
-	case reflect.Bool:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]bool), nil)
-		arr = bldr.NewArray()
-	case reflect.Int8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int8), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint8), nil)
-		arr = bldr.NewArray()
-	case reflect.Int16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int16), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint16), nil)
-		arr = bldr.NewArray()
-	case reflect.Int32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int32), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint32), nil)
-		arr = bldr.NewArray()
-	case reflect.Int64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int64), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint64), nil)
-		arr = bldr.NewArray()
-	case reflect.Int:
-		if bits.UintSize == 32 {
-			bldr := array.NewInt32Builder(mem)
-			defer bldr.Release()
-			for _, v := range sliceval.Interface().([]int) {
-				bldr.Append(int32(v))
-			}
-			arr = bldr.NewArray()
-			break
-		}
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		for _, v := range sliceval.Interface().([]int) {
-			bldr.Append(int64(v))
-		}
-		arr = bldr.NewArray()
-	case reflect.Uint:
-		if bits.UintSize == 32 {
-			bldr := array.NewUint32Builder(mem)
-			defer bldr.Release()
-			for _, v := range sliceval.Interface().([]uint) {
-				bldr.Append(uint32(v))
-			}
-			arr = bldr.NewArray()
-			break
-		}
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		for _, v := range sliceval.Interface().([]uint) {
-			bldr.Append(uint64(v))
-		}
-		arr = bldr.NewArray()
-	case reflect.Ptr:
-		meta, ok := sliceval.Interface().([]*arrow.Metadata)
-		if !ok {
-			break
-		}
-
-		bldr := array.NewMapBuilder(mem, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary, false)
-		defer bldr.Release()
-
-		kbldr := bldr.KeyBuilder().(*array.BinaryBuilder)
-		ibldr := bldr.ItemBuilder().(*array.BinaryBuilder)
-		for _, md := range meta {
-			bldr.Append(true)
-			if md != nil {
-				kbldr.AppendStringValues(md.Keys(), nil)
-				ibldr.AppendStringValues(md.Values(), nil)
-			}
-		}
-
-		arr := bldr.NewMapArray()
-		defer arr.Release()
-
-		return NewListScalar(arr), nil
-	}
-
-	if arr == nil {
-		return nil, fmt.Errorf("createListScalar not implemented for %s", sliceval.Type())
-	}
-
-	defer arr.Release()
-	return MakeScalarParam(arr, arrow.ListOf(arr.DataType()))
-}
-
-func fromListScalar(s ListScalar, v reflect.Value) error {
-	if v.Kind() != reflect.Slice {
-		return fmt.Errorf("could not populate field from list scalar, incompatible types: %s is not a slice", v.Type().String())
-	}
-
-	arr := s.GetList()
-	v.Set(reflect.MakeSlice(v.Type(), arr.Len(), arr.Len()))
-	switch arr := arr.(type) {
-	case *array.Boolean:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetBool(arr.Value(i))
-		}
-	case *array.Int8:
-		reflect.Copy(v, reflect.ValueOf(arr.Int8Values()))
-	case *array.Uint8:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint8Values()))
-	case *array.Int16:
-		reflect.Copy(v, reflect.ValueOf(arr.Int16Values()))
-	case *array.Uint16:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint16Values()))
-	case *array.Int32:
-		reflect.Copy(v, reflect.ValueOf(arr.Int32Values()))
-	case *array.Uint32:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint32Values()))
-	case *array.Int64:
-		reflect.Copy(v, reflect.ValueOf(arr.Int64Values()))
-	case *array.Uint64:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint64Values()))
-	case *array.Float32:
-		reflect.Copy(v, reflect.ValueOf(arr.Float32Values()))
-	case *array.Float64:
-		reflect.Copy(v, reflect.ValueOf(arr.Float64Values()))
-	case *array.Binary:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetString(arr.ValueString(i))
-		}
-	case *array.String:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetString(arr.Value(i))
-		}
-	case *array.Map:
-		// only implementing slice of metadata for now
-		if v.Type().Elem() != reflect.PointerTo(reflect.TypeOf(arrow.Metadata{})) {
-			return fmt.Errorf("unimplemented fromListScalar type %s to %s", arr.DataType(), v.Type().String())
-		}
-
-		var (
-			offsets    = arr.Offsets()
-			keys       = arr.Keys().(*array.Binary)
-			values     = arr.Items().(*array.Binary)
-			metaKeys   []string
-			metaValues []string
-		)
-
-		for i, o := range offsets[:len(offsets)-1] {
-			start := o
-			end := offsets[i+1]
-
-			metaKeys = make([]string, end-start)
-			metaValues = make([]string, end-start)
-			for j := start; j < end; j++ {
-				metaKeys = append(metaKeys, keys.ValueString(int(j)))
-				metaValues = append(metaValues, values.ValueString(int(j)))
-			}
-
-			m := arrow.NewMetadata(metaKeys, metaValues)
-			v.Index(i).Set(reflect.ValueOf(&m))
-		}
-
-	default:
-		return fmt.Errorf("unimplemented fromListScalar type: %s", arr.DataType())
-	}
-
-	return nil
-}
-
-// MakeScalarParam is for converting a value to a scalar when it requires a
-// parameterized data type such as a time type that needs units, or a fixed
-// size list which needs it's size.
-//
-// Will fall back to MakeScalar without the passed in type if not one of the
-// parameterized types.
-func MakeScalarParam(val interface{}, dt arrow.DataType) (Scalar, error) {
-	switch v := val.(type) {
-	case []byte:
-		buf := memory.NewBufferBytes(v)
-		defer buf.Release()
-
-		switch dt.ID() {
-		case arrow.BINARY:
-			return NewBinaryScalar(buf, dt), nil
-		case arrow.LARGE_BINARY:
-			return NewLargeBinaryScalar(buf), nil
-		case arrow.STRING:
-			return NewStringScalarFromBuffer(buf), nil
-		case arrow.LARGE_STRING:
-			return NewLargeStringScalarFromBuffer(buf), nil
-		case arrow.FIXED_SIZE_BINARY:
-			if buf.Len() == dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-				return NewFixedSizeBinaryScalar(buf, dt), nil
-			}
-			return nil, fmt.Errorf("invalid scalar value of len %d for type %s", v, dt)
-		}
-	case *memory.Buffer:
-		switch dt.ID() {
-		case arrow.BINARY:
-			return NewBinaryScalar(v, dt), nil
-		case arrow.LARGE_BINARY:
-			return NewLargeBinaryScalar(v), nil
-		case arrow.STRING:
-			return NewStringScalarFromBuffer(v), nil
-		case arrow.LARGE_STRING:
-			return NewLargeStringScalarFromBuffer(v), nil
-		case arrow.FIXED_SIZE_BINARY:
-			if v.Len() == dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-				return NewFixedSizeBinaryScalar(v, dt), nil
-			}
-			return nil, fmt.Errorf("invalid scalar value of len %d for type %s", v.Len(), dt)
-		}
-	case string:
-		switch {
-		case arrow.IsBaseBinary(dt.ID()):
-			buf := memory.NewBufferBytes([]byte(v))
-			defer buf.Release()
-
-			switch dt.ID() {
-			case arrow.BINARY:
-				return NewBinaryScalar(buf, dt), nil
-			case arrow.LARGE_BINARY:
-				return NewLargeBinaryScalar(buf), nil
-			case arrow.STRING:
-				return NewStringScalar(v), nil
-			case arrow.LARGE_STRING:
-				return NewLargeStringScalar(v), nil
-			}
-		case arrow.IsInteger(dt.ID()):
-			bits := dt.(arrow.FixedWidthDataType).BitWidth()
-			if arrow.IsUnsignedInteger(dt.ID()) {
-				val, err := strconv.ParseUint(v, 0, bits)
-				if err != nil {
-					return nil, err
-				}
-				return MakeUnsignedIntegerScalar(val, bits)
-			}
-			val, err := strconv.ParseInt(v, 0, bits)
-			if err != nil {
-				return nil, err
-			}
-			return MakeIntegerScalar(val, bits)
-		case arrow.IsFixedSizeBinary(dt.ID()):
-			switch dt.ID() {
-			case arrow.FIXED_SIZE_BINARY:
-				ty := dt.(*arrow.FixedSizeBinaryType)
-				if len(v) != ty.ByteWidth {
-					return nil, fmt.Errorf("%w: invalid length for fixed size binary scalar", arrow.ErrInvalid)
-				}
-				return NewFixedSizeBinaryScalar(memory.NewBufferBytes([]byte(v)), ty), nil
-			case arrow.DECIMAL128:
-				ty := dt.(*arrow.Decimal128Type)
-				n, err := decimal128.FromString(v, ty.Precision, ty.Scale)
-				if err != nil {
-					return nil, err
-				}
-				return NewDecimal128Scalar(n, ty), nil
-			case arrow.DECIMAL256:
-				ty := dt.(*arrow.Decimal256Type)
-				n, err := decimal256.FromString(v, ty.Precision, ty.Scale)
-				if err != nil {
-					return nil, err
-				}
-				return NewDecimal256Scalar(n, ty), nil
-			}
-		case arrow.IsFloating(dt.ID()):
-			bits := dt.(arrow.FixedWidthDataType).BitWidth()
-			val, err := strconv.ParseFloat(v, bits)
-			if err != nil {
-				return nil, err
-			}
-			if bits == 32 {
-				return NewFloat32Scalar(float32(val)), nil
-			}
-			return NewFloat64Scalar(val), nil
-		case dt.ID() == arrow.TIMESTAMP:
-			ty := dt.(*arrow.TimestampType)
-			if ty.TimeZone == "" || strings.ToLower(ty.TimeZone) == "utc" {
-				ts, err := arrow.TimestampFromString(v, ty.Unit)
-				if err != nil {
-					return nil, err
-				}
-				return NewTimestampScalar(ts, dt), nil
-			}
-			loc, err := time.LoadLocation(ty.TimeZone)
-			if err != nil {
-				return nil, err
-			}
-			ts, _, err := arrow.TimestampFromStringInLocation(v, ty.Unit, loc)
-			if err != nil {
-				return nil, err
-			}
-			return NewTimestampScalar(ts, ty), nil
-		}
-	case arrow.Time32:
-		return NewTime32Scalar(v, dt), nil
-	case arrow.Time64:
-		return NewTime64Scalar(v, dt), nil
-	case arrow.Timestamp:
-		return NewTimestampScalar(v, dt), nil
-	case arrow.Array:
-		switch dt.ID() {
-		case arrow.LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.ListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for list scalar array and data type")
-			}
-			return NewListScalar(v), nil
-		case arrow.LARGE_LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.LargeListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for large list scalar array and data type")
-			}
-			return NewLargeListScalar(v), nil
-		case arrow.FIXED_SIZE_LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.FixedSizeListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for list scalar array and data type")
-			}
-			return NewFixedSizeListScalarWithType(v, dt), nil
-		case arrow.MAP:
-			if !arrow.TypeEqual(dt.(*arrow.MapType).Elem(), v.DataType()) {
-				return nil, fmt.Errorf("inconsistent type for map scalar type")
-			}
-			return NewMapScalar(v), nil
-		}
-	case decimal128.Num:
-		if _, ok := dt.(*arrow.Decimal128Type); !ok {
-			return nil, fmt.Errorf("mismatch cannot create decimal128 scalar with incorrect data type")
-		}
-
-		return NewDecimal128Scalar(v, dt), nil
-	case decimal256.Num:
-		if _, ok := dt.(*arrow.Decimal256Type); !ok {
-			return nil, fmt.Errorf("mismatch cannot create decimal256 scalar with incorrect data type")
-		}
-
-		return NewDecimal256Scalar(v, dt), nil
-
-	}
-
-	if arrow.IsInteger(dt.ID()) {
-		bits := dt.(arrow.FixedWidthDataType).BitWidth()
-		val := reflect.ValueOf(val)
-		if arrow.IsUnsignedInteger(dt.ID()) {
-			return MakeUnsignedIntegerScalar(val.Convert(reflect.TypeOf(uint64(0))).Uint(), bits)
-		}
-		return MakeIntegerScalar(val.Convert(reflect.TypeOf(int64(0))).Int(), bits)
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		return MakeScalarParam(val, dt.(*arrow.DictionaryType).ValueType)
-	}
-	return MakeScalar(val), nil
-}
-
-// MakeScalar creates a scalar of the passed in type via reflection.
-func MakeScalar(val interface{}) Scalar {
-	switch v := val.(type) {
-	case nil:
-		return ScalarNull
-	case bool:
-		return NewBooleanScalar(v)
-	case int8:
-		return NewInt8Scalar(v)
-	case uint8:
-		return NewUint8Scalar(v)
-	case int16:
-		return NewInt16Scalar(v)
-	case uint16:
-		return NewUint16Scalar(v)
-	case int32:
-		return NewInt32Scalar(v)
-	case uint32:
-		return NewUint32Scalar(v)
-	case int64:
-		return NewInt64Scalar(v)
-	case uint64:
-		return NewUint64Scalar(v)
-	case int:
-		// determine size of an int on this system
-		switch bits.UintSize {
-		case 32:
-			return NewInt32Scalar(int32(v))
-		case 64:
-			return NewInt64Scalar(int64(v))
-		}
-	case uint:
-		// determine size of an int on this system
-		switch bits.UintSize {
-		case 32:
-			return NewUint32Scalar(uint32(v))
-		case 64:
-			return NewUint64Scalar(uint64(v))
-		}
-	case []byte:
-		buf := memory.NewBufferBytes(v)
-		defer buf.Release()
-		return NewBinaryScalar(buf, arrow.BinaryTypes.Binary)
-	case string:
-		return NewStringScalar(v)
-	case arrow.Date32:
-		return NewDate32Scalar(v)
-	case arrow.Date64:
-		return NewDate64Scalar(v)
-	case float16.Num:
-		return NewFloat16Scalar(v)
-	case float32:
-		return NewFloat32Scalar(v)
-	case float64:
-		return NewFloat64Scalar(v)
-	case arrow.MonthInterval:
-		return NewMonthIntervalScalar(v)
-	case arrow.DayTimeInterval:
-		return NewDayTimeIntervalScalar(v)
-	case arrow.MonthDayNanoInterval:
-		return NewMonthDayNanoIntervalScalar(v)
-	case arrow.DataType:
-		return MakeNullScalar(v)
-	default:
-		testval := reflect.ValueOf(v)
-		if testval.Type().ConvertibleTo(reflect.TypeOf(uint32(0))) {
-			return NewUint32Scalar(uint32(testval.Convert(reflect.TypeOf(uint32(0))).Uint()))
-		}
-	}
-
-	panic(fmt.Errorf("makescalar not implemented for type value %#v", val))
-}
-
-// MakeIntegerScalar is a helper function for creating an integer scalar of a
-// given bitsize.
-func MakeIntegerScalar(v int64, bitsize int) (Scalar, error) {
-	switch bitsize {
-	case 8:
-		return NewInt8Scalar(int8(v)), nil
-	case 16:
-		return NewInt16Scalar(int16(v)), nil
-	case 32:
-		return NewInt32Scalar(int32(v)), nil
-	case 64:
-		return NewInt64Scalar(int64(v)), nil
-	}
-	return nil, fmt.Errorf("invalid bitsize for integer scalar: %d", bitsize)
-}
-
-// MakeUnsignedIntegerScalar is a helper function for creating an unsigned int
-// scalar of the specified bit width.
-func MakeUnsignedIntegerScalar(v uint64, bitsize int) (Scalar, error) {
-	switch bitsize {
-	case 8:
-		return NewUint8Scalar(uint8(v)), nil
-	case 16:
-		return NewUint16Scalar(uint16(v)), nil
-	case 32:
-		return NewUint32Scalar(uint32(v)), nil
-	case 64:
-		return NewUint64Scalar(uint64(v)), nil
-	}
-	return nil, fmt.Errorf("invalid bitsize for uint scalar: %d", bitsize)
-}
-
-// ParseScalar parses a string to create a scalar of the passed in type. Currently
-// does not support any nested types such as Structs or Lists.
-func ParseScalar(dt arrow.DataType, val string) (Scalar, error) {
-	switch dt.ID() {
-	case arrow.STRING:
-		return NewStringScalar(val), nil
-	case arrow.BINARY:
-		buf := memory.NewBufferBytes([]byte(val))
-		defer buf.Release()
-		return NewBinaryScalar(buf, dt), nil
-	case arrow.FIXED_SIZE_BINARY:
-		if len(val) != dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return nil, fmt.Errorf("invalid value %s for scalar of type %s", val, dt)
-		}
-		buf := memory.NewBufferBytes([]byte(val))
-		defer buf.Release()
-		return NewFixedSizeBinaryScalar(buf, dt), nil
-	case arrow.BOOL:
-		val, err := strconv.ParseBool(val)
-		if err != nil {
-			return nil, err
-		}
-		return NewBooleanScalar(val), nil
-	case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseInt(val, 0, width)
-		if err != nil {
-			return nil, err
-		}
-		return MakeIntegerScalar(val, width)
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseUint(val, 0, width)
-		if err != nil {
-			return nil, err
-		}
-		return MakeUnsignedIntegerScalar(val, width)
-	case arrow.FLOAT16:
-		val, err := strconv.ParseFloat(val, 32)
-		if err != nil {
-			return nil, err
-		}
-		return NewFloat16ScalarFromFloat32(float32(val)), nil
-	case arrow.FLOAT32, arrow.FLOAT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseFloat(val, width)
-		if err != nil {
-			return nil, err
-		}
-		switch width {
-		case 32:
-			return NewFloat32Scalar(float32(val)), nil
-		case 64:
-			return NewFloat64Scalar(float64(val)), nil
-		}
-	case arrow.TIMESTAMP:
-		value, err := arrow.TimestampFromString(val, dt.(*arrow.TimestampType).Unit)
-		if err != nil {
-			return nil, err
-		}
-		return NewTimestampScalar(value, dt), nil
-	case arrow.DURATION:
-		value, err := time.ParseDuration(val)
-		if err != nil {
-			return nil, err
-		}
-		unit := dt.(*arrow.DurationType).Unit
-		var out arrow.Duration
-		switch unit {
-		case arrow.Nanosecond:
-			out = arrow.Duration(value.Nanoseconds())
-		case arrow.Microsecond:
-			out = arrow.Duration(value.Microseconds())
-		case arrow.Millisecond:
-			out = arrow.Duration(value.Milliseconds())
-		case arrow.Second:
-			out = arrow.Duration(value.Seconds())
-		}
-		return NewDurationScalar(out, dt), nil
-	case arrow.DATE32, arrow.DATE64:
-		out, err := time.ParseInLocation("2006-01-02", val, time.UTC)
-		if err != nil {
-			return nil, err
-		}
-		if dt.ID() == arrow.DATE32 {
-			return NewDate32Scalar(arrow.Date32FromTime(out)), nil
-		} else {
-			return NewDate64Scalar(arrow.Date64FromTime(out)), nil
-		}
-	case arrow.TIME32:
-		tm, err := arrow.Time32FromString(val, dt.(*arrow.Time32Type).Unit)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewTime32Scalar(tm, dt), nil
-	case arrow.TIME64:
-		tm, err := arrow.Time64FromString(val, dt.(*arrow.Time64Type).Unit)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewTime64Scalar(tm, dt), nil
-	case arrow.DICTIONARY:
-		return ParseScalar(dt.(*arrow.DictionaryType).ValueType, val)
-	case arrow.DECIMAL128:
-		typ := dt.(*arrow.Decimal128Type)
-		n, err := decimal128.FromString(val, typ.Precision, typ.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(n, typ), nil
-	case arrow.DECIMAL256:
-		typ := dt.(*arrow.Decimal256Type)
-		n, err := decimal256.FromString(val, typ.Precision, typ.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(n, typ), nil
-	}
-
-	return nil, fmt.Errorf("parsing of scalar for type %s not implemented", dt)
-}
diff --git a/go/arrow/scalar/scalar.go b/go/arrow/scalar/scalar.go
deleted file mode 100644
index f81465278a1e0..0000000000000
--- a/go/arrow/scalar/scalar.go
+++ /dev/null
@@ -1,1064 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"encoding/binary"
-	"fmt"
-	"hash/maphash"
-	"math"
-	"math/big"
-	"reflect"
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-// Scalar represents a single value of a specific DataType as opposed to
-// an array.
-//
-// Scalars are useful for passing single value inputs to compute functions
-// (not yet implemented) or for representing individual array elements,
-// (with a non-trivial cost though).
-type Scalar interface {
-	fmt.Stringer
-	// IsValid returns true if the value is non-null, otherwise false.
-	IsValid() bool
-	// The datatype of the value in this scalar
-	DataType() arrow.DataType
-	// Performs cheap validation checks, returns nil if successful
-	Validate() error
-	// Perform more expensive validation checks, returns nil if successful
-	ValidateFull() error
-	// Cast the value to the desired DataType (returns an error if unable to do so)
-	// should take semantics into account and modify the value accordingly.
-	CastTo(arrow.DataType) (Scalar, error)
-
-	// internal only functions for delegation
-	value() interface{}
-	equals(Scalar) bool
-}
-
-type Releasable interface {
-	Release()
-	Retain()
-}
-
-func validateOptional(s *scalar, value interface{}, valueDesc string) error {
-	if s.Valid && value == nil {
-		return fmt.Errorf("%s scalar is marked valid but doesn't have a %s", s.Type, valueDesc)
-	}
-	if !s.Valid && value != nil && !reflect.ValueOf(value).IsNil() {
-		return fmt.Errorf("%s scalar is marked null but has a %s", s.Type, valueDesc)
-	}
-	return nil
-}
-
-type scalar struct {
-	Type  arrow.DataType
-	Valid bool
-}
-
-func (s *scalar) String() string {
-	if !s.Valid {
-		return "null"
-	}
-
-	return "..."
-}
-
-func (s *scalar) IsValid() bool { return s.Valid }
-
-func (s *scalar) Validate() error {
-	if s.Type == nil {
-		return xerrors.New("scalar lacks a type")
-	}
-	return nil
-}
-
-func (s *scalar) ValidateFull() error {
-	return s.Validate()
-}
-
-func (s scalar) DataType() arrow.DataType { return s.Type }
-
-type Null struct {
-	scalar
-}
-
-// by the time we get here we already know that the rhs is the right type
-func (n *Null) equals(s Scalar) bool {
-	debug.Assert(s.DataType().ID() == arrow.NULL, "scalar null equals should only receive null")
-	return true
-}
-
-func (n *Null) value() interface{} { return nil }
-
-func (n *Null) CastTo(dt arrow.DataType) (Scalar, error) {
-	return MakeNullScalar(dt), nil
-}
-
-func (n *Null) Validate() (err error) {
-	err = n.scalar.Validate()
-	if err != nil {
-		return
-	}
-	if n.Valid {
-		err = xerrors.New("null scalar should have Valid = false")
-	}
-	return
-}
-
-func (n *Null) ValidateFull() error { return n.Validate() }
-
-var (
-	ScalarNull *Null = &Null{scalar{Type: arrow.Null, Valid: false}}
-)
-
-type PrimitiveScalar interface {
-	Scalar
-	Data() []byte
-}
-
-type Boolean struct {
-	scalar
-	Value bool
-}
-
-// by the time we get here we already know that the rhs is the right type
-func (n *Boolean) equals(rhs Scalar) bool {
-	return n.Value == rhs.(*Boolean).Value
-}
-
-func (s *Boolean) value() interface{} { return s.Value }
-
-func (s *Boolean) Data() []byte {
-	return (*[1]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Boolean) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Boolean) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	if dt.ID() == arrow.STRING {
-		return NewStringScalar(strconv.FormatBool(s.Value)), nil
-	}
-
-	val := 0
-	if s.Value {
-		val = 1
-	}
-
-	switch dt.ID() {
-	case arrow.UINT8:
-		return NewUint8Scalar(uint8(val)), nil
-	case arrow.INT8:
-		return NewInt8Scalar(int8(val)), nil
-	case arrow.UINT16:
-		return NewUint16Scalar(uint16(val)), nil
-	case arrow.INT16:
-		return NewInt16Scalar(int16(val)), nil
-	case arrow.UINT32:
-		return NewUint32Scalar(uint32(val)), nil
-	case arrow.INT32:
-		return NewInt32Scalar(int32(val)), nil
-	case arrow.UINT64:
-		return NewUint64Scalar(uint64(val)), nil
-	case arrow.INT64:
-		return NewInt64Scalar(int64(val)), nil
-	case arrow.FLOAT16:
-		return NewFloat16Scalar(float16.New(float32(val))), nil
-	case arrow.FLOAT32:
-		return NewFloat32Scalar(float32(val)), nil
-	case arrow.FLOAT64:
-		return NewFloat64Scalar(float64(val)), nil
-	default:
-		return nil, fmt.Errorf("invalid scalar cast from type bool to type %s", dt)
-	}
-}
-
-func NewBooleanScalar(val bool) *Boolean {
-	return &Boolean{scalar{arrow.FixedWidthTypes.Boolean, true}, val}
-}
-
-type Float16 struct {
-	scalar
-	Value float16.Num
-}
-
-func (s *Float16) value() interface{} { return s.Value }
-
-func (f *Float16) Data() []byte {
-	return (*[arrow.Float16SizeBytes]byte)(unsafe.Pointer(&f.Value))[:]
-}
-func (f *Float16) equals(rhs Scalar) bool {
-	return f.Value == rhs.(*Float16).Value
-}
-func (f *Float16) CastTo(to arrow.DataType) (Scalar, error) {
-	if !f.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if r, ok := numericMap[to.ID()]; ok {
-		return convertToNumeric(reflect.ValueOf(f.Value.Float32()), r.valueType, r.scalarFunc), nil
-	}
-
-	if to.ID() == arrow.BOOL {
-		return NewBooleanScalar(f.Value.Uint16() != 0), nil
-	} else if to.ID() == arrow.STRING {
-		return NewStringScalar(f.Value.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null float16 scalar to type %s", to)
-}
-
-func (s *Float16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewFloat16ScalarFromFloat32(val float32) *Float16 {
-	return NewFloat16Scalar(float16.New(val))
-}
-
-func NewFloat16Scalar(val float16.Num) *Float16 {
-	return &Float16{scalar{arrow.FixedWidthTypes.Float16, true}, val}
-}
-
-type Decimal128 struct {
-	scalar
-	Value decimal128.Num
-}
-
-func (s *Decimal128) Data() []byte {
-	return (*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Decimal128) value() interface{} { return s.Value }
-
-func (s *Decimal128) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Decimal128) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Decimal128).Value
-}
-
-func (s *Decimal128) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	dt := s.Type.(*arrow.Decimal128Type)
-
-	switch to.ID() {
-	case arrow.DECIMAL128:
-		to := to.(*arrow.Decimal128Type)
-		newVal, err := s.Value.Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal128 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal128Scalar(newVal, to), nil
-	case arrow.DECIMAL256:
-		to := to.(*arrow.Decimal256Type)
-		newVal, err := decimal256.FromDecimal128(s.Value).Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal256 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal256Scalar(newVal, to), nil
-	case arrow.STRING:
-		dt := s.Type.(*arrow.Decimal128Type)
-		scale := big.NewFloat(math.Pow10(int(dt.Scale)))
-		val := (&big.Float{}).SetInt(s.Value.BigInt())
-		return NewStringScalar(val.Quo(val, scale).Text('g', int(dt.Precision))), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil decimal128 scalar to type %s", to)
-}
-
-func NewDecimal128Scalar(val decimal128.Num, typ arrow.DataType) *Decimal128 {
-	return &Decimal128{scalar{typ, true}, val}
-}
-
-type Decimal256 struct {
-	scalar
-	Value decimal256.Num
-}
-
-func (s *Decimal256) Data() []byte {
-	return (*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Decimal256) value() interface{} { return s.Value }
-
-func (s *Decimal256) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Decimal256) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Decimal256).Value
-}
-
-func (s *Decimal256) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	dt := s.Type.(*arrow.Decimal256Type)
-
-	switch to.ID() {
-	case arrow.DECIMAL256:
-		to := to.(*arrow.Decimal256Type)
-		newVal, err := s.Value.Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal256 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal256Scalar(newVal, to), nil
-	case arrow.STRING:
-		scale := big.NewFloat(math.Pow10(int(dt.Scale)))
-		val := (&big.Float{}).SetInt(s.Value.BigInt())
-		return NewStringScalar(val.Quo(val, scale).Text('g', int(dt.Precision))), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil decimal256 scalar to type %s", to)
-}
-
-func NewDecimal256Scalar(val decimal256.Num, typ arrow.DataType) *Decimal256 {
-	return &Decimal256{scalar{typ, true}, val}
-}
-
-type Extension struct {
-	scalar
-	Value Scalar
-}
-
-func (s *Extension) value() interface{} { return s.Value }
-func (s *Extension) equals(rhs Scalar) bool {
-	return Equals(s.Value, rhs.(*Extension).Value)
-}
-func (e *Extension) Validate() (err error) {
-	if err = e.scalar.Validate(); err != nil {
-		return err
-	}
-
-	if !e.Valid {
-		if e.Value != nil {
-			err = fmt.Errorf("null %s scalar has storage value", e.Type)
-		}
-		return
-	}
-
-	switch {
-	case e.Value == nil:
-		err = fmt.Errorf("non-null %s scalar doesn't have a storage value", e.Type)
-	case !e.Value.IsValid():
-		err = fmt.Errorf("non-null %s scalar has a null storage value", e.Type)
-	default:
-		if err = e.Value.Validate(); err != nil {
-			err = fmt.Errorf("%s scalar fails validation for storage value: %w", e.Type, err)
-		}
-	}
-	return
-}
-
-func (e *Extension) ValidateFull() error {
-	if err := e.Validate(); err != nil {
-		return err
-	}
-
-	if e.Valid {
-		return e.Value.ValidateFull()
-	}
-	return nil
-}
-
-func (s *Extension) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(s.Type, to) {
-		return s, nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null extension scalar of type %s to type %s", s.Type, to)
-}
-
-func (s *Extension) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewExtensionScalar(storage Scalar, typ arrow.DataType) *Extension {
-	return &Extension{scalar{typ, true}, storage}
-}
-
-func convertToNumeric(v reflect.Value, to reflect.Type, fn reflect.Value) Scalar {
-	return fn.Call([]reflect.Value{v.Convert(to)})[0].Interface().(Scalar)
-}
-
-// MakeNullScalar creates a scalar value of the desired type representing a null value
-func MakeNullScalar(dt arrow.DataType) Scalar {
-	return makeNullFn[byte(dt.ID()&0x3f)](dt)
-}
-
-func invalidScalarType(dt arrow.DataType) Scalar {
-	panic("invalid scalar type: " + dt.ID().String())
-}
-
-type scalarMakeNullFn func(arrow.DataType) Scalar
-
-var makeNullFn [64]scalarMakeNullFn
-
-func init() {
-	makeNullFn = [...]scalarMakeNullFn{
-		arrow.NULL:                    func(dt arrow.DataType) Scalar { return ScalarNull },
-		arrow.BOOL:                    func(dt arrow.DataType) Scalar { return &Boolean{scalar: scalar{dt, false}} },
-		arrow.UINT8:                   func(dt arrow.DataType) Scalar { return &Uint8{scalar: scalar{dt, false}} },
-		arrow.INT8:                    func(dt arrow.DataType) Scalar { return &Int8{scalar: scalar{dt, false}} },
-		arrow.UINT16:                  func(dt arrow.DataType) Scalar { return &Uint16{scalar: scalar{dt, false}} },
-		arrow.INT16:                   func(dt arrow.DataType) Scalar { return &Int16{scalar: scalar{dt, false}} },
-		arrow.UINT32:                  func(dt arrow.DataType) Scalar { return &Uint32{scalar: scalar{dt, false}} },
-		arrow.INT32:                   func(dt arrow.DataType) Scalar { return &Int32{scalar: scalar{dt, false}} },
-		arrow.UINT64:                  func(dt arrow.DataType) Scalar { return &Uint64{scalar: scalar{dt, false}} },
-		arrow.INT64:                   func(dt arrow.DataType) Scalar { return &Int64{scalar: scalar{dt, false}} },
-		arrow.FLOAT16:                 func(dt arrow.DataType) Scalar { return &Float16{scalar: scalar{dt, false}} },
-		arrow.FLOAT32:                 func(dt arrow.DataType) Scalar { return &Float32{scalar: scalar{dt, false}} },
-		arrow.FLOAT64:                 func(dt arrow.DataType) Scalar { return &Float64{scalar: scalar{dt, false}} },
-		arrow.STRING:                  func(dt arrow.DataType) Scalar { return &String{&Binary{scalar: scalar{dt, false}}} },
-		arrow.BINARY:                  func(dt arrow.DataType) Scalar { return &Binary{scalar: scalar{dt, false}} },
-		arrow.FIXED_SIZE_BINARY:       func(dt arrow.DataType) Scalar { return &FixedSizeBinary{&Binary{scalar: scalar{dt, false}}} },
-		arrow.DATE32:                  func(dt arrow.DataType) Scalar { return &Date32{scalar: scalar{dt, false}} },
-		arrow.DATE64:                  func(dt arrow.DataType) Scalar { return &Date64{scalar: scalar{dt, false}} },
-		arrow.TIMESTAMP:               func(dt arrow.DataType) Scalar { return &Timestamp{scalar: scalar{dt, false}} },
-		arrow.TIME32:                  func(dt arrow.DataType) Scalar { return &Time32{scalar: scalar{dt, false}} },
-		arrow.TIME64:                  func(dt arrow.DataType) Scalar { return &Time64{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_MONTHS:         func(dt arrow.DataType) Scalar { return &MonthInterval{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_DAY_TIME:       func(dt arrow.DataType) Scalar { return &DayTimeInterval{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_MONTH_DAY_NANO: func(dt arrow.DataType) Scalar { return &MonthDayNanoInterval{scalar: scalar{dt, false}} },
-		arrow.DECIMAL128:              func(dt arrow.DataType) Scalar { return &Decimal128{scalar: scalar{dt, false}} },
-		arrow.LIST:                    func(dt arrow.DataType) Scalar { return &List{scalar: scalar{dt, false}} },
-		arrow.STRUCT: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.StructType)
-			values := make([]Scalar, typ.NumFields())
-			for i, f := range typ.Fields() {
-				values[i] = MakeNullScalar(f.Type)
-			}
-			return &Struct{scalar: scalar{dt, false}, Value: values}
-		},
-		arrow.SPARSE_UNION: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.SparseUnionType)
-			if typ.NumFields() == 0 {
-				panic("cannot make scalar of empty union type")
-			}
-			values := make([]Scalar, typ.NumFields())
-			for i, f := range typ.Fields() {
-				values[i] = MakeNullScalar(f.Type)
-			}
-			return NewSparseUnionScalar(values, typ.TypeCodes()[0], typ)
-		},
-		arrow.DENSE_UNION: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.DenseUnionType)
-			if typ.NumFields() == 0 {
-				panic("cannot make scalar of empty union type")
-			}
-			return NewDenseUnionScalar(MakeNullScalar(typ.Fields()[0].Type), typ.TypeCodes()[0], typ)
-		},
-		arrow.DICTIONARY:   func(dt arrow.DataType) Scalar { return NewNullDictScalar(dt) },
-		arrow.LARGE_STRING: func(dt arrow.DataType) Scalar { return &LargeString{&String{&Binary{scalar: scalar{dt, false}}}} },
-		arrow.LARGE_BINARY: func(dt arrow.DataType) Scalar { return &LargeBinary{&Binary{scalar: scalar{dt, false}}} },
-		arrow.LARGE_LIST:   func(dt arrow.DataType) Scalar { return &LargeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DECIMAL256:   func(dt arrow.DataType) Scalar { return &Decimal256{scalar: scalar{dt, false}} },
-		arrow.MAP:          func(dt arrow.DataType) Scalar { return &Map{&List{scalar: scalar{dt, false}}} },
-		arrow.EXTENSION: func(dt arrow.DataType) Scalar {
-			return &Extension{scalar: scalar{dt, false}, Value: MakeNullScalar(dt.(arrow.ExtensionType).StorageType())}
-		},
-		arrow.FIXED_SIZE_LIST: func(dt arrow.DataType) Scalar { return &FixedSizeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DURATION:        func(dt arrow.DataType) Scalar { return &Duration{scalar: scalar{dt, false}} },
-		arrow.RUN_END_ENCODED: func(dt arrow.DataType) Scalar { return &RunEndEncoded{scalar: scalar{dt, false}} },
-		// invalid data types to fill out array size 2^6 - 1
-		63: invalidScalarType,
-	}
-
-	f := numericMap[arrow.FLOAT16]
-	f.scalarFunc = reflect.ValueOf(NewFloat16ScalarFromFloat32)
-	f.valueType = reflect.TypeOf(float32(0))
-	numericMap[arrow.FLOAT16] = f
-}
-
-// GetScalar creates a scalar object from the value at a given index in the
-// passed in array, returns an error if unable to do so.
-func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
-	if arr.DataType().ID() != arrow.DICTIONARY && arr.IsNull(idx) {
-		return MakeNullScalar(arr.DataType()), nil
-	}
-
-	if idx >= arr.Len() {
-		return nil, fmt.Errorf("%w: called GetScalar with index larger than array len",
-			arrow.ErrIndex)
-	}
-
-	switch arr := arr.(type) {
-	case *array.Binary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewBinaryScalar(buf, arr.DataType()), nil
-	case *array.LargeBinary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewLargeBinaryScalar(buf), nil
-	case *array.Boolean:
-		return NewBooleanScalar(arr.Value(idx)), nil
-	case *array.Date32:
-		return NewDate32Scalar(arr.Value(idx)), nil
-	case *array.Date64:
-		return NewDate64Scalar(arr.Value(idx)), nil
-	case *array.DayTimeInterval:
-		return NewDayTimeIntervalScalar(arr.Value(idx)), nil
-	case *array.Decimal128:
-		return NewDecimal128Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Decimal256:
-		return NewDecimal256Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Duration:
-		return NewDurationScalar(arr.Value(idx), arr.DataType()), nil
-	case array.ExtensionArray:
-		storage, err := GetScalar(arr.Storage(), idx)
-		if err != nil {
-			return nil, err
-		}
-		return NewExtensionScalar(storage, arr.DataType()), nil
-	case *array.FixedSizeBinary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewFixedSizeBinaryScalar(buf, arr.DataType()), nil
-	case *array.FixedSizeList:
-		size := int(arr.DataType().(*arrow.FixedSizeListType).Len())
-		slice := array.NewSlice(arr.ListValues(), int64(idx*size), int64((idx+1)*size))
-		defer slice.Release()
-		return NewFixedSizeListScalarWithType(slice, arr.DataType()), nil
-	case *array.Float16:
-		return NewFloat16Scalar(arr.Value(idx)), nil
-	case *array.Float32:
-		return NewFloat32Scalar(arr.Value(idx)), nil
-	case *array.Float64:
-		return NewFloat64Scalar(arr.Value(idx)), nil
-	case *array.Int8:
-		return NewInt8Scalar(arr.Value(idx)), nil
-	case *array.Int16:
-		return NewInt16Scalar(arr.Value(idx)), nil
-	case *array.Int32:
-		return NewInt32Scalar(arr.Value(idx)), nil
-	case *array.Int64:
-		return NewInt64Scalar(arr.Value(idx)), nil
-	case *array.Uint8:
-		return NewUint8Scalar(arr.Value(idx)), nil
-	case *array.Uint16:
-		return NewUint16Scalar(arr.Value(idx)), nil
-	case *array.Uint32:
-		return NewUint32Scalar(arr.Value(idx)), nil
-	case *array.Uint64:
-		return NewUint64Scalar(arr.Value(idx)), nil
-	case *array.List:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewListScalar(slice), nil
-	case *array.LargeList:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewLargeListScalar(slice), nil
-	case *array.Map:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewMapScalar(slice), nil
-	case *array.MonthInterval:
-		return NewMonthIntervalScalar(arr.Value(idx)), nil
-	case *array.MonthDayNanoInterval:
-		return NewMonthDayNanoIntervalScalar(arr.Value(idx)), nil
-	case *array.Null:
-		return ScalarNull, nil
-	case *array.String:
-		return NewStringScalar(arr.Value(idx)), nil
-	case *array.LargeString:
-		return NewLargeStringScalar(arr.Value(idx)), nil
-	case *array.Struct:
-		children := make(Vector, arr.NumField())
-		for i := range children {
-			child, err := GetScalar(arr.Field(i), idx)
-			if err != nil {
-				return nil, err
-			}
-			children[i] = child
-		}
-		return NewStructScalar(children, arr.DataType()), nil
-	case *array.Time32:
-		return NewTime32Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Time64:
-		return NewTime64Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Timestamp:
-		return NewTimestampScalar(arr.Value(idx), arr.DataType()), nil
-	case *array.RunEndEncoded:
-		physicalIndex := encoded.FindPhysicalIndex(arr.Data(), arr.Offset()+idx)
-		value, err := GetScalar(arr.Values(), physicalIndex)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewRunEndEncodedScalar(value, arr.DataType().(*arrow.RunEndEncodedType)), nil
-	case *array.Dictionary:
-		ty := arr.DataType().(*arrow.DictionaryType)
-		valid := arr.IsValid(idx)
-		scalar := &Dictionary{scalar: scalar{ty, valid}}
-		if valid {
-			index, err := MakeScalarParam(arr.GetValueIndex(idx), ty.IndexType)
-			if err != nil {
-				return nil, err
-			}
-
-			scalar.Value.Index = index
-		} else {
-			scalar.Value.Index = MakeNullScalar(ty.IndexType)
-		}
-
-		scalar.Value.Dict = arr.Dictionary()
-		scalar.Value.Dict.Retain()
-		return scalar, nil
-	case *array.SparseUnion:
-		var err error
-		typeCode := arr.TypeCode(idx)
-		children := make([]Scalar, arr.NumFields())
-		defer func() {
-			if err != nil {
-				for _, c := range children {
-					if c == nil {
-						break
-					}
-
-					if v, ok := c.(Releasable); ok {
-						v.Release()
-					}
-				}
-			}
-		}()
-
-		for i := range arr.UnionType().Fields() {
-			if children[i], err = GetScalar(arr.Field(i), idx); err != nil {
-				return nil, err
-			}
-		}
-		return NewSparseUnionScalar(children, typeCode, arr.UnionType().(*arrow.SparseUnionType)), nil
-	case *array.DenseUnion:
-		typeCode := arr.TypeCode(idx)
-		child := arr.Field(arr.ChildID(idx))
-		offset := arr.ValueOffset(idx)
-		value, err := GetScalar(child, int(offset))
-		if err != nil {
-			return nil, err
-		}
-		return NewDenseUnionScalar(value, typeCode, arr.UnionType().(*arrow.DenseUnionType)), nil
-	}
-
-	return nil, fmt.Errorf("cannot create scalar from array of type %s", arr.DataType())
-}
-
-// MakeArrayOfNull creates an array of size length which is all null of the given data type.
-//
-// Deprecated: Use array.MakeArrayOfNull
-func MakeArrayOfNull(dt arrow.DataType, length int, mem memory.Allocator) arrow.Array {
-	var (
-		buffers  = []*memory.Buffer{nil}
-		children []arrow.ArrayData
-	)
-
-	buffers[0] = memory.NewResizableBuffer(mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(int64(length))))
-	defer buffers[0].Release()
-
-	switch t := dt.(type) {
-	case arrow.NestedType:
-		fieldList := t.Fields()
-		children = make([]arrow.ArrayData, len(fieldList))
-		for i, f := range fieldList {
-			arr := MakeArrayOfNull(f.Type, length, mem)
-			defer arr.Release()
-			children[i] = arr.Data()
-		}
-	case arrow.FixedWidthDataType:
-		buffers = append(buffers, memory.NewResizableBuffer(mem))
-		buffers[1].Resize(int(bitutil.BytesForBits(int64(t.BitWidth()))) * length)
-		defer buffers[1].Release()
-	case arrow.BinaryDataType:
-		buffers = append(buffers, memory.NewResizableBuffer(mem), nil)
-		buffers[1].Resize(arrow.Int32Traits.BytesRequired(length + 1))
-		defer buffers[1].Release()
-	}
-
-	data := array.NewData(dt, length, buffers, children, length, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-// MakeArrayFromScalar returns an array filled with the scalar value repeated length times.
-// Not yet implemented for nested types such as Struct, List, extension and so on.
-func MakeArrayFromScalar(sc Scalar, length int, mem memory.Allocator) (arrow.Array, error) {
-	if !sc.IsValid() {
-		return MakeArrayOfNull(sc.DataType(), length, mem), nil
-	}
-
-	createOffsets := func(valLength int32) *memory.Buffer {
-		buffer := memory.NewResizableBuffer(mem)
-		buffer.Resize(arrow.Int32Traits.BytesRequired(length + 1))
-
-		out := arrow.Int32Traits.CastFromBytes(buffer.Bytes())
-		for i, offset := 0, int32(0); i < length+1; i, offset = i+1, offset+valLength {
-			out[i] = offset
-		}
-		return buffer
-	}
-
-	createBuffer := func(data []byte) *memory.Buffer {
-		buffer := memory.NewResizableBuffer(mem)
-		buffer.Resize(len(data) * length)
-
-		out := buffer.Bytes()
-		copy(out, data)
-		for j := len(data); j < len(out); j *= 2 {
-			copy(out[j:], out[:j])
-		}
-		return buffer
-	}
-
-	finishFixedWidth := func(data []byte) arrow.ArrayData {
-		buffer := createBuffer(data)
-		defer buffer.Release()
-		return array.NewData(sc.DataType(), length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-	}
-
-	switch s := sc.(type) {
-	case *Boolean:
-		data := memory.NewResizableBuffer(mem)
-		defer data.Release()
-		data.Resize(int(bitutil.BytesForBits(int64(length))))
-		c := byte(0x00)
-		if s.Value {
-			c = 0xFF
-		}
-		memory.Set(data.Bytes(), c)
-		return array.NewBoolean(length, data, nil, 0), nil
-	case BinaryScalar:
-		if s.DataType().ID() == arrow.FIXED_SIZE_BINARY {
-			data := finishFixedWidth(s.Data())
-			defer data.Release()
-			return array.MakeFromData(data), nil
-		}
-
-		valuesBuf := createBuffer(s.Data())
-		offsetsBuf := createOffsets(int32(len(s.Data())))
-		data := array.NewData(sc.DataType(), length, []*memory.Buffer{nil, offsetsBuf, valuesBuf}, nil, 0, 0)
-		defer func() {
-			valuesBuf.Release()
-			offsetsBuf.Release()
-			data.Release()
-		}()
-		return array.MakeFromData(data), nil
-	case *Decimal128:
-		data := finishFixedWidth(arrow.Decimal128Traits.CastToBytes([]decimal128.Num{s.Value}))
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *Decimal256:
-		data := finishFixedWidth(arrow.Decimal256Traits.CastToBytes([]decimal256.Num{s.Value}))
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case PrimitiveScalar:
-		data := finishFixedWidth(s.Data())
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *List:
-		values := make([]arrow.Array, length)
-		for i := range values {
-			values[i] = s.Value
-		}
-
-		valueArray, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArray.Release()
-
-		offsetsBuf := createOffsets(int32(s.Value.Len()))
-		defer offsetsBuf.Release()
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil, offsetsBuf}, []arrow.ArrayData{valueArray.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *FixedSizeList:
-		values := make([]arrow.Array, length)
-		for i := range values {
-			values[i] = s.Value
-		}
-
-		valueArray, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArray.Release()
-
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil}, []arrow.ArrayData{valueArray.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *Struct:
-		fields := make([]arrow.ArrayData, 0)
-		for _, v := range s.Value {
-			arr, err := MakeArrayFromScalar(v, length, mem)
-			if err != nil {
-				return nil, err
-			}
-			defer arr.Release()
-			fields = append(fields, arr.Data())
-		}
-
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil}, fields, 0, 0)
-		defer data.Release()
-		return array.NewStructData(data), nil
-	case *Map:
-		structArr := s.GetList().(*array.Struct)
-		keys := make([]arrow.Array, length)
-		values := make([]arrow.Array, length)
-		for i := 0; i < length; i++ {
-			keys[i] = structArr.Field(0)
-			values[i] = structArr.Field(1)
-		}
-
-		keyArr, err := array.Concatenate(keys, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer keyArr.Release()
-
-		valueArr, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArr.Release()
-
-		offsetsBuf := createOffsets(int32(structArr.Len()))
-		outStructArr := array.NewData(structArr.DataType(), keyArr.Len(), []*memory.Buffer{nil}, []arrow.ArrayData{keyArr.Data(), valueArr.Data()}, 0, 0)
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil, offsetsBuf}, []arrow.ArrayData{outStructArr}, 0, 0)
-		defer func() {
-			offsetsBuf.Release()
-			outStructArr.Release()
-			data.Release()
-		}()
-		return array.MakeFromData(data), nil
-	case *RunEndEncoded:
-		dt := s.DataType().(*arrow.RunEndEncodedType)
-
-		var endBytes []byte
-		switch dt.RunEnds().ID() {
-		case arrow.INT16:
-			if length > math.MaxInt16 {
-				return nil, fmt.Errorf("%w: length overflows int16 run ends", arrow.ErrInvalid)
-			}
-
-			v := int16(length)
-			endBytes = (*[2]byte)(unsafe.Pointer(&v))[:]
-		case arrow.INT32:
-			if length > math.MaxInt32 {
-				return nil, fmt.Errorf("%w: final length overflows int32 run ends", arrow.ErrInvalid)
-			}
-
-			v := int32(length)
-			endBytes = (*[4]byte)(unsafe.Pointer(&v))[:]
-		case arrow.INT64:
-			v := int64(length)
-			endBytes = (*[8]byte)(unsafe.Pointer(&v))[:]
-		}
-
-		endBuf := createBuffer(endBytes)
-		defer endBuf.Release()
-
-		valueArr, err := MakeArrayFromScalar(s.Value, 1, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArr.Release()
-
-		runEndsData := array.NewData(dt.RunEnds(), 1, []*memory.Buffer{nil, endBuf}, nil, 0, 0)
-		defer runEndsData.Release()
-
-		finalData := array.NewData(s.DataType(), length, []*memory.Buffer{nil},
-			[]arrow.ArrayData{runEndsData, valueArr.Data()}, 0, 0)
-		defer finalData.Release()
-		return array.NewRunEndEncodedData(finalData), nil
-	default:
-		return nil, fmt.Errorf("array from scalar not yet implemented for type %s", sc.DataType())
-	}
-}
-
-func Hash(seed maphash.Seed, s Scalar) uint64 {
-	var h maphash.Hash
-	h.SetSeed(seed)
-	binary.Write(&h, endian.Native, arrow.HashType(seed, s.DataType()))
-
-	out := h.Sum64()
-	if !s.IsValid() {
-		return out
-	}
-
-	hash := func() {
-		out ^= h.Sum64()
-		h.Reset()
-	}
-
-	valueHash := func(v interface{}) uint64 {
-		switch v := v.(type) {
-		case int32:
-			h.Write((*[4]byte)(unsafe.Pointer(&v))[:])
-		case int64:
-			h.Write((*[8]byte)(unsafe.Pointer(&v))[:])
-		case arrow.Date32:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.Time32:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.MonthInterval:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.Duration:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Date64:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Time64:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Timestamp:
-			binary.Write(&h, endian.Native, uint64(v))
-		case float16.Num:
-			binary.Write(&h, endian.Native, v.Uint16())
-		case decimal128.Num:
-			binary.Write(&h, endian.Native, v.LowBits())
-			hash()
-			binary.Write(&h, endian.Native, uint64(v.HighBits()))
-		case decimal256.Num:
-			arr := v.Array()
-			binary.Write(&h, endian.Native, arr[3])
-			hash()
-			binary.Write(&h, endian.Native, arr[2])
-			hash()
-			binary.Write(&h, endian.Native, arr[1])
-			hash()
-			binary.Write(&h, endian.Native, arr[0])
-		}
-		hash()
-		return out
-	}
-
-	h.Reset()
-	switch s := s.(type) {
-	case *Null:
-	case *Extension:
-		out ^= Hash(seed, s.Value)
-	case *DayTimeInterval:
-		return valueHash(s.Value.Days) & valueHash(s.Value.Milliseconds)
-	case *MonthDayNanoInterval:
-		return valueHash(s.Value.Months) & valueHash(s.Value.Days) & valueHash(s.Value.Nanoseconds)
-	case *SparseUnion:
-		// typecode is ignored when comparing for equality, so don't hash it either
-		out ^= Hash(seed, s.Value[s.ChildID])
-	case *DenseUnion:
-		// typecode is ignored when comparing equality, so don't hash it either
-		out ^= Hash(seed, s.Value)
-	case *Dictionary:
-		if s.Value.Index.IsValid() {
-			out ^= Hash(seed, s.Value.Index)
-		}
-	case *RunEndEncoded:
-		return Hash(seed, s.Value)
-	case PrimitiveScalar:
-		h.Write(s.Data())
-		hash()
-	case TemporalScalar:
-		return valueHash(s.value())
-	case ListScalar:
-		array.Hash(&h, s.GetList().Data())
-		hash()
-	case *Struct:
-		for _, c := range s.Value {
-			if c.IsValid() {
-				out ^= Hash(seed, c)
-			}
-		}
-	}
-
-	return out
-}
diff --git a/go/arrow/scalar/scalar_test.go b/go/arrow/scalar/scalar_test.go
deleted file mode 100644
index 0775eecedd027..0000000000000
--- a/go/arrow/scalar/scalar_test.go
+++ /dev/null
@@ -1,1490 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"bytes"
-	"fmt"
-	"hash/maphash"
-	"math/bits"
-	"strings"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func assertScalarsEqual(t *testing.T, expected, actual scalar.Scalar) {
-	assert.Truef(t, scalar.Equals(expected, actual), "Expected:\n%s\nActual:\n%s", expected, actual)
-	seed := maphash.MakeSeed()
-	assert.Equal(t, scalar.Hash(seed, expected), scalar.Hash(seed, actual))
-}
-
-func assertMakeScalarParam(t *testing.T, expected scalar.Scalar, dt arrow.DataType, val interface{}) {
-	out, err := scalar.MakeScalarParam(val, dt)
-	assert.NoError(t, err)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func assertMakeScalar(t *testing.T, expected scalar.Scalar, val interface{}) {
-	out := scalar.MakeScalar(val)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func assertParseScalar(t *testing.T, dt arrow.DataType, str string, expected scalar.Scalar) {
-	out, err := scalar.ParseScalar(dt, str)
-	assert.NoError(t, err)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func TestMakeScalarInt(t *testing.T) {
-	three := scalar.MakeScalar(int(3))
-	assert.NoError(t, three.ValidateFull())
-
-	var expected scalar.Scalar
-	if bits.UintSize == 32 {
-		expected = scalar.NewInt32Scalar(3)
-	} else {
-		expected = scalar.NewInt64Scalar(3)
-	}
-
-	assert.Equal(t, expected, three)
-	assertMakeScalar(t, expected, int(3))
-	assertParseScalar(t, expected.DataType(), "3", expected)
-}
-
-func checkMakeNullScalar(t *testing.T, dt arrow.DataType) scalar.Scalar {
-	s := scalar.MakeNullScalar(dt)
-	assert.NoError(t, s.Validate())
-	assert.NoError(t, s.ValidateFull())
-	assert.True(t, arrow.TypeEqual(s.DataType(), dt))
-	assert.False(t, s.IsValid())
-	return s
-}
-
-func TestMakeScalarUint(t *testing.T) {
-	three := scalar.MakeScalar(uint(3))
-	assert.NoError(t, three.ValidateFull())
-
-	var expected scalar.Scalar
-	if bits.UintSize == 32 {
-		expected = scalar.NewUint32Scalar(3)
-	} else {
-		expected = scalar.NewUint64Scalar(3)
-	}
-
-	assert.Equal(t, expected, three)
-	assertMakeScalar(t, expected, uint(3))
-	assertParseScalar(t, expected.DataType(), "3", expected)
-}
-
-func TestBasicDecimal128(t *testing.T) {
-	ty := &arrow.Decimal128Type{Precision: 3, Scale: 2}
-	pi := scalar.NewDecimal128Scalar(decimal128.New(0, 314), ty)
-	pi2 := scalar.NewDecimal128Scalar(decimal128.FromI64(628), ty)
-	null := checkMakeNullScalar(t, ty)
-
-	assert.NoError(t, pi.ValidateFull())
-	assert.True(t, pi.IsValid())
-	assert.Equal(t, decimal128.FromI64(314), pi.Value)
-
-	assert.NoError(t, null.ValidateFull())
-	assert.False(t, null.IsValid())
-
-	assert.False(t, scalar.Equals(pi, pi2))
-}
-
-func TestBasicDecimal256(t *testing.T) {
-	ty := &arrow.Decimal256Type{Precision: 3, Scale: 2}
-	pi := scalar.NewDecimal256Scalar(decimal256.New(0, 0, 0, 314), ty)
-	pi2 := scalar.NewDecimal256Scalar(decimal256.FromI64(628), ty)
-	null := checkMakeNullScalar(t, ty)
-
-	assert.NoError(t, pi.ValidateFull())
-	assert.True(t, pi.IsValid())
-	assert.Equal(t, decimal256.FromI64(314), pi.Value)
-
-	assert.NoError(t, null.ValidateFull())
-	assert.False(t, null.IsValid())
-
-	assert.False(t, scalar.Equals(pi, pi2))
-}
-
-func TestBinaryScalarBasics(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-
-	value := scalar.NewBinaryScalar(buf, arrow.BinaryTypes.Binary)
-	assert.NoError(t, value.ValidateFull())
-	assert.True(t, bytes.Equal(value.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value.IsValid())
-	assert.True(t, arrow.TypeEqual(value.DataType(), arrow.BinaryTypes.Binary))
-
-	nullValue := checkMakeNullScalar(t, arrow.BinaryTypes.Binary)
-	assert.False(t, nullValue.IsValid())
-	assert.Nil(t, nullValue.(*scalar.Binary).Value)
-	assert.NoError(t, nullValue.ValidateFull())
-
-	value2 := scalar.NewStringScalarFromBuffer(buf)
-	assert.NoError(t, value2.ValidateFull())
-	assert.True(t, bytes.Equal(value2.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value2.IsValid())
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.String, value2.DataType()))
-
-	assert.NotEqual(t, value2, value)
-	assert.False(t, scalar.Equals(value2, value))
-
-	value3 := scalar.NewStringScalar(data)
-	assert.True(t, scalar.Equals(value2, value3))
-}
-
-func TestBinaryScalarValidateErrors(t *testing.T) {
-	sc := scalar.NewBinaryScalar(memory.NewBufferBytes([]byte("xxx")), arrow.BinaryTypes.Binary)
-	sc.Valid = false
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	nullScalar := scalar.MakeNullScalar(arrow.BinaryTypes.Binary)
-	nullScalar.(*scalar.Binary).Valid = true
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestStringMakeScalar(t *testing.T) {
-	assertMakeScalar(t, scalar.NewStringScalar("three"), "three")
-	assertParseScalar(t, arrow.BinaryTypes.String, "three", scalar.NewStringScalar("three"))
-}
-
-func TestStringScalarValidateErrors(t *testing.T) {
-	sc := scalar.NewStringScalar("xxx")
-	sc.Valid = false
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	nullScalar := scalar.MakeNullScalar(arrow.BinaryTypes.String)
-	nullScalar.(*scalar.String).Valid = true
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	// invalid utf8
-	sc = scalar.NewStringScalarFromBuffer(memory.NewBufferBytes([]byte{0xff}))
-	assert.NoError(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestFixedSizeBinaryScalarBasics(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	value := scalar.NewFixedSizeBinaryScalar(buf, exType)
-	assert.NoError(t, value.ValidateFull())
-	assert.True(t, bytes.Equal(value.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value.Valid)
-	assert.True(t, arrow.TypeEqual(value.DataType(), exType))
-
-	nullValue := scalar.MakeNullScalar(exType)
-	assert.NoError(t, nullValue.ValidateFull())
-	assert.False(t, nullValue.IsValid())
-	assert.Nil(t, nullValue.(*scalar.FixedSizeBinary).Value)
-}
-
-func TestFixedSizeBinaryMakeScalar(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	assertMakeScalarParam(t, scalar.NewFixedSizeBinaryScalar(buf, exType), exType, buf)
-	assertParseScalar(t, exType, data, scalar.NewFixedSizeBinaryScalar(buf, exType))
-
-	_, err := scalar.MakeScalarParam(buf.Bytes()[:3], exType)
-	assert.Error(t, err)
-	_, err = scalar.ParseScalar(exType, data[:3])
-	assert.Error(t, err)
-}
-
-func TestFixedSizeBinaryScalarValidateErrors(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	value := scalar.NewFixedSizeBinaryScalar(buf, exType)
-	assert.NoError(t, value.ValidateFull())
-
-	value.Value.Reset(buf.Bytes()[:1])
-	assert.Error(t, value.ValidateFull())
-}
-
-func TestDateScalarBasics(t *testing.T) {
-	i32Val := arrow.Date32(1)
-	date32Val := scalar.NewDate32Scalar(i32Val)
-	date32Null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, date32Null.ValidateFull())
-	assert.NoError(t, date32Val.ValidateFull())
-
-	assert.True(t, arrow.TypeEqual(arrow.FixedWidthTypes.Date32, date32Val.DataType()))
-	assert.True(t, date32Val.IsValid())
-	assert.False(t, date32Null.IsValid())
-
-	i64Val := arrow.Date64(2)
-	date64Val := scalar.NewDate64Scalar(i64Val)
-	date64Null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, date64Null.ValidateFull())
-	assert.NoError(t, date64Val.ValidateFull())
-
-	assert.True(t, arrow.TypeEqual(arrow.FixedWidthTypes.Date64, date64Val.DataType()))
-	assert.True(t, date64Val.IsValid())
-	assert.False(t, date64Null.IsValid())
-}
-
-func TestDateScalarMakeScalar(t *testing.T) {
-	assertMakeScalar(t, scalar.NewDate32Scalar(arrow.Date32(1)), arrow.Date32(1))
-	assertParseScalar(t, arrow.FixedWidthTypes.Date32, "1454-10-22", scalar.NewDate32Scalar(arrow.Date32(-188171)))
-	assert.Equal(t, "1454-10-22", scalar.NewDate32Scalar(arrow.Date32(-188171)).String())
-
-	assertMakeScalar(t, scalar.NewDate64Scalar(arrow.Date64(1)), arrow.Date64(1))
-	assertParseScalar(t, arrow.FixedWidthTypes.Date64, "1454-10-22", scalar.NewDate64Scalar(arrow.Date64(-188171*(time.Hour*24).Milliseconds())))
-	assert.Equal(t, "1454-10-22", scalar.NewDate64Scalar(arrow.Date64(-188171*(time.Hour*24).Milliseconds())).String())
-
-	d32 := scalar.NewDate32Scalar(arrow.Date32(-188171))
-	d64 := scalar.NewDate64Scalar(arrow.Date64(-188171 * (time.Hour * 24).Milliseconds()))
-
-	d32Casted, err := d32.CastTo(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(d64, d32Casted))
-
-	d64Casted, err := d64.CastTo(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(d64Casted, d32))
-}
-
-func TestTimeScalarsBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Time32ms
-	typ2 := arrow.FixedWidthTypes.Time32s
-	typ3 := arrow.FixedWidthTypes.Time64us
-	typ4 := arrow.FixedWidthTypes.Time64ns
-
-	t32val := arrow.Time32(1)
-	time32Val := scalar.NewTime32Scalar(t32val, typ1)
-	time32Null := scalar.MakeNullScalar(typ2)
-	assert.NoError(t, time32Val.ValidateFull())
-	assert.NoError(t, time32Null.ValidateFull())
-
-	assert.Equal(t, t32val, time32Val.Value)
-	assert.True(t, arrow.TypeEqual(time32Val.Type, typ1))
-	assert.True(t, time32Val.IsValid())
-	assert.False(t, time32Null.IsValid())
-	assert.True(t, arrow.TypeEqual(time32Null.DataType(), typ2))
-
-	t64val := arrow.Time64(1)
-	time64Val := scalar.NewTime64Scalar(t64val, typ3)
-	time64Null := scalar.MakeNullScalar(typ4)
-	assert.NoError(t, time64Val.ValidateFull())
-	assert.NoError(t, time64Null.ValidateFull())
-
-	assert.Equal(t, t64val, time64Val.Value)
-	assert.True(t, arrow.TypeEqual(time64Val.Type, typ3))
-	assert.True(t, time64Val.IsValid())
-	assert.False(t, time64Null.IsValid())
-	assert.True(t, arrow.TypeEqual(time64Null.DataType(), typ4))
-}
-
-func TestTimeScalarsMakeScalar(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Time32s
-	typ2 := arrow.FixedWidthTypes.Time32ms
-	typ3 := arrow.FixedWidthTypes.Time64us
-	typ4 := arrow.FixedWidthTypes.Time64ns
-
-	assertMakeScalarParam(t, scalar.NewTime32Scalar(arrow.Time32(1), typ1), typ1, arrow.Time32(1))
-	assertMakeScalarParam(t, scalar.NewTime32Scalar(arrow.Time32(1), typ2), typ2, arrow.Time32(1))
-	assertMakeScalarParam(t, scalar.NewTime64Scalar(arrow.Time64(1), typ3), typ3, arrow.Time64(1))
-	assertMakeScalarParam(t, scalar.NewTime64Scalar(arrow.Time64(1), typ4), typ4, arrow.Time64(1))
-
-	tententen := 60*(60*(10)+10) + 10
-	assertParseScalar(t, typ1, "10:10:10", scalar.NewTime32Scalar(arrow.Time32(tententen), typ1))
-	assert.Equal(t, "10:10:10", scalar.NewTime32Scalar(arrow.Time32(tententen), typ1).String())
-
-	tententen = 1000*tententen + 123
-	assertParseScalar(t, typ2, "10:10:10.123", scalar.NewTime32Scalar(arrow.Time32(tententen), typ2))
-	assert.Equal(t, "10:10:10.123", scalar.NewTime32Scalar(arrow.Time32(tententen), typ2).String())
-
-	tententen = 1000*tententen + 456
-	assertParseScalar(t, typ3, "10:10:10.123456", scalar.NewTime64Scalar(arrow.Time64(tententen), typ3))
-	assert.Equal(t, "10:10:10.123456", scalar.NewTime64Scalar(arrow.Time64(tententen), typ3).String())
-
-	tententen = 1000*tententen + 789
-	assertParseScalar(t, typ4, "10:10:10.123456789", scalar.NewTime64Scalar(arrow.Time64(tententen), typ4))
-	assert.Equal(t, "10:10:10.123456789", scalar.NewTime64Scalar(arrow.Time64(tententen), typ4).String())
-}
-
-func TestTimestampScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Timestamp_ms
-	typ2 := arrow.FixedWidthTypes.Timestamp_s
-
-	val1 := arrow.Timestamp(1)
-	val2 := arrow.Timestamp(2)
-	tsVal1 := scalar.NewTimestampScalar(val1, typ1)
-	tsVal2 := scalar.NewTimestampScalar(val2, typ2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.True(t, tsVal2.IsValid())
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(tsNull.DataType(), typ1))
-
-	assert.NotEqual(t, tsVal1, tsVal2)
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.NotEqual(t, tsVal1, tsNull)
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.NotEqual(t, tsVal2, tsNull)
-	assert.False(t, scalar.Equals(tsVal2, tsNull))
-}
-
-func TestTimestampScalarsMakeScalar(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Timestamp_ms
-	typ2 := arrow.FixedWidthTypes.Timestamp_s
-	typ3 := arrow.FixedWidthTypes.Timestamp_us
-	typ4 := arrow.FixedWidthTypes.Timestamp_ns
-
-	epochPlus1s := "1970-01-01 00:00:01"
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ1), typ1, arrow.Timestamp(1))
-	assertParseScalar(t, typ1, epochPlus1s, scalar.NewTimestampScalar(1000, typ1))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ2), typ2, arrow.Timestamp(1))
-	assertParseScalar(t, typ2, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1), typ2))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ3), typ3, arrow.Timestamp(1))
-	assertParseScalar(t, typ3, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1000*1000), typ3))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ4), typ4, arrow.Timestamp(1))
-	assertParseScalar(t, typ4, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1000*1000*1000), typ4))
-}
-
-func TestTimestampScalarsCasting(t *testing.T) {
-	convert := func(in, out arrow.TimeUnit, val arrow.Timestamp) arrow.Timestamp {
-		s, err := scalar.NewTimestampScalar(val, &arrow.TimestampType{Unit: in}).CastTo(&arrow.TimestampType{Unit: out})
-		assert.NoError(t, err)
-		return s.(*scalar.Timestamp).Value
-	}
-
-	assert.EqualValues(t, convert(arrow.Second, arrow.Millisecond, arrow.Timestamp(1)), 1000)
-	assert.EqualValues(t, convert(arrow.Second, arrow.Nanosecond, arrow.Timestamp(1)), 1000000000)
-
-	assert.EqualValues(t, convert(arrow.Nanosecond, arrow.Microsecond, arrow.Timestamp(1234)), 1)
-	assert.EqualValues(t, convert(arrow.Microsecond, arrow.Millisecond, arrow.Timestamp(4567)), 4)
-
-	str, err := scalar.NewTimestampScalar(arrow.Timestamp(1024), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.BinaryTypes.String)
-	assert.NoError(t, err)
-	assert.Truef(t, scalar.Equals(scalar.NewStringScalar("1970-01-01 00:00:01.024"), str), "expected: '1970-01-01 00:00:01.024', got: %s", str)
-
-	i64, err := scalar.NewTimestampScalar(arrow.Timestamp(1024), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.PrimitiveTypes.Int64)
-	assert.NoError(t, err)
-	assert.Truef(t, scalar.Equals(scalar.NewInt64Scalar(1024), i64), "expected 1024, got %s", i64)
-
-	const millisInDay = 86400000
-	d64, err := scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay+3), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, err)
-
-	d32, err := scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay+3), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, err)
-
-	assert.True(t, scalar.Equals(scalar.NewDate32Scalar(arrow.Date32(1024)), d32))
-	assert.Truef(t, scalar.Equals(scalar.NewDate64Scalar(arrow.Date64(1024*millisInDay)), d64), "got %s", d64)
-	tms, err := scalar.NewDate64Scalar(arrow.Date64(1024 * millisInDay)).CastTo(arrow.FixedWidthTypes.Timestamp_ms)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(tms, scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay), arrow.FixedWidthTypes.Timestamp_ms)))
-
-	tms, err = scalar.NewDate32Scalar(arrow.Date32(1024)).CastTo(arrow.FixedWidthTypes.Timestamp_ms)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(tms, scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay), arrow.FixedWidthTypes.Timestamp_ms)))
-}
-
-func TestDurationScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Duration_ms
-	typ2 := arrow.FixedWidthTypes.Duration_s
-
-	val1 := arrow.Duration(1)
-	val2 := arrow.Duration(2)
-	tsVal1 := scalar.NewDurationScalar(val1, typ1)
-	tsVal2 := scalar.NewDurationScalar(val2, typ2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ1, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestMonthIntervalScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.MonthInterval
-	typ2 := arrow.FixedWidthTypes.MonthInterval
-
-	val1 := arrow.MonthInterval(1)
-	val2 := arrow.MonthInterval(2)
-	tsVal1 := scalar.NewMonthIntervalScalar(val1)
-	tsVal2 := scalar.NewMonthIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ1, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestDayTimeIntervalScalarBasics(t *testing.T) {
-	typ := arrow.FixedWidthTypes.DayTimeInterval
-
-	val1 := arrow.DayTimeInterval{Days: 1, Milliseconds: 1}
-	val2 := arrow.DayTimeInterval{Days: 2, Milliseconds: 2}
-	tsVal1 := scalar.NewDayTimeIntervalScalar(val1)
-	tsVal2 := scalar.NewDayTimeIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestMonthDayNanoIntervalScalarBasics(t *testing.T) {
-	typ := arrow.FixedWidthTypes.MonthDayNanoInterval
-
-	val1 := arrow.MonthDayNanoInterval{Months: 1, Days: 2, Nanoseconds: 3000}
-	val2 := arrow.MonthDayNanoInterval{Months: 2, Days: 3, Nanoseconds: 4000}
-	tsVal1 := scalar.NewMonthDayNanoIntervalScalar(val1)
-	tsVal2 := scalar.NewMonthDayNanoIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestNumericScalarCasts(t *testing.T) {
-	tests := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-		arrow.FixedWidthTypes.Float16,
-	}
-
-	temporalTypes := []arrow.DataType{
-		arrow.FixedWidthTypes.Date32,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Time32ms,
-		arrow.FixedWidthTypes.Time64us,
-		arrow.FixedWidthTypes.Timestamp_ms,
-		arrow.FixedWidthTypes.MonthInterval,
-	}
-
-	falseScalar := scalar.NewBooleanScalar(false)
-	trueScalar := scalar.NewBooleanScalar(true)
-	nullBool := scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)
-
-	for _, tt := range tests {
-		t.Run(tt.ID().String()+"from bool", func(t *testing.T) {
-			zero, _ := scalar.ParseScalar(tt, "0")
-			zeroFromBool, err := falseScalar.CastTo(tt)
-			assert.NoError(t, err)
-			assert.True(t, scalar.Equals(zero, zeroFromBool))
-
-			one, _ := scalar.ParseScalar(tt, "1")
-			oneFromBool, err := trueScalar.CastTo(tt)
-			assert.NoError(t, err)
-			assert.True(t, scalar.Equals(one, oneFromBool))
-		})
-		t.Run(tt.ID().String(), func(t *testing.T) {
-			for _, repr := range []string{"0", "1", "3"} {
-				nullTest := scalar.MakeNullScalar(tt)
-				assert.Equal(t, "null", nullTest.String())
-
-				castedNull, err := nullBool.CastTo(tt)
-				assert.NoError(t, err)
-				assert.True(t, scalar.Equals(castedNull, nullTest))
-
-				s, err := scalar.ParseScalar(tt, repr)
-				assert.NoError(t, err)
-
-				for _, other := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint32} {
-					otherNull, err := nullTest.CastTo(other)
-					assert.NoError(t, err)
-
-					expectedNull := scalar.MakeNullScalar(other)
-					assert.True(t, scalar.Equals(otherNull, expectedNull))
-
-					otherScalar, err := scalar.ParseScalar(other, repr)
-					assert.NoError(t, err)
-
-					castToOther, err := s.CastTo(other)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(castToOther, otherScalar))
-
-					castFromOther, err := otherScalar.CastTo(tt)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(castFromOther, s))
-				}
-
-				castToBool, err := s.CastTo(arrow.FixedWidthTypes.Boolean)
-				assert.NoError(t, err)
-				assert.True(t, castToBool.IsValid())
-				assert.Equal(t, repr != "0", castToBool.(*scalar.Boolean).Value)
-
-				castFromStr, err := scalar.NewStringScalar(repr).CastTo(tt)
-				assert.NoError(t, err)
-
-				assert.True(t, scalar.Equals(castFromStr, s))
-				assert.Equal(t, repr, s.String())
-				if tt == arrow.FixedWidthTypes.Float16 {
-					continue
-				}
-
-				for _, tmtyp := range temporalTypes {
-					castToTemporal, err := s.CastTo(tmtyp)
-					assert.NoError(t, err)
-					assert.NoError(t, castToTemporal.ValidateFull())
-					assert.True(t, arrow.TypeEqual(tmtyp, castToTemporal.DataType()))
-				}
-
-				if tt == arrow.PrimitiveTypes.Float32 || tt == arrow.PrimitiveTypes.Float64 {
-					continue
-				}
-
-				castToStr, err := s.CastTo(arrow.BinaryTypes.String)
-				assert.NoError(t, err)
-				assert.Equal(t, repr, string(castToStr.(*scalar.String).Value.Bytes()))
-			}
-		})
-	}
-}
-
-type ListScalarSuite struct {
-	suite.Suite
-
-	typ arrow.DataType
-	val arrow.Array
-}
-
-func (l *ListScalarSuite) SetupTest() {
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int16{1, 2, 0}, []bool{true, true, false})
-
-	l.val = bld.NewInt16Array()
-}
-
-func (l *ListScalarSuite) TearDownTest() {
-	l.val.Release()
-}
-
-func (l *ListScalarSuite) TestBasics() {
-	s, err := scalar.MakeScalarParam(l.val, l.typ)
-	l.NoError(err)
-
-	l.NoError(s.ValidateFull())
-	l.True(s.IsValid())
-	l.True(arrow.TypeEqual(l.typ, s.DataType()))
-
-	nullScalar := checkMakeNullScalar(l.T(), l.typ)
-	l.NoError(nullScalar.ValidateFull())
-	l.False(nullScalar.IsValid())
-	l.True(arrow.TypeEqual(nullScalar.DataType(), l.typ))
-
-	l.Equal("[1 2 (null)]", s.String())
-}
-
-func (l *ListScalarSuite) TestValidateErrors() {
-	// inconsistent isvalid / value
-	s, _ := scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Valid = false
-	case *scalar.FixedSizeList:
-		s.Valid = false
-	}
-	l.Error(s.Validate())
-
-	s, _ = scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Value = nil
-	case *scalar.FixedSizeList:
-		s.Value = nil
-	}
-	l.Error(s.Validate())
-
-	// inconsistent child type
-	bld := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int32{1, 2, 0}, []bool{true, true, false})
-	arr := bld.NewArray()
-	defer arr.Release()
-
-	s, _ = scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Value = arr
-	case *scalar.FixedSizeList:
-		s.Value = arr
-	}
-	l.Error(s.Validate())
-}
-
-func TestListScalars(t *testing.T) {
-	ls := new(ListScalarSuite)
-	ls.typ = arrow.ListOf(arrow.PrimitiveTypes.Int16)
-	suite.Run(t, ls)
-	ls.typ = arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int16)
-	suite.Run(t, ls)
-}
-
-func TestFixedSizeListScalarWrongNumber(t *testing.T) {
-	typ := arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int16)
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int16{1, 2, 5}, nil)
-	arr := bld.NewArray()
-	defer arr.Release()
-
-	sc := scalar.NewFixedSizeListScalarWithType(arr, typ)
-	assert.NoError(t, sc.ValidateFull())
-
-	sc.Type = arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int16)
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestMapScalarBasics(t *testing.T) {
-	bld := array.NewStructBuilder(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "key", Type: arrow.BinaryTypes.String, Nullable: false},
-		arrow.Field{Name: "value", Type: arrow.PrimitiveTypes.Int8, Nullable: true}))
-	defer bld.Release()
-	bld.FieldBuilder(0).(*array.StringBuilder).AppendValues([]string{"a", "b"}, nil)
-	bld.FieldBuilder(1).(*array.Int8Builder).AppendValues([]int8{1, 2}, nil)
-	value := bld.NewArray()
-	defer value.Release()
-
-	s := scalar.NewMapScalar(value)
-	assert.NoError(t, s.ValidateFull())
-
-	expectedScalarType := arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int8)
-	assert.True(t, arrow.TypeEqual(s.DataType(), expectedScalarType))
-	assert.True(t, array.Equal(value, s.GetList()))
-
-	checkMakeNullScalar(t, expectedScalarType)
-}
-
-func TestStructScalar(t *testing.T) {
-	abc := scalar.NewStructScalar([]scalar.Scalar{
-		scalar.MakeScalar(true),
-		scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32),
-		scalar.MakeScalar("hello"),
-		scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64),
-	}, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.BinaryTypes.String, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int64, Nullable: true}))
-
-	assert.NoError(t, abc.Validate())
-	assert.NoError(t, abc.ValidateFull())
-
-	a, err := abc.Field("a")
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(a, abc.Value[0]))
-
-	_, err = abc.Field("f")
-	assert.Error(t, err)
-
-	d, err := abc.Field("d")
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64), d))
-	assert.False(t, scalar.Equals(scalar.MakeScalar(int64(12)), d))
-
-	abc2, err := scalar.NewStructScalarWithNames(abc.Value, []string{"a", "b", "c", "d"})
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(abc, abc2))
-
-	assert.Equal(t, "{a:bool = true, b:int32 = null, c:utf8 = hello, d:int64 = null}", abc.String())
-}
-
-func TestNullStructScalar(t *testing.T) {
-	ty := arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.BinaryTypes.String, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-	nullScalar := scalar.MakeNullScalar(ty)
-	assert.NoError(t, nullScalar.ValidateFull())
-	assert.False(t, nullScalar.IsValid())
-
-	sc := checkMakeNullScalar(t, ty)
-	assert.True(t, scalar.Equals(nullScalar, sc))
-}
-
-func TestStructScalarValidateErrors(t *testing.T) {
-	ty := arrow.StructOf(arrow.Field{Name: "a", Type: arrow.BinaryTypes.String})
-
-	// inconsistent isvalid value
-	sc := scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("hello")}, ty)
-	sc.Valid = false
-	assert.Error(t, sc.ValidateFull())
-
-	sc = scalar.NewStructScalar(nil, ty)
-	sc.Valid = true
-	assert.Error(t, sc.ValidateFull())
-
-	// inconsistent number of fields
-	sc = scalar.NewStructScalar([]scalar.Scalar{}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("foo"), scalar.MakeScalar("bar")}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	// inconsistent child value type
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar(42)}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	// child value has invalid utf8 data
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("\xff")}, ty)
-	assert.NoError(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func getScalars(mem memory.Allocator) []scalar.Scalar {
-	hello := memory.NewBufferBytes([]byte("hello"))
-	daytime := arrow.DayTimeInterval{Days: 1, Milliseconds: 100}
-	monthdaynano := arrow.MonthDayNanoInterval{Months: 5, Days: 4, Nanoseconds: 100}
-
-	int8Bldr := array.NewInt8Builder(mem)
-	defer int8Bldr.Release()
-
-	int8Bldr.AppendValues([]int8{1, 2, 3, 4}, nil)
-	int8Arr := int8Bldr.NewInt8Array()
-	defer int8Arr.Release()
-
-	mapBldr := array.NewMapBuilder(mem, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, false)
-	defer mapBldr.Release()
-
-	kb := mapBldr.KeyBuilder().(*array.Int8Builder)
-	ib := mapBldr.ItemBuilder().(*array.StringBuilder)
-
-	mapBldr.Append(true)
-	kb.AppendValues([]int8{1, 2, 3}, nil)
-	ib.AppendValues([]string{"foo", "bar", "baz"}, nil)
-
-	mapArr := mapBldr.NewMapArray()
-	defer mapArr.Release()
-
-	return []scalar.Scalar{
-		scalar.NewBooleanScalar(false),
-		scalar.NewInt8Scalar(3),
-		scalar.NewUint16Scalar(3),
-		scalar.NewInt32Scalar(3),
-		scalar.NewUint64Scalar(3),
-		scalar.NewFloat64Scalar(3.0),
-		scalar.NewDate32Scalar(10),
-		scalar.NewDate64Scalar(11),
-		scalar.NewTime32Scalar(1000, arrow.FixedWidthTypes.Time32s),
-		scalar.NewTime64Scalar(1111, arrow.FixedWidthTypes.Time64us),
-		scalar.NewTimestampScalar(111, arrow.FixedWidthTypes.Timestamp_ms),
-		scalar.NewMonthIntervalScalar(1),
-		scalar.NewDayTimeIntervalScalar(daytime),
-		scalar.NewMonthDayNanoIntervalScalar(monthdaynano),
-		scalar.NewDurationScalar(60, arrow.FixedWidthTypes.Duration_s),
-		scalar.NewBinaryScalar(hello, arrow.BinaryTypes.Binary),
-		scalar.NewFixedSizeBinaryScalar(hello, &arrow.FixedSizeBinaryType{ByteWidth: hello.Len()}),
-		scalar.NewDecimal128Scalar(decimal128.FromI64(10), &arrow.Decimal128Type{Precision: 16, Scale: 4}),
-		scalar.NewDecimal256Scalar(decimal256.FromI64(10), &arrow.Decimal256Type{Precision: 16, Scale: 4}),
-		scalar.NewStringScalarFromBuffer(hello),
-		scalar.NewListScalar(int8Arr),
-		scalar.NewMapScalar(mapArr.List.ListValues()),
-		scalar.NewFixedSizeListScalar(int8Arr),
-		scalar.NewStructScalar([]scalar.Scalar{scalar.NewInt32Scalar(2), scalar.NewInt32Scalar(6)},
-			arrow.StructOf([]arrow.Field{{Name: "min", Type: arrow.PrimitiveTypes.Int32}, {Name: "max", Type: arrow.PrimitiveTypes.Int32}}...)),
-		scalar.NewRunEndEncodedScalar(scalar.NewStringScalarFromBuffer(hello),
-			arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String)),
-	}
-}
-
-func TestMakeArrayFromScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	nullArray, err := scalar.MakeArrayFromScalar(scalar.ScalarNull, 5, mem)
-	assert.NoError(t, err)
-	defer nullArray.Release()
-
-	assert.Equal(t, 5, nullArray.Len())
-	assert.Equal(t, 5, nullArray.NullN())
-
-	scalars := getScalars(mem)
-
-	for _, length := range []int{16} {
-		for _, s := range scalars {
-			t.Run(s.DataType().Name(), func(t *testing.T) {
-				if ls, ok := s.(scalar.Releasable); ok {
-					defer ls.Release()
-				}
-
-				arr, err := scalar.MakeArrayFromScalar(s, length, mem)
-				assert.NoError(t, err)
-				defer arr.Release()
-
-				assert.Equal(t, length, arr.Len())
-				assert.Zero(t, arr.NullN())
-
-				for _, i := range []int{0, length / 2, length - 1} {
-					scalarCompare, err := scalar.GetScalar(arr, i)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(s, scalarCompare))
-					if ls, ok := scalarCompare.(scalar.Releasable); ok {
-						ls.Release()
-					}
-				}
-			})
-		}
-	}
-}
-
-type OptionListTest struct {
-	FieldNames []string          `compute:"field_names"`
-	FieldNulls []bool            `compute:"field_null"`
-	FieldMeta  []*arrow.Metadata `compute:"field_metadata"`
-	Val8       []int8            `compute:"val8"`
-	ValU8      []uint8           `compute:"u8"`
-	Val16      []int16           `compute:"val16"`
-	ValU16     []uint16          `compute:"u16"`
-	Val32      []int32           `compute:"val32"`
-	ValU32     []uint32          `compute:"u32"`
-	Val64      []int64           `compute:"val64"`
-	ValU64     []uint64          `compute:"u64"`
-	ValInt     []int             `compute:"valint"`
-	ValUint    []uint            `compute:"valuint"`
-}
-
-type OptionValTest struct {
-	ToType arrow.DataType `compute:"type"`
-	Allow  bool           `compute:"allow"`
-}
-
-func (OptionValTest) TypeName() string { return "OptionValTest" }
-
-func TestToScalar(t *testing.T) {
-	ot := &OptionValTest{ToType: arrow.BinaryTypes.String, Allow: true}
-	sc, err := scalar.ToScalar(ot, memory.DefaultAllocator)
-	assert.NoError(t, err)
-	assert.Equal(t, `{type:utf8 = null, allow:bool = true, _type_name:binary = OptionValTest}`, sc.String())
-
-	meta := arrow.MetadataFrom(map[string]string{
-		"option":  "val",
-		"captain": "planet",
-		"souper":  "bowl",
-	})
-
-	olt := OptionListTest{
-		FieldNames: []string{"foo", "bar", "baz"},
-		FieldNulls: []bool{true, false},
-		FieldMeta:  []*arrow.Metadata{&meta, nil, &meta},
-		Val8:       []int8{1, 2, 3, 4},
-		ValU8:      []uint8{5, 6},
-		Val16:      []int16{7, 8, 9, 10},
-		ValU16:     []uint16{},
-		Val32:      nil,
-		ValU32:     []uint32{25, 26, 27, 28},
-		Val64:      []int64{-1, -2, -3, -4, -5},
-		ValU64:     []uint64{1, 2, 3},
-		ValInt:     []int{10, 11, 12, 13},
-		ValUint:    []uint{14, 15, 16},
-	}
-	sc, err = scalar.ToScalar(olt, memory.DefaultAllocator)
-	assert.NoError(t, err)
-
-	expected := `{field_names:list<item: utf8, nullable> = ["foo" "bar" "baz"], ` +
-		`field_null:list<item: bool, nullable> = [true false], ` +
-		`field_metadata:list<item: map<binary, binary, items_nullable>, nullable> = ` +
-		`[{["captain" "option" "souper"] ["planet" "val" "bowl"]} {[] []} {["captain" "option" "souper"] ["planet" "val" "bowl"]}], ` +
-		`val8:list<item: int8, nullable> = [1 2 3 4], ` +
-		`u8:list<item: uint8, nullable> = [5 6], ` +
-		`val16:list<item: int16, nullable> = [7 8 9 10], ` +
-		`u16:list<item: uint16, nullable> = [], ` +
-		`val32:list<item: int32, nullable> = [], ` +
-		`u32:list<item: uint32, nullable> = [25 26 27 28], ` +
-		`val64:list<item: int64, nullable> = [-1 -2 -3 -4 -5], ` +
-		`u64:list<item: uint64, nullable> = [1 2 3], ` +
-		`valint:list<item: int64, nullable> = [10 11 12 13], ` +
-		`valuint:list<item: uint64, nullable> = [14 15 16]}`
-
-	assert.Equal(t, expected, sc.String())
-}
-
-var dictIndexTypes = []arrow.DataType{
-	arrow.PrimitiveTypes.Int8,
-	arrow.PrimitiveTypes.Uint8,
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Uint16,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Uint32,
-	arrow.PrimitiveTypes.Int64,
-	arrow.PrimitiveTypes.Uint64,
-}
-
-func TestDictionaryScalarBasics(t *testing.T) {
-	for _, indexType := range dictIndexTypes {
-		t.Run(fmt.Sprint(indexType), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			ty := &arrow.DictionaryType{IndexType: indexType, ValueType: arrow.BinaryTypes.String}
-			dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", null, "gamma"]`))
-			defer dict.Release()
-
-			idxScalar, _ := scalar.MakeScalarParam(0, indexType)
-			alpha := scalar.NewDictScalar(idxScalar, dict)
-			defer alpha.Release()
-
-			idxScalar, _ = scalar.MakeScalarParam(2, indexType)
-			gamma := scalar.NewDictScalar(idxScalar, dict)
-			defer gamma.Release()
-
-			idxScalar, _ = scalar.MakeScalarParam(1, indexType)
-			nullVal := scalar.NewDictScalar(idxScalar, dict)
-			defer nullVal.Release()
-
-			scalarNull := scalar.MakeNullScalar(ty)
-			scalarNull.(*scalar.Dictionary).Value.Dict = dict
-			dict.Retain()
-			defer scalarNull.(*scalar.Dictionary).Release()
-
-			assert.NoError(t, scalarNull.ValidateFull())
-			assert.NoError(t, alpha.ValidateFull())
-			assert.NoError(t, gamma.ValidateFull())
-
-			// index is valid, corresponding value is null
-			assert.NoError(t, nullVal.ValidateFull())
-
-			encodedNull, err := scalarNull.(*scalar.Dictionary).GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedNull.ValidateFull())
-			assert.True(t, scalar.Equals(encodedNull, scalar.MakeNullScalar(arrow.BinaryTypes.String)))
-
-			encodedNullVal, err := nullVal.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedNullVal.ValidateFull())
-			assert.True(t, scalar.Equals(encodedNullVal, scalar.MakeNullScalar(arrow.BinaryTypes.String)))
-
-			encodedAlpha, err := alpha.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedAlpha.ValidateFull())
-			assert.True(t, scalar.Equals(encodedAlpha, scalar.MakeScalar("alpha")))
-
-			encodedGamma, err := gamma.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedGamma.ValidateFull())
-			assert.True(t, scalar.Equals(encodedGamma, scalar.MakeScalar("gamma")))
-
-			idxArr, _, _ := array.FromJSON(mem, indexType, strings.NewReader(`[2, 0, 1, null]`))
-			defer idxArr.Release()
-			arr := array.NewDictionaryArray(ty, idxArr, dict)
-			defer arr.Release()
-
-			first, err := scalar.GetScalar(arr, 0)
-			assert.NoError(t, err)
-			second, err := scalar.GetScalar(arr, 1)
-			assert.NoError(t, err)
-			third, err := scalar.GetScalar(arr, 2)
-			assert.NoError(t, err)
-			last, err := scalar.GetScalar(arr, 3)
-			assert.NoError(t, err)
-
-			defer func() {
-				first.(*scalar.Dictionary).Release()
-				second.(*scalar.Dictionary).Release()
-				third.(*scalar.Dictionary).Release()
-				last.(*scalar.Dictionary).Release()
-			}()
-
-			assert.NoError(t, first.ValidateFull())
-			assert.NoError(t, second.ValidateFull())
-			assert.NoError(t, third.ValidateFull())
-			assert.NoError(t, last.ValidateFull())
-
-			assert.True(t, first.IsValid())
-			assert.True(t, second.IsValid())
-			assert.True(t, third.IsValid()) // valid because of valid index despite null value
-			assert.False(t, last.IsValid())
-
-			assert.True(t, scalar.Equals(first, gamma))
-			assert.True(t, scalar.Equals(second, alpha))
-			assert.True(t, scalar.Equals(third, nullVal))
-			assert.True(t, scalar.Equals(last, scalarNull))
-
-			assert.Same(t, first.(*scalar.Dictionary).Value.Dict, arr.Dictionary())
-			assert.Same(t, second.(*scalar.Dictionary).Value.Dict, arr.Dictionary())
-		})
-	}
-}
-
-func TestDictionaryScalarValidateErrors(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		indexTy = arrow.PrimitiveTypes.Int16
-		valueTy = arrow.BinaryTypes.String
-		dictTy  = &arrow.DictionaryType{IndexType: indexTy, ValueType: valueTy}
-	)
-
-	dict, _, _ := array.FromJSON(mem, valueTy, strings.NewReader(`["alpha", null, "gamma"]`))
-	defer dict.Release()
-
-	alpha := scalar.NewDictScalar(scalar.MakeScalar(int16(0)), dict)
-	defer alpha.Release()
-
-	// Valid index, null underlying value
-	nullVal := scalar.NewDictScalar(scalar.MakeScalar(int16(1)), dict)
-	defer nullVal.Release()
-
-	// inconsistent index type
-	dictSc := scalar.NewDictScalar(alpha.Value.Index, dict)
-	defer dictSc.Release()
-	dictSc.Type = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: valueTy}
-	assert.Error(t, dictSc.Validate())
-
-	// inconsistent value type between dict and type
-	dictSc.Type = &arrow.DictionaryType{IndexType: indexTy, ValueType: arrow.BinaryTypes.Binary}
-	assert.Error(t, dictSc.Validate())
-
-	// inconsistent Valid/Value
-	dictSc.Type = dictTy
-	assert.NoError(t, dictSc.ValidateFull())
-	dictSc.Valid = false
-	assert.Error(t, dictSc.ValidateFull())
-
-	assert.NoError(t, nullVal.ValidateFull())
-	nullVal.Valid = false
-	assert.Error(t, nullVal.ValidateFull())
-
-	dictSc = scalar.NewNullDictScalar(dictTy)
-	dictSc.Valid = true
-	assert.Error(t, dictSc.ValidateFull())
-	dictSc.Valid = false
-	assert.NoError(t, dictSc.ValidateFull())
-
-	// index value out of bounds
-	for _, idx := range []int16{-1, 3} {
-		invalid := scalar.NewDictScalar(scalar.MakeScalar(idx), dict)
-		defer invalid.Release()
-
-		assert.NoError(t, invalid.Validate())
-		assert.Error(t, invalid.ValidateFull())
-	}
-}
-
-func checkGetValidUnionScalar(t *testing.T, arr arrow.Array, idx int, expected, expectedValue scalar.Scalar) {
-	s, err := scalar.GetScalar(arr, idx)
-	assert.NoError(t, err)
-	assert.NoError(t, s.ValidateFull())
-	assert.True(t, scalar.Equals(expected, s))
-
-	assert.True(t, s.IsValid())
-	assert.True(t, scalar.Equals(s.(scalar.Union).ChildValue(), expectedValue), s, expectedValue)
-}
-
-func checkGetNullUnionScalar(t *testing.T, arr arrow.Array, idx int) {
-	s, err := scalar.GetScalar(arr, idx)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(scalar.MakeNullScalar(arr.DataType()), s))
-	assert.False(t, s.IsValid())
-	assert.False(t, s.(scalar.Union).ChildValue().IsValid())
-}
-
-func makeSparseUnionScalar(ty *arrow.SparseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
-	return scalar.NewSparseUnionScalarFromValue(val, idx, ty)
-}
-
-func makeDenseUnionScalar(ty *arrow.DenseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
-	return scalar.NewDenseUnionScalar(val, ty.TypeCodes()[idx], ty)
-}
-
-func makeSpecificNullScalar(dt arrow.UnionType, idx int) scalar.Scalar {
-	switch dt.Mode() {
-	case arrow.SparseMode:
-		values := make([]scalar.Scalar, dt.NumFields())
-		for i, f := range dt.Fields() {
-			values[i] = scalar.MakeNullScalar(f.Type)
-		}
-		return scalar.NewSparseUnionScalar(values, dt.TypeCodes()[idx], dt.(*arrow.SparseUnionType))
-	case arrow.DenseMode:
-		code := dt.TypeCodes()[idx]
-		value := scalar.MakeNullScalar(dt.Fields()[idx].Type)
-		return scalar.NewDenseUnionScalar(value, code, dt.(*arrow.DenseUnionType))
-	}
-	return nil
-}
-
-type UnionScalarSuite struct {
-	suite.Suite
-
-	mode                                            arrow.UnionMode
-	dt                                              arrow.DataType
-	unionType                                       arrow.UnionType
-	alpha, beta, two, three                         scalar.Scalar
-	unionAlpha, unionBeta, unionTwo, unionThree     scalar.Scalar
-	unionOtherTwo, unionStringNull, unionNumberNull scalar.Scalar
-}
-
-func (s *UnionScalarSuite) scalarFromValue(idx int, val scalar.Scalar) scalar.Scalar {
-	switch s.mode {
-	case arrow.SparseMode:
-		return makeSparseUnionScalar(s.dt.(*arrow.SparseUnionType), val, idx)
-	case arrow.DenseMode:
-		return makeDenseUnionScalar(s.dt.(*arrow.DenseUnionType), val, idx)
-	}
-	return nil
-}
-
-func (s *UnionScalarSuite) specificNull(idx int) scalar.Scalar {
-	return makeSpecificNullScalar(s.unionType, idx)
-}
-
-func (s *UnionScalarSuite) SetupTest() {
-	s.dt = arrow.UnionOf(s.mode, []arrow.Field{
-		{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-		{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-	}, []arrow.UnionTypeCode{3, 42, 43})
-
-	s.unionType = s.dt.(arrow.UnionType)
-
-	s.alpha = scalar.MakeScalar("alpha")
-	s.beta = scalar.MakeScalar("beta")
-	s.two = scalar.MakeScalar(uint64(2))
-	s.three = scalar.MakeScalar(uint64(3))
-
-	s.unionAlpha = s.scalarFromValue(0, s.alpha)
-	s.unionBeta = s.scalarFromValue(0, s.beta)
-	s.unionTwo = s.scalarFromValue(1, s.two)
-	s.unionOtherTwo = s.scalarFromValue(2, s.two)
-	s.unionThree = s.scalarFromValue(1, s.three)
-	s.unionStringNull = s.specificNull(0)
-	s.unionNumberNull = s.specificNull(1)
-}
-
-func (s *UnionScalarSuite) TestValidate() {
-	s.NoError(s.unionAlpha.ValidateFull())
-	s.NoError(s.unionAlpha.Validate())
-	s.NoError(s.unionBeta.ValidateFull())
-	s.NoError(s.unionBeta.Validate())
-	s.NoError(s.unionTwo.ValidateFull())
-	s.NoError(s.unionTwo.Validate())
-	s.NoError(s.unionOtherTwo.ValidateFull())
-	s.NoError(s.unionOtherTwo.Validate())
-	s.NoError(s.unionThree.ValidateFull())
-	s.NoError(s.unionThree.Validate())
-	s.NoError(s.unionStringNull.ValidateFull())
-	s.NoError(s.unionStringNull.Validate())
-	s.NoError(s.unionNumberNull.ValidateFull())
-	s.NoError(s.unionNumberNull.Validate())
-}
-
-func (s *UnionScalarSuite) setTypeCode(sc scalar.Scalar, c arrow.UnionTypeCode) {
-	switch sc := sc.(type) {
-	case *scalar.SparseUnion:
-		sc.TypeCode = c
-	case *scalar.DenseUnion:
-		sc.TypeCode = c
-	}
-}
-
-func (s *UnionScalarSuite) setIsValid(sc scalar.Scalar, v bool) {
-	switch sc := sc.(type) {
-	case *scalar.SparseUnion:
-		sc.Valid = v
-	case *scalar.DenseUnion:
-		sc.Valid = v
-	}
-}
-
-func (s *UnionScalarSuite) TestValidateErrors() {
-	// type code doesn't exist
-	sc := s.scalarFromValue(0, s.alpha)
-
-	// invalid type code
-	s.setTypeCode(sc, 0)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setIsValid(sc, false)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setTypeCode(sc, -42)
-	s.setIsValid(sc, true)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setIsValid(sc, false)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	// type code doesn't correspond to child type
-	if sc, ok := sc.(*scalar.DenseUnion); ok {
-		sc.TypeCode = 42
-		sc.Valid = true
-		s.Error(sc.Validate())
-		s.Error(sc.ValidateFull())
-
-		sc = s.scalarFromValue(2, s.two).(*scalar.DenseUnion)
-		sc.TypeCode = 3
-		s.Error(sc.Validate())
-		s.Error(sc.ValidateFull())
-	}
-
-	// underlying value has invalid utf8
-	sc = s.scalarFromValue(0, scalar.NewStringScalar("\xff"))
-	s.NoError(sc.Validate())
-	s.Error(sc.ValidateFull())
-}
-
-func (s *UnionScalarSuite) TestEquals() {
-	// differing values
-	s.False(scalar.Equals(s.unionAlpha, s.unionBeta))
-	s.False(scalar.Equals(s.unionTwo, s.unionThree))
-	// differing validities
-	s.False(scalar.Equals(s.unionAlpha, s.unionStringNull))
-	// differing types
-	s.False(scalar.Equals(s.unionAlpha, s.unionTwo))
-	s.False(scalar.Equals(s.unionAlpha, s.unionOtherTwo))
-	// type codes don't count when comparing union scalars: the underlying
-	// values are identical even though their provenance is different
-	s.True(scalar.Equals(s.unionTwo, s.unionOtherTwo))
-	s.True(scalar.Equals(s.unionStringNull, s.unionNumberNull))
-}
-
-func (s *UnionScalarSuite) TestMakeNullScalar() {
-	sc := scalar.MakeNullScalar(s.dt)
-	s.True(arrow.TypeEqual(s.dt, sc.DataType()))
-	s.False(sc.IsValid())
-
-	// the first child field is chosen arbitrarily for the purposes of
-	// making a null scalar
-	switch s.mode {
-	case arrow.DenseMode:
-		asDense := sc.(*scalar.DenseUnion)
-		s.EqualValues(3, asDense.TypeCode)
-		s.False(asDense.Value.IsValid())
-	case arrow.SparseMode:
-		asSparse := sc.(*scalar.SparseUnion)
-		s.EqualValues(3, asSparse.TypeCode)
-		s.False(asSparse.Value[asSparse.ChildID].IsValid())
-	}
-}
-
-type SparseUnionSuite struct {
-	UnionScalarSuite
-}
-
-func (s *SparseUnionSuite) SetupSuite() {
-	s.mode = arrow.SparseMode
-}
-
-func (s *SparseUnionSuite) TestGetScalar() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(s.T(), 0)
-
-	children := make([]arrow.Array, 3)
-	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "", "beta", null, "gamma"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[1, 2, 11, 22, null]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[100, 101, 102, 103, 104]`))
-	defer children[2].Release()
-
-	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
-	defer typeIDs.Release()
-
-	arr := array.NewSparseUnion(s.dt.(*arrow.SparseUnionType), 5, children, typeIDs.Data().Buffers()[1], 0)
-	defer arr.Release()
-
-	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
-	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
-	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
-	checkGetNullUnionScalar(s.T(), arr, 3)
-	checkGetNullUnionScalar(s.T(), arr, 4)
-}
-
-type DenseUnionSuite struct {
-	UnionScalarSuite
-}
-
-func (s *DenseUnionSuite) SetupSuite() {
-	s.mode = arrow.DenseMode
-}
-
-func (s *DenseUnionSuite) TestGetScalar() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(s.T(), 0)
-
-	children := make([]arrow.Array, 3)
-	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "beta", null]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[2, 3]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[]`))
-	defer children[2].Release()
-
-	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
-	defer typeIDs.Release()
-	offsets, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 1, 2, 1]`))
-	defer offsets.Release()
-
-	arr := array.NewDenseUnion(s.dt.(*arrow.DenseUnionType), 5, children, typeIDs.Data().Buffers()[1], offsets.Data().Buffers()[1], 0)
-	defer arr.Release()
-
-	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
-	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
-	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
-	checkGetNullUnionScalar(s.T(), arr, 3)
-	checkGetValidUnionScalar(s.T(), arr, 4, s.unionThree, s.three)
-}
-
-func TestUnionScalars(t *testing.T) {
-	suite.Run(t, new(SparseUnionSuite))
-	suite.Run(t, new(DenseUnionSuite))
-}
-
-func TestRunEndEncodedGetScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	runEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[100, 200, 300, 400, 500]`))
-	defer runEnds.Release()
-
-	values, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "beautiful", "world", "of", "RLE"]`))
-	defer values.Release()
-
-	reeArray := array.NewRunEndEncodedArray(runEnds, values, 500, 0)
-	defer reeArray.Release()
-
-	slice := array.NewSlice(reeArray, 199, 404).(*array.RunEndEncoded)
-	defer slice.Release()
-
-	tests := []struct {
-		name  string
-		arr   arrow.Array
-		idx   int
-		exval string
-	}{
-		{"simple", reeArray, 225, "world"},
-		{"offset", slice, 125, "of"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			sc, err := scalar.GetScalar(tt.arr, tt.idx)
-			require.NoError(t, err)
-			reeScalar := sc.(*scalar.RunEndEncoded)
-			defer reeScalar.Release()
-
-			assert.NoError(t, reeScalar.Validate())
-			expectedType := tt.arr.DataType().(*arrow.RunEndEncodedType).Encoded()
-			assert.Truef(t, arrow.TypeEqual(expectedType, reeScalar.Value.DataType()),
-				"expected: %s\ngot: %s", expectedType, reeScalar.Value.DataType())
-			assert.Equal(t, tt.exval, reeScalar.Value.String())
-		})
-	}
-}
-
-func TestRunEndEncodedNullScalar(t *testing.T) {
-	dt := arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	sc := scalar.MakeNullScalar(dt)
-
-	assert.False(t, sc.IsValid())
-	assert.Truef(t, arrow.TypeEqual(dt, sc.DataType()), "expected: %s\ngot: %s", dt, sc.DataType())
-	assert.IsType(t, (*scalar.RunEndEncoded)(nil), sc)
-}
diff --git a/go/arrow/scalar/temporal.go b/go/arrow/scalar/temporal.go
deleted file mode 100644
index ee43f1b629c1d..0000000000000
--- a/go/arrow/scalar/temporal.go
+++ /dev/null
@@ -1,481 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"fmt"
-	"reflect"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func temporalToString(s TemporalScalar) string {
-	switch s := s.(type) {
-	case *Date32:
-		return time.Unix(0, 0).UTC().AddDate(0, 0, int(s.Value)).Format("2006-01-02")
-	case *Date64:
-		days := int(int64(s.Value) / (time.Hour * 24).Milliseconds())
-		return time.Unix(0, 0).UTC().AddDate(0, 0, days).Format("2006-01-02")
-	case *Duration:
-		return fmt.Sprint(time.Duration(s.Value) * s.Unit().Multiplier())
-	case *Time32:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("15:04:05.999")
-	case *Time64:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("15:04:05.999999999")
-	case *Timestamp:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("2006-01-02 15:04:05.999999999")
-	}
-	return "..."
-}
-
-type TemporalScalar interface {
-	Scalar
-	temporal()
-}
-
-type Duration struct {
-	scalar
-	Value arrow.Duration
-}
-
-func (Duration) temporal()                                   {}
-func (s *Duration) value() interface{}                       { return s.Value }
-func (s *Duration) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Duration) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Duration) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Duration).Value
-}
-
-func (s *Duration) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.TimestampType).Unit
-}
-func (s *Duration) Data() []byte {
-	return (*[arrow.DurationSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func NewDurationScalar(val arrow.Duration, typ arrow.DataType) *Duration {
-	return &Duration{scalar{typ, true}, val}
-}
-
-type DateScalar interface {
-	TemporalScalar
-	ToTime() time.Time
-	date()
-}
-
-type TimeScalar interface {
-	TemporalScalar
-	Unit() arrow.TimeUnit
-	ToTime() time.Time
-	time()
-}
-
-type IntervalScalar interface {
-	TemporalScalar
-	interval()
-}
-
-const millisecondsInDay = (time.Hour * 24) / time.Millisecond
-
-func castTemporal(from TemporalScalar, to arrow.DataType) (Scalar, error) {
-	if arrow.TypeEqual(from.DataType(), to) {
-		return from, nil
-	}
-
-	if !from.IsValid() {
-		return MakeNullScalar(to), nil
-	}
-
-	if r, ok := numericMap[to.ID()]; ok {
-		return convertToNumeric(reflect.ValueOf(from.value()), r.valueType, r.scalarFunc), nil
-	}
-
-	if to.ID() == arrow.STRING {
-		return NewStringScalar(temporalToString(from)), nil
-	}
-
-	switch s := from.(type) {
-	case DateScalar:
-		if to.ID() == arrow.TIMESTAMP {
-			var newValue int64
-			switch s := s.(type) {
-			case *Date32:
-				newValue = int64(s.Value) * int64(millisecondsInDay)
-			case *Date64:
-				newValue = int64(s.Value)
-			}
-			return NewTimestampScalar(arrow.Timestamp(arrow.ConvertTimestampValue(arrow.Millisecond, to.(*arrow.TimestampType).Unit, newValue)), to), nil
-		}
-
-		switch s := s.(type) {
-		case *Date32:
-			if to.ID() == arrow.DATE64 {
-				return NewDate64Scalar(arrow.Date64(s.Value) * arrow.Date64(millisecondsInDay)), nil
-			}
-		case *Date64:
-			if to.ID() == arrow.DATE32 {
-				return NewDate32Scalar(arrow.Date32(s.Value / arrow.Date64(millisecondsInDay))), nil
-			}
-		}
-	case *Timestamp:
-		switch to := to.(type) {
-		case *arrow.TimestampType:
-			return NewTimestampScalar(arrow.Timestamp(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.Value))), to), nil
-		case *arrow.Date32Type:
-			millis := arrow.ConvertTimestampValue(s.Unit(), arrow.Millisecond, int64(s.Value))
-			return NewDate32Scalar(arrow.Date32(millis / int64(millisecondsInDay))), nil
-		case *arrow.Date64Type:
-			millis := arrow.ConvertTimestampValue(s.Unit(), arrow.Millisecond, int64(s.Value))
-			return NewDate64Scalar(arrow.Date64(millis - millis%int64(millisecondsInDay))), nil
-		}
-	case TimeScalar:
-		switch to := to.(type) {
-		case *arrow.Time32Type:
-			return NewTime32Scalar(arrow.Time32(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.value().(arrow.Time64)))), to), nil
-		case *arrow.Time64Type:
-			return NewTime64Scalar(arrow.Time64(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.value().(arrow.Time32)))), to), nil
-		}
-
-	case *Duration:
-		switch to := to.(type) {
-		case *arrow.StringType:
-
-		case *arrow.DurationType:
-			return NewDurationScalar(arrow.Duration(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.Value))), to), nil
-		}
-	}
-
-	return nil, fmt.Errorf("")
-}
-
-type Date32 struct {
-	scalar
-	Value arrow.Date32
-}
-
-func (Date32) temporal()             {}
-func (Date32) date()                 {}
-func (s *Date32) value() interface{} { return s.Value }
-func (s *Date32) Data() []byte {
-	return (*[arrow.Date32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Date32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Date32).Value
-}
-func (s *Date32) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Date32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *Date32) ToTime() time.Time {
-	return s.Value.ToTime()
-}
-
-func NewDate32Scalar(val arrow.Date32) *Date32 {
-	return &Date32{scalar{arrow.FixedWidthTypes.Date32, true}, val}
-}
-
-type Date64 struct {
-	scalar
-	Value arrow.Date64
-}
-
-func (Date64) temporal()                                   {}
-func (Date64) date()                                       {}
-func (s *Date64) value() interface{}                       { return s.Value }
-func (s *Date64) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Date64) Data() []byte {
-	return (*[arrow.Date64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Date64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Date64).Value
-}
-func (s *Date64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *Date64) ToTime() time.Time {
-	return s.Value.ToTime()
-}
-
-func NewDate64Scalar(val arrow.Date64) *Date64 {
-	return &Date64{scalar{arrow.FixedWidthTypes.Date64, true}, val}
-}
-
-type Time32 struct {
-	scalar
-	Value arrow.Time32
-}
-
-func (Time32) temporal()                                   {}
-func (Time32) time()                                       {}
-func (s *Time32) value() interface{}                       { return s.Value }
-func (s *Time32) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Time32) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.Time32Type).Unit
-}
-func (s *Time32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Time32).Value
-}
-func (s *Time32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Time32) Data() []byte {
-	return (*[arrow.Time32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Time32) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTime32Scalar(val arrow.Time32, typ arrow.DataType) *Time32 {
-	return &Time32{scalar{typ, true}, val}
-}
-
-type Time64 struct {
-	scalar
-	Value arrow.Time64
-}
-
-func (Time64) temporal()                                   {}
-func (Time64) time()                                       {}
-func (s *Time64) value() interface{}                       { return s.Value }
-func (s *Time64) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Time64) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.Time64Type).Unit
-}
-func (s *Time64) Data() []byte {
-	return (*[arrow.Time64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Time64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Time64).Value
-}
-func (s *Time64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Time64) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTime64Scalar(val arrow.Time64, typ arrow.DataType) *Time64 {
-	return &Time64{scalar{typ, true}, val}
-}
-
-type Timestamp struct {
-	scalar
-	Value arrow.Timestamp
-}
-
-func (Timestamp) temporal()                                   {}
-func (Timestamp) time()                                       {}
-func (s *Timestamp) value() interface{}                       { return s.Value }
-func (s *Timestamp) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Timestamp) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.TimestampType).Unit
-}
-func (s *Timestamp) Data() []byte {
-	return (*[arrow.TimestampSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Timestamp) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Timestamp).Value
-}
-func (s *Timestamp) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Timestamp) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTimestampScalar(val arrow.Timestamp, typ arrow.DataType) *Timestamp {
-	return &Timestamp{scalar{typ, true}, val}
-}
-
-type MonthInterval struct {
-	scalar
-	Value arrow.MonthInterval
-}
-
-func (MonthInterval) temporal()             {}
-func (MonthInterval) interval()             {}
-func (s *MonthInterval) value() interface{} { return s.Value }
-func (s *MonthInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null monthinterval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-func (s *MonthInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *MonthInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*MonthInterval).Value
-}
-func (s *MonthInterval) Data() []byte {
-	return (*[arrow.MonthIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func NewMonthIntervalScalar(val arrow.MonthInterval) *MonthInterval {
-	return &MonthInterval{scalar{arrow.FixedWidthTypes.MonthInterval, true}, val}
-}
-
-type DayTimeInterval struct {
-	scalar
-	Value arrow.DayTimeInterval
-}
-
-func (DayTimeInterval) temporal()             {}
-func (DayTimeInterval) interval()             {}
-func (s *DayTimeInterval) value() interface{} { return s.Value }
-func (s *DayTimeInterval) Data() []byte {
-	return (*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *DayTimeInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *DayTimeInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null daytimeinterval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-
-func (s *DayTimeInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*DayTimeInterval).Value
-}
-
-func NewDayTimeIntervalScalar(val arrow.DayTimeInterval) *DayTimeInterval {
-	return &DayTimeInterval{scalar{arrow.FixedWidthTypes.DayTimeInterval, true}, val}
-}
-
-type MonthDayNanoInterval struct {
-	scalar
-	Value arrow.MonthDayNanoInterval
-}
-
-func (MonthDayNanoInterval) temporal()             {}
-func (MonthDayNanoInterval) interval()             {}
-func (s *MonthDayNanoInterval) value() interface{} { return s.Value }
-func (s *MonthDayNanoInterval) Data() []byte {
-	return (*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *MonthDayNanoInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *MonthDayNanoInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null month_day_nano_interval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-
-func (s *MonthDayNanoInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*MonthDayNanoInterval).Value
-}
-
-func NewMonthDayNanoIntervalScalar(val arrow.MonthDayNanoInterval) *MonthDayNanoInterval {
-	return &MonthDayNanoInterval{scalar{arrow.FixedWidthTypes.MonthDayNanoInterval, true}, val}
-}
-
-var (
-	_ Scalar = (*Date32)(nil)
-)
diff --git a/go/arrow/schema.go b/go/arrow/schema.go
deleted file mode 100644
index fd6c3cf1f4025..0000000000000
--- a/go/arrow/schema.go
+++ /dev/null
@@ -1,301 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"sort"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-type Metadata struct {
-	keys   []string
-	values []string
-}
-
-func NewMetadata(keys, values []string) Metadata {
-	if len(keys) != len(values) {
-		panic("arrow: len mismatch")
-	}
-
-	n := len(keys)
-	if n == 0 {
-		return Metadata{}
-	}
-
-	md := Metadata{
-		keys:   make([]string, n),
-		values: make([]string, n),
-	}
-	copy(md.keys, keys)
-	copy(md.values, values)
-	return md
-}
-
-func MetadataFrom(kv map[string]string) Metadata {
-	md := Metadata{
-		keys:   make([]string, 0, len(kv)),
-		values: make([]string, 0, len(kv)),
-	}
-	for k := range kv {
-		md.keys = append(md.keys, k)
-	}
-	sort.Strings(md.keys)
-	for _, k := range md.keys {
-		md.values = append(md.values, kv[k])
-	}
-	return md
-}
-
-func (md Metadata) Len() int         { return len(md.keys) }
-func (md Metadata) Keys() []string   { return md.keys }
-func (md Metadata) Values() []string { return md.values }
-func (md Metadata) ToMap() map[string]string {
-	m := make(map[string]string, len(md.keys))
-	for i := range md.keys {
-		m[md.keys[i]] = md.values[i]
-	}
-	return m
-}
-
-func (md Metadata) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "[")
-	for i := range md.keys {
-		if i > 0 {
-			fmt.Fprintf(o, ", ")
-		}
-		fmt.Fprintf(o, "%q: %q", md.keys[i], md.values[i])
-	}
-	fmt.Fprintf(o, "]")
-	return o.String()
-}
-
-// FindKey returns the index of the key-value pair with the provided key name,
-// or -1 if such a key does not exist.
-func (md Metadata) FindKey(k string) int {
-	for i, v := range md.keys {
-		if v == k {
-			return i
-		}
-	}
-	return -1
-}
-
-// GetValue returns the value associated with the provided key name.
-// If the key does not exist, the second return value is false.
-func (md Metadata) GetValue(k string) (string, bool) {
-	i := md.FindKey(k)
-	if i < 0 {
-		return "", false
-	}
-	return md.values[i], true
-}
-
-func (md Metadata) clone() Metadata {
-	if len(md.keys) == 0 {
-		return Metadata{}
-	}
-
-	o := Metadata{
-		keys:   make([]string, len(md.keys)),
-		values: make([]string, len(md.values)),
-	}
-	copy(o.keys, md.keys)
-	copy(o.values, md.values)
-
-	return o
-}
-
-func (md Metadata) sortedIndices() []int {
-	idxes := make([]int, len(md.keys))
-	for i := range idxes {
-		idxes[i] = i
-	}
-
-	sort.Slice(idxes, func(i, j int) bool {
-		return md.keys[idxes[i]] < md.keys[idxes[j]]
-	})
-	return idxes
-}
-
-func (md Metadata) Equal(rhs Metadata) bool {
-	if md.Len() != rhs.Len() {
-		return false
-	}
-
-	idxes := md.sortedIndices()
-	rhsIdxes := rhs.sortedIndices()
-	for i := range idxes {
-		j := idxes[i]
-		k := rhsIdxes[i]
-		if md.keys[j] != rhs.keys[k] || md.values[j] != rhs.values[k] {
-			return false
-		}
-	}
-	return true
-}
-
-// Schema is a sequence of Field values, describing the columns of a table or
-// a record batch.
-type Schema struct {
-	fields     []Field
-	index      map[string][]int
-	meta       Metadata
-	endianness endian.Endianness
-}
-
-// NewSchema returns a new Schema value from the slice of fields and metadata.
-//
-// NewSchema panics if there is a field with an invalid DataType.
-func NewSchema(fields []Field, metadata *Metadata) *Schema {
-	return NewSchemaWithEndian(fields, metadata, endian.NativeEndian)
-}
-
-func NewSchemaWithEndian(fields []Field, metadata *Metadata, e endian.Endianness) *Schema {
-	sc := &Schema{
-		fields:     make([]Field, 0, len(fields)),
-		index:      make(map[string][]int, len(fields)),
-		endianness: e,
-	}
-	if metadata != nil {
-		sc.meta = metadata.clone()
-	}
-	for i, field := range fields {
-		if field.Type == nil {
-			panic("arrow: field with nil DataType")
-		}
-		sc.fields = append(sc.fields, field)
-		sc.index[field.Name] = append(sc.index[field.Name], i)
-	}
-	return sc
-}
-
-func (sc *Schema) WithEndianness(e endian.Endianness) *Schema {
-	return NewSchemaWithEndian(sc.fields, &sc.meta, e)
-}
-
-func (sc *Schema) Endianness() endian.Endianness { return sc.endianness }
-func (sc *Schema) IsNativeEndian() bool          { return sc.endianness == endian.NativeEndian }
-func (sc *Schema) Metadata() Metadata            { return sc.meta }
-func (sc *Schema) Fields() []Field {
-	fields := make([]Field, len(sc.fields))
-	copy(fields, sc.fields)
-	return fields
-}
-func (sc *Schema) Field(i int) Field { return sc.fields[i] }
-func (sc *Schema) NumFields() int    { return len(sc.fields) }
-
-func (sc *Schema) FieldsByName(n string) ([]Field, bool) {
-	indices, ok := sc.index[n]
-	if !ok {
-		return nil, ok
-	}
-	fields := make([]Field, 0, len(indices))
-	for _, v := range indices {
-		fields = append(fields, sc.fields[v])
-	}
-	return fields, ok
-}
-
-// FieldIndices returns the indices of the named field or nil.
-func (sc *Schema) FieldIndices(n string) []int {
-	return sc.index[n]
-}
-
-func (sc *Schema) HasField(n string) bool { return len(sc.FieldIndices(n)) > 0 }
-func (sc *Schema) HasMetadata() bool      { return len(sc.meta.keys) > 0 }
-
-// Equal returns whether two schema are equal.
-// Equal does not compare the metadata.
-func (sc *Schema) Equal(o *Schema) bool {
-	switch {
-	case sc == o:
-		return true
-	case sc == nil || o == nil:
-		return false
-	case len(sc.fields) != len(o.fields):
-		return false
-	case sc.endianness != o.endianness:
-		return false
-	}
-
-	for i := range sc.fields {
-		if !sc.fields[i].Equal(o.fields[i]) {
-			return false
-		}
-	}
-	return true
-}
-
-// AddField adds a field at the given index and return a new schema.
-func (s *Schema) AddField(i int, field Field) (*Schema, error) {
-	if i < 0 || i > len(s.fields) {
-		return nil, fmt.Errorf("arrow: invalid field index %d", i)
-	}
-
-	fields := make([]Field, len(s.fields)+1)
-	copy(fields[:i], s.fields[:i])
-	fields[i] = field
-	copy(fields[i+1:], s.fields[i:])
-	return NewSchema(fields, &s.meta), nil
-}
-
-func (s *Schema) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "schema:\n  fields: %d\n", s.NumFields())
-	for i, f := range s.fields {
-		if i > 0 {
-			o.WriteString("\n")
-		}
-		fmt.Fprintf(o, "    - %v", f)
-	}
-	if s.endianness != endian.NativeEndian {
-		fmt.Fprintf(o, "\n  endianness: %v", s.endianness)
-	}
-	if meta := s.Metadata(); meta.Len() > 0 {
-		fmt.Fprintf(o, "\n  metadata: %v", meta)
-	}
-	return o.String()
-}
-
-func (s *Schema) Fingerprint() string {
-	if s == nil {
-		return ""
-	}
-
-	var b strings.Builder
-	b.WriteString("S{")
-	for _, f := range s.fields {
-		fieldFingerprint := f.Fingerprint()
-		if fieldFingerprint == "" {
-			return ""
-		}
-
-		b.WriteString(fieldFingerprint)
-		b.WriteByte(';')
-	}
-	if s.endianness == endian.LittleEndian {
-		b.WriteByte('L')
-	} else {
-		b.WriteByte('B')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
diff --git a/go/arrow/schema_test.go b/go/arrow/schema_test.go
deleted file mode 100644
index ccdd8a02c9c2b..0000000000000
--- a/go/arrow/schema_test.go
+++ /dev/null
@@ -1,480 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMetadata(t *testing.T) {
-	for _, tc := range []struct {
-		md           Metadata
-		kvs          map[string]string
-		keys, values []string
-		err          string
-		serialize    string
-	}{
-		{
-			md: Metadata{
-				keys:   []string{"k1", "k2"},
-				values: []string{"v1", "v2"},
-			},
-			keys:      []string{"k1", "k2"},
-			values:    []string{"v1", "v2"},
-			serialize: `["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			md:        Metadata{},
-			serialize: "[]",
-		},
-		{
-			md: Metadata{
-				keys:   []string{"k1", "k2"},
-				values: []string{"v1", "v2"},
-			},
-			kvs:       map[string]string{"k1": "v1", "k2": "v2"},
-			serialize: `["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			md:     Metadata{},
-			keys:   []string{"k1", "k2", "k3"},
-			values: []string{"v1", "v2"},
-			err:    "arrow: len mismatch",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != "" {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected a panic")
-					}
-					if got := e.(string); got != tc.err {
-						t.Fatalf("invalid panic. got=%q, want=%q", got, tc.err)
-					}
-				}()
-			}
-			var md Metadata
-			switch len(tc.kvs) {
-			case 0:
-				md = NewMetadata(tc.keys, tc.values)
-			default:
-				md = MetadataFrom(tc.kvs)
-			}
-			if got, want := md.Len(), len(tc.md.keys); !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid len: got=%v, want=%v", got, want)
-			}
-			if got, want := md.Keys(), tc.md.keys; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid keys: got=%v, want=%v", got, want)
-			}
-			if got, want := md.Values(), tc.md.values; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid values: got=%v, want=%v", got, want)
-			}
-			if !reflect.DeepEqual(tc.md, md) {
-				t.Fatalf("invalid md: got=%#v, want=%#v", md, tc.md)
-			}
-			clone := md.clone()
-			if !reflect.DeepEqual(clone, md) {
-				t.Fatalf("invalid clone: got=%#v, want=%#v", clone, md)
-			}
-
-			if got, want := tc.md.String(), tc.serialize; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-			if len(tc.kvs) != 0 {
-				assert.Equal(t, tc.kvs, md.ToMap())
-			}
-		})
-	}
-
-	t.Run("find-key", func(t *testing.T) {
-		md := NewMetadata([]string{"k1", "k11"}, []string{"v1", "v11"})
-
-		if got, want := md.FindKey("k1"), 0; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		gotVal, _ := md.GetValue("k1")
-		wantVal := "v1"
-		if gotVal != wantVal {
-			t.Fatalf("got=%s, want=%s", gotVal, wantVal)
-		}
-
-		if got, want := md.FindKey(""), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		_, gotFound := md.GetValue("")
-		if gotFound {
-			t.Fatalf("wasn't expecting to find empty key")
-		}
-
-		if got, want := md.FindKey("k"), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		_, gotFound = md.GetValue("k")
-		if gotFound {
-			t.Fatalf("wasn't expecting to find key: 'k'")
-		}
-
-		if got, want := md.FindKey(" "), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		if got, want := md.FindKey("k11"), 1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		if got, want := md.FindKey("k11 "), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-	})
-}
-
-func TestSchema(t *testing.T) {
-	for _, tc := range []struct {
-		fields    []Field
-		md        *Metadata
-		err       error
-		serialize string
-		addEndian bool
-	}{
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			md: func() *Metadata {
-				md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-				return &md
-			}(),
-			serialize: `schema:
-  fields: 2
-    - f1: type=int32
-    - f2: type=int64
-  metadata: ["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			md: nil,
-			serialize: `schema:
-  fields: 2
-    - f1: type=int32
-    - f2: type=int64`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: nil},
-			},
-			md:  nil,
-			err: fmt.Errorf("arrow: field with nil DataType"),
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "dup", Type: PrimitiveTypes.Int32}, // duplicate
-				{Name: "dup", Type: PrimitiveTypes.Int64}, // duplicate
-			},
-			md: nil,
-			serialize: `schema:
-  fields: 4
-    - f1: type=int32
-    - f2: type=int64
-    - dup: type=int32
-    - dup: type=int64`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true},
-				{Name: "f2", Type: PrimitiveTypes.Uint8},
-				{Name: "f3", Type: BinaryTypes.String, Nullable: true},
-				{Name: "f4", Type: ListOf(PrimitiveTypes.Int16), Nullable: true},
-			},
-			md: func() *Metadata {
-				md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-				return &md
-			}(),
-			addEndian: true, // only print endianness if non-native endian
-			serialize: `schema:
-  fields: 4
-    - f1: type=int32, nullable
-    - f2: type=uint8
-    - f3: type=utf8, nullable
-    - f4: type=list<item: int16, nullable>, nullable
-  endianness: ` + endian.NonNativeEndian.String() + `
-  metadata: ["k1": "v1", "k2": "v2"]`,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected a panic %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-
-			s := NewSchema(tc.fields, tc.md)
-			if tc.addEndian {
-				s = s.WithEndianness(endian.NonNativeEndian)
-			}
-
-			if got, want := s.NumFields(), len(tc.fields); got != want {
-				t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-			}
-
-			if got, want := s.Field(0), tc.fields[0]; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-
-			fields := s.Fields()
-			fields[0].Name = "other"
-			// check that the fields are copied and not shared
-			if got, want := s.Field(0), tc.fields[0]; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := s.HasMetadata(), tc.md != nil; got != want {
-				t.Fatalf("invalid metadata: got=%v, want=%v", got, want)
-			}
-
-			if tc.md != nil {
-				if got, want := s.Metadata(), *tc.md; !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata: got=%#v, want=%#v", got, want)
-				}
-			}
-
-			for _, tc := range []struct {
-				name   string
-				ok     bool
-				fields []Field
-				i      []int
-			}{
-				{"f1", true, []Field{tc.fields[0]}, []int{0}},
-				{"f2", true, []Field{tc.fields[1]}, []int{1}},
-				{"N/A", false, nil, nil},
-			} {
-				t.Run(tc.name, func(t *testing.T) {
-					got, ok := s.FieldsByName(tc.name)
-					if ok != tc.ok {
-						t.Fatalf("invalid field %q: got=%v, want=%v", tc.name, ok, tc.ok)
-					}
-					if i := s.FieldIndices(tc.name); !reflect.DeepEqual(i, tc.i) {
-						t.Fatalf("invalid FieldIndices(%s): got=%v, want=%v\nfields: %v", tc.name, i, tc.i, s.fields)
-					}
-					if ok := s.HasField(tc.name); ok != tc.ok {
-						t.Fatalf("invalid HasField(%s): got=%v, want=%v", tc.name, ok, tc.ok)
-					}
-					for i, field := range got {
-						if !field.Equal(tc.fields[i]) {
-							t.Fatalf("invalid field[%d]: got=%#v, want=%#v", i, field, tc.fields[i])
-						}
-					}
-				})
-			}
-
-			if s.HasField("dup") {
-				got := s.FieldIndices("dup")
-				want := []int{2, 3}
-				if !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid duplicate fields: got=%v, want=%v", got, want)
-				}
-			}
-
-			if got, want := s.String(), tc.serialize; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestSchemaAddField(t *testing.T) {
-	s := NewSchema([]Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}, nil)
-
-	_, err := s.AddField(3, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	if err == nil {
-		t.Fatalf("expected an error")
-	}
-
-	s, err = s.AddField(2, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	if err != nil {
-		t.Fatalf("unexpected error: %v", err)
-	}
-	if got, want := s.NumFields(), 3; got != want {
-		t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-	}
-	got, want := s.Field(2), Field{Name: "f3", Type: PrimitiveTypes.Int32}
-	if !got.Equal(want) {
-		t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-	}
-}
-
-func TestSchemaEqual(t *testing.T) {
-	fields := []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}
-	md := func() *Metadata {
-		md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-		return &md
-	}()
-
-	for _, tc := range []struct {
-		a, b *Schema
-		want bool
-	}{
-		{
-			a:    nil,
-			b:    nil,
-			want: true,
-		},
-		{
-			a:    nil,
-			b:    NewSchema(nil, nil),
-			want: false,
-		},
-		{
-			a:    NewSchema(nil, nil),
-			b:    nil,
-			want: false,
-		},
-		{
-			a:    NewSchema(nil, nil),
-			b:    NewSchema(nil, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, nil),
-			b:    NewSchema(fields, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, md),
-			b:    NewSchema(fields, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, md),
-			b:    NewSchema(fields, md),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields[:1], md),
-			b:    NewSchema(fields, md),
-			want: false,
-		},
-		{
-			a: NewSchema(fields, md),
-			b: NewSchema([]Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int32},
-			}, md),
-			want: false,
-		},
-		{
-			a: NewSchema(fields, md),
-			b: NewSchema([]Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "fx", Type: PrimitiveTypes.Int64},
-			}, md),
-			want: false,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			want: true,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchemaWithEndian(fields, nil, endian.BigEndian),
-			want: false,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchema(fields, nil),
-			want: !endian.IsBigEndian,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.BigEndian),
-			b:    NewSchema(fields, nil),
-			want: endian.IsBigEndian,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if !tc.a.Equal(tc.a) {
-				t.Fatalf("a != a")
-			}
-			if !tc.b.Equal(tc.b) {
-				t.Fatalf("b != b")
-			}
-			ab := tc.a.Equal(tc.b)
-			if ab != tc.want {
-				t.Fatalf("got=%v, want=%v", ab, tc.want)
-			}
-
-			ba := tc.b.Equal(tc.a)
-			if ab != ba {
-				t.Fatalf("ab != ba")
-			}
-
-			if (tc.a.Fingerprint() == tc.b.Fingerprint()) != tc.want {
-				t.Fatalf("fingerprint: got=%v;%v, wanted=%v", tc.a.Fingerprint(), tc.b.Fingerprint(), tc.want)
-			}
-		})
-	}
-}
-
-func TestSchemaNumFields(t *testing.T) {
-	s := NewSchema([]Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}, nil)
-
-	assert.Equal(t, 2, s.NumFields())
-
-	var err error
-	s, err = s.AddField(2, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	assert.NoError(t, err)
-
-	assert.Equal(t, 3, s.NumFields())
-	assert.Equal(t, s.NumFields(), s.NumFields())
-}
diff --git a/go/arrow/table.go b/go/arrow/table.go
deleted file mode 100644
index c7a13fc37d28c..0000000000000
--- a/go/arrow/table.go
+++ /dev/null
@@ -1,195 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Table represents a logical sequence of chunked arrays of equal length. It is
-// similar to a Record except that the columns are ChunkedArrays instead,
-// allowing for a Table to be built up by chunks progressively whereas the columns
-// in a single Record are always each a single contiguous array.
-type Table interface {
-	Schema() *Schema
-	NumRows() int64
-	NumCols() int64
-	Column(i int) *Column
-
-	// AddColumn adds a new column to the table and a corresponding field (of the same type)
-	// to its schema, at the specified position. Returns the new table with updated columns and schema.
-	AddColumn(pos int, f Field, c Column) (Table, error)
-
-	Retain()
-	Release()
-
-	fmt.Stringer
-}
-
-// Column is an immutable column data structure consisting of
-// a field (type metadata) and a chunked data array.
-//
-// To get strongly typed data from a Column, you need to iterate the
-// chunks and type assert each individual Array. For example:
-//
-//	switch column.DataType().ID() {
-//	case arrow.INT32:
-//		for _, c := range column.Data().Chunks() {
-//			arr := c.(*array.Int32)
-//			// do something with arr
-//		}
-//	case arrow.INT64:
-//		for _, c := range column.Data().Chunks() {
-//			arr := c.(*array.Int64)
-//			// do something with arr
-//		}
-//	case ...
-//	}
-type Column struct {
-	field Field
-	data  *Chunked
-}
-
-// NewColumnFromArr is a convenience function to create a column from
-// a field and a non-chunked array.
-//
-// This provides a simple mechanism for bypassing the middle step of
-// constructing a Chunked array of one and then releasing it because
-// of the ref counting.
-func NewColumnFromArr(field Field, arr Array) Column {
-	if !TypeEqual(field.Type, arr.DataType()) {
-		panic(fmt.Errorf("%w: arrow/array: inconsistent data type %s vs %s", ErrInvalid, field.Type, arr.DataType()))
-	}
-
-	arr.Retain()
-	return Column{
-		field: field,
-		data: &Chunked{
-			refCount: 1,
-			chunks:   []Array{arr},
-			length:   arr.Len(),
-			nulls:    arr.NullN(),
-			dtype:    field.Type,
-		},
-	}
-}
-
-// NewColumn returns a column from a field and a chunked data array.
-//
-// NewColumn panics if the field's data type is inconsistent with the data type
-// of the chunked data array.
-func NewColumn(field Field, chunks *Chunked) *Column {
-	col := Column{
-		field: field,
-		data:  chunks,
-	}
-	col.data.Retain()
-
-	if !TypeEqual(col.data.DataType(), col.field.Type) {
-		col.data.Release()
-		panic(fmt.Errorf("%w: arrow/array: inconsistent data type %s vs %s", ErrInvalid, col.data.DataType(), col.field.Type))
-	}
-
-	return &col
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (col *Column) Retain() {
-	col.data.Retain()
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (col *Column) Release() {
-	col.data.Release()
-}
-
-func (col *Column) Len() int           { return col.data.Len() }
-func (col *Column) NullN() int         { return col.data.NullN() }
-func (col *Column) Data() *Chunked     { return col.data }
-func (col *Column) Field() Field       { return col.field }
-func (col *Column) Name() string       { return col.field.Name }
-func (col *Column) DataType() DataType { return col.field.Type }
-
-// Chunked manages a collection of primitives arrays as one logical large array.
-type Chunked struct {
-	refCount int64 // refCount must be first in the struct for 64 bit alignment and sync/atomic (https://github.com/golang/go/issues/37262)
-
-	chunks []Array
-
-	length int
-	nulls  int
-	dtype  DataType
-}
-
-// NewChunked returns a new chunked array from the slice of arrays.
-//
-// NewChunked panics if the chunks do not have the same data type.
-func NewChunked(dtype DataType, chunks []Array) *Chunked {
-	arr := &Chunked{
-		chunks:   make([]Array, 0, len(chunks)),
-		refCount: 1,
-		dtype:    dtype,
-	}
-	for _, chunk := range chunks {
-		if chunk == nil {
-			continue
-		}
-
-		if !TypeEqual(chunk.DataType(), dtype) {
-			panic(fmt.Errorf("%w: arrow/array: mismatch data type %s vs %s", ErrInvalid, chunk.DataType().String(), dtype.String()))
-		}
-		chunk.Retain()
-		arr.chunks = append(arr.chunks, chunk)
-		arr.length += chunk.Len()
-		arr.nulls += chunk.NullN()
-	}
-	return arr
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *Chunked) Retain() {
-	atomic.AddInt64(&a.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (a *Chunked) Release() {
-	debug.Assert(atomic.LoadInt64(&a.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&a.refCount, -1) == 0 {
-		for _, arr := range a.chunks {
-			arr.Release()
-		}
-		a.chunks = nil
-		a.length = 0
-		a.nulls = 0
-	}
-}
-
-func (a *Chunked) Len() int           { return a.length }
-func (a *Chunked) NullN() int         { return a.nulls }
-func (a *Chunked) DataType() DataType { return a.dtype }
-func (a *Chunked) Chunks() []Array    { return a.chunks }
-func (a *Chunked) Chunk(i int) Array  { return a.chunks[i] }
diff --git a/go/arrow/tensor/numeric.gen.go b/go/arrow/tensor/numeric.gen.go
deleted file mode 100644
index 81ae6af41b09e..0000000000000
--- a/go/arrow/tensor/numeric.gen.go
+++ /dev/null
@@ -1,326 +0,0 @@
-// Code generated by tensor/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Int8 is an n-dim array of int8s.
-type Int8 struct {
-	tensorBase
-	values []int8
-}
-
-// NewInt8 returns a new n-dimensional array of int8s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt8(data arrow.ArrayData, shape, strides []int64, names []string) *Int8 {
-	tsr := &Int8{tensorBase: *newTensor(arrow.PrimitiveTypes.Int8, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int8Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int8) Value(i []int64) int8 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int8) Int8Values() []int8   { return tsr.values }
-
-// Int16 is an n-dim array of int16s.
-type Int16 struct {
-	tensorBase
-	values []int16
-}
-
-// NewInt16 returns a new n-dimensional array of int16s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt16(data arrow.ArrayData, shape, strides []int64, names []string) *Int16 {
-	tsr := &Int16{tensorBase: *newTensor(arrow.PrimitiveTypes.Int16, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int16Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int16) Value(i []int64) int16 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int16) Int16Values() []int16  { return tsr.values }
-
-// Int32 is an n-dim array of int32s.
-type Int32 struct {
-	tensorBase
-	values []int32
-}
-
-// NewInt32 returns a new n-dimensional array of int32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt32(data arrow.ArrayData, shape, strides []int64, names []string) *Int32 {
-	tsr := &Int32{tensorBase: *newTensor(arrow.PrimitiveTypes.Int32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int32) Value(i []int64) int32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int32) Int32Values() []int32  { return tsr.values }
-
-// Int64 is an n-dim array of int64s.
-type Int64 struct {
-	tensorBase
-	values []int64
-}
-
-// NewInt64 returns a new n-dimensional array of int64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt64(data arrow.ArrayData, shape, strides []int64, names []string) *Int64 {
-	tsr := &Int64{tensorBase: *newTensor(arrow.PrimitiveTypes.Int64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int64) Value(i []int64) int64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int64) Int64Values() []int64  { return tsr.values }
-
-// Uint8 is an n-dim array of uint8s.
-type Uint8 struct {
-	tensorBase
-	values []uint8
-}
-
-// NewUint8 returns a new n-dimensional array of uint8s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint8(data arrow.ArrayData, shape, strides []int64, names []string) *Uint8 {
-	tsr := &Uint8{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint8, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint8Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint8) Value(i []int64) uint8 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint8) Uint8Values() []uint8  { return tsr.values }
-
-// Uint16 is an n-dim array of uint16s.
-type Uint16 struct {
-	tensorBase
-	values []uint16
-}
-
-// NewUint16 returns a new n-dimensional array of uint16s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint16(data arrow.ArrayData, shape, strides []int64, names []string) *Uint16 {
-	tsr := &Uint16{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint16, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint16Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint16) Value(i []int64) uint16 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint16) Uint16Values() []uint16 { return tsr.values }
-
-// Uint32 is an n-dim array of uint32s.
-type Uint32 struct {
-	tensorBase
-	values []uint32
-}
-
-// NewUint32 returns a new n-dimensional array of uint32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint32(data arrow.ArrayData, shape, strides []int64, names []string) *Uint32 {
-	tsr := &Uint32{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint32) Value(i []int64) uint32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint32) Uint32Values() []uint32 { return tsr.values }
-
-// Uint64 is an n-dim array of uint64s.
-type Uint64 struct {
-	tensorBase
-	values []uint64
-}
-
-// NewUint64 returns a new n-dimensional array of uint64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint64(data arrow.ArrayData, shape, strides []int64, names []string) *Uint64 {
-	tsr := &Uint64{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint64) Value(i []int64) uint64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint64) Uint64Values() []uint64 { return tsr.values }
-
-// Float32 is an n-dim array of float32s.
-type Float32 struct {
-	tensorBase
-	values []float32
-}
-
-// NewFloat32 returns a new n-dimensional array of float32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewFloat32(data arrow.ArrayData, shape, strides []int64, names []string) *Float32 {
-	tsr := &Float32{tensorBase: *newTensor(arrow.PrimitiveTypes.Float32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Float32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Float32) Value(i []int64) float32  { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Float32) Float32Values() []float32 { return tsr.values }
-
-// Float64 is an n-dim array of float64s.
-type Float64 struct {
-	tensorBase
-	values []float64
-}
-
-// NewFloat64 returns a new n-dimensional array of float64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewFloat64(data arrow.ArrayData, shape, strides []int64, names []string) *Float64 {
-	tsr := &Float64{tensorBase: *newTensor(arrow.PrimitiveTypes.Float64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Float64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Float64) Value(i []int64) float64  { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Float64) Float64Values() []float64 { return tsr.values }
-
-// Date32 is an n-dim array of date32s.
-type Date32 struct {
-	tensorBase
-	values []arrow.Date32
-}
-
-// NewDate32 returns a new n-dimensional array of date32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewDate32(data arrow.ArrayData, shape, strides []int64, names []string) *Date32 {
-	tsr := &Date32{tensorBase: *newTensor(arrow.PrimitiveTypes.Date32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Date32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Date32) Value(i []int64) arrow.Date32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Date32) Date32Values() []arrow.Date32 { return tsr.values }
-
-// Date64 is an n-dim array of date64s.
-type Date64 struct {
-	tensorBase
-	values []arrow.Date64
-}
-
-// NewDate64 returns a new n-dimensional array of date64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewDate64(data arrow.ArrayData, shape, strides []int64, names []string) *Date64 {
-	tsr := &Date64{tensorBase: *newTensor(arrow.PrimitiveTypes.Date64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Date64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Date64) Value(i []int64) arrow.Date64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Date64) Date64Values() []arrow.Date64 { return tsr.values }
-
-var (
-	_ Interface = (*Int8)(nil)
-	_ Interface = (*Int16)(nil)
-	_ Interface = (*Int32)(nil)
-	_ Interface = (*Int64)(nil)
-	_ Interface = (*Uint8)(nil)
-	_ Interface = (*Uint16)(nil)
-	_ Interface = (*Uint32)(nil)
-	_ Interface = (*Uint64)(nil)
-	_ Interface = (*Float32)(nil)
-	_ Interface = (*Float64)(nil)
-	_ Interface = (*Date32)(nil)
-	_ Interface = (*Date64)(nil)
-)
diff --git a/go/arrow/tensor/numeric.gen.go.tmpl b/go/arrow/tensor/numeric.gen.go.tmpl
deleted file mode 100644
index 9f30297e1ac32..0000000000000
--- a/go/arrow/tensor/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{range .In}}
-
-// {{.Name}} is an n-dim array of {{.Type}}s.
-type {{.Name}} struct {
-	tensorBase
-	values []{{or .QualifiedType .Type}}
-}
-
-// New{{.Name}} returns a new n-dimensional array of {{.Type}}s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func New{{.Name}}(data arrow.ArrayData, shape, strides []int64, names []string) *{{.Name}} {
-	tsr := &{{.Name}}{tensorBase:*newTensor(arrow.PrimitiveTypes.{{.Name}}, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.{{.Name}}Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *{{.Name}}) Value(i []int64)  {{or .QualifiedType .Type}} { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *{{.Name}}) {{.Name}}Values() []{{or .QualifiedType .Type}} { return tsr.values }
-{{end}}
-
-var (
-{{range .In}}
-	_ Interface = (*{{.Name}})(nil)
-{{- end}}
-)
diff --git a/go/arrow/tensor/numeric.gen_test.go b/go/arrow/tensor/numeric.gen_test.go
deleted file mode 100644
index 8039aea39667a..0000000000000
--- a/go/arrow/tensor/numeric.gen_test.go
+++ /dev/null
@@ -1,1170 +0,0 @@
-// Code generated by tensor/numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-func TestTensorInt8(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt8Builder(mem)
-	defer bld.Release()
-
-	raw := []int8{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt8Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int8.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int8)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int8Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int8
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt16(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt16Builder(mem)
-	defer bld.Release()
-
-	raw := []int16{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt16Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int16.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int16)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int16Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int16
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt32Builder(mem)
-	defer bld.Release()
-
-	raw := []int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt64Builder(mem)
-	defer bld.Release()
-
-	raw := []int64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint8(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint8Builder(mem)
-	defer bld.Release()
-
-	raw := []uint8{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint8Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint8.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint8)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint8Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint8
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint16(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint16Builder(mem)
-	defer bld.Release()
-
-	raw := []uint16{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint16Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint16.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint16)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint16Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint16
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint32Builder(mem)
-	defer bld.Release()
-
-	raw := []uint32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint64Builder(mem)
-	defer bld.Release()
-
-	raw := []uint64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorFloat32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat32Builder(mem)
-	defer bld.Release()
-
-	raw := []float32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Float32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Float32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorFloat64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat64Builder(mem)
-	defer bld.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Float64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Float64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorDate32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewDate32Builder(mem)
-	defer bld.Release()
-
-	raw := []arrow.Date32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewDate32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Date32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Date32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Date32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v arrow.Date32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorDate64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewDate64Builder(mem)
-	defer bld.Release()
-
-	raw := []arrow.Date64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewDate64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Date64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Date64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Date64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v arrow.Date64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
diff --git a/go/arrow/tensor/numeric.gen_test.go.tmpl b/go/arrow/tensor/numeric.gen_test.go.tmpl
deleted file mode 100644
index 593be259ce630..0000000000000
--- a/go/arrow/tensor/numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,126 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-{{range .In}}
-
-func TestTensor{{.Name}}(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.New{{.Name}}Builder(mem)
-	defer bld.Release()
-
-	raw := []{{or .QualifiedType .Type}}{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.New{{.Name}}Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.{{.Name}}.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.{{.Name}})
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5*bw, 1*bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.{{.Name}}Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v {{or .QualifiedType .Type}}
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-{{end}}
diff --git a/go/arrow/tensor/tensor.go b/go/arrow/tensor/tensor.go
deleted file mode 100644
index 067015f3a97d0..0000000000000
--- a/go/arrow/tensor/tensor.go
+++ /dev/null
@@ -1,246 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package tensor provides types that implement n-dimensional arrays.
-package tensor
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Interface represents an n-dimensional array of numerical data.
-type Interface interface {
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	// Release may be called simultaneously from multiple goroutines.
-	// When the reference count goes to zero, the memory is freed.
-	Release()
-
-	// Len returns the number of elements in the tensor.
-	Len() int
-
-	// Shape returns the size - in each dimension - of the tensor.
-	Shape() []int64
-
-	// Strides returns the number of bytes to step in each dimension when traversing the tensor.
-	Strides() []int64
-
-	// NumDims returns the number of dimensions of the tensor.
-	NumDims() int
-
-	// DimName returns the name of the i-th dimension.
-	DimName(i int) string
-
-	// DimNames returns the names for all dimensions
-	DimNames() []string
-
-	DataType() arrow.DataType
-	Data() arrow.ArrayData
-
-	// IsMutable returns whether the underlying data buffer is mutable.
-	IsMutable() bool
-	IsContiguous() bool
-	IsRowMajor() bool
-	IsColMajor() bool
-}
-
-type tensorBase struct {
-	refCount int64
-	dtype    arrow.DataType
-	bw       int64 // bytes width
-	data     arrow.ArrayData
-	shape    []int64
-	strides  []int64
-	names    []string
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tb *tensorBase) Retain() {
-	atomic.AddInt64(&tb.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (tb *tensorBase) Release() {
-	debug.Assert(atomic.LoadInt64(&tb.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tb.refCount, -1) == 0 {
-		tb.data.Release()
-		tb.data = nil
-	}
-}
-
-func (tb *tensorBase) Len() int {
-	o := int64(1)
-	for _, v := range tb.shape {
-		o *= v
-	}
-	return int(o)
-}
-
-func (tb *tensorBase) Shape() []int64           { return tb.shape }
-func (tb *tensorBase) Strides() []int64         { return tb.strides }
-func (tb *tensorBase) NumDims() int             { return len(tb.shape) }
-func (tb *tensorBase) DimName(i int) string     { return tb.names[i] }
-func (tb *tensorBase) DataType() arrow.DataType { return tb.dtype }
-func (tb *tensorBase) Data() arrow.ArrayData    { return tb.data }
-func (tb *tensorBase) DimNames() []string       { return tb.names }
-
-// IsMutable returns whether the underlying data buffer is mutable.
-func (tb *tensorBase) IsMutable() bool { return false } // FIXME(sbinet): implement it at the array.Data level
-
-func (tb *tensorBase) IsContiguous() bool {
-	return tb.IsRowMajor() || tb.IsColMajor()
-}
-
-func (tb *tensorBase) IsRowMajor() bool {
-	strides := rowMajorStrides(tb.dtype, tb.shape)
-	return equalInt64s(strides, tb.strides)
-}
-
-func (tb *tensorBase) IsColMajor() bool {
-	strides := colMajorStrides(tb.dtype, tb.shape)
-	return equalInt64s(strides, tb.strides)
-}
-
-func (tb *tensorBase) offset(index []int64) int64 {
-	var offset int64
-	for i, v := range index {
-		offset += v * tb.strides[i]
-	}
-	return offset / tb.bw
-}
-
-// New returns a new n-dim array from the provided backing data and the shape and strides.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-//
-// New panics if the backing data is not a numerical type.
-func New(data arrow.ArrayData, shape, strides []int64, names []string) Interface {
-	dt := data.DataType()
-	switch dt.ID() {
-	case arrow.INT8:
-		return NewInt8(data, shape, strides, names)
-	case arrow.INT16:
-		return NewInt16(data, shape, strides, names)
-	case arrow.INT32:
-		return NewInt32(data, shape, strides, names)
-	case arrow.INT64:
-		return NewInt64(data, shape, strides, names)
-	case arrow.UINT8:
-		return NewUint8(data, shape, strides, names)
-	case arrow.UINT16:
-		return NewUint16(data, shape, strides, names)
-	case arrow.UINT32:
-		return NewUint32(data, shape, strides, names)
-	case arrow.UINT64:
-		return NewUint64(data, shape, strides, names)
-	case arrow.FLOAT32:
-		return NewFloat32(data, shape, strides, names)
-	case arrow.FLOAT64:
-		return NewFloat64(data, shape, strides, names)
-	case arrow.DATE32:
-		return NewDate32(data, shape, strides, names)
-	case arrow.DATE64:
-		return NewDate64(data, shape, strides, names)
-	default:
-		panic(fmt.Errorf("arrow/tensor: invalid data type %s", dt.Name()))
-	}
-}
-
-func newTensor(dtype arrow.DataType, data arrow.ArrayData, shape, strides []int64, names []string) *tensorBase {
-	tb := tensorBase{
-		refCount: 1,
-		dtype:    dtype,
-		bw:       int64(dtype.(arrow.FixedWidthDataType).BitWidth()) / 8,
-		data:     data,
-		shape:    shape,
-		strides:  strides,
-		names:    names,
-	}
-	tb.data.Retain()
-
-	if len(tb.shape) > 0 && len(tb.strides) == 0 {
-		tb.strides = rowMajorStrides(dtype, shape)
-	}
-	return &tb
-}
-
-func rowMajorStrides(dtype arrow.DataType, shape []int64) []int64 {
-	dt := dtype.(arrow.FixedWidthDataType)
-	rem := int64(dt.BitWidth() / 8)
-	for _, v := range shape {
-		rem *= v
-	}
-
-	if rem == 0 {
-		strides := make([]int64, len(shape))
-		rem := int64(dt.BitWidth() / 8)
-		for i := range strides {
-			strides[i] = rem
-		}
-		return strides
-	}
-
-	var strides []int64
-	for _, v := range shape {
-		rem /= v
-		strides = append(strides, rem)
-	}
-	return strides
-}
-
-func colMajorStrides(dtype arrow.DataType, shape []int64) []int64 {
-	dt := dtype.(arrow.FixedWidthDataType)
-	total := int64(dt.BitWidth() / 8)
-	for _, v := range shape {
-		if v == 0 {
-			strides := make([]int64, len(shape))
-			for i := range strides {
-				strides[i] = total
-			}
-			return strides
-		}
-	}
-
-	var strides []int64
-	for _, v := range shape {
-		strides = append(strides, total)
-		total *= v
-	}
-	return strides
-}
-
-func equalInt64s(a, b []int64) bool {
-	if len(a) != len(b) {
-		return false
-	}
-	for i := range a {
-		if a[i] != b[i] {
-			return false
-		}
-	}
-	return true
-}
diff --git a/go/arrow/tensor/tensor_test.go b/go/arrow/tensor/tensor_test.go
deleted file mode 100644
index 73547e32c3bcb..0000000000000
--- a/go/arrow/tensor/tensor_test.go
+++ /dev/null
@@ -1,166 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-func TestTensor(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat64Builder(mem)
-	defer bld.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-	)
-
-	f64 := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float64)
-	defer f64.Release()
-
-	f64.Retain()
-	f64.Release()
-
-	if got, want := f64.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := f64.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := f64.Strides(), []int64{40, 8}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := f64.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	if got, want := f64.DimNames(), names; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid dim-names: got=%v, want=%v", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := f64.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := f64.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := f64.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if f64.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !f64.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !f64.IsRowMajor() || f64.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := f64.Float64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := f64.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestInvalidTensor(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer bld.Release()
-
-	raw := [][]byte{{1}, {2, 2}, {3, 3}, {4}, {5}, {6}, {7}, {8}, {9}, {10}}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewBinaryArray()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-	)
-
-	t.Run("invalid-binary", func(t *testing.T) {
-		want := fmt.Errorf("arrow/tensor: invalid data type binary")
-		defer func() {
-			e := recover()
-			if e == nil {
-				t.Fatalf("expected an error: %v", want)
-			}
-			switch err := e.(type) {
-			case error:
-				if !reflect.DeepEqual(err, want) {
-					t.Fatalf("invalid error: got=%v (%T), want=%v", err, err, want)
-				}
-			default:
-				t.Fatalf("invalid error: got=%v (%T), want=%v", err, err, want)
-			}
-		}()
-		tsr := tensor.New(arr.Data(), shape, nil, names)
-		defer tsr.Release()
-	})
-
-}
diff --git a/go/arrow/tools.go b/go/arrow/tools.go
deleted file mode 100644
index 37b6dde3659d6..0000000000000
--- a/go/arrow/tools.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package tools
-
-import (
-	_ "golang.org/x/tools/cmd/goimports"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/arrow/type_string.go b/go/arrow/type_string.go
deleted file mode 100644
index ee3ccb7ef9f0a..0000000000000
--- a/go/arrow/type_string.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Code generated by "stringer -type=Type"; DO NOT EDIT.
-
-package arrow
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[NULL-0]
-	_ = x[BOOL-1]
-	_ = x[UINT8-2]
-	_ = x[INT8-3]
-	_ = x[UINT16-4]
-	_ = x[INT16-5]
-	_ = x[UINT32-6]
-	_ = x[INT32-7]
-	_ = x[UINT64-8]
-	_ = x[INT64-9]
-	_ = x[FLOAT16-10]
-	_ = x[FLOAT32-11]
-	_ = x[FLOAT64-12]
-	_ = x[STRING-13]
-	_ = x[BINARY-14]
-	_ = x[FIXED_SIZE_BINARY-15]
-	_ = x[DATE32-16]
-	_ = x[DATE64-17]
-	_ = x[TIMESTAMP-18]
-	_ = x[TIME32-19]
-	_ = x[TIME64-20]
-	_ = x[INTERVAL_MONTHS-21]
-	_ = x[INTERVAL_DAY_TIME-22]
-	_ = x[DECIMAL128-23]
-	_ = x[DECIMAL256-24]
-	_ = x[LIST-25]
-	_ = x[STRUCT-26]
-	_ = x[SPARSE_UNION-27]
-	_ = x[DENSE_UNION-28]
-	_ = x[DICTIONARY-29]
-	_ = x[MAP-30]
-	_ = x[EXTENSION-31]
-	_ = x[FIXED_SIZE_LIST-32]
-	_ = x[DURATION-33]
-	_ = x[LARGE_STRING-34]
-	_ = x[LARGE_BINARY-35]
-	_ = x[LARGE_LIST-36]
-	_ = x[INTERVAL_MONTH_DAY_NANO-37]
-	_ = x[RUN_END_ENCODED-38]
-	_ = x[STRING_VIEW-39]
-	_ = x[BINARY_VIEW-40]
-	_ = x[LIST_VIEW-41]
-	_ = x[LARGE_LIST_VIEW-42]
-}
-
-const _Type_name = "NULLBOOLUINT8INT8UINT16INT16UINT32INT32UINT64INT64FLOAT16FLOAT32FLOAT64STRINGBINARYFIXED_SIZE_BINARYDATE32DATE64TIMESTAMPTIME32TIME64INTERVAL_MONTHSINTERVAL_DAY_TIMEDECIMAL128DECIMAL256LISTSTRUCTSPARSE_UNIONDENSE_UNIONDICTIONARYMAPEXTENSIONFIXED_SIZE_LISTDURATIONLARGE_STRINGLARGE_BINARYLARGE_LISTINTERVAL_MONTH_DAY_NANORUN_END_ENCODEDSTRING_VIEWBINARY_VIEWLIST_VIEWLARGE_LIST_VIEW"
-
-var _Type_index = [...]uint16{0, 4, 8, 13, 17, 23, 28, 34, 39, 45, 50, 57, 64, 71, 77, 83, 100, 106, 112, 121, 127, 133, 148, 165, 175, 185, 189, 195, 207, 218, 228, 231, 240, 255, 263, 275, 287, 297, 320, 335, 346, 357, 366, 381}
-
-func (i Type) String() string {
-	if i < 0 || i >= Type(len(_Type_index)-1) {
-		return "Type(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _Type_name[_Type_index[i]:_Type_index[i+1]]
-}
diff --git a/go/arrow/type_traits.go b/go/arrow/type_traits.go
deleted file mode 100644
index aae6ad106487f..0000000000000
--- a/go/arrow/type_traits.go
+++ /dev/null
@@ -1,162 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-// IntType is a type constraint for raw values represented as signed
-// integer types by  We aren't just using constraints.Signed
-// because we don't want to include the raw `int` type here whose size
-// changes based on the architecture (int32 on 32-bit architectures and
-// int64 on 64-bit architectures).
-//
-// This will also cover types like MonthInterval or the time types
-// as their underlying types are int32 and int64 which will get covered
-// by using the ~
-type IntType interface {
-	~int8 | ~int16 | ~int32 | ~int64
-}
-
-// UintType is a type constraint for raw values represented as unsigned
-// integer types by  We aren't just using constraints.Unsigned
-// because we don't want to include the raw `uint` type here whose size
-// changes based on the architecture (uint32 on 32-bit architectures and
-// uint64 on 64-bit architectures). We also don't want to include uintptr
-type UintType interface {
-	~uint8 | ~uint16 | ~uint32 | ~uint64
-}
-
-// FloatType is a type constraint for raw values for representing
-// floating point values in  This consists of constraints.Float and
-// float16.Num
-type FloatType interface {
-	float16.Num | constraints.Float
-}
-
-// NumericType is a type constraint for just signed/unsigned integers
-// and float32/float64.
-type NumericType interface {
-	IntType | UintType | constraints.Float
-}
-
-// FixedWidthType is a type constraint for raw values in Arrow that
-// can be represented as FixedWidth byte slices. Specifically this is for
-// using Go generics to easily re-type a byte slice to a properly-typed
-// slice. Booleans are excluded here since they are represented by Arrow
-// as a bitmap and thus the buffer can't be just reinterpreted as a []bool
-type FixedWidthType interface {
-	IntType | UintType |
-		FloatType | decimal128.Num | decimal256.Num |
-		DayTimeInterval | MonthDayNanoInterval
-}
-
-type TemporalType interface {
-	Date32 | Date64 | Time32 | Time64 |
-		Timestamp | Duration | DayTimeInterval |
-		MonthInterval | MonthDayNanoInterval
-}
-
-func reinterpretSlice[Out, T any](b []T) []Out {
-	if cap(b) == 0 {
-		return nil
-	}
-	out := (*Out)(unsafe.Pointer(&b[:1][0]))
-
-	lenBytes := len(b) * int(unsafe.Sizeof(b[0]))
-	capBytes := cap(b) * int(unsafe.Sizeof(b[0]))
-
-	lenOut := lenBytes / int(unsafe.Sizeof(*out))
-	capOut := capBytes / int(unsafe.Sizeof(*out))
-
-	return unsafe.Slice(out, capOut)[:lenOut]
-}
-
-// GetValues reinterprets the data.Buffers()[i] to a slice of T with len=data.Len().
-//
-// If the buffer is nil, nil will be returned.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetValues[T FixedWidthType](data ArrayData, i int) []T {
-	if data.Buffers()[i] == nil || data.Buffers()[i].Len() == 0 {
-		return nil
-	}
-	return reinterpretSlice[T](data.Buffers()[i].Bytes())[data.Offset() : data.Offset()+data.Len()]
-}
-
-// GetOffsets reinterprets the data.Buffers()[i] to a slice of T with len=data.Len()+1.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetOffsets[T int32 | int64](data ArrayData, i int) []T {
-	return reinterpretSlice[T](data.Buffers()[i].Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-}
-
-// GetBytes reinterprets a slice of T to a slice of bytes.
-func GetBytes[T FixedWidthType | ViewHeader](in []T) []byte {
-	return reinterpretSlice[byte](in)
-}
-
-// GetData reinterprets a slice of bytes to a slice of T.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetData[T FixedWidthType | ViewHeader](in []byte) []T {
-	return reinterpretSlice[T](in)
-}
-
-var typMap = map[reflect.Type]DataType{
-	reflect.TypeOf(false):         FixedWidthTypes.Boolean,
-	reflect.TypeOf(int8(0)):       PrimitiveTypes.Int8,
-	reflect.TypeOf(int16(0)):      PrimitiveTypes.Int16,
-	reflect.TypeOf(int32(0)):      PrimitiveTypes.Int32,
-	reflect.TypeOf(int64(0)):      PrimitiveTypes.Int64,
-	reflect.TypeOf(uint8(0)):      PrimitiveTypes.Uint8,
-	reflect.TypeOf(uint16(0)):     PrimitiveTypes.Uint16,
-	reflect.TypeOf(uint32(0)):     PrimitiveTypes.Uint32,
-	reflect.TypeOf(uint64(0)):     PrimitiveTypes.Uint64,
-	reflect.TypeOf(float32(0)):    PrimitiveTypes.Float32,
-	reflect.TypeOf(float64(0)):    PrimitiveTypes.Float64,
-	reflect.TypeOf(string("")):    BinaryTypes.String,
-	reflect.TypeOf(Date32(0)):     FixedWidthTypes.Date32,
-	reflect.TypeOf(Date64(0)):     FixedWidthTypes.Date64,
-	reflect.TypeOf(true):          FixedWidthTypes.Boolean,
-	reflect.TypeOf(float16.Num{}): FixedWidthTypes.Float16,
-	reflect.TypeOf([]byte{}):      BinaryTypes.Binary,
-}
-
-// GetDataType returns the appropriate DataType for the given type T
-// only for non-parametric types. This uses a map and reflection internally
-// so don't call this in a tight loop, instead call this once and then use
-// a closure with the result.
-func GetDataType[T NumericType | bool | string | []byte | float16.Num]() DataType {
-	var z T
-	return typMap[reflect.TypeOf(z)]
-}
-
-// GetType returns the appropriate Type type T, only for non-parametric
-// types. This uses a map and reflection internally so don't call this in
-// a tight loop, instead call it once and then use a closure with the result.
-func GetType[T NumericType | bool | string]() Type {
-	var z T
-	return typMap[reflect.TypeOf(z)].ID()
-}
diff --git a/go/arrow/type_traits_boolean.go b/go/arrow/type_traits_boolean.go
deleted file mode 100644
index 74d643ba6206e..0000000000000
--- a/go/arrow/type_traits_boolean.go
+++ /dev/null
@@ -1,28 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-type booleanTraits struct{}
-
-var BooleanTraits booleanTraits
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (booleanTraits) BytesRequired(n int) int { return bitutil.CeilByte(n) / 8 }
diff --git a/go/arrow/type_traits_decimal128.go b/go/arrow/type_traits_decimal128.go
deleted file mode 100644
index c93e781d934cb..0000000000000
--- a/go/arrow/type_traits_decimal128.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-// Decimal128 traits
-var Decimal128Traits decimal128Traits
-
-const (
-	// Decimal128SizeBytes specifies the number of bytes required to store a single decimal128 in memory
-	Decimal128SizeBytes = int(unsafe.Sizeof(decimal128.Num{}))
-)
-
-type decimal128Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (decimal128Traits) BytesRequired(n int) int { return Decimal128SizeBytes * n }
-
-// PutValue
-func (decimal128Traits) PutValue(b []byte, v decimal128.Num) {
-	endian.Native.PutUint64(b[:8], uint64(v.LowBits()))
-	endian.Native.PutUint64(b[8:], uint64(v.HighBits()))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (decimal128Traits) CastFromBytes(b []byte) []decimal128.Num {
-	return GetData[decimal128.Num](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (decimal128Traits) CastToBytes(b []decimal128.Num) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (decimal128Traits) Copy(dst, src []decimal128.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_decimal256.go b/go/arrow/type_traits_decimal256.go
deleted file mode 100644
index 9ef47c31bdd04..0000000000000
--- a/go/arrow/type_traits_decimal256.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-// Decimal256 traits
-var Decimal256Traits decimal256Traits
-
-const (
-	Decimal256SizeBytes = int(unsafe.Sizeof(decimal256.Num{}))
-)
-
-type decimal256Traits struct{}
-
-func (decimal256Traits) BytesRequired(n int) int { return Decimal256SizeBytes * n }
-
-func (decimal256Traits) PutValue(b []byte, v decimal256.Num) {
-	for i, a := range v.Array() {
-		start := i * 8
-		endian.Native.PutUint64(b[start:], a)
-	}
-}
-
-// CastFromBytes reinterprets the slice b to a slice of decimal256
-func (decimal256Traits) CastFromBytes(b []byte) []decimal256.Num {
-	return GetData[decimal256.Num](b)
-}
-
-func (decimal256Traits) CastToBytes(b []decimal256.Num) []byte {
-	return GetBytes(b)
-}
-
-func (decimal256Traits) Copy(dst, src []decimal256.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_float16.go b/go/arrow/type_traits_float16.go
deleted file mode 100644
index 0552932cf9b02..0000000000000
--- a/go/arrow/type_traits_float16.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-)
-
-// Float16 traits
-var Float16Traits float16Traits
-
-const (
-	// Float16SizeBytes specifies the number of bytes required to store a single float16 in memory
-	Float16SizeBytes = int(unsafe.Sizeof(uint16(0)))
-)
-
-type float16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float16Traits) BytesRequired(n int) int { return Float16SizeBytes * n }
-
-// PutValue
-func (float16Traits) PutValue(b []byte, v float16.Num) {
-	endian.Native.PutUint16(b, uint16(v.Uint16()))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (float16Traits) CastFromBytes(b []byte) []float16.Num {
-	return GetData[float16.Num](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float16Traits) CastToBytes(b []float16.Num) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float16Traits) Copy(dst, src []float16.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_interval.go b/go/arrow/type_traits_interval.go
deleted file mode 100644
index 94b5274d45968..0000000000000
--- a/go/arrow/type_traits_interval.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-var (
-	MonthIntervalTraits        monthTraits
-	DayTimeIntervalTraits      daytimeTraits
-	MonthDayNanoIntervalTraits monthDayNanoTraits
-)
-
-func init() {
-	debug.Assert(MonthIntervalSizeBytes == 4, "MonthIntervalSizeBytes should be 4")
-	debug.Assert(DayTimeIntervalSizeBytes == 8, "DayTimeIntervalSizeBytes should be 8")
-	debug.Assert(MonthDayNanoIntervalSizeBytes == 16, "MonthDayNanoIntervalSizeBytes should be 16")
-}
-
-// MonthInterval traits
-
-const (
-	// MonthIntervalSizeBytes specifies the number of bytes required to store a single MonthInterval in memory
-	MonthIntervalSizeBytes = int(unsafe.Sizeof(MonthInterval(0)))
-)
-
-type monthTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (monthTraits) BytesRequired(n int) int { return MonthIntervalSizeBytes * n }
-
-// PutValue
-func (monthTraits) PutValue(b []byte, v MonthInterval) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type MonthInterval.
-//
-// NOTE: len(b) must be a multiple of MonthIntervalSizeBytes.
-func (monthTraits) CastFromBytes(b []byte) []MonthInterval {
-	return GetData[MonthInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (monthTraits) CastToBytes(b []MonthInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (monthTraits) Copy(dst, src []MonthInterval) { copy(dst, src) }
-
-// DayTimeInterval traits
-
-const (
-	// DayTimeIntervalSizeBytes specifies the number of bytes required to store a single DayTimeInterval in memory
-	DayTimeIntervalSizeBytes = int(unsafe.Sizeof(DayTimeInterval{}))
-)
-
-type daytimeTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (daytimeTraits) BytesRequired(n int) int { return DayTimeIntervalSizeBytes * n }
-
-// PutValue
-func (daytimeTraits) PutValue(b []byte, v DayTimeInterval) {
-	endian.Native.PutUint32(b[0:4], uint32(v.Days))
-	endian.Native.PutUint32(b[4:8], uint32(v.Milliseconds))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type DayTimeInterval.
-//
-// NOTE: len(b) must be a multiple of DayTimeIntervalSizeBytes.
-func (daytimeTraits) CastFromBytes(b []byte) []DayTimeInterval {
-	return GetData[DayTimeInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (daytimeTraits) CastToBytes(b []DayTimeInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (daytimeTraits) Copy(dst, src []DayTimeInterval) { copy(dst, src) }
-
-// DayTimeInterval traits
-
-const (
-	// MonthDayNanoIntervalSizeBytes specifies the number of bytes required to store a single DayTimeInterval in memory
-	MonthDayNanoIntervalSizeBytes = int(unsafe.Sizeof(MonthDayNanoInterval{}))
-)
-
-type monthDayNanoTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (monthDayNanoTraits) BytesRequired(n int) int { return MonthDayNanoIntervalSizeBytes * n }
-
-// PutValue
-func (monthDayNanoTraits) PutValue(b []byte, v MonthDayNanoInterval) {
-	endian.Native.PutUint32(b[0:4], uint32(v.Months))
-	endian.Native.PutUint32(b[4:8], uint32(v.Days))
-	endian.Native.PutUint64(b[8:], uint64(v.Nanoseconds))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type MonthDayNanoInterval.
-//
-// NOTE: len(b) must be a multiple of MonthDayNanoIntervalSizeBytes.
-func (monthDayNanoTraits) CastFromBytes(b []byte) []MonthDayNanoInterval {
-	return GetData[MonthDayNanoInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (monthDayNanoTraits) CastToBytes(b []MonthDayNanoInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (monthDayNanoTraits) Copy(dst, src []MonthDayNanoInterval) { copy(dst, src) }
diff --git a/go/arrow/type_traits_numeric.gen.go b/go/arrow/type_traits_numeric.gen.go
deleted file mode 100644
index 84a32a9115805..0000000000000
--- a/go/arrow/type_traits_numeric.gen.go
+++ /dev/null
@@ -1,524 +0,0 @@
-// Code generated by type_traits_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var (
-	Int64Traits    int64Traits
-	Uint64Traits   uint64Traits
-	Float64Traits  float64Traits
-	Int32Traits    int32Traits
-	Uint32Traits   uint32Traits
-	Float32Traits  float32Traits
-	Int16Traits    int16Traits
-	Uint16Traits   uint16Traits
-	Int8Traits     int8Traits
-	Uint8Traits    uint8Traits
-	Time32Traits   time32Traits
-	Time64Traits   time64Traits
-	Date32Traits   date32Traits
-	Date64Traits   date64Traits
-	DurationTraits durationTraits
-)
-
-// Int64 traits
-
-const (
-	// Int64SizeBytes specifies the number of bytes required to store a single int64 in memory
-	Int64SizeBytes = int(unsafe.Sizeof(int64(0)))
-)
-
-type int64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int64Traits) BytesRequired(n int) int { return Int64SizeBytes * n }
-
-// PutValue
-func (int64Traits) PutValue(b []byte, v int64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int64.
-//
-// NOTE: len(b) must be a multiple of Int64SizeBytes.
-func (int64Traits) CastFromBytes(b []byte) []int64 {
-	return GetData[int64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int64Traits) CastToBytes(b []int64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int64Traits) Copy(dst, src []int64) { copy(dst, src) }
-
-// Uint64 traits
-
-const (
-	// Uint64SizeBytes specifies the number of bytes required to store a single uint64 in memory
-	Uint64SizeBytes = int(unsafe.Sizeof(uint64(0)))
-)
-
-type uint64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint64Traits) BytesRequired(n int) int { return Uint64SizeBytes * n }
-
-// PutValue
-func (uint64Traits) PutValue(b []byte, v uint64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint64.
-//
-// NOTE: len(b) must be a multiple of Uint64SizeBytes.
-func (uint64Traits) CastFromBytes(b []byte) []uint64 {
-	return GetData[uint64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint64Traits) CastToBytes(b []uint64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint64Traits) Copy(dst, src []uint64) { copy(dst, src) }
-
-// Float64 traits
-
-const (
-	// Float64SizeBytes specifies the number of bytes required to store a single float64 in memory
-	Float64SizeBytes = int(unsafe.Sizeof(float64(0)))
-)
-
-type float64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float64Traits) BytesRequired(n int) int { return Float64SizeBytes * n }
-
-// PutValue
-func (float64Traits) PutValue(b []byte, v float64) {
-	endian.Native.PutUint64(b, math.Float64bits(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type float64.
-//
-// NOTE: len(b) must be a multiple of Float64SizeBytes.
-func (float64Traits) CastFromBytes(b []byte) []float64 {
-	return GetData[float64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float64Traits) CastToBytes(b []float64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float64Traits) Copy(dst, src []float64) { copy(dst, src) }
-
-// Int32 traits
-
-const (
-	// Int32SizeBytes specifies the number of bytes required to store a single int32 in memory
-	Int32SizeBytes = int(unsafe.Sizeof(int32(0)))
-)
-
-type int32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int32Traits) BytesRequired(n int) int { return Int32SizeBytes * n }
-
-// PutValue
-func (int32Traits) PutValue(b []byte, v int32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int32.
-//
-// NOTE: len(b) must be a multiple of Int32SizeBytes.
-func (int32Traits) CastFromBytes(b []byte) []int32 {
-	return GetData[int32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int32Traits) CastToBytes(b []int32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int32Traits) Copy(dst, src []int32) { copy(dst, src) }
-
-// Uint32 traits
-
-const (
-	// Uint32SizeBytes specifies the number of bytes required to store a single uint32 in memory
-	Uint32SizeBytes = int(unsafe.Sizeof(uint32(0)))
-)
-
-type uint32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint32Traits) BytesRequired(n int) int { return Uint32SizeBytes * n }
-
-// PutValue
-func (uint32Traits) PutValue(b []byte, v uint32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint32.
-//
-// NOTE: len(b) must be a multiple of Uint32SizeBytes.
-func (uint32Traits) CastFromBytes(b []byte) []uint32 {
-	return GetData[uint32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint32Traits) CastToBytes(b []uint32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint32Traits) Copy(dst, src []uint32) { copy(dst, src) }
-
-// Float32 traits
-
-const (
-	// Float32SizeBytes specifies the number of bytes required to store a single float32 in memory
-	Float32SizeBytes = int(unsafe.Sizeof(float32(0)))
-)
-
-type float32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float32Traits) BytesRequired(n int) int { return Float32SizeBytes * n }
-
-// PutValue
-func (float32Traits) PutValue(b []byte, v float32) {
-	endian.Native.PutUint32(b, math.Float32bits(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type float32.
-//
-// NOTE: len(b) must be a multiple of Float32SizeBytes.
-func (float32Traits) CastFromBytes(b []byte) []float32 {
-	return GetData[float32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float32Traits) CastToBytes(b []float32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float32Traits) Copy(dst, src []float32) { copy(dst, src) }
-
-// Int16 traits
-
-const (
-	// Int16SizeBytes specifies the number of bytes required to store a single int16 in memory
-	Int16SizeBytes = int(unsafe.Sizeof(int16(0)))
-)
-
-type int16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int16Traits) BytesRequired(n int) int { return Int16SizeBytes * n }
-
-// PutValue
-func (int16Traits) PutValue(b []byte, v int16) {
-	endian.Native.PutUint16(b, uint16(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int16.
-//
-// NOTE: len(b) must be a multiple of Int16SizeBytes.
-func (int16Traits) CastFromBytes(b []byte) []int16 {
-	return GetData[int16](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int16Traits) CastToBytes(b []int16) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int16Traits) Copy(dst, src []int16) { copy(dst, src) }
-
-// Uint16 traits
-
-const (
-	// Uint16SizeBytes specifies the number of bytes required to store a single uint16 in memory
-	Uint16SizeBytes = int(unsafe.Sizeof(uint16(0)))
-)
-
-type uint16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint16Traits) BytesRequired(n int) int { return Uint16SizeBytes * n }
-
-// PutValue
-func (uint16Traits) PutValue(b []byte, v uint16) {
-	endian.Native.PutUint16(b, uint16(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (uint16Traits) CastFromBytes(b []byte) []uint16 {
-	return GetData[uint16](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint16Traits) CastToBytes(b []uint16) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint16Traits) Copy(dst, src []uint16) { copy(dst, src) }
-
-// Int8 traits
-
-const (
-	// Int8SizeBytes specifies the number of bytes required to store a single int8 in memory
-	Int8SizeBytes = int(unsafe.Sizeof(int8(0)))
-)
-
-type int8Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int8Traits) BytesRequired(n int) int { return Int8SizeBytes * n }
-
-// PutValue
-func (int8Traits) PutValue(b []byte, v int8) {
-	b[0] = byte(v)
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int8.
-//
-// NOTE: len(b) must be a multiple of Int8SizeBytes.
-func (int8Traits) CastFromBytes(b []byte) []int8 {
-	return GetData[int8](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int8Traits) CastToBytes(b []int8) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int8Traits) Copy(dst, src []int8) { copy(dst, src) }
-
-// Uint8 traits
-
-const (
-	// Uint8SizeBytes specifies the number of bytes required to store a single uint8 in memory
-	Uint8SizeBytes = int(unsafe.Sizeof(uint8(0)))
-)
-
-type uint8Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint8Traits) BytesRequired(n int) int { return Uint8SizeBytes * n }
-
-// PutValue
-func (uint8Traits) PutValue(b []byte, v uint8) {
-	b[0] = byte(v)
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint8.
-//
-// NOTE: len(b) must be a multiple of Uint8SizeBytes.
-func (uint8Traits) CastFromBytes(b []byte) []uint8 {
-	return GetData[uint8](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint8Traits) CastToBytes(b []uint8) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint8Traits) Copy(dst, src []uint8) { copy(dst, src) }
-
-// Time32 traits
-
-const (
-	// Time32SizeBytes specifies the number of bytes required to store a single Time32 in memory
-	Time32SizeBytes = int(unsafe.Sizeof(Time32(0)))
-)
-
-type time32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (time32Traits) BytesRequired(n int) int { return Time32SizeBytes * n }
-
-// PutValue
-func (time32Traits) PutValue(b []byte, v Time32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Time32.
-//
-// NOTE: len(b) must be a multiple of Time32SizeBytes.
-func (time32Traits) CastFromBytes(b []byte) []Time32 {
-	return GetData[Time32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (time32Traits) CastToBytes(b []Time32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (time32Traits) Copy(dst, src []Time32) { copy(dst, src) }
-
-// Time64 traits
-
-const (
-	// Time64SizeBytes specifies the number of bytes required to store a single Time64 in memory
-	Time64SizeBytes = int(unsafe.Sizeof(Time64(0)))
-)
-
-type time64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (time64Traits) BytesRequired(n int) int { return Time64SizeBytes * n }
-
-// PutValue
-func (time64Traits) PutValue(b []byte, v Time64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Time64.
-//
-// NOTE: len(b) must be a multiple of Time64SizeBytes.
-func (time64Traits) CastFromBytes(b []byte) []Time64 {
-	return GetData[Time64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (time64Traits) CastToBytes(b []Time64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (time64Traits) Copy(dst, src []Time64) { copy(dst, src) }
-
-// Date32 traits
-
-const (
-	// Date32SizeBytes specifies the number of bytes required to store a single Date32 in memory
-	Date32SizeBytes = int(unsafe.Sizeof(Date32(0)))
-)
-
-type date32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (date32Traits) BytesRequired(n int) int { return Date32SizeBytes * n }
-
-// PutValue
-func (date32Traits) PutValue(b []byte, v Date32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Date32.
-//
-// NOTE: len(b) must be a multiple of Date32SizeBytes.
-func (date32Traits) CastFromBytes(b []byte) []Date32 {
-	return GetData[Date32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (date32Traits) CastToBytes(b []Date32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (date32Traits) Copy(dst, src []Date32) { copy(dst, src) }
-
-// Date64 traits
-
-const (
-	// Date64SizeBytes specifies the number of bytes required to store a single Date64 in memory
-	Date64SizeBytes = int(unsafe.Sizeof(Date64(0)))
-)
-
-type date64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (date64Traits) BytesRequired(n int) int { return Date64SizeBytes * n }
-
-// PutValue
-func (date64Traits) PutValue(b []byte, v Date64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Date64.
-//
-// NOTE: len(b) must be a multiple of Date64SizeBytes.
-func (date64Traits) CastFromBytes(b []byte) []Date64 {
-	return GetData[Date64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (date64Traits) CastToBytes(b []Date64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (date64Traits) Copy(dst, src []Date64) { copy(dst, src) }
-
-// Duration traits
-
-const (
-	// DurationSizeBytes specifies the number of bytes required to store a single Duration in memory
-	DurationSizeBytes = int(unsafe.Sizeof(Duration(0)))
-)
-
-type durationTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (durationTraits) BytesRequired(n int) int { return DurationSizeBytes * n }
-
-// PutValue
-func (durationTraits) PutValue(b []byte, v Duration) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Duration.
-//
-// NOTE: len(b) must be a multiple of DurationSizeBytes.
-func (durationTraits) CastFromBytes(b []byte) []Duration {
-	return GetData[Duration](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (durationTraits) CastToBytes(b []Duration) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (durationTraits) Copy(dst, src []Duration) { copy(dst, src) }
diff --git a/go/arrow/type_traits_numeric.gen.go.tmpl b/go/arrow/type_traits_numeric.gen.go.tmpl
deleted file mode 100644
index e74194b5260fc..0000000000000
--- a/go/arrow/type_traits_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var (
-{{range .In}}
-	{{.Name}}Traits {{.name}}Traits
-{{- end}}
-)
-
-{{range .In}}
-// {{.Name}} traits
-
-const (
-	// {{.Name}}SizeBytes specifies the number of bytes required to store a single {{.Type}} in memory
-	{{.Name}}SizeBytes = int(unsafe.Sizeof({{.Type}}({{.Default}})))
-)
-
-type {{.name}}Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func ({{.name}}Traits) BytesRequired(n int) int { return {{.Name}}SizeBytes * n }
-
-// PutValue
-func ({{.name}}Traits) PutValue(b []byte, v {{.Type}}) {
-{{- if eq .Type "float32" -}}
-	endian.Native.PutUint32(b, math.Float32bits(v))
-{{- else if eq .Type "float64" -}}
-	endian.Native.PutUint64(b, math.Float64bits(v))
-{{- else if eq .Size "1" -}}
-	b[0] = byte(v)
-{{- else if eq .Size "2" -}}
-	endian.Native.PutUint16(b, uint16(v))
-{{- else if eq .Size "4" -}}
-	endian.Native.PutUint32(b, uint32(v))
-{{- else if eq .Size "8" -}}
-	endian.Native.PutUint64(b, uint64(v))
-{{- else -}}
-	panic("invalid type {{.Type}}")
-{{end}}
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type {{.Type}}.
-//
-// NOTE: len(b) must be a multiple of {{.Name}}SizeBytes.
-func ({{.name}}Traits) CastFromBytes(b []byte) []{{.Type}} {
-	return GetData[{{.Type}}](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func ({{.name}}Traits) CastToBytes(b []{{.Type}}) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func ({{.name}}Traits) Copy(dst, src []{{.Type}}) { copy(dst, src) }
-{{end}}
diff --git a/go/arrow/type_traits_numeric.gen_test.go b/go/arrow/type_traits_numeric.gen_test.go
deleted file mode 100644
index 3d021575a6654..0000000000000
--- a/go/arrow/type_traits_numeric.gen_test.go
+++ /dev/null
@@ -1,536 +0,0 @@
-// Code generated by type_traits_numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestInt64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int64Traits.CastToBytes([]int64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int64SizeBytes
-		end := (i + 1) * arrow.Int64SizeBytes
-		arrow.Int64Traits.PutValue(b2[beg:end], int64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int64Traits.CastFromBytes(b1)
-		v2 := arrow.Int64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int64, N)
-	arrow.Int64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint64Traits.CastToBytes([]uint64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint64SizeBytes
-		end := (i + 1) * arrow.Uint64SizeBytes
-		arrow.Uint64Traits.PutValue(b2[beg:end], uint64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint64Traits.CastFromBytes(b1)
-		v2 := arrow.Uint64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint64, N)
-	arrow.Uint64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestFloat64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Float64Traits.CastToBytes([]float64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Float64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float64SizeBytes
-		end := (i + 1) * arrow.Float64SizeBytes
-		arrow.Float64Traits.PutValue(b2[beg:end], float64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float64Traits.CastFromBytes(b1)
-		v2 := arrow.Float64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, float64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float64, N)
-	arrow.Float64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int32Traits.CastToBytes([]int32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int32SizeBytes
-		end := (i + 1) * arrow.Int32SizeBytes
-		arrow.Int32Traits.PutValue(b2[beg:end], int32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int32Traits.CastFromBytes(b1)
-		v2 := arrow.Int32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int32, N)
-	arrow.Int32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint32Traits.CastToBytes([]uint32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint32SizeBytes
-		end := (i + 1) * arrow.Uint32SizeBytes
-		arrow.Uint32Traits.PutValue(b2[beg:end], uint32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint32Traits.CastFromBytes(b1)
-		v2 := arrow.Uint32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint32, N)
-	arrow.Uint32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestFloat32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Float32Traits.CastToBytes([]float32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Float32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float32SizeBytes
-		end := (i + 1) * arrow.Float32SizeBytes
-		arrow.Float32Traits.PutValue(b2[beg:end], float32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float32Traits.CastFromBytes(b1)
-		v2 := arrow.Float32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, float32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float32, N)
-	arrow.Float32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt16Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int16Traits.CastToBytes([]int16{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int16Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int16SizeBytes
-		end := (i + 1) * arrow.Int16SizeBytes
-		arrow.Int16Traits.PutValue(b2[beg:end], int16(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int16Traits.CastFromBytes(b1)
-		v2 := arrow.Int16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int16(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int16, N)
-	arrow.Int16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint16Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint16Traits.CastToBytes([]uint16{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint16Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint16SizeBytes
-		end := (i + 1) * arrow.Uint16SizeBytes
-		arrow.Uint16Traits.PutValue(b2[beg:end], uint16(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint16Traits.CastFromBytes(b1)
-		v2 := arrow.Uint16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint16(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint16, N)
-	arrow.Uint16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt8Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int8Traits.CastToBytes([]int8{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int8Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int8SizeBytes
-		end := (i + 1) * arrow.Int8SizeBytes
-		arrow.Int8Traits.PutValue(b2[beg:end], int8(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int8Traits.CastFromBytes(b1)
-		v2 := arrow.Int8Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int8Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int8(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int8, N)
-	arrow.Int8Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint8Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint8Traits.CastToBytes([]uint8{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint8Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint8SizeBytes
-		end := (i + 1) * arrow.Uint8SizeBytes
-		arrow.Uint8Traits.PutValue(b2[beg:end], uint8(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint8Traits.CastFromBytes(b1)
-		v2 := arrow.Uint8Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint8Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint8(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint8, N)
-	arrow.Uint8Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTime32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Time32Traits.CastToBytes([]arrow.Time32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Time32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Time32SizeBytes
-		end := (i + 1) * arrow.Time32SizeBytes
-		arrow.Time32Traits.PutValue(b2[beg:end], arrow.Time32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Time32Traits.CastFromBytes(b1)
-		v2 := arrow.Time32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Time32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Time32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Time32, N)
-	arrow.Time32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTime64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Time64Traits.CastToBytes([]arrow.Time64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Time64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Time64SizeBytes
-		end := (i + 1) * arrow.Time64SizeBytes
-		arrow.Time64Traits.PutValue(b2[beg:end], arrow.Time64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Time64Traits.CastFromBytes(b1)
-		v2 := arrow.Time64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Time64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Time64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Time64, N)
-	arrow.Time64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDate32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Date32Traits.CastToBytes([]arrow.Date32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Date32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Date32SizeBytes
-		end := (i + 1) * arrow.Date32SizeBytes
-		arrow.Date32Traits.PutValue(b2[beg:end], arrow.Date32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Date32Traits.CastFromBytes(b1)
-		v2 := arrow.Date32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Date32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Date32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Date32, N)
-	arrow.Date32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDate64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Date64Traits.CastToBytes([]arrow.Date64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Date64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Date64SizeBytes
-		end := (i + 1) * arrow.Date64SizeBytes
-		arrow.Date64Traits.PutValue(b2[beg:end], arrow.Date64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Date64Traits.CastFromBytes(b1)
-		v2 := arrow.Date64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Date64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Date64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Date64, N)
-	arrow.Date64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDurationTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.DurationTraits.CastToBytes([]arrow.Duration{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.DurationTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.DurationSizeBytes
-		end := (i + 1) * arrow.DurationSizeBytes
-		arrow.DurationTraits.PutValue(b2[beg:end], arrow.Duration(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.DurationTraits.CastFromBytes(b1)
-		v2 := arrow.DurationTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.DurationTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Duration(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Duration, N)
-	arrow.DurationTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
diff --git a/go/arrow/type_traits_numeric.gen_test.go.tmpl b/go/arrow/type_traits_numeric.gen_test.go.tmpl
deleted file mode 100644
index 9f7118eb8ec4a..0000000000000
--- a/go/arrow/type_traits_numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-{{- range .In}}
-
-func Test{{.Name}}Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.{{.Name}}Traits.CastToBytes([]{{or .QualifiedType .Type}}{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.{{.Name}}Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.{{.Name}}SizeBytes
-		end := (i + 1) * arrow.{{.Name}}SizeBytes
-		arrow.{{.Name}}Traits.PutValue(b2[beg:end], {{or .QualifiedType .Type}}(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.{{.Name}}Traits.CastFromBytes(b1)
-		v2 := arrow.{{.Name}}Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.{{.Name}}Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, {{or .QualifiedType .Type}}(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]{{or .QualifiedType .Type}}, N)
-	arrow.{{.Name}}Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-{{end}}
diff --git a/go/arrow/type_traits_test.go b/go/arrow/type_traits_test.go
deleted file mode 100644
index ec653c0b5bbae..0000000000000
--- a/go/arrow/type_traits_test.go
+++ /dev/null
@@ -1,315 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-)
-
-func TestBooleanTraits(t *testing.T) {
-	for _, tc := range []struct {
-		i, want int
-	}{
-		{0, 0},
-		{1, 1}, {2, 1}, {3, 1}, {4, 1}, {5, 1}, {6, 1}, {7, 1}, {8, 1},
-		{9, 2},
-		{17, 3},
-	} {
-		t.Run(fmt.Sprintf("nbytes=%d", tc.i), func(t *testing.T) {
-			got := arrow.BooleanTraits.BytesRequired(tc.i)
-			if got != tc.want {
-				t.Fatalf("got=%v, want=%v", got, tc.want)
-			}
-		})
-	}
-}
-
-func TestFloat16Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Float16Traits.BytesRequired(N)
-	b1 := arrow.Float16Traits.CastToBytes([]float16.Num{
-		float16.New(0),
-		float16.New(1),
-		float16.New(2),
-		float16.New(3),
-		float16.New(4),
-		float16.New(5),
-		float16.New(6),
-		float16.New(7),
-		float16.New(8),
-		float16.New(9),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float16SizeBytes
-		end := (i + 1) * arrow.Float16SizeBytes
-		arrow.Float16Traits.PutValue(b2[beg:end], float16.New(float32(i)))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float16Traits.CastFromBytes(b1)
-		v2 := arrow.Float16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v.Float32(), float32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float16.Num, N)
-	arrow.Float16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDecimal128Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Decimal128Traits.BytesRequired(N)
-	b1 := arrow.Decimal128Traits.CastToBytes([]decimal128.Num{
-		decimal128.New(0, 10),
-		decimal128.New(1, 10),
-		decimal128.New(2, 10),
-		decimal128.New(3, 10),
-		decimal128.New(4, 10),
-		decimal128.New(5, 10),
-		decimal128.New(6, 10),
-		decimal128.New(7, 10),
-		decimal128.New(8, 10),
-		decimal128.New(9, 10),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Decimal128SizeBytes
-		end := (i + 1) * arrow.Decimal128SizeBytes
-		arrow.Decimal128Traits.PutValue(b2[beg:end], decimal128.New(int64(i), 10))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Decimal128Traits.CastFromBytes(b1)
-		v2 := arrow.Decimal128Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Decimal128Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, decimal128.New(int64(i), 10); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]decimal128.Num, N)
-	arrow.Decimal128Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDecimal256Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Decimal256Traits.BytesRequired(N)
-	b1 := arrow.Decimal256Traits.CastToBytes([]decimal256.Num{
-		decimal256.New(0, 0, 0, 10),
-		decimal256.New(1, 1, 1, 10),
-		decimal256.New(2, 2, 2, 10),
-		decimal256.New(3, 3, 3, 10),
-		decimal256.New(4, 4, 4, 10),
-		decimal256.New(5, 5, 5, 10),
-		decimal256.New(6, 6, 6, 10),
-		decimal256.New(7, 7, 7, 10),
-		decimal256.New(8, 8, 8, 10),
-		decimal256.New(9, 9, 9, 10),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Decimal256SizeBytes
-		end := (i + 1) * arrow.Decimal256SizeBytes
-		arrow.Decimal256Traits.PutValue(b2[beg:end], decimal256.New(uint64(i), uint64(i), uint64(i), 10))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Decimal256Traits.CastFromBytes(b1)
-		v2 := arrow.Decimal256Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Decimal256Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, decimal256.New(uint64(i), uint64(i), uint64(i), 10); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]decimal256.Num, N)
-	arrow.Decimal256Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestMonthIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.MonthIntervalTraits.CastToBytes([]arrow.MonthInterval{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.MonthIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.MonthIntervalSizeBytes
-		end := (i + 1) * arrow.MonthIntervalSizeBytes
-		arrow.MonthIntervalTraits.PutValue(b2[beg:end], arrow.MonthInterval(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.MonthIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.MonthIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.MonthIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.MonthInterval(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.MonthInterval, N)
-	arrow.MonthIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDayTimeIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.DayTimeIntervalTraits.CastToBytes([]arrow.DayTimeInterval{
-		{0, 0}, {1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}, {6, 6}, {7, 7}, {8, 8}, {9, 9},
-	})
-
-	b2 := make([]byte, arrow.DayTimeIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.DayTimeIntervalSizeBytes
-		end := (i + 1) * arrow.DayTimeIntervalSizeBytes
-		arrow.DayTimeIntervalTraits.PutValue(b2[beg:end], arrow.DayTimeInterval{int32(i), int32(i)})
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.DayTimeIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.DayTimeIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.DayTimeIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, (arrow.DayTimeInterval{int32(i), int32(i)}); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.DayTimeInterval, N)
-	arrow.DayTimeIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestMonthDayNanoIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.MonthDayNanoIntervalTraits.CastToBytes([]arrow.MonthDayNanoInterval{
-		{0, 0, 0}, {1, 1, 1000}, {2, 2, 2000}, {3, 3, 3000}, {4, 4, 4000}, {5, 5, 5000}, {6, 6, 6000}, {7, 7, 7000}, {8, 8, 8000}, {9, 9, 9000},
-	})
-
-	b2 := make([]byte, arrow.MonthDayNanoIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.MonthDayNanoIntervalSizeBytes
-		end := (i + 1) * arrow.MonthDayNanoIntervalSizeBytes
-		arrow.MonthDayNanoIntervalTraits.PutValue(b2[beg:end], arrow.MonthDayNanoInterval{int32(i), int32(i), int64(i) * 1000})
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, (arrow.MonthDayNanoInterval{int32(i), int32(i), int64(i) * 1000}); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.MonthDayNanoInterval, N)
-	arrow.MonthDayNanoIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTimestampTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.TimestampTraits.CastToBytes([]arrow.Timestamp{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.TimestampTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.TimestampSizeBytes
-		end := (i + 1) * arrow.TimestampSizeBytes
-		arrow.TimestampTraits.PutValue(b2[beg:end], arrow.Timestamp(i))
-	}
-
-	if !bytes.Equal(b1, b2) {
-		v1 := arrow.TimestampTraits.CastFromBytes(b1)
-		v2 := arrow.TimestampTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.TimestampTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Timestamp(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Timestamp, N)
-	arrow.TimestampTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
diff --git a/go/arrow/type_traits_timestamp.go b/go/arrow/type_traits_timestamp.go
deleted file mode 100644
index e506b6f473d80..0000000000000
--- a/go/arrow/type_traits_timestamp.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var TimestampTraits timestampTraits
-
-const (
-	// TimestampSizeBytes specifies the number of bytes required to store a single Timestamp in memory
-	TimestampSizeBytes = int(unsafe.Sizeof(Timestamp(0)))
-)
-
-type timestampTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (timestampTraits) BytesRequired(n int) int { return TimestampSizeBytes * n }
-
-func (timestampTraits) PutValue(b []byte, v Timestamp) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Timestamp.
-//
-// NOTE: len(b) must be a multiple of TimestampSizeBytes.
-func (timestampTraits) CastFromBytes(b []byte) []Timestamp {
-	return GetData[Timestamp](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (timestampTraits) CastToBytes(b []Timestamp) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (timestampTraits) Copy(dst, src []Timestamp) { copy(dst, src) }
diff --git a/go/arrow/type_traits_view.go b/go/arrow/type_traits_view.go
deleted file mode 100644
index ef35bc0d7ec55..0000000000000
--- a/go/arrow/type_traits_view.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var ViewHeaderTraits viewHeaderTraits
-
-const (
-	ViewHeaderSizeBytes = int(unsafe.Sizeof(ViewHeader{}))
-)
-
-type viewHeaderTraits struct{}
-
-func (viewHeaderTraits) BytesRequired(n int) int { return ViewHeaderSizeBytes * n }
-
-func (viewHeaderTraits) PutValue(b []byte, v ViewHeader) {
-	endian.Native.PutUint32(b, uint32(v.size))
-	copy(b[4:], v.data[:])
-}
-
-func (viewHeaderTraits) CastFromBytes(b []byte) (res []ViewHeader) {
-	return GetData[ViewHeader](b)
-}
-
-func (viewHeaderTraits) CastToBytes(b []ViewHeader) (res []byte) {
-	return GetBytes(b)
-}
-
-func (viewHeaderTraits) Copy(dst, src []ViewHeader) { copy(dst, src) }
diff --git a/go/arrow/unionmode_string.go b/go/arrow/unionmode_string.go
deleted file mode 100644
index 394d4f6644277..0000000000000
--- a/go/arrow/unionmode_string.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Code generated by "stringer -type=UnionMode -linecomment"; DO NOT EDIT.
-
-package arrow
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[SparseMode-2]
-	_ = x[DenseMode-3]
-}
-
-const _UnionMode_name = "SPARSEDENSE"
-
-var _UnionMode_index = [...]uint8{0, 6, 11}
-
-func (i UnionMode) String() string {
-	i -= 2
-	if i < 0 || i >= UnionMode(len(_UnionMode_index)-1) {
-		return "UnionMode(" + strconv.FormatInt(int64(i+2), 10) + ")"
-	}
-	return _UnionMode_name[_UnionMode_index[i]:_UnionMode_index[i+1]]
-}
diff --git a/go/arrow/util/byte_size.go b/go/arrow/util/byte_size.go
deleted file mode 100644
index bb163fcef5fc0..0000000000000
--- a/go/arrow/util/byte_size.go
+++ /dev/null
@@ -1,79 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func isArrayDataNil(arrayData arrow.ArrayData) bool {
-	if arrayData == nil {
-		return true
-	}
-	if v, ok := arrayData.(*array.Data); ok {
-		return v == nil
-	}
-	panic("unknown ArrayData type")
-}
-
-func totalArrayDataSize(arrayData arrow.ArrayData, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	var sum int64
-	var void = struct{}{}
-	for _, buf := range arrayData.Buffers() {
-		if buf == nil {
-			continue
-		}
-		if _, ok := seenBuffers[buf]; !ok {
-			sum += int64(buf.Len())
-			seenBuffers[buf] = void
-		}
-	}
-	for _, child := range arrayData.Children() {
-		sum += totalArrayDataSize(child, seenBuffers)
-	}
-	dict := arrayData.Dictionary()
-	if !isArrayDataNil(dict) {
-		sum += totalArrayDataSize(dict, seenBuffers)
-	}
-	return sum
-}
-
-func totalArraySize(arr arrow.Array, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	return totalArrayDataSize(arr.Data(), seenBuffers)
-}
-
-func totalRecordSize(record arrow.Record, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	var sum int64
-	for _, c := range record.Columns() {
-		sum += totalArraySize(c, seenBuffers)
-	}
-	return sum
-}
-
-// TotalArraySize returns the sum of the number of bytes in each buffer referenced by the Array.
-func TotalArraySize(arr arrow.Array) int64 {
-	seenBuffer := make(map[*memory.Buffer]struct{})
-	return totalArraySize(arr, seenBuffer)
-}
-
-// TotalRecordSize return the sum of bytes in each buffer referenced by the Record.
-func TotalRecordSize(record arrow.Record) int64 {
-	seenBuffer := make(map[*memory.Buffer]struct{})
-	return totalRecordSize(record, seenBuffer)
-}
diff --git a/go/arrow/util/byte_size_test.go b/go/arrow/util/byte_size_test.go
deleted file mode 100644
index ff6d8ea7edf0c..0000000000000
--- a/go/arrow/util/byte_size_test.go
+++ /dev/null
@@ -1,110 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/util"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTotalArrayReusedBuffers(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-	bldr.Append(true)
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.FixedWidthTypes.Boolean},
-		{Name: "b", Type: arrow.FixedWidthTypes.Boolean},
-	}, nil), []arrow.Array{arr, arr}, 1)
-	defer rec.Release()
-
-	assert.Equal(t, int64(5), util.TotalRecordSize(rec))
-
-	rec1 := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.FixedWidthTypes.Boolean},
-	}, nil), []arrow.Array{arr}, 1)
-	defer rec1.Release()
-
-	// both records should have the same size as rec is using the same buffer
-	assert.Equal(t, int64(5), util.TotalRecordSize(rec1))
-}
-
-func TestTotalArraySizeBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	noNulls, _, err := array.FromJSON(mem,
-		arrow.PrimitiveTypes.Int16,
-		strings.NewReader("[1, 2, 3]"))
-	assert.NoError(t, err)
-	defer noNulls.Release()
-	assert.Equal(t, int64(10), util.TotalArraySize(noNulls))
-
-	withNulls, _, err := array.FromJSON(mem,
-		arrow.PrimitiveTypes.Int16,
-		strings.NewReader("[1, 2, 3, 4, null, 6, 7, 8, 9]"))
-	assert.NoError(t, err)
-	defer withNulls.Release()
-	assert.Equal(t, int64(22), util.TotalArraySize(withNulls))
-
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, int64(0), util.TotalArraySize(arr))
-}
-
-func TestTotalArraySizeNested(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	arrayWithChildren, _, err := array.FromJSON(mem,
-		arrow.ListOf(arrow.PrimitiveTypes.Int64),
-		strings.NewReader("[[0, 1, 2, 3, 4], [5], null]"))
-	assert.NoError(t, err)
-	defer arrayWithChildren.Release()
-	assert.Equal(t, int64(72), util.TotalArraySize(arrayWithChildren))
-}
-
-func TestTotalArraySizeRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recordBldr := array.NewRecordBuilder(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "b", Type: arrow.PrimitiveTypes.Int64},
-	}, nil))
-	defer recordBldr.Release()
-	recordBldr.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	recordBldr.Field(1).(*array.Int64Builder).AppendValues([]int64{4, 5, 6}, nil)
-	record := recordBldr.NewRecord()
-	defer record.Release()
-
-	assert.Equal(t, int64(44), util.TotalRecordSize(record))
-}
diff --git a/go/arrow/util/messages/README.md b/go/arrow/util/messages/README.md
deleted file mode 100644
index 312484f701a46..0000000000000
--- a/go/arrow/util/messages/README.md
+++ /dev/null
@@ -1,25 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-How to generate the .pb.go files
-
-```
-cd go/arrow/util/
-protoc -I ./ --go_out=./messages ./messages/types.proto
-```
diff --git a/go/arrow/util/messages/types.proto b/go/arrow/util/messages/types.proto
deleted file mode 100644
index 79b922a22a3be..0000000000000
--- a/go/arrow/util/messages/types.proto
+++ /dev/null
@@ -1,102 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-syntax = "proto3";
-import "google/protobuf/any.proto";
-
-option go_package = "../util_message";
-
-message ExampleMessage {
-  string field1 = 1;
-}
-
-message AllTheTypes {
-  string str = 1;
-  int32 int32 = 2;
-  int64 int64 = 3;
-  sint32 sint32 = 4;
-  sint64 sin64 = 5;
-  uint32 uint32 = 6;
-  uint64 uint64 = 7;
-  fixed32 fixed32 = 8;
-  fixed64 fixed64 = 9;
-  sfixed32 sfixed32 = 10;
-  bool bool = 11;
-  bytes bytes = 12;
-  double double = 13;
-  ExampleEnum enum = 14;
-  ExampleMessage message = 15;
-  oneof oneof {
-    string oneofstring = 16;
-    ExampleMessage oneofmessage = 17;
-  }
-  google.protobuf.Any any = 18;
-  map<int32, string> simple_map = 19;
-  map<string, ExampleMessage> complex_map = 20;
-  repeated string simple_list = 21;
-  repeated ExampleMessage complex_list = 22;
-
-  enum ExampleEnum {
-    OPTION_0 = 0;
-    OPTION_1 = 1;
-  }
-}
-
-message AllTheTypesNoAny {
-  string str = 1;
-  int32 int32 = 2;
-  int64 int64 = 3;
-  sint32 sint32 = 4;
-  sint64 sin64 = 5;
-  uint32 uint32 = 6;
-  uint64 uint64 = 7;
-  fixed32 fixed32 = 8;
-  fixed64 fixed64 = 9;
-  sfixed32 sfixed32 = 10;
-  bool bool = 11;
-  bytes bytes = 12;
-  double double = 13;
-  ExampleEnum enum = 14;
-  ExampleMessage message = 15;
-  oneof oneof {
-    string oneofstring = 16;
-    ExampleMessage oneofmessage = 17;
-  }
-  map<int32, string> simple_map = 19;
-  map<string, ExampleMessage> complex_map = 20;
-  repeated string simple_list = 21;
-  repeated ExampleMessage complex_list = 22;
-
-  enum ExampleEnum {
-    OPTION_0 = 0;
-    OPTION_1 = 1;
-  }
-}
-
-message SimpleNested {
-  repeated ExampleMessage simple_a = 1;
-  repeated ExampleMessage simple_b = 2;
-}
-
-message ComplexNested {
-  repeated AllTheTypesNoAny all_the_types_no_any_a = 1;
-  repeated AllTheTypesNoAny all_the_types_no_any_b = 2;
-}
-
-message DeepNested {
-  ComplexNested complex_nested = 1;
-  SimpleNested simple_nested = 2;
-}
diff --git a/go/arrow/util/protobuf_reflect.go b/go/arrow/util/protobuf_reflect.go
deleted file mode 100644
index c8cda96acf941..0000000000000
--- a/go/arrow/util/protobuf_reflect.go
+++ /dev/null
@@ -1,876 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/huandu/xstrings"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/reflect/protoreflect"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// ProtobufTypeHandler provides options on how protobuf fields should be handled in the conversion to arrow
-type ProtobufTypeHandler int
-
-const (
-	// OneOfNull means do not wrap oneOfs in a union, they are treated as separate fields
-	OneOfNull ProtobufTypeHandler = iota
-	// OneOfDenseUnion maps the protobuf OneOf to an arrow.DENSE_UNION
-	OneOfDenseUnion
-	// EnumNumber uses the Enum numeric value
-	EnumNumber
-	// EnumValue uses the Enum string value
-	EnumValue
-	// EnumDictionary uses both the numeric and string value and maps to an arrow.Dictionary
-	EnumDictionary
-)
-
-type schemaOptions struct {
-	exclusionPolicy    func(pfr *ProtobufFieldReflection) bool
-	fieldNameFormatter func(str string) string
-	oneOfHandler       ProtobufTypeHandler
-	enumHandler        ProtobufTypeHandler
-}
-
-// ProtobufFieldReflection represents the metadata and values of a protobuf field
-type ProtobufFieldReflection struct {
-	parent     *ProtobufMessageReflection
-	descriptor protoreflect.FieldDescriptor
-	prValue    protoreflect.Value
-	rValue     reflect.Value
-	schemaOptions
-	arrow.Field
-	isListItem bool
-}
-
-func (pfr *ProtobufFieldReflection) isNull() bool {
-	for pfr.rValue.Kind() == reflect.Ptr {
-		if pfr.rValue.IsNil() {
-			return true
-		}
-		pfr.rValue = pfr.rValue.Elem()
-	}
-
-	if !pfr.rValue.IsValid() || !pfr.prValue.IsValid() {
-		return true
-	}
-	return false
-}
-
-func (pfr *ProtobufFieldReflection) arrowField() arrow.Field {
-	return arrow.Field{
-		Name:     pfr.name(),
-		Type:     pfr.getDataType(),
-		Nullable: true,
-	}
-}
-
-func (pfr *ProtobufFieldReflection) protoreflectValue() protoreflect.Value {
-	return pfr.prValue
-}
-
-func (pfr *ProtobufFieldReflection) reflectValue() reflect.Value {
-	return pfr.rValue
-}
-
-func (pfr *ProtobufFieldReflection) GetDescriptor() protoreflect.FieldDescriptor {
-	return pfr.descriptor
-}
-
-func (pfr *ProtobufFieldReflection) name() string {
-	if pfr.isOneOf() && pfr.schemaOptions.oneOfHandler != OneOfNull {
-		return pfr.fieldNameFormatter(string(pfr.descriptor.ContainingOneof().Name()))
-	}
-	return pfr.fieldNameFormatter(string(pfr.descriptor.Name()))
-}
-
-func (pfr *ProtobufFieldReflection) arrowType() arrow.Type {
-	if pfr.isOneOf() && pfr.schemaOptions.oneOfHandler == OneOfDenseUnion {
-		return arrow.DENSE_UNION
-	}
-	if pfr.isEnum() {
-		switch pfr.enumHandler {
-		case EnumNumber:
-			return arrow.INT32
-		case EnumValue:
-			return arrow.STRING
-		case EnumDictionary:
-			return arrow.DICTIONARY
-		}
-	}
-	if pfr.isStruct() {
-		return arrow.STRUCT
-	}
-	if pfr.isMap() {
-		return arrow.MAP
-	}
-	if pfr.isList() {
-		return arrow.LIST
-	}
-	switch pfr.descriptor.Kind() {
-	case protoreflect.Int32Kind:
-		return arrow.INT32
-	case protoreflect.Int64Kind:
-		return arrow.INT64
-	case protoreflect.Sint32Kind:
-		return arrow.INT32
-	case protoreflect.Sint64Kind:
-		return arrow.INT64
-	case protoreflect.Uint32Kind:
-		return arrow.UINT32
-	case protoreflect.Uint64Kind:
-		return arrow.UINT64
-	case protoreflect.Fixed32Kind:
-		return arrow.UINT32
-	case protoreflect.Fixed64Kind:
-		return arrow.UINT64
-	case protoreflect.Sfixed32Kind:
-		return arrow.INT32
-	case protoreflect.Sfixed64Kind:
-		return arrow.INT64
-	case protoreflect.FloatKind:
-		return arrow.FLOAT32
-	case protoreflect.DoubleKind:
-		return arrow.FLOAT64
-	case protoreflect.StringKind:
-		return arrow.STRING
-	case protoreflect.BytesKind:
-		return arrow.BINARY
-	case protoreflect.BoolKind:
-		return arrow.BOOL
-	}
-	return arrow.NULL
-}
-
-func (pfr *ProtobufFieldReflection) isOneOf() bool {
-	return pfr.descriptor.ContainingOneof() != nil
-}
-
-func (pfr *ProtobufFieldReflection) isEnum() bool {
-	return pfr.descriptor.Kind() == protoreflect.EnumKind
-}
-
-func (pfr *ProtobufFieldReflection) isStruct() bool {
-	return pfr.descriptor.Kind() == protoreflect.MessageKind && !pfr.descriptor.IsMap() && !pfr.isList()
-}
-
-func (pfr *ProtobufFieldReflection) isMap() bool {
-	return pfr.descriptor.Kind() == protoreflect.MessageKind && pfr.descriptor.IsMap()
-}
-
-func (pfr *ProtobufFieldReflection) isList() bool {
-	return pfr.descriptor.IsList() && !pfr.isListItem
-}
-
-// ProtobufMessageReflection represents the metadata and values of a protobuf message
-type ProtobufMessageReflection struct {
-	descriptor protoreflect.MessageDescriptor
-	message    protoreflect.Message
-	rValue     reflect.Value
-	schemaOptions
-	fields []ProtobufMessageFieldReflection
-}
-
-func (psr ProtobufMessageReflection) unmarshallAny() ProtobufMessageReflection {
-	if psr.descriptor.FullName() == "google.protobuf.Any" && psr.rValue.IsValid() {
-		for psr.rValue.Type().Kind() == reflect.Ptr {
-			psr.rValue = reflect.Indirect(psr.rValue)
-		}
-		fieldValueAsAny, _ := psr.rValue.Interface().(anypb.Any)
-		msg, _ := fieldValueAsAny.UnmarshalNew()
-
-		v := reflect.ValueOf(msg)
-		for v.Kind() == reflect.Ptr {
-			v = reflect.Indirect(v)
-		}
-
-		return ProtobufMessageReflection{
-			descriptor:    msg.ProtoReflect().Descriptor(),
-			message:       msg.ProtoReflect(),
-			rValue:        v,
-			schemaOptions: psr.schemaOptions,
-		}
-	} else {
-		return psr
-	}
-}
-
-func (psr ProtobufMessageReflection) getArrowFields() []arrow.Field {
-	var fields []arrow.Field
-
-	for pfr := range psr.generateStructFields() {
-		fields = append(fields, pfr.arrowField())
-	}
-
-	return fields
-}
-
-type protobufListReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asList() protobufListReflection {
-	return protobufListReflection{*pfr}
-}
-
-func (plr protobufListReflection) getDataType() arrow.DataType {
-	pfr := ProtobufFieldReflection{
-		descriptor:    plr.descriptor,
-		schemaOptions: plr.schemaOptions,
-		isListItem:    true,
-	}
-	return arrow.ListOf(pfr.getDataType())
-}
-
-type protobufUnionReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asUnion() protobufUnionReflection {
-	return protobufUnionReflection{*pfr}
-}
-
-func (pur protobufUnionReflection) isThisOne() bool {
-	for pur.rValue.Kind() == reflect.Ptr || pur.rValue.Kind() == reflect.Interface {
-		pur.rValue = pur.rValue.Elem()
-	}
-	return pur.rValue.Field(0).String() == pur.prValue.String()
-}
-
-func (pur protobufUnionReflection) whichOne() arrow.UnionTypeCode {
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-		if pfr.asUnion().isThisOne() {
-			return pur.getUnionTypeCode(int32(pfr.descriptor.Number()))
-		}
-	}
-	// i.e. all null
-	return -1
-}
-
-func (pur protobufUnionReflection) getField() *ProtobufFieldReflection {
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-		if pfr.asUnion().isThisOne() {
-			return pfr
-		}
-	}
-	// i.e. all null
-	return nil
-}
-
-func (pur protobufUnionReflection) getUnionTypeCode(n int32) arrow.UnionTypeCode {
-	//We use the index of the field number as there is a limit on the arrow.UnionTypeCode (127)
-	//which a protobuf Number could realistically exceed
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		if n == int32(fds.Get(i).Number()) {
-			return int8(i)
-		}
-	}
-	return -1
-}
-
-func (pur protobufUnionReflection) generateUnionFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-	go func() {
-		defer close(out)
-		fds := pur.descriptor.ContainingOneof().Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-			// Do not get stuck in a recursion loop
-			pfr.oneOfHandler = OneOfNull
-			if pfr.exclusionPolicy(pfr) {
-				continue
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (pur protobufUnionReflection) getArrowFields() []arrow.Field {
-	var fields []arrow.Field
-
-	for pfr := range pur.generateUnionFields() {
-		fields = append(fields, pfr.arrowField())
-	}
-
-	return fields
-}
-
-func (pur protobufUnionReflection) getDataType() arrow.DataType {
-	fds := pur.getArrowFields()
-	typeCodes := make([]arrow.UnionTypeCode, len(fds))
-	for i := 0; i < len(fds); i++ {
-		typeCodes[i] = arrow.UnionTypeCode(i)
-	}
-	return arrow.DenseUnionOf(fds, typeCodes)
-}
-
-type protobufDictReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asDictionary() protobufDictReflection {
-	return protobufDictReflection{*pfr}
-}
-
-func (pdr protobufDictReflection) getDataType() arrow.DataType {
-	return &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Int32,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}
-}
-
-func (pdr protobufDictReflection) getDictValues(mem memory.Allocator) arrow.Array {
-	enumValues := pdr.descriptor.Enum().Values()
-	bldr := array.NewStringBuilder(mem)
-	for i := 0; i < enumValues.Len(); i++ {
-		bldr.Append(string(enumValues.Get(i).Name()))
-	}
-	return bldr.NewArray()
-}
-
-type protobufMapReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asMap() protobufMapReflection {
-	return protobufMapReflection{*pfr}
-}
-
-func (pmr protobufMapReflection) getDataType() arrow.DataType {
-	for kvp := range pmr.generateKeyValuePairs() {
-		return kvp.getDataType()
-	}
-	return protobufMapKeyValuePairReflection{
-		k: ProtobufFieldReflection{
-			parent:        pmr.parent,
-			descriptor:    pmr.descriptor.MapKey(),
-			schemaOptions: pmr.schemaOptions,
-		},
-		v: ProtobufFieldReflection{
-			parent:        pmr.parent,
-			descriptor:    pmr.descriptor.MapValue(),
-			schemaOptions: pmr.schemaOptions,
-		},
-	}.getDataType()
-}
-
-type protobufMapKeyValuePairReflection struct {
-	k ProtobufFieldReflection
-	v ProtobufFieldReflection
-}
-
-func (pmr protobufMapKeyValuePairReflection) getDataType() arrow.DataType {
-	return arrow.MapOf(pmr.k.getDataType(), pmr.v.getDataType())
-}
-
-func (pmr protobufMapReflection) generateKeyValuePairs() chan protobufMapKeyValuePairReflection {
-	out := make(chan protobufMapKeyValuePairReflection)
-
-	go func() {
-		defer close(out)
-		if !pmr.rValue.IsValid() {
-			kvp := protobufMapKeyValuePairReflection{
-				k: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapKey(),
-					schemaOptions: pmr.schemaOptions,
-				},
-				v: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapValue(),
-					schemaOptions: pmr.schemaOptions,
-				},
-			}
-			out <- kvp
-			return
-		}
-		for _, k := range pmr.rValue.MapKeys() {
-			kvp := protobufMapKeyValuePairReflection{
-				k: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapKey(),
-					prValue:       getMapKey(k),
-					rValue:        k,
-					schemaOptions: pmr.schemaOptions,
-				},
-				v: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapValue(),
-					prValue:       pmr.prValue.Map().Get(protoreflect.MapKey(getMapKey(k))),
-					rValue:        pmr.rValue.MapIndex(k),
-					schemaOptions: pmr.schemaOptions,
-				},
-			}
-			out <- kvp
-		}
-	}()
-
-	return out
-}
-
-func getMapKey(v reflect.Value) protoreflect.Value {
-	switch v.Kind() {
-	case reflect.String:
-		return protoreflect.ValueOf(v.String())
-	case reflect.Int32, reflect.Int64:
-		return protoreflect.ValueOf(v.Int())
-	case reflect.Bool:
-		return protoreflect.ValueOf(v.Bool())
-	case reflect.Uint32, reflect.Uint64:
-		return protoreflect.ValueOf(v.Uint())
-	default:
-		panic("Unmapped protoreflect map key type")
-	}
-}
-
-func (psr ProtobufMessageReflection) generateStructFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		fds := psr.descriptor.Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := psr.getFieldByName(string(fds.Get(i).Name()))
-			if psr.exclusionPolicy(pfr) {
-				continue
-			}
-			if pfr.arrowType() == arrow.DENSE_UNION {
-				if pfr.descriptor.Number() != pfr.descriptor.ContainingOneof().Fields().Get(0).Number() {
-					continue
-				}
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (psr ProtobufMessageReflection) generateFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		fds := psr.descriptor.Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := psr.getFieldByName(string(fds.Get(i).Name()))
-			if psr.exclusionPolicy(pfr) {
-				continue
-			}
-			if pfr.arrowType() == arrow.DENSE_UNION {
-				if pfr.descriptor.Number() != pfr.descriptor.ContainingOneof().Fields().Get(0).Number() {
-					continue
-				}
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (pfr *ProtobufFieldReflection) asStruct() ProtobufMessageReflection {
-	psr := ProtobufMessageReflection{
-		descriptor:    pfr.descriptor.Message(),
-		rValue:        pfr.rValue,
-		schemaOptions: pfr.schemaOptions,
-	}
-	if pfr.prValue.IsValid() {
-		psr.message = pfr.prValue.Message()
-	}
-	psr = psr.unmarshallAny()
-	return psr
-}
-
-func (psr ProtobufMessageReflection) getDataType() arrow.DataType {
-	return arrow.StructOf(psr.getArrowFields()...)
-}
-
-func (psr ProtobufMessageReflection) getFieldByName(n string) *ProtobufFieldReflection {
-	fd := psr.descriptor.Fields().ByTextName(xstrings.ToSnakeCase(n))
-	fv := psr.rValue
-	if fv.IsValid() {
-		if !fv.IsZero() {
-			for fv.Kind() == reflect.Ptr || fv.Kind() == reflect.Interface {
-				fv = fv.Elem()
-			}
-			if fd.ContainingOneof() != nil {
-				n = string(fd.ContainingOneof().Name())
-			}
-			fv = fv.FieldByName(xstrings.ToCamelCase(n))
-			for fv.Kind() == reflect.Ptr {
-				fv = fv.Elem()
-			}
-		}
-	}
-	pfr := ProtobufFieldReflection{
-		parent:        &psr,
-		descriptor:    fd,
-		rValue:        fv,
-		schemaOptions: psr.schemaOptions,
-	}
-	if psr.message != nil {
-		pfr.prValue = psr.message.Get(fd)
-	}
-	return &pfr
-}
-
-func (plr protobufListReflection) generateListItems() chan ProtobufFieldReflection {
-	out := make(chan ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		for i := 0; i < plr.prValue.List().Len(); i++ {
-			out <- ProtobufFieldReflection{
-				descriptor:    plr.descriptor,
-				prValue:       plr.prValue.List().Get(i),
-				rValue:        plr.rValue.Index(i),
-				schemaOptions: plr.schemaOptions,
-			}
-		}
-	}()
-
-	return out
-}
-
-func (pfr *ProtobufFieldReflection) getDataType() arrow.DataType {
-	switch pfr.arrowType() {
-	case arrow.DENSE_UNION:
-		return pfr.asUnion().getDataType()
-	case arrow.DICTIONARY:
-		return pfr.asDictionary().getDataType()
-	case arrow.LIST:
-		return pfr.asList().getDataType()
-	case arrow.MAP:
-		return pfr.asMap().getDataType()
-	case arrow.STRUCT:
-		return pfr.asStruct().getDataType()
-	case arrow.INT32:
-		return arrow.PrimitiveTypes.Int32
-	case arrow.INT64:
-		return arrow.PrimitiveTypes.Int64
-	case arrow.UINT32:
-		return arrow.PrimitiveTypes.Uint32
-	case arrow.UINT64:
-		return arrow.PrimitiveTypes.Uint64
-	case arrow.FLOAT32:
-		return arrow.PrimitiveTypes.Float32
-	case arrow.FLOAT64:
-		return arrow.PrimitiveTypes.Float64
-	case arrow.STRING:
-		return arrow.BinaryTypes.String
-	case arrow.BINARY:
-		return arrow.BinaryTypes.Binary
-	case arrow.BOOL:
-		return arrow.FixedWidthTypes.Boolean
-	}
-	return nil
-}
-
-type protobufReflection interface {
-	name() string
-	arrowType() arrow.Type
-	protoreflectValue() protoreflect.Value
-	reflectValue() reflect.Value
-	GetDescriptor() protoreflect.FieldDescriptor
-	isNull() bool
-	isEnum() bool
-	asDictionary() protobufDictReflection
-	isList() bool
-	asList() protobufListReflection
-	isMap() bool
-	asMap() protobufMapReflection
-	isStruct() bool
-	asStruct() ProtobufMessageReflection
-	isOneOf() bool
-	asUnion() protobufUnionReflection
-}
-
-// ProtobufMessageFieldReflection links together the message and it's fields
-type ProtobufMessageFieldReflection struct {
-	parent *ProtobufMessageReflection
-	protobufReflection
-	arrow.Field
-}
-
-// Schema returns an arrow.Schema representing a protobuf message
-func (msg ProtobufMessageReflection) Schema() *arrow.Schema {
-	var fields []arrow.Field
-	for _, f := range msg.fields {
-		fields = append(fields, f.Field)
-	}
-	return arrow.NewSchema(fields, nil)
-}
-
-// Record returns an arrow.Record for a protobuf message
-func (msg ProtobufMessageReflection) Record(mem memory.Allocator) arrow.Record {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	schema := msg.Schema()
-
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-
-	var fieldNames []string
-	for i, f := range msg.fields {
-		f.AppendValueOrNull(recordBuilder.Field(i), mem)
-		fieldNames = append(fieldNames, f.protobufReflection.name())
-	}
-
-	var arrays []arrow.Array
-	for _, bldr := range recordBuilder.Fields() {
-		a := bldr.NewArray()
-		arrays = append(arrays, a)
-	}
-
-	structArray, _ := array.NewStructArray(arrays, fieldNames)
-
-	return array.RecordFromStructArray(structArray, schema)
-}
-
-// NewProtobufMessageReflection initialises a ProtobufMessageReflection
-// can be used to convert a protobuf message into an arrow Record
-func NewProtobufMessageReflection(msg proto.Message, options ...option) *ProtobufMessageReflection {
-	v := reflect.ValueOf(msg)
-	for v.Kind() == reflect.Ptr {
-		v = v.Elem()
-	}
-	includeAll := func(pfr *ProtobufFieldReflection) bool {
-		return false
-	}
-	noFormatting := func(str string) string {
-		return str
-	}
-	psr := &ProtobufMessageReflection{
-		descriptor: msg.ProtoReflect().Descriptor(),
-		message:    msg.ProtoReflect(),
-		rValue:     v,
-		schemaOptions: schemaOptions{
-			exclusionPolicy:    includeAll,
-			fieldNameFormatter: noFormatting,
-			oneOfHandler:       OneOfNull,
-			enumHandler:        EnumDictionary,
-		},
-	}
-
-	for _, opt := range options {
-		opt(psr)
-	}
-
-	var fields []ProtobufMessageFieldReflection
-
-	for pfr := range psr.generateFields() {
-		fields = append(fields, ProtobufMessageFieldReflection{
-			parent:             psr,
-			protobufReflection: pfr,
-			Field:              pfr.arrowField(),
-		})
-	}
-
-	psr.fields = fields
-
-	return psr
-}
-
-type option func(*ProtobufMessageReflection)
-
-// WithExclusionPolicy is an option for a ProtobufMessageReflection
-// WithExclusionPolicy acts as a deny filter on the fields of a protobuf message
-// i.e. prevents them from being included in the schema.
-// A use case for this is to exclude fields containing PII.
-func WithExclusionPolicy(ex func(pfr *ProtobufFieldReflection) bool) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.exclusionPolicy = ex
-	}
-}
-
-// WithFieldNameFormatter is an option for a ProtobufMessageReflection
-// WithFieldNameFormatter enables customisation of the field names in the arrow schema
-// By default, the field names are taken from the protobuf message (.proto file)
-func WithFieldNameFormatter(formatter func(str string) string) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.fieldNameFormatter = formatter
-	}
-}
-
-// WithOneOfHandler is an option for a ProtobufMessageReflection
-// WithOneOfHandler enables customisation of the protobuf oneOf type in the arrow schema
-// By default, the oneOfs are mapped to separate columns
-func WithOneOfHandler(oneOfHandler ProtobufTypeHandler) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.oneOfHandler = oneOfHandler
-	}
-}
-
-// WithEnumHandler is an option for a ProtobufMessageReflection
-// WithEnumHandler enables customisation of the protobuf Enum type in the arrow schema
-// By default, the Enums are mapped to arrow.Dictionary
-func WithEnumHandler(enumHandler ProtobufTypeHandler) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.enumHandler = enumHandler
-	}
-}
-
-// AppendValueOrNull add the value of a protobuf field to an arrow array builder
-func (f ProtobufMessageFieldReflection) AppendValueOrNull(b array.Builder, mem memory.Allocator) error {
-	pv := f.protoreflectValue()
-	fd := f.GetDescriptor()
-
-	if f.isNull() {
-		b.AppendNull()
-		return nil
-	}
-
-	switch b.Type().ID() {
-	case arrow.STRING:
-		if f.protobufReflection.isEnum() {
-			b.(*array.StringBuilder).Append(string(fd.Enum().Values().ByNumber(pv.Enum()).Name()))
-		} else {
-			b.(*array.StringBuilder).Append(pv.String())
-		}
-	case arrow.BINARY:
-		b.(*array.BinaryBuilder).Append(pv.Bytes())
-	case arrow.INT32:
-		if f.protobufReflection.isEnum() {
-			b.(*array.Int32Builder).Append(int32(f.reflectValue().Int()))
-		} else {
-			b.(*array.Int32Builder).Append(int32(pv.Int()))
-		}
-	case arrow.INT64:
-		b.(*array.Int64Builder).Append(pv.Int())
-	case arrow.FLOAT64:
-		b.(*array.Float64Builder).Append(pv.Float())
-	case arrow.UINT32:
-		b.(*array.Uint32Builder).Append(uint32(pv.Uint()))
-	case arrow.UINT64:
-		b.(*array.Uint64Builder).Append(pv.Uint())
-	case arrow.BOOL:
-		b.(*array.BooleanBuilder).Append(pv.Bool())
-	case arrow.DENSE_UNION:
-		ub := b.(array.UnionBuilder)
-		pur := f.asUnion()
-		if pur.whichOne() == -1 {
-			ub.AppendNull()
-			break
-		}
-		ub.Append(pur.whichOne())
-		cb := ub.Child(int(pur.whichOne()))
-		err := ProtobufMessageFieldReflection{
-			parent:             f.parent,
-			protobufReflection: pur.getField(),
-			Field:              pur.arrowField(),
-		}.AppendValueOrNull(cb, mem)
-		if err != nil {
-			return err
-		}
-	case arrow.DICTIONARY:
-		pdr := f.asDictionary()
-		db := b.(*array.BinaryDictionaryBuilder)
-		err := db.InsertStringDictValues(pdr.getDictValues(mem).(*array.String))
-		if err != nil {
-			return err
-		}
-		enumNum := int(f.reflectValue().Int())
-		enumVal := fd.Enum().Values().ByNumber(protoreflect.EnumNumber(enumNum)).Name()
-		err = db.AppendValueFromString(string(enumVal))
-		if err != nil {
-			return err
-		}
-	case arrow.STRUCT:
-		sb := b.(*array.StructBuilder)
-		sb.Append(true)
-		child := ProtobufMessageFieldReflection{
-			parent: f.parent,
-		}
-		for i, field := range f.Field.Type.(*arrow.StructType).Fields() {
-			child.protobufReflection = f.asStruct().getFieldByName(field.Name)
-			child.Field = field
-			err := child.AppendValueOrNull(sb.FieldBuilder(i), mem)
-			if err != nil {
-				return err
-			}
-		}
-	case arrow.LIST:
-		lb := b.(*array.ListBuilder)
-		l := pv.List().Len()
-		if l == 0 {
-			lb.AppendEmptyValue()
-			break
-		}
-		lb.ValueBuilder().Reserve(l)
-		lb.Append(true)
-		child := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.ListType).ElemField(),
-		}
-		for li := range f.asList().generateListItems() {
-			child.protobufReflection = &li
-			err := child.AppendValueOrNull(lb.ValueBuilder(), mem)
-			if err != nil {
-				return err
-			}
-		}
-	case arrow.MAP:
-		mb := b.(*array.MapBuilder)
-		l := pv.Map().Len()
-		if l == 0 {
-			mb.AppendEmptyValue()
-			break
-		}
-		mb.KeyBuilder().Reserve(l)
-		mb.ItemBuilder().Reserve(l)
-		mb.Append(true)
-		k := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.MapType).KeyField(),
-		}
-		v := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.MapType).ItemField(),
-		}
-		for kvp := range f.asMap().generateKeyValuePairs() {
-			k.protobufReflection = &kvp.k
-			err := k.AppendValueOrNull(mb.KeyBuilder(), mem)
-			if err != nil {
-				return err
-			}
-			v.protobufReflection = &kvp.v
-			err = v.AppendValueOrNull(mb.ItemBuilder(), mem)
-			if err != nil {
-				return err
-			}
-		}
-	default:
-		return fmt.Errorf("not able to appendValueOrNull for type %s", b.Type().ID())
-	}
-	return nil
-}
diff --git a/go/arrow/util/protobuf_reflect_test.go b/go/arrow/util/protobuf_reflect_test.go
deleted file mode 100644
index 7420aa726337d..0000000000000
--- a/go/arrow/util/protobuf_reflect_test.go
+++ /dev/null
@@ -1,498 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"encoding/json"
-	"fmt"
-	"testing"
-
-	"google.golang.org/protobuf/proto"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/util/util_message"
-	"github.com/huandu/xstrings"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-type Fixture struct {
-	msg     proto.Message
-	schema  string
-	jsonStr string
-}
-
-type J map[string]any
-
-func AllTheTypesFixture() Fixture {
-	e := J{"field1": "Example"}
-
-	m := J{
-		"str":          "Hello",
-		"int32":        10,
-		"int64":        100,
-		"sint32":       -10,
-		"sin64":        -100,
-		"uint32":       10,
-		"uint64":       100,
-		"fixed32":      10,
-		"fixed64":      1000,
-		"sfixed32":     10,
-		"bool":         false,
-		"bytes":        "SGVsbG8sIHdvcmxkIQ==",
-		"double":       1.1,
-		"enum":         "OPTION_1",
-		"message":      e,
-		"oneof":        []any{0, "World"},
-		"any":          J{"field1": "Example"},
-		"simple_map":   []J{{"key": 99, "value": "Hello"}},
-		"complex_map":  []J{{"key": "complex", "value": e}},
-		"simple_list":  []any{"Hello", "World"},
-		"complex_list": []J{e},
-	}
-	jm, err := json.Marshal(m)
-	if err != nil {
-		panic(err)
-	}
-	jsonString := string(jm)
-
-	exampleMsg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-	anyMsg, _ := anypb.New(&exampleMsg)
-
-	msg := util_message.AllTheTypes{
-		Str:      "Hello",
-		Int32:    10,
-		Int64:    100,
-		Sint32:   -10,
-		Sin64:    -100,
-		Uint32:   10,
-		Uint64:   100,
-		Fixed32:  10,
-		Fixed64:  1000,
-		Sfixed32: 10,
-		Bool:     false,
-		Bytes:    []byte("Hello, world!"),
-		Double:   1.1,
-		Enum:     util_message.AllTheTypes_OPTION_1,
-		Message:  &exampleMsg,
-		Oneof:    &util_message.AllTheTypes_Oneofstring{Oneofstring: "World"},
-		Any:      anyMsg,
-		//Breaks the test as the Golang maps have a non-deterministic order
-		//SimpleMap:   map[int32]string{99: "Hello", 100: "World", 98: "How", 101: "Are", 1: "You"},
-		SimpleMap:   map[int32]string{99: "Hello"},
-		ComplexMap:  map[string]*util_message.ExampleMessage{"complex": &exampleMsg},
-		SimpleList:  []string{"Hello", "World"},
-		ComplexList: []*util_message.ExampleMessage{&exampleMsg},
-	}
-
-	schema := `schema:
-  fields: 22
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneofstring: type=utf8, nullable
-    - oneofmessage: type=struct<field1: utf8>, nullable
-    - any: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	return Fixture{
-		msg:     &msg,
-		schema:  schema,
-		jsonStr: jsonString,
-	}
-}
-
-func AllTheTypesNoAnyFixture() Fixture {
-	exampleMsg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-
-	msg := util_message.AllTheTypesNoAny{
-		Str:      "Hello",
-		Int32:    10,
-		Int64:    100,
-		Sint32:   -10,
-		Sin64:    -100,
-		Uint32:   10,
-		Uint64:   100,
-		Fixed32:  10,
-		Fixed64:  1000,
-		Sfixed32: 10,
-		Bool:     false,
-		Bytes:    []byte("Hello, world!"),
-		Double:   1.1,
-		Enum:     util_message.AllTheTypesNoAny_OPTION_1,
-		Message:  &exampleMsg,
-		Oneof:    &util_message.AllTheTypesNoAny_Oneofstring{Oneofstring: "World"},
-		//Breaks the test as the Golang maps have a non-deterministic order
-		//SimpleMap:   map[int32]string{99: "Hello", 100: "World", 98: "How", 101: "Are", 1: "You"},
-		SimpleMap:   map[int32]string{99: "Hello"},
-		ComplexMap:  map[string]*util_message.ExampleMessage{"complex": &exampleMsg},
-		SimpleList:  []string{"Hello", "World"},
-		ComplexList: []*util_message.ExampleMessage{&exampleMsg},
-	}
-
-	schema := `schema:
-  fields: 22
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneofstring: type=utf8, nullable
-    - oneofmessage: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	jsonStr := `{
-			"str":"Hello",
-			"int32":10,
-			"int64":100,
-			"sint32":-10,
-			"sin64":-100,
-			"uint32":10,
-			"uint64":100,
-			"fixed32":10,
-			"fixed64":1000,
-			"sfixed32":10,
-			"bool":false,
-			"bytes":"SGVsbG8sIHdvcmxkIQ==",
-			"double":1.1,
-			"enum":"OPTION_1",
-			"message":{"field1":"Example"},
-			"oneofmessage": { "field1": null },
-			"oneofstring": "World",
-			"simple_map":[{"key":99,"value":"Hello"}],
-			"complex_map":[{"key":"complex","value":{"field1":"Example"}}],
-			"simple_list":["Hello","World"],
-			"complex_list":[{"field1":"Example"}]
-		}`
-
-	return Fixture{
-		msg:     &msg,
-		schema:  schema,
-		jsonStr: jsonStr,
-	}
-}
-
-func CheckSchema(t *testing.T, pmr *ProtobufMessageReflection, want string) {
-	got := pmr.Schema().String()
-	require.Equal(t, got, want, "got: %s\nwant: %s", got, want)
-}
-
-func CheckRecord(t *testing.T, pmr *ProtobufMessageReflection, jsonStr string) {
-	rec := pmr.Record(nil)
-	got, err := json.Marshal(rec)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(got), "got: %s\nwant: %s", got, jsonStr)
-}
-
-func TestGetSchema(t *testing.T) {
-	f := AllTheTypesFixture()
-
-	pmr := NewProtobufMessageReflection(f.msg)
-	CheckSchema(t, pmr, f.schema)
-
-	pmr = NewProtobufMessageReflection(f.msg, WithOneOfHandler(OneOfDenseUnion))
-	want := `schema:
-  fields: 21
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneof: type=dense_union<oneofstring: type=utf8, nullable=0, oneofmessage: type=struct<field1: utf8>, nullable=1>, nullable
-    - any: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-	CheckSchema(t, pmr, want)
-
-	excludeComplex := func(pfr *ProtobufFieldReflection) bool {
-		return pfr.isMap() || pfr.isList() || pfr.isStruct()
-	}
-
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(excludeComplex))
-	want = `schema:
-  fields: 15
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - oneofstring: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(excludeComplex),
-		WithFieldNameFormatter(xstrings.ToCamelCase),
-	)
-	want = `schema:
-  fields: 15
-    - Str: type=utf8, nullable
-    - Int32: type=int32, nullable
-    - Int64: type=int64, nullable
-    - Sint32: type=int32, nullable
-    - Sin64: type=int64, nullable
-    - Uint32: type=uint32, nullable
-    - Uint64: type=uint64, nullable
-    - Fixed32: type=uint32, nullable
-    - Fixed64: type=uint64, nullable
-    - Sfixed32: type=int32, nullable
-    - Bool: type=bool, nullable
-    - Bytes: type=binary, nullable
-    - Double: type=float64, nullable
-    - Enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - Oneofstring: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-
-	onlyEnum := func(pfr *ProtobufFieldReflection) bool {
-		return !pfr.isEnum()
-	}
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(onlyEnum),
-		WithEnumHandler(EnumNumber),
-	)
-	want = `schema:
-  fields: 1
-    - enum: type=int32, nullable`
-	CheckSchema(t, pmr, want)
-
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(onlyEnum),
-		WithEnumHandler(EnumValue),
-	)
-	want = `schema:
-  fields: 1
-    - enum: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-}
-
-func TestRecordFromProtobuf(t *testing.T) {
-	f := AllTheTypesFixture()
-
-	pmr := NewProtobufMessageReflection(f.msg, WithOneOfHandler(OneOfDenseUnion))
-	CheckRecord(t, pmr, fmt.Sprintf(`[%s]`, f.jsonStr))
-
-	onlyEnum := func(pfr *ProtobufFieldReflection) bool { return !pfr.isEnum() }
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(onlyEnum), WithEnumHandler(EnumValue))
-	jsonStr := `[ { "enum":"OPTION_1" } ]`
-	CheckRecord(t, pmr, jsonStr)
-
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(onlyEnum), WithEnumHandler(EnumNumber))
-	jsonStr = `[ { "enum":1 } ]`
-	CheckRecord(t, pmr, jsonStr)
-}
-
-func TestNullRecordFromProtobuf(t *testing.T) {
-	pmr := NewProtobufMessageReflection(&util_message.AllTheTypes{})
-	CheckRecord(t, pmr, `[{
-		"str":"",
-		"int32":0,
-		"int64":0,
-		"sint32":0,
-		"sin64":0,
-		"uint32":0,
-		"uint64":0,
-		"fixed32":0,
-		"fixed64":0,
-		"sfixed32":0,
-		"bool":false,
-		"bytes":null,
-		"double":0,
-		"enum":"OPTION_0",
-		"message":null,
-		"oneofmessage":{"field1":""},
-		"oneofstring":"",
-		"any": null,
-		"simple_map":[],
-		"complex_map":[],
-		"simple_list":[],
-		"complex_list":[]
-	}]`)
-}
-
-func TestExcludedNested(t *testing.T) {
-	msg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-	schema := `schema:
-  fields: 2
-    - simple_a: type=list<item: struct<field1: utf8>, nullable>, nullable
-    - simple_b: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	simpleNested := util_message.SimpleNested{
-		SimpleA: []*util_message.ExampleMessage{&msg},
-		SimpleB: []*util_message.ExampleMessage{&msg},
-	}
-	pmr := NewProtobufMessageReflection(&simpleNested)
-	jsonStr := `[{ "simple_a":[{"field1":"Example"}], "simple_b":[{"field1":"Example"}] }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	//exclude one value
-	simpleNested = util_message.SimpleNested{
-		SimpleA: []*util_message.ExampleMessage{&msg},
-	}
-	jsonStr = `[{ "simple_a":[{"field1":"Example"}], "simple_b":[]}]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	////exclude both values
-	simpleNested = util_message.SimpleNested{}
-	jsonStr = `[{ "simple_a":[], "simple_b":[] }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	f := AllTheTypesNoAnyFixture()
-	schema = `schema:
-  fields: 2
-    - all_the_types_no_any_a: type=list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, nullable
-    - all_the_types_no_any_b: type=list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, nullable`
-
-	complexNested := util_message.ComplexNested{
-		AllTheTypesNoAnyA: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-		AllTheTypesNoAnyB: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-	}
-	jsonStr = fmt.Sprintf(`[{ "all_the_types_no_any_a": [%s], "all_the_types_no_any_b": [%s] }]`, f.jsonStr, f.jsonStr)
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude one value
-	complexNested = util_message.ComplexNested{
-		AllTheTypesNoAnyB: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-	}
-	jsonStr = fmt.Sprintf(`[{ "all_the_types_no_any_a": [], "all_the_types_no_any_b": [%s] }]`, f.jsonStr)
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude both values
-	complexNested = util_message.ComplexNested{}
-	jsonStr = `[{ "all_the_types_no_any_a": [], "all_the_types_no_any_b": [] }]`
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	schema = `schema:
-  fields: 2
-    - complex_nested: type=struct<all_the_types_no_any_a: list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, all_the_types_no_any_b: list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>>, nullable
-    - simple_nested: type=struct<simple_a: list<item: struct<field1: utf8>, nullable>, simple_b: list<item: struct<field1: utf8>, nullable>>, nullable`
-
-	deepNested := util_message.DeepNested{
-		ComplexNested: &complexNested,
-		SimpleNested:  &simpleNested,
-	}
-	jsonStr = `[{ "simple_nested": {"simple_a":[], "simple_b":[]}, "complex_nested": {"all_the_types_no_any_a": [], "all_the_types_no_any_b": []} }]`
-	pmr = NewProtobufMessageReflection(&deepNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude one value
-	deepNested = util_message.DeepNested{
-		ComplexNested: &complexNested,
-	}
-	jsonStr = `[{ "simple_nested": null, "complex_nested": {"all_the_types_no_any_a": [], "all_the_types_no_any_b": []} }]`
-	pmr = NewProtobufMessageReflection(&deepNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude both values
-	deepNested = util_message.DeepNested{}
-	pmr = NewProtobufMessageReflection(&deepNested)
-	jsonStr = `[{ "simple_nested": null, "complex_nested": null }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-}
-
-type testProtobufReflection struct {
-	ProtobufFieldReflection
-}
-
-func (tpr testProtobufReflection) isNull() bool {
-	return false
-}
-
-func TestAppendValueOrNull(t *testing.T) {
-	unsupportedField := arrow.Field{Name: "Test", Type: arrow.FixedWidthTypes.Time32s}
-	schema := arrow.NewSchema([]arrow.Field{unsupportedField}, nil)
-	mem := memory.NewGoAllocator()
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-	pmfr := ProtobufMessageFieldReflection{
-		protobufReflection: &testProtobufReflection{},
-		Field:              arrow.Field{Name: "Test", Type: arrow.FixedWidthTypes.Time32s},
-	}
-	got := pmfr.AppendValueOrNull(recordBuilder.Field(0), mem)
-	want := "not able to appendValueOrNull for type TIME32"
-	assert.EqualErrorf(t, got, want, "Error is: %v, want: %v", got, want)
-}
diff --git a/go/arrow/util/util_message/types.pb.go b/go/arrow/util/util_message/types.pb.go
deleted file mode 100644
index 6486b2cc87a09..0000000000000
--- a/go/arrow/util/util_message/types.pb.go
+++ /dev/null
@@ -1,1135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.24.4
-// source: messages/types.proto
-
-package util_message
-
-import (
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	anypb "google.golang.org/protobuf/types/known/anypb"
-	reflect "reflect"
-	sync "sync"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-type AllTheTypes_ExampleEnum int32
-
-const (
-	AllTheTypes_OPTION_0 AllTheTypes_ExampleEnum = 0
-	AllTheTypes_OPTION_1 AllTheTypes_ExampleEnum = 1
-)
-
-// Enum value maps for AllTheTypes_ExampleEnum.
-var (
-	AllTheTypes_ExampleEnum_name = map[int32]string{
-		0: "OPTION_0",
-		1: "OPTION_1",
-	}
-	AllTheTypes_ExampleEnum_value = map[string]int32{
-		"OPTION_0": 0,
-		"OPTION_1": 1,
-	}
-)
-
-func (x AllTheTypes_ExampleEnum) Enum() *AllTheTypes_ExampleEnum {
-	p := new(AllTheTypes_ExampleEnum)
-	*p = x
-	return p
-}
-
-func (x AllTheTypes_ExampleEnum) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (AllTheTypes_ExampleEnum) Descriptor() protoreflect.EnumDescriptor {
-	return file_messages_types_proto_enumTypes[0].Descriptor()
-}
-
-func (AllTheTypes_ExampleEnum) Type() protoreflect.EnumType {
-	return &file_messages_types_proto_enumTypes[0]
-}
-
-func (x AllTheTypes_ExampleEnum) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use AllTheTypes_ExampleEnum.Descriptor instead.
-func (AllTheTypes_ExampleEnum) EnumDescriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{1, 0}
-}
-
-type AllTheTypesNoAny_ExampleEnum int32
-
-const (
-	AllTheTypesNoAny_OPTION_0 AllTheTypesNoAny_ExampleEnum = 0
-	AllTheTypesNoAny_OPTION_1 AllTheTypesNoAny_ExampleEnum = 1
-)
-
-// Enum value maps for AllTheTypesNoAny_ExampleEnum.
-var (
-	AllTheTypesNoAny_ExampleEnum_name = map[int32]string{
-		0: "OPTION_0",
-		1: "OPTION_1",
-	}
-	AllTheTypesNoAny_ExampleEnum_value = map[string]int32{
-		"OPTION_0": 0,
-		"OPTION_1": 1,
-	}
-)
-
-func (x AllTheTypesNoAny_ExampleEnum) Enum() *AllTheTypesNoAny_ExampleEnum {
-	p := new(AllTheTypesNoAny_ExampleEnum)
-	*p = x
-	return p
-}
-
-func (x AllTheTypesNoAny_ExampleEnum) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (AllTheTypesNoAny_ExampleEnum) Descriptor() protoreflect.EnumDescriptor {
-	return file_messages_types_proto_enumTypes[1].Descriptor()
-}
-
-func (AllTheTypesNoAny_ExampleEnum) Type() protoreflect.EnumType {
-	return &file_messages_types_proto_enumTypes[1]
-}
-
-func (x AllTheTypesNoAny_ExampleEnum) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use AllTheTypesNoAny_ExampleEnum.Descriptor instead.
-func (AllTheTypesNoAny_ExampleEnum) EnumDescriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{2, 0}
-}
-
-type ExampleMessage struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Field1 string `protobuf:"bytes,1,opt,name=field1,proto3" json:"field1,omitempty"`
-}
-
-func (x *ExampleMessage) Reset() {
-	*x = ExampleMessage{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ExampleMessage) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ExampleMessage) ProtoMessage() {}
-
-func (x *ExampleMessage) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ExampleMessage.ProtoReflect.Descriptor instead.
-func (*ExampleMessage) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *ExampleMessage) GetField1() string {
-	if x != nil {
-		return x.Field1
-	}
-	return ""
-}
-
-type AllTheTypes struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Str      string                  `protobuf:"bytes,1,opt,name=str,proto3" json:"str,omitempty"`
-	Int32    int32                   `protobuf:"varint,2,opt,name=int32,proto3" json:"int32,omitempty"`
-	Int64    int64                   `protobuf:"varint,3,opt,name=int64,proto3" json:"int64,omitempty"`
-	Sint32   int32                   `protobuf:"zigzag32,4,opt,name=sint32,proto3" json:"sint32,omitempty"`
-	Sin64    int64                   `protobuf:"zigzag64,5,opt,name=sin64,proto3" json:"sin64,omitempty"`
-	Uint32   uint32                  `protobuf:"varint,6,opt,name=uint32,proto3" json:"uint32,omitempty"`
-	Uint64   uint64                  `protobuf:"varint,7,opt,name=uint64,proto3" json:"uint64,omitempty"`
-	Fixed32  uint32                  `protobuf:"fixed32,8,opt,name=fixed32,proto3" json:"fixed32,omitempty"`
-	Fixed64  uint64                  `protobuf:"fixed64,9,opt,name=fixed64,proto3" json:"fixed64,omitempty"`
-	Sfixed32 int32                   `protobuf:"fixed32,10,opt,name=sfixed32,proto3" json:"sfixed32,omitempty"`
-	Bool     bool                    `protobuf:"varint,11,opt,name=bool,proto3" json:"bool,omitempty"`
-	Bytes    []byte                  `protobuf:"bytes,12,opt,name=bytes,proto3" json:"bytes,omitempty"`
-	Double   float64                 `protobuf:"fixed64,13,opt,name=double,proto3" json:"double,omitempty"`
-	Enum     AllTheTypes_ExampleEnum `protobuf:"varint,14,opt,name=enum,proto3,enum=AllTheTypes_ExampleEnum" json:"enum,omitempty"`
-	Message  *ExampleMessage         `protobuf:"bytes,15,opt,name=message,proto3" json:"message,omitempty"`
-	// Types that are assignable to Oneof:
-	//
-	//	*AllTheTypes_Oneofstring
-	//	*AllTheTypes_Oneofmessage
-	Oneof       isAllTheTypes_Oneof        `protobuf_oneof:"oneof"`
-	Any         *anypb.Any                 `protobuf:"bytes,18,opt,name=any,proto3" json:"any,omitempty"`
-	SimpleMap   map[int32]string           `protobuf:"bytes,19,rep,name=simple_map,json=simpleMap,proto3" json:"simple_map,omitempty" protobuf_key:"varint,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	ComplexMap  map[string]*ExampleMessage `protobuf:"bytes,20,rep,name=complex_map,json=complexMap,proto3" json:"complex_map,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	SimpleList  []string                   `protobuf:"bytes,21,rep,name=simple_list,json=simpleList,proto3" json:"simple_list,omitempty"`
-	ComplexList []*ExampleMessage          `protobuf:"bytes,22,rep,name=complex_list,json=complexList,proto3" json:"complex_list,omitempty"`
-}
-
-func (x *AllTheTypes) Reset() {
-	*x = AllTheTypes{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *AllTheTypes) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*AllTheTypes) ProtoMessage() {}
-
-func (x *AllTheTypes) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use AllTheTypes.ProtoReflect.Descriptor instead.
-func (*AllTheTypes) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *AllTheTypes) GetStr() string {
-	if x != nil {
-		return x.Str
-	}
-	return ""
-}
-
-func (x *AllTheTypes) GetInt32() int32 {
-	if x != nil {
-		return x.Int32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetInt64() int64 {
-	if x != nil {
-		return x.Int64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSint32() int32 {
-	if x != nil {
-		return x.Sint32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSin64() int64 {
-	if x != nil {
-		return x.Sin64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetUint32() uint32 {
-	if x != nil {
-		return x.Uint32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetUint64() uint64 {
-	if x != nil {
-		return x.Uint64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetFixed32() uint32 {
-	if x != nil {
-		return x.Fixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetFixed64() uint64 {
-	if x != nil {
-		return x.Fixed64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSfixed32() int32 {
-	if x != nil {
-		return x.Sfixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetBool() bool {
-	if x != nil {
-		return x.Bool
-	}
-	return false
-}
-
-func (x *AllTheTypes) GetBytes() []byte {
-	if x != nil {
-		return x.Bytes
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetDouble() float64 {
-	if x != nil {
-		return x.Double
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetEnum() AllTheTypes_ExampleEnum {
-	if x != nil {
-		return x.Enum
-	}
-	return AllTheTypes_OPTION_0
-}
-
-func (x *AllTheTypes) GetMessage() *ExampleMessage {
-	if x != nil {
-		return x.Message
-	}
-	return nil
-}
-
-func (m *AllTheTypes) GetOneof() isAllTheTypes_Oneof {
-	if m != nil {
-		return m.Oneof
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetOneofstring() string {
-	if x, ok := x.GetOneof().(*AllTheTypes_Oneofstring); ok {
-		return x.Oneofstring
-	}
-	return ""
-}
-
-func (x *AllTheTypes) GetOneofmessage() *ExampleMessage {
-	if x, ok := x.GetOneof().(*AllTheTypes_Oneofmessage); ok {
-		return x.Oneofmessage
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetAny() *anypb.Any {
-	if x != nil {
-		return x.Any
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetSimpleMap() map[int32]string {
-	if x != nil {
-		return x.SimpleMap
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetComplexMap() map[string]*ExampleMessage {
-	if x != nil {
-		return x.ComplexMap
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetSimpleList() []string {
-	if x != nil {
-		return x.SimpleList
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetComplexList() []*ExampleMessage {
-	if x != nil {
-		return x.ComplexList
-	}
-	return nil
-}
-
-type isAllTheTypes_Oneof interface {
-	isAllTheTypes_Oneof()
-}
-
-type AllTheTypes_Oneofstring struct {
-	Oneofstring string `protobuf:"bytes,16,opt,name=oneofstring,proto3,oneof"`
-}
-
-type AllTheTypes_Oneofmessage struct {
-	Oneofmessage *ExampleMessage `protobuf:"bytes,17,opt,name=oneofmessage,proto3,oneof"`
-}
-
-func (*AllTheTypes_Oneofstring) isAllTheTypes_Oneof() {}
-
-func (*AllTheTypes_Oneofmessage) isAllTheTypes_Oneof() {}
-
-type AllTheTypesNoAny struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Str      string                       `protobuf:"bytes,1,opt,name=str,proto3" json:"str,omitempty"`
-	Int32    int32                        `protobuf:"varint,2,opt,name=int32,proto3" json:"int32,omitempty"`
-	Int64    int64                        `protobuf:"varint,3,opt,name=int64,proto3" json:"int64,omitempty"`
-	Sint32   int32                        `protobuf:"zigzag32,4,opt,name=sint32,proto3" json:"sint32,omitempty"`
-	Sin64    int64                        `protobuf:"zigzag64,5,opt,name=sin64,proto3" json:"sin64,omitempty"`
-	Uint32   uint32                       `protobuf:"varint,6,opt,name=uint32,proto3" json:"uint32,omitempty"`
-	Uint64   uint64                       `protobuf:"varint,7,opt,name=uint64,proto3" json:"uint64,omitempty"`
-	Fixed32  uint32                       `protobuf:"fixed32,8,opt,name=fixed32,proto3" json:"fixed32,omitempty"`
-	Fixed64  uint64                       `protobuf:"fixed64,9,opt,name=fixed64,proto3" json:"fixed64,omitempty"`
-	Sfixed32 int32                        `protobuf:"fixed32,10,opt,name=sfixed32,proto3" json:"sfixed32,omitempty"`
-	Bool     bool                         `protobuf:"varint,11,opt,name=bool,proto3" json:"bool,omitempty"`
-	Bytes    []byte                       `protobuf:"bytes,12,opt,name=bytes,proto3" json:"bytes,omitempty"`
-	Double   float64                      `protobuf:"fixed64,13,opt,name=double,proto3" json:"double,omitempty"`
-	Enum     AllTheTypesNoAny_ExampleEnum `protobuf:"varint,14,opt,name=enum,proto3,enum=AllTheTypesNoAny_ExampleEnum" json:"enum,omitempty"`
-	Message  *ExampleMessage              `protobuf:"bytes,15,opt,name=message,proto3" json:"message,omitempty"`
-	// Types that are assignable to Oneof:
-	//
-	//	*AllTheTypesNoAny_Oneofstring
-	//	*AllTheTypesNoAny_Oneofmessage
-	Oneof       isAllTheTypesNoAny_Oneof   `protobuf_oneof:"oneof"`
-	SimpleMap   map[int32]string           `protobuf:"bytes,19,rep,name=simple_map,json=simpleMap,proto3" json:"simple_map,omitempty" protobuf_key:"varint,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	ComplexMap  map[string]*ExampleMessage `protobuf:"bytes,20,rep,name=complex_map,json=complexMap,proto3" json:"complex_map,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	SimpleList  []string                   `protobuf:"bytes,21,rep,name=simple_list,json=simpleList,proto3" json:"simple_list,omitempty"`
-	ComplexList []*ExampleMessage          `protobuf:"bytes,22,rep,name=complex_list,json=complexList,proto3" json:"complex_list,omitempty"`
-}
-
-func (x *AllTheTypesNoAny) Reset() {
-	*x = AllTheTypesNoAny{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *AllTheTypesNoAny) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*AllTheTypesNoAny) ProtoMessage() {}
-
-func (x *AllTheTypesNoAny) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use AllTheTypesNoAny.ProtoReflect.Descriptor instead.
-func (*AllTheTypesNoAny) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{2}
-}
-
-func (x *AllTheTypesNoAny) GetStr() string {
-	if x != nil {
-		return x.Str
-	}
-	return ""
-}
-
-func (x *AllTheTypesNoAny) GetInt32() int32 {
-	if x != nil {
-		return x.Int32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetInt64() int64 {
-	if x != nil {
-		return x.Int64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSint32() int32 {
-	if x != nil {
-		return x.Sint32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSin64() int64 {
-	if x != nil {
-		return x.Sin64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetUint32() uint32 {
-	if x != nil {
-		return x.Uint32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetUint64() uint64 {
-	if x != nil {
-		return x.Uint64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetFixed32() uint32 {
-	if x != nil {
-		return x.Fixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetFixed64() uint64 {
-	if x != nil {
-		return x.Fixed64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSfixed32() int32 {
-	if x != nil {
-		return x.Sfixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetBool() bool {
-	if x != nil {
-		return x.Bool
-	}
-	return false
-}
-
-func (x *AllTheTypesNoAny) GetBytes() []byte {
-	if x != nil {
-		return x.Bytes
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetDouble() float64 {
-	if x != nil {
-		return x.Double
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetEnum() AllTheTypesNoAny_ExampleEnum {
-	if x != nil {
-		return x.Enum
-	}
-	return AllTheTypesNoAny_OPTION_0
-}
-
-func (x *AllTheTypesNoAny) GetMessage() *ExampleMessage {
-	if x != nil {
-		return x.Message
-	}
-	return nil
-}
-
-func (m *AllTheTypesNoAny) GetOneof() isAllTheTypesNoAny_Oneof {
-	if m != nil {
-		return m.Oneof
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetOneofstring() string {
-	if x, ok := x.GetOneof().(*AllTheTypesNoAny_Oneofstring); ok {
-		return x.Oneofstring
-	}
-	return ""
-}
-
-func (x *AllTheTypesNoAny) GetOneofmessage() *ExampleMessage {
-	if x, ok := x.GetOneof().(*AllTheTypesNoAny_Oneofmessage); ok {
-		return x.Oneofmessage
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetSimpleMap() map[int32]string {
-	if x != nil {
-		return x.SimpleMap
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetComplexMap() map[string]*ExampleMessage {
-	if x != nil {
-		return x.ComplexMap
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetSimpleList() []string {
-	if x != nil {
-		return x.SimpleList
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetComplexList() []*ExampleMessage {
-	if x != nil {
-		return x.ComplexList
-	}
-	return nil
-}
-
-type isAllTheTypesNoAny_Oneof interface {
-	isAllTheTypesNoAny_Oneof()
-}
-
-type AllTheTypesNoAny_Oneofstring struct {
-	Oneofstring string `protobuf:"bytes,16,opt,name=oneofstring,proto3,oneof"`
-}
-
-type AllTheTypesNoAny_Oneofmessage struct {
-	Oneofmessage *ExampleMessage `protobuf:"bytes,17,opt,name=oneofmessage,proto3,oneof"`
-}
-
-func (*AllTheTypesNoAny_Oneofstring) isAllTheTypesNoAny_Oneof() {}
-
-func (*AllTheTypesNoAny_Oneofmessage) isAllTheTypesNoAny_Oneof() {}
-
-type SimpleNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SimpleA []*ExampleMessage `protobuf:"bytes,1,rep,name=simple_a,json=simpleA,proto3" json:"simple_a,omitempty"`
-	SimpleB []*ExampleMessage `protobuf:"bytes,2,rep,name=simple_b,json=simpleB,proto3" json:"simple_b,omitempty"`
-}
-
-func (x *SimpleNested) Reset() {
-	*x = SimpleNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SimpleNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SimpleNested) ProtoMessage() {}
-
-func (x *SimpleNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SimpleNested.ProtoReflect.Descriptor instead.
-func (*SimpleNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{3}
-}
-
-func (x *SimpleNested) GetSimpleA() []*ExampleMessage {
-	if x != nil {
-		return x.SimpleA
-	}
-	return nil
-}
-
-func (x *SimpleNested) GetSimpleB() []*ExampleMessage {
-	if x != nil {
-		return x.SimpleB
-	}
-	return nil
-}
-
-type ComplexNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	AllTheTypesNoAnyA []*AllTheTypesNoAny `protobuf:"bytes,1,rep,name=all_the_types_no_any_a,json=allTheTypesNoAnyA,proto3" json:"all_the_types_no_any_a,omitempty"`
-	AllTheTypesNoAnyB []*AllTheTypesNoAny `protobuf:"bytes,2,rep,name=all_the_types_no_any_b,json=allTheTypesNoAnyB,proto3" json:"all_the_types_no_any_b,omitempty"`
-}
-
-func (x *ComplexNested) Reset() {
-	*x = ComplexNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ComplexNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ComplexNested) ProtoMessage() {}
-
-func (x *ComplexNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ComplexNested.ProtoReflect.Descriptor instead.
-func (*ComplexNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *ComplexNested) GetAllTheTypesNoAnyA() []*AllTheTypesNoAny {
-	if x != nil {
-		return x.AllTheTypesNoAnyA
-	}
-	return nil
-}
-
-func (x *ComplexNested) GetAllTheTypesNoAnyB() []*AllTheTypesNoAny {
-	if x != nil {
-		return x.AllTheTypesNoAnyB
-	}
-	return nil
-}
-
-type DeepNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	ComplexNested *ComplexNested `protobuf:"bytes,1,opt,name=complex_nested,json=complexNested,proto3" json:"complex_nested,omitempty"`
-	SimpleNested  *SimpleNested  `protobuf:"bytes,2,opt,name=simple_nested,json=simpleNested,proto3" json:"simple_nested,omitempty"`
-}
-
-func (x *DeepNested) Reset() {
-	*x = DeepNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DeepNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DeepNested) ProtoMessage() {}
-
-func (x *DeepNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DeepNested.ProtoReflect.Descriptor instead.
-func (*DeepNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{5}
-}
-
-func (x *DeepNested) GetComplexNested() *ComplexNested {
-	if x != nil {
-		return x.ComplexNested
-	}
-	return nil
-}
-
-func (x *DeepNested) GetSimpleNested() *SimpleNested {
-	if x != nil {
-		return x.SimpleNested
-	}
-	return nil
-}
-
-var File_messages_types_proto protoreflect.FileDescriptor
-
-var file_messages_types_proto_rawDesc = []byte{
-	0x0a, 0x14, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x73, 0x2f, 0x74, 0x79, 0x70, 0x65, 0x73,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x1a, 0x19, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70,
-	0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x61, 0x6e, 0x79, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x22, 0x28, 0x0a, 0x0e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x12, 0x16, 0x0a, 0x06, 0x66, 0x69, 0x65, 0x6c, 0x64, 0x31, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x06, 0x66, 0x69, 0x65, 0x6c, 0x64, 0x31, 0x22, 0xa9, 0x07, 0x0a, 0x0b,
-	0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x12, 0x10, 0x0a, 0x03, 0x73,
-	0x74, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x73, 0x74, 0x72, 0x12, 0x14, 0x0a,
-	0x05, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x18, 0x02, 0x20, 0x01, 0x28, 0x05, 0x52, 0x05, 0x69, 0x6e,
-	0x74, 0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x03, 0x20, 0x01,
-	0x28, 0x03, 0x52, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x69, 0x6e,
-	0x74, 0x33, 0x32, 0x18, 0x04, 0x20, 0x01, 0x28, 0x11, 0x52, 0x06, 0x73, 0x69, 0x6e, 0x74, 0x33,
-	0x32, 0x12, 0x14, 0x0a, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x18, 0x05, 0x20, 0x01, 0x28, 0x12,
-	0x52, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33,
-	0x32, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0d, 0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x12,
-	0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x07, 0x20, 0x01, 0x28, 0x04, 0x52,
-	0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64,
-	0x33, 0x32, 0x18, 0x08, 0x20, 0x01, 0x28, 0x07, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33,
-	0x32, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x18, 0x09, 0x20, 0x01,
-	0x28, 0x06, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x12, 0x1a, 0x0a, 0x08, 0x73,
-	0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x18, 0x0a, 0x20, 0x01, 0x28, 0x0f, 0x52, 0x08, 0x73,
-	0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x18,
-	0x0b, 0x20, 0x01, 0x28, 0x08, 0x52, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x12, 0x14, 0x0a, 0x05, 0x62,
-	0x79, 0x74, 0x65, 0x73, 0x18, 0x0c, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x05, 0x62, 0x79, 0x74, 0x65,
-	0x73, 0x12, 0x16, 0x0a, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x18, 0x0d, 0x20, 0x01, 0x28,
-	0x01, 0x52, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x12, 0x2c, 0x0a, 0x04, 0x65, 0x6e, 0x75,
-	0x6d, 0x18, 0x0e, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x18, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65,
-	0x54, 0x79, 0x70, 0x65, 0x73, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75,
-	0x6d, 0x52, 0x04, 0x65, 0x6e, 0x75, 0x6d, 0x12, 0x29, 0x0a, 0x07, 0x6d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x18, 0x0f, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70,
-	0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x07, 0x6d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x12, 0x22, 0x0a, 0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x73, 0x74, 0x72, 0x69, 0x6e,
-	0x67, 0x18, 0x10, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66,
-	0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x35, 0x0a, 0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d,
-	0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x11, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45,
-	0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x48, 0x00, 0x52,
-	0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x12, 0x26, 0x0a,
-	0x03, 0x61, 0x6e, 0x79, 0x18, 0x12, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x14, 0x2e, 0x67, 0x6f, 0x6f,
-	0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2e, 0x41, 0x6e, 0x79,
-	0x52, 0x03, 0x61, 0x6e, 0x79, 0x12, 0x3a, 0x0a, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f,
-	0x6d, 0x61, 0x70, 0x18, 0x13, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1b, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61,
-	0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x09, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61,
-	0x70, 0x12, 0x3d, 0x0a, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6d, 0x61, 0x70,
-	0x18, 0x14, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1c, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54,
-	0x79, 0x70, 0x65, 0x73, 0x2e, 0x43, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45,
-	0x6e, 0x74, 0x72, 0x79, 0x52, 0x0a, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70,
-	0x12, 0x1f, 0x0a, 0x0b, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18,
-	0x15, 0x20, 0x03, 0x28, 0x09, 0x52, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4c, 0x69, 0x73,
-	0x74, 0x12, 0x32, 0x0a, 0x0c, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6c, 0x69, 0x73,
-	0x74, 0x18, 0x16, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65,
-	0x78, 0x4c, 0x69, 0x73, 0x74, 0x1a, 0x3c, 0x0a, 0x0e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d,
-	0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x05, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x14, 0x0a, 0x05, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a,
-	0x02, 0x38, 0x01, 0x1a, 0x4e, 0x0a, 0x0f, 0x43, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61,
-	0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x25, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a,
-	0x02, 0x38, 0x01, 0x22, 0x29, 0x0a, 0x0b, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e,
-	0x75, 0x6d, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x30, 0x10, 0x00,
-	0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x31, 0x10, 0x01, 0x42, 0x07,
-	0x0a, 0x05, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x22, 0x95, 0x07, 0x0a, 0x10, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x12, 0x10, 0x0a, 0x03,
-	0x73, 0x74, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x73, 0x74, 0x72, 0x12, 0x14,
-	0x0a, 0x05, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x18, 0x02, 0x20, 0x01, 0x28, 0x05, 0x52, 0x05, 0x69,
-	0x6e, 0x74, 0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x03, 0x20,
-	0x01, 0x28, 0x03, 0x52, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x69,
-	0x6e, 0x74, 0x33, 0x32, 0x18, 0x04, 0x20, 0x01, 0x28, 0x11, 0x52, 0x06, 0x73, 0x69, 0x6e, 0x74,
-	0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x18, 0x05, 0x20, 0x01, 0x28,
-	0x12, 0x52, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74,
-	0x33, 0x32, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0d, 0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33, 0x32,
-	0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x07, 0x20, 0x01, 0x28, 0x04,
-	0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65,
-	0x64, 0x33, 0x32, 0x18, 0x08, 0x20, 0x01, 0x28, 0x07, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64,
-	0x33, 0x32, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x18, 0x09, 0x20,
-	0x01, 0x28, 0x06, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x12, 0x1a, 0x0a, 0x08,
-	0x73, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x18, 0x0a, 0x20, 0x01, 0x28, 0x0f, 0x52, 0x08,
-	0x73, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x6f, 0x6c,
-	0x18, 0x0b, 0x20, 0x01, 0x28, 0x08, 0x52, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x12, 0x14, 0x0a, 0x05,
-	0x62, 0x79, 0x74, 0x65, 0x73, 0x18, 0x0c, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x05, 0x62, 0x79, 0x74,
-	0x65, 0x73, 0x12, 0x16, 0x0a, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x18, 0x0d, 0x20, 0x01,
-	0x28, 0x01, 0x52, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x12, 0x31, 0x0a, 0x04, 0x65, 0x6e,
-	0x75, 0x6d, 0x18, 0x0e, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x1d, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68,
-	0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x45, 0x78, 0x61, 0x6d,
-	0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75, 0x6d, 0x52, 0x04, 0x65, 0x6e, 0x75, 0x6d, 0x12, 0x29, 0x0a,
-	0x07, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x0f, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f,
-	0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52,
-	0x07, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x12, 0x22, 0x0a, 0x0b, 0x6f, 0x6e, 0x65, 0x6f,
-	0x66, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x18, 0x10, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52,
-	0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x35, 0x0a, 0x0c,
-	0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x11, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x48, 0x00, 0x52, 0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x12, 0x3f, 0x0a, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6d, 0x61,
-	0x70, 0x18, 0x13, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x20, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65,
-	0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x09, 0x73, 0x69, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x61, 0x70, 0x12, 0x42, 0x0a, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f,
-	0x6d, 0x61, 0x70, 0x18, 0x14, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x21, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x43, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0a, 0x63, 0x6f,
-	0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x12, 0x1f, 0x0a, 0x0b, 0x73, 0x69, 0x6d, 0x70,
-	0x6c, 0x65, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18, 0x15, 0x20, 0x03, 0x28, 0x09, 0x52, 0x0a, 0x73,
-	0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4c, 0x69, 0x73, 0x74, 0x12, 0x32, 0x0a, 0x0c, 0x63, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18, 0x16, 0x20, 0x03, 0x28, 0x0b, 0x32,
-	0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65,
-	0x52, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4c, 0x69, 0x73, 0x74, 0x1a, 0x3c, 0x0a,
-	0x0e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12,
-	0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x05, 0x52, 0x03, 0x6b, 0x65,
-	0x79, 0x12, 0x14, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x1a, 0x4e, 0x0a, 0x0f, 0x43,
-	0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10,
-	0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79,
-	0x12, 0x25, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0b, 0x32,
-	0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65,
-	0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x29, 0x0a, 0x0b, 0x45,
-	0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75, 0x6d, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x30, 0x10, 0x00, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x31, 0x10, 0x01, 0x42, 0x07, 0x0a, 0x05, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x22,
-	0x66, 0x0a, 0x0c, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12,
-	0x2a, 0x0a, 0x08, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x61, 0x18, 0x01, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x52, 0x07, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x41, 0x12, 0x2a, 0x0a, 0x08, 0x73,
-	0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x62, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x0f, 0x2e,
-	0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x07,
-	0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x42, 0x22, 0x9b, 0x01, 0x0a, 0x0d, 0x43, 0x6f, 0x6d, 0x70,
-	0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12, 0x44, 0x0a, 0x16, 0x61, 0x6c, 0x6c,
-	0x5f, 0x74, 0x68, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73, 0x5f, 0x6e, 0x6f, 0x5f, 0x61, 0x6e,
-	0x79, 0x5f, 0x61, 0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x11, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x52, 0x11, 0x61, 0x6c,
-	0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x41, 0x12,
-	0x44, 0x0a, 0x16, 0x61, 0x6c, 0x6c, 0x5f, 0x74, 0x68, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73,
-	0x5f, 0x6e, 0x6f, 0x5f, 0x61, 0x6e, 0x79, 0x5f, 0x62, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32,
-	0x11, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41,
-	0x6e, 0x79, 0x52, 0x11, 0x61, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e,
-	0x6f, 0x41, 0x6e, 0x79, 0x42, 0x22, 0x77, 0x0a, 0x0a, 0x44, 0x65, 0x65, 0x70, 0x4e, 0x65, 0x73,
-	0x74, 0x65, 0x64, 0x12, 0x35, 0x0a, 0x0e, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6e,
-	0x65, 0x73, 0x74, 0x65, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0e, 0x2e, 0x43, 0x6f,
-	0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x52, 0x0d, 0x63, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12, 0x32, 0x0a, 0x0d, 0x73, 0x69,
-	0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x18, 0x02, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x0d, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64,
-	0x52, 0x0c, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x42, 0x11,
-	0x5a, 0x0f, 0x2e, 0x2e, 0x2f, 0x75, 0x74, 0x69, 0x6c, 0x5f, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67,
-	0x65, 0x62, 0x06, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_messages_types_proto_rawDescOnce sync.Once
-	file_messages_types_proto_rawDescData = file_messages_types_proto_rawDesc
-)
-
-func file_messages_types_proto_rawDescGZIP() []byte {
-	file_messages_types_proto_rawDescOnce.Do(func() {
-		file_messages_types_proto_rawDescData = protoimpl.X.CompressGZIP(file_messages_types_proto_rawDescData)
-	})
-	return file_messages_types_proto_rawDescData
-}
-
-var file_messages_types_proto_enumTypes = make([]protoimpl.EnumInfo, 2)
-var file_messages_types_proto_msgTypes = make([]protoimpl.MessageInfo, 10)
-var file_messages_types_proto_goTypes = []interface{}{
-	(AllTheTypes_ExampleEnum)(0),      // 0: AllTheTypes.ExampleEnum
-	(AllTheTypesNoAny_ExampleEnum)(0), // 1: AllTheTypesNoAny.ExampleEnum
-	(*ExampleMessage)(nil),            // 2: ExampleMessage
-	(*AllTheTypes)(nil),               // 3: AllTheTypes
-	(*AllTheTypesNoAny)(nil),          // 4: AllTheTypesNoAny
-	(*SimpleNested)(nil),              // 5: SimpleNested
-	(*ComplexNested)(nil),             // 6: ComplexNested
-	(*DeepNested)(nil),                // 7: DeepNested
-	nil,                               // 8: AllTheTypes.SimpleMapEntry
-	nil,                               // 9: AllTheTypes.ComplexMapEntry
-	nil,                               // 10: AllTheTypesNoAny.SimpleMapEntry
-	nil,                               // 11: AllTheTypesNoAny.ComplexMapEntry
-	(*anypb.Any)(nil),                 // 12: google.protobuf.Any
-}
-var file_messages_types_proto_depIdxs = []int32{
-	0,  // 0: AllTheTypes.enum:type_name -> AllTheTypes.ExampleEnum
-	2,  // 1: AllTheTypes.message:type_name -> ExampleMessage
-	2,  // 2: AllTheTypes.oneofmessage:type_name -> ExampleMessage
-	12, // 3: AllTheTypes.any:type_name -> google.protobuf.Any
-	8,  // 4: AllTheTypes.simple_map:type_name -> AllTheTypes.SimpleMapEntry
-	9,  // 5: AllTheTypes.complex_map:type_name -> AllTheTypes.ComplexMapEntry
-	2,  // 6: AllTheTypes.complex_list:type_name -> ExampleMessage
-	1,  // 7: AllTheTypesNoAny.enum:type_name -> AllTheTypesNoAny.ExampleEnum
-	2,  // 8: AllTheTypesNoAny.message:type_name -> ExampleMessage
-	2,  // 9: AllTheTypesNoAny.oneofmessage:type_name -> ExampleMessage
-	10, // 10: AllTheTypesNoAny.simple_map:type_name -> AllTheTypesNoAny.SimpleMapEntry
-	11, // 11: AllTheTypesNoAny.complex_map:type_name -> AllTheTypesNoAny.ComplexMapEntry
-	2,  // 12: AllTheTypesNoAny.complex_list:type_name -> ExampleMessage
-	2,  // 13: SimpleNested.simple_a:type_name -> ExampleMessage
-	2,  // 14: SimpleNested.simple_b:type_name -> ExampleMessage
-	4,  // 15: ComplexNested.all_the_types_no_any_a:type_name -> AllTheTypesNoAny
-	4,  // 16: ComplexNested.all_the_types_no_any_b:type_name -> AllTheTypesNoAny
-	6,  // 17: DeepNested.complex_nested:type_name -> ComplexNested
-	5,  // 18: DeepNested.simple_nested:type_name -> SimpleNested
-	2,  // 19: AllTheTypes.ComplexMapEntry.value:type_name -> ExampleMessage
-	2,  // 20: AllTheTypesNoAny.ComplexMapEntry.value:type_name -> ExampleMessage
-	21, // [21:21] is the sub-list for method output_type
-	21, // [21:21] is the sub-list for method input_type
-	21, // [21:21] is the sub-list for extension type_name
-	21, // [21:21] is the sub-list for extension extendee
-	0,  // [0:21] is the sub-list for field type_name
-}
-
-func init() { file_messages_types_proto_init() }
-func file_messages_types_proto_init() {
-	if File_messages_types_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_messages_types_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ExampleMessage); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*AllTheTypes); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*AllTheTypesNoAny); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SimpleNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ComplexNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DeepNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_messages_types_proto_msgTypes[1].OneofWrappers = []interface{}{
-		(*AllTheTypes_Oneofstring)(nil),
-		(*AllTheTypes_Oneofmessage)(nil),
-	}
-	file_messages_types_proto_msgTypes[2].OneofWrappers = []interface{}{
-		(*AllTheTypesNoAny_Oneofstring)(nil),
-		(*AllTheTypesNoAny_Oneofmessage)(nil),
-	}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_messages_types_proto_rawDesc,
-			NumEnums:      2,
-			NumMessages:   10,
-			NumExtensions: 0,
-			NumServices:   0,
-		},
-		GoTypes:           file_messages_types_proto_goTypes,
-		DependencyIndexes: file_messages_types_proto_depIdxs,
-		EnumInfos:         file_messages_types_proto_enumTypes,
-		MessageInfos:      file_messages_types_proto_msgTypes,
-	}.Build()
-	File_messages_types_proto = out.File
-	file_messages_types_proto_rawDesc = nil
-	file_messages_types_proto_goTypes = nil
-	file_messages_types_proto_depIdxs = nil
-}
diff --git a/go/go.mod b/go/go.mod
deleted file mode 100644
index 77f98cefb0f0e..0000000000000
--- a/go/go.mod
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-module github.com/apache/arrow/go/v18
-
-go 1.22
-
-require (
-	github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c
-	github.com/andybalholm/brotli v1.1.0
-	github.com/apache/thrift v0.20.0
-	github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815
-	github.com/goccy/go-json v0.10.3
-	github.com/golang/snappy v0.0.4
-	github.com/google/flatbuffers v24.3.25+incompatible
-	github.com/klauspost/asmfmt v1.3.2
-	github.com/klauspost/compress v1.17.9
-	github.com/klauspost/cpuid/v2 v2.2.8
-	github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8
-	github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3
-	github.com/pierrec/lz4/v4 v4.1.21
-	github.com/stretchr/testify v1.9.0
-	github.com/zeebo/xxh3 v1.0.2
-	golang.org/x/exp v0.0.0-20240222234643-814bf88cf225
-	golang.org/x/sync v0.8.0
-	golang.org/x/sys v0.23.0
-	golang.org/x/tools v0.24.0
-	golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028
-	gonum.org/v1/gonum v0.15.0
-	google.golang.org/grpc v1.63.2
-	google.golang.org/protobuf v1.34.2
-	modernc.org/sqlite v1.29.6
-)
-
-require (
-	github.com/google/uuid v1.6.0
-	github.com/hamba/avro/v2 v2.25.0
-	github.com/huandu/xstrings v1.4.0
-	github.com/substrait-io/substrait-go v0.7.0
-	github.com/tidwall/sjson v1.2.5
-)
-
-require (
-	github.com/alecthomas/participle/v2 v2.1.0 // indirect
-	github.com/davecgh/go-spew v1.1.1 // indirect
-	github.com/dustin/go-humanize v1.0.1 // indirect
-	github.com/fatih/color v1.15.0 // indirect
-	github.com/goccy/go-yaml v1.11.0 // indirect
-	github.com/hashicorp/golang-lru/v2 v2.0.7 // indirect
-	github.com/json-iterator/go v1.1.12 // indirect
-	github.com/kr/text v0.2.0 // indirect
-	github.com/mattn/go-colorable v0.1.13 // indirect
-	github.com/mattn/go-isatty v0.0.19 // indirect
-	github.com/mitchellh/mapstructure v1.5.0 // indirect
-	github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd // indirect
-	github.com/modern-go/reflect2 v1.0.2 // indirect
-	github.com/ncruces/go-strftime v0.1.9 // indirect
-	github.com/pmezard/go-difflib v1.0.0 // indirect
-	github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec // indirect
-	github.com/rogpeppe/go-internal v1.9.0 // indirect
-	github.com/stretchr/objx v0.5.2 // indirect
-	github.com/tidwall/gjson v1.14.2 // indirect
-	github.com/tidwall/match v1.1.1 // indirect
-	github.com/tidwall/pretty v1.2.0 // indirect
-	golang.org/x/mod v0.20.0 // indirect
-	golang.org/x/net v0.28.0 // indirect
-	golang.org/x/text v0.17.0 // indirect
-	google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de // indirect
-	gopkg.in/yaml.v3 v3.0.1 // indirect
-	modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6 // indirect
-	modernc.org/libc v1.41.0 // indirect
-	modernc.org/mathutil v1.6.0 // indirect
-	modernc.org/memory v1.7.2 // indirect
-	modernc.org/strutil v1.2.0 // indirect
-	modernc.org/token v1.1.0 // indirect
-)
diff --git a/go/go.sum b/go/go.sum
deleted file mode 100644
index 6f22e11aef03a..0000000000000
--- a/go/go.sum
+++ /dev/null
@@ -1,165 +0,0 @@
-github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c h1:RGWPOewvKIROun94nF7v2cua9qP+thov/7M50KEoeSU=
-github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c/go.mod h1:X0CRv0ky0k6m906ixxpzmDRLvX58TFUKS2eePweuyxk=
-github.com/alecthomas/assert/v2 v2.3.0 h1:mAsH2wmvjsuvyBvAmCtm7zFsBlb8mIHx5ySLVdDZXL0=
-github.com/alecthomas/assert/v2 v2.3.0/go.mod h1:pXcQ2Asjp247dahGEmsZ6ru0UVwnkhktn7S0bBDLxvQ=
-github.com/alecthomas/participle/v2 v2.1.0 h1:z7dElHRrOEEq45F2TG5cbQihMtNTv8vwldytDj7Wrz4=
-github.com/alecthomas/participle/v2 v2.1.0/go.mod h1:Y1+hAs8DHPmc3YUFzqllV+eSQ9ljPTk0ZkPMtEdAx2c=
-github.com/alecthomas/repr v0.2.0 h1:HAzS41CIzNW5syS8Mf9UwXhNH1J9aix/BvDRf1Ml2Yk=
-github.com/alecthomas/repr v0.2.0/go.mod h1:Fr0507jx4eOXV7AlPV6AVZLYrLIuIeSOWtW57eE/O/4=
-github.com/andybalholm/brotli v1.1.0 h1:eLKJA0d02Lf0mVpIDgYnqXcUn0GqVmEFny3VuID1U3M=
-github.com/andybalholm/brotli v1.1.0/go.mod h1:sms7XGricyQI9K10gOSf56VKKWS4oLer58Q+mhRPtnY=
-github.com/apache/thrift v0.20.0 h1:631+KvYbsBZxmuJjYwhezVsrfc/TbqtZV4QcxOX1fOI=
-github.com/apache/thrift v0.20.0/go.mod h1:hOk1BQqcp2OLzGsyVXdfMk7YFlMxK3aoEVhjD06QhB8=
-github.com/creack/pty v1.1.9/go.mod h1:oKZEueFk5CKHvIhNR5MUki03XCEU+Q6VDXinZuGJ33E=
-github.com/davecgh/go-spew v1.1.0/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
-github.com/davecgh/go-spew v1.1.1 h1:vj9j/u1bqnvCEfJOwUhtlOARqs3+rkHYY13jYWTU97c=
-github.com/davecgh/go-spew v1.1.1/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
-github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815 h1:bWDMxwH3px2JBh6AyO7hdCn/PkvCZXii8TGj7sbtEbQ=
-github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815/go.mod h1:WwZ+bS3ebgob9U8Nd0kOddGdZWjyMGR8Wziv+TBNwSE=
-github.com/dustin/go-humanize v1.0.1 h1:GzkhY7T5VNhEkwH0PVJgjz+fX1rhBrR7pRT3mDkpeCY=
-github.com/dustin/go-humanize v1.0.1/go.mod h1:Mu1zIs6XwVuF/gI1OepvI0qD18qycQx+mFykh5fBlto=
-github.com/fatih/color v1.15.0 h1:kOqh6YHBtK8aywxGerMG2Eq3H6Qgoqeo13Bk2Mv/nBs=
-github.com/fatih/color v1.15.0/go.mod h1:0h5ZqXfHYED7Bhv2ZJamyIOUej9KtShiJESRwBDUSsw=
-github.com/go-playground/locales v0.13.0 h1:HyWk6mgj5qFqCT5fjGBuRArbVDfE4hi8+e8ceBS/t7Q=
-github.com/go-playground/locales v0.13.0/go.mod h1:taPMhCMXrRLJO55olJkUXHZBHCxTMfnGwq/HNwmWNS8=
-github.com/go-playground/universal-translator v0.17.0 h1:icxd5fm+REJzpZx7ZfpaD876Lmtgy7VtROAbHHXk8no=
-github.com/go-playground/universal-translator v0.17.0/go.mod h1:UkSxE5sNxxRwHyU+Scu5vgOQjsIJAF8j9muTVoKLVtA=
-github.com/go-playground/validator/v10 v10.11.1 h1:prmOlTVv+YjZjmRmNSF3VmspqJIxJWXmqUsHwfTRRkQ=
-github.com/go-playground/validator/v10 v10.11.1/go.mod h1:i+3WkQ1FvaUjjxh1kSvIA4dMGDBiPU55YFDl0WbKdWU=
-github.com/goccy/go-json v0.10.3 h1:KZ5WoDbxAIgm2HNbYckL0se1fHD6rz5j4ywS6ebzDqA=
-github.com/goccy/go-json v0.10.3/go.mod h1:oq7eo15ShAhp70Anwd5lgX2pLfOS3QCiwU/PULtXL6M=
-github.com/goccy/go-yaml v1.11.0 h1:n7Z+zx8S9f9KgzG6KtQKf+kwqXZlLNR2F6018Dgau54=
-github.com/goccy/go-yaml v1.11.0/go.mod h1:H+mJrWtjPTJAHvRbV09MCK9xYwODM+wRTVFFTWckfng=
-github.com/golang/protobuf v1.5.4 h1:i7eJL8qZTpSEXOPTxNKhASYpMn+8e5Q6AdndVa1dWek=
-github.com/golang/protobuf v1.5.4/go.mod h1:lnTiLA8Wa4RWRcIUkrtSVa5nRhsEGBg48fD6rSs7xps=
-github.com/golang/snappy v0.0.4 h1:yAGX7huGHXlcLOEtBnF4w7FQwA26wojNCwOYAEhLjQM=
-github.com/golang/snappy v0.0.4/go.mod h1:/XxbfmMg8lxefKM7IXC3fBNl/7bRcc72aCRzEWrmP2Q=
-github.com/google/flatbuffers v24.3.25+incompatible h1:CX395cjN9Kke9mmalRoL3d81AtFUxJM+yDthflgJGkI=
-github.com/google/flatbuffers v24.3.25+incompatible/go.mod h1:1AeVuKshWv4vARoZatz6mlQ0JxURH0Kv5+zNeJKJCa8=
-github.com/google/go-cmp v0.6.0 h1:ofyhxvXcZhMsU5ulbFiLKl/XBFqE1GSq7atu8tAmTRI=
-github.com/google/go-cmp v0.6.0/go.mod h1:17dUlkBOakJ0+DkrSSNjCkIjxS6bF9zb3elmeNGIjoY=
-github.com/google/gofuzz v1.0.0/go.mod h1:dBl0BpW6vV/+mYPU4Po3pmUjxk6FQPldtuIdl/M65Eg=
-github.com/google/pprof v0.0.0-20221118152302-e6195bd50e26 h1:Xim43kblpZXfIBQsbuBVKCudVG457BR2GZFIz3uw3hQ=
-github.com/google/pprof v0.0.0-20221118152302-e6195bd50e26/go.mod h1:dDKJzRmX4S37WGHujM7tX//fmj1uioxKzKxz3lo4HJo=
-github.com/google/uuid v1.6.0 h1:NIvaJDMOsjHA8n1jAhLSgzrAzy1Hgr+hNrb57e+94F0=
-github.com/google/uuid v1.6.0/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
-github.com/hamba/avro/v2 v2.25.0 h1:9qig/K4VP5tMq6DuKGfI6YdXncTkPJT1IJDMSv82EeI=
-github.com/hamba/avro/v2 v2.25.0/go.mod h1:I8glyswHnpED3Nlx2ZdUe+4LJnCOOyiCzLMno9i/Uu0=
-github.com/hashicorp/golang-lru/v2 v2.0.7 h1:a+bsQ5rvGLjzHuww6tVxozPZFVghXaHOwFs4luLUK2k=
-github.com/hashicorp/golang-lru/v2 v2.0.7/go.mod h1:QeFd9opnmA6QUJc5vARoKUSoFhyfM2/ZepoAG6RGpeM=
-github.com/hexops/gotextdiff v1.0.3 h1:gitA9+qJrrTCsiCl7+kh75nPqQt1cx4ZkudSTLoUqJM=
-github.com/hexops/gotextdiff v1.0.3/go.mod h1:pSWU5MAI3yDq+fZBTazCSJysOMbxWL1BSow5/V2vxeg=
-github.com/huandu/xstrings v1.4.0 h1:D17IlohoQq4UcpqD7fDk80P7l+lwAmlFaBHgOipl2FU=
-github.com/huandu/xstrings v1.4.0/go.mod h1:y5/lhBue+AyNmUVz9RLU9xbLR0o4KIIExikq4ovT0aE=
-github.com/json-iterator/go v1.1.12 h1:PV8peI4a0ysnczrg+LtxykD8LfKY9ML6u2jnxaEnrnM=
-github.com/json-iterator/go v1.1.12/go.mod h1:e30LSqwooZae/UwlEbR2852Gd8hjQvJoHmT4TnhNGBo=
-github.com/klauspost/asmfmt v1.3.2 h1:4Ri7ox3EwapiOjCki+hw14RyKk201CN4rzyCJRFLpK4=
-github.com/klauspost/asmfmt v1.3.2/go.mod h1:AG8TuvYojzulgDAMCnYn50l/5QV3Bs/tp6j0HLHbNSE=
-github.com/klauspost/compress v1.17.9 h1:6KIumPrER1LHsvBVuDa0r5xaG0Es51mhhB9BQB2qeMA=
-github.com/klauspost/compress v1.17.9/go.mod h1:Di0epgTjJY877eYKx5yC51cX2A2Vl2ibi7bDH9ttBbw=
-github.com/klauspost/cpuid/v2 v2.2.8 h1:+StwCXwm9PdpiEkPyzBXIy+M9KUb4ODm0Zarf1kS5BM=
-github.com/klauspost/cpuid/v2 v2.2.8/go.mod h1:Lcz8mBdAVJIBVzewtcLocK12l3Y+JytZYpaMropDUws=
-github.com/kr/pretty v0.3.1 h1:flRD4NNwYAUpkphVc1HcthR4KEIFJ65n8Mw5qdRn3LE=
-github.com/kr/pretty v0.3.1/go.mod h1:hoEshYVHaxMs3cyo3Yncou5ZscifuDolrwPKZanG3xk=
-github.com/kr/text v0.2.0 h1:5Nx0Ya0ZqY2ygV366QzturHI13Jq95ApcVaJBhpS+AY=
-github.com/kr/text v0.2.0/go.mod h1:eLer722TekiGuMkidMxC/pM04lWEeraHUUmBw8l2grE=
-github.com/leodido/go-urn v1.2.0 h1:hpXL4XnriNwQ/ABnpepYM/1vCLWNDfUNts8dX3xTG6Y=
-github.com/leodido/go-urn v1.2.0/go.mod h1:+8+nEpDfqqsY+g338gtMEUOtuK+4dEMhiQEgxpxOKII=
-github.com/mattn/go-colorable v0.1.13 h1:fFA4WZxdEF4tXPZVKMLwD8oUnCTTo08duU7wxecdEvA=
-github.com/mattn/go-colorable v0.1.13/go.mod h1:7S9/ev0klgBDR4GtXTXX8a3vIGJpMovkB8vQcUbaXHg=
-github.com/mattn/go-isatty v0.0.16/go.mod h1:kYGgaQfpe5nmfYZH+SKPsOc2e4SrIfOl2e/yFXSvRLM=
-github.com/mattn/go-isatty v0.0.19 h1:JITubQf0MOLdlGRuRq+jtsDlekdYPia9ZFsB8h/APPA=
-github.com/mattn/go-isatty v0.0.19/go.mod h1:W+V8PltTTMOvKvAeJH7IuucS94S2C6jfK/D7dTCTo3Y=
-github.com/mattn/go-sqlite3 v1.14.22 h1:2gZY6PC6kBnID23Tichd1K+Z0oS6nE/XwU+Vz/5o4kU=
-github.com/mattn/go-sqlite3 v1.14.22/go.mod h1:Uh1q+B4BYcTPb+yiD3kU8Ct7aC0hY9fxUwlHK0RXw+Y=
-github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8 h1:AMFGa4R4MiIpspGNG7Z948v4n35fFGB3RR3G/ry4FWs=
-github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8/go.mod h1:mC1jAcsrzbxHt8iiaC+zU4b1ylILSosueou12R++wfY=
-github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3 h1:+n/aFZefKZp7spd8DFdX7uMikMLXX4oubIzJF4kv/wI=
-github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3/go.mod h1:RagcQ7I8IeTMnF8JTXieKnO4Z6JCsikNEzj0DwauVzE=
-github.com/mitchellh/mapstructure v1.5.0 h1:jeMsZIYE/09sWLaz43PL7Gy6RuMjD2eJVyuac5Z2hdY=
-github.com/mitchellh/mapstructure v1.5.0/go.mod h1:bFUtVrKA4DC2yAKiSyO/QUcy7e+RRV2QTWOzhPopBRo=
-github.com/modern-go/concurrent v0.0.0-20180228061459-e0a39a4cb421/go.mod h1:6dJC0mAP4ikYIbvyc7fijjWJddQyLn8Ig3JB5CqoB9Q=
-github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd h1:TRLaZ9cD/w8PVh93nsPXa1VrQ6jlwL5oN8l14QlcNfg=
-github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd/go.mod h1:6dJC0mAP4ikYIbvyc7fijjWJddQyLn8Ig3JB5CqoB9Q=
-github.com/modern-go/reflect2 v1.0.2 h1:xBagoLtFs94CBntxluKeaWgTMpvLxC4ur3nMaC9Gz0M=
-github.com/modern-go/reflect2 v1.0.2/go.mod h1:yWuevngMOJpCy52FWWMvUC8ws7m/LJsjYzDa0/r8luk=
-github.com/ncruces/go-strftime v0.1.9 h1:bY0MQC28UADQmHmaF5dgpLmImcShSi2kHU9XLdhx/f4=
-github.com/ncruces/go-strftime v0.1.9/go.mod h1:Fwc5htZGVVkseilnfgOVb9mKy6w1naJmn9CehxcKcls=
-github.com/pierrec/lz4/v4 v4.1.21 h1:yOVMLb6qSIDP67pl/5F7RepeKYu/VmTyEXvuMI5d9mQ=
-github.com/pierrec/lz4/v4 v4.1.21/go.mod h1:gZWDp/Ze/IJXGXf23ltt2EXimqmTUXEy0GFuRQyBid4=
-github.com/pmezard/go-difflib v1.0.0 h1:4DBwDE0NGyQoBHbLQYPwSUPoCMWR5BEzIk/f1lZbAQM=
-github.com/pmezard/go-difflib v1.0.0/go.mod h1:iKH77koFhYxTK1pcRnkKkqfTogsbg7gZNVY4sRDYZ/4=
-github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec h1:W09IVJc94icq4NjY3clb7Lk8O1qJ8BdBEF8z0ibU0rE=
-github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec/go.mod h1:qqbHyh8v60DhA7CoWK5oRCqLrMHRGoxYCSS9EjAz6Eo=
-github.com/rogpeppe/go-internal v1.9.0 h1:73kH8U+JUqXU8lRuOHeVHaa/SZPifC7BkcraZVejAe8=
-github.com/rogpeppe/go-internal v1.9.0/go.mod h1:WtVeX8xhTBvf0smdhujwtBcq4Qrzq/fJaraNFVN+nFs=
-github.com/stretchr/objx v0.1.0/go.mod h1:HFkY916IF+rwdDfMAkV7OtwuqBVzrE8GR6GFx+wExME=
-github.com/stretchr/objx v0.5.2 h1:xuMeJ0Sdp5ZMRXx/aWO6RZxdr3beISkG5/G/aIRr3pY=
-github.com/stretchr/objx v0.5.2/go.mod h1:FRsXN1f5AsAjCGJKqEizvkpNtU+EGNCLh3NxZ/8L+MA=
-github.com/stretchr/testify v1.3.0/go.mod h1:M5WIy9Dh21IEIfnGCwXGc5bZfKNJtfHm1UVUgZn+9EI=
-github.com/stretchr/testify v1.9.0 h1:HtqpIVDClZ4nwg75+f6Lvsy/wHu+3BoSGCbBAcpTsTg=
-github.com/stretchr/testify v1.9.0/go.mod h1:r2ic/lqez/lEtzL7wO/rwa5dbSLXVDPFyf8C91i36aY=
-github.com/substrait-io/substrait-go v0.7.0 h1:53yi73t4wW383+RD1YuhXhbjhP1KzF9GCxPC7SsRlqc=
-github.com/substrait-io/substrait-go v0.7.0/go.mod h1:7mjSvIaxk94bOF+YZn/vBOpHK4DWTpBv7nC/btjXCmc=
-github.com/tidwall/gjson v1.14.2 h1:6BBkirS0rAHjumnjHF6qgy5d2YAJ1TLIaFE2lzfOLqo=
-github.com/tidwall/gjson v1.14.2/go.mod h1:/wbyibRr2FHMks5tjHJ5F8dMZh3AcwJEMf5vlfC0lxk=
-github.com/tidwall/match v1.1.1 h1:+Ho715JplO36QYgwN9PGYNhgZvoUSc9X2c80KVTi+GA=
-github.com/tidwall/match v1.1.1/go.mod h1:eRSPERbgtNPcGhD8UCthc6PmLEQXEWd3PRB5JTxsfmM=
-github.com/tidwall/pretty v1.2.0 h1:RWIZEg2iJ8/g6fDDYzMpobmaoGh5OLl4AXtGUGPcqCs=
-github.com/tidwall/pretty v1.2.0/go.mod h1:ITEVvHYasfjBbM0u2Pg8T2nJnzm8xPwvNhhsoaGGjNU=
-github.com/tidwall/sjson v1.2.5 h1:kLy8mja+1c9jlljvWTlSazM7cKDRfJuR/bOJhcY5NcY=
-github.com/tidwall/sjson v1.2.5/go.mod h1:Fvgq9kS/6ociJEDnK0Fk1cpYF4FIW6ZF7LAe+6jwd28=
-github.com/zeebo/assert v1.3.0 h1:g7C04CbJuIDKNPFHmsk4hwZDO5O+kntRxzaUoNXj+IQ=
-github.com/zeebo/assert v1.3.0/go.mod h1:Pq9JiuJQpG8JLJdtkwrJESF0Foym2/D9XMU5ciN/wJ0=
-github.com/zeebo/xxh3 v1.0.2 h1:xZmwmqxHZA8AI603jOQ0tMqmBr9lPeFwGg6d+xy9DC0=
-github.com/zeebo/xxh3 v1.0.2/go.mod h1:5NWz9Sef7zIDm2JHfFlcQvNekmcEl9ekUZQQKCYaDcA=
-golang.org/x/crypto v0.26.0 h1:RrRspgV4mU+YwB4FYnuBoKsUapNIL5cohGAmSH3azsw=
-golang.org/x/crypto v0.26.0/go.mod h1:GY7jblb9wI+FOo5y8/S2oY4zWP07AkOJ4+jxCqdqn54=
-golang.org/x/exp v0.0.0-20240222234643-814bf88cf225 h1:LfspQV/FYTatPTr/3HzIcmiUFH7PGP+OQ6mgDYo3yuQ=
-golang.org/x/exp v0.0.0-20240222234643-814bf88cf225/go.mod h1:CxmFvTBINI24O/j8iY7H1xHzx2i4OsyguNBmN/uPtqc=
-golang.org/x/mod v0.20.0 h1:utOm6MM3R3dnawAiJgn0y+xvuYRsm1RKM/4giyfDgV0=
-golang.org/x/mod v0.20.0/go.mod h1:hTbmBsO62+eylJbnUtE2MGJUyE7QWk4xUqPFrRgJ+7c=
-golang.org/x/net v0.28.0 h1:a9JDOJc5GMUJ0+UDqmLT86WiEy7iWyIhz8gz8E4e5hE=
-golang.org/x/net v0.28.0/go.mod h1:yqtgsTWOOnlGLG9GFRrK3++bGOUEkNBoHZc8MEDWPNg=
-golang.org/x/sync v0.8.0 h1:3NFvSEYkUoMifnESzZl15y791HH1qU2xm6eCJU5ZPXQ=
-golang.org/x/sync v0.8.0/go.mod h1:Czt+wKu1gCyEFDUtn0jG5QVvpJ6rzVqr5aXyt9drQfk=
-golang.org/x/sys v0.0.0-20220811171246-fbc7d0a398ab/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.5.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.6.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.23.0 h1:YfKFowiIMvtgl1UERQoTPPToxltDeZfbj4H7dVUCwmM=
-golang.org/x/sys v0.23.0/go.mod h1:/VUhepiaJMQUp4+oa/7Zr1D23ma6VTLIYjOOTFZPUcA=
-golang.org/x/text v0.17.0 h1:XtiM5bkSOt+ewxlOE/aE/AKEHibwj/6gvWMl9Rsh0Qc=
-golang.org/x/text v0.17.0/go.mod h1:BuEKDfySbSR4drPmRPG/7iBdf8hvFMuRexcpahXilzY=
-golang.org/x/tools v0.24.0 h1:J1shsA93PJUEVaUSaay7UXAyE8aimq3GW0pjlolpa24=
-golang.org/x/tools v0.24.0/go.mod h1:YhNqVBIfWHdzvTLs0d8LCuMhkKUgSUKldakyV7W/WDQ=
-golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028 h1:+cNy6SZtPcJQH3LJVLOSmiC7MMxXNOb3PU/VUEz+EhU=
-golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028/go.mod h1:NDW/Ps6MPRej6fsCIbMTohpP40sJ/P/vI1MoTEGwX90=
-gonum.org/v1/gonum v0.15.0 h1:2lYxjRbTYyxkJxlhC+LvJIx3SsANPdRybu1tGj9/OrQ=
-gonum.org/v1/gonum v0.15.0/go.mod h1:xzZVBJBtS+Mz4q0Yl2LJTk+OxOg4jiXZ7qBoM0uISGo=
-google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de h1:cZGRis4/ot9uVm639a+rHCUaG0JJHEsdyzSQTMX+suY=
-google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de/go.mod h1:H4O17MA/PE9BsGx3w+a+W2VOLLD1Qf7oJneAoU6WktY=
-google.golang.org/grpc v1.63.2 h1:MUeiw1B2maTVZthpU5xvASfTh3LDbxHd6IJ6QQVU+xM=
-google.golang.org/grpc v1.63.2/go.mod h1:WAX/8DgncnokcFUldAxq7GeB5DXHDbMF+lLvDomNkRA=
-google.golang.org/protobuf v1.34.2 h1:6xV6lTsCfpGD21XK49h7MhtcApnLqkfYgPcdHftf6hg=
-google.golang.org/protobuf v1.34.2/go.mod h1:qYOHts0dSfpeUzUFpOMr/WGzszTmLH+DiWniOlNbLDw=
-gopkg.in/check.v1 v0.0.0-20161208181325-20d25e280405/go.mod h1:Co6ibVJAznAaIkqp8huTwlJQCZ016jof/cbN4VW5Yz0=
-gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c h1:Hei/4ADfdWqJk1ZMxUNpqntNwaWcugrBjAiHlqqRiVk=
-gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c/go.mod h1:JHkPIbrfpd72SG/EVd6muEfDQjcINNoR0C8j2r3qZ4Q=
-gopkg.in/yaml.v3 v3.0.1 h1:fxVm/GzAzEWqLHuvctI91KS9hhNmmWOoWu0XTYJS7CA=
-gopkg.in/yaml.v3 v3.0.1/go.mod h1:K4uyk7z7BCEPqu6E+C64Yfv1cQ7kz7rIZviUmN+EgEM=
-modernc.org/fileutil v1.3.0 h1:gQ5SIzK3H9kdfai/5x41oQiKValumqNTDXMvKo62HvE=
-modernc.org/fileutil v1.3.0/go.mod h1:XatxS8fZi3pS8/hKG2GH/ArUogfxjpEKs3Ku3aK4JyQ=
-modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6 h1:5D53IMaUuA5InSeMu9eJtlQXS2NxAhyWQvkKEgXZhHI=
-modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6/go.mod h1:Qz0X07sNOR1jWYCrJMEnbW/X55x206Q7Vt4mz6/wHp4=
-modernc.org/libc v1.41.0 h1:g9YAc6BkKlgORsUWj+JwqoB1wU3o4DE3bM3yvA3k+Gk=
-modernc.org/libc v1.41.0/go.mod h1:w0eszPsiXoOnoMJgrXjglgLuDy/bt5RR4y3QzUUeodY=
-modernc.org/mathutil v1.6.0 h1:fRe9+AmYlaej+64JsEEhoWuAYBkOtQiMEU7n/XgfYi4=
-modernc.org/mathutil v1.6.0/go.mod h1:Ui5Q9q1TR2gFm0AQRqQUaBWFLAhQpCwNcuhBOSedWPo=
-modernc.org/memory v1.7.2 h1:Klh90S215mmH8c9gO98QxQFsY+W451E8AnzjoE2ee1E=
-modernc.org/memory v1.7.2/go.mod h1:NO4NVCQy0N7ln+T9ngWqOQfi7ley4vpwvARR+Hjw95E=
-modernc.org/sqlite v1.29.6 h1:0lOXGrycJPptfHDuohfYgNqoe4hu+gYuN/pKgY5XjS4=
-modernc.org/sqlite v1.29.6/go.mod h1:S02dvcmm7TnTRvGhv8IGYyLnIt7AS2KPaB1F/71p75U=
-modernc.org/strutil v1.2.0 h1:agBi9dp1I+eOnxXeiZawM8F4LawKv4NzGWSaLfyeNZA=
-modernc.org/strutil v1.2.0/go.mod h1:/mdcBmfOibveCTBxUl5B5l6W+TTH1FXPLHZE6bTosX0=
-modernc.org/token v1.1.0 h1:Xl7Ap9dKaEs5kLoOQeQmPWevfnk/DM5qcLcYlA8ys6Y=
-modernc.org/token v1.1.0/go.mod h1:UGzOrNV1mAFSEB63lOFHIpNRUVMvYTc6yu1SMY/XTDM=
diff --git a/go/internal/bitutils/bit_block_counter.go b/go/internal/bitutils/bit_block_counter.go
deleted file mode 100644
index 89e50b2dc6b1d..0000000000000
--- a/go/internal/bitutils/bit_block_counter.go
+++ /dev/null
@@ -1,452 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-func loadWord(byt []byte) uint64 {
-	return utils.ToLEUint64(*(*uint64)(unsafe.Pointer(&byt[0])))
-}
-
-func shiftWord(current, next uint64, shift int64) uint64 {
-	if shift == 0 {
-		return current
-	}
-	return (current >> shift) | (next << (64 - shift))
-}
-
-// BitBlockCount is returned by the various bit block counter utilities
-// in order to return a length of bits and the population count of that
-// slice of bits.
-type BitBlockCount struct {
-	Len    int16
-	Popcnt int16
-}
-
-// NoneSet returns true if ALL the bits were 0 in this set, ie: Popcnt == 0
-func (b BitBlockCount) NoneSet() bool {
-	return b.Popcnt == 0
-}
-
-// AllSet returns true if ALL the bits were 1 in this set, ie: Popcnt == Len
-func (b BitBlockCount) AllSet() bool {
-	return b.Len == b.Popcnt
-}
-
-// BitBlockCounter is a utility for grabbing chunks of a bitmap at a time and efficiently
-// counting the number of bits which are 1.
-type BitBlockCounter struct {
-	bitmap        []byte
-	bitsRemaining int64
-	bitOffset     int8
-}
-
-const (
-	wordBits      int64 = 64
-	fourWordsBits int64 = wordBits * 4
-)
-
-// NewBitBlockCounter returns a BitBlockCounter for the passed bitmap starting at startOffset
-// of length nbits.
-func NewBitBlockCounter(bitmap []byte, startOffset, nbits int64) *BitBlockCounter {
-	return &BitBlockCounter{
-		bitmap:        bitmap[startOffset/8:],
-		bitsRemaining: nbits,
-		bitOffset:     int8(startOffset % 8),
-	}
-}
-
-// getBlockSlow is for returning a block of the requested size when there aren't
-// enough bits remaining to do a full word computation.
-func (b *BitBlockCounter) getBlockSlow(blockSize int64) BitBlockCount {
-	runlen := int16(utils.Min(b.bitsRemaining, blockSize))
-	popcnt := int16(bitutil.CountSetBits(b.bitmap, int(b.bitOffset), int(runlen)))
-	b.bitsRemaining -= int64(runlen)
-	b.bitmap = b.bitmap[runlen/8:]
-	return BitBlockCount{runlen, popcnt}
-}
-
-// NextFourWords returns the next run of available bits, usually 256. The
-// returned pair contains the size of run and the number of true values.
-// The last block will have a length less than 256 if the bitmap length
-// is not a multiple of 256, and will return 0-length blocks in subsequent
-// invocations.
-func (b *BitBlockCounter) NextFourWords() BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{0, 0}
-	}
-
-	totalPopcnt := 0
-	if b.bitOffset == 0 {
-		// if we're aligned at 0 bitoffset, then we can easily just jump from
-		// word to word nice and easy.
-		if b.bitsRemaining < fourWordsBits {
-			return b.getBlockSlow(fourWordsBits)
-		}
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[8:]))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[16:]))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[24:]))
-	} else {
-		// When the offset is > 0, we need there to be a word beyond the last
-		// aligned word in the bitmap for the bit shifting logic.
-		if b.bitsRemaining < 5*fourWordsBits-int64(b.bitOffset) {
-			return b.getBlockSlow(fourWordsBits)
-		}
-
-		current := loadWord(b.bitmap)
-		next := loadWord(b.bitmap[8:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[16:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[24:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[32:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-	}
-	b.bitmap = b.bitmap[bitutil.BytesForBits(fourWordsBits):]
-	b.bitsRemaining -= fourWordsBits
-	return BitBlockCount{256, int16(totalPopcnt)}
-}
-
-// NextWord returns the next run of available bits, usually 64. The returned
-// pair contains the size of run and the number of true values. The last
-// block will have a length less than 64 if the bitmap length is not a
-// multiple of 64, and will return 0-length blocks in subsequent
-// invocations.
-func (b *BitBlockCounter) NextWord() BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{0, 0}
-	}
-	popcnt := 0
-	if b.bitOffset == 0 {
-		if b.bitsRemaining < wordBits {
-			return b.getBlockSlow(wordBits)
-		}
-		popcnt = bits.OnesCount64(loadWord(b.bitmap))
-	} else {
-		// When the offset is > 0, we need there to be a word beyond the last
-		// aligned word in the bitmap for the bit shifting logic.
-		if b.bitsRemaining < (2*wordBits - int64(b.bitOffset)) {
-			return b.getBlockSlow(wordBits)
-		}
-		popcnt = bits.OnesCount64(shiftWord(loadWord(b.bitmap), loadWord(b.bitmap[8:]), int64(b.bitOffset)))
-	}
-	b.bitmap = b.bitmap[wordBits/8:]
-	b.bitsRemaining -= wordBits
-	return BitBlockCount{64, int16(popcnt)}
-}
-
-// OptionalBitBlockCounter is a useful counter to iterate through a possibly
-// nonexistent validity bitmap to allow us to write one code path for both
-// the with-nulls and no-nulls cases without giving up a lot of performance.
-type OptionalBitBlockCounter struct {
-	hasBitmap bool
-	pos       int64
-	len       int64
-	counter   *BitBlockCounter
-}
-
-// NewOptionalBitBlockCounter constructs and returns a new bit block counter that
-// can properly handle the case when a bitmap is null, if it is guaranteed that the
-// the bitmap is not nil, then prefer NewBitBlockCounter here.
-func NewOptionalBitBlockCounter(bitmap []byte, offset, length int64) *OptionalBitBlockCounter {
-	var counter *BitBlockCounter
-	if bitmap != nil {
-		counter = NewBitBlockCounter(bitmap, offset, length)
-	}
-	return &OptionalBitBlockCounter{
-		hasBitmap: bitmap != nil,
-		pos:       0,
-		len:       length,
-		counter:   counter,
-	}
-}
-
-// NextBlock returns block count for next word when the bitmap is available otherwise
-// return a block with length up to INT16_MAX when there is no validity
-// bitmap (so all the referenced values are not null).
-func (obc *OptionalBitBlockCounter) NextBlock() BitBlockCount {
-	const maxBlockSize = math.MaxInt16
-	if obc.hasBitmap {
-		block := obc.counter.NextWord()
-		obc.pos += int64(block.Len)
-		return block
-	}
-
-	blockSize := int16(utils.Min(maxBlockSize, obc.len-obc.pos))
-	obc.pos += int64(blockSize)
-	// all values are non-null
-	return BitBlockCount{blockSize, blockSize}
-}
-
-// NextWord is like NextBlock, but returns a word-sized block even when there is no
-// validity bitmap
-func (obc *OptionalBitBlockCounter) NextWord() BitBlockCount {
-	const wordsize = 64
-	if obc.hasBitmap {
-		block := obc.counter.NextWord()
-		obc.pos += int64(block.Len)
-		return block
-	}
-	blockSize := int16(utils.Min(wordsize, obc.len-obc.pos))
-	obc.pos += int64(blockSize)
-	// all values are non-null
-	return BitBlockCount{blockSize, blockSize}
-}
-
-// VisitBitBlocks is a utility for easily iterating through the blocks of bits in a bitmap,
-// calling the appropriate visitValid/visitInvalid function as we iterate through the bits.
-// visitValid is called with the bitoffset of the valid bit. Don't use this inside a tight
-// loop when performance is needed and instead prefer manually constructing these loops
-// in that scenario.
-func VisitBitBlocks(bitmap []byte, offset, length int64, visitValid func(pos int64), visitInvalid func()) {
-	counter := NewOptionalBitBlockCounter(bitmap, offset, length)
-	pos := int64(0)
-	for pos < length {
-		block := counter.NextBlock()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitValid(pos)
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitInvalid()
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(bitmap, int(offset+pos)) {
-					visitValid(pos)
-				} else {
-					visitInvalid()
-				}
-			}
-		}
-	}
-}
-
-// VisitBitBlocks is a utility for easily iterating through the blocks of bits in a bitmap,
-// calling the appropriate visitValid/visitInvalid function as we iterate through the bits.
-// visitValid is called with the bitoffset of the valid bit. Don't use this inside a tight
-// loop when performance is needed and instead prefer manually constructing these loops
-// in that scenario.
-func VisitBitBlocksShort(bitmap []byte, offset, length int64, visitValid func(pos int64) error, visitInvalid func() error) error {
-	counter := NewOptionalBitBlockCounter(bitmap, offset, length)
-	pos := int64(0)
-	for pos < length {
-		block := counter.NextBlock()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if err := visitValid(pos); err != nil {
-					return err
-				}
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if err := visitInvalid(); err != nil {
-					return err
-				}
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(bitmap, int(offset+pos)) {
-					if err := visitValid(pos); err != nil {
-						return err
-					}
-				} else {
-					if err := visitInvalid(); err != nil {
-						return err
-					}
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func VisitTwoBitBlocks(leftBitmap, rightBitmap []byte, leftOffset, rightOffset int64, len int64, visitValid func(pos int64), visitNull func()) {
-	if leftBitmap == nil || rightBitmap == nil {
-		// at most one is present
-		if leftBitmap == nil {
-			VisitBitBlocks(rightBitmap, rightOffset, len, visitValid, visitNull)
-		} else {
-			VisitBitBlocks(leftBitmap, leftOffset, len, visitValid, visitNull)
-		}
-		return
-	}
-
-	bitCounter := NewBinaryBitBlockCounter(leftBitmap, rightBitmap, leftOffset, rightOffset, len)
-	var pos int64
-	for pos < len {
-		block := bitCounter.NextAndWord()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitValid(pos)
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitNull()
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(leftBitmap, int(leftOffset+pos)) && bitutil.BitIsSet(rightBitmap, int(rightOffset+pos)) {
-					visitValid(pos)
-				} else {
-					visitNull()
-				}
-			}
-		}
-	}
-}
-
-type bitOp struct {
-	bit  func(bool, bool) bool
-	word func(uint64, uint64) uint64
-}
-
-var (
-	bitBlockAnd = bitOp{
-		bit:  func(a, b bool) bool { return a && b },
-		word: func(a, b uint64) uint64 { return a & b },
-	}
-	bitBlockAndNot = bitOp{
-		bit:  func(a, b bool) bool { return a && !b },
-		word: func(a, b uint64) uint64 { return a &^ b },
-	}
-	bitBlockOr = bitOp{
-		bit:  func(a, b bool) bool { return a || b },
-		word: func(a, b uint64) uint64 { return a | b },
-	}
-	bitBlockOrNot = bitOp{
-		bit:  func(a, b bool) bool { return a || !b },
-		word: func(a, b uint64) uint64 { return a | ^b },
-	}
-)
-
-// BinaryBitBlockCounter computes popcounts on the result of bitwise
-// operations between two bitmaps, 64 bits at a time. A 64-bit word
-// is loaded from each bitmap, then the popcount is computed on
-// e.g. the bitwise-and of the two words
-type BinaryBitBlockCounter struct {
-	left                    []byte
-	right                   []byte
-	bitsRemaining           int64
-	leftOffset, rightOffset int64
-
-	bitsRequiredForWords int64
-}
-
-// NewBinaryBitBlockCounter constructs a binary bit block counter for
-// computing the popcounts on the results of operations between
-// the passed in bitmaps, with their respective offsets.
-func NewBinaryBitBlockCounter(left, right []byte, leftOffset, rightOffset int64, length int64) *BinaryBitBlockCounter {
-	ret := &BinaryBitBlockCounter{
-		left:          left[leftOffset/8:],
-		right:         right[rightOffset/8:],
-		leftOffset:    leftOffset % 8,
-		rightOffset:   rightOffset % 8,
-		bitsRemaining: length,
-	}
-
-	leftBitsReq := int64(64)
-	if ret.leftOffset != 0 {
-		leftBitsReq = 64 + (64 - ret.leftOffset)
-	}
-	rightBitsReq := int64(64)
-	if ret.rightOffset != 0 {
-		rightBitsReq = 64 + (64 - ret.rightOffset)
-	}
-
-	if leftBitsReq > rightBitsReq {
-		ret.bitsRequiredForWords = leftBitsReq
-	} else {
-		ret.bitsRequiredForWords = rightBitsReq
-	}
-
-	return ret
-}
-
-// NextAndWord returns the popcount of the bitwise-and of the next run
-// of available bits, up to 64. The returned pair contains the size of
-// the run and the number of true values. the last block will have a
-// length less than 64 if the bitmap length is not a multiple of 64,
-// and will return 0-length blocks in subsequent invocations
-func (b *BinaryBitBlockCounter) NextAndWord() BitBlockCount { return b.nextWord(bitBlockAnd) }
-
-// NextAndNotWord is like NextAndWord but performs x &^ y on each run
-func (b *BinaryBitBlockCounter) NextAndNotWord() BitBlockCount { return b.nextWord(bitBlockAndNot) }
-
-// NextOrWord is like NextAndWord but performs x | y on each run
-func (b *BinaryBitBlockCounter) NextOrWord() BitBlockCount { return b.nextWord(bitBlockOr) }
-
-// NextOrWord is like NextAndWord but performs x | ^y on each run
-func (b *BinaryBitBlockCounter) NextOrNotWord() BitBlockCount { return b.nextWord(bitBlockOrNot) }
-
-func (b *BinaryBitBlockCounter) nextWord(op bitOp) BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{}
-	}
-
-	// when offset is >0, we need there to be a word beyond the last
-	// aligned word in the bitmap for the bit shifting logic
-	if b.bitsRemaining < b.bitsRequiredForWords {
-		runLength := int16(b.bitsRemaining)
-		if runLength > int16(wordBits) {
-			runLength = int16(wordBits)
-		}
-
-		var popcount int16
-		for i := int16(0); i < runLength; i++ {
-			if op.bit(bitutil.BitIsSet(b.left, int(b.leftOffset)+int(i)),
-				bitutil.BitIsSet(b.right, int(b.rightOffset)+int(i))) {
-				popcount++
-			}
-		}
-		// this code path should trigger _at most_ 2 times. in the "two times"
-		// case, the first time the run length will be a multiple of 8.
-		b.left = b.left[runLength/8:]
-		b.right = b.right[runLength/8:]
-		b.bitsRemaining -= int64(runLength)
-		return BitBlockCount{Len: runLength, Popcnt: popcount}
-	}
-
-	var popcount int
-	if b.leftOffset == 0 && b.rightOffset == 0 {
-		popcount = bits.OnesCount64(op.word(loadWord(b.left), loadWord(b.right)))
-	} else {
-		leftWord := shiftWord(loadWord(b.left), loadWord(b.left[8:]), b.leftOffset)
-		rightWord := shiftWord(loadWord(b.right), loadWord(b.right[8:]), b.rightOffset)
-		popcount = bits.OnesCount64(op.word(leftWord, rightWord))
-	}
-	b.left = b.left[wordBits/8:]
-	b.right = b.right[wordBits/8:]
-	b.bitsRemaining -= wordBits
-	return BitBlockCount{Len: int16(wordBits), Popcnt: int16(popcount)}
-}
diff --git a/go/internal/bitutils/bit_block_counter_test.go b/go/internal/bitutils/bit_block_counter_test.go
deleted file mode 100644
index 064d4b46b452f..0000000000000
--- a/go/internal/bitutils/bit_block_counter_test.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/stretchr/testify/assert"
-	"golang.org/x/exp/rand"
-)
-
-const kWordSize = 64
-
-func create(nbytes, offset, length int64) (*memory.Buffer, *bitutils.BitBlockCounter) {
-	buf := memory.NewResizableBuffer(memory.DefaultAllocator)
-	buf.Resize(int(nbytes))
-	return buf, bitutils.NewBitBlockCounter(buf.Bytes(), offset, length)
-}
-
-func TestOneWordBasics(t *testing.T) {
-	const nbytes = 1024
-
-	buf, counter := create(nbytes, 0, nbytes*8)
-	defer buf.Release()
-
-	var bitsScanned int64
-	for i := 0; i < nbytes/8; i++ {
-		block := counter.NextWord()
-		assert.EqualValues(t, kWordSize, block.Len)
-		assert.EqualValues(t, 0, block.Popcnt)
-		bitsScanned += int64(block.Len)
-	}
-	assert.EqualValues(t, 1024*8, bitsScanned)
-
-	block := counter.NextWord()
-	assert.Zero(t, block.Len)
-	assert.Zero(t, block.Popcnt)
-	assert.True(t, block.NoneSet())
-}
-
-func TestFourWordsBasics(t *testing.T) {
-	const nbytes = 1024
-
-	buf, counter := create(nbytes, 0, nbytes*8)
-	defer buf.Release()
-
-	var bitsScanned int64
-	for i := 0; i < nbytes/32; i++ {
-		block := counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 0, block.Popcnt)
-		bitsScanned += int64(block.Len)
-	}
-	assert.EqualValues(t, 1024*8, bitsScanned)
-
-	block := counter.NextFourWords()
-	assert.Zero(t, block.Len)
-	assert.Zero(t, block.Popcnt)
-}
-
-func TestOneWordWithOffsets(t *testing.T) {
-	checkWithOffset := func(offset int64) {
-		const (
-			nwords     int64 = 4
-			totalBytes       = nwords*8 + 1
-		)
-
-		// Trim a bit from the end of the bitmap so we can check
-		// the remainder bits behavior
-		buf, counter := create(totalBytes, offset, nwords*kWordSize-offset-1)
-		defer buf.Release()
-
-		memory.Set(buf.Bytes(), byte(0xFF))
-
-		block := counter.NextWord()
-		assert.EqualValues(t, kWordSize, block.Len)
-		assert.EqualValues(t, 64, block.Popcnt)
-
-		// add a false value to the next word
-		bitutil.SetBitTo(buf.Bytes(), kWordSize+int(offset), false)
-		block = counter.NextWord()
-		assert.EqualValues(t, 64, block.Len)
-		assert.EqualValues(t, 63, block.Popcnt)
-
-		// Set the next word to all false
-		bitutil.SetBitsTo(buf.Bytes(), 2*kWordSize+offset, kWordSize, false)
-
-		block = counter.NextWord()
-		assert.EqualValues(t, 64, block.Len)
-		assert.Zero(t, block.Popcnt)
-
-		block = counter.NextWord()
-		assert.EqualValues(t, kWordSize-offset-1, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-		assert.True(t, block.AllSet())
-
-		// we can keep calling nextword safely
-		block = counter.NextWord()
-		assert.Zero(t, block.Len)
-		assert.Zero(t, block.Popcnt)
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
-
-func TestFourWordsWithOffsets(t *testing.T) {
-	checkWithOffset := func(offset int64) {
-		const (
-			nwords     = 17
-			totalBytes = nwords*8 + 1
-		)
-
-		// trim a bit from the end of the bitmap so we can check the remainder
-		// bits behavior
-		buf, counter := create(totalBytes, offset, nwords*kWordSize-offset-1)
-
-		// start with all set
-		memory.Set(buf.Bytes(), 0xFF)
-
-		block := counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// add some false values to the next 3 shifted words
-		bitutil.ClearBit(buf.Bytes(), int(4*kWordSize+offset))
-		bitutil.ClearBit(buf.Bytes(), int(5*kWordSize+offset))
-		bitutil.ClearBit(buf.Bytes(), int(6*kWordSize+offset))
-
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 253, block.Popcnt)
-
-		// set the next two words to all false
-		bitutil.SetBitsTo(buf.Bytes(), 8*kWordSize+offset, 2*kWordSize, false)
-
-		// block is half set
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 128, block.Popcnt)
-
-		// last full block whether offset or no
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// partial block
-		block = counter.NextFourWords()
-		assert.EqualValues(t, kWordSize-offset-1, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// we can keep calling NextFourWords safely
-		block = counter.NextFourWords()
-		assert.Zero(t, block.Len)
-		assert.Zero(t, block.Popcnt)
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
-
-func TestFourWordsRandomData(t *testing.T) {
-	const (
-		nbytes = 1024
-	)
-
-	buf := make([]byte, nbytes)
-	r := rand.New(rand.NewSource(0))
-	r.Read(buf)
-
-	checkWithOffset := func(offset int64) {
-		counter := bitutils.NewBitBlockCounter(buf, offset, nbytes*8-offset)
-		for i := 0; i < nbytes/32; i++ {
-			block := counter.NextFourWords()
-			assert.EqualValues(t, bitutil.CountSetBits(buf, i*256+int(offset), int(block.Len)), block.Popcnt)
-		}
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
diff --git a/go/internal/bitutils/bit_run_reader.go b/go/internal/bitutils/bit_run_reader.go
deleted file mode 100644
index cce6792a6d0c8..0000000000000
--- a/go/internal/bitutils/bit_run_reader.go
+++ /dev/null
@@ -1,151 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"encoding/binary"
-	"fmt"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// BitRun represents a run of bits with the same value of length Len
-// with Set representing if the group of bits were 1 or 0.
-type BitRun struct {
-	Len int64
-	Set bool
-}
-
-// BitRunReader is an interface that is usable by multiple callers to provide
-// multiple types of bit run readers such as a reverse reader and so on.
-//
-// It's a convenience interface for counting contiguous set/unset bits in a bitmap.
-// In places where BitBlockCounter can be used, then it would be preferred to use that
-// as it would be faster than using BitRunReader.
-type BitRunReader interface {
-	NextRun() BitRun
-}
-
-func (b BitRun) String() string {
-	return fmt.Sprintf("{Length: %d, set=%t}", b.Len, b.Set)
-}
-
-type bitRunReader struct {
-	bitmap       []byte
-	pos          int64
-	length       int64
-	word         uint64
-	curRunBitSet bool
-}
-
-// NewBitRunReader returns a reader for the given bitmap, offset and length that
-// grabs runs of the same value bit at a time for easy iteration.
-func NewBitRunReader(bitmap []byte, offset int64, length int64) BitRunReader {
-	ret := &bitRunReader{
-		bitmap: bitmap[offset/8:],
-		pos:    offset % 8,
-		length: (offset % 8) + length,
-	}
-
-	if length == 0 {
-		return ret
-	}
-
-	ret.curRunBitSet = bitutil.BitIsNotSet(bitmap, int(offset))
-	bitsRemaining := length + ret.pos
-	ret.loadWord(bitsRemaining)
-	ret.word = ret.word &^ LeastSignificantBitMask(ret.pos)
-	return ret
-}
-
-// NextRun returns a new BitRun containing the number of contiguous bits with the
-// same value. Len == 0 indicates the end of the bitmap.
-func (b *bitRunReader) NextRun() BitRun {
-	if b.pos >= b.length {
-		return BitRun{0, false}
-	}
-
-	// This implementation relies on a efficient implementations of
-	// CountTrailingZeros and assumes that runs are more often then
-	// not.  The logic is to incrementally find the next bit change
-	// from the current position.  This is done by zeroing all
-	// bits in word_ up to position_ and using the TrailingZeroCount
-	// to find the index of the next set bit.
-
-	// The runs alternate on each call, so flip the bit.
-	b.curRunBitSet = !b.curRunBitSet
-
-	start := b.pos
-	startOffset := start & 63
-
-	// Invert the word for proper use of CountTrailingZeros and
-	// clear bits so CountTrailingZeros can do it magic.
-	b.word = ^b.word &^ LeastSignificantBitMask(startOffset)
-
-	// Go  forward until the next change from unset to set.
-	newbits := int64(bits.TrailingZeros64(b.word)) - startOffset
-	b.pos += newbits
-
-	if IsMultipleOf64(b.pos) && b.pos < b.length {
-		b.advanceUntilChange()
-	}
-	return BitRun{b.pos - start, b.curRunBitSet}
-}
-
-func (b *bitRunReader) advanceUntilChange() {
-	newbits := int64(0)
-	for {
-		b.bitmap = b.bitmap[arrow.Uint64SizeBytes:]
-		b.loadNextWord()
-		newbits = int64(bits.TrailingZeros64(b.word))
-		b.pos += newbits
-		if !IsMultipleOf64(b.pos) || b.pos >= b.length || newbits <= 0 {
-			break
-		}
-	}
-}
-
-func (b *bitRunReader) loadNextWord() {
-	b.loadWord(b.length - b.pos)
-}
-
-func (b *bitRunReader) loadWord(bitsRemaining int64) {
-	b.word = 0
-	if bitsRemaining >= 64 {
-		b.word = binary.LittleEndian.Uint64(b.bitmap)
-	} else {
-		nbytes := bitutil.BytesForBits(bitsRemaining)
-		wordptr := (*(*[8]byte)(unsafe.Pointer(&b.word)))[:]
-		copy(wordptr, b.bitmap[:nbytes])
-
-		bitutil.SetBitTo(wordptr, int(bitsRemaining), bitutil.BitIsNotSet(wordptr, int(bitsRemaining-1)))
-		// reset the value to little endian for big endian architectures
-		b.word = utils.ToLEUint64(b.word)
-	}
-
-	// Two cases:
-	//   1. For unset, CountTrailingZeros works naturally so we don't
-	//   invert the word.
-	//   2. Otherwise invert so we can use CountTrailingZeros.
-	if b.curRunBitSet {
-		b.word = ^b.word
-	}
-}
diff --git a/go/internal/bitutils/bit_run_reader_test.go b/go/internal/bitutils/bit_run_reader_test.go
deleted file mode 100644
index e3e53c92621cd..0000000000000
--- a/go/internal/bitutils/bit_run_reader_test.go
+++ /dev/null
@@ -1,158 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"math/bits"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/stretchr/testify/assert"
-)
-
-var toLittleEndian func(uint64) uint64
-
-func init() {
-	if endian.IsBigEndian {
-		toLittleEndian = bits.ReverseBytes64
-	} else {
-		toLittleEndian = func(in uint64) uint64 { return in }
-	}
-}
-
-func TestBitRunReaderZeroLength(t *testing.T) {
-	reader := bitutils.NewBitRunReader(nil, 0, 0)
-	assert.Zero(t, reader.NextRun().Len)
-}
-
-func bitmapFromSlice(vals []int, bitOffset int64) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals))+bitOffset)))
-	writer := bitutil.NewBitmapWriter(out, int(bitOffset), len(vals))
-	for _, val := range vals {
-		if val == 1 {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-
-	return out
-}
-
-func TestBitRunReader(t *testing.T) {
-	tests := []struct {
-		name     string
-		val      []int
-		bmvec    []int
-		offset   int64
-		len      int64
-		expected []bitutils.BitRun
-	}{
-		{"normal operation",
-			[]int{5, 0, 7, 1, 3, 0, 25, 1, 21, 0, 26, 1, 130, 0, 65, 1},
-			[]int{1, 0, 1},
-			0, -1,
-			[]bitutils.BitRun{
-				{1, true},
-				{1, false},
-				{1, true},
-				{5, false},
-				{7, true},
-				{3, false},
-				{25, true},
-				{21, false},
-				{26, true},
-				{130, false},
-				{65, true},
-			},
-		},
-		{"truncated at word", []int{7, 1, 58, 0}, []int{}, 1, 63,
-			[]bitutils.BitRun{{6, true}, {57, false}},
-		},
-		{"truncated within word multiple of 8 bits",
-			[]int{7, 1, 5, 0}, []int{}, 1, 7,
-			[]bitutils.BitRun{{6, true}, {1, false}},
-		},
-		{"truncated within word", []int{37 + 40, 0, 23, 1}, []int{}, 37, 53,
-			[]bitutils.BitRun{{40, false}, {13, true}},
-		},
-		{"truncated multiple words", []int{5, 0, 30, 1, 95, 0}, []int{1, 0, 1},
-			5, (3 + 5 + 30 + 95) - (5 + 3), []bitutils.BitRun{{3, false}, {30, true}, {92, false}},
-		},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			bmvec := tt.bmvec
-
-			for i := 0; i < len(tt.val); i += 2 {
-				for j := 0; j < tt.val[i]; j++ {
-					bmvec = append(bmvec, tt.val[i+1])
-				}
-			}
-
-			bitmap := bitmapFromSlice(bmvec, 0)
-			length := int64(len(bmvec)) - tt.offset
-			if tt.len != -1 {
-				length = tt.len
-			}
-			reader := bitutils.NewBitRunReader(bitmap, tt.offset, length)
-
-			results := make([]bitutils.BitRun, 0)
-			for {
-				results = append(results, reader.NextRun())
-				if results[len(results)-1].Len == 0 {
-					break
-				}
-			}
-			assert.Zero(t, results[len(results)-1].Len)
-			results = results[:len(results)-1]
-
-			assert.Equal(t, tt.expected, results)
-		})
-	}
-}
-
-func TestBitRunReaderAllFirstByteCombos(t *testing.T) {
-	for offset := int64(0); offset < 8; offset++ {
-		for x := int64(0); x < (1<<8)-1; x++ {
-			bits := int64(toLittleEndian(uint64(x)))
-			reader := bitutils.NewBitRunReader((*(*[8]byte)(unsafe.Pointer(&bits)))[:], offset, 8-offset)
-
-			results := make([]bitutils.BitRun, 0)
-			for {
-				results = append(results, reader.NextRun())
-				if results[len(results)-1].Len == 0 {
-					break
-				}
-			}
-			assert.Zero(t, results[len(results)-1].Len)
-			results = results[:len(results)-1]
-
-			var sum int64
-			for _, r := range results {
-				sum += r.Len
-			}
-			assert.EqualValues(t, sum, 8-offset)
-		}
-	}
-}
diff --git a/go/internal/bitutils/bit_set_run_reader.go b/go/internal/bitutils/bit_set_run_reader.go
deleted file mode 100644
index 2c6a39f5352e6..0000000000000
--- a/go/internal/bitutils/bit_set_run_reader.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"encoding/binary"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// IsMultipleOf64 returns whether v is a multiple of 64.
-func IsMultipleOf64(v int64) bool { return v&63 == 0 }
-
-// LeastSignificantBitMask returns a bit mask to return the least significant
-// bits for a value starting from the bit index passed in. ie: if you want a
-// mask for the 4 least significant bits, you call LeastSignificantBitMask(4)
-func LeastSignificantBitMask(index int64) uint64 {
-	return (uint64(1) << index) - 1
-}
-
-// SetBitRun describes a run of contiguous set bits in a bitmap with Pos being
-// the starting position of the run and Length being the number of bits.
-type SetBitRun struct {
-	Pos    int64
-	Length int64
-}
-
-// AtEnd returns true if this bit run is the end of the set by checking
-// that the length is 0.
-func (s SetBitRun) AtEnd() bool {
-	return s.Length == 0
-}
-
-// Equal returns whether rhs is the same run as s
-func (s SetBitRun) Equal(rhs SetBitRun) bool {
-	return s.Pos == rhs.Pos && s.Length == rhs.Length
-}
-
-// SetBitRunReader is an interface for reading groups of contiguous set bits
-// from a bitmap. The interface allows us to create different reader implementations
-// that share the same interface easily such as a reverse set reader.
-type SetBitRunReader interface {
-	// NextRun will return the next run of contiguous set bits in the bitmap
-	NextRun() SetBitRun
-	// Reset allows re-using the reader by providing a new bitmap, offset and length. The arguments
-	// match the New function for the reader being used.
-	Reset([]byte, int64, int64)
-	// VisitSetBitRuns calls visitFn for each set in a loop starting from the current position
-	// it's roughly equivalent to simply looping, calling NextRun and calling visitFn on the run
-	// for each run.
-	VisitSetBitRuns(visitFn VisitFn) error
-}
-
-type baseSetBitRunReader struct {
-	bitmap     []byte
-	pos        int64
-	length     int64
-	remaining  int64
-	curWord    uint64
-	curNumBits int32
-	reversed   bool
-
-	firstBit uint64
-}
-
-// NewSetBitRunReader returns a SetBitRunReader for the bitmap starting at startOffset which will read
-// numvalues bits.
-func NewSetBitRunReader(validBits []byte, startOffset, numValues int64) SetBitRunReader {
-	return newBaseSetBitRunReader(validBits, startOffset, numValues, false)
-}
-
-// NewReverseSetBitRunReader returns a SetBitRunReader like NewSetBitRunReader, except it will
-// return runs starting from the end of the bitmap until it reaches startOffset rather than starting
-// at startOffset and reading from there. The SetBitRuns will still operate the same, so Pos
-// will still be the position of the "left-most" bit of the run or the "start" of the run. It
-// just returns runs starting from the end instead of starting from the beginning.
-func NewReverseSetBitRunReader(validBits []byte, startOffset, numValues int64) SetBitRunReader {
-	return newBaseSetBitRunReader(validBits, startOffset, numValues, true)
-}
-
-func newBaseSetBitRunReader(bitmap []byte, startOffset, length int64, reverse bool) *baseSetBitRunReader {
-	ret := &baseSetBitRunReader{reversed: reverse}
-	ret.Reset(bitmap, startOffset, length)
-	return ret
-}
-
-func (br *baseSetBitRunReader) Reset(bitmap []byte, startOffset, length int64) {
-	br.bitmap = bitmap
-	br.length = length
-	br.remaining = length
-	br.curNumBits = 0
-	br.curWord = 0
-
-	if !br.reversed {
-		br.pos = startOffset / 8
-		br.firstBit = 1
-
-		bitOffset := int8(startOffset % 8)
-		if length > 0 && bitOffset != 0 {
-			br.curNumBits = int32(utils.Min(int(length), int(8-bitOffset)))
-			br.curWord = br.loadPartial(bitOffset, int64(br.curNumBits))
-		}
-		return
-	}
-
-	br.pos = (startOffset + length) / 8
-	br.firstBit = uint64(0x8000000000000000)
-	endBitOffset := int8((startOffset + length) % 8)
-	if length > 0 && endBitOffset != 0 {
-		br.pos++
-		br.curNumBits = int32(utils.Min(int(length), int(endBitOffset)))
-		br.curWord = br.loadPartial(8-endBitOffset, int64(br.curNumBits))
-	}
-}
-
-func (br *baseSetBitRunReader) consumeBits(word uint64, nbits int32) uint64 {
-	if br.reversed {
-		return word << nbits
-	}
-	return word >> nbits
-}
-
-func (br *baseSetBitRunReader) countFirstZeros(word uint64) int32 {
-	if br.reversed {
-		return int32(bits.LeadingZeros64(word))
-	}
-	return int32(bits.TrailingZeros64(word))
-}
-
-func (br *baseSetBitRunReader) loadPartial(bitOffset int8, numBits int64) uint64 {
-	var word [8]byte
-	nbytes := bitutil.BytesForBits(numBits)
-	if br.reversed {
-		br.pos -= nbytes
-		copy(word[8-nbytes:], br.bitmap[br.pos:br.pos+nbytes])
-		return (binary.LittleEndian.Uint64(word[:]) << bitOffset) &^ LeastSignificantBitMask(64-numBits)
-	}
-
-	copy(word[:], br.bitmap[br.pos:br.pos+nbytes])
-	br.pos += nbytes
-	return (binary.LittleEndian.Uint64(word[:]) >> bitOffset) & LeastSignificantBitMask(numBits)
-}
-
-func (br *baseSetBitRunReader) findCurrentRun() SetBitRun {
-	nzeros := br.countFirstZeros(br.curWord)
-	if nzeros >= br.curNumBits {
-		br.remaining -= int64(br.curNumBits)
-		br.curWord = 0
-		br.curNumBits = 0
-		return SetBitRun{0, 0}
-	}
-
-	br.curWord = br.consumeBits(br.curWord, nzeros)
-	br.curNumBits -= nzeros
-	br.remaining -= int64(nzeros)
-	pos := br.position()
-
-	numOnes := br.countFirstZeros(^br.curWord)
-	br.curWord = br.consumeBits(br.curWord, numOnes)
-	br.curNumBits -= numOnes
-	br.remaining -= int64(numOnes)
-	return SetBitRun{pos, int64(numOnes)}
-}
-
-func (br *baseSetBitRunReader) position() int64 {
-	if br.reversed {
-		return br.remaining
-	}
-	return br.length - br.remaining
-}
-
-func (br *baseSetBitRunReader) adjustRun(run SetBitRun) SetBitRun {
-	if br.reversed {
-		run.Pos -= run.Length
-	}
-	return run
-}
-
-func (br *baseSetBitRunReader) loadFull() (ret uint64) {
-	if br.reversed {
-		br.pos -= 8
-	}
-	ret = binary.LittleEndian.Uint64(br.bitmap[br.pos : br.pos+8])
-	if !br.reversed {
-		br.pos += 8
-	}
-	return
-}
-
-func (br *baseSetBitRunReader) skipNextZeros() {
-	for br.remaining >= 64 {
-		br.curWord = br.loadFull()
-		nzeros := br.countFirstZeros(br.curWord)
-		if nzeros < 64 {
-			br.curWord = br.consumeBits(br.curWord, nzeros)
-			br.curNumBits = 64 - nzeros
-			br.remaining -= int64(nzeros)
-			return
-		}
-		br.remaining -= 64
-	}
-	// run of zeros continues in last bitmap word
-	if br.remaining > 0 {
-		br.curWord = br.loadPartial(0, br.remaining)
-		br.curNumBits = int32(br.remaining)
-		nzeros := int32(utils.Min(int(br.curNumBits), int(br.countFirstZeros(br.curWord))))
-		br.curWord = br.consumeBits(br.curWord, nzeros)
-		br.curNumBits -= nzeros
-		br.remaining -= int64(nzeros)
-	}
-}
-
-func (br *baseSetBitRunReader) countNextOnes() int64 {
-	var length int64
-	if ^br.curWord != 0 {
-		numOnes := br.countFirstZeros(^br.curWord)
-		br.remaining -= int64(numOnes)
-		br.curWord = br.consumeBits(br.curWord, numOnes)
-		br.curNumBits -= numOnes
-		if br.curNumBits != 0 {
-			return int64(numOnes)
-		}
-		length = int64(numOnes)
-	} else {
-		br.remaining -= 64
-		br.curNumBits = 0
-		length = 64
-	}
-
-	for br.remaining >= 64 {
-		br.curWord = br.loadFull()
-		numOnes := br.countFirstZeros(^br.curWord)
-		length += int64(numOnes)
-		br.remaining -= int64(numOnes)
-		if numOnes < 64 {
-			br.curWord = br.consumeBits(br.curWord, numOnes)
-			br.curNumBits = 64 - numOnes
-			return length
-		}
-	}
-
-	if br.remaining > 0 {
-		br.curWord = br.loadPartial(0, br.remaining)
-		br.curNumBits = int32(br.remaining)
-		numOnes := br.countFirstZeros(^br.curWord)
-		br.curWord = br.consumeBits(br.curWord, numOnes)
-		br.curNumBits -= numOnes
-		br.remaining -= int64(numOnes)
-		length += int64(numOnes)
-	}
-	return length
-}
-
-func (br *baseSetBitRunReader) NextRun() SetBitRun {
-	var (
-		pos    int64 = 0
-		length int64 = 0
-	)
-
-	if br.curNumBits != 0 {
-		run := br.findCurrentRun()
-		if run.Length != 0 && br.curNumBits != 0 {
-			return br.adjustRun(run)
-		}
-		pos = run.Pos
-		length = run.Length
-	}
-
-	if length == 0 {
-		// we didn't get any ones in curWord, so we can skip any zeros
-		// in the following words
-		br.skipNextZeros()
-		if br.remaining == 0 {
-			return SetBitRun{0, 0}
-		}
-		pos = br.position()
-	} else if br.curNumBits == 0 {
-		if br.remaining >= 64 {
-			br.curWord = br.loadFull()
-			br.curNumBits = 64
-		} else if br.remaining > 0 {
-			br.curWord = br.loadPartial(0, br.remaining)
-			br.curNumBits = int32(br.remaining)
-		} else {
-			return br.adjustRun(SetBitRun{pos, length})
-		}
-		if (br.curWord & br.firstBit) == 0 {
-			return br.adjustRun(SetBitRun{pos, length})
-		}
-	}
-
-	length += br.countNextOnes()
-	return br.adjustRun(SetBitRun{pos, length})
-}
-
-// VisitFn is a callback function for visiting runs of contiguous bits
-type VisitFn func(pos int64, length int64) error
-
-func (br *baseSetBitRunReader) VisitSetBitRuns(visitFn VisitFn) error {
-	for {
-		run := br.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		if err := visitFn(run.Pos, run.Length); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// VisitSetBitRuns is just a convenience function for calling NewSetBitRunReader and then VisitSetBitRuns
-func VisitSetBitRuns(bitmap []byte, bitmapOffset int64, length int64, visitFn VisitFn) error {
-	if bitmap == nil {
-		return visitFn(0, length)
-	}
-	rdr := NewSetBitRunReader(bitmap, bitmapOffset, length)
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		if err := visitFn(run.Pos, run.Length); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func VisitSetBitRunsNoErr(bitmap []byte, bitmapOffset int64, length int64, visitFn func(pos, length int64)) {
-	if bitmap == nil {
-		visitFn(0, length)
-		return
-	}
-	rdr := NewSetBitRunReader(bitmap, bitmapOffset, length)
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		visitFn(run.Pos, run.Length)
-	}
-}
diff --git a/go/internal/bitutils/bit_set_run_reader_test.go b/go/internal/bitutils/bit_set_run_reader_test.go
deleted file mode 100644
index c42f8b0d6dce7..0000000000000
--- a/go/internal/bitutils/bit_set_run_reader_test.go
+++ /dev/null
@@ -1,274 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/stretchr/testify/suite"
-)
-
-func reverseAny(s interface{}) {
-	n := reflect.ValueOf(s).Len()
-	swap := reflect.Swapper(s)
-	for i, j := 0, n-1; i < j; i, j = i+1, j-1 {
-		swap(i, j)
-	}
-}
-
-type linearBitRunReader struct {
-	reader *bitutil.BitmapReader
-}
-
-func (l linearBitRunReader) NextRun() bitutils.BitRun {
-	r := bitutils.BitRun{0, l.reader.Set()}
-	for l.reader.Pos() < l.reader.Len() && l.reader.Set() == r.Set {
-		r.Len++
-		l.reader.Next()
-	}
-	return r
-}
-
-func bitmapFromString(s string) []byte {
-	maxLen := bitutil.BytesForBits(int64(len(s)))
-	ret := make([]byte, maxLen)
-	i := 0
-	for _, c := range s {
-		switch c {
-		case '0':
-			bitutil.ClearBit(ret, i)
-			i++
-		case '1':
-			bitutil.SetBit(ret, i)
-			i++
-		case ' ', '\t', '\r', '\n':
-		default:
-			panic("unexpected character for bitmap string")
-		}
-	}
-
-	actualLen := bitutil.BytesForBits(int64(i))
-	return ret[:actualLen]
-}
-
-func referenceBitRuns(data []byte, offset, length int) (ret []bitutils.SetBitRun) {
-	ret = make([]bitutils.SetBitRun, 0)
-	reader := linearBitRunReader{bitutil.NewBitmapReader(data, offset, length)}
-	pos := 0
-	for pos < length {
-		br := reader.NextRun()
-		if br.Set {
-			ret = append(ret, bitutils.SetBitRun{int64(pos), br.Len})
-		}
-		pos += int(br.Len)
-	}
-	return
-}
-
-type BitSetRunReaderSuite struct {
-	suite.Suite
-
-	testOffsets []int64
-}
-
-func TestBitSetRunReader(t *testing.T) {
-	suite.Run(t, new(BitSetRunReaderSuite))
-}
-
-func (br *BitSetRunReaderSuite) SetupSuite() {
-	br.testOffsets = []int64{0, 1, 6, 7, 8, 33, 63, 64, 65, 71}
-	br.T().Parallel()
-}
-
-type Range struct {
-	Offset int64
-	Len    int64
-}
-
-func (r Range) EndOffset() int64 { return r.Offset + r.Len }
-
-func (br *BitSetRunReaderSuite) bufferTestRanges(buf []byte) []Range {
-	bufSize := int64(len(buf) * 8) // in bits
-	rg := make([]Range, 0)
-	for _, offset := range br.testOffsets {
-		for _, lenAdjust := range br.testOffsets {
-			length := utils.Min(bufSize-offset, lenAdjust)
-			br.GreaterOrEqual(length, int64(0))
-			rg = append(rg, Range{offset, length})
-			length = utils.Min(bufSize-offset, bufSize-lenAdjust)
-			br.GreaterOrEqual(length, int64(0))
-			rg = append(rg, Range{offset, length})
-		}
-	}
-	return rg
-}
-
-func (br *BitSetRunReaderSuite) assertBitRuns(buf []byte, start, length int64, expected []bitutils.SetBitRun) {
-	{
-		runs := make([]bitutils.SetBitRun, 0)
-		reader := bitutils.NewSetBitRunReader(buf, start, length)
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			runs = append(runs, run)
-		}
-		br.Equal(expected, runs)
-	}
-	{
-		runs := make([]bitutils.SetBitRun, 0)
-		reader := bitutils.NewReverseSetBitRunReader(buf, start, length)
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			runs = append(runs, run)
-		}
-		reverseAny(expected)
-		br.Equal(expected, runs)
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestEmpty() {
-	for _, offset := range br.testOffsets {
-		br.assertBitRuns(nil, offset, 0, []bitutils.SetBitRun{})
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestOneByte() {
-	buffer := bitmapFromString("01101101")
-	br.assertBitRuns(buffer, 0, 8, []bitutils.SetBitRun{
-		{1, 2}, {4, 2}, {7, 1},
-	})
-
-	for _, str := range []string{"01101101", "10110110", "00000000", "11111111"} {
-		buf := bitmapFromString(str)
-		for offset := 0; offset < 8; offset++ {
-			for length := 0; length <= 8-offset; length++ {
-				expected := referenceBitRuns(buf, offset, length)
-				br.assertBitRuns(buf, int64(offset), int64(length), expected)
-			}
-		}
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestTiny() {
-	buf := bitmapFromString("11100011 10001110 00111000 11100011 10001110 00111000")
-
-	br.assertBitRuns(buf, 0, 48, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 46, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 45, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 42, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3},
-	})
-	br.assertBitRuns(buf, 3, 45, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 43, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 42, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 39, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3},
-	})
-}
-
-func (br *BitSetRunReaderSuite) TestAllZeros() {
-	const bufferSize = 256
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{})
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestAllOnes() {
-	const bufferSize = 256
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-	bitutil.SetBitsTo(buf, 0, bufferSize, true)
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		if rg.Len > 0 {
-			br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{{0, rg.Len}})
-		} else {
-			br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{})
-		}
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestSmall() {
-	// ones then zeros then ones
-	const (
-		bufferSize      = 256
-		onesLen         = 64
-		secondOnesStart = bufferSize - onesLen
-	)
-
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-	bitutil.SetBitsTo(buf, 0, bufferSize, false)
-	bitutil.SetBitsTo(buf, 0, onesLen, true)
-	bitutil.SetBitsTo(buf, secondOnesStart, onesLen, true)
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		expected := []bitutils.SetBitRun{}
-		if rg.Offset < onesLen && rg.Len > 0 {
-			expected = append(expected, bitutils.SetBitRun{0, utils.Min(onesLen-rg.Offset, rg.Len)})
-		}
-		if rg.Offset+rg.Len > secondOnesStart {
-			expected = append(expected, bitutils.SetBitRun{secondOnesStart - rg.Offset, rg.Len + rg.Offset - secondOnesStart})
-		}
-		br.assertBitRuns(buf, rg.Offset, rg.Len, expected)
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestSingleRun() {
-	// one single run of ones, at varying places in the buffer
-	const bufferSize = 512
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-
-	for _, onesRg := range br.bufferTestRanges(buf) {
-		bitutil.SetBitsTo(buf, 0, bufferSize, false)
-		bitutil.SetBitsTo(buf, onesRg.Offset, onesRg.Len, true)
-
-		for _, rg := range br.bufferTestRanges(buf) {
-			expect := []bitutils.SetBitRun{}
-			if rg.Len != 0 && onesRg.Len != 0 && rg.Offset < onesRg.EndOffset() && onesRg.Offset < rg.EndOffset() {
-				// the two ranges intersect
-				var (
-					intersectStart = utils.Max(rg.Offset, onesRg.Offset)
-					intersectStop  = utils.Min(rg.EndOffset(), onesRg.EndOffset())
-				)
-				expect = append(expect, bitutils.SetBitRun{intersectStart - rg.Offset, intersectStop - intersectStart})
-			}
-			br.assertBitRuns(buf, rg.Offset, rg.Len, expect)
-		}
-	}
-}
diff --git a/go/internal/bitutils/bitmap_generate.go b/go/internal/bitutils/bitmap_generate.go
deleted file mode 100644
index a6d43b4622f93..0000000000000
--- a/go/internal/bitutils/bitmap_generate.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import "github.com/apache/arrow/go/v18/arrow/bitutil"
-
-// GenerateBits writes sequential bits to a bitmap. Bits preceding the
-// initial start offset are preserved, bits following the bitmap may
-// get clobbered.
-func GenerateBits(bitmap []byte, start, length int64, g func() bool) {
-	if length == 0 {
-		return
-	}
-
-	cur := bitmap[start/8:]
-	mask := bitutil.BitMask[start%8]
-	curbyte := cur[0] & bitutil.PrecedingBitmask[start%8]
-
-	for i := int64(0); i < length; i++ {
-		bit := g()
-		if bit {
-			curbyte = curbyte | mask
-		}
-		mask <<= 1
-		if mask == 0 {
-			mask = 1
-			cur[0] = curbyte
-			cur = cur[1:]
-			curbyte = 0
-		}
-	}
-
-	if mask != 1 {
-		cur[0] = curbyte
-	}
-}
-
-// GenerateBitsUnrolled is like GenerateBits but unrolls its main loop for
-// higher performance.
-//
-// See the benchmarks for evidence.
-func GenerateBitsUnrolled(bitmap []byte, start, length int64, g func() bool) {
-	if length == 0 {
-		return
-	}
-
-	var (
-		curbyte        byte
-		cur                   = bitmap[start/8:]
-		startBitOffset uint64 = uint64(start % 8)
-		mask                  = bitutil.BitMask[startBitOffset]
-		remaining             = length
-	)
-
-	if mask != 0x01 {
-		curbyte = cur[0] & bitutil.PrecedingBitmask[startBitOffset]
-		for mask != 0 && remaining > 0 {
-			if g() {
-				curbyte |= mask
-			}
-			mask <<= 1
-			remaining--
-		}
-		cur[0] = curbyte
-		cur = cur[1:]
-	}
-
-	var outResults [8]byte
-	for remainingBytes := remaining / 8; remainingBytes > 0; remainingBytes-- {
-		for i := 0; i < 8; i++ {
-			if g() {
-				outResults[i] = 1
-			} else {
-				outResults[i] = 0
-			}
-		}
-		cur[0] = (outResults[0] | outResults[1]<<1 | outResults[2]<<2 |
-			outResults[3]<<3 | outResults[4]<<4 | outResults[5]<<5 |
-			outResults[6]<<6 | outResults[7]<<7)
-		cur = cur[1:]
-	}
-
-	remainingBits := remaining % 8
-	if remainingBits > 0 {
-		curbyte = 0
-		mask = 0x01
-		for ; remainingBits > 0; remainingBits-- {
-			if g() {
-				curbyte |= mask
-			}
-			mask <<= 1
-		}
-		cur[0] = curbyte
-	}
-}
diff --git a/go/internal/bitutils/bitmap_generate_test.go b/go/internal/bitutils/bitmap_generate_test.go
deleted file mode 100644
index d75f5a72147b1..0000000000000
--- a/go/internal/bitutils/bitmap_generate_test.go
+++ /dev/null
@@ -1,68 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/rand"
-)
-
-const kBufferSize int64 = 1024 * 8
-
-var pattern = []bool{false, false, false, true, true, true}
-
-func runBench(b *testing.B, bitmap []byte, nbits int64, fn func([]byte, int64, int64, func() bool)) {
-	for n := 0; n < b.N; n++ {
-		patternIndex := 0
-		gen := func() bool {
-			b := pattern[patternIndex]
-			patternIndex++
-			if patternIndex == len(pattern) {
-				patternIndex = 0
-			}
-			return b
-		}
-
-		fn(bitmap, 0, nbits, gen)
-	}
-}
-
-func BenchmarkGenerateBits(b *testing.B) {
-	nbits := kBufferSize * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	bitmap := make([]byte, kBufferSize)
-	r.Read(bitmap)
-
-	b.ResetTimer()
-	b.SetBytes(kBufferSize)
-	runBench(b, bitmap, nbits, bitutils.GenerateBits)
-}
-
-func BenchmarkGenerateBitsUnrolled(b *testing.B) {
-	nbits := kBufferSize * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	bitmap := make([]byte, kBufferSize)
-	r.Read(bitmap)
-
-	b.ResetTimer()
-	b.SetBytes(kBufferSize)
-	runBench(b, bitmap, nbits, bitutils.GenerateBitsUnrolled)
-}
diff --git a/go/internal/hashing/hash_funcs.go b/go/internal/hashing/hash_funcs.go
deleted file mode 100644
index c1bdfeb6ddf6e..0000000000000
--- a/go/internal/hashing/hash_funcs.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math/bits"
-	"unsafe"
-
-	"github.com/zeebo/xxh3"
-)
-
-func hashInt(val uint64, alg uint64) uint64 {
-	// Two of xxhash's prime multipliers (which are chosen for their
-	// bit dispersion properties)
-	var multipliers = [2]uint64{11400714785074694791, 14029467366897019727}
-	// Multiplying by the prime number mixes the low bits into the high bits,
-	// then byte-swapping (which is a single CPU instruction) allows the
-	// combined high and low bits to participate in the initial hash table index.
-	return bits.ReverseBytes64(multipliers[alg] * val)
-}
-
-func hashFloat32(val float32, alg uint64) uint64 {
-	// grab the raw byte pattern of the
-	bt := *(*[4]byte)(unsafe.Pointer(&val))
-	x := uint64(*(*uint32)(unsafe.Pointer(&bt[0])))
-	hx := hashInt(x, alg)
-	hy := hashInt(x, alg^1)
-	return 4 ^ hx ^ hy
-}
-
-func hashFloat64(val float64, alg uint64) uint64 {
-	bt := *(*[8]byte)(unsafe.Pointer(&val))
-	hx := hashInt(uint64(*(*uint32)(unsafe.Pointer(&bt[4]))), alg)
-	hy := hashInt(uint64(*(*uint32)(unsafe.Pointer(&bt[0]))), alg^1)
-	return 8 ^ hx ^ hy
-}
-
-// prime constants used for slightly increasing the hash quality further
-var exprimes = [2]uint64{1609587929392839161, 9650029242287828579}
-
-// for smaller amounts of bytes this is faster than even calling into
-// xxh3 to do the Hash, so we specialize in order to get the benefits
-// of that performance.
-func Hash(b []byte, alg uint64) uint64 {
-	n := uint32(len(b))
-	if n <= 16 {
-		switch {
-		case n > 8:
-			// 8 < length <= 16
-			// apply same principle as above, but as two 64-bit ints
-			x := *(*uint64)(unsafe.Pointer(&b[n-8]))
-			y := *(*uint64)(unsafe.Pointer(&b[0]))
-			hx := hashInt(x, alg)
-			hy := hashInt(y, alg^1)
-			return uint64(n) ^ hx ^ hy
-		case n >= 4:
-			// 4 < length <= 8
-			// we can read the bytes as two overlapping 32-bit ints, apply different
-			// hash functions to each in parallel
-			// then xor the results
-			x := *(*uint32)(unsafe.Pointer(&b[n-4]))
-			y := *(*uint32)(unsafe.Pointer(&b[0]))
-			hx := hashInt(uint64(x), alg)
-			hy := hashInt(uint64(y), alg^1)
-			return uint64(n) ^ hx ^ hy
-		case n > 0:
-			x := uint32((n << 24) ^ (uint32(b[0]) << 16) ^ (uint32(b[n/2]) << 8) ^ uint32(b[n-1]))
-			return hashInt(uint64(x), alg)
-		case n == 0:
-			return 1
-		}
-	}
-
-	// increase differentiation enough to improve hash quality
-	return xxh3.Hash(b) + exprimes[alg]
-}
diff --git a/go/internal/hashing/hash_string.go b/go/internal/hashing/hash_string.go
deleted file mode 100644
index c8579c1ec5eaa..0000000000000
--- a/go/internal/hashing/hash_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package hashing
-
-import "unsafe"
-
-func hashString(val string, alg uint64) uint64 {
-	buf := unsafe.Slice(unsafe.StringData(val), len(val))
-	return Hash(buf, alg)
-}
-
-func strToBytes(v string) []byte {
-	return unsafe.Slice(unsafe.StringData(v), len(v))
-}
diff --git a/go/internal/hashing/hashing_test.go b/go/internal/hashing/hashing_test.go
deleted file mode 100644
index 4527f5f8196b7..0000000000000
--- a/go/internal/hashing/hashing_test.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math/rand"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func MakeDistinctIntegers(nvals int) map[int]bool {
-	r := rand.New(rand.NewSource(42))
-	values := make(map[int]bool)
-	for len(values) < nvals {
-		values[r.Int()] = true
-	}
-	return values
-}
-
-func MakeSequentialIntegers(nvals int) map[int]bool {
-	values := make(map[int]bool)
-	for i := 0; i < nvals; i++ {
-		values[i] = true
-	}
-	return values
-}
-
-func MakeDistinctStrings(nvals int) map[string]bool {
-	values := make(map[string]bool)
-
-	r := rand.New(rand.NewSource(42))
-
-	max := 'z'
-	min := '0'
-	for len(values) < nvals {
-		data := make([]byte, r.Intn(24))
-		for idx := range data {
-			data[idx] = byte(r.Intn(int(max-min+1)) + int(min))
-		}
-		values[string(data)] = true
-	}
-	return values
-}
-
-func TestHashingQualityInt(t *testing.T) {
-	const nvalues = 10000
-
-	tests := []struct {
-		name    string
-		values  map[int]bool
-		quality float64
-	}{
-		{"distinct", MakeDistinctIntegers(nvalues), 0.96},
-		{"sequential", MakeSequentialIntegers(nvalues), 0.96},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			hashes := make(map[uint64]bool)
-			for k := range tt.values {
-				hashes[hashInt(uint64(k), 0)] = true
-				hashes[hashInt(uint64(k), 1)] = true
-			}
-			assert.GreaterOrEqual(t, float64(len(hashes)), tt.quality*float64(2*len(tt.values)))
-		})
-	}
-}
-
-func TestHashingBoundsStrings(t *testing.T) {
-	sizes := []int{1, 2, 3, 4, 5, 7, 8, 9, 15, 16, 17, 18, 19, 20, 21}
-	for _, s := range sizes {
-		str := make([]byte, s)
-		for idx := range str {
-			str[idx] = uint8(idx)
-		}
-
-		h := Hash(str, 1)
-		diff := 0
-		for i := 0; i < 120; i++ {
-			str[len(str)-1] = uint8(i)
-			if Hash(str, 1) != h {
-				diff++
-			}
-		}
-		assert.GreaterOrEqual(t, diff, 118)
-	}
-}
-
-func TestHashingQualityString(t *testing.T) {
-	const nvalues = 10000
-	values := MakeDistinctStrings(nvalues)
-
-	hashes := make(map[uint64]bool)
-	for k := range values {
-		hashes[hashString(k, 0)] = true
-		hashes[hashString(k, 1)] = true
-	}
-	assert.GreaterOrEqual(t, float64(len(hashes)), 0.96*float64(2*len(values)))
-}
diff --git a/go/internal/hashing/types.tmpldata b/go/internal/hashing/types.tmpldata
deleted file mode 100644
index 0ba6f765d2080..0000000000000
--- a/go/internal/hashing/types.tmpldata
+++ /dev/null
@@ -1,42 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "name": "int8"
-  },
-  {
-    "Name": "Uint8",
-    "name": "uint8"
-  },
-  {
-    "Name": "Int16",
-    "name": "int16"
-  },
-  {
-    "Name": "Uint16",
-    "name": "uint16"
-  },
-  {
-    "Name": "Int32",
-    "name": "int32"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64"
-  },
-  {
-    "Name": "Uint32",
-    "name": "uint32"
-  },
-  {
-    "Name": "Uint64",
-    "name": "uint64"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64"
-  }
-]
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go b/go/internal/hashing/xxh3_memo_table.gen.go
deleted file mode 100644
index c8f56ed21565e..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.gen.go
+++ /dev/null
@@ -1,2833 +0,0 @@
-// Code generated by xxh3_memo_table.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-type payloadInt8 struct {
-	val     int8
-	memoIdx int32
-}
-
-type entryInt8 struct {
-	h       uint64
-	payload payloadInt8
-}
-
-func (e entryInt8) Valid() bool { return e.h != sentinel }
-
-// Int8HashTable is a hashtable specifically for int8 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int8HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt8
-}
-
-// NewInt8HashTable returns a new hash table for int8 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt8HashTable(cap uint64) *Int8HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int8HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt8, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int8HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt8, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int8HashTable) CopyValues(out []int8) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int8HashTable) CopyValuesSubset(start int, out []int8) {
-	h.VisitEntries(func(e *entryInt8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int8HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int8HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int8Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int8HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int8HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int8HashTable) Lookup(v uint64, cmp func(int8) bool) (*entryInt8, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int8HashTable) lookup(v uint64, szMask uint64, cmp func(int8) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt8
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int8HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt8, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int8) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int8HashTable) Insert(e *entryInt8, v uint64, val int8, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int8HashTable) VisitEntries(visit func(*entryInt8)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int8MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int8MemoTable struct {
-	tbl     *Int8HashTable
-	nullIdx int32
-}
-
-// NewInt8MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt8MemoTable(num int64) *Int8MemoTable {
-	return &Int8MemoTable{tbl: NewInt8HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int8MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int8Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int8MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int8MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int8MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int8MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int8MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int8MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int8))
-}
-
-func (s *Int8MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int8Traits.CastFromBytes(out))
-}
-
-func (s *Int8MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int8Traits.CastFromBytes(out))
-}
-
-func (s *Int8MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int8MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int8MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int8)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int8) bool { return val.(int8) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int8MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int8)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int8) bool {
-		return val.(int8) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int8), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int8MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint8 struct {
-	val     uint8
-	memoIdx int32
-}
-
-type entryUint8 struct {
-	h       uint64
-	payload payloadUint8
-}
-
-func (e entryUint8) Valid() bool { return e.h != sentinel }
-
-// Uint8HashTable is a hashtable specifically for uint8 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint8HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint8
-}
-
-// NewUint8HashTable returns a new hash table for uint8 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint8HashTable(cap uint64) *Uint8HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint8HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint8, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint8HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint8, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint8HashTable) CopyValues(out []uint8) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint8HashTable) CopyValuesSubset(start int, out []uint8) {
-	h.VisitEntries(func(e *entryUint8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint8HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint8HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint8Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint8HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint8HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint8HashTable) Lookup(v uint64, cmp func(uint8) bool) (*entryUint8, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint8HashTable) lookup(v uint64, szMask uint64, cmp func(uint8) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint8
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint8HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint8, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint8) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint8HashTable) Insert(e *entryUint8, v uint64, val uint8, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint8HashTable) VisitEntries(visit func(*entryUint8)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint8MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint8MemoTable struct {
-	tbl     *Uint8HashTable
-	nullIdx int32
-}
-
-// NewUint8MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint8MemoTable(num int64) *Uint8MemoTable {
-	return &Uint8MemoTable{tbl: NewUint8HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint8MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint8Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint8MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint8MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint8MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint8MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint8MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint8MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint8))
-}
-
-func (s *Uint8MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint8Traits.CastFromBytes(out))
-}
-
-func (s *Uint8MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint8Traits.CastFromBytes(out))
-}
-
-func (s *Uint8MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint8MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint8MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint8)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint8) bool { return val.(uint8) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint8MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint8)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint8) bool {
-		return val.(uint8) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint8), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint8MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt16 struct {
-	val     int16
-	memoIdx int32
-}
-
-type entryInt16 struct {
-	h       uint64
-	payload payloadInt16
-}
-
-func (e entryInt16) Valid() bool { return e.h != sentinel }
-
-// Int16HashTable is a hashtable specifically for int16 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int16HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt16
-}
-
-// NewInt16HashTable returns a new hash table for int16 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt16HashTable(cap uint64) *Int16HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int16HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt16, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int16HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt16, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int16HashTable) CopyValues(out []int16) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int16HashTable) CopyValuesSubset(start int, out []int16) {
-	h.VisitEntries(func(e *entryInt16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int16HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int16HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int16Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt16(e.payload.val)
-		}
-	})
-}
-
-func (h *Int16HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int16HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int16HashTable) Lookup(v uint64, cmp func(int16) bool) (*entryInt16, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int16HashTable) lookup(v uint64, szMask uint64, cmp func(int16) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt16
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int16HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt16, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int16) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int16HashTable) Insert(e *entryInt16, v uint64, val int16, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int16HashTable) VisitEntries(visit func(*entryInt16)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int16MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int16MemoTable struct {
-	tbl     *Int16HashTable
-	nullIdx int32
-}
-
-// NewInt16MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt16MemoTable(num int64) *Int16MemoTable {
-	return &Int16MemoTable{tbl: NewInt16HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int16MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int16Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int16MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int16MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int16MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int16MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int16MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int16MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int16))
-}
-
-func (s *Int16MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int16Traits.CastFromBytes(out))
-}
-
-func (s *Int16MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int16Traits.CastFromBytes(out))
-}
-
-func (s *Int16MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int16MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int16MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int16)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int16) bool { return val.(int16) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int16MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int16)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int16) bool {
-		return val.(int16) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int16), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int16MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint16 struct {
-	val     uint16
-	memoIdx int32
-}
-
-type entryUint16 struct {
-	h       uint64
-	payload payloadUint16
-}
-
-func (e entryUint16) Valid() bool { return e.h != sentinel }
-
-// Uint16HashTable is a hashtable specifically for uint16 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint16HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint16
-}
-
-// NewUint16HashTable returns a new hash table for uint16 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint16HashTable(cap uint64) *Uint16HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint16HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint16, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint16HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint16, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint16HashTable) CopyValues(out []uint16) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint16HashTable) CopyValuesSubset(start int, out []uint16) {
-	h.VisitEntries(func(e *entryUint16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint16HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint16HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint16Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint16(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint16HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint16HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint16HashTable) Lookup(v uint64, cmp func(uint16) bool) (*entryUint16, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint16HashTable) lookup(v uint64, szMask uint64, cmp func(uint16) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint16
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint16HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint16, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint16) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint16HashTable) Insert(e *entryUint16, v uint64, val uint16, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint16HashTable) VisitEntries(visit func(*entryUint16)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint16MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint16MemoTable struct {
-	tbl     *Uint16HashTable
-	nullIdx int32
-}
-
-// NewUint16MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint16MemoTable(num int64) *Uint16MemoTable {
-	return &Uint16MemoTable{tbl: NewUint16HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint16MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint16Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint16MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint16MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint16MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint16MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint16MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint16MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint16))
-}
-
-func (s *Uint16MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint16Traits.CastFromBytes(out))
-}
-
-func (s *Uint16MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint16Traits.CastFromBytes(out))
-}
-
-func (s *Uint16MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint16MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint16MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint16)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint16) bool { return val.(uint16) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint16MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint16)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint16) bool {
-		return val.(uint16) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint16), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint16MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt32 struct {
-	val     int32
-	memoIdx int32
-}
-
-type entryInt32 struct {
-	h       uint64
-	payload payloadInt32
-}
-
-func (e entryInt32) Valid() bool { return e.h != sentinel }
-
-// Int32HashTable is a hashtable specifically for int32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt32
-}
-
-// NewInt32HashTable returns a new hash table for int32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt32HashTable(cap uint64) *Int32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int32HashTable) CopyValues(out []int32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int32HashTable) CopyValuesSubset(start int, out []int32) {
-	h.VisitEntries(func(e *entryInt32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt32(e.payload.val)
-		}
-	})
-}
-
-func (h *Int32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int32HashTable) Lookup(v uint64, cmp func(int32) bool) (*entryInt32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int32HashTable) lookup(v uint64, szMask uint64, cmp func(int32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int32HashTable) Insert(e *entryInt32, v uint64, val int32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int32HashTable) VisitEntries(visit func(*entryInt32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int32MemoTable struct {
-	tbl     *Int32HashTable
-	nullIdx int32
-}
-
-// NewInt32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt32MemoTable(num int64) *Int32MemoTable {
-	return &Int32MemoTable{tbl: NewInt32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int32))
-}
-
-func (s *Int32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int32Traits.CastFromBytes(out))
-}
-
-func (s *Int32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int32Traits.CastFromBytes(out))
-}
-
-func (s *Int32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int32MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int32)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int32) bool { return val.(int32) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int32)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int32) bool {
-		return val.(int32) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt64 struct {
-	val     int64
-	memoIdx int32
-}
-
-type entryInt64 struct {
-	h       uint64
-	payload payloadInt64
-}
-
-func (e entryInt64) Valid() bool { return e.h != sentinel }
-
-// Int64HashTable is a hashtable specifically for int64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt64
-}
-
-// NewInt64HashTable returns a new hash table for int64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt64HashTable(cap uint64) *Int64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int64HashTable) CopyValues(out []int64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int64HashTable) CopyValuesSubset(start int, out []int64) {
-	h.VisitEntries(func(e *entryInt64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt64(e.payload.val)
-		}
-	})
-}
-
-func (h *Int64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int64HashTable) Lookup(v uint64, cmp func(int64) bool) (*entryInt64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int64HashTable) lookup(v uint64, szMask uint64, cmp func(int64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int64HashTable) Insert(e *entryInt64, v uint64, val int64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int64HashTable) VisitEntries(visit func(*entryInt64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int64MemoTable struct {
-	tbl     *Int64HashTable
-	nullIdx int32
-}
-
-// NewInt64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt64MemoTable(num int64) *Int64MemoTable {
-	return &Int64MemoTable{tbl: NewInt64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int64))
-}
-
-func (s *Int64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int64Traits.CastFromBytes(out))
-}
-
-func (s *Int64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int64Traits.CastFromBytes(out))
-}
-
-func (s *Int64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int64MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int64)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int64) bool { return val.(int64) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int64)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int64) bool {
-		return val.(int64) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint32 struct {
-	val     uint32
-	memoIdx int32
-}
-
-type entryUint32 struct {
-	h       uint64
-	payload payloadUint32
-}
-
-func (e entryUint32) Valid() bool { return e.h != sentinel }
-
-// Uint32HashTable is a hashtable specifically for uint32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint32
-}
-
-// NewUint32HashTable returns a new hash table for uint32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint32HashTable(cap uint64) *Uint32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint32HashTable) CopyValues(out []uint32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint32HashTable) CopyValuesSubset(start int, out []uint32) {
-	h.VisitEntries(func(e *entryUint32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint32(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint32HashTable) Lookup(v uint64, cmp func(uint32) bool) (*entryUint32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint32HashTable) lookup(v uint64, szMask uint64, cmp func(uint32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint32HashTable) Insert(e *entryUint32, v uint64, val uint32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint32HashTable) VisitEntries(visit func(*entryUint32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint32MemoTable struct {
-	tbl     *Uint32HashTable
-	nullIdx int32
-}
-
-// NewUint32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint32MemoTable(num int64) *Uint32MemoTable {
-	return &Uint32MemoTable{tbl: NewUint32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint32))
-}
-
-func (s *Uint32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint32Traits.CastFromBytes(out))
-}
-
-func (s *Uint32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint32Traits.CastFromBytes(out))
-}
-
-func (s *Uint32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint32MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint32)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint32) bool { return val.(uint32) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint32)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint32) bool {
-		return val.(uint32) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint64 struct {
-	val     uint64
-	memoIdx int32
-}
-
-type entryUint64 struct {
-	h       uint64
-	payload payloadUint64
-}
-
-func (e entryUint64) Valid() bool { return e.h != sentinel }
-
-// Uint64HashTable is a hashtable specifically for uint64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint64
-}
-
-// NewUint64HashTable returns a new hash table for uint64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint64HashTable(cap uint64) *Uint64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint64HashTable) CopyValues(out []uint64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint64HashTable) CopyValuesSubset(start int, out []uint64) {
-	h.VisitEntries(func(e *entryUint64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint64(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint64HashTable) Lookup(v uint64, cmp func(uint64) bool) (*entryUint64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint64HashTable) lookup(v uint64, szMask uint64, cmp func(uint64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint64HashTable) Insert(e *entryUint64, v uint64, val uint64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint64HashTable) VisitEntries(visit func(*entryUint64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint64MemoTable struct {
-	tbl     *Uint64HashTable
-	nullIdx int32
-}
-
-// NewUint64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint64MemoTable(num int64) *Uint64MemoTable {
-	return &Uint64MemoTable{tbl: NewUint64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint64))
-}
-
-func (s *Uint64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint64Traits.CastFromBytes(out))
-}
-
-func (s *Uint64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint64Traits.CastFromBytes(out))
-}
-
-func (s *Uint64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint64MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint64)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint64) bool { return val.(uint64) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint64)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint64) bool {
-		return val.(uint64) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadFloat32 struct {
-	val     float32
-	memoIdx int32
-}
-
-type entryFloat32 struct {
-	h       uint64
-	payload payloadFloat32
-}
-
-func (e entryFloat32) Valid() bool { return e.h != sentinel }
-
-// Float32HashTable is a hashtable specifically for float32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Float32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryFloat32
-}
-
-// NewFloat32HashTable returns a new hash table for float32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewFloat32HashTable(cap uint64) *Float32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Float32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryFloat32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Float32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryFloat32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Float32HashTable) CopyValues(out []float32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Float32HashTable) CopyValuesSubset(start int, out []float32) {
-	h.VisitEntries(func(e *entryFloat32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Float32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Float32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Float32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryFloat32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEFloat32(e.payload.val)
-		}
-	})
-}
-
-func (h *Float32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Float32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Float32HashTable) Lookup(v uint64, cmp func(float32) bool) (*entryFloat32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Float32HashTable) lookup(v uint64, szMask uint64, cmp func(float32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryFloat32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Float32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryFloat32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(float32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Float32HashTable) Insert(e *entryFloat32, v uint64, val float32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Float32HashTable) VisitEntries(visit func(*entryFloat32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Float32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Float32MemoTable struct {
-	tbl     *Float32HashTable
-	nullIdx int32
-}
-
-// NewFloat32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewFloat32MemoTable(num int64) *Float32MemoTable {
-	return &Float32MemoTable{tbl: NewFloat32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Float32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Float32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Float32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Float32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Float32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Float32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Float32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Float32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]float32))
-}
-
-func (s *Float32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Float32Traits.CastFromBytes(out))
-}
-
-func (s *Float32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Float32Traits.CastFromBytes(out))
-}
-
-func (s *Float32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Float32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Float32MemoTable) Get(val interface{}) (int, bool) {
-	var cmp func(float32) bool
-
-	if math.IsNaN(float64(val.(float32))) {
-		cmp = isNan32Cmp
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = float32(math.NaN())
-	} else {
-		cmp = func(v float32) bool { return val.(float32) == v }
-	}
-
-	h := hashFloat32(val.(float32), 0)
-	if e, ok := s.tbl.Lookup(h, cmp); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Float32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	var cmp func(float32) bool
-
-	if math.IsNaN(float64(val.(float32))) {
-		cmp = isNan32Cmp
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = float32(math.NaN())
-	} else {
-		cmp = func(v float32) bool { return val.(float32) == v }
-	}
-
-	h := hashFloat32(val.(float32), 0)
-	e, ok := s.tbl.Lookup(h, cmp)
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(float32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Float32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadFloat64 struct {
-	val     float64
-	memoIdx int32
-}
-
-type entryFloat64 struct {
-	h       uint64
-	payload payloadFloat64
-}
-
-func (e entryFloat64) Valid() bool { return e.h != sentinel }
-
-// Float64HashTable is a hashtable specifically for float64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Float64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryFloat64
-}
-
-// NewFloat64HashTable returns a new hash table for float64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewFloat64HashTable(cap uint64) *Float64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Float64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryFloat64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Float64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryFloat64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Float64HashTable) CopyValues(out []float64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Float64HashTable) CopyValuesSubset(start int, out []float64) {
-	h.VisitEntries(func(e *entryFloat64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Float64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Float64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Float64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryFloat64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEFloat64(e.payload.val)
-		}
-	})
-}
-
-func (h *Float64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Float64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Float64HashTable) Lookup(v uint64, cmp func(float64) bool) (*entryFloat64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Float64HashTable) lookup(v uint64, szMask uint64, cmp func(float64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryFloat64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Float64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryFloat64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(float64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Float64HashTable) Insert(e *entryFloat64, v uint64, val float64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Float64HashTable) VisitEntries(visit func(*entryFloat64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Float64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Float64MemoTable struct {
-	tbl     *Float64HashTable
-	nullIdx int32
-}
-
-// NewFloat64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewFloat64MemoTable(num int64) *Float64MemoTable {
-	return &Float64MemoTable{tbl: NewFloat64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Float64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Float64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Float64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Float64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Float64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Float64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Float64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Float64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]float64))
-}
-
-func (s *Float64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (s *Float64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (s *Float64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Float64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Float64MemoTable) Get(val interface{}) (int, bool) {
-	var cmp func(float64) bool
-	if math.IsNaN(val.(float64)) {
-		cmp = math.IsNaN
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = math.NaN()
-	} else {
-		cmp = func(v float64) bool { return val.(float64) == v }
-	}
-
-	h := hashFloat64(val.(float64), 0)
-	if e, ok := s.tbl.Lookup(h, cmp); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Float64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	var cmp func(float64) bool
-	if math.IsNaN(val.(float64)) {
-		cmp = math.IsNaN
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = math.NaN()
-	} else {
-		cmp = func(v float64) bool { return val.(float64) == v }
-	}
-
-	h := hashFloat64(val.(float64), 0)
-	e, ok := s.tbl.Lookup(h, cmp)
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(float64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Float64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl b/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
deleted file mode 100644
index b852a9d79a39b..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
+++ /dev/null
@@ -1,349 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-  "github.com/apache/arrow/go/v18/arrow/bitutil"  
-  "github.com/apache/arrow/go/v18/internal/utils"  
-)
-
-{{range .In}}
-type payload{{.Name}} struct {
-	val     {{.name}}
-	memoIdx int32
-}
-
-type entry{{.Name}} struct {
-	h       uint64
-	payload payload{{.Name}}
-}
-
-func (e entry{{.Name}}) Valid() bool { return e.h != sentinel }
-
-// {{.Name}}HashTable is a hashtable specifically for {{.name}} that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type {{.Name}}HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entry{{.Name}}
-}
-
-// New{{.Name}}HashTable returns a new hash table for {{.name}} values
-// initialized with the passed in capacity or 32 whichever is larger.
-func New{{.Name}}HashTable(cap uint64) *{{.Name}}HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &{{.Name}}HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entry{{.Name}}, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *{{.Name}}HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entry{{.Name}}, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *{{.Name}}HashTable) CopyValues(out []{{.name}}) {
-  h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *{{.Name}}HashTable) CopyValuesSubset(start int, out []{{.name}}) {
-  h.VisitEntries(func(e *entry{{.Name}}) {
-    idx := e.payload.memoIdx - int32(start)
-    if idx >= 0 {
-      out[idx] = e.payload.val
-    }
-  })
-}
-
-func (h *{{.Name}}HashTable) WriteOut(out []byte) {
-  h.WriteOutSubset(0, out)
-}
-
-func (h *{{.Name}}HashTable) WriteOutSubset(start int, out []byte) {
-  data := arrow.{{.Name}}Traits.CastFromBytes(out)
-  h.VisitEntries(func(e *entry{{.Name}}) {
-    idx := e.payload.memoIdx - int32(start)
-    if idx >= 0 {
-{{if and (ne .Name "Int8") (ne .Name "Uint8") -}}    
-      data[idx] = utils.ToLE{{.Name}}(e.payload.val)
-{{else -}}
-      data[idx] = e.payload.val
-{{end -}}
-    }
-  })
-}
-
-func (h *{{.Name}}HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func ({{.Name}}HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *{{.Name}}HashTable) Lookup(v uint64, cmp func({{.name}}) bool) (*entry{{.Name}}, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *{{.Name}}HashTable) lookup(v uint64, szMask uint64, cmp func({{.name}}) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entry{{.Name}}
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *{{.Name}}HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entry{{.Name}}, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func({{.name}}) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *{{.Name}}HashTable) Insert(e *entry{{.Name}}, v uint64, val {{.name}}, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *{{.Name}}HashTable) VisitEntries(visit func(*entry{{.Name}})) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// {{.Name}}MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type {{.Name}}MemoTable struct {
-  tbl *{{.Name}}HashTable
-  nullIdx int32
-}
-
-// New{{.Name}}MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func New{{.Name}}MemoTable(num int64) *{{.Name}}MemoTable {
-  return &{{.Name}}MemoTable{tbl: New{{.Name}}HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func ({{.Name}}MemoTable) TypeTraits() TypeTraits {
-  return arrow.{{.Name}}Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *{{.Name}}MemoTable) Reset() {
-  s.tbl.Reset(32)
-  s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *{{.Name}}MemoTable) Size() int {
-  sz := int(s.tbl.size)
-  if _, ok := s.GetNull(); ok {
-    sz++
-  }
-  return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *{{.Name}}MemoTable) GetNull() (int, bool) {
-  return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *{{.Name}}MemoTable) GetOrInsertNull() (idx int, found bool) {
-  idx, found = s.GetNull()
-  if !found {
-    idx = s.Size()
-    s.nullIdx = int32(idx)
-  }
-  return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *{{.Name}}MemoTable) CopyValues(out interface{}) {
-  s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *{{.Name}}MemoTable) CopyValuesSubset(start int, out interface{}) {
-  s.tbl.CopyValuesSubset(start, out.([]{{.name}}))
-}
-
-func (s *{{.Name}}MemoTable) WriteOut(out []byte) {
-  s.tbl.CopyValues(arrow.{{.Name}}Traits.CastFromBytes(out))
-}
-
-func (s *{{.Name}}MemoTable) WriteOutSubset(start int, out []byte) {
-  s.tbl.CopyValuesSubset(start, arrow.{{.Name}}Traits.CastFromBytes(out))
-}
-
-func (s *{{.Name}}MemoTable) WriteOutLE(out []byte) {
-  s.tbl.WriteOut(out)
-}
-
-func (s *{{.Name}}MemoTable) WriteOutSubsetLE(start int, out []byte) {
-  s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *{{.Name}}MemoTable) Get(val interface{}) (int, bool) {
-{{if and (ne .Name "Float32") (ne .Name "Float64") }}
-  h := hashInt(uint64(val.({{.name}})), 0)
-  if e, ok := s.tbl.Lookup(h, func(v {{.name}}) bool { return val.({{.name}}) == v }); ok {
-{{ else -}}
-  var cmp func({{.name}}) bool
-  {{if eq .Name "Float32"}}
-  if math.IsNaN(float64(val.(float32))) {
-    cmp = isNan32Cmp
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = float32(math.NaN())
-  {{ else -}}
-  if math.IsNaN(val.(float64)) {
-    cmp = math.IsNaN
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = math.NaN()
-  {{end -}}
-  } else {
-    cmp = func(v {{.name}}) bool { return val.({{.name}}) == v }
-  }
-
-  h := hash{{.Name}}(val.({{.name}}), 0)  
-  if e, ok := s.tbl.Lookup(h, cmp); ok {
-{{ end -}}
-    return int(e.payload.memoIdx), ok
-  }
-  return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *{{.Name}}MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-  {{if and (ne .Name "Float32") (ne .Name "Float64") }}
-  h := hashInt(uint64(val.({{.name}})), 0)
-  e, ok := s.tbl.Lookup(h, func(v {{.name}}) bool {
-    return val.({{.name}}) == v
-  })
-{{ else }}  
-  var cmp func({{.name}}) bool
-  {{if eq .Name "Float32"}}
-  if math.IsNaN(float64(val.(float32))) {
-    cmp = isNan32Cmp
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = float32(math.NaN()) 
-  {{ else -}}
-  if math.IsNaN(val.(float64)) {  
-    cmp = math.IsNaN
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = math.NaN()
-  {{end -}}
-  } else {
-    cmp = func(v {{.name}}) bool { return val.({{.name}}) == v }
-  }
-  
-  h := hash{{.Name}}(val.({{.name}}), 0)
-  e, ok := s.tbl.Lookup(h, cmp)
-{{ end }}
-  if ok {
-    idx = int(e.payload.memoIdx)
-    found = true
-  } else {
-    idx = s.Size()
-    s.tbl.Insert(e, h, val.({{.name}}), int32(idx))
-  }
-  return
-}
-
-
-// GetOrInsertBytes is unimplemented
-func (s *{{.Name}}MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-    panic("unimplemented")
-}
-{{end}}
diff --git a/go/internal/hashing/xxh3_memo_table.go b/go/internal/hashing/xxh3_memo_table.go
deleted file mode 100644
index fbb8b33531bbd..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.go
+++ /dev/null
@@ -1,436 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package hashing provides utilities for and an implementation of a hash
-// table which is more performant than the default go map implementation
-// by leveraging xxh3 and some custom hash functions.
-package hashing
-
-import (
-	"bytes"
-	"math"
-	"unsafe"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=types.tmpldata xxh3_memo_table.gen.go.tmpl
-
-type TypeTraits interface {
-	BytesRequired(n int) int
-}
-
-type ByteSlice interface {
-	Bytes() []byte
-}
-
-// MemoTable interface for hash tables and dictionary encoding.
-//
-// Values will remember the order they are inserted to generate a valid
-// dictionary.
-type MemoTable interface {
-	TypeTraits() TypeTraits
-	// Reset drops everything in the table allowing it to be reused
-	Reset()
-	// Size returns the current number of unique values stored in
-	// the table, including whether or not a null value has been
-	// inserted via GetOrInsertNull.
-	Size() int
-	// GetOrInsert returns the index of the table the specified value is,
-	// and a boolean indicating whether or not the value was found in
-	// the table (if false, the value was inserted). An error is returned
-	// if val is not the appropriate type for the table.
-	GetOrInsert(val interface{}) (idx int, existed bool, err error)
-	// GetOrInsertBytes returns the index of the table the specified value is,
-	// and a boolean indicating whether or not the value was found in
-	// the table (if false, the value was inserted). An error is returned
-	// if val is not the appropriate type for the table. This function is intended to be used by
-	// the BinaryMemoTable to prevent unnecessary allocations of the data when converting from a []byte to interface{}.
-	GetOrInsertBytes(val []byte) (idx int, existed bool, err error)
-	// GetOrInsertNull returns the index of the null value in the table,
-	// inserting one if it hasn't already been inserted. It returns a boolean
-	// indicating if the null value already existed or not in the table.
-	GetOrInsertNull() (idx int, existed bool)
-	// GetNull returns the index of the null value in the table, but does not
-	// insert one if it doesn't already exist. Will return -1 if it doesn't exist
-	// indicated by a false value for the boolean.
-	GetNull() (idx int, exists bool)
-	// WriteOut copies the unique values of the memotable out to the byte slice
-	// provided. Must have allocated enough bytes for all the values.
-	WriteOut(out []byte)
-	// WriteOutSubset is like WriteOut, but only writes a subset of values
-	// starting with the index offset.
-	WriteOutSubset(offset int, out []byte)
-}
-
-type NumericMemoTable interface {
-	MemoTable
-	WriteOutLE(out []byte)
-	WriteOutSubsetLE(offset int, out []byte)
-}
-
-const (
-	sentinel   uint64 = 0
-	loadFactor int64  = 2
-)
-
-func max(a, b uint64) uint64 {
-	if a > b {
-		return a
-	}
-	return b
-}
-
-var isNan32Cmp = func(v float32) bool { return math.IsNaN(float64(v)) }
-
-// KeyNotFound is the constant returned by memo table functions when a key isn't found in the table
-const KeyNotFound = -1
-
-type BinaryBuilderIFace interface {
-	Reserve(int)
-	ReserveData(int)
-	Retain()
-	Resize(int)
-	ResizeData(int)
-	Release()
-	DataLen() int
-	Value(int) []byte
-	Len() int
-	AppendNull()
-	AppendString(string)
-	Append([]byte)
-}
-
-// BinaryMemoTable is our hashtable for binary data using the BinaryBuilder
-// to construct the actual data in an easy to pass around way with minimal copies
-// while using a hash table to keep track of the indexes into the dictionary that
-// is created as we go.
-type BinaryMemoTable struct {
-	tbl     *Int32HashTable
-	builder BinaryBuilderIFace
-	nullIdx int
-}
-
-// NewBinaryMemoTable returns a hash table for Binary data, the passed in allocator will
-// be utilized for the BinaryBuilder, if nil then memory.DefaultAllocator will be used.
-// initial and valuesize can be used to pre-allocate the table to reduce allocations. With
-// initial being the initial number of entries to allocate for and valuesize being the starting
-// amount of space allocated for writing the actual binary data.
-func NewBinaryMemoTable(initial, valuesize int, bldr BinaryBuilderIFace) *BinaryMemoTable {
-	bldr.Reserve(int(initial))
-	datasize := valuesize
-	if datasize <= 0 {
-		datasize = initial * 4
-	}
-	bldr.ReserveData(datasize)
-	return &BinaryMemoTable{tbl: NewInt32HashTable(uint64(initial)), builder: bldr, nullIdx: KeyNotFound}
-}
-
-type unimplementedtraits struct{}
-
-func (unimplementedtraits) BytesRequired(int) int { panic("unimplemented") }
-
-func (BinaryMemoTable) TypeTraits() TypeTraits {
-	return unimplementedtraits{}
-}
-
-// Reset dumps all of the data in the table allowing it to be reutilized.
-func (s *BinaryMemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.builder.Resize(0)
-	s.builder.ResizeData(0)
-	s.builder.Reserve(int(32))
-	s.builder.ReserveData(int(32) * 4)
-	s.nullIdx = KeyNotFound
-}
-
-// GetNull returns the index of a null that has been inserted into the table or
-// KeyNotFound. The bool returned will be true if there was a null inserted into
-// the table, and false otherwise.
-func (s *BinaryMemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// Size returns the current size of the memo table including the null value
-// if one has been inserted.
-func (s *BinaryMemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// helper function to easily return a byte slice for any given value
-// regardless of the type if it's a []byte, string, or fulfills the
-// ByteSlice interface.
-func (BinaryMemoTable) valAsByteSlice(val interface{}) []byte {
-	switch v := val.(type) {
-	case []byte:
-		return v
-	case ByteSlice:
-		return v.Bytes()
-	case string:
-		return strToBytes(v)
-	default:
-		panic("invalid type for binarymemotable")
-	}
-}
-
-// helper function to get the hash value regardless of the underlying binary type
-func (BinaryMemoTable) getHash(val interface{}) uint64 {
-	switch v := val.(type) {
-	case string:
-		return hashString(v, 0)
-	case []byte:
-		return Hash(v, 0)
-	case ByteSlice:
-		return Hash(v.Bytes(), 0)
-	default:
-		panic("invalid type for binarymemotable")
-	}
-}
-
-// helper function to append the given value to the builder regardless
-// of the underlying binary type.
-func (b *BinaryMemoTable) appendVal(val interface{}) {
-	switch v := val.(type) {
-	case string:
-		b.builder.AppendString(v)
-	case []byte:
-		b.builder.Append(v)
-	case ByteSlice:
-		b.builder.Append(v.Bytes())
-	}
-}
-
-func (b *BinaryMemoTable) lookup(h uint64, val []byte) (*entryInt32, bool) {
-	return b.tbl.Lookup(h, func(i int32) bool {
-		return bytes.Equal(val, b.builder.Value(int(i)))
-	})
-}
-
-// Get returns the index of the specified value in the table or KeyNotFound,
-// and a boolean indicating whether it was found in the table.
-func (b *BinaryMemoTable) Get(val interface{}) (int, bool) {
-	if p, ok := b.lookup(b.getHash(val), b.valAsByteSlice(val)); ok {
-		return int(p.payload.val), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsertBytes returns the index of the given value in the table, if not found
-// it is inserted into the table. The return value 'found' indicates whether the value
-// was found in the table (true) or inserted (false) along with any possible error.
-func (b *BinaryMemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	h := Hash(val, 0)
-	p, found := b.lookup(h, val)
-	if found {
-		idx = int(p.payload.val)
-	} else {
-		idx = b.Size()
-		b.builder.Append(val)
-		b.tbl.Insert(p, h, int32(idx), -1)
-	}
-	return
-}
-
-// GetOrInsert returns the index of the given value in the table, if not found
-// it is inserted into the table. The return value 'found' indicates whether the value
-// was found in the table (true) or inserted (false) along with any possible error.
-func (b *BinaryMemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	h := b.getHash(val)
-	p, found := b.lookup(h, b.valAsByteSlice(val))
-	if found {
-		idx = int(p.payload.val)
-	} else {
-		idx = b.Size()
-		b.appendVal(val)
-		b.tbl.Insert(p, h, int32(idx), -1)
-	}
-	return
-}
-
-// GetOrInsertNull retrieves the index of a null in the table or inserts
-// null into the table, returning the index and a boolean indicating if it was
-// found in the table (true) or was inserted (false).
-func (b *BinaryMemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = b.GetNull()
-	if !found {
-		idx = b.Size()
-		b.nullIdx = idx
-		b.builder.AppendNull()
-	}
-	return
-}
-
-func (b *BinaryMemoTable) Value(i int) []byte {
-	return b.builder.Value(i)
-}
-
-// helper function to get the offset into the builder data for a given
-// index value.
-func (b *BinaryMemoTable) findOffset(idx int) uintptr {
-	if b.builder.DataLen() == 0 {
-		// only empty strings, short circuit
-		return 0
-	}
-
-	val := b.builder.Value(idx)
-	for len(val) == 0 {
-		idx++
-		if idx >= b.builder.Len() {
-			break
-		}
-		val = b.builder.Value(idx)
-	}
-	if len(val) != 0 {
-		return uintptr(unsafe.Pointer(&val[0]))
-	}
-	return uintptr(b.builder.DataLen()) + b.findOffset(0)
-}
-
-// CopyOffsets copies the list of offsets into the passed in slice, the offsets
-// being the start and end values of the underlying allocated bytes in the builder
-// for the individual values of the table. out should be at least sized to Size()+1
-func (b *BinaryMemoTable) CopyOffsets(out []int32) {
-	b.CopyOffsetsSubset(0, out)
-}
-
-// CopyOffsetsSubset is like CopyOffsets but instead of copying all of the offsets,
-// it gets a subset of the offsets in the table starting at the index provided by "start".
-func (b *BinaryMemoTable) CopyOffsetsSubset(start int, out []int32) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	first := b.findOffset(0)
-	delta := b.findOffset(start)
-	sz := b.Size()
-	for i := start; i < sz; i++ {
-		offset := int32(b.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[sz-start] = int32(b.builder.DataLen() - (int(delta) - int(first)))
-}
-
-// CopyLargeOffsets copies the list of offsets into the passed in slice, the offsets
-// being the start and end values of the underlying allocated bytes in the builder
-// for the individual values of the table. out should be at least sized to Size()+1
-func (b *BinaryMemoTable) CopyLargeOffsets(out []int64) {
-	b.CopyLargeOffsetsSubset(0, out)
-}
-
-// CopyLargeOffsetsSubset is like CopyOffsets but instead of copying all of the offsets,
-// it gets a subset of the offsets in the table starting at the index provided by "start".
-func (b *BinaryMemoTable) CopyLargeOffsetsSubset(start int, out []int64) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	first := b.findOffset(0)
-	delta := b.findOffset(start)
-	sz := b.Size()
-	for i := start; i < sz; i++ {
-		offset := int64(b.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[sz-start] = int64(b.builder.DataLen() - (int(delta) - int(first)))
-}
-
-// CopyValues copies the raw binary data bytes out, out should be a []byte
-// with at least ValuesSize bytes allocated to copy into.
-func (b *BinaryMemoTable) CopyValues(out interface{}) {
-	b.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies the raw binary data bytes out starting with the value
-// at the index start, out should be a []byte with at least ValuesSize bytes allocated
-func (b *BinaryMemoTable) CopyValuesSubset(start int, out interface{}) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	var (
-		first  = b.findOffset(0)
-		offset = b.findOffset(int(start))
-		length = b.builder.DataLen() - int(offset-first)
-	)
-
-	outval := out.([]byte)
-	copy(outval, b.builder.Value(start)[0:length])
-}
-
-func (b *BinaryMemoTable) WriteOut(out []byte) {
-	b.CopyValues(out)
-}
-
-func (b *BinaryMemoTable) WriteOutSubset(start int, out []byte) {
-	b.CopyValuesSubset(start, out)
-}
-
-// CopyFixedWidthValues exists to cope with the fact that the table doesn't keep
-// track of the fixed width when inserting the null value the databuffer holds a
-// zero length byte slice for the null value (if found)
-func (b *BinaryMemoTable) CopyFixedWidthValues(start, width int, out []byte) {
-	if start >= b.Size() {
-		return
-	}
-
-	null, exists := b.GetNull()
-	if !exists || null < start {
-		// nothing to skip, proceed as usual
-		b.CopyValuesSubset(start, out)
-		return
-	}
-
-	var (
-		leftOffset  = b.findOffset(start)
-		nullOffset  = b.findOffset(null)
-		leftSize    = nullOffset - leftOffset
-		rightOffset = leftOffset + uintptr(b.ValuesSize())
-	)
-
-	if leftSize > 0 {
-		copy(out, b.builder.Value(start)[0:leftSize])
-	}
-
-	rightSize := rightOffset - nullOffset
-	if rightSize > 0 {
-		// skip the null fixed size value
-		copy(out[int(leftSize)+width:], b.builder.Value(null + 1)[0:rightSize])
-	}
-}
-
-// VisitValues exists to run the visitFn on each value currently in the hash table.
-func (b *BinaryMemoTable) VisitValues(start int, visitFn func([]byte)) {
-	for i := int(start); i < b.Size(); i++ {
-		visitFn(b.builder.Value(i))
-	}
-}
-
-// Release is used to tell the underlying builder that it can release the memory allocated
-// when the reference count reaches 0, this is safe to be called from multiple goroutines
-// simultaneously
-func (b *BinaryMemoTable) Release() { b.builder.Release() }
-
-// Retain increases the ref count, it is safe to call it from multiple goroutines
-// simultaneously.
-func (b *BinaryMemoTable) Retain() { b.builder.Retain() }
-
-// ValuesSize returns the current total size of all the raw bytes that have been inserted
-// into the memotable so far.
-func (b *BinaryMemoTable) ValuesSize() int { return b.builder.DataLen() }
diff --git a/go/internal/json/json.go b/go/internal/json/json.go
deleted file mode 100644
index 319b12c5549c2..0000000000000
--- a/go/internal/json/json.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !tinygo
-// +build !tinygo
-
-package json
-
-import (
-	"io"
-
-	"github.com/goccy/go-json"
-)
-
-type Decoder = json.Decoder
-type Encoder = json.Encoder
-type Marshaler = json.Marshaler
-type Delim = json.Delim
-type UnmarshalTypeError = json.UnmarshalTypeError
-type Number = json.Number
-type Unmarshaler = json.Unmarshaler
-type RawMessage = json.RawMessage
-
-func Marshal(v interface{}) ([]byte, error) {
-	return json.Marshal(v)
-}
-
-func Unmarshal(data []byte, v interface{}) error {
-	return json.Unmarshal(data, v)
-}
-
-func NewDecoder(r io.Reader) *Decoder {
-	return json.NewDecoder(r)
-}
-
-func NewEncoder(w io.Writer) *Encoder {
-	return json.NewEncoder(w)
-}
diff --git a/go/internal/json/json_tinygo.go b/go/internal/json/json_tinygo.go
deleted file mode 100644
index 8e4f447b3c385..0000000000000
--- a/go/internal/json/json_tinygo.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tinygo
-// +build tinygo
-
-package json
-
-import (
-	"io"
-
-	"encoding/json"
-)
-
-type Decoder = json.Decoder
-type Encoder = json.Encoder
-type Marshaler = json.Marshaler
-type Delim = json.Delim
-type UnmarshalTypeError = json.UnmarshalTypeError
-type Number = json.Number
-type Unmarshaler = json.Unmarshaler
-type RawMessage = json.RawMessage
-
-func Marshal(v interface{}) ([]byte, error) {
-	return json.Marshal(v)
-}
-
-func Unmarshal(data []byte, v interface{}) error {
-	return json.Unmarshal(data, v)
-}
-
-func NewDecoder(r io.Reader) *Decoder {
-	return json.NewDecoder(r)
-}
-
-func NewEncoder(w io.Writer) *Encoder {
-	return json.NewEncoder(w)
-}
diff --git a/go/internal/types/extension_types.go b/go/internal/types/extension_types.go
deleted file mode 100644
index 33ada2d488f71..0000000000000
--- a/go/internal/types/extension_types.go
+++ /dev/null
@@ -1,325 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package types contains user-defined types for use in the tests for the arrow package
-package types
-
-import (
-	"encoding/binary"
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"golang.org/x/xerrors"
-)
-
-// Parametric1Array is a simple int32 array for use with the Parametric1Type
-// in testing a parameterized user-defined extension type.
-type Parametric1Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a Parametric1Array) ValueStr(i int) string {
-	arr := a.Storage().(*array.Int32)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-// Parametric2Array is another simple int32 array for use with the Parametric2Type
-// also for testing a parameterized user-defined extension type that utilizes
-// the parameter for defining different types based on the param.
-type Parametric2Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a Parametric2Array) ValueStr(i int) string {
-	arr := a.Storage().(*array.Int32)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-// A type where ExtensionName is always the same
-type Parametric1Type struct {
-	arrow.ExtensionBase
-
-	param int32
-}
-
-func NewParametric1Type(p int32) *Parametric1Type {
-	ret := &Parametric1Type{param: p}
-	ret.ExtensionBase.Storage = arrow.PrimitiveTypes.Int32
-	return ret
-}
-
-func (p *Parametric1Type) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionEquals returns true if other is a *Parametric1Type and has the same param
-func (p *Parametric1Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	o, ok := other.(*Parametric1Type)
-	if !ok {
-		return false
-	}
-	return p.param == o.param
-}
-
-// ExtensionName is always "parametric-type-1"
-func (Parametric1Type) ExtensionName() string { return "parametric-type-1" }
-
-// ArrayType returns the TypeOf(Parametric1Array{})
-func (Parametric1Type) ArrayType() reflect.Type { return reflect.TypeOf(Parametric1Array{}) }
-
-// Serialize returns the param as 4 little endian bytes
-func (p *Parametric1Type) Serialize() string {
-	var buf [4]byte
-	binary.LittleEndian.PutUint32(buf[:], uint32(p.param))
-	return string(buf[:])
-}
-
-// Deserialize requires storage to be an int32 type and data should be a 4 byte little endian int32 value
-func (Parametric1Type) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if len(data) != 4 {
-		return nil, fmt.Errorf("parametric1type: invalid serialized data size: %d", len(data))
-	}
-
-	if storage.ID() != arrow.INT32 {
-		return nil, xerrors.New("parametric1type: must have int32 as underlying storage type")
-	}
-
-	return &Parametric1Type{arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int32}, int32(binary.LittleEndian.Uint32([]byte(data)))}, nil
-}
-
-// a parametric type where the extension name is different for each
-// parameter, and must be registered separately
-type Parametric2Type struct {
-	arrow.ExtensionBase
-
-	param int32
-}
-
-func NewParametric2Type(p int32) *Parametric2Type {
-	ret := &Parametric2Type{param: p}
-	ret.ExtensionBase.Storage = arrow.PrimitiveTypes.Int32
-	return ret
-}
-
-func (p *Parametric2Type) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionEquals returns true if other is a *Parametric2Type and has the same param
-func (p *Parametric2Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	o, ok := other.(*Parametric2Type)
-	if !ok {
-		return false
-	}
-	return p.param == o.param
-}
-
-// ExtensionName incorporates the param in the name requiring different instances of
-// Parametric2Type to be registered separately if they have different params. this is
-// used for testing registration of different types with the same struct type.
-func (p *Parametric2Type) ExtensionName() string {
-	return fmt.Sprintf("parametric-type-2<param=%d>", p.param)
-}
-
-// ArrayType returns TypeOf(Parametric2Array{})
-func (Parametric2Type) ArrayType() reflect.Type { return reflect.TypeOf(Parametric2Array{}) }
-
-// Serialize returns the param as a 4 byte little endian slice
-func (p *Parametric2Type) Serialize() string {
-	var buf [4]byte
-	binary.LittleEndian.PutUint32(buf[:], uint32(p.param))
-	return string(buf[:])
-}
-
-// Deserialize expects storage to be int32 type and data must be a 4 byte little endian slice.
-func (Parametric2Type) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if len(data) != 4 {
-		return nil, fmt.Errorf("parametric1type: invalid serialized data size: %d", len(data))
-	}
-
-	if storage.ID() != arrow.INT32 {
-		return nil, xerrors.New("parametric1type: must have int32 as underlying storage type")
-	}
-
-	return &Parametric2Type{arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int32}, int32(binary.LittleEndian.Uint32([]byte(data)))}, nil
-}
-
-// ExtStructArray is a struct array type for testing an extension type with non-primitive storage
-type ExtStructArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a ExtStructArray) ValueStr(i int) string {
-	arr := a.Storage().(*array.Struct)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	b, err := arr.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-	return string(b)
-}
-
-// ExtStructType is an extension type with a non-primitive storage type containing a struct
-// with fields {a: int64, b: float64}
-type ExtStructType struct {
-	arrow.ExtensionBase
-}
-
-func NewExtStructType() *ExtStructType {
-	return &ExtStructType{
-		ExtensionBase: arrow.ExtensionBase{Storage: arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int64},
-			arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64},
-		)},
-	}
-}
-
-func (p *ExtStructType) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionName is always "ext-struct-type"
-func (ExtStructType) ExtensionName() string { return "ext-struct-type" }
-
-// ExtensionEquals returns true if other is a *ExtStructType
-func (ExtStructType) ExtensionEquals(other arrow.ExtensionType) bool {
-	_, ok := other.(*ExtStructType)
-	return ok
-}
-
-// ArrayType returns TypeOf(ExtStructType{})
-func (ExtStructType) ArrayType() reflect.Type { return reflect.TypeOf(ExtStructArray{}) }
-
-// Serialize just returns "ext-struct-type-unique-code" to test metadata passing in IPC
-func (ExtStructType) Serialize() string { return "ext-struct-type-unique-code" }
-
-// Deserialize ignores the passed in storage datatype and only checks the serialized data byte slice
-// returning the correct type if it matches "ext-struct-type-unique-code".
-func (ExtStructType) Deserialize(_ arrow.DataType, serialized string) (arrow.ExtensionType, error) {
-	if string(serialized) != "ext-struct-type-unique-code" {
-		return nil, xerrors.New("type identifier did not match")
-	}
-	return NewExtStructType(), nil
-}
-
-type DictExtensionArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a DictExtensionArray) ValueStr(i int) string {
-	arr := a.Storage().(*array.Dictionary)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	b, err := arr.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-	return string(b)
-}
-
-type DictExtensionType struct {
-	arrow.ExtensionBase
-}
-
-func NewDictExtensionType() *DictExtensionType {
-	return &DictExtensionType{
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String},
-		},
-	}
-}
-
-func (p *DictExtensionType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return other.ExtensionName() == p.ExtensionName()
-}
-
-func (DictExtensionType) ExtensionName() string { return "dict-extension" }
-
-func (DictExtensionType) Serialize() string { return "dict-extension-serialized" }
-
-func (DictExtensionType) ArrayType() reflect.Type { return reflect.TypeOf(DictExtensionArray{}) }
-
-func (p *DictExtensionType) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-func (p *DictExtensionType) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if data != "dict-extension-serialized" {
-		return nil, fmt.Errorf("type identifier did not match: '%s'", data)
-	}
-	if !arrow.TypeEqual(p.StorageType(), storage) {
-		return nil, fmt.Errorf("invalid storage type for DictExtensionType: %s", storage)
-	}
-	return NewDictExtensionType(), nil
-}
-
-// SmallintArray is an int16 array
-type SmallintArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a SmallintArray) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	arr := a.Storage().(*array.Int16)
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-type SmallintType struct {
-	arrow.ExtensionBase
-}
-
-func NewSmallintType() *SmallintType {
-	return &SmallintType{ExtensionBase: arrow.ExtensionBase{
-		Storage: arrow.PrimitiveTypes.Int16}}
-}
-
-func (SmallintType) ArrayType() reflect.Type { return reflect.TypeOf(SmallintArray{}) }
-
-func (SmallintType) ExtensionName() string { return "smallint" }
-
-func (SmallintType) Serialize() string { return "smallint-serialized" }
-
-func (s *SmallintType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return s.Name() == other.Name()
-}
-
-func (SmallintType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if data != "smallint-serialized" {
-		return nil, fmt.Errorf("type identifier did not match: '%s'", data)
-	}
-	if !arrow.TypeEqual(storageType, arrow.PrimitiveTypes.Int16) {
-		return nil, fmt.Errorf("invalid storage type for SmallintType: %s", storageType)
-	}
-	return NewSmallintType(), nil
-}
-
-var (
-	_ arrow.ExtensionType  = (*Parametric1Type)(nil)
-	_ arrow.ExtensionType  = (*Parametric2Type)(nil)
-	_ arrow.ExtensionType  = (*ExtStructType)(nil)
-	_ arrow.ExtensionType  = (*DictExtensionType)(nil)
-	_ arrow.ExtensionType  = (*SmallintType)(nil)
-	_ array.ExtensionArray = (*Parametric1Array)(nil)
-	_ array.ExtensionArray = (*Parametric2Array)(nil)
-	_ array.ExtensionArray = (*ExtStructArray)(nil)
-	_ array.ExtensionArray = (*DictExtensionArray)(nil)
-	_ array.ExtensionArray = (*SmallintArray)(nil)
-)
diff --git a/go/internal/utils/Makefile b/go/internal/utils/Makefile
deleted file mode 100644
index fded9d1d5b69b..0000000000000
--- a/go/internal/utils/Makefile
+++ /dev/null
@@ -1,80 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	min_max_avx2_amd64.s min_max_sse4_amd64.s transpose_ints_avx2_amd64.s transpose_ints_sse4_amd64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/min_max_avx2_amd64.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/min_max_sse4_amd64.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/min_max_neon.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_avx2_amd64.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_sse4_amd64.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_neon.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-min_max_avx2_amd64.s: _lib/min_max_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-min_max_sse4_amd64.s: _lib/min_max_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-transpose_ints_avx2_amd64.s: _lib/transpose_ints_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-transpose_ints_sse4_amd64.s: _lib/transpose_ints_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/internal/utils/_lib/arch.h b/go/internal/utils/_lib/arch.h
deleted file mode 100644
index 7c75cd2f60fd7..0000000000000
--- a/go/internal/utils/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/internal/utils/_lib/min_max.c b/go/internal/utils/_lib/min_max.c
deleted file mode 100644
index d876f31a11f29..0000000000000
--- a/go/internal/utils/_lib/min_max.c
+++ /dev/null
@@ -1,125 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include <limits.h>
-#include <math.h>
-#include <float.h>
-
-void FULL_NAME(int8_max_min)(int8_t values[], int len, int8_t* minout, int8_t* maxout) {
-  int8_t max = INT8_MIN;
-  int8_t min = INT8_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint8_max_min)(uint8_t values[], int len, uint8_t* minout, uint8_t* maxout) {
-  uint8_t max = 0;
-  uint8_t min = UINT8_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int16_max_min)(int16_t values[], int len, int16_t* minout, int16_t* maxout) {
-  int16_t max = INT16_MIN;
-  int16_t min = INT16_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint16_max_min)(uint16_t values[], int len, uint16_t* minout, uint16_t* maxout) {
-  uint16_t max = 0;
-  uint16_t min = UINT16_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int32_max_min)(int32_t values[], int len, int32_t* minout, int32_t* maxout) {
-  int32_t max = INT32_MIN;
-  int32_t min = INT32_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint32_max_min)(uint32_t values[], int len, uint32_t* minout, uint32_t* maxout) {
-  uint32_t max = 0;
-  uint32_t min = UINT32_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int64_max_min)(int64_t values[], int len, int64_t* minout, int64_t* maxout) {
-  int64_t max = INT64_MIN;
-  int64_t min = INT64_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint64_max_min)(uint64_t values[], int len, uint64_t* minout, uint64_t* maxout) {
-  uint64_t max = 0;
-  uint64_t min = UINT64_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
diff --git a/go/internal/utils/_lib/min_max_avx2_amd64.s b/go/internal/utils/_lib/min_max_avx2_amd64.s
deleted file mode 100644
index e4e73fd414e0c..0000000000000
--- a/go/internal/utils/_lib/min_max_avx2_amd64.s
+++ /dev/null
@@ -1,1009 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"min_max.c"
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function int8_max_min_avx2
-.LCPI0_0:
-	.zero	32,128
-.LCPI0_1:
-	.zero	32,127
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_2:
-	.zero	16,127
-.LCPI0_3:
-	.zero	16,128
-	.text
-	.globl	int8_max_min_avx2
-	.p2align	4, 0x90
-	.type	int8_max_min_avx2,@function
-int8_max_min_avx2:                      # @int8_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 63
-	ja	.LBB0_4
-# %bb.3:
-	mov	r8b, -128
-	mov	sil, 127
-	xor	r10d, r10d
-	jmp	.LBB0_11
-.LBB0_1:
-	mov	sil, 127
-	mov	r8b, -128
-	jmp	.LBB0_12
-.LBB0_4:
-	mov	r10d, r9d
-	and	r10d, -64
-	lea	rax, [r10 - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_0] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_1] # ymm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	.p2align	4, 0x90
-.LBB0_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + rax + 96]
-	vpminsb	ymm0, ymm0, ymm4
-	vpminsb	ymm2, ymm2, ymm5
-	vpmaxsb	ymm1, ymm1, ymm4
-	vpmaxsb	ymm3, ymm3, ymm5
-	vpminsb	ymm0, ymm0, ymm6
-	vpminsb	ymm2, ymm2, ymm7
-	vpmaxsb	ymm1, ymm1, ymm6
-	vpmaxsb	ymm3, ymm3, ymm7
-	sub	rax, -128
-	add	rsi, 2
-	jne	.LBB0_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB0_10
-.LBB0_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vpmaxsb	ymm3, ymm3, ymm5
-	vpmaxsb	ymm1, ymm1, ymm4
-	vpminsb	ymm2, ymm2, ymm5
-	vpminsb	ymm0, ymm0, ymm4
-.LBB0_10:
-	vpmaxsb	ymm1, ymm1, ymm3
-	vextracti128	xmm3, ymm1, 1
-	vpmaxsb	xmm1, xmm1, xmm3
-	vpxor	xmm1, xmm1, xmmword ptr [rip + .LCPI0_2]
-	vpminsb	ymm0, ymm0, ymm2
-	vpsrlw	xmm2, xmm1, 8
-	vpminub	xmm1, xmm1, xmm2
-	vphminposuw	xmm1, xmm1
-	vmovd	r8d, xmm1
-	xor	r8b, 127
-	vextracti128	xmm1, ymm0, 1
-	vpminsb	xmm0, xmm0, xmm1
-	vpxor	xmm0, xmm0, xmmword ptr [rip + .LCPI0_3]
-	vpsrlw	xmm1, xmm0, 8
-	vpminub	xmm0, xmm0, xmm1
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	xor	sil, -128
-	cmp	r10, r9
-	je	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r10]
-	cmp	sil, al
-	movzx	esi, sil
-	cmovg	esi, eax
-	cmp	r8b, al
-	movzx	r8d, r8b
-	cmovl	r8d, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB0_11
-.LBB0_12:
-	mov	byte ptr [rcx], r8b
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_5:
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_0] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_1] # ymm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	test	r8b, 1
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.Lfunc_end0:
-	.size	int8_max_min_avx2, .Lfunc_end0-int8_max_min_avx2
-                                        # -- End function
-	.globl	uint8_max_min_avx2              # -- Begin function uint8_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint8_max_min_avx2,@function
-uint8_max_min_avx2:                     # @uint8_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 63
-	ja	.LBB1_4
-# %bb.3:
-	mov	sil, -1
-	xor	r10d, r10d
-	xor	eax, eax
-	jmp	.LBB1_11
-.LBB1_1:
-	mov	sil, -1
-	xor	eax, eax
-	jmp	.LBB1_12
-.LBB1_4:
-	mov	r10d, r9d
-	and	r10d, -64
-	lea	rax, [r10 - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB1_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + rax + 96]
-	vpminub	ymm1, ymm1, ymm4
-	vpminub	ymm2, ymm2, ymm5
-	vpmaxub	ymm0, ymm0, ymm4
-	vpmaxub	ymm3, ymm3, ymm5
-	vpminub	ymm1, ymm1, ymm6
-	vpminub	ymm2, ymm2, ymm7
-	vpmaxub	ymm0, ymm0, ymm6
-	vpmaxub	ymm3, ymm3, ymm7
-	sub	rax, -128
-	add	rsi, 2
-	jne	.LBB1_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB1_10
-.LBB1_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vpmaxub	ymm3, ymm3, ymm5
-	vpmaxub	ymm0, ymm0, ymm4
-	vpminub	ymm2, ymm2, ymm5
-	vpminub	ymm1, ymm1, ymm4
-.LBB1_10:
-	vpminub	ymm1, ymm1, ymm2
-	vpmaxub	ymm0, ymm0, ymm3
-	vextracti128	xmm2, ymm0, 1
-	vpmaxub	xmm0, xmm0, xmm2
-	vpcmpeqd	xmm2, xmm2, xmm2
-	vpxor	xmm0, xmm0, xmm2
-	vpsrlw	xmm2, xmm0, 8
-	vpminub	xmm0, xmm0, xmm2
-	vphminposuw	xmm0, xmm0
-	vmovd	eax, xmm0
-	not	al
-	vextracti128	xmm0, ymm1, 1
-	vpminub	xmm0, xmm1, xmm0
-	vpsrlw	xmm1, xmm0, 8
-	vpminub	xmm0, xmm0, xmm1
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	cmp	r10, r9
-	je	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdi + r10]
-	cmp	sil, r8b
-	movzx	esi, sil
-	cmovae	esi, r8d
-	cmp	al, r8b
-	movzx	eax, al
-	cmovbe	eax, r8d
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB1_11
-.LBB1_12:
-	mov	byte ptr [rcx], al
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB1_5:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB1_9
-	jmp	.LBB1_10
-.Lfunc_end1:
-	.size	uint8_max_min_avx2, .Lfunc_end1-uint8_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function int16_max_min_avx2
-.LCPI2_0:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-.LCPI2_1:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI2_2:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-.LCPI2_3:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.text
-	.globl	int16_max_min_avx2
-	.p2align	4, 0x90
-	.type	int16_max_min_avx2,@function
-int16_max_min_avx2:                     # @int16_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB2_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB2_4
-# %bb.3:
-	mov	r8w, -32768
-	mov	si, 32767
-	xor	r10d, r10d
-	jmp	.LBB2_11
-.LBB2_1:
-	mov	si, 32767
-	mov	r8w, -32768
-	jmp	.LBB2_12
-.LBB2_4:
-	mov	r10d, r9d
-	and	r10d, -32
-	lea	rax, [r10 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB2_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI2_1] # ymm0 = [32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + 2*rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + 2*rax + 96]
-	vpminsw	ymm0, ymm0, ymm4
-	vpminsw	ymm2, ymm2, ymm5
-	vpmaxsw	ymm1, ymm1, ymm4
-	vpmaxsw	ymm3, ymm3, ymm5
-	vpminsw	ymm0, ymm0, ymm6
-	vpminsw	ymm2, ymm2, ymm7
-	vpmaxsw	ymm1, ymm1, ymm6
-	vpmaxsw	ymm3, ymm3, ymm7
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB2_10
-.LBB2_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vpmaxsw	ymm3, ymm3, ymm5
-	vpmaxsw	ymm1, ymm1, ymm4
-	vpminsw	ymm2, ymm2, ymm5
-	vpminsw	ymm0, ymm0, ymm4
-.LBB2_10:
-	vpmaxsw	ymm1, ymm1, ymm3
-	vextracti128	xmm3, ymm1, 1
-	vpmaxsw	xmm1, xmm1, xmm3
-	vpxor	xmm1, xmm1, xmmword ptr [rip + .LCPI2_2]
-	vpminsw	ymm0, ymm0, ymm2
-	vphminposuw	xmm1, xmm1
-	vmovd	r8d, xmm1
-	xor	r8d, 32767
-	vextracti128	xmm1, ymm0, 1
-	vpminsw	xmm0, xmm0, xmm1
-	vpxor	xmm0, xmm0, xmmword ptr [rip + .LCPI2_3]
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	xor	esi, 32768
-	cmp	r10, r9
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r10]
-	cmp	si, ax
-	cmovg	esi, eax
-	cmp	r8w, ax
-	cmovl	r8d, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB2_11
-.LBB2_12:
-	mov	word ptr [rcx], r8w
-	mov	word ptr [rdx], si
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB2_5:
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI2_1] # ymm0 = [32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	test	r8b, 1
-	jne	.LBB2_9
-	jmp	.LBB2_10
-.Lfunc_end2:
-	.size	int16_max_min_avx2, .Lfunc_end2-int16_max_min_avx2
-                                        # -- End function
-	.globl	uint16_max_min_avx2             # -- Begin function uint16_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint16_max_min_avx2,@function
-uint16_max_min_avx2:                    # @uint16_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB3_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB3_4
-# %bb.3:
-	mov	r8w, -1
-	xor	r10d, r10d
-	xor	esi, esi
-	jmp	.LBB3_11
-.LBB3_1:
-	mov	r8w, -1
-	xor	esi, esi
-	jmp	.LBB3_12
-.LBB3_4:
-	mov	r10d, r9d
-	and	r10d, -32
-	lea	rax, [r10 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	.p2align	4, 0x90
-.LBB3_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + 2*rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + 2*rax + 96]
-	vpminuw	ymm1, ymm1, ymm4
-	vpminuw	ymm2, ymm2, ymm5
-	vpmaxuw	ymm0, ymm0, ymm4
-	vpmaxuw	ymm3, ymm3, ymm5
-	vpminuw	ymm1, ymm1, ymm6
-	vpminuw	ymm2, ymm2, ymm7
-	vpmaxuw	ymm0, ymm0, ymm6
-	vpmaxuw	ymm3, ymm3, ymm7
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB3_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB3_10
-.LBB3_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vpmaxuw	ymm3, ymm3, ymm5
-	vpmaxuw	ymm0, ymm0, ymm4
-	vpminuw	ymm2, ymm2, ymm5
-	vpminuw	ymm1, ymm1, ymm4
-.LBB3_10:
-	vpminuw	ymm1, ymm1, ymm2
-	vpmaxuw	ymm0, ymm0, ymm3
-	vextracti128	xmm2, ymm0, 1
-	vpmaxuw	xmm0, xmm0, xmm2
-	vpcmpeqd	xmm2, xmm2, xmm2
-	vpxor	xmm0, xmm0, xmm2
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	not	esi
-	vextracti128	xmm0, ymm1, 1
-	vpminuw	xmm0, xmm1, xmm0
-	vphminposuw	xmm0, xmm0
-	vmovd	r8d, xmm0
-	cmp	r10, r9
-	je	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r10]
-	cmp	r8w, ax
-	cmovae	r8d, eax
-	cmp	si, ax
-	cmovbe	esi, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB3_11
-.LBB3_12:
-	mov	word ptr [rcx], si
-	mov	word ptr [rdx], r8w
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB3_5:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB3_9
-	jmp	.LBB3_10
-.Lfunc_end3:
-	.size	uint16_max_min_avx2, .Lfunc_end3-uint16_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2                               # -- Begin function int32_max_min_avx2
-.LCPI4_0:
-	.long	2147483648                      # 0x80000000
-.LCPI4_1:
-	.long	2147483647                      # 0x7fffffff
-	.text
-	.globl	int32_max_min_avx2
-	.p2align	4, 0x90
-	.type	int32_max_min_avx2,@function
-int32_max_min_avx2:                     # @int32_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB4_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 31
-	ja	.LBB4_4
-# %bb.3:
-	mov	r10d, -2147483648
-	mov	eax, 2147483647
-	xor	r9d, r9d
-	jmp	.LBB4_7
-.LBB4_1:
-	mov	eax, 2147483647
-	mov	esi, -2147483648
-	jmp	.LBB4_8
-.LBB4_4:
-	mov	r9d, r8d
-	vpbroadcastd	ymm4, dword ptr [rip + .LCPI4_0] # ymm4 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]
-	and	r9d, -32
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI4_1] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	vmovdqa	ymm1, ymm0
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm0
-	vmovdqa	ymm5, ymm4
-	vmovdqa	ymm6, ymm4
-	vmovdqa	ymm7, ymm4
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 4*rax]
-	vmovdqu	ymm9, ymmword ptr [rdi + 4*rax + 32]
-	vmovdqu	ymm10, ymmword ptr [rdi + 4*rax + 64]
-	vmovdqu	ymm11, ymmword ptr [rdi + 4*rax + 96]
-	vpminsd	ymm0, ymm0, ymm8
-	vpminsd	ymm1, ymm1, ymm9
-	vpminsd	ymm2, ymm2, ymm10
-	vpminsd	ymm3, ymm3, ymm11
-	vpmaxsd	ymm4, ymm4, ymm8
-	vpmaxsd	ymm5, ymm5, ymm9
-	vpmaxsd	ymm6, ymm6, ymm10
-	vpmaxsd	ymm7, ymm7, ymm11
-	add	rax, 32
-	cmp	r9, rax
-	jne	.LBB4_5
-# %bb.6:
-	vpmaxsd	ymm4, ymm4, ymm5
-	vpmaxsd	ymm4, ymm4, ymm6
-	vpmaxsd	ymm4, ymm4, ymm7
-	vextracti128	xmm5, ymm4, 1
-	vpmaxsd	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 78                  # xmm5 = xmm4[2,3,0,1]
-	vpmaxsd	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 229                 # xmm5 = xmm4[1,1,2,3]
-	vpmaxsd	xmm4, xmm4, xmm5
-	vmovd	r10d, xmm4
-	vpminsd	ymm0, ymm0, ymm1
-	vpminsd	ymm0, ymm0, ymm2
-	vpminsd	ymm0, ymm0, ymm3
-	vextracti128	xmm1, ymm0, 1
-	vpminsd	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpminsd	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 229                 # xmm1 = xmm0[1,1,2,3]
-	vpminsd	xmm0, xmm0, xmm1
-	vmovd	eax, xmm0
-	mov	esi, r10d
-	cmp	r9, r8
-	je	.LBB4_8
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r9]
-	cmp	eax, esi
-	cmovg	eax, esi
-	cmp	r10d, esi
-	cmovge	esi, r10d
-	add	r9, 1
-	mov	r10d, esi
-	cmp	r8, r9
-	jne	.LBB4_7
-.LBB4_8:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], eax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	int32_max_min_avx2, .Lfunc_end4-int32_max_min_avx2
-                                        # -- End function
-	.globl	uint32_max_min_avx2             # -- Begin function uint32_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint32_max_min_avx2,@function
-uint32_max_min_avx2:                    # @uint32_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB5_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 31
-	ja	.LBB5_4
-# %bb.3:
-	xor	r9d, r9d
-	mov	eax, -1
-	xor	r10d, r10d
-	jmp	.LBB5_7
-.LBB5_1:
-	mov	eax, -1
-	xor	esi, esi
-	jmp	.LBB5_8
-.LBB5_4:
-	mov	r9d, r8d
-	and	r9d, -32
-	vpxor	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm0, ymm0, ymm0
-	xor	eax, eax
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpxor	xmm5, xmm5, xmm5
-	vpxor	xmm6, xmm6, xmm6
-	vpxor	xmm7, xmm7, xmm7
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 4*rax]
-	vmovdqu	ymm9, ymmword ptr [rdi + 4*rax + 32]
-	vmovdqu	ymm10, ymmword ptr [rdi + 4*rax + 64]
-	vmovdqu	ymm11, ymmword ptr [rdi + 4*rax + 96]
-	vpminud	ymm0, ymm0, ymm8
-	vpminud	ymm1, ymm1, ymm9
-	vpminud	ymm2, ymm2, ymm10
-	vpminud	ymm3, ymm3, ymm11
-	vpmaxud	ymm4, ymm4, ymm8
-	vpmaxud	ymm5, ymm5, ymm9
-	vpmaxud	ymm6, ymm6, ymm10
-	vpmaxud	ymm7, ymm7, ymm11
-	add	rax, 32
-	cmp	r9, rax
-	jne	.LBB5_5
-# %bb.6:
-	vpmaxud	ymm4, ymm4, ymm5
-	vpmaxud	ymm4, ymm4, ymm6
-	vpmaxud	ymm4, ymm4, ymm7
-	vextracti128	xmm5, ymm4, 1
-	vpmaxud	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 78                  # xmm5 = xmm4[2,3,0,1]
-	vpmaxud	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 229                 # xmm5 = xmm4[1,1,2,3]
-	vpmaxud	xmm4, xmm4, xmm5
-	vmovd	r10d, xmm4
-	vpminud	ymm0, ymm0, ymm1
-	vpminud	ymm0, ymm0, ymm2
-	vpminud	ymm0, ymm0, ymm3
-	vextracti128	xmm1, ymm0, 1
-	vpminud	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpminud	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 229                 # xmm1 = xmm0[1,1,2,3]
-	vpminud	xmm0, xmm0, xmm1
-	vmovd	eax, xmm0
-	mov	esi, r10d
-	cmp	r9, r8
-	je	.LBB5_8
-	.p2align	4, 0x90
-.LBB5_7:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r9]
-	cmp	eax, esi
-	cmovae	eax, esi
-	cmp	r10d, esi
-	cmova	esi, r10d
-	add	r9, 1
-	mov	r10d, esi
-	cmp	r8, r9
-	jne	.LBB5_7
-.LBB5_8:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], eax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end5:
-	.size	uint32_max_min_avx2, .Lfunc_end5-uint32_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function int64_max_min_avx2
-.LCPI6_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-.LCPI6_1:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.text
-	.globl	int64_max_min_avx2
-	.p2align	4, 0x90
-	.type	int64_max_min_avx2,@function
-int64_max_min_avx2:                     # @int64_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	movabs	rax, 9223372036854775807
-	test	esi, esi
-	jle	.LBB6_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB6_4
-# %bb.3:
-	lea	r10, [rax + 1]
-	xor	r9d, r9d
-	jmp	.LBB6_7
-.LBB6_1:
-	lea	rsi, [rax + 1]
-	jmp	.LBB6_8
-.LBB6_4:
-	mov	r9d, r8d
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI6_0] # ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
-	and	r9d, -16
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI6_1] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	vmovdqa	ymm3, ymm0
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm1, ymm0
-	vmovdqa	ymm7, ymm4
-	vmovdqa	ymm6, ymm4
-	vmovdqa	ymm5, ymm4
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 8*rax]
-	vpcmpgtq	ymm9, ymm8, ymm0
-	vblendvpd	ymm0, ymm8, ymm0, ymm9
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 32]
-	vpcmpgtq	ymm10, ymm9, ymm3
-	vblendvpd	ymm3, ymm9, ymm3, ymm10
-	vmovdqu	ymm10, ymmword ptr [rdi + 8*rax + 64]
-	vpcmpgtq	ymm11, ymm10, ymm2
-	vblendvpd	ymm2, ymm10, ymm2, ymm11
-	vmovdqu	ymm11, ymmword ptr [rdi + 8*rax + 96]
-	vpcmpgtq	ymm12, ymm11, ymm1
-	vblendvpd	ymm1, ymm11, ymm1, ymm12
-	vpcmpgtq	ymm12, ymm4, ymm8
-	vblendvpd	ymm4, ymm8, ymm4, ymm12
-	vpcmpgtq	ymm8, ymm7, ymm9
-	vblendvpd	ymm7, ymm9, ymm7, ymm8
-	vpcmpgtq	ymm8, ymm6, ymm10
-	vblendvpd	ymm6, ymm10, ymm6, ymm8
-	vpcmpgtq	ymm8, ymm5, ymm11
-	vblendvpd	ymm5, ymm11, ymm5, ymm8
-	add	rax, 16
-	cmp	r9, rax
-	jne	.LBB6_5
-# %bb.6:
-	vpcmpgtq	ymm8, ymm4, ymm7
-	vblendvpd	ymm4, ymm7, ymm4, ymm8
-	vpcmpgtq	ymm7, ymm4, ymm6
-	vblendvpd	ymm4, ymm6, ymm4, ymm7
-	vpcmpgtq	ymm6, ymm4, ymm5
-	vblendvpd	ymm4, ymm5, ymm4, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpcmpgtq	xmm6, xmm4, xmm5
-	vblendvpd	xmm4, xmm5, xmm4, xmm6
-	vpermilps	xmm5, xmm4, 78          # xmm5 = xmm4[2,3,0,1]
-	vpcmpgtq	xmm6, xmm4, xmm5
-	vblendvpd	xmm4, xmm5, xmm4, xmm6
-	vmovq	r10, xmm4
-	vpcmpgtq	ymm4, ymm3, ymm0
-	vblendvpd	ymm0, ymm3, ymm0, ymm4
-	vpcmpgtq	ymm3, ymm2, ymm0
-	vblendvpd	ymm0, ymm2, ymm0, ymm3
-	vpcmpgtq	ymm2, ymm1, ymm0
-	vblendvpd	ymm0, ymm1, ymm0, ymm2
-	vextractf128	xmm1, ymm0, 1
-	vpcmpgtq	xmm2, xmm1, xmm0
-	vblendvpd	xmm0, xmm1, xmm0, xmm2
-	vpermilps	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpcmpgtq	xmm2, xmm1, xmm0
-	vblendvpd	xmm0, xmm1, xmm0, xmm2
-	vmovq	rax, xmm0
-	mov	rsi, r10
-	cmp	r9, r8
-	je	.LBB6_8
-	.p2align	4, 0x90
-.LBB6_7:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r9]
-	cmp	rax, rsi
-	cmovg	rax, rsi
-	cmp	r10, rsi
-	cmovge	rsi, r10
-	add	r9, 1
-	mov	r10, rsi
-	cmp	r8, r9
-	jne	.LBB6_7
-.LBB6_8:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end6:
-	.size	int64_max_min_avx2, .Lfunc_end6-int64_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function uint64_max_min_avx2
-.LCPI7_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.text
-	.globl	uint64_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint64_max_min_avx2,@function
-uint64_max_min_avx2:                    # @uint64_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB7_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB7_4
-# %bb.3:
-	mov	rax, -1
-	xor	r9d, r9d
-	xor	r10d, r10d
-	jmp	.LBB7_7
-.LBB7_1:
-	mov	rax, -1
-	xor	esi, esi
-	jmp	.LBB7_8
-.LBB7_4:
-	mov	r9d, r8d
-	and	r9d, -16
-	vpxor	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI7_0] # ymm0 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm8, xmm8, xmm8
-	vpxor	xmm7, xmm7, xmm7
-	vpxor	xmm6, xmm6, xmm6
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax]
-	vpxor	ymm10, ymm1, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm1, ymm9, ymm1, ymm10
-	vpxor	ymm10, ymm5, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vblendvpd	ymm5, ymm9, ymm5, ymm10
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 32]
-	vpxor	ymm10, ymm4, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm4, ymm9, ymm4, ymm10
-	vpxor	ymm10, ymm8, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vmovdqu	ymm11, ymmword ptr [rdi + 8*rax + 64]
-	vblendvpd	ymm8, ymm9, ymm8, ymm10
-	vpxor	ymm9, ymm3, ymm0
-	vpxor	ymm10, ymm11, ymm0
-	vpcmpgtq	ymm9, ymm10, ymm9
-	vblendvpd	ymm3, ymm11, ymm3, ymm9
-	vpxor	ymm9, ymm7, ymm0
-	vpcmpgtq	ymm9, ymm9, ymm10
-	vblendvpd	ymm7, ymm11, ymm7, ymm9
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 96]
-	vpxor	ymm10, ymm2, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm2, ymm9, ymm2, ymm10
-	vpxor	ymm10, ymm6, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vblendvpd	ymm6, ymm9, ymm6, ymm10
-	add	rax, 16
-	cmp	r9, rax
-	jne	.LBB7_5
-# %bb.6:
-	vpxor	ymm9, ymm8, ymm0
-	vpxor	ymm10, ymm5, ymm0
-	vpcmpgtq	ymm9, ymm10, ymm9
-	vblendvpd	ymm5, ymm8, ymm5, ymm9
-	vxorpd	ymm8, ymm5, ymm0
-	vpxor	ymm9, ymm7, ymm0
-	vpcmpgtq	ymm8, ymm8, ymm9
-	vblendvpd	ymm5, ymm7, ymm5, ymm8
-	vxorpd	ymm7, ymm5, ymm0
-	vpxor	ymm8, ymm6, ymm0
-	vpcmpgtq	ymm7, ymm7, ymm8
-	vblendvpd	ymm5, ymm6, ymm5, ymm7
-	vextractf128	xmm6, ymm5, 1
-	vxorpd	xmm8, xmm6, xmm0
-	vxorpd	xmm7, xmm5, xmm0
-	vpcmpgtq	xmm7, xmm7, xmm8
-	vblendvpd	xmm5, xmm6, xmm5, xmm7
-	vpermilps	xmm6, xmm5, 78          # xmm6 = xmm5[2,3,0,1]
-	vxorpd	xmm8, xmm5, xmm0
-	vxorpd	xmm7, xmm6, xmm0
-	vpcmpgtq	xmm7, xmm8, xmm7
-	vblendvpd	xmm5, xmm6, xmm5, xmm7
-	vpxor	ymm6, ymm1, ymm0
-	vpxor	ymm7, ymm4, ymm0
-	vpcmpgtq	ymm6, ymm7, ymm6
-	vblendvpd	ymm1, ymm4, ymm1, ymm6
-	vxorpd	ymm4, ymm1, ymm0
-	vpxor	ymm6, ymm3, ymm0
-	vpcmpgtq	ymm4, ymm6, ymm4
-	vblendvpd	ymm1, ymm3, ymm1, ymm4
-	vmovq	r10, xmm5
-	vxorpd	ymm3, ymm1, ymm0
-	vpxor	ymm4, ymm2, ymm0
-	vpcmpgtq	ymm3, ymm4, ymm3
-	vblendvpd	ymm1, ymm2, ymm1, ymm3
-	vextractf128	xmm2, ymm1, 1
-	vxorpd	xmm3, xmm1, xmm0
-	vxorpd	xmm4, xmm2, xmm0
-	vpcmpgtq	xmm3, xmm4, xmm3
-	vblendvpd	xmm1, xmm2, xmm1, xmm3
-	vpermilps	xmm2, xmm1, 78          # xmm2 = xmm1[2,3,0,1]
-	vxorpd	xmm3, xmm1, xmm0
-	vxorpd	xmm0, xmm2, xmm0
-	vpcmpgtq	xmm0, xmm0, xmm3
-	vblendvpd	xmm0, xmm2, xmm1, xmm0
-	vmovq	rax, xmm0
-	mov	rsi, r10
-	cmp	r9, r8
-	je	.LBB7_8
-	.p2align	4, 0x90
-.LBB7_7:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r9]
-	cmp	rax, rsi
-	cmovae	rax, rsi
-	cmp	r10, rsi
-	cmova	rsi, r10
-	add	r9, 1
-	mov	r10, rsi
-	cmp	r8, r9
-	jne	.LBB7_7
-.LBB7_8:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end7:
-	.size	uint64_max_min_avx2, .Lfunc_end7-uint64_max_min_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.0.1-2"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/min_max_neon.s b/go/internal/utils/_lib/min_max_neon.s
deleted file mode 100644
index db48ea4ab196c..0000000000000
--- a/go/internal/utils/_lib/min_max_neon.s
+++ /dev/null
@@ -1,318 +0,0 @@
-	.text
-	.file	"min_max.c"
-	.globl	int32_max_min_neon      // -- Begin function int32_max_min_neon
-	.p2align	2
-	.type	int32_max_min_neon,@function
-int32_max_min_neon:                     // @int32_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB0_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x9, xzr
-	mov	w11, #-2147483648
-	mov	w10, #2147483647
-	b	.LBB0_7
-.LBB0_3:
-	mov	w10, #2147483647
-	mov	w11, #-2147483648
-	str	w11, [x3]
-	str	w10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x9, x8, #0xfffffffc
-	add	x10, x0, #8             // =8
-	movi	v2.2s, #128, lsl #24
-	mvni	v0.2s, #128, lsl #24
-	mvni	v1.2s, #128, lsl #24
-	mov	x11, x9
-	movi	v3.2s, #128, lsl #24
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	d4, d5, [x10, #-8]
-	subs	x11, x11, #4            // =4
-	add	x10, x10, #16           // =16
-	smin	v0.2s, v0.2s, v4.2s
-	smin	v1.2s, v1.2s, v5.2s
-	smax	v2.2s, v2.2s, v4.2s
-	smax	v3.2s, v3.2s, v5.2s
-	b.ne	.LBB0_5
-// %bb.6:
-	smax	v2.2s, v2.2s, v3.2s
-	smin	v0.2s, v0.2s, v1.2s
-	dup	v1.2s, v2.s[1]
-	dup	v3.2s, v0.s[1]
-	smax	v1.2s, v2.2s, v1.2s
-	smin	v0.2s, v0.2s, v3.2s
-	cmp	x9, x8
-	fmov	w11, s1
-	fmov	w10, s0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x12, x0, x9, lsl #2
-	sub	x8, x8, x9
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	w9, [x12], #4
-	cmp	w10, w9
-	csel	w10, w10, w9, lt
-	cmp	w11, w9
-	csel	w11, w11, w9, gt
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	w11, [x3]
-	str	w10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	int32_max_min_neon, .Lfunc_end0-int32_max_min_neon
-                                        // -- End function
-	.globl	uint32_max_min_neon     // -- Begin function uint32_max_min_neon
-	.p2align	2
-	.type	uint32_max_min_neon,@function
-uint32_max_min_neon:                    // @uint32_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB1_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB1_4
-// %bb.2:
-	mov	x9, xzr
-	mov	w10, wzr
-	mov	w11, #-1
-	b	.LBB1_7
-.LBB1_3:
-	mov	w10, wzr
-	mov	w11, #-1
-	str	w10, [x3]
-	str	w11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB1_4:
-	and	x9, x8, #0xfffffffc
-	movi	v1.2d, #0000000000000000
-	movi	v0.2d, #0xffffffffffffffff
-	add	x10, x0, #8             // =8
-	movi	v2.2d, #0xffffffffffffffff
-	mov	x11, x9
-	movi	v3.2d, #0000000000000000
-.LBB1_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	d4, d5, [x10, #-8]
-	subs	x11, x11, #4            // =4
-	add	x10, x10, #16           // =16
-	umin	v0.2s, v0.2s, v4.2s
-	umin	v2.2s, v2.2s, v5.2s
-	umax	v1.2s, v1.2s, v4.2s
-	umax	v3.2s, v3.2s, v5.2s
-	b.ne	.LBB1_5
-// %bb.6:
-	umax	v1.2s, v1.2s, v3.2s
-	umin	v0.2s, v0.2s, v2.2s
-	dup	v2.2s, v1.s[1]
-	dup	v3.2s, v0.s[1]
-	umax	v1.2s, v1.2s, v2.2s
-	umin	v0.2s, v0.2s, v3.2s
-	cmp	x9, x8
-	fmov	w10, s1
-	fmov	w11, s0
-	b.eq	.LBB1_9
-.LBB1_7:
-	add	x12, x0, x9, lsl #2
-	sub	x8, x8, x9
-.LBB1_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	w9, [x12], #4
-	cmp	w11, w9
-	csel	w11, w11, w9, lo
-	cmp	w10, w9
-	csel	w10, w10, w9, hi
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB1_8
-.LBB1_9:
-	str	w10, [x3]
-	str	w11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end1:
-	.size	uint32_max_min_neon, .Lfunc_end1-uint32_max_min_neon
-                                        // -- End function
-	.globl	int64_max_min_neon      // -- Begin function int64_max_min_neon
-	.p2align	2
-	.type	int64_max_min_neon,@function
-int64_max_min_neon:                     // @int64_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB2_3
-// %bb.1:
-	mov	w8, w1
-	mov	x11, #-9223372036854775808
-	cmp	w1, #3                  // =3
-	mov	x10, #9223372036854775807
-	b.hi	.LBB2_4
-// %bb.2:
-	mov	x9, xzr
-	b	.LBB2_7
-.LBB2_3:
-	mov	x10, #9223372036854775807
-	mov	x11, #-9223372036854775808
-	str	x11, [x3]
-	str	x10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB2_4:
-	and	x9, x8, #0xfffffffc
-	dup	v1.2d, x11
-	dup	v0.2d, x10
-	add	x10, x0, #16            // =16
-	mov	x11, x9
-	mov	v2.16b, v0.16b
-	mov	v3.16b, v1.16b
-.LBB2_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q4, q5, [x10, #-16]
-	mov	v6.16b, v3.16b
-	mov	v7.16b, v1.16b
-	mov	v3.16b, v2.16b
-	mov	v1.16b, v0.16b
-	cmgt	v0.2d, v4.2d, v0.2d
-	cmgt	v2.2d, v5.2d, v2.2d
-	bsl	v0.16b, v1.16b, v4.16b
-	cmgt	v1.2d, v7.2d, v4.2d
-	bsl	v2.16b, v3.16b, v5.16b
-	cmgt	v3.2d, v6.2d, v5.2d
-	subs	x11, x11, #4            // =4
-	bsl	v1.16b, v7.16b, v4.16b
-	bsl	v3.16b, v6.16b, v5.16b
-	add	x10, x10, #32           // =32
-	b.ne	.LBB2_5
-// %bb.6:
-	cmgt	v4.2d, v1.2d, v3.2d
-	cmgt	v5.2d, v2.2d, v0.2d
-	bsl	v4.16b, v1.16b, v3.16b
-	bsl	v5.16b, v0.16b, v2.16b
-	dup	v0.2d, v4.d[1]
-	dup	v1.2d, v5.d[1]
-	cmgt	v2.2d, v4.2d, v0.2d
-	cmgt	v3.2d, v1.2d, v5.2d
-	bsl	v2.16b, v4.16b, v0.16b
-	bsl	v3.16b, v5.16b, v1.16b
-	cmp	x9, x8
-	fmov	x11, d2
-	fmov	x10, d3
-	b.eq	.LBB2_9
-.LBB2_7:
-	add	x12, x0, x9, lsl #3
-	sub	x8, x8, x9
-.LBB2_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x9, [x12], #8
-	cmp	x10, x9
-	csel	x10, x10, x9, lt
-	cmp	x11, x9
-	csel	x11, x11, x9, gt
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB2_8
-.LBB2_9:
-	str	x11, [x3]
-	str	x10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end2:
-	.size	int64_max_min_neon, .Lfunc_end2-int64_max_min_neon
-                                        // -- End function
-	.globl	uint64_max_min_neon     // -- Begin function uint64_max_min_neon
-	.p2align	2
-	.type	uint64_max_min_neon,@function
-uint64_max_min_neon:                    // @uint64_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB3_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB3_4
-// %bb.2:
-	mov	x9, xzr
-	mov	x10, xzr
-	mov	x11, #-1
-	b	.LBB3_7
-.LBB3_3:
-	mov	x10, xzr
-	mov	x11, #-1
-	str	x10, [x3]
-	str	x11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB3_4:
-	and	x9, x8, #0xfffffffc
-	add	x10, x0, #16            // =16
-	movi	v1.2d, #0000000000000000
-	movi	v0.2d, #0xffffffffffffffff
-	movi	v2.2d, #0xffffffffffffffff
-	mov	x11, x9
-	movi	v3.2d, #0000000000000000
-.LBB3_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q4, q5, [x10, #-16]
-	mov	v6.16b, v3.16b
-	mov	v7.16b, v1.16b
-	mov	v3.16b, v2.16b
-	mov	v1.16b, v0.16b
-	cmhi	v0.2d, v4.2d, v0.2d
-	cmhi	v2.2d, v5.2d, v2.2d
-	bsl	v0.16b, v1.16b, v4.16b
-	cmhi	v1.2d, v7.2d, v4.2d
-	bsl	v2.16b, v3.16b, v5.16b
-	cmhi	v3.2d, v6.2d, v5.2d
-	subs	x11, x11, #4            // =4
-	bsl	v1.16b, v7.16b, v4.16b
-	bsl	v3.16b, v6.16b, v5.16b
-	add	x10, x10, #32           // =32
-	b.ne	.LBB3_5
-// %bb.6:
-	cmhi	v4.2d, v1.2d, v3.2d
-	cmhi	v5.2d, v2.2d, v0.2d
-	bsl	v4.16b, v1.16b, v3.16b
-	bsl	v5.16b, v0.16b, v2.16b
-	dup	v0.2d, v4.d[1]
-	dup	v1.2d, v5.d[1]
-	cmhi	v2.2d, v4.2d, v0.2d
-	cmhi	v3.2d, v1.2d, v5.2d
-	bsl	v2.16b, v4.16b, v0.16b
-	bsl	v3.16b, v5.16b, v1.16b
-	cmp	x9, x8
-	fmov	x10, d2
-	fmov	x11, d3
-	b.eq	.LBB3_9
-.LBB3_7:
-	add	x12, x0, x9, lsl #3
-	sub	x8, x8, x9
-.LBB3_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x9, [x12], #8
-	cmp	x11, x9
-	csel	x11, x11, x9, lo
-	cmp	x10, x9
-	csel	x10, x10, x9, hi
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB3_8
-.LBB3_9:
-	str	x10, [x3]
-	str	x11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end3:
-	.size	uint64_max_min_neon, .Lfunc_end3-uint64_max_min_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/min_max_sse4_amd64.s b/go/internal/utils/_lib/min_max_sse4_amd64.s
deleted file mode 100644
index 32866abd3e29b..0000000000000
--- a/go/internal/utils/_lib/min_max_sse4_amd64.s
+++ /dev/null
@@ -1,1091 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"min_max.c"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int8_max_min_sse4
-.LCPI0_0:
-	.zero	16,128
-.LCPI0_1:
-	.zero	16,127
-	.text
-	.globl	int8_max_min_sse4
-	.p2align	4, 0x90
-	.type	int8_max_min_sse4,@function
-int8_max_min_sse4:                      # @int8_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB0_4
-# %bb.3:
-	mov	r8b, -128
-	mov	sil, 127
-	xor	r11d, r11d
-	jmp	.LBB0_11
-.LBB0_1:
-	mov	sil, 127
-	mov	r8b, -128
-	jmp	.LBB0_12
-.LBB0_4:
-	mov	r11d, r9d
-	and	r11d, -32
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB0_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + rax + 48]
-	pminsb	xmm0, xmm4
-	pminsb	xmm2, xmm5
-	pmaxsb	xmm1, xmm4
-	pmaxsb	xmm3, xmm5
-	pminsb	xmm0, xmm6
-	pminsb	xmm2, xmm7
-	pmaxsb	xmm1, xmm6
-	pmaxsb	xmm3, xmm7
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB0_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB0_10
-.LBB0_9:
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	pmaxsb	xmm3, xmm5
-	pmaxsb	xmm1, xmm4
-	pminsb	xmm2, xmm5
-	pminsb	xmm0, xmm4
-.LBB0_10:
-	pminsb	xmm0, xmm2
-	pmaxsb	xmm1, xmm3
-	pxor	xmm1, xmmword ptr [rip + .LCPI0_1]
-	movdqa	xmm2, xmm1
-	psrlw	xmm2, 8
-	pminub	xmm2, xmm1
-	phminposuw	xmm1, xmm2
-	movd	r8d, xmm1
-	xor	r8b, 127
-	pxor	xmm0, xmmword ptr [rip + .LCPI0_0]
-	movdqa	xmm1, xmm0
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm0
-	phminposuw	xmm0, xmm1
-	movd	esi, xmm0
-	xor	sil, -128
-	cmp	r11, r9
-	je	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r11]
-	cmp	sil, al
-	movzx	esi, sil
-	cmovg	esi, eax
-	cmp	r8b, al
-	movzx	r8d, r8b
-	cmovl	r8d, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB0_11
-.LBB0_12:
-	mov	byte ptr [rcx], r8b
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_5:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.Lfunc_end0:
-	.size	int8_max_min_sse4, .Lfunc_end0-int8_max_min_sse4
-                                        # -- End function
-	.globl	uint8_max_min_sse4              # -- Begin function uint8_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint8_max_min_sse4,@function
-uint8_max_min_sse4:                     # @uint8_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB1_4
-# %bb.3:
-	mov	sil, -1
-	xor	r11d, r11d
-	xor	eax, eax
-	jmp	.LBB1_11
-.LBB1_1:
-	mov	sil, -1
-	xor	eax, eax
-	jmp	.LBB1_12
-.LBB1_4:
-	mov	r11d, r9d
-	and	r11d, -32
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB1_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + rax + 48]
-	pminub	xmm0, xmm4
-	pminub	xmm2, xmm5
-	pmaxub	xmm1, xmm4
-	pmaxub	xmm3, xmm5
-	pminub	xmm0, xmm6
-	pminub	xmm2, xmm7
-	pmaxub	xmm1, xmm6
-	pmaxub	xmm3, xmm7
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB1_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB1_10
-.LBB1_9:
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	pmaxub	xmm3, xmm5
-	pmaxub	xmm1, xmm4
-	pminub	xmm2, xmm5
-	pminub	xmm0, xmm4
-.LBB1_10:
-	pminub	xmm0, xmm2
-	pmaxub	xmm1, xmm3
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm2, xmm1
-	movdqa	xmm1, xmm2
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm2
-	phminposuw	xmm1, xmm1
-	movd	eax, xmm1
-	not	al
-	movdqa	xmm1, xmm0
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm0
-	phminposuw	xmm0, xmm1
-	movd	esi, xmm0
-	cmp	r11, r9
-	je	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdi + r11]
-	cmp	sil, r8b
-	movzx	esi, sil
-	cmovae	esi, r8d
-	cmp	al, r8b
-	movzx	eax, al
-	cmovbe	eax, r8d
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB1_11
-.LBB1_12:
-	mov	byte ptr [rcx], al
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB1_5:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB1_9
-	jmp	.LBB1_10
-.Lfunc_end1:
-	.size	uint8_max_min_sse4, .Lfunc_end1-uint8_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int16_max_min_sse4
-.LCPI2_0:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-.LCPI2_1:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.text
-	.globl	int16_max_min_sse4
-	.p2align	4, 0x90
-	.type	int16_max_min_sse4,@function
-int16_max_min_sse4:                     # @int16_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB2_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 15
-	ja	.LBB2_4
-# %bb.3:
-	mov	r8w, -32768
-	mov	si, 32767
-	xor	r11d, r11d
-	jmp	.LBB2_11
-.LBB2_1:
-	mov	si, 32767
-	mov	r8w, -32768
-	jmp	.LBB2_12
-.LBB2_4:
-	mov	r11d, r9d
-	and	r11d, -16
-	lea	rax, [r11 - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB2_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_0] # xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_1] # xmm0 = [32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 2*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 2*rax + 48]
-	pminsw	xmm0, xmm4
-	pminsw	xmm2, xmm5
-	pmaxsw	xmm1, xmm4
-	pmaxsw	xmm3, xmm5
-	pminsw	xmm0, xmm6
-	pminsw	xmm2, xmm7
-	pmaxsw	xmm1, xmm6
-	pmaxsw	xmm3, xmm7
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB2_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB2_10
-.LBB2_9:
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	pmaxsw	xmm3, xmm5
-	pmaxsw	xmm1, xmm4
-	pminsw	xmm2, xmm5
-	pminsw	xmm0, xmm4
-.LBB2_10:
-	pminsw	xmm0, xmm2
-	pmaxsw	xmm1, xmm3
-	pxor	xmm1, xmmword ptr [rip + .LCPI2_1]
-	phminposuw	xmm1, xmm1
-	movd	r8d, xmm1
-	xor	r8d, 32767
-	pxor	xmm0, xmmword ptr [rip + .LCPI2_0]
-	phminposuw	xmm0, xmm0
-	movd	esi, xmm0
-	xor	esi, 32768
-	cmp	r11, r9
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r11]
-	cmp	si, ax
-	cmovg	esi, eax
-	cmp	r8w, ax
-	cmovl	r8d, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB2_11
-.LBB2_12:
-	mov	word ptr [rcx], r8w
-	mov	word ptr [rdx], si
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB2_5:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_0] # xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_1] # xmm0 = [32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB2_9
-	jmp	.LBB2_10
-.Lfunc_end2:
-	.size	int16_max_min_sse4, .Lfunc_end2-int16_max_min_sse4
-                                        # -- End function
-	.globl	uint16_max_min_sse4             # -- Begin function uint16_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint16_max_min_sse4,@function
-uint16_max_min_sse4:                    # @uint16_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB3_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 15
-	ja	.LBB3_4
-# %bb.3:
-	mov	r8w, -1
-	xor	r11d, r11d
-	xor	esi, esi
-	jmp	.LBB3_11
-.LBB3_1:
-	mov	r8w, -1
-	xor	esi, esi
-	jmp	.LBB3_12
-.LBB3_4:
-	mov	r11d, r9d
-	and	r11d, -16
-	lea	rax, [r11 - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB3_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 2*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 2*rax + 48]
-	pminuw	xmm0, xmm4
-	pminuw	xmm2, xmm5
-	pmaxuw	xmm1, xmm4
-	pmaxuw	xmm3, xmm5
-	pminuw	xmm0, xmm6
-	pminuw	xmm2, xmm7
-	pmaxuw	xmm1, xmm6
-	pmaxuw	xmm3, xmm7
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB3_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB3_10
-.LBB3_9:
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	pmaxuw	xmm3, xmm5
-	pmaxuw	xmm1, xmm4
-	pminuw	xmm2, xmm5
-	pminuw	xmm0, xmm4
-.LBB3_10:
-	pminuw	xmm0, xmm2
-	pmaxuw	xmm1, xmm3
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm2, xmm1
-	phminposuw	xmm1, xmm2
-	movd	esi, xmm1
-	not	esi
-	phminposuw	xmm0, xmm0
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r11]
-	cmp	r8w, ax
-	cmovae	r8d, eax
-	cmp	si, ax
-	cmovbe	esi, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB3_11
-.LBB3_12:
-	mov	word ptr [rcx], si
-	mov	word ptr [rdx], r8w
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB3_5:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB3_9
-	jmp	.LBB3_10
-.Lfunc_end3:
-	.size	uint16_max_min_sse4, .Lfunc_end3-uint16_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int32_max_min_sse4
-.LCPI4_0:
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-.LCPI4_1:
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.text
-	.globl	int32_max_min_sse4
-	.p2align	4, 0x90
-	.type	int32_max_min_sse4,@function
-int32_max_min_sse4:                     # @int32_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB4_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 7
-	ja	.LBB4_6
-# %bb.3:
-	mov	eax, -2147483648
-	mov	r8d, 2147483647
-	xor	r11d, r11d
-	jmp	.LBB4_4
-.LBB4_1:
-	mov	r8d, 2147483647
-	mov	eax, -2147483648
-	jmp	.LBB4_13
-.LBB4_6:
-	mov	r11d, r9d
-	and	r11d, -8
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB4_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_1] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB4_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 4*rax + 48]
-	pminsd	xmm0, xmm4
-	pminsd	xmm2, xmm5
-	pmaxsd	xmm1, xmm4
-	pmaxsd	xmm3, xmm5
-	pminsd	xmm0, xmm6
-	pminsd	xmm2, xmm7
-	pmaxsd	xmm1, xmm6
-	pmaxsd	xmm3, xmm7
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB4_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB4_12
-.LBB4_11:
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	pmaxsd	xmm3, xmm5
-	pmaxsd	xmm1, xmm4
-	pminsd	xmm2, xmm5
-	pminsd	xmm0, xmm4
-.LBB4_12:
-	pminsd	xmm0, xmm2
-	pmaxsd	xmm1, xmm3
-	pshufd	xmm2, xmm1, 78                  # xmm2 = xmm1[2,3,0,1]
-	pmaxsd	xmm2, xmm1
-	pshufd	xmm1, xmm2, 229                 # xmm1 = xmm2[1,1,2,3]
-	pmaxsd	xmm1, xmm2
-	movd	eax, xmm1
-	pshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	pminsd	xmm1, xmm0
-	pshufd	xmm0, xmm1, 229                 # xmm0 = xmm1[1,1,2,3]
-	pminsd	xmm0, xmm1
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB4_13
-.LBB4_4:
-	mov	esi, eax
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	cmp	r8d, eax
-	cmovg	r8d, eax
-	cmp	esi, eax
-	cmovge	eax, esi
-	add	r11, 1
-	mov	esi, eax
-	cmp	r9, r11
-	jne	.LBB4_5
-.LBB4_13:
-	mov	dword ptr [rcx], eax
-	mov	dword ptr [rdx], r8d
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB4_7:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_1] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB4_11
-	jmp	.LBB4_12
-.Lfunc_end4:
-	.size	int32_max_min_sse4, .Lfunc_end4-int32_max_min_sse4
-                                        # -- End function
-	.globl	uint32_max_min_sse4             # -- Begin function uint32_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint32_max_min_sse4,@function
-uint32_max_min_sse4:                    # @uint32_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB5_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 7
-	ja	.LBB5_6
-# %bb.3:
-	xor	r11d, r11d
-	mov	r8d, -1
-	xor	esi, esi
-	jmp	.LBB5_4
-.LBB5_1:
-	mov	r8d, -1
-	xor	esi, esi
-	jmp	.LBB5_13
-.LBB5_6:
-	mov	r11d, r9d
-	and	r11d, -8
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB5_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB5_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 4*rax + 48]
-	pminud	xmm0, xmm4
-	pminud	xmm2, xmm5
-	pmaxud	xmm1, xmm4
-	pmaxud	xmm3, xmm5
-	pminud	xmm0, xmm6
-	pminud	xmm2, xmm7
-	pmaxud	xmm1, xmm6
-	pmaxud	xmm3, xmm7
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB5_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB5_12
-.LBB5_11:
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	pmaxud	xmm3, xmm5
-	pmaxud	xmm1, xmm4
-	pminud	xmm2, xmm5
-	pminud	xmm0, xmm4
-.LBB5_12:
-	pminud	xmm0, xmm2
-	pmaxud	xmm1, xmm3
-	pshufd	xmm2, xmm1, 78                  # xmm2 = xmm1[2,3,0,1]
-	pmaxud	xmm2, xmm1
-	pshufd	xmm1, xmm2, 229                 # xmm1 = xmm2[1,1,2,3]
-	pmaxud	xmm1, xmm2
-	movd	esi, xmm1
-	pshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	pminud	xmm1, xmm0
-	pshufd	xmm0, xmm1, 229                 # xmm0 = xmm1[1,1,2,3]
-	pminud	xmm0, xmm1
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB5_13
-.LBB5_4:
-	mov	eax, esi
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r11]
-	cmp	r8d, esi
-	cmovae	r8d, esi
-	cmp	eax, esi
-	cmova	esi, eax
-	add	r11, 1
-	mov	eax, esi
-	cmp	r9, r11
-	jne	.LBB5_5
-.LBB5_13:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], r8d
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB5_7:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB5_11
-	jmp	.LBB5_12
-.Lfunc_end5:
-	.size	uint32_max_min_sse4, .Lfunc_end5-uint32_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int64_max_min_sse4
-.LCPI6_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.quad	-9223372036854775808            # 0x8000000000000000
-.LCPI6_1:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.text
-	.globl	int64_max_min_sse4
-	.p2align	4, 0x90
-	.type	int64_max_min_sse4,@function
-int64_max_min_sse4:                     # @int64_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	movabs	r8, 9223372036854775807
-	test	esi, esi
-	jle	.LBB6_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 3
-	ja	.LBB6_6
-# %bb.3:
-	lea	rsi, [r8 + 1]
-	xor	r11d, r11d
-	jmp	.LBB6_4
-.LBB6_1:
-	lea	rsi, [r8 + 1]
-	jmp	.LBB6_13
-.LBB6_6:
-	mov	r11d, r9d
-	and	r11d, -4
-	lea	rax, [r11 - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB6_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm9, xmmword ptr [rip + .LCPI6_0] # xmm9 = [9223372036854775808,9223372036854775808]
-	movdqa	xmm8, xmmword ptr [rip + .LCPI6_1] # xmm8 = [9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	movdqa	xmm2, xmm8
-	movdqa	xmm6, xmm9
-	.p2align	4, 0x90
-.LBB6_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm7, xmmword ptr [rdi + 8*rax]
-	movdqa	xmm0, xmm7
-	pcmpgtq	xmm0, xmm8
-	movdqa	xmm4, xmm7
-	blendvpd	xmm4, xmm8, xmm0
-	movdqu	xmm1, xmmword ptr [rdi + 8*rax + 16]
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm5, xmm1
-	blendvpd	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm9
-	pcmpgtq	xmm0, xmm7
-	blendvpd	xmm7, xmm9, xmm0
-	movdqa	xmm0, xmm6
-	pcmpgtq	xmm0, xmm1
-	blendvpd	xmm1, xmm6, xmm0
-	movdqu	xmm3, xmmword ptr [rdi + 8*rax + 32]
-	movdqa	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	movdqa	xmm8, xmm3
-	blendvpd	xmm8, xmm4, xmm0
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movapd	xmm0, xmm7
-	pcmpgtq	xmm0, xmm3
-	blendvpd	xmm3, xmm7, xmm0
-	movapd	xmm0, xmm1
-	pcmpgtq	xmm0, xmm4
-	blendvpd	xmm4, xmm1, xmm0
-	add	rax, 8
-	movapd	xmm9, xmm3
-	movapd	xmm6, xmm4
-	add	r10, 2
-	jne	.LBB6_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB6_12
-.LBB6_11:
-	movdqu	xmm1, xmmword ptr [rdi + 8*rax + 16]
-	movapd	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	blendvpd	xmm5, xmm4, xmm0
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax]
-	movapd	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	movdqa	xmm6, xmm4
-	blendvpd	xmm6, xmm3, xmm0
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm1, xmm2, xmm0
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm8
-	blendvpd	xmm4, xmm8, xmm0
-	movapd	xmm8, xmm4
-	movapd	xmm2, xmm1
-	movapd	xmm3, xmm6
-	movapd	xmm4, xmm5
-.LBB6_12:
-	movapd	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	blendvpd	xmm4, xmm3, xmm0
-	pshufd	xmm1, xmm4, 78                  # xmm1 = xmm4[2,3,0,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	movq	rsi, xmm1
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm8
-	blendvpd	xmm2, xmm8, xmm0
-	pshufd	xmm1, xmm2, 78                  # xmm1 = xmm2[2,3,0,1]
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm1, xmm2, xmm0
-	movq	r8, xmm1
-	cmp	r11, r9
-	je	.LBB6_13
-.LBB6_4:
-	mov	rax, rsi
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r11]
-	cmp	r8, rsi
-	cmovg	r8, rsi
-	cmp	rax, rsi
-	cmovge	rsi, rax
-	add	r11, 1
-	mov	rax, rsi
-	cmp	r9, r11
-	jne	.LBB6_5
-.LBB6_13:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], r8
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB6_7:
-	movapd	xmm3, xmmword ptr [rip + .LCPI6_0] # xmm3 = [9223372036854775808,9223372036854775808]
-	movdqa	xmm8, xmmword ptr [rip + .LCPI6_1] # xmm8 = [9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	movdqa	xmm2, xmm8
-	movapd	xmm4, xmm3
-	test	r8b, 1
-	jne	.LBB6_11
-	jmp	.LBB6_12
-.Lfunc_end6:
-	.size	int64_max_min_sse4, .Lfunc_end6-int64_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function uint64_max_min_sse4
-.LCPI7_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.text
-	.globl	uint64_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint64_max_min_sse4,@function
-uint64_max_min_sse4:                    # @uint64_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB7_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 3
-	ja	.LBB7_6
-# %bb.3:
-	mov	r8, -1
-	xor	r11d, r11d
-	xor	eax, eax
-	jmp	.LBB7_4
-.LBB7_1:
-	mov	r8, -1
-	xor	eax, eax
-	jmp	.LBB7_13
-.LBB7_6:
-	mov	r11d, r9d
-	and	r11d, -4
-	lea	rax, [r11 - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB7_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm9, xmm9
-	pcmpeqd	xmm10, xmm10
-	xor	eax, eax
-	movdqa	xmm8, xmmword ptr [rip + .LCPI7_0] # xmm8 = [9223372036854775808,9223372036854775808]
-	pcmpeqd	xmm11, xmm11
-	pxor	xmm12, xmm12
-	.p2align	4, 0x90
-.LBB7_9:                                # =>This Inner Loop Header: Depth=1
-	movdqa	xmm2, xmm10
-	pxor	xmm2, xmm8
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 8*rax + 16]
-	movdqu	xmm13, xmmword ptr [rdi + 8*rax + 32]
-	movdqa	xmm0, xmm4
-	pxor	xmm0, xmm8
-	movdqa	xmm1, xmm9
-	pxor	xmm1, xmm8
-	pcmpgtq	xmm1, xmm0
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm3, xmm4
-	blendvpd	xmm3, xmm10, xmm0
-	movdqu	xmm6, xmmword ptr [rdi + 8*rax + 48]
-	movdqa	xmm7, xmm11
-	pxor	xmm7, xmm8
-	movdqa	xmm0, xmm5
-	pxor	xmm0, xmm8
-	movdqa	xmm2, xmm12
-	pxor	xmm2, xmm8
-	pcmpgtq	xmm2, xmm0
-	pcmpgtq	xmm0, xmm7
-	movdqa	xmm7, xmm5
-	blendvpd	xmm7, xmm11, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm9, xmm0
-	movdqa	xmm0, xmm2
-	blendvpd	xmm5, xmm12, xmm0
-	movapd	xmm2, xmm3
-	xorpd	xmm2, xmm8
-	movdqa	xmm0, xmm13
-	pxor	xmm0, xmm8
-	movapd	xmm1, xmm4
-	xorpd	xmm1, xmm8
-	pcmpgtq	xmm1, xmm0
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm10, xmm13
-	blendvpd	xmm10, xmm3, xmm0
-	movapd	xmm3, xmm7
-	xorpd	xmm3, xmm8
-	movdqa	xmm0, xmm6
-	pxor	xmm0, xmm8
-	movapd	xmm2, xmm5
-	xorpd	xmm2, xmm8
-	pcmpgtq	xmm2, xmm0
-	pcmpgtq	xmm0, xmm3
-	movdqa	xmm11, xmm6
-	blendvpd	xmm11, xmm7, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm13, xmm4, xmm0
-	movdqa	xmm0, xmm2
-	blendvpd	xmm6, xmm5, xmm0
-	add	rax, 8
-	movapd	xmm9, xmm13
-	movapd	xmm12, xmm6
-	add	r10, 2
-	jne	.LBB7_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB7_12
-.LBB7_11:
-	movupd	xmm4, xmmword ptr [rdi + 8*rax]
-	movupd	xmm3, xmmword ptr [rdi + 8*rax + 16]
-	movapd	xmm5, xmmword ptr [rip + .LCPI7_0] # xmm5 = [9223372036854775808,9223372036854775808]
-	movapd	xmm0, xmm6
-	xorpd	xmm0, xmm5
-	movapd	xmm1, xmm3
-	xorpd	xmm1, xmm5
-	pcmpgtq	xmm0, xmm1
-	movapd	xmm7, xmm3
-	blendvpd	xmm7, xmm6, xmm0
-	movapd	xmm0, xmm13
-	xorpd	xmm0, xmm5
-	movapd	xmm2, xmm4
-	xorpd	xmm2, xmm5
-	pcmpgtq	xmm0, xmm2
-	movapd	xmm6, xmm4
-	blendvpd	xmm6, xmm13, xmm0
-	movapd	xmm0, xmm11
-	xorpd	xmm0, xmm5
-	pcmpgtq	xmm1, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm11, xmm0
-	xorpd	xmm5, xmm10
-	pcmpgtq	xmm2, xmm5
-	movdqa	xmm0, xmm2
-	blendvpd	xmm4, xmm10, xmm0
-	movapd	xmm10, xmm4
-	movapd	xmm11, xmm3
-	movapd	xmm13, xmm6
-	movapd	xmm6, xmm7
-.LBB7_12:
-	movapd	xmm1, xmmword ptr [rip + .LCPI7_0] # xmm1 = [9223372036854775808,9223372036854775808]
-	movapd	xmm2, xmm6
-	xorpd	xmm2, xmm1
-	movapd	xmm0, xmm13
-	xorpd	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm6, xmm13, xmm0
-	pshufd	xmm2, xmm6, 78                  # xmm2 = xmm6[2,3,0,1]
-	movapd	xmm0, xmm6
-	xorpd	xmm0, xmm1
-	movdqa	xmm3, xmm2
-	pxor	xmm3, xmm1
-	pcmpgtq	xmm0, xmm3
-	blendvpd	xmm2, xmm6, xmm0
-	movq	rax, xmm2
-	movdqa	xmm2, xmm10
-	pxor	xmm2, xmm1
-	movdqa	xmm0, xmm11
-	pxor	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm11, xmm10, xmm0
-	pshufd	xmm2, xmm11, 78                 # xmm2 = xmm11[2,3,0,1]
-	movdqa	xmm0, xmm11
-	pxor	xmm0, xmm1
-	pxor	xmm1, xmm2
-	pcmpgtq	xmm1, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm2, xmm11, xmm0
-	movq	r8, xmm2
-	cmp	r11, r9
-	je	.LBB7_13
-.LBB7_4:
-	mov	rsi, rax
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r11]
-	cmp	r8, rax
-	cmovae	r8, rax
-	cmp	rsi, rax
-	cmova	rax, rsi
-	add	r11, 1
-	mov	rsi, rax
-	cmp	r9, r11
-	jne	.LBB7_5
-.LBB7_13:
-	mov	qword ptr [rcx], rax
-	mov	qword ptr [rdx], r8
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB7_7:
-	xorpd	xmm13, xmm13
-	pcmpeqd	xmm10, xmm10
-	xor	eax, eax
-	pcmpeqd	xmm11, xmm11
-	xorpd	xmm6, xmm6
-	test	r8b, 1
-	jne	.LBB7_11
-	jmp	.LBB7_12
-.Lfunc_end7:
-	.size	uint64_max_min_sse4, .Lfunc_end7-uint64_max_min_sse4
-                                        # -- End function
-	.ident	"Debian clang version 11.0.1-2"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/transpose_ints.c b/go/internal/utils/_lib/transpose_ints.c
deleted file mode 100644
index e37aed62e0b60..0000000000000
--- a/go/internal/utils/_lib/transpose_ints.c
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#define CREATE_TRANSPOSE(SRC, DEST) \
-    void FULL_NAME(transpose_ ## SRC ## _ ## DEST)(const SRC ## _t* src, DEST ## _t* dest, int length, const int32_t* transpose_map) { \
-        while (length >= 4) {                                       \
-            dest[0] = (DEST ## _t)(transpose_map[src[0]]);          \
-            dest[1] = (DEST ## _t)(transpose_map[src[1]]);          \
-            dest[2] = (DEST ## _t)(transpose_map[src[2]]);          \
-            dest[3] = (DEST ## _t)(transpose_map[src[3]]);          \
-            length -= 4;                                            \
-            src += 4;                                               \
-            dest += 4;                                              \
-        }                                                           \
-        while (length > 0) {                                        \
-            *dest++ = (DEST ## _t)(transpose_map[*src++]);          \
-            --length;                                               \
-        }                                                           \
-    }
-
-#define CREATE_TRANSPOSE_ALL_DEST(DEST) \
-    CREATE_TRANSPOSE(uint8, DEST)     \
-    CREATE_TRANSPOSE(int8, DEST)      \
-    CREATE_TRANSPOSE(uint16, DEST)    \
-    CREATE_TRANSPOSE(int16, DEST)     \
-    CREATE_TRANSPOSE(uint32, DEST)    \
-    CREATE_TRANSPOSE(int32, DEST)     \
-    CREATE_TRANSPOSE(uint64, DEST)    \
-    CREATE_TRANSPOSE(int64, DEST)
-
-#define CREATE_TRANSPOSE_ALL()        \
-    CREATE_TRANSPOSE_ALL_DEST(uint8)  \
-    CREATE_TRANSPOSE_ALL_DEST(int8)   \
-    CREATE_TRANSPOSE_ALL_DEST(uint16) \
-    CREATE_TRANSPOSE_ALL_DEST(int16)  \
-    CREATE_TRANSPOSE_ALL_DEST(uint32) \
-    CREATE_TRANSPOSE_ALL_DEST(int32)  \
-    CREATE_TRANSPOSE_ALL_DEST(uint64) \
-    CREATE_TRANSPOSE_ALL_DEST(int64)
-
-CREATE_TRANSPOSE_ALL()
diff --git a/go/internal/utils/_lib/transpose_ints_avx2_amd64.s b/go/internal/utils/_lib/transpose_ints_avx2_amd64.s
deleted file mode 100644
index 697947567465f..0000000000000
--- a/go/internal/utils/_lib/transpose_ints_avx2_amd64.s
+++ /dev/null
@@ -1,3334 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"transpose_ints.c"
-	.globl	transpose_uint8_uint8_avx2      # -- Begin function transpose_uint8_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint8_avx2,@function
-transpose_uint8_uint8_avx2:             # @transpose_uint8_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB0_1
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB0_5
-.LBB0_1:
-	test	edx, edx
-	jle	.LBB0_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB0_3
-.LBB0_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	transpose_uint8_uint8_avx2, .Lfunc_end0-transpose_uint8_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint8_avx2       # -- Begin function transpose_int8_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint8_avx2,@function
-transpose_int8_uint8_avx2:              # @transpose_int8_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB1_1
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB1_5
-.LBB1_1:
-	test	edx, edx
-	jle	.LBB1_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB1_3
-.LBB1_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	transpose_int8_uint8_avx2, .Lfunc_end1-transpose_int8_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint8_avx2     # -- Begin function transpose_uint16_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint8_avx2,@function
-transpose_uint16_uint8_avx2:            # @transpose_uint16_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB2_1
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB2_5
-.LBB2_1:
-	test	edx, edx
-	jle	.LBB2_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB2_3
-.LBB2_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	transpose_uint16_uint8_avx2, .Lfunc_end2-transpose_uint16_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint8_avx2      # -- Begin function transpose_int16_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint8_avx2,@function
-transpose_int16_uint8_avx2:             # @transpose_int16_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB3_1
-	.p2align	4, 0x90
-.LBB3_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB3_5
-.LBB3_1:
-	test	edx, edx
-	jle	.LBB3_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB3_3
-.LBB3_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	transpose_int16_uint8_avx2, .Lfunc_end3-transpose_int16_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint8_avx2     # -- Begin function transpose_uint32_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint8_avx2,@function
-transpose_uint32_uint8_avx2:            # @transpose_uint32_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB4_1
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB4_5
-.LBB4_1:
-	test	edx, edx
-	jle	.LBB4_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB4_3:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB4_3
-.LBB4_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	transpose_uint32_uint8_avx2, .Lfunc_end4-transpose_uint32_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint8_avx2      # -- Begin function transpose_int32_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint8_avx2,@function
-transpose_int32_uint8_avx2:             # @transpose_int32_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB5_1
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB5_5
-.LBB5_1:
-	test	edx, edx
-	jle	.LBB5_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB5_3:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB5_3
-.LBB5_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	transpose_int32_uint8_avx2, .Lfunc_end5-transpose_int32_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint8_avx2     # -- Begin function transpose_uint64_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint8_avx2,@function
-transpose_uint64_uint8_avx2:            # @transpose_uint64_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB6_1
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB6_5
-.LBB6_1:
-	test	edx, edx
-	jle	.LBB6_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB6_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB6_3
-.LBB6_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	transpose_uint64_uint8_avx2, .Lfunc_end6-transpose_uint64_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint8_avx2      # -- Begin function transpose_int64_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint8_avx2,@function
-transpose_int64_uint8_avx2:             # @transpose_int64_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB7_1
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB7_5
-.LBB7_1:
-	test	edx, edx
-	jle	.LBB7_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB7_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB7_3
-.LBB7_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	transpose_int64_uint8_avx2, .Lfunc_end7-transpose_int64_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int8_avx2       # -- Begin function transpose_uint8_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int8_avx2,@function
-transpose_uint8_int8_avx2:              # @transpose_uint8_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB8_1
-	.p2align	4, 0x90
-.LBB8_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB8_5
-.LBB8_1:
-	test	edx, edx
-	jle	.LBB8_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB8_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB8_3
-.LBB8_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end8:
-	.size	transpose_uint8_int8_avx2, .Lfunc_end8-transpose_uint8_int8_avx2
-                                        # -- End function
-	.globl	transpose_int8_int8_avx2        # -- Begin function transpose_int8_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int8_avx2,@function
-transpose_int8_int8_avx2:               # @transpose_int8_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB9_1
-	.p2align	4, 0x90
-.LBB9_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB9_5
-.LBB9_1:
-	test	edx, edx
-	jle	.LBB9_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB9_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB9_3
-.LBB9_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	transpose_int8_int8_avx2, .Lfunc_end9-transpose_int8_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int8_avx2      # -- Begin function transpose_uint16_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int8_avx2,@function
-transpose_uint16_int8_avx2:             # @transpose_uint16_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB10_1
-	.p2align	4, 0x90
-.LBB10_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB10_5
-.LBB10_1:
-	test	edx, edx
-	jle	.LBB10_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB10_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB10_3
-.LBB10_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end10:
-	.size	transpose_uint16_int8_avx2, .Lfunc_end10-transpose_uint16_int8_avx2
-                                        # -- End function
-	.globl	transpose_int16_int8_avx2       # -- Begin function transpose_int16_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int8_avx2,@function
-transpose_int16_int8_avx2:              # @transpose_int16_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB11_1
-	.p2align	4, 0x90
-.LBB11_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB11_5
-.LBB11_1:
-	test	edx, edx
-	jle	.LBB11_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB11_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB11_3
-.LBB11_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end11:
-	.size	transpose_int16_int8_avx2, .Lfunc_end11-transpose_int16_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int8_avx2      # -- Begin function transpose_uint32_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int8_avx2,@function
-transpose_uint32_int8_avx2:             # @transpose_uint32_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB12_1
-	.p2align	4, 0x90
-.LBB12_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB12_5
-.LBB12_1:
-	test	edx, edx
-	jle	.LBB12_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB12_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB12_3
-.LBB12_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end12:
-	.size	transpose_uint32_int8_avx2, .Lfunc_end12-transpose_uint32_int8_avx2
-                                        # -- End function
-	.globl	transpose_int32_int8_avx2       # -- Begin function transpose_int32_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int8_avx2,@function
-transpose_int32_int8_avx2:              # @transpose_int32_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB13_1
-	.p2align	4, 0x90
-.LBB13_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB13_5
-.LBB13_1:
-	test	edx, edx
-	jle	.LBB13_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB13_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB13_3
-.LBB13_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end13:
-	.size	transpose_int32_int8_avx2, .Lfunc_end13-transpose_int32_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int8_avx2      # -- Begin function transpose_uint64_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int8_avx2,@function
-transpose_uint64_int8_avx2:             # @transpose_uint64_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB14_1
-	.p2align	4, 0x90
-.LBB14_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB14_5
-.LBB14_1:
-	test	edx, edx
-	jle	.LBB14_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB14_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB14_3
-.LBB14_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end14:
-	.size	transpose_uint64_int8_avx2, .Lfunc_end14-transpose_uint64_int8_avx2
-                                        # -- End function
-	.globl	transpose_int64_int8_avx2       # -- Begin function transpose_int64_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int8_avx2,@function
-transpose_int64_int8_avx2:              # @transpose_int64_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB15_1
-	.p2align	4, 0x90
-.LBB15_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB15_5
-.LBB15_1:
-	test	edx, edx
-	jle	.LBB15_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB15_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB15_3
-.LBB15_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end15:
-	.size	transpose_int64_int8_avx2, .Lfunc_end15-transpose_int64_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint16_avx2     # -- Begin function transpose_uint8_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint16_avx2,@function
-transpose_uint8_uint16_avx2:            # @transpose_uint8_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB16_1
-	.p2align	4, 0x90
-.LBB16_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB16_5
-.LBB16_1:
-	test	edx, edx
-	jle	.LBB16_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB16_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB16_3
-.LBB16_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end16:
-	.size	transpose_uint8_uint16_avx2, .Lfunc_end16-transpose_uint8_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint16_avx2      # -- Begin function transpose_int8_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint16_avx2,@function
-transpose_int8_uint16_avx2:             # @transpose_int8_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB17_1
-	.p2align	4, 0x90
-.LBB17_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB17_5
-.LBB17_1:
-	test	edx, edx
-	jle	.LBB17_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB17_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB17_3
-.LBB17_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end17:
-	.size	transpose_int8_uint16_avx2, .Lfunc_end17-transpose_int8_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint16_avx2    # -- Begin function transpose_uint16_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint16_avx2,@function
-transpose_uint16_uint16_avx2:           # @transpose_uint16_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB18_1
-	.p2align	4, 0x90
-.LBB18_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB18_5
-.LBB18_1:
-	test	edx, edx
-	jle	.LBB18_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB18_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB18_3
-.LBB18_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end18:
-	.size	transpose_uint16_uint16_avx2, .Lfunc_end18-transpose_uint16_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint16_avx2     # -- Begin function transpose_int16_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint16_avx2,@function
-transpose_int16_uint16_avx2:            # @transpose_int16_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB19_1
-	.p2align	4, 0x90
-.LBB19_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB19_5
-.LBB19_1:
-	test	edx, edx
-	jle	.LBB19_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB19_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB19_3
-.LBB19_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end19:
-	.size	transpose_int16_uint16_avx2, .Lfunc_end19-transpose_int16_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint16_avx2    # -- Begin function transpose_uint32_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint16_avx2,@function
-transpose_uint32_uint16_avx2:           # @transpose_uint32_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB20_1
-	.p2align	4, 0x90
-.LBB20_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB20_5
-.LBB20_1:
-	test	edx, edx
-	jle	.LBB20_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB20_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB20_3
-.LBB20_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end20:
-	.size	transpose_uint32_uint16_avx2, .Lfunc_end20-transpose_uint32_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint16_avx2     # -- Begin function transpose_int32_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint16_avx2,@function
-transpose_int32_uint16_avx2:            # @transpose_int32_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB21_1
-	.p2align	4, 0x90
-.LBB21_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB21_5
-.LBB21_1:
-	test	edx, edx
-	jle	.LBB21_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB21_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB21_3
-.LBB21_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end21:
-	.size	transpose_int32_uint16_avx2, .Lfunc_end21-transpose_int32_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint16_avx2    # -- Begin function transpose_uint64_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint16_avx2,@function
-transpose_uint64_uint16_avx2:           # @transpose_uint64_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB22_1
-	.p2align	4, 0x90
-.LBB22_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB22_5
-.LBB22_1:
-	test	edx, edx
-	jle	.LBB22_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB22_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB22_3
-.LBB22_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end22:
-	.size	transpose_uint64_uint16_avx2, .Lfunc_end22-transpose_uint64_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint16_avx2     # -- Begin function transpose_int64_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint16_avx2,@function
-transpose_int64_uint16_avx2:            # @transpose_int64_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB23_1
-	.p2align	4, 0x90
-.LBB23_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB23_5
-.LBB23_1:
-	test	edx, edx
-	jle	.LBB23_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB23_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB23_3
-.LBB23_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end23:
-	.size	transpose_int64_uint16_avx2, .Lfunc_end23-transpose_int64_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int16_avx2      # -- Begin function transpose_uint8_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int16_avx2,@function
-transpose_uint8_int16_avx2:             # @transpose_uint8_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB24_1
-	.p2align	4, 0x90
-.LBB24_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB24_5
-.LBB24_1:
-	test	edx, edx
-	jle	.LBB24_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB24_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB24_3
-.LBB24_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end24:
-	.size	transpose_uint8_int16_avx2, .Lfunc_end24-transpose_uint8_int16_avx2
-                                        # -- End function
-	.globl	transpose_int8_int16_avx2       # -- Begin function transpose_int8_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int16_avx2,@function
-transpose_int8_int16_avx2:              # @transpose_int8_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB25_1
-	.p2align	4, 0x90
-.LBB25_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB25_5
-.LBB25_1:
-	test	edx, edx
-	jle	.LBB25_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB25_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB25_3
-.LBB25_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end25:
-	.size	transpose_int8_int16_avx2, .Lfunc_end25-transpose_int8_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int16_avx2     # -- Begin function transpose_uint16_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int16_avx2,@function
-transpose_uint16_int16_avx2:            # @transpose_uint16_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB26_1
-	.p2align	4, 0x90
-.LBB26_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB26_5
-.LBB26_1:
-	test	edx, edx
-	jle	.LBB26_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB26_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB26_3
-.LBB26_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end26:
-	.size	transpose_uint16_int16_avx2, .Lfunc_end26-transpose_uint16_int16_avx2
-                                        # -- End function
-	.globl	transpose_int16_int16_avx2      # -- Begin function transpose_int16_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int16_avx2,@function
-transpose_int16_int16_avx2:             # @transpose_int16_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB27_1
-	.p2align	4, 0x90
-.LBB27_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB27_5
-.LBB27_1:
-	test	edx, edx
-	jle	.LBB27_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB27_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB27_3
-.LBB27_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end27:
-	.size	transpose_int16_int16_avx2, .Lfunc_end27-transpose_int16_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int16_avx2     # -- Begin function transpose_uint32_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int16_avx2,@function
-transpose_uint32_int16_avx2:            # @transpose_uint32_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB28_1
-	.p2align	4, 0x90
-.LBB28_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB28_5
-.LBB28_1:
-	test	edx, edx
-	jle	.LBB28_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB28_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB28_3
-.LBB28_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end28:
-	.size	transpose_uint32_int16_avx2, .Lfunc_end28-transpose_uint32_int16_avx2
-                                        # -- End function
-	.globl	transpose_int32_int16_avx2      # -- Begin function transpose_int32_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int16_avx2,@function
-transpose_int32_int16_avx2:             # @transpose_int32_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB29_1
-	.p2align	4, 0x90
-.LBB29_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB29_5
-.LBB29_1:
-	test	edx, edx
-	jle	.LBB29_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB29_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB29_3
-.LBB29_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end29:
-	.size	transpose_int32_int16_avx2, .Lfunc_end29-transpose_int32_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int16_avx2     # -- Begin function transpose_uint64_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int16_avx2,@function
-transpose_uint64_int16_avx2:            # @transpose_uint64_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB30_1
-	.p2align	4, 0x90
-.LBB30_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB30_5
-.LBB30_1:
-	test	edx, edx
-	jle	.LBB30_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB30_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB30_3
-.LBB30_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end30:
-	.size	transpose_uint64_int16_avx2, .Lfunc_end30-transpose_uint64_int16_avx2
-                                        # -- End function
-	.globl	transpose_int64_int16_avx2      # -- Begin function transpose_int64_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int16_avx2,@function
-transpose_int64_int16_avx2:             # @transpose_int64_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB31_1
-	.p2align	4, 0x90
-.LBB31_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB31_5
-.LBB31_1:
-	test	edx, edx
-	jle	.LBB31_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB31_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB31_3
-.LBB31_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end31:
-	.size	transpose_int64_int16_avx2, .Lfunc_end31-transpose_int64_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint32_avx2     # -- Begin function transpose_uint8_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint32_avx2,@function
-transpose_uint8_uint32_avx2:            # @transpose_uint8_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB32_1
-	.p2align	4, 0x90
-.LBB32_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB32_5
-.LBB32_1:
-	test	edx, edx
-	jle	.LBB32_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB32_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB32_3
-.LBB32_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end32:
-	.size	transpose_uint8_uint32_avx2, .Lfunc_end32-transpose_uint8_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint32_avx2      # -- Begin function transpose_int8_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint32_avx2,@function
-transpose_int8_uint32_avx2:             # @transpose_int8_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB33_1
-	.p2align	4, 0x90
-.LBB33_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB33_5
-.LBB33_1:
-	test	edx, edx
-	jle	.LBB33_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB33_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB33_3
-.LBB33_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end33:
-	.size	transpose_int8_uint32_avx2, .Lfunc_end33-transpose_int8_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint32_avx2    # -- Begin function transpose_uint16_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint32_avx2,@function
-transpose_uint16_uint32_avx2:           # @transpose_uint16_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB34_1
-	.p2align	4, 0x90
-.LBB34_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB34_5
-.LBB34_1:
-	test	edx, edx
-	jle	.LBB34_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB34_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB34_3
-.LBB34_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end34:
-	.size	transpose_uint16_uint32_avx2, .Lfunc_end34-transpose_uint16_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint32_avx2     # -- Begin function transpose_int16_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint32_avx2,@function
-transpose_int16_uint32_avx2:            # @transpose_int16_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB35_1
-	.p2align	4, 0x90
-.LBB35_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB35_5
-.LBB35_1:
-	test	edx, edx
-	jle	.LBB35_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB35_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB35_3
-.LBB35_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end35:
-	.size	transpose_int16_uint32_avx2, .Lfunc_end35-transpose_int16_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint32_avx2    # -- Begin function transpose_uint32_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint32_avx2,@function
-transpose_uint32_uint32_avx2:           # @transpose_uint32_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB36_1
-	.p2align	4, 0x90
-.LBB36_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB36_5
-.LBB36_1:
-	test	edx, edx
-	jle	.LBB36_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB36_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB36_3
-.LBB36_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end36:
-	.size	transpose_uint32_uint32_avx2, .Lfunc_end36-transpose_uint32_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint32_avx2     # -- Begin function transpose_int32_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint32_avx2,@function
-transpose_int32_uint32_avx2:            # @transpose_int32_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB37_1
-	.p2align	4, 0x90
-.LBB37_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB37_5
-.LBB37_1:
-	test	edx, edx
-	jle	.LBB37_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB37_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB37_3
-.LBB37_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end37:
-	.size	transpose_int32_uint32_avx2, .Lfunc_end37-transpose_int32_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint32_avx2    # -- Begin function transpose_uint64_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint32_avx2,@function
-transpose_uint64_uint32_avx2:           # @transpose_uint64_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB38_1
-	.p2align	4, 0x90
-.LBB38_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB38_5
-.LBB38_1:
-	test	edx, edx
-	jle	.LBB38_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB38_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB38_3
-.LBB38_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end38:
-	.size	transpose_uint64_uint32_avx2, .Lfunc_end38-transpose_uint64_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint32_avx2     # -- Begin function transpose_int64_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint32_avx2,@function
-transpose_int64_uint32_avx2:            # @transpose_int64_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB39_1
-	.p2align	4, 0x90
-.LBB39_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB39_5
-.LBB39_1:
-	test	edx, edx
-	jle	.LBB39_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB39_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB39_3
-.LBB39_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end39:
-	.size	transpose_int64_uint32_avx2, .Lfunc_end39-transpose_int64_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int32_avx2      # -- Begin function transpose_uint8_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int32_avx2,@function
-transpose_uint8_int32_avx2:             # @transpose_uint8_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB40_1
-	.p2align	4, 0x90
-.LBB40_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB40_5
-.LBB40_1:
-	test	edx, edx
-	jle	.LBB40_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB40_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB40_3
-.LBB40_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end40:
-	.size	transpose_uint8_int32_avx2, .Lfunc_end40-transpose_uint8_int32_avx2
-                                        # -- End function
-	.globl	transpose_int8_int32_avx2       # -- Begin function transpose_int8_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int32_avx2,@function
-transpose_int8_int32_avx2:              # @transpose_int8_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB41_1
-	.p2align	4, 0x90
-.LBB41_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB41_5
-.LBB41_1:
-	test	edx, edx
-	jle	.LBB41_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB41_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB41_3
-.LBB41_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end41:
-	.size	transpose_int8_int32_avx2, .Lfunc_end41-transpose_int8_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int32_avx2     # -- Begin function transpose_uint16_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int32_avx2,@function
-transpose_uint16_int32_avx2:            # @transpose_uint16_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB42_1
-	.p2align	4, 0x90
-.LBB42_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB42_5
-.LBB42_1:
-	test	edx, edx
-	jle	.LBB42_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB42_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB42_3
-.LBB42_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end42:
-	.size	transpose_uint16_int32_avx2, .Lfunc_end42-transpose_uint16_int32_avx2
-                                        # -- End function
-	.globl	transpose_int16_int32_avx2      # -- Begin function transpose_int16_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int32_avx2,@function
-transpose_int16_int32_avx2:             # @transpose_int16_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB43_1
-	.p2align	4, 0x90
-.LBB43_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB43_5
-.LBB43_1:
-	test	edx, edx
-	jle	.LBB43_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB43_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB43_3
-.LBB43_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end43:
-	.size	transpose_int16_int32_avx2, .Lfunc_end43-transpose_int16_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int32_avx2     # -- Begin function transpose_uint32_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int32_avx2,@function
-transpose_uint32_int32_avx2:            # @transpose_uint32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB44_1
-	.p2align	4, 0x90
-.LBB44_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB44_5
-.LBB44_1:
-	test	edx, edx
-	jle	.LBB44_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB44_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB44_3
-.LBB44_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end44:
-	.size	transpose_uint32_int32_avx2, .Lfunc_end44-transpose_uint32_int32_avx2
-                                        # -- End function
-	.globl	transpose_int32_int32_avx2      # -- Begin function transpose_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int32_avx2,@function
-transpose_int32_int32_avx2:             # @transpose_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB45_1
-	.p2align	4, 0x90
-.LBB45_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB45_5
-.LBB45_1:
-	test	edx, edx
-	jle	.LBB45_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB45_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB45_3
-.LBB45_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end45:
-	.size	transpose_int32_int32_avx2, .Lfunc_end45-transpose_int32_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int32_avx2     # -- Begin function transpose_uint64_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int32_avx2,@function
-transpose_uint64_int32_avx2:            # @transpose_uint64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB46_1
-	.p2align	4, 0x90
-.LBB46_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB46_5
-.LBB46_1:
-	test	edx, edx
-	jle	.LBB46_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB46_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB46_3
-.LBB46_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end46:
-	.size	transpose_uint64_int32_avx2, .Lfunc_end46-transpose_uint64_int32_avx2
-                                        # -- End function
-	.globl	transpose_int64_int32_avx2      # -- Begin function transpose_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int32_avx2,@function
-transpose_int64_int32_avx2:             # @transpose_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB47_1
-	.p2align	4, 0x90
-.LBB47_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB47_5
-.LBB47_1:
-	test	edx, edx
-	jle	.LBB47_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB47_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB47_3
-.LBB47_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end47:
-	.size	transpose_int64_int32_avx2, .Lfunc_end47-transpose_int64_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint64_avx2     # -- Begin function transpose_uint8_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint64_avx2,@function
-transpose_uint8_uint64_avx2:            # @transpose_uint8_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB48_1
-	.p2align	4, 0x90
-.LBB48_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB48_5
-.LBB48_1:
-	test	edx, edx
-	jle	.LBB48_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB48_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB48_3
-.LBB48_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end48:
-	.size	transpose_uint8_uint64_avx2, .Lfunc_end48-transpose_uint8_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint64_avx2      # -- Begin function transpose_int8_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint64_avx2,@function
-transpose_int8_uint64_avx2:             # @transpose_int8_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB49_1
-	.p2align	4, 0x90
-.LBB49_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB49_5
-.LBB49_1:
-	test	edx, edx
-	jle	.LBB49_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB49_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB49_3
-.LBB49_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end49:
-	.size	transpose_int8_uint64_avx2, .Lfunc_end49-transpose_int8_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint64_avx2    # -- Begin function transpose_uint16_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint64_avx2,@function
-transpose_uint16_uint64_avx2:           # @transpose_uint16_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB50_1
-	.p2align	4, 0x90
-.LBB50_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB50_5
-.LBB50_1:
-	test	edx, edx
-	jle	.LBB50_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB50_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB50_3
-.LBB50_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end50:
-	.size	transpose_uint16_uint64_avx2, .Lfunc_end50-transpose_uint16_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint64_avx2     # -- Begin function transpose_int16_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint64_avx2,@function
-transpose_int16_uint64_avx2:            # @transpose_int16_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB51_1
-	.p2align	4, 0x90
-.LBB51_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB51_5
-.LBB51_1:
-	test	edx, edx
-	jle	.LBB51_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB51_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB51_3
-.LBB51_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end51:
-	.size	transpose_int16_uint64_avx2, .Lfunc_end51-transpose_int16_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint64_avx2    # -- Begin function transpose_uint32_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint64_avx2,@function
-transpose_uint32_uint64_avx2:           # @transpose_uint32_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB52_1
-	.p2align	4, 0x90
-.LBB52_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB52_5
-.LBB52_1:
-	test	edx, edx
-	jle	.LBB52_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB52_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB52_3
-.LBB52_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end52:
-	.size	transpose_uint32_uint64_avx2, .Lfunc_end52-transpose_uint32_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint64_avx2     # -- Begin function transpose_int32_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint64_avx2,@function
-transpose_int32_uint64_avx2:            # @transpose_int32_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB53_1
-	.p2align	4, 0x90
-.LBB53_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB53_5
-.LBB53_1:
-	test	edx, edx
-	jle	.LBB53_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB53_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB53_3
-.LBB53_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end53:
-	.size	transpose_int32_uint64_avx2, .Lfunc_end53-transpose_int32_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint64_avx2    # -- Begin function transpose_uint64_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint64_avx2,@function
-transpose_uint64_uint64_avx2:           # @transpose_uint64_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB54_1
-	.p2align	4, 0x90
-.LBB54_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB54_5
-.LBB54_1:
-	test	edx, edx
-	jle	.LBB54_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB54_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB54_3
-.LBB54_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end54:
-	.size	transpose_uint64_uint64_avx2, .Lfunc_end54-transpose_uint64_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint64_avx2     # -- Begin function transpose_int64_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint64_avx2,@function
-transpose_int64_uint64_avx2:            # @transpose_int64_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB55_1
-	.p2align	4, 0x90
-.LBB55_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB55_5
-.LBB55_1:
-	test	edx, edx
-	jle	.LBB55_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB55_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB55_3
-.LBB55_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end55:
-	.size	transpose_int64_uint64_avx2, .Lfunc_end55-transpose_int64_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int64_avx2      # -- Begin function transpose_uint8_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int64_avx2,@function
-transpose_uint8_int64_avx2:             # @transpose_uint8_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB56_1
-	.p2align	4, 0x90
-.LBB56_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB56_5
-.LBB56_1:
-	test	edx, edx
-	jle	.LBB56_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB56_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB56_3
-.LBB56_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end56:
-	.size	transpose_uint8_int64_avx2, .Lfunc_end56-transpose_uint8_int64_avx2
-                                        # -- End function
-	.globl	transpose_int8_int64_avx2       # -- Begin function transpose_int8_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int64_avx2,@function
-transpose_int8_int64_avx2:              # @transpose_int8_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB57_1
-	.p2align	4, 0x90
-.LBB57_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB57_5
-.LBB57_1:
-	test	edx, edx
-	jle	.LBB57_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB57_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB57_3
-.LBB57_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end57:
-	.size	transpose_int8_int64_avx2, .Lfunc_end57-transpose_int8_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int64_avx2     # -- Begin function transpose_uint16_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int64_avx2,@function
-transpose_uint16_int64_avx2:            # @transpose_uint16_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB58_1
-	.p2align	4, 0x90
-.LBB58_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB58_5
-.LBB58_1:
-	test	edx, edx
-	jle	.LBB58_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB58_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB58_3
-.LBB58_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end58:
-	.size	transpose_uint16_int64_avx2, .Lfunc_end58-transpose_uint16_int64_avx2
-                                        # -- End function
-	.globl	transpose_int16_int64_avx2      # -- Begin function transpose_int16_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int64_avx2,@function
-transpose_int16_int64_avx2:             # @transpose_int16_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB59_1
-	.p2align	4, 0x90
-.LBB59_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB59_5
-.LBB59_1:
-	test	edx, edx
-	jle	.LBB59_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB59_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB59_3
-.LBB59_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end59:
-	.size	transpose_int16_int64_avx2, .Lfunc_end59-transpose_int16_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int64_avx2     # -- Begin function transpose_uint32_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int64_avx2,@function
-transpose_uint32_int64_avx2:            # @transpose_uint32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB60_1
-	.p2align	4, 0x90
-.LBB60_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB60_5
-.LBB60_1:
-	test	edx, edx
-	jle	.LBB60_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB60_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB60_3
-.LBB60_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end60:
-	.size	transpose_uint32_int64_avx2, .Lfunc_end60-transpose_uint32_int64_avx2
-                                        # -- End function
-	.globl	transpose_int32_int64_avx2      # -- Begin function transpose_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int64_avx2,@function
-transpose_int32_int64_avx2:             # @transpose_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB61_1
-	.p2align	4, 0x90
-.LBB61_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB61_5
-.LBB61_1:
-	test	edx, edx
-	jle	.LBB61_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB61_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB61_3
-.LBB61_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end61:
-	.size	transpose_int32_int64_avx2, .Lfunc_end61-transpose_int32_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int64_avx2     # -- Begin function transpose_uint64_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int64_avx2,@function
-transpose_uint64_int64_avx2:            # @transpose_uint64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB62_1
-	.p2align	4, 0x90
-.LBB62_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB62_5
-.LBB62_1:
-	test	edx, edx
-	jle	.LBB62_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB62_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB62_3
-.LBB62_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end62:
-	.size	transpose_uint64_int64_avx2, .Lfunc_end62-transpose_uint64_int64_avx2
-                                        # -- End function
-	.globl	transpose_int64_int64_avx2      # -- Begin function transpose_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int64_avx2,@function
-transpose_int64_int64_avx2:             # @transpose_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB63_1
-	.p2align	4, 0x90
-.LBB63_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB63_5
-.LBB63_1:
-	test	edx, edx
-	jle	.LBB63_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB63_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB63_3
-.LBB63_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end63:
-	.size	transpose_int64_int64_avx2, .Lfunc_end63-transpose_int64_int64_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.0.0-2~ubuntu20.04.1"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/transpose_ints_sse4_amd64.s b/go/internal/utils/_lib/transpose_ints_sse4_amd64.s
deleted file mode 100644
index c177d4478c948..0000000000000
--- a/go/internal/utils/_lib/transpose_ints_sse4_amd64.s
+++ /dev/null
@@ -1,3334 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"transpose_ints.c"
-	.globl	transpose_uint8_uint8_sse4      # -- Begin function transpose_uint8_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint8_sse4,@function
-transpose_uint8_uint8_sse4:             # @transpose_uint8_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB0_1
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB0_5
-.LBB0_1:
-	test	edx, edx
-	jle	.LBB0_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB0_3
-.LBB0_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	transpose_uint8_uint8_sse4, .Lfunc_end0-transpose_uint8_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint8_sse4       # -- Begin function transpose_int8_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint8_sse4,@function
-transpose_int8_uint8_sse4:              # @transpose_int8_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB1_1
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB1_5
-.LBB1_1:
-	test	edx, edx
-	jle	.LBB1_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB1_3
-.LBB1_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	transpose_int8_uint8_sse4, .Lfunc_end1-transpose_int8_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint8_sse4     # -- Begin function transpose_uint16_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint8_sse4,@function
-transpose_uint16_uint8_sse4:            # @transpose_uint16_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB2_1
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB2_5
-.LBB2_1:
-	test	edx, edx
-	jle	.LBB2_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB2_3
-.LBB2_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	transpose_uint16_uint8_sse4, .Lfunc_end2-transpose_uint16_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint8_sse4      # -- Begin function transpose_int16_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint8_sse4,@function
-transpose_int16_uint8_sse4:             # @transpose_int16_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB3_1
-	.p2align	4, 0x90
-.LBB3_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB3_5
-.LBB3_1:
-	test	edx, edx
-	jle	.LBB3_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB3_3
-.LBB3_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	transpose_int16_uint8_sse4, .Lfunc_end3-transpose_int16_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint8_sse4     # -- Begin function transpose_uint32_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint8_sse4,@function
-transpose_uint32_uint8_sse4:            # @transpose_uint32_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB4_1
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB4_5
-.LBB4_1:
-	test	edx, edx
-	jle	.LBB4_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB4_3:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB4_3
-.LBB4_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	transpose_uint32_uint8_sse4, .Lfunc_end4-transpose_uint32_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint8_sse4      # -- Begin function transpose_int32_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint8_sse4,@function
-transpose_int32_uint8_sse4:             # @transpose_int32_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB5_1
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB5_5
-.LBB5_1:
-	test	edx, edx
-	jle	.LBB5_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB5_3:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB5_3
-.LBB5_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	transpose_int32_uint8_sse4, .Lfunc_end5-transpose_int32_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint8_sse4     # -- Begin function transpose_uint64_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint8_sse4,@function
-transpose_uint64_uint8_sse4:            # @transpose_uint64_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB6_1
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB6_5
-.LBB6_1:
-	test	edx, edx
-	jle	.LBB6_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB6_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB6_3
-.LBB6_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	transpose_uint64_uint8_sse4, .Lfunc_end6-transpose_uint64_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint8_sse4      # -- Begin function transpose_int64_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint8_sse4,@function
-transpose_int64_uint8_sse4:             # @transpose_int64_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB7_1
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB7_5
-.LBB7_1:
-	test	edx, edx
-	jle	.LBB7_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB7_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB7_3
-.LBB7_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	transpose_int64_uint8_sse4, .Lfunc_end7-transpose_int64_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int8_sse4       # -- Begin function transpose_uint8_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int8_sse4,@function
-transpose_uint8_int8_sse4:              # @transpose_uint8_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB8_1
-	.p2align	4, 0x90
-.LBB8_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB8_5
-.LBB8_1:
-	test	edx, edx
-	jle	.LBB8_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB8_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB8_3
-.LBB8_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end8:
-	.size	transpose_uint8_int8_sse4, .Lfunc_end8-transpose_uint8_int8_sse4
-                                        # -- End function
-	.globl	transpose_int8_int8_sse4        # -- Begin function transpose_int8_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int8_sse4,@function
-transpose_int8_int8_sse4:               # @transpose_int8_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB9_1
-	.p2align	4, 0x90
-.LBB9_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB9_5
-.LBB9_1:
-	test	edx, edx
-	jle	.LBB9_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB9_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB9_3
-.LBB9_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	transpose_int8_int8_sse4, .Lfunc_end9-transpose_int8_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int8_sse4      # -- Begin function transpose_uint16_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int8_sse4,@function
-transpose_uint16_int8_sse4:             # @transpose_uint16_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB10_1
-	.p2align	4, 0x90
-.LBB10_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB10_5
-.LBB10_1:
-	test	edx, edx
-	jle	.LBB10_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB10_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB10_3
-.LBB10_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end10:
-	.size	transpose_uint16_int8_sse4, .Lfunc_end10-transpose_uint16_int8_sse4
-                                        # -- End function
-	.globl	transpose_int16_int8_sse4       # -- Begin function transpose_int16_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int8_sse4,@function
-transpose_int16_int8_sse4:              # @transpose_int16_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB11_1
-	.p2align	4, 0x90
-.LBB11_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB11_5
-.LBB11_1:
-	test	edx, edx
-	jle	.LBB11_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB11_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB11_3
-.LBB11_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end11:
-	.size	transpose_int16_int8_sse4, .Lfunc_end11-transpose_int16_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int8_sse4      # -- Begin function transpose_uint32_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int8_sse4,@function
-transpose_uint32_int8_sse4:             # @transpose_uint32_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB12_1
-	.p2align	4, 0x90
-.LBB12_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB12_5
-.LBB12_1:
-	test	edx, edx
-	jle	.LBB12_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB12_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB12_3
-.LBB12_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end12:
-	.size	transpose_uint32_int8_sse4, .Lfunc_end12-transpose_uint32_int8_sse4
-                                        # -- End function
-	.globl	transpose_int32_int8_sse4       # -- Begin function transpose_int32_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int8_sse4,@function
-transpose_int32_int8_sse4:              # @transpose_int32_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB13_1
-	.p2align	4, 0x90
-.LBB13_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB13_5
-.LBB13_1:
-	test	edx, edx
-	jle	.LBB13_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB13_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB13_3
-.LBB13_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end13:
-	.size	transpose_int32_int8_sse4, .Lfunc_end13-transpose_int32_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int8_sse4      # -- Begin function transpose_uint64_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int8_sse4,@function
-transpose_uint64_int8_sse4:             # @transpose_uint64_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB14_1
-	.p2align	4, 0x90
-.LBB14_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB14_5
-.LBB14_1:
-	test	edx, edx
-	jle	.LBB14_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB14_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB14_3
-.LBB14_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end14:
-	.size	transpose_uint64_int8_sse4, .Lfunc_end14-transpose_uint64_int8_sse4
-                                        # -- End function
-	.globl	transpose_int64_int8_sse4       # -- Begin function transpose_int64_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int8_sse4,@function
-transpose_int64_int8_sse4:              # @transpose_int64_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB15_1
-	.p2align	4, 0x90
-.LBB15_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB15_5
-.LBB15_1:
-	test	edx, edx
-	jle	.LBB15_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB15_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB15_3
-.LBB15_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end15:
-	.size	transpose_int64_int8_sse4, .Lfunc_end15-transpose_int64_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint16_sse4     # -- Begin function transpose_uint8_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint16_sse4,@function
-transpose_uint8_uint16_sse4:            # @transpose_uint8_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB16_1
-	.p2align	4, 0x90
-.LBB16_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB16_5
-.LBB16_1:
-	test	edx, edx
-	jle	.LBB16_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB16_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB16_3
-.LBB16_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end16:
-	.size	transpose_uint8_uint16_sse4, .Lfunc_end16-transpose_uint8_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint16_sse4      # -- Begin function transpose_int8_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint16_sse4,@function
-transpose_int8_uint16_sse4:             # @transpose_int8_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB17_1
-	.p2align	4, 0x90
-.LBB17_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB17_5
-.LBB17_1:
-	test	edx, edx
-	jle	.LBB17_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB17_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB17_3
-.LBB17_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end17:
-	.size	transpose_int8_uint16_sse4, .Lfunc_end17-transpose_int8_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint16_sse4    # -- Begin function transpose_uint16_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint16_sse4,@function
-transpose_uint16_uint16_sse4:           # @transpose_uint16_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB18_1
-	.p2align	4, 0x90
-.LBB18_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB18_5
-.LBB18_1:
-	test	edx, edx
-	jle	.LBB18_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB18_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB18_3
-.LBB18_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end18:
-	.size	transpose_uint16_uint16_sse4, .Lfunc_end18-transpose_uint16_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint16_sse4     # -- Begin function transpose_int16_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint16_sse4,@function
-transpose_int16_uint16_sse4:            # @transpose_int16_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB19_1
-	.p2align	4, 0x90
-.LBB19_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB19_5
-.LBB19_1:
-	test	edx, edx
-	jle	.LBB19_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB19_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB19_3
-.LBB19_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end19:
-	.size	transpose_int16_uint16_sse4, .Lfunc_end19-transpose_int16_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint16_sse4    # -- Begin function transpose_uint32_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint16_sse4,@function
-transpose_uint32_uint16_sse4:           # @transpose_uint32_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB20_1
-	.p2align	4, 0x90
-.LBB20_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB20_5
-.LBB20_1:
-	test	edx, edx
-	jle	.LBB20_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB20_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB20_3
-.LBB20_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end20:
-	.size	transpose_uint32_uint16_sse4, .Lfunc_end20-transpose_uint32_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint16_sse4     # -- Begin function transpose_int32_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint16_sse4,@function
-transpose_int32_uint16_sse4:            # @transpose_int32_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB21_1
-	.p2align	4, 0x90
-.LBB21_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB21_5
-.LBB21_1:
-	test	edx, edx
-	jle	.LBB21_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB21_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB21_3
-.LBB21_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end21:
-	.size	transpose_int32_uint16_sse4, .Lfunc_end21-transpose_int32_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint16_sse4    # -- Begin function transpose_uint64_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint16_sse4,@function
-transpose_uint64_uint16_sse4:           # @transpose_uint64_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB22_1
-	.p2align	4, 0x90
-.LBB22_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB22_5
-.LBB22_1:
-	test	edx, edx
-	jle	.LBB22_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB22_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB22_3
-.LBB22_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end22:
-	.size	transpose_uint64_uint16_sse4, .Lfunc_end22-transpose_uint64_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint16_sse4     # -- Begin function transpose_int64_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint16_sse4,@function
-transpose_int64_uint16_sse4:            # @transpose_int64_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB23_1
-	.p2align	4, 0x90
-.LBB23_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB23_5
-.LBB23_1:
-	test	edx, edx
-	jle	.LBB23_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB23_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB23_3
-.LBB23_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end23:
-	.size	transpose_int64_uint16_sse4, .Lfunc_end23-transpose_int64_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int16_sse4      # -- Begin function transpose_uint8_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int16_sse4,@function
-transpose_uint8_int16_sse4:             # @transpose_uint8_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB24_1
-	.p2align	4, 0x90
-.LBB24_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB24_5
-.LBB24_1:
-	test	edx, edx
-	jle	.LBB24_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB24_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB24_3
-.LBB24_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end24:
-	.size	transpose_uint8_int16_sse4, .Lfunc_end24-transpose_uint8_int16_sse4
-                                        # -- End function
-	.globl	transpose_int8_int16_sse4       # -- Begin function transpose_int8_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int16_sse4,@function
-transpose_int8_int16_sse4:              # @transpose_int8_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB25_1
-	.p2align	4, 0x90
-.LBB25_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB25_5
-.LBB25_1:
-	test	edx, edx
-	jle	.LBB25_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB25_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB25_3
-.LBB25_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end25:
-	.size	transpose_int8_int16_sse4, .Lfunc_end25-transpose_int8_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int16_sse4     # -- Begin function transpose_uint16_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int16_sse4,@function
-transpose_uint16_int16_sse4:            # @transpose_uint16_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB26_1
-	.p2align	4, 0x90
-.LBB26_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB26_5
-.LBB26_1:
-	test	edx, edx
-	jle	.LBB26_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB26_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB26_3
-.LBB26_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end26:
-	.size	transpose_uint16_int16_sse4, .Lfunc_end26-transpose_uint16_int16_sse4
-                                        # -- End function
-	.globl	transpose_int16_int16_sse4      # -- Begin function transpose_int16_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int16_sse4,@function
-transpose_int16_int16_sse4:             # @transpose_int16_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB27_1
-	.p2align	4, 0x90
-.LBB27_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB27_5
-.LBB27_1:
-	test	edx, edx
-	jle	.LBB27_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB27_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB27_3
-.LBB27_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end27:
-	.size	transpose_int16_int16_sse4, .Lfunc_end27-transpose_int16_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int16_sse4     # -- Begin function transpose_uint32_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int16_sse4,@function
-transpose_uint32_int16_sse4:            # @transpose_uint32_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB28_1
-	.p2align	4, 0x90
-.LBB28_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB28_5
-.LBB28_1:
-	test	edx, edx
-	jle	.LBB28_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB28_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB28_3
-.LBB28_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end28:
-	.size	transpose_uint32_int16_sse4, .Lfunc_end28-transpose_uint32_int16_sse4
-                                        # -- End function
-	.globl	transpose_int32_int16_sse4      # -- Begin function transpose_int32_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int16_sse4,@function
-transpose_int32_int16_sse4:             # @transpose_int32_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB29_1
-	.p2align	4, 0x90
-.LBB29_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB29_5
-.LBB29_1:
-	test	edx, edx
-	jle	.LBB29_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB29_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB29_3
-.LBB29_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end29:
-	.size	transpose_int32_int16_sse4, .Lfunc_end29-transpose_int32_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int16_sse4     # -- Begin function transpose_uint64_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int16_sse4,@function
-transpose_uint64_int16_sse4:            # @transpose_uint64_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB30_1
-	.p2align	4, 0x90
-.LBB30_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB30_5
-.LBB30_1:
-	test	edx, edx
-	jle	.LBB30_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB30_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB30_3
-.LBB30_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end30:
-	.size	transpose_uint64_int16_sse4, .Lfunc_end30-transpose_uint64_int16_sse4
-                                        # -- End function
-	.globl	transpose_int64_int16_sse4      # -- Begin function transpose_int64_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int16_sse4,@function
-transpose_int64_int16_sse4:             # @transpose_int64_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB31_1
-	.p2align	4, 0x90
-.LBB31_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB31_5
-.LBB31_1:
-	test	edx, edx
-	jle	.LBB31_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB31_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB31_3
-.LBB31_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end31:
-	.size	transpose_int64_int16_sse4, .Lfunc_end31-transpose_int64_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint32_sse4     # -- Begin function transpose_uint8_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint32_sse4,@function
-transpose_uint8_uint32_sse4:            # @transpose_uint8_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB32_1
-	.p2align	4, 0x90
-.LBB32_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB32_5
-.LBB32_1:
-	test	edx, edx
-	jle	.LBB32_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB32_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB32_3
-.LBB32_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end32:
-	.size	transpose_uint8_uint32_sse4, .Lfunc_end32-transpose_uint8_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint32_sse4      # -- Begin function transpose_int8_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint32_sse4,@function
-transpose_int8_uint32_sse4:             # @transpose_int8_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB33_1
-	.p2align	4, 0x90
-.LBB33_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB33_5
-.LBB33_1:
-	test	edx, edx
-	jle	.LBB33_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB33_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB33_3
-.LBB33_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end33:
-	.size	transpose_int8_uint32_sse4, .Lfunc_end33-transpose_int8_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint32_sse4    # -- Begin function transpose_uint16_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint32_sse4,@function
-transpose_uint16_uint32_sse4:           # @transpose_uint16_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB34_1
-	.p2align	4, 0x90
-.LBB34_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB34_5
-.LBB34_1:
-	test	edx, edx
-	jle	.LBB34_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB34_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB34_3
-.LBB34_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end34:
-	.size	transpose_uint16_uint32_sse4, .Lfunc_end34-transpose_uint16_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint32_sse4     # -- Begin function transpose_int16_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint32_sse4,@function
-transpose_int16_uint32_sse4:            # @transpose_int16_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB35_1
-	.p2align	4, 0x90
-.LBB35_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB35_5
-.LBB35_1:
-	test	edx, edx
-	jle	.LBB35_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB35_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB35_3
-.LBB35_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end35:
-	.size	transpose_int16_uint32_sse4, .Lfunc_end35-transpose_int16_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint32_sse4    # -- Begin function transpose_uint32_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint32_sse4,@function
-transpose_uint32_uint32_sse4:           # @transpose_uint32_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB36_1
-	.p2align	4, 0x90
-.LBB36_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB36_5
-.LBB36_1:
-	test	edx, edx
-	jle	.LBB36_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB36_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB36_3
-.LBB36_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end36:
-	.size	transpose_uint32_uint32_sse4, .Lfunc_end36-transpose_uint32_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint32_sse4     # -- Begin function transpose_int32_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint32_sse4,@function
-transpose_int32_uint32_sse4:            # @transpose_int32_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB37_1
-	.p2align	4, 0x90
-.LBB37_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB37_5
-.LBB37_1:
-	test	edx, edx
-	jle	.LBB37_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB37_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB37_3
-.LBB37_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end37:
-	.size	transpose_int32_uint32_sse4, .Lfunc_end37-transpose_int32_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint32_sse4    # -- Begin function transpose_uint64_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint32_sse4,@function
-transpose_uint64_uint32_sse4:           # @transpose_uint64_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB38_1
-	.p2align	4, 0x90
-.LBB38_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB38_5
-.LBB38_1:
-	test	edx, edx
-	jle	.LBB38_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB38_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB38_3
-.LBB38_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end38:
-	.size	transpose_uint64_uint32_sse4, .Lfunc_end38-transpose_uint64_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint32_sse4     # -- Begin function transpose_int64_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint32_sse4,@function
-transpose_int64_uint32_sse4:            # @transpose_int64_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB39_1
-	.p2align	4, 0x90
-.LBB39_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB39_5
-.LBB39_1:
-	test	edx, edx
-	jle	.LBB39_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB39_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB39_3
-.LBB39_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end39:
-	.size	transpose_int64_uint32_sse4, .Lfunc_end39-transpose_int64_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int32_sse4      # -- Begin function transpose_uint8_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int32_sse4,@function
-transpose_uint8_int32_sse4:             # @transpose_uint8_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB40_1
-	.p2align	4, 0x90
-.LBB40_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB40_5
-.LBB40_1:
-	test	edx, edx
-	jle	.LBB40_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB40_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB40_3
-.LBB40_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end40:
-	.size	transpose_uint8_int32_sse4, .Lfunc_end40-transpose_uint8_int32_sse4
-                                        # -- End function
-	.globl	transpose_int8_int32_sse4       # -- Begin function transpose_int8_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int32_sse4,@function
-transpose_int8_int32_sse4:              # @transpose_int8_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB41_1
-	.p2align	4, 0x90
-.LBB41_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB41_5
-.LBB41_1:
-	test	edx, edx
-	jle	.LBB41_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB41_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB41_3
-.LBB41_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end41:
-	.size	transpose_int8_int32_sse4, .Lfunc_end41-transpose_int8_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int32_sse4     # -- Begin function transpose_uint16_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int32_sse4,@function
-transpose_uint16_int32_sse4:            # @transpose_uint16_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB42_1
-	.p2align	4, 0x90
-.LBB42_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB42_5
-.LBB42_1:
-	test	edx, edx
-	jle	.LBB42_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB42_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB42_3
-.LBB42_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end42:
-	.size	transpose_uint16_int32_sse4, .Lfunc_end42-transpose_uint16_int32_sse4
-                                        # -- End function
-	.globl	transpose_int16_int32_sse4      # -- Begin function transpose_int16_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int32_sse4,@function
-transpose_int16_int32_sse4:             # @transpose_int16_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB43_1
-	.p2align	4, 0x90
-.LBB43_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB43_5
-.LBB43_1:
-	test	edx, edx
-	jle	.LBB43_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB43_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB43_3
-.LBB43_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end43:
-	.size	transpose_int16_int32_sse4, .Lfunc_end43-transpose_int16_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int32_sse4     # -- Begin function transpose_uint32_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int32_sse4,@function
-transpose_uint32_int32_sse4:            # @transpose_uint32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB44_1
-	.p2align	4, 0x90
-.LBB44_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB44_5
-.LBB44_1:
-	test	edx, edx
-	jle	.LBB44_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB44_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB44_3
-.LBB44_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end44:
-	.size	transpose_uint32_int32_sse4, .Lfunc_end44-transpose_uint32_int32_sse4
-                                        # -- End function
-	.globl	transpose_int32_int32_sse4      # -- Begin function transpose_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int32_sse4,@function
-transpose_int32_int32_sse4:             # @transpose_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB45_1
-	.p2align	4, 0x90
-.LBB45_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB45_5
-.LBB45_1:
-	test	edx, edx
-	jle	.LBB45_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB45_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB45_3
-.LBB45_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end45:
-	.size	transpose_int32_int32_sse4, .Lfunc_end45-transpose_int32_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int32_sse4     # -- Begin function transpose_uint64_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int32_sse4,@function
-transpose_uint64_int32_sse4:            # @transpose_uint64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB46_1
-	.p2align	4, 0x90
-.LBB46_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB46_5
-.LBB46_1:
-	test	edx, edx
-	jle	.LBB46_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB46_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB46_3
-.LBB46_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end46:
-	.size	transpose_uint64_int32_sse4, .Lfunc_end46-transpose_uint64_int32_sse4
-                                        # -- End function
-	.globl	transpose_int64_int32_sse4      # -- Begin function transpose_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int32_sse4,@function
-transpose_int64_int32_sse4:             # @transpose_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB47_1
-	.p2align	4, 0x90
-.LBB47_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB47_5
-.LBB47_1:
-	test	edx, edx
-	jle	.LBB47_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB47_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB47_3
-.LBB47_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end47:
-	.size	transpose_int64_int32_sse4, .Lfunc_end47-transpose_int64_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint64_sse4     # -- Begin function transpose_uint8_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint64_sse4,@function
-transpose_uint8_uint64_sse4:            # @transpose_uint8_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB48_1
-	.p2align	4, 0x90
-.LBB48_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB48_5
-.LBB48_1:
-	test	edx, edx
-	jle	.LBB48_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB48_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB48_3
-.LBB48_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end48:
-	.size	transpose_uint8_uint64_sse4, .Lfunc_end48-transpose_uint8_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint64_sse4      # -- Begin function transpose_int8_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint64_sse4,@function
-transpose_int8_uint64_sse4:             # @transpose_int8_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB49_1
-	.p2align	4, 0x90
-.LBB49_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB49_5
-.LBB49_1:
-	test	edx, edx
-	jle	.LBB49_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB49_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB49_3
-.LBB49_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end49:
-	.size	transpose_int8_uint64_sse4, .Lfunc_end49-transpose_int8_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint64_sse4    # -- Begin function transpose_uint16_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint64_sse4,@function
-transpose_uint16_uint64_sse4:           # @transpose_uint16_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB50_1
-	.p2align	4, 0x90
-.LBB50_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB50_5
-.LBB50_1:
-	test	edx, edx
-	jle	.LBB50_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB50_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB50_3
-.LBB50_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end50:
-	.size	transpose_uint16_uint64_sse4, .Lfunc_end50-transpose_uint16_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint64_sse4     # -- Begin function transpose_int16_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint64_sse4,@function
-transpose_int16_uint64_sse4:            # @transpose_int16_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB51_1
-	.p2align	4, 0x90
-.LBB51_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB51_5
-.LBB51_1:
-	test	edx, edx
-	jle	.LBB51_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB51_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB51_3
-.LBB51_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end51:
-	.size	transpose_int16_uint64_sse4, .Lfunc_end51-transpose_int16_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint64_sse4    # -- Begin function transpose_uint32_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint64_sse4,@function
-transpose_uint32_uint64_sse4:           # @transpose_uint32_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB52_1
-	.p2align	4, 0x90
-.LBB52_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB52_5
-.LBB52_1:
-	test	edx, edx
-	jle	.LBB52_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB52_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB52_3
-.LBB52_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end52:
-	.size	transpose_uint32_uint64_sse4, .Lfunc_end52-transpose_uint32_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint64_sse4     # -- Begin function transpose_int32_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint64_sse4,@function
-transpose_int32_uint64_sse4:            # @transpose_int32_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB53_1
-	.p2align	4, 0x90
-.LBB53_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB53_5
-.LBB53_1:
-	test	edx, edx
-	jle	.LBB53_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB53_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB53_3
-.LBB53_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end53:
-	.size	transpose_int32_uint64_sse4, .Lfunc_end53-transpose_int32_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint64_sse4    # -- Begin function transpose_uint64_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint64_sse4,@function
-transpose_uint64_uint64_sse4:           # @transpose_uint64_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB54_1
-	.p2align	4, 0x90
-.LBB54_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB54_5
-.LBB54_1:
-	test	edx, edx
-	jle	.LBB54_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB54_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB54_3
-.LBB54_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end54:
-	.size	transpose_uint64_uint64_sse4, .Lfunc_end54-transpose_uint64_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint64_sse4     # -- Begin function transpose_int64_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint64_sse4,@function
-transpose_int64_uint64_sse4:            # @transpose_int64_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB55_1
-	.p2align	4, 0x90
-.LBB55_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB55_5
-.LBB55_1:
-	test	edx, edx
-	jle	.LBB55_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB55_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB55_3
-.LBB55_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end55:
-	.size	transpose_int64_uint64_sse4, .Lfunc_end55-transpose_int64_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int64_sse4      # -- Begin function transpose_uint8_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int64_sse4,@function
-transpose_uint8_int64_sse4:             # @transpose_uint8_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB56_1
-	.p2align	4, 0x90
-.LBB56_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB56_5
-.LBB56_1:
-	test	edx, edx
-	jle	.LBB56_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB56_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB56_3
-.LBB56_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end56:
-	.size	transpose_uint8_int64_sse4, .Lfunc_end56-transpose_uint8_int64_sse4
-                                        # -- End function
-	.globl	transpose_int8_int64_sse4       # -- Begin function transpose_int8_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int64_sse4,@function
-transpose_int8_int64_sse4:              # @transpose_int8_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB57_1
-	.p2align	4, 0x90
-.LBB57_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB57_5
-.LBB57_1:
-	test	edx, edx
-	jle	.LBB57_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB57_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB57_3
-.LBB57_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end57:
-	.size	transpose_int8_int64_sse4, .Lfunc_end57-transpose_int8_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int64_sse4     # -- Begin function transpose_uint16_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int64_sse4,@function
-transpose_uint16_int64_sse4:            # @transpose_uint16_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB58_1
-	.p2align	4, 0x90
-.LBB58_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB58_5
-.LBB58_1:
-	test	edx, edx
-	jle	.LBB58_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB58_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB58_3
-.LBB58_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end58:
-	.size	transpose_uint16_int64_sse4, .Lfunc_end58-transpose_uint16_int64_sse4
-                                        # -- End function
-	.globl	transpose_int16_int64_sse4      # -- Begin function transpose_int16_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int64_sse4,@function
-transpose_int16_int64_sse4:             # @transpose_int16_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB59_1
-	.p2align	4, 0x90
-.LBB59_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB59_5
-.LBB59_1:
-	test	edx, edx
-	jle	.LBB59_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB59_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB59_3
-.LBB59_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end59:
-	.size	transpose_int16_int64_sse4, .Lfunc_end59-transpose_int16_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int64_sse4     # -- Begin function transpose_uint32_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int64_sse4,@function
-transpose_uint32_int64_sse4:            # @transpose_uint32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB60_1
-	.p2align	4, 0x90
-.LBB60_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB60_5
-.LBB60_1:
-	test	edx, edx
-	jle	.LBB60_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB60_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB60_3
-.LBB60_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end60:
-	.size	transpose_uint32_int64_sse4, .Lfunc_end60-transpose_uint32_int64_sse4
-                                        # -- End function
-	.globl	transpose_int32_int64_sse4      # -- Begin function transpose_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int64_sse4,@function
-transpose_int32_int64_sse4:             # @transpose_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB61_1
-	.p2align	4, 0x90
-.LBB61_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB61_5
-.LBB61_1:
-	test	edx, edx
-	jle	.LBB61_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB61_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB61_3
-.LBB61_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end61:
-	.size	transpose_int32_int64_sse4, .Lfunc_end61-transpose_int32_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int64_sse4     # -- Begin function transpose_uint64_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int64_sse4,@function
-transpose_uint64_int64_sse4:            # @transpose_uint64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB62_1
-	.p2align	4, 0x90
-.LBB62_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB62_5
-.LBB62_1:
-	test	edx, edx
-	jle	.LBB62_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB62_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB62_3
-.LBB62_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end62:
-	.size	transpose_uint64_int64_sse4, .Lfunc_end62-transpose_uint64_int64_sse4
-                                        # -- End function
-	.globl	transpose_int64_int64_sse4      # -- Begin function transpose_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int64_sse4,@function
-transpose_int64_int64_sse4:             # @transpose_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB63_1
-	.p2align	4, 0x90
-.LBB63_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB63_5
-.LBB63_1:
-	test	edx, edx
-	jle	.LBB63_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB63_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB63_3
-.LBB63_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end63:
-	.size	transpose_int64_int64_sse4, .Lfunc_end63-transpose_int64_int64_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.0.0-2~ubuntu20.04.1"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/buf_reader.go b/go/internal/utils/buf_reader.go
deleted file mode 100644
index 0b2381da1ceb6..0000000000000
--- a/go/internal/utils/buf_reader.go
+++ /dev/null
@@ -1,212 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"bufio"
-	"errors"
-	"fmt"
-	"io"
-)
-
-// bufferedReader is similar to bufio.Reader except
-// it will expand the buffer if necessary when asked to Peek
-// more bytes than are in the buffer
-type bufferedReader struct {
-	bufferSz int
-	buf      []byte
-	r, w     int
-	rd       io.Reader
-	err      error
-}
-
-// NewBufferedReader returns a buffered reader with similar semantics to bufio.Reader
-// except Peek will expand the internal buffer if needed rather than return
-// an error.
-func NewBufferedReader(rd io.Reader, sz int) *bufferedReader {
-	// if rd is already a buffered reader whose buffer is >= the requested size
-	// then just return it as is. no need to make a new object.
-	b, ok := rd.(*bufferedReader)
-	if ok && len(b.buf) >= sz {
-		return b
-	}
-
-	r := &bufferedReader{
-		rd: rd,
-	}
-	r.resizeBuffer(sz)
-	return r
-}
-
-func (b *bufferedReader) resetBuffer() {
-	if b.buf == nil {
-		b.buf = make([]byte, b.bufferSz)
-	} else if b.bufferSz > cap(b.buf) {
-		buf := b.buf
-		b.buf = make([]byte, b.bufferSz)
-		copy(b.buf, buf)
-	} else {
-		b.buf = b.buf[:b.bufferSz]
-	}
-}
-
-func (b *bufferedReader) resizeBuffer(newSize int) {
-	b.bufferSz = newSize
-	b.resetBuffer()
-}
-
-func (b *bufferedReader) fill() error {
-	// slide existing data to the beginning
-	if b.r > 0 {
-		copy(b.buf, b.buf[b.r:b.w])
-		b.w -= b.r
-		b.r = 0
-	}
-
-	if b.w >= len(b.buf) {
-		return fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrBufferFull)
-	}
-
-	n, err := io.ReadAtLeast(b.rd, b.buf[b.w:], 1)
-	if n < 0 {
-		return fmt.Errorf("arrow/bufferedreader: filling buffer: %w", bufio.ErrNegativeCount)
-	}
-
-	b.w += n
-	b.err = err
-	return nil
-}
-
-func (b *bufferedReader) readErr() error {
-	err := b.err
-	b.err = nil
-	return err
-}
-
-// Buffered returns the number of bytes currently buffered
-func (b *bufferedReader) Buffered() int { return b.w - b.r }
-
-// SetBufferSize resets the size of the internal buffer to the desired size.
-// Will return an error if newSize is <= 0 or if newSize is less than the size
-// of the buffered data.
-func (b *bufferedReader) SetBufferSize(newSize int) error {
-	if newSize <= 0 {
-		return errors.New("buffer size should be positive")
-	}
-
-	if b.w >= newSize {
-		return errors.New("cannot shrink read buffer if buffered data remains")
-	}
-
-	b.resizeBuffer(newSize)
-	return nil
-}
-
-// Peek will buffer and return n bytes from the underlying reader without advancing
-// the reader itself. If n is larger than the current buffer size, the buffer will
-// be expanded to accommodate the extra bytes rather than error.
-func (b *bufferedReader) Peek(n int) ([]byte, error) {
-	if n < 0 {
-		return nil, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-	}
-
-	if n > len(b.buf) {
-		if err := b.SetBufferSize(n); err != nil {
-			return nil, err
-		}
-	}
-
-	for b.w-b.r < n && b.w-b.r < len(b.buf) && b.err == nil {
-		b.fill() // b.w-b.r < len(b.buf) => buffer is not full
-	}
-
-	return b.buf[b.r : b.r+n], b.readErr()
-}
-
-// Discard skips the next n bytes either by advancing the internal buffer
-// or by reading that many bytes in and throwing them away.
-func (b *bufferedReader) Discard(n int) (discarded int, err error) {
-	if n < 0 {
-		return 0, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-	}
-
-	if n == 0 {
-		return
-	}
-
-	remain := n
-	for {
-		skip := b.Buffered()
-		if skip == 0 {
-			b.fill()
-			skip = b.Buffered()
-		}
-		if skip > remain {
-			skip = remain
-		}
-		b.r += skip
-		remain -= skip
-		if remain == 0 {
-			return n, nil
-		}
-		if b.err != nil {
-			return n - remain, b.readErr()
-		}
-	}
-}
-
-func (b *bufferedReader) Read(p []byte) (n int, err error) {
-	n = len(p)
-	if n == 0 {
-		if b.Buffered() > 0 {
-			return 0, nil
-		}
-		return 0, b.readErr()
-	}
-
-	if b.r == b.w {
-		if b.err != nil {
-			return 0, b.readErr()
-		}
-		if len(p) >= len(b.buf) {
-			// large read, empty buffer
-			// read directly into p to avoid extra copy
-			n, b.err = b.rd.Read(p)
-			if n < 0 {
-				return n, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-			}
-			return n, b.readErr()
-		}
-
-		// one read
-		// don't use b.fill
-		b.r, b.w = 0, 0
-		n, b.err = b.rd.Read(b.buf)
-		if n < 0 {
-			return n, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-		}
-		if n == 0 {
-			return 0, b.readErr()
-		}
-		b.w += n
-	}
-
-	// copy as much as we can
-	n = copy(p, b.buf[b.r:b.w])
-	b.r += n
-	return n, nil
-}
diff --git a/go/internal/utils/endians_default.go b/go/internal/utils/endians_default.go
deleted file mode 100644
index 5fd257f52e287..0000000000000
--- a/go/internal/utils/endians_default.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-
-package utils
-
-var (
-	ToLEInt16   = func(x int16) int16 { return x }
-	ToLEUint16  = func(x uint16) uint16 { return x }
-	ToLEUint32  = func(x uint32) uint32 { return x }
-	ToLEUint64  = func(x uint64) uint64 { return x }
-	ToLEInt32   = func(x int32) int32 { return x }
-	ToLEInt64   = func(x int64) int64 { return x }
-	ToLEFloat32 = func(x float32) float32 { return x }
-	ToLEFloat64 = func(x float64) float64 { return x }
-)
diff --git a/go/internal/utils/endians_s390x.go b/go/internal/utils/endians_s390x.go
deleted file mode 100644
index 7bb27cd810537..0000000000000
--- a/go/internal/utils/endians_s390x.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-	"math/bits"
-)
-
-var (
-	ToLEInt16   = func(x int16) int16 { return int16(bits.ReverseBytes16(uint16(x))) }
-	ToLEUint16  = bits.ReverseBytes16
-	ToLEUint32  = bits.ReverseBytes32
-	ToLEUint64  = bits.ReverseBytes64
-	ToLEInt32   = func(x int32) int32 { return int32(bits.ReverseBytes32(uint32(x))) }
-	ToLEInt64   = func(x int64) int64 { return int64(bits.ReverseBytes64(uint64(x))) }
-	ToLEFloat32 = func(x float32) float32 { return math.Float32frombits(bits.ReverseBytes32(math.Float32bits(x))) }
-	ToLEFloat64 = func(x float64) float64 { return math.Float64frombits(bits.ReverseBytes64(math.Float64bits(x))) }
-)
diff --git a/go/internal/utils/math.go b/go/internal/utils/math.go
deleted file mode 100644
index c8311750e3a4c..0000000000000
--- a/go/internal/utils/math.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "golang.org/x/exp/constraints"
-
-func Min[T constraints.Ordered](a, b T) T {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func Max[T constraints.Ordered](a, b T) T {
-	if a > b {
-		return a
-	}
-	return b
-}
diff --git a/go/internal/utils/min_max.go b/go/internal/utils/min_max.go
deleted file mode 100644
index 3d7b0024a66ca..0000000000000
--- a/go/internal/utils/min_max.go
+++ /dev/null
@@ -1,212 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-)
-
-// this file contains pure go implementations of the min_max functions that are
-// SIMD accelerated so that we can fallback to these if the cpu doesn't support
-// AVX2 or SSE4 instructions.
-
-func int8MinMax(values []int8) (min, max int8) {
-	min = math.MaxInt8
-	max = math.MinInt8
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint8MinMax(values []uint8) (min, max uint8) {
-	min = math.MaxUint8
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int16MinMax(values []int16) (min, max int16) {
-	min = math.MaxInt16
-	max = math.MinInt16
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint16MinMax(values []uint16) (min, max uint16) {
-	min = math.MaxUint16
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int32MinMax(values []int32) (min, max int32) {
-	min = math.MaxInt32
-	max = math.MinInt32
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint32MinMax(values []uint32) (min, max uint32) {
-	min = math.MaxUint32
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int64MinMax(values []int64) (min, max int64) {
-	min = math.MaxInt64
-	max = math.MinInt64
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint64MinMax(values []uint64) (min, max uint64) {
-	min = math.MaxUint64
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-var minmaxFuncs = struct {
-	i8   func([]int8) (int8, int8)
-	ui8  func([]uint8) (uint8, uint8)
-	i16  func([]int16) (int16, int16)
-	ui16 func([]uint16) (uint16, uint16)
-	i32  func([]int32) (int32, int32)
-	ui32 func([]uint32) (uint32, uint32)
-	i64  func([]int64) (int64, int64)
-	ui64 func([]uint64) (uint64, uint64)
-}{}
-
-// GetMinMaxInt8 returns the min and max for a int8 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt8(v []int8) (min, max int8) {
-	return minmaxFuncs.i8(v)
-}
-
-// GetMinMaxUint8 returns the min and max for a uint8 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint8(v []uint8) (min, max uint8) {
-	return minmaxFuncs.ui8(v)
-}
-
-// GetMinMaxInt16 returns the min and max for a int16 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt16(v []int16) (min, max int16) {
-	return minmaxFuncs.i16(v)
-}
-
-// GetMinMaxUint16 returns the min and max for a uint16 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint16(v []uint16) (min, max uint16) {
-	return minmaxFuncs.ui16(v)
-}
-
-// GetMinMaxInt32 returns the min and max for a int32 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt32(v []int32) (min, max int32) {
-	return minmaxFuncs.i32(v)
-}
-
-// GetMinMaxUint32 returns the min and max for a uint32 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint32(v []uint32) (min, max uint32) {
-	return minmaxFuncs.ui32(v)
-}
-
-// GetMinMaxInt64 returns the min and max for a int64 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt64(v []int64) (min, max int64) {
-	return minmaxFuncs.i64(v)
-}
-
-// GetMinMaxUint64 returns the min and max for a uint64 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint64(v []uint64) (min, max uint64) {
-	return minmaxFuncs.ui64(v)
-}
diff --git a/go/internal/utils/min_max_amd64.go b/go/internal/utils/min_max_amd64.go
deleted file mode 100644
index 5fccddbee2952..0000000000000
--- a/go/internal/utils/min_max_amd64.go
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "golang.org/x/sys/cpu"
-
-func init() {
-	// if the CPU supports AVX2 or SSE4 then let's use those to benefit from SIMD
-	// to accelerate the performance for finding the min and max for an integral slice.
-	// otherwise fallback to a pure go implementation if the cpu doesn't have these features.
-	if cpu.X86.HasAVX2 {
-		minmaxFuncs.i8 = int8MaxMinAVX2
-		minmaxFuncs.ui8 = uint8MaxMinAVX2
-		minmaxFuncs.i16 = int16MaxMinAVX2
-		minmaxFuncs.ui16 = uint16MaxMinAVX2
-		minmaxFuncs.i32 = int32MaxMinAVX2
-		minmaxFuncs.ui32 = uint32MaxMinAVX2
-		minmaxFuncs.i64 = int64MaxMinAVX2
-		minmaxFuncs.ui64 = uint64MaxMinAVX2
-	} else if cpu.X86.HasSSE42 {
-		minmaxFuncs.i8 = int8MaxMinSSE4
-		minmaxFuncs.ui8 = uint8MaxMinSSE4
-		minmaxFuncs.i16 = int16MaxMinSSE4
-		minmaxFuncs.ui16 = uint16MaxMinSSE4
-		minmaxFuncs.i32 = int32MaxMinSSE4
-		minmaxFuncs.ui32 = uint32MaxMinSSE4
-		minmaxFuncs.i64 = int64MaxMinSSE4
-		minmaxFuncs.ui64 = uint64MaxMinSSE4
-	} else {
-		minmaxFuncs.i8 = int8MinMax
-		minmaxFuncs.ui8 = uint8MinMax
-		minmaxFuncs.i16 = int16MinMax
-		minmaxFuncs.ui16 = uint16MinMax
-		minmaxFuncs.i32 = int32MinMax
-		minmaxFuncs.ui32 = uint32MinMax
-		minmaxFuncs.i64 = int64MinMax
-		minmaxFuncs.ui64 = uint64MinMax
-	}
-}
diff --git a/go/internal/utils/min_max_arm64.go b/go/internal/utils/min_max_arm64.go
deleted file mode 100644
index d02849665df56..0000000000000
--- a/go/internal/utils/min_max_arm64.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"os"
-	"strings"
-
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		exts := strings.Split(ext, ",")
-
-		for _, x := range exts {
-			switch x {
-			case "NEON":
-				cpu.ARM64.HasASIMD = true
-			case "AES":
-				cpu.ARM64.HasAES = true
-			case "PMULL":
-				cpu.ARM64.HasPMULL = true
-			default:
-				cpu.ARM64.HasASIMD = false
-				cpu.ARM64.HasAES = false
-				cpu.ARM64.HasPMULL = false
-			}
-		}
-	}
-	if cpu.ARM64.HasASIMD {
-		minmaxFuncs.i32 = int32MaxMinNEON
-		minmaxFuncs.ui32 = uint32MaxMinNEON
-		minmaxFuncs.i64 = int64MaxMinNEON
-		minmaxFuncs.ui64 = uint64MaxMinNEON
-	} else {
-		minmaxFuncs.i32 = int32MinMax
-		minmaxFuncs.ui32 = uint32MinMax
-		minmaxFuncs.i64 = int64MinMax
-		minmaxFuncs.ui64 = uint64MinMax
-	}
-
-	// haven't yet generated the NEON arm64 for these
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-}
diff --git a/go/internal/utils/min_max_avx2_amd64.go b/go/internal/utils/min_max_avx2_amd64.go
deleted file mode 100644
index af6726243da2b..0000000000000
--- a/go/internal/utils/min_max_avx2_amd64.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-// This file contains convenience functions for utilizing AVX2 intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int8_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int8MaxMinAVX2(values []int8) (min, max int8) {
-	_int8_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint8_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint8MaxMinAVX2(values []uint8) (min, max uint8) {
-	_uint8_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int16_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int16MaxMinAVX2(values []int16) (min, max int16) {
-	_int16_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint16_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint16MaxMinAVX2(values []uint16) (min, max uint16) {
-	_uint16_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int32_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinAVX2(values []int32) (min, max int32) {
-	_int32_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinAVX2(values []uint32) (min, max uint32) {
-	_uint32_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinAVX2(values []int64) (min, max int64) {
-	_int64_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinAVX2(values []uint64) (min, max uint64) {
-	_uint64_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_avx2_amd64.s b/go/internal/utils/min_max_avx2_amd64.s
deleted file mode 100644
index fe0c36e0e1659..0000000000000
--- a/go/internal/utils/min_max_avx2_amd64.s
+++ /dev/null
@@ -1,927 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x008(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x010(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x018(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x020(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x028(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x030(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x038(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x040(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x048(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x050(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x058(SB)/8, $0x8080808080808080
-GLOBL LCDATA1<>(SB), 8, $96
-
-TEXT ·_int8_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x3f // cmp    esi, 63
-	JA   LBB0_4
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_11
-
-LBB0_1:
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	JMP  LBB0_12
-
-LBB0_4:
-	WORD $0x8945; BYTE $0xca     // mov    r10d, r9d
-	LONG $0xc0e28341             // and    r10d, -64
-	LONG $0xc0428d49             // lea    rax, [r10 - 64]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x06e8c149             // shr    r8, 6
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_5
-	WORD $0x894c; BYTE $0xc6     // mov    rsi, r8
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-
-LBB0_7:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x746ffec5; WORD $0x4007 // vmovdqu    ymm6, yword [rdi + rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6007 // vmovdqu    ymm7, yword [rdi + rax + 96]
-	LONG $0x387de2c4; BYTE $0xc4   // vpminsb    ymm0, ymm0, ymm4
-	LONG $0x386de2c4; BYTE $0xd5   // vpminsb    ymm2, ymm2, ymm5
-	LONG $0x3c75e2c4; BYTE $0xcc   // vpmaxsb    ymm1, ymm1, ymm4
-	LONG $0x3c65e2c4; BYTE $0xdd   // vpmaxsb    ymm3, ymm3, ymm5
-	LONG $0x387de2c4; BYTE $0xc6   // vpminsb    ymm0, ymm0, ymm6
-	LONG $0x386de2c4; BYTE $0xd7   // vpminsb    ymm2, ymm2, ymm7
-	LONG $0x3c75e2c4; BYTE $0xce   // vpmaxsb    ymm1, ymm1, ymm6
-	LONG $0x3c65e2c4; BYTE $0xdf   // vpmaxsb    ymm3, ymm3, ymm7
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB0_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_10
-
-LBB0_9:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x3c65e2c4; BYTE $0xdd   // vpmaxsb    ymm3, ymm3, ymm5
-	LONG $0x3c75e2c4; BYTE $0xcc   // vpmaxsb    ymm1, ymm1, ymm4
-	LONG $0x386de2c4; BYTE $0xd5   // vpminsb    ymm2, ymm2, ymm5
-	LONG $0x387de2c4; BYTE $0xc4   // vpminsb    ymm0, ymm0, ymm4
-
-LBB0_10:
-	LONG $0x3c75e2c4; BYTE $0xcb   // vpmaxsb    ymm1, ymm1, ymm3
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0x3c71e2c4; BYTE $0xcb   // vpmaxsb    xmm1, xmm1, xmm3
-	LONG $0x4deff1c5; BYTE $0x40   // vpxor    xmm1, xmm1, oword 64[rbp] /* [rip + .LCPI0_2] */
-	LONG $0x387de2c4; BYTE $0xc2   // vpminsb    ymm0, ymm0, ymm2
-	LONG $0xd171e9c5; BYTE $0x08   // vpsrlw    xmm2, xmm1, 8
-	LONG $0xcadaf1c5               // vpminub    xmm1, xmm1, xmm2
-	LONG $0x4179e2c4; BYTE $0xc9   // vphminposuw    xmm1, xmm1
-	LONG $0x7e79c1c4; BYTE $0xc8   // vmovd    r8d, xmm1
-	LONG $0x7ff08041               // xor    r8b, 127
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3879e2c4; BYTE $0xc1   // vpminsb    xmm0, xmm0, xmm1
-	LONG $0x45eff9c5; BYTE $0x50   // vpxor    xmm0, xmm0, oword 80[rbp] /* [rip + .LCPI0_3] */
-	LONG $0xd071f1c5; BYTE $0x08   // vpsrlw    xmm1, xmm0, 8
-	LONG $0xc1daf9c5               // vpminub    xmm0, xmm0, xmm1
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	LONG $0x80f68040               // xor    sil, -128
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB0_12
-
-LBB0_11:
-	LONG $0x04b60f42; BYTE $0x17 // movzx    eax, byte [rdi + r10]
-	WORD $0x3840; BYTE $0xc6     // cmp    sil, al
-	LONG $0xf6b60f40             // movzx    esi, sil
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	WORD $0x3841; BYTE $0xc0     // cmp    r8b, al
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB0_11
-
-LBB0_12:
-	WORD $0x8844; BYTE $0x01 // mov    byte [rcx], r8b
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	VZEROUPPER
-	RET
-
-LBB0_5:
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-TEXT ·_uint8_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x3f // cmp    esi, 63
-	JA   LBB1_4
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_11
-
-LBB1_1:
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_12
-
-LBB1_4:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xc0e28341         // and    r10d, -64
-	LONG $0xc0428d49         // lea    rax, [r10 - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_5
-	WORD $0x894c; BYTE $0xc6 // mov    rsi, r8
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5         // vpxor    xmm3, xmm3, xmm3
-
-LBB1_7:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x746ffec5; WORD $0x4007 // vmovdqu    ymm6, yword [rdi + rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6007 // vmovdqu    ymm7, yword [rdi + rax + 96]
-	LONG $0xccdaf5c5               // vpminub    ymm1, ymm1, ymm4
-	LONG $0xd5daedc5               // vpminub    ymm2, ymm2, ymm5
-	LONG $0xc4defdc5               // vpmaxub    ymm0, ymm0, ymm4
-	LONG $0xdddee5c5               // vpmaxub    ymm3, ymm3, ymm5
-	LONG $0xcedaf5c5               // vpminub    ymm1, ymm1, ymm6
-	LONG $0xd7daedc5               // vpminub    ymm2, ymm2, ymm7
-	LONG $0xc6defdc5               // vpmaxub    ymm0, ymm0, ymm6
-	LONG $0xdfdee5c5               // vpmaxub    ymm3, ymm3, ymm7
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB1_10
-
-LBB1_9:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0xdddee5c5               // vpmaxub    ymm3, ymm3, ymm5
-	LONG $0xc4defdc5               // vpmaxub    ymm0, ymm0, ymm4
-	LONG $0xd5daedc5               // vpminub    ymm2, ymm2, ymm5
-	LONG $0xccdaf5c5               // vpminub    ymm1, ymm1, ymm4
-
-LBB1_10:
-	LONG $0xcadaf5c5               // vpminub    ymm1, ymm1, ymm2
-	LONG $0xc3defdc5               // vpmaxub    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c2 // vextracti128    xmm2, ymm0, 1
-	LONG $0xc2def9c5               // vpmaxub    xmm0, xmm0, xmm2
-	LONG $0xd276e9c5               // vpcmpeqd    xmm2, xmm2, xmm2
-	LONG $0xc2eff9c5               // vpxor    xmm0, xmm0, xmm2
-	LONG $0xd071e9c5; BYTE $0x08   // vpsrlw    xmm2, xmm0, 8
-	LONG $0xc2daf9c5               // vpminub    xmm0, xmm0, xmm2
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0xd0f6                   // not    al
-	LONG $0x397de3c4; WORD $0x01c8 // vextracti128    xmm0, ymm1, 1
-	LONG $0xc0daf1c5               // vpminub    xmm0, xmm1, xmm0
-	LONG $0xd071f1c5; BYTE $0x08   // vpsrlw    xmm1, xmm0, 8
-	LONG $0xc1daf9c5               // vpminub    xmm0, xmm0, xmm1
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB1_12
-
-LBB1_11:
-	LONG $0x04b60f46; BYTE $0x17 // movzx    r8d, byte [rdi + r10]
-	WORD $0x3844; BYTE $0xc6     // cmp    sil, r8b
-	LONG $0xf6b60f40             // movzx    esi, sil
-	LONG $0xf0430f41             // cmovae    esi, r8d
-	WORD $0x3844; BYTE $0xc0     // cmp    al, r8b
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc0460f41             // cmovbe    eax, r8d
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB1_11
-
-LBB1_12:
-	WORD $0x0188             // mov    byte [rcx], al
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	VZEROUPPER
-	RET
-
-LBB1_5:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5 // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd276edc5 // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5 // vpxor    xmm3, xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB1_9
-	JMP  LBB1_10
-
-DATA LCDATA2<>+0x000(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x008(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x010(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x018(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x020(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x028(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x030(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x038(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x040(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x048(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x050(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x058(SB)/8, $0x8000800080008000
-GLOBL LCDATA2<>(SB), 8, $96
-
-TEXT ·_int16_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB2_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB2_4
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	LONG $0x7fffbe66             // mov    si, 32767
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	JMP  LBB2_11
-
-LBB2_1:
-	LONG $0x7fffbe66             // mov    si, 32767
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	JMP  LBB2_12
-
-LBB2_4:
-	WORD $0x8945; BYTE $0xca     // mov    r10d, r9d
-	LONG $0xe0e28341             // and    r10d, -32
-	LONG $0xe0428d49             // lea    rax, [r10 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_5
-	WORD $0x894c; BYTE $0xc6     // mov    rsi, r8
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-
-LBB2_7:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x746ffec5; WORD $0x4047 // vmovdqu    ymm6, yword [rdi + 2*rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6047 // vmovdqu    ymm7, yword [rdi + 2*rax + 96]
-	LONG $0xc4eafdc5               // vpminsw    ymm0, ymm0, ymm4
-	LONG $0xd5eaedc5               // vpminsw    ymm2, ymm2, ymm5
-	LONG $0xcceef5c5               // vpmaxsw    ymm1, ymm1, ymm4
-	LONG $0xddeee5c5               // vpmaxsw    ymm3, ymm3, ymm5
-	LONG $0xc6eafdc5               // vpminsw    ymm0, ymm0, ymm6
-	LONG $0xd7eaedc5               // vpminsw    ymm2, ymm2, ymm7
-	LONG $0xceeef5c5               // vpmaxsw    ymm1, ymm1, ymm6
-	LONG $0xdfeee5c5               // vpmaxsw    ymm3, ymm3, ymm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB2_10
-
-LBB2_9:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0xddeee5c5               // vpmaxsw    ymm3, ymm3, ymm5
-	LONG $0xcceef5c5               // vpmaxsw    ymm1, ymm1, ymm4
-	LONG $0xd5eaedc5               // vpminsw    ymm2, ymm2, ymm5
-	LONG $0xc4eafdc5               // vpminsw    ymm0, ymm0, ymm4
-
-LBB2_10:
-	LONG $0xcbeef5c5                           // vpmaxsw    ymm1, ymm1, ymm3
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xcbeef1c5                           // vpmaxsw    xmm1, xmm1, xmm3
-	LONG $0x4deff1c5; BYTE $0x40               // vpxor    xmm1, xmm1, oword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xc2eafdc5                           // vpminsw    ymm0, ymm0, ymm2
-	LONG $0x4179e2c4; BYTE $0xc9               // vphminposuw    xmm1, xmm1
-	LONG $0x7e79c1c4; BYTE $0xc8               // vmovd    r8d, xmm1
-	LONG $0xfff08141; WORD $0x007f; BYTE $0x00 // xor    r8d, 32767
-	LONG $0x397de3c4; WORD $0x01c1             // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1eaf9c5                           // vpminsw    xmm0, xmm0, xmm1
-	LONG $0x45eff9c5; BYTE $0x50               // vpxor    xmm0, xmm0, oword 80[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x4179e2c4; BYTE $0xc0               // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5                           // vmovd    esi, xmm0
-	LONG $0x8000f681; WORD $0x0000             // xor    esi, 32768
-	WORD $0x394d; BYTE $0xca                   // cmp    r10, r9
-	JE   LBB2_12
-
-LBB2_11:
-	LONG $0x04b70f42; BYTE $0x57 // movzx    eax, word [rdi + 2*r10]
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB2_11
-
-LBB2_12:
-	LONG $0x01894466         // mov    word [rcx], r8w
-	WORD $0x8966; BYTE $0x32 // mov    word [rdx], si
-	VZEROUPPER
-	RET
-
-LBB2_5:
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB2_9
-	JMP  LBB2_10
-
-TEXT ·_uint16_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB3_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB3_4
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_11
-
-LBB3_1:
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_12
-
-LBB3_4:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xe0e28341         // and    r10d, -32
-	LONG $0xe0428d49         // lea    rax, [r10 - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_5
-	WORD $0x894c; BYTE $0xc6 // mov    rsi, r8
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5         // vpxor    xmm3, xmm3, xmm3
-
-LBB3_7:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x746ffec5; WORD $0x4047 // vmovdqu    ymm6, yword [rdi + 2*rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6047 // vmovdqu    ymm7, yword [rdi + 2*rax + 96]
-	LONG $0x3a75e2c4; BYTE $0xcc   // vpminuw    ymm1, ymm1, ymm4
-	LONG $0x3a6de2c4; BYTE $0xd5   // vpminuw    ymm2, ymm2, ymm5
-	LONG $0x3e7de2c4; BYTE $0xc4   // vpmaxuw    ymm0, ymm0, ymm4
-	LONG $0x3e65e2c4; BYTE $0xdd   // vpmaxuw    ymm3, ymm3, ymm5
-	LONG $0x3a75e2c4; BYTE $0xce   // vpminuw    ymm1, ymm1, ymm6
-	LONG $0x3a6de2c4; BYTE $0xd7   // vpminuw    ymm2, ymm2, ymm7
-	LONG $0x3e7de2c4; BYTE $0xc6   // vpmaxuw    ymm0, ymm0, ymm6
-	LONG $0x3e65e2c4; BYTE $0xdf   // vpmaxuw    ymm3, ymm3, ymm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB3_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_10
-
-LBB3_9:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x3e65e2c4; BYTE $0xdd   // vpmaxuw    ymm3, ymm3, ymm5
-	LONG $0x3e7de2c4; BYTE $0xc4   // vpmaxuw    ymm0, ymm0, ymm4
-	LONG $0x3a6de2c4; BYTE $0xd5   // vpminuw    ymm2, ymm2, ymm5
-	LONG $0x3a75e2c4; BYTE $0xcc   // vpminuw    ymm1, ymm1, ymm4
-
-LBB3_10:
-	LONG $0x3a75e2c4; BYTE $0xca   // vpminuw    ymm1, ymm1, ymm2
-	LONG $0x3e7de2c4; BYTE $0xc3   // vpmaxuw    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c2 // vextracti128    xmm2, ymm0, 1
-	LONG $0x3e79e2c4; BYTE $0xc2   // vpmaxuw    xmm0, xmm0, xmm2
-	LONG $0xd276e9c5               // vpcmpeqd    xmm2, xmm2, xmm2
-	LONG $0xc2eff9c5               // vpxor    xmm0, xmm0, xmm2
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	WORD $0xd6f7                   // not    esi
-	LONG $0x397de3c4; WORD $0x01c8 // vextracti128    xmm0, ymm1, 1
-	LONG $0x3a71e2c4; BYTE $0xc0   // vpminuw    xmm0, xmm1, xmm0
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0x7e79c1c4; BYTE $0xc0   // vmovd    r8d, xmm0
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB3_12
-
-LBB3_11:
-	LONG $0x04b70f42; BYTE $0x57 // movzx    eax, word [rdi + 2*r10]
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc0430f44             // cmovae    r8d, eax
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x460f; BYTE $0xf0     // cmovbe    esi, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB3_11
-
-LBB3_12:
-	WORD $0x8966; BYTE $0x31 // mov    word [rcx], si
-	LONG $0x02894466         // mov    word [rdx], r8w
-	VZEROUPPER
-	RET
-
-LBB3_5:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5 // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd276edc5 // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5 // vpxor    xmm3, xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB3_9
-	JMP  LBB3_10
-
-DATA LCDATA3<>+0x000(SB)/8, $0x7fffffff80000000
-GLOBL LCDATA3<>(SB), 8, $8
-
-TEXT ·_int32_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB4_1
-	WORD $0x8941; BYTE $0xf0       // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x1f       // cmp    esi, 31
-	JA   LBB4_4
-	LONG $0x0000ba41; WORD $0x8000 // mov    r10d, -2147483648
-	LONG $0xffffffb8; BYTE $0x7f   // mov    eax, 2147483647
-	WORD $0x3145; BYTE $0xc9       // xor    r9d, r9d
-	JMP  LBB4_7
-
-LBB4_1:
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-	LONG $0x000000be; BYTE $0x80 // mov    esi, -2147483648
-	JMP  LBB4_8
-
-LBB4_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0x587de2c4; WORD $0x0065 // vpbroadcastd    ymm4, dword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0e18341               // and    r9d, -32
-	LONG $0x587de2c4; WORD $0x0445 // vpbroadcastd    ymm0, dword 4[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xc86ffdc5               // vmovdqa    ymm1, ymm0
-	LONG $0xd06ffdc5               // vmovdqa    ymm2, ymm0
-	LONG $0xd86ffdc5               // vmovdqa    ymm3, ymm0
-	LONG $0xec6ffdc5               // vmovdqa    ymm5, ymm4
-	LONG $0xf46ffdc5               // vmovdqa    ymm6, ymm4
-	LONG $0xfc6ffdc5               // vmovdqa    ymm7, ymm4
-
-LBB4_5:
-	LONG $0x046f7ec5; BYTE $0x87   // vmovdqu    ymm8, yword [rdi + 4*rax]
-	LONG $0x4c6f7ec5; WORD $0x2087 // vmovdqu    ymm9, yword [rdi + 4*rax + 32]
-	LONG $0x546f7ec5; WORD $0x4087 // vmovdqu    ymm10, yword [rdi + 4*rax + 64]
-	LONG $0x5c6f7ec5; WORD $0x6087 // vmovdqu    ymm11, yword [rdi + 4*rax + 96]
-	LONG $0x397dc2c4; BYTE $0xc0   // vpminsd    ymm0, ymm0, ymm8
-	LONG $0x3975c2c4; BYTE $0xc9   // vpminsd    ymm1, ymm1, ymm9
-	LONG $0x396dc2c4; BYTE $0xd2   // vpminsd    ymm2, ymm2, ymm10
-	LONG $0x3965c2c4; BYTE $0xdb   // vpminsd    ymm3, ymm3, ymm11
-	LONG $0x3d5dc2c4; BYTE $0xe0   // vpmaxsd    ymm4, ymm4, ymm8
-	LONG $0x3d55c2c4; BYTE $0xe9   // vpmaxsd    ymm5, ymm5, ymm9
-	LONG $0x3d4dc2c4; BYTE $0xf2   // vpmaxsd    ymm6, ymm6, ymm10
-	LONG $0x3d45c2c4; BYTE $0xfb   // vpmaxsd    ymm7, ymm7, ymm11
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB4_5
-	LONG $0x3d5de2c4; BYTE $0xe5   // vpmaxsd    ymm4, ymm4, ymm5
-	LONG $0x3d5de2c4; BYTE $0xe6   // vpmaxsd    ymm4, ymm4, ymm6
-	LONG $0x3d5de2c4; BYTE $0xe7   // vpmaxsd    ymm4, ymm4, ymm7
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0x4e   // vpshufd    xmm5, xmm4, 78
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm4, 229
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0x7e79c1c4; BYTE $0xe2   // vmovd    r10d, xmm4
-	LONG $0x397de2c4; BYTE $0xc1   // vpminsd    ymm0, ymm0, ymm1
-	LONG $0x397de2c4; BYTE $0xc2   // vpminsd    ymm0, ymm0, ymm2
-	LONG $0x397de2c4; BYTE $0xc3   // vpminsd    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm0, 229
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB4_8
-
-LBB4_7:
-	LONG $0x8f348b42         // mov    esi, dword [rdi + 4*r9]
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	WORD $0x3941; BYTE $0xf2 // cmp    r10d, esi
-	LONG $0xf24d0f41         // cmovge    esi, r10d
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8941; BYTE $0xf2 // mov    r10d, esi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB4_7
-
-LBB4_8:
-	WORD $0x3189 // mov    dword [rcx], esi
-	WORD $0x0289 // mov    dword [rdx], eax
-	VZEROUPPER
-	RET
-
-TEXT ·_uint32_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB5_1
-	WORD $0x8941; BYTE $0xf0     // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB5_4
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xffffffb8; BYTE $0xff // mov    eax, -1
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	JMP  LBB5_7
-
-LBB5_1:
-	LONG $0xffffffb8; BYTE $0xff // mov    eax, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB5_8
-
-LBB5_4:
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0xe0e18341         // and    r9d, -32
-	LONG $0xe4efd9c5         // vpxor    xmm4, xmm4, xmm4
-	LONG $0xc076fdc5         // vpcmpeqd    ymm0, ymm0, ymm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdb76e5c5         // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xedefd1c5         // vpxor    xmm5, xmm5, xmm5
-	LONG $0xf6efc9c5         // vpxor    xmm6, xmm6, xmm6
-	LONG $0xffefc1c5         // vpxor    xmm7, xmm7, xmm7
-
-LBB5_5:
-	LONG $0x046f7ec5; BYTE $0x87   // vmovdqu    ymm8, yword [rdi + 4*rax]
-	LONG $0x4c6f7ec5; WORD $0x2087 // vmovdqu    ymm9, yword [rdi + 4*rax + 32]
-	LONG $0x546f7ec5; WORD $0x4087 // vmovdqu    ymm10, yword [rdi + 4*rax + 64]
-	LONG $0x5c6f7ec5; WORD $0x6087 // vmovdqu    ymm11, yword [rdi + 4*rax + 96]
-	LONG $0x3b7dc2c4; BYTE $0xc0   // vpminud    ymm0, ymm0, ymm8
-	LONG $0x3b75c2c4; BYTE $0xc9   // vpminud    ymm1, ymm1, ymm9
-	LONG $0x3b6dc2c4; BYTE $0xd2   // vpminud    ymm2, ymm2, ymm10
-	LONG $0x3b65c2c4; BYTE $0xdb   // vpminud    ymm3, ymm3, ymm11
-	LONG $0x3f5dc2c4; BYTE $0xe0   // vpmaxud    ymm4, ymm4, ymm8
-	LONG $0x3f55c2c4; BYTE $0xe9   // vpmaxud    ymm5, ymm5, ymm9
-	LONG $0x3f4dc2c4; BYTE $0xf2   // vpmaxud    ymm6, ymm6, ymm10
-	LONG $0x3f45c2c4; BYTE $0xfb   // vpmaxud    ymm7, ymm7, ymm11
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB5_5
-	LONG $0x3f5de2c4; BYTE $0xe5   // vpmaxud    ymm4, ymm4, ymm5
-	LONG $0x3f5de2c4; BYTE $0xe6   // vpmaxud    ymm4, ymm4, ymm6
-	LONG $0x3f5de2c4; BYTE $0xe7   // vpmaxud    ymm4, ymm4, ymm7
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0x4e   // vpshufd    xmm5, xmm4, 78
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm4, 229
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0x7e79c1c4; BYTE $0xe2   // vmovd    r10d, xmm4
-	LONG $0x3b7de2c4; BYTE $0xc1   // vpminud    ymm0, ymm0, ymm1
-	LONG $0x3b7de2c4; BYTE $0xc2   // vpminud    ymm0, ymm0, ymm2
-	LONG $0x3b7de2c4; BYTE $0xc3   // vpminud    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm0, 229
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB5_8
-
-LBB5_7:
-	LONG $0x8f348b42         // mov    esi, dword [rdi + 4*r9]
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x430f; BYTE $0xc6 // cmovae    eax, esi
-	WORD $0x3941; BYTE $0xf2 // cmp    r10d, esi
-	LONG $0xf2470f41         // cmova    esi, r10d
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8941; BYTE $0xf2 // mov    r10d, esi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB5_7
-
-LBB5_8:
-	WORD $0x3189 // mov    dword [rcx], esi
-	WORD $0x0289 // mov    dword [rdx], eax
-	VZEROUPPER
-	RET
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x7fffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $16
-
-TEXT ·_int64_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA4<>(SB), BP
-
-	QUAD $0xffffffffffffb848; WORD $0x7fff // mov    rax, 9223372036854775807
-	WORD $0xf685                           // test    esi, esi
-	JLE  LBB6_1
-	WORD $0x8941; BYTE $0xf0               // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f               // cmp    esi, 15
-	JA   LBB6_4
-	LONG $0x01508d4c                       // lea    r10, [rax + 1]
-	WORD $0x3145; BYTE $0xc9               // xor    r9d, r9d
-	JMP  LBB6_7
-
-LBB6_1:
-	LONG $0x01708d48 // lea    rsi, [rax + 1]
-	JMP  LBB6_8
-
-LBB6_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0x597de2c4; WORD $0x0065 // vpbroadcastq    ymm4, qword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0xf0e18341               // and    r9d, -16
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd86ffdc5               // vmovdqa    ymm3, ymm0
-	LONG $0xd06ffdc5               // vmovdqa    ymm2, ymm0
-	LONG $0xc86ffdc5               // vmovdqa    ymm1, ymm0
-	LONG $0xfc6ffdc5               // vmovdqa    ymm7, ymm4
-	LONG $0xf46ffdc5               // vmovdqa    ymm6, ymm4
-	LONG $0xec6ffdc5               // vmovdqa    ymm5, ymm4
-
-LBB6_5:
-	LONG $0x046f7ec5; BYTE $0xc7   // vmovdqu    ymm8, yword [rdi + 8*rax]
-	LONG $0x373d62c4; BYTE $0xc8   // vpcmpgtq    ymm9, ymm8, ymm0
-	LONG $0x4b3de3c4; WORD $0x90c0 // vblendvpd    ymm0, ymm8, ymm0, ymm9
-	LONG $0x4c6f7ec5; WORD $0x20c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 32]
-	LONG $0x373562c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm9, ymm3
-	LONG $0x4b35e3c4; WORD $0xa0db // vblendvpd    ymm3, ymm9, ymm3, ymm10
-	LONG $0x546f7ec5; WORD $0x40c7 // vmovdqu    ymm10, yword [rdi + 8*rax + 64]
-	LONG $0x372d62c4; BYTE $0xda   // vpcmpgtq    ymm11, ymm10, ymm2
-	LONG $0x4b2de3c4; WORD $0xb0d2 // vblendvpd    ymm2, ymm10, ymm2, ymm11
-	LONG $0x5c6f7ec5; WORD $0x60c7 // vmovdqu    ymm11, yword [rdi + 8*rax + 96]
-	LONG $0x372562c4; BYTE $0xe1   // vpcmpgtq    ymm12, ymm11, ymm1
-	LONG $0x4b25e3c4; WORD $0xc0c9 // vblendvpd    ymm1, ymm11, ymm1, ymm12
-	LONG $0x375d42c4; BYTE $0xe0   // vpcmpgtq    ymm12, ymm4, ymm8
-	LONG $0x4b3de3c4; WORD $0xc0e4 // vblendvpd    ymm4, ymm8, ymm4, ymm12
-	LONG $0x374542c4; BYTE $0xc1   // vpcmpgtq    ymm8, ymm7, ymm9
-	LONG $0x4b35e3c4; WORD $0x80ff // vblendvpd    ymm7, ymm9, ymm7, ymm8
-	LONG $0x374d42c4; BYTE $0xc2   // vpcmpgtq    ymm8, ymm6, ymm10
-	LONG $0x4b2de3c4; WORD $0x80f6 // vblendvpd    ymm6, ymm10, ymm6, ymm8
-	LONG $0x375542c4; BYTE $0xc3   // vpcmpgtq    ymm8, ymm5, ymm11
-	LONG $0x4b25e3c4; WORD $0x80ed // vblendvpd    ymm5, ymm11, ymm5, ymm8
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB6_5
-	LONG $0x375d62c4; BYTE $0xc7   // vpcmpgtq    ymm8, ymm4, ymm7
-	LONG $0x4b45e3c4; WORD $0x80e4 // vblendvpd    ymm4, ymm7, ymm4, ymm8
-	LONG $0x375de2c4; BYTE $0xfe   // vpcmpgtq    ymm7, ymm4, ymm6
-	LONG $0x4b4de3c4; WORD $0x70e4 // vblendvpd    ymm4, ymm6, ymm4, ymm7
-	LONG $0x375de2c4; BYTE $0xf5   // vpcmpgtq    ymm6, ymm4, ymm5
-	LONG $0x4b55e3c4; WORD $0x60e4 // vblendvpd    ymm4, ymm5, ymm4, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0x3759e2c4; BYTE $0xf5   // vpcmpgtq    xmm6, xmm4, xmm5
-	LONG $0x4b51e3c4; WORD $0x60e4 // vblendvpd    xmm4, xmm5, xmm4, xmm6
-	LONG $0x0479e3c4; WORD $0x4eec // vpermilps    xmm5, xmm4, 78
-	LONG $0x3759e2c4; BYTE $0xf5   // vpcmpgtq    xmm6, xmm4, xmm5
-	LONG $0x4b51e3c4; WORD $0x60e4 // vblendvpd    xmm4, xmm5, xmm4, xmm6
-	LONG $0x7ef9c1c4; BYTE $0xe2   // vmovq    r10, xmm4
-	LONG $0x3765e2c4; BYTE $0xe0   // vpcmpgtq    ymm4, ymm3, ymm0
-	LONG $0x4b65e3c4; WORD $0x40c0 // vblendvpd    ymm0, ymm3, ymm0, ymm4
-	LONG $0x376de2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm2, ymm0
-	LONG $0x4b6de3c4; WORD $0x30c0 // vblendvpd    ymm0, ymm2, ymm0, ymm3
-	LONG $0x3775e2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm1, ymm0
-	LONG $0x4b75e3c4; WORD $0x20c0 // vblendvpd    ymm0, ymm1, ymm0, ymm2
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0x3771e2c4; BYTE $0xd0   // vpcmpgtq    xmm2, xmm1, xmm0
-	LONG $0x4b71e3c4; WORD $0x20c0 // vblendvpd    xmm0, xmm1, xmm0, xmm2
-	LONG $0x0479e3c4; WORD $0x4ec8 // vpermilps    xmm1, xmm0, 78
-	LONG $0x3771e2c4; BYTE $0xd0   // vpcmpgtq    xmm2, xmm1, xmm0
-	LONG $0x4b71e3c4; WORD $0x20c0 // vblendvpd    xmm0, xmm1, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x894c; BYTE $0xd6       // mov    rsi, r10
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB6_8
-
-LBB6_7:
-	LONG $0xcf348b4a         // mov    rsi, qword [rdi + 8*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	LONG $0xf24d0f49         // cmovge    rsi, r10
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB6_7
-
-LBB6_8:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-GLOBL LCDATA5<>(SB), 8, $8
-
-TEXT ·_uint64_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xf685                               // test    esi, esi
-	JLE  LBB7_1
-	WORD $0x8941; BYTE $0xf0                   // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f                   // cmp    esi, 15
-	JA   LBB7_4
-	LONG $0xffc0c748; WORD $0xffff; BYTE $0xff // mov    rax, -1
-	WORD $0x3145; BYTE $0xc9                   // xor    r9d, r9d
-	WORD $0x3145; BYTE $0xd2                   // xor    r10d, r10d
-	JMP  LBB7_7
-
-LBB7_1:
-	LONG $0xffc0c748; WORD $0xffff; BYTE $0xff // mov    rax, -1
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB7_8
-
-LBB7_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0xf0e18341               // and    r9d, -16
-	LONG $0xedefd1c5               // vpxor    xmm5, xmm5, xmm5
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xe476ddc5               // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdb76e5c5               // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xd276edc5               // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xef3941c4; BYTE $0xc0   // vpxor    xmm8, xmm8, xmm8
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0xf6efc9c5               // vpxor    xmm6, xmm6, xmm6
-
-LBB7_5:
-	LONG $0x0c6f7ec5; BYTE $0xc7   // vmovdqu    ymm9, yword [rdi + 8*rax]
-	LONG $0xd0ef75c5               // vpxor    ymm10, ymm1, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0c9 // vblendvpd    ymm1, ymm9, ymm1, ymm10
-	LONG $0xd0ef55c5               // vpxor    ymm10, ymm5, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x4b35e3c4; WORD $0xa0ed // vblendvpd    ymm5, ymm9, ymm5, ymm10
-	LONG $0x4c6f7ec5; WORD $0x20c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 32]
-	LONG $0xd0ef5dc5               // vpxor    ymm10, ymm4, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0e4 // vblendvpd    ymm4, ymm9, ymm4, ymm10
-	LONG $0xd0ef3dc5               // vpxor    ymm10, ymm8, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x5c6f7ec5; WORD $0x40c7 // vmovdqu    ymm11, yword [rdi + 8*rax + 64]
-	LONG $0x4b3543c4; WORD $0xa0c0 // vblendvpd    ymm8, ymm9, ymm8, ymm10
-	LONG $0xc8ef65c5               // vpxor    ymm9, ymm3, ymm0
-	LONG $0xd0ef25c5               // vpxor    ymm10, ymm11, ymm0
-	LONG $0x372d42c4; BYTE $0xc9   // vpcmpgtq    ymm9, ymm10, ymm9
-	LONG $0x4b25e3c4; WORD $0x90db // vblendvpd    ymm3, ymm11, ymm3, ymm9
-	LONG $0xc8ef45c5               // vpxor    ymm9, ymm7, ymm0
-	LONG $0x373542c4; BYTE $0xca   // vpcmpgtq    ymm9, ymm9, ymm10
-	LONG $0x4b25e3c4; WORD $0x90ff // vblendvpd    ymm7, ymm11, ymm7, ymm9
-	LONG $0x4c6f7ec5; WORD $0x60c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 96]
-	LONG $0xd0ef6dc5               // vpxor    ymm10, ymm2, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0d2 // vblendvpd    ymm2, ymm9, ymm2, ymm10
-	LONG $0xd0ef4dc5               // vpxor    ymm10, ymm6, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x4b35e3c4; WORD $0xa0f6 // vblendvpd    ymm6, ymm9, ymm6, ymm10
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB7_5
-	LONG $0xc8ef3dc5               // vpxor    ymm9, ymm8, ymm0
-	LONG $0xd0ef55c5               // vpxor    ymm10, ymm5, ymm0
-	LONG $0x372d42c4; BYTE $0xc9   // vpcmpgtq    ymm9, ymm10, ymm9
-	LONG $0x4b3de3c4; WORD $0x90ed // vblendvpd    ymm5, ymm8, ymm5, ymm9
-	LONG $0xc05755c5               // vxorpd    ymm8, ymm5, ymm0
-	LONG $0xc8ef45c5               // vpxor    ymm9, ymm7, ymm0
-	LONG $0x373d42c4; BYTE $0xc1   // vpcmpgtq    ymm8, ymm8, ymm9
-	LONG $0x4b45e3c4; WORD $0x80ed // vblendvpd    ymm5, ymm7, ymm5, ymm8
-	LONG $0xf857d5c5               // vxorpd    ymm7, ymm5, ymm0
-	LONG $0xc0ef4dc5               // vpxor    ymm8, ymm6, ymm0
-	LONG $0x3745c2c4; BYTE $0xf8   // vpcmpgtq    ymm7, ymm7, ymm8
-	LONG $0x4b4de3c4; WORD $0x70ed // vblendvpd    ymm5, ymm6, ymm5, ymm7
-	LONG $0x197de3c4; WORD $0x01ee // vextractf128    xmm6, ymm5, 1
-	LONG $0xc05749c5               // vxorpd    xmm8, xmm6, xmm0
-	LONG $0xf857d1c5               // vxorpd    xmm7, xmm5, xmm0
-	LONG $0x3741c2c4; BYTE $0xf8   // vpcmpgtq    xmm7, xmm7, xmm8
-	LONG $0x4b49e3c4; WORD $0x70ed // vblendvpd    xmm5, xmm6, xmm5, xmm7
-	LONG $0x0479e3c4; WORD $0x4ef5 // vpermilps    xmm6, xmm5, 78
-	LONG $0xc05751c5               // vxorpd    xmm8, xmm5, xmm0
-	LONG $0xf857c9c5               // vxorpd    xmm7, xmm6, xmm0
-	LONG $0x3739e2c4; BYTE $0xff   // vpcmpgtq    xmm7, xmm8, xmm7
-	LONG $0x4b49e3c4; WORD $0x70ed // vblendvpd    xmm5, xmm6, xmm5, xmm7
-	LONG $0xf0eff5c5               // vpxor    ymm6, ymm1, ymm0
-	LONG $0xf8efddc5               // vpxor    ymm7, ymm4, ymm0
-	LONG $0x3745e2c4; BYTE $0xf6   // vpcmpgtq    ymm6, ymm7, ymm6
-	LONG $0x4b5de3c4; WORD $0x60c9 // vblendvpd    ymm1, ymm4, ymm1, ymm6
-	LONG $0xe057f5c5               // vxorpd    ymm4, ymm1, ymm0
-	LONG $0xf0efe5c5               // vpxor    ymm6, ymm3, ymm0
-	LONG $0x374de2c4; BYTE $0xe4   // vpcmpgtq    ymm4, ymm6, ymm4
-	LONG $0x4b65e3c4; WORD $0x40c9 // vblendvpd    ymm1, ymm3, ymm1, ymm4
-	LONG $0x7ef9c1c4; BYTE $0xea   // vmovq    r10, xmm5
-	LONG $0xd857f5c5               // vxorpd    ymm3, ymm1, ymm0
-	LONG $0xe0efedc5               // vpxor    ymm4, ymm2, ymm0
-	LONG $0x375de2c4; BYTE $0xdb   // vpcmpgtq    ymm3, ymm4, ymm3
-	LONG $0x4b6de3c4; WORD $0x30c9 // vblendvpd    ymm1, ymm2, ymm1, ymm3
-	LONG $0x197de3c4; WORD $0x01ca // vextractf128    xmm2, ymm1, 1
-	LONG $0xd857f1c5               // vxorpd    xmm3, xmm1, xmm0
-	LONG $0xe057e9c5               // vxorpd    xmm4, xmm2, xmm0
-	LONG $0x3759e2c4; BYTE $0xdb   // vpcmpgtq    xmm3, xmm4, xmm3
-	LONG $0x4b69e3c4; WORD $0x30c9 // vblendvpd    xmm1, xmm2, xmm1, xmm3
-	LONG $0x0479e3c4; WORD $0x4ed1 // vpermilps    xmm2, xmm1, 78
-	LONG $0xd857f1c5               // vxorpd    xmm3, xmm1, xmm0
-	LONG $0xc057e9c5               // vxorpd    xmm0, xmm2, xmm0
-	LONG $0x3779e2c4; BYTE $0xc3   // vpcmpgtq    xmm0, xmm0, xmm3
-	LONG $0x4b69e3c4; WORD $0x00c1 // vblendvpd    xmm0, xmm2, xmm1, xmm0
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x894c; BYTE $0xd6       // mov    rsi, r10
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB7_8
-
-LBB7_7:
-	LONG $0xcf348b4a         // mov    rsi, qword [rdi + 8*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xc6430f48         // cmovae    rax, rsi
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	LONG $0xf2470f49         // cmova    rsi, r10
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB7_7
-
-LBB7_8:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
diff --git a/go/internal/utils/min_max_neon_arm64.go b/go/internal/utils/min_max_neon_arm64.go
deleted file mode 100755
index f9d3c44e370cc..0000000000000
--- a/go/internal/utils/min_max_neon_arm64.go
+++ /dev/null
@@ -1,56 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "unsafe"
-
-// This file contains convenience functions for utilizing Arm64 Neon intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinNEON(values []int32) (min, max int32) {
-	_int32_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinNEON(values []uint32) (min, max uint32) {
-	_uint32_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinNEON(values []int64) (min, max int64) {
-	_int64_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinNEON(values []uint64) (min, max uint64) {
-	_uint64_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_neon_arm64.s b/go/internal/utils/min_max_neon_arm64.s
deleted file mode 100755
index b679bb6e3888a..0000000000000
--- a/go/internal/utils/min_max_neon_arm64.s
+++ /dev/null
@@ -1,324 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15336
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-
-// func _int32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_int32_max_min_neon(SB), $0-32
-
-	MOVD    values+0(FP), R0
-	MOVD    length+8(FP), R1
-	MOVD    minout+16(FP), R2
-	MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB0_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB0_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0x52b0000b // mov    w11, #-2147483648
-	WORD $0x12b0000a // mov    w10, #2147483647
-	JMP LBB0_7
-LBB0_3:
-	WORD $0x12b0000a // mov    w10, #2147483647
-	WORD $0x52b0000b // mov    w11, #-2147483648
-	WORD $0xb900006b // str    w11, [x3]
-	WORD $0xb900004a // str    w10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x0f046402 // movi    v2.2s, #128, lsl #24
-	WORD $0x2f046400 // mvni    v0.2s, #128, lsl #24
-	WORD $0x2f046401 // mvni    v1.2s, #128, lsl #24
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x0f046403 // movi    v3.2s, #128, lsl #24
-LBB0_5:
-	WORD $0x6d7f9544 // ldp    d4, d5, [x10, #-8]
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x9100414a // add    x10, x10, #16
-	WORD $0x0ea46c00 // smin    v0.2s, v0.2s, v4.2s
-	WORD $0x0ea56c21 // smin    v1.2s, v1.2s, v5.2s
-	WORD $0x0ea46442 // smax    v2.2s, v2.2s, v4.2s
-	WORD $0x0ea56463 // smax    v3.2s, v3.2s, v5.2s
-	BNE LBB0_5
-
-	WORD $0x0ea36442 // smax    v2.2s, v2.2s, v3.2s
-	WORD $0x0ea16c00 // smin    v0.2s, v0.2s, v1.2s
-	WORD $0x0e0c0441 // dup    v1.2s, v2.s[1]
-	WORD $0x0e0c0403 // dup    v3.2s, v0.s[1]
-	WORD $0x0ea16441 // smax    v1.2s, v2.2s, v1.2s
-	WORD $0x0ea36c00 // smin    v0.2s, v0.2s, v3.2s
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x1e26002b // fmov    w11, s1
-	WORD $0x1e26000a // fmov    w10, s0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b09080c // add    x12, x0, x9, lsl #2
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB0_8:
-	WORD $0xb8404589 // ldr    w9, [x12], #4
-	WORD $0x6b09015f // cmp    w10, w9
-	WORD $0x1a89b14a // csel    w10, w10, w9, lt
-	WORD $0x6b09017f // cmp    w11, w9
-	WORD $0x1a89c16b // csel    w11, w11, w9, gt
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xb900006b // str    w11, [x3]
-	WORD $0xb900004a // str    w10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-// func _uint32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_uint32_max_min_neon(SB), $0-32
-
-	MOVD    values+0(FP), R0
-	MOVD    length+8(FP), R1
-	MOVD    minout+16(FP), R2
-	MOVD    maxout+24(FP), R3
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB1_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB1_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0x2a1f03ea // mov    w10, wzr
-	WORD $0x1280000b // mov    w11, #-1
-	JMP LBB1_7
-LBB1_3:
-	WORD $0x2a1f03ea // mov    w10, wzr
-	WORD $0x1280000b // mov    w11, #-1
-	WORD $0xb900006a // str    w10, [x3]
-	WORD $0xb900004b // str    w11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB1_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-	WORD $0x6f07e7e0 // movi    v0.2d, #0xffffffffffffffff
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x6f07e7e2 // movi    v2.2d, #0xffffffffffffffff
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x6f00e403 // movi    v3.2d, #0000000000000000
-LBB1_5:
-	WORD $0x6d7f9544 // ldp    d4, d5, [x10, #-8]
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x9100414a // add    x10, x10, #16
-	WORD $0x2ea46c00 // umin    v0.2s, v0.2s, v4.2s
-	WORD $0x2ea56c42 // umin    v2.2s, v2.2s, v5.2s
-	WORD $0x2ea46421 // umax    v1.2s, v1.2s, v4.2s
-	WORD $0x2ea56463 // umax    v3.2s, v3.2s, v5.2s
-	BNE LBB1_5
-
-	WORD $0x2ea36421 // umax    v1.2s, v1.2s, v3.2s
-	WORD $0x2ea26c00 // umin    v0.2s, v0.2s, v2.2s
-	WORD $0x0e0c0422 // dup    v2.2s, v1.s[1]
-	WORD $0x0e0c0403 // dup    v3.2s, v0.s[1]
-	WORD $0x2ea26421 // umax    v1.2s, v1.2s, v2.2s
-	WORD $0x2ea36c00 // umin    v0.2s, v0.2s, v3.2s
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x1e26002a // fmov    w10, s1
-	WORD $0x1e26000b // fmov    w11, s0
-	BEQ LBB1_9
-LBB1_7:
-	WORD $0x8b09080c // add    x12, x0, x9, lsl #2
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB1_8:
-	WORD $0xb8404589 // ldr    w9, [x12], #4
-	WORD $0x6b09017f // cmp    w11, w9
-	WORD $0x1a89316b // csel    w11, w11, w9, lo
-	WORD $0x6b09015f // cmp    w10, w9
-	WORD $0x1a89814a // csel    w10, w10, w9, hi
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB1_8
-LBB1_9:
-	WORD $0xb900006a // str    w10, [x3]
-	WORD $0xb900004b // str    w11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-// func _int64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_int64_max_min_neon(SB), $0-32
-
-        MOVD    values+0(FP), R0
-        MOVD    length+8(FP), R1
-        MOVD    minout+16(FP), R2
-        MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB2_3
-
-	WORD $0x2a0103e8 // mov    w8, w1
-	WORD $0xd2f0000b // mov    x11, #-9223372036854775808
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x92f0000a // mov    x10, #9223372036854775807
-	BHI LBB2_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	JMP LBB2_7
-LBB2_3:
-	WORD $0x92f0000a // mov    x10, #9223372036854775807
-	WORD $0xd2f0000b // mov    x11, #-9223372036854775808
-	WORD $0xf900006b // str    x11, [x3]
-	WORD $0xf900004a // str    x10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB2_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x4e080d61 // dup    v1.2d, x11
-	WORD $0x4e080d40 // dup    v0.2d, x10
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x4ea01c02 // mov    v2.16b, v0.16b
-	WORD $0x4ea11c23 // mov    v3.16b, v1.16b
-LBB2_5:
-	WORD $0xad7f9544 // ldp    q4, q5, [x10, #-16]
-	WORD $0x4ea31c66 // mov    v6.16b, v3.16b
-	WORD $0x4ea11c27 // mov    v7.16b, v1.16b
-	WORD $0x4ea21c43 // mov    v3.16b, v2.16b
-	WORD $0x4ea01c01 // mov    v1.16b, v0.16b
-	WORD $0x4ee03480 // cmgt    v0.2d, v4.2d, v0.2d
-	WORD $0x4ee234a2 // cmgt    v2.2d, v5.2d, v2.2d
-	WORD $0x6e641c20 // bsl    v0.16b, v1.16b, v4.16b
-	WORD $0x4ee434e1 // cmgt    v1.2d, v7.2d, v4.2d
-	WORD $0x6e651c62 // bsl    v2.16b, v3.16b, v5.16b
-	WORD $0x4ee534c3 // cmgt    v3.2d, v6.2d, v5.2d
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x6e641ce1 // bsl    v1.16b, v7.16b, v4.16b
-	WORD $0x6e651cc3 // bsl    v3.16b, v6.16b, v5.16b
-	WORD $0x9100814a // add    x10, x10, #32
-	BNE LBB2_5
-
-	WORD $0x4ee33424 // cmgt    v4.2d, v1.2d, v3.2d
-	WORD $0x4ee03445 // cmgt    v5.2d, v2.2d, v0.2d
-	WORD $0x6e631c24 // bsl    v4.16b, v1.16b, v3.16b
-	WORD $0x6e621c05 // bsl    v5.16b, v0.16b, v2.16b
-	WORD $0x4e180480 // dup    v0.2d, v4.d[1]
-	WORD $0x4e1804a1 // dup    v1.2d, v5.d[1]
-	WORD $0x4ee03482 // cmgt    v2.2d, v4.2d, v0.2d
-	WORD $0x4ee53423 // cmgt    v3.2d, v1.2d, v5.2d
-	WORD $0x6e601c82 // bsl    v2.16b, v4.16b, v0.16b
-	WORD $0x6e611ca3 // bsl    v3.16b, v5.16b, v1.16b
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x9e66004b // fmov    x11, d2
-	WORD $0x9e66006a // fmov    x10, d3
-	BEQ LBB2_9
-LBB2_7:
-	WORD $0x8b090c0c // add    x12, x0, x9, lsl #3
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB2_8:
-	WORD $0xf8408589 // ldr    x9, [x12], #8
-	WORD $0xeb09015f // cmp    x10, x9
-	WORD $0x9a89b14a // csel    x10, x10, x9, lt
-	WORD $0xeb09017f // cmp    x11, x9
-	WORD $0x9a89c16b // csel    x11, x11, x9, gt
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB2_8
-LBB2_9:
-	WORD $0xf900006b // str    x11, [x3]
-	WORD $0xf900004a // str    x10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-
-// func _uint64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_uint64_max_min_neon(SB), $0-32
-
-        MOVD    values+0(FP), R0
-        MOVD    length+8(FP), R1
-        MOVD    minout+16(FP), R2
-        MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB3_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB3_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0xaa1f03ea // mov    x10, xzr
-	WORD $0x9280000b // mov    x11, #-1
-	JMP LBB3_7
-LBB3_3:
-	WORD $0xaa1f03ea // mov    x10, xzr
-	WORD $0x9280000b // mov    x11, #-1
-	WORD $0xf900006a // str    x10, [x3]
-	WORD $0xf900004b // str    x11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB3_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-	WORD $0x6f07e7e0 // movi    v0.2d, #0xffffffffffffffff
-	WORD $0x6f07e7e2 // movi    v2.2d, #0xffffffffffffffff
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x6f00e403 // movi    v3.2d, #0000000000000000
-LBB3_5:
-	WORD $0xad7f9544 // ldp    q4, q5, [x10, #-16]
-	WORD $0x4ea31c66 // mov    v6.16b, v3.16b
-	WORD $0x4ea11c27 // mov    v7.16b, v1.16b
-	WORD $0x4ea21c43 // mov    v3.16b, v2.16b
-	WORD $0x4ea01c01 // mov    v1.16b, v0.16b
-	WORD $0x6ee03480 // cmhi    v0.2d, v4.2d, v0.2d
-	WORD $0x6ee234a2 // cmhi    v2.2d, v5.2d, v2.2d
-	WORD $0x6e641c20 // bsl    v0.16b, v1.16b, v4.16b
-	WORD $0x6ee434e1 // cmhi    v1.2d, v7.2d, v4.2d
-	WORD $0x6e651c62 // bsl    v2.16b, v3.16b, v5.16b
-	WORD $0x6ee534c3 // cmhi    v3.2d, v6.2d, v5.2d
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x6e641ce1 // bsl    v1.16b, v7.16b, v4.16b
-	WORD $0x6e651cc3 // bsl    v3.16b, v6.16b, v5.16b
-	WORD $0x9100814a // add    x10, x10, #32
-	BNE LBB3_5
-
-	WORD $0x6ee33424 // cmhi    v4.2d, v1.2d, v3.2d
-	WORD $0x6ee03445 // cmhi    v5.2d, v2.2d, v0.2d
-	WORD $0x6e631c24 // bsl    v4.16b, v1.16b, v3.16b
-	WORD $0x6e621c05 // bsl    v5.16b, v0.16b, v2.16b
-	WORD $0x4e180480 // dup    v0.2d, v4.d[1]
-	WORD $0x4e1804a1 // dup    v1.2d, v5.d[1]
-	WORD $0x6ee03482 // cmhi    v2.2d, v4.2d, v0.2d
-	WORD $0x6ee53423 // cmhi    v3.2d, v1.2d, v5.2d
-	WORD $0x6e601c82 // bsl    v2.16b, v4.16b, v0.16b
-	WORD $0x6e611ca3 // bsl    v3.16b, v5.16b, v1.16b
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x9e66004a // fmov    x10, d2
-	WORD $0x9e66006b // fmov    x11, d3
-	BEQ LBB3_9
-LBB3_7:
-	WORD $0x8b090c0c // add    x12, x0, x9, lsl #3
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB3_8:
-	WORD $0xf8408589 // ldr    x9, [x12], #8
-	WORD $0xeb09017f // cmp    x11, x9
-	WORD $0x9a89316b // csel    x11, x11, x9, lo
-	WORD $0xeb09015f // cmp    x10, x9
-	WORD $0x9a89814a // csel    x10, x10, x9, hi
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB3_8
-LBB3_9:
-	WORD $0xf900006a // str    x10, [x3]
-	WORD $0xf900004b // str    x11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
diff --git a/go/internal/utils/min_max_noasm.go b/go/internal/utils/min_max_noasm.go
deleted file mode 100644
index 625f0ea3b01f8..0000000000000
--- a/go/internal/utils/min_max_noasm.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm || (!amd64 && !arm64 && !s390x && !ppc64le)
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_ppc64le.go b/go/internal/utils/min_max_ppc64le.go
deleted file mode 100644
index ffd2db006dcd4..0000000000000
--- a/go/internal/utils/min_max_ppc64le.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_s390x.go b/go/internal/utils/min_max_s390x.go
deleted file mode 100644
index ffd2db006dcd4..0000000000000
--- a/go/internal/utils/min_max_s390x.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_sse4_amd64.go b/go/internal/utils/min_max_sse4_amd64.go
deleted file mode 100644
index 1e12a8d178655..0000000000000
--- a/go/internal/utils/min_max_sse4_amd64.go
+++ /dev/null
@@ -1,88 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "unsafe"
-
-// This file contains convenience functions for utilizing SSE4 intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int8_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int8MaxMinSSE4(values []int8) (min, max int8) {
-	_int8_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint8_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint8MaxMinSSE4(values []uint8) (min, max uint8) {
-	_uint8_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int16_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int16MaxMinSSE4(values []int16) (min, max int16) {
-	_int16_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint16_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint16MaxMinSSE4(values []uint16) (min, max uint16) {
-	_uint16_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int32_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinSSE4(values []int32) (min, max int32) {
-	_int32_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinSSE4(values []uint32) (min, max uint32) {
-	_uint32_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinSSE4(values []int64) (min, max int64) {
-	_int64_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinSSE4(values []uint64) (min, max uint64) {
-	_uint64_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_sse4_amd64.s b/go/internal/utils/min_max_sse4_amd64.s
deleted file mode 100644
index 8f1eccf60b49e..0000000000000
--- a/go/internal/utils/min_max_sse4_amd64.s
+++ /dev/null
@@ -1,1044 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x008(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x010(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x018(SB)/8, $0x7f7f7f7f7f7f7f7f
-GLOBL LCDATA1<>(SB), 8, $32
-
-TEXT ·_int8_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f // cmp    esi, 31
-	JA   LBB0_4
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB0_11
-
-LBB0_1:
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	JMP  LBB0_12
-
-LBB0_4:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xe0e38341             // and    r11d, -32
-	LONG $0xe0438d49             // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_5
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB0_7:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x746f0ff3; WORD $0x2007 // movdqu    xmm6, oword [rdi + rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3007 // movdqu    xmm7, oword [rdi + rax + 48]
-	LONG $0x38380f66; BYTE $0xc4   // pminsb    xmm0, xmm4
-	LONG $0x38380f66; BYTE $0xd5   // pminsb    xmm2, xmm5
-	LONG $0x3c380f66; BYTE $0xcc   // pmaxsb    xmm1, xmm4
-	LONG $0x3c380f66; BYTE $0xdd   // pmaxsb    xmm3, xmm5
-	LONG $0x38380f66; BYTE $0xc6   // pminsb    xmm0, xmm6
-	LONG $0x38380f66; BYTE $0xd7   // pminsb    xmm2, xmm7
-	LONG $0x3c380f66; BYTE $0xce   // pmaxsb    xmm1, xmm6
-	LONG $0x3c380f66; BYTE $0xdf   // pmaxsb    xmm3, xmm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_10
-
-LBB0_9:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x3c380f66; BYTE $0xdd   // pmaxsb    xmm3, xmm5
-	LONG $0x3c380f66; BYTE $0xcc   // pmaxsb    xmm1, xmm4
-	LONG $0x38380f66; BYTE $0xd5   // pminsb    xmm2, xmm5
-	LONG $0x38380f66; BYTE $0xc4   // pminsb    xmm0, xmm4
-
-LBB0_10:
-	LONG $0x38380f66; BYTE $0xc2 // pminsb    xmm0, xmm2
-	LONG $0x3c380f66; BYTE $0xcb // pmaxsb    xmm1, xmm3
-	LONG $0x4def0f66; BYTE $0x10 // pxor    xmm1, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xd16f0f66             // movdqa    xmm2, xmm1
-	LONG $0xd2710f66; BYTE $0x08 // psrlw    xmm2, 8
-	LONG $0xd1da0f66             // pminub    xmm2, xmm1
-	LONG $0x41380f66; BYTE $0xca // phminposuw    xmm1, xmm2
-	LONG $0x7e0f4166; BYTE $0xc8 // movd    r8d, xmm1
-	LONG $0x7ff08041             // xor    r8b, 127
-	LONG $0x45ef0f66; BYTE $0x00 // pxor    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xc8da0f66             // pminub    xmm1, xmm0
-	LONG $0x41380f66; BYTE $0xc1 // phminposuw    xmm0, xmm1
-	LONG $0xc67e0f66             // movd    esi, xmm0
-	LONG $0x80f68040             // xor    sil, -128
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB0_12
-
-LBB0_11:
-	LONG $0x04b60f42; BYTE $0x1f // movzx    eax, byte [rdi + r11]
-	WORD $0x3840; BYTE $0xc6     // cmp    sil, al
-	LONG $0xf6b60f40             // movzx    esi, sil
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	WORD $0x3841; BYTE $0xc0     // cmp    r8b, al
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_11
-
-LBB0_12:
-	WORD $0x8844; BYTE $0x01 // mov    byte [rcx], r8b
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	RET
-
-LBB0_5:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-TEXT ·_uint8_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f // cmp    esi, 31
-	JA   LBB1_4
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_11
-
-LBB1_1:
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_12
-
-LBB1_4:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xe0e38341         // and    r11d, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_5
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB1_7:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x746f0ff3; WORD $0x2007 // movdqu    xmm6, oword [rdi + rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3007 // movdqu    xmm7, oword [rdi + rax + 48]
-	LONG $0xc4da0f66               // pminub    xmm0, xmm4
-	LONG $0xd5da0f66               // pminub    xmm2, xmm5
-	LONG $0xccde0f66               // pmaxub    xmm1, xmm4
-	LONG $0xddde0f66               // pmaxub    xmm3, xmm5
-	LONG $0xc6da0f66               // pminub    xmm0, xmm6
-	LONG $0xd7da0f66               // pminub    xmm2, xmm7
-	LONG $0xcede0f66               // pmaxub    xmm1, xmm6
-	LONG $0xdfde0f66               // pmaxub    xmm3, xmm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB1_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB1_10
-
-LBB1_9:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0xddde0f66               // pmaxub    xmm3, xmm5
-	LONG $0xccde0f66               // pmaxub    xmm1, xmm4
-	LONG $0xd5da0f66               // pminub    xmm2, xmm5
-	LONG $0xc4da0f66               // pminub    xmm0, xmm4
-
-LBB1_10:
-	LONG $0xc2da0f66             // pminub    xmm0, xmm2
-	LONG $0xcbde0f66             // pmaxub    xmm1, xmm3
-	LONG $0xd2760f66             // pcmpeqd    xmm2, xmm2
-	LONG $0xd1ef0f66             // pxor    xmm2, xmm1
-	LONG $0xca6f0f66             // movdqa    xmm1, xmm2
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xcada0f66             // pminub    xmm1, xmm2
-	LONG $0x41380f66; BYTE $0xc9 // phminposuw    xmm1, xmm1
-	LONG $0xc87e0f66             // movd    eax, xmm1
-	WORD $0xd0f6                 // not    al
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xc8da0f66             // pminub    xmm1, xmm0
-	LONG $0x41380f66; BYTE $0xc1 // phminposuw    xmm0, xmm1
-	LONG $0xc67e0f66             // movd    esi, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB1_12
-
-LBB1_11:
-	LONG $0x04b60f46; BYTE $0x1f // movzx    r8d, byte [rdi + r11]
-	WORD $0x3844; BYTE $0xc6     // cmp    sil, r8b
-	LONG $0xf6b60f40             // movzx    esi, sil
-	LONG $0xf0430f41             // cmovae    esi, r8d
-	WORD $0x3844; BYTE $0xc0     // cmp    al, r8b
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc0460f41             // cmovbe    eax, r8d
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB1_11
-
-LBB1_12:
-	WORD $0x0188             // mov    byte [rcx], al
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	RET
-
-LBB1_5:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB1_9
-	JMP  LBB1_10
-
-DATA LCDATA2<>+0x000(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x008(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x010(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x018(SB)/8, $0x7fff7fff7fff7fff
-GLOBL LCDATA2<>(SB), 8, $32
-
-TEXT ·_int16_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB2_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x0f     // cmp    esi, 15
-	JA   LBB2_4
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	LONG $0x7fffbe66             // mov    si, 32767
-	WORD $0x3145; BYTE $0xdb     // xor    r11d, r11d
-	JMP  LBB2_11
-
-LBB2_1:
-	LONG $0x7fffbe66             // mov    si, 32767
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	JMP  LBB2_12
-
-LBB2_4:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf0e38341             // and    r11d, -16
-	LONG $0xf0438d49             // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_5
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB2_7:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2047 // movdqu    xmm6, oword [rdi + 2*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3047 // movdqu    xmm7, oword [rdi + 2*rax + 48]
-	LONG $0xc4ea0f66               // pminsw    xmm0, xmm4
-	LONG $0xd5ea0f66               // pminsw    xmm2, xmm5
-	LONG $0xccee0f66               // pmaxsw    xmm1, xmm4
-	LONG $0xddee0f66               // pmaxsw    xmm3, xmm5
-	LONG $0xc6ea0f66               // pminsw    xmm0, xmm6
-	LONG $0xd7ea0f66               // pminsw    xmm2, xmm7
-	LONG $0xceee0f66               // pmaxsw    xmm1, xmm6
-	LONG $0xdfee0f66               // pmaxsw    xmm3, xmm7
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB2_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB2_10
-
-LBB2_9:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0xddee0f66               // pmaxsw    xmm3, xmm5
-	LONG $0xccee0f66               // pmaxsw    xmm1, xmm4
-	LONG $0xd5ea0f66               // pminsw    xmm2, xmm5
-	LONG $0xc4ea0f66               // pminsw    xmm0, xmm4
-
-LBB2_10:
-	LONG $0xc2ea0f66                           // pminsw    xmm0, xmm2
-	LONG $0xcbee0f66                           // pmaxsw    xmm1, xmm3
-	LONG $0x4def0f66; BYTE $0x10               // pxor    xmm1, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x41380f66; BYTE $0xc9               // phminposuw    xmm1, xmm1
-	LONG $0x7e0f4166; BYTE $0xc8               // movd    r8d, xmm1
-	LONG $0xfff08141; WORD $0x007f; BYTE $0x00 // xor    r8d, 32767
-	LONG $0x45ef0f66; BYTE $0x00               // pxor    xmm0, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x41380f66; BYTE $0xc0               // phminposuw    xmm0, xmm0
-	LONG $0xc67e0f66                           // movd    esi, xmm0
-	LONG $0x8000f681; WORD $0x0000             // xor    esi, 32768
-	WORD $0x394d; BYTE $0xcb                   // cmp    r11, r9
-	JE   LBB2_12
-
-LBB2_11:
-	LONG $0x04b70f42; BYTE $0x5f // movzx    eax, word [rdi + 2*r11]
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB2_11
-
-LBB2_12:
-	LONG $0x01894466         // mov    word [rcx], r8w
-	WORD $0x8966; BYTE $0x32 // mov    word [rdx], si
-	RET
-
-LBB2_5:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB2_9
-	JMP  LBB2_10
-
-TEXT ·_uint16_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB3_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x0f     // cmp    esi, 15
-	JA   LBB3_4
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0x3145; BYTE $0xdb     // xor    r11d, r11d
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_11
-
-LBB3_1:
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_12
-
-LBB3_4:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xf0e38341         // and    r11d, -16
-	LONG $0xf0438d49         // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_5
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB3_7:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2047 // movdqu    xmm6, oword [rdi + 2*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3047 // movdqu    xmm7, oword [rdi + 2*rax + 48]
-	LONG $0x3a380f66; BYTE $0xc4   // pminuw    xmm0, xmm4
-	LONG $0x3a380f66; BYTE $0xd5   // pminuw    xmm2, xmm5
-	LONG $0x3e380f66; BYTE $0xcc   // pmaxuw    xmm1, xmm4
-	LONG $0x3e380f66; BYTE $0xdd   // pmaxuw    xmm3, xmm5
-	LONG $0x3a380f66; BYTE $0xc6   // pminuw    xmm0, xmm6
-	LONG $0x3a380f66; BYTE $0xd7   // pminuw    xmm2, xmm7
-	LONG $0x3e380f66; BYTE $0xce   // pmaxuw    xmm1, xmm6
-	LONG $0x3e380f66; BYTE $0xdf   // pmaxuw    xmm3, xmm7
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB3_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_10
-
-LBB3_9:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x3e380f66; BYTE $0xdd   // pmaxuw    xmm3, xmm5
-	LONG $0x3e380f66; BYTE $0xcc   // pmaxuw    xmm1, xmm4
-	LONG $0x3a380f66; BYTE $0xd5   // pminuw    xmm2, xmm5
-	LONG $0x3a380f66; BYTE $0xc4   // pminuw    xmm0, xmm4
-
-LBB3_10:
-	LONG $0x3a380f66; BYTE $0xc2 // pminuw    xmm0, xmm2
-	LONG $0x3e380f66; BYTE $0xcb // pmaxuw    xmm1, xmm3
-	LONG $0xd2760f66             // pcmpeqd    xmm2, xmm2
-	LONG $0xd1ef0f66             // pxor    xmm2, xmm1
-	LONG $0x41380f66; BYTE $0xca // phminposuw    xmm1, xmm2
-	LONG $0xce7e0f66             // movd    esi, xmm1
-	WORD $0xd6f7                 // not    esi
-	LONG $0x41380f66; BYTE $0xc0 // phminposuw    xmm0, xmm0
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB3_12
-
-LBB3_11:
-	LONG $0x04b70f42; BYTE $0x5f // movzx    eax, word [rdi + 2*r11]
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc0430f44             // cmovae    r8d, eax
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x460f; BYTE $0xf0     // cmovbe    esi, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB3_11
-
-LBB3_12:
-	WORD $0x8966; BYTE $0x31 // mov    word [rcx], si
-	LONG $0x02894466         // mov    word [rdx], r8w
-	RET
-
-LBB3_5:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB3_9
-	JMP  LBB3_10
-
-DATA LCDATA3<>+0x000(SB)/8, $0x8000000080000000
-DATA LCDATA3<>+0x008(SB)/8, $0x8000000080000000
-DATA LCDATA3<>+0x010(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA3<>+0x018(SB)/8, $0x7fffffff7fffffff
-GLOBL LCDATA3<>(SB), 8, $32
-
-TEXT ·_int32_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB4_1
-	WORD $0x8941; BYTE $0xf1       // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x07       // cmp    esi, 7
-	JA   LBB4_6
-	LONG $0x000000b8; BYTE $0x80   // mov    eax, -2147483648
-	LONG $0xffffb841; WORD $0x7fff // mov    r8d, 2147483647
-	WORD $0x3145; BYTE $0xdb       // xor    r11d, r11d
-	JMP  LBB4_4
-
-LBB4_1:
-	LONG $0xffffb841; WORD $0x7fff // mov    r8d, 2147483647
-	LONG $0x000000b8; BYTE $0x80   // mov    eax, -2147483648
-	JMP  LBB4_13
-
-LBB4_6:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf8e38341             // and    r11d, -8
-	LONG $0xf8438d49             // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB4_7
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB4_9:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2087 // movdqu    xmm6, oword [rdi + 4*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3087 // movdqu    xmm7, oword [rdi + 4*rax + 48]
-	LONG $0x39380f66; BYTE $0xc4   // pminsd    xmm0, xmm4
-	LONG $0x39380f66; BYTE $0xd5   // pminsd    xmm2, xmm5
-	LONG $0x3d380f66; BYTE $0xcc   // pmaxsd    xmm1, xmm4
-	LONG $0x3d380f66; BYTE $0xdd   // pmaxsd    xmm3, xmm5
-	LONG $0x39380f66; BYTE $0xc6   // pminsd    xmm0, xmm6
-	LONG $0x39380f66; BYTE $0xd7   // pminsd    xmm2, xmm7
-	LONG $0x3d380f66; BYTE $0xce   // pmaxsd    xmm1, xmm6
-	LONG $0x3d380f66; BYTE $0xdf   // pmaxsd    xmm3, xmm7
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB4_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB4_12
-
-LBB4_11:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x3d380f66; BYTE $0xdd   // pmaxsd    xmm3, xmm5
-	LONG $0x3d380f66; BYTE $0xcc   // pmaxsd    xmm1, xmm4
-	LONG $0x39380f66; BYTE $0xd5   // pminsd    xmm2, xmm5
-	LONG $0x39380f66; BYTE $0xc4   // pminsd    xmm0, xmm4
-
-LBB4_12:
-	LONG $0x39380f66; BYTE $0xc2 // pminsd    xmm0, xmm2
-	LONG $0x3d380f66; BYTE $0xcb // pmaxsd    xmm1, xmm3
-	LONG $0xd1700f66; BYTE $0x4e // pshufd    xmm2, xmm1, 78
-	LONG $0x3d380f66; BYTE $0xd1 // pmaxsd    xmm2, xmm1
-	LONG $0xca700f66; BYTE $0xe5 // pshufd    xmm1, xmm2, 229
-	LONG $0x3d380f66; BYTE $0xca // pmaxsd    xmm1, xmm2
-	LONG $0xc87e0f66             // movd    eax, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0x39380f66; BYTE $0xc8 // pminsd    xmm1, xmm0
-	LONG $0xc1700f66; BYTE $0xe5 // pshufd    xmm0, xmm1, 229
-	LONG $0x39380f66; BYTE $0xc1 // pminsd    xmm0, xmm1
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB4_13
-
-LBB4_4:
-	WORD $0xc689 // mov    esi, eax
-
-LBB4_5:
-	LONG $0x9f048b42         // mov    eax, dword [rdi + 4*r11]
-	WORD $0x3941; BYTE $0xc0 // cmp    r8d, eax
-	LONG $0xc04f0f44         // cmovg    r8d, eax
-	WORD $0xc639             // cmp    esi, eax
-	WORD $0x4d0f; BYTE $0xc6 // cmovge    eax, esi
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0xc689             // mov    esi, eax
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB4_5
-
-LBB4_13:
-	WORD $0x0189             // mov    dword [rcx], eax
-	WORD $0x8944; BYTE $0x02 // mov    dword [rdx], r8d
-	RET
-
-LBB4_7:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB4_11
-	JMP  LBB4_12
-
-TEXT ·_uint32_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB5_1
-	WORD $0x8941; BYTE $0xf1       // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x07       // cmp    esi, 7
-	JA   LBB5_6
-	WORD $0x3145; BYTE $0xdb       // xor    r11d, r11d
-	LONG $0xffffb841; WORD $0xffff // mov    r8d, -1
-	WORD $0xf631                   // xor    esi, esi
-	JMP  LBB5_4
-
-LBB5_1:
-	LONG $0xffffb841; WORD $0xffff // mov    r8d, -1
-	WORD $0xf631                   // xor    esi, esi
-	JMP  LBB5_13
-
-LBB5_6:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xf8e38341         // and    r11d, -8
-	LONG $0xf8438d49         // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB5_7
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB5_9:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2087 // movdqu    xmm6, oword [rdi + 4*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3087 // movdqu    xmm7, oword [rdi + 4*rax + 48]
-	LONG $0x3b380f66; BYTE $0xc4   // pminud    xmm0, xmm4
-	LONG $0x3b380f66; BYTE $0xd5   // pminud    xmm2, xmm5
-	LONG $0x3f380f66; BYTE $0xcc   // pmaxud    xmm1, xmm4
-	LONG $0x3f380f66; BYTE $0xdd   // pmaxud    xmm3, xmm5
-	LONG $0x3b380f66; BYTE $0xc6   // pminud    xmm0, xmm6
-	LONG $0x3b380f66; BYTE $0xd7   // pminud    xmm2, xmm7
-	LONG $0x3f380f66; BYTE $0xce   // pmaxud    xmm1, xmm6
-	LONG $0x3f380f66; BYTE $0xdf   // pmaxud    xmm3, xmm7
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB5_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB5_12
-
-LBB5_11:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x3f380f66; BYTE $0xdd   // pmaxud    xmm3, xmm5
-	LONG $0x3f380f66; BYTE $0xcc   // pmaxud    xmm1, xmm4
-	LONG $0x3b380f66; BYTE $0xd5   // pminud    xmm2, xmm5
-	LONG $0x3b380f66; BYTE $0xc4   // pminud    xmm0, xmm4
-
-LBB5_12:
-	LONG $0x3b380f66; BYTE $0xc2 // pminud    xmm0, xmm2
-	LONG $0x3f380f66; BYTE $0xcb // pmaxud    xmm1, xmm3
-	LONG $0xd1700f66; BYTE $0x4e // pshufd    xmm2, xmm1, 78
-	LONG $0x3f380f66; BYTE $0xd1 // pmaxud    xmm2, xmm1
-	LONG $0xca700f66; BYTE $0xe5 // pshufd    xmm1, xmm2, 229
-	LONG $0x3f380f66; BYTE $0xca // pmaxud    xmm1, xmm2
-	LONG $0xce7e0f66             // movd    esi, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0x3b380f66; BYTE $0xc8 // pminud    xmm1, xmm0
-	LONG $0xc1700f66; BYTE $0xe5 // pshufd    xmm0, xmm1, 229
-	LONG $0x3b380f66; BYTE $0xc1 // pminud    xmm0, xmm1
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB5_13
-
-LBB5_4:
-	WORD $0xf089 // mov    eax, esi
-
-LBB5_5:
-	LONG $0x9f348b42         // mov    esi, dword [rdi + 4*r11]
-	WORD $0x3941; BYTE $0xf0 // cmp    r8d, esi
-	LONG $0xc6430f44         // cmovae    r8d, esi
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x470f; BYTE $0xf0 // cmova    esi, eax
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0xf089             // mov    eax, esi
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB5_5
-
-LBB5_13:
-	WORD $0x3189             // mov    dword [rcx], esi
-	WORD $0x8944; BYTE $0x02 // mov    dword [rdx], r8d
-	RET
-
-LBB5_7:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB5_11
-	JMP  LBB5_12
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x018(SB)/8, $0x7fffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $32
-
-TEXT ·_int64_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA4<>(SB), BP
-
-	QUAD $0xffffffffffffb849; WORD $0x7fff // mov    r8, 9223372036854775807
-	WORD $0xf685                           // test    esi, esi
-	JLE  LBB6_1
-	WORD $0x8941; BYTE $0xf1               // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x03               // cmp    esi, 3
-	JA   LBB6_6
-	LONG $0x01708d49                       // lea    rsi, [r8 + 1]
-	WORD $0x3145; BYTE $0xdb               // xor    r11d, r11d
-	JMP  LBB6_4
-
-LBB6_1:
-	LONG $0x01708d49 // lea    rsi, [r8 + 1]
-	JMP  LBB6_13
-
-LBB6_6:
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xfce38341               // and    r11d, -4
-	LONG $0xfc438d49               // lea    rax, [r11 - 4]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x02e8c149               // shr    r8, 2
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB6_7
-	WORD $0x894d; BYTE $0xc2       // mov    r10, r8
-	LONG $0xfee28349               // and    r10, -2
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	LONG $0x6f0f4466; WORD $0x004d // movdqa    xmm9, oword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0x6f0f4466; WORD $0x1045 // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4166; BYTE $0xd0   // movdqa    xmm2, xmm8
-	LONG $0x6f0f4166; BYTE $0xf1   // movdqa    xmm6, xmm9
-
-LBB6_9:
-	LONG $0x3c6f0ff3; BYTE $0xc7   // movdqu    xmm7, oword [rdi + 8*rax]
-	LONG $0xc76f0f66               // movdqa    xmm0, xmm7
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0xe76f0f66               // movdqa    xmm4, xmm7
-	LONG $0x380f4166; WORD $0xe015 // blendvpd    xmm4, xmm8, xmm0
-	LONG $0x4c6f0ff3; WORD $0x10c7 // movdqu    xmm1, oword [rdi + 8*rax + 16]
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x15380f66; BYTE $0xea   // blendvpd    xmm5, xmm2, xmm0
-	LONG $0x6f0f4166; BYTE $0xc1   // movdqa    xmm0, xmm9
-	LONG $0x37380f66; BYTE $0xc7   // pcmpgtq    xmm0, xmm7
-	LONG $0x380f4166; WORD $0xf915 // blendvpd    xmm7, xmm9, xmm0
-	LONG $0xc66f0f66               // movdqa    xmm0, xmm6
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xce   // blendvpd    xmm1, xmm6, xmm0
-	LONG $0x5c6f0ff3; WORD $0x20c7 // movdqu    xmm3, oword [rdi + 8*rax + 32]
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x6f0f4466; BYTE $0xc3   // movdqa    xmm8, xmm3
-	LONG $0x380f4466; WORD $0xc415 // blendvpd    xmm8, xmm4, xmm0
-	LONG $0x646f0ff3; WORD $0x30c7 // movdqu    xmm4, oword [rdi + 8*rax + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5   // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc7280f66               // movapd    xmm0, xmm7
-	LONG $0x37380f66; BYTE $0xc3   // pcmpgtq    xmm0, xmm3
-	LONG $0x15380f66; BYTE $0xdf   // blendvpd    xmm3, xmm7, xmm0
-	LONG $0xc1280f66               // movapd    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x15380f66; BYTE $0xe1   // blendvpd    xmm4, xmm1, xmm0
-	LONG $0x08c08348               // add    rax, 8
-	LONG $0x280f4466; BYTE $0xcb   // movapd    xmm9, xmm3
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB6_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB6_12
-
-LBB6_11:
-	LONG $0x4c6f0ff3; WORD $0x10c7 // movdqu    xmm1, oword [rdi + 8*rax + 16]
-	LONG $0xc4280f66               // movapd    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x15380f66; BYTE $0xec   // blendvpd    xmm5, xmm4, xmm0
-	LONG $0x246f0ff3; BYTE $0xc7   // movdqu    xmm4, oword [rdi + 8*rax]
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x15380f66; BYTE $0xf3   // blendvpd    xmm6, xmm3, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xca   // blendvpd    xmm1, xmm2, xmm0
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0x380f4166; WORD $0xe015 // blendvpd    xmm4, xmm8, xmm0
-	LONG $0x280f4466; BYTE $0xc4   // movapd    xmm8, xmm4
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xde280f66               // movapd    xmm3, xmm6
-	LONG $0xe5280f66               // movapd    xmm4, xmm5
-
-LBB6_12:
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x15380f66; BYTE $0xe3   // blendvpd    xmm4, xmm3, xmm0
-	LONG $0xcc700f66; BYTE $0x4e   // pshufd    xmm1, xmm4, 78
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x7e0f4866; BYTE $0xce   // movq    rsi, xmm1
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0x380f4166; WORD $0xd015 // blendvpd    xmm2, xmm8, xmm0
-	LONG $0xca700f66; BYTE $0x4e   // pshufd    xmm1, xmm2, 78
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xca   // blendvpd    xmm1, xmm2, xmm0
-	LONG $0x7e0f4966; BYTE $0xc8   // movq    r8, xmm1
-	WORD $0x394d; BYTE $0xcb       // cmp    r11, r9
-	JE   LBB6_13
-
-LBB6_4:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-
-LBB6_5:
-	LONG $0xdf348b4a         // mov    rsi, qword [rdi + 8*r11]
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	LONG $0xc64f0f4c         // cmovg    r8, rsi
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xf04d0f48         // cmovge    rsi, rax
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB6_5
-
-LBB6_13:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x894c; BYTE $0x02 // mov    qword [rdx], r8
-	RET
-
-LBB6_7:
-	LONG $0x5d280f66; BYTE $0x00   // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0x6f0f4466; WORD $0x1045 // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4166; BYTE $0xd0   // movdqa    xmm2, xmm8
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0x01c0f641               // test    r8b, 1
-	JNE  LBB6_11
-	JMP  LBB6_12
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x8000000000000000
-GLOBL LCDATA5<>(SB), 8, $16
-
-TEXT ·_uint64_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xf685                               // test    esi, esi
-	JLE  LBB7_1
-	WORD $0x8941; BYTE $0xf1                   // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JA   LBB7_6
-	LONG $0xffc0c749; WORD $0xffff; BYTE $0xff // mov    r8, -1
-	WORD $0x3145; BYTE $0xdb                   // xor    r11d, r11d
-	WORD $0xc031                               // xor    eax, eax
-	JMP  LBB7_4
-
-LBB7_1:
-	LONG $0xffc0c749; WORD $0xffff; BYTE $0xff // mov    r8, -1
-	WORD $0xc031                               // xor    eax, eax
-	JMP  LBB7_13
-
-LBB7_6:
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xfce38341               // and    r11d, -4
-	LONG $0xfc438d49               // lea    rax, [r11 - 4]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x02e8c149               // shr    r8, 2
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB7_7
-	WORD $0x894d; BYTE $0xc2       // mov    r10, r8
-	LONG $0xfee28349               // and    r10, -2
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-	LONG $0x760f4566; BYTE $0xd2   // pcmpeqd    xmm10, xmm10
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4466; WORD $0x0045 // movdqa    xmm8, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0x760f4566; BYTE $0xdb   // pcmpeqd    xmm11, xmm11
-	LONG $0xef0f4566; BYTE $0xe4   // pxor    xmm12, xmm12
-
-LBB7_9:
-	LONG $0x6f0f4166; BYTE $0xd2               // movdqa    xmm2, xmm10
-	LONG $0xef0f4166; BYTE $0xd0               // pxor    xmm2, xmm8
-	LONG $0x246f0ff3; BYTE $0xc7               // movdqu    xmm4, oword [rdi + 8*rax]
-	LONG $0x6c6f0ff3; WORD $0x10c7             // movdqu    xmm5, oword [rdi + 8*rax + 16]
-	LONG $0x6f0f44f3; WORD $0xc76c; BYTE $0x20 // movdqu    xmm13, oword [rdi + 8*rax + 32]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xef0f4166; BYTE $0xc8               // pxor    xmm1, xmm8
-	LONG $0x37380f66; BYTE $0xc8               // pcmpgtq    xmm1, xmm0
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	LONG $0x380f4166; WORD $0xda15             // blendvpd    xmm3, xmm10, xmm0
-	LONG $0x746f0ff3; WORD $0x30c7             // movdqu    xmm6, oword [rdi + 8*rax + 48]
-	LONG $0x6f0f4166; BYTE $0xfb               // movdqa    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xf8               // pxor    xmm7, xmm8
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0x6f0f4166; BYTE $0xd4               // movdqa    xmm2, xmm12
-	LONG $0xef0f4166; BYTE $0xd0               // pxor    xmm2, xmm8
-	LONG $0x37380f66; BYTE $0xd0               // pcmpgtq    xmm2, xmm0
-	LONG $0x37380f66; BYTE $0xc7               // pcmpgtq    xmm0, xmm7
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	LONG $0x380f4166; WORD $0xfb15             // blendvpd    xmm7, xmm11, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe115             // blendvpd    xmm4, xmm9, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xec15             // blendvpd    xmm5, xmm12, xmm0
-	LONG $0xd3280f66                           // movapd    xmm2, xmm3
-	LONG $0x570f4166; BYTE $0xd0               // xorpd    xmm2, xmm8
-	LONG $0x6f0f4166; BYTE $0xc5               // movdqa    xmm0, xmm13
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xcc280f66                           // movapd    xmm1, xmm4
-	LONG $0x570f4166; BYTE $0xc8               // xorpd    xmm1, xmm8
-	LONG $0x37380f66; BYTE $0xc8               // pcmpgtq    xmm1, xmm0
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0x6f0f4566; BYTE $0xd5               // movdqa    xmm10, xmm13
-	LONG $0x380f4466; WORD $0xd315             // blendvpd    xmm10, xmm3, xmm0
-	LONG $0xdf280f66                           // movapd    xmm3, xmm7
-	LONG $0x570f4166; BYTE $0xd8               // xorpd    xmm3, xmm8
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xd5280f66                           // movapd    xmm2, xmm5
-	LONG $0x570f4166; BYTE $0xd0               // xorpd    xmm2, xmm8
-	LONG $0x37380f66; BYTE $0xd0               // pcmpgtq    xmm2, xmm0
-	LONG $0x37380f66; BYTE $0xc3               // pcmpgtq    xmm0, xmm3
-	LONG $0x6f0f4466; BYTE $0xde               // movdqa    xmm11, xmm6
-	LONG $0x380f4466; WORD $0xdf15             // blendvpd    xmm11, xmm7, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4466; WORD $0xec15             // blendvpd    xmm13, xmm4, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xf5               // blendvpd    xmm6, xmm5, xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x280f4566; BYTE $0xcd               // movapd    xmm9, xmm13
-	LONG $0x280f4466; BYTE $0xe6               // movapd    xmm12, xmm6
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB7_9
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB7_12
-
-LBB7_11:
-	LONG $0x24100f66; BYTE $0xc7   // movupd    xmm4, oword [rdi + 8*rax]
-	LONG $0x5c100f66; WORD $0x10c7 // movupd    xmm3, oword [rdi + 8*rax + 16]
-	LONG $0x6d280f66; BYTE $0x00   // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xc6280f66               // movapd    xmm0, xmm6
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0xcb280f66               // movapd    xmm1, xmm3
-	LONG $0xcd570f66               // xorpd    xmm1, xmm5
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xfb280f66               // movapd    xmm7, xmm3
-	LONG $0x15380f66; BYTE $0xfe   // blendvpd    xmm7, xmm6, xmm0
-	LONG $0x280f4166; BYTE $0xc5   // movapd    xmm0, xmm13
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0xd4280f66               // movapd    xmm2, xmm4
-	LONG $0xd5570f66               // xorpd    xmm2, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0x380f4166; WORD $0xf515 // blendvpd    xmm6, xmm13, xmm0
-	LONG $0x280f4166; BYTE $0xc3   // movapd    xmm0, xmm11
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc8   // pcmpgtq    xmm1, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xdb15 // blendvpd    xmm3, xmm11, xmm0
-	LONG $0x570f4166; BYTE $0xea   // xorpd    xmm5, xmm10
-	LONG $0x37380f66; BYTE $0xd5   // pcmpgtq    xmm2, xmm5
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe215 // blendvpd    xmm4, xmm10, xmm0
-	LONG $0x280f4466; BYTE $0xd4   // movapd    xmm10, xmm4
-	LONG $0x280f4466; BYTE $0xdb   // movapd    xmm11, xmm3
-	LONG $0x280f4466; BYTE $0xee   // movapd    xmm13, xmm6
-	LONG $0xf7280f66               // movapd    xmm6, xmm7
-
-LBB7_12:
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xd6280f66               // movapd    xmm2, xmm6
-	LONG $0xd1570f66               // xorpd    xmm2, xmm1
-	LONG $0x280f4166; BYTE $0xc5   // movapd    xmm0, xmm13
-	LONG $0xc1570f66               // xorpd    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf515 // blendvpd    xmm6, xmm13, xmm0
-	LONG $0xd6700f66; BYTE $0x4e   // pshufd    xmm2, xmm6, 78
-	LONG $0xc6280f66               // movapd    xmm0, xmm6
-	LONG $0xc1570f66               // xorpd    xmm0, xmm1
-	LONG $0xda6f0f66               // movdqa    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x37380f66; BYTE $0xc3   // pcmpgtq    xmm0, xmm3
-	LONG $0x15380f66; BYTE $0xd6   // blendvpd    xmm2, xmm6, xmm0
-	LONG $0x7e0f4866; BYTE $0xd0   // movq    rax, xmm2
-	LONG $0x6f0f4166; BYTE $0xd2   // movdqa    xmm2, xmm10
-	LONG $0xd1ef0f66               // pxor    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc3   // movdqa    xmm0, xmm11
-	LONG $0xc1ef0f66               // pxor    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xda15 // blendvpd    xmm11, xmm10, xmm0
-	LONG $0x700f4166; WORD $0x4ed3 // pshufd    xmm2, xmm11, 78
-	LONG $0x6f0f4166; BYTE $0xc3   // movdqa    xmm0, xmm11
-	LONG $0xc1ef0f66               // pxor    xmm0, xmm1
-	LONG $0xcaef0f66               // pxor    xmm1, xmm2
-	LONG $0x37380f66; BYTE $0xc8   // pcmpgtq    xmm1, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xd315 // blendvpd    xmm2, xmm11, xmm0
-	LONG $0x7e0f4966; BYTE $0xd0   // movq    r8, xmm2
-	WORD $0x394d; BYTE $0xcb       // cmp    r11, r9
-	JE   LBB7_13
-
-LBB7_4:
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-
-LBB7_5:
-	LONG $0xdf048b4a         // mov    rax, qword [rdi + 8*r11]
-	WORD $0x3949; BYTE $0xc0 // cmp    r8, rax
-	LONG $0xc0430f4c         // cmovae    r8, rax
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	LONG $0xc6470f48         // cmova    rax, rsi
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB7_5
-
-LBB7_13:
-	WORD $0x8948; BYTE $0x01 // mov    qword [rcx], rax
-	WORD $0x894c; BYTE $0x02 // mov    qword [rdx], r8
-	RET
-
-LBB7_7:
-	LONG $0x570f4566; BYTE $0xed // xorpd    xmm13, xmm13
-	LONG $0x760f4566; BYTE $0xd2 // pcmpeqd    xmm10, xmm10
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x760f4566; BYTE $0xdb // pcmpeqd    xmm11, xmm11
-	LONG $0xf6570f66             // xorpd    xmm6, xmm6
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB7_11
-	JMP  LBB7_12
diff --git a/go/internal/utils/recovery.go b/go/internal/utils/recovery.go
deleted file mode 100644
index 58aede47fb98d..0000000000000
--- a/go/internal/utils/recovery.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "fmt"
-
-// FormatRecoveredError is used in cases where a panic/recover receives an
-// object which is potentially an error that could be wrapped, instead of
-// formatted, so that callers can see it.  This may be useful, for example,
-// with custom Allocators which panic to signal failure; these panics will be
-// recovered as wrapped errors, letting the client distinguish them.
-func FormatRecoveredError(msg string, recovered any) error {
-	if err, ok := recovered.(error); ok {
-		return fmt.Errorf("%s: %w", msg, err)
-	}
-	return fmt.Errorf("%s: %v", msg, recovered)
-}
diff --git a/go/internal/utils/recovery_test.go b/go/internal/utils/recovery_test.go
deleted file mode 100644
index 6ebab9ba5d3d1..0000000000000
--- a/go/internal/utils/recovery_test.go
+++ /dev/null
@@ -1,62 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"errors"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-type testError struct{}
-
-var _ error = testError{}
-
-func (testError) Error() string {
-	return "test error"
-}
-
-func TestFormatRecoveredError(t *testing.T) {
-	defer func() {
-		thing := recover()
-		assert.NotNil(t, thing)
-		assert.Error(t, thing.(testError))
-
-		err := FormatRecoveredError("recovered thing", thing)
-
-		assert.Equal(t, "recovered thing: test error", err.Error())
-		assert.True(t, errors.Is(err, testError{}))
-		assert.Equal(t, "test error", errors.Unwrap(err).(testError).Error())
-	}()
-
-	panic(testError{})
-}
-
-func TestFormatRecoveredNonError(t *testing.T) {
-	defer func() {
-		thing := recover()
-		assert.NotNil(t, thing)
-
-		err := FormatRecoveredError("recovered thing", thing)
-
-		assert.Equal(t, "recovered thing: just a message", err.Error())
-		assert.False(t, errors.Is(err, testError{}))
-	}()
-
-	panic("just a message")
-}
diff --git a/go/internal/utils/ref_count.go b/go/internal/utils/ref_count.go
deleted file mode 100644
index 9b85f75b14363..0000000000000
--- a/go/internal/utils/ref_count.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "sync/atomic"
-
-// NewRefCount creates a new atomic counter set to the specified initial value.
-func NewRefCount(initial int64) *atomic.Int64 {
-	var val atomic.Int64
-	val.Store(initial)
-	return &val
-}
diff --git a/go/internal/utils/transpose_ints.go b/go/internal/utils/transpose_ints.go
deleted file mode 100644
index 1666df1296d08..0000000000000
--- a/go/internal/utils/transpose_ints.go
+++ /dev/null
@@ -1,407 +0,0 @@
-// Code generated by transpose_ints.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-// when we upgrade to support go1.18, this can be massively simplified by using
-// Go Generics, but since we aren't supporting go1.18 yet, I didn't want to use
-// them here so we can maintain the backwards compatibility.
-
-func transposeInt8Int8(src []int8, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint8(src []int8, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt8Int16(src []int8, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint16(src []int8, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt8Int32(src []int8, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint32(src []int8, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt8Int64(src []int8, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint64(src []int8, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint8Int8(src []uint8, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint8(src []uint8, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint8Int16(src []uint8, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint16(src []uint8, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint8Int32(src []uint8, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint32(src []uint8, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint8Int64(src []uint8, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint64(src []uint8, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt16Int8(src []int16, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint8(src []int16, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt16Int16(src []int16, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint16(src []int16, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt16Int32(src []int16, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint32(src []int16, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt16Int64(src []int16, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint64(src []int16, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint16Int8(src []uint16, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint8(src []uint16, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint16Int16(src []uint16, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint16(src []uint16, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint16Int32(src []uint16, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint32(src []uint16, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint16Int64(src []uint16, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint64(src []uint16, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt32Int8(src []int32, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint8(src []int32, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt32Int16(src []int32, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint16(src []int32, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt32Int32(src []int32, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint32(src []int32, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt32Int64(src []int32, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint64(src []int32, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint32Int8(src []uint32, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint8(src []uint32, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint32Int16(src []uint32, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint16(src []uint32, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint32Int32(src []uint32, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint32(src []uint32, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint32Int64(src []uint32, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint64(src []uint32, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt64Int8(src []int64, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint8(src []int64, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt64Int16(src []int64, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint16(src []int64, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt64Int32(src []int64, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint32(src []int64, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt64Int64(src []int64, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint64(src []int64, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint64Int8(src []uint64, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint8(src []uint64, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint64Int16(src []uint64, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint16(src []uint64, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint64Int32(src []uint64, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint32(src []uint64, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint64Int64(src []uint64, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint64(src []uint64, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
diff --git a/go/internal/utils/transpose_ints.go.tmpl b/go/internal/utils/transpose_ints.go.tmpl
deleted file mode 100644
index 680ae1ee71d0e..0000000000000
--- a/go/internal/utils/transpose_ints.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type }}
-{{ $srcName := .Name }}
-{{ range $typelist }}
-{{ $dest := .Type }}
-{{ $destName := .Name }}
-
-func transpose{{ $srcName }}{{ $destName }}(src []{{$src}}, dest []{{$dest}}, transposeMap []int32) {
-    for i, s := range src {
-        dest[i] = {{ $dest }}(transposeMap[s])
-    }
-}
-
-{{ end }}
-{{ end }}
diff --git a/go/internal/utils/transpose_ints.tmpldata b/go/internal/utils/transpose_ints.tmpldata
deleted file mode 100644
index 72eaf300c415c..0000000000000
--- a/go/internal/utils/transpose_ints.tmpldata
+++ /dev/null
@@ -1,34 +0,0 @@
-[
-    {
-        "Name": "Int8",
-        "Type": "int8"
-    },
-    {
-        "Name": "Uint8",
-        "Type": "uint8"
-    },
-    {
-        "Name": "Int16",
-        "Type": "int16"
-    },
-    {
-        "Name": "Uint16",
-        "Type": "uint16"
-    },
-    {
-        "Name": "Int32",
-        "Type": "int32"
-    },
-    {
-        "Name": "Uint32",
-        "Type": "uint32"
-    },
-    {
-        "Name": "Int64",
-        "Type": "int64"
-    },
-    {
-        "Name": "Uint64",
-        "Type": "uint64"
-    }
-]
diff --git a/go/internal/utils/transpose_ints_amd64.go b/go/internal/utils/transpose_ints_amd64.go
deleted file mode 100644
index d4433d3687102..0000000000000
--- a/go/internal/utils/transpose_ints_amd64.go
+++ /dev/null
@@ -1,325 +0,0 @@
-// Code generated by transpose_ints_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-var (
-	TransposeInt8Int8   func([]int8, []int8, []int32)
-	TransposeInt8Uint8  func([]int8, []uint8, []int32)
-	TransposeInt8Int16  func([]int8, []int16, []int32)
-	TransposeInt8Uint16 func([]int8, []uint16, []int32)
-	TransposeInt8Int32  func([]int8, []int32, []int32)
-	TransposeInt8Uint32 func([]int8, []uint32, []int32)
-	TransposeInt8Int64  func([]int8, []int64, []int32)
-	TransposeInt8Uint64 func([]int8, []uint64, []int32)
-
-	TransposeUint8Int8   func([]uint8, []int8, []int32)
-	TransposeUint8Uint8  func([]uint8, []uint8, []int32)
-	TransposeUint8Int16  func([]uint8, []int16, []int32)
-	TransposeUint8Uint16 func([]uint8, []uint16, []int32)
-	TransposeUint8Int32  func([]uint8, []int32, []int32)
-	TransposeUint8Uint32 func([]uint8, []uint32, []int32)
-	TransposeUint8Int64  func([]uint8, []int64, []int32)
-	TransposeUint8Uint64 func([]uint8, []uint64, []int32)
-
-	TransposeInt16Int8   func([]int16, []int8, []int32)
-	TransposeInt16Uint8  func([]int16, []uint8, []int32)
-	TransposeInt16Int16  func([]int16, []int16, []int32)
-	TransposeInt16Uint16 func([]int16, []uint16, []int32)
-	TransposeInt16Int32  func([]int16, []int32, []int32)
-	TransposeInt16Uint32 func([]int16, []uint32, []int32)
-	TransposeInt16Int64  func([]int16, []int64, []int32)
-	TransposeInt16Uint64 func([]int16, []uint64, []int32)
-
-	TransposeUint16Int8   func([]uint16, []int8, []int32)
-	TransposeUint16Uint8  func([]uint16, []uint8, []int32)
-	TransposeUint16Int16  func([]uint16, []int16, []int32)
-	TransposeUint16Uint16 func([]uint16, []uint16, []int32)
-	TransposeUint16Int32  func([]uint16, []int32, []int32)
-	TransposeUint16Uint32 func([]uint16, []uint32, []int32)
-	TransposeUint16Int64  func([]uint16, []int64, []int32)
-	TransposeUint16Uint64 func([]uint16, []uint64, []int32)
-
-	TransposeInt32Int8   func([]int32, []int8, []int32)
-	TransposeInt32Uint8  func([]int32, []uint8, []int32)
-	TransposeInt32Int16  func([]int32, []int16, []int32)
-	TransposeInt32Uint16 func([]int32, []uint16, []int32)
-	TransposeInt32Int32  func([]int32, []int32, []int32)
-	TransposeInt32Uint32 func([]int32, []uint32, []int32)
-	TransposeInt32Int64  func([]int32, []int64, []int32)
-	TransposeInt32Uint64 func([]int32, []uint64, []int32)
-
-	TransposeUint32Int8   func([]uint32, []int8, []int32)
-	TransposeUint32Uint8  func([]uint32, []uint8, []int32)
-	TransposeUint32Int16  func([]uint32, []int16, []int32)
-	TransposeUint32Uint16 func([]uint32, []uint16, []int32)
-	TransposeUint32Int32  func([]uint32, []int32, []int32)
-	TransposeUint32Uint32 func([]uint32, []uint32, []int32)
-	TransposeUint32Int64  func([]uint32, []int64, []int32)
-	TransposeUint32Uint64 func([]uint32, []uint64, []int32)
-
-	TransposeInt64Int8   func([]int64, []int8, []int32)
-	TransposeInt64Uint8  func([]int64, []uint8, []int32)
-	TransposeInt64Int16  func([]int64, []int16, []int32)
-	TransposeInt64Uint16 func([]int64, []uint16, []int32)
-	TransposeInt64Int32  func([]int64, []int32, []int32)
-	TransposeInt64Uint32 func([]int64, []uint32, []int32)
-	TransposeInt64Int64  func([]int64, []int64, []int32)
-	TransposeInt64Uint64 func([]int64, []uint64, []int32)
-
-	TransposeUint64Int8   func([]uint64, []int8, []int32)
-	TransposeUint64Uint8  func([]uint64, []uint8, []int32)
-	TransposeUint64Int16  func([]uint64, []int16, []int32)
-	TransposeUint64Uint16 func([]uint64, []uint16, []int32)
-	TransposeUint64Int32  func([]uint64, []int32, []int32)
-	TransposeUint64Uint32 func([]uint64, []uint32, []int32)
-	TransposeUint64Int64  func([]uint64, []int64, []int32)
-	TransposeUint64Uint64 func([]uint64, []uint64, []int32)
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-
-		TransposeInt8Int8 = transposeInt8Int8avx2
-		TransposeInt8Uint8 = transposeInt8Uint8avx2
-		TransposeInt8Int16 = transposeInt8Int16avx2
-		TransposeInt8Uint16 = transposeInt8Uint16avx2
-		TransposeInt8Int32 = transposeInt8Int32avx2
-		TransposeInt8Uint32 = transposeInt8Uint32avx2
-		TransposeInt8Int64 = transposeInt8Int64avx2
-		TransposeInt8Uint64 = transposeInt8Uint64avx2
-
-		TransposeUint8Int8 = transposeUint8Int8avx2
-		TransposeUint8Uint8 = transposeUint8Uint8avx2
-		TransposeUint8Int16 = transposeUint8Int16avx2
-		TransposeUint8Uint16 = transposeUint8Uint16avx2
-		TransposeUint8Int32 = transposeUint8Int32avx2
-		TransposeUint8Uint32 = transposeUint8Uint32avx2
-		TransposeUint8Int64 = transposeUint8Int64avx2
-		TransposeUint8Uint64 = transposeUint8Uint64avx2
-
-		TransposeInt16Int8 = transposeInt16Int8avx2
-		TransposeInt16Uint8 = transposeInt16Uint8avx2
-		TransposeInt16Int16 = transposeInt16Int16avx2
-		TransposeInt16Uint16 = transposeInt16Uint16avx2
-		TransposeInt16Int32 = transposeInt16Int32avx2
-		TransposeInt16Uint32 = transposeInt16Uint32avx2
-		TransposeInt16Int64 = transposeInt16Int64avx2
-		TransposeInt16Uint64 = transposeInt16Uint64avx2
-
-		TransposeUint16Int8 = transposeUint16Int8avx2
-		TransposeUint16Uint8 = transposeUint16Uint8avx2
-		TransposeUint16Int16 = transposeUint16Int16avx2
-		TransposeUint16Uint16 = transposeUint16Uint16avx2
-		TransposeUint16Int32 = transposeUint16Int32avx2
-		TransposeUint16Uint32 = transposeUint16Uint32avx2
-		TransposeUint16Int64 = transposeUint16Int64avx2
-		TransposeUint16Uint64 = transposeUint16Uint64avx2
-
-		TransposeInt32Int8 = transposeInt32Int8avx2
-		TransposeInt32Uint8 = transposeInt32Uint8avx2
-		TransposeInt32Int16 = transposeInt32Int16avx2
-		TransposeInt32Uint16 = transposeInt32Uint16avx2
-		TransposeInt32Int32 = transposeInt32Int32avx2
-		TransposeInt32Uint32 = transposeInt32Uint32avx2
-		TransposeInt32Int64 = transposeInt32Int64avx2
-		TransposeInt32Uint64 = transposeInt32Uint64avx2
-
-		TransposeUint32Int8 = transposeUint32Int8avx2
-		TransposeUint32Uint8 = transposeUint32Uint8avx2
-		TransposeUint32Int16 = transposeUint32Int16avx2
-		TransposeUint32Uint16 = transposeUint32Uint16avx2
-		TransposeUint32Int32 = transposeUint32Int32avx2
-		TransposeUint32Uint32 = transposeUint32Uint32avx2
-		TransposeUint32Int64 = transposeUint32Int64avx2
-		TransposeUint32Uint64 = transposeUint32Uint64avx2
-
-		TransposeInt64Int8 = transposeInt64Int8avx2
-		TransposeInt64Uint8 = transposeInt64Uint8avx2
-		TransposeInt64Int16 = transposeInt64Int16avx2
-		TransposeInt64Uint16 = transposeInt64Uint16avx2
-		TransposeInt64Int32 = transposeInt64Int32avx2
-		TransposeInt64Uint32 = transposeInt64Uint32avx2
-		TransposeInt64Int64 = transposeInt64Int64avx2
-		TransposeInt64Uint64 = transposeInt64Uint64avx2
-
-		TransposeUint64Int8 = transposeUint64Int8avx2
-		TransposeUint64Uint8 = transposeUint64Uint8avx2
-		TransposeUint64Int16 = transposeUint64Int16avx2
-		TransposeUint64Uint16 = transposeUint64Uint16avx2
-		TransposeUint64Int32 = transposeUint64Int32avx2
-		TransposeUint64Uint32 = transposeUint64Uint32avx2
-		TransposeUint64Int64 = transposeUint64Int64avx2
-		TransposeUint64Uint64 = transposeUint64Uint64avx2
-
-	} else if cpu.X86.HasSSE42 {
-
-		TransposeInt8Int8 = transposeInt8Int8sse4
-		TransposeInt8Uint8 = transposeInt8Uint8sse4
-		TransposeInt8Int16 = transposeInt8Int16sse4
-		TransposeInt8Uint16 = transposeInt8Uint16sse4
-		TransposeInt8Int32 = transposeInt8Int32sse4
-		TransposeInt8Uint32 = transposeInt8Uint32sse4
-		TransposeInt8Int64 = transposeInt8Int64sse4
-		TransposeInt8Uint64 = transposeInt8Uint64sse4
-
-		TransposeUint8Int8 = transposeUint8Int8sse4
-		TransposeUint8Uint8 = transposeUint8Uint8sse4
-		TransposeUint8Int16 = transposeUint8Int16sse4
-		TransposeUint8Uint16 = transposeUint8Uint16sse4
-		TransposeUint8Int32 = transposeUint8Int32sse4
-		TransposeUint8Uint32 = transposeUint8Uint32sse4
-		TransposeUint8Int64 = transposeUint8Int64sse4
-		TransposeUint8Uint64 = transposeUint8Uint64sse4
-
-		TransposeInt16Int8 = transposeInt16Int8sse4
-		TransposeInt16Uint8 = transposeInt16Uint8sse4
-		TransposeInt16Int16 = transposeInt16Int16sse4
-		TransposeInt16Uint16 = transposeInt16Uint16sse4
-		TransposeInt16Int32 = transposeInt16Int32sse4
-		TransposeInt16Uint32 = transposeInt16Uint32sse4
-		TransposeInt16Int64 = transposeInt16Int64sse4
-		TransposeInt16Uint64 = transposeInt16Uint64sse4
-
-		TransposeUint16Int8 = transposeUint16Int8sse4
-		TransposeUint16Uint8 = transposeUint16Uint8sse4
-		TransposeUint16Int16 = transposeUint16Int16sse4
-		TransposeUint16Uint16 = transposeUint16Uint16sse4
-		TransposeUint16Int32 = transposeUint16Int32sse4
-		TransposeUint16Uint32 = transposeUint16Uint32sse4
-		TransposeUint16Int64 = transposeUint16Int64sse4
-		TransposeUint16Uint64 = transposeUint16Uint64sse4
-
-		TransposeInt32Int8 = transposeInt32Int8sse4
-		TransposeInt32Uint8 = transposeInt32Uint8sse4
-		TransposeInt32Int16 = transposeInt32Int16sse4
-		TransposeInt32Uint16 = transposeInt32Uint16sse4
-		TransposeInt32Int32 = transposeInt32Int32sse4
-		TransposeInt32Uint32 = transposeInt32Uint32sse4
-		TransposeInt32Int64 = transposeInt32Int64sse4
-		TransposeInt32Uint64 = transposeInt32Uint64sse4
-
-		TransposeUint32Int8 = transposeUint32Int8sse4
-		TransposeUint32Uint8 = transposeUint32Uint8sse4
-		TransposeUint32Int16 = transposeUint32Int16sse4
-		TransposeUint32Uint16 = transposeUint32Uint16sse4
-		TransposeUint32Int32 = transposeUint32Int32sse4
-		TransposeUint32Uint32 = transposeUint32Uint32sse4
-		TransposeUint32Int64 = transposeUint32Int64sse4
-		TransposeUint32Uint64 = transposeUint32Uint64sse4
-
-		TransposeInt64Int8 = transposeInt64Int8sse4
-		TransposeInt64Uint8 = transposeInt64Uint8sse4
-		TransposeInt64Int16 = transposeInt64Int16sse4
-		TransposeInt64Uint16 = transposeInt64Uint16sse4
-		TransposeInt64Int32 = transposeInt64Int32sse4
-		TransposeInt64Uint32 = transposeInt64Uint32sse4
-		TransposeInt64Int64 = transposeInt64Int64sse4
-		TransposeInt64Uint64 = transposeInt64Uint64sse4
-
-		TransposeUint64Int8 = transposeUint64Int8sse4
-		TransposeUint64Uint8 = transposeUint64Uint8sse4
-		TransposeUint64Int16 = transposeUint64Int16sse4
-		TransposeUint64Uint16 = transposeUint64Uint16sse4
-		TransposeUint64Int32 = transposeUint64Int32sse4
-		TransposeUint64Uint32 = transposeUint64Uint32sse4
-		TransposeUint64Int64 = transposeUint64Int64sse4
-		TransposeUint64Uint64 = transposeUint64Uint64sse4
-
-	} else {
-
-		TransposeInt8Int8 = transposeInt8Int8
-		TransposeInt8Uint8 = transposeInt8Uint8
-		TransposeInt8Int16 = transposeInt8Int16
-		TransposeInt8Uint16 = transposeInt8Uint16
-		TransposeInt8Int32 = transposeInt8Int32
-		TransposeInt8Uint32 = transposeInt8Uint32
-		TransposeInt8Int64 = transposeInt8Int64
-		TransposeInt8Uint64 = transposeInt8Uint64
-
-		TransposeUint8Int8 = transposeUint8Int8
-		TransposeUint8Uint8 = transposeUint8Uint8
-		TransposeUint8Int16 = transposeUint8Int16
-		TransposeUint8Uint16 = transposeUint8Uint16
-		TransposeUint8Int32 = transposeUint8Int32
-		TransposeUint8Uint32 = transposeUint8Uint32
-		TransposeUint8Int64 = transposeUint8Int64
-		TransposeUint8Uint64 = transposeUint8Uint64
-
-		TransposeInt16Int8 = transposeInt16Int8
-		TransposeInt16Uint8 = transposeInt16Uint8
-		TransposeInt16Int16 = transposeInt16Int16
-		TransposeInt16Uint16 = transposeInt16Uint16
-		TransposeInt16Int32 = transposeInt16Int32
-		TransposeInt16Uint32 = transposeInt16Uint32
-		TransposeInt16Int64 = transposeInt16Int64
-		TransposeInt16Uint64 = transposeInt16Uint64
-
-		TransposeUint16Int8 = transposeUint16Int8
-		TransposeUint16Uint8 = transposeUint16Uint8
-		TransposeUint16Int16 = transposeUint16Int16
-		TransposeUint16Uint16 = transposeUint16Uint16
-		TransposeUint16Int32 = transposeUint16Int32
-		TransposeUint16Uint32 = transposeUint16Uint32
-		TransposeUint16Int64 = transposeUint16Int64
-		TransposeUint16Uint64 = transposeUint16Uint64
-
-		TransposeInt32Int8 = transposeInt32Int8
-		TransposeInt32Uint8 = transposeInt32Uint8
-		TransposeInt32Int16 = transposeInt32Int16
-		TransposeInt32Uint16 = transposeInt32Uint16
-		TransposeInt32Int32 = transposeInt32Int32
-		TransposeInt32Uint32 = transposeInt32Uint32
-		TransposeInt32Int64 = transposeInt32Int64
-		TransposeInt32Uint64 = transposeInt32Uint64
-
-		TransposeUint32Int8 = transposeUint32Int8
-		TransposeUint32Uint8 = transposeUint32Uint8
-		TransposeUint32Int16 = transposeUint32Int16
-		TransposeUint32Uint16 = transposeUint32Uint16
-		TransposeUint32Int32 = transposeUint32Int32
-		TransposeUint32Uint32 = transposeUint32Uint32
-		TransposeUint32Int64 = transposeUint32Int64
-		TransposeUint32Uint64 = transposeUint32Uint64
-
-		TransposeInt64Int8 = transposeInt64Int8
-		TransposeInt64Uint8 = transposeInt64Uint8
-		TransposeInt64Int16 = transposeInt64Int16
-		TransposeInt64Uint16 = transposeInt64Uint16
-		TransposeInt64Int32 = transposeInt64Int32
-		TransposeInt64Uint32 = transposeInt64Uint32
-		TransposeInt64Int64 = transposeInt64Int64
-		TransposeInt64Uint64 = transposeInt64Uint64
-
-		TransposeUint64Int8 = transposeUint64Int8
-		TransposeUint64Uint8 = transposeUint64Uint8
-		TransposeUint64Int16 = transposeUint64Int16
-		TransposeUint64Uint16 = transposeUint64Uint16
-		TransposeUint64Int32 = transposeUint64Int32
-		TransposeUint64Uint32 = transposeUint64Uint32
-		TransposeUint64Int64 = transposeUint64Int64
-		TransposeUint64Uint64 = transposeUint64Uint64
-
-	}
-}
diff --git a/go/internal/utils/transpose_ints_amd64.go.tmpl b/go/internal/utils/transpose_ints_amd64.go.tmpl
deleted file mode 100644
index eac0208e5e1b5..0000000000000
--- a/go/internal/utils/transpose_ints_amd64.go.tmpl
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-    "golang.org/x/sys/cpu"
-)
-
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} func([]{{$src}}, []{{$dest}}, []int32)
-{{end}}
-{{end}}
-)
-
-
-func init() {
-    if cpu.X86.HasAVX2 {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}avx2
-{{end}}
-{{end}}
-    } else if cpu.X86.HasSSE42 {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}sse4
-{{end}}
-{{end}}    
-    } else {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}
-{{end}}
-{{end}}    
-    }
-}
diff --git a/go/internal/utils/transpose_ints_arm64.go b/go/internal/utils/transpose_ints_arm64.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_arm64.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_avx2_amd64.go b/go/internal/utils/transpose_ints_avx2_amd64.go
deleted file mode 100644
index f1421ddf5edb7..0000000000000
--- a/go/internal/utils/transpose_ints_avx2_amd64.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Code generated by transpose_ints_simd.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _transpose_int8_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int8avx2(src []int8, dest []int8, transposeMap []int32) {
-	_transpose_int8_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint8avx2(src []int8, dest []uint8, transposeMap []int32) {
-	_transpose_int8_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int16avx2(src []int8, dest []int16, transposeMap []int32) {
-	_transpose_int8_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint16avx2(src []int8, dest []uint16, transposeMap []int32) {
-	_transpose_int8_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int32avx2(src []int8, dest []int32, transposeMap []int32) {
-	_transpose_int8_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint32avx2(src []int8, dest []uint32, transposeMap []int32) {
-	_transpose_int8_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int64avx2(src []int8, dest []int64, transposeMap []int32) {
-	_transpose_int8_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint64avx2(src []int8, dest []uint64, transposeMap []int32) {
-	_transpose_int8_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int8avx2(src []uint8, dest []int8, transposeMap []int32) {
-	_transpose_uint8_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint8avx2(src []uint8, dest []uint8, transposeMap []int32) {
-	_transpose_uint8_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int16avx2(src []uint8, dest []int16, transposeMap []int32) {
-	_transpose_uint8_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint16avx2(src []uint8, dest []uint16, transposeMap []int32) {
-	_transpose_uint8_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int32avx2(src []uint8, dest []int32, transposeMap []int32) {
-	_transpose_uint8_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint32avx2(src []uint8, dest []uint32, transposeMap []int32) {
-	_transpose_uint8_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int64avx2(src []uint8, dest []int64, transposeMap []int32) {
-	_transpose_uint8_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint64avx2(src []uint8, dest []uint64, transposeMap []int32) {
-	_transpose_uint8_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int8avx2(src []int16, dest []int8, transposeMap []int32) {
-	_transpose_int16_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint8avx2(src []int16, dest []uint8, transposeMap []int32) {
-	_transpose_int16_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int16avx2(src []int16, dest []int16, transposeMap []int32) {
-	_transpose_int16_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint16avx2(src []int16, dest []uint16, transposeMap []int32) {
-	_transpose_int16_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int32avx2(src []int16, dest []int32, transposeMap []int32) {
-	_transpose_int16_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint32avx2(src []int16, dest []uint32, transposeMap []int32) {
-	_transpose_int16_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int64avx2(src []int16, dest []int64, transposeMap []int32) {
-	_transpose_int16_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint64avx2(src []int16, dest []uint64, transposeMap []int32) {
-	_transpose_int16_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int8avx2(src []uint16, dest []int8, transposeMap []int32) {
-	_transpose_uint16_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint8avx2(src []uint16, dest []uint8, transposeMap []int32) {
-	_transpose_uint16_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int16avx2(src []uint16, dest []int16, transposeMap []int32) {
-	_transpose_uint16_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint16avx2(src []uint16, dest []uint16, transposeMap []int32) {
-	_transpose_uint16_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int32avx2(src []uint16, dest []int32, transposeMap []int32) {
-	_transpose_uint16_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint32avx2(src []uint16, dest []uint32, transposeMap []int32) {
-	_transpose_uint16_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int64avx2(src []uint16, dest []int64, transposeMap []int32) {
-	_transpose_uint16_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint64avx2(src []uint16, dest []uint64, transposeMap []int32) {
-	_transpose_uint16_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int8avx2(src []int32, dest []int8, transposeMap []int32) {
-	_transpose_int32_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint8avx2(src []int32, dest []uint8, transposeMap []int32) {
-	_transpose_int32_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int16avx2(src []int32, dest []int16, transposeMap []int32) {
-	_transpose_int32_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint16avx2(src []int32, dest []uint16, transposeMap []int32) {
-	_transpose_int32_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int32avx2(src []int32, dest []int32, transposeMap []int32) {
-	_transpose_int32_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint32avx2(src []int32, dest []uint32, transposeMap []int32) {
-	_transpose_int32_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int64avx2(src []int32, dest []int64, transposeMap []int32) {
-	_transpose_int32_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint64avx2(src []int32, dest []uint64, transposeMap []int32) {
-	_transpose_int32_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int8avx2(src []uint32, dest []int8, transposeMap []int32) {
-	_transpose_uint32_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint8avx2(src []uint32, dest []uint8, transposeMap []int32) {
-	_transpose_uint32_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int16avx2(src []uint32, dest []int16, transposeMap []int32) {
-	_transpose_uint32_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint16avx2(src []uint32, dest []uint16, transposeMap []int32) {
-	_transpose_uint32_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int32avx2(src []uint32, dest []int32, transposeMap []int32) {
-	_transpose_uint32_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint32avx2(src []uint32, dest []uint32, transposeMap []int32) {
-	_transpose_uint32_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int64avx2(src []uint32, dest []int64, transposeMap []int32) {
-	_transpose_uint32_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint64avx2(src []uint32, dest []uint64, transposeMap []int32) {
-	_transpose_uint32_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int8avx2(src []int64, dest []int8, transposeMap []int32) {
-	_transpose_int64_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint8avx2(src []int64, dest []uint8, transposeMap []int32) {
-	_transpose_int64_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int16avx2(src []int64, dest []int16, transposeMap []int32) {
-	_transpose_int64_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint16avx2(src []int64, dest []uint16, transposeMap []int32) {
-	_transpose_int64_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int32avx2(src []int64, dest []int32, transposeMap []int32) {
-	_transpose_int64_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint32avx2(src []int64, dest []uint32, transposeMap []int32) {
-	_transpose_int64_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int64avx2(src []int64, dest []int64, transposeMap []int32) {
-	_transpose_int64_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint64avx2(src []int64, dest []uint64, transposeMap []int32) {
-	_transpose_int64_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int8avx2(src []uint64, dest []int8, transposeMap []int32) {
-	_transpose_uint64_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint8avx2(src []uint64, dest []uint8, transposeMap []int32) {
-	_transpose_uint64_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int16avx2(src []uint64, dest []int16, transposeMap []int32) {
-	_transpose_uint64_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint16avx2(src []uint64, dest []uint16, transposeMap []int32) {
-	_transpose_uint64_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int32avx2(src []uint64, dest []int32, transposeMap []int32) {
-	_transpose_uint64_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint32avx2(src []uint64, dest []uint32, transposeMap []int32) {
-	_transpose_uint64_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int64avx2(src []uint64, dest []int64, transposeMap []int32) {
-	_transpose_uint64_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint64avx2(src []uint64, dest []uint64, transposeMap []int32) {
-	_transpose_uint64_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
diff --git a/go/internal/utils/transpose_ints_avx2_amd64.s b/go/internal/utils/transpose_ints_avx2_amd64.s
deleted file mode 100644
index fbcc101eb21a5..0000000000000
--- a/go/internal/utils/transpose_ints_avx2_amd64.s
+++ /dev/null
@@ -1,3074 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_transpose_uint8_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB0_1
-
-LBB0_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB0_5
-
-LBB0_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB0_3
-
-LBB0_4:
-	RET
-
-TEXT ·_transpose_int8_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB1_1
-
-LBB1_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB1_5
-
-LBB1_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB1_3
-
-LBB1_4:
-	RET
-
-TEXT ·_transpose_uint16_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB2_1
-
-LBB2_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB2_5
-
-LBB2_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB2_3
-
-LBB2_4:
-	RET
-
-TEXT ·_transpose_int16_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB3_1
-
-LBB3_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB3_5
-
-LBB3_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB3_3
-
-LBB3_4:
-	RET
-
-TEXT ·_transpose_uint32_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB4_1
-
-LBB4_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB4_5
-
-LBB4_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB4_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB4_3
-
-LBB4_4:
-	RET
-
-TEXT ·_transpose_int32_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB5_1
-
-LBB5_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB5_5
-
-LBB5_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB5_3
-
-LBB5_4:
-	RET
-
-TEXT ·_transpose_uint64_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB6_1
-
-LBB6_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB6_5
-
-LBB6_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB6_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB6_3
-
-LBB6_4:
-	RET
-
-TEXT ·_transpose_int64_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB7_1
-
-LBB7_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB7_5
-
-LBB7_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB7_3
-
-LBB7_4:
-	RET
-
-TEXT ·_transpose_uint8_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB8_1
-
-LBB8_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB8_5
-
-LBB8_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB8_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB8_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB8_3
-
-LBB8_4:
-	RET
-
-TEXT ·_transpose_int8_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB9_1
-
-LBB9_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB9_5
-
-LBB9_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB9_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB9_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB9_3
-
-LBB9_4:
-	RET
-
-TEXT ·_transpose_uint16_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB10_1
-
-LBB10_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB10_5
-
-LBB10_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB10_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB10_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB10_3
-
-LBB10_4:
-	RET
-
-TEXT ·_transpose_int16_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB11_1
-
-LBB11_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB11_5
-
-LBB11_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB11_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB11_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB11_3
-
-LBB11_4:
-	RET
-
-TEXT ·_transpose_uint32_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB12_1
-
-LBB12_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB12_5
-
-LBB12_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB12_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB12_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB12_3
-
-LBB12_4:
-	RET
-
-TEXT ·_transpose_int32_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB13_1
-
-LBB13_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB13_5
-
-LBB13_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB13_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB13_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB13_3
-
-LBB13_4:
-	RET
-
-TEXT ·_transpose_uint64_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB14_1
-
-LBB14_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB14_5
-
-LBB14_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB14_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB14_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB14_3
-
-LBB14_4:
-	RET
-
-TEXT ·_transpose_int64_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB15_1
-
-LBB15_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB15_5
-
-LBB15_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB15_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB15_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB15_3
-
-LBB15_4:
-	RET
-
-TEXT ·_transpose_uint8_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB16_1
-
-LBB16_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB16_5
-
-LBB16_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB16_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB16_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB16_3
-
-LBB16_4:
-	RET
-
-TEXT ·_transpose_int8_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB17_1
-
-LBB17_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB17_5
-
-LBB17_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB17_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB17_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB17_3
-
-LBB17_4:
-	RET
-
-TEXT ·_transpose_uint16_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB18_1
-
-LBB18_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB18_5
-
-LBB18_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB18_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB18_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB18_3
-
-LBB18_4:
-	RET
-
-TEXT ·_transpose_int16_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB19_1
-
-LBB19_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB19_5
-
-LBB19_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB19_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB19_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB19_3
-
-LBB19_4:
-	RET
-
-TEXT ·_transpose_uint32_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB20_1
-
-LBB20_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB20_5
-
-LBB20_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB20_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB20_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB20_3
-
-LBB20_4:
-	RET
-
-TEXT ·_transpose_int32_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB21_1
-
-LBB21_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB21_5
-
-LBB21_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB21_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB21_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB21_3
-
-LBB21_4:
-	RET
-
-TEXT ·_transpose_uint64_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB22_1
-
-LBB22_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB22_5
-
-LBB22_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB22_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB22_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB22_3
-
-LBB22_4:
-	RET
-
-TEXT ·_transpose_int64_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB23_1
-
-LBB23_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB23_5
-
-LBB23_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB23_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB23_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB23_3
-
-LBB23_4:
-	RET
-
-TEXT ·_transpose_uint8_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB24_1
-
-LBB24_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB24_5
-
-LBB24_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB24_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB24_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB24_3
-
-LBB24_4:
-	RET
-
-TEXT ·_transpose_int8_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB25_1
-
-LBB25_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB25_5
-
-LBB25_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB25_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB25_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB25_3
-
-LBB25_4:
-	RET
-
-TEXT ·_transpose_uint16_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB26_1
-
-LBB26_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB26_5
-
-LBB26_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB26_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB26_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB26_3
-
-LBB26_4:
-	RET
-
-TEXT ·_transpose_int16_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB27_1
-
-LBB27_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB27_5
-
-LBB27_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB27_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB27_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB27_3
-
-LBB27_4:
-	RET
-
-TEXT ·_transpose_uint32_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB28_1
-
-LBB28_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB28_5
-
-LBB28_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB28_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB28_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB28_3
-
-LBB28_4:
-	RET
-
-TEXT ·_transpose_int32_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB29_1
-
-LBB29_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB29_5
-
-LBB29_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB29_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB29_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB29_3
-
-LBB29_4:
-	RET
-
-TEXT ·_transpose_uint64_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB30_1
-
-LBB30_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB30_5
-
-LBB30_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB30_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB30_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB30_3
-
-LBB30_4:
-	RET
-
-TEXT ·_transpose_int64_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB31_1
-
-LBB31_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB31_5
-
-LBB31_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB31_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB31_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB31_3
-
-LBB31_4:
-	RET
-
-TEXT ·_transpose_uint8_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB32_1
-
-LBB32_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB32_5
-
-LBB32_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB32_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB32_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB32_3
-
-LBB32_4:
-	RET
-
-TEXT ·_transpose_int8_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB33_1
-
-LBB33_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB33_5
-
-LBB33_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB33_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB33_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB33_3
-
-LBB33_4:
-	RET
-
-TEXT ·_transpose_uint16_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB34_1
-
-LBB34_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB34_5
-
-LBB34_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB34_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB34_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB34_3
-
-LBB34_4:
-	RET
-
-TEXT ·_transpose_int16_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB35_1
-
-LBB35_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB35_5
-
-LBB35_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB35_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB35_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB35_3
-
-LBB35_4:
-	RET
-
-TEXT ·_transpose_uint32_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB36_1
-
-LBB36_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB36_5
-
-LBB36_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB36_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB36_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB36_3
-
-LBB36_4:
-	RET
-
-TEXT ·_transpose_int32_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB37_1
-
-LBB37_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB37_5
-
-LBB37_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB37_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB37_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB37_3
-
-LBB37_4:
-	RET
-
-TEXT ·_transpose_uint64_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB38_1
-
-LBB38_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB38_5
-
-LBB38_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB38_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB38_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB38_3
-
-LBB38_4:
-	RET
-
-TEXT ·_transpose_int64_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB39_1
-
-LBB39_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB39_5
-
-LBB39_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB39_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB39_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB39_3
-
-LBB39_4:
-	RET
-
-TEXT ·_transpose_uint8_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB40_1
-
-LBB40_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB40_5
-
-LBB40_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB40_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB40_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB40_3
-
-LBB40_4:
-	RET
-
-TEXT ·_transpose_int8_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB41_1
-
-LBB41_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB41_5
-
-LBB41_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB41_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB41_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB41_3
-
-LBB41_4:
-	RET
-
-TEXT ·_transpose_uint16_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB42_1
-
-LBB42_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB42_5
-
-LBB42_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB42_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB42_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB42_3
-
-LBB42_4:
-	RET
-
-TEXT ·_transpose_int16_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB43_1
-
-LBB43_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB43_5
-
-LBB43_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB43_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB43_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB43_3
-
-LBB43_4:
-	RET
-
-TEXT ·_transpose_uint32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB44_1
-
-LBB44_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB44_5
-
-LBB44_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB44_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB44_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB44_3
-
-LBB44_4:
-	RET
-
-TEXT ·_transpose_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB45_1
-
-LBB45_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB45_5
-
-LBB45_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB45_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB45_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB45_3
-
-LBB45_4:
-	RET
-
-TEXT ·_transpose_uint64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB46_1
-
-LBB46_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB46_5
-
-LBB46_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB46_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB46_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB46_3
-
-LBB46_4:
-	RET
-
-TEXT ·_transpose_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB47_1
-
-LBB47_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB47_5
-
-LBB47_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB47_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB47_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB47_3
-
-LBB47_4:
-	RET
-
-TEXT ·_transpose_uint8_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB48_1
-
-LBB48_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB48_5
-
-LBB48_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB48_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB48_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB48_3
-
-LBB48_4:
-	RET
-
-TEXT ·_transpose_int8_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB49_1
-
-LBB49_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB49_5
-
-LBB49_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB49_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB49_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB49_3
-
-LBB49_4:
-	RET
-
-TEXT ·_transpose_uint16_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB50_1
-
-LBB50_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB50_5
-
-LBB50_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB50_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB50_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB50_3
-
-LBB50_4:
-	RET
-
-TEXT ·_transpose_int16_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB51_1
-
-LBB51_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB51_5
-
-LBB51_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB51_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB51_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB51_3
-
-LBB51_4:
-	RET
-
-TEXT ·_transpose_uint32_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB52_1
-
-LBB52_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB52_5
-
-LBB52_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB52_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB52_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB52_3
-
-LBB52_4:
-	RET
-
-TEXT ·_transpose_int32_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB53_1
-
-LBB53_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB53_5
-
-LBB53_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB53_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB53_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB53_3
-
-LBB53_4:
-	RET
-
-TEXT ·_transpose_uint64_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB54_1
-
-LBB54_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB54_5
-
-LBB54_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB54_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB54_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB54_3
-
-LBB54_4:
-	RET
-
-TEXT ·_transpose_int64_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB55_1
-
-LBB55_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB55_5
-
-LBB55_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB55_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB55_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB55_3
-
-LBB55_4:
-	RET
-
-TEXT ·_transpose_uint8_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB56_1
-
-LBB56_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB56_5
-
-LBB56_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB56_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB56_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB56_3
-
-LBB56_4:
-	RET
-
-TEXT ·_transpose_int8_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB57_1
-
-LBB57_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB57_5
-
-LBB57_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB57_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB57_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB57_3
-
-LBB57_4:
-	RET
-
-TEXT ·_transpose_uint16_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB58_1
-
-LBB58_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB58_5
-
-LBB58_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB58_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB58_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB58_3
-
-LBB58_4:
-	RET
-
-TEXT ·_transpose_int16_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB59_1
-
-LBB59_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB59_5
-
-LBB59_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB59_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB59_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB59_3
-
-LBB59_4:
-	RET
-
-TEXT ·_transpose_uint32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB60_1
-
-LBB60_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB60_5
-
-LBB60_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB60_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB60_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB60_3
-
-LBB60_4:
-	RET
-
-TEXT ·_transpose_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB61_1
-
-LBB61_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB61_5
-
-LBB61_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB61_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB61_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB61_3
-
-LBB61_4:
-	RET
-
-TEXT ·_transpose_uint64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB62_1
-
-LBB62_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB62_5
-
-LBB62_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB62_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB62_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB62_3
-
-LBB62_4:
-	RET
-
-TEXT ·_transpose_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB63_1
-
-LBB63_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB63_5
-
-LBB63_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB63_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB63_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB63_3
-
-LBB63_4:
-	RET
diff --git a/go/internal/utils/transpose_ints_def.go b/go/internal/utils/transpose_ints_def.go
deleted file mode 100644
index 2095b3d08c54b..0000000000000
--- a/go/internal/utils/transpose_ints_def.go
+++ /dev/null
@@ -1,227 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata -d arch=avx2 transpose_ints_simd.go.tmpl=transpose_ints_avx2_amd64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata -d arch=sse4 transpose_ints_simd.go.tmpl=transpose_ints_sse4_amd64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_s390x.go.tmpl=transpose_ints_s390x.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_s390x.go.tmpl=transpose_ints_arm64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_noasm.go.tmpl=transpose_ints_noasm.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints.go.tmpl=transpose_ints.go
-
-func bufToTyped(typ arrow.DataType, buf []byte, offset, length int) (interface{}, error) {
-	switch typ.ID() {
-	case arrow.INT8:
-		return arrow.Int8Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT16:
-		return arrow.Int16Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT32:
-		return arrow.Int32Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT64:
-		return arrow.Int64Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT8:
-		return arrow.Uint8Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT16:
-		return arrow.Uint16Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT32:
-		return arrow.Uint32Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT64:
-		return arrow.Uint64Traits.CastFromBytes(buf)[offset : offset+length], nil
-	}
-	return nil, errors.New("only accepts integral types")
-}
-
-// TransposeIntsBuffers takes the data-types, byte buffers, and offsets of a source and destination
-// buffer to perform TransposeInts on with the provided mapping data.
-func TransposeIntsBuffers(inType, outType arrow.DataType, indata, outdata []byte, inOffset, outOffset int, length int, transposeMap []int32) error {
-	src, err := bufToTyped(inType, indata, inOffset, length)
-	if err != nil {
-		return err
-	}
-	dest, err := bufToTyped(outType, outdata, outOffset, length)
-	if err != nil {
-		return err
-	}
-
-	return TransposeInts(src, dest, transposeMap)
-}
-
-// TransposeInts expects two integral slices and the values they map to. Returning
-// an error if either src or dest are not an integral type.
-func TransposeInts(src, dest interface{}, mapping []int32) error {
-	switch s := src.(type) {
-	case []int8:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt8Int8(s, d, mapping)
-		case []int16:
-			TransposeInt8Int16(s, d, mapping)
-		case []int32:
-			TransposeInt8Int32(s, d, mapping)
-		case []int64:
-			TransposeInt8Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt8Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt8Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt8Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt8Uint64(s, d, mapping)
-		}
-	case []int16:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt16Int8(s, d, mapping)
-		case []int16:
-			TransposeInt16Int16(s, d, mapping)
-		case []int32:
-			TransposeInt16Int32(s, d, mapping)
-		case []int64:
-			TransposeInt16Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt16Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt16Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt16Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt16Uint64(s, d, mapping)
-		}
-	case []int32:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt32Int8(s, d, mapping)
-		case []int16:
-			TransposeInt32Int16(s, d, mapping)
-		case []int32:
-			TransposeInt32Int32(s, d, mapping)
-		case []int64:
-			TransposeInt32Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt32Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt32Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt32Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt32Uint64(s, d, mapping)
-		}
-	case []int64:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt64Int8(s, d, mapping)
-		case []int16:
-			TransposeInt64Int16(s, d, mapping)
-		case []int32:
-			TransposeInt64Int32(s, d, mapping)
-		case []int64:
-			TransposeInt64Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt64Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt64Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt64Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt64Uint64(s, d, mapping)
-		}
-	case []uint8:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint8Int8(s, d, mapping)
-		case []int16:
-			TransposeUint8Int16(s, d, mapping)
-		case []int32:
-			TransposeUint8Int32(s, d, mapping)
-		case []int64:
-			TransposeUint8Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint8Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint8Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint8Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint8Uint64(s, d, mapping)
-		}
-	case []uint16:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint16Int8(s, d, mapping)
-		case []int16:
-			TransposeUint16Int16(s, d, mapping)
-		case []int32:
-			TransposeUint16Int32(s, d, mapping)
-		case []int64:
-			TransposeUint16Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint16Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint16Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint16Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint16Uint64(s, d, mapping)
-		}
-	case []uint32:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint32Int8(s, d, mapping)
-		case []int16:
-			TransposeUint32Int16(s, d, mapping)
-		case []int32:
-			TransposeUint32Int32(s, d, mapping)
-		case []int64:
-			TransposeUint32Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint32Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint32Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint32Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint32Uint64(s, d, mapping)
-		}
-	case []uint64:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint64Int8(s, d, mapping)
-		case []int16:
-			TransposeUint64Int16(s, d, mapping)
-		case []int32:
-			TransposeUint64Int32(s, d, mapping)
-		case []int64:
-			TransposeUint64Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint64Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint64Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint64Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint64Uint64(s, d, mapping)
-		}
-	}
-	return nil
-}
diff --git a/go/internal/utils/transpose_ints_noasm.go b/go/internal/utils/transpose_ints_noasm.go
deleted file mode 100644
index 461aaf31fb71e..0000000000000
--- a/go/internal/utils/transpose_ints_noasm.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm || (!amd64 && !arm64 && !s390x && !ppc64le)
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_noasm.go.tmpl b/go/internal/utils/transpose_ints_noasm.go.tmpl
deleted file mode 100644
index faffdce350cf7..0000000000000
--- a/go/internal/utils/transpose_ints_noasm.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} = transpose{{$srcName}}{{$destName}}
-{{end}}
-{{end}}
-)
diff --git a/go/internal/utils/transpose_ints_ppc64le.go b/go/internal/utils/transpose_ints_ppc64le.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_ppc64le.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_s390x.go b/go/internal/utils/transpose_ints_s390x.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_s390x.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_s390x.go.tmpl b/go/internal/utils/transpose_ints_s390x.go.tmpl
deleted file mode 100644
index d93c8779c7c86..0000000000000
--- a/go/internal/utils/transpose_ints_s390x.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} = transpose{{$srcName}}{{$destName}}
-{{end}}
-{{end}}
-)
diff --git a/go/internal/utils/transpose_ints_simd.go.tmpl b/go/internal/utils/transpose_ints_simd.go.tmpl
deleted file mode 100644
index 034d0e9d2d446..0000000000000
--- a/go/internal/utils/transpose_ints_simd.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-{{ $arch := .D.arch}}
-{{ $typelist := .In}}
-{{range .In}}
-{{ $src := .Type }}
-{{ $srcName := .Name }}
-{{ range $typelist}}
-{{ $dest := .Type }}
-{{ $destName := .Name }}
-
-//go:noescape
-func _transpose_{{printf "%s_%s_%s" $src $dest $arch}}(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transpose{{ $srcName }}{{ $destName }}{{ $arch }}(src []{{$src}}, dest []{{$dest}}, transposeMap []int32) {
-	_transpose_{{printf "%s_%s_%s" $src $dest $arch}}(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-{{ end }}
-{{ end }}
diff --git a/go/internal/utils/transpose_ints_sse4_amd64.go b/go/internal/utils/transpose_ints_sse4_amd64.go
deleted file mode 100644
index 241ca74a76737..0000000000000
--- a/go/internal/utils/transpose_ints_sse4_amd64.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Code generated by transpose_ints_simd.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _transpose_int8_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int8sse4(src []int8, dest []int8, transposeMap []int32) {
-	_transpose_int8_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint8sse4(src []int8, dest []uint8, transposeMap []int32) {
-	_transpose_int8_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int16sse4(src []int8, dest []int16, transposeMap []int32) {
-	_transpose_int8_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint16sse4(src []int8, dest []uint16, transposeMap []int32) {
-	_transpose_int8_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int32sse4(src []int8, dest []int32, transposeMap []int32) {
-	_transpose_int8_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint32sse4(src []int8, dest []uint32, transposeMap []int32) {
-	_transpose_int8_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int64sse4(src []int8, dest []int64, transposeMap []int32) {
-	_transpose_int8_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint64sse4(src []int8, dest []uint64, transposeMap []int32) {
-	_transpose_int8_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int8sse4(src []uint8, dest []int8, transposeMap []int32) {
-	_transpose_uint8_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint8sse4(src []uint8, dest []uint8, transposeMap []int32) {
-	_transpose_uint8_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int16sse4(src []uint8, dest []int16, transposeMap []int32) {
-	_transpose_uint8_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint16sse4(src []uint8, dest []uint16, transposeMap []int32) {
-	_transpose_uint8_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int32sse4(src []uint8, dest []int32, transposeMap []int32) {
-	_transpose_uint8_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint32sse4(src []uint8, dest []uint32, transposeMap []int32) {
-	_transpose_uint8_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int64sse4(src []uint8, dest []int64, transposeMap []int32) {
-	_transpose_uint8_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint64sse4(src []uint8, dest []uint64, transposeMap []int32) {
-	_transpose_uint8_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int8sse4(src []int16, dest []int8, transposeMap []int32) {
-	_transpose_int16_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint8sse4(src []int16, dest []uint8, transposeMap []int32) {
-	_transpose_int16_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int16sse4(src []int16, dest []int16, transposeMap []int32) {
-	_transpose_int16_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint16sse4(src []int16, dest []uint16, transposeMap []int32) {
-	_transpose_int16_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int32sse4(src []int16, dest []int32, transposeMap []int32) {
-	_transpose_int16_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint32sse4(src []int16, dest []uint32, transposeMap []int32) {
-	_transpose_int16_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int64sse4(src []int16, dest []int64, transposeMap []int32) {
-	_transpose_int16_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint64sse4(src []int16, dest []uint64, transposeMap []int32) {
-	_transpose_int16_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int8sse4(src []uint16, dest []int8, transposeMap []int32) {
-	_transpose_uint16_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint8sse4(src []uint16, dest []uint8, transposeMap []int32) {
-	_transpose_uint16_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int16sse4(src []uint16, dest []int16, transposeMap []int32) {
-	_transpose_uint16_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint16sse4(src []uint16, dest []uint16, transposeMap []int32) {
-	_transpose_uint16_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int32sse4(src []uint16, dest []int32, transposeMap []int32) {
-	_transpose_uint16_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint32sse4(src []uint16, dest []uint32, transposeMap []int32) {
-	_transpose_uint16_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int64sse4(src []uint16, dest []int64, transposeMap []int32) {
-	_transpose_uint16_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint64sse4(src []uint16, dest []uint64, transposeMap []int32) {
-	_transpose_uint16_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int8sse4(src []int32, dest []int8, transposeMap []int32) {
-	_transpose_int32_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint8sse4(src []int32, dest []uint8, transposeMap []int32) {
-	_transpose_int32_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int16sse4(src []int32, dest []int16, transposeMap []int32) {
-	_transpose_int32_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint16sse4(src []int32, dest []uint16, transposeMap []int32) {
-	_transpose_int32_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int32sse4(src []int32, dest []int32, transposeMap []int32) {
-	_transpose_int32_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint32sse4(src []int32, dest []uint32, transposeMap []int32) {
-	_transpose_int32_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int64sse4(src []int32, dest []int64, transposeMap []int32) {
-	_transpose_int32_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint64sse4(src []int32, dest []uint64, transposeMap []int32) {
-	_transpose_int32_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int8sse4(src []uint32, dest []int8, transposeMap []int32) {
-	_transpose_uint32_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint8sse4(src []uint32, dest []uint8, transposeMap []int32) {
-	_transpose_uint32_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int16sse4(src []uint32, dest []int16, transposeMap []int32) {
-	_transpose_uint32_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint16sse4(src []uint32, dest []uint16, transposeMap []int32) {
-	_transpose_uint32_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int32sse4(src []uint32, dest []int32, transposeMap []int32) {
-	_transpose_uint32_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint32sse4(src []uint32, dest []uint32, transposeMap []int32) {
-	_transpose_uint32_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int64sse4(src []uint32, dest []int64, transposeMap []int32) {
-	_transpose_uint32_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint64sse4(src []uint32, dest []uint64, transposeMap []int32) {
-	_transpose_uint32_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int8sse4(src []int64, dest []int8, transposeMap []int32) {
-	_transpose_int64_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint8sse4(src []int64, dest []uint8, transposeMap []int32) {
-	_transpose_int64_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int16sse4(src []int64, dest []int16, transposeMap []int32) {
-	_transpose_int64_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint16sse4(src []int64, dest []uint16, transposeMap []int32) {
-	_transpose_int64_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int32sse4(src []int64, dest []int32, transposeMap []int32) {
-	_transpose_int64_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint32sse4(src []int64, dest []uint32, transposeMap []int32) {
-	_transpose_int64_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int64sse4(src []int64, dest []int64, transposeMap []int32) {
-	_transpose_int64_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint64sse4(src []int64, dest []uint64, transposeMap []int32) {
-	_transpose_int64_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int8sse4(src []uint64, dest []int8, transposeMap []int32) {
-	_transpose_uint64_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint8sse4(src []uint64, dest []uint8, transposeMap []int32) {
-	_transpose_uint64_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int16sse4(src []uint64, dest []int16, transposeMap []int32) {
-	_transpose_uint64_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint16sse4(src []uint64, dest []uint16, transposeMap []int32) {
-	_transpose_uint64_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int32sse4(src []uint64, dest []int32, transposeMap []int32) {
-	_transpose_uint64_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint32sse4(src []uint64, dest []uint32, transposeMap []int32) {
-	_transpose_uint64_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int64sse4(src []uint64, dest []int64, transposeMap []int32) {
-	_transpose_uint64_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint64sse4(src []uint64, dest []uint64, transposeMap []int32) {
-	_transpose_uint64_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
diff --git a/go/internal/utils/transpose_ints_sse4_amd64.s b/go/internal/utils/transpose_ints_sse4_amd64.s
deleted file mode 100644
index ee5199a5a8491..0000000000000
--- a/go/internal/utils/transpose_ints_sse4_amd64.s
+++ /dev/null
@@ -1,3074 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_transpose_uint8_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB0_1
-
-LBB0_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB0_5
-
-LBB0_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB0_3
-
-LBB0_4:
-	RET
-
-TEXT ·_transpose_int8_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB1_1
-
-LBB1_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB1_5
-
-LBB1_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB1_3
-
-LBB1_4:
-	RET
-
-TEXT ·_transpose_uint16_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB2_1
-
-LBB2_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB2_5
-
-LBB2_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB2_3
-
-LBB2_4:
-	RET
-
-TEXT ·_transpose_int16_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB3_1
-
-LBB3_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB3_5
-
-LBB3_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB3_3
-
-LBB3_4:
-	RET
-
-TEXT ·_transpose_uint32_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB4_1
-
-LBB4_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB4_5
-
-LBB4_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB4_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB4_3
-
-LBB4_4:
-	RET
-
-TEXT ·_transpose_int32_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB5_1
-
-LBB5_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB5_5
-
-LBB5_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB5_3
-
-LBB5_4:
-	RET
-
-TEXT ·_transpose_uint64_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB6_1
-
-LBB6_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB6_5
-
-LBB6_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB6_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB6_3
-
-LBB6_4:
-	RET
-
-TEXT ·_transpose_int64_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB7_1
-
-LBB7_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB7_5
-
-LBB7_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB7_3
-
-LBB7_4:
-	RET
-
-TEXT ·_transpose_uint8_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB8_1
-
-LBB8_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB8_5
-
-LBB8_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB8_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB8_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB8_3
-
-LBB8_4:
-	RET
-
-TEXT ·_transpose_int8_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB9_1
-
-LBB9_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB9_5
-
-LBB9_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB9_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB9_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB9_3
-
-LBB9_4:
-	RET
-
-TEXT ·_transpose_uint16_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB10_1
-
-LBB10_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB10_5
-
-LBB10_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB10_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB10_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB10_3
-
-LBB10_4:
-	RET
-
-TEXT ·_transpose_int16_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB11_1
-
-LBB11_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB11_5
-
-LBB11_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB11_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB11_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB11_3
-
-LBB11_4:
-	RET
-
-TEXT ·_transpose_uint32_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB12_1
-
-LBB12_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB12_5
-
-LBB12_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB12_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB12_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB12_3
-
-LBB12_4:
-	RET
-
-TEXT ·_transpose_int32_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB13_1
-
-LBB13_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB13_5
-
-LBB13_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB13_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB13_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB13_3
-
-LBB13_4:
-	RET
-
-TEXT ·_transpose_uint64_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB14_1
-
-LBB14_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB14_5
-
-LBB14_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB14_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB14_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB14_3
-
-LBB14_4:
-	RET
-
-TEXT ·_transpose_int64_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB15_1
-
-LBB15_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB15_5
-
-LBB15_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB15_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB15_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB15_3
-
-LBB15_4:
-	RET
-
-TEXT ·_transpose_uint8_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB16_1
-
-LBB16_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB16_5
-
-LBB16_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB16_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB16_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB16_3
-
-LBB16_4:
-	RET
-
-TEXT ·_transpose_int8_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB17_1
-
-LBB17_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB17_5
-
-LBB17_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB17_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB17_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB17_3
-
-LBB17_4:
-	RET
-
-TEXT ·_transpose_uint16_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB18_1
-
-LBB18_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB18_5
-
-LBB18_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB18_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB18_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB18_3
-
-LBB18_4:
-	RET
-
-TEXT ·_transpose_int16_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB19_1
-
-LBB19_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB19_5
-
-LBB19_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB19_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB19_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB19_3
-
-LBB19_4:
-	RET
-
-TEXT ·_transpose_uint32_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB20_1
-
-LBB20_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB20_5
-
-LBB20_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB20_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB20_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB20_3
-
-LBB20_4:
-	RET
-
-TEXT ·_transpose_int32_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB21_1
-
-LBB21_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB21_5
-
-LBB21_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB21_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB21_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB21_3
-
-LBB21_4:
-	RET
-
-TEXT ·_transpose_uint64_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB22_1
-
-LBB22_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB22_5
-
-LBB22_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB22_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB22_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB22_3
-
-LBB22_4:
-	RET
-
-TEXT ·_transpose_int64_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB23_1
-
-LBB23_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB23_5
-
-LBB23_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB23_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB23_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB23_3
-
-LBB23_4:
-	RET
-
-TEXT ·_transpose_uint8_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB24_1
-
-LBB24_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB24_5
-
-LBB24_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB24_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB24_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB24_3
-
-LBB24_4:
-	RET
-
-TEXT ·_transpose_int8_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB25_1
-
-LBB25_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB25_5
-
-LBB25_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB25_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB25_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB25_3
-
-LBB25_4:
-	RET
-
-TEXT ·_transpose_uint16_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB26_1
-
-LBB26_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB26_5
-
-LBB26_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB26_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB26_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB26_3
-
-LBB26_4:
-	RET
-
-TEXT ·_transpose_int16_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB27_1
-
-LBB27_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB27_5
-
-LBB27_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB27_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB27_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB27_3
-
-LBB27_4:
-	RET
-
-TEXT ·_transpose_uint32_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB28_1
-
-LBB28_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB28_5
-
-LBB28_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB28_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB28_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB28_3
-
-LBB28_4:
-	RET
-
-TEXT ·_transpose_int32_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB29_1
-
-LBB29_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB29_5
-
-LBB29_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB29_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB29_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB29_3
-
-LBB29_4:
-	RET
-
-TEXT ·_transpose_uint64_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB30_1
-
-LBB30_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB30_5
-
-LBB30_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB30_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB30_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB30_3
-
-LBB30_4:
-	RET
-
-TEXT ·_transpose_int64_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB31_1
-
-LBB31_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB31_5
-
-LBB31_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB31_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB31_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB31_3
-
-LBB31_4:
-	RET
-
-TEXT ·_transpose_uint8_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB32_1
-
-LBB32_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB32_5
-
-LBB32_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB32_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB32_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB32_3
-
-LBB32_4:
-	RET
-
-TEXT ·_transpose_int8_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB33_1
-
-LBB33_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB33_5
-
-LBB33_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB33_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB33_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB33_3
-
-LBB33_4:
-	RET
-
-TEXT ·_transpose_uint16_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB34_1
-
-LBB34_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB34_5
-
-LBB34_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB34_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB34_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB34_3
-
-LBB34_4:
-	RET
-
-TEXT ·_transpose_int16_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB35_1
-
-LBB35_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB35_5
-
-LBB35_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB35_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB35_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB35_3
-
-LBB35_4:
-	RET
-
-TEXT ·_transpose_uint32_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB36_1
-
-LBB36_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB36_5
-
-LBB36_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB36_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB36_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB36_3
-
-LBB36_4:
-	RET
-
-TEXT ·_transpose_int32_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB37_1
-
-LBB37_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB37_5
-
-LBB37_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB37_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB37_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB37_3
-
-LBB37_4:
-	RET
-
-TEXT ·_transpose_uint64_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB38_1
-
-LBB38_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB38_5
-
-LBB38_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB38_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB38_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB38_3
-
-LBB38_4:
-	RET
-
-TEXT ·_transpose_int64_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB39_1
-
-LBB39_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB39_5
-
-LBB39_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB39_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB39_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB39_3
-
-LBB39_4:
-	RET
-
-TEXT ·_transpose_uint8_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB40_1
-
-LBB40_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB40_5
-
-LBB40_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB40_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB40_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB40_3
-
-LBB40_4:
-	RET
-
-TEXT ·_transpose_int8_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB41_1
-
-LBB41_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB41_5
-
-LBB41_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB41_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB41_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB41_3
-
-LBB41_4:
-	RET
-
-TEXT ·_transpose_uint16_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB42_1
-
-LBB42_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB42_5
-
-LBB42_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB42_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB42_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB42_3
-
-LBB42_4:
-	RET
-
-TEXT ·_transpose_int16_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB43_1
-
-LBB43_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB43_5
-
-LBB43_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB43_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB43_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB43_3
-
-LBB43_4:
-	RET
-
-TEXT ·_transpose_uint32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB44_1
-
-LBB44_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB44_5
-
-LBB44_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB44_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB44_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB44_3
-
-LBB44_4:
-	RET
-
-TEXT ·_transpose_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB45_1
-
-LBB45_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB45_5
-
-LBB45_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB45_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB45_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB45_3
-
-LBB45_4:
-	RET
-
-TEXT ·_transpose_uint64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB46_1
-
-LBB46_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB46_5
-
-LBB46_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB46_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB46_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB46_3
-
-LBB46_4:
-	RET
-
-TEXT ·_transpose_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB47_1
-
-LBB47_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB47_5
-
-LBB47_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB47_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB47_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB47_3
-
-LBB47_4:
-	RET
-
-TEXT ·_transpose_uint8_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB48_1
-
-LBB48_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB48_5
-
-LBB48_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB48_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB48_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB48_3
-
-LBB48_4:
-	RET
-
-TEXT ·_transpose_int8_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB49_1
-
-LBB49_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB49_5
-
-LBB49_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB49_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB49_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB49_3
-
-LBB49_4:
-	RET
-
-TEXT ·_transpose_uint16_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB50_1
-
-LBB50_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB50_5
-
-LBB50_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB50_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB50_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB50_3
-
-LBB50_4:
-	RET
-
-TEXT ·_transpose_int16_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB51_1
-
-LBB51_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB51_5
-
-LBB51_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB51_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB51_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB51_3
-
-LBB51_4:
-	RET
-
-TEXT ·_transpose_uint32_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB52_1
-
-LBB52_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB52_5
-
-LBB52_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB52_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB52_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB52_3
-
-LBB52_4:
-	RET
-
-TEXT ·_transpose_int32_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB53_1
-
-LBB53_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB53_5
-
-LBB53_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB53_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB53_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB53_3
-
-LBB53_4:
-	RET
-
-TEXT ·_transpose_uint64_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB54_1
-
-LBB54_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB54_5
-
-LBB54_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB54_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB54_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB54_3
-
-LBB54_4:
-	RET
-
-TEXT ·_transpose_int64_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB55_1
-
-LBB55_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB55_5
-
-LBB55_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB55_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB55_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB55_3
-
-LBB55_4:
-	RET
-
-TEXT ·_transpose_uint8_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB56_1
-
-LBB56_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB56_5
-
-LBB56_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB56_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB56_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB56_3
-
-LBB56_4:
-	RET
-
-TEXT ·_transpose_int8_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB57_1
-
-LBB57_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB57_5
-
-LBB57_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB57_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB57_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB57_3
-
-LBB57_4:
-	RET
-
-TEXT ·_transpose_uint16_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB58_1
-
-LBB58_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB58_5
-
-LBB58_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB58_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB58_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB58_3
-
-LBB58_4:
-	RET
-
-TEXT ·_transpose_int16_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB59_1
-
-LBB59_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB59_5
-
-LBB59_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB59_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB59_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB59_3
-
-LBB59_4:
-	RET
-
-TEXT ·_transpose_uint32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB60_1
-
-LBB60_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB60_5
-
-LBB60_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB60_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB60_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB60_3
-
-LBB60_4:
-	RET
-
-TEXT ·_transpose_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB61_1
-
-LBB61_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB61_5
-
-LBB61_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB61_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB61_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB61_3
-
-LBB61_4:
-	RET
-
-TEXT ·_transpose_uint64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB62_1
-
-LBB62_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB62_5
-
-LBB62_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB62_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB62_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB62_3
-
-LBB62_4:
-	RET
-
-TEXT ·_transpose_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB63_1
-
-LBB63_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB63_5
-
-LBB63_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB63_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB63_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB63_3
-
-LBB63_4:
-	RET
diff --git a/go/internal/utils/transpose_ints_test.go b/go/internal/utils/transpose_ints_test.go
deleted file mode 100644
index 427a1ad041c55..0000000000000
--- a/go/internal/utils/transpose_ints_test.go
+++ /dev/null
@@ -1,49 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils_test
-
-import (
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-var (
-	src     = make([]int8, 1000)
-	mapping = make([]int32, 50)
-)
-
-func init() {
-	for i := range mapping {
-		mapping[i] = int32(i * 100)
-	}
-
-	for i := range src {
-		src[i] = int8(rand.Intn(50))
-	}
-}
-
-func BenchmarkTransposeASM(b *testing.B) {
-	dest := make([]int64, len(src))
-	b.ResetTimer()
-	for n := 0; n < b.N; n++ {
-		utils.TransposeInts(src, dest, mapping)
-	}
-}
diff --git a/go/parquet/.gitignore b/go/parquet/.gitignore
deleted file mode 100644
index 4120c5119f03a..0000000000000
--- a/go/parquet/.gitignore
+++ /dev/null
@@ -1,31 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# Binaries for programs and plugins
-*.exe
-*.exe~
-*.dll
-*.so
-*.dylib
-
-# Test binary, built with `go test -c`
-*.test
-
-# Output of the go coverage tool, specifically when used with LiteIDE
-*.out
-
-# Dependency directories (remove the comment below to include it)
-# vendor/
diff --git a/go/parquet/cmd/parquet_reader/README.md b/go/parquet/cmd/parquet_reader/README.md
deleted file mode 100644
index dfb590a94ff3f..0000000000000
--- a/go/parquet/cmd/parquet_reader/README.md
+++ /dev/null
@@ -1,106 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-# parquet\_reader
-
-A tool to read Parquet files and write selected columns into TEXT, JSON, or CSV files.
-
-## Usage
-
-```
-$ ./parquet_reader -h
-Parquet Reader (version 0.1.20220629.1846)
-Usage:
-  parquet_reader -h | --help
-  parquet_reader [--only-metadata] [--no-metadata] [--no-memory-map] [--json] [--csv] [--output=FILE]
-                 [--print-key-value-metadata] [--int96-timestamp] [--columns=COLUMNS] <file>
-Options:
-  -h --help                     Show this screen.
-  --print-key-value-metadata    Print out the key-value metadata. [default: false]
-  --only-metadata               Stop after printing metadata, no values.
-  --no-metadata                 Do not print metadata.
-  --output=FILE                 Specify output file for data. [default: -]
-  --no-memory-map               Disable memory mapping the file.
-  --int96-timestamp             Parse INT96 as TIMESTAMP for legacy support.
-  --json                        Format output as JSON instead of text.
-  --csv                         Format output as CSV instead of text.
-  --columns=COLUMNS             Specify a subset of columns to print, comma delimited indexes.
-```
-
-# Examples
-
-## Text
-```
-$ ./parquet_reader --no-metadata v0.7.1.parquet
-carat             |cut               |color             |clarity           |depth             |table             |price             |x                 |y                 |z                 |__index_level_0__ |
-0.230000          |Ideal             |E                 |SI2               |61.500000         |55.000000         |326               |3.950000          |3.980000          |2.430000          |0                 |
-0.210000          |Premium           |E                 |SI1               |59.800000         |61.000000         |326               |3.890000          |3.840000          |2.310000          |1                 |
-0.230000          |Good              |E                 |VS1               |56.900000         |65.000000         |327               |4.050000          |4.070000          |2.310000          |2                 |
-0.290000          |Premium           |I                 |VS2               |62.400000         |58.000000         |334               |4.200000          |4.230000          |2.630000          |3                 |
-0.310000          |Good              |J                 |SI2               |63.300000         |58.000000         |335               |4.340000          |4.350000          |2.750000          |4                 |
-0.240000          |Very Good         |J                 |VVS2              |62.800000         |57.000000         |336               |3.940000          |3.960000          |2.480000          |5                 |
-0.240000          |Very Good         |I                 |VVS1              |62.300000         |57.000000         |336               |3.950000          |3.980000          |2.470000          |6                 |
-0.260000          |Very Good         |H                 |SI1               |61.900000         |55.000000         |337               |4.070000          |4.110000          |2.530000          |7                 |
-0.220000          |Fair              |E                 |VS2               |65.100000         |61.000000         |337               |3.870000          |3.780000          |2.490000          |8                 |
-0.230000          |Very Good         |H                 |VS1               |59.400000         |61.000000         |338               |4.000000          |4.050000          |2.390000          |9                 |
-```
-
-## JSON
-```
-$ ./parquet_reader --no-metadata --json v0.7.1.parquet
-[{"carat":0.23,"cut":"Ideal","color":"E","clarity":"SI2","depth":61.5,"table":55,"price":326,"x":3.95,"y":3.98,"z":2.43,"__index_level_0__":0},{"carat":0.21,"cut":"Premium","color":"E","clarity":"SI1","depth":59.8,"table":61,"price":326,"x":3.89,"y":3.84,"z":2.31,"__index_level_0__":1},{"carat":0.23,"cut":"Good","color":"E","clarity":"VS1","depth":56.9,"table":65,"price":327,"x":4.05,"y":4.07,"z":2.31,"__index_level_0__":2},{"carat":0.29,"cut":"Premium","color":"I","clarity":"VS2","depth":62.4,"table":58,"price":334,"x":4.2,"y":4.23,"z":2.63,"__index_level_0__":3},{"carat":0.31,"cut":"Good","color":"J","clarity":"SI2","depth":63.3,"table":58,"price":335,"x":4.34,"y":4.35,"z":2.75,"__index_level_0__":4},{"carat":0.24,"cut":"Very Good","color":"J","clarity":"VVS2","depth":62.8,"table":57,"price":336,"x":3.94,"y":3.96,"z":2.48,"__index_level_0__":5},{"carat":0.24,"cut":"Very Good","color":"I","clarity":"VVS1","depth":62.3,"table":57,"price":336,"x":3.95,"y":3.98,"z":2.47,"__index_level_0__":6},{"carat":0.26,"cut":"Very Good","color":"H","clarity":"SI1","depth":61.9,"table":55,"price":337,"x":4.07,"y":4.11,"z":2.53,"__index_level_0__":7},{"carat":0.22,"cut":"Fair","color":"E","clarity":"VS2","depth":65.1,"table":61,"price":337,"x":3.87,"y":3.78,"z":2.49,"__index_level_0__":8},{"carat":0.23,"cut":"Very Good","color":"H","clarity":"VS1","depth":59.4,"table":61,"price":338,"x":4,"y":4.05,"z":2.39,"__index_level_0__":9}]
-```
-
-## CSV
-```
-$ ./parquet_reader --no-metadata --csv v0.7.1.parquet
-"carat","cut","color","clarity","depth","table","price","x","y","z","__index_level_0__"
-0.23,"Ideal","E","SI2",61.5,55,326,3.95,3.98,2.43,0
-0.21,"Premium","E","SI1",59.8,61,326,3.89,3.84,2.31,1
-0.23,"Good","E","VS1",56.9,65,327,4.05,4.07,2.31,2
-0.29,"Premium","I","VS2",62.4,58,334,4.2,4.23,2.63,3
-0.31,"Good","J","SI2",63.3,58,335,4.34,4.35,2.75,4
-0.24,"Very Good","J","VVS2",62.8,57,336,3.94,3.96,2.48,5
-0.24,"Very Good","I","VVS1",62.3,57,336,3.95,3.98,2.47,6
-0.26,"Very Good","H","SI1",61.9,55,337,4.07,4.11,2.53,7
-0.22,"Fair","E","VS2",65.1,61,337,3.87,3.78,2.49,8
-0.23,"Very Good","H","VS1",59.4,61,338,4,4.05,2.39,9
-```
-
-## Write JSON to output file
-```
-$ ./parquet_reader --no-metadata --json --output=data.json v0.7.1.parquet
-$ jq . data.json
-[
-  {
-    "carat": 0.23,
-    "cut": "Ideal",
-    "color": "E",
-    "clarity": "SI2",
-    "depth": 61.5,
-    "table": 55,
-    "price": 326,
-    "x": 3.95,
-...
-```
-
-## Write CSV to output file
-```
-$ ./parquet_reader --no-metadata --csv --output=data.csv v0.7.1.parquet
-```
diff --git a/go/parquet/cmd/parquet_reader/dumper.go b/go/parquet/cmd/parquet_reader/dumper.go
deleted file mode 100644
index bab9939bfd243..0000000000000
--- a/go/parquet/cmd/parquet_reader/dumper.go
+++ /dev/null
@@ -1,182 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"encoding/binary"
-	"fmt"
-	"reflect"
-	"time"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-const defaultBatchSize = 128
-
-type Dumper struct {
-	reader         file.ColumnChunkReader
-	batchSize      int64
-	valueOffset    int
-	valuesBuffered int
-
-	levelOffset    int64
-	levelsBuffered int64
-	defLevels      []int16
-	repLevels      []int16
-
-	valueBuffer interface{}
-}
-
-func createDumper(reader file.ColumnChunkReader) *Dumper {
-	batchSize := defaultBatchSize
-
-	var valueBuffer interface{}
-	switch reader.(type) {
-	case *file.BooleanColumnChunkReader:
-		valueBuffer = make([]bool, batchSize)
-	case *file.Int32ColumnChunkReader:
-		valueBuffer = make([]int32, batchSize)
-	case *file.Int64ColumnChunkReader:
-		valueBuffer = make([]int64, batchSize)
-	case *file.Float32ColumnChunkReader:
-		valueBuffer = make([]float32, batchSize)
-	case *file.Float64ColumnChunkReader:
-		valueBuffer = make([]float64, batchSize)
-	case *file.Int96ColumnChunkReader:
-		valueBuffer = make([]parquet.Int96, batchSize)
-	case *file.ByteArrayColumnChunkReader:
-		valueBuffer = make([]parquet.ByteArray, batchSize)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		valueBuffer = make([]parquet.FixedLenByteArray, batchSize)
-	}
-
-	return &Dumper{
-		reader:      reader,
-		batchSize:   int64(batchSize),
-		defLevels:   make([]int16, batchSize),
-		repLevels:   make([]int16, batchSize),
-		valueBuffer: valueBuffer,
-	}
-}
-
-func (dump *Dumper) readNextBatch() {
-	switch reader := dump.reader.(type) {
-	case *file.BooleanColumnChunkReader:
-		values := dump.valueBuffer.([]bool)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int32ColumnChunkReader:
-		values := dump.valueBuffer.([]int32)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int64ColumnChunkReader:
-		values := dump.valueBuffer.([]int64)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Float32ColumnChunkReader:
-		values := dump.valueBuffer.([]float32)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Float64ColumnChunkReader:
-		values := dump.valueBuffer.([]float64)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int96ColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.Int96)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.ByteArrayColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.ByteArray)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.FixedLenByteArray)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	}
-
-	dump.valueOffset = 0
-	dump.levelOffset = 0
-}
-
-func (dump *Dumper) hasNext() bool {
-	return dump.levelOffset < dump.levelsBuffered || dump.reader.HasNext()
-}
-
-const microSecondsPerDay = 24 * 3600e6
-
-var parseInt96AsTimestamp = false
-
-func (dump *Dumper) FormatValue(val interface{}, width int) string {
-	fmtstring := fmt.Sprintf("-%d", width)
-	switch val := val.(type) {
-	case nil:
-		return fmt.Sprintf("%"+fmtstring+"s", "NULL")
-	case bool:
-		return fmt.Sprintf("%"+fmtstring+"t", val)
-	case int32:
-		return fmt.Sprintf("%"+fmtstring+"d", val)
-	case int64:
-		return fmt.Sprintf("%"+fmtstring+"d", val)
-	case float32:
-		return fmt.Sprintf("%"+fmtstring+"f", val)
-	case float64:
-		return fmt.Sprintf("%"+fmtstring+"f", val)
-	case parquet.Int96:
-		if parseInt96AsTimestamp {
-			usec := int64(binary.LittleEndian.Uint64(val[:8])/1000) +
-				(int64(binary.LittleEndian.Uint32(val[8:]))-2440588)*microSecondsPerDay
-			t := time.Unix(usec/1e6, (usec%1e6)*1e3).UTC()
-			return fmt.Sprintf("%"+fmtstring+"s", t)
-		} else {
-			return fmt.Sprintf("%"+fmtstring+"s",
-				fmt.Sprintf("%d %d %d",
-					binary.LittleEndian.Uint32(val[:4]),
-					binary.LittleEndian.Uint32(val[4:]),
-					binary.LittleEndian.Uint32(val[8:])))
-		}
-	case parquet.ByteArray:
-		if dump.reader.Descriptor().ConvertedType() == schema.ConvertedTypes.UTF8 {
-			return fmt.Sprintf("%"+fmtstring+"s", string(val))
-		}
-		return fmt.Sprintf("% "+fmtstring+"X", val)
-	case parquet.FixedLenByteArray:
-		return fmt.Sprintf("% "+fmtstring+"X", val)
-	default:
-		return fmt.Sprintf("%"+fmtstring+"s", fmt.Sprintf("%v", val))
-	}
-}
-
-func (dump *Dumper) Next() (interface{}, bool) {
-	if dump.levelOffset == dump.levelsBuffered {
-		if !dump.hasNext() {
-			return nil, false
-		}
-		dump.readNextBatch()
-		if dump.levelsBuffered == 0 {
-			return nil, false
-		}
-	}
-
-	defLevel := dump.defLevels[int(dump.levelOffset)]
-	// repLevel := dump.repLevels[int(dump.levelOffset)]
-	dump.levelOffset++
-
-	if defLevel < dump.reader.Descriptor().MaxDefinitionLevel() {
-		return nil, true
-	}
-
-	vb := reflect.ValueOf(dump.valueBuffer)
-	v := vb.Index(dump.valueOffset).Interface()
-	dump.valueOffset++
-
-	return v, true
-}
diff --git a/go/parquet/cmd/parquet_reader/main.go b/go/parquet/cmd/parquet_reader/main.go
deleted file mode 100644
index 4e480aeb8660b..0000000000000
--- a/go/parquet/cmd/parquet_reader/main.go
+++ /dev/null
@@ -1,382 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bufio"
-	"fmt"
-	"io"
-	"log"
-	"os"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-
-	"github.com/docopt/docopt-go"
-)
-
-var version = ""
-var usage = `Parquet Reader (version ` + version + `)
-Usage:
-  parquet_reader -h | --help
-  parquet_reader [--only-metadata] [--no-metadata] [--no-memory-map] [--json] [--csv] [--output=FILE]
-                 [--print-key-value-metadata] [--int96-timestamp] [--columns=COLUMNS] <file>
-Options:
-  -h --help                     Show this screen.
-  --print-key-value-metadata    Print out the key-value metadata. [default: false]
-  --only-metadata               Stop after printing metadata, no values.
-  --no-metadata                 Do not print metadata.
-  --output=FILE                 Specify output file for data. [default: -]
-  --no-memory-map               Disable memory mapping the file.
-  --int96-timestamp             Parse INT96 as TIMESTAMP for legacy support.
-  --json                        Format output as JSON instead of text.
-  --csv                         Format output as CSV instead of text.
-  --columns=COLUMNS             Specify a subset of columns to print, comma delimited indexes.`
-
-func main() {
-	opts, _ := docopt.ParseDoc(usage)
-	var config struct {
-		PrintKeyValueMetadata bool
-		OnlyMetadata          bool
-		NoMetadata            bool
-		Output                string
-		NoMemoryMap           bool
-		JSON                  bool `docopt:"--json"`
-		CSV                   bool `docopt:"--csv"`
-		ParseInt96AsTimestamp bool `docopt:"--int96-timestamp"`
-		Columns               string
-		File                  string
-	}
-	opts.Bind(&config)
-
-	parseInt96AsTimestamp = config.ParseInt96AsTimestamp
-
-	var dataOut io.Writer
-	dataOut = os.Stdout
-	if config.Output != "-" {
-		var err error
-		fileOut, err := os.Create(config.Output)
-		if err != nil {
-			fmt.Fprintf(os.Stderr, "error: --output %q cannot be created, %s\n", config.Output, err)
-			os.Exit(1)
-		}
-		bufOut := bufio.NewWriter(fileOut)
-		defer func() {
-			bufOut.Flush()
-			fileOut.Close()
-		}()
-		dataOut = bufOut
-	}
-
-	if config.CSV && config.JSON {
-		fmt.Fprintln(os.Stderr, "error: both --json and --csv outputs selected.")
-		os.Exit(1)
-	}
-
-	selectedColumns := []int{}
-	if config.Columns != "" {
-		for _, c := range strings.Split(config.Columns, ",") {
-			cval, err := strconv.Atoi(c)
-			if err != nil {
-				fmt.Fprintln(os.Stderr, "error: --columns needs to be comma-delimited integers")
-				os.Exit(1)
-			}
-			selectedColumns = append(selectedColumns, cval)
-		}
-	}
-
-	rdr, err := file.OpenParquetFile(config.File, !config.NoMemoryMap)
-	if err != nil {
-		fmt.Fprintln(os.Stderr, "error opening parquet file: ", err)
-		os.Exit(1)
-	}
-
-	fileMetadata := rdr.MetaData()
-
-	if !config.NoMetadata {
-		fmt.Println("File name:", config.File)
-		fmt.Println("Version:", fileMetadata.Version())
-		fmt.Println("Created By:", fileMetadata.GetCreatedBy())
-		fmt.Println("Num Rows:", rdr.NumRows())
-
-		keyvaluemeta := fileMetadata.KeyValueMetadata()
-		if config.PrintKeyValueMetadata && keyvaluemeta != nil {
-			fmt.Println("Key Value File Metadata:", keyvaluemeta.Len(), "entries")
-			keys := keyvaluemeta.Keys()
-			values := keyvaluemeta.Values()
-			for i := 0; i < keyvaluemeta.Len(); i++ {
-				fmt.Printf("Key nr %d %s: %s\n", i, keys[i], values[i])
-			}
-		}
-
-		fmt.Println("Number of RowGroups:", rdr.NumRowGroups())
-		fmt.Println("Number of Real Columns:", fileMetadata.Schema.Root().NumFields())
-		fmt.Println("Number of Columns:", fileMetadata.Schema.NumColumns())
-	}
-
-	if len(selectedColumns) == 0 {
-		for i := 0; i < fileMetadata.Schema.NumColumns(); i++ {
-			selectedColumns = append(selectedColumns, i)
-		}
-	} else {
-		for _, c := range selectedColumns {
-			if c < 0 || c >= fileMetadata.Schema.NumColumns() {
-				fmt.Fprintln(os.Stderr, "selected column is out of range")
-				os.Exit(1)
-			}
-		}
-	}
-
-	if !config.NoMetadata {
-		fmt.Println("Number of Selected Columns:", len(selectedColumns))
-		for _, c := range selectedColumns {
-			descr := fileMetadata.Schema.Column(c)
-			fmt.Printf("Column %d: %s (%s", c, descr.Path(), descr.PhysicalType())
-			if descr.ConvertedType() != schema.ConvertedTypes.None {
-				fmt.Printf("/%s", descr.ConvertedType())
-				if descr.ConvertedType() == schema.ConvertedTypes.Decimal {
-					dec := descr.LogicalType().(schema.DecimalLogicalType)
-					fmt.Printf("(%d,%d)", dec.Precision(), dec.Scale())
-				}
-			}
-			fmt.Print(")\n")
-		}
-	}
-
-	for r := 0; r < rdr.NumRowGroups(); r++ {
-		if !config.NoMetadata {
-			fmt.Println("--- Row Group:", r, " ---")
-		}
-
-		rgr := rdr.RowGroup(r)
-		rowGroupMeta := rgr.MetaData()
-		if !config.NoMetadata {
-			fmt.Println("--- Total Bytes:", rowGroupMeta.TotalByteSize(), " ---")
-			fmt.Println("--- Rows:", rgr.NumRows(), " ---")
-		}
-
-		for _, c := range selectedColumns {
-			chunkMeta, err := rowGroupMeta.ColumnChunk(c)
-			if err != nil {
-				log.Fatal(err)
-			}
-
-			if !config.NoMetadata {
-				fmt.Println("Column", c)
-				if set, _ := chunkMeta.StatsSet(); set {
-					stats, err := chunkMeta.Statistics()
-					if err != nil {
-						log.Fatal(err)
-					}
-					fmt.Printf(" Values: %d", chunkMeta.NumValues())
-					if stats.HasMinMax() {
-						fmt.Printf(", Min: %v, Max: %v",
-							metadata.GetStatValue(stats.Type(), stats.EncodeMin()),
-							metadata.GetStatValue(stats.Type(), stats.EncodeMax()))
-					}
-					if stats.HasNullCount() {
-						fmt.Printf(", Null Values: %d", stats.NullCount())
-					}
-					if stats.HasDistinctCount() {
-						fmt.Printf(", Distinct Values: %d", stats.DistinctCount())
-					}
-					fmt.Println()
-				} else {
-					fmt.Println(" Values:", chunkMeta.NumValues(), "Statistics Not Set")
-				}
-
-				fmt.Print(" Compression: ", chunkMeta.Compression())
-				fmt.Print(", Encodings:")
-				for _, enc := range chunkMeta.Encodings() {
-					fmt.Print(" ", enc)
-				}
-				fmt.Println()
-
-				fmt.Print(" Uncompressed Size: ", chunkMeta.TotalUncompressedSize())
-				fmt.Println(", Compressed Size:", chunkMeta.TotalCompressedSize())
-			}
-		}
-
-		if config.OnlyMetadata {
-			continue
-		}
-
-		if !config.NoMetadata {
-			fmt.Println("--- Values ---")
-		}
-
-		switch {
-		case config.JSON:
-			fmt.Fprint(dataOut, "[")
-
-			scanners := make([]*Dumper, len(selectedColumns))
-			fields := make([]string, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch column=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fields[idx] = col.Descriptor().Path()
-			}
-
-			var line string
-			for {
-				if line == "" {
-					line = "\n  {"
-				} else {
-					line = ",\n  {"
-				}
-
-				data := false
-				first := true
-				for idx, s := range scanners {
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						data = true
-						if val == nil {
-							continue
-						}
-						if !first {
-							fmt.Fprint(dataOut, ",")
-						}
-						first = false
-						switch val.(type) {
-						case bool, int32, int64, float32, float64:
-						default:
-							val = s.FormatValue(val, 0)
-						}
-						jsonVal, err := json.Marshal(val)
-						if err != nil {
-							fmt.Fprintf(os.Stderr, "error: marshalling json for %+v, %s\n", val, err)
-							os.Exit(1)
-						}
-						fmt.Fprintf(dataOut, "\n    %q: %s", fields[idx], jsonVal)
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprint(dataOut, "\n  }")
-			}
-
-			fmt.Fprintln(dataOut, "\n]")
-		case config.CSV:
-			scanners := make([]*Dumper, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				if idx > 0 {
-					fmt.Fprint(dataOut, ",")
-				}
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch col=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fmt.Fprintf(dataOut, "%q", col.Descriptor().Path())
-			}
-			fmt.Fprintln(dataOut)
-
-			var line string
-			for {
-				data := false
-				for idx, s := range scanners {
-					if idx > 0 {
-						if data {
-							fmt.Fprint(dataOut, ",")
-						} else {
-							line += ","
-						}
-					}
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						data = true
-						if val == nil {
-							fmt.Fprint(dataOut, "")
-							continue
-						}
-						switch val.(type) {
-						case bool, int32, int64, parquet.Int96, float32, float64:
-							fmt.Fprintf(dataOut, "%v", val)
-						default:
-							fmt.Fprintf(dataOut, "%q", s.FormatValue(val, 0))
-						}
-					} else {
-						if data {
-							fmt.Fprint(dataOut, ",")
-						} else {
-							line += ","
-						}
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprintln(dataOut)
-				line = ""
-			}
-			fmt.Fprintln(dataOut)
-		default:
-			const colwidth = 18
-
-			scanners := make([]*Dumper, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch column=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fmt.Fprintf(dataOut, fmt.Sprintf("%%-%ds|", colwidth), col.Descriptor().Name())
-			}
-			fmt.Fprintln(dataOut)
-
-			var line string
-			for {
-				data := false
-				for _, s := range scanners {
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						fmt.Fprint(dataOut, s.FormatValue(val, colwidth), "|")
-						data = true
-					} else {
-						if data {
-							fmt.Fprintf(dataOut, fmt.Sprintf("%%-%ds|", colwidth), "")
-						} else {
-							line += fmt.Sprintf(fmt.Sprintf("%%-%ds|", colwidth), "")
-						}
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprintln(dataOut)
-				line = ""
-			}
-			fmt.Fprintln(dataOut)
-		}
-	}
-}
diff --git a/go/parquet/cmd/parquet_reader/v0.7.1.parquet b/go/parquet/cmd/parquet_reader/v0.7.1.parquet
deleted file mode 100644
index 44670bcd19afac98f01f49d5d2f9576a9925f63f..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 4372
zcmcIoU5FD`6ux&dlT5bBZg$N~CnePw>@bCOYj)Q~ic79k-Cd2l(Uql8OFAZ#nvy^B
zBkqbI1=~dgr4Pl5w4&mJ4<h!(hdzk)LCRWWTWpac_~JtqAKF?<pL*`xOnyh9vKg4n
z%(-X2`+eu0bMEZMx9o{Xyi}AbF{xML2N2ry+rjakUoIB!MjtKsuTDJrA$sc8b8X+L
z<tP|o<frJ3)yJRgzVT!95`DaQFZ%XA>ai4+kQ9_cgOVQrosu)Ch}Ij5Xkp0+j^0rY
ze*M@Xh@;n?2&pHypwtuC$RlS!5t4dIuSlHim;c4`r<{5Q%SaYqfTr2Z0ocG`zm$$i
zJ*K3{O#y6EDMQb?;3i%&a+zw5hueulA?1eaoKcz&(FbbWu4hUeTHJLPg{KZ}LKZLN
zf*|Ca5R^PMA&z8~$#{(AXIQ<)gN&<=;26@{v0zRhtVx40Ni+%jV;F4P=+6}W*+G9M
zfs-Nyo8pUiD0rJm#52eu$_eCw2dP(F4H`nSkS&zVcz%K9vsnGr2}DjiDG?I@pkem+
zrC3bzn6nQm4zSHm4ZB?^f?fRFtk*?`X=LW+X02<aBSJhKRUETZk@na)$5ugXes(uV
zxsqAEl&Q>{wC-W~4p#pXf!0Zp(rO?vZs##gPe?0B&p1LDdu~pXG+Z9<A|n{{<(OOK
zM`qj#y6hEE+AH$vj5~z>^ls9&$H@pizTHKDa7bF$6h1Lc5AaY#)2AFGCUf6r7EE67
z4evd41~{loo~8s%8O6#0lle7HUgXsKuL1MhJ&>VxfSQe!$%;!`tqj$uD)HD(f?Xmy
zHVtw}+%0No7Xep<j>RbZw&F5J2xZTFb~5&j;#wRVfZSGZ_cd{^==-yV$^8MAm$ACs
z3*7(k0(Uz&&Bh9TkS;|jUT+xUc8mm!CLs3HaL&LP_llc$)1-xCPwm>Nz#35~f_b!M
z4jH|^5ft1R2ui%w9*U(*k|}`p@DQu_`$56)K2Tr>r`cFxCQxu1ON%%r4VYOq$)EiS
zW37*@p{;Fo9~lv_$4BliVZ6>q%>K5op9pIX9PcBOW-s%Rzo9AKdfrPIbDvFqS??*L
z<=dHGAAJt*t0(2g8sWp{`dr}TuQ~Ng3DiAX1?ud;G#jg(x)f`~eT22{-nxdTyYYbN
zBWY0EPp(ejz`8!d+P{woE^WM*RnLf>Iy2eR{g8j=egVEOQg<iNq>j}*Q@5;ux+||+
zmD2`RtDF{VUEPVs+HGcx9pnhzuNF9hdwt_Q0)eF5>Lg6MgM3dnv0DxzyfZn@lc%uC
z$DcTA>+P^vJhrS(kY~ZR%Uk=NVJ_ZhZ#KzWuomw;r=AXiyvJ`?#f4hIYQ@!JW%8ik
zrJDMk7b6Tc#lh)-lZR7)(+Q^w>WtMWLUbRaM`xe2MruV4KJ8MhK6ftEsI>k>B9l)U
zhZ9-jkdaMnNF=PD_YYPtuK{V7R)aJ<aLvX_nQ?)ojYx5plLw5P4w)_Wyv11?J`8){
z$w7Bb(7>K*n^*n0zHgWo^KI6R!QXsh{SBUYip+XNZ4Bzlx|^@xEzmpaYoivz<PQV`
z->v-T$*X@S{O_&(Rkz(PY<XSSiMp^gtZ*+@SGM`7E8A?;?iRfK&@cN@AgDNtdOoF>
zmFMD-Fl#FCRa(vE%i(uJAA~y^P58sXP?&kJ9%Pt~N5XkMXTU4@YBmcV3^Y-hFH&Q;
zTq$MpABSNeU(FTg>-NI_PmE-R+H*!lPw5rC26418O)Gxb{2PS6(KbaoThJ?Gqn&d!
z4YW@(7^?FQLvyo1t>!byLdxhweKGSEQ2K%21z7fpzVg6k$F_lOiec*lHVwQixMuI~
z0<O7>*x+XJwy97zzl`f)8@wi&ucUvz3z!RC!0asd&O)mPu{9EPb9-!QCD&^8kWngU
z3VGTQHVh4K7>b0CA_WFZ2dhS9eX>{#)jUFxp^>5C^|RAk;<J-8d(k)WB^8JNhx`Z9
Cv&vln

diff --git a/go/parquet/cmd/parquet_schema/main.go b/go/parquet/cmd/parquet_schema/main.go
deleted file mode 100644
index 0cd0700e4e41e..0000000000000
--- a/go/parquet/cmd/parquet_schema/main.go
+++ /dev/null
@@ -1,44 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"fmt"
-	"os"
-
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/docopt/docopt-go"
-)
-
-const usage = `Parquet Schema Dumper.
-Usage:
-  parquet_schema -h | --help
-  parquet_schema <file>
-Options:
-  -h --help   Show this screen.`
-
-func main() {
-	args, _ := docopt.ParseDoc(usage)
-	rdr, err := file.OpenParquetFile(args["<file>"].(string), false)
-	if err != nil {
-		fmt.Fprintln(os.Stderr, "Error opening parquet file: ", err)
-		os.Exit(1)
-	}
-
-	schema.PrintSchema(rdr.MetaData().Schema.Root(), os.Stdout, 2)
-}
diff --git a/go/parquet/compress/brotli.go b/go/parquet/compress/brotli.go
deleted file mode 100644
index 9d3a22c9e58e8..0000000000000
--- a/go/parquet/compress/brotli.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"bytes"
-	"io"
-
-	"github.com/andybalholm/brotli"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-)
-
-type brotliCodec struct{}
-
-func (brotliCodec) NewReader(r io.Reader) io.ReadCloser {
-	return io.NopCloser(brotli.NewReader(r))
-}
-
-func (b brotliCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	if level == DefaultCompressionLevel {
-		level = brotli.DefaultCompression
-	}
-
-	maxlen := int(b.CompressBound(int64(len(src))))
-	if dst == nil || cap(dst) < maxlen {
-		dst = make([]byte, 0, maxlen)
-	}
-	buf := bytes.NewBuffer(dst[:0])
-	w := brotli.NewWriterLevel(buf, level)
-	_, err := w.Write(src)
-	if err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-	return buf.Bytes()
-}
-
-func (b brotliCodec) Encode(dst, src []byte) []byte {
-	return b.EncodeLevel(dst, src, brotli.DefaultCompression)
-}
-
-func (brotliCodec) Decode(dst, src []byte) []byte {
-	rdr := brotli.NewReader(bytes.NewReader(src))
-	if dst != nil {
-		var (
-			sofar       = 0
-			n           = -1
-			err   error = nil
-		)
-		for n != 0 && err == nil {
-			n, err = rdr.Read(dst[sofar:])
-			sofar += n
-		}
-		if err != nil && err != io.EOF {
-			panic(err)
-		}
-		return dst[:sofar]
-	}
-
-	dst, err := io.ReadAll(rdr)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst
-}
-
-// taken from brotli/enc/encode.c:1426
-// BrotliEncoderMaxCompressedSize
-func (brotliCodec) CompressBound(len int64) int64 {
-	// [window bits / empty metadata] + N * [uncompressed] + [last empty]
-	debug.Assert(len > 0, "brotli compressbound should be > 0")
-	nlarge := len >> 14
-	overhead := 2 + (4 * nlarge) + 3 + 1
-	result := len + overhead
-	if len == 0 {
-		return 2
-	}
-	if result < len {
-		return 0
-	}
-	return len
-}
-
-func (brotliCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return brotli.NewWriter(w)
-}
-
-func (brotliCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	if level == DefaultCompressionLevel {
-		level = brotli.DefaultCompression
-	}
-	return brotli.NewWriterLevel(w, level), nil
-}
-
-func init() {
-	RegisterCodec(Codecs.Brotli, brotliCodec{})
-}
diff --git a/go/parquet/compress/compress.go b/go/parquet/compress/compress.go
deleted file mode 100644
index 92f2ae99bb13f..0000000000000
--- a/go/parquet/compress/compress.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package compress contains the interfaces and implementations for handling compression/decompression
-// of parquet data at the column levels.
-package compress
-
-import (
-	"compress/flate"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Compression is an alias to the thrift compression codec enum type for easy use
-type Compression parquet.CompressionCodec
-
-func (c Compression) String() string {
-	return parquet.CompressionCodec(c).String()
-}
-
-// DefaultCompressionLevel will use flate.DefaultCompression since many of the compression libraries
-// use that to denote "use the default".
-const DefaultCompressionLevel = flate.DefaultCompression
-
-// Codecs is a useful struct to provide namespaced enum values to use for specifying the compression type to use
-// which make for easy internal swapping between them and the thrift enum since they are initialized to the same
-// constant values.
-var Codecs = struct {
-	Uncompressed Compression
-	Snappy       Compression
-	Gzip         Compression
-	// LZO is unsupported in this library since LZO license is incompatible with Apache License
-	Lzo    Compression
-	Brotli Compression
-	// LZ4 unsupported in this library due to problematic issues between the Hadoop LZ4 spec vs regular lz4
-	// see: http://mail-archives.apache.org/mod_mbox/arrow-dev/202007.mbox/%3CCAAri41v24xuA8MGHLDvgSnE+7AAgOhiEukemW_oPNHMvfMmrWw@mail.gmail.com%3E
-	Lz4    Compression
-	Zstd   Compression
-	Lz4Raw Compression
-}{
-	Uncompressed: Compression(parquet.CompressionCodec_UNCOMPRESSED),
-	Snappy:       Compression(parquet.CompressionCodec_SNAPPY),
-	Gzip:         Compression(parquet.CompressionCodec_GZIP),
-	Lzo:          Compression(parquet.CompressionCodec_LZO),
-	Brotli:       Compression(parquet.CompressionCodec_BROTLI),
-	Lz4:          Compression(parquet.CompressionCodec_LZ4),
-	Zstd:         Compression(parquet.CompressionCodec_ZSTD),
-	Lz4Raw:       Compression(parquet.CompressionCodec_LZ4_RAW),
-}
-
-// Codec is an interface which is implemented for each compression type in order to make the interactions easy to
-// implement. Most consumers won't be calling GetCodec directly.
-type Codec interface {
-	// Encode encodes a block of data given by src and returns the compressed block. dst should be either nil
-	// or sized large enough to fit the compressed block (use CompressBound to allocate). dst and src should not
-	// overlap since some of the compression types don't allow it.
-	//
-	// The returned slice will be one of the following:
-	//	1. If dst was nil or dst was too small to fit the compressed data, it will be a newly allocated slice
-	//	2. If dst was large enough to fit the compressed data (depending on the compression algorithm it might
-	//		 be required to be at least CompressBound length) then it might be a slice of dst.
-	Encode(dst, src []byte) []byte
-	// EncodeLevel is like Encode, but specifies a particular encoding level instead of the default.
-	EncodeLevel(dst, src []byte, level int) []byte
-	// CompressBound returns the boundary of maximum size of compressed data under the chosen codec.
-	CompressBound(int64) int64
-	// Decode is for decoding a single block rather than a stream, like with Encode, dst must be either nil or
-	// sized large enough to accommodate the uncompressed data and should not overlap with src.
-	//
-	// the returned slice *might* be a slice of dst.
-	Decode(dst, src []byte) []byte
-}
-
-// StreamingCodec is an interface that may be implemented for compression codecs that expose a streaming API.
-type StreamingCodec interface {
-	// NewReader provides a reader that wraps a stream with compressed data to stream the uncompressed data
-	NewReader(io.Reader) io.ReadCloser
-	// NewWriter provides a wrapper around a write stream to compress data before writing it.
-	NewWriter(io.Writer) io.WriteCloser
-	// NewWriterLevel is like NewWriter but allows specifying the compression level
-	NewWriterLevel(io.Writer, int) (io.WriteCloser, error)
-}
-
-var codecs = map[Compression]Codec{}
-
-// RegisterCodec adds or overrides a codec implementation for a given compression algorithm.
-// The intended use case is within the init() section of a package. For example,
-//
-//	// inside a custom codec package, say czstd
-//
-//	func init() {
-//	    RegisterCodec(compress.Codecs.Zstd, czstdCodec{})
-//	}
-//
-//	type czstdCodec struct{} // implementing Codec interface using CGO based ZSTD wrapper
-//
-// And user of the custom codec can import the above package like below,
-//
-//	package main
-//
-//	import _ "package/path/to/czstd"
-func RegisterCodec(compression Compression, codec Codec) {
-	codecs[compression] = codec
-}
-
-type nocodec struct{}
-
-func (nocodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, ok := r.(io.ReadCloser)
-	if !ok {
-		return io.NopCloser(r)
-	}
-	return ret
-}
-
-func (nocodec) Decode(dst, src []byte) []byte {
-	if dst != nil {
-		copy(dst, src)
-	}
-	return dst
-}
-
-type writerNopCloser struct {
-	io.Writer
-}
-
-func (writerNopCloser) Close() error {
-	return nil
-}
-
-func (nocodec) Encode(dst, src []byte) []byte {
-	copy(dst, src)
-	return dst
-}
-
-func (nocodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	copy(dst, src)
-	return dst
-}
-
-func (nocodec) NewWriter(w io.Writer) io.WriteCloser {
-	ret, ok := w.(io.WriteCloser)
-	if !ok {
-		return writerNopCloser{w}
-	}
-	return ret
-}
-
-func (n nocodec) NewWriterLevel(w io.Writer, _ int) (io.WriteCloser, error) {
-	return n.NewWriter(w), nil
-}
-
-func (nocodec) CompressBound(len int64) int64 { return len }
-
-func init() {
-	codecs[Codecs.Uncompressed] = nocodec{}
-}
-
-// GetCodec returns a Codec interface for the requested Compression type
-func GetCodec(typ Compression) (Codec, error) {
-	ret, ok := codecs[typ]
-	if !ok {
-		return nil, fmt.Errorf("compression for %s unimplemented", typ.String())
-	}
-	return ret, nil
-}
diff --git a/go/parquet/compress/compress_test.go b/go/parquet/compress/compress_test.go
deleted file mode 100644
index 5aac74759e1f9..0000000000000
--- a/go/parquet/compress/compress_test.go
+++ /dev/null
@@ -1,140 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress_test
-
-import (
-	"bytes"
-	"io"
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/stretchr/testify/assert"
-)
-
-const (
-	RandomDataSize       = 3 * 1024 * 1024
-	CompressibleDataSize = 8 * 1024 * 1024
-)
-
-func makeRandomData(size int) []byte {
-	ret := make([]byte, size)
-	r := rand.New(rand.NewSource(1234))
-	r.Read(ret)
-	return ret
-}
-
-func makeCompressibleData(size int) []byte {
-	const base = "Apache Arrow is a cross-language development platform for in-memory data"
-
-	data := make([]byte, size)
-	n := copy(data, base)
-	for i := n; i < len(data); i *= 2 {
-		copy(data[i:], data[:i])
-	}
-	return data
-}
-
-func TestErrorForUnimplemented(t *testing.T) {
-	_, err := compress.GetCodec(compress.Codecs.Lzo)
-	assert.Error(t, err)
-
-	_, err = compress.GetCodec(compress.Codecs.Lz4)
-	assert.Error(t, err)
-}
-
-func TestCompressDataOneShot(t *testing.T) {
-	tests := []struct {
-		c compress.Compression
-	}{
-		{compress.Codecs.Uncompressed},
-		{compress.Codecs.Snappy},
-		{compress.Codecs.Gzip},
-		{compress.Codecs.Brotli},
-		{compress.Codecs.Zstd},
-		{compress.Codecs.Lz4Raw},
-		// {compress.Codecs.Lzo},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.c.String(), func(t *testing.T) {
-			codec, err := compress.GetCodec(tt.c)
-			assert.NoError(t, err)
-			data := makeCompressibleData(CompressibleDataSize)
-
-			buf := make([]byte, codec.CompressBound(int64(len(data))))
-			compressed := codec.Encode(buf, data)
-			assert.Same(t, &buf[0], &compressed[0])
-
-			out := make([]byte, len(data))
-			uncompressed := codec.Decode(out, compressed)
-			assert.Same(t, &out[0], &uncompressed[0])
-
-			assert.Exactly(t, data, uncompressed)
-		})
-	}
-}
-
-func TestCompressReaderWriter(t *testing.T) {
-	tests := []struct {
-		c compress.Compression
-	}{
-		{compress.Codecs.Uncompressed},
-		{compress.Codecs.Snappy},
-		{compress.Codecs.Gzip},
-		{compress.Codecs.Brotli},
-		{compress.Codecs.Zstd},
-		// {compress.Codecs.Lzo},
-		// {compress.Codecs.Lz4},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.c.String(), func(t *testing.T) {
-			var buf bytes.Buffer
-			codec, err := compress.GetCodec(tt.c)
-			assert.NoError(t, err)
-			streamingCodec, ok := codec.(compress.StreamingCodec)
-			assert.True(t, ok)
-			data := makeRandomData(RandomDataSize)
-
-			wr := streamingCodec.NewWriter(&buf)
-
-			const chunkSize = 1111
-			input := data
-			for len(input) > 0 {
-				var (
-					n   int
-					err error
-				)
-				if len(input) > chunkSize {
-					n, err = wr.Write(input[:chunkSize])
-				} else {
-					n, err = wr.Write(input)
-				}
-
-				assert.NoError(t, err)
-				input = input[n:]
-			}
-			wr.Close()
-
-			rdr := streamingCodec.NewReader(&buf)
-			out, err := io.ReadAll(rdr)
-			assert.NoError(t, err)
-			assert.Exactly(t, data, out)
-		})
-	}
-}
diff --git a/go/parquet/compress/gzip.go b/go/parquet/compress/gzip.go
deleted file mode 100644
index 4b43f8e906599..0000000000000
--- a/go/parquet/compress/gzip.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-
-	"github.com/klauspost/compress/gzip"
-)
-
-type gzipCodec struct{}
-
-func (gzipCodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, err := gzip.NewReader(r)
-	if err != nil {
-		panic(fmt.Errorf("codec: gzip: %w", err))
-	}
-	return ret
-}
-
-func (gzipCodec) Decode(dst, src []byte) []byte {
-	rdr, err := gzip.NewReader(bytes.NewReader(src))
-	if err != nil {
-		panic(err)
-	}
-
-	if dst != nil {
-		n, err := io.ReadFull(rdr, dst)
-		if err != nil {
-			panic(err)
-		}
-		return dst[:n]
-	}
-
-	dst, err = io.ReadAll(rdr)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst
-}
-
-func (g gzipCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	maxlen := int(g.CompressBound(int64(len(src))))
-	if dst == nil || cap(dst) < maxlen {
-		dst = make([]byte, 0, maxlen)
-	}
-	buf := bytes.NewBuffer(dst[:0])
-	w, err := gzip.NewWriterLevel(buf, level)
-	if err != nil {
-		panic(err)
-	}
-	_, err = w.Write(src)
-	if err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-	return buf.Bytes()
-}
-
-func (g gzipCodec) Encode(dst, src []byte) []byte {
-	return g.EncodeLevel(dst, src, DefaultCompressionLevel)
-}
-
-func (gzipCodec) CompressBound(len int64) int64 {
-	return len + ((len + 7) >> 3) + ((len + 63) >> 6) + 5
-}
-
-func (gzipCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return gzip.NewWriter(w)
-}
-
-func (gzipCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	return gzip.NewWriterLevel(w, level)
-}
-
-func init() {
-	RegisterCodec(Codecs.Gzip, gzipCodec{})
-}
diff --git a/go/parquet/compress/lz4_raw.go b/go/parquet/compress/lz4_raw.go
deleted file mode 100644
index 788d9520a668b..0000000000000
--- a/go/parquet/compress/lz4_raw.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"sync"
-
-	"github.com/pierrec/lz4/v4"
-)
-
-// lz4.Compressor is not goroutine-safe, so we use a pool to amortize the cost
-// of allocating a new one for each call to Encode().
-var compressorPool = sync.Pool{New: func() interface{} { return new(lz4.Compressor) }}
-
-func compressBlock(src, dst []byte) (int, error) {
-	c := compressorPool.Get().(*lz4.Compressor)
-	defer compressorPool.Put(c)
-	return c.CompressBlock(src, dst)
-}
-
-type lz4RawCodec struct{}
-
-func (c lz4RawCodec) Encode(dst, src []byte) []byte {
-	n, err := compressBlock(src, dst[:cap(dst)])
-	if err != nil {
-		panic(err)
-	}
-
-	return dst[:n]
-}
-
-func (c lz4RawCodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	// the lz4 block implementation does not allow level to be set
-	return c.Encode(dst, src)
-}
-
-func (lz4RawCodec) Decode(dst, src []byte) []byte {
-	n, err := lz4.UncompressBlock(src, dst)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst[:n]
-}
-
-func (c lz4RawCodec) CompressBound(len int64) int64 {
-	return int64(lz4.CompressBlockBound(int(len)))
-}
-
-func init() {
-	RegisterCodec(Codecs.Lz4Raw, lz4RawCodec{})
-}
diff --git a/go/parquet/compress/snappy.go b/go/parquet/compress/snappy.go
deleted file mode 100644
index 5c82a2c8dc33e..0000000000000
--- a/go/parquet/compress/snappy.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"io"
-
-	"github.com/golang/snappy"
-)
-
-type snappyCodec struct{}
-
-func (snappyCodec) Encode(dst, src []byte) []byte {
-	return snappy.Encode(dst, src)
-}
-
-func (snappyCodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	return snappy.Encode(dst, src)
-}
-
-func (snappyCodec) Decode(dst, src []byte) []byte {
-	dst, err := snappy.Decode(dst, src)
-	if err != nil {
-		panic(err)
-	}
-	return dst
-}
-
-func (snappyCodec) NewReader(r io.Reader) io.ReadCloser {
-	return io.NopCloser(snappy.NewReader(r))
-}
-
-func (snappyCodec) CompressBound(len int64) int64 {
-	return int64(snappy.MaxEncodedLen(int(len)))
-}
-
-func (snappyCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return snappy.NewBufferedWriter(w)
-}
-
-func (s snappyCodec) NewWriterLevel(w io.Writer, _ int) (io.WriteCloser, error) {
-	return s.NewWriter(w), nil
-}
-
-func init() {
-	RegisterCodec(Codecs.Snappy, snappyCodec{})
-}
diff --git a/go/parquet/compress/zstd.go b/go/parquet/compress/zstd.go
deleted file mode 100644
index ea2126be18cc9..0000000000000
--- a/go/parquet/compress/zstd.go
+++ /dev/null
@@ -1,112 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"io"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/klauspost/compress/zstd"
-)
-
-type zstdCodec struct{}
-
-type zstdcloser struct {
-	*zstd.Decoder
-}
-
-var (
-	enc         *zstd.Encoder
-	dec         *zstd.Decoder
-	initEncoder sync.Once
-	initDecoder sync.Once
-)
-
-func getencoder() *zstd.Encoder {
-	initEncoder.Do(func() {
-		enc, _ = zstd.NewWriter(nil, zstd.WithZeroFrames(true))
-	})
-	return enc
-}
-
-func getdecoder() *zstd.Decoder {
-	initDecoder.Do(func() {
-		dec, _ = zstd.NewReader(nil)
-	})
-	return dec
-}
-
-func (zstdCodec) Decode(dst, src []byte) []byte {
-	dst, err := getdecoder().DecodeAll(src, dst[:0])
-	if err != nil {
-		panic(err)
-	}
-	return dst
-}
-
-func (z *zstdcloser) Close() error {
-	z.Decoder.Close()
-	return nil
-}
-
-func (zstdCodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, _ := zstd.NewReader(r)
-	return &zstdcloser{ret}
-}
-
-func (zstdCodec) NewWriter(w io.Writer) io.WriteCloser {
-	ret, _ := zstd.NewWriter(w)
-	return ret
-}
-
-func (zstdCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	var compressLevel zstd.EncoderLevel
-	if level == DefaultCompressionLevel {
-		compressLevel = zstd.SpeedDefault
-	} else {
-		compressLevel = zstd.EncoderLevelFromZstd(level)
-	}
-	return zstd.NewWriter(w, zstd.WithEncoderLevel(compressLevel))
-}
-
-func (z zstdCodec) Encode(dst, src []byte) []byte {
-	return getencoder().EncodeAll(src, dst[:0])
-}
-
-func (z zstdCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	compressLevel := zstd.EncoderLevelFromZstd(level)
-	if level == DefaultCompressionLevel {
-		compressLevel = zstd.SpeedDefault
-	}
-	enc, _ := zstd.NewWriter(nil, zstd.WithZeroFrames(true), zstd.WithEncoderLevel(compressLevel))
-	return enc.EncodeAll(src, dst[:0])
-}
-
-// from zstd.h, ZSTD_COMPRESSBOUND
-func (zstdCodec) CompressBound(len int64) int64 {
-	debug.Assert(len > 0, "len for zstd CompressBound should be > 0")
-	extra := ((128 << 10) - len) >> 11
-	if len >= (128 << 10) {
-		extra = 0
-	}
-	return len + (len >> 8) + extra
-}
-
-func init() {
-	RegisterCodec(Codecs.Zstd, zstdCodec{})
-}
diff --git a/go/parquet/doc.go b/go/parquet/doc.go
deleted file mode 100644
index a4fdd6e5dda21..0000000000000
--- a/go/parquet/doc.go
+++ /dev/null
@@ -1,81 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package parquet provides an implementation of Apache Parquet for Go.
-//
-// Apache Parquet is an open-source columnar data storage format using the record
-// shredding and assembly algorithm to accommodate complex data structures which
-// can then be used to efficiently store the data.
-//
-// While the go.mod states go1.18, everything here should be compatible
-// with go versions 1.17 and 1.16.
-//
-// This implementation is a native go implementation for reading and writing the
-// parquet file format.
-//
-// # Install
-//
-// You can download the library and cli utilities via:
-//
-//	go get -u github.com/apache/arrow/go/v18/parquet
-//	go install github.com/apache/arrow/go/v18/parquet/cmd/parquet_reader@latest
-//	go install github.com/apache/arrow/go/v18/parquet/cmd/parquet_schema@latest
-//
-// # Modules
-//
-// This top level parquet package contains the basic common types and reader/writer
-// properties along with some utilities that are used throughout the other modules.
-//
-// The file module contains the functions for directly reading/writing parquet files
-// including Column Readers and Column Writers.
-//
-// The metadata module contains the types for managing the lower level file/rowgroup/column
-// metadata inside of a ParquetFile including inspecting the statistics.
-//
-// The pqarrow module contains helper functions and types for converting directly
-// between Parquet and Apache Arrow formats.
-//
-// The schema module contains the types for manipulating / inspecting / creating
-// parquet file schemas.
-//
-// # Primitive Types
-//
-// The Parquet Primitive Types and their corresponding Go types are Boolean (bool),
-// Int32 (int32), Int64 (int64), Int96 (parquet.Int96), Float (float32), Double (float64),
-// ByteArray (parquet.ByteArray) and FixedLenByteArray (parquet.FixedLenByteArray).
-//
-// # Encodings
-//
-// The encoding types supported in this package are:
-//
-//   - Plain
-//
-//   - Plain/RLE Dictionary
-//
-//   - Delta Binary Packed (only integer types)
-//
-//   - Delta Byte Array (only ByteArray)
-//
-//   - Delta Length Byte Array (only ByteArray)
-//
-//   - Byte Stream Split (Float, Double, Int32, Int64, FixedLenByteArray)
-//
-// Tip: Some platforms don't necessarily support all kinds of encodings. If you're not
-// sure what to use, just use Plain and Dictionary encoding.
-package parquet
-
-//go:generate go run golang.org/x/tools/cmd/stringer -type=Version -linecomment
-//go:generate thrift -o internal -r --gen go ../../cpp/src/parquet/parquet.thrift
diff --git a/go/parquet/encryption_properties.go b/go/parquet/encryption_properties.go
deleted file mode 100644
index e9cb07d18bfe4..0000000000000
--- a/go/parquet/encryption_properties.go
+++ /dev/null
@@ -1,711 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"crypto/rand"
-	"unicode/utf8"
-
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Constants that will be used as the default values with encryption/decryption
-const (
-	// By default we'll use AesGCM as our encryption algorithm
-	DefaultEncryptionAlgorithm       = AesGcm
-	MaximalAadMetadataLength   int32 = 256
-	// if encryption is turned on, we will default to also encrypting the footer
-	DefaultEncryptedFooter = true
-	DefaultCheckSignature  = true
-	// by default if you set the file decryption properties, we will error
-	// on any plaintext files unless otherwise specified.
-	DefaultAllowPlaintextFiles       = false
-	AadFileUniqueLength        int32 = 8
-)
-
-// ColumnPathToDecryptionPropsMap maps column paths to decryption properties
-type ColumnPathToDecryptionPropsMap map[string]*ColumnDecryptionProperties
-
-// ColumnPathToEncryptionPropsMap maps column paths to encryption properties
-type ColumnPathToEncryptionPropsMap map[string]*ColumnEncryptionProperties
-
-// ColumnEncryptionProperties specifies how to encrypt a given column
-type ColumnEncryptionProperties struct {
-	columnPath             string
-	encrypted              bool
-	encryptedWithFooterKey bool
-	key                    string
-	keyMetadata            string
-	utilized               bool
-}
-
-// ColumnPath returns which column these properties are for
-func (ce *ColumnEncryptionProperties) ColumnPath() string {
-	return ce.columnPath
-}
-
-// IsEncrypted returns true if this column is encrypted.
-func (ce *ColumnEncryptionProperties) IsEncrypted() bool { return ce.encrypted }
-
-// IsEncryptedWithFooterKey returns if this column was encrypted with the footer key itself, or false if a separate
-// key was used for encrypting this column.
-func (ce *ColumnEncryptionProperties) IsEncryptedWithFooterKey() bool {
-	return ce.encryptedWithFooterKey
-}
-
-// Key returns the key used for encrypting this column if it isn't encrypted by the footer key
-func (ce *ColumnEncryptionProperties) Key() string { return ce.key }
-
-// KeyMetadata returns the key identifier which is used with a KeyRetriever to get the key for this column if it is not
-// encrypted using the footer key
-func (ce *ColumnEncryptionProperties) KeyMetadata() string { return ce.keyMetadata }
-
-// WipeOutEncryptionKey Clears the encryption key, used after completion of file writing
-func (ce *ColumnEncryptionProperties) WipeOutEncryptionKey() { ce.key = "" }
-
-// IsUtilized returns whether or not these properties have already been used, if the key is empty
-// then this is always false
-func (ce *ColumnEncryptionProperties) IsUtilized() bool {
-	if ce.key == "" {
-		return false
-	}
-	return ce.utilized
-}
-
-// SetUtilized is used for marking it as utilized once it is used in FileEncryptionProperties
-// as the encryption key will be wiped out on completion of writing
-func (ce *ColumnEncryptionProperties) SetUtilized() {
-	ce.utilized = true
-}
-
-// Clone returns a instance of ColumnEncryptionProperties with the same key and metadata
-func (ce *ColumnEncryptionProperties) Clone() *ColumnEncryptionProperties {
-	copy := ce.key
-	return NewColumnEncryptionProperties(ce.columnPath, WithKey(copy), WithKeyMetadata(ce.keyMetadata))
-}
-
-type colEncryptConfig struct {
-	key         string
-	keyMetadata string
-	encrypted   bool
-}
-
-// ColumnEncryptOption how to specify options to the NewColumnEncryptionProperties function.
-type ColumnEncryptOption func(*colEncryptConfig)
-
-// WithKey sets a column specific key.
-// If key is not set on an encrypted column, the column will be encrypted with the footer key.
-// key length must be either 16, 24, or 32 bytes
-// the key is cloned and will be wiped out (array values set to 0) upon completion of file writing.
-// Caller is responsible for wiping out input key array
-func WithKey(key string) ColumnEncryptOption {
-	return func(c *colEncryptConfig) {
-		if key != "" {
-			c.key = key
-		}
-	}
-}
-
-// WithKeyMetadata sets the key retrieval metadata, use either KeyMetadata or KeyID but not both
-func WithKeyMetadata(keyMeta string) ColumnEncryptOption {
-	return func(c *colEncryptConfig) {
-		c.keyMetadata = keyMeta
-	}
-}
-
-// WithKeyID is a convenience function to set the key metadata using a string id.
-// Set a key retrieval metadata (converted from String). and use either KeyMetadata or KeyID, not both.
-// KeyID will be converted to metadata (UTF-8 Array)
-func WithKeyID(keyID string) ColumnEncryptOption {
-	if !utf8.ValidString(keyID) {
-		panic("parquet: key id should be UTF8 encoded")
-	}
-	return WithKeyMetadata(keyID)
-}
-
-// NewColumnEncryptionProperties constructs properties for the provided column path, modified by the options provided
-func NewColumnEncryptionProperties(name string, opts ...ColumnEncryptOption) *ColumnEncryptionProperties {
-	var cfg colEncryptConfig
-	cfg.encrypted = true
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return &ColumnEncryptionProperties{
-		utilized:               false,
-		encrypted:              cfg.encrypted,
-		encryptedWithFooterKey: cfg.encrypted && cfg.key == "",
-		keyMetadata:            cfg.keyMetadata,
-		key:                    cfg.key,
-		columnPath:             name,
-	}
-}
-
-// ColumnDecryptionProperties are the specifications for how to decrypt a given column.
-type ColumnDecryptionProperties struct {
-	columnPath string
-	key        string
-	utilized   bool
-}
-
-// NewColumnDecryptionProperties constructs a new ColumnDecryptionProperties for the given column path, modified by
-// the provided options
-func NewColumnDecryptionProperties(column string, opts ...ColumnDecryptOption) *ColumnDecryptionProperties {
-	var cfg columnDecryptConfig
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	return &ColumnDecryptionProperties{
-		columnPath: column,
-		utilized:   false,
-		key:        cfg.key,
-	}
-}
-
-// ColumnPath returns which column these properties describe how to decrypt
-func (cd *ColumnDecryptionProperties) ColumnPath() string { return cd.columnPath }
-
-// Key returns the key specified to decrypt this column, or is empty if the Footer Key should be used.
-func (cd *ColumnDecryptionProperties) Key() string { return cd.key }
-
-// IsUtilized returns whether or not these properties have been used for decryption already
-func (cd *ColumnDecryptionProperties) IsUtilized() bool { return cd.utilized }
-
-// SetUtilized is used by the reader to specify when we've decrypted the column and have used the key so we know
-// to wipe out the keys.
-func (cd *ColumnDecryptionProperties) SetUtilized() { cd.utilized = true }
-
-// WipeOutDecryptionKey is called after decryption to ensure the key doesn't stick around and get re-used.
-func (cd *ColumnDecryptionProperties) WipeOutDecryptionKey() { cd.key = "" }
-
-// Clone returns a new instance of ColumnDecryptionProperties with the same key and column
-func (cd *ColumnDecryptionProperties) Clone() *ColumnDecryptionProperties {
-	return NewColumnDecryptionProperties(cd.columnPath, WithDecryptKey(cd.key))
-}
-
-type columnDecryptConfig struct {
-	key string
-}
-
-// ColumnDecryptOption is the type of the options passed for constructing Decryption Properties
-type ColumnDecryptOption func(*columnDecryptConfig)
-
-// WithDecryptKey specifies the key to utilize for decryption
-func WithDecryptKey(key string) ColumnDecryptOption {
-	return func(cfg *columnDecryptConfig) {
-		if key != "" {
-			cfg.key = key
-		}
-	}
-}
-
-// AADPrefixVerifier is an interface for any object that can be used to verify the identity of the file being decrypted.
-// It should panic if the provided AAD identity is bad.
-//
-// In a data set, AAD Prefixes should be collected, and then checked for missing files.
-type AADPrefixVerifier interface {
-	// Verify identity of file. panic if bad
-	Verify(string)
-}
-
-// DecryptionKeyRetriever is an interface for getting the desired key for decryption from metadata. It should take in
-// some metadata identifier and return the actual Key to use for decryption.
-type DecryptionKeyRetriever interface {
-	GetKey(keyMetadata []byte) string
-}
-
-// FileDecryptionProperties define the File Level configuration for decrypting a parquet file. Once constructed they are
-// read only.
-type FileDecryptionProperties struct {
-	footerKey                     string
-	aadPrefix                     string
-	checkPlaintextFooterIntegrity bool
-	plaintextAllowed              bool
-	utilized                      bool
-	columnDecryptProps            ColumnPathToDecryptionPropsMap
-	Verifier                      AADPrefixVerifier
-	KeyRetriever                  DecryptionKeyRetriever
-}
-
-// NewFileDecryptionProperties takes in the options for constructing a new FileDecryptionProperties object, otherwise
-// it will use the default configuration which will check footer integrity of a plaintext footer for an encrypted file
-// for unencrypted parquet files, the decryption properties should not be set.
-func NewFileDecryptionProperties(opts ...FileDecryptionOption) *FileDecryptionProperties {
-	var cfg fileDecryptConfig
-	cfg.checkFooterIntegrity = DefaultCheckSignature
-	cfg.plaintextAllowed = DefaultAllowPlaintextFiles
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return &FileDecryptionProperties{
-		Verifier:                      cfg.verifier,
-		footerKey:                     cfg.footerKey,
-		checkPlaintextFooterIntegrity: cfg.checkFooterIntegrity,
-		KeyRetriever:                  cfg.retriever,
-		aadPrefix:                     cfg.aadPrefix,
-		columnDecryptProps:            cfg.colDecrypt,
-		plaintextAllowed:              cfg.plaintextAllowed,
-		utilized:                      false,
-	}
-}
-
-// ColumnKey returns the key to be used for decrypting the provided column.
-func (fd *FileDecryptionProperties) ColumnKey(path string) string {
-	if d, ok := fd.columnDecryptProps[path]; ok {
-		if d != nil {
-			return d.Key()
-		}
-	}
-	return ""
-}
-
-// FooterKey returns the key utilized for decrypting the Footer if encrypted and any columns that are encrypted with
-// the footer key.
-func (fd *FileDecryptionProperties) FooterKey() string { return fd.footerKey }
-
-// AadPrefix returns the prefix to be supplied for constructing the identification strings when decrypting
-func (fd *FileDecryptionProperties) AadPrefix() string { return fd.aadPrefix }
-
-// PlaintextFooterIntegrity returns whether or not an integrity check will be performed on a plaintext footer for an
-// encrypted file.
-func (fd *FileDecryptionProperties) PlaintextFooterIntegrity() bool {
-	return fd.checkPlaintextFooterIntegrity
-}
-
-// PlaintextFilesAllowed returns whether or not this instance of decryption properties are allowed on a plaintext file.
-func (fd *FileDecryptionProperties) PlaintextFilesAllowed() bool { return fd.plaintextAllowed }
-
-// SetUtilized is called to mark this instance as utilized once it is used to read a file. A single instance
-// can be used for reading one file only. Setting this ensures the keys will be wiped out upon completion of file reading.
-func (fd *FileDecryptionProperties) SetUtilized() { fd.utilized = true }
-
-// IsUtilized returns whether or not this instance has been used to decrypt a file. If the footer key and prefix are
-// empty and there are no column decryption properties, then this is always false.
-func (fd *FileDecryptionProperties) IsUtilized() bool {
-	if fd.footerKey == "" && len(fd.columnDecryptProps) == 0 && fd.aadPrefix == "" {
-		return false
-	}
-	return fd.utilized
-}
-
-// WipeOutDecryptionKeys will clear all the keys for this instance including the column level ones, this will be called
-// after this instance has been utilized.
-func (fd *FileDecryptionProperties) WipeOutDecryptionKeys() {
-	fd.footerKey = ""
-	for _, cd := range fd.columnDecryptProps {
-		cd.WipeOutDecryptionKey()
-	}
-}
-
-// Clone returns a new instance of these properties, changing the prefix if set (keeping the same prefix if left empty)
-func (fd *FileDecryptionProperties) Clone(newAadPrefix string) *FileDecryptionProperties {
-	keyCopy := fd.footerKey
-	colDecryptMapCopy := make(ColumnPathToDecryptionPropsMap)
-	for k, v := range fd.columnDecryptProps {
-		colDecryptMapCopy[k] = v.Clone()
-	}
-	if newAadPrefix == "" {
-		newAadPrefix = fd.aadPrefix
-	}
-	return &FileDecryptionProperties{
-		footerKey:                     keyCopy,
-		KeyRetriever:                  fd.KeyRetriever,
-		checkPlaintextFooterIntegrity: fd.checkPlaintextFooterIntegrity,
-		Verifier:                      fd.Verifier,
-		columnDecryptProps:            colDecryptMapCopy,
-		aadPrefix:                     newAadPrefix,
-		plaintextAllowed:              fd.plaintextAllowed,
-		utilized:                      false,
-	}
-}
-
-type fileDecryptConfig struct {
-	footerKey            string
-	aadPrefix            string
-	verifier             AADPrefixVerifier
-	colDecrypt           ColumnPathToDecryptionPropsMap
-	retriever            DecryptionKeyRetriever
-	checkFooterIntegrity bool
-	plaintextAllowed     bool
-}
-
-// FileDecryptionOption is how to supply options to constructing a new FileDecryptionProperties instance.
-type FileDecryptionOption func(*fileDecryptConfig)
-
-// WithFooterKey sets an explicit footer key. If Applied on a file that contains footer key
-// metadata the metadata will be ignored, the footer will be decrypted/verified with this key.
-//
-// If the explicit key is not set, footer key will be fetched from the key retriever.
-// With explicit keys or AAD prefix, new encryption properties object must be created for each
-// encrypted file.
-//
-// Explicit encryption keys (footer and column) are cloned.
-// Upon completion of file reading, the cloned encryption keys in the properties will be wiped out
-// Caller is responsible for wiping out the input key array
-// footer key length must be either 16, 24, or 32 bytes
-func WithFooterKey(key string) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if key != "" {
-			cfg.footerKey = key
-		}
-	}
-}
-
-// WithPrefixVerifier supplies a verifier object to use for verifying the AAD Prefixes stored in the file.
-func WithPrefixVerifier(verifier AADPrefixVerifier) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if verifier != nil {
-			cfg.verifier = verifier
-		}
-	}
-}
-
-// WithColumnKeys sets explicit column keys.
-//
-// It's also possible to set a key retriever on this property object.
-//
-// Upon file decryption, availability of explicit keys is checked before invocation
-// of the retriever callback.
-//
-// If an explicit key is available for a footer or a column, its key metadata will be ignored.
-func WithColumnKeys(decrypt ColumnPathToDecryptionPropsMap) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if len(decrypt) == 0 {
-			return
-		}
-		if len(cfg.colDecrypt) != 0 {
-			panic("column properties already set")
-		}
-		for _, v := range decrypt {
-			if v.IsUtilized() {
-				panic("parquet: column properties utilized in another file")
-			}
-			v.SetUtilized()
-		}
-		cfg.colDecrypt = decrypt
-	}
-}
-
-// WithKeyRetriever sets a key retriever callback. It's also possible to set explicit footer or column keys.
-func WithKeyRetriever(retriever DecryptionKeyRetriever) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if retriever != nil {
-			cfg.retriever = retriever
-		}
-	}
-}
-
-// DisableFooterSignatureVerification skips integrity verification of plaintext footers.
-//
-// If not called, integrity of plaintext footers will be checked in runtime, and will panic
-// if the footer signing key is not available
-// or if the footer content and signature don't match
-func DisableFooterSignatureVerification() FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		cfg.checkFooterIntegrity = false
-	}
-}
-
-// WithPlaintextAllowed sets allowing plaintext files.
-//
-// By default, reading plaintext (unencrypted) files is not allowed when using
-// a decryptor.
-//
-// In order to detect files that were not encrypted by mistake.
-// However the default behavior can be overridden by using this method.
-func WithPlaintextAllowed() FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		cfg.plaintextAllowed = true
-	}
-}
-
-// WithDecryptAadPrefix explicitly supplies the file aad prefix.
-//
-// A must when a prefix is used for file encryption, but not stored in the file.
-func WithDecryptAadPrefix(prefix string) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if prefix != "" {
-			cfg.aadPrefix = prefix
-		}
-	}
-}
-
-// Algorithm describes how something was encrypted, representing the EncryptionAlgorithm object from the
-// parquet.thrift file.
-type Algorithm struct {
-	Algo Cipher
-	Aad  struct {
-		AadPrefix       []byte
-		AadFileUnique   []byte
-		SupplyAadPrefix bool
-	}
-}
-
-// ToThrift returns an instance to be used for serializing when writing a file.
-func (e Algorithm) ToThrift() *format.EncryptionAlgorithm {
-	if e.Algo == AesGcm {
-		return &format.EncryptionAlgorithm{
-			AES_GCM_V1: &format.AesGcmV1{
-				AadPrefix:       e.Aad.AadPrefix,
-				AadFileUnique:   e.Aad.AadFileUnique,
-				SupplyAadPrefix: &e.Aad.SupplyAadPrefix,
-			},
-		}
-	}
-	return &format.EncryptionAlgorithm{
-		AES_GCM_CTR_V1: &format.AesGcmCtrV1{
-			AadPrefix:       e.Aad.AadPrefix,
-			AadFileUnique:   e.Aad.AadFileUnique,
-			SupplyAadPrefix: &e.Aad.SupplyAadPrefix,
-		},
-	}
-}
-
-// AlgorithmFromThrift converts the thrift object to the Algorithm struct for easier usage.
-func AlgorithmFromThrift(enc *format.EncryptionAlgorithm) (ret Algorithm) {
-	if enc.IsSetAES_GCM_V1() {
-		ret.Algo = AesGcm
-		ret.Aad.AadFileUnique = enc.AES_GCM_V1.AadFileUnique
-		ret.Aad.AadPrefix = enc.AES_GCM_V1.AadPrefix
-		ret.Aad.SupplyAadPrefix = *enc.AES_GCM_V1.SupplyAadPrefix
-		return
-	}
-	ret.Algo = AesCtr
-	ret.Aad.AadFileUnique = enc.AES_GCM_CTR_V1.AadFileUnique
-	ret.Aad.AadPrefix = enc.AES_GCM_CTR_V1.AadPrefix
-	ret.Aad.SupplyAadPrefix = *enc.AES_GCM_CTR_V1.SupplyAadPrefix
-	return
-}
-
-// FileEncryptionProperties describe how to encrypt a parquet file when writing data.
-type FileEncryptionProperties struct {
-	alg                  Algorithm
-	footerKey            string
-	footerKeyMetadata    string
-	encryptedFooter      bool
-	fileAad              string
-	utilized             bool
-	storeAadPrefixInFile bool
-	aadPrefix            string
-	encryptedCols        ColumnPathToEncryptionPropsMap
-}
-
-// EncryptedFooter returns if the footer for this file should be encrypted or left in plaintext.
-func (fe *FileEncryptionProperties) EncryptedFooter() bool { return fe.encryptedFooter }
-
-// Algorithm returns the description of how we will perform the encryption, the algorithm, prefixes, and so on.
-func (fe *FileEncryptionProperties) Algorithm() Algorithm { return fe.alg }
-
-// FooterKey returns the actual key used to encrypt the footer if it is encrypted, or to encrypt any columns which
-// will be encrypted with it rather than their own keys.
-func (fe *FileEncryptionProperties) FooterKey() string { return fe.footerKey }
-
-// FooterKeyMetadata is used for retrieving a key from the key retriever in order to set the footer key
-func (fe *FileEncryptionProperties) FooterKeyMetadata() string { return fe.footerKeyMetadata }
-
-// FileAad returns the aad identification to be used at the file level which gets concatenated with the row and column
-// information for encrypting data.
-func (fe *FileEncryptionProperties) FileAad() string { return fe.fileAad }
-
-// IsUtilized returns whether or not this instance has been used to encrypt a file
-func (fe *FileEncryptionProperties) IsUtilized() bool { return fe.utilized }
-
-// SetUtilized is called after writing a file. A FileEncryptionProperties object can be used for writing one file only,
-// the encryption keys will be wiped out upon completion of writing the file.
-func (fe *FileEncryptionProperties) SetUtilized() { fe.utilized = true }
-
-// EncryptedColumns returns the mapping of column paths to column encryption properties
-func (fe *FileEncryptionProperties) EncryptedColumns() ColumnPathToEncryptionPropsMap {
-	return fe.encryptedCols
-}
-
-// ColumnEncryptionProperties returns the properties for encrypting a given column.
-//
-// This may be nil for columns that aren't encrypted or may be default properties.
-func (fe *FileEncryptionProperties) ColumnEncryptionProperties(path string) *ColumnEncryptionProperties {
-	if len(fe.encryptedCols) == 0 {
-		return NewColumnEncryptionProperties(path)
-	}
-	if c, ok := fe.encryptedCols[path]; ok {
-		return c
-	}
-	return nil
-}
-
-// Clone allows returning an identical property setup for another file with the option to update the aadPrefix,
-// (if given the empty string, the current aad prefix will be used) since a single instance can only be used
-// to encrypt one file before wiping out the keys.
-func (fe *FileEncryptionProperties) Clone(newAadPrefix string) *FileEncryptionProperties {
-	footerKeyCopy := fe.footerKey
-	encryptedColsCopy := make(ColumnPathToEncryptionPropsMap)
-	for k, v := range fe.encryptedCols {
-		encryptedColsCopy[k] = v.Clone()
-	}
-	if newAadPrefix == "" {
-		newAadPrefix = fe.aadPrefix
-	}
-
-	opts := []EncryptOption{
-		WithAlg(fe.alg.Algo), WithFooterKeyMetadata(fe.footerKeyMetadata),
-		WithAadPrefix(newAadPrefix), WithEncryptedColumns(encryptedColsCopy),
-	}
-	if !fe.encryptedFooter {
-		opts = append(opts, WithPlaintextFooter())
-	}
-	if !fe.storeAadPrefixInFile {
-		opts = append(opts, DisableAadPrefixStorage())
-	}
-	return NewFileEncryptionProperties(footerKeyCopy, opts...)
-}
-
-// WipeOutEncryptionKeys clears all of the encryption keys for this and the columns
-func (fe *FileEncryptionProperties) WipeOutEncryptionKeys() {
-	fe.footerKey = ""
-	for _, elem := range fe.encryptedCols {
-		elem.WipeOutEncryptionKey()
-	}
-}
-
-type configEncrypt struct {
-	cipher               Cipher
-	encryptFooter        bool
-	keyMetadata          string
-	aadprefix            string
-	storeAadPrefixInFile bool
-	encryptedCols        ColumnPathToEncryptionPropsMap
-}
-
-// EncryptOption is used for specifying values when building FileEncryptionProperties
-type EncryptOption func(*configEncrypt)
-
-// WithPlaintextFooter sets the writer to write the footer in plain text, otherwise the footer will be encrypted
-// too (which is the default behavior).
-func WithPlaintextFooter() EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.encryptFooter = false
-	}
-}
-
-// WithAlg sets the encryption algorithm to utilize. (default is AesGcm)
-func WithAlg(cipher Cipher) EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.cipher = cipher
-	}
-}
-
-// WithFooterKeyID sets a key retrieval metadata to use (converted from string), this must be a utf8 string.
-//
-// use either WithFooterKeyID or WithFooterKeyMetadata, not both.
-func WithFooterKeyID(key string) EncryptOption {
-	if !utf8.ValidString(key) {
-		panic("parquet: footer key id should be UTF8 encoded")
-	}
-	return WithFooterKeyMetadata(key)
-}
-
-// WithFooterKeyMetadata sets a key retrieval metadata to use for getting the key.
-//
-// Use either WithFooterKeyID or WithFooterKeyMetadata, not both.
-func WithFooterKeyMetadata(keyMeta string) EncryptOption {
-	return func(cfg *configEncrypt) {
-		if keyMeta != "" {
-			cfg.keyMetadata = keyMeta
-		}
-	}
-}
-
-// WithAadPrefix sets the AAD prefix to use for encryption and by default will store it in the file
-func WithAadPrefix(aadPrefix string) EncryptOption {
-	return func(cfg *configEncrypt) {
-		if aadPrefix != "" {
-			cfg.aadprefix = aadPrefix
-			cfg.storeAadPrefixInFile = true
-		}
-	}
-}
-
-// DisableAadPrefixStorage will set the properties to not store the AadPrefix in the file. If this isn't called
-// and the AadPrefix is set, then it will be stored. This needs to in the options *after* WithAadPrefix to have an effect.
-func DisableAadPrefixStorage() EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.storeAadPrefixInFile = false
-	}
-}
-
-// WithEncryptedColumns sets the map of columns and their properties (keys etc.) If not called, then all columns will
-// be encrypted with the footer key. If called, then columns not in the map will be left unencrypted.
-func WithEncryptedColumns(encrypted ColumnPathToEncryptionPropsMap) EncryptOption {
-	none := func(*configEncrypt) {}
-	if len(encrypted) == 0 {
-		return none
-	}
-	return func(cfg *configEncrypt) {
-		if len(cfg.encryptedCols) != 0 {
-			panic("column properties already set")
-		}
-		for _, v := range encrypted {
-			if v.IsUtilized() {
-				panic("column properties utilized in another file")
-			}
-			v.SetUtilized()
-		}
-		cfg.encryptedCols = encrypted
-	}
-}
-
-// NewFileEncryptionProperties returns a new File Encryption description object using the options provided.
-func NewFileEncryptionProperties(footerKey string, opts ...EncryptOption) *FileEncryptionProperties {
-	var cfg configEncrypt
-	cfg.cipher = DefaultEncryptionAlgorithm
-	cfg.encryptFooter = DefaultEncryptedFooter
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	props := &FileEncryptionProperties{
-		footerKey:            footerKey,
-		footerKeyMetadata:    cfg.keyMetadata,
-		encryptedFooter:      cfg.encryptFooter,
-		aadPrefix:            cfg.aadprefix,
-		storeAadPrefixInFile: cfg.storeAadPrefixInFile,
-		encryptedCols:        cfg.encryptedCols,
-		utilized:             false,
-	}
-
-	aadFileUnique := [AadFileUniqueLength]uint8{}
-	_, err := rand.Read(aadFileUnique[:])
-	if err != nil {
-		panic(err)
-	}
-
-	supplyAadPrefix := false
-	if props.aadPrefix == "" {
-		props.fileAad = string(aadFileUnique[:])
-	} else {
-		props.fileAad = props.aadPrefix + string(aadFileUnique[:])
-		if !props.storeAadPrefixInFile {
-			supplyAadPrefix = true
-		}
-	}
-	props.alg.Algo = cfg.cipher
-	props.alg.Aad.AadFileUnique = aadFileUnique[:]
-	props.alg.Aad.SupplyAadPrefix = supplyAadPrefix
-	if cfg.aadprefix != "" && cfg.storeAadPrefixInFile {
-		props.alg.Aad.AadPrefix = []byte(props.aadPrefix)
-	}
-	return props
-}
diff --git a/go/parquet/encryption_properties_test.go b/go/parquet/encryption_properties_test.go
deleted file mode 100644
index 8f50e5880b555..0000000000000
--- a/go/parquet/encryption_properties_test.go
+++ /dev/null
@@ -1,217 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/stretchr/testify/assert"
-)
-
-const (
-	FooterEncryptionKey  = "0123456789012345"
-	ColumnEncryptionKey1 = "1234567890123450"
-	ColumnEncryptionKey2 = "1234567890123451"
-	FileName             = "tester"
-)
-
-func TestColumnEncryptedWithOwnKey(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := "column_1"
-	colprops1 := parquet.NewColumnEncryptionProperties(columnPath1,
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-
-	assert.Equal(t, columnPath1, colprops1.ColumnPath())
-	assert.True(t, colprops1.IsEncrypted())
-	assert.False(t, colprops1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, colprops1.Key())
-	assert.Equal(t, "kc1", colprops1.KeyMetadata())
-}
-
-func TestColumnEncryptedWithFooterKey(t *testing.T) {
-	t.Parallel()
-
-	colPath1 := "column_1"
-	colprops1 := parquet.NewColumnEncryptionProperties(colPath1)
-
-	assert.Equal(t, colPath1, colprops1.ColumnPath())
-	assert.True(t, colprops1.IsEncrypted())
-	assert.True(t, colprops1.IsEncryptedWithFooterKey())
-}
-
-func TestUniformEncryption(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey, parquet.WithFooterKeyMetadata("kf"))
-
-	assert.True(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-	assert.Equal(t, "kf", props.FooterKeyMetadata())
-
-	colPath := parquet.ColumnPathFromString("a_column")
-	outColProps := props.ColumnEncryptionProperties(colPath.String())
-
-	assert.True(t, outColProps.IsEncrypted())
-	assert.True(t, outColProps.IsEncryptedWithFooterKey())
-}
-
-func TestEncryptFooterAndTwoColumns(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	columnPath2 := parquet.ColumnPathFromString("column_2")
-
-	encryptedColumns := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptedColumns[columnPath1.String()] = parquet.NewColumnEncryptionProperties(columnPath1.String(),
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptedColumns[columnPath2.String()] = parquet.NewColumnEncryptionProperties(columnPath2.String(),
-		parquet.WithKey(ColumnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptedColumns))
-
-	assert.True(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-
-	outColProps1 := props.ColumnEncryptionProperties(columnPath1.String())
-	assert.Equal(t, columnPath1.String(), outColProps1.ColumnPath())
-	assert.True(t, outColProps1.IsEncrypted())
-	assert.False(t, outColProps1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, outColProps1.Key())
-	assert.Equal(t, "kc1", outColProps1.KeyMetadata())
-
-	outColProps2 := props.ColumnEncryptionProperties(columnPath2.String())
-	assert.Equal(t, columnPath2.String(), outColProps2.ColumnPath())
-	assert.True(t, outColProps2.IsEncrypted())
-	assert.False(t, outColProps2.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey2, outColProps2.Key())
-	assert.Equal(t, "kc2", outColProps2.KeyMetadata())
-
-	columnPath3 := parquet.ColumnPathFromString("column_3")
-	outColProps3 := props.ColumnEncryptionProperties(columnPath3.String())
-	assert.Nil(t, outColProps3)
-}
-
-func TestEncryptTwoColumnsNotFooter(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	columnPath2 := parquet.ColumnPathFromString("column_2")
-
-	encryptedColumns := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptedColumns[columnPath1.String()] = parquet.NewColumnEncryptionProperties(columnPath1.String(),
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptedColumns[columnPath2.String()] = parquet.NewColumnEncryptionProperties(columnPath2.String(),
-		parquet.WithKey(ColumnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithFooterKeyMetadata("kf"), parquet.WithPlaintextFooter(), parquet.WithEncryptedColumns(encryptedColumns))
-
-	assert.False(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-
-	outColProps1 := props.ColumnEncryptionProperties(columnPath1.String())
-	assert.Equal(t, columnPath1.String(), outColProps1.ColumnPath())
-	assert.True(t, outColProps1.IsEncrypted())
-	assert.False(t, outColProps1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, outColProps1.Key())
-	assert.Equal(t, "kc1", outColProps1.KeyMetadata())
-
-	outColProps2 := props.ColumnEncryptionProperties(columnPath2.String())
-	assert.Equal(t, columnPath2.String(), outColProps2.ColumnPath())
-	assert.True(t, outColProps2.IsEncrypted())
-	assert.False(t, outColProps2.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey2, outColProps2.Key())
-	assert.Equal(t, "kc2", outColProps2.KeyMetadata())
-
-	columnPath3 := "column_3"
-	outColProps3 := props.ColumnEncryptionProperties(columnPath3)
-	assert.Nil(t, outColProps3)
-}
-
-func TestUseAadPrefix(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey, parquet.WithAadPrefix(FileName))
-
-	assert.Equal(t, FileName, string(props.Algorithm().Aad.AadPrefix))
-	assert.False(t, props.Algorithm().Aad.SupplyAadPrefix)
-}
-
-func TestUseAadPrefixNotStoreInFile(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithAadPrefix(FileName), parquet.DisableAadPrefixStorage())
-
-	assert.Empty(t, props.Algorithm().Aad.AadPrefix)
-	assert.True(t, props.Algorithm().Aad.SupplyAadPrefix)
-}
-
-func TestUseAES_GCM_CTR_V1Algo(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithAlg(parquet.AesCtr))
-
-	assert.Equal(t, parquet.AesCtr, props.Algorithm().Algo)
-}
-
-func TestUseKeyRetriever(t *testing.T) {
-	t.Parallel()
-
-	stringKr1 := make(encryption.StringKeyIDRetriever)
-	stringKr1.PutKey("kf", FooterEncryptionKey)
-	stringKr1.PutKey("kc1", ColumnEncryptionKey1)
-	stringKr1.PutKey("kc2", ColumnEncryptionKey2)
-
-	props := parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr1))
-	assert.Equal(t, FooterEncryptionKey, props.KeyRetriever.GetKey([]byte("kf")))
-	assert.Equal(t, ColumnEncryptionKey1, props.KeyRetriever.GetKey([]byte("kc1")))
-	assert.Equal(t, ColumnEncryptionKey2, props.KeyRetriever.GetKey([]byte("kc2")))
-}
-
-func TestSupplyAadPrefix(t *testing.T) {
-	props := parquet.NewFileDecryptionProperties(
-		parquet.WithFooterKey(FooterEncryptionKey), parquet.WithDecryptAadPrefix(FileName))
-	assert.Equal(t, FileName, props.AadPrefix())
-}
-
-func TestSetKey(t *testing.T) {
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	props := parquet.NewColumnDecryptionProperties(columnPath1.String(), parquet.WithDecryptKey(ColumnEncryptionKey1))
-	assert.Equal(t, ColumnEncryptionKey1, props.Key())
-}
-
-func TestUsingExplicitFooterAndColumnKeys(t *testing.T) {
-	colPath1 := "column_1"
-	colPath2 := "column_2"
-	decryptCols := make(parquet.ColumnPathToDecryptionPropsMap)
-	decryptCols[colPath1] = parquet.NewColumnDecryptionProperties(colPath1, parquet.WithDecryptKey(ColumnEncryptionKey1))
-	decryptCols[colPath2] = parquet.NewColumnDecryptionProperties(colPath2, parquet.WithDecryptKey(ColumnEncryptionKey2))
-
-	props := parquet.NewFileDecryptionProperties(parquet.WithFooterKey(FooterEncryptionKey), parquet.WithColumnKeys(decryptCols))
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, props.ColumnKey(colPath1))
-	assert.Equal(t, ColumnEncryptionKey2, props.ColumnKey(colPath2))
-}
diff --git a/go/parquet/encryption_read_config_test.go b/go/parquet/encryption_read_config_test.go
deleted file mode 100644
index 1e2de16416d31..0000000000000
--- a/go/parquet/encryption_read_config_test.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"encoding/binary"
-	"fmt"
-	"os"
-	"path"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/stretchr/testify/suite"
-)
-
-/*
- * This file contains a unit-test for reading encrypted Parquet files with
- * different decryption configurations.
- *
- * The unit-test is called multiple times, each time to decrypt parquet files using
- * different decryption configuration as described below.
- * In each call two encrypted files are read: one temporary file that was generated using
- * encryption_write_config_test.go test and will be deleted upon
- * reading it, while the second resides in
- * parquet-testing/data repository. Those two encrypted files were encrypted using the
- * same encryption configuration.
- * The encrypted parquet file names are passed as parameter to the unit-test.
- *
- * A detailed description of the Parquet Modular Encryption specification can be found
- * here:
- * https://github.com/apache/parquet-format/blob/encryption/Encryption.md
- *
- * The following decryption configurations are used to decrypt each parquet file:
- *
- *  - Decryption configuration 1:   Decrypt using key retriever that holds the keys of
- *                                  two encrypted columns and the footer key.
- *  - Decryption configuration 2:   Decrypt using key retriever that holds the keys of
- *                                  two encrypted columns and the footer key. Supplies
- *                                  aad_prefix to verify file identity.
- *  - Decryption configuration 3:   Decrypt using explicit column and footer keys
- *                                  (instead of key retrieval callback).
- *  - Decryption Configuration 4:   PlainText Footer mode - test legacy reads,
- *                                  read the footer + all non-encrypted columns.
- *                                  (pairs with encryption configuration 3)
- *
- * The encrypted parquet files that is read was encrypted using one of the configurations
- * below:
- *
- *  - Encryption configuration 1:   Encrypt all columns and the footer with the same key.
- *                                  (uniform encryption)
- *  - Encryption configuration 2:   Encrypt two columns and the footer, with different
- *                                  keys.
- *  - Encryption configuration 3:   Encrypt two columns, with different keys.
- *                                  Don’t encrypt footer (to enable legacy readers)
- *                                  - plaintext footer mode.
- *  - Encryption configuration 4:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix for file identity
- *                                  verification.
- *  - Encryption configuration 5:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix, and call
- *                                  disable_aad_prefix_storage to prevent file
- *                                  identity storage in file metadata.
- *  - Encryption configuration 6:   Encrypt two columns and the footer, with different
- *                                  keys. Use the alternative (AES_GCM_CTR_V1) algorithm.
- */
-
-func getDataDir() string {
-	datadir := os.Getenv("PARQUET_TEST_DATA")
-	if datadir == "" {
-		panic("please point the PARQUET_TEST_DATA environment variable to the test data dir")
-	}
-	return datadir
-}
-
-type TestDecryptionSuite struct {
-	suite.Suite
-
-	pathToDouble        string
-	pathToFloat         string
-	decryptionConfigs   []*parquet.FileDecryptionProperties
-	footerEncryptionKey string
-	colEncryptionKey1   string
-	colEncryptionKey2   string
-	fileName            string
-	rowsPerRG           int
-}
-
-func (d *TestDecryptionSuite) TearDownSuite() {
-	os.Remove(tempdir)
-}
-
-func TestFileEncryptionDecryption(t *testing.T) {
-	suite.Run(t, new(EncryptionConfigTestSuite))
-	suite.Run(t, new(TestDecryptionSuite))
-}
-
-func (d *TestDecryptionSuite) SetupSuite() {
-	d.pathToDouble = "double_field"
-	d.pathToFloat = "float_field"
-	d.footerEncryptionKey = FooterEncryptionKey
-	d.colEncryptionKey1 = ColumnEncryptionKey1
-	d.colEncryptionKey2 = ColumnEncryptionKey2
-	d.fileName = FileName
-	d.rowsPerRG = 50 // same as write encryption test
-
-	d.createDecryptionConfigs()
-}
-
-func (d *TestDecryptionSuite) createDecryptionConfigs() {
-	// Decryption configuration 1: Decrypt using key retriever callback that holds the
-	// keys of two encrypted columns and the footer key.
-	stringKr1 := make(encryption.StringKeyIDRetriever)
-	stringKr1.PutKey("kf", d.footerEncryptionKey)
-	stringKr1.PutKey("kc1", d.colEncryptionKey1)
-	stringKr1.PutKey("kc2", d.colEncryptionKey2)
-
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr1)))
-
-	// Decryption configuration 2: Decrypt using key retriever callback that holds the
-	// keys of two encrypted columns and the footer key. Supply aad_prefix.
-	stringKr2 := make(encryption.StringKeyIDRetriever)
-	stringKr2.PutKey("kf", d.footerEncryptionKey)
-	stringKr2.PutKey("kc1", d.colEncryptionKey1)
-	stringKr2.PutKey("kc2", d.colEncryptionKey2)
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr2), parquet.WithDecryptAadPrefix(d.fileName)))
-
-	// Decryption configuration 3: Decrypt using explicit column and footer keys. Supply
-	// aad_prefix.
-	decryptCols := make(parquet.ColumnPathToDecryptionPropsMap)
-	decryptCols[d.pathToFloat] = parquet.NewColumnDecryptionProperties(d.pathToFloat, parquet.WithDecryptKey(d.colEncryptionKey2))
-	decryptCols[d.pathToDouble] = parquet.NewColumnDecryptionProperties(d.pathToDouble, parquet.WithDecryptKey(d.colEncryptionKey1))
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithFooterKey(d.footerEncryptionKey), parquet.WithColumnKeys(decryptCols)))
-
-	// Decryption Configuration 4: use plaintext footer mode, read only footer + plaintext
-	// columns.
-	d.decryptionConfigs = append(d.decryptionConfigs, nil)
-}
-
-func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int) {
-	// if we get decryption_config_num = x then it means the actual number is x+1
-	// and since we want decryption_config_num=4 we set the condition to 3
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	if decryptConfigNum != 3 {
-		props.FileDecryptProps = d.decryptionConfigs[decryptConfigNum].Clone("")
-	}
-
-	fileReader, err := file.OpenParquetFile(filename, false, file.WithReadProps(props))
-	if err != nil {
-		panic(err)
-	}
-	defer fileReader.Close()
-	// get metadata
-	fileMetadata := fileReader.MetaData()
-	// get number of rowgroups
-	numRowGroups := len(fileMetadata.RowGroups)
-	// number of columns
-	numColumns := fileMetadata.Schema.NumColumns()
-	d.Equal(8, numColumns)
-
-	for r := 0; r < numRowGroups; r++ {
-		rowGroupReader := fileReader.RowGroup(r)
-
-		// get rowgroup meta
-		rgMeta := fileMetadata.RowGroup(r)
-		d.EqualValues(d.rowsPerRG, rgMeta.NumRows())
-
-		valuesRead := 0
-		rowsRead := int64(0)
-
-		// get col reader for boolean column
-		colReader, err := rowGroupReader.Column(0)
-		if err != nil {
-			panic(err)
-		}
-		boolReader := colReader.(*file.BooleanColumnChunkReader)
-
-		// get column chunk metadata for boolean column
-		boolMd, _ := rgMeta.ColumnChunk(0)
-		d.EqualValues(d.rowsPerRG, boolMd.NumValues())
-
-		// Read all rows in column
-		i := 0
-		for boolReader.HasNext() {
-			var val [1]bool
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = boolReader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			expected := i%2 == 0
-			d.Equal(expected, val[0], "i: ", i)
-			i++
-		}
-		d.EqualValues(i, boolMd.NumValues())
-
-		// Get column reader for int32 column
-		colReader, err = rowGroupReader.Column(1)
-		if err != nil {
-			panic(err)
-		}
-		int32reader := colReader.(*file.Int32ColumnChunkReader)
-
-		int32md, _ := rgMeta.ColumnChunk(1)
-		d.EqualValues(d.rowsPerRG, int32md.NumValues())
-		// Read all rows in column
-		i = 0
-		for int32reader.HasNext() {
-			var val [1]int32
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int32reader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			d.EqualValues(i, val[0])
-			i++
-		}
-		d.EqualValues(i, int32md.NumValues())
-
-		// Get column reader for int64 column
-		colReader, err = rowGroupReader.Column(2)
-		if err != nil {
-			panic(err)
-		}
-		int64reader := colReader.(*file.Int64ColumnChunkReader)
-
-		int64md, _ := rgMeta.ColumnChunk(2)
-		// repeated column, we should have 2*d.rowsPerRG values
-		d.EqualValues(2*d.rowsPerRG, int64md.NumValues())
-		// Read all rows in column
-		i = 0
-		for int64reader.HasNext() {
-			var (
-				val [1]int64
-				def [1]int16
-				rep [1]int16
-			)
-
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int64reader.ReadBatch(1, val[:], def[:], rep[:])
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			expectedValue := int64(i) * 1000 * 1000 * 1000 * 1000
-			d.Equal(expectedValue, val[0])
-			if i%2 == 0 {
-				d.EqualValues(1, rep[0])
-			} else {
-				d.Zero(rep[0])
-			}
-			i++
-		}
-		d.EqualValues(i, int64md.NumValues())
-
-		// Get column reader for int96 column
-		colReader, err = rowGroupReader.Column(3)
-		if err != nil {
-			panic(err)
-		}
-		int96reader := colReader.(*file.Int96ColumnChunkReader)
-
-		int96md, _ := rgMeta.ColumnChunk(3)
-		// Read all rows in column
-		i = 0
-		for int96reader.HasNext() {
-			var (
-				val [1]parquet.Int96
-			)
-
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int96reader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			var expectedValue parquet.Int96
-			binary.LittleEndian.PutUint32(expectedValue[:4], uint32(i))
-			binary.LittleEndian.PutUint32(expectedValue[4:], uint32(i+1))
-			binary.LittleEndian.PutUint32(expectedValue[8:], uint32(i+2))
-			d.Equal(expectedValue, val[0])
-			i++
-		}
-		d.EqualValues(i, int96md.NumValues())
-
-		// these two columns are always encrypted when we write them, so don't
-		// try to read them during the plaintext test.
-		if props.FileDecryptProps != nil {
-			// Get column reader for the float column
-			colReader, err = rowGroupReader.Column(4)
-			if err != nil {
-				panic(err)
-			}
-			floatReader := colReader.(*file.Float32ColumnChunkReader)
-
-			floatmd, _ := rgMeta.ColumnChunk(4)
-
-			i = 0
-			for floatReader.HasNext() {
-				var value [1]float32
-				// read one value at a time. the number of rows read is returned. values
-				// read contains the number of non-null rows
-				rowsRead, valuesRead, _ = floatReader.ReadBatch(1, value[:], nil, nil)
-				// ensure only 1 value is read
-				d.EqualValues(1, rowsRead)
-				// there are no null values
-				d.EqualValues(1, valuesRead)
-				// verify the value
-				expectedValue := float32(i) * 1.1
-				d.Equal(expectedValue, value[0])
-				i++
-			}
-			d.EqualValues(i, floatmd.NumValues())
-
-			// Get column reader for the double column
-			colReader, err = rowGroupReader.Column(5)
-			if err != nil {
-				panic(err)
-			}
-			dblReader := colReader.(*file.Float64ColumnChunkReader)
-
-			dblmd, _ := rgMeta.ColumnChunk(5)
-
-			i = 0
-			for dblReader.HasNext() {
-				var value [1]float64
-				// read one value at a time. the number of rows read is returned. values
-				// read contains the number of non-null rows
-				rowsRead, valuesRead, _ = dblReader.ReadBatch(1, value[:], nil, nil)
-				// ensure only 1 value is read
-				d.EqualValues(1, rowsRead)
-				// there are no null values
-				d.EqualValues(1, valuesRead)
-				// verify the value
-				expectedValue := float64(i) * 1.1111111
-				d.Equal(expectedValue, value[0])
-				i++
-			}
-			d.EqualValues(i, dblmd.NumValues())
-		}
-
-		colReader, err = rowGroupReader.Column(6)
-		if err != nil {
-			panic(err)
-		}
-		bareader := colReader.(*file.ByteArrayColumnChunkReader)
-
-		bamd, _ := rgMeta.ColumnChunk(6)
-
-		i = 0
-		for bareader.HasNext() {
-			var value [1]parquet.ByteArray
-			var def [1]int16
-
-			rowsRead, valuesRead, _ := bareader.ReadBatch(1, value[:], def[:], nil)
-			d.EqualValues(1, rowsRead)
-			expected := [10]byte{'p', 'a', 'r', 'q', 'u', 'e', 't', 0, 0, 0}
-			expected[7] = byte('0') + byte(i/100)
-			expected[8] = byte('0') + byte(i/10)%10
-			expected[9] = byte('0') + byte(i%10)
-			if i%2 == 0 {
-				d.Equal(1, valuesRead)
-				d.Len(value[0], 10)
-				d.EqualValues(expected[:], value[0])
-				d.EqualValues(1, def[0])
-			} else {
-				d.Zero(valuesRead)
-				d.Zero(def[0])
-			}
-			i++
-		}
-		d.EqualValues(i, bamd.NumValues())
-	}
-}
-
-func (d *TestDecryptionSuite) checkResults(fileName string, decryptionConfig, encryptionConfig uint) {
-	decFn := func() { d.decryptFile(fileName, int(decryptionConfig-1)) }
-
-	// Encryption configuration number 5 contains aad_prefix and disable_aad_prefix_storage
-	// an exception is expected to be thrown if the file is not decrypted with aad_prefix
-	if encryptionConfig == 5 {
-		if decryptionConfig == 1 || decryptionConfig == 3 {
-			d.Panics(decFn)
-			return
-		}
-	}
-
-	// decryption config number two contains aad_prefix. an exception
-	// is expected to be thrown if the file was not encrypted with the same aad_prefix
-	if decryptionConfig == 2 {
-		if encryptionConfig != 5 && encryptionConfig != 4 {
-			d.Panics(decFn)
-			return
-		}
-	}
-
-	// decryption config 4 can only work when the encryption config is 3
-	if decryptionConfig == 4 && encryptionConfig != 3 {
-		return
-	}
-	d.NotPanics(decFn)
-}
-
-// Read encrypted parquet file.
-// the test reads two parquet files that were encrypted using the same encryption config
-// one was generated in encryption_write_configurations_test.go tests and is deleted
-// once the file is read and the second exists in parquet-testing/data folder
-func (d *TestDecryptionSuite) TestDecryption() {
-	tests := []struct {
-		file   string
-		config uint
-	}{
-		{"uniform_encryption.parquet.encrypted", 1},
-		{"encrypt_columns_and_footer.parquet.encrypted", 2},
-		{"encrypt_columns_plaintext_footer.parquet.encrypted", 3},
-		{"encrypt_columns_and_footer_aad.parquet.encrypted", 4},
-		{"encrypt_columns_and_footer_disable_aad_storage.parquet.encrypted", 5},
-		{"encrypt_columns_and_footer_ctr.parquet.encrypted", 6},
-	}
-	for _, tt := range tests {
-		d.Run(tt.file, func() {
-			// decrypt file that was generated in encryption-write-tests
-			tmpFile := path.Join(tempdir, "tmp_"+tt.file)
-			d.Require().FileExists(tmpFile)
-
-			// iterate over decryption configs and use each one to read the encrypted file
-			for idx := range d.decryptionConfigs {
-				decConfig := idx + 1
-				d.checkResults(tmpFile, uint(decConfig), tt.config)
-			}
-			os.Remove(tmpFile)
-
-			file := path.Join(getDataDir(), tt.file)
-			d.Require().FileExists(file)
-
-			for idx := range d.decryptionConfigs {
-				decConfig := idx + 1
-				d.Run(fmt.Sprintf("config %d", decConfig), func() {
-					d.checkResults(file, uint(decConfig), tt.config)
-				})
-			}
-		})
-	}
-}
diff --git a/go/parquet/encryption_write_config_test.go b/go/parquet/encryption_write_config_test.go
deleted file mode 100644
index 01a5c2be93a46..0000000000000
--- a/go/parquet/encryption_write_config_test.go
+++ /dev/null
@@ -1,321 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"encoding/binary"
-	"fmt"
-	"os"
-	"path/filepath"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/suite"
-)
-
-/*
- * This file contains unit-tests for writing encrypted Parquet files with
- * different encryption configurations.
- * The files are saved in temporary folder and will be deleted after reading
- * them in encryption_read_config_test.go test.
- *
- * A detailed description of the Parquet Modular Encryption specification can be found
- * here:
- * https://github.com/apache/parquet-format/blob/encryption/Encryption.md
- *
- * Each unit-test creates a single parquet file with eight columns using one of the
- * following encryption configurations:
- *
- *  - Encryption configuration 1:   Encrypt all columns and the footer with the same key.
- *                                  (uniform encryption)
- *  - Encryption configuration 2:   Encrypt two columns and the footer, with different
- *                                  keys.
- *  - Encryption configuration 3:   Encrypt two columns, with different keys.
- *                                  Don’t encrypt footer (to enable legacy readers)
- *                                  - plaintext footer mode.
- *  - Encryption configuration 4:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix for file identity
- *                                  verification.
- *  - Encryption configuration 5:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix, and call
- *                                  disable_aad_prefix_storage to prevent file
- *                                  identity storage in file metadata.
- *  - Encryption configuration 6:   Encrypt two columns and the footer, with different
- *                                  keys. Use the alternative (AES_GCM_CTR_V1) algorithm.
- */
-
-var (
-	tempdir string
-)
-
-type EncryptionConfigTestSuite struct {
-	suite.Suite
-
-	pathToDoubleField    string
-	pathToFloatField     string
-	fileName             string
-	numRgs               int
-	rowsPerRG            int
-	schema               *schema.GroupNode
-	footerEncryptionKey  string
-	columnEncryptionKey1 string
-	columnEncryptionKey2 string
-}
-
-func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryptionProperties, filename string) {
-	filename = filepath.Join(tempdir, filename)
-
-	props := parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy), parquet.WithEncryptionProperties(configs))
-	outFile, err := os.Create(filename)
-	en.Require().NoError(err)
-	en.Require().NotNil(outFile)
-
-	writer := file.NewParquetWriter(outFile, en.schema, file.WithWriterProps(props))
-	defer writer.Close()
-
-	for r := 0; r < en.numRgs; r++ {
-		var (
-			bufferedMode = r%2 == 0
-			rgr          file.RowGroupWriter
-			colIndex     = 0
-		)
-
-		if bufferedMode {
-			rgr = writer.AppendBufferedRowGroup()
-		} else {
-			rgr = writer.AppendRowGroup()
-		}
-
-		nextColumn := func() file.ColumnChunkWriter {
-			defer func() { colIndex++ }()
-			if bufferedMode {
-				cw, _ := rgr.(file.BufferedRowGroupWriter).Column(colIndex)
-				return cw
-			}
-			cw, _ := rgr.(file.SerialRowGroupWriter).NextColumn()
-			return cw
-		}
-
-		// write the bool col
-		boolWriter := nextColumn().(*file.BooleanColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			value := (i % 2) == 0
-			n, err := boolWriter.WriteBatch([]bool{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int32 col
-		int32Writer := nextColumn().(*file.Int32ColumnChunkWriter)
-		for i := int32(0); i < int32(en.rowsPerRG); i++ {
-			n, err := int32Writer.WriteBatch([]int32{i}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int64 column, each row repeats twice
-		int64Writer := nextColumn().(*file.Int64ColumnChunkWriter)
-		for i := 0; i < 2*en.rowsPerRG; i++ {
-			var (
-				defLevel       = [1]int16{1}
-				repLevel       = [1]int16{0}
-				value    int64 = int64(i) * 1000 * 1000 * 1000 * 1000
-			)
-			if i%2 == 0 {
-				repLevel[0] = 1
-			}
-
-			n, err := int64Writer.WriteBatch([]int64{value}, defLevel[:], repLevel[:])
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int96 col
-		int96Writer := nextColumn().(*file.Int96ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			val := parquet.Int96{}
-			binary.LittleEndian.PutUint32(val[:], uint32(i))
-			binary.LittleEndian.PutUint32(val[4:], uint32(i+1))
-			binary.LittleEndian.PutUint32(val[8:], uint32(i+2))
-			n, err := int96Writer.WriteBatch([]parquet.Int96{val}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the float column
-		floatWriter := nextColumn().(*file.Float32ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			val := float32(i) * 1.1
-			n, err := floatWriter.WriteBatch([]float32{val}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the double column
-		doubleWriter := nextColumn().(*file.Float64ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			value := float64(i) * 1.1111111
-			n, err := doubleWriter.WriteBatch([]float64{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the bytearray column. make every alternate value NULL
-		baWriter := nextColumn().(*file.ByteArrayColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			var (
-				n     int64
-				err   error
-				hello = []byte{'p', 'a', 'r', 'q', 'u', 'e', 't', 0, 0, 0}
-			)
-			hello[7] = byte(int('0') + i/100)
-			hello[8] = byte(int('0') + (i/10)%10)
-			hello[9] = byte(int('0') + i%10)
-			if i%2 == 0 {
-				n, err = baWriter.WriteBatch([]parquet.ByteArray{hello}, []int16{1}, nil)
-				en.EqualValues(1, n)
-			} else {
-				n, err = baWriter.WriteBatch([]parquet.ByteArray{nil}, []int16{0}, nil)
-				en.Zero(n)
-			}
-
-			en.Require().NoError(err)
-		}
-
-		// write fixedlength byte array column
-		flbaWriter := nextColumn().(*file.FixedLenByteArrayColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			v := byte(i)
-			value := parquet.FixedLenByteArray{v, v, v, v, v, v, v, v, v, v}
-			n, err := flbaWriter.WriteBatch([]parquet.FixedLenByteArray{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-	}
-}
-
-func (en *EncryptionConfigTestSuite) SetupSuite() {
-	var err error
-	tempdir, err = os.MkdirTemp("", "parquet-encryption-test-*")
-	en.Require().NoError(err)
-	fmt.Println(tempdir)
-
-	en.fileName = FileName
-	en.rowsPerRG = 50
-	en.numRgs = 5
-	en.pathToDoubleField = "double_field"
-	en.pathToFloatField = "float_field"
-	en.footerEncryptionKey = FooterEncryptionKey
-	en.columnEncryptionKey1 = ColumnEncryptionKey1
-	en.columnEncryptionKey2 = ColumnEncryptionKey2
-
-	fields := make(schema.FieldList, 0)
-	// create a primitive node named "boolean_field" with type BOOLEAN
-	// repetition:REQUIRED
-	fields = append(fields, schema.NewBooleanNode("boolean_field", parquet.Repetitions.Required, -1))
-	// create a primitive node named "int32_field" with type INT32 repetition REQUIRED
-	// and logical type: TIME_MILLIS
-	f, _ := schema.NewPrimitiveNodeLogical("int32_field", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMillis), parquet.Types.Int32, 0, -1)
-	fields = append(fields, f)
-
-	// create a primitive node named "int64_field" with type int64, repetition:REPEATED
-	fields = append(fields, schema.NewInt64Node("int64_field", parquet.Repetitions.Repeated, -1))
-
-	fields = append(fields,
-		schema.NewInt96Node("int96_field", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_field", parquet.Repetitions.Required, -1),
-		schema.NewFloat64Node("double_field", parquet.Repetitions.Required, -1))
-
-	// create a primitive node named ba_field with type:BYTE_ARRAY repetition:OPTIONAL
-	fields = append(fields, schema.NewByteArrayNode("ba_field", parquet.Repetitions.Optional, -1))
-
-	// create a primitive node for flba_field
-	fields = append(fields, schema.NewFixedLenByteArrayNode("flba_field", parquet.Repetitions.Required, 10, -1))
-
-	// flba_field fixedlenbytearray
-	en.schema, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, -1)
-}
-
-// Encryption Config 1: Encrypt All columns and the footer with the same key
-// (uniform encryption)
-func (en *EncryptionConfigTestSuite) TestUniformEncryption() {
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"))
-	en.encryptFile(props, "tmp_uniform_encryption.parquet.encrypted")
-}
-
-// Encryption config 2: Encrypt Two Columns and the Footer, with different keys
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooter() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer.parquet.encrypted")
-}
-
-// Encryption Config 3: encrypt two columns, with different keys.
-// plaintext footer
-// (plaintext footer mode, readable by legacy readers)
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsPlaintextFooter() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithPlaintextFooter())
-	en.encryptFile(props, "tmp_encrypt_columns_plaintext_footer.parquet.encrypted")
-}
-
-// Encryption Config 4: Encrypt two columns and the footer, with different keys
-// use aad_prefix
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterWithAadPrefix() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithAadPrefix(en.fileName))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_aad.parquet.encrypted")
-}
-
-// Encryption Config 5: Encrypt Two columns and the footer, with different keys
-// use aad_prefix and disable_aad_prefix_storage
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterWithAadPrefixDisableAadStorage() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithAadPrefix(en.fileName), parquet.DisableAadPrefixStorage())
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_disable_aad_storage.parquet.encrypted")
-}
-
-// Encryption Config 6: Encrypt two columns and the footer, with different keys.
-// Use AES_GCM_CTR_V1
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterAesGcmCtr() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithAlg(parquet.AesCtr))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_ctr.parquet.encrypted")
-}
-
-func TestFileEncryption(t *testing.T) {
-	suite.Run(t, new(EncryptionConfigTestSuite))
-}
diff --git a/go/parquet/file/column_reader.go b/go/parquet/file/column_reader.go
deleted file mode 100644
index 38ebcf2893c46..0000000000000
--- a/go/parquet/file/column_reader.go
+++ /dev/null
@@ -1,526 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"errors"
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-const (
-	// 4 MB is the default maximum page header size
-	defaultMaxPageHeaderSize = 4 * 1024 * 1024
-	// 16 KB is the default expected page header size
-	defaultPageHeaderSize = 16 * 1024
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata column_reader_types.gen.go.tmpl
-
-func isDictIndexEncoding(e format.Encoding) bool {
-	return e == format.Encoding_RLE_DICTIONARY || e == format.Encoding_PLAIN_DICTIONARY
-}
-
-// CryptoContext is a context for keeping track of the current methods for decrypting.
-// It keeps track of the row group and column numbers along with references to the
-// decryptor objects.
-type CryptoContext struct {
-	StartDecryptWithDictionaryPage bool
-	RowGroupOrdinal                int16
-	ColumnOrdinal                  int16
-	MetaDecryptor                  encryption.Decryptor
-	DataDecryptor                  encryption.Decryptor
-}
-
-// ColumnChunkReader is the basic interface for all column readers. It will use
-// a page reader to read all the pages in a column chunk from a row group.
-//
-// To actually Read out the column data, you need to convert to the properly
-// typed ColumnChunkReader type such as *BooleanColumnReader etc.
-//
-// Some things to clarify when working with column readers:
-//
-// "Values" refers to the physical data values in a data page.
-//
-// This is separate from the number of "rows" in a column and the total number
-// of "elements" in a column because null values aren't stored physically in the
-// data page but are represented via definition levels, so the number of values
-// in a column can be less than the number of rows.
-//
-// The total number of "elements" in a column also differs because of potential
-// repeated fields, where you can have multiple values in the page which
-// together make up a single element (such as a list) or depending on the repetition
-// level and definition level, could represent an entire null list or just a null
-// element inside of a list.
-type ColumnChunkReader interface {
-	// HasNext returns whether there is more data to be read in this column
-	// and row group.
-	HasNext() bool
-	// Type returns the underlying physical type of the column
-	Type() parquet.Type
-	// Descriptor returns the column schema container
-	Descriptor() *schema.Column
-	// if HasNext returns false because of an error, this will return the error
-	// it encountered. Otherwise this will be nil if it's just the end of the
-	// column
-	Err() error
-	// Skip buffered values
-	consumeBufferedValues(int64)
-	// number of available buffered values that have not been decoded yet
-	// when this returns 0, you're at the end of a page.
-	numAvailValues() int64
-	// read the definition levels and return the number of definitions,
-	// and the number of values to be read (number of def levels == maxdef level)
-	// it also populates the passed in slice which should be sized appropriately.
-	readDefinitionLevels(levels []int16) (int, int64)
-	// read the repetition levels and return the number of repetition levels read
-	// also populates the passed in slice, which should be sized appropriately.
-	readRepetitionLevels(levels []int16) int
-	// a column is made up of potentially multiple pages across potentially multiple
-	// row groups. A PageReader allows looping through the pages in a single row group.
-	// When moving to another row group for reading, use setPageReader to re-use the
-	// column reader for reading the pages of the new row group.
-	pager() PageReader
-	// set a page reader into the columnreader so it can be reused.
-	//
-	// This will clear any current error in the reader but does not
-	// automatically read the first page of the page reader passed in until
-	// HasNext which will read in the next page.
-	setPageReader(PageReader)
-}
-
-type columnChunkReader struct {
-	descr             *schema.Column
-	rdr               PageReader
-	repetitionDecoder encoding.LevelDecoder
-	definitionDecoder encoding.LevelDecoder
-
-	curPage     Page
-	curEncoding format.Encoding
-	curDecoder  encoding.TypedDecoder
-
-	// number of currently buffered values in the current page
-	numBuffered int64
-	// the number of values we've decoded so far
-	numDecoded int64
-	mem        memory.Allocator
-	bufferPool *sync.Pool
-
-	decoders      map[format.Encoding]encoding.TypedDecoder
-	decoderTraits encoding.DecoderTraits
-
-	// is set when an error is encountered
-	err          error
-	defLvlBuffer []int16
-
-	newDictionary bool
-}
-
-// NewColumnReader returns a column reader for the provided column initialized with the given pagereader that will
-// provide the pages of data for this column. The type is determined from the column passed in.
-//
-// In addition to the page reader and allocator, a pointer to a shared sync.Pool is expected to provide buffers for temporary
-// usage to minimize allocations. The bufferPool should provide *memory.Buffer objects that can be resized as necessary, buffers
-// should have `ResizeNoShrink(0)` called on them before being put back into the pool.
-func NewColumnReader(descr *schema.Column, pageReader PageReader, mem memory.Allocator, bufferPool *sync.Pool) ColumnChunkReader {
-	base := columnChunkReader{descr: descr, rdr: pageReader, mem: mem, decoders: make(map[format.Encoding]encoding.TypedDecoder), bufferPool: bufferPool}
-	switch descr.PhysicalType() {
-	case parquet.Types.FixedLenByteArray:
-		base.decoderTraits = &encoding.FixedLenByteArrayDecoderTraits
-		return &FixedLenByteArrayColumnChunkReader{base}
-	case parquet.Types.Float:
-		base.decoderTraits = &encoding.Float32DecoderTraits
-		return &Float32ColumnChunkReader{base}
-	case parquet.Types.Double:
-		base.decoderTraits = &encoding.Float64DecoderTraits
-		return &Float64ColumnChunkReader{base}
-	case parquet.Types.ByteArray:
-		base.decoderTraits = &encoding.ByteArrayDecoderTraits
-		return &ByteArrayColumnChunkReader{base}
-	case parquet.Types.Int32:
-		base.decoderTraits = &encoding.Int32DecoderTraits
-		return &Int32ColumnChunkReader{base}
-	case parquet.Types.Int64:
-		base.decoderTraits = &encoding.Int64DecoderTraits
-		return &Int64ColumnChunkReader{base}
-	case parquet.Types.Int96:
-		base.decoderTraits = &encoding.Int96DecoderTraits
-		return &Int96ColumnChunkReader{base}
-	case parquet.Types.Boolean:
-		base.decoderTraits = &encoding.BooleanDecoderTraits
-		return &BooleanColumnChunkReader{base}
-	}
-	return nil
-}
-
-func (c *columnChunkReader) Err() error                    { return c.err }
-func (c *columnChunkReader) Type() parquet.Type            { return c.descr.PhysicalType() }
-func (c *columnChunkReader) Descriptor() *schema.Column    { return c.descr }
-func (c *columnChunkReader) consumeBufferedValues(n int64) { c.numDecoded += n }
-func (c *columnChunkReader) numAvailValues() int64         { return c.numBuffered - c.numDecoded }
-func (c *columnChunkReader) pager() PageReader             { return c.rdr }
-func (c *columnChunkReader) setPageReader(rdr PageReader) {
-	c.rdr, c.err = rdr, nil
-	c.decoders = make(map[format.Encoding]encoding.TypedDecoder)
-	c.numBuffered, c.numDecoded = 0, 0
-}
-
-func (c *columnChunkReader) getDefLvlBuffer(sz int64) []int16 {
-	if int64(len(c.defLvlBuffer)) < sz {
-		c.defLvlBuffer = make([]int16, sz)
-		return c.defLvlBuffer
-	}
-
-	return c.defLvlBuffer[:sz]
-}
-
-// HasNext returns whether there is more data to be read in this column
-// and row group.
-func (c *columnChunkReader) HasNext() bool {
-	if c.numBuffered == 0 || c.numDecoded == c.numBuffered {
-		return c.readNewPage() && c.numBuffered != 0
-	}
-	return true
-}
-
-func (c *columnChunkReader) configureDict(page *DictionaryPage) error {
-	enc := page.encoding
-	if enc == format.Encoding_PLAIN_DICTIONARY || enc == format.Encoding_PLAIN {
-		enc = format.Encoding_RLE_DICTIONARY
-	}
-
-	if _, ok := c.decoders[enc]; ok {
-		return xerrors.New("parquet: column chunk cannot have more than one dictionary.")
-	}
-
-	switch page.Encoding() {
-	case format.Encoding_PLAIN, format.Encoding_PLAIN_DICTIONARY:
-		dict := c.decoderTraits.Decoder(parquet.Encodings.Plain, c.descr, false, c.mem)
-		dict.SetData(int(page.NumValues()), page.Data())
-
-		decoder := c.decoderTraits.Decoder(parquet.Encodings.Plain, c.descr, true, c.mem).(encoding.DictDecoder)
-		decoder.SetDict(dict)
-		c.decoders[enc] = decoder
-	default:
-		return xerrors.New("parquet: dictionary index must be plain encoding")
-	}
-
-	c.newDictionary = true
-	c.curDecoder = c.decoders[enc]
-	return nil
-}
-
-// read a new page from the page reader
-func (c *columnChunkReader) readNewPage() bool {
-	for c.rdr.Next() { // keep going until we get a data page
-		c.curPage = c.rdr.Page()
-		if c.curPage == nil {
-			break
-		}
-
-		var lvlByteLen int64
-		switch p := c.curPage.(type) {
-		case *DictionaryPage:
-			if err := c.configureDict(p); err != nil {
-				c.err = err
-				return false
-			}
-			continue
-		case *DataPageV1:
-			lvlByteLen, c.err = c.initLevelDecodersV1(p, p.repLvlEncoding, p.defLvlEncoding)
-			if c.err != nil {
-				return false
-			}
-		case *DataPageV2:
-			lvlByteLen, c.err = c.initLevelDecodersV2(p)
-			if c.err != nil {
-				return false
-			}
-		default:
-			// we can skip non-data pages
-			continue
-		}
-
-		c.err = c.initDataDecoder(c.curPage, lvlByteLen)
-		return c.err == nil
-	}
-	c.err = c.rdr.Err()
-	return false
-}
-
-func (c *columnChunkReader) initLevelDecodersV2(page *DataPageV2) (int64, error) {
-	c.numBuffered = int64(page.nvals)
-	c.numDecoded = 0
-	buf := page.Data()
-	totalLvlLen := int64(page.repLvlByteLen) + int64(page.defLvlByteLen)
-
-	if totalLvlLen > int64(len(buf)) {
-		return totalLvlLen, xerrors.New("parquet: data page too small for levels (corrupt header?)")
-	}
-
-	if c.descr.MaxRepetitionLevel() > 0 {
-		c.repetitionDecoder.SetDataV2(page.repLvlByteLen, c.descr.MaxRepetitionLevel(), int(c.numBuffered), buf)
-	}
-	// ARROW-17453: Some writers will write repetition levels even when
-	// the max repetition level is 0, so we should respect the value
-	// in the page header regardless of whether MaxRepetitionLevel is 0
-	// or not.
-	buf = buf[page.repLvlByteLen:]
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		c.definitionDecoder.SetDataV2(page.defLvlByteLen, c.descr.MaxDefinitionLevel(), int(c.numBuffered), buf)
-	}
-
-	return totalLvlLen, nil
-}
-
-func (c *columnChunkReader) initLevelDecodersV1(page *DataPageV1, repLvlEncoding, defLvlEncoding format.Encoding) (int64, error) {
-	c.numBuffered = int64(page.nvals)
-	c.numDecoded = 0
-
-	buf := page.Data()
-	maxSize := len(buf)
-	levelsByteLen := int64(0)
-
-	// Data page layout: Repetition Levels - Definition Levels - encoded values.
-	// Levels are encoded as rle or bit-packed
-	if c.descr.MaxRepetitionLevel() > 0 {
-		repBytes, err := c.repetitionDecoder.SetData(parquet.Encoding(repLvlEncoding), c.descr.MaxRepetitionLevel(), int(c.numBuffered), buf)
-		if err != nil {
-			return levelsByteLen, err
-		}
-		buf = buf[repBytes:]
-		maxSize -= repBytes
-		levelsByteLen += int64(repBytes)
-	}
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		defBytes, err := c.definitionDecoder.SetData(parquet.Encoding(defLvlEncoding), c.descr.MaxDefinitionLevel(), int(c.numBuffered), buf)
-		if err != nil {
-			return levelsByteLen, err
-		}
-		levelsByteLen += int64(defBytes)
-		maxSize -= defBytes
-	}
-
-	return levelsByteLen, nil
-}
-
-func (c *columnChunkReader) initDataDecoder(page Page, lvlByteLen int64) error {
-	buf := page.Data()
-	if int64(len(buf)) < lvlByteLen {
-		return xerrors.New("parquet: page smaller than size of encoded levels")
-	}
-
-	buf = buf[lvlByteLen:]
-	encoding := page.Encoding()
-
-	if isDictIndexEncoding(encoding) {
-		encoding = format.Encoding_RLE_DICTIONARY
-	}
-
-	if decoder, ok := c.decoders[encoding]; ok {
-		c.curDecoder = decoder
-	} else {
-		switch encoding {
-		case format.Encoding_RLE:
-			if c.descr.PhysicalType() != parquet.Types.Boolean {
-				return fmt.Errorf("parquet: only boolean supports RLE encoding, got %s", c.descr.PhysicalType())
-			}
-			fallthrough
-		case format.Encoding_PLAIN,
-			format.Encoding_DELTA_BYTE_ARRAY,
-			format.Encoding_DELTA_LENGTH_BYTE_ARRAY,
-			format.Encoding_DELTA_BINARY_PACKED,
-			format.Encoding_BYTE_STREAM_SPLIT:
-			c.curDecoder = c.decoderTraits.Decoder(parquet.Encoding(encoding), c.descr, false, c.mem)
-			c.decoders[encoding] = c.curDecoder
-		case format.Encoding_RLE_DICTIONARY:
-			return errors.New("parquet: dictionary page must be before data page")
-		default:
-			return fmt.Errorf("parquet: unknown encoding type %s", encoding)
-		}
-	}
-
-	c.curEncoding = encoding
-	c.curDecoder.SetData(int(c.numBuffered), buf)
-	return nil
-}
-
-// readDefinitionLevels decodes the definition levels from the page and returns
-// it returns the total number of levels that were decoded (and thus populated
-// in the passed in slice) and the number of physical values that exist to read
-// (the number of levels that are equal to the max definition level).
-//
-// If the max definition level is 0, the assumption is that there no nulls in the
-// column and therefore no definition levels to read, so it will always return 0, 0
-func (c *columnChunkReader) readDefinitionLevels(levels []int16) (totalDecoded int, valuesToRead int64) {
-	if c.descr.MaxDefinitionLevel() == 0 {
-		return 0, 0
-	}
-
-	return c.definitionDecoder.Decode(levels)
-}
-
-// readRepetitionLevels decodes the repetition levels from the page and returns
-// the total number of values decoded (and thus populated in the passed in levels
-// slice).
-//
-// If max repetition level is 0, it is assumed there are no repetition levels,
-// and thus will always return 0.
-func (c *columnChunkReader) readRepetitionLevels(levels []int16) int {
-	if c.descr.MaxRepetitionLevel() == 0 {
-		return 0
-	}
-
-	nlevels, _ := c.repetitionDecoder.Decode(levels)
-	return nlevels
-}
-
-// determineNumToRead reads the definition levels (and optionally populates the repetition levels)
-// in order to determine how many values need to be read to fulfill this batch read.
-//
-// batchLen is the number of values it is desired to read. defLvls must be either nil (in which case
-// a buffer will be used) or must be at least batchLen in length to be safe. repLvls should be either nil
-// (in which case it is ignored) or should be at least batchLen in length to be safe.
-//
-// In the return values: ndef is the number of definition levels that were actually read in which will
-// typically be the minimum of batchLen and numAvailValues.
-// toRead is the number of physical values that should be read in based on the definition levels (the number
-// of definition levels that were equal to maxDefinitionLevel). and err being either nil or any error encountered
-func (c *columnChunkReader) determineNumToRead(batchLen int64, defLvls, repLvls []int16) (ndefs int, toRead int64, err error) {
-	if !c.HasNext() {
-		return 0, 0, c.err
-	}
-
-	size := utils.Min(batchLen, c.numBuffered-c.numDecoded)
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		if defLvls == nil {
-			defLvls = c.getDefLvlBuffer(size)
-		}
-		ndefs, toRead = c.readDefinitionLevels(defLvls[:size])
-	} else {
-		toRead = size
-	}
-
-	if c.descr.MaxRepetitionLevel() > 0 && repLvls != nil {
-		nreps := c.readRepetitionLevels(repLvls[:size])
-		if defLvls != nil && ndefs != nreps {
-			err = xerrors.New("parquet: number of decoded rep/def levels did not match")
-		}
-	}
-	return
-}
-
-// skipValues some number of rows using readFn as the function to read the data and throw it away.
-// If we can skipValues a whole page based on its metadata, then we do so, otherwise we read the
-// page until we have skipped the number of rows desired.
-func (c *columnChunkReader) skipValues(nvalues int64, readFn func(batch int64, buf []byte) (int64, error)) (int64, error) {
-	var err error
-	toskip := nvalues
-	for c.HasNext() && toskip > 0 {
-		// if number to skip is more than the number of undecoded values, skip the page
-		if toskip > (c.numBuffered - c.numDecoded) {
-			toskip -= c.numBuffered - c.numDecoded
-			c.numDecoded = c.numBuffered
-		} else {
-			var (
-				batchSize int64 = 1024
-				valsRead  int64 = 0
-			)
-
-			scratch := c.bufferPool.Get().(*memory.Buffer)
-			defer func() {
-				scratch.ResizeNoShrink(0)
-				c.bufferPool.Put(scratch)
-			}()
-			bufMult := 1
-			if c.descr.PhysicalType() == parquet.Types.Boolean {
-				// for bools, BytesRequired returns 1 byte per 8 bool, but casting []byte to []bool requires 1 byte per 1 bool
-				bufMult = 8
-			}
-			scratch.Reserve(c.decoderTraits.BytesRequired(int(batchSize) * bufMult))
-
-			for {
-				batchSize = utils.Min(batchSize, toskip)
-				valsRead, err = readFn(batchSize, scratch.Buf())
-				toskip -= valsRead
-				if valsRead <= 0 || toskip <= 0 || err != nil {
-					break
-				}
-			}
-		}
-	}
-	if c.err != nil {
-		err = c.err
-	}
-	return nvalues - toskip, err
-}
-
-type readerFunc func(int64, int64) (int, error)
-
-// base function for reading a batch of values, this will read until it either reads in batchSize values or
-// it hits the end of the column chunk, including reading multiple pages.
-//
-// totalValues is the total number of values which were read in, and thus would be the total number
-// of definition levels and repetition levels which were populated (if they were non-nil). totalRead
-// is the number of physical values that were read in (ie: the number of non-null values)
-func (c *columnChunkReader) readBatch(batchSize int64, defLvls, repLvls []int16, readFn readerFunc) (totalLvls int64, totalRead int, err error) {
-	var (
-		read   int
-		defs   []int16
-		reps   []int16
-		ndefs  int
-		toRead int64
-	)
-
-	for c.HasNext() && totalLvls < batchSize && err == nil {
-		if defLvls != nil {
-			defs = defLvls[totalLvls:]
-		}
-		if repLvls != nil {
-			reps = repLvls[totalLvls:]
-		}
-		ndefs, toRead, err = c.determineNumToRead(batchSize-totalLvls, defs, reps)
-		if err != nil {
-			return totalLvls, totalRead, err
-		}
-
-		read, err = readFn(int64(totalRead), toRead)
-		// the total number of values processed here is the maximum of
-		// the number of definition levels or the number of physical values read.
-		// if this is a required field, ndefs will be 0 since there is no definition
-		// levels stored with it and `read` will be the number of values, otherwise
-		// we use ndefs since it will be equal to or greater than read.
-		totalVals := int64(utils.Max(ndefs, read))
-		c.consumeBufferedValues(totalVals)
-
-		totalLvls += totalVals
-		totalRead += read
-	}
-	return totalLvls, totalRead, err
-}
diff --git a/go/parquet/file/column_reader_test.go b/go/parquet/file/column_reader_test.go
deleted file mode 100755
index b744c561d3b96..0000000000000
--- a/go/parquet/file/column_reader_test.go
+++ /dev/null
@@ -1,644 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"math"
-	"math/rand"
-	"reflect"
-	"runtime"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func initValues(values reflect.Value) {
-	if values.Kind() != reflect.Slice {
-		panic("must init values with slice")
-	}
-
-	r := rand.New(rand.NewSource(0))
-	typ := values.Type().Elem()
-	switch {
-	case typ.Kind() == reflect.Bool:
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int31n(2) == 1))
-		}
-	case typ.Bits() <= 32:
-		max := int64(math.MaxInt32)
-		min := int64(math.MinInt32)
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int63n(max-min+1) + min).Convert(reflect.TypeOf(int32(0))))
-		}
-	case typ.Bits() <= 64:
-		max := int64(math.MaxInt64)
-		min := int64(math.MinInt64)
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int63n(max-min+1) + min))
-		}
-	}
-}
-
-func initDictValues(values reflect.Value, numDicts int) {
-	repeatFactor := values.Len() / numDicts
-	initValues(values)
-	// add some repeated values
-	for j := 1; j < repeatFactor; j++ {
-		for i := 0; i < numDicts; i++ {
-			values.Index(numDicts*j + i).Set(values.Index(i))
-		}
-	}
-	// computed only dict_per_page * repeat_factor - 1 values < num_values compute remaining
-	for i := numDicts * repeatFactor; i < values.Len(); i++ {
-		values.Index(i).Set(values.Index(i - numDicts*repeatFactor))
-	}
-}
-
-func makePages(version parquet.DataPageVersion, d *schema.Column, npages, lvlsPerPage int, typ reflect.Type, enc parquet.Encoding) ([]file.Page, int, reflect.Value, []int16, []int16) {
-	nlevels := lvlsPerPage * npages
-	nvalues := 0
-
-	maxDef := d.MaxDefinitionLevel()
-	maxRep := d.MaxRepetitionLevel()
-
-	var (
-		defLevels []int16
-		repLevels []int16
-	)
-
-	valuesPerPage := make([]int, npages)
-	if maxDef > 0 {
-		defLevels = make([]int16, nlevels)
-		testutils.FillRandomInt16(0, 0, maxDef, defLevels)
-		for idx := range valuesPerPage {
-			numPerPage := 0
-			for i := 0; i < lvlsPerPage; i++ {
-				if defLevels[i+idx*lvlsPerPage] == maxDef {
-					numPerPage++
-					nvalues++
-				}
-			}
-			valuesPerPage[idx] = numPerPage
-		}
-	} else {
-		nvalues = nlevels
-		valuesPerPage[0] = lvlsPerPage
-		for i := 1; i < len(valuesPerPage); i *= 2 {
-			copy(valuesPerPage[i:], valuesPerPage[:i])
-		}
-	}
-
-	if maxRep > 0 {
-		repLevels = make([]int16, nlevels)
-		testutils.FillRandomInt16(0, 0, maxRep, repLevels)
-	}
-
-	values := reflect.MakeSlice(reflect.SliceOf(typ), nvalues, nvalues)
-	if enc == parquet.Encodings.Plain {
-		initValues(values)
-		return testutils.PaginatePlain(version, d, values, defLevels, repLevels, maxDef, maxRep, lvlsPerPage, valuesPerPage, parquet.Encodings.Plain), nvalues, values, defLevels, repLevels
-	} else if enc == parquet.Encodings.PlainDict || enc == parquet.Encodings.RLEDict {
-		initDictValues(values, lvlsPerPage)
-		return testutils.PaginateDict(version, d, values, defLevels, repLevels, maxDef, maxRep, lvlsPerPage, valuesPerPage, parquet.Encodings.RLEDict), nvalues, values, defLevels, repLevels
-	}
-	panic("invalid encoding type for make pages")
-}
-
-//lint:ignore U1000 compareVectorWithDefLevels
-func compareVectorWithDefLevels(left, right reflect.Value, defLevels []int16, maxDef, maxRep int16) assert.Comparison {
-	return func() bool {
-		if left.Kind() != reflect.Slice || right.Kind() != reflect.Slice {
-			return false
-		}
-
-		if left.Type().Elem() != right.Type().Elem() {
-			return false
-		}
-
-		iLeft, iRight := 0, 0
-		for _, def := range defLevels {
-			if def == maxDef {
-				if !reflect.DeepEqual(left.Index(iLeft).Interface(), right.Index(iRight).Interface()) {
-					return false
-				}
-				iLeft++
-				iRight++
-			} else if def == (maxDef - 1) {
-				// null entry on the lowest nested level
-				iRight++
-			} else if def < (maxDef - 1) {
-				// null entry on higher nesting level, only supported for non-repeating data
-				if maxRep == 0 {
-					iRight++
-				}
-			}
-		}
-		return true
-	}
-}
-
-var mem = memory.DefaultAllocator
-
-type PrimitiveReaderSuite struct {
-	suite.Suite
-
-	dataPageVersion parquet.DataPageVersion
-	pager           file.PageReader
-	reader          file.ColumnChunkReader
-	pages           []file.Page
-	values          reflect.Value
-	defLevels       []int16
-	repLevels       []int16
-	nlevels         int
-	nvalues         int
-	maxDefLvl       int16
-	maxRepLvl       int16
-
-	bufferPool sync.Pool
-}
-
-func (p *PrimitiveReaderSuite) SetupTest() {
-	p.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(mem)
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-}
-
-func (p *PrimitiveReaderSuite) TearDownTest() {
-	p.clear()
-	p.bufferPool = sync.Pool{}
-}
-
-func (p *PrimitiveReaderSuite) initReader(d *schema.Column) {
-	m := new(testutils.MockPageReader)
-	m.Test(p.T())
-	m.TestData().Set("pages", p.pages)
-	m.On("Err").Return((error)(nil))
-	p.pager = m
-	p.reader = file.NewColumnReader(d, m, mem, &p.bufferPool)
-}
-
-func (p *PrimitiveReaderSuite) checkResults(typ reflect.Type) {
-	vresult := reflect.MakeSlice(reflect.SliceOf(typ), p.nvalues, p.nvalues)
-	dresult := make([]int16, p.nlevels)
-	rresult := make([]int16, p.nlevels)
-
-	var (
-		read        int64 = 0
-		totalRead   int   = 0
-		batchActual int   = 0
-		batchSize   int32 = 8
-		batch       int   = 0
-	)
-
-	p.Require().NotNil(p.reader)
-
-	// this will cover both cases:
-	// 1) batch size < page size (multiple ReadBatch from a single page)
-	// 2) batch size > page size (BatchRead limits to single page)
-	for {
-		switch rdr := p.reader.(type) {
-		case *file.Int32ColumnChunkReader:
-			intVals := make([]int32, batchSize)
-			read, batch, _ = rdr.ReadBatch(int64(batchSize), intVals, dresult[batchActual:], rresult[batchActual:])
-			for i := 0; i < batch; i++ {
-				vresult.Index(totalRead + i).Set(reflect.ValueOf(intVals[i]))
-			}
-
-		case *file.BooleanColumnChunkReader:
-			boolVals := make([]bool, batchSize)
-			read, batch, _ = rdr.ReadBatch(int64(batchSize), boolVals, dresult[batchActual:], rresult[batchActual:])
-			for i := 0; i < batch; i++ {
-				vresult.Index(totalRead + i).Set(reflect.ValueOf(boolVals[i]))
-			}
-		default:
-			p.Fail("column reader not implemented")
-		}
-
-		totalRead += batch
-		batchActual += int(read)
-		batchSize = int32(utils.Min(1<<24, utils.Max(int(batchSize*2), 4096)))
-		if batch <= 0 {
-			break
-		}
-	}
-
-	p.Equal(p.nlevels, batchActual)
-	p.Equal(p.nvalues, totalRead)
-	p.Equal(p.values.Interface(), vresult.Interface())
-	if p.maxDefLvl > 0 {
-		p.Equal(p.defLevels, dresult)
-	}
-	if p.maxRepLvl > 0 {
-		p.Equal(p.repLevels, rresult)
-	}
-
-	// catch improper writes at EOS
-	switch rdr := p.reader.(type) {
-	case *file.Int32ColumnChunkReader:
-		intVals := make([]int32, batchSize)
-		read, batchActual, _ = rdr.ReadBatch(5, intVals, nil, nil)
-	case *file.BooleanColumnChunkReader:
-		boolVals := make([]bool, batchSize)
-		read, batchActual, _ = rdr.ReadBatch(5, boolVals, nil, nil)
-	default:
-		p.Fail("column reader not implemented")
-	}
-
-	p.Zero(batchActual)
-	p.Zero(read)
-}
-
-func (p *PrimitiveReaderSuite) clear() {
-	p.values = reflect.ValueOf(nil)
-	p.defLevels = nil
-	p.repLevels = nil
-	p.pages = nil
-	p.pager = nil
-	p.reader = nil
-}
-
-func (p *PrimitiveReaderSuite) testPlain(npages, levels int, d *schema.Column, typ reflect.Type) {
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levels, typ, parquet.Encodings.Plain)
-	p.nlevels = npages * levels
-	p.initReader(d)
-	p.checkResults(typ)
-	p.clear()
-}
-
-func (p *PrimitiveReaderSuite) testDict(npages, levels int, d *schema.Column, typ reflect.Type) {
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levels, typ, parquet.Encodings.RLEDict)
-	p.nlevels = npages * levels
-	p.initReader(d)
-	p.checkResults(typ)
-	p.clear()
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatRequired() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(true))
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatOptional() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("b", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(true))
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatOptionalSkip() {
-	const (
-		levelsPerPage int = 1000
-		npages        int = 5
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("a", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(true), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]bool, levelsPerPage/2)
-	dresult := make([]int16, levelsPerPage/2)
-	rresult := make([]int16, levelsPerPage/2)
-
-	rdr := p.reader.(*file.BooleanColumnChunkReader)
-
-	values := p.values.Interface().([]bool)
-	rIdx := int64(0)
-
-	p.Run("skip_size > page_size", func() {
-		// skip first 2 pages
-		skipped, _ := rdr.Skip(int64(2 * levelsPerPage))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:]
-			}
-			rIdx++
-		}
-		p.Equal(int64(2*levelsPerPage), skipped)
-
-		// Read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-
-	p.Run("skip_size == page_size", func() {
-		// skip one page worth of values across page 2 and 3
-		skipped, _ := rdr.Skip(int64(levelsPerPage))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:]
-			}
-			rIdx++
-		}
-		p.Equal(int64(levelsPerPage), skipped)
-
-		// read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-
-	p.Run("skip_size < page_size", func() {
-		// skip limited to a single page
-		// skip half a page
-		skipped, _ := rdr.Skip(int64(levelsPerPage / 2))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:] // move test values forward
-			}
-			rIdx++
-		}
-		p.Equal(int64(0.5*float32(levelsPerPage)), skipped)
-
-		// Read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRequired() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatOptional() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("b", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRepeated() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 2
-	typ := schema.NewInt32Node("c", parquet.Repetitions.Repeated, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestReadBatchMultiPage() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 3
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(int32(0)), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]int32, levelsPerPage*npages)
-	dresult := make([]int16, levelsPerPage*npages)
-	rresult := make([]int16, levelsPerPage*npages)
-
-	rdr := p.reader.(*file.Int32ColumnChunkReader)
-	total, read, err := rdr.ReadBatch(int64(levelsPerPage*npages), vresult, dresult, rresult)
-	p.NoError(err)
-	p.EqualValues(levelsPerPage*npages, total)
-	p.EqualValues(levelsPerPage*npages, read)
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRequiredSkip() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 5
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(int32(0)), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]int32, levelsPerPage/2)
-	dresult := make([]int16, levelsPerPage/2)
-	rresult := make([]int16, levelsPerPage/2)
-
-	rdr := p.reader.(*file.Int32ColumnChunkReader)
-
-	p.Run("skip_size > page_size", func() {
-		// Skip first 2 pages
-		skipped, _ := rdr.Skip(int64(2 * levelsPerPage))
-		p.Equal(int64(2*levelsPerPage), skipped)
-
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(2*levelsPerPage, int(2.5*float64(levelsPerPage))).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-
-	p.Run("skip_size == page_size", func() {
-		// skip across two pages
-		skipped, _ := rdr.Skip(int64(levelsPerPage))
-		p.Equal(int64(levelsPerPage), skipped)
-		// read half a page
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(int(3.5*float64(levelsPerPage)), 4*levelsPerPage).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-
-	p.Run("skip_size < page_size", func() {
-		// skip limited to a single page
-		// Skip half a page
-		skipped, _ := rdr.Skip(int64(levelsPerPage / 2))
-		p.Equal(int64(0.5*float32(levelsPerPage)), skipped)
-		// Read half a page
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(int(4.5*float64(levelsPerPage)), p.values.Len()).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-}
-
-func (p *PrimitiveReaderSuite) TestRepetitionLvlBytesWithMaxRepZero() {
-	const batchSize = 4
-	p.maxDefLvl = 1
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Optional, -1)
-	descr := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	// Bytes here came from the example parquet file in ARROW-17453's int32
-	// column which was delta bit-packed. The key part is the first three
-	// bytes: the page header reports 1 byte for repetition levels even
-	// though the max rep level is 0. If that byte isn't skipped then
-	// we get def levels of [1, 1, 0, 0] instead of the correct [1, 1, 1, 0].
-	pageData := [...]byte{0x3, 0x3, 0x7, 0x80, 0x1, 0x4, 0x3,
-		0x18, 0x1, 0x2, 0x0, 0x0, 0x0, 0xc,
-		0x0, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0}
-
-	p.pages = append(p.pages, file.NewDataPageV2(memory.NewBufferBytes(pageData[:]), batchSize, 1, batchSize,
-		parquet.Encodings.DeltaBinaryPacked, 2, 1, int32(len(pageData)), false))
-
-	p.initReader(descr)
-	p.NotPanics(func() { p.reader.HasNext() })
-
-	var (
-		values  [4]int32
-		defLvls [4]int16
-	)
-	i32Rdr := p.reader.(*file.Int32ColumnChunkReader)
-	total, read, err := i32Rdr.ReadBatch(batchSize, values[:], defLvls[:], nil)
-	p.NoError(err)
-	p.EqualValues(batchSize, total)
-	p.EqualValues(3, read)
-	p.Equal([]int16{1, 1, 1, 0}, defLvls[:])
-	p.Equal([]int32{12, 11, 13, 0}, values[:])
-}
-
-func (p *PrimitiveReaderSuite) TestDictionaryEncodedPages() {
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	dummy := memory.NewResizableBuffer(mem)
-
-	p.Run("Dict: Plain, Data: RLEDict", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.Plain)
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.RLEDict, dummy, nil, nil, 0, 0)
-
-		p.pages = append(p.pages, dictPage, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.reader.HasNext() })
-		p.NoError(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Dict: Plain Dictionary, Data: Plain Dictionary", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.PlainDict)
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.PlainDict, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dictPage, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.reader.HasNext() })
-		p.NoError(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Panic if dict page not first", func() {
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.RLEDict, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Only RLE is supported", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.DeltaByteArray)
-		p.pages = append(p.pages, dictPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Cannot have more than one dict", func() {
-		dictPage1 := file.NewDictionaryPage(dummy, 0, parquet.Encodings.PlainDict)
-		dictPage2 := file.NewDictionaryPage(dummy, 0, parquet.Encodings.Plain)
-		p.pages = append(p.pages, dictPage1, dictPage2)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Unsupported encoding", func() {
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.DeltaByteArray, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dataPage)
-		p.initReader(descr)
-		p.Panics(func() { p.reader.HasNext() })
-		// p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.pages = p.pages[:2]
-}
-
-func TestPrimitiveReader(t *testing.T) {
-	t.Parallel()
-	t.Run("datapage v1", func(t *testing.T) {
-		suite.Run(t, new(PrimitiveReaderSuite))
-	})
-	t.Run("datapage v2", func(t *testing.T) {
-		suite.Run(t, &PrimitiveReaderSuite{dataPageVersion: parquet.DataPageV2})
-	})
-}
diff --git a/go/parquet/file/column_reader_types.gen.go b/go/parquet/file/column_reader_types.gen.go
deleted file mode 100644
index e0d0afac38ac2..0000000000000
--- a/go/parquet/file/column_reader_types.gen.go
+++ /dev/null
@@ -1,299 +0,0 @@
-// Code generated by column_reader_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-// Int32ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int32 column data.
-type Int32ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int32ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Int32Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int32ColumnChunkReader) ReadBatch(batchSize int64, values []int32, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int32Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Int64ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int64 column data.
-type Int64ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int64ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Int64Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int64ColumnChunkReader) ReadBatch(batchSize int64, values []int64, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int64Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Int96ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int96 column data.
-type Int96ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int96ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.Int96Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int96ColumnChunkReader) ReadBatch(batchSize int64, values []parquet.Int96, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int96Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Float32ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Float32 column data.
-type Float32ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Float32ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Float32Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Float32ColumnChunkReader) ReadBatch(batchSize int64, values []float32, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Float32Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Float64ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Float64 column data.
-type Float64ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Float64ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Float64Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Float64ColumnChunkReader) ReadBatch(batchSize int64, values []float64, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Float64Decoder).Decode(values[start : start+len])
-	})
-}
-
-// BooleanColumnChunkReader is the Typed Column chunk reader instance for reading
-// Boolean column data.
-type BooleanColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *BooleanColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				*(*[]bool)(unsafe.Pointer(&buf)),
-				nil,
-				nil)
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *BooleanColumnChunkReader) ReadBatch(batchSize int64, values []bool, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.BooleanDecoder).Decode(values[start : start+len])
-	})
-}
-
-// ByteArrayColumnChunkReader is the Typed Column chunk reader instance for reading
-// ByteArray column data.
-type ByteArrayColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *ByteArrayColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.ByteArrayTraits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *ByteArrayColumnChunkReader) ReadBatch(batchSize int64, values []parquet.ByteArray, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.ByteArrayDecoder).Decode(values[start : start+len])
-	})
-}
-
-// FixedLenByteArrayColumnChunkReader is the Typed Column chunk reader instance for reading
-// FixedLenByteArray column data.
-type FixedLenByteArrayColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *FixedLenByteArrayColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.FixedLenByteArrayTraits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *FixedLenByteArrayColumnChunkReader) ReadBatch(batchSize int64, values []parquet.FixedLenByteArray, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.FixedLenByteArrayDecoder).Decode(values[start : start+len])
-	})
-}
diff --git a/go/parquet/file/column_reader_types.gen.go.tmpl b/go/parquet/file/column_reader_types.gen.go.tmpl
deleted file mode 100644
index b6056836d76f4..0000000000000
--- a/go/parquet/file/column_reader_types.gen.go.tmpl
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-    "github.com/apache/arrow/go/v18/parquet"
-    "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-{{range .In}}
-// {{.Name}}ColumnChunkReader is the Typed Column chunk reader instance for reading
-// {{.Name}} column data.
-type {{.Name}}ColumnChunkReader struct {
-  columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *{{.Name}}ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-  return cr.columnChunkReader.skipValues(nvalues,
-    func(batch int64, buf []byte) (int64, error) {
-      vals, _, err := cr.ReadBatch(batch,
-        {{- if ne .Name "Boolean"}}
-        {{.prefix}}.{{.Name}}Traits.CastFromBytes(buf),
-        arrow.Int16Traits.CastFromBytes(buf),
-        arrow.Int16Traits.CastFromBytes(buf))
-        {{- else}}
-        *(*[]bool)(unsafe.Pointer(&buf)),
-        nil,
-        nil)
-        {{- end}}
-      return vals, err
-    })
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *{{.Name}}ColumnChunkReader) ReadBatch(batchSize int64, values []{{.name}}, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-  return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-    return cr.curDecoder.(encoding.{{.Name}}Decoder).Decode(values[start:start+len])
-  })
-}
-{{end}}
diff --git a/go/parquet/file/column_writer.go b/go/parquet/file/column_writer.go
deleted file mode 100755
index bbf30e03087d5..0000000000000
--- a/go/parquet/file/column_writer.go
+++ /dev/null
@@ -1,677 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"encoding/binary"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata column_writer_types.gen.go.tmpl
-
-// ColumnChunkWriter is the base interface for all columnwriters. To directly write
-// data to the column, you need to assert it to the correctly typed ColumnChunkWriter
-// instance, such as Int32ColumnWriter.
-type ColumnChunkWriter interface {
-	// Close ends this column and returns the number of bytes written
-	Close() error
-	// Type returns the underlying physical parquet type for this column
-	Type() parquet.Type
-	// Descr returns the column information for this writer
-	Descr() *schema.Column
-	// RowsWritten returns the number of rows that have so far been written with this writer
-	RowsWritten() int
-	// TotalCompressedBytes returns the number of bytes, after compression, that have been written so far
-	TotalCompressedBytes() int64
-	// TotalBytesWritten includes the bytes for writing dictionary pages, while TotalCompressedBytes is
-	// just the data and page headers
-	TotalBytesWritten() int64
-	// Properties returns the current WriterProperties in use for this writer
-	Properties() *parquet.WriterProperties
-	// CurrentEncoder returns the current encoder that is being used
-	// to encode new data written to this column
-	CurrentEncoder() encoding.TypedEncoder
-	// FallbackToPlain forces a dictionary encoded column writer to
-	// fallback to plain encoding, first flushing out any data it has
-	// and then changing the encoder to use plain encoding from
-	// here on out.
-	//
-	// This is automatically called if the dictionary reaches the
-	// limit in the write properties or under specific conditions.
-	//
-	// Has no effect if the column is not currently dictionary encoded.
-	FallbackToPlain()
-	// PageStatistics returns the current page statistics for this
-	// column writer. May be nil if stats are not enabled.
-	PageStatistics() metadata.TypedStatistics
-	// WriteDictIndices writes an arrow array of dictionary indices
-	// to this column. This should only be called by pqarrow or
-	// if you *really* know what you're doing.
-	WriteDictIndices(arrow.Array, []int16, []int16) error
-
-	LevelInfo() LevelInfo
-	SetBitsBuffer(*memory.Buffer)
-	HasBitsBuffer() bool
-}
-
-func computeLevelInfo(descr *schema.Column) (info LevelInfo) {
-	info.DefLevel = descr.MaxDefinitionLevel()
-	info.RepLevel = descr.MaxRepetitionLevel()
-
-	minSpacedDefLevel := descr.MaxDefinitionLevel()
-	n := descr.SchemaNode()
-	for n != nil && n.RepetitionType() != parquet.Repetitions.Repeated {
-		if n.RepetitionType() == parquet.Repetitions.Optional {
-			minSpacedDefLevel--
-		}
-		n = n.Parent()
-	}
-	info.RepeatedAncestorDefLevel = minSpacedDefLevel
-	return
-}
-
-type columnWriter struct {
-	metaData *metadata.ColumnChunkMetaDataBuilder
-	descr    *schema.Column
-
-	// scratch buffer if validity bits need to be recalculated
-	bitsBuffer *memory.Buffer
-	levelInfo  LevelInfo
-	pager      PageWriter
-	hasDict    bool
-	encoding   parquet.Encoding
-	props      *parquet.WriterProperties
-	defEncoder encoding.LevelEncoder
-	repEncoder encoding.LevelEncoder
-	mem        memory.Allocator
-
-	pageStatistics  metadata.TypedStatistics
-	chunkStatistics metadata.TypedStatistics
-
-	// total number of values stored in the current data page. this is the maximum
-	// of the number of encoded def levels or encoded values. for
-	// non-repeated, required columns, this is equal to the number of encoded
-	// values. For repeated or optional values, there may be fewer data values
-	// than levels, and this tells you how many encoded levels there are in that case
-	numBufferedValues int64
-
-	// total number of rows stored in the current data page. This may be larger
-	// than numBufferedValues when writing a column with repeated values. This is
-	// the number of rows written since the last time we flushed a page.
-	numBufferedRows int
-
-	// the total number of stored values in the current page. for repeated or optional
-	// values. this number may be lower than numBuffered
-	numDataValues int64
-
-	rowsWritten       int
-	totalBytesWritten int64
-	// records the current number of compressed bytes in a column
-	totalCompressedBytes int64
-	closed               bool
-	fallbackToNonDict    bool
-
-	pages []DataPage
-
-	defLevelSink *encoding.PooledBufferWriter
-	repLevelSink *encoding.PooledBufferWriter
-
-	uncompressedData bytes.Buffer
-	compressedTemp   *bytes.Buffer
-
-	currentEncoder encoding.TypedEncoder
-}
-
-func newColumnWriterBase(metaData *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) columnWriter {
-	ret := columnWriter{
-		metaData:     metaData,
-		descr:        metaData.Descr(),
-		levelInfo:    computeLevelInfo(metaData.Descr()),
-		pager:        pager,
-		hasDict:      useDict,
-		encoding:     enc,
-		props:        props,
-		mem:          props.Allocator(),
-		defLevelSink: encoding.NewPooledBufferWriter(0),
-		repLevelSink: encoding.NewPooledBufferWriter(0),
-	}
-	if pager.HasCompressor() {
-		ret.compressedTemp = new(bytes.Buffer)
-	}
-	if props.StatisticsEnabledFor(ret.descr.Path()) && ret.descr.SortOrder() != schema.SortUNKNOWN {
-		ret.pageStatistics = metadata.NewStatistics(ret.descr, props.Allocator())
-		ret.chunkStatistics = metadata.NewStatistics(ret.descr, props.Allocator())
-	}
-
-	ret.defEncoder.Init(parquet.Encodings.RLE, ret.descr.MaxDefinitionLevel(), ret.defLevelSink)
-	ret.repEncoder.Init(parquet.Encodings.RLE, ret.descr.MaxRepetitionLevel(), ret.repLevelSink)
-
-	ret.reset()
-
-	return ret
-}
-
-func (w *columnWriter) CurrentEncoder() encoding.TypedEncoder    { return w.currentEncoder }
-func (w *columnWriter) HasBitsBuffer() bool                      { return w.bitsBuffer != nil }
-func (w *columnWriter) SetBitsBuffer(buf *memory.Buffer)         { w.bitsBuffer = buf }
-func (w *columnWriter) PageStatistics() metadata.TypedStatistics { return w.pageStatistics }
-func (w *columnWriter) LevelInfo() LevelInfo                     { return w.levelInfo }
-
-func (w *columnWriter) Type() parquet.Type {
-	return w.descr.PhysicalType()
-}
-
-func (w *columnWriter) Descr() *schema.Column {
-	return w.descr
-}
-
-func (w *columnWriter) Properties() *parquet.WriterProperties {
-	return w.props
-}
-
-func (w *columnWriter) TotalCompressedBytes() int64 {
-	return w.totalCompressedBytes
-}
-
-func (w *columnWriter) TotalBytesWritten() int64 {
-	bufferedPagesBytes := int64(0)
-	for _, p := range w.pages {
-		bufferedPagesBytes += int64(len(p.Data()))
-	}
-
-	return w.totalBytesWritten + bufferedPagesBytes
-}
-
-func (w *columnWriter) RowsWritten() int {
-	return w.rowsWritten + w.numBufferedRows
-}
-
-func (w *columnWriter) WriteDataPage(page DataPage) error {
-	written, err := w.pager.WriteDataPage(page)
-	w.totalBytesWritten += written
-	return err
-}
-
-func (w *columnWriter) WriteDefinitionLevels(levels []int16) {
-	w.defEncoder.EncodeNoFlush(levels)
-}
-
-func (w *columnWriter) WriteRepetitionLevels(levels []int16) {
-	w.repEncoder.EncodeNoFlush(levels)
-}
-
-func (w *columnWriter) reset() {
-	w.defLevelSink.Reset(0)
-	w.repLevelSink.Reset(0)
-
-	if w.props.DataPageVersion() == parquet.DataPageV1 {
-		// offset the buffers to make room to record the number of levels at the
-		// beginning of each after we've encoded them with RLE
-		if w.descr.MaxDefinitionLevel() > 0 {
-			w.defLevelSink.SetOffset(arrow.Uint32SizeBytes)
-		}
-		if w.descr.MaxRepetitionLevel() > 0 {
-			w.repLevelSink.SetOffset(arrow.Uint32SizeBytes)
-		}
-	}
-
-	w.defEncoder.Reset(w.descr.MaxDefinitionLevel())
-	w.repEncoder.Reset(w.descr.MaxRepetitionLevel())
-}
-
-func (w *columnWriter) concatBuffers(defLevelsSize, repLevelsSize int32, values []byte, wr io.Writer) {
-	wr.Write(w.repLevelSink.Bytes()[:repLevelsSize])
-	wr.Write(w.defLevelSink.Bytes()[:defLevelsSize])
-	wr.Write(values)
-}
-
-func (w *columnWriter) EstimatedBufferedValueBytes() int64 {
-	return w.currentEncoder.EstimatedDataEncodedSize()
-}
-
-func (w *columnWriter) commitWriteAndCheckPageLimit(numLevels, numValues int64) error {
-	w.numBufferedValues += numLevels
-	w.numDataValues += numValues
-
-	enc := w.currentEncoder.EstimatedDataEncodedSize()
-	if enc >= w.props.DataPageSize() {
-		return w.FlushCurrentPage()
-	}
-	return nil
-}
-
-func (w *columnWriter) FlushCurrentPage() error {
-	var (
-		defLevelsRLESize int32 = 0
-		repLevelsRLESize int32 = 0
-	)
-
-	values, err := w.currentEncoder.FlushValues()
-	if err != nil {
-		return err
-	}
-	defer values.Release()
-
-	isV1DataPage := w.props.DataPageVersion() == parquet.DataPageV1
-	if w.descr.MaxDefinitionLevel() > 0 {
-		w.defEncoder.Flush()
-		w.defLevelSink.SetOffset(0)
-		sz := w.defEncoder.Len()
-		if isV1DataPage {
-			sz += arrow.Uint32SizeBytes
-			binary.LittleEndian.PutUint32(w.defLevelSink.Bytes(), uint32(w.defEncoder.Len()))
-		}
-		defLevelsRLESize = int32(sz)
-	}
-
-	if w.descr.MaxRepetitionLevel() > 0 {
-		w.repEncoder.Flush()
-		w.repLevelSink.SetOffset(0)
-		if isV1DataPage {
-			binary.LittleEndian.PutUint32(w.repLevelSink.Bytes(), uint32(w.repEncoder.Len()))
-		}
-		repLevelsRLESize = int32(w.repLevelSink.Len())
-	}
-
-	uncompressed := defLevelsRLESize + repLevelsRLESize + int32(values.Len())
-	if isV1DataPage {
-		err = w.buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
-	} else {
-		err = w.buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
-	}
-
-	w.reset()
-	w.rowsWritten += w.numBufferedRows
-	w.numBufferedValues, w.numDataValues, w.numBufferedRows = 0, 0, 0
-	return err
-}
-
-func (w *columnWriter) buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed int32, values []byte) error {
-	w.uncompressedData.Reset()
-	w.uncompressedData.Grow(int(uncompressed))
-	w.concatBuffers(defLevelsRLESize, repLevelsRLESize, values, &w.uncompressedData)
-
-	pageStats, err := w.getPageStatistics()
-	if err != nil {
-		return err
-	}
-	pageStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-	pageStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-	w.resetPageStatistics()
-
-	var data []byte
-	if w.pager.HasCompressor() {
-		w.compressedTemp.Reset()
-		data = w.pager.Compress(w.compressedTemp, w.uncompressedData.Bytes())
-	} else {
-		data = w.uncompressedData.Bytes()
-	}
-
-	// write the page to sink eagerly if there's no dictionary or if dictionary encoding has fallen back
-	if w.hasDict && !w.fallbackToNonDict {
-		pageSlice := make([]byte, len(data))
-		copy(pageSlice, data)
-		page := NewDataPageV1WithStats(memory.NewBufferBytes(pageSlice), int32(w.numBufferedValues), w.encoding, parquet.Encodings.RLE, parquet.Encodings.RLE, uncompressed, pageStats)
-		w.totalCompressedBytes += int64(page.buf.Len()) // + size of Pageheader
-		w.pages = append(w.pages, page)
-	} else {
-		w.totalCompressedBytes += int64(len(data))
-		dp := NewDataPageV1WithStats(memory.NewBufferBytes(data), int32(w.numBufferedValues), w.encoding, parquet.Encodings.RLE, parquet.Encodings.RLE, uncompressed, pageStats)
-		defer dp.Release()
-		return w.WriteDataPage(dp)
-	}
-	return nil
-}
-
-func (w *columnWriter) buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed int32, values []byte) error {
-	var data []byte
-	if w.pager.HasCompressor() {
-		w.compressedTemp.Reset()
-		data = w.pager.Compress(w.compressedTemp, values)
-	} else {
-		data = values
-	}
-
-	// concatenate uncompressed levels and the possibly compressed values
-	var combined bytes.Buffer
-	combined.Grow(int(defLevelsRLESize + repLevelsRLESize + int32(len(data))))
-	w.concatBuffers(defLevelsRLESize, repLevelsRLESize, data, &combined)
-
-	pageStats, err := w.getPageStatistics()
-	if err != nil {
-		return err
-	}
-	pageStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-	pageStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-	w.resetPageStatistics()
-
-	numValues := int32(w.numBufferedValues)
-	numRows := int32(w.numBufferedRows)
-	nullCount := int32(pageStats.NullCount)
-	defLevelsByteLen := int32(defLevelsRLESize)
-	repLevelsByteLen := int32(repLevelsRLESize)
-
-	page := NewDataPageV2WithStats(memory.NewBufferBytes(combined.Bytes()), numValues, nullCount, numRows, w.encoding,
-		defLevelsByteLen, repLevelsByteLen, uncompressed, w.pager.HasCompressor(), pageStats)
-	if w.hasDict && !w.fallbackToNonDict {
-		w.totalCompressedBytes += int64(page.buf.Len()) // + sizeof pageheader
-		w.pages = append(w.pages, page)
-	} else {
-		w.totalCompressedBytes += int64(combined.Len())
-		defer page.Release()
-		return w.WriteDataPage(page)
-	}
-	return nil
-}
-
-func (w *columnWriter) FlushBufferedDataPages() (err error) {
-	if w.numBufferedValues > 0 {
-		if err = w.FlushCurrentPage(); err != nil {
-			return err
-		}
-	}
-
-	for _, p := range w.pages {
-		defer p.Release()
-		if err = w.WriteDataPage(p); err != nil {
-			return err
-		}
-	}
-	w.pages = w.pages[:0]
-	return
-}
-
-func (w *columnWriter) writeLevels(numValues int64, defLevels, repLevels []int16) int64 {
-	toWrite := int64(0)
-	// if the field is required and non-repeated, no definition levels
-	if defLevels != nil && w.descr.MaxDefinitionLevel() > 0 {
-		for _, v := range defLevels[:numValues] {
-			if v == w.descr.MaxDefinitionLevel() {
-				toWrite++
-			}
-		}
-		w.WriteDefinitionLevels(defLevels[:numValues])
-	} else {
-		toWrite = numValues
-	}
-
-	if repLevels != nil && w.descr.MaxRepetitionLevel() > 0 {
-		// a row could include more than one value
-		//count the occasions where we start a new row
-		for _, v := range repLevels[:numValues] {
-			if v == 0 {
-				w.numBufferedRows++
-			}
-		}
-
-		w.WriteRepetitionLevels(repLevels[:numValues])
-	} else {
-		// each value is exactly 1 row
-		w.numBufferedRows += int(numValues)
-	}
-	return toWrite
-}
-
-func (w *columnWriter) writeLevelsSpaced(numLevels int64, defLevels, repLevels []int16) {
-	if w.descr.MaxDefinitionLevel() > 0 {
-		w.WriteDefinitionLevels(defLevels[:numLevels])
-	}
-
-	if w.descr.MaxRepetitionLevel() > 0 {
-		for _, v := range repLevels {
-			if v == 0 {
-				w.numBufferedRows++
-			}
-		}
-		w.WriteRepetitionLevels(repLevels[:numLevels])
-	} else {
-		w.numBufferedRows += int(numLevels)
-	}
-}
-
-func (w *columnWriter) WriteDictionaryPage() error {
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-	buffer := memory.NewResizableBuffer(w.mem)
-	buffer.Resize(dictEncoder.DictEncodedSize())
-	dictEncoder.WriteDict(buffer.Bytes())
-	defer buffer.Release()
-
-	page := NewDictionaryPage(buffer, int32(dictEncoder.NumEntries()), w.props.DictionaryPageEncoding())
-	written, err := w.pager.WriteDictionaryPage(page)
-	w.totalBytesWritten += written
-	return err
-}
-
-type batchWriteInfo struct {
-	batchNum  int64
-	nullCount int64
-}
-
-func (b batchWriteInfo) numSpaced() int64 { return b.batchNum + b.nullCount }
-
-// this will always update the three output params
-// outValsToWrite, outSpacedValsToWrite, and NullCount. Additionally
-// it will update the validity bitmap if required (i.e. if at least one
-// level of nullable structs directly precede the leaf node)
-func (w *columnWriter) maybeCalculateValidityBits(defLevels []int16, batchSize int64) (out batchWriteInfo) {
-	if w.bitsBuffer == nil {
-		if w.levelInfo.DefLevel == 0 {
-			// in this case def levels should be null and we only
-			// need to output counts which will always be equal to
-			// the batch size passed in (max def level == 0 indicates
-			// there cannot be repeated or null fields)
-			out.batchNum = batchSize
-			out.nullCount = 0
-		} else {
-			var (
-				toWrite       int64
-				spacedToWrite int64
-			)
-			for i := int64(0); i < batchSize; i++ {
-				if defLevels[i] == w.levelInfo.DefLevel {
-					toWrite++
-				}
-				if defLevels[i] >= w.levelInfo.RepeatedAncestorDefLevel {
-					spacedToWrite++
-				}
-			}
-			out.batchNum += toWrite
-			out.nullCount = spacedToWrite - toWrite
-		}
-		return
-	}
-
-	// shrink to fit possible causes another allocation
-	newBitmapSize := bitutil.BytesForBits(batchSize)
-	if newBitmapSize != int64(w.bitsBuffer.Len()) {
-		w.bitsBuffer.ResizeNoShrink(int(newBitmapSize))
-	}
-
-	io := ValidityBitmapInputOutput{
-		ValidBits:      w.bitsBuffer.Bytes(),
-		ReadUpperBound: batchSize,
-	}
-	DefLevelsToBitmap(defLevels[:batchSize], w.levelInfo, &io)
-	out.batchNum = io.Read - io.NullCount
-	out.nullCount = io.NullCount
-	return
-}
-
-func (w *columnWriter) getPageStatistics() (enc metadata.EncodedStatistics, err error) {
-	if w.pageStatistics != nil {
-		enc, err = w.pageStatistics.Encode()
-	}
-	return
-}
-
-func (w *columnWriter) getChunkStatistics() (enc metadata.EncodedStatistics, err error) {
-	if w.chunkStatistics != nil {
-		enc, err = w.chunkStatistics.Encode()
-	}
-	return
-}
-
-func (w *columnWriter) resetPageStatistics() {
-	if w.chunkStatistics != nil {
-		w.chunkStatistics.Merge(w.pageStatistics)
-		w.pageStatistics.Reset()
-	}
-}
-
-func (w *columnWriter) Close() (err error) {
-	if !w.closed {
-		w.closed = true
-		if w.hasDict && !w.fallbackToNonDict {
-			if err = w.WriteDictionaryPage(); err != nil {
-				return err
-			}
-		}
-
-		if err = w.FlushBufferedDataPages(); err != nil {
-			return err
-		}
-
-		// ensure we release and reset everything even if we
-		// error out from the chunk statistics handling
-		defer func() {
-			w.defLevelSink.Reset(0)
-			w.repLevelSink.Reset(0)
-			if w.bitsBuffer != nil {
-				w.bitsBuffer.Release()
-				w.bitsBuffer = nil
-			}
-
-			w.currentEncoder.Release()
-			w.currentEncoder = nil
-		}()
-
-		var chunkStats metadata.EncodedStatistics
-		chunkStats, err = w.getChunkStatistics()
-		if err != nil {
-			return err
-		}
-
-		chunkStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-		chunkStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-
-		if w.rowsWritten > 0 && chunkStats.IsSet() {
-			w.metaData.SetStats(chunkStats)
-		}
-		err = w.pager.Close(w.hasDict, w.fallbackToNonDict)
-	}
-	return err
-}
-
-func (w *columnWriter) doBatches(total int64, repLevels []int16, action func(offset, batch int64)) {
-	batchSize := w.props.WriteBatchSize()
-	// if we're writing V1 data pages, have no replevels or the max replevel is 0 then just
-	// use the regular doBatches function
-	if w.props.DataPageVersion() == parquet.DataPageV1 || repLevels == nil || w.descr.MaxRepetitionLevel() == 0 {
-		doBatches(total, batchSize, action)
-		return
-	}
-
-	// if we get here that means we have repetition levels to write and we're writing
-	// V2 data pages. since we check whether to flush after each batch we write
-	// if we ensure all the batches begin and end on row boundaries we can avoid
-	// complex logic inside of our flushing or batch writing functions.
-	// the WriteBatch function recovers from panics so we can just panic here on a failure
-	// and it'll get caught by the WriteBatch functions above it
-	if int64(len(repLevels)) < total {
-		// if we're writing repLevels there has to be at least enough in the slice
-		// to write the total number that we're being asked to write
-		panic("columnwriter: not enough repetition levels for batch to write")
-	}
-
-	if repLevels[0] != 0 {
-		panic("columnwriter: batch writing for V2 data pages must start at a row boundary")
-	}
-
-	// loop by batchSize, but make sure we're ending/starting each batch on a row boundary
-	var (
-		batchStart, batch int64
-	)
-	for batchStart = 0; batchStart+batchSize < int64(len(repLevels)); batchStart += batch {
-		// check one past the last value of the batch for if it's a new row
-		// if it's not, shrink the batch and feel back to the beginning of a
-		// previous row boundary to end on
-		batch = batchSize
-		for ; repLevels[batchStart+batch] != 0; batch-- {
-		}
-		// batchStart <--> batch now begins and ends on a row boundary!
-		action(batchStart, batch)
-	}
-	action(batchStart, int64(len(repLevels))-batchStart)
-}
-
-func doBatches(total, batchSize int64, action func(offset, batch int64)) {
-	numBatches := total / batchSize
-	for i := int64(0); i < numBatches; i++ {
-		action(i*batchSize, batchSize)
-	}
-	if total%batchSize > 0 {
-		action(numBatches*batchSize, total%batchSize)
-	}
-}
-
-func levelSliceOrNil(rep []int16, offset, batch int64) []int16 {
-	if rep == nil {
-		return nil
-	}
-	return rep[offset : batch+offset]
-}
-
-//lint:ignore U1000 maybeReplaceValidity
-func (w *columnWriter) maybeReplaceValidity(values arrow.Array, newNullCount int64) arrow.Array {
-	if w.bitsBuffer == nil {
-		values.Retain()
-		return values
-	}
-
-	if len(values.Data().Buffers()) == 0 {
-		values.Retain()
-		return values
-	}
-
-	buffers := make([]*memory.Buffer, len(values.Data().Buffers()))
-	copy(buffers, values.Data().Buffers())
-	// bitsBuffer should already be the offset slice of the validity bits
-	// we want so we don't need to manually slice the validity buffer
-	buffers[0] = w.bitsBuffer
-
-	if values.Data().Offset() > 0 {
-		data := values.Data()
-		elemSize := data.DataType().(arrow.FixedWidthDataType).Bytes()
-		start := data.Offset() * elemSize
-		end := start + data.Len()*elemSize
-		buffers[1] = memory.NewBufferBytes(data.Buffers()[1].Bytes()[start:end])
-	}
-
-	data := array.NewData(values.DataType(), values.Len(), buffers, nil, int(newNullCount), 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
diff --git a/go/parquet/file/column_writer_test.go b/go/parquet/file/column_writer_test.go
deleted file mode 100755
index 009c8c8bc51fd..0000000000000
--- a/go/parquet/file/column_writer_test.go
+++ /dev/null
@@ -1,791 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"math"
-	"reflect"
-	"runtime"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	arrutils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/mock"
-	"github.com/stretchr/testify/suite"
-)
-
-const (
-	SmallSize = 100
-	// larger to test some corner cases, only in some specific cases
-	LargeSize = 100000
-	// very large to test dictionary fallback
-	VeryLargeSize = 400000
-	// dictionary page size for testing fallback
-	DictionaryPageSize = 1024 * 1024
-)
-
-type mockpagewriter struct {
-	mock.Mock
-}
-
-func (m *mockpagewriter) Close(hasDict, fallBack bool) error {
-	return m.Called(hasDict, fallBack).Error(0)
-}
-func (m *mockpagewriter) WriteDataPage(page file.DataPage) (int64, error) {
-	args := m.Called(page)
-	return int64(args.Int(0)), args.Error(1)
-}
-func (m *mockpagewriter) WriteDictionaryPage(page *file.DictionaryPage) (int64, error) {
-	args := m.Called(page)
-	return int64(args.Int(0)), args.Error(1)
-}
-func (m *mockpagewriter) HasCompressor() bool {
-	return m.Called().Bool(0)
-}
-func (m *mockpagewriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	return m.Called(buf, src).Get(0).([]byte)
-}
-func (m *mockpagewriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	return m.Called().Error(0)
-}
-
-func TestWriteDataPageV1NumValues(t *testing.T) {
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithStats(true),
-		parquet.WithVersion(parquet.V1_0),
-		parquet.WithDataPageVersion(parquet.DataPageV1),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	// write a list "[[0, 1], null, [2, null, 3]]"
-	// should be 6 values, 2 nulls and 3 rows
-	wr.WriteBatch([]int32{0, 1, 2, 3},
-		[]int16{3, 3, 0, 3, 2, 3},
-		[]int16{0, 1, 0, 0, 1, 1})
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev1, ok := page.(*file.DataPageV1)
-		if !ok {
-			return false
-		}
-
-		encodedStats := pagev1.Statistics()
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return pagev1.NumValues() == 6 &&
-			encodedStats.HasNullCount &&
-			encodedStats.NullCount == 2
-	})).Return(10, nil)
-
-	wr.FlushBufferedDataPages()
-	assert.EqualValues(t, 3, wr.RowsWritten())
-}
-
-func TestWriteDataPageV2NumRows(t *testing.T) {
-	// test issue from PARQUET-2066
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithStats(true),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	// write a list "[[0, 1], null, [2, null, 3]]"
-	// should be 6 values, 2 nulls and 3 rows
-	wr.WriteBatch([]int32{0, 1, 2, 3},
-		[]int16{3, 3, 0, 3, 2, 3},
-		[]int16{0, 1, 0, 0, 1, 1})
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev2, ok := page.(*file.DataPageV2)
-		if !ok {
-			return false
-		}
-
-		encodedStats := pagev2.Statistics()
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return !pagev2.IsCompressed() &&
-			pagev2.NumNulls() == 2 && encodedStats.NullCount == 2 &&
-			pagev2.NumValues() == 6 &&
-			pagev2.NumRows() == 3
-	})).Return(10, nil)
-
-	wr.FlushBufferedDataPages()
-	assert.EqualValues(t, 3, wr.RowsWritten())
-}
-
-func TestDataPageV2RowBoundaries(t *testing.T) {
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithBatchSize(128),
-		parquet.WithDataPageSize(1024),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev2, ok := page.(*file.DataPageV2)
-		if !ok {
-			return false
-		}
-
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return !pagev2.IsCompressed() &&
-			pagev2.NumNulls() == 0 &&
-			pagev2.NumValues() == 378 &&
-			pagev2.NumRows() == 126
-	})).Return(10, nil)
-
-	// create rows of lists of 3 values each
-	values := make([]int32, 1024)
-	defLevels := make([]int16, 1024)
-	repLevels := make([]int16, 1024)
-	for i := range values {
-		values[i] = int32(i)
-		defLevels[i] = 3
-
-		switch i % 3 {
-		case 0:
-			repLevels[i] = 0
-		case 1, 2:
-			repLevels[i] = 1
-		}
-	}
-
-	wr.WriteBatch(values, defLevels, repLevels)
-}
-
-type PrimitiveWriterTestSuite struct {
-	testutils.PrimitiveTypedTest
-	suite.Suite
-
-	props *parquet.WriterProperties
-	descr *schema.Column
-
-	metadata   *metadata.ColumnChunkMetaDataBuilder
-	sink       *encoding.BufferWriter
-	readbuffer *memory.Buffer
-
-	bufferPool sync.Pool
-}
-
-func (p *PrimitiveWriterTestSuite) SetupTest() {
-	p.SetupValuesOut(SmallSize)
-	p.props = parquet.NewWriterProperties()
-	p.SetupSchema(parquet.Repetitions.Required, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(mem)
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) TearDownTest() {
-	p.bufferPool = sync.Pool{}
-}
-
-func (p *PrimitiveWriterTestSuite) buildReader(nrows int64, compression compress.Compression) file.ColumnChunkReader {
-	p.readbuffer = p.sink.Finish()
-	pagereader, _ := file.NewPageReader(arrutils.NewBufferedReader(bytes.NewReader(p.readbuffer.Bytes()), p.readbuffer.Len()), nrows, compression, mem, nil)
-	return file.NewColumnReader(p.descr, pagereader, mem, &p.bufferPool)
-}
-
-func (p *PrimitiveWriterTestSuite) buildWriter(_ int64, columnProps parquet.ColumnProperties, opts ...parquet.WriterProperty) file.ColumnChunkWriter {
-	p.sink = encoding.NewBufferWriter(0, mem)
-	if columnProps.Encoding == parquet.Encodings.PlainDict || columnProps.Encoding == parquet.Encodings.RLEDict {
-		opts = append(opts, parquet.WithDictionaryDefault(true), parquet.WithDictionaryPageSizeLimit(DictionaryPageSize))
-	} else {
-		opts = append(opts, parquet.WithDictionaryDefault(false), parquet.WithEncoding(columnProps.Encoding))
-	}
-	opts = append(opts, parquet.WithMaxStatsSize(columnProps.MaxStatsSize), parquet.WithStats(columnProps.StatsEnabled))
-	p.props = parquet.NewWriterProperties(opts...)
-
-	p.metadata = metadata.NewColumnChunkMetaDataBuilder(p.props, p.descr)
-	pager, _ := file.NewPageWriter(p.sink, columnProps.Codec, compress.DefaultCompressionLevel, p.metadata, -1, -1, memory.DefaultAllocator, false, nil, nil)
-	return file.NewColumnChunkWriter(p.metadata, pager, p.props)
-}
-
-func (p *PrimitiveWriterTestSuite) readColumn(compression compress.Compression) int64 {
-	totalValues := int64(len(p.DefLevelsOut))
-	reader := p.buildReader(totalValues, compression)
-	return p.ReadBatch(reader, totalValues, 0, p.DefLevelsOut, p.RepLevelsOut)
-}
-
-func (p *PrimitiveWriterTestSuite) readColumnFully(compression compress.Compression) int64 {
-	totalValues := int64(len(p.DefLevelsOut))
-	reader := p.buildReader(totalValues, compression)
-	valuesRead := int64(0)
-	for valuesRead < totalValues {
-		read := p.ReadBatch(reader, totalValues-valuesRead, valuesRead, p.DefLevelsOut[valuesRead:], p.RepLevelsOut[valuesRead:])
-		valuesRead += read
-	}
-	return valuesRead
-}
-
-func (p *PrimitiveWriterTestSuite) readAndCompare(compression compress.Compression, nrows int64) {
-	p.SetupValuesOut(nrows)
-	p.readColumnFully(compression)
-	p.Equal(p.Values, p.ValuesOut)
-}
-
-func (p *PrimitiveWriterTestSuite) writeRequiredWithSettings(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, compressLvl int, nrows int64) {
-	columnProperties := parquet.ColumnProperties{
-		Encoding:          encoding,
-		Codec:             compression,
-		DictionaryEnabled: dict,
-		StatsEnabled:      stats,
-		CompressionLevel:  compressLvl,
-	}
-	writer := p.buildWriter(nrows, columnProperties, parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, nil, nil)
-	// behavior should be independent of the number of calls to Close
-	writer.Close()
-	writer.Close()
-}
-
-func (p *PrimitiveWriterTestSuite) writeRequiredWithSettingsSpaced(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, nrows int64, compressionLvl int) {
-	validBits := make([]byte, int(bitutil.BytesForBits(int64(len(p.DefLevels))))+1)
-	memory.Set(validBits, 255)
-	columnProperties := parquet.ColumnProperties{
-		Encoding:          encoding,
-		Codec:             compression,
-		DictionaryEnabled: dict,
-		StatsEnabled:      stats,
-		CompressionLevel:  compressionLvl,
-	}
-	writer := p.buildWriter(nrows, columnProperties, parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValuesSpaced(writer, nil, nil, validBits, 0)
-	// behavior should be independent from the number of close calls
-	writer.Close()
-	writer.Close()
-}
-
-func (p *PrimitiveWriterTestSuite) testRequiredWithSettings(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, nrows int64, compressLvl int) {
-	p.GenerateData(nrows)
-	p.writeRequiredWithSettings(encoding, compression, dict, stats, compressLvl, nrows)
-	p.NotPanics(func() { p.readAndCompare(compression, nrows) })
-	p.writeRequiredWithSettingsSpaced(encoding, compression, dict, stats, nrows, compressLvl)
-	p.NotPanics(func() { p.readAndCompare(compression, nrows) })
-}
-
-func (p *PrimitiveWriterTestSuite) testRequiredWithEncoding(encoding parquet.Encoding) {
-	p.testRequiredWithSettings(encoding, compress.Codecs.Uncompressed, false, false, SmallSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) metadataNumValues() int64 {
-	// metadata accessor created lazily
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.NumValues()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataEncodings() []parquet.Encoding {
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.Encodings()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataEncodingStats() []metadata.PageEncodingStats {
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.EncodingStats()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataStatsHasMinMax() (hasMin, hasMax bool) {
-	appVersion := metadata.NewAppVersion(p.props.CreatedBy())
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, appVersion, 0, 0, nil)
-	stats, _ := metadata.Statistics()
-	encoded, _ := stats.Encode()
-	return encoded.HasMin, encoded.HasMax
-}
-
-func (p *PrimitiveWriterTestSuite) metadataIsStatsSet() bool {
-	appVersion := metadata.NewAppVersion(p.props.CreatedBy())
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, appVersion, 0, 0, nil)
-	set, _ := metadata.StatsSet()
-	return set
-}
-
-func (p *PrimitiveWriterTestSuite) testDictionaryFallbackEncoding(version parquet.Version) {
-	p.GenerateData(VeryLargeSize)
-	props := parquet.DefaultColumnProperties()
-	props.DictionaryEnabled = true
-
-	if version == parquet.V1_0 {
-		props.Encoding = parquet.Encodings.PlainDict
-	} else {
-		props.Encoding = parquet.Encodings.RLEDict
-	}
-
-	writer := p.buildWriter(VeryLargeSize, props, parquet.WithVersion(version))
-	p.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	// Read all the rows so that we are sure that also the non-dictionary pages are read correctly
-	p.SetupValuesOut(VeryLargeSize)
-	valuesRead := p.readColumnFully(compress.Codecs.Uncompressed)
-	p.EqualValues(VeryLargeSize, valuesRead)
-	p.Equal(p.Values, p.ValuesOut)
-
-	encodings := p.metadataEncodings()
-	if p.Typ.Kind() == reflect.Bool || p.Typ == reflect.TypeOf(parquet.Int96{}) {
-		// dictionary encoding is not allowed for booleans
-		// there are 2 encodings (PLAIN, RLE) in a non dictionary encoding case
-		p.Equal([]parquet.Encoding{parquet.Encodings.Plain, parquet.Encodings.RLE}, encodings)
-	} else if version == parquet.V1_0 {
-		// There are 4 encodings (PLAIN_DICTIONARY, PLAIN, RLE, PLAIN) in a fallback case
-		// for version 1.0
-		p.Equal([]parquet.Encoding{parquet.Encodings.PlainDict, parquet.Encodings.Plain, parquet.Encodings.RLE, parquet.Encodings.Plain}, encodings)
-	} else {
-		// There are 4 encodings (RLE_DICTIONARY, PLAIN, RLE, PLAIN) in a fallback case for
-		// version 2.0
-		p.Equal([]parquet.Encoding{parquet.Encodings.RLEDict, parquet.Encodings.Plain, parquet.Encodings.RLE, parquet.Encodings.Plain}, encodings)
-	}
-
-	encodingStats := p.metadataEncodingStats()
-	if p.Typ.Kind() == reflect.Bool || p.Typ == reflect.TypeOf(parquet.Int96{}) {
-		p.Equal(parquet.Encodings.Plain, encodingStats[0].Encoding)
-		p.Equal(format.PageType_DATA_PAGE, encodingStats[0].PageType)
-	} else if version == parquet.V1_0 {
-		expected := []metadata.PageEncodingStats{
-			{Encoding: parquet.Encodings.PlainDict, PageType: format.PageType_DICTIONARY_PAGE},
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DATA_PAGE},
-			{Encoding: parquet.Encodings.PlainDict, PageType: format.PageType_DATA_PAGE}}
-		p.Equal(expected[0], encodingStats[0])
-		p.ElementsMatch(expected[1:], encodingStats[1:])
-	} else {
-		expected := []metadata.PageEncodingStats{
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DICTIONARY_PAGE},
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DATA_PAGE},
-			{Encoding: parquet.Encodings.RLEDict, PageType: format.PageType_DATA_PAGE}}
-		p.Equal(expected[0], encodingStats[0])
-		p.ElementsMatch(expected[1:], encodingStats[1:])
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) testDictionaryFallbackAndCompressedSize(version parquet.Version) {
-	// skip boolean as dictionary encoding is not used
-	if p.Typ.Kind() == reflect.Bool {
-		return
-	}
-
-	p.GenerateData(SmallSize)
-	props := parquet.DefaultColumnProperties()
-	props.DictionaryEnabled = true
-
-	if version == parquet.V1_0 {
-		props.Encoding = parquet.Encodings.PlainDict
-	} else {
-		props.Encoding = parquet.Encodings.RLEDict
-	}
-
-	writer := p.buildWriter(SmallSize, props, parquet.WithVersion(version), parquet.WithDataPageSize(SmallSize-1))
-	p.WriteBatchValues(writer, nil, nil)
-	p.NotZero(writer.TotalBytesWritten())
-	writer.FallbackToPlain()
-	p.NotZero(writer.TotalCompressedBytes())
-	writer.Close()
-	p.NotZero(writer.TotalCompressedBytes())
-	p.NotZero(writer.TotalBytesWritten())
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlain() {
-	p.testRequiredWithEncoding(parquet.Encodings.Plain)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredByteStreamSplit() {
-	switch p.Typ {
-	case reflect.TypeOf(float32(0)), reflect.TypeOf(float64(0)), reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)), reflect.TypeOf(parquet.FixedLenByteArray{}):
-		p.testRequiredWithEncoding(parquet.Encodings.ByteStreamSplit)
-	default:
-		p.Panics(func() { p.testRequiredWithEncoding(parquet.Encodings.ByteStreamSplit) })
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredDictionary() {
-	p.testRequiredWithEncoding(parquet.Encodings.PlainDict)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStats() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Uncompressed, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithSnappy() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Snappy, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndSnappy() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Snappy, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithBrotli() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithBrotliAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, false, LargeSize, 10)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndBrotli() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithGzip() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithGzipAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, false, LargeSize, 10)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndGzip() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithZstd() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithZstdAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, false, LargeSize, 6)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndZstd() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalNonRepeated() {
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.GenerateData(SmallSize)
-	p.DefLevels[1] = 0
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, nil)
-	writer.Close()
-
-	p.Equal(int64(100), p.metadataNumValues())
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(99, values)
-	p.Equal(reflect.ValueOf(p.Values).Slice(0, 99).Interface(), reflect.ValueOf(p.ValuesOut).Slice(0, 99).Interface())
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalSpaced() {
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.GenerateData(SmallSize)
-	validBits := make([]byte, int(bitutil.BytesForBits(SmallSize)))
-	memory.Set(validBits, 255)
-	p.DefLevels[SmallSize-1] = 0
-	bitutil.ClearBit(validBits, SmallSize-1)
-	p.DefLevels[1] = 0
-	bitutil.ClearBit(validBits, 1)
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValuesSpaced(writer, p.DefLevels, nil, validBits, 0)
-	writer.Close()
-
-	p.Equal(int64(100), p.metadataNumValues())
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(98, values)
-
-	orig := reflect.ValueOf(p.Values)
-	orig = orig.Slice(0, 99)
-	reflect.Copy(orig.Slice(1, orig.Len()), orig.Slice(2, orig.Len()))
-	orig = orig.Slice(0, 98)
-	out := reflect.ValueOf(p.ValuesOut)
-	out = out.Slice(0, 98)
-
-	p.Equal(orig.Interface(), out.Interface())
-}
-
-func (p *PrimitiveWriterTestSuite) TestWriteRepeated() {
-	// optional and repeated so def and repetition levels
-	p.SetupSchema(parquet.Repetitions.Repeated, 1)
-	p.descr = p.Schema.Column(0)
-	p.GenerateData(SmallSize)
-	p.DefLevels[1] = 0
-	p.RepLevels = make([]int16, SmallSize)
-	for idx := range p.RepLevels {
-		p.RepLevels[idx] = 0
-	}
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, p.RepLevels)
-	writer.Close()
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(SmallSize-1, values)
-	out := reflect.ValueOf(p.ValuesOut).Slice(0, SmallSize-1).Interface()
-	vals := reflect.ValueOf(p.Values).Slice(0, SmallSize-1).Interface()
-	p.Equal(vals, out)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredLargeChunk() {
-	p.GenerateData(LargeSize)
-
-	// Test 1: required and non-repeated, so no def or rep levels
-	writer := p.buildWriter(LargeSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	// just read the first SmallSize rows to ensure we could read it back in
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(SmallSize, values)
-	p.Equal(reflect.ValueOf(p.Values).Slice(0, SmallSize).Interface(), p.ValuesOut)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackEncodingV1() {
-	p.testDictionaryFallbackEncoding(parquet.V1_0)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackEncodingV2() {
-	p.testDictionaryFallbackEncoding(parquet.V2_LATEST)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackStatsV1() {
-	p.testDictionaryFallbackAndCompressedSize(parquet.V1_0)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackStatsV2() {
-	p.testDictionaryFallbackAndCompressedSize(parquet.V2_LATEST)
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalNullValueChunk() {
-	// test case for NULL values
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-	p.GenerateData(LargeSize)
-	p.RepLevels = make([]int16, LargeSize)
-	for idx := range p.DefLevels {
-		p.DefLevels[idx] = 0
-		p.RepLevels[idx] = 0
-	}
-
-	writer := p.buildWriter(LargeSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, p.RepLevels)
-	writer.Close()
-
-	valuesRead := p.readColumn(compress.Codecs.Uncompressed)
-	p.Zero(valuesRead)
-}
-
-func createWriterTestSuite(typ reflect.Type) suite.TestingSuite {
-	switch typ {
-	case reflect.TypeOf(true):
-		return &BooleanValueWriterSuite{PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}}
-	case reflect.TypeOf(parquet.ByteArray{}):
-		return &ByteArrayWriterSuite{PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}}
-	}
-	return &PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}
-}
-
-func TestColumnWriter(t *testing.T) {
-	t.Parallel()
-	types := []struct {
-		typ reflect.Type
-	}{
-		{reflect.TypeOf(true)},
-		{reflect.TypeOf(int32(0))},
-		{reflect.TypeOf(int64(0))},
-		{reflect.TypeOf(float32(0))},
-		{reflect.TypeOf(float64(0))},
-		{reflect.TypeOf(parquet.Int96{})},
-		{reflect.TypeOf(parquet.ByteArray{})},
-		{reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-	for _, tt := range types {
-		tt := tt
-		t.Run(tt.typ.String(), func(t *testing.T) {
-			t.Parallel()
-			suite.Run(t, createWriterTestSuite(tt.typ))
-		})
-	}
-}
-
-type ByteArrayWriterSuite struct {
-	PrimitiveWriterTestSuite
-}
-
-func (b *ByteArrayWriterSuite) TestOmitStats() {
-	// prevent writing large MIN,MAX stats
-	minLen := 1024 * 4
-	maxLen := 1024 * 8
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	b.Values = make([]parquet.ByteArray, SmallSize)
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, minLen, maxLen)
-	writer.(*file.ByteArrayColumnChunkWriter).WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	hasMin, hasMax := b.metadataStatsHasMinMax()
-	b.False(hasMin)
-	b.False(hasMax)
-}
-
-func (b *ByteArrayWriterSuite) TestOmitDataPageStats() {
-	// prevent writing large stats in DataPageHeader
-	minLen := math.Pow10(7)
-	maxLen := math.Pow10(7)
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	colprops := parquet.DefaultColumnProperties()
-	colprops.StatsEnabled = false
-
-	writer := b.buildWriter(SmallSize, colprops, parquet.WithVersion(parquet.V1_0))
-	b.Values = make([]parquet.ByteArray, 1)
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, int(minLen), int(maxLen))
-	writer.(*file.ByteArrayColumnChunkWriter).WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	b.NotPanics(func() { b.readColumn(compress.Codecs.Uncompressed) })
-}
-
-func (b *ByteArrayWriterSuite) TestLimitStats() {
-	minLen := 1024 * 4
-	maxLen := 1024 * 8
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	colprops := parquet.DefaultColumnProperties()
-	colprops.MaxStatsSize = int64(maxLen)
-
-	writer := b.buildWriter(SmallSize, colprops, parquet.WithVersion(parquet.V1_0)).(*file.ByteArrayColumnChunkWriter)
-	b.Values = make([]parquet.ByteArray, SmallSize)
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, minLen, maxLen)
-	writer.WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	b.True(b.metadataIsStatsSet())
-}
-
-func (b *ByteArrayWriterSuite) TestCheckDefaultStats() {
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	b.GenerateData(SmallSize)
-	b.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	b.True(b.metadataIsStatsSet())
-}
-
-type BooleanValueWriterSuite struct {
-	PrimitiveWriterTestSuite
-}
-
-func (b *BooleanValueWriterSuite) TestAlternateBooleanValues() {
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	// We use an unusual data-page size to try to flush out Boolean encoder issues in usage of the BitMapWriter
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0), parquet.WithDataPageSize(7)).(*file.BooleanColumnChunkWriter)
-	for i := 0; i < SmallSize; i++ {
-		val := i%2 == 0
-		writer.WriteBatch([]bool{val}, nil, nil)
-	}
-	writer.Close()
-	b.readColumn(compress.Codecs.Uncompressed)
-	for i := 0; i < SmallSize; i++ {
-		b.Equal(i%2 == 0, b.ValuesOut.([]bool)[i])
-	}
-}
-
-func TestDictionaryReslice(t *testing.T) {
-	pts := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	for _, pt := range pts {
-		t.Run(pt.String(), func(t *testing.T) {
-			mem := memory.NewGoAllocator()
-			dt := &arrow.DictionaryType{
-				IndexType: pt,
-				ValueType: &arrow.StringType{},
-			}
-			field := arrow.Field{Name: "test_field", Type: dt, Nullable: true}
-			schema := arrow.NewSchema([]arrow.Field{field}, nil)
-			b := array.NewRecordBuilder(mem, schema)
-			for i := 0; i < 2000; i++ {
-				b.Field(0).(*array.BinaryDictionaryBuilder).AppendString("test_value")
-			}
-			rec := b.NewRecord()
-			out := &bytes.Buffer{}
-			pqw, err := pqarrow.NewFileWriter(rec.Schema(), out, nil, pqarrow.NewArrowWriterProperties())
-			assert.NoError(t, err)
-			err = pqw.WriteBuffered(rec)
-			assert.NoError(t, err)
-
-		})
-	}
-}
diff --git a/go/parquet/file/column_writer_types.gen.go b/go/parquet/file/column_writer_types.gen.go
deleted file mode 100644
index 612b4095098a1..0000000000000
--- a/go/parquet/file/column_writer_types.gen.go
+++ /dev/null
@@ -1,1594 +0,0 @@
-// Code generated by column_writer_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// Int32ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int32 columns.
-type Int32ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt32ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt32ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int32ColumnChunkWriter {
-	ret := &Int32ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int32EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int32ColumnChunkWriter) WriteBatch(values []int32, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []int32
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int32ColumnChunkWriter) WriteBatchSpaced(values []int32, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []int32
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int32ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int32ColumnChunkWriter) writeValues(values []int32, numNulls int64) {
-	w.currentEncoder.(encoding.Int32Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int32Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int32ColumnChunkWriter) writeValuesSpaced(spacedValues []int32, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int32Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int32Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int32Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int32ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int32ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int32EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Int64ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int64 columns.
-type Int64ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt64ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt64ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int64ColumnChunkWriter {
-	ret := &Int64ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int64EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int64ColumnChunkWriter) WriteBatch(values []int64, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []int64
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int64ColumnChunkWriter) WriteBatchSpaced(values []int64, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []int64
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int64ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int64ColumnChunkWriter) writeValues(values []int64, numNulls int64) {
-	w.currentEncoder.(encoding.Int64Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int64Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int64ColumnChunkWriter) writeValuesSpaced(spacedValues []int64, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int64Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int64Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int64Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int64ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int64ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int64EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Int96ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int96 columns.
-type Int96ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt96ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt96ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int96ColumnChunkWriter {
-	ret := &Int96ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int96EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int96ColumnChunkWriter) WriteBatch(values []parquet.Int96, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.Int96
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int96ColumnChunkWriter) WriteBatchSpaced(values []parquet.Int96, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.Int96
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int96ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int96ColumnChunkWriter) writeValues(values []parquet.Int96, numNulls int64) {
-	w.currentEncoder.(encoding.Int96Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int96Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int96ColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.Int96, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int96Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int96Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int96Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int96ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int96ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int96EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Float32ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Float32 columns.
-type Float32ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFloat32ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFloat32ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Float32ColumnChunkWriter {
-	ret := &Float32ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Float32EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Float32ColumnChunkWriter) WriteBatch(values []float32, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []float32
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Float32ColumnChunkWriter) WriteBatchSpaced(values []float32, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []float32
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Float32ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Float32ColumnChunkWriter) writeValues(values []float32, numNulls int64) {
-	w.currentEncoder.(encoding.Float32Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Float32Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Float32ColumnChunkWriter) writeValuesSpaced(spacedValues []float32, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Float32Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Float32Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Float32Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Float32ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Float32ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Float32EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Float64ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Float64 columns.
-type Float64ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFloat64ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFloat64ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Float64ColumnChunkWriter {
-	ret := &Float64ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Float64EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Float64ColumnChunkWriter) WriteBatch(values []float64, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []float64
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Float64ColumnChunkWriter) WriteBatchSpaced(values []float64, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []float64
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Float64ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Float64ColumnChunkWriter) writeValues(values []float64, numNulls int64) {
-	w.currentEncoder.(encoding.Float64Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Float64Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Float64ColumnChunkWriter) writeValuesSpaced(spacedValues []float64, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Float64Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Float64Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Float64Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Float64ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Float64ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Float64EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// BooleanColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Boolean columns.
-type BooleanColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewBooleanColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewBooleanColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *BooleanColumnChunkWriter {
-	if useDict {
-		panic("cannot use dictionary for boolean writer")
-	}
-	ret := &BooleanColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.BooleanEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *BooleanColumnChunkWriter) WriteBatch(values []bool, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []bool
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *BooleanColumnChunkWriter) WriteBatchSpaced(values []bool, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []bool
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *BooleanColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *BooleanColumnChunkWriter) writeValues(values []bool, numNulls int64) {
-	w.currentEncoder.(encoding.BooleanEncoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.BooleanStatistics).Update(values, numNulls)
-	}
-}
-
-func (w *BooleanColumnChunkWriter) writeValuesSpaced(spacedValues []bool, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.BooleanEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.BooleanEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.BooleanStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *BooleanColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *BooleanColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.BooleanEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// ByteArrayColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for ByteArray columns.
-type ByteArrayColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewByteArrayColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewByteArrayColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *ByteArrayColumnChunkWriter {
-	ret := &ByteArrayColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.ByteArrayEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *ByteArrayColumnChunkWriter) WriteBatch(values []parquet.ByteArray, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.ByteArray
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *ByteArrayColumnChunkWriter) WriteBatchSpaced(values []parquet.ByteArray, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.ByteArray
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *ByteArrayColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *ByteArrayColumnChunkWriter) writeValues(values []parquet.ByteArray, numNulls int64) {
-	w.currentEncoder.(encoding.ByteArrayEncoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.ByteArrayStatistics).Update(values, numNulls)
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.ByteArray, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.ByteArrayEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.ByteArrayEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.ByteArrayStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.ByteArrayEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// FixedLenByteArrayColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for FixedLenByteArray columns.
-type FixedLenByteArrayColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFixedLenByteArrayColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFixedLenByteArrayColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *FixedLenByteArrayColumnChunkWriter {
-	ret := &FixedLenByteArrayColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.FixedLenByteArrayEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *FixedLenByteArrayColumnChunkWriter) WriteBatch(values []parquet.FixedLenByteArray, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.FixedLenByteArray
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *FixedLenByteArrayColumnChunkWriter) WriteBatchSpaced(values []parquet.FixedLenByteArray, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.FixedLenByteArray
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) writeValues(values []parquet.FixedLenByteArray, numNulls int64) {
-	w.currentEncoder.(encoding.FixedLenByteArrayEncoder).Put(values)
-	if w.pageStatistics != nil {
-		if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-			w.pageStatistics.(*metadata.Float16Statistics).Update(values, numNulls)
-		} else {
-			w.pageStatistics.(*metadata.FixedLenByteArrayStatistics).Update(values, numNulls)
-		}
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.FixedLenByteArray, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.FixedLenByteArrayEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.FixedLenByteArrayEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-			w.pageStatistics.(*metadata.Float16Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-		} else {
-			w.pageStatistics.(*metadata.FixedLenByteArrayStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-		}
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.FixedLenByteArrayEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// NewColumnChunkWriter constructs a column writer of the appropriate type by using the metadata builder
-// and writer properties to determine the correct type of column writer to construct and whether
-// or not to use dictionary encoding.
-func NewColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, props *parquet.WriterProperties) ColumnChunkWriter {
-	descr := meta.Descr()
-	useDict := props.DictionaryEnabledFor(descr.Path()) && descr.PhysicalType() != parquet.Types.Boolean && descr.PhysicalType() != parquet.Types.Int96
-	enc := props.EncodingFor(descr.Path())
-	if useDict {
-		enc = props.DictionaryIndexEncoding()
-	}
-
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Int64:
-		return NewInt64ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Int96:
-		return NewInt96ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Float:
-		return NewFloat32ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Double:
-		return NewFloat64ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Boolean:
-		return NewBooleanColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.ByteArray:
-		return NewByteArrayColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.FixedLenByteArray:
-		return NewFixedLenByteArrayColumnChunkWriter(meta, pager, useDict, enc, props)
-	default:
-		panic("unimplemented")
-	}
-}
diff --git a/go/parquet/file/column_writer_types.gen.go.tmpl b/go/parquet/file/column_writer_types.gen.go.tmpl
deleted file mode 100644
index cb48dd64ceedc..0000000000000
--- a/go/parquet/file/column_writer_types.gen.go.tmpl
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-    "fmt"
-
-    "github.com/apache/arrow/go/v18/internal/utils"
-    "github.com/apache/arrow/go/v18/parquet"
-    "github.com/apache/arrow/go/v18/parquet/metadata"
-    "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-    format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-{{range .In}}
-// {{.Name}}ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for {{.Name}} columns.
-type {{.Name}}ColumnChunkWriter struct {
-  columnWriter
-}
-
-// New{{.Name}}ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func New{{.Name}}ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *{{.Name}}ColumnChunkWriter {
-{{- if eq .Name "Boolean"}}
-  if useDict {
-    panic("cannot use dictionary for boolean writer")
-  }
-
-{{- end}}
-  ret := &{{.Name}}ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-  ret.currentEncoder = encoding.{{.Name}}EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-  return ret
-}
-
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *{{.Name}}ColumnChunkWriter) WriteBatch(values []{{.name}}, defLevels, repLevels []int16) (valueOffset int64, err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = utils.FormatRecoveredError("unknown error type", r)
-    }
-  }()
-  // We check for DataPage limits only after we have inserted the values. If a user
-  // writes a large number of values, the DataPage size can be much above the limit.
-  // The purpose of this chunking is to bound this. Even if a user writes large number
-  // of values, the chunking will ensure the AddDataPage() is called at a reasonable
-  // pagesize limit
-  var n int64
-  switch {
-  case defLevels != nil:
-    n = int64(len(defLevels))
-  case values != nil:
-    n = int64(len(values))
-  }
-  w.doBatches(n, repLevels, func(offset, batch int64) {
-    var vals []{{.name}}
-
-    toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-    if values != nil {
-      vals = values[valueOffset:valueOffset+toWrite]
-    }
-
-    w.writeValues(vals, batch - toWrite)
-    if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-        panic(err)
-    }
-
-    valueOffset += toWrite
-    w.checkDictionarySizeLimit()
-  })
-  return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *{{.Name}}ColumnChunkWriter) WriteBatchSpaced(values []{{.name}}, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-  valueOffset := int64(0)
-  length := len(defLevels)
-  if defLevels == nil {
-    length = len(values)
-  }
-  doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-    var vals []{{.name}}
-    info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-    w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-    if values != nil {
-      vals = values[valueOffset:valueOffset+info.numSpaced()]
-    }
-
-    if w.bitsBuffer != nil {
-      w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-    } else {
-      w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-    }
-    w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-    valueOffset += info.numSpaced()
-
-    w.checkDictionarySizeLimit()
-  })
-}
-
-func (w *{{.Name}}ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = utils.FormatRecoveredError("unknown error type", r)
-    }
-  }()
-
-  valueOffset := int64(0)
-  length := len(defLevels)
-  if defLevels == nil {
-    length = indices.Len()
-  }
-
-  dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-  doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-    info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-    w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-    writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-    defer writeableIndices.Release()
-    writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-    defer writeableIndices.Release()
-
-    if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-      panic(err) // caught above
-    }
-
-    if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-      panic(err)
-    }
-
-    valueOffset += info.numSpaced()
-  })
-
-  return
-}
-
-func (w *{{.Name}}ColumnChunkWriter) writeValues(values []{{.name}}, numNulls int64) {
-  w.currentEncoder.(encoding.{{.Name}}Encoder).Put(values)
-  if w.pageStatistics != nil {
-{{- if ne .Name "FixedLenByteArray"}}
-    w.pageStatistics.(*metadata.{{.Name}}Statistics).Update(values, numNulls)
-{{- else}}
-    if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-      w.pageStatistics.(*metadata.Float16Statistics).Update(values, numNulls)
-    } else {
-      w.pageStatistics.(*metadata.{{.Name}}Statistics).Update(values, numNulls)
-    }
-{{- end}}
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) writeValuesSpaced(spacedValues []{{.name}}, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-  if len(spacedValues) != int(numRead) {
-    w.currentEncoder.(encoding.{{.Name}}Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-  } else {
-    w.currentEncoder.(encoding.{{.Name}}Encoder).Put(spacedValues)
-  }
-  if w.pageStatistics != nil {
-    nulls := numValues - numRead
-{{- if ne .Name "FixedLenByteArray"}}
-    w.pageStatistics.(*metadata.{{.Name}}Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-{{- else}}
-    if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-      w.pageStatistics.(*metadata.Float16Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-    } else {
-      w.pageStatistics.(*metadata.{{.Name}}Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-    }
-{{- end}}
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) checkDictionarySizeLimit() {
-  if !w.hasDict || w.fallbackToNonDict {
-    return
-  }
-
-  if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-    w.FallbackToPlain()
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) FallbackToPlain() {
-  if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-    w.WriteDictionaryPage()
-    w.FlushBufferedDataPages()
-    w.fallbackToNonDict = true
-    w.currentEncoder.Release()
-    w.currentEncoder = encoding.{{.Name}}EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-    w.encoding = parquet.Encodings.Plain
-  }
-}
-{{end}}
-
-// NewColumnChunkWriter constructs a column writer of the appropriate type by using the metadata builder
-// and writer properties to determine the correct type of column writer to construct and whether
-// or not to use dictionary encoding.
-func NewColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, props *parquet.WriterProperties) ColumnChunkWriter {
-  descr := meta.Descr()
-  useDict := props.DictionaryEnabledFor(descr.Path()) && descr.PhysicalType() != parquet.Types.Boolean && descr.PhysicalType() != parquet.Types.Int96
-  enc := props.EncodingFor(descr.Path())
-  if useDict {
-    enc = props.DictionaryIndexEncoding()
-  }
-
-  switch descr.PhysicalType() {
-{{- range .In}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return New{{.Name}}ColumnChunkWriter(meta, pager, useDict, enc, props)
-{{- end}}
-  default:
-    panic("unimplemented")
-  }
-}
diff --git a/go/parquet/file/file_reader.go b/go/parquet/file/file_reader.go
deleted file mode 100644
index f25b882e00647..0000000000000
--- a/go/parquet/file/file_reader.go
+++ /dev/null
@@ -1,317 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"io"
-	"os"
-	"runtime"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-const (
-	footerSize uint32 = 8
-)
-
-var (
-	magicBytes                  = []byte("PAR1")
-	magicEBytes                 = []byte("PARE")
-	errInconsistentFileMetadata = xerrors.New("parquet: file is smaller than indicated metadata size")
-)
-
-// Reader is the main interface for reading a parquet file
-type Reader struct {
-	r             parquet.ReaderAtSeeker
-	props         *parquet.ReaderProperties
-	metadata      *metadata.FileMetaData
-	footerOffset  int64
-	fileDecryptor encryption.FileDecryptor
-
-	bufferPool sync.Pool
-}
-
-type ReadOption func(*Reader)
-
-// WithReadProps specifies a specific reader properties instance to use, rather
-// than using the default ReaderProperties.
-func WithReadProps(props *parquet.ReaderProperties) ReadOption {
-	return func(r *Reader) {
-		r.props = props
-	}
-}
-
-// WithMetadata allows providing a specific FileMetaData object rather than reading
-// the file metadata from the file itself.
-func WithMetadata(m *metadata.FileMetaData) ReadOption {
-	return func(r *Reader) {
-		r.metadata = m
-	}
-}
-
-// OpenParquetFile will return a Reader for the given parquet file on the local file system.
-//
-// Optionally the file can be memory mapped for faster reading. If no read properties are provided
-// then the default ReaderProperties will be used. The WithMetadata option can be used to provide
-// a FileMetaData object rather than reading the file metadata from the file.
-func OpenParquetFile(filename string, memoryMap bool, opts ...ReadOption) (*Reader, error) {
-	var source parquet.ReaderAtSeeker
-
-	var err error
-	if memoryMap {
-		source, err = mmapOpen(filename)
-		if err != nil {
-			return nil, err
-		}
-	} else {
-		source, err = os.Open(filename)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return NewParquetReader(source, opts...)
-}
-
-// NewParquetReader returns a FileReader instance that reads a parquet file which can be read from r.
-// This reader needs to support Read, ReadAt and Seeking.
-//
-// If no read properties are provided then the default ReaderProperties will be used. The WithMetadata
-// option can be used to provide a FileMetaData object rather than reading the file metadata from the file.
-func NewParquetReader(r parquet.ReaderAtSeeker, opts ...ReadOption) (*Reader, error) {
-	var err error
-	f := &Reader{r: r}
-	for _, o := range opts {
-		o(f)
-	}
-
-	if f.footerOffset <= 0 {
-		f.footerOffset, err = r.Seek(0, io.SeekEnd)
-		if err != nil {
-			return nil, fmt.Errorf("parquet: could not retrieve footer offset: %w", err)
-		}
-	}
-
-	if f.props == nil {
-		f.props = parquet.NewReaderProperties(memory.NewGoAllocator())
-	}
-
-	f.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(f.props.Allocator())
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-
-	if f.metadata == nil {
-		return f, f.parseMetaData()
-	}
-
-	return f, nil
-}
-
-// BufferPool returns the internal buffer pool being utilized by this reader.
-// This is primarily for use by the pqarrow.FileReader or anything that builds
-// on top of the Reader and constructs their own ColumnReaders (like the
-// RecordReader)
-func (f *Reader) BufferPool() *sync.Pool {
-	return &f.bufferPool
-}
-
-// Close will close the current reader, and if the underlying reader being used
-// is an `io.Closer` then Close will be called on it too.
-func (f *Reader) Close() error {
-	if r, ok := f.r.(io.Closer); ok {
-		return r.Close()
-	}
-	return nil
-}
-
-// MetaData returns the underlying FileMetadata object
-func (f *Reader) MetaData() *metadata.FileMetaData { return f.metadata }
-
-// parseMetaData handles parsing the metadata from the opened file.
-func (f *Reader) parseMetaData() error {
-	if f.footerOffset <= int64(footerSize) {
-		return fmt.Errorf("parquet: file too small (size=%d)", f.footerOffset)
-	}
-
-	buf := make([]byte, footerSize)
-	// backup 8 bytes to read the footer size (first four bytes) and the magic bytes (last 4 bytes)
-	n, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize))
-	if err != nil && err != io.EOF {
-		return fmt.Errorf("parquet: could not read footer: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("parquet: could not read %d bytes from end of file", len(buf))
-	}
-
-	size := int64(binary.LittleEndian.Uint32(buf[:4]))
-	if size < 0 || size+int64(footerSize) > f.footerOffset {
-		return errInconsistentFileMetadata
-	}
-
-	fileDecryptProps := f.props.FileDecryptProps
-
-	switch {
-	case bytes.Equal(buf[4:], magicBytes): // non-encrypted metadata
-		buf = make([]byte, size)
-		if _, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize)-size); err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		f.metadata, err = metadata.NewFileMetaData(buf, nil)
-		if err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		if !f.metadata.IsSetEncryptionAlgorithm() {
-			if fileDecryptProps != nil && !fileDecryptProps.PlaintextFilesAllowed() {
-				return fmt.Errorf("parquet: applying decryption properties on plaintext file")
-			}
-		} else {
-			if err := f.parseMetaDataEncryptedFilePlaintextFooter(fileDecryptProps, buf); err != nil {
-				return err
-			}
-		}
-	case bytes.Equal(buf[4:], magicEBytes): // encrypted metadata
-		buf = make([]byte, size)
-		if _, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize)-size); err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		if fileDecryptProps == nil {
-			return xerrors.New("could not read encrypted metadata, no decryption found in reader's properties")
-		}
-
-		fileCryptoMetadata, err := metadata.NewFileCryptoMetaData(buf)
-		if err != nil {
-			return err
-		}
-		algo := fileCryptoMetadata.EncryptionAlgorithm()
-		fileAad, err := f.handleAadPrefix(fileDecryptProps, &algo)
-		if err != nil {
-			return err
-		}
-		f.fileDecryptor = encryption.NewFileDecryptor(fileDecryptProps, fileAad, algo.Algo, string(fileCryptoMetadata.KeyMetadata()), f.props.Allocator())
-
-		f.metadata, err = metadata.NewFileMetaData(buf[fileCryptoMetadata.Len():], f.fileDecryptor)
-		if err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-	default:
-		return fmt.Errorf("parquet: magic bytes not found in footer. Either the file is corrupted or this isn't a parquet file")
-	}
-
-	return nil
-}
-
-func (f *Reader) handleAadPrefix(fileDecrypt *parquet.FileDecryptionProperties, algo *parquet.Algorithm) (string, error) {
-	aadPrefixInProps := fileDecrypt.AadPrefix()
-	aadPrefix := []byte(aadPrefixInProps)
-	fileHasAadPrefix := len(algo.Aad.AadPrefix) > 0
-	aadPrefixInFile := algo.Aad.AadPrefix
-
-	if algo.Aad.SupplyAadPrefix && aadPrefixInProps == "" {
-		return "", xerrors.New("AAD Prefix used for file encryption but not stored in file and not supplied in decryption props")
-	}
-
-	if fileHasAadPrefix {
-		if aadPrefixInProps != "" {
-			if aadPrefixInProps != string(aadPrefixInFile) {
-				return "", xerrors.New("AAD prefix in file and in properties but not the same")
-			}
-		}
-		aadPrefix = aadPrefixInFile
-		if fileDecrypt.Verifier != nil {
-			fileDecrypt.Verifier.Verify(string(aadPrefix))
-		}
-	} else {
-		if !algo.Aad.SupplyAadPrefix && aadPrefixInProps != "" {
-			return "", xerrors.New("AAD Prefix set in decryptionproperties but was not used for file encryption")
-		}
-		if fileDecrypt.Verifier != nil {
-			return "", xerrors.New("AAD Prefix Verifier is set but AAD Prefix not found in file")
-		}
-	}
-	return string(append(aadPrefix, algo.Aad.AadFileUnique...)), nil
-}
-
-func (f *Reader) parseMetaDataEncryptedFilePlaintextFooter(decryptProps *parquet.FileDecryptionProperties, data []byte) error {
-	if decryptProps != nil {
-		algo := f.metadata.EncryptionAlgorithm()
-		fileAad, err := f.handleAadPrefix(decryptProps, &algo)
-		if err != nil {
-			return err
-		}
-		f.fileDecryptor = encryption.NewFileDecryptor(decryptProps, fileAad, algo.Algo, string(f.metadata.GetFooterSigningKeyMetadata()), f.props.Allocator())
-		// set the InternalFileDecryptor in the metadata as well, as it's used
-		// for signature verification and for ColumnChunkMetaData creation.
-		f.metadata.FileDecryptor = f.fileDecryptor
-		if decryptProps.PlaintextFooterIntegrity() {
-			if len(data)-f.metadata.Size() != encryption.GcmTagLength+encryption.NonceLength {
-				return xerrors.New("failed reading metadata for encryption signature")
-			}
-
-			if !f.metadata.VerifySignature(data[f.metadata.Size():]) {
-				return xerrors.New("parquet crypto signature verification failed")
-			}
-		}
-	}
-	return nil
-}
-
-// WriterVersion returns the Application Version that was written in the file
-// metadata
-func (f *Reader) WriterVersion() *metadata.AppVersion {
-	return f.metadata.WriterVersion()
-}
-
-// NumRows returns the total number of rows in this parquet file.
-func (f *Reader) NumRows() int64 {
-	return f.metadata.GetNumRows()
-}
-
-// NumRowGroups returns the total number of row groups in this file.
-func (f *Reader) NumRowGroups() int {
-	return len(f.metadata.GetRowGroups())
-}
-
-// RowGroup returns a reader for the desired (0-based) row group
-func (f *Reader) RowGroup(i int) *RowGroupReader {
-	rg := f.metadata.RowGroups[i]
-
-	return &RowGroupReader{
-		fileMetadata:  f.metadata,
-		rgMetadata:    metadata.NewRowGroupMetaData(rg, f.metadata.Schema, f.WriterVersion(), f.fileDecryptor),
-		props:         f.props,
-		r:             f.r,
-		sourceSz:      f.footerOffset,
-		fileDecryptor: f.fileDecryptor,
-		bufferPool:    &f.bufferPool,
-	}
-}
diff --git a/go/parquet/file/file_reader_mmap.go b/go/parquet/file/file_reader_mmap.go
deleted file mode 100644
index 77afb6b639bff..0000000000000
--- a/go/parquet/file/file_reader_mmap.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !windows
-// +build !windows
-
-package file
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/exp/mmap"
-	"golang.org/x/xerrors"
-)
-
-func mmapOpen(filename string) (parquet.ReaderAtSeeker, error) {
-	rdr, err := mmap.Open(filename)
-	if err != nil {
-		return nil, err
-	}
-	return &mmapAdapter{rdr, 0}, nil
-}
-
-// an adapter for mmap'd files
-type mmapAdapter struct {
-	*mmap.ReaderAt
-
-	pos int64
-}
-
-func (m *mmapAdapter) Close() error {
-	return m.ReaderAt.Close()
-}
-
-func (m *mmapAdapter) ReadAt(p []byte, off int64) (int, error) {
-	return m.ReaderAt.ReadAt(p, off)
-}
-
-func (m *mmapAdapter) Read(p []byte) (n int, err error) {
-	n, err = m.ReaderAt.ReadAt(p, m.pos)
-	m.pos += int64(n)
-	return
-}
-
-func (m *mmapAdapter) Seek(offset int64, whence int) (int64, error) {
-	newPos, offs := int64(0), offset
-	switch whence {
-	case io.SeekStart:
-		newPos = offs
-	case io.SeekCurrent:
-		newPos = m.pos + offs
-	case io.SeekEnd:
-		newPos = int64(m.ReaderAt.Len()) + offs
-	}
-	if newPos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	if newPos > int64(m.ReaderAt.Len()) {
-		return 0, xerrors.New("new position exceeds size of file")
-	}
-	m.pos = newPos
-	return newPos, nil
-}
diff --git a/go/parquet/file/file_reader_mmap_windows.go b/go/parquet/file/file_reader_mmap_windows.go
deleted file mode 100644
index 87aaafd9e7d81..0000000000000
--- a/go/parquet/file/file_reader_mmap_windows.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build windows
-// +build windows
-
-package file
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-func mmapOpen(filename string) (parquet.ReaderAtSeeker, error) {
-	return nil, errors.New("mmap not implemented on windows")
-}
diff --git a/go/parquet/file/file_reader_test.go b/go/parquet/file/file_reader_test.go
deleted file mode 100644
index 74926c958e2f7..0000000000000
--- a/go/parquet/file/file_reader_test.go
+++ /dev/null
@@ -1,822 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"context"
-	"crypto/rand"
-	"encoding/binary"
-	"fmt"
-	"io"
-	"os"
-	"path"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	libthrift "github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func getDummyStats(statSize int, fillAll bool) *format.Statistics {
-	statBytes := make([]byte, statSize)
-	memory.Set(statBytes, 1)
-
-	ret := format.NewStatistics()
-	ret.Max = statBytes
-	if fillAll {
-		ret.Min = statBytes
-		ret.NullCount = libthrift.Int64Ptr(42)
-		ret.DistinctCount = libthrift.Int64Ptr(1)
-	}
-	return ret
-}
-
-func checkStatistics(t *testing.T, stats format.Statistics, actual metadata.EncodedStatistics) {
-	if stats.IsSetMax() {
-		assert.Equal(t, stats.Max, actual.Max)
-	}
-	if stats.IsSetMin() {
-		assert.Equal(t, stats.Min, actual.Min)
-	}
-	if stats.IsSetNullCount() {
-		assert.Equal(t, stats.GetNullCount(), actual.NullCount)
-	}
-	if stats.IsSetDistinctCount() {
-		assert.Equal(t, stats.GetDistinctCount(), actual.DistinctCount)
-	}
-}
-
-type testReader struct {
-	*bytes.Reader
-}
-
-// ReadAt for testReader returns io.EOF when off + len(b) is exactly the length of the underlying input source.
-func (tr testReader) ReadAt(b []byte, off int64) (int, error) {
-	n, err := tr.Reader.ReadAt(b, off)
-	if err == nil && (int64(n)+off == tr.Size()) {
-		return n, io.EOF
-	}
-	return n, err
-}
-
-type PageSerdeSuite struct {
-	suite.Suite
-
-	sink   *encoding.BufferWriter
-	buffer *memory.Buffer
-
-	pageHdr       format.PageHeader
-	dataPageHdr   format.DataPageHeader
-	dataPageHdrV2 format.DataPageHeaderV2
-
-	pageReader file.PageReader
-}
-
-func TestFileDeserializing(t *testing.T) {
-	t.Parallel()
-	suite.Run(t, new(PageSerdeSuite))
-}
-
-func (p *PageSerdeSuite) ResetStream() {
-	p.sink = encoding.NewBufferWriter(0, memory.DefaultAllocator)
-}
-
-func (p *PageSerdeSuite) EndStream() {
-	p.buffer = p.sink.Finish()
-}
-
-func (p *PageSerdeSuite) SetupTest() {
-	p.dataPageHdr.Encoding = format.Encoding_PLAIN
-	p.dataPageHdr.DefinitionLevelEncoding = format.Encoding_RLE
-	p.dataPageHdr.RepetitionLevelEncoding = format.Encoding_RLE
-
-	p.ResetStream()
-}
-
-func (p *PageSerdeSuite) InitSerializedPageReader(nrows int64, codec compress.Compression) {
-	p.EndStream()
-
-	p.pageReader, _ = file.NewPageReader(utils.NewBufferedReader(bytes.NewReader(p.buffer.Bytes()), p.buffer.Len()), nrows, codec, memory.DefaultAllocator, nil)
-}
-
-func (p *PageSerdeSuite) WriteDataPageHeader(maxSerialized int, uncompressed, compressed int32) {
-	// simplifying writing serialized data page headers which may or may
-	// not have meaningful data associated with them
-
-	p.pageHdr.DataPageHeader = &p.dataPageHdr
-	p.pageHdr.UncompressedPageSize = uncompressed
-	p.pageHdr.CompressedPageSize = compressed
-	p.pageHdr.Type = format.PageType_DATA_PAGE
-
-	serializer := thrift.NewThriftSerializer()
-	p.NotPanics(func() {
-		serializer.Serialize(&p.pageHdr, p.sink, nil)
-	})
-}
-
-func (p *PageSerdeSuite) WriteDataPageHeaderV2(maxSerialized int, uncompressed, compressed int32) {
-	p.pageHdr.DataPageHeaderV2 = &p.dataPageHdrV2
-	p.pageHdr.UncompressedPageSize = uncompressed
-	p.pageHdr.CompressedPageSize = compressed
-	p.pageHdr.Type = format.PageType_DATA_PAGE_V2
-
-	serializer := thrift.NewThriftSerializer()
-	p.NotPanics(func() {
-		serializer.Serialize(&p.pageHdr, p.sink, nil)
-	})
-}
-
-func (p *PageSerdeSuite) CheckDataPageHeader(expected format.DataPageHeader, page file.Page) {
-	p.Equal(format.PageType_DATA_PAGE, page.Type())
-
-	p.IsType(&file.DataPageV1{}, page)
-	p.Equal(expected.NumValues, page.NumValues())
-	p.Equal(expected.Encoding, page.Encoding())
-	p.EqualValues(expected.DefinitionLevelEncoding, page.(*file.DataPageV1).DefinitionLevelEncoding())
-	p.EqualValues(expected.RepetitionLevelEncoding, page.(*file.DataPageV1).RepetitionLevelEncoding())
-	checkStatistics(p.T(), *expected.Statistics, page.(file.DataPage).Statistics())
-}
-
-func (p *PageSerdeSuite) CheckDataPageHeaderV2(expected format.DataPageHeaderV2, page file.Page) {
-	p.Equal(format.PageType_DATA_PAGE_V2, page.Type())
-
-	p.IsType(&file.DataPageV2{}, page)
-	p.Equal(expected.NumValues, page.NumValues())
-	p.Equal(expected.Encoding, page.Encoding())
-	p.Equal(expected.NumNulls, page.(*file.DataPageV2).NumNulls())
-	p.Equal(expected.DefinitionLevelsByteLength, page.(*file.DataPageV2).DefinitionLevelByteLen())
-	p.Equal(expected.RepetitionLevelsByteLength, page.(*file.DataPageV2).RepetitionLevelByteLen())
-	p.Equal(expected.IsCompressed, page.(*file.DataPageV2).IsCompressed())
-	checkStatistics(p.T(), *expected.Statistics, page.(file.DataPage).Statistics())
-}
-
-func (p *PageSerdeSuite) TestDataPageV1() {
-	const (
-		statsSize = 512
-		nrows     = 4444
-	)
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, true)
-	p.dataPageHdr.NumValues = nrows
-
-	p.WriteDataPageHeader(1024, 0, 0)
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	currentPage := p.pageReader.Page()
-	p.CheckDataPageHeader(p.dataPageHdr, currentPage)
-}
-
-func (p *PageSerdeSuite) TestDataPageV2() {
-	const (
-		statsSize = 512
-		nrows     = 4444
-	)
-	p.dataPageHdrV2.Statistics = getDummyStats(statsSize, true)
-	p.dataPageHdrV2.NumValues = nrows
-	p.WriteDataPageHeaderV2(1024, 0, 0)
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	p.CheckDataPageHeaderV2(p.dataPageHdrV2, p.pageReader.Page())
-}
-
-func (p *PageSerdeSuite) TestLargePageHeaders() {
-	const (
-		statsSize     = 256 * 1024 // 256KB
-		nrows         = 4141
-		maxHeaderSize = 512 * 1024 // 512KB
-	)
-
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, false)
-	p.dataPageHdr.NumValues = nrows
-	p.WriteDataPageHeader(maxHeaderSize, 0, 0)
-	pos, err := p.sink.Seek(0, io.SeekCurrent)
-	p.NoError(err)
-	p.GreaterOrEqual(maxHeaderSize, int(pos))
-	p.LessOrEqual(statsSize, int(pos))
-	p.GreaterOrEqual(16*1024*1024, int(pos))
-
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	p.CheckDataPageHeader(p.dataPageHdr, p.pageReader.Page())
-}
-
-func (p *PageSerdeSuite) TestFailLargePageHeaders() {
-	const (
-		statsSize      = 256 * 1024 // 256KB
-		nrows          = 1337       // dummy value
-		maxHeaderSize  = 512 * 1024 // 512 KB
-		smallerMaxSize = 128 * 1024 // 128KB
-	)
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, false)
-	p.WriteDataPageHeader(maxHeaderSize, 0, 0)
-	pos, err := p.sink.Seek(0, io.SeekCurrent)
-	p.NoError(err)
-	p.GreaterOrEqual(maxHeaderSize, int(pos))
-
-	p.LessOrEqual(smallerMaxSize, int(pos))
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.pageReader.SetMaxPageHeaderSize(smallerMaxSize)
-	p.NotPanics(func() { p.False(p.pageReader.Next()) })
-	p.Error(p.pageReader.Err())
-}
-
-func (p *PageSerdeSuite) TestCompression() {
-	codecs := []compress.Compression{
-		compress.Codecs.Snappy,
-		compress.Codecs.Brotli,
-		compress.Codecs.Gzip,
-		// compress.Codecs.Lz4, // not yet implemented
-		compress.Codecs.Zstd,
-	}
-
-	const (
-		nrows  = 32 // dummy value
-		npages = 10
-	)
-	p.dataPageHdr.NumValues = nrows
-
-	fauxData := make([][]byte, npages)
-	for idx := range fauxData {
-		// each page is larger
-		fauxData[idx] = make([]byte, (idx+1)*64)
-		rand.Read(fauxData[idx])
-	}
-	for _, c := range codecs {
-		p.Run(c.String(), func() {
-			codec, _ := compress.GetCodec(c)
-			for _, data := range fauxData {
-				maxCompressed := codec.CompressBound(int64(len(data)))
-				buffer := make([]byte, maxCompressed)
-				buffer = codec.Encode(buffer, data)
-				p.WriteDataPageHeader(1024, int32(len(data)), int32(len(buffer)))
-				_, err := p.sink.Write(buffer)
-				p.NoError(err)
-			}
-
-			p.InitSerializedPageReader(nrows*npages, c)
-
-			for _, data := range fauxData {
-				p.True(p.pageReader.Next())
-				page := p.pageReader.Page()
-				p.IsType(&file.DataPageV1{}, page)
-				p.Equal(data, page.Data())
-			}
-			p.ResetStream()
-		})
-	}
-}
-
-func TestWithEOFReader(t *testing.T) {
-	root, _ := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1)}, -1)
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST))
-
-	var buf bytes.Buffer
-	wr := file.NewParquetWriter(&buf, root, file.WithWriterProps(props))
-	require.NoError(t, wr.Close())
-
-	r := bytes.NewReader(buf.Bytes())
-	_, err := file.NewParquetReader(testReader{Reader: r})
-	assert.NoError(t, err)
-}
-
-func TestInvalidHeaders(t *testing.T) {
-	badHeader := []byte("PAR2")
-	_, err := file.NewParquetReader(bytes.NewReader(badHeader))
-	assert.Error(t, err)
-}
-
-func TestInvalidFooter(t *testing.T) {
-	// file is smaller than FOOTER_SIZE
-	badFile := []byte("PAR1PAR")
-	_, err := file.NewParquetReader(bytes.NewReader(badFile))
-	assert.Error(t, err)
-
-	// Magic Number Incorrect
-	badFile2 := []byte("PAR1PAR2")
-	_, err = file.NewParquetReader(bytes.NewReader(badFile2))
-	assert.Error(t, err)
-}
-
-func TestIncompleteMetadata(t *testing.T) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	magic := []byte("PAR1")
-
-	sink.Write(magic)
-	sink.Write(make([]byte, 10))
-	const metadataLen = 24
-	binary.Write(sink, binary.LittleEndian, uint32(metadataLen))
-	sink.Write(magic)
-	buf := sink.Finish()
-	defer buf.Release()
-	_, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.Error(t, err)
-}
-
-func TestDeltaLengthByteArrayPackingWithNulls(t *testing.T) {
-	// produce file with DeltaLengthByteArray Encoding with mostly null values but one actual value.
-	root, _ := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewByteArrayNode("byte_array_col", parquet.Repetitions.Optional, -1),
-	}, -1)
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithEncoding(parquet.Encodings.DeltaLengthByteArray), parquet.WithDictionaryDefault(false))
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, root, file.WithWriterProps(props))
-	rgw := writer.AppendRowGroup()
-	ccw, err := rgw.NextColumn()
-	assert.NoError(t, err)
-	const elements = 500
-	data := make([]parquet.ByteArray, elements)
-	data[0] = parquet.ByteArray{1, 2, 3, 4, 5, 6, 7, 8}
-
-	defLvls := make([]int16, elements)
-	repLvls := make([]int16, elements)
-	defLvls[0] = 1
-
-	_, err = ccw.(*file.ByteArrayColumnChunkWriter).WriteBatch(data, defLvls, repLvls)
-	assert.NoError(t, err)
-	assert.NoError(t, ccw.Close())
-	assert.NoError(t, rgw.Close())
-	assert.NoError(t, writer.Close())
-	buf := sink.Finish()
-	defer buf.Release()
-
-	// read file back in
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.NoError(t, err)
-	defer reader.Close()
-	ccr, err := reader.RowGroup(0).Column(0)
-	assert.NoError(t, err)
-	const batchSize = 500
-
-	for ccr.HasNext() {
-		readData := make([]parquet.ByteArray, batchSize)
-		readdevLvls := make([]int16, batchSize)
-		readrepLvls := make([]int16, batchSize)
-		cr := ccr.(*file.ByteArrayColumnChunkReader)
-
-		total, read, err := cr.ReadBatch(batchSize, readData, readdevLvls, readrepLvls)
-		assert.NoError(t, err)
-		assert.Equal(t, int64(batchSize), total)
-		assert.Equal(t, 1, read)
-		assert.Equal(t, data[0], readData[0])
-		assert.NotNil(t, readData[0])
-	}
-}
-
-func TestRleBooleanEncodingFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	assert.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "rle_boolean_encoding.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	assert.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	assert.EqualValues(t, 68, rgr.NumRows())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-	brdr := rdr.(*file.BooleanColumnChunkReader)
-
-	values := make([]bool, 68)
-	defLvls, repLvls := make([]int16, 68), make([]int16, 68)
-	total, read, err := brdr.ReadBatch(68, values, defLvls, repLvls)
-	require.NoError(t, err)
-
-	assert.EqualValues(t, 68, total)
-	md, err := rgr.MetaData().ColumnChunk(0)
-	require.NoError(t, err)
-	stats, err := md.Statistics()
-	require.NoError(t, err)
-	assert.EqualValues(t, total-stats.NullCount(), read)
-
-	expected := []bool{
-		true, false, true, true, false, false,
-		true, true, true, false, false, true, true,
-		false, true, true, false, false, true, true,
-		false, true, true, false, false, true, true,
-		true, false, false, false, false, true, true,
-		false, true, true, false, false, true, true,
-		true, false, false, true, true, false, false,
-		true, true, true, false, true, true, false,
-		true, true, false, false, true, true, true,
-	}
-	expectedNulls := []int{2, 15, 23, 38, 48, 60}
-
-	expectedNullIdx := 0
-	for i, v := range defLvls {
-		if expectedNullIdx < len(expectedNulls) && i == expectedNulls[expectedNullIdx] {
-			assert.Zero(t, v)
-			expectedNullIdx++
-		} else {
-			assert.EqualValues(t, 1, v)
-		}
-	}
-
-	assert.Equal(t, expected, values[:len(expected)])
-}
-
-type mockBadReader struct {
-	cnt    int
-	reader *os.File
-}
-
-func (m *mockBadReader) Seek(offset int64, whence int) (int64, error) {
-	return m.reader.Seek(offset, whence)
-}
-
-func (m *mockBadReader) ReadAt(p []byte, off int64) (n int, err error) {
-	if m.cnt == 0 {
-		return 0, fmt.Errorf("mock error")
-	}
-	m.cnt--
-	return m.reader.ReadAt(p, off)
-}
-
-func TestBadReader(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	filePath := path.Join(dir, "byte_stream_split_extended.gzip.parquet")
-	f, err := os.Open(filePath)
-	assert.NoError(t, err)
-	defer f.Close()
-
-	reader := &mockBadReader{
-		cnt:    2,
-		reader: f,
-	}
-	r, err := file.NewParquetReader(reader, file.WithReadProps(&parquet.ReaderProperties{
-		BufferSize:            int64(1024),
-		BufferedStreamEnabled: true,
-	}))
-	assert.NoError(t, err)
-
-	fileReader, err := pqarrow.NewFileReader(r, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-	assert.NoError(t, err)
-
-	columnReader, err := fileReader.GetColumn(context.Background(), 0)
-	assert.NoError(t, err)
-
-	_, err = columnReader.NextBatch(1)
-	assert.ErrorContains(t, err, "mock error") // Expect an error to occur.
-}
-
-func TestByteStreamSplitEncodingFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "byte_stream_split_extended.gzip.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 200
-	nCols := 14
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	// Helper to unpack values from column of a specific type
-	getValues := func(rdr file.ColumnChunkReader, typ parquet.Type) any {
-		var (
-			vals  any
-			total int64
-			read  int
-			err   error
-		)
-
-		switch typ {
-		case parquet.Types.FixedLenByteArray:
-			r, ok := rdr.(*file.FixedLenByteArrayColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]parquet.FixedLenByteArray, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Float:
-			r, ok := rdr.(*file.Float32ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]float32, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Double:
-			r, ok := rdr.(*file.Float64ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]float64, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Int32:
-			r, ok := rdr.(*file.Int32ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]int32, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Int64:
-			r, ok := rdr.(*file.Int64ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]int64, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		default:
-			t.Fatalf("unrecognized parquet type: %s", typ)
-		}
-
-		require.NoError(t, err)
-		require.EqualValues(t, nRows, total)
-		require.EqualValues(t, nRows, read)
-
-		return vals
-	}
-
-	// Test conformance against Parquet reference
-	// Expected structure: https://github.com/apache/parquet-testing/blob/1bf4bd39df2135d132451c281754268f03dc1c0e/data/README.md?plain=1#L358
-	for i, tc := range []struct {
-		PhysicalType parquet.Type
-		LogicalType  schema.LogicalType
-	}{
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.Float16LogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Float,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Double,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Int32,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Int64,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.NewDecimalLogicalType(7, 3),
-		},
-	} {
-		t.Run(fmt.Sprintf("(Physical:%s/Logical:%s)", tc.PhysicalType, tc.LogicalType), func(t *testing.T) {
-			// Iterate through pairs of adjacent columns
-			colIdx := 2 * i
-
-			// Read Plain-encoded column
-			rdrPlain, err := rgr.Column(colIdx)
-			require.NoError(t, err)
-
-			// Read ByteStreamSplit-encoded column
-			rdrByteStreamSplit, err := rgr.Column(colIdx + 1)
-			require.NoError(t, err)
-
-			// Logical types match
-			require.True(t, rdrPlain.Descriptor().LogicalType().Equals(tc.LogicalType))
-			require.True(t, rdrByteStreamSplit.Descriptor().LogicalType().Equals(tc.LogicalType))
-
-			// Decoded values match
-			valuesPlain := getValues(rdrPlain, tc.PhysicalType)
-			valuesByteStreamSplit := getValues(rdrByteStreamSplit, tc.PhysicalType)
-			require.Equal(t, valuesPlain, valuesByteStreamSplit)
-		})
-	}
-}
-
-func TestDeltaBinaryPackedMultipleBatches(t *testing.T) {
-	size := 10
-	batchSize := size / 2 // write 2 batches
-
-	// Define the schema for the test data
-	fields := []arrow.Field{
-		{Name: "int64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-	}
-	schema := arrow.NewSchema(fields, nil)
-
-	// Create a record batch with the test data
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-
-	for i := 0; i < size; i++ {
-		b.Field(0).(*array.Int64Builder).Append(int64(i))
-	}
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	// Write the data to Parquet using the file writer
-	props := parquet.NewWriterProperties(
-		parquet.WithDictionaryDefault(false),
-		parquet.WithEncoding(parquet.Encodings.DeltaBinaryPacked))
-	writerProps := pqarrow.DefaultWriterProps()
-
-	var buf bytes.Buffer
-	pw, err := pqarrow.NewFileWriter(schema, &buf, props, writerProps)
-	require.NoError(t, err)
-	require.NoError(t, pw.Write(rec))
-	require.NoError(t, pw.Close())
-
-	// Read the data back from the Parquet file
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-	defer reader.Close()
-
-	pr, err := pqarrow.NewFileReader(reader, pqarrow.ArrowReadProperties{BatchSize: int64(batchSize)}, memory.DefaultAllocator)
-	require.NoError(t, err)
-
-	rr, err := pr.GetRecordReader(context.Background(), nil, nil)
-	require.NoError(t, err)
-
-	totalRows := 0
-	for rr.Next() {
-		rec := rr.Record()
-		for i := 0; i < int(rec.NumRows()); i++ {
-			col := rec.Column(0).(*array.Int64)
-
-			val := col.Value(i)
-			require.Equal(t, val, int64(totalRows+i))
-		}
-		totalRows += int(rec.NumRows())
-	}
-
-	require.Equalf(t, size, totalRows, "Expected %d rows, but got %d rows", size, totalRows)
-}
-
-// Test read file lz4_raw_compressed.parquet
-// Contents documented at https://github.com/apache/parquet-testing/commit/ddd898958803cb89b7156c6350584d1cda0fe8de
-func TestLZ4RawFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "lz4_raw_compressed.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 4
-	nCols := 3
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	rowsInt64, ok := rdr.(*file.Int64ColumnChunkReader)
-	require.True(t, ok)
-
-	valsInt64 := make([]int64, nRows)
-	total, read, err := rowsInt64.ReadBatch(int64(nRows), valsInt64, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsInt64 := []int64{
-		1593604800,
-		1593604800,
-		1593604801,
-		1593604801,
-	}
-	require.Equal(t, expectedValsInt64, valsInt64)
-
-	rdr, err = rgr.Column(1)
-	require.NoError(t, err)
-
-	rowsByteArray, ok := rdr.(*file.ByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	valsByteArray := make([]parquet.ByteArray, nRows)
-	total, read, err = rowsByteArray.ReadBatch(int64(nRows), valsByteArray, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsByteArray := []parquet.ByteArray{
-		[]byte("abc"),
-		[]byte("def"),
-		[]byte("abc"),
-		[]byte("def"),
-	}
-	require.Equal(t, expectedValsByteArray, valsByteArray)
-
-	rdr, err = rgr.Column(2)
-	require.NoError(t, err)
-
-	rowsFloat64, ok := rdr.(*file.Float64ColumnChunkReader)
-	require.True(t, ok)
-
-	valsFloat64 := make([]float64, nRows)
-	total, read, err = rowsFloat64.ReadBatch(int64(nRows), valsFloat64, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsFloat64 := []float64{
-		42.0,
-		7.7,
-		42.125,
-		7.7,
-	}
-	require.Equal(t, expectedValsFloat64, valsFloat64)
-}
-
-// Test read file lz4_raw_compressed_larger.parquet
-// Contents documented at https://github.com/apache/parquet-testing/commit/ddd898958803cb89b7156c6350584d1cda0fe8de
-func TestLZ4RawLargerFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "lz4_raw_compressed_larger.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 10000
-	nCols := 1
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	rows, ok := rdr.(*file.ByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	vals := make([]parquet.ByteArray, nRows)
-	total, read, err := rows.ReadBatch(int64(nRows), vals, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsHead := []parquet.ByteArray{
-		[]byte("c7ce6bef-d5b0-4863-b199-8ea8c7fb117b"),
-		[]byte("e8fb9197-cb9f-4118-b67f-fbfa65f61843"),
-		[]byte("885136e1-0aa1-4fdb-8847-63d87b07c205"),
-		[]byte("ce7b2019-8ebe-4906-a74d-0afa2409e5df"),
-		[]byte("a9ee2527-821b-4b71-a926-03f73c3fc8b7"),
-	}
-	require.Equal(t, expectedValsHead, vals[:len(expectedValsHead)])
-}
diff --git a/go/parquet/file/file_writer.go b/go/parquet/file/file_writer.go
deleted file mode 100644
index 6fb64f3b8c315..0000000000000
--- a/go/parquet/file/file_writer.go
+++ /dev/null
@@ -1,304 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// Writer is the primary interface for writing a parquet file
-type Writer struct {
-	sink           utils.WriteCloserTell
-	open           bool
-	footerFlushed  bool
-	props          *parquet.WriterProperties
-	rowGroups      int
-	nrows          int
-	metadata       metadata.FileMetaDataBuilder
-	fileEncryptor  encryption.FileEncryptor
-	rowGroupWriter *rowGroupWriter
-
-	// The Schema of this writer
-	Schema *schema.Schema
-}
-
-type writerConfig struct {
-	props            *parquet.WriterProperties
-	keyValueMetadata metadata.KeyValueMetadata
-}
-
-type WriteOption func(*writerConfig)
-
-func WithWriterProps(props *parquet.WriterProperties) WriteOption {
-	return func(c *writerConfig) {
-		c.props = props
-	}
-}
-
-func WithWriteMetadata(meta metadata.KeyValueMetadata) WriteOption {
-	return func(c *writerConfig) {
-		c.keyValueMetadata = meta
-	}
-}
-
-// NewParquetWriter returns a Writer that writes to the provided WriteSeeker with the given schema.
-//
-// If props is nil, then the default Writer Properties will be used. If the key value metadata is not nil,
-// it will be added to the file.
-func NewParquetWriter(w io.Writer, sc *schema.GroupNode, opts ...WriteOption) *Writer {
-	config := &writerConfig{}
-	for _, o := range opts {
-		o(config)
-	}
-	if config.props == nil {
-		config.props = parquet.NewWriterProperties()
-	}
-
-	fileSchema := schema.NewSchema(sc)
-	fw := &Writer{
-		props:  config.props,
-		sink:   &utils.TellWrapper{Writer: w},
-		open:   true,
-		Schema: fileSchema,
-	}
-
-	fw.metadata = *metadata.NewFileMetadataBuilder(fw.Schema, fw.props, config.keyValueMetadata)
-	fw.startFile()
-	return fw
-}
-
-// NumColumns returns the number of columns to write as defined by the schema.
-func (fw *Writer) NumColumns() int { return fw.Schema.NumColumns() }
-
-// NumRowGroups returns the current number of row groups that will be written for this file.
-func (fw *Writer) NumRowGroups() int { return fw.rowGroups }
-
-// NumRows returns the current number of rows that have be written
-func (fw *Writer) NumRows() int { return fw.nrows }
-
-// Properties returns the writer properties that are in use for this file.
-func (fw *Writer) Properties() *parquet.WriterProperties { return fw.props }
-
-// AppendBufferedRowGroup appends a rowgroup to the file and returns a writer
-// that buffers the row group in memory allowing writing multiple columns
-// at once to the row group. Data is not flushed out until the row group
-// is closed.
-//
-// When calling Close, all columns must have the same number of rows written.
-func (fw *Writer) AppendBufferedRowGroup() BufferedRowGroupWriter {
-	return fw.appendRowGroup(true)
-}
-
-// AppendRowGroup appends a row group to the file and returns a writer
-// that writes columns to the row group in serial via calling NextColumn.
-//
-// When calling NextColumn, the same number of rows need to have been written
-// to each column before moving on. Otherwise the rowgroup writer will panic.
-func (fw *Writer) AppendRowGroup() SerialRowGroupWriter {
-	return fw.appendRowGroup(false)
-}
-
-func (fw *Writer) appendRowGroup(buffered bool) *rowGroupWriter {
-	if fw.rowGroupWriter != nil {
-		fw.nrows += fw.rowGroupWriter.nrows
-		fw.rowGroupWriter.Close()
-	}
-	fw.rowGroups++
-	fw.footerFlushed = false
-	rgMeta := fw.metadata.AppendRowGroup()
-	fw.rowGroupWriter = newRowGroupWriter(fw.sink, rgMeta, int16(fw.rowGroups)-1, fw.props, buffered, fw.fileEncryptor)
-	return fw.rowGroupWriter
-}
-
-func (fw *Writer) startFile() {
-	encryptionProps := fw.props.FileEncryptionProperties()
-	magic := magicBytes
-	if encryptionProps != nil {
-		// check that all columns in columnEncryptionProperties exist in the schema
-		encryptedCols := encryptionProps.EncryptedColumns()
-		// if columnEncryptionProperties is empty, every column in the file schema will be encrypted with the footer key
-		if len(encryptedCols) != 0 {
-			colPaths := make(map[string]bool)
-			for i := 0; i < fw.Schema.NumColumns(); i++ {
-				colPaths[fw.Schema.Column(i).Path()] = true
-			}
-			for k := range encryptedCols {
-				if _, ok := colPaths[k]; !ok {
-					panic("encrypted column " + k + " not found in file schema")
-				}
-			}
-		}
-
-		fw.fileEncryptor = encryption.NewFileEncryptor(encryptionProps, fw.props.Allocator())
-		if encryptionProps.EncryptedFooter() {
-			magic = magicEBytes
-		}
-	}
-	n, err := fw.sink.Write(magic)
-	if n != 4 || err != nil {
-		panic("failed to write magic number")
-	}
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (fw *Writer) AppendKeyValueMetadata(key string, value string) error {
-	return fw.metadata.AppendKeyValueMetadata(key, value)
-}
-
-// Close closes any open row group writer and writes the file footer. Subsequent
-// calls to close will have no effect.
-func (fw *Writer) Close() (err error) {
-	if fw.open {
-		// if any functions here panic, we set open to be false so
-		// that this doesn't get called again
-		fw.open = false
-
-		defer func() {
-			fw.closeEncryptor()
-			ierr := fw.sink.Close()
-			if err != nil {
-				if ierr != nil {
-					err = fmt.Errorf("error on close:%w, %s", err, ierr)
-				}
-				return
-			}
-
-			err = ierr
-		}()
-
-		err = fw.FlushWithFooter()
-		fw.metadata.Clear()
-	}
-	return nil
-}
-
-// FlushWithFooter closes any open row group writer and writes the file footer, leaving
-// the writer open for additional row groups.  Additional footers written by later
-// calls to FlushWithFooter or Close will be cumulative, so that only the last footer
-// written need ever be read by a reader.
-func (fw *Writer) FlushWithFooter() error {
-	if !fw.footerFlushed {
-		if fw.rowGroupWriter != nil {
-			fw.nrows += fw.rowGroupWriter.nrows
-			fw.rowGroupWriter.Close()
-		}
-		fw.rowGroupWriter = nil
-
-		fileMetadata, err := fw.metadata.Snapshot()
-		if err != nil {
-			return err
-		}
-
-		fileEncryptProps := fw.props.FileEncryptionProperties()
-		if fileEncryptProps == nil { // non encrypted file
-			if _, err = writeFileMetadata(fileMetadata, fw.sink); err != nil {
-				return err
-			}
-		} else {
-			if err := fw.flushEncryptedFile(fileMetadata, fileEncryptProps); err != nil {
-				return err
-			}
-		}
-
-		fw.footerFlushed = true
-	}
-	return nil
-}
-
-func (fw *Writer) flushEncryptedFile(fileMetadata *metadata.FileMetaData, props *parquet.FileEncryptionProperties) error {
-	// encrypted file with encrypted footer
-	if props.EncryptedFooter() {
-		footerLen := int64(0)
-
-		cryptoMetadata := fw.metadata.GetFileCryptoMetaData()
-		n, err := writeFileCryptoMetadata(cryptoMetadata, fw.sink)
-		if err != nil {
-			return err
-		}
-
-		footerLen += n
-		footerEncryptor := fw.fileEncryptor.GetFooterEncryptor()
-		n, err = writeEncryptedFileMetadata(fileMetadata, fw.sink, footerEncryptor, true)
-		if err != nil {
-			return err
-		}
-		footerLen += n
-
-		if err = binary.Write(fw.sink, binary.LittleEndian, uint32(footerLen)); err != nil {
-			return err
-		}
-		if _, err = fw.sink.Write(magicEBytes); err != nil {
-			return err
-		}
-	} else {
-		footerSigningEncryptor := fw.fileEncryptor.GetFooterSigningEncryptor()
-		if _, err := writeEncryptedFileMetadata(fileMetadata, fw.sink, footerSigningEncryptor, false); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (fw *Writer) closeEncryptor() {
-	if fw.fileEncryptor != nil {
-		fw.fileEncryptor.WipeOutEncryptionKeys()
-	}
-}
-
-func writeFileMetadata(fileMetadata *metadata.FileMetaData, w io.Writer) (n int64, err error) {
-	n, err = fileMetadata.WriteTo(w, nil)
-	if err != nil {
-		return
-	}
-
-	if err = binary.Write(w, binary.LittleEndian, uint32(n)); err != nil {
-		return
-	}
-	if _, err = w.Write(magicBytes); err != nil {
-		return
-	}
-	return n + int64(4+len(magicBytes)), nil
-}
-
-func writeEncryptedFileMetadata(fileMetadata *metadata.FileMetaData, w io.Writer, encryptor encryption.Encryptor, encryptFooter bool) (n int64, err error) {
-	n, err = fileMetadata.WriteTo(w, encryptor)
-	if encryptFooter {
-		return
-	}
-	if err != nil {
-		return
-	}
-	if err = binary.Write(w, binary.LittleEndian, uint32(n)); err != nil {
-		return
-	}
-	if _, err = w.Write(magicBytes); err != nil {
-		return
-	}
-	return n + int64(4+len(magicBytes)), nil
-}
-
-func writeFileCryptoMetadata(crypto *metadata.FileCryptoMetadata, w io.Writer) (int64, error) {
-	return crypto.WriteTo(w)
-}
diff --git a/go/parquet/file/file_writer_test.go b/go/parquet/file/file_writer_test.go
deleted file mode 100644
index 12ac93d1ef4b2..0000000000000
--- a/go/parquet/file/file_writer_test.go
+++ /dev/null
@@ -1,598 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type SerializeTestSuite struct {
-	testutils.PrimitiveTypedTest
-	suite.Suite
-
-	numCols      int
-	numRowGroups int
-	rowsPerRG    int
-	rowsPerBatch int
-}
-
-func (t *SerializeTestSuite) SetupTest() {
-	t.numCols = 4
-	t.numRowGroups = 4
-	t.rowsPerRG = 50
-	t.rowsPerBatch = 10
-	t.SetupSchema(parquet.Repetitions.Optional, t.numCols)
-}
-
-func (t *SerializeTestSuite) fileSerializeTest(codec compress.Compression, expected compress.Compression) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	opts := make([]parquet.WriterProperty, 0)
-	for i := 0; i < t.numCols; i++ {
-		opts = append(opts, parquet.WithCompressionFor(t.Schema.Column(i).Name(), codec))
-	}
-
-	props := parquet.NewWriterProperties(opts...)
-
-	writer := file.NewParquetWriter(sink, t.Schema.Root(), file.WithWriterProps(props))
-	t.GenerateData(int64(t.rowsPerRG))
-
-	t.serializeGeneratedData(writer)
-	writer.FlushWithFooter()
-
-	t.validateSerializedData(writer, sink, expected)
-
-	t.serializeGeneratedData(writer)
-	writer.Close()
-
-	t.numRowGroups *= 2
-	t.validateSerializedData(writer, sink, expected)
-}
-
-func (t *SerializeTestSuite) serializeGeneratedData(writer *file.Writer) {
-	for rg := 0; rg < t.numRowGroups/2; rg++ {
-		rgw := writer.AppendRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := rgw.NextColumn()
-			t.WriteBatchValues(cw, t.DefLevels, nil)
-			cw.Close()
-			// ensure column() api which is specific to bufferedrowgroups cannot be called
-			t.Panics(func() { rgw.(file.BufferedRowGroupWriter).Column(col) })
-		}
-		rgw.Close()
-	}
-
-	// write half buffered row groups
-	for rg := 0; rg < t.numRowGroups/2; rg++ {
-		rgw := writer.AppendBufferedRowGroup()
-		for batch := 0; batch < (t.rowsPerRG / t.rowsPerBatch); batch++ {
-			for col := 0; col < t.numCols; col++ {
-				cw, _ := rgw.Column(col)
-				offset := batch * t.rowsPerBatch
-				t.WriteBatchSubset(t.rowsPerBatch, offset, cw, t.DefLevels[offset:t.rowsPerBatch+offset], nil)
-				// Ensure NextColumn api which is specific to RowGroup cannot be called
-				t.Panics(func() { rgw.(file.SerialRowGroupWriter).NextColumn() })
-			}
-		}
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := rgw.Column(col)
-			cw.Close()
-		}
-		rgw.Close()
-	}
-}
-
-func (t *SerializeTestSuite) validateSerializedData(writer *file.Writer, sink *encoding.BufferWriter, expected compress.Compression) {
-	nrows := t.numRowGroups * t.rowsPerRG
-	t.EqualValues(nrows, writer.NumRows())
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	t.NoError(err)
-	t.Equal(t.numCols, reader.MetaData().Schema.NumColumns())
-	t.Equal(t.numRowGroups, reader.NumRowGroups())
-	t.EqualValues(nrows, reader.NumRows())
-
-	for rg := 0; rg < t.numRowGroups; rg++ {
-		rgr := reader.RowGroup(rg)
-		t.Equal(t.numCols, rgr.NumColumns())
-		t.EqualValues(t.rowsPerRG, rgr.NumRows())
-		chunk, _ := rgr.MetaData().ColumnChunk(0)
-		t.Equal(expected, chunk.Compression())
-
-		valuesRead := int64(0)
-
-		for i := 0; i < t.numCols; i++ {
-			chunk, _ := rgr.MetaData().ColumnChunk(i)
-			t.False(chunk.HasIndexPage())
-			t.DefLevelsOut = make([]int16, t.rowsPerRG)
-			t.RepLevelsOut = make([]int16, t.rowsPerRG)
-			colReader, err := rgr.Column(i)
-			t.NoError(err)
-			t.SetupValuesOut(int64(t.rowsPerRG))
-			valuesRead = t.ReadBatch(colReader, int64(t.rowsPerRG), 0, t.DefLevelsOut, t.RepLevelsOut)
-			t.EqualValues(t.rowsPerRG, valuesRead)
-			t.Equal(t.Values, t.ValuesOut)
-			t.Equal(t.DefLevels, t.DefLevelsOut)
-		}
-	}
-}
-
-func (t *SerializeTestSuite) unequalNumRows(maxRows int64, rowsPerCol []int64) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	props := parquet.NewWriterProperties()
-	writer := file.NewParquetWriter(sink, t.Schema.Root(), file.WithWriterProps(props))
-	defer writer.Close()
-
-	rgw := writer.AppendRowGroup()
-	t.GenerateData(maxRows)
-	for col := 0; col < t.numCols; col++ {
-		cw, _ := rgw.NextColumn()
-		t.WriteBatchSubset(int(rowsPerCol[col]), 0, cw, t.DefLevels[:rowsPerCol[col]], nil)
-		cw.Close()
-	}
-	err := rgw.Close()
-	t.Error(err)
-	t.ErrorContains(err, "row mismatch for unbuffered row group")
-}
-
-func (t *SerializeTestSuite) unequalNumRowsBuffered(maxRows int64, rowsPerCol []int64) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-	defer writer.Close()
-
-	rgw := writer.AppendBufferedRowGroup()
-	t.GenerateData(maxRows)
-	for col := 0; col < t.numCols; col++ {
-		cw, _ := rgw.Column(col)
-		t.WriteBatchSubset(int(rowsPerCol[col]), 0, cw, t.DefLevels[:rowsPerCol[col]], nil)
-		cw.Close()
-	}
-	err := rgw.Close()
-	t.Error(err)
-	t.ErrorContains(err, "row mismatch for buffered row group")
-}
-
-func (t *SerializeTestSuite) TestZeroRows() {
-	t.NotPanics(func() {
-		sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-		writer := file.NewParquetWriter(sink, t.Schema.Root())
-		defer writer.Close()
-
-		srgw := writer.AppendRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := srgw.NextColumn()
-			cw.Close()
-		}
-		srgw.Close()
-
-		brgw := writer.AppendBufferedRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := brgw.Column(col)
-			cw.Close()
-		}
-		brgw.Close()
-	})
-}
-
-func (t *SerializeTestSuite) TestTooManyColumns() {
-	t.SetupSchema(parquet.Repetitions.Optional, 1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-	rgw := writer.AppendRowGroup()
-
-	rgw.NextColumn()                      // first column
-	t.Panics(func() { rgw.NextColumn() }) // only one column!
-}
-
-func (t *SerializeTestSuite) TestRepeatedTooFewRows() {
-	// optional and repeated, so definition and repetition levels
-	t.SetupSchema(parquet.Repetitions.Repeated, 1)
-	const nrows = 100
-	t.GenerateData(nrows)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-
-	rgw := writer.AppendRowGroup()
-	t.RepLevels = make([]int16, nrows)
-	for idx := range t.RepLevels {
-		t.RepLevels[idx] = 0
-	}
-
-	cw, _ := rgw.NextColumn()
-	t.WriteBatchValues(cw, t.DefLevels, t.RepLevels)
-	cw.Close()
-
-	t.RepLevels[3] = 1 // this makes it so that values 2 and 3 are a single row
-	// as a result there's one too few rows in the result
-
-	t.Panics(func() {
-		cw, _ = rgw.NextColumn()
-		t.WriteBatchValues(cw, t.DefLevels, t.RepLevels)
-		cw.Close()
-	})
-}
-
-func (t *SerializeTestSuite) TestTooFewRows() {
-	rowsPerCol := []int64{100, 100, 100, 99}
-	t.NotPanics(func() { t.unequalNumRows(100, rowsPerCol) })
-	t.NotPanics(func() { t.unequalNumRowsBuffered(100, rowsPerCol) })
-}
-
-func (t *SerializeTestSuite) TestTooManyRows() {
-	rowsPerCol := []int64{100, 100, 100, 101}
-	t.NotPanics(func() { t.unequalNumRows(101, rowsPerCol) })
-	t.NotPanics(func() { t.unequalNumRowsBuffered(101, rowsPerCol) })
-}
-
-func (t *SerializeTestSuite) TestSmallFile() {
-	codecs := []compress.Compression{
-		compress.Codecs.Uncompressed,
-		compress.Codecs.Snappy,
-		compress.Codecs.Brotli,
-		compress.Codecs.Gzip,
-		compress.Codecs.Zstd,
-		compress.Codecs.Lz4Raw,
-		// compress.Codecs.Lzo,
-	}
-	for _, c := range codecs {
-		t.Run(c.String(), func() {
-			t.NotPanics(func() { t.fileSerializeTest(c, c) })
-		})
-	}
-}
-
-func TestBufferedDisabledDictionary(t *testing.T) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	fields := schema.FieldList{schema.NewInt32Node("col", parquet.Repetitions.Required, 1)}
-	sc, _ := schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, 0)
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(props))
-	rgw := writer.AppendBufferedRowGroup()
-	cwr, _ := rgw.Column(0)
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-	cw.WriteBatch([]int32{1}, nil, nil)
-	rgw.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	rgReader := reader.RowGroup(0)
-	assert.EqualValues(t, 1, rgReader.NumRows())
-	chunk, _ := rgReader.MetaData().ColumnChunk(0)
-	assert.False(t, chunk.HasDictionaryPage())
-}
-
-func TestBufferedMultiPageDisabledDictionary(t *testing.T) {
-	const (
-		valueCount = 10000
-		pageSize   = 16384
-	)
-	var (
-		sink  = encoding.NewBufferWriter(0, memory.DefaultAllocator)
-		props = parquet.NewWriterProperties(parquet.WithDictionaryDefault(false), parquet.WithDataPageSize(pageSize))
-		sc, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-			schema.NewInt32Node("col", parquet.Repetitions.Required, -1),
-		}, -1)
-	)
-
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(props))
-	rgWriter := writer.AppendBufferedRowGroup()
-	cwr, _ := rgWriter.Column(0)
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-	valuesIn := make([]int32, 0, valueCount)
-	for i := int32(0); i < valueCount; i++ {
-		valuesIn = append(valuesIn, (i%100)+1)
-	}
-	cw.WriteBatch(valuesIn, nil, nil)
-	rgWriter.Close()
-	writer.Close()
-	buffer := sink.Finish()
-	defer buffer.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	valuesOut := make([]int32, valueCount)
-
-	for r := 0; r < reader.NumRowGroups(); r++ {
-		rgr := reader.RowGroup(r)
-		assert.EqualValues(t, 1, rgr.NumColumns())
-		assert.EqualValues(t, valueCount, rgr.NumRows())
-
-		var totalRead int64
-		col, err := rgr.Column(0)
-		assert.NoError(t, err)
-		colReader := col.(*file.Int32ColumnChunkReader)
-		for colReader.HasNext() {
-			total, _, _ := colReader.ReadBatch(valueCount-totalRead, valuesOut[totalRead:], nil, nil)
-			totalRead += total
-		}
-		assert.EqualValues(t, valueCount, totalRead)
-		assert.Equal(t, valuesIn, valuesOut)
-	}
-}
-
-func TestAllNulls(t *testing.T) {
-	sc, _ := schema.NewGroupNode("root", parquet.Repetitions.Required, schema.FieldList{
-		schema.NewInt32Node("nulls", parquet.Repetitions.Optional, -1),
-	}, -1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, sc)
-	rgw := writer.AppendRowGroup()
-	cwr, _ := rgw.NextColumn()
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-
-	var (
-		values    [3]int32
-		defLevels = [...]int16{0, 0, 0}
-	)
-
-	cw.WriteBatch(values[:], defLevels[:], nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	props.BufferedStreamEnabled = true
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()), file.WithReadProps(props))
-	assert.NoError(t, err)
-
-	rgr := reader.RowGroup(0)
-	col, err := rgr.Column(0)
-	assert.NoError(t, err)
-	cr := col.(*file.Int32ColumnChunkReader)
-
-	defLevels[0] = -1
-	defLevels[1] = -1
-	defLevels[2] = -1
-	valRead, read, _ := cr.ReadBatch(3, values[:], defLevels[:], nil)
-	assert.EqualValues(t, 3, valRead)
-	assert.EqualValues(t, 0, read)
-	assert.Equal(t, []int16{0, 0, 0}, defLevels[:])
-}
-
-func TestKeyValueMetadata(t *testing.T) {
-	fields := schema.FieldList{
-		schema.NewInt32Node("unused", parquet.Repetitions.Optional, -1),
-	}
-	sc, _ := schema.NewGroupNode("root", parquet.Repetitions.Required, fields, -1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, sc)
-
-	testKey := "testKey"
-	testValue := "testValue"
-	writer.AppendKeyValueMetadata(testKey, testValue)
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	props.BufferedStreamEnabled = true
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()), file.WithReadProps(props))
-	assert.NoError(t, err)
-
-	metadata := reader.MetaData()
-	got := metadata.KeyValueMetadata().FindValue(testKey)
-	require.NotNil(t, got)
-	assert.Equal(t, testValue, *got)
-}
-
-func createSerializeTestSuite(typ reflect.Type) suite.TestingSuite {
-	return &SerializeTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}
-}
-
-func TestSerialize(t *testing.T) {
-	t.Parallel()
-	types := []struct {
-		typ reflect.Type
-	}{
-		{reflect.TypeOf(true)},
-		{reflect.TypeOf(int32(0))},
-		{reflect.TypeOf(int64(0))},
-		{reflect.TypeOf(float32(0))},
-		{reflect.TypeOf(float64(0))},
-		{reflect.TypeOf(parquet.Int96{})},
-		{reflect.TypeOf(parquet.ByteArray{})},
-	}
-	for _, tt := range types {
-		tt := tt
-		t.Run(tt.typ.String(), func(t *testing.T) {
-			t.Parallel()
-			suite.Run(t, createSerializeTestSuite(tt.typ))
-		})
-	}
-}
-
-type errCloseWriter struct {
-	sink *encoding.BufferWriter
-}
-
-func (c *errCloseWriter) Write(p []byte) (n int, err error) {
-	return c.sink.Write(p)
-}
-func (c *errCloseWriter) Close() error {
-	return fmt.Errorf("error during close")
-}
-func (c *errCloseWriter) Bytes() []byte {
-	return c.sink.Bytes()
-}
-
-func TestCloseError(t *testing.T) {
-	fields := schema.FieldList{schema.NewInt32Node("col", parquet.Repetitions.Required, 1)}
-	sc, _ := schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, 0)
-	sink := &errCloseWriter{sink: encoding.NewBufferWriter(0, memory.DefaultAllocator)}
-	writer := file.NewParquetWriter(sink, sc)
-	assert.Error(t, writer.Close())
-}
-
-func TestBatchedByteStreamSplitFileRoundtrip(t *testing.T) {
-	input := []parquet.FixedLenByteArray{
-		{1, 2},
-		{3, 4},
-		{5, 6},
-		{7, 8},
-	}
-
-	size := len(input)
-	chunk := size / 2
-
-	props := parquet.NewWriterProperties(
-		parquet.WithEncoding(parquet.Encodings.ByteStreamSplit),
-		parquet.WithDictionaryDefault(false),
-		parquet.WithBatchSize(int64(chunk)),
-		parquet.WithDataPageSize(int64(size)*2),
-	)
-
-	field, err := schema.NewPrimitiveNodeLogical("f16", parquet.Repetitions.Required, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, 1)
-	require.NoError(t, err)
-
-	schema, err := schema.NewGroupNode("test", parquet.Repetitions.Required, schema.FieldList{field}, 0)
-	require.NoError(t, err)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, schema, file.WithWriterProps(props))
-
-	rgw := writer.AppendRowGroup()
-	cw, err := rgw.NextColumn()
-	require.NoError(t, err)
-
-	f16ColumnWriter, ok := cw.(*file.FixedLenByteArrayColumnChunkWriter)
-	require.True(t, ok)
-
-	nVals, err := f16ColumnWriter.WriteBatch(input[:chunk], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, nVals)
-
-	nVals, err = f16ColumnWriter.WriteBatch(input[chunk:], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, nVals)
-
-	require.NoError(t, cw.Close())
-	require.NoError(t, rgw.Close())
-	require.NoError(t, writer.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	require.Equal(t, 1, rdr.NumRowGroups())
-	require.EqualValues(t, size, rdr.NumRows())
-
-	rgr := rdr.RowGroup(0)
-	cr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	f16ColumnReader, ok := cr.(*file.FixedLenByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	output := make([]parquet.FixedLenByteArray, size)
-
-	total, valuesRead, err := f16ColumnReader.ReadBatch(int64(chunk), output[:chunk], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, total)
-	require.EqualValues(t, chunk, valuesRead)
-
-	total, valuesRead, err = f16ColumnReader.ReadBatch(int64(chunk), output[chunk:], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, total)
-	require.EqualValues(t, chunk, valuesRead)
-
-	require.Equal(t, input, output)
-
-	require.NoError(t, rdr.Close())
-}
-
-func TestLZ4RawFileRoundtrip(t *testing.T) {
-	input := []int64{
-		-1, 0, 1, 2, 3, 4, 5, 123456789, -123456789,
-	}
-
-	size := len(input)
-
-	field, err := schema.NewPrimitiveNodeLogical("int64", parquet.Repetitions.Required, nil, parquet.Types.Int64, 0, 1)
-	require.NoError(t, err)
-
-	schema, err := schema.NewGroupNode("test", parquet.Repetitions.Required, schema.FieldList{field}, 0)
-	require.NoError(t, err)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, schema, file.WithWriterProps(parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Lz4Raw))))
-
-	rgw := writer.AppendRowGroup()
-	cw, err := rgw.NextColumn()
-	require.NoError(t, err)
-
-	i64ColumnWriter, ok := cw.(*file.Int64ColumnChunkWriter)
-	require.True(t, ok)
-
-	nVals, err := i64ColumnWriter.WriteBatch(input, nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, size, nVals)
-
-	require.NoError(t, cw.Close())
-	require.NoError(t, rgw.Close())
-	require.NoError(t, writer.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	require.Equal(t, 1, rdr.NumRowGroups())
-	require.EqualValues(t, size, rdr.NumRows())
-
-	rgr := rdr.RowGroup(0)
-	cr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	i64ColumnReader, ok := cr.(*file.Int64ColumnChunkReader)
-	require.True(t, ok)
-
-	output := make([]int64, size)
-
-	total, valuesRead, err := i64ColumnReader.ReadBatch(int64(size), output, nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, size, total)
-	require.EqualValues(t, size, valuesRead)
-
-	require.Equal(t, input, output)
-
-	require.NoError(t, rdr.Close())
-}
diff --git a/go/parquet/file/level_conversion.go b/go/parquet/file/level_conversion.go
deleted file mode 100755
index 29aa613de0db6..0000000000000
--- a/go/parquet/file/level_conversion.go
+++ /dev/null
@@ -1,267 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"math"
-	"math/bits"
-	"unsafe"
-
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-type LevelInfo struct {
-	// How many slots an undefined but present (i.e. null) element in
-	// parquet consumes when decoding to Arrow.
-	// "Slot" is used in the same context as the Arrow specification
-	// (i.e. a value holder).
-	// This is only ever >1 for descendents of FixedSizeList.
-	NullSlotUsage int32
-	// The definition level at which the value for the field
-	// is considered not null (definition levels greater than
-	// or equal to this value indicate a not-null
-	// value for the field). For list fields definition levels
-	// greater than or equal to this field indicate a present,
-	// possibly null, child value.
-	DefLevel int16
-	// The repetition level corresponding to this element
-	// or the closest repeated ancestor.  Any repetition
-	// level less than this indicates either a new list OR
-	// an empty list (which is determined in conjunction
-	// with definition levels).
-	RepLevel int16
-	// The definition level indicating the level at which the closest
-	// repeated ancestor is not empty.  This is used to discriminate
-	// between a value less than |def_level| being null or excluded entirely.
-	// For instance if we have an arrow schema like:
-	// list(struct(f0: int)).  Then then there are the following
-	// definition levels:
-	//   0 = null list
-	//   1 = present but empty list.
-	//   2 = a null value in the list
-	//   3 = a non null struct but null integer.
-	//   4 = a present integer.
-	// When reconstructing, the struct and integer arrays'
-	// repeated_ancestor_def_level would be 2.  Any
-	// def_level < 2 indicates that there isn't a corresponding
-	// child value in the list.
-	// i.e. [null, [], [null], [{f0: null}], [{f0: 1}]]
-	// has the def levels [0, 1, 2, 3, 4].  The actual
-	// struct array is only of length 3: [not-set, set, set] and
-	// the int array is also of length 3: [N/A, null, 1].
-	RepeatedAncestorDefLevel int16
-}
-
-func (l *LevelInfo) Equal(rhs *LevelInfo) bool {
-	return l.NullSlotUsage == rhs.NullSlotUsage &&
-		l.DefLevel == rhs.DefLevel &&
-		l.RepLevel == rhs.RepLevel &&
-		l.RepeatedAncestorDefLevel == rhs.RepeatedAncestorDefLevel
-}
-
-func (l *LevelInfo) HasNullableValues() bool {
-	return l.RepeatedAncestorDefLevel < l.DefLevel
-}
-
-func (l *LevelInfo) IncrementOptional() {
-	l.DefLevel++
-}
-
-func (l *LevelInfo) IncrementRepeated() int16 {
-	lastRepAncestor := l.RepeatedAncestorDefLevel
-	// Repeated fields add both a repetition and definition level. This is used
-	// to distinguish between an empty list and a list with an item in it.
-	l.RepLevel++
-	l.DefLevel++
-
-	// For levels >= repeated_ancestor_def_level it indicates the list was
-	// non-null and had at least one element.  This is important
-	// for later decoding because we need to add a slot for these
-	// values.  for levels < current_def_level no slots are added
-	// to arrays.
-	l.RepeatedAncestorDefLevel = l.DefLevel
-	return lastRepAncestor
-}
-
-func (l *LevelInfo) Increment(n schema.Node) {
-	switch n.RepetitionType() {
-	case parquet.Repetitions.Repeated:
-		l.IncrementRepeated()
-	case parquet.Repetitions.Optional:
-		l.IncrementOptional()
-	}
-}
-
-// Input/Output structure for reconstructed validity bitmaps.
-type ValidityBitmapInputOutput struct {
-	// Input only.
-	// The maximum number of values_read expected (actual
-	// values read must be less than or equal to this value).
-	// If this number is exceeded methods will throw a
-	// ParquetException. Exceeding this limit indicates
-	// either a corrupt or incorrectly written file.
-	ReadUpperBound int64
-	// Output only. The number of values added to the encountered
-	// (this is logically the count of the number of elements
-	// for an Arrow array).
-	Read int64
-	// Input/Output. The number of nulls encountered.
-	NullCount int64
-	// Output only. The validity bitmap to populate. May be be null only
-	// for DefRepLevelsToListInfo (if all that is needed is list offsets).
-	ValidBits []byte
-	// Input only, offset into valid_bits to start at.
-	ValidBitsOffset int64
-}
-
-// create a bitmap out of the definition Levels and return the number of non-null values
-func defLevelsBatchToBitmap(defLevels []int16, remainingUpperBound int64, info LevelInfo, wr utils.BitmapWriter, hasRepeatedParent bool) (count uint64) {
-	const maxbatch = 8 * int(unsafe.Sizeof(uint64(0)))
-
-	if !hasRepeatedParent && int64(len(defLevels)) > remainingUpperBound {
-		panic("values read exceed upper bound")
-	}
-
-	var batch []int16
-	for len(defLevels) > 0 {
-		batchSize := shared_utils.Min(maxbatch, len(defLevels))
-		batch, defLevels = defLevels[:batchSize], defLevels[batchSize:]
-		definedBitmap := bmi.GreaterThanBitmap(batch, info.DefLevel-1)
-
-		if hasRepeatedParent {
-			// Greater than level_info.repeated_ancestor_def_level - 1 implies >= the
-			// repeated_ancestor_def_level
-			presentBitmap := bmi.GreaterThanBitmap(batch, info.RepeatedAncestorDefLevel-1)
-			selectedBits := bmi.ExtractBits(definedBitmap, presentBitmap)
-			selectedCount := int64(bits.OnesCount64(presentBitmap))
-			if selectedCount > remainingUpperBound {
-				panic("values read exceeded upper bound")
-			}
-			wr.AppendWord(selectedBits, selectedCount)
-			count += uint64(bits.OnesCount64(selectedBits))
-			continue
-		}
-
-		wr.AppendWord(definedBitmap, int64(len(batch)))
-		count += uint64(bits.OnesCount64(definedBitmap))
-	}
-	return
-}
-
-// create a bitmap out of the definition Levels
-func defLevelsToBitmapInternal(defLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput, hasRepeatedParent bool) {
-	wr := utils.NewFirstTimeBitmapWriter(out.ValidBits, out.ValidBitsOffset, int64(out.ReadUpperBound))
-	defer wr.Finish()
-	setCount := defLevelsBatchToBitmap(defLevels, out.ReadUpperBound, info, wr, hasRepeatedParent)
-	out.Read = int64(wr.Pos())
-	out.NullCount += out.Read - int64(setCount)
-}
-
-// DefLevelsToBitmap creates a validitybitmap out of the passed in definition levels and info object.
-func DefLevelsToBitmap(defLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput) {
-	hasRepeatedParent := false
-	if info.RepLevel > 0 {
-		hasRepeatedParent = true
-	}
-	defLevelsToBitmapInternal(defLevels, info, out, hasRepeatedParent)
-}
-
-// DefRepLevelsToListInfo takes in the definition and repetition levels in order to populate the validity bitmap
-// and properly handle nested lists and update the offsets for them.
-func DefRepLevelsToListInfo(defLevels, repLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput, offsets []int32) error {
-	var wr utils.BitmapWriter
-	if out.ValidBits != nil {
-		wr = utils.NewFirstTimeBitmapWriter(out.ValidBits, out.ValidBitsOffset, out.ReadUpperBound)
-		defer wr.Finish()
-	}
-	offsetPos := 0
-	for idx := range defLevels {
-		// skip items that belong to empty or null ancestor lists and further nested lists
-		if defLevels[idx] < info.RepeatedAncestorDefLevel || repLevels[idx] > info.RepLevel {
-			continue
-		}
-
-		if repLevels[idx] == info.RepLevel {
-			// continuation of an existing list.
-			// offsets can be null for structs with repeated children
-			if offsetPos < len(offsets) {
-				if offsets[offsetPos] == math.MaxInt32 {
-					return xerrors.New("list index overflow")
-				}
-				offsets[offsetPos]++
-			}
-		} else {
-			if (wr != nil && int64(wr.Pos()) >= out.ReadUpperBound) || (offsetPos >= int(out.ReadUpperBound)) {
-				return fmt.Errorf("definition levels exceeded upper bound: %d", out.ReadUpperBound)
-			}
-
-			// current_rep < list rep_level i.e. start of a list (ancestor empty lists
-			// are filtered out above)
-			// offsets can be null for structs with repeated children
-			if offsetPos+1 < len(offsets) {
-				offsetPos++
-				// use cumulative offsets because variable size lists are more common
-				// than fixed size lists so it should be cheaper to make these
-				// cumulative and subtract when validating fixed size lists
-				offsets[offsetPos] = offsets[offsetPos-1]
-				if defLevels[idx] >= info.DefLevel {
-					if offsets[offsetPos] == math.MaxInt32 {
-						return xerrors.New("list index overflow")
-					}
-					offsets[offsetPos]++
-				}
-			}
-
-			if wr != nil {
-				// the level info def level for lists reflects element present level
-				// the prior level distinguishes between empty lists
-				if defLevels[idx] >= info.DefLevel-1 {
-					wr.Set()
-				} else {
-					out.NullCount++
-					wr.Clear()
-				}
-				wr.Next()
-			}
-		}
-	}
-
-	if len(offsets) > 0 {
-		out.Read = int64(offsetPos)
-	} else if wr != nil {
-		out.Read = int64(wr.Pos())
-	}
-
-	if out.NullCount > 0 && info.NullSlotUsage > 1 {
-		return xerrors.New("null values with null_slot_usage > 1 not supported.")
-	}
-	return nil
-}
-
-// DefRepLevelsToBitmap constructs a full validitybitmap out of the definition and repetition levels
-// properly handling nested lists and parents.
-func DefRepLevelsToBitmap(defLevels, repLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput) error {
-	info.RepLevel++
-	info.DefLevel++
-	return DefRepLevelsToListInfo(defLevels, repLevels, info, out, nil)
-}
diff --git a/go/parquet/file/level_conversion_test.go b/go/parquet/file/level_conversion_test.go
deleted file mode 100644
index 740c0e674469b..0000000000000
--- a/go/parquet/file/level_conversion_test.go
+++ /dev/null
@@ -1,194 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/assert"
-)
-
-func bitmapToString(bitmap []byte, bitCount int64) string {
-	var bld strings.Builder
-	bld.Grow(int(bitCount))
-	for i := 0; i < int(bitCount); i++ {
-		if bitutil.BitIsSet(bitmap, i) {
-			bld.WriteByte('1')
-		} else {
-			bld.WriteByte('0')
-		}
-	}
-	return bld.String()
-}
-
-func TestDefLevelsToBitmap(t *testing.T) {
-	defLevels := []int16{3, 3, 3, 2, 3, 3, 3, 3, 3}
-	validBits := []byte{2, 0}
-
-	var info LevelInfo
-	info.DefLevel = 3
-	info.RepLevel = 1
-
-	var io ValidityBitmapInputOutput
-	io.ReadUpperBound = int64(len(defLevels))
-	io.Read = -1
-	io.ValidBits = validBits
-
-	DefLevelsToBitmap(defLevels, info, &io)
-	assert.Equal(t, int64(9), io.Read)
-	assert.Equal(t, int64(1), io.NullCount)
-
-	// call again with 0 definition levels make sure that valid bits is unmodified
-	curByte := validBits[1]
-	io.NullCount = 0
-	DefLevelsToBitmap(defLevels[:0], info, &io)
-
-	assert.Zero(t, io.Read)
-	assert.Zero(t, io.NullCount)
-	assert.Equal(t, curByte, validBits[1])
-}
-
-func TestDefLevelsToBitmapPowerOf2(t *testing.T) {
-	defLevels := []int16{3, 3, 3, 2, 3, 3, 3, 3}
-	validBits := []byte{1, 0}
-
-	var (
-		info LevelInfo
-		io   ValidityBitmapInputOutput
-	)
-
-	info.RepLevel = 1
-	info.DefLevel = 3
-	io.Read = -1
-	io.ReadUpperBound = int64(len(defLevels))
-	io.ValidBits = validBits
-
-	DefLevelsToBitmap(defLevels[4:8], info, &io)
-	assert.Equal(t, int64(4), io.Read)
-	assert.Zero(t, io.NullCount)
-}
-
-func TestGreaterThanBitmapGeneratesExpectedBitmasks(t *testing.T) {
-	defLevels := []int16{
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7}
-
-	tests := []struct {
-		name     string
-		num      int
-		rhs      int16
-		expected uint64
-	}{
-		{"no levels", 0, 0, 0},
-		{"64 and 8", 64, 8, 0},
-		{"64 and -1", 64, -1, 0xFFFFFFFFFFFFFFFF},
-		// should be zero padded
-		{"zero pad 47, -1", 47, -1, 0x7FFFFFFFFFFF},
-		{"zero pad 64 and 6", 64, 6, 0x8080808080808080},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.expected, bmi.GreaterThanBitmap(defLevels[:tt.num], tt.rhs))
-		})
-	}
-}
-
-func TestWithRepetitionlevelFiltersOutEmptyListValues(t *testing.T) {
-	validityBitmap := make([]byte, 8)
-	io := ValidityBitmapInputOutput{
-		ReadUpperBound:  64,
-		Read:            1,
-		NullCount:       5,
-		ValidBits:       validityBitmap,
-		ValidBitsOffset: 1,
-	}
-
-	info := LevelInfo{
-		RepeatedAncestorDefLevel: 1,
-		DefLevel:                 2,
-		RepLevel:                 1,
-	}
-
-	defLevels := []int16{0, 0, 0, 2, 2, 1, 0, 2}
-	DefLevelsToBitmap(defLevels, info, &io)
-
-	assert.Equal(t, bitmapToString(validityBitmap, 8), "01101000")
-	for _, x := range validityBitmap[1:] {
-		assert.Zero(t, x)
-	}
-	assert.EqualValues(t, 6, io.NullCount)
-	assert.EqualValues(t, 4, io.Read)
-}
-
-type MultiLevelTestData struct {
-	defLevels []int16
-	repLevels []int16
-}
-
-func TriplNestedList() MultiLevelTestData {
-	// Triply nested list values borrow from write_path
-	// [null, [[1, null, 3], []], []],
-	// [[[]], [[], [1, 2]], null, [[3]]],
-	// null,
-	// []
-	return MultiLevelTestData{
-		defLevels: []int16{2, 7, 6, 7, 5, 3, // first row
-			5, 5, 7, 7, 2, 7, // second row
-			0, // third row
-			1},
-		repLevels: []int16{0, 1, 3, 3, 2, 1, // first row
-			0, 1, 2, 3, 1, 1, // second row
-			0, 0},
-	}
-}
-
-func TestActualCase(t *testing.T) {
-	out := make([]byte, 512)
-	defs := make([]int16, 64)
-	for i := range defs {
-		defs[i] = 3
-	}
-
-	defs[0] = 0
-	defs[25] = 0
-	defs[33] = 0
-	defs[49] = 0
-	defs[58] = 0
-	defs[59] = 0
-	defs[60] = 0
-	defs[61] = 0
-
-	remaining := int64(4096)
-	info := LevelInfo{
-		NullSlotUsage:            0,
-		DefLevel:                 3,
-		RepLevel:                 1,
-		RepeatedAncestorDefLevel: 2,
-	}
-
-	wr := utils.NewFirstTimeBitmapWriter(out, 0, 4096)
-	v := defLevelsBatchToBitmap(defs, remaining, info, wr, true)
-	assert.EqualValues(t, 56, v)
-	assert.Equal(t, []byte{255, 255, 255, 255}, out[:4])
-}
diff --git a/go/parquet/file/page_reader.go b/go/parquet/file/page_reader.go
deleted file mode 100644
index 91dcc3c66aa5d..0000000000000
--- a/go/parquet/file/page_reader.go
+++ /dev/null
@@ -1,617 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"sync"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// PageReader is the interface used by the columnreader in order to read
-// and handle DataPages and loop through them.
-type PageReader interface {
-	// Set the maximum Page header size allowed to be read
-	SetMaxPageHeaderSize(int)
-	// Return the current page, or nil if there are no more
-	Page() Page
-	// Fetch the next page, returns false if there are no more pages
-	Next() bool
-	// if Next returns false, Err will return the error encountered or
-	// nil if there was no error and you just hit the end of the page
-	Err() error
-	// Reset allows reusing a page reader
-	Reset(r parquet.BufferedReader, nrows int64, compressType compress.Compression, ctx *CryptoContext)
-}
-
-// Page is an interface for handling DataPages or Dictionary Pages
-type Page interface {
-	// Returns which kind of page this is
-	Type() format.PageType
-	// Get the raw bytes of this page
-	Data() []byte
-	// return the encoding used for this page, Plain/RLE, etc.
-	Encoding() format.Encoding
-	// get the number of values in this page
-	NumValues() int32
-	// release this page object back into the page pool for re-use
-	Release()
-}
-
-type page struct {
-	buf *memory.Buffer
-	typ format.PageType
-
-	nvals    int32
-	encoding format.Encoding
-}
-
-func (p *page) Type() format.PageType     { return p.typ }
-func (p *page) Data() []byte              { return p.buf.Bytes() }
-func (p *page) NumValues() int32          { return p.nvals }
-func (p *page) Encoding() format.Encoding { return p.encoding }
-
-// DataPage is the base interface for both DataPageV1 and DataPageV2 of the
-// parquet spec.
-type DataPage interface {
-	Page
-	UncompressedSize() int32
-	Statistics() metadata.EncodedStatistics
-}
-
-// Create some pools to use for reusing the data page objects themselves so that
-// we can avoid tight loops that are creating and destroying tons of individual
-// objects. This combined with a Release function on the pages themselves
-// which will put them back into the pool yields significant memory reduction
-// and performance benefits
-
-var dataPageV1Pool = sync.Pool{
-	New: func() interface{} { return (*DataPageV1)(nil) },
-}
-
-var dataPageV2Pool = sync.Pool{
-	New: func() interface{} { return (*DataPageV2)(nil) },
-}
-
-var dictPagePool = sync.Pool{
-	New: func() interface{} { return (*DictionaryPage)(nil) },
-}
-
-// DataPageV1 represents a DataPage version 1 from the parquet.thrift file
-type DataPageV1 struct {
-	page
-
-	defLvlEncoding   format.Encoding
-	repLvlEncoding   format.Encoding
-	uncompressedSize int32
-	statistics       metadata.EncodedStatistics
-}
-
-// NewDataPageV1 returns a V1 data page with the given buffer as its data and the specified encoding information
-//
-// Will utilize objects that have been released back into the data page pool and
-// re-use them if available as opposed to creating new objects. Calling Release on the
-// data page object will release it back to the pool for re-use.
-func NewDataPageV1(buffer *memory.Buffer, num int32, encoding, defEncoding, repEncoding parquet.Encoding, uncompressedSize int32) *DataPageV1 {
-	dp := dataPageV1Pool.Get().(*DataPageV1)
-	if dp == nil {
-		return &DataPageV1{
-			page:             page{buf: buffer, typ: format.PageType_DATA_PAGE, nvals: num, encoding: format.Encoding(encoding)},
-			defLvlEncoding:   format.Encoding(defEncoding),
-			repLvlEncoding:   format.Encoding(repEncoding),
-			uncompressedSize: uncompressedSize,
-		}
-	}
-
-	dp.buf, dp.nvals = buffer, num
-	dp.encoding = format.Encoding(encoding)
-	dp.defLvlEncoding, dp.repLvlEncoding = format.Encoding(defEncoding), format.Encoding(repEncoding)
-	dp.statistics.HasMax, dp.statistics.HasMin = false, false
-	dp.statistics.HasNullCount, dp.statistics.HasDistinctCount = false, false
-	dp.uncompressedSize = uncompressedSize
-	return dp
-}
-
-// NewDataPageV1WithStats is the same as NewDataPageV1, but also allows adding the stat info into the created page
-func NewDataPageV1WithStats(buffer *memory.Buffer, num int32, encoding, defEncoding, repEncoding parquet.Encoding, uncompressedSize int32, stats metadata.EncodedStatistics) *DataPageV1 {
-	ret := NewDataPageV1(buffer, num, encoding, defEncoding, repEncoding, uncompressedSize)
-	ret.statistics = stats
-	return ret
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DataPageV1) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dataPageV1Pool.Put(d)
-}
-
-// UncompressedSize returns the size of the data in this data page when uncompressed
-func (d *DataPageV1) UncompressedSize() int32 { return d.uncompressedSize }
-
-// Statistics returns the encoded statistics on this data page
-func (d *DataPageV1) Statistics() metadata.EncodedStatistics { return d.statistics }
-
-// DefinitionLevelEncoding returns the encoding utilized for the Definition Levels
-func (d *DataPageV1) DefinitionLevelEncoding() parquet.Encoding {
-	return parquet.Encoding(d.defLvlEncoding)
-}
-
-// RepetitionLevelEncoding returns the encoding utilized for the Repetition Levels
-func (d *DataPageV1) RepetitionLevelEncoding() parquet.Encoding {
-	return parquet.Encoding(d.repLvlEncoding)
-}
-
-// DataPageV2 is the representation of the V2 data page from the parquet.thrift spec
-type DataPageV2 struct {
-	page
-
-	nulls            int32
-	nrows            int32
-	defLvlByteLen    int32
-	repLvlByteLen    int32
-	compressed       bool
-	uncompressedSize int32
-	statistics       metadata.EncodedStatistics
-}
-
-// NewDataPageV2 constructs a new V2 data page with the provided information and a buffer of the raw data.
-func NewDataPageV2(buffer *memory.Buffer, numValues, numNulls, numRows int32, encoding parquet.Encoding, defLvlsByteLen, repLvlsByteLen, uncompressed int32, isCompressed bool) *DataPageV2 {
-	dp := dataPageV2Pool.Get().(*DataPageV2)
-	if dp == nil {
-		return &DataPageV2{
-			page:             page{buf: buffer, typ: format.PageType_DATA_PAGE_V2, nvals: numValues, encoding: format.Encoding(encoding)},
-			nulls:            numNulls,
-			nrows:            numRows,
-			defLvlByteLen:    defLvlsByteLen,
-			repLvlByteLen:    repLvlsByteLen,
-			compressed:       isCompressed,
-			uncompressedSize: uncompressed,
-		}
-	}
-
-	dp.buf, dp.nvals = buffer, numValues
-	dp.encoding = format.Encoding(encoding)
-	dp.nulls, dp.nrows = numNulls, numRows
-	dp.defLvlByteLen, dp.repLvlByteLen = defLvlsByteLen, repLvlsByteLen
-	dp.compressed, dp.uncompressedSize = isCompressed, uncompressed
-	dp.statistics.HasMax, dp.statistics.HasMin = false, false
-	dp.statistics.HasNullCount, dp.statistics.HasDistinctCount = false, false
-	return dp
-}
-
-// NewDataPageV2WithStats is the same as NewDataPageV2 but allows providing the encoded stats with the page.
-func NewDataPageV2WithStats(buffer *memory.Buffer, numValues, numNulls, numRows int32, encoding parquet.Encoding, defLvlsByteLen, repLvlsByteLen, uncompressed int32, isCompressed bool, stats metadata.EncodedStatistics) *DataPageV2 {
-	ret := NewDataPageV2(buffer, numValues, numNulls, numRows, encoding, defLvlsByteLen, repLvlsByteLen, uncompressed, isCompressed)
-	ret.statistics = stats
-	return ret
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DataPageV2) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dataPageV2Pool.Put(d)
-}
-
-// UncompressedSize is the size of the raw page when uncompressed. If `IsCompressed` is true, then
-// the raw data in the buffer is expected to be compressed.
-func (d *DataPageV2) UncompressedSize() int32 { return d.uncompressedSize }
-
-// Statistics are the encoded statistics in the data page
-func (d *DataPageV2) Statistics() metadata.EncodedStatistics { return d.statistics }
-
-// NumNulls is the reported number of nulls in this datapage
-func (d *DataPageV2) NumNulls() int32 { return d.nulls }
-
-// NumRows is the number of rows recorded in the page header
-func (d *DataPageV2) NumRows() int32 { return d.nrows }
-
-// DefinitionLevelByteLen is the number of bytes in the buffer that are used to represent the definition levels
-func (d *DataPageV2) DefinitionLevelByteLen() int32 { return d.defLvlByteLen }
-
-// RepetitionLevelByteLen is the number of bytes in the buffer which are used to represent the repetition Levels
-func (d *DataPageV2) RepetitionLevelByteLen() int32 { return d.repLvlByteLen }
-
-// IsCompressed returns true if the data of this page is compressed
-func (d *DataPageV2) IsCompressed() bool { return d.compressed }
-
-// DictionaryPage represents the a page of data that uses dictionary encoding
-type DictionaryPage struct {
-	page
-
-	sorted bool
-}
-
-// NewDictionaryPage constructs a new dictionary page with the provided data buffer and number of values.
-func NewDictionaryPage(buffer *memory.Buffer, nvals int32, encoding parquet.Encoding) *DictionaryPage {
-	dp := dictPagePool.Get().(*DictionaryPage)
-	if dp == nil {
-		return &DictionaryPage{
-			page: page{
-				buf:      buffer,
-				typ:      format.PageType_DICTIONARY_PAGE,
-				nvals:    nvals,
-				encoding: format.Encoding(encoding),
-			},
-		}
-	}
-
-	dp.buf = buffer
-	dp.nvals = nvals
-	dp.encoding = format.Encoding(encoding)
-	dp.sorted = false
-	return dp
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DictionaryPage) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dictPagePool.Put(d)
-}
-
-// IsSorted returns whether the dictionary itself is sorted
-func (d *DictionaryPage) IsSorted() bool { return d.sorted }
-
-type serializedPageReader struct {
-	r        parquet.BufferedReader
-	nrows    int64
-	rowsSeen int64
-	mem      memory.Allocator
-	codec    compress.Codec
-
-	curPageHdr        *format.PageHeader
-	pageOrd           int16
-	maxPageHeaderSize int
-
-	curPage           Page
-	cryptoCtx         CryptoContext
-	dataPageAad       string
-	dataPageHeaderAad string
-
-	decompressBuffer bytes.Buffer
-	err              error
-}
-
-// NewPageReader returns a page reader for the data which can be read from the provided reader and compression.
-func NewPageReader(r parquet.BufferedReader, nrows int64, compressType compress.Compression, mem memory.Allocator, ctx *CryptoContext) (PageReader, error) {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	codec, err := compress.GetCodec(compressType)
-	if err != nil {
-		return nil, err
-	}
-
-	rdr := &serializedPageReader{
-		r:                 r,
-		maxPageHeaderSize: defaultMaxPageHeaderSize,
-		nrows:             nrows,
-		mem:               mem,
-		codec:             codec,
-	}
-	rdr.decompressBuffer.Grow(defaultPageHeaderSize)
-	if ctx != nil {
-		rdr.cryptoCtx = *ctx
-		rdr.initDecryption()
-	}
-	return rdr, nil
-}
-
-func (p *serializedPageReader) Reset(r parquet.BufferedReader, nrows int64, compressType compress.Compression, ctx *CryptoContext) {
-	p.rowsSeen, p.pageOrd, p.nrows = 0, 0, nrows
-	p.curPageHdr, p.curPage, p.err = nil, nil, nil
-	p.r = r
-
-	p.codec, p.err = compress.GetCodec(compressType)
-	if p.err != nil {
-		return
-	}
-	p.decompressBuffer.Reset()
-	if ctx != nil {
-		p.cryptoCtx = *ctx
-		p.initDecryption()
-	} else {
-		p.cryptoCtx = CryptoContext{}
-		p.dataPageAad = ""
-		p.dataPageHeaderAad = ""
-	}
-}
-
-func (p *serializedPageReader) Err() error { return p.err }
-
-func (p *serializedPageReader) SetMaxPageHeaderSize(sz int) {
-	p.maxPageHeaderSize = sz
-}
-
-func (p *serializedPageReader) initDecryption() {
-	if p.cryptoCtx.DataDecryptor != nil {
-		p.dataPageAad = encryption.CreateModuleAad(p.cryptoCtx.DataDecryptor.FileAad(), encryption.DataPageModule,
-			p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-	}
-	if p.cryptoCtx.MetaDecryptor != nil {
-		p.dataPageHeaderAad = encryption.CreateModuleAad(p.cryptoCtx.MetaDecryptor.FileAad(), encryption.DataPageHeaderModule,
-			p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-	}
-}
-
-func (p *serializedPageReader) updateDecryption(decrypt encryption.Decryptor, moduleType int8, pageAad string) {
-	if p.cryptoCtx.StartDecryptWithDictionaryPage {
-		aad := encryption.CreateModuleAad(decrypt.FileAad(), moduleType, p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-		decrypt.UpdateAad(aad)
-	} else {
-		pageaad := []byte(pageAad)
-		encryption.QuickUpdatePageAad(pageaad, p.pageOrd)
-		decrypt.UpdateAad(string(pageaad))
-	}
-}
-
-func (p *serializedPageReader) Page() Page {
-	return p.curPage
-}
-
-func (p *serializedPageReader) decompress(lenCompressed int, buf []byte) ([]byte, error) {
-	p.decompressBuffer.Grow(lenCompressed)
-	if _, err := io.CopyN(&p.decompressBuffer, p.r, int64(lenCompressed)); err != nil {
-		return nil, err
-	}
-
-	data := p.decompressBuffer.Bytes()
-	if p.cryptoCtx.DataDecryptor != nil {
-		data = p.cryptoCtx.DataDecryptor.Decrypt(p.decompressBuffer.Bytes())
-	}
-
-	return p.codec.Decode(buf, data), nil
-}
-
-type dataheader interface {
-	IsSetStatistics() bool
-	GetStatistics() *format.Statistics
-}
-
-func extractStats(dataHeader dataheader) (pageStats metadata.EncodedStatistics) {
-	if dataHeader.IsSetStatistics() {
-		stats := dataHeader.GetStatistics()
-		if stats.IsSetMaxValue() {
-			pageStats.SetMax(stats.GetMaxValue())
-		} else if stats.IsSetMax() {
-			pageStats.SetMax(stats.GetMax())
-		}
-		if stats.IsSetMinValue() {
-			pageStats.SetMin(stats.GetMinValue())
-		} else if stats.IsSetMin() {
-			pageStats.SetMin(stats.GetMin())
-		}
-
-		if stats.IsSetNullCount() {
-			pageStats.SetNullCount(stats.GetNullCount())
-		}
-		if stats.IsSetDistinctCount() {
-			pageStats.SetDistinctCount(stats.GetDistinctCount())
-		}
-	}
-	return
-}
-
-func (p *serializedPageReader) Next() bool {
-	// Loop here because there may be unhandled page types that we skip until
-	// finding a page that we do know what to do with
-	if p.curPage != nil {
-		p.curPage.Release()
-	}
-	p.curPage = nil
-	p.curPageHdr = format.NewPageHeader()
-	p.err = nil
-
-	for p.rowsSeen < p.nrows {
-		allowedPgSz := defaultPageHeaderSize
-		p.decompressBuffer.Reset()
-		for {
-			view, err := p.r.Peek(allowedPgSz)
-			if err != nil && err != io.EOF {
-				p.err = err
-				return false
-			}
-
-			if len(view) == 0 {
-				return false
-			}
-
-			extra := 0
-			if p.cryptoCtx.MetaDecryptor != nil {
-				p.updateDecryption(p.cryptoCtx.MetaDecryptor, encryption.DictPageHeaderModule, p.dataPageHeaderAad)
-				view = p.cryptoCtx.MetaDecryptor.Decrypt(view)
-				extra = p.cryptoCtx.MetaDecryptor.CiphertextSizeDelta()
-			}
-
-			remaining, err := thrift.DeserializeThrift(p.curPageHdr, view)
-			if err != nil {
-				allowedPgSz *= 2
-				if allowedPgSz > p.maxPageHeaderSize {
-					p.err = xerrors.New("parquet: deserializing page header failed")
-					return false
-				}
-				continue
-			}
-
-			p.r.Discard(len(view) - int(remaining) + extra)
-			break
-		}
-
-		lenCompressed := int(p.curPageHdr.GetCompressedPageSize())
-		lenUncompressed := int(p.curPageHdr.GetUncompressedPageSize())
-		if lenCompressed < 0 || lenUncompressed < 0 {
-			p.err = xerrors.New("parquet: invalid page header")
-			return false
-		}
-
-		if p.cryptoCtx.DataDecryptor != nil {
-			p.updateDecryption(p.cryptoCtx.DataDecryptor, encryption.DictPageModule, p.dataPageAad)
-		}
-
-		buf := memory.NewResizableBuffer(p.mem)
-		defer buf.Release()
-		buf.ResizeNoShrink(lenUncompressed)
-
-		switch p.curPageHdr.GetType() {
-		case format.PageType_DICTIONARY_PAGE:
-			p.cryptoCtx.StartDecryptWithDictionaryPage = false
-			dictHeader := p.curPageHdr.GetDictionaryPageHeader()
-			if dictHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			data, err := p.decompress(lenCompressed, buf.Bytes())
-			if err != nil {
-				p.err = err
-				return false
-			}
-			if len(data) != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed dictionary page, got %d bytes", lenUncompressed, len(data))
-				return false
-			}
-
-			// make dictionary page
-			p.curPage = &DictionaryPage{
-				page: page{
-					buf:      memory.NewBufferBytes(data),
-					typ:      p.curPageHdr.Type,
-					nvals:    dictHeader.GetNumValues(),
-					encoding: dictHeader.GetEncoding(),
-				},
-				sorted: dictHeader.IsSetIsSorted() && dictHeader.GetIsSorted(),
-			}
-
-		case format.PageType_DATA_PAGE:
-			p.pageOrd++
-			dataHeader := p.curPageHdr.GetDataPageHeader()
-			if dataHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			p.rowsSeen += int64(dataHeader.GetNumValues())
-			data, err := p.decompress(lenCompressed, buf.Bytes())
-			if err != nil {
-				p.err = err
-				return false
-			}
-			if len(data) != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, len(data))
-				return false
-			}
-
-			// make datapagev1
-			p.curPage = &DataPageV1{
-				page: page{
-					buf:      memory.NewBufferBytes(data),
-					typ:      p.curPageHdr.Type,
-					nvals:    dataHeader.GetNumValues(),
-					encoding: dataHeader.GetEncoding(),
-				},
-				defLvlEncoding:   dataHeader.GetDefinitionLevelEncoding(),
-				repLvlEncoding:   dataHeader.GetRepetitionLevelEncoding(),
-				uncompressedSize: int32(lenUncompressed),
-				statistics:       extractStats(dataHeader),
-			}
-		case format.PageType_DATA_PAGE_V2:
-			p.pageOrd++
-			dataHeader := p.curPageHdr.GetDataPageHeaderV2()
-			if dataHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			if dataHeader.GetDefinitionLevelsByteLength() < 0 || dataHeader.GetRepetitionLevelsByteLength() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative levels byte length)")
-				return false
-			}
-
-			compressed := dataHeader.GetIsCompressed()
-			// extract stats
-			p.rowsSeen += int64(dataHeader.GetNumValues())
-			levelsBytelen, ok := overflow.Add(int(dataHeader.GetDefinitionLevelsByteLength()), int(dataHeader.GetRepetitionLevelsByteLength()))
-			if !ok {
-				p.err = xerrors.New("parquet: levels size too large (corrupt file?)")
-				return false
-			}
-
-			if compressed {
-				if levelsBytelen > 0 {
-					io.ReadFull(p.r, buf.Bytes()[:levelsBytelen])
-				}
-				if _, p.err = p.decompress(lenCompressed-levelsBytelen, buf.Bytes()[levelsBytelen:]); p.err != nil {
-					return false
-				}
-			} else {
-				io.ReadFull(p.r, buf.Bytes())
-			}
-			buf.Retain()
-
-			if buf.Len() != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, buf.Len())
-				return false
-			}
-
-			// make datapage v2
-			p.curPage = &DataPageV2{
-				page: page{
-					buf:      buf,
-					typ:      p.curPageHdr.Type,
-					nvals:    dataHeader.GetNumValues(),
-					encoding: dataHeader.GetEncoding(),
-				},
-				nulls:            dataHeader.GetNumNulls(),
-				nrows:            dataHeader.GetNumRows(),
-				defLvlByteLen:    dataHeader.GetDefinitionLevelsByteLength(),
-				repLvlByteLen:    dataHeader.GetRepetitionLevelsByteLength(),
-				compressed:       compressed,
-				uncompressedSize: int32(lenUncompressed),
-				statistics:       extractStats(dataHeader),
-			}
-		default:
-			// we don't know this page type, we're allowed to skip non-data pages
-			continue
-		}
-		return true
-	}
-
-	return false
-}
diff --git a/go/parquet/file/page_writer.go b/go/parquet/file/page_writer.go
deleted file mode 100644
index 82cd37e1a7774..0000000000000
--- a/go/parquet/file/page_writer.go
+++ /dev/null
@@ -1,468 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	libthrift "github.com/apache/thrift/lib/go/thrift"
-	"golang.org/x/xerrors"
-)
-
-// PageWriter is the interface for both serialized and buffered page writers
-type PageWriter interface {
-	// Closes the current page, flushing any buffered data pages/dictionary pages
-	// based on the input parameters. Subsequent calls have no effect.
-	Close(hasDict, fallback bool) error
-	// Write the provided datapage out to the underlying writer
-	WriteDataPage(page DataPage) (int64, error)
-	// Write the provided dictionary page out to the underlying writer
-	WriteDictionaryPage(page *DictionaryPage) (int64, error)
-	// returns true if there is a configured compressor for the data
-	HasCompressor() bool
-	// use the configured compressor and writer properties to compress the data in src
-	// using the buffer buf. Returns the slice of the compressed bytes which may be
-	// the bytes in the provided buffer
-	Compress(buf *bytes.Buffer, src []byte) []byte
-	// Allow reuse of the pagewriter object by resetting it using these values instead
-	// of having to create a new object.
-	Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error
-}
-
-type serializedPageWriter struct {
-	mem      memory.Allocator
-	metaData *metadata.ColumnChunkMetaDataBuilder
-	sink     utils.WriterTell
-
-	nvalues           int64
-	dictPageOffset    int64
-	dataPageOffset    int64
-	totalUncompressed int64
-	totalCompressed   int64
-	pageOrdinal       int16
-	rgOrdinal         int16
-	columnOrdinal     int16
-
-	compressLevel int
-	compressor    compress.Codec
-	metaEncryptor encryption.Encryptor
-	dataEncryptor encryption.Encryptor
-	encryptionBuf bytes.Buffer
-
-	dataPageAAD       []byte
-	dataPageHeaderAAD []byte
-
-	dictEncodingStats map[parquet.Encoding]int32
-	dataEncodingStats map[parquet.Encoding]int32
-
-	thriftSerializer *thrift.Serializer
-}
-
-func createSerializedPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, mem memory.Allocator, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	var (
-		compressor compress.Codec
-		err        error
-	)
-	if codec != compress.Codecs.Uncompressed {
-		compressor, err = compress.GetCodec(codec)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	pgwriter := &serializedPageWriter{
-		sink:              sink,
-		compressor:        compressor,
-		compressLevel:     compressionLevel,
-		metaData:          metadata,
-		rgOrdinal:         rowGroupOrdinal,
-		columnOrdinal:     columnChunkOrdinal,
-		mem:               mem,
-		metaEncryptor:     metaEncryptor,
-		dataEncryptor:     dataEncryptor,
-		dictEncodingStats: make(map[parquet.Encoding]int32),
-		dataEncodingStats: make(map[parquet.Encoding]int32),
-		thriftSerializer:  thrift.NewThriftSerializer(),
-	}
-	if metaEncryptor != nil || dataEncryptor != nil {
-		pgwriter.initEncryption()
-	}
-	return pgwriter, nil
-}
-
-// NewPageWriter returns a page writer using either the buffered or serialized implementations
-func NewPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, mem memory.Allocator, buffered bool, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	if buffered {
-		return newBufferedPageWriter(sink, codec, compressionLevel, metadata, rowGroupOrdinal, columnChunkOrdinal, mem, metaEncryptor, dataEncryptor)
-	}
-	return createSerializedPageWriter(sink, codec, compressionLevel, metadata, rowGroupOrdinal, columnChunkOrdinal, mem, metaEncryptor, dataEncryptor)
-}
-
-// Reset allows reusing the pagewriter object instead of creating a new one.
-func (pw *serializedPageWriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	var (
-		compressor compress.Codec
-		err        error
-	)
-	if codec != compress.Codecs.Uncompressed {
-		compressor, err = compress.GetCodec(codec)
-		if err != nil {
-			return err
-		}
-	}
-
-	pw.sink = sink
-	pw.compressor = compressor
-	pw.compressLevel = compressionLevel
-	pw.metaData = metadata
-	pw.rgOrdinal = rowGroupOrdinal
-	pw.columnOrdinal = columnChunkOrdinal
-	pw.metaEncryptor = metaEncryptor
-	pw.dataEncryptor = dataEncryptor
-	pw.dictEncodingStats = make(map[parquet.Encoding]int32)
-	pw.dataEncodingStats = make(map[parquet.Encoding]int32)
-
-	pw.nvalues = 0
-	pw.dictPageOffset = 0
-	pw.dataPageOffset = 0
-	pw.totalUncompressed = 0
-	pw.totalCompressed = 0
-	pw.pageOrdinal = 0
-
-	if metaEncryptor != nil || dataEncryptor != nil {
-		pw.initEncryption()
-	}
-	return nil
-}
-
-func (pw *serializedPageWriter) initEncryption() {
-	if pw.dataEncryptor != nil {
-		pw.dataPageAAD = []byte(encryption.CreateModuleAad(pw.dataEncryptor.FileAad(), encryption.DataPageModule, pw.rgOrdinal, pw.columnOrdinal, -1))
-	}
-	if pw.metaEncryptor != nil {
-		pw.dataPageHeaderAAD = []byte(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), encryption.DataPageHeaderModule, pw.rgOrdinal, pw.columnOrdinal, -1))
-	}
-}
-
-func (pw *serializedPageWriter) updateEncryption(moduleType int8) error {
-	switch moduleType {
-	case encryption.ColumnMetaModule:
-		pw.metaEncryptor.UpdateAad(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	case encryption.DataPageModule:
-		encryption.QuickUpdatePageAad(pw.dataPageAAD, pw.pageOrdinal)
-		pw.dataEncryptor.UpdateAad(string(pw.dataPageAAD))
-	case encryption.DataPageHeaderModule:
-		encryption.QuickUpdatePageAad(pw.dataPageHeaderAAD, pw.pageOrdinal)
-		pw.metaEncryptor.UpdateAad(string(pw.dataPageHeaderAAD))
-	case encryption.DictPageHeaderModule:
-		pw.metaEncryptor.UpdateAad(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	case encryption.DictPageModule:
-		pw.dataEncryptor.UpdateAad(encryption.CreateModuleAad(pw.dataEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	default:
-		return xerrors.New("unknown module type in updateencryption")
-	}
-	return nil
-}
-
-func (pw *serializedPageWriter) Close(hasDict, fallback bool) error {
-	if pw.metaEncryptor != nil {
-		pw.updateEncryption(encryption.ColumnMetaModule)
-	}
-
-	chunkInfo := metadata.ChunkMetaInfo{
-		NumValues:        pw.nvalues,
-		DictPageOffset:   pw.dictPageOffset,
-		IndexPageOffset:  -1,
-		DataPageOffset:   pw.dataPageOffset,
-		CompressedSize:   pw.totalCompressed,
-		UncompressedSize: pw.totalUncompressed,
-	}
-	encodingStats := metadata.EncodingStats{
-		DictEncodingStats: pw.dictEncodingStats,
-		DataEncodingStats: pw.dataEncodingStats,
-	}
-	pw.metaData.Finish(chunkInfo, hasDict, fallback, encodingStats, pw.metaEncryptor)
-	_, err := pw.metaData.WriteTo(pw.sink)
-	return err
-}
-
-func (pw *serializedPageWriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	maxCompressed := pw.compressor.CompressBound(int64(len(src)))
-	buf.Grow(int(maxCompressed))
-	return pw.compressor.EncodeLevel(buf.Bytes(), src, pw.compressLevel)
-}
-
-var dataPageV1HeaderPool = sync.Pool{
-	New: func() interface{} { return format.NewDataPageHeader() },
-}
-
-func (pw *serializedPageWriter) setDataPageHeader(pageHdr *format.PageHeader, page *DataPageV1) {
-	pageHdr.Type = format.PageType_DATA_PAGE
-	hdr := dataPageV1HeaderPool.Get().(*format.DataPageHeader)
-	hdr.NumValues = page.nvals
-	hdr.Encoding = page.encoding
-	hdr.DefinitionLevelEncoding = page.defLvlEncoding
-	hdr.RepetitionLevelEncoding = page.repLvlEncoding
-	hdr.Statistics = page.statistics.ToThrift()
-	pageHdr.DataPageHeader = hdr
-	pageHdr.DataPageHeaderV2 = nil
-	pageHdr.DictionaryPageHeader = nil
-}
-
-var dataPageV2HeaderPool = sync.Pool{
-	New: func() interface{} { return format.NewDataPageHeaderV2() },
-}
-
-func (pw *serializedPageWriter) setDataPageV2Header(pageHdr *format.PageHeader, page *DataPageV2) {
-	pageHdr.Type = format.PageType_DATA_PAGE_V2
-	hdr := dataPageV2HeaderPool.Get().(*format.DataPageHeaderV2)
-	hdr.NumValues = page.nvals
-	hdr.NumNulls = page.nulls
-	hdr.NumRows = page.nrows
-	hdr.Encoding = page.encoding
-	hdr.DefinitionLevelsByteLength = page.defLvlByteLen
-	hdr.RepetitionLevelsByteLength = page.repLvlByteLen
-	hdr.IsCompressed = page.compressed
-	hdr.Statistics = page.statistics.ToThrift()
-	pageHdr.DataPageHeaderV2 = hdr
-	pageHdr.DataPageHeader = nil
-	pageHdr.DictionaryPageHeader = nil
-}
-
-func (pw *serializedPageWriter) HasCompressor() bool          { return pw.compressor != nil }
-func (pw *serializedPageWriter) NumValues() int64             { return pw.nvalues }
-func (pw *serializedPageWriter) DictionaryPageOffset() int64  { return pw.dictPageOffset }
-func (pw *serializedPageWriter) DataPageoffset() int64        { return pw.dataPageOffset }
-func (pw *serializedPageWriter) TotalCompressedSize() int64   { return pw.totalCompressed }
-func (pw *serializedPageWriter) TotalUncompressedSize() int64 { return pw.totalUncompressed }
-
-func (pw *serializedPageWriter) WriteDictionaryPage(page *DictionaryPage) (int64, error) {
-	uncompressed := len(page.Data())
-
-	var data []byte
-	if pw.HasCompressor() {
-		var buffer bytes.Buffer
-		data = pw.Compress(&buffer, page.Data())
-		// data = buffer.Bytes()
-	} else {
-		data = page.Data()
-	}
-
-	dictPageHeader := &format.DictionaryPageHeader{
-		NumValues: page.NumValues(),
-		Encoding:  page.Encoding(),
-		IsSorted:  libthrift.BoolPtr(page.IsSorted()),
-	}
-
-	if pw.dataEncryptor != nil {
-		pw.updateEncryption(encryption.DictPageModule)
-		pw.encryptionBuf.Reset()
-		pw.encryptionBuf.Grow(pw.dataEncryptor.CiphertextSizeDelta() + len(data))
-		pw.dataEncryptor.Encrypt(&pw.encryptionBuf, data)
-		data = pw.encryptionBuf.Bytes()
-	}
-
-	pageHdr := pageHeaderPool.Get().(*format.PageHeader)
-	defer pageHeaderPool.Put(pageHdr)
-	pageHdr.Type = format.PageType_DICTIONARY_PAGE
-	pageHdr.UncompressedPageSize = int32(uncompressed)
-	pageHdr.CompressedPageSize = int32(len(data))
-	pageHdr.DictionaryPageHeader = dictPageHeader
-	pageHdr.DataPageHeader = nil
-	pageHdr.DataPageHeaderV2 = nil
-
-	startPos := pw.sink.Tell()
-	if pw.dictPageOffset == 0 {
-		pw.dictPageOffset = int64(startPos)
-	}
-
-	if pw.metaEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DictPageHeaderModule); err != nil {
-			return 0, err
-		}
-	}
-	headerSize, err := pw.thriftSerializer.Serialize(pageHdr, pw.sink, pw.metaEncryptor)
-	if err != nil {
-		return 0, err
-	}
-	written, err := pw.sink.Write(data)
-	if err != nil {
-		return 0, err
-	}
-
-	written += headerSize
-
-	pw.totalUncompressed += int64(uncompressed + headerSize)
-	pw.totalCompressed = int64(written)
-	pw.dictEncodingStats[parquet.Encoding(page.encoding)]++
-	return int64(written), nil
-}
-
-var pageHeaderPool = sync.Pool{
-	New: func() interface{} {
-		return format.NewPageHeader()
-	},
-}
-
-func (pw *serializedPageWriter) WriteDataPage(page DataPage) (int64, error) {
-	uncompressed := page.UncompressedSize()
-	data := page.Data()
-
-	if pw.dataEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DataPageModule); err != nil {
-			return 0, err
-		}
-		pw.encryptionBuf.Reset()
-		pw.encryptionBuf.Grow(pw.dataEncryptor.CiphertextSizeDelta() + len(data))
-		pw.dataEncryptor.Encrypt(&pw.encryptionBuf, data)
-		data = pw.encryptionBuf.Bytes()
-	}
-
-	pageHdr := pageHeaderPool.Get().(*format.PageHeader)
-	defer pageHeaderPool.Put(pageHdr)
-	pageHdr.UncompressedPageSize = uncompressed
-	pageHdr.CompressedPageSize = int32(len(data))
-
-	switch dpage := page.(type) {
-	case *DataPageV1:
-		pw.setDataPageHeader(pageHdr, dpage)
-		defer dataPageV1HeaderPool.Put(pageHdr.DataPageHeader)
-	case *DataPageV2:
-		pw.setDataPageV2Header(pageHdr, dpage)
-		defer dataPageV2HeaderPool.Put(pageHdr.DataPageHeaderV2)
-	default:
-		return 0, xerrors.New("parquet: unexpected page type")
-	}
-
-	startPos := pw.sink.Tell()
-	if pw.pageOrdinal == 0 {
-		pw.dataPageOffset = int64(startPos)
-	}
-
-	if pw.metaEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DataPageHeaderModule); err != nil {
-			return 0, err
-		}
-	}
-	headerSize, err := pw.thriftSerializer.Serialize(pageHdr, pw.sink, pw.metaEncryptor)
-	if err != nil {
-		return 0, err
-	}
-	written, err := pw.sink.Write(data)
-	if err != nil {
-		return int64(written), err
-	}
-	written += headerSize
-
-	pw.totalUncompressed += int64(uncompressed) + int64(headerSize)
-	pw.totalCompressed += int64(written)
-	pw.nvalues += int64(page.NumValues())
-	pw.dataEncodingStats[parquet.Encoding(page.Encoding())]++
-	pw.pageOrdinal++
-	return int64(written), nil
-}
-
-type bufferedPageWriter struct {
-	finalSink          utils.WriterTell
-	inMemSink          *encoding.BufferWriter
-	metadata           *metadata.ColumnChunkMetaDataBuilder
-	pager              *serializedPageWriter
-	hasDictionaryPages bool
-}
-
-func newBufferedPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, mem memory.Allocator, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	wr := &bufferedPageWriter{
-		finalSink:          sink,
-		metadata:           metadata,
-		hasDictionaryPages: false,
-		inMemSink:          encoding.NewBufferWriter(0, mem),
-	}
-	pager, err := createSerializedPageWriter(wr.inMemSink, codec, compressionLevel, metadata, rgOrdinal, columnOrdinal, mem, metaEncryptor, dataEncryptor)
-	if err != nil {
-		return nil, err
-	}
-	wr.pager = pager.(*serializedPageWriter)
-	return wr, nil
-}
-
-func (bw *bufferedPageWriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	bw.finalSink = sink
-	bw.metadata = metadata
-	bw.hasDictionaryPages = false
-	bw.inMemSink.Reset(0)
-
-	return bw.pager.Reset(bw.inMemSink, codec, compressionLevel, metadata, rgOrdinal, columnOrdinal, metaEncryptor, dataEncryptor)
-}
-
-func (bw *bufferedPageWriter) WriteDictionaryPage(page *DictionaryPage) (int64, error) {
-	bw.hasDictionaryPages = true
-	return bw.pager.WriteDictionaryPage(page)
-}
-
-func (bw *bufferedPageWriter) Close(hasDict, fallback bool) error {
-	if bw.pager.metaEncryptor != nil {
-		bw.pager.updateEncryption(encryption.ColumnMetaModule)
-	}
-
-	position := bw.finalSink.Tell()
-	dictOffset := int64(0)
-	if bw.hasDictionaryPages {
-		dictOffset = bw.pager.DictionaryPageOffset() + position
-	}
-
-	chunkInfo := metadata.ChunkMetaInfo{
-		NumValues:        bw.pager.NumValues(),
-		DictPageOffset:   dictOffset,
-		IndexPageOffset:  -1,
-		DataPageOffset:   bw.pager.DataPageoffset() + position,
-		CompressedSize:   bw.pager.TotalCompressedSize(),
-		UncompressedSize: bw.pager.TotalUncompressedSize(),
-	}
-	encodingStats := metadata.EncodingStats{
-		DictEncodingStats: bw.pager.dictEncodingStats,
-		DataEncodingStats: bw.pager.dataEncodingStats,
-	}
-	bw.metadata.Finish(chunkInfo, hasDict, fallback, encodingStats, bw.pager.metaEncryptor)
-	bw.metadata.WriteTo(bw.inMemSink)
-
-	buf := bw.inMemSink.Finish()
-	defer buf.Release()
-	_, err := bw.finalSink.Write(buf.Bytes())
-	return err
-}
-
-func (bw *bufferedPageWriter) WriteDataPage(page DataPage) (int64, error) {
-	return bw.pager.WriteDataPage(page)
-}
-
-func (bw *bufferedPageWriter) HasCompressor() bool {
-	return bw.pager.HasCompressor()
-}
-
-func (bw *bufferedPageWriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	return bw.pager.Compress(buf, src)
-}
diff --git a/go/parquet/file/record_reader.go b/go/parquet/file/record_reader.go
deleted file mode 100755
index 765f4a9d34b33..0000000000000
--- a/go/parquet/file/record_reader.go
+++ /dev/null
@@ -1,986 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"sync"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// RecordReader is an interface for reading entire records/rows at a time
-// from a parquet file for both flat and nested columns. Properly delimiting
-// semantic records according to the def and repetition levels.
-type RecordReader interface {
-	// DefLevels returns the current crop of definition levels for this record
-	DefLevels() []int16
-	// LevelsPos is the number of definition / repetition levels (from the decoded ones)
-	// which the reader has already consumed.
-	LevelsPos() int64
-	// RepLevels returns the current decoded repetition levels
-	RepLevels() []int16
-	// Reset resets the state, clearing consumed values and repetition/definition
-	// levels as the result of calling ReadRecords
-	Reset()
-	// Reserve pre-allocates space for data
-	Reserve(int64) error
-	// HasMore returns true if there is more internal data which hasn't been
-	// processed yet.
-	HasMore() bool
-	// ReadRecords attempts to read the provided number of records from the
-	// column chunk, returning the number of records read and any error.
-	ReadRecords(num int64) (int64, error)
-	// ValuesWritten is the number of values written internally including any nulls
-	ValuesWritten() int
-	// ReleaseValidBits transfers the buffer of bits for the validity bitmap
-	// to the caller, subsequent calls will allocate a new one in the reader.
-	ReleaseValidBits() *memory.Buffer
-	// ReleaseValues transfers the buffer of data with the values to the caller,
-	// a new buffer will be allocated on subsequent calls.
-	ReleaseValues() *memory.Buffer
-	// NullCount returns the number of nulls decoded
-	NullCount() int64
-	// Type returns the parquet physical type of the column
-	Type() parquet.Type
-	// Values returns the decoded data buffer, including any nulls, without
-	// transferring ownership
-	Values() []byte
-	// SetPageReader allows progressing to the next column chunk while reusing
-	// this record reader by providing the page reader for the next chunk.
-	SetPageReader(PageReader)
-	// Retain increments the ref count by one
-	Retain()
-	// Release decrements the ref count by one, releasing the internal buffers when
-	// the ref count is 0.
-	Release()
-}
-
-// BinaryRecordReader provides an extra GetBuilderChunks function above and beyond
-// the plain RecordReader to allow for efficiently building chunked arrays.
-type BinaryRecordReader interface {
-	RecordReader
-	GetBuilderChunks() []arrow.Array
-	ReadDictionary() bool
-}
-
-// recordReaderImpl is the internal interface implemented for different types
-// enabling reuse of the higher level record reader logic.
-type recordReaderImpl interface {
-	ColumnChunkReader
-	ReadValuesDense(int64) error
-	ReadValuesSpaced(int64, int64) error
-	ReserveValues(int64, bool) error
-	ResetValues()
-	GetValidBits() []byte
-	IncrementWritten(int64, int64)
-	ValuesWritten() int64
-	ReleaseValidBits() *memory.Buffer
-	ReleaseValues() *memory.Buffer
-	NullCount() int64
-	Values() []byte
-	SetPageReader(PageReader)
-	Retain()
-	Release()
-}
-
-type binaryRecordReaderImpl interface {
-	recordReaderImpl
-	GetBuilderChunks() []arrow.Array
-	ReadDictionary() bool
-}
-
-// primitiveRecordReader is a record reader for primitive types, ie: not byte array or fixed len byte array
-type primitiveRecordReader struct {
-	ColumnChunkReader
-
-	valuesWritten int64
-	valuesCap     int64
-	nullCount     int64
-	values        *memory.Buffer
-	validBits     *memory.Buffer
-	mem           memory.Allocator
-
-	refCount  int64
-	useValues bool
-}
-
-func createPrimitiveRecordReader(descr *schema.Column, mem memory.Allocator, bufferPool *sync.Pool) primitiveRecordReader {
-	return primitiveRecordReader{
-		ColumnChunkReader: NewColumnReader(descr, nil, mem, bufferPool),
-		values:            memory.NewResizableBuffer(mem),
-		validBits:         memory.NewResizableBuffer(mem),
-		mem:               mem,
-		refCount:          1,
-		useValues:         descr.PhysicalType() != parquet.Types.ByteArray && descr.PhysicalType() != parquet.Types.FixedLenByteArray,
-	}
-}
-
-func (pr *primitiveRecordReader) Retain() {
-	atomic.AddInt64(&pr.refCount, 1)
-}
-
-func (pr *primitiveRecordReader) Release() {
-	if atomic.AddInt64(&pr.refCount, -1) == 0 {
-		if pr.values != nil {
-			pr.values.Release()
-			pr.values = nil
-		}
-		if pr.validBits != nil {
-			pr.validBits.Release()
-			pr.validBits = nil
-		}
-	}
-}
-
-func (pr *primitiveRecordReader) SetPageReader(rdr PageReader) {
-	pr.ColumnChunkReader.setPageReader(rdr)
-}
-
-func (pr *primitiveRecordReader) ReleaseValidBits() *memory.Buffer {
-	res := pr.validBits
-	res.Resize(int(bitutil.BytesForBits(pr.valuesWritten)))
-	pr.validBits = memory.NewResizableBuffer(pr.mem)
-	return res
-}
-
-func (pr *primitiveRecordReader) ReleaseValues() (res *memory.Buffer) {
-	res = pr.values
-	nbytes, err := pr.numBytesForValues(pr.valuesWritten)
-	if err != nil {
-		panic(err)
-	}
-	res.Resize(int(nbytes))
-	pr.values = memory.NewResizableBuffer(pr.mem)
-	pr.valuesCap = 0
-
-	return
-}
-
-func (pr *primitiveRecordReader) NullCount() int64 { return pr.nullCount }
-
-func (pr *primitiveRecordReader) IncrementWritten(w, n int64) {
-	pr.valuesWritten += w
-	pr.nullCount += n
-}
-func (pr *primitiveRecordReader) GetValidBits() []byte { return pr.validBits.Bytes() }
-func (pr *primitiveRecordReader) ValuesWritten() int64 { return pr.valuesWritten }
-func (pr *primitiveRecordReader) Values() []byte       { return pr.values.Bytes() }
-func (pr *primitiveRecordReader) ResetValues() {
-	if pr.valuesWritten > 0 {
-		pr.values.ResizeNoShrink(0)
-		pr.validBits.ResizeNoShrink(0)
-		pr.valuesWritten = 0
-		pr.valuesCap = 0
-		pr.nullCount = 0
-	}
-}
-
-func (pr *primitiveRecordReader) numBytesForValues(nitems int64) (num int64, err error) {
-	typeSize := int64(pr.Descriptor().PhysicalType().ByteSize())
-	var ok bool
-	if num, ok = overflow.Mul64(nitems, typeSize); !ok {
-		err = xerrors.New("total size of items too large")
-	}
-	return
-}
-
-func (pr *primitiveRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	newCap, err := updateCapacity(pr.valuesCap, pr.valuesWritten, extra)
-	if err != nil {
-		return err
-	}
-	if newCap > pr.valuesCap {
-		capBytes, err := pr.numBytesForValues(newCap)
-		if err != nil {
-			return err
-		}
-		if pr.useValues {
-			pr.values.ResizeNoShrink(int(capBytes))
-		}
-		pr.valuesCap = newCap
-	}
-	if hasNullable {
-		validBytesCap := bitutil.BytesForBits(pr.valuesCap)
-		if pr.validBits.Len() < int(validBytesCap) {
-			pr.validBits.ResizeNoShrink(int(validBytesCap))
-		}
-	}
-	return nil
-}
-
-func (pr *primitiveRecordReader) ReadValuesDense(toRead int64) (err error) {
-	switch cr := pr.ColumnChunkReader.(type) {
-	case *BooleanColumnChunkReader:
-		data := pr.values.Bytes()[int(pr.valuesWritten):]
-		values := *(*[]bool)(unsafe.Pointer(&data))
-		_, err = cr.curDecoder.(encoding.BooleanDecoder).Decode(values[:toRead])
-	case *Int32ColumnChunkReader:
-		values := arrow.Int32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int32Decoder).Decode(values[:toRead])
-	case *Int64ColumnChunkReader:
-		values := arrow.Int64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int64Decoder).Decode(values[:toRead])
-	case *Int96ColumnChunkReader:
-		values := parquet.Int96Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int96Decoder).Decode(values[:toRead])
-	case *ByteArrayColumnChunkReader:
-		values := parquet.ByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.ByteArrayDecoder).Decode(values[:toRead])
-	case *FixedLenByteArrayColumnChunkReader:
-		values := parquet.FixedLenByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.FixedLenByteArrayDecoder).Decode(values[:toRead])
-	case *Float32ColumnChunkReader:
-		values := arrow.Float32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float32Decoder).Decode(values[:toRead])
-	case *Float64ColumnChunkReader:
-		values := arrow.Float64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float64Decoder).Decode(values[:toRead])
-	default:
-		panic("invalid type for record reader")
-	}
-	return
-}
-
-func (pr *primitiveRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) (err error) {
-	validBits := pr.validBits.Bytes()
-	offset := pr.valuesWritten
-
-	switch cr := pr.ColumnChunkReader.(type) {
-	case *BooleanColumnChunkReader:
-		data := pr.values.Bytes()[int(pr.valuesWritten):]
-		values := *(*[]bool)(unsafe.Pointer(&data))
-		_, err = cr.curDecoder.(encoding.BooleanDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int32ColumnChunkReader:
-		values := arrow.Int32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int32Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int64ColumnChunkReader:
-		values := arrow.Int64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int64Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int96ColumnChunkReader:
-		values := parquet.Int96Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int96Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *ByteArrayColumnChunkReader:
-		values := parquet.ByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.ByteArrayDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *FixedLenByteArrayColumnChunkReader:
-		values := parquet.FixedLenByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.FixedLenByteArrayDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Float32ColumnChunkReader:
-		values := arrow.Float32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float32Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Float64ColumnChunkReader:
-		values := arrow.Float64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float64Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	default:
-		panic("invalid type for record reader")
-	}
-	return
-}
-
-type recordReader struct {
-	recordReaderImpl
-	leafInfo LevelInfo
-
-	atRecStart  bool
-	recordsRead int64
-
-	levelsWritten int64
-	levelsPos     int64
-	levelsCap     int64
-
-	defLevels *memory.Buffer
-	repLevels *memory.Buffer
-
-	refCount int64
-}
-
-// binaryRecordReader is the recordReaderImpl for non-primitive data
-type binaryRecordReader struct {
-	*recordReader
-}
-
-func (b *binaryRecordReader) ReadDictionary() bool {
-	return b.recordReaderImpl.(binaryRecordReaderImpl).ReadDictionary()
-}
-
-func (b *binaryRecordReader) GetBuilderChunks() []arrow.Array {
-	return b.recordReaderImpl.(binaryRecordReaderImpl).GetBuilderChunks()
-}
-
-func newRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	pr := createPrimitiveRecordReader(descr, mem, bufferPool)
-	return &recordReader{
-		refCount:         1,
-		recordReaderImpl: &pr,
-		leafInfo:         info,
-		defLevels:        memory.NewResizableBuffer(mem),
-		repLevels:        memory.NewResizableBuffer(mem),
-	}
-}
-
-func (rr *recordReader) Retain() {
-	atomic.AddInt64(&rr.refCount, 1)
-}
-
-func (rr *recordReader) Release() {
-	if atomic.AddInt64(&rr.refCount, -1) == 0 {
-		rr.recordReaderImpl.Release()
-		rr.defLevels.Release()
-		rr.repLevels.Release()
-		rr.defLevels, rr.repLevels = nil, nil
-	}
-}
-
-func (rr *recordReader) DefLevels() []int16 {
-	return arrow.Int16Traits.CastFromBytes(rr.defLevels.Bytes())
-}
-
-func (rr *recordReader) RepLevels() []int16 {
-	return arrow.Int16Traits.CastFromBytes(rr.repLevels.Bytes())
-}
-
-func (rr *recordReader) HasMore() bool {
-	return rr.pager() != nil
-}
-
-func (rr *recordReader) SetPageReader(pr PageReader) {
-	rr.atRecStart = true
-	rr.recordReaderImpl.SetPageReader(pr)
-}
-
-func (rr *recordReader) ValuesWritten() int {
-	return int(rr.recordReaderImpl.ValuesWritten())
-}
-
-func (rr *recordReader) LevelsPos() int64 { return rr.levelsPos }
-
-func updateCapacity(cap, size, extra int64) (int64, error) {
-	if extra < 0 {
-		return 0, xerrors.New("negative size (corrupt file?)")
-	}
-	target, ok := overflow.Add64(size, extra)
-	if !ok {
-		return 0, xerrors.New("allocation size too large (corrupt file?)")
-	}
-	if target >= (1 << 62) {
-		return 0, xerrors.New("allocation size too large (corrupt file?)")
-	}
-	if cap >= target {
-		return cap, nil
-	}
-	return int64(bitutil.NextPowerOf2(int(target))), nil
-}
-
-func (rr *recordReader) Reserve(cap int64) error {
-	if err := rr.reserveLevels(cap); err != nil {
-		return err
-	}
-	if err := rr.reserveValues(cap); err != nil {
-		return err
-	}
-	return nil
-}
-
-func (rr *recordReader) reserveLevels(extra int64) error {
-	if rr.Descriptor().MaxDefinitionLevel() > 0 {
-		newCap, err := updateCapacity(rr.levelsCap, rr.levelsWritten, extra)
-		if err != nil {
-			return err
-		}
-
-		if newCap > rr.levelsCap {
-			capBytes, ok := overflow.Mul(int(newCap), arrow.Int16SizeBytes)
-			if !ok {
-				return fmt.Errorf("allocation size too large (corrupt file?)")
-			}
-			rr.defLevels.ResizeNoShrink(capBytes)
-			if rr.Descriptor().MaxRepetitionLevel() > 0 {
-				rr.repLevels.ResizeNoShrink(capBytes)
-			}
-			rr.levelsCap = newCap
-		}
-	}
-	return nil
-}
-
-func (rr *recordReader) reserveValues(extra int64) error {
-	return rr.recordReaderImpl.ReserveValues(extra, rr.leafInfo.HasNullableValues())
-}
-
-func (rr *recordReader) resetValues() {
-	rr.recordReaderImpl.ResetValues()
-}
-
-func (rr *recordReader) Reset() {
-	rr.resetValues()
-
-	if rr.levelsWritten > 0 {
-		remain := int(rr.levelsWritten - rr.levelsPos)
-		// shift remaining levels to beginning of buffer and trim only the
-		// number decoded remaining
-		defData := rr.DefLevels()
-
-		copy(defData, defData[int(rr.levelsPos):int(rr.levelsWritten)])
-		rr.defLevels.ResizeNoShrink(remain * int(arrow.Int16SizeBytes))
-
-		if rr.Descriptor().MaxRepetitionLevel() > 0 {
-			repData := rr.RepLevels()
-			copy(repData, repData[int(rr.levelsPos):int(rr.levelsWritten)])
-			rr.repLevels.ResizeNoShrink(remain * int(arrow.Int16SizeBytes))
-		}
-
-		rr.levelsWritten -= rr.levelsPos
-		rr.levelsPos = 0
-		rr.levelsCap = int64(remain)
-	}
-
-	rr.recordsRead = 0
-}
-
-// process written rep/def levels to read the end of records
-// process no more levels than necessary to delimit the indicated
-// number of logical records. updates internal state of recordreader
-// returns number of records delimited
-func (rr *recordReader) delimitRecords(numRecords int64) (recordsRead, valsToRead int64) {
-	var (
-		curRep int16
-		curDef int16
-	)
-
-	defLevels := rr.DefLevels()[int(rr.levelsPos):]
-	repLevels := rr.RepLevels()[int(rr.levelsPos):]
-
-	for rr.levelsPos < rr.levelsWritten {
-		curRep, repLevels = repLevels[0], repLevels[1:]
-		if curRep == 0 {
-			// if at record start, we are seeing the start of a record
-			// for the second time, such as after repeated calls to delimitrecords.
-			// in this case we must continue until we find another record start
-			// or exhaust the column chunk
-			if !rr.atRecStart {
-				// end of a record, increment count
-				recordsRead++
-				if recordsRead == numRecords {
-					// found the number of records we wanted, set record start to true and break
-					rr.atRecStart = true
-					break
-				}
-			}
-		}
-		// we have decided to consume the level at this position
-		// advance until we find another boundary
-		rr.atRecStart = false
-
-		curDef, defLevels = defLevels[0], defLevels[1:]
-		if curDef == rr.Descriptor().MaxDefinitionLevel() {
-			valsToRead++
-		}
-		rr.levelsPos++
-	}
-	return
-}
-
-func (rr *recordReader) ReadRecordData(numRecords int64) (int64, error) {
-	possibleNum := utils.Max(numRecords, rr.levelsWritten-rr.levelsPos)
-	if err := rr.reserveValues(possibleNum); err != nil {
-		return 0, err
-	}
-
-	var (
-		startPos     = rr.levelsPos
-		valuesToRead int64
-		recordsRead  int64
-		nullCount    int64
-		err          error
-	)
-
-	if rr.Descriptor().MaxRepetitionLevel() > 0 {
-		recordsRead, valuesToRead = rr.delimitRecords(numRecords)
-	} else if rr.Descriptor().MaxDefinitionLevel() > 0 {
-		// no repetition levels, skip delimiting logic. each level
-		// represents null or not null entry
-		recordsRead = utils.Min(rr.levelsWritten-rr.levelsPos, numRecords)
-		// this is advanced by delimitRecords which we skipped
-		rr.levelsPos += recordsRead
-	} else {
-		recordsRead, valuesToRead = numRecords, numRecords
-	}
-
-	if rr.leafInfo.HasNullableValues() {
-		validityIO := ValidityBitmapInputOutput{
-			ReadUpperBound:  rr.levelsPos - startPos,
-			ValidBits:       rr.GetValidBits(),
-			ValidBitsOffset: rr.recordReaderImpl.ValuesWritten(),
-		}
-		DefLevelsToBitmap(rr.DefLevels()[startPos:int(rr.levelsPos)], rr.leafInfo, &validityIO)
-		valuesToRead = validityIO.Read - validityIO.NullCount
-		nullCount = validityIO.NullCount
-		err = rr.ReadValuesSpaced(validityIO.Read, nullCount)
-	} else {
-		err = rr.ReadValuesDense(valuesToRead)
-	}
-	if err != nil {
-		return 0, err
-	}
-
-	if rr.leafInfo.DefLevel > 0 {
-		rr.consumeBufferedValues(rr.levelsPos - startPos)
-	} else {
-		rr.consumeBufferedValues(valuesToRead)
-	}
-
-	// total values, including nullspaces if any
-	rr.IncrementWritten(valuesToRead+nullCount, nullCount)
-	return recordsRead, nil
-}
-
-const minLevelBatchSize = 1024
-
-func (rr *recordReader) ReadRecords(numRecords int64) (int64, error) {
-	// delimit records, then read values at the end
-	recordsRead := int64(0)
-
-	if rr.levelsPos < rr.levelsWritten {
-		additional, err := rr.ReadRecordData(numRecords)
-		if err != nil {
-			return 0, err
-		}
-		recordsRead += additional
-	}
-
-	levelBatch := utils.Max(minLevelBatchSize, numRecords)
-
-	// if we are in the middle of a record, continue until reaching
-	// the desired number of records or the end of the current record
-	// if we have enough
-	for !rr.atRecStart || recordsRead < numRecords {
-		// is there more data in this row group?
-		if !rr.HasNext() {
-			if !rr.atRecStart {
-				// ended the row group while inside a record we haven't seen
-				// the end of yet. increment the record count for the last record
-				// in the row group
-				recordsRead++
-				rr.atRecStart = true
-			}
-			break
-		}
-
-		// we perform multiple batch reads until we either exhaust the row group
-		// or observe the desired number of records
-		batchSize := utils.Min(levelBatch, rr.numAvailValues())
-		if batchSize == 0 {
-			// no more data in column
-			break
-		}
-
-		if rr.Descriptor().MaxDefinitionLevel() > 0 {
-			if err := rr.reserveLevels(batchSize); err != nil {
-				return 0, err
-			}
-
-			defLevels := rr.DefLevels()[int(rr.levelsWritten):]
-
-			levelsRead := 0
-			// not present for non-repeated fields
-			if rr.Descriptor().MaxRepetitionLevel() > 0 {
-				repLevels := rr.RepLevels()[int(rr.levelsWritten):]
-				levelsRead, _ = rr.readDefinitionLevels(defLevels[:batchSize])
-				if rr.readRepetitionLevels(repLevels[:batchSize]) != levelsRead {
-					return 0, xerrors.New("number of decoded rep/def levels did not match")
-				}
-			} else if rr.Descriptor().MaxDefinitionLevel() > 0 {
-				levelsRead, _ = rr.readDefinitionLevels(defLevels[:batchSize])
-			}
-
-			if levelsRead == 0 {
-				// exhausted column chunk
-				break
-			}
-
-			rr.levelsWritten += int64(levelsRead)
-			read, err := rr.ReadRecordData(numRecords - recordsRead)
-			if err != nil {
-				return recordsRead, err
-			}
-			recordsRead += read
-		} else {
-			// no rep or def levels
-			batchSize = utils.Min(numRecords-recordsRead, batchSize)
-			read, err := rr.ReadRecordData(batchSize)
-			if err != nil {
-				return recordsRead, err
-			}
-			recordsRead += read
-		}
-	}
-
-	return recordsRead, rr.Err()
-}
-
-func (rr *recordReader) ReleaseValidBits() *memory.Buffer {
-	if rr.leafInfo.HasNullableValues() {
-		return rr.recordReaderImpl.ReleaseValidBits()
-	}
-	return nil
-}
-
-// flbaRecordReader is the specialization for optimizing reading fixed-length
-// byte array records.
-type flbaRecordReader struct {
-	primitiveRecordReader
-
-	bldr     *array.FixedSizeBinaryBuilder
-	valueBuf []parquet.FixedLenByteArray
-}
-
-func (fr *flbaRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	fr.bldr.Reserve(int(extra))
-	return fr.primitiveRecordReader.ReserveValues(extra, hasNullable)
-}
-
-func (fr *flbaRecordReader) Retain() {
-	fr.bldr.Retain()
-	fr.primitiveRecordReader.Retain()
-}
-
-func (fr *flbaRecordReader) Release() {
-	fr.bldr.Release()
-	fr.primitiveRecordReader.Release()
-}
-
-func (fr *flbaRecordReader) ReadValuesDense(toRead int64) error {
-	if int64(cap(fr.valueBuf)) < toRead {
-		fr.valueBuf = make([]parquet.FixedLenByteArray, 0, toRead)
-	}
-
-	values := fr.valueBuf[:toRead]
-	dec := fr.ColumnChunkReader.(*FixedLenByteArrayColumnChunkReader).curDecoder.(encoding.FixedLenByteArrayDecoder)
-
-	_, err := dec.Decode(values)
-	if err != nil {
-		return err
-	}
-
-	for _, val := range values {
-		fr.bldr.Append(val)
-	}
-	fr.ResetValues()
-	return nil
-}
-
-func (fr *flbaRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := fr.validBits.Bytes()
-	offset := fr.valuesWritten
-
-	if int64(cap(fr.valueBuf)) < valuesWithNulls {
-		fr.valueBuf = make([]parquet.FixedLenByteArray, 0, valuesWithNulls)
-	}
-
-	values := fr.valueBuf[:valuesWithNulls]
-	dec := fr.ColumnChunkReader.(*FixedLenByteArrayColumnChunkReader).curDecoder.(encoding.FixedLenByteArrayDecoder)
-	_, err := dec.DecodeSpaced(values, int(nullCount), validBits, offset)
-	if err != nil {
-		return err
-	}
-
-	for idx, val := range values {
-		if bitutil.BitIsSet(validBits, int(offset)+idx) {
-			fr.bldr.Append(val)
-		} else {
-			fr.bldr.AppendNull()
-		}
-	}
-	fr.ResetValues()
-	return nil
-}
-
-func (fr *flbaRecordReader) GetBuilderChunks() []arrow.Array {
-	return []arrow.Array{fr.bldr.NewArray()}
-}
-
-func (fr *flbaRecordReader) ReadDictionary() bool { return false }
-
-func newFLBARecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	byteWidth := descr.TypeLength()
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &flbaRecordReader{
-			createPrimitiveRecordReader(descr, mem, bufferPool),
-			array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: byteWidth}),
-			nil,
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-// byteArrayRecordReader is the specialization impl for byte-array columns
-type byteArrayRecordReader struct {
-	primitiveRecordReader
-
-	bldr     array.Builder
-	valueBuf []parquet.ByteArray
-}
-
-func newByteArrayRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	dt, ok := dtype.(arrow.BinaryDataType)
-	// arrow.DecimalType will also come through here, which we want to treat as binary
-	if !ok {
-		dt = arrow.BinaryTypes.Binary
-	}
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &byteArrayRecordReader{
-			createPrimitiveRecordReader(descr, mem, bufferPool),
-			array.NewBinaryBuilder(mem, dt),
-			nil,
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-func (br *byteArrayRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	br.bldr.Reserve(int(extra))
-	return br.primitiveRecordReader.ReserveValues(extra, hasNullable)
-}
-
-func (br *byteArrayRecordReader) Retain() {
-	br.bldr.Retain()
-	br.primitiveRecordReader.Retain()
-}
-
-func (br *byteArrayRecordReader) Release() {
-	br.bldr.Release()
-	br.primitiveRecordReader.Release()
-}
-
-func (br *byteArrayRecordReader) ReadValuesDense(toRead int64) error {
-	if int64(cap(br.valueBuf)) < toRead {
-		br.valueBuf = make([]parquet.ByteArray, 0, toRead)
-	}
-
-	values := br.valueBuf[:toRead]
-	dec := br.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-
-	_, err := dec.Decode(values)
-	if err != nil {
-		return err
-	}
-
-	switch bldr := br.bldr.(type) {
-	case *array.BinaryBuilder:
-		for _, val := range values {
-			bldr.Append(val)
-		}
-	case *array.BinaryDictionaryBuilder:
-		for _, val := range values {
-			if err := bldr.Append(val); err != nil {
-				return err
-			}
-		}
-	}
-
-	br.ResetValues()
-	return nil
-}
-
-func (br *byteArrayRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := br.validBits.Bytes()
-	offset := br.valuesWritten
-
-	if int64(cap(br.valueBuf)) < valuesWithNulls {
-		br.valueBuf = make([]parquet.ByteArray, 0, valuesWithNulls)
-	}
-
-	values := br.valueBuf[:valuesWithNulls]
-	dec := br.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	_, err := dec.DecodeSpaced(values, int(nullCount), validBits, offset)
-	if err != nil {
-		return err
-	}
-
-	switch bldr := br.bldr.(type) {
-	case *array.BinaryBuilder:
-		for idx, val := range values {
-			if bitutil.BitIsSet(validBits, int(offset)+idx) {
-				bldr.Append(val)
-			} else {
-				bldr.AppendNull()
-			}
-		}
-	case *array.BinaryDictionaryBuilder:
-		for idx, val := range values {
-			if bitutil.BitIsSet(validBits, int(offset)+idx) {
-				if err := bldr.Append(val); err != nil {
-					return err
-				}
-			} else {
-				bldr.AppendNull()
-			}
-		}
-	}
-
-	br.ResetValues()
-	return nil
-}
-
-func (br *byteArrayRecordReader) GetBuilderChunks() []arrow.Array {
-	return []arrow.Array{br.bldr.NewArray()}
-}
-
-func (br *byteArrayRecordReader) ReadDictionary() bool { return false }
-
-type byteArrayDictRecordReader struct {
-	byteArrayRecordReader
-
-	resultChunks []arrow.Array
-}
-
-func newByteArrayDictRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	dt := dtype.(*arrow.DictionaryType)
-	if _, ok := dt.ValueType.(arrow.BinaryDataType); !ok {
-		dt.ValueType = arrow.BinaryTypes.Binary
-	}
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &byteArrayDictRecordReader{
-			byteArrayRecordReader: byteArrayRecordReader{
-				createPrimitiveRecordReader(descr, mem, bufferPool),
-				array.NewDictionaryBuilder(mem, dt),
-				nil,
-			},
-			resultChunks: make([]arrow.Array, 0),
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-func (bd *byteArrayDictRecordReader) GetBuilderChunks() []arrow.Array {
-	bd.flushBuilder()
-	chunks := bd.resultChunks
-	bd.resultChunks = make([]arrow.Array, 0, 1)
-	return chunks
-}
-
-func (bd *byteArrayDictRecordReader) flushBuilder() {
-	if bd.bldr.Len() > 0 {
-		chunk := bd.bldr.NewArray()
-		bd.resultChunks = append(bd.resultChunks, chunk)
-	}
-}
-
-func (bd *byteArrayDictRecordReader) maybeWriteNewDictionary() error {
-	rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-	if rdr.newDictionary {
-		// if there is a new dictionary, we may need to flush the builder,
-		// then insert the new dictionary values
-		bd.flushBuilder()
-		bd.bldr.(*array.BinaryDictionaryBuilder).ResetFull()
-		dec := rdr.curDecoder.(*encoding.DictByteArrayDecoder)
-		if err := dec.InsertDictionary(bd.bldr); err != nil {
-			return err
-		}
-		rdr.newDictionary = false
-	}
-	return nil
-}
-
-func (bd *byteArrayDictRecordReader) ReadValuesDense(toRead int64) error {
-	dec := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	if dec.Encoding() == parquet.Encodings.RLEDict {
-		if err := bd.maybeWriteNewDictionary(); err != nil {
-			return err
-		}
-
-		rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-		_, err := rdr.curDecoder.(*encoding.DictByteArrayDecoder).DecodeIndices(int(toRead), bd.bldr)
-		return err
-	}
-	return bd.byteArrayRecordReader.ReadValuesDense(toRead)
-}
-
-func (bd *byteArrayDictRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := bd.validBits.Bytes()
-	offset := bd.valuesWritten
-
-	dec := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	if dec.Encoding() == parquet.Encodings.RLEDict {
-		if err := bd.maybeWriteNewDictionary(); err != nil {
-			return err
-		}
-
-		rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-		_, err := rdr.curDecoder.(*encoding.DictByteArrayDecoder).DecodeIndicesSpaced(int(valuesWithNulls), int(nullCount), validBits, offset, bd.bldr)
-		return err
-
-	}
-
-	return bd.byteArrayRecordReader.ReadValuesSpaced(valuesWithNulls, int64(nullCount))
-}
-
-func (bd *byteArrayDictRecordReader) ReadDictionary() bool { return true }
-
-func NewRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	switch descr.PhysicalType() {
-	case parquet.Types.ByteArray:
-		if dtype.ID() == arrow.DICTIONARY {
-			return newByteArrayDictRecordReader(descr, info, dtype, mem, bufferPool)
-		}
-		return newByteArrayRecordReader(descr, info, dtype, mem, bufferPool)
-	case parquet.Types.FixedLenByteArray:
-		return newFLBARecordReader(descr, info, mem, bufferPool)
-	default:
-		return newRecordReader(descr, info, mem, bufferPool)
-	}
-}
diff --git a/go/parquet/file/row_group_reader.go b/go/parquet/file/row_group_reader.go
deleted file mode 100644
index 25ca6d87d895f..0000000000000
--- a/go/parquet/file/row_group_reader.go
+++ /dev/null
@@ -1,144 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-const (
-	maxDictHeaderSize int64 = 100
-)
-
-// RowGroupReader is the primary interface for reading a single row group
-type RowGroupReader struct {
-	r             parquet.ReaderAtSeeker
-	sourceSz      int64
-	fileMetadata  *metadata.FileMetaData
-	rgMetadata    *metadata.RowGroupMetaData
-	props         *parquet.ReaderProperties
-	fileDecryptor encryption.FileDecryptor
-
-	bufferPool *sync.Pool
-}
-
-// MetaData returns the metadata of the current Row Group
-func (r *RowGroupReader) MetaData() *metadata.RowGroupMetaData { return r.rgMetadata }
-
-// NumColumns returns the number of columns of data as defined in the metadata of this row group
-func (r *RowGroupReader) NumColumns() int { return r.rgMetadata.NumColumns() }
-
-// NumRows returns the number of rows in just this row group
-func (r *RowGroupReader) NumRows() int64 { return r.rgMetadata.NumRows() }
-
-// ByteSize returns the full byte size of this row group as defined in its metadata
-func (r *RowGroupReader) ByteSize() int64 { return r.rgMetadata.TotalByteSize() }
-
-// Column returns a column reader for the requested (0-indexed) column
-//
-// panics if passed a column not in the range [0, NumColumns)
-func (r *RowGroupReader) Column(i int) (ColumnChunkReader, error) {
-	if i >= r.NumColumns() || i < 0 {
-		return nil, fmt.Errorf("parquet: trying to read column index %d but row group metadata only has %d columns", i, r.rgMetadata.NumColumns())
-	}
-
-	descr := r.fileMetadata.Schema.Column(i)
-	pageRdr, err := r.GetColumnPageReader(i)
-	if err != nil {
-		return nil, fmt.Errorf("parquet: unable to initialize page reader: %w", err)
-	}
-	return NewColumnReader(descr, pageRdr, r.props.Allocator(), r.bufferPool), nil
-}
-
-func (r *RowGroupReader) GetColumnPageReader(i int) (PageReader, error) {
-	col, err := r.rgMetadata.ColumnChunk(i)
-	if err != nil {
-		return nil, err
-	}
-
-	colStart := col.DataPageOffset()
-	if col.HasDictionaryPage() && col.DictionaryPageOffset() > 0 && colStart > col.DictionaryPageOffset() {
-		colStart = col.DictionaryPageOffset()
-	}
-
-	colLen := col.TotalCompressedSize()
-	// PARQUET-816 workaround for old files created by older parquet-mr
-	if r.fileMetadata.WriterVersion().LessThan(metadata.Parquet816FixedVersion) {
-		// The Parquet MR writer had a bug in 1.2.8 and below where it didn't include the
-		// dictionary page header size in total_compressed_size and total_uncompressed_size
-		// (see IMPALA-694). We add padding to compensate.
-		if colStart < 0 || colLen < 0 {
-			return nil, fmt.Errorf("invalid column chunk metadata, offset (%d) and length (%d) should both be positive", colStart, colLen)
-		}
-		if colStart > r.sourceSz || colLen > r.sourceSz {
-			return nil, fmt.Errorf("invalid column chunk metadata, offset (%d) and length (%d) must both be less than total source size (%d)", colStart, colLen, r.sourceSz)
-		}
-		bytesRemain := r.sourceSz - (colStart + colLen)
-		padding := utils.Min(maxDictHeaderSize, bytesRemain)
-		colLen += padding
-	}
-
-	stream, err := r.props.GetStream(r.r, colStart, colLen)
-	if err != nil {
-		return nil, err
-	}
-
-	cryptoMetadata := col.CryptoMetadata()
-	if cryptoMetadata == nil {
-		return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), nil)
-	}
-
-	if r.fileDecryptor == nil {
-		return nil, xerrors.New("column in rowgroup is encrypted, but no file decryptor")
-	}
-
-	const encryptedRowGroupsLimit = 32767
-	if i > encryptedRowGroupsLimit {
-		return nil, xerrors.New("encrypted files cannot contain more than 32767 column chunks")
-	}
-
-	if cryptoMetadata.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		ctx := CryptoContext{
-			StartDecryptWithDictionaryPage: col.HasDictionaryPage(),
-			RowGroupOrdinal:                r.rgMetadata.Ordinal(),
-			ColumnOrdinal:                  int16(i),
-			MetaDecryptor:                  r.fileDecryptor.GetFooterDecryptorForColumnMeta(""),
-			DataDecryptor:                  r.fileDecryptor.GetFooterDecryptorForColumnData(""),
-		}
-		return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), &ctx)
-	}
-
-	// column encrypted with it's own key
-	columnKeyMeta := cryptoMetadata.GetENCRYPTION_WITH_COLUMN_KEY().KeyMetadata
-	columnPath := cryptoMetadata.GetENCRYPTION_WITH_COLUMN_KEY().PathInSchema
-
-	ctx := CryptoContext{
-		StartDecryptWithDictionaryPage: col.HasDictionaryPage(),
-		RowGroupOrdinal:                r.rgMetadata.Ordinal(),
-		ColumnOrdinal:                  int16(i),
-		MetaDecryptor:                  r.fileDecryptor.GetColumnMetaDecryptor(parquet.ColumnPath(columnPath).String(), string(columnKeyMeta), ""),
-		DataDecryptor:                  r.fileDecryptor.GetColumnDataDecryptor(parquet.ColumnPath(columnPath).String(), string(columnKeyMeta), ""),
-	}
-	return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), &ctx)
-}
diff --git a/go/parquet/file/row_group_writer.go b/go/parquet/file/row_group_writer.go
deleted file mode 100644
index d18ff270939d2..0000000000000
--- a/go/parquet/file/row_group_writer.go
+++ /dev/null
@@ -1,255 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// RowGroupWriter is the base interface for writing rowgroups, the actual writer
-// will be either the SerialRowGroupWriter or the BufferedRowGroupWriter
-type RowGroupWriter interface {
-	// Returns the number of columns for this row group writer
-	NumColumns() int
-	// returns the current number of rows that have been written.
-	// Returns an error if they are unequal between columns that have been written so far
-	NumRows() (int, error)
-	// The total compressed bytes so
-	TotalCompressedBytes() int64
-	// the total bytes written and flushed out
-	TotalBytesWritten() int64
-	// Closes any unclosed columnwriters, and closes the rowgroup, writing out
-	// the metadata. subsequent calls have no effect
-	// returns an error if columns contain unequal numbers of rows.
-	Close() error
-	// Buffered returns true if it's a BufferedRowGroupWriter and false for a
-	// SerialRowGroupWriter
-	Buffered() bool
-}
-
-// SerialRowGroupWriter expects each column to be written one after the other,
-// data is flushed every time NextColumn is called and will panic if there is
-// an unequal number of rows written per column.
-type SerialRowGroupWriter interface {
-	RowGroupWriter
-	NextColumn() (ColumnChunkWriter, error)
-	// returns the current column being built, if buffered it will equal NumColumns
-	// if serialized then it will return which column is currently being written
-	CurrentColumn() int
-}
-
-// BufferedRowGroupWriter allows writing to multiple columns simultaneously, data
-// will not be flushed to the underlying writer until closing the RowGroupWriter.
-//
-// All columns must have equal numbers of rows before closing the row group or it will panic.
-type BufferedRowGroupWriter interface {
-	RowGroupWriter
-	Column(i int) (ColumnChunkWriter, error)
-}
-
-type rowGroupWriter struct {
-	sink          utils.WriterTell
-	metadata      *metadata.RowGroupMetaDataBuilder
-	props         *parquet.WriterProperties
-	bytesWritten  int64
-	closed        bool
-	ordinal       int16
-	nextColumnIdx int
-	nrows         int
-	buffered      bool
-	fileEncryptor encryption.FileEncryptor
-
-	columnWriters []ColumnChunkWriter
-	pager         PageWriter
-}
-
-func newRowGroupWriter(sink utils.WriterTell, metadata *metadata.RowGroupMetaDataBuilder, ordinal int16, props *parquet.WriterProperties, buffered bool, fileEncryptor encryption.FileEncryptor) *rowGroupWriter {
-	ret := &rowGroupWriter{
-		sink:          sink,
-		metadata:      metadata,
-		props:         props,
-		ordinal:       ordinal,
-		buffered:      buffered,
-		fileEncryptor: fileEncryptor,
-	}
-	if buffered {
-		ret.initColumns()
-	} else {
-		ret.columnWriters = []ColumnChunkWriter{nil}
-	}
-	return ret
-}
-
-func (rg *rowGroupWriter) Buffered() bool { return rg.buffered }
-
-func (rg *rowGroupWriter) checkRowsWritten() error {
-	if len(rg.columnWriters) == 0 {
-		return nil
-	}
-
-	if !rg.buffered && rg.columnWriters[0] != nil {
-		current := rg.columnWriters[0].RowsWritten()
-		if rg.nrows == 0 {
-			rg.nrows = current
-		} else if rg.nrows != current {
-			return xerrors.Errorf("row mismatch for unbuffered row group: %d, count expected: %d, actual: %d", rg.ordinal, current, rg.nrows)
-		}
-	} else if rg.buffered {
-		current := rg.columnWriters[0].RowsWritten()
-		for i, wr := range rg.columnWriters[1:] {
-			if current != wr.RowsWritten() {
-				return xerrors.Errorf("row mismatch for buffered row group: %d, column: %d, count expected: %d, actual: %d", rg.ordinal, i+1, current, wr.RowsWritten())
-			}
-		}
-		rg.nrows = current
-	}
-	return nil
-}
-
-func (rg *rowGroupWriter) NumColumns() int { return rg.metadata.NumColumns() }
-func (rg *rowGroupWriter) NumRows() (int, error) {
-	err := rg.checkRowsWritten()
-	return rg.nrows, err
-}
-
-func (rg *rowGroupWriter) NextColumn() (ColumnChunkWriter, error) {
-	if rg.buffered {
-		panic("next column is not supported when a rowgroup is written by size")
-	}
-	if rg.columnWriters[0] != nil {
-		if err := rg.checkRowsWritten(); err != nil {
-			return nil, err
-		}
-	}
-
-	// throw an error if more columns are being written
-	colMeta := rg.metadata.NextColumnChunk()
-	if rg.columnWriters[0] != nil {
-		if err := rg.columnWriters[0].Close(); err != nil {
-			return nil, err
-		}
-		rg.bytesWritten += rg.columnWriters[0].TotalBytesWritten()
-	}
-	rg.nextColumnIdx++
-
-	path := colMeta.Descr().Path()
-	var (
-		metaEncryptor encryption.Encryptor
-		dataEncryptor encryption.Encryptor
-	)
-	if rg.fileEncryptor != nil {
-		metaEncryptor = rg.fileEncryptor.GetColumnMetaEncryptor(path)
-		dataEncryptor = rg.fileEncryptor.GetColumnDataEncryptor(path)
-	}
-
-	if rg.pager == nil {
-		var err error
-		rg.pager, err = NewPageWriter(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx-1), rg.props.Allocator(), false, metaEncryptor, dataEncryptor)
-		if err != nil {
-			return nil, err
-		}
-	} else {
-		rg.pager.Reset(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx-1), metaEncryptor, dataEncryptor)
-	}
-
-	rg.columnWriters[0] = NewColumnChunkWriter(colMeta, rg.pager, rg.props)
-	return rg.columnWriters[0], nil
-}
-
-func (rg *rowGroupWriter) Column(i int) (ColumnChunkWriter, error) {
-	if !rg.buffered {
-		panic("column is only supported when a bufferedrowgroup is being written")
-	}
-
-	if i >= 0 && i < len(rg.columnWriters) {
-		return rg.columnWriters[i], nil
-	}
-	return nil, xerrors.Errorf("invalid column number requested: %d", i)
-}
-
-func (rg *rowGroupWriter) CurrentColumn() int { return rg.metadata.CurrentColumn() }
-func (rg *rowGroupWriter) TotalCompressedBytes() int64 {
-	total := int64(0)
-	for _, wr := range rg.columnWriters {
-		if wr != nil {
-			total += wr.TotalCompressedBytes()
-		}
-	}
-	return total
-}
-
-func (rg *rowGroupWriter) TotalBytesWritten() int64 {
-	total := int64(0)
-	for _, wr := range rg.columnWriters {
-		if wr != nil {
-			total += wr.TotalBytesWritten()
-		}
-	}
-	return total + rg.bytesWritten
-}
-
-func (rg *rowGroupWriter) Close() error {
-	if !rg.closed {
-		rg.closed = true
-		if err := rg.checkRowsWritten(); err != nil {
-			return err
-		}
-
-		for _, wr := range rg.columnWriters {
-			if wr != nil {
-				if err := wr.Close(); err != nil {
-					return err
-				}
-				rg.bytesWritten += wr.TotalBytesWritten()
-			}
-		}
-
-		rg.columnWriters = nil
-		rg.metadata.SetNumRows(rg.nrows)
-		rg.metadata.Finish(rg.bytesWritten, rg.ordinal)
-	}
-	return nil
-}
-
-func (rg *rowGroupWriter) initColumns() error {
-	if rg.columnWriters == nil {
-		rg.columnWriters = make([]ColumnChunkWriter, 0, rg.NumColumns())
-	}
-	for i := 0; i < rg.NumColumns(); i++ {
-		colMeta := rg.metadata.NextColumnChunk()
-		path := colMeta.Descr().Path()
-		var (
-			metaEncryptor encryption.Encryptor
-			dataEncryptor encryption.Encryptor
-		)
-		if rg.fileEncryptor != nil {
-			metaEncryptor = rg.fileEncryptor.GetColumnMetaEncryptor(path)
-			dataEncryptor = rg.fileEncryptor.GetColumnDataEncryptor(path)
-		}
-		pager, err := NewPageWriter(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx), rg.props.Allocator(), rg.buffered, metaEncryptor, dataEncryptor)
-		if err != nil {
-			return err
-		}
-		rg.nextColumnIdx++
-		rg.columnWriters = append(rg.columnWriters, NewColumnChunkWriter(colMeta, pager, rg.props))
-	}
-	return nil
-}
diff --git a/go/parquet/file/row_group_writer_test.go b/go/parquet/file/row_group_writer_test.go
deleted file mode 100644
index 0074611235245..0000000000000
--- a/go/parquet/file/row_group_writer_test.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBufferedRowGroupNulls(t *testing.T) {
-	type SimpleSchema struct {
-		Col1 *int32
-		Col2 *float32
-		Col3 *float64
-		Col4 *int64
-	}
-
-	data := []SimpleSchema{
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{nil, thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), nil, thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), nil, thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), nil},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-	}
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	sc, err := schema.NewSchemaFromStruct(SimpleSchema{})
-	assert.NoError(t, err)
-
-	writer := file.NewParquetWriter(sink, sc.Root())
-	rgWriter := writer.AppendBufferedRowGroup()
-
-	for _, d := range data {
-		cw, _ := rgWriter.Column(0)
-		if d.Col1 != nil {
-			cw.(*file.Int32ColumnChunkWriter).WriteBatch([]int32{*d.Col1}, []int16{1}, nil)
-		} else {
-			cw.(*file.Int32ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(1)
-		if d.Col2 != nil {
-			cw.(*file.Float32ColumnChunkWriter).WriteBatch([]float32{*d.Col2}, []int16{1}, nil)
-		} else {
-			cw.(*file.Float32ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(2)
-		if d.Col3 != nil {
-			cw.(*file.Float64ColumnChunkWriter).WriteBatch([]float64{*d.Col3}, []int16{1}, nil)
-		} else {
-			cw.(*file.Float64ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(3)
-		if d.Col4 != nil {
-			cw.(*file.Int64ColumnChunkWriter).WriteBatch([]int64{*d.Col4}, []int16{1}, nil)
-		} else {
-			cw.(*file.Int64ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-	}
-
-	rgWriter.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	rgr := reader.RowGroup(0)
-	assert.EqualValues(t, len(data), rgr.NumRows())
-}
diff --git a/go/parquet/internal/bmi/Makefile b/go/parquet/internal/bmi/Makefile
deleted file mode 100644
index f196d81924389..0000000000000
--- a/go/parquet/internal/bmi/Makefile
+++ /dev/null
@@ -1,47 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-# since we're passing an int16, swap the MOVQ for the argument to a MOVW as per
-# the message given by go vet since it's a 2-byte value.
-PERL_FIXUP_MOVQ_MOVW=perl -i -pe 's/MOVQ rhs\+16\(FP\)/MOVW rhs+16(FP)/'
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-GO_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-INTEL_SOURCES := \
-	bitmap_bmi2.s
-
-.PHONEY: assembly
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bitmap_bmi2.s: _lib/bitmap_bmi2.c
-	$(CC) -S $(ASM_FLAGS_AVX2) $(ASM_FLAGS_BMI2) $(ASM_FLAGS_POPCNT) $(C_FLAGS)  $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-bitmap_bmi2.s: _lib/bitmap_bmi2.s
-	$(C2GOASM) $^ $@ ; $(PERL_FIXUP_MOVQ_MOVW) $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f _lib/$(INTEL_SOURCES)
diff --git a/go/parquet/internal/bmi/_lib/arch.h b/go/parquet/internal/bmi/_lib/arch.h
deleted file mode 100755
index 1d060277a3bb9..0000000000000
--- a/go/parquet/internal/bmi/_lib/arch.h
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__BMI2__)
-    #include <x86intrin.h>
-    #define FULL_NAME(x) x##_bmi2
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/parquet/internal/bmi/_lib/bitmap_bmi2.c b/go/parquet/internal/bmi/_lib/bitmap_bmi2.c
deleted file mode 100644
index a020294fd6a38..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_bmi2.c
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#if !defined(__ARM_NEON) && !defined(__ARM_NEON__)
-// don't compile this for ARM, the pure go lookup table version
-// is more performant anyways since ARM doesn't have a BMI2/pext_u64
-// instruction we can call directly.
-uint64_t FULL_NAME(extract_bits)(uint64_t bitmap, uint64_t select_bitmap) {
-#if defined(__BMI2__)
-   return (uint64_t)(_pext_u64(bitmap, select_bitmap));
-#else
-  uint64_t res = 0;
-  for (uint64_t bp = 1; select_bitmap != 0; bp += bp) {
-    if (bitmap & select_bitmap & -select_bitmap) {
-      res |= bp;
-    }
-    select_bitmap &= (select_bitmap - 1);
-  }
-  return res;
-#endif
-}
-
-#endif
-
-uint64_t FULL_NAME(levels_to_bitmap)(const int16_t* levels, const int num_levels, const int16_t rhs) {
-  uint64_t mask = 0;
-  for (int x = 0; x < num_levels; x++) {
-    mask |= (uint64_t)(levels[x] > rhs ? 1 : 0) << x;
-  }
-  return mask;
-}
diff --git a/go/parquet/internal/bmi/_lib/bitmap_bmi2.s b/go/parquet/internal/bmi/_lib/bitmap_bmi2.s
deleted file mode 100644
index 1176b46428c59..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_bmi2.s
+++ /dev/null
@@ -1,140 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_bmi2.c"
-	.globl	extract_bits_bmi2                    # -- Begin function extract_bits_bmi2
-	.p2align	4, 0x90
-	.type	extract_bits_bmi2,@function
-extract_bits_bmi2:                           # @extract_bits_bmi2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	pext	rax, rdi, rsi
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	extract_bits_bmi2, .Lfunc_end0-extract_bits_bmi2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function levels_to_bitmap_bmi2
-.LCPI1_0:
-	.quad	0                               # 0x0
-	.quad	1                               # 0x1
-	.quad	2                               # 0x2
-	.quad	3                               # 0x3
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI1_1:
-	.quad	4                               # 0x4
-.LCPI1_2:
-	.quad	8                               # 0x8
-.LCPI1_3:
-	.quad	12                              # 0xc
-.LCPI1_4:
-	.quad	1                               # 0x1
-.LCPI1_5:
-	.quad	16                              # 0x10
-	.text
-	.globl	levels_to_bitmap_bmi2
-	.p2align	4, 0x90
-	.type	levels_to_bitmap_bmi2,@function
-levels_to_bitmap_bmi2:                       # @levels_to_bitmap_bmi2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB1_4
-# %bb.3:
-	xor	esi, esi
-	xor	eax, eax
-	jmp	.LBB1_7
-.LBB1_1:
-	xor	eax, eax
-	jmp	.LBB1_8
-.LBB1_4:
-	mov	esi, r8d
-	and	esi, -16
-	vmovd	xmm0, edx
-	vpbroadcastw	xmm1, xmm0
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [0,1,2,3]
-	vpbroadcastq	ymm12, qword ptr [rip + .LCPI1_1] # ymm12 = [4,4,4,4]
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI1_2] # ymm4 = [8,8,8,8]
-	vpbroadcastq	ymm5, qword ptr [rip + .LCPI1_3] # ymm5 = [12,12,12,12]
-	vpbroadcastq	ymm6, qword ptr [rip + .LCPI1_4] # ymm6 = [1,1,1,1]
-	vpbroadcastq	ymm7, qword ptr [rip + .LCPI1_5] # ymm7 = [16,16,16,16]
-	xor	eax, eax
-	vpxor	xmm8, xmm8, xmm8
-	vpxor	xmm9, xmm9, xmm9
-	vpxor	xmm10, xmm10, xmm10
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm11, ymm12, ymm2
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 8] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpaddq	ymm11, ymm2, ymm4
-	vpor	ymm8, ymm8, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 16] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpaddq	ymm11, ymm2, ymm5
-	vpor	ymm9, ymm9, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 24] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpor	ymm10, ymm10, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax]   # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm2
-	vpor	ymm0, ymm3, ymm0
-	add	rax, 16
-	vpaddq	ymm2, ymm2, ymm7
-	cmp	rsi, rax
-	jne	.LBB1_5
-# %bb.6:
-	vpor	ymm0, ymm8, ymm0
-	vpor	ymm0, ymm9, ymm0
-	vpor	ymm0, ymm10, ymm0
-	vextracti128	xmm1, ymm0, 1
-	vpor	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpor	xmm0, xmm0, xmm1
-	vmovq	rax, xmm0
-	cmp	rsi, r8
-	je	.LBB1_8
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	xor	ecx, ecx
-	cmp	word ptr [rdi + 2*rsi], dx
-	setg	cl
-	shlx	rcx, rcx, rsi
-	or	rax, rcx
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB1_7
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	levels_to_bitmap_bmi2, .Lfunc_end1-levels_to_bitmap_bmi2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-++20210204121720+1fdec59bffc1-1~exp1~20210203232336.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/bmi/_lib/bitmap_neon.s b/go/parquet/internal/bmi/_lib/bitmap_neon.s
deleted file mode 100644
index d1d146f55cfab..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_neon.s
+++ /dev/null
@@ -1,95 +0,0 @@
-	.text
-	.file	"bitmap_bmi2.c"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4               // -- Begin function levels_to_bitmap_neon
-.LCPI1_0:
-	.xword	0                       // 0x0
-	.xword	1                       // 0x1
-	.text
-	.globl	levels_to_bitmap_neon
-	.p2align	2
-	.type	levels_to_bitmap_neon,@function
-levels_to_bitmap_neon:                  // @levels_to_bitmap_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB1_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w9, w1
-	b.hi	.LBB1_4
-// %bb.2:
-	mov	x10, xzr
-	mov	x8, xzr
-	b	.LBB1_7
-.LBB1_3:
-	mov	x8, xzr
-	b	.LBB1_8
-.LBB1_4:
-	adrp	x11, .LCPI1_0
-	ldr	q1, [x11, :lo12:.LCPI1_0]
-	mov	w11, #2
-	dup	v3.2s, w2
-	dup	v2.2d, x11
-	mov	w11, #1
-	and	x10, x9, #0xfffffffc
-	shl	v4.2s, v3.2s, #16
-	dup	v3.2d, x11
-	mov	w11, #4
-	add	x8, x0, #4              // =4
-	movi	v0.2d, #0000000000000000
-	sshr	v4.2s, v4.2s, #16
-	dup	v5.2d, x11
-	mov	x11, x10
-	movi	v6.2d, #0000000000000000
-.LBB1_5:                                // =>This Inner Loop Header: Depth=1
-	ldursh	w12, [x8, #-4]
-	ldrsh	w13, [x8]
-	ldursh	w14, [x8, #-2]
-	add	v17.2d, v1.2d, v2.2d
-	fmov	s7, w12
-	ldrsh	w12, [x8, #2]
-	fmov	s16, w13
-	mov	v7.s[1], w14
-	cmgt	v7.2s, v7.2s, v4.2s
-	mov	v16.s[1], w12
-	cmgt	v16.2s, v16.2s, v4.2s
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	and	v7.16b, v7.16b, v3.16b
-	and	v16.16b, v16.16b, v3.16b
-	ushl	v7.2d, v7.2d, v1.2d
-	ushl	v16.2d, v16.2d, v17.2d
-	subs	x11, x11, #4            // =4
-	add	v1.2d, v1.2d, v5.2d
-	orr	v0.16b, v7.16b, v0.16b
-	orr	v6.16b, v16.16b, v6.16b
-	add	x8, x8, #8              // =8
-	b.ne	.LBB1_5
-// %bb.6:
-	orr	v0.16b, v6.16b, v0.16b
-	dup	v1.2d, v0.d[1]
-	orr	v0.16b, v0.16b, v1.16b
-	cmp	x10, x9
-	fmov	x8, d0
-	b.eq	.LBB1_8
-.LBB1_7:                                // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x0, x10, lsl #1]
-	cmp	w11, w2, sxth
-	cset	w11, gt
-	lsl	x11, x11, x10
-	add	x10, x10, #1            // =1
-	cmp	x9, x10
-	orr	x8, x11, x8
-	b.ne	.LBB1_7
-.LBB1_8:
-	mov	x0, x8
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end1:
-	.size	levels_to_bitmap_neon, .Lfunc_end1-levels_to_bitmap_neon
-                                        // -- End function
-	.ident	"clang version 10.0.0-4ubuntu1 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_386.go b/go/parquet/internal/bmi/bitmap_bmi2_386.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_386.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_amd64.go b/go/parquet/internal/bmi/bitmap_bmi2_amd64.go
deleted file mode 100644
index 7fe5a1654911e..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_amd64.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import "unsafe"
-
-//go:noescape
-func _extract_bits_bmi2(bitmap, selectBitmap uint64) (res uint64)
-
-// extractBitsBMI2 uses BMI2 to call the pext instruction, Parallel Bits Extract
-// in order to quickly and efficiently extract the bits selected in a parallel
-// fashion. See the definition of the PEXT instruction for x86/x86-64 cpus
-func extractBitsBMI2(bitmap, selectBitmap uint64) uint64 {
-	return _extract_bits_bmi2(bitmap, selectBitmap)
-}
-
-//go:noescape
-func _levels_to_bitmap_bmi2(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-
-// greaterThanBitmapBMI2 builds a bitmap where each set bit indicates the corresponding level
-// is greater than the rhs value.
-func greaterThanBitmapBMI2(levels []int16, rhs int16) uint64 {
-	if len(levels) == 0 {
-		return 0
-	}
-
-	var (
-		p1 = unsafe.Pointer(&levels[0])
-		p2 = len(levels)
-		p3 = rhs
-	)
-
-	return _levels_to_bitmap_bmi2(p1, p2, p3)
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_amd64.s b/go/parquet/internal/bmi/bitmap_bmi2_amd64.s
deleted file mode 100644
index 0cd9b68284c05..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_amd64.s
+++ /dev/null
@@ -1,117 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_extract_bits_bmi2(SB), $0-24
-
-	MOVQ bitmap+0(FP), DI
-	MOVQ selectBitmap+8(FP), SI
-
-	LONG $0xf5c2e2c4; BYTE $0xc6 // pext    rax, rdi, rsi
-	MOVQ AX, res+16(FP)
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x010(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x018(SB)/8, $0x0000000000000003
-DATA LCDATA1<>+0x020(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x028(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x030(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x038(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000010
-GLOBL LCDATA1<>(SB), 8, $72
-
-TEXT ·_levels_to_bitmap_bmi2(SB), $0-32
-
-	MOVQ levels+0(FP), DI
-	MOVQ numLevels+8(FP), SI
-	MOVW rhs+16(FP), DX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f // cmp    esi, 15
-	JA   LBB1_4
-	WORD $0xf631             // xor    esi, esi
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_7
-
-LBB1_1:
-	WORD $0xc031 // xor    eax, eax
-	JMP  LBB1_8
-
-LBB1_4:
-	WORD $0x8944; BYTE $0xc6       // mov    esi, r8d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xc26ef9c5               // vmovd    xmm0, edx
-	LONG $0x7979e2c4; BYTE $0xc8   // vpbroadcastw    xmm1, xmm0
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x556ffdc5; BYTE $0x00   // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0x597d62c4; WORD $0x2065 // vpbroadcastq    ymm12, qword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x597de2c4; WORD $0x2865 // vpbroadcastq    ymm4, qword 40[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x597de2c4; WORD $0x306d // vpbroadcastq    ymm5, qword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x597de2c4; WORD $0x3875 // vpbroadcastq    ymm6, qword 56[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x597de2c4; WORD $0x407d // vpbroadcastq    ymm7, qword 64[rbp] /* [rip + .LCPI1_5] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xef3941c4; BYTE $0xc0   // vpxor    xmm8, xmm8, xmm8
-	LONG $0xef3141c4; BYTE $0xc9   // vpxor    xmm9, xmm9, xmm9
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB1_5:
-	LONG $0xdad41dc5               // vpaddq    ymm11, ymm12, ymm2
-	LONG $0x5c7efac5; WORD $0x0847 // vmovq    xmm3, qword [rdi + 2*rax + 8]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xdcd46dc5               // vpaddq    ymm11, ymm2, ymm4
-	LONG $0xc3eb3dc5               // vpor    ymm8, ymm8, ymm3
-	LONG $0x5c7efac5; WORD $0x1047 // vmovq    xmm3, qword [rdi + 2*rax + 16]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xddd46dc5               // vpaddq    ymm11, ymm2, ymm5
-	LONG $0xcbeb35c5               // vpor    ymm9, ymm9, ymm3
-	LONG $0x5c7efac5; WORD $0x1847 // vmovq    xmm3, qword [rdi + 2*rax + 24]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xd3eb2dc5               // vpor    ymm10, ymm10, ymm3
-	LONG $0x1c7efac5; BYTE $0x47   // vmovq    xmm3, qword [rdi + 2*rax]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5e2c4; BYTE $0xda   // vpsllvq    ymm3, ymm3, ymm2
-	LONG $0xc0ebe5c5               // vpor    ymm0, ymm3, ymm0
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0xd7d4edc5               // vpaddq    ymm2, ymm2, ymm7
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB1_5
-	LONG $0xc0ebbdc5               // vpor    ymm0, ymm8, ymm0
-	LONG $0xc0ebb5c5               // vpor    ymm0, ymm9, ymm0
-	LONG $0xc0ebadc5               // vpor    ymm0, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1ebf9c5               // vpor    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1ebf9c5               // vpor    xmm0, xmm0, xmm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x394c; BYTE $0xc6       // cmp    rsi, r8
-	JE   LBB1_8
-
-LBB1_7:
-	WORD $0xc931                 // xor    ecx, ecx
-	LONG $0x77143966             // cmp    word [rdi + 2*rsi], dx
-	WORD $0x9f0f; BYTE $0xd1     // setg    cl
-	LONG $0xf7c9e2c4; BYTE $0xc9 // shlx    rcx, rcx, rsi
-	WORD $0x0948; BYTE $0xc8     // or    rax, rcx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB1_7
-
-LBB1_8:
-	VZEROUPPER
-	MOVQ AX, res+24(FP)
-	RET
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_noasm.go b/go/parquet/internal/bmi/bitmap_bmi2_noasm.go
deleted file mode 100644
index 03be648e011a7..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_noasm.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go b/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_s390x.go b/go/parquet/internal/bmi/bitmap_bmi2_s390x.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_s390x.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_neon_arm64.go b/go/parquet/internal/bmi/bitmap_neon_arm64.go
deleted file mode 100755
index 65471d35288c3..0000000000000
--- a/go/parquet/internal/bmi/bitmap_neon_arm64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import "unsafe"
-
-//go:noescape
-func _levels_to_bitmap_neon(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-
-// greaterThanBitmapNEON builds a bitmap where each set bit indicates the corresponding level
-// is greater than the rhs value.
-func greaterThanBitmapNEON(levels []int16, rhs int16) uint64 {
-	if len(levels) == 0 {
-		return 0
-	}
-
-	var (
-		p1 = unsafe.Pointer(&levels[0])
-		p2 = len(levels)
-		p3 = rhs
-	)
-
-	return _levels_to_bitmap_neon(p1, p2, p3)
-}
diff --git a/go/parquet/internal/bmi/bitmap_neon_arm64.s b/go/parquet/internal/bmi/bitmap_neon_arm64.s
deleted file mode 100755
index abde5843c68e2..0000000000000
--- a/go/parquet/internal/bmi/bitmap_neon_arm64.s
+++ /dev/null
@@ -1,84 +0,0 @@
-//+build !noasm !appengine
-
-// (C2GOASM doesn't work correctly for Arm64)
-// func _levels_to_bitmap_neon(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-TEXT ·_levels_to_bitmap_neon(SB), $0-32
-
-    MOVD levels+0(FP), R0
-    MOVD numLevels+8(FP), R1
-    MOVD rhs+16(FP), R2
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100043f // cmp    w1, #1
-    WORD $0x910003fd // mov    x29, sp
-    BLT LBB1_3
-
-    WORD $0x71000c3f // cmp    w1, #3
-    WORD $0x2a0103e9 // mov    w9, w1
-    BHI LBB1_4
-    WORD $0xaa1f03ea // mov    x10, xzr
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    JMP LBB1_7
-LBB1_3:
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    JMP LBB1_8
-LBB1_4:
-    VMOVQ $0x0000000000000000, $0x0000000000000001, V1 // adrp	x11, .LCPI1_0; ldr q1, [x11, :lo12:.LCPI1_0]
-    WORD $0x5280004b // mov    w11, #2
-    WORD $0x0e040c43 // dup    v3.2s, w2
-    WORD $0x4e080d62 // dup    v2.2d, x11
-    WORD $0x5280002b // mov    w11, #1
-    WORD $0x927e752a // and    x10, x9, #0xfffffffc
-    WORD $0x0f305464 // shl    v4.2s, v3.2s, #16
-    WORD $0x4e080d63 // dup    v3.2d, x11
-    WORD $0x5280008b // mov    w11, #4
-    WORD $0x91001008 // add    x8, x0, #4
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0x0f300484 // sshr    v4.2s, v4.2s, #16
-    WORD $0x4e080d65 // dup    v5.2d, x11
-    WORD $0xaa0a03eb // mov    x11, x10
-    WORD $0x6f00e406 // movi    v6.2d, #0000000000000000
-LBB1_5:
-    WORD $0x78dfc10c // ldursh    w12, [x8, #-4]
-    WORD $0x79c0010d // ldrsh    w13, [x8]
-    WORD $0x78dfe10e // ldursh    w14, [x8, #-2]
-    WORD $0x4ee28431 // add    v17.2d, v1.2d, v2.2d
-    WORD $0x1e270187 // fmov    s7, w12
-    WORD $0x79c0050c // ldrsh    w12, [x8, #2]
-    WORD $0x1e2701b0 // fmov    s16, w13
-    WORD $0x4e0c1dc7 // mov    v7.s[1], w14
-    WORD $0x0ea434e7 // cmgt    v7.2s, v7.2s, v4.2s
-    WORD $0x4e0c1d90 // mov    v16.s[1], w12
-    WORD $0x0ea43610 // cmgt    v16.2s, v16.2s, v4.2s
-    WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-    WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-    WORD $0x4e231ce7 // and    v7.16b, v7.16b, v3.16b
-    WORD $0x4e231e10 // and    v16.16b, v16.16b, v3.16b
-    WORD $0x6ee144e7 // ushl    v7.2d, v7.2d, v1.2d
-    WORD $0x6ef14610 // ushl    v16.2d, v16.2d, v17.2d
-    WORD $0xf100116b // subs    x11, x11, #4
-    WORD $0x4ee58421 // add    v1.2d, v1.2d, v5.2d
-    WORD $0x4ea01ce0 // orr    v0.16b, v7.16b, v0.16b
-    WORD $0x4ea61e06 // orr    v6.16b, v16.16b, v6.16b
-    WORD $0x91002108 // add    x8, x8, #8
-    BNE LBB1_5
-    WORD $0x4ea01cc0 // orr    v0.16b, v6.16b, v0.16b
-    WORD $0x4e180401 // dup    v1.2d, v0.d[1]
-    WORD $0x4ea11c00 // orr    v0.16b, v0.16b, v1.16b
-    WORD $0xeb09015f // cmp    x10, x9
-    WORD $0x9e660008 // fmov    x8, d0
-    BEQ LBB1_8
-LBB1_7:
-    WORD $0x78ea780b // ldrsh    w11, [x0, x10, lsl #1]
-    WORD $0x6b22a17f // cmp    w11, w2, sxth
-    WORD $0x1a9fd7eb // cset    w11, gt
-    WORD $0x9aca216b // lsl    x11, x11, x10
-    WORD $0x9100054a // add    x10, x10, #1
-    WORD $0xeb0a013f // cmp    x9, x10
-    WORD $0xaa080168 // orr    x8, x11, x8
-    BNE LBB1_7
-LBB1_8:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    MOVD R8, res+24(FP)
-    RET
-
diff --git a/go/parquet/internal/bmi/bmi.go b/go/parquet/internal/bmi/bmi.go
deleted file mode 100644
index a12af3e75d8e4..0000000000000
--- a/go/parquet/internal/bmi/bmi.go
+++ /dev/null
@@ -1,275 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package bmi contains helpers for manipulating bitmaps via BMI2 extensions
-// properly falling back to pure go implementations if the CPU doesn't support
-// BMI2.
-package bmi
-
-import "math/bits"
-
-type funcs struct {
-	extractBits func(uint64, uint64) uint64
-	gtbitmap    func([]int16, int16) uint64
-}
-
-var funclist funcs
-
-// ExtractBits performs a Parallel Bit extract as per the PEXT instruction for
-// x86/x86-64 cpus to use the second parameter as a mask to extract the bits from
-// the first argument into a new bitmap.
-//
-// For each bit Set in selectBitmap, the corresponding bits are extracted from bitmap
-// and written to contiguous lower bits of the result, the remaining upper bits are zeroed.
-func ExtractBits(bitmap, selectBitmap uint64) uint64 {
-	return funclist.extractBits(bitmap, selectBitmap)
-}
-
-// GreaterThanBitmap builds a bitmap where each bit corresponds to whether or not
-// the level in that index is greater than the value of rhs.
-func GreaterThanBitmap(levels []int16, rhs int16) uint64 {
-	return funclist.gtbitmap(levels, rhs)
-}
-
-/* Python code to generate lookup table:
-kLookupBits = 5
-count = 0
-print('constexpr int kLookupBits = {};'.format(kLookupBits))
-print('constexpr uint8_t kPextTable[1 << kLookupBits][1 << kLookupBits] = {')
-print(' ', end = '')
-for mask in range(1 << kLookupBits):
-    for data in range(1 << kLookupBits):
-        bit_value = 0
-        bit_len = 0
-        for i in range(kLookupBits):
-            if mask & (1 << i):
-                bit_value |= (((data >> i) & 1) << bit_len)
-                bit_len += 1
-        out = '0x{:02X},'.format(bit_value)
-        count += 1
-        if count % (1 << kLookupBits) == 1:
-            print(' {')
-        if count % 8 == 1:
-            print('    ', end = '')
-        if count % 8 == 0:
-            print(out, end = '\n')
-        else:
-            print(out, end = ' ')
-        if count % (1 << kLookupBits) == 0:
-            print('  },', end = '')
-print('\n};')
-*/
-
-const lookupBits = 5
-
-var pextTable = [1 << lookupBits][1 << lookupBits]uint8{
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00,
-		0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01,
-		0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00,
-		0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02,
-		0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01,
-		0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00,
-		0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01,
-		0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00,
-		0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03,
-		0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01,
-		0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02,
-		0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02,
-		0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05,
-		0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02,
-		0x03, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-		0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03,
-		0x03, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00,
-		0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
-		0x07, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01,
-		0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02,
-		0x02, 0x03, 0x03, 0x03, 0x03, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01,
-		0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04,
-		0x05, 0x06, 0x07, 0x06, 0x07, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03,
-		0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05,
-		0x05, 0x06, 0x06, 0x07, 0x07, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02,
-		0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A,
-		0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05,
-		0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00,
-		0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-		0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01,
-		0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02,
-		0x03, 0x03, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02,
-		0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05,
-		0x06, 0x07, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00,
-		0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03,
-		0x03, 0x03, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00,
-		0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07,
-		0x06, 0x07, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01,
-		0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06,
-		0x07, 0x07, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02,
-		0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D,
-		0x0E, 0x0F, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x02, 0x02,
-		0x02, 0x02, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02,
-		0x03, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x04, 0x05,
-		0x04, 0x05, 0x06, 0x07, 0x06, 0x07, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03,
-		0x03, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x04, 0x04,
-		0x05, 0x05, 0x06, 0x06, 0x07, 0x07, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
-		0x07, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x08, 0x09,
-		0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02,
-		0x02, 0x03, 0x03, 0x03, 0x03, 0x04, 0x04, 0x04, 0x04, 0x05, 0x05,
-		0x05, 0x05, 0x06, 0x06, 0x06, 0x06, 0x07, 0x07, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04,
-		0x05, 0x06, 0x07, 0x06, 0x07, 0x08, 0x09, 0x08, 0x09, 0x0A, 0x0B,
-		0x0A, 0x0B, 0x0C, 0x0D, 0x0C, 0x0D, 0x0E, 0x0F, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05,
-		0x05, 0x06, 0x06, 0x07, 0x07, 0x08, 0x08, 0x09, 0x09, 0x0A, 0x0A,
-		0x0B, 0x0B, 0x0C, 0x0C, 0x0D, 0x0D, 0x0E, 0x0E, 0x0F, 0x0F,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A,
-		0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x10, 0x11, 0x12, 0x13, 0x14, 0x15,
-		0x16, 0x17, 0x18, 0x19, 0x1A, 0x1B, 0x1C, 0x1D, 0x1E, 0x1F,
-	},
-}
-
-// software emulation of _pext_u64
-func extractBitsGo(bitmap, selectBitmap uint64) uint64 {
-	if selectBitmap == ^uint64(0) {
-		return bitmap
-	} else if selectBitmap == 0 {
-		return 0
-	}
-
-	// fallback to lookup table method
-	bitValue := uint64(0)
-	bitLen := int(0)
-	const lookupMask = uint64((uint(1) << lookupBits) - 1)
-
-	for selectBitmap != 0 {
-		maskLen := bits.OnesCount32(uint32(selectBitmap & lookupMask))
-		value := pextTable[selectBitmap&lookupMask][bitmap&lookupMask]
-		bitValue |= uint64(value) << bitLen
-		bitLen += maskLen
-		bitmap >>= lookupBits
-		selectBitmap >>= lookupBits
-	}
-	return bitValue
-}
-
-func greaterThanBitmapGo(levels []int16, rhs int16) uint64 {
-	mask := uint64(0)
-	for idx, lvl := range levels {
-		if lvl > rhs {
-			mask |= uint64(1) << idx
-		} else {
-			mask |= uint64(0) << idx
-		}
-	}
-	return mask
-}
diff --git a/go/parquet/internal/bmi/bmi_amd64.go b/go/parquet/internal/bmi/bmi_amd64.go
deleted file mode 100644
index f894b160d4c8b..0000000000000
--- a/go/parquet/internal/bmi/bmi_amd64.go
+++ /dev/null
@@ -1,37 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasBMI2 {
-		funclist.extractBits = extractBitsBMI2
-	} else {
-		funclist.extractBits = extractBitsGo
-	}
-	if cpu.X86.HasAVX2 {
-		funclist.gtbitmap = greaterThanBitmapBMI2
-	} else {
-		funclist.gtbitmap = greaterThanBitmapGo
-	}
-}
diff --git a/go/parquet/internal/bmi/bmi_arm64.go b/go/parquet/internal/bmi/bmi_arm64.go
deleted file mode 100755
index 4174f6d06d989..0000000000000
--- a/go/parquet/internal/bmi/bmi_arm64.go
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import (
-	"fmt"
-	"os"
-	"strings"
-
-	"github.com/klauspost/cpuid/v2"
-)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		if ext == "DISABLE" {
-			cpuid.CPU.Disable(cpuid.ASIMD, cpuid.AESARM, cpuid.PMULL)
-		} else {
-			exts := strings.Split(ext, ",")
-
-			for _, x := range exts {
-				switch x {
-				case "NEON":
-					cpuid.CPU.Enable(cpuid.ASIMD)
-				case "AES":
-					cpuid.CPU.Enable(cpuid.AESARM)
-				case "PMULL":
-					cpuid.CPU.Enable(cpuid.PMULL)
-				default:
-					fmt.Fprintln(os.Stderr, "unrecognized value for ARM_ENABLE_EXT:", x)
-				}
-			}
-		}
-	}
-
-	// after benchmarking, turns out the pure go lookup table version
-	// is nearly twice as fast as the non-lookup table assembly
-	// because arm doesn't have a PEXT instruction.
-	funclist.extractBits = extractBitsGo
-
-	if cpuid.CPU.Has(cpuid.ASIMD) {
-		funclist.gtbitmap = greaterThanBitmapNEON
-	} else {
-		funclist.gtbitmap = greaterThanBitmapGo
-	}
-}
diff --git a/go/parquet/internal/bmi/bmi_test.go b/go/parquet/internal/bmi/bmi_test.go
deleted file mode 100644
index 41a74ba3afcc3..0000000000000
--- a/go/parquet/internal/bmi/bmi_test.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bmi_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/stretchr/testify/assert"
-)
-
-// Testing the issue in GH-37712
-func TestBasicExtractBits(t *testing.T) {
-	tests := []struct {
-		bitmap, selection uint64
-		expected          uint64
-	}{
-		{0, 0, 0},
-		{0xFF, 0, 0},
-		{0xFF, ^uint64(0), 0xFF},
-		{0xFF00FF, 0xAAAA, 0x000F},
-		{0xFF0AFF, 0xAFAA, 0x00AF},
-		{0xFFAAFF, 0xAFAA, 0x03AF},
-		{0xFECBDA9876543210, 0xF00FF00FF00FF00F, 0xFBD87430},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%d-%d=>%d", tt.bitmap, tt.selection, tt.expected), func(t *testing.T) {
-			assert.Equal(t, tt.expected, bmi.ExtractBits(tt.bitmap, tt.selection))
-		})
-	}
-}
diff --git a/go/parquet/internal/debug/assert_off.go b/go/parquet/internal/debug/assert_off.go
deleted file mode 100644
index 1450ecc98a26e..0000000000000
--- a/go/parquet/internal/debug/assert_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !assert
-// +build !assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {}
diff --git a/go/parquet/internal/debug/assert_on.go b/go/parquet/internal/debug/assert_on.go
deleted file mode 100644
index 1a47460fd542a..0000000000000
--- a/go/parquet/internal/debug/assert_on.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build assert
-// +build assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg should be a string or fmt.Stringer
-func Assert(cond bool, msg interface{}) {
-	if !cond {
-		panic(msg)
-	}
-}
diff --git a/go/parquet/internal/debug/doc.go b/go/parquet/internal/debug/doc.go
deleted file mode 100644
index d3965793a0825..0000000000000
--- a/go/parquet/internal/debug/doc.go
+++ /dev/null
@@ -1,23 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package debug provides APIs for conditional runtime assertions and debug logging.
-//
-// # Using Assert
-//
-// To enable runtime assertions, build with the assert tag. When the assert tag is omitted,
-// the code for the assertion will be omitted from the binary.
-package debug
diff --git a/go/parquet/internal/debug/log_off.go b/go/parquet/internal/debug/log_off.go
deleted file mode 100644
index 09f0e09a5ed1d..0000000000000
--- a/go/parquet/internal/debug/log_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !debug
-// +build !debug
-
-package debug
-
-// use build tags in order to control the existence of this log function vs it getting
-// optimized away as a noop without the debug build tag.
-
-func Log(interface{}) {}
diff --git a/go/parquet/internal/debug/log_on.go b/go/parquet/internal/debug/log_on.go
deleted file mode 100644
index 0067e442d3693..0000000000000
--- a/go/parquet/internal/debug/log_on.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug
-// +build debug
-
-package debug
-
-import (
-	"log"
-	"os"
-)
-
-var (
-	debug = log.New(os.Stderr, "[D] ", log.LstdFlags)
-)
-
-func Log(msg interface{}) {
-	debug.Println(msg)
-}
diff --git a/go/parquet/internal/encoding/boolean_decoder.go b/go/parquet/internal/encoding/boolean_decoder.go
deleted file mode 100644
index 772fe96fde8f0..0000000000000
--- a/go/parquet/internal/encoding/boolean_decoder.go
+++ /dev/null
@@ -1,189 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// PlainBooleanDecoder is for the Plain Encoding type, there is no
-// dictionary decoding for bools.
-type PlainBooleanDecoder struct {
-	decoder
-
-	bitOffset int
-}
-
-// Type for the PlainBooleanDecoder is parquet.Types.Boolean
-func (PlainBooleanDecoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (dec *PlainBooleanDecoder) SetData(nvals int, data []byte) error {
-	if err := dec.decoder.SetData(nvals, data); err != nil {
-		return err
-	}
-	dec.bitOffset = 0
-	return nil
-}
-
-// Decode fills out with bools decoded from the data at the current point
-// or until we reach the end of the data.
-//
-// Returns the number of values decoded
-func (dec *PlainBooleanDecoder) Decode(out []bool) (int, error) {
-	max := shared_utils.Min(len(out), dec.nvals)
-
-	// attempts to read all remaining bool values from the current data byte
-	unalignedExtract := func(i int) int {
-		for ; dec.bitOffset < 8 && i < max; i, dec.bitOffset = i+1, dec.bitOffset+1 {
-			out[i] = (dec.data[0] & byte(1<<dec.bitOffset)) != 0
-		}
-		if dec.bitOffset == 8 {
-			// we read every bit from this byte
-			dec.bitOffset = 0
-			dec.data = dec.data[1:] // move data forward
-		}
-		return i // return the next index for out[]
-	}
-
-	// if we aren't at a byte boundary, then get bools until we hit
-	// a byte boundary with the bit offset.
-	i := 0
-	if dec.bitOffset != 0 {
-		i = unalignedExtract(i)
-	}
-
-	// determine the number of full bytes worth of bits we can decode
-	// given the number of values we want to decode.
-	bitsRemain := max - i
-	batch := (bitsRemain / 8) * 8
-	if batch > 0 { // only go in here if there's at least one full byte to decode
-		// determine the number of aligned bytes we can grab using SIMD optimized
-		// functions to improve performance.
-		alignedBytes := bitutil.BytesForBits(int64(batch))
-		utils.BytesToBools(dec.data[:alignedBytes], out[i:])
-
-		dec.data = dec.data[alignedBytes:] // move data forward
-		i += int(alignedBytes) * 8
-	}
-
-	// grab any trailing bits now that we've got our aligned bytes.
-	_ = unalignedExtract(i)
-
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode except it expands the values to leave spaces for null
-// as determined by the validBits bitmap.
-func (dec *PlainBooleanDecoder) DecodeSpaced(out []bool, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount > 0 {
-		toRead := len(out) - nullCount
-		valuesRead, err := dec.Decode(out[:toRead])
-		if err != nil {
-			return 0, err
-		}
-		if valuesRead != toRead {
-			return valuesRead, errors.New("parquet: boolean decoder: number of values / definition levels read did not match")
-		}
-		return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-	}
-	return dec.Decode(out)
-}
-
-type RleBooleanDecoder struct {
-	decoder
-
-	rleDec *utils.RleDecoder
-}
-
-func (RleBooleanDecoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (dec *RleBooleanDecoder) SetData(nvals int, data []byte) error {
-	dec.nvals = nvals
-
-	if len(data) < 4 {
-		return fmt.Errorf("invalid length - %d (corrupt data page?)", len(data))
-	}
-
-	// load the first 4 bytes in little-endian which indicates the length
-	nbytes := binary.LittleEndian.Uint32(data[:4])
-	if nbytes > uint32(len(data)-4) {
-		return fmt.Errorf("received invalid number of bytes - %d (corrupt data page?)", nbytes)
-	}
-
-	dec.data = data[4:]
-	if dec.rleDec == nil {
-		dec.rleDec = utils.NewRleDecoder(bytes.NewReader(dec.data), 1)
-	} else {
-		dec.rleDec.Reset(bytes.NewReader(dec.data), 1)
-	}
-	return nil
-}
-
-func (dec *RleBooleanDecoder) Decode(out []bool) (int, error) {
-	max := shared_utils.Min(len(out), dec.nvals)
-
-	var (
-		buf [1024]uint64
-		n   = max
-	)
-
-	for n > 0 {
-		batch := shared_utils.Min(len(buf), n)
-		decoded := dec.rleDec.GetBatch(buf[:batch])
-		if decoded != batch {
-			return max - n, io.ErrUnexpectedEOF
-		}
-
-		for i := 0; i < batch; i++ {
-			out[i] = buf[i] != 0
-		}
-		n -= batch
-		out = out[batch:]
-	}
-
-	dec.nvals -= max
-	return max, nil
-}
-
-func (dec *RleBooleanDecoder) DecodeSpaced(out []bool, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount > 0 {
-		toRead := len(out) - nullCount
-		valuesRead, err := dec.Decode(out[:toRead])
-		if err != nil {
-			return 0, err
-		}
-		if valuesRead != toRead {
-			return valuesRead, errors.New("parquet: rle boolean decoder: number of values / definition levels read did not match")
-		}
-		return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-	}
-	return dec.Decode(out)
-}
diff --git a/go/parquet/internal/encoding/boolean_encoder.go b/go/parquet/internal/encoding/boolean_encoder.go
deleted file mode 100644
index b95707cb2b1da..0000000000000
--- a/go/parquet/internal/encoding/boolean_encoder.go
+++ /dev/null
@@ -1,144 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-const (
-	boolBufSize = 1024
-	boolsInBuf  = boolBufSize * 8
-)
-
-// PlainBooleanEncoder encodes bools as a bitmap as per the Plain Encoding
-type PlainBooleanEncoder struct {
-	encoder
-	bitsBuffer []byte
-	wr         utils.BitmapWriter
-}
-
-// Type for the PlainBooleanEncoder is parquet.Types.Boolean
-func (PlainBooleanEncoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-// Put encodes the contents of in into the underlying data buffer.
-func (enc *PlainBooleanEncoder) Put(in []bool) {
-	if enc.bitsBuffer == nil {
-		enc.bitsBuffer = make([]byte, boolBufSize)
-	}
-	if enc.wr == nil {
-		enc.wr = utils.NewBitmapWriter(enc.bitsBuffer, 0, boolsInBuf)
-	}
-	if len(in) == 0 {
-		return
-	}
-
-	n := enc.wr.AppendBools(in)
-	for n < len(in) {
-		enc.wr.Finish()
-		enc.append(enc.bitsBuffer)
-		enc.wr.Reset(0, boolsInBuf)
-		in = in[n:]
-		n = enc.wr.AppendBools(in)
-	}
-}
-
-// PutSpaced will use the validBits bitmap to determine which values are nulls
-// and can be left out from the slice, and the encoded without those nulls.
-func (enc *PlainBooleanEncoder) PutSpaced(in []bool, validBits []byte, validBitsOffset int64) {
-	bufferOut := make([]bool, len(in))
-	nvalid := spacedCompress(in, bufferOut, validBits, validBitsOffset)
-	enc.Put(bufferOut[:nvalid])
-}
-
-// EstimatedDataEncodedSize returns the current number of bytes that have
-// been buffered so far
-func (enc *PlainBooleanEncoder) EstimatedDataEncodedSize() int64 {
-	return int64(enc.sink.Len() + int(bitutil.BytesForBits(int64(enc.wr.Pos()))))
-}
-
-// FlushValues returns the buffered data, the responsibility is on the caller
-// to release the buffer memory
-func (enc *PlainBooleanEncoder) FlushValues() (Buffer, error) {
-	if enc.wr.Pos() > 0 {
-		toFlush := int(enc.wr.Pos())
-		enc.append(enc.bitsBuffer[:bitutil.BytesForBits(int64(toFlush))])
-	}
-
-	enc.wr.Reset(0, boolsInBuf)
-
-	return enc.sink.Finish(), nil
-}
-
-const rleLengthInBytes = 4
-
-type RleBooleanEncoder struct {
-	encoder
-
-	bufferedValues []bool
-}
-
-func (RleBooleanEncoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (enc *RleBooleanEncoder) Put(in []bool) {
-	enc.bufferedValues = append(enc.bufferedValues, in...)
-}
-
-func (enc *RleBooleanEncoder) PutSpaced(in []bool, validBits []byte, validBitsOffset int64) {
-	bufferOut := make([]bool, len(in))
-	nvalid := spacedCompress(in, bufferOut, validBits, validBitsOffset)
-	enc.Put(bufferOut[:nvalid])
-}
-
-func (enc *RleBooleanEncoder) EstimatedDataEncodedSize() int64 {
-	return rleLengthInBytes + int64(enc.maxRleBufferSize())
-}
-
-func (enc *RleBooleanEncoder) maxRleBufferSize() int {
-	return utils.MaxRLEBufferSize(1, len(enc.bufferedValues)) +
-		utils.MinRLEBufferSize(1)
-}
-
-func (enc *RleBooleanEncoder) FlushValues() (Buffer, error) {
-	rleBufferSizeMax := enc.maxRleBufferSize()
-	enc.sink.SetOffset(rleLengthInBytes)
-	enc.sink.Reserve(rleBufferSizeMax)
-
-	rleEncoder := utils.NewRleEncoder(enc.sink, 1)
-	for _, v := range enc.bufferedValues {
-		if v {
-			rleEncoder.Put(1)
-		} else {
-			rleEncoder.Put(0)
-		}
-	}
-	n := rleEncoder.Flush()
-	debug.Assert(n <= rleBufferSizeMax, "num encoded bytes larger than expected max")
-	buf := enc.sink.Finish()
-	binary.LittleEndian.PutUint32(buf.Bytes(), uint32(n))
-
-	return buf, nil
-}
diff --git a/go/parquet/internal/encoding/byte_array_decoder.go b/go/parquet/internal/encoding/byte_array_decoder.go
deleted file mode 100644
index 6a87e5f3b9832..0000000000000
--- a/go/parquet/internal/encoding/byte_array_decoder.go
+++ /dev/null
@@ -1,130 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	pqutils "github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"golang.org/x/xerrors"
-)
-
-// PlainByteArrayDecoder decodes a data chunk for bytearrays according to
-// the plain encoding. The byte arrays will use slices to reference the
-// data rather than copying it.
-//
-// The parquet spec defines Plain encoding for ByteArrays as a 4 byte little
-// endian integer containing the length of the bytearray followed by that many
-// bytes being the raw data of the byte array.
-type PlainByteArrayDecoder struct {
-	decoder
-}
-
-// Type returns parquet.Types.ByteArray for this decoder
-func (PlainByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// Decode will populate the slice of bytearrays in full or until the number
-// of values is consumed.
-//
-// Returns the number of values that were decoded.
-func (pbad *PlainByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), pbad.nvals)
-
-	for i := 0; i < max; i++ {
-		// there should always be at least four bytes which is the length of the
-		// next value in the data.
-		if len(pbad.data) < 4 {
-			return i, xerrors.New("parquet: eof reading bytearray")
-		}
-
-		// the first 4 bytes are a little endian int32 length
-		byteLen := int32(binary.LittleEndian.Uint32(pbad.data[:4]))
-		if byteLen < 0 {
-			return i, xerrors.New("parquet: invalid BYTE_ARRAY value")
-		}
-
-		if int64(len(pbad.data)) < int64(byteLen)+4 {
-			return i, xerrors.New("parquet: eof reading bytearray")
-		}
-
-		out[i] = pbad.data[4 : byteLen+4 : byteLen+4]
-		pbad.data = pbad.data[byteLen+4:]
-	}
-
-	pbad.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but expands the slice out to leave empty values
-// where the validBits bitmap has 0s
-func (pbad *PlainByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := pbad.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-func (d *DictByteArrayDecoder) InsertDictionary(bldr array.Builder) error {
-	conv := d.dictValueDecoder.(*ByteArrayDictConverter)
-	dictLength := cap(conv.dict)
-	conv.ensure(pqutils.IndexType(dictLength))
-
-	byteArrayData := memory.NewResizableBuffer(d.mem)
-	defer byteArrayData.Release()
-	byteArrayOffsets := memory.NewResizableBuffer(d.mem)
-	defer byteArrayOffsets.Release()
-
-	var totalLen int
-	for _, v := range conv.dict {
-		totalLen += len(v)
-	}
-	byteArrayData.ResizeNoShrink(totalLen)
-	byteArrayOffsets.ResizeNoShrink((dictLength + 1) * arrow.Int32SizeBytes)
-
-	byteData := byteArrayData.Bytes()
-	byteOffsets := arrow.Int32Traits.CastFromBytes(byteArrayOffsets.Bytes())
-
-	var offset int32
-	for i, v := range conv.dict {
-		n := copy(byteData, v)
-		byteData, byteOffsets[i] = byteData[n:], offset
-		offset += int32(n)
-	}
-	byteOffsets[dictLength] = offset
-
-	data := array.NewData(bldr.Type().(*arrow.DictionaryType).ValueType, dictLength,
-		[]*memory.Buffer{nil, byteArrayOffsets, byteArrayData}, nil, 0, 0)
-	defer data.Release()
-	arr := array.NewBinaryData(data)
-	defer arr.Release()
-
-	binaryBldr := bldr.(*array.BinaryDictionaryBuilder)
-	return binaryBldr.InsertDictValues(arr)
-}
diff --git a/go/parquet/internal/encoding/byte_array_encoder.go b/go/parquet/internal/encoding/byte_array_encoder.go
deleted file mode 100644
index 518c2e7f7324e..0000000000000
--- a/go/parquet/internal/encoding/byte_array_encoder.go
+++ /dev/null
@@ -1,158 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// PlainByteArrayEncoder encodes byte arrays according to the spec for Plain encoding
-// by encoding the length as a int32 followed by the bytes of the value.
-type PlainByteArrayEncoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// PutByteArray writes out the 4 bytes for the length followed by the data
-func (enc *PlainByteArrayEncoder) PutByteArray(val parquet.ByteArray) {
-	inc := val.Len() + arrow.Uint32SizeBytes
-	enc.sink.Reserve(inc)
-	vlen := utils.ToLEUint32(uint32(val.Len()))
-	enc.sink.UnsafeWrite((*(*[4]byte)(unsafe.Pointer(&vlen)))[:])
-	enc.sink.UnsafeWrite(val)
-}
-
-// Put writes out all of the values in this slice to the encoding sink
-func (enc *PlainByteArrayEncoder) Put(in []parquet.ByteArray) {
-	for _, val := range in {
-		enc.PutByteArray(val)
-	}
-}
-
-// PutSpaced uses the bitmap of validBits to leave out anything that is null according
-// to the bitmap.
-//
-// If validBits is nil, this is equivalent to calling Put
-func (enc *PlainByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		if enc.bitSetReader == nil {
-			enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-		} else {
-			enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-		}
-
-		for {
-			run := enc.bitSetReader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-		}
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns parquet.Types.ByteArray for the bytearray encoder
-func (PlainByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// WriteDict writes the dictionary out to the provided slice, out should be
-// at least DictEncodedSize() bytes
-func (enc *DictByteArrayEncoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).VisitValues(0, func(v []byte) {
-		binary.LittleEndian.PutUint32(out, uint32(len(v)))
-		out = out[arrow.Uint32SizeBytes:]
-		copy(out, v)
-		out = out[len(v):]
-	})
-}
-
-// PutByteArray adds a single byte array to buffer, updating the dictionary
-// and encoded size if it's a new value
-func (enc *DictByteArrayEncoder) PutByteArray(in parquet.ByteArray) {
-	memoIdx, found, err := enc.memo.GetOrInsert(in)
-	if err != nil {
-		panic(err)
-	}
-	if !found {
-		enc.dictEncodedSize += in.Len() + arrow.Uint32SizeBytes
-	}
-	enc.addIndex(memoIdx)
-}
-
-// Put takes a slice of ByteArrays to add and encode.
-func (enc *DictByteArrayEncoder) Put(in []parquet.ByteArray) {
-	for _, val := range in {
-		enc.PutByteArray(val)
-	}
-}
-
-// PutSpaced like with the non-dict encoder leaves out the values where the validBits bitmap is 0
-func (enc *DictByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.PutByteArray(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictByteArrayEncoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	if !arrow.IsBaseBinary(values.DataType().ID()) {
-		return fmt.Errorf("%w: only binary and string arrays are supported", arrow.ErrInvalid)
-	}
-
-	arr := values.(array.BinaryLike)
-	data := arr.ValueBytes()
-	for i := 0; i < arr.Len(); i++ {
-		curOffset := arr.ValueOffset64(i)
-		var v []byte
-		if i == arr.Len()-1 {
-			v = data[curOffset:]
-		} else {
-			v = data[curOffset:arr.ValueOffset64(i+1)]
-		}
-		enc.dictEncodedSize += len(v) + arrow.Uint32SizeBytes
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
diff --git a/go/parquet/internal/encoding/byte_stream_split.go b/go/parquet/internal/encoding/byte_stream_split.go
deleted file mode 100644
index e5fe91ada6d77..0000000000000
--- a/go/parquet/internal/encoding/byte_stream_split.go
+++ /dev/null
@@ -1,389 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"golang.org/x/xerrors"
-)
-
-// encodeByteStreamSplit encodes the raw bytes provided by 'in' into the output buffer 'data' using BYTE_STREAM_SPLIT encoding.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplit(data []byte, in []byte, width int) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	numElements := len(in) / width
-	for stream := 0; stream < width; stream++ {
-		for element := 0; element < numElements; element++ {
-			encLoc := numElements*stream + element
-			decLoc := width*element + stream
-			data[encLoc] = in[decLoc]
-		}
-	}
-}
-
-// encodeByteStreamSplitWidth2 implements encodeByteStreamSplit optimized for types stored using 2 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth2(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 2
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-	}
-}
-
-// encodeByteStreamSplitWidth4 implements encodeByteStreamSplit optimized for types stored using 4 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth4(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 4
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-		data[numElements*2+element] = in[decLoc+2]
-		data[numElements*3+element] = in[decLoc+3]
-	}
-}
-
-// encodeByteStreamSplitWidth8 implements encodeByteStreamSplit optimized for types stored using 8 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth8(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 8
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-		data[numElements*2+element] = in[decLoc+2]
-		data[numElements*3+element] = in[decLoc+3]
-		data[numElements*4+element] = in[decLoc+4]
-		data[numElements*5+element] = in[decLoc+5]
-		data[numElements*6+element] = in[decLoc+6]
-		data[numElements*7+element] = in[decLoc+7]
-	}
-}
-
-// decodeByteStreamSplitBatchWidth4 decodes the batch of nValues raw bytes representing a 4-byte datatype provided by 'data',
-// into the output buffer 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least len(data) bytes.
-func decodeByteStreamSplitBatchWidth4(data []byte, nValues, stride int, out []byte) {
-	debug.Assert(len(out) >= len(data), fmt.Sprintf("not enough space in output buffer for decoding, out: %d bytes, data: %d bytes", len(out), len(data)))
-	const width = 4
-	for element := 0; element < nValues; element++ {
-		out[width*element] = data[element]
-		out[width*element+1] = data[stride+element]
-		out[width*element+2] = data[2*stride+element]
-		out[width*element+3] = data[3*stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchWidth8 decodes the batch of nValues raw bytes representing a 8-byte datatype provided by 'data',
-// into the output buffer 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least len(data) bytes.
-func decodeByteStreamSplitBatchWidth8(data []byte, nValues, stride int, out []byte) {
-	debug.Assert(len(out) >= len(data), fmt.Sprintf("not enough space in output buffer for decoding, out: %d bytes, data: %d bytes", len(out), len(data)))
-	const width = 8
-	for element := 0; element < nValues; element++ {
-		out[width*element] = data[element]
-		out[width*element+1] = data[stride+element]
-		out[width*element+2] = data[2*stride+element]
-		out[width*element+3] = data[3*stride+element]
-		out[width*element+4] = data[4*stride+element]
-		out[width*element+5] = data[5*stride+element]
-		out[width*element+6] = data[6*stride+element]
-		out[width*element+7] = data[7*stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBA decodes the batch of nValues FixedLenByteArrays provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBA(data []byte, nValues, stride, width int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for stream := 0; stream < width; stream++ {
-		for element := 0; element < nValues; element++ {
-			encLoc := stride*stream + element
-			out[element][stream] = data[encLoc]
-		}
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth2 decodes the batch of nValues FixedLenByteArrays of length 2 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth2(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth4 decodes the batch of nValues FixedLenByteArrays of length 4 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth4(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-		out[element][2] = data[stride*2+element]
-		out[element][3] = data[stride*3+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth8 decodes the batch of nValues FixedLenByteArrays of length 8 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth8(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-		out[element][2] = data[stride*2+element]
-		out[element][3] = data[stride*3+element]
-		out[element][4] = data[stride*4+element]
-		out[element][5] = data[stride*5+element]
-		out[element][6] = data[stride*6+element]
-		out[element][7] = data[stride*7+element]
-	}
-}
-
-func releaseBufferToPool(pooled *PooledBufferWriter) {
-	buf := pooled.buf
-	memory.Set(buf.Buf(), 0)
-	buf.ResizeNoShrink(0)
-	bufferPool.Put(buf)
-}
-
-func validateByteStreamSplitPageData(typeLen, nvals int, data []byte) (int, error) {
-	if nvals*typeLen < len(data) {
-		return 0, fmt.Errorf("data size (%d) is too small for the number of values in in BYTE_STREAM_SPLIT (%d)", len(data), nvals)
-	}
-
-	if len(data)%typeLen != 0 {
-		return 0, fmt.Errorf("ByteStreamSplit data size %d not aligned with byte_width: %d", len(data), typeLen)
-	}
-
-	return len(data) / typeLen, nil
-}
-
-// ByteStreamSplitFloat32Encoder writes the underlying bytes of the Float32
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFloat32Encoder struct {
-	PlainFloat32Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFloat32Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFloat32Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFloat32Encoder) Release() {
-	enc.PlainFloat32Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitFloat64Encoder writes the underlying bytes of the Float64
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFloat64Encoder struct {
-	PlainFloat64Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFloat64Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFloat64Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFloat64Encoder) Release() {
-	enc.PlainFloat64Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitInt32Encoder writes the underlying bytes of the Int32
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitInt32Encoder struct {
-	PlainInt32Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitInt32Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainInt32Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitInt32Encoder) Release() {
-	enc.PlainInt32Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitInt64Encoder writes the underlying bytes of the Int64
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitInt64Encoder struct {
-	PlainInt64Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitInt64Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainInt64Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitInt64Encoder) Release() {
-	enc.PlainInt64Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitFloat32Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Float32 values
-type ByteStreamSplitFloat32Decoder = ByteStreamSplitDecoder[float32]
-
-// ByteStreamSplitFloat64Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Float64 values
-type ByteStreamSplitFloat64Decoder = ByteStreamSplitDecoder[float64]
-
-// ByteStreamSplitInt32Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Int32 values
-type ByteStreamSplitInt32Decoder = ByteStreamSplitDecoder[int32]
-
-// ByteStreamSplitInt64Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Int64 values
-type ByteStreamSplitInt64Decoder = ByteStreamSplitDecoder[int64]
-
-type ByteStreamSplitDecoder[T float32 | float64 | int32 | int64] struct {
-	decoder
-	stride int
-}
-
-func (dec *ByteStreamSplitDecoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *ByteStreamSplitDecoder[float32]:
-		return parquet.Types.Float
-	case *ByteStreamSplitDecoder[float64]:
-		return parquet.Types.Double
-	case *ByteStreamSplitDecoder[int32]:
-		return parquet.Types.Int32
-	case *ByteStreamSplitDecoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("ByteStreamSplitDecoder is not supported for type: %T", v))
-	}
-}
-
-func (dec *ByteStreamSplitDecoder[T]) SetData(nvals int, data []byte) error {
-	nvals, err := validateByteStreamSplitPageData(dec.Type().ByteSize(), nvals, data)
-	if err != nil {
-		return err
-	}
-
-	dec.stride = nvals
-	return dec.decoder.SetData(nvals, data)
-}
-
-func (dec *ByteStreamSplitDecoder[T]) Decode(out []T) (int, error) {
-	typeLen := dec.Type().ByteSize()
-	toRead := len(out)
-	numBytesNeeded := toRead * typeLen
-	if numBytesNeeded > len(dec.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	outBytes := arrow.GetBytes(out)
-	switch typeLen {
-	case 4:
-		decodeByteStreamSplitBatchWidth4(dec.data, toRead, dec.stride, outBytes)
-	case 8:
-		decodeByteStreamSplitBatchWidth8(dec.data, toRead, dec.stride, outBytes)
-	default:
-		return 0, fmt.Errorf("encoding ByteStreamSplit is only defined for numeric type of width 4 or 8, found: %d", typeLen)
-	}
-
-	dec.nvals -= toRead
-	dec.data = dec.data[toRead:]
-
-	return toRead, nil
-}
-
-func (dec *ByteStreamSplitDecoder[T]) DecodeSpaced(out []T, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := dec.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/decoder.go b/go/parquet/internal/encoding/decoder.go
deleted file mode 100644
index 12a670198afa6..0000000000000
--- a/go/parquet/internal/encoding/decoder.go
+++ /dev/null
@@ -1,238 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// DecoderTraits provides an interface for more easily interacting with types
-// to generate decoders for specific types.
-type DecoderTraits interface {
-	Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder
-	BytesRequired(int) int
-}
-
-// NewDecoder constructs a decoder for a given type and encoding
-func NewDecoder(t parquet.Type, e parquet.Encoding, descr *schema.Column, mem memory.Allocator) TypedDecoder {
-	traits := getDecodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	return traits.Decoder(e, descr, false /* use dictionary */, mem)
-}
-
-// NewDictDecoder is like NewDecoder but for dictionary encodings, panics if type is bool.
-//
-// if mem is nil, memory.DefaultAllocator will be used
-func NewDictDecoder(t parquet.Type, descr *schema.Column, mem memory.Allocator) DictDecoder {
-	traits := getDecodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	return traits.Decoder(parquet.Encodings.RLEDict, descr, true /* use dictionary */, mem).(DictDecoder)
-}
-
-type decoder struct {
-	descr    *schema.Column
-	encoding format.Encoding
-	nvals    int
-	data     []byte
-	typeLen  int
-}
-
-// newDecoderBase constructs the base decoding object that is embedded in the
-// type specific decoders.
-func newDecoderBase(e format.Encoding, descr *schema.Column) decoder {
-	typeLen := -1
-	if descr != nil && descr.PhysicalType() == parquet.Types.FixedLenByteArray {
-		typeLen = int(descr.TypeLength())
-	}
-
-	return decoder{
-		descr:    descr,
-		encoding: e,
-		typeLen:  typeLen,
-	}
-}
-
-// SetData sets the data for decoding into the decoder to update the available
-// data bytes and number of values available.
-func (d *decoder) SetData(nvals int, data []byte) error {
-	d.data = data
-	d.nvals = nvals
-	return nil
-}
-
-// ValuesLeft returns the number of remaining values that can be decoded
-func (d *decoder) ValuesLeft() int { return d.nvals }
-
-// Encoding returns the encoding type used by this decoder to decode the bytes.
-func (d *decoder) Encoding() parquet.Encoding { return parquet.Encoding(d.encoding) }
-
-type dictDecoder struct {
-	decoder
-	mem              memory.Allocator
-	dictValueDecoder utils.DictionaryConverter
-	idxDecoder       *utils.RleDecoder
-
-	idxScratchSpace []uint64
-}
-
-// SetDict sets a decoder that can be used to decode the dictionary that is
-// used for this column in order to return the proper values.
-func (d *dictDecoder) SetDict(dict TypedDecoder) {
-	if dict.Type() != d.descr.PhysicalType() {
-		panic("parquet: mismatch dictionary and column data type")
-	}
-
-	d.dictValueDecoder = NewDictConverter(dict)
-}
-
-// SetData sets the index value data into the decoder.
-func (d *dictDecoder) SetData(nvals int, data []byte) error {
-	d.nvals = nvals
-	if len(data) == 0 {
-		// no data, bitwidth can safely be 0
-		d.idxDecoder = utils.NewRleDecoder(bytes.NewReader(data), 0 /* bitwidth */)
-		return nil
-	}
-
-	// grab the bit width from the first byte
-	width := uint8(data[0])
-	if width >= 64 {
-		return xerrors.New("parquet: invalid or corrupted bit width")
-	}
-
-	// pass the rest of the data, minus that first byte, to the decoder
-	d.idxDecoder = utils.NewRleDecoder(bytes.NewReader(data[1:]), int(width))
-	return nil
-}
-
-func (d *dictDecoder) decode(out interface{}) (int, error) {
-	n, err := d.idxDecoder.GetBatchWithDict(d.dictValueDecoder, out)
-	d.nvals -= n
-	return n, err
-}
-
-func (d *dictDecoder) decodeSpaced(out interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	n, err := d.idxDecoder.GetBatchWithDictSpaced(d.dictValueDecoder, out, nullCount, validBits, validBitsOffset)
-	d.nvals -= n
-	return n, err
-}
-
-func (d *dictDecoder) DecodeIndices(numValues int, bldr array.Builder) (int, error) {
-	n := shared_utils.Min(numValues, d.nvals)
-	if cap(d.idxScratchSpace) < n {
-		d.idxScratchSpace = make([]uint64, n, bitutil.NextPowerOf2(n))
-	} else {
-		d.idxScratchSpace = d.idxScratchSpace[:n]
-	}
-
-	n = d.idxDecoder.GetBatch(d.idxScratchSpace)
-
-	toAppend := make([]int, n)
-	for i, v := range d.idxScratchSpace {
-		toAppend[i] = int(v)
-	}
-	bldr.(*array.BinaryDictionaryBuilder).AppendIndices(toAppend, nil)
-	d.nvals -= n
-	return n, nil
-}
-
-func (d *dictDecoder) DecodeIndicesSpaced(numValues, nullCount int, validBits []byte, offset int64, bldr array.Builder) (int, error) {
-	if cap(d.idxScratchSpace) < numValues {
-		d.idxScratchSpace = make([]uint64, numValues, bitutil.NextPowerOf2(numValues))
-	} else {
-		d.idxScratchSpace = d.idxScratchSpace[:numValues]
-	}
-
-	n, err := d.idxDecoder.GetBatchSpaced(d.idxScratchSpace, nullCount, validBits, offset)
-	if err != nil {
-		return n, err
-	}
-
-	valid := make([]bool, n)
-	bitutils.VisitBitBlocks(validBits, offset, int64(n),
-		func(pos int64) { valid[pos] = true }, func() {})
-
-	toAppend := make([]int, n)
-	for i, v := range d.idxScratchSpace {
-		toAppend[i] = int(v)
-	}
-	bldr.(*array.BinaryDictionaryBuilder).AppendIndices(toAppend, valid)
-	d.nvals -= n - nullCount
-	return n, nil
-}
-
-// spacedExpand is used to take a slice of data and utilize the bitmap provided to fill in nulls into the
-// correct slots according to the bitmap in order to produce a fully expanded result slice with nulls
-// in the correct slots.
-func spacedExpand(buffer interface{}, nullCount int, validBits []byte, validBitsOffset int64) int {
-	bufferRef := reflect.ValueOf(buffer)
-	if bufferRef.Kind() != reflect.Slice {
-		panic("invalid spacedexpand type, not slice")
-	}
-
-	var (
-		numValues int = bufferRef.Len()
-	)
-
-	idxDecode := int64(numValues - nullCount)
-	if idxDecode == 0 { // if there's nothing to decode there's nothing to do.
-		return numValues
-	}
-
-	// read the bitmap in reverse grabbing runs of valid bits where possible.
-	rdr := bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(numValues))
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		// copy data from the end of the slice to it's proper location in the slice after accounting for the nulls
-		// because we technically don't care what is in the null slots we don't actually have to clean
-		// up after ourselves because we're doing this in reverse to guarantee that we'll always simply
-		// overwrite any existing data with the correctly spaced data. Any data that happens to be left in the null
-		// slots is fine since it shouldn't matter and saves us work.
-		idxDecode -= run.Length
-		n := reflect.Copy(bufferRef.Slice(int(run.Pos), bufferRef.Len()), bufferRef.Slice(int(idxDecode), int(int64(idxDecode)+run.Length)))
-		debug.Assert(n == int(run.Length), "reflect.Copy copied incorrect number of elements in spacedExpand")
-	}
-
-	return numValues
-}
diff --git a/go/parquet/internal/encoding/delta_bit_packing.go b/go/parquet/internal/encoding/delta_bit_packing.go
deleted file mode 100644
index ac91953a7f903..0000000000000
--- a/go/parquet/internal/encoding/delta_bit_packing.go
+++ /dev/null
@@ -1,421 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// see the deltaBitPack encoder for a description of the encoding format that is
-// used for delta-bitpacking.
-type deltaBitPackDecoder[T int32 | int64] struct {
-	decoder
-
-	mem memory.Allocator
-
-	usedFirst            bool
-	bitdecoder           *utils.BitReader
-	blockSize            uint64
-	currentBlockVals     uint32
-	miniBlocksPerBlock   uint64
-	valsPerMini          uint32
-	currentMiniBlockVals uint32
-	minDelta             int64
-	miniBlockIdx         uint64
-
-	deltaBitWidths *memory.Buffer
-	deltaBitWidth  byte
-
-	totalValues uint64
-	lastVal     int64
-
-	miniBlockValues []T
-}
-
-// returns the number of bytes read so far
-func (d *deltaBitPackDecoder[T]) bytesRead() int64 {
-	return d.bitdecoder.CurOffset()
-}
-
-func (d *deltaBitPackDecoder[T]) Allocator() memory.Allocator { return d.mem }
-
-// SetData sets the bytes and the expected number of values to decode
-// into the decoder, updating the decoder and allowing it to be reused.
-func (d *deltaBitPackDecoder[T]) SetData(nvalues int, data []byte) error {
-	// set our data into the underlying decoder for the type
-	if err := d.decoder.SetData(nvalues, data); err != nil {
-		return err
-	}
-	// create a bit reader for our decoder's values
-	d.bitdecoder = utils.NewBitReader(bytes.NewReader(d.data))
-	d.currentBlockVals = 0
-	d.currentMiniBlockVals = 0
-	if d.deltaBitWidths == nil {
-		d.deltaBitWidths = memory.NewResizableBuffer(d.mem)
-	}
-
-	var ok bool
-	d.blockSize, ok = d.bitdecoder.GetVlqInt()
-	if !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	if d.miniBlocksPerBlock, ok = d.bitdecoder.GetVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-	if d.miniBlocksPerBlock == 0 {
-		return errors.New("parquet: cannot have zero miniblock per block")
-	}
-
-	if d.totalValues, ok = d.bitdecoder.GetVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	if d.lastVal, ok = d.bitdecoder.GetZigZagVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	d.valsPerMini = uint32(d.blockSize / d.miniBlocksPerBlock)
-	d.usedFirst = false
-	return nil
-}
-
-// initialize a block to decode
-func (d *deltaBitPackDecoder[T]) initBlock() error {
-	// first we grab the min delta value that we'll start from
-	var ok bool
-	if d.minDelta, ok = d.bitdecoder.GetZigZagVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	// ensure we have enough space for our miniblocks to decode the widths
-	d.deltaBitWidths.Resize(int(d.miniBlocksPerBlock))
-
-	var err error
-	for i := uint64(0); i < d.miniBlocksPerBlock; i++ {
-		if d.deltaBitWidths.Bytes()[i], err = d.bitdecoder.ReadByte(); err != nil {
-			return err
-		}
-	}
-
-	d.miniBlockIdx = 0
-	d.deltaBitWidth = d.deltaBitWidths.Bytes()[0]
-	d.currentBlockVals = uint32(d.blockSize)
-	return nil
-}
-
-func (d *deltaBitPackDecoder[T]) unpackNextMini() error {
-	if d.miniBlockValues == nil {
-		d.miniBlockValues = make([]T, 0, int(d.valsPerMini))
-	} else {
-		d.miniBlockValues = d.miniBlockValues[:0]
-	}
-	d.deltaBitWidth = d.deltaBitWidths.Bytes()[int(d.miniBlockIdx)]
-	d.currentMiniBlockVals = d.valsPerMini
-
-	for j := 0; j < int(d.valsPerMini); j++ {
-		delta, ok := d.bitdecoder.GetValue(int(d.deltaBitWidth))
-		if !ok {
-			return errors.New("parquet: eof exception")
-		}
-
-		d.lastVal += int64(delta) + int64(d.minDelta)
-		d.miniBlockValues = append(d.miniBlockValues, T(d.lastVal))
-	}
-	d.miniBlockIdx++
-	return nil
-}
-
-// Decode retrieves min(remaining values, len(out)) values from the data and returns the number
-// of values actually decoded and any errors encountered.
-func (d *deltaBitPackDecoder[T]) Decode(out []T) (int, error) {
-	max := shared_utils.Min(len(out), int(d.nvals))
-	if max == 0 {
-		return 0, nil
-	}
-
-	out = out[:max]
-	if !d.usedFirst { // starting value to calculate deltas against
-		out[0] = T(d.lastVal)
-		out = out[1:]
-		d.usedFirst = true
-	}
-
-	var err error
-	for len(out) > 0 { // unpack mini blocks until we get all the values we need
-		if d.currentBlockVals == 0 {
-			err = d.initBlock()
-			if err != nil {
-				return 0, err
-			}
-		}
-		if d.currentMiniBlockVals == 0 {
-			err = d.unpackNextMini()
-		}
-		if err != nil {
-			return 0, err
-		}
-
-		// copy as many values from our mini block as we can into out
-		start := int(d.valsPerMini - d.currentMiniBlockVals)
-		numCopied := copy(out, d.miniBlockValues[start:])
-
-		out = out[numCopied:]
-		d.currentBlockVals -= uint32(numCopied)
-		d.currentMiniBlockVals -= uint32(numCopied)
-	}
-	d.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but the result is spaced out appropriately based on the passed in bitmap
-func (d *deltaBitPackDecoder[T]) DecodeSpaced(out []T, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := d.Decode(out[:toread])
-	if err != nil {
-		return values, err
-	}
-	if values != toread {
-		return values, errors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-// Type returns the underlying physical type this decoder works with
-func (dec *deltaBitPackDecoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *deltaBitPackDecoder[int32]:
-		return parquet.Types.Int32
-	case *deltaBitPackDecoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("deltaBitPackDecoder is not supported for type: %T", v))
-	}
-}
-
-// DeltaBitPackInt32Decoder decodes Int32 values which are packed using the Delta BitPacking algorithm.
-type DeltaBitPackInt32Decoder = deltaBitPackDecoder[int32]
-
-// DeltaBitPackInt64Decoder decodes Int64 values which are packed using the Delta BitPacking algorithm.
-type DeltaBitPackInt64Decoder = deltaBitPackDecoder[int64]
-
-const (
-	// block size must be a multiple of 128
-	defaultBlockSize     = 128
-	defaultNumMiniBlocks = 4
-	// block size / number of mini blocks must result in a multiple of 32
-	defaultNumValuesPerMini = 32
-	// max size of the header for the delta blocks
-	maxHeaderWriterSize = 32
-)
-
-// deltaBitPackEncoder is an encoder for the DeltaBinary Packing format
-// as per the parquet spec.
-//
-// Consists of a header followed by blocks of delta encoded values binary packed.
-//
-//	Format
-//		[header] [block 1] [block 2] ... [block N]
-//
-//	Header
-//		[block size] [number of mini blocks per block] [total value count] [first value]
-//
-//	Block
-//		[min delta] [list of bitwidths of the miniblocks] [miniblocks...]
-//
-// Sets aside bytes at the start of the internal buffer where the header will be written,
-// and only writes the header when FlushValues is called before returning it.
-type deltaBitPackEncoder[T int32 | int64] struct {
-	encoder
-
-	bitWriter  *utils.BitWriter
-	totalVals  uint64
-	firstVal   int64
-	currentVal int64
-
-	blockSize     uint64
-	miniBlockSize uint64
-	numMiniBlocks uint64
-	deltas        []int64
-}
-
-// flushBlock flushes out a finished block for writing to the underlying encoder
-func (enc *deltaBitPackEncoder[T]) flushBlock() {
-	if len(enc.deltas) == 0 {
-		return
-	}
-
-	// determine the minimum delta value
-	minDelta := int64(math.MaxInt64)
-	for _, delta := range enc.deltas {
-		if delta < minDelta {
-			minDelta = delta
-		}
-	}
-
-	enc.bitWriter.WriteZigZagVlqInt(minDelta)
-	// reserve enough bytes to write out our miniblock deltas
-	offset, _ := enc.bitWriter.SkipBytes(int(enc.numMiniBlocks))
-
-	valuesToWrite := int64(len(enc.deltas))
-	for i := 0; i < int(enc.numMiniBlocks); i++ {
-		n := shared_utils.Min(int64(enc.miniBlockSize), valuesToWrite)
-		if n == 0 {
-			break
-		}
-
-		maxDelta := int64(math.MinInt64)
-		start := i * int(enc.miniBlockSize)
-		for _, val := range enc.deltas[start : start+int(n)] {
-			maxDelta = shared_utils.Max(maxDelta, val)
-		}
-
-		// compute bit width to store (max_delta - min_delta)
-		width := uint(bits.Len64(uint64(maxDelta - minDelta)))
-		// write out the bit width we used into the bytes we reserved earlier
-		enc.bitWriter.WriteAt([]byte{byte(width)}, int64(offset+i))
-
-		// write out our deltas
-		for _, val := range enc.deltas[start : start+int(n)] {
-			enc.bitWriter.WriteValue(uint64(val-minDelta), width)
-		}
-
-		valuesToWrite -= n
-
-		// pad the last block if n < miniBlockSize
-		for ; n < int64(enc.miniBlockSize); n++ {
-			enc.bitWriter.WriteValue(0, width)
-		}
-	}
-	enc.deltas = enc.deltas[:0]
-}
-
-// putInternal is the implementation for actually writing data which must be
-// integral data as int, int8, int32, or int64.
-func (enc *deltaBitPackEncoder[T]) Put(in []T) {
-	if len(in) == 0 {
-		return
-	}
-
-	idx := 0
-	if enc.totalVals == 0 {
-		enc.blockSize = defaultBlockSize
-		enc.numMiniBlocks = defaultNumMiniBlocks
-		enc.miniBlockSize = defaultNumValuesPerMini
-
-		enc.firstVal = int64(in[0])
-		enc.currentVal = enc.firstVal
-		idx = 1
-
-		enc.bitWriter = utils.NewBitWriter(enc.sink)
-	}
-
-	enc.totalVals += uint64(len(in))
-	for ; idx < len(in); idx++ {
-		val := int64(in[idx])
-		enc.deltas = append(enc.deltas, val-enc.currentVal)
-		enc.currentVal = val
-		if len(enc.deltas) == int(enc.blockSize) {
-			enc.flushBlock()
-		}
-	}
-}
-
-// FlushValues flushes any remaining data and returns the finished encoded buffer
-// or returns nil and any error encountered during flushing.
-func (enc *deltaBitPackEncoder[T]) FlushValues() (Buffer, error) {
-	if enc.bitWriter != nil {
-		// write any remaining values
-		enc.flushBlock()
-		enc.bitWriter.Flush(true)
-	} else {
-		enc.blockSize = defaultBlockSize
-		enc.numMiniBlocks = defaultNumMiniBlocks
-		enc.miniBlockSize = defaultNumValuesPerMini
-	}
-
-	buffer := make([]byte, maxHeaderWriterSize)
-	headerWriter := utils.NewBitWriter(utils.NewWriterAtBuffer(buffer))
-
-	headerWriter.WriteVlqInt(uint64(enc.blockSize))
-	headerWriter.WriteVlqInt(uint64(enc.numMiniBlocks))
-	headerWriter.WriteVlqInt(uint64(enc.totalVals))
-	headerWriter.WriteZigZagVlqInt(int64(enc.firstVal))
-	headerWriter.Flush(false)
-
-	buffer = buffer[:headerWriter.Written()]
-	enc.totalVals = 0
-
-	if enc.bitWriter != nil {
-		flushed := enc.sink.Finish()
-		defer flushed.Release()
-
-		buffer = append(buffer, flushed.Buf()[:enc.bitWriter.Written()]...)
-	}
-	return poolBuffer{memory.NewBufferBytes(buffer)}, nil
-}
-
-// EstimatedDataEncodedSize returns the current amount of data actually flushed out and written
-func (enc *deltaBitPackEncoder[T]) EstimatedDataEncodedSize() int64 {
-	if enc.bitWriter == nil {
-		return 0
-	}
-
-	return int64(enc.bitWriter.Written())
-}
-
-// PutSpaced takes a slice of values along with a bitmap that describes the nulls and an offset into the bitmap
-// in order to write spaced data to the encoder.
-func (enc *deltaBitPackEncoder[T]) PutSpaced(in []T, validBits []byte, validBitsOffset int64) {
-	buffer := memory.NewResizableBuffer(enc.mem)
-	dt := arrow.GetDataType[T]().(arrow.FixedWidthDataType)
-	buffer.Reserve(dt.Bytes() * len(in))
-	defer buffer.Release()
-
-	data := arrow.GetData[T](buffer.Buf())
-	nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-	enc.Put(data[:nvalid])
-}
-
-// Type returns the underlying physical type this encoder works with
-func (dec *deltaBitPackEncoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *deltaBitPackEncoder[int32]:
-		return parquet.Types.Int32
-	case *deltaBitPackEncoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("deltaBitPackEncoder is not supported for type: %T", v))
-	}
-}
-
-// DeltaBitPackInt32Encoder is an encoder for the delta bitpacking encoding for Int32 data.
-type DeltaBitPackInt32Encoder = deltaBitPackEncoder[int32]
-
-// DeltaBitPackInt64Encoder is an encoder for the delta bitpacking encoding for Int64 data.
-type DeltaBitPackInt64Encoder = deltaBitPackEncoder[int64]
diff --git a/go/parquet/internal/encoding/delta_byte_array.go b/go/parquet/internal/encoding/delta_byte_array.go
deleted file mode 100644
index 62c8d08999972..0000000000000
--- a/go/parquet/internal/encoding/delta_byte_array.go
+++ /dev/null
@@ -1,238 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// DeltaByteArrayEncoder is an encoder for writing bytearrays which are delta encoded
-// this is also known as incremental encoding or front compression. For each element
-// in a sequence of strings, we store the prefix length of the previous entry plus the suffix
-// see https://en.wikipedia.org/wiki/Incremental_encoding for a longer description.
-//
-// This is stored as a sequence of delta-encoded prefix lengths followed by the suffixes
-// encoded as delta length byte arrays.
-type DeltaByteArrayEncoder struct {
-	encoder
-
-	prefixEncoder *DeltaBitPackInt32Encoder
-	suffixEncoder *DeltaLengthByteArrayEncoder
-
-	lastVal parquet.ByteArray
-}
-
-func (enc *DeltaByteArrayEncoder) EstimatedDataEncodedSize() int64 {
-	prefixEstimatedSize := int64(0)
-	if enc.prefixEncoder != nil {
-		prefixEstimatedSize = enc.prefixEncoder.EstimatedDataEncodedSize()
-	}
-	suffixEstimatedSize := int64(0)
-	if enc.suffixEncoder != nil {
-		suffixEstimatedSize = enc.suffixEncoder.EstimatedDataEncodedSize()
-	}
-	return prefixEstimatedSize + suffixEstimatedSize
-}
-
-func (enc *DeltaByteArrayEncoder) initEncoders() {
-	enc.prefixEncoder = &DeltaBitPackInt32Encoder{
-		encoder: newEncoderBase(enc.encoding, nil, enc.mem),
-	}
-	enc.suffixEncoder = &DeltaLengthByteArrayEncoder{
-		newEncoderBase(enc.encoding, nil, enc.mem),
-		&DeltaBitPackInt32Encoder{
-			encoder: newEncoderBase(enc.encoding, nil, enc.mem),
-		},
-	}
-}
-
-// Type returns the underlying physical type this operates on, in this case ByteArrays only
-func (DeltaByteArrayEncoder) Type() parquet.Type { return parquet.Types.ByteArray }
-
-// Put writes a slice of ByteArrays to the encoder
-func (enc *DeltaByteArrayEncoder) Put(in []parquet.ByteArray) {
-	if len(in) == 0 {
-		return
-	}
-
-	var suf parquet.ByteArray
-	if enc.prefixEncoder == nil { // initialize our encoders if we haven't yet
-		enc.initEncoders()
-		enc.prefixEncoder.Put([]int32{0})
-		suf = in[0]
-		enc.lastVal = in[0]
-		enc.suffixEncoder.Put([]parquet.ByteArray{suf})
-		in = in[1:]
-	}
-
-	// for each value, figure out the common prefix with the previous value
-	// and then write the prefix length and the suffix.
-	for _, val := range in {
-		l1 := enc.lastVal.Len()
-		l2 := val.Len()
-		j := 0
-		for j < l1 && j < l2 {
-			if enc.lastVal[j] != val[j] {
-				break
-			}
-			j++
-		}
-		enc.prefixEncoder.Put([]int32{int32(j)})
-		suf = val[j:]
-		enc.suffixEncoder.Put([]parquet.ByteArray{suf})
-		enc.lastVal = val
-	}
-
-	// do the memcpy after the loops to keep a copy of the lastVal
-	// we do a copy here so that we only copy and keep a reference
-	// to the suffix, and aren't forcing the *entire* value to stay
-	// in memory while we have this reference to just the suffix.
-	enc.lastVal = append([]byte{}, enc.lastVal...)
-}
-
-// PutSpaced is like Put, but assumes the data is already spaced for nulls and uses the bitmap provided and offset
-// to compress the data before writing it without the null slots.
-func (enc *DeltaByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		data := make([]parquet.ByteArray, len(in))
-		nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-		enc.Put(data[:nvalid])
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Flush flushes any remaining data out and returns the finished encoded buffer.
-// or returns nil and any error encountered during flushing.
-func (enc *DeltaByteArrayEncoder) FlushValues() (Buffer, error) {
-	if enc.prefixEncoder == nil {
-		enc.initEncoders()
-	}
-	prefixBuf, err := enc.prefixEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer prefixBuf.Release()
-
-	suffixBuf, err := enc.suffixEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer suffixBuf.Release()
-
-	ret := bufferPool.Get().(*memory.Buffer)
-	ret.ResizeNoShrink(prefixBuf.Len() + suffixBuf.Len())
-	copy(ret.Bytes(), prefixBuf.Bytes())
-	copy(ret.Bytes()[prefixBuf.Len():], suffixBuf.Bytes())
-	return poolBuffer{ret}, nil
-}
-
-// DeltaByteArrayDecoder is a decoder for a column of data encoded using incremental or prefix encoding.
-type DeltaByteArrayDecoder struct {
-	*DeltaLengthByteArrayDecoder
-
-	prefixLengths []int32
-	lastVal       parquet.ByteArray
-}
-
-// Type returns the underlying physical type this decoder operates on, in this case ByteArrays only
-func (DeltaByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-func (d *DeltaByteArrayDecoder) Allocator() memory.Allocator { return d.mem }
-
-// SetData expects the passed in data to be the prefix lengths, followed by the
-// blocks of suffix data in order to initialize the decoder.
-func (d *DeltaByteArrayDecoder) SetData(nvalues int, data []byte) error {
-	prefixLenDec := DeltaBitPackInt32Decoder{
-		decoder: newDecoderBase(d.encoding, d.descr),
-		mem:     d.mem,
-	}
-
-	if err := prefixLenDec.SetData(nvalues, data); err != nil {
-		return err
-	}
-
-	d.prefixLengths = make([]int32, nvalues)
-	// decode all the prefix lengths first so we know how many bytes it took to get the
-	// prefix lengths for nvalues
-	prefixLenDec.Decode(d.prefixLengths)
-
-	// now that we know how many bytes we needed for the prefix lengths, the rest are the
-	// delta length byte array encoding.
-	return d.DeltaLengthByteArrayDecoder.SetData(nvalues, data[int(prefixLenDec.bytesRead()):])
-}
-
-// Decode decodes byte arrays into the slice provided and returns the number of values actually decoded
-func (d *DeltaByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), d.nvals)
-	if max == 0 {
-		return 0, nil
-	}
-	out = out[:max]
-
-	var err error
-	if d.lastVal == nil {
-		_, err = d.DeltaLengthByteArrayDecoder.Decode(out[:1])
-		if err != nil {
-			return 0, err
-		}
-		d.lastVal = out[0]
-		out = out[1:]
-		d.prefixLengths = d.prefixLengths[1:]
-	}
-
-	var prefixLen int32
-	suffixHolder := make([]parquet.ByteArray, 1)
-	for len(out) > 0 {
-		prefixLen, d.prefixLengths = d.prefixLengths[0], d.prefixLengths[1:]
-
-		prefix := d.lastVal[:prefixLen:prefixLen]
-		_, err = d.DeltaLengthByteArrayDecoder.Decode(suffixHolder)
-		if err != nil {
-			return 0, err
-		}
-
-		if len(suffixHolder[0]) == 0 {
-			d.lastVal = prefix
-		} else {
-			d.lastVal = make([]byte, int(prefixLen)+len(suffixHolder[0]))
-			copy(d.lastVal, prefix)
-			copy(d.lastVal[prefixLen:], suffixHolder[0])
-		}
-		out[0], out = d.lastVal, out[1:]
-	}
-	return max, nil
-}
-
-// DecodeSpaced is like decode, but the result is spaced out based on the bitmap provided.
-func (d *DeltaByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := d.Decode(out[:toread])
-	if err != nil {
-		return values, err
-	}
-	if values != toread {
-		return values, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/delta_byte_array_test.go b/go/parquet/internal/encoding/delta_byte_array_test.go
deleted file mode 100644
index ec344cbecf845..0000000000000
--- a/go/parquet/internal/encoding/delta_byte_array_test.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDeltaByteArrayDecoder_SetData(t *testing.T) {
-	tests := []struct {
-		name    string
-		nvalues int
-		data    []byte
-		wantErr assert.ErrorAssertionFunc
-	}{
-		{
-			name:    "null only page",
-			nvalues: 126609,
-			data:    []byte{128, 1, 4, 0, 0},
-			wantErr: assert.NoError,
-		},
-	}
-	for _, tt := range tests {
-		d := NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, nil, memory.DefaultAllocator)
-		t.Run(tt.name, func(t *testing.T) {
-			tt.wantErr(t, d.SetData(tt.nvalues, tt.data), fmt.Sprintf("SetData(%v, %v)", tt.nvalues, tt.data))
-		})
-	}
-}
diff --git a/go/parquet/internal/encoding/delta_length_byte_array.go b/go/parquet/internal/encoding/delta_length_byte_array.go
deleted file mode 100644
index 87c48d574ed68..0000000000000
--- a/go/parquet/internal/encoding/delta_length_byte_array.go
+++ /dev/null
@@ -1,148 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// DeltaLengthByteArrayEncoder encodes data using by taking all of the byte array lengths
-// and encoding them in front using delta encoding, followed by all of the binary data
-// concatenated back to back. The expected savings is from the cost of encoding the lengths
-// and possibly better compression in the data which will no longer be interleaved with the lengths.
-//
-// This encoding is always preferred over PLAIN for byte array columns where possible.
-//
-// For example, if the data was "Hello", "World", "Foobar", "ABCDEF" the encoded data would be:
-// DeltaEncoding(5, 5, 6, 6) "HelloWorldFoobarABCDEF"
-type DeltaLengthByteArrayEncoder struct {
-	encoder
-
-	lengthEncoder *DeltaBitPackInt32Encoder
-}
-
-// Put writes the provided slice of byte arrays to the encoder
-func (enc *DeltaLengthByteArrayEncoder) Put(in []parquet.ByteArray) {
-	lengths := make([]int32, len(in))
-	totalLen := int(0)
-	for idx, val := range in {
-		lengths[idx] = int32(val.Len())
-		totalLen += val.Len()
-	}
-
-	enc.lengthEncoder.Put(lengths)
-	enc.sink.Reserve(totalLen)
-	for _, val := range in {
-		enc.sink.UnsafeWrite(val)
-	}
-}
-
-// PutSpaced is like Put, but the data is spaced out according to the bitmap provided and is compressed
-// accordingly before it is written to drop the null data from the write.
-func (enc *DeltaLengthByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		data := make([]parquet.ByteArray, len(in))
-		nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-		enc.Put(data[:nvalid])
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns the underlying type which is handled by this encoder, ByteArrays only.
-func (DeltaLengthByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// FlushValues flushes any remaining data and returns the final encoded buffer of data
-// or returns nil and any error encountered.
-func (enc *DeltaLengthByteArrayEncoder) FlushValues() (Buffer, error) {
-	ret, err := enc.lengthEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer ret.Release()
-
-	data := enc.sink.Finish()
-	defer data.Release()
-
-	output := bufferPool.Get().(*memory.Buffer)
-	output.ResizeNoShrink(ret.Len() + data.Len())
-	copy(output.Bytes(), ret.Bytes())
-	copy(output.Bytes()[ret.Len():], data.Bytes())
-	return poolBuffer{output}, nil
-}
-
-// DeltaLengthByteArrayDecoder is a decoder for handling data produced by the corresponding
-// encoder which expects delta packed lengths followed by the bytes of data.
-type DeltaLengthByteArrayDecoder struct {
-	decoder
-
-	mem     memory.Allocator
-	lengths []int32
-}
-
-// Type returns the underlying type which is handled by this encoder, ByteArrays only.
-func (DeltaLengthByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-func (d *DeltaLengthByteArrayDecoder) Allocator() memory.Allocator { return d.mem }
-
-// SetData sets in the expected data to the decoder which should be nvalues delta packed lengths
-// followed by the rest of the byte array data immediately after.
-func (d *DeltaLengthByteArrayDecoder) SetData(nvalues int, data []byte) error {
-	dec := DeltaBitPackInt32Decoder{
-		decoder: newDecoderBase(d.encoding, d.descr),
-		mem:     d.mem,
-	}
-
-	if err := dec.SetData(nvalues, data); err != nil {
-		return err
-	}
-	d.lengths = make([]int32, dec.totalValues)
-	dec.Decode(d.lengths)
-
-	return d.decoder.SetData(nvalues, data[int(dec.bytesRead()):])
-}
-
-// Decode populates the passed in slice with data decoded until it hits the length of out
-// or runs out of values in the column to decode, then returns the number of values actually decoded.
-func (d *DeltaLengthByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), d.nvals)
-	for i := 0; i < max; i++ {
-		out[i] = d.data[:d.lengths[i]:d.lengths[i]]
-		d.data = d.data[d.lengths[i]:]
-	}
-	d.nvals -= max
-	d.lengths = d.lengths[max:]
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but for spaced data using the provided bitmap to determine where the nulls should be inserted.
-func (d *DeltaLengthByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, _ := d.Decode(out[:toread])
-	if values != toread {
-		return values, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/encoder.go b/go/parquet/internal/encoding/encoder.go
deleted file mode 100644
index 2373449370f23..0000000000000
--- a/go/parquet/internal/encoding/encoder.go
+++ /dev/null
@@ -1,412 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math/bits"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata plain_encoder_types.gen.go.tmpl typed_encoder.gen.go.tmpl
-
-// EncoderTraits is an interface for the different types to make it more
-// convenient to construct encoders for specific types.
-type EncoderTraits interface {
-	Encoder(format.Encoding, bool, *schema.Column, memory.Allocator) TypedEncoder
-}
-
-// NewEncoder will return the appropriately typed encoder for the requested physical type
-// and encoding.
-//
-// If mem is nil, memory.DefaultAllocator will be used.
-func NewEncoder(t parquet.Type, e parquet.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	traits := getEncodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return traits.Encoder(format.Encoding(e), useDict, descr, mem)
-}
-
-type encoder struct {
-	descr    *schema.Column
-	encoding format.Encoding
-	typeLen  int
-	mem      memory.Allocator
-
-	sink *PooledBufferWriter
-}
-
-// newEncoderBase constructs a new base encoder for embedding on the typed encoders
-// encapsulating the common functionality.
-func newEncoderBase(e format.Encoding, descr *schema.Column, mem memory.Allocator) encoder {
-	typelen := -1
-	if descr != nil && descr.PhysicalType() == parquet.Types.FixedLenByteArray {
-		typelen = int(descr.TypeLength())
-	}
-	return encoder{
-		descr:    descr,
-		encoding: e,
-		mem:      mem,
-		typeLen:  typelen,
-		sink:     NewPooledBufferWriter(1024),
-	}
-}
-
-func (e *encoder) Release() {
-	poolbuf := e.sink.buf
-	memory.Set(poolbuf.Buf(), 0)
-	poolbuf.ResizeNoShrink(0)
-	bufferPool.Put(poolbuf)
-	e.sink = nil
-}
-
-// ReserveForWrite allocates n bytes so that the next n bytes written do not require new allocations.
-func (e *encoder) ReserveForWrite(n int)           { e.sink.Reserve(n) }
-func (e *encoder) EstimatedDataEncodedSize() int64 { return int64(e.sink.Len()) }
-func (e *encoder) Encoding() parquet.Encoding      { return parquet.Encoding(e.encoding) }
-func (e *encoder) Allocator() memory.Allocator     { return e.mem }
-func (e *encoder) append(data []byte)              { e.sink.Write(data) }
-
-// FlushValues flushes any unwritten data to the buffer and returns the finished encoded buffer of data.
-// This also clears the encoder, ownership of the data belongs to whomever called FlushValues, Release
-// should be called on the resulting Buffer when done.
-func (e *encoder) FlushValues() (Buffer, error) { return e.sink.Finish(), nil }
-
-// Bytes returns the current bytes that have been written to the encoder's buffer but doesn't transfer ownership.
-func (e *encoder) Bytes() []byte { return e.sink.Bytes() }
-
-// Reset drops the data currently in the encoder and resets for new use.
-func (e *encoder) Reset() { e.sink.Reset(0) }
-
-type dictEncoder struct {
-	encoder
-
-	dictEncodedSize int
-	idxBuffer       *memory.Buffer
-	idxValues       []int32
-	memo            MemoTable
-
-	preservedDict arrow.Array
-}
-
-// newDictEncoderBase constructs and returns a dictionary encoder for the appropriate type using the passed
-// in memo table for constructing the index.
-func newDictEncoderBase(descr *schema.Column, memo MemoTable, mem memory.Allocator) dictEncoder {
-	return dictEncoder{
-		encoder:   newEncoderBase(format.Encoding_PLAIN_DICTIONARY, descr, mem),
-		idxBuffer: memory.NewResizableBuffer(mem),
-		memo:      memo,
-	}
-}
-
-// Reset drops all the currently encoded values from the index and indexes from the data to allow
-// restarting the encoding process.
-func (d *dictEncoder) Reset() {
-	d.encoder.Reset()
-	d.dictEncodedSize = 0
-	d.idxValues = d.idxValues[:0]
-	d.idxBuffer.ResizeNoShrink(0)
-	d.memo.Reset()
-	if d.preservedDict != nil {
-		d.preservedDict.Release()
-		d.preservedDict = nil
-	}
-}
-
-func (d *dictEncoder) Release() {
-	d.encoder.Release()
-	d.idxBuffer.Release()
-	if m, ok := d.memo.(BinaryMemoTable); ok {
-		m.Release()
-	} else {
-		d.memo.Reset()
-	}
-	if d.preservedDict != nil {
-		d.preservedDict.Release()
-		d.preservedDict = nil
-	}
-}
-
-func (d *dictEncoder) expandBuffer(newCap int) {
-	if cap(d.idxValues) >= newCap {
-		return
-	}
-
-	curLen := len(d.idxValues)
-	d.idxBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(bitutil.NextPowerOf2(newCap)))
-	d.idxValues = arrow.Int32Traits.CastFromBytes(d.idxBuffer.Buf())[: curLen : d.idxBuffer.Len()/arrow.Int32SizeBytes]
-}
-
-func (d *dictEncoder) PutIndices(data arrow.Array) error {
-	newValues := data.Len() - data.NullN()
-	curPos := len(d.idxValues)
-	newLen := newValues + curPos
-	d.expandBuffer(newLen)
-	d.idxValues = d.idxValues[:newLen:cap(d.idxValues)]
-
-	switch data.DataType().ID() {
-	case arrow.UINT8, arrow.INT8:
-		values := arrow.Uint8Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT16, arrow.INT16:
-		values := arrow.Uint16Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT32, arrow.INT32:
-		values := arrow.Uint32Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT64, arrow.INT64:
-		values := arrow.Uint64Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	default:
-		return fmt.Errorf("%w: passed non-integer array to PutIndices", arrow.ErrInvalid)
-	}
-
-	return nil
-}
-
-// append the passed index to the indexbuffer
-func (d *dictEncoder) addIndex(idx int) {
-	curLen := len(d.idxValues)
-	d.expandBuffer(curLen + 1)
-	d.idxValues = append(d.idxValues, int32(idx))
-}
-
-// FlushValues dumps all the currently buffered indexes that would become the data page to a buffer and
-// returns it or returns nil and any error encountered.
-func (d *dictEncoder) FlushValues() (Buffer, error) {
-	buf := bufferPool.Get().(*memory.Buffer)
-	buf.Reserve(int(d.EstimatedDataEncodedSize()))
-	size, err := d.WriteIndices(buf.Buf())
-	if err != nil {
-		poolBuffer{buf}.Release()
-		return nil, err
-	}
-	buf.ResizeNoShrink(size)
-	return poolBuffer{buf}, nil
-}
-
-// EstimatedDataEncodedSize returns the maximum number of bytes needed to store the RLE encoded indexes, not including the
-// dictionary index in the computation.
-func (d *dictEncoder) EstimatedDataEncodedSize() int64 {
-	return 1 + int64(utils.MaxRLEBufferSize(d.BitWidth(), len(d.idxValues))+utils.MinRLEBufferSize(d.BitWidth()))
-}
-
-// NumEntries returns the number of entires in the dictionary index for this encoder.
-func (d *dictEncoder) NumEntries() int {
-	return d.memo.Size()
-}
-
-// BitWidth returns the max bitwidth that would be necessary for encoding the index values currently
-// in the dictionary based on the size of the dictionary index.
-func (d *dictEncoder) BitWidth() int {
-	switch d.NumEntries() {
-	case 0:
-		return 0
-	case 1:
-		return 1
-	default:
-		return bits.Len32(uint32(d.NumEntries() - 1))
-	}
-}
-
-// WriteDict writes the dictionary index to the given byte slice.
-func (d *dictEncoder) WriteDict(out []byte) {
-	d.memo.WriteOut(out)
-}
-
-// WriteIndices performs Run Length encoding on the indexes and the writes the encoded
-// index value data to the provided byte slice, returning the number of bytes actually written.
-// If any error is encountered, it will return -1 and the error.
-func (d *dictEncoder) WriteIndices(out []byte) (int, error) {
-	out[0] = byte(d.BitWidth())
-
-	enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(out[1:]), d.BitWidth())
-	for _, idx := range d.idxValues {
-		if err := enc.Put(uint64(idx)); err != nil {
-			return -1, err
-		}
-	}
-	nbytes := enc.Flush()
-
-	d.idxValues = d.idxValues[:0]
-	return nbytes + 1, nil
-}
-
-// Put adds a value to the dictionary data column, inserting the value if it
-// didn't already exist in the dictionary.
-func (d *dictEncoder) Put(v interface{}) {
-	memoIdx, found, err := d.memo.GetOrInsert(v)
-	if err != nil {
-		panic(err)
-	}
-	if !found {
-		d.dictEncodedSize += int(reflect.TypeOf(v).Size())
-	}
-	d.addIndex(memoIdx)
-}
-
-// DictEncodedSize returns the current size of the encoded dictionary
-func (d *dictEncoder) DictEncodedSize() int {
-	return d.dictEncodedSize
-}
-
-func (d *dictEncoder) canPutDictionary(values arrow.Array) error {
-	switch {
-	case values.NullN() > 0:
-		return fmt.Errorf("%w: inserted dictionary cannot contain nulls",
-			arrow.ErrInvalid)
-	case d.NumEntries() > 0:
-		return fmt.Errorf("%w: can only call PutDictionary on an empty DictEncoder",
-			arrow.ErrInvalid)
-	}
-
-	return nil
-}
-
-func (d *dictEncoder) PreservedDictionary() arrow.Array { return d.preservedDict }
-
-// spacedCompress is a helper function for encoders to remove the slots in the slices passed in according
-// to the bitmap which are null into an output slice that is no longer spaced out with slots for nulls.
-func spacedCompress(src, out interface{}, validBits []byte, validBitsOffset int64) int {
-	nvalid := 0
-
-	// for efficiency we use a type switch because the copy runs significantly faster when typed
-	// than calling reflect.Copy
-	switch s := src.(type) {
-	case []int32:
-		o := out.([]int32)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []int64:
-		o := out.([]int64)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []float32:
-		o := out.([]float32)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []float64:
-		o := out.([]float64)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []parquet.ByteArray:
-		o := out.([]parquet.ByteArray)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []parquet.FixedLenByteArray:
-		o := out.([]parquet.FixedLenByteArray)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []bool:
-		o := out.([]bool)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	}
-
-	return nvalid
-}
diff --git a/go/parquet/internal/encoding/encoding_benchmarks_test.go b/go/parquet/internal/encoding/encoding_benchmarks_test.go
deleted file mode 100644
index 2ca414eec6b90..0000000000000
--- a/go/parquet/internal/encoding/encoding_benchmarks_test.go
+++ /dev/null
@@ -1,681 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"fmt"
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-const (
-	MINSIZE = 1024
-	MAXSIZE = 65536
-)
-
-func BenchmarkPlainEncodingBoolean(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.BooleanEncoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingFloat32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]float32, sz)
-			for idx := range values {
-				values[idx] = 64.0
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Float, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Float32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Float32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingFloat64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]float64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Double, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Float64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Float64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainDecodingBoolean(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]bool, sz)
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.BooleanEncoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Boolean, parquet.Encodings.Plain, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.BooleanDecoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkPlainDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.Plain, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkMemoTableFloat64(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		nvalues int64
-	}{
-		{100, 65535},
-		{1000, 65535},
-		{5000, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique n %d", tt.nunique, tt.nvalues), func(b *testing.B) {
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.Float64(int64(tt.nunique), 0)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]float64, tt.nvalues)
-			for idx := range values {
-				values[idx] = dict.Value(int(indices.Value(idx)))
-			}
-
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewFloat64MemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-			b.ResetTimer()
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewFloat64MemoTable(0)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTableInt32(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		nvalues int64
-	}{
-		{100, 65535},
-		{1000, 65535},
-		{5000, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique n %d", tt.nunique, tt.nvalues), func(b *testing.B) {
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.Int32(int64(tt.nunique), 0, math.MaxInt32-1, 0)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]int32, tt.nvalues)
-			for idx := range values {
-				values[idx] = dict.Value(int(indices.Value(idx)))
-			}
-			b.ResetTimer()
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewInt32MemoTable(0)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewInt32MemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTable(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		minLen  int32
-		maxLen  int32
-		nvalues int64
-	}{
-		{100, 32, 32, 65535},
-		{100, 8, 32, 65535},
-		{1000, 32, 32, 65535},
-		{1000, 8, 32, 65535},
-		{5000, 32, 32, 65535},
-		{5000, 8, 32, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique len %d-%d n %d", tt.nunique, tt.minLen, tt.maxLen, tt.nvalues), func(b *testing.B) {
-
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.ByteArray(int64(tt.nunique), tt.minLen, tt.maxLen, 0).(*array.String)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]parquet.ByteArray, tt.nvalues)
-			for idx := range values {
-				values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-			}
-
-			b.ResetTimer()
-
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-					tbl.Release()
-				}
-			})
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-					tbl.Release()
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTableAllUnique(b *testing.B) {
-	tests := []struct {
-		minLen  int32
-		maxLen  int32
-		nvalues int64
-	}{
-		{32, 32, 1024},
-		{8, 32, 1024},
-		{32, 32, 32767},
-		{8, 32, 32767},
-		{32, 32, 65535},
-		{8, 32, 65535},
-	}
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("values %d len %d-%d", tt.nvalues, tt.minLen, tt.maxLen), func(b *testing.B) {
-
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.ByteArray(tt.nvalues, tt.minLen, tt.maxLen, 0).(*array.String)
-
-			values := make([]parquet.ByteArray, tt.nvalues)
-			for idx := range values {
-				values[idx] = []byte(dict.Value(idx))
-			}
-
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nvalues) {
-						b.Fatal(tbl.Size(), tt.nvalues)
-					}
-					tbl.Release()
-				}
-			})
-
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nvalues) {
-						b.Fatal(tbl.Size(), tt.nvalues)
-					}
-					tbl.Release()
-				}
-			})
-		})
-	}
-
-}
-
-func BenchmarkEncodeDictByteArray(b *testing.B) {
-	const (
-		nunique = 100
-		minLen  = 8
-		maxLen  = 32
-		nvalues = 65535
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	dict := rag.ByteArray(nunique, minLen, maxLen, 0).(*array.String)
-	indices := rag.Int32(nvalues, 0, nunique-1, 0)
-
-	values := make([]parquet.ByteArray, nvalues)
-	for idx := range values {
-		values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-	}
-	col := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-
-	out := make([]byte, nunique*(maxLen+arrow.Uint32SizeBytes))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.PlainDict, true, col, memory.DefaultAllocator).(*encoding.DictByteArrayEncoder)
-		enc.Put(values)
-		enc.WriteDict(out)
-	}
-}
-
-func BenchmarkDecodeDictByteArray(b *testing.B) {
-	const (
-		nunique = 100
-		minLen  = 32
-		maxLen  = 32
-		nvalues = 65535
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	dict := rag.ByteArray(nunique, minLen, maxLen, 0).(*array.String)
-	indices := rag.Int32(nvalues, 0, nunique-1, 0)
-
-	values := make([]parquet.ByteArray, nvalues)
-	for idx := range values {
-		values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-	}
-
-	col := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.PlainDict, true, col, memory.DefaultAllocator).(*encoding.DictByteArrayEncoder)
-	enc.Put(values)
-
-	dictBuf := make([]byte, enc.DictEncodedSize())
-	enc.WriteDict(dictBuf)
-
-	idxBuf := make([]byte, enc.EstimatedDataEncodedSize())
-	enc.WriteIndices(idxBuf)
-
-	out := make([]parquet.ByteArray, nvalues)
-
-	b.ResetTimer()
-
-	for i := 0; i < b.N; i++ {
-		dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.Plain, col, memory.DefaultAllocator)
-		dec.SetData(nunique, dictBuf)
-		dictDec := encoding.NewDictDecoder(parquet.Types.ByteArray, col, memory.DefaultAllocator).(*encoding.DictByteArrayDecoder)
-		dictDec.SetDict(dec)
-		dictDec.SetData(nvalues, idxBuf)
-
-		dictDec.Decode(out)
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt32Batched(b *testing.B) {
-	const batchSize = 512
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				for batch := 0; batch*batchSize < sz; batch++ {
-					offset := batch * batchSize
-					decoder.(encoding.Int32Decoder).Decode(output[offset : offset+batchSize])
-				}
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int64, sz)
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int64Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingFixedLenByteArray(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]parquet.FixedLenByteArray, sz)
-			for idx := range values {
-				values[idx] = []byte{0x12, 0x34, 0x56, 0x78}
-			}
-
-			arraySize := len(values[0])
-			col := schema.NewColumn(schema.NewFixedLenByteArrayNode("fixedlenbytearray", parquet.Repetitions.Required, int32(arraySize), -1), 0, 0)
-			encoder := encoding.NewEncoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit,
-				false, col, memory.DefaultAllocator).(encoding.FixedLenByteArrayEncoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arraySize))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingFixedLenByteArray(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]parquet.FixedLenByteArray, sz)
-			values := make([]parquet.FixedLenByteArray, sz)
-			for idx := range values {
-				values[idx] = []byte{0x12, 0x34, 0x56, 0x78}
-			}
-
-			arraySize := len(values[0])
-			col := schema.NewColumn(schema.NewFixedLenByteArrayNode("fixedlenbytearray", parquet.Repetitions.Required, int32(arraySize), -1), 0, 0)
-			encoder := encoding.NewEncoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit,
-				false, col, memory.DefaultAllocator).(encoding.FixedLenByteArrayEncoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit, col, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arraySize))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.FixedLenByteArrayDecoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkDeltaBinaryPackedEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkDeltaBinaryPackedDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
diff --git a/go/parquet/internal/encoding/encoding_test.go b/go/parquet/internal/encoding/encoding_test.go
deleted file mode 100644
index 4d681eaf02307..0000000000000
--- a/go/parquet/internal/encoding/encoding_test.go
+++ /dev/null
@@ -1,873 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"bufio"
-	"fmt"
-	"os"
-	"path"
-	"reflect"
-	"strconv"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type nodeFactory func(string, parquet.Repetition, int32) *schema.PrimitiveNode
-
-func createNodeFactory(t reflect.Type) nodeFactory {
-	switch t {
-	case reflect.TypeOf(true):
-		return schema.NewBooleanNode
-	case reflect.TypeOf(int32(0)):
-		return schema.NewInt32Node
-	case reflect.TypeOf(int64(0)):
-		return schema.NewInt64Node
-	case reflect.TypeOf(parquet.Int96{}):
-		return schema.NewInt96Node
-	case reflect.TypeOf(float32(0)):
-		return schema.NewFloat32Node
-	case reflect.TypeOf(float64(0)):
-		return schema.NewFloat64Node
-	case reflect.TypeOf(parquet.ByteArray{}):
-		return schema.NewByteArrayNode
-	case reflect.TypeOf(parquet.FixedLenByteArray{}):
-		return func(name string, rep parquet.Repetition, field int32) *schema.PrimitiveNode {
-			return schema.NewFixedLenByteArrayNode(name, rep, 12, field)
-		}
-	}
-	return nil
-}
-
-func initdata(t reflect.Type, drawbuf, decodebuf []byte, nvals, repeats int, heap *memory.Buffer) (interface{}, interface{}) {
-	switch t {
-	case reflect.TypeOf(true):
-		draws := *(*[]bool)(unsafe.Pointer(&drawbuf))
-		decode := *(*[]bool)(unsafe.Pointer(&decodebuf))
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(int32(0)):
-		draws := arrow.Int32Traits.CastFromBytes(drawbuf)
-		decode := arrow.Int32Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(int64(0)):
-		draws := arrow.Int64Traits.CastFromBytes(drawbuf)
-		decode := arrow.Int64Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.Int96{}):
-		draws := parquet.Int96Traits.CastFromBytes(drawbuf)
-		decode := parquet.Int96Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(float32(0)):
-		draws := arrow.Float32Traits.CastFromBytes(drawbuf)
-		decode := arrow.Float32Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(float64(0)):
-		draws := arrow.Float64Traits.CastFromBytes(drawbuf)
-		decode := arrow.Float64Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.ByteArray{}):
-		draws := make([]parquet.ByteArray, nvals*repeats)
-		decode := make([]parquet.ByteArray, nvals*repeats)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.FixedLenByteArray{}):
-		draws := make([]parquet.FixedLenByteArray, nvals*repeats)
-		decode := make([]parquet.FixedLenByteArray, nvals*repeats)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	}
-	return nil, nil
-}
-
-func encode(enc encoding.TypedEncoder, vals interface{}) {
-	switch v := vals.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).Put(v)
-	case []int32:
-		enc.(encoding.Int32Encoder).Put(v)
-	case []int64:
-		enc.(encoding.Int64Encoder).Put(v)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).Put(v)
-	case []float32:
-		enc.(encoding.Float32Encoder).Put(v)
-	case []float64:
-		enc.(encoding.Float64Encoder).Put(v)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).Put(v)
-	case []parquet.FixedLenByteArray:
-		enc.(encoding.FixedLenByteArrayEncoder).Put(v)
-	}
-}
-
-func encodeSpaced(enc encoding.TypedEncoder, vals interface{}, validBits []byte, validBitsOffset int64) {
-	switch v := vals.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).PutSpaced(v, validBits, validBitsOffset)
-	case []int32:
-		enc.(encoding.Int32Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []int64:
-		enc.(encoding.Int64Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []float32:
-		enc.(encoding.Float32Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []float64:
-		enc.(encoding.Float64Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		enc.(encoding.FixedLenByteArrayEncoder).PutSpaced(v, validBits, validBitsOffset)
-	}
-}
-
-func decode(dec encoding.TypedDecoder, out interface{}) (int, error) {
-	switch v := out.(type) {
-	case []bool:
-		return dec.(encoding.BooleanDecoder).Decode(v)
-	case []int32:
-		return dec.(encoding.Int32Decoder).Decode(v)
-	case []int64:
-		return dec.(encoding.Int64Decoder).Decode(v)
-	case []parquet.Int96:
-		return dec.(encoding.Int96Decoder).Decode(v)
-	case []float32:
-		return dec.(encoding.Float32Decoder).Decode(v)
-	case []float64:
-		return dec.(encoding.Float64Decoder).Decode(v)
-	case []parquet.ByteArray:
-		return dec.(encoding.ByteArrayDecoder).Decode(v)
-	case []parquet.FixedLenByteArray:
-		return dec.(encoding.FixedLenByteArrayDecoder).Decode(v)
-	}
-	return 0, nil
-}
-
-func decodeSpaced(dec encoding.TypedDecoder, out interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch v := out.(type) {
-	case []bool:
-		return dec.(encoding.BooleanDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []int32:
-		return dec.(encoding.Int32Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return dec.(encoding.Int64Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return dec.(encoding.Int96Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return dec.(encoding.Float32Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return dec.(encoding.Float64Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return dec.(encoding.ByteArrayDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return dec.(encoding.FixedLenByteArrayDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	}
-	return 0, nil
-}
-
-type BaseEncodingTestSuite struct {
-	suite.Suite
-
-	descr   *schema.Column
-	typeLen int
-	mem     memory.Allocator
-	typ     reflect.Type
-
-	nvalues     int
-	heap        *memory.Buffer
-	inputBytes  *memory.Buffer
-	outputBytes *memory.Buffer
-	nodeFactory nodeFactory
-
-	draws     interface{}
-	decodeBuf interface{}
-}
-
-func (b *BaseEncodingTestSuite) SetupSuite() {
-	b.mem = memory.DefaultAllocator
-	b.inputBytes = memory.NewResizableBuffer(b.mem)
-	b.outputBytes = memory.NewResizableBuffer(b.mem)
-	b.heap = memory.NewResizableBuffer(b.mem)
-	b.nodeFactory = createNodeFactory(b.typ)
-}
-
-func (b *BaseEncodingTestSuite) TearDownSuite() {
-	b.inputBytes.Release()
-	b.outputBytes.Release()
-	b.heap.Release()
-}
-
-func (b *BaseEncodingTestSuite) SetupTest() {
-	b.descr = schema.NewColumn(b.nodeFactory("name", parquet.Repetitions.Optional, -1), 0, 0)
-	b.typeLen = int(b.descr.TypeLength())
-}
-
-func (b *BaseEncodingTestSuite) initData(nvalues, repeats int) {
-	b.nvalues = nvalues * repeats
-	b.inputBytes.ResizeNoShrink(b.nvalues * int(b.typ.Size()))
-	b.outputBytes.ResizeNoShrink(b.nvalues * int(b.typ.Size()))
-	memory.Set(b.inputBytes.Buf(), 0)
-	memory.Set(b.outputBytes.Buf(), 0)
-
-	b.draws, b.decodeBuf = initdata(b.typ, b.inputBytes.Buf(), b.outputBytes.Buf(), nvalues, repeats, b.heap)
-}
-
-func (b *BaseEncodingTestSuite) encodeTestData(e parquet.Encoding) (encoding.Buffer, error) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(b.typ), e, false, b.descr, memory.DefaultAllocator)
-	b.Equal(e, enc.Encoding())
-	b.Equal(b.descr.PhysicalType(), enc.Type())
-	encode(enc, reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface())
-	return enc.FlushValues()
-}
-
-func (b *BaseEncodingTestSuite) decodeTestData(e parquet.Encoding, buf []byte) {
-	dec := encoding.NewDecoder(testutils.TypeToParquetType(b.typ), e, b.descr, b.mem)
-	b.Equal(e, dec.Encoding())
-	b.Equal(b.descr.PhysicalType(), dec.Type())
-
-	dec.SetData(b.nvalues, buf)
-	decoded, _ := decode(dec, b.decodeBuf)
-	b.Equal(b.nvalues, decoded)
-	b.Equal(reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface(), reflect.ValueOf(b.decodeBuf).Slice(0, b.nvalues).Interface())
-}
-
-func (b *BaseEncodingTestSuite) encodeTestDataSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) (encoding.Buffer, error) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(b.typ), e, false, b.descr, memory.DefaultAllocator)
-	encodeSpaced(enc, reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface(), validBits, validBitsOffset)
-	return enc.FlushValues()
-}
-
-func (b *BaseEncodingTestSuite) decodeTestDataSpaced(e parquet.Encoding, nullCount int, buf []byte, validBits []byte, validBitsOffset int64) {
-	dec := encoding.NewDecoder(testutils.TypeToParquetType(b.typ), e, b.descr, b.mem)
-	dec.SetData(b.nvalues-nullCount, buf)
-	decoded, _ := decodeSpaced(dec, b.decodeBuf, nullCount, validBits, validBitsOffset)
-	b.Equal(b.nvalues, decoded)
-
-	drawval := reflect.ValueOf(b.draws)
-	decodeval := reflect.ValueOf(b.decodeBuf)
-	for j := 0; j < b.nvalues; j++ {
-		if bitutil.BitIsSet(validBits, int(validBitsOffset)+j) {
-			b.Equal(drawval.Index(j).Interface(), decodeval.Index(j).Interface())
-		}
-	}
-}
-
-func (b *BaseEncodingTestSuite) checkRoundTrip(e parquet.Encoding) {
-	buf, _ := b.encodeTestData(e)
-	defer buf.Release()
-	b.decodeTestData(e, buf.Bytes())
-}
-
-func (b *BaseEncodingTestSuite) checkRoundTripSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) {
-	buf, _ := b.encodeTestDataSpaced(e, validBits, validBitsOffset)
-	defer buf.Release()
-
-	nullCount := 0
-	for i := 0; i < b.nvalues; i++ {
-		if bitutil.BitIsNotSet(validBits, int(validBitsOffset)+i) {
-			nullCount++
-		}
-	}
-	b.decodeTestDataSpaced(e, nullCount, buf.Bytes(), validBits, validBitsOffset)
-}
-
-func (b *BaseEncodingTestSuite) TestBasicRoundTrip() {
-	b.initData(10000, 1)
-	b.checkRoundTrip(parquet.Encodings.Plain)
-}
-
-func (b *BaseEncodingTestSuite) TestRleBooleanEncodingRoundTrip() {
-	switch b.typ {
-	case reflect.TypeOf(true):
-		b.initData(2000, 200)
-		b.checkRoundTrip(parquet.Encodings.RLE)
-	default:
-		b.T().SkipNow()
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaEncodingRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)):
-		b.checkRoundTrip(parquet.Encodings.DeltaBinaryPacked)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaBinaryPacked) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaLengthByteArrayRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(parquet.ByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaByteArrayRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(parquet.ByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.DeltaByteArray)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestByteStreamSplitRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(float32(0)), reflect.TypeOf(float64(0)), reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)), reflect.TypeOf(parquet.FixedLenByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.ByteStreamSplit)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.ByteStreamSplit) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestSpacedRoundTrip() {
-	exec := func(vals, repeats int, validBitsOffset int64, nullProb float64) {
-		b.Run(fmt.Sprintf("%d vals %d repeats %d offset %0.3f null", vals, repeats, validBitsOffset, 1-nullProb), func() {
-			b.initData(vals, repeats)
-
-			size := int64(b.nvalues) + validBitsOffset
-			r := testutils.NewRandomArrayGenerator(1923)
-			arr := r.Uint8(size, 0, 100, 1-nullProb)
-			validBits := arr.NullBitmapBytes()
-			if validBits != nil {
-				b.checkRoundTripSpaced(parquet.Encodings.Plain, validBits, validBitsOffset)
-				switch b.typ {
-				case reflect.TypeOf(false):
-					b.checkRoundTripSpaced(parquet.Encodings.RLE, validBits, validBitsOffset)
-				case reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)):
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaBinaryPacked, validBits, validBitsOffset)
-				case reflect.TypeOf(parquet.ByteArray{}):
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaLengthByteArray, validBits, validBitsOffset)
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaByteArray, validBits, validBitsOffset)
-				}
-			}
-		})
-	}
-
-	const (
-		avx512Size    = 64
-		simdSize      = avx512Size
-		multiSimdSize = simdSize * 33
-	)
-
-	for _, nullProb := range []float64{0.001, 0.1, 0.5, 0.9, 0.999} {
-		// Test with both size and offset up to 3 simd block
-		for i := 1; i < simdSize*3; i++ {
-			exec(i, 1, 0, nullProb)
-			exec(i, 1, int64(i+1), nullProb)
-		}
-		// large block and offset
-		exec(multiSimdSize, 1, 0, nullProb)
-		exec(multiSimdSize+33, 1, 0, nullProb)
-		exec(multiSimdSize, 1, 33, nullProb)
-		exec(multiSimdSize+33, 1, 33, nullProb)
-	}
-}
-
-func TestEncoding(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  reflect.Type
-	}{
-		{"Bool", reflect.TypeOf(true)},
-		{"Int32", reflect.TypeOf(int32(0))},
-		{"Int64", reflect.TypeOf(int64(0))},
-		{"Float32", reflect.TypeOf(float32(0))},
-		{"Float64", reflect.TypeOf(float64(0))},
-		{"Int96", reflect.TypeOf(parquet.Int96{})},
-		{"ByteArray", reflect.TypeOf(parquet.ByteArray{})},
-		{"FixedLenByteArray", reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &BaseEncodingTestSuite{typ: tt.typ})
-		})
-	}
-}
-
-type DictionaryEncodingTestSuite struct {
-	BaseEncodingTestSuite
-}
-
-func (d *DictionaryEncodingTestSuite) encodeTestDataDict(e parquet.Encoding) (dictBuffer, indices encoding.Buffer, numEntries int) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(d.typ), e, true, d.descr, memory.DefaultAllocator).(encoding.DictEncoder)
-
-	d.Equal(parquet.Encodings.PlainDict, enc.Encoding())
-	d.Equal(d.descr.PhysicalType(), enc.Type())
-	encode(enc, reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface())
-	dictBuffer = memory.NewResizableBuffer(d.mem)
-	dictBuffer.Resize(enc.DictEncodedSize())
-	enc.WriteDict(dictBuffer.Bytes())
-	indices, _ = enc.FlushValues()
-	numEntries = enc.NumEntries()
-	return
-}
-
-func (d *DictionaryEncodingTestSuite) encodeTestDataDictSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) (dictBuffer, indices encoding.Buffer, numEntries int) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(d.typ), e, true, d.descr, memory.DefaultAllocator).(encoding.DictEncoder)
-	d.Equal(d.descr.PhysicalType(), enc.Type())
-
-	encodeSpaced(enc, reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), validBits, validBitsOffset)
-	dictBuffer = memory.NewResizableBuffer(d.mem)
-	dictBuffer.Resize(enc.DictEncodedSize())
-	enc.WriteDict(dictBuffer.Bytes())
-	indices, _ = enc.FlushValues()
-	numEntries = enc.NumEntries()
-	return
-}
-
-func (d *DictionaryEncodingTestSuite) checkRoundTrip() {
-	dictBuffer, indices, numEntries := d.encodeTestDataDict(parquet.Encodings.Plain)
-	defer dictBuffer.Release()
-	defer indices.Release()
-	validBits := make([]byte, int(bitutil.BytesForBits(int64(d.nvalues)))+1)
-	memory.Set(validBits, 255)
-
-	spacedBuffer, indicesSpaced, _ := d.encodeTestDataDictSpaced(parquet.Encodings.Plain, validBits, 0)
-	defer spacedBuffer.Release()
-	defer indicesSpaced.Release()
-	d.Equal(indices.Bytes(), indicesSpaced.Bytes())
-
-	dictDecoder := encoding.NewDecoder(testutils.TypeToParquetType(d.typ), parquet.Encodings.Plain, d.descr, d.mem)
-	d.Equal(d.descr.PhysicalType(), dictDecoder.Type())
-	dictDecoder.SetData(numEntries, dictBuffer.Bytes())
-	decoder := encoding.NewDictDecoder(testutils.TypeToParquetType(d.typ), d.descr, d.mem)
-	decoder.SetDict(dictDecoder)
-	decoder.SetData(d.nvalues, indices.Bytes())
-
-	decoded, _ := decode(decoder, d.decodeBuf)
-	d.Equal(d.nvalues, decoded)
-	d.Equal(reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), reflect.ValueOf(d.decodeBuf).Slice(0, d.nvalues).Interface())
-
-	decoder.SetData(d.nvalues, indices.Bytes())
-	decoded, _ = decodeSpaced(decoder, d.decodeBuf, 0, validBits, 0)
-	d.Equal(d.nvalues, decoded)
-	d.Equal(reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), reflect.ValueOf(d.decodeBuf).Slice(0, d.nvalues).Interface())
-}
-
-func (d *DictionaryEncodingTestSuite) TestBasicRoundTrip() {
-	d.initData(2500, 2)
-	d.checkRoundTrip()
-}
-
-func TestDictEncoding(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  reflect.Type
-	}{
-		{"Int32", reflect.TypeOf(int32(0))},
-		{"Int64", reflect.TypeOf(int64(0))},
-		{"Float32", reflect.TypeOf(float32(0))},
-		{"Float64", reflect.TypeOf(float64(0))},
-		{"ByteArray", reflect.TypeOf(parquet.ByteArray{})},
-		{"FixedLenByteArray", reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &DictionaryEncodingTestSuite{BaseEncodingTestSuite{typ: tt.typ}})
-		})
-	}
-}
-
-func TestWriteDeltaBitPackedInt32(t *testing.T) {
-	column := schema.NewColumn(schema.NewInt32Node("int32", parquet.Repetitions.Required, -1), 0, 0)
-
-	tests := []struct {
-		name     string
-		toencode []int32
-		expected []byte
-	}{
-		{"simple 12345", []int32{1, 2, 3, 4, 5}, []byte{128, 1, 4, 5, 2, 2, 0, 0, 0, 0}},
-		{"odd vals", []int32{7, 5, 3, 1, 2, 3, 4, 5}, []byte{128, 1, 4, 8, 14, 3, 2, 0, 0, 0, 192, 63, 0, 0, 0, 0, 0, 0}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-
-			enc.(encoding.Int32Encoder).Put(tt.toencode)
-			buf, _ := enc.FlushValues()
-			defer buf.Release()
-
-			assert.Equal(t, tt.expected, buf.Bytes())
-
-			dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-
-			dec.(encoding.Int32Decoder).SetData(len(tt.toencode), tt.expected)
-			out := make([]int32, len(tt.toencode))
-			dec.(encoding.Int32Decoder).Decode(out)
-			assert.Equal(t, tt.toencode, out)
-		})
-	}
-
-	t.Run("test progressive decoding", func(t *testing.T) {
-		values := make([]int32, 1000)
-		testutils.FillRandomInt32(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int32Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int32Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int32, 100)
-		for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-			dec.(encoding.Int32Decoder).Decode(valueBuf)
-			assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-		}
-	})
-
-	t.Run("test decoding multiple pages", func(t *testing.T) {
-		values := make([]int32, 1000)
-		testutils.FillRandomInt32(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int32Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		// Using same Decoder to decode the data.
-		dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		for i := 0; i < 5; i += 1 {
-			dec.(encoding.Int32Decoder).SetData(len(values), buf.Bytes())
-
-			valueBuf := make([]int32, 100)
-			for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-				dec.(encoding.Int32Decoder).Decode(valueBuf)
-				assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-			}
-		}
-	})
-}
-
-func TestWriteDeltaBitPackedInt64(t *testing.T) {
-	column := schema.NewColumn(schema.NewInt64Node("int64", parquet.Repetitions.Required, -1), 0, 0)
-
-	tests := []struct {
-		name     string
-		toencode []int64
-		expected []byte
-	}{
-		{"simple 12345", []int64{1, 2, 3, 4, 5}, []byte{128, 1, 4, 5, 2, 2, 0, 0, 0, 0}},
-		{"odd vals", []int64{7, 5, 3, 1, 2, 3, 4, 5}, []byte{128, 1, 4, 8, 14, 3, 2, 0, 0, 0, 192, 63, 0, 0, 0, 0, 0, 0}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-
-			enc.(encoding.Int64Encoder).Put(tt.toencode)
-			buf, _ := enc.FlushValues()
-			defer buf.Release()
-
-			assert.Equal(t, tt.expected, buf.Bytes())
-
-			dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-
-			dec.(encoding.Int64Decoder).SetData(len(tt.toencode), tt.expected)
-			out := make([]int64, len(tt.toencode))
-			dec.(encoding.Int64Decoder).Decode(out)
-			assert.Equal(t, tt.toencode, out)
-		})
-	}
-
-	t.Run("test progressive decoding", func(t *testing.T) {
-		values := make([]int64, 1000)
-		testutils.FillRandomInt64(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int64, 100)
-		for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-			decoded, _ := dec.(encoding.Int64Decoder).Decode(valueBuf)
-			assert.Equal(t, len(valueBuf), decoded)
-			assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-		}
-	})
-
-	t.Run("GH-37102", func(t *testing.T) {
-		values := []int64{
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 0,
-		}
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int64, len(values))
-
-		decoded, _ := dec.(encoding.Int64Decoder).Decode(valueBuf)
-		assert.Equal(t, len(valueBuf), decoded)
-		assert.Equal(t, values, valueBuf)
-	})
-
-	t.Run("test decoding multiple pages", func(t *testing.T) {
-		values := make([]int64, 1000)
-		testutils.FillRandomInt64(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		// Using same Decoder to decode the data.
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		for i := 0; i < 5; i += 1 {
-			dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-			valueBuf := make([]int64, 100)
-			for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-				dec.(encoding.Int64Decoder).Decode(valueBuf)
-				assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-			}
-		}
-	})
-}
-
-func TestDeltaLengthByteArrayEncoding(t *testing.T) {
-	column := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-
-	test := []parquet.ByteArray{[]byte("Hello"), []byte("World"), []byte("Foobar"), []byte("ABCDEF")}
-	expected := []byte{128, 1, 4, 4, 10, 0, 1, 0, 0, 0, 2, 0, 0, 0, 72, 101, 108, 108, 111, 87, 111, 114, 108, 100, 70, 111, 111, 98, 97, 114, 65, 66, 67, 68, 69, 70}
-
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, false, column, memory.DefaultAllocator)
-	enc.(encoding.ByteArrayEncoder).Put(test)
-	buf, _ := enc.FlushValues()
-	defer buf.Release()
-
-	assert.Equal(t, expected, buf.Bytes())
-
-	dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, column, nil)
-	dec.SetData(len(test), expected)
-	out := make([]parquet.ByteArray, len(test))
-	decoded, _ := dec.(encoding.ByteArrayDecoder).Decode(out)
-	assert.Equal(t, len(test), decoded)
-	assert.Equal(t, test, out)
-}
-
-func TestDeltaByteArrayEncoding(t *testing.T) {
-	test := []parquet.ByteArray{[]byte("Hello"), []byte("World"), []byte("Foobar"), []byte("ABCDEF")}
-	expected := []byte{128, 1, 4, 4, 0, 0, 0, 0, 0, 0, 128, 1, 4, 4, 10, 0, 1, 0, 0, 0, 2, 0, 0, 0, 72, 101, 108, 108, 111, 87, 111, 114, 108, 100, 70, 111, 111, 98, 97, 114, 65, 66, 67, 68, 69, 70}
-
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.DeltaByteArray, false, nil, nil)
-	enc.(encoding.ByteArrayEncoder).Put(test)
-	buf, _ := enc.FlushValues()
-	defer buf.Release()
-
-	assert.Equal(t, expected, buf.Bytes())
-
-	dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaByteArray, nil, nil)
-	dec.SetData(len(test), expected)
-	out := make([]parquet.ByteArray, len(test))
-	decoded, _ := dec.(encoding.ByteArrayDecoder).Decode(out)
-	assert.Equal(t, len(test), decoded)
-	assert.Equal(t, test, out)
-}
-
-func TestDeltaBitPacking(t *testing.T) {
-	datadir := os.Getenv("ARROW_TEST_DATA")
-	if datadir == "" {
-		return
-	}
-
-	fname := path.Join(datadir, "parquet/timestamp.data")
-	require.FileExists(t, fname)
-	f, err := os.Open(fname)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer f.Close()
-
-	values := make([]int64, 0)
-
-	scanner := bufio.NewScanner(f)
-	for scanner.Scan() {
-		v, err := strconv.ParseInt(scanner.Text(), 10, 64)
-		if err != nil {
-			t.Fatal(err)
-		}
-		values = append(values, v)
-	}
-
-	if err := scanner.Err(); err != nil {
-		t.Fatal(err)
-	}
-
-	col := schema.NewColumn(schema.MustPrimitive(schema.NewPrimitiveNode("foo", parquet.Repetitions.Required,
-		parquet.Types.Int64, -1, -1)), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, col, memory.DefaultAllocator).(encoding.Int64Encoder)
-
-	enc.Put(values)
-	buf, err := enc.FlushValues()
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer buf.Release()
-
-	dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, col, memory.DefaultAllocator).(encoding.Int64Decoder)
-	dec.SetData(len(values), buf.Bytes())
-
-	ll := len(values)
-	for i := 0; i < ll; i += 1024 {
-		out := make([]int64, 1024)
-		n, err := dec.Decode(out)
-		if err != nil {
-			t.Fatal(err)
-		}
-		assert.Equal(t, values[:n], out[:n])
-		values = values[n:]
-	}
-	assert.Equal(t, dec.ValuesLeft(), 0)
-}
-
-func TestBooleanPlainDecoderAfterFlushing(t *testing.T) {
-	descr := schema.NewColumn(schema.NewBooleanNode("bool", parquet.Repetitions.Optional, -1), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain, false, descr, memory.DefaultAllocator)
-	benc := enc.(encoding.BooleanEncoder)
-
-	dec := encoding.NewDecoder(parquet.Types.Boolean, parquet.Encodings.Plain, descr, memory.DefaultAllocator)
-	decSlice := make([]bool, 1)
-	bdec := dec.(encoding.BooleanDecoder)
-
-	// Write and extract two different values
-	// This is validating that `FlushValues` wholly
-	// resets the encoder state.
-	benc.Put([]bool{true})
-	buf1, err := benc.FlushValues()
-	assert.NoError(t, err)
-
-	benc.Put([]bool{false})
-	buf2, err := benc.FlushValues()
-	assert.NoError(t, err)
-
-	// Decode buf1, expect true
-	err = bdec.SetData(1, buf1.Buf())
-	assert.NoError(t, err)
-	n, err := bdec.Decode(decSlice)
-	assert.NoError(t, err)
-	assert.Equal(t, n, 1)
-	assert.Equal(t, decSlice[0], true)
-
-	// Decode buf2, expect false
-	err = bdec.SetData(1, buf2.Buf())
-	assert.NoError(t, err)
-	n, err = bdec.Decode(decSlice)
-	assert.NoError(t, err)
-	assert.Equal(t, n, 1)
-	assert.Equal(t, decSlice[0], false)
-}
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
deleted file mode 100644
index 7e319845a8089..0000000000000
--- a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// PlainFixedLenByteArrayDecoder is a plain encoding decoder for Fixed Length Byte Arrays
-type PlainFixedLenByteArrayDecoder struct {
-	decoder
-}
-
-// Type returns the physical type this decoder operates on, FixedLength Byte Arrays
-func (PlainFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// Decode populates out with fixed length byte array values until either there are no more
-// values to decode or the length of out has been filled. Then returns the total number of values
-// that were decoded.
-func (pflba *PlainFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	max := utils.Min(len(out), pflba.nvals)
-	numBytesNeeded := max * pflba.typeLen
-	if numBytesNeeded > len(pflba.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	for idx := range out[:max] {
-		out[idx] = pflba.data[:pflba.typeLen]
-		pflba.data = pflba.data[pflba.typeLen:]
-	}
-	return max, nil
-}
-
-// DecodeSpaced does the same as Decode but spaces out the resulting slice according to the bitmap leaving space for null values
-func (pflba *PlainFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := pflba.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-// ByteStreamSplitFixedLenByteArrayDecoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing FixedLenByteArray values
-type ByteStreamSplitFixedLenByteArrayDecoder struct {
-	decoder
-	stride int
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) SetData(nvals int, data []byte) error {
-	if nvals*dec.typeLen < len(data) {
-		return fmt.Errorf("data size (%d) is too small for the number of values in in BYTE_STREAM_SPLIT (%d)", len(data), nvals)
-	}
-
-	if len(data)%dec.typeLen != 0 {
-		return fmt.Errorf("ByteStreamSplit data size %d not aligned with type %s and byte_width: %d", len(data), dec.Type(), dec.typeLen)
-	}
-
-	nvals = len(data) / dec.typeLen
-	dec.stride = nvals
-
-	return dec.decoder.SetData(nvals, data)
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	toRead := len(out)
-	numBytesNeeded := toRead * dec.typeLen
-	if numBytesNeeded > len(dec.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	for i := range out {
-		if cap(out[i]) < dec.typeLen {
-			out[i] = make(parquet.FixedLenByteArray, dec.typeLen)
-		} else {
-			out[i] = out[i][:dec.typeLen]
-		}
-	}
-
-	switch dec.typeLen {
-	case 2:
-		decodeByteStreamSplitBatchFLBAWidth2(dec.data, toRead, dec.stride, out)
-	case 4:
-		decodeByteStreamSplitBatchFLBAWidth4(dec.data, toRead, dec.stride, out)
-	case 8:
-		decodeByteStreamSplitBatchFLBAWidth8(dec.data, toRead, dec.stride, out)
-	default:
-		decodeByteStreamSplitBatchFLBA(dec.data, toRead, dec.stride, dec.typeLen, out)
-	}
-
-	dec.nvals -= toRead
-	dec.data = dec.data[toRead:]
-	return toRead, nil
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := dec.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
deleted file mode 100644
index 9e6377db868f1..0000000000000
--- a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
+++ /dev/null
@@ -1,176 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// PlainFixedLenByteArrayEncoder writes the raw bytes of the byte array
-// always writing typeLength bytes for each value.
-type PlainFixedLenByteArrayEncoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put writes the provided values to the encoder
-func (enc *PlainFixedLenByteArrayEncoder) Put(in []parquet.FixedLenByteArray) {
-	typeLen := enc.descr.TypeLength()
-	if typeLen == 0 {
-		return
-	}
-
-	bytesNeeded := len(in) * typeLen
-	enc.sink.Reserve(bytesNeeded)
-	for _, val := range in {
-		if val == nil {
-			panic("value cannot be nil")
-		}
-		enc.sink.UnsafeWrite(val[:typeLen])
-	}
-}
-
-// PutSpaced is like Put but works with data that is spaced out according to the passed in bitmap
-func (enc *PlainFixedLenByteArrayEncoder) PutSpaced(in []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		if enc.bitSetReader == nil {
-			enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-		} else {
-			enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-		}
-
-		for {
-			run := enc.bitSetReader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-		}
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns the underlying physical type this encoder works with, Fixed Length byte arrays.
-func (PlainFixedLenByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// ByteStreamSplitFixedLenByteArrayEncoder writes the underlying bytes of the FixedLenByteArray
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFixedLenByteArrayEncoder struct {
-	PlainFixedLenByteArrayEncoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFixedLenByteArrayEncoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFixedLenByteArrayEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.ResizeNoShrink(in.Len())
-
-	switch enc.typeLen {
-	case 2:
-		encodeByteStreamSplitWidth2(enc.flushBuffer.Bytes(), in.Bytes())
-	case 4:
-		encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	case 8:
-		encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	default:
-		encodeByteStreamSplit(enc.flushBuffer.Bytes(), in.Bytes(), enc.typeLen)
-	}
-
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFixedLenByteArrayEncoder) Release() {
-	enc.PlainFixedLenByteArrayEncoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// WriteDict overrides the embedded WriteDict function to call a specialized function
-// for copying out the Fixed length values from the dictionary more efficiently.
-func (enc *DictFixedLenByteArrayEncoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, enc.typeLen, out)
-}
-
-// Put writes fixed length values to a dictionary encoded column
-func (enc *DictFixedLenByteArrayEncoder) Put(in []parquet.FixedLenByteArray) {
-	for _, v := range in {
-		memoIdx, found, err := enc.memo.GetOrInsert(v)
-		if err != nil {
-			panic(err)
-		}
-		if !found {
-			enc.dictEncodedSize += enc.typeLen
-		}
-		enc.addIndex(memoIdx)
-	}
-}
-
-// PutSpaced is like Put but leaves space for nulls
-func (enc *DictFixedLenByteArrayEncoder) PutSpaced(in []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		enc.Put(in[pos : pos+length])
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFixedLenByteArrayEncoder) PutDictionary(values arrow.Array) error {
-	if values.DataType().ID() != arrow.FIXED_SIZE_BINARY && values.DataType().ID() != arrow.DECIMAL {
-		return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported", arrow.ErrInvalid)
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != enc.typeLen {
-		return fmt.Errorf("%w: size mismatch: %s should have been %d wide",
-			arrow.ErrInvalid, values.DataType(), enc.typeLen)
-	}
-
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += enc.typeLen * values.Len()
-	data := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*enc.typeLen:]
-	for i := 0; i < values.Len(); i++ {
-		_, _, err := enc.memo.GetOrInsert(data[i*enc.typeLen : (i+1)*enc.typeLen])
-		if err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
diff --git a/go/parquet/internal/encoding/levels.go b/go/parquet/internal/encoding/levels.go
deleted file mode 100644
index 81c9011c78e1e..0000000000000
--- a/go/parquet/internal/encoding/levels.go
+++ /dev/null
@@ -1,289 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math/bits"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// LevelEncoder is for handling the encoding of Definition and Repetition levels
-// to parquet files.
-type LevelEncoder struct {
-	bitWidth int
-	rleLen   int
-	encoding format.Encoding
-	rle      *utils.RleEncoder
-	bit      *utils.BitWriter
-}
-
-// LevelEncodingMaxBufferSize estimates the max number of bytes needed to encode data with the
-// specified encoding given the max level and number of buffered values provided.
-func LevelEncodingMaxBufferSize(encoding parquet.Encoding, maxLvl int16, nbuffered int) int {
-	bitWidth := bits.Len64(uint64(maxLvl))
-	nbytes := 0
-	switch encoding {
-	case parquet.Encodings.RLE:
-		nbytes = utils.MaxRLEBufferSize(bitWidth, nbuffered) + utils.MinRLEBufferSize(bitWidth)
-	case parquet.Encodings.BitPacked:
-		nbytes = int(bitutil.BytesForBits(int64(nbuffered * bitWidth)))
-	default:
-		panic("parquet: unknown encoding type for levels")
-	}
-	return nbytes
-}
-
-// Reset resets the encoder allowing it to be reused and updating the maxlevel to the new
-// specified value.
-func (l *LevelEncoder) Reset(maxLvl int16) {
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rle.Clear()
-		l.rle.BitWidth = l.bitWidth
-	case format.Encoding_BIT_PACKED:
-		l.bit.Clear()
-	default:
-		panic("parquet: unknown encoding type")
-	}
-}
-
-// Init is called to set up the desired encoding type, max level and underlying writer for a
-// level encoder to control where the resulting encoded buffer will end up.
-func (l *LevelEncoder) Init(encoding parquet.Encoding, maxLvl int16, w utils.WriterAtWithLen) {
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-	l.encoding = format.Encoding(encoding)
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rle = utils.NewRleEncoder(w, l.bitWidth)
-	case format.Encoding_BIT_PACKED:
-		l.bit = utils.NewBitWriter(w)
-	default:
-		panic("parquet: unknown encoding type for levels")
-	}
-}
-
-// EncodeNoFlush encodes the provided levels in the encoder, but doesn't flush
-// the buffer and return it yet, appending these encoded values. Returns the number
-// of values encoded and any error encountered or nil. If err is not nil, nencoded
-// will be the number of values encoded before the error was encountered
-func (l *LevelEncoder) EncodeNoFlush(lvls []int16) (nencoded int, err error) {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		for _, level := range lvls {
-			if err = l.rle.Put(uint64(level)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	default:
-		for _, level := range lvls {
-			if err = l.bit.WriteValue(uint64(level), uint(l.bitWidth)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	}
-	return
-}
-
-// Flush flushes out any encoded data to the underlying writer.
-func (l *LevelEncoder) Flush() {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rleLen = l.rle.Flush()
-	default:
-		l.bit.Flush(false)
-	}
-}
-
-// Encode encodes the slice of definition or repetition levels based on
-// the currently configured encoding type and returns the number of
-// values that were encoded.
-func (l *LevelEncoder) Encode(lvls []int16) (nencoded int, err error) {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		defer func() { l.rleLen = l.rle.Flush() }()
-		for _, level := range lvls {
-			if err = l.rle.Put(uint64(level)); err != nil {
-				return
-			}
-			nencoded++
-		}
-
-	default:
-		defer l.bit.Flush(false)
-		for _, level := range lvls {
-			if err = l.bit.WriteValue(uint64(level), uint(l.bitWidth)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	}
-	return
-}
-
-// Len returns the number of bytes that were written as Run Length encoded
-// levels, this is only valid for run length encoding and will panic if using
-// deprecated bit packed encoding.
-func (l *LevelEncoder) Len() int {
-	if l.encoding != format.Encoding_RLE {
-		panic("parquet: level encoder, only implemented for RLE")
-	}
-	return l.rleLen
-}
-
-// LevelDecoder handles the decoding of repetition and definition levels from a
-// parquet file supporting bit packed and run length encoded values.
-type LevelDecoder struct {
-	bitWidth  int
-	remaining int // the number of values left to be decoded in the input data
-	maxLvl    int16
-	encoding  format.Encoding
-	// only one of the following should ever be set at a time based on the
-	// encoding format.
-	rle *utils.RleDecoder
-	bit *utils.BitReader
-}
-
-// SetData sets in the data to be decoded by subsequent calls by specifying the encoding type
-// the maximum level (which is what determines the bit width), the number of values expected
-// and the raw bytes to decode. Returns the number of bytes expected to be decoded.
-func (l *LevelDecoder) SetData(encoding parquet.Encoding, maxLvl int16, nbuffered int, data []byte) (int, error) {
-	l.maxLvl = maxLvl
-	l.encoding = format.Encoding(encoding)
-	l.remaining = nbuffered
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-
-	switch encoding {
-	case parquet.Encodings.RLE:
-		if len(data) < 4 {
-			return 0, errors.New("parquet: received invalid levels (corrupt data page?)")
-		}
-
-		nbytes := int32(binary.LittleEndian.Uint32(data[:4]))
-		if nbytes < 0 || nbytes > int32(len(data)-4) {
-			return 0, errors.New("parquet: received invalid number of bytes (corrupt data page?)")
-		}
-
-		buf := data[4:]
-		if l.rle == nil {
-			l.rle = utils.NewRleDecoder(bytes.NewReader(buf), l.bitWidth)
-		} else {
-			l.rle.Reset(bytes.NewReader(buf), l.bitWidth)
-		}
-		return int(nbytes) + 4, nil
-	case parquet.Encodings.BitPacked:
-		nbits, ok := overflow.Mul(nbuffered, l.bitWidth)
-		if !ok {
-			return 0, errors.New("parquet: number of buffered values too large (corrupt data page?)")
-		}
-
-		nbytes := bitutil.BytesForBits(int64(nbits))
-		if nbytes < 0 || nbytes > int64(len(data)) {
-			return 0, errors.New("parquet: received invalid number of bytes (corrupt data page?)")
-		}
-		if l.bit == nil {
-			l.bit = utils.NewBitReader(bytes.NewReader(data))
-		} else {
-			l.bit.Reset(bytes.NewReader(data))
-		}
-		return int(nbytes), nil
-	default:
-		return 0, fmt.Errorf("parquet: unknown encoding type for levels '%s'", encoding)
-	}
-}
-
-// SetDataV2 is the same as SetData but only for DataPageV2 pages and only supports
-// run length encoding.
-func (l *LevelDecoder) SetDataV2(nbytes int32, maxLvl int16, nbuffered int, data []byte) error {
-	if nbytes < 0 {
-		return errors.New("parquet: invalid page header (corrupt data page?)")
-	}
-
-	l.maxLvl = maxLvl
-	l.encoding = format.Encoding_RLE
-	l.remaining = nbuffered
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-
-	if l.rle == nil {
-		l.rle = utils.NewRleDecoder(bytes.NewReader(data), l.bitWidth)
-	} else {
-		l.rle.Reset(bytes.NewReader(data), l.bitWidth)
-	}
-	return nil
-}
-
-// Decode decodes the bytes that were set with SetData into the slice of levels
-// returning the total number of levels that were decoded and the number of
-// values which had a level equal to the max level, indicating how many physical
-// values exist to be read.
-func (l *LevelDecoder) Decode(levels []int16) (int, int64) {
-	var (
-		buf          [1024]uint64
-		totaldecoded int
-		decoded      int
-		valsToRead   int64
-	)
-
-	n := shared_utils.Min(int64(l.remaining), int64(len(levels)))
-	for n > 0 {
-		batch := shared_utils.Min(1024, n)
-		switch l.encoding {
-		case format.Encoding_RLE:
-			decoded = l.rle.GetBatch(buf[:batch])
-		case format.Encoding_BIT_PACKED:
-			decoded, _ = l.bit.GetBatch(uint(l.bitWidth), buf[:batch])
-		}
-		l.remaining -= decoded
-		totaldecoded += decoded
-		n -= batch
-
-		for idx, val := range buf[:decoded] {
-			lvl := int16(val)
-			levels[idx] = lvl
-			if lvl == l.maxLvl {
-				valsToRead++
-			}
-		}
-		levels = levels[decoded:]
-	}
-
-	return totaldecoded, valsToRead
-}
diff --git a/go/parquet/internal/encoding/levels_test.go b/go/parquet/internal/encoding/levels_test.go
deleted file mode 100644
index 1990df90a0195..0000000000000
--- a/go/parquet/internal/encoding/levels_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"encoding/binary"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/stretchr/testify/assert"
-)
-
-func generateLevels(minRepeat, maxRepeat int, maxLevel int16) []int16 {
-	// for each repetition count up to max repeat
-	ret := make([]int16, 0)
-	for rep := minRepeat; rep <= maxRepeat; rep++ {
-		var (
-			repCount       = 1 << rep
-			val      int16 = 0
-			bwidth         = 0
-		)
-		// generate levels for repetition count up to max level
-		for val <= maxLevel {
-			for i := 0; i < repCount; i++ {
-				ret = append(ret, val)
-			}
-			val = int16((2 << bwidth) - 1)
-			bwidth++
-		}
-	}
-	return ret
-}
-
-func encodeLevels(t *testing.T, enc parquet.Encoding, maxLvl int16, numLevels int, input []int16) []byte {
-	var (
-		encoder  encoding.LevelEncoder
-		lvlCount = 0
-		buf      = encoding.NewBufferWriter(2*numLevels, memory.DefaultAllocator)
-	)
-
-	if enc == parquet.Encodings.RLE {
-		buf.SetOffset(arrow.Int32SizeBytes)
-		// leave space to write the rle length value
-		encoder.Init(enc, maxLvl, buf)
-		lvlCount, _ = encoder.Encode(input)
-		buf.SetOffset(0)
-		arrow.Int32Traits.CastFromBytes(buf.Bytes())[0] = utils.ToLEInt32(int32(encoder.Len()))
-	} else {
-		encoder.Init(enc, maxLvl, buf)
-		lvlCount, _ = encoder.Encode(input)
-	}
-
-	assert.Equal(t, numLevels, lvlCount)
-	return buf.Bytes()
-}
-
-func verifyDecodingLvls(t *testing.T, enc parquet.Encoding, maxLvl int16, input []int16, buf []byte) {
-	var (
-		decoder        encoding.LevelDecoder
-		lvlCount       = 0
-		numLevels      = len(input)
-		output         = make([]int16, numLevels)
-		decodeCount    = 4
-		numInnerLevels = numLevels / decodeCount
-	)
-
-	// decode levels and test with multiple decode calls
-	_, err := decoder.SetData(enc, maxLvl, numLevels, buf)
-	assert.NoError(t, err)
-	// try multiple decoding on a single setdata call
-	for ct := 0; ct < decodeCount; ct++ {
-		offset := ct * numInnerLevels
-		lvlCount, _ = decoder.Decode(output[:numInnerLevels])
-		assert.Equal(t, numInnerLevels, lvlCount)
-		assert.Equal(t, input[offset:offset+numInnerLevels], output[:numInnerLevels])
-	}
-
-	// check the remaining levels
-	var (
-		levelsCompleted = decodeCount * (numLevels / decodeCount)
-		remaining       = numLevels - levelsCompleted
-	)
-
-	if remaining > 0 {
-		lvlCount, _ = decoder.Decode(output[:remaining])
-		assert.Equal(t, remaining, lvlCount)
-		assert.Equal(t, input[levelsCompleted:], output[:remaining])
-	}
-	// test decode zero values
-	lvlCount, _ = decoder.Decode(output[:1])
-	assert.Zero(t, lvlCount)
-}
-
-func verifyDecodingMultipleSetData(t *testing.T, enc parquet.Encoding, max int16, input []int16, buf [][]byte) {
-	var (
-		decoder      encoding.LevelDecoder
-		lvlCount     = 0
-		setdataCount = len(buf)
-		numLevels    = len(input) / setdataCount
-		output       = make([]int16, numLevels)
-	)
-
-	for ct := 0; ct < setdataCount; ct++ {
-		offset := ct * numLevels
-		assert.Len(t, output, numLevels)
-		_, err := decoder.SetData(enc, max, numLevels, buf[ct])
-		assert.NoError(t, err)
-		lvlCount, _ = decoder.Decode(output)
-		assert.Equal(t, numLevels, lvlCount)
-		assert.Equal(t, input[offset:offset+numLevels], output)
-	}
-}
-
-func TestLevelsDecodeMultipleBitWidth(t *testing.T) {
-	t.Parallel()
-	// Test levels with maximum bit-width from 1 to 8
-	// increase the repetition count for each iteration by a factor of 2
-	var (
-		minRepeat   = 0
-		maxRepeat   = 7 // 128
-		maxBitWidth = 8
-		input       []int16
-		buf         []byte
-		encodings   = [2]parquet.Encoding{parquet.Encodings.RLE, parquet.Encodings.BitPacked}
-	)
-
-	for _, enc := range encodings {
-		t.Run(enc.String(), func(t *testing.T) {
-			// bitpacked requires a sequence of at least 8
-			if enc == parquet.Encodings.BitPacked {
-				minRepeat = 3
-			}
-			// for each max bit width
-			for bitWidth := 1; bitWidth <= maxBitWidth; bitWidth++ {
-				t.Run(strconv.Itoa(bitWidth), func(t *testing.T) {
-					max := int16((1 << bitWidth) - 1)
-					// generate levels
-					input = generateLevels(minRepeat, maxRepeat, max)
-					assert.NotPanics(t, func() {
-						buf = encodeLevels(t, enc, max, len(input), input)
-					})
-					assert.NotPanics(t, func() {
-						verifyDecodingLvls(t, enc, max, input, buf)
-					})
-				})
-			}
-		})
-	}
-}
-
-func TestLevelsDecodeMultipleSetData(t *testing.T) {
-	t.Parallel()
-
-	var (
-		minRepeat = 3
-		maxRepeat = 7
-		bitWidth  = 8
-		maxLevel  = int16((1 << bitWidth) - 1)
-		encodings = [2]parquet.Encoding{parquet.Encodings.RLE, parquet.Encodings.BitPacked}
-	)
-
-	input := generateLevels(minRepeat, maxRepeat, maxLevel)
-
-	var (
-		numLevels      = len(input)
-		setdataFactor  = 8
-		splitLevelSize = numLevels / setdataFactor
-		buf            = make([][]byte, setdataFactor)
-	)
-
-	for _, enc := range encodings {
-		t.Run(enc.String(), func(t *testing.T) {
-			for rf := 0; rf < setdataFactor; rf++ {
-				offset := rf * splitLevelSize
-				assert.NotPanics(t, func() {
-					buf[rf] = encodeLevels(t, enc, maxLevel, splitLevelSize, input[offset:offset+splitLevelSize])
-				})
-			}
-			assert.NotPanics(t, func() {
-				verifyDecodingMultipleSetData(t, enc, maxLevel, input, buf)
-			})
-		})
-	}
-}
-
-func TestMinimumBufferSize(t *testing.T) {
-	t.Parallel()
-
-	const numToEncode = 1024
-	levels := make([]int16, numToEncode)
-
-	for idx := range levels {
-		if idx%9 == 0 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-		}
-	}
-
-	output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	var encoder encoding.LevelEncoder
-	encoder.Init(parquet.Encodings.RLE, 1, output)
-	count, _ := encoder.Encode(levels)
-	assert.Equal(t, numToEncode, count)
-}
-
-func TestMinimumBufferSize2(t *testing.T) {
-	t.Parallel()
-
-	// test the worst case for bit_width=2 consisting of
-	// LiteralRun(size=8)
-	// RepeatedRun(size=8)
-	// LiteralRun(size=8)
-	// ...
-	const numToEncode = 1024
-	levels := make([]int16, numToEncode)
-
-	for idx := range levels {
-		// This forces a literal run of 00000001
-		// followed by eight 1s
-		if (idx % 16) < 7 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-		}
-	}
-
-	for bitWidth := int16(1); bitWidth <= 8; bitWidth++ {
-		output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-		var encoder encoding.LevelEncoder
-		encoder.Init(parquet.Encodings.RLE, bitWidth, output)
-		count, _ := encoder.Encode(levels)
-		assert.Equal(t, numToEncode, count)
-	}
-}
-
-func TestEncodeDecodeLevels(t *testing.T) {
-	t.Parallel()
-	const numToEncode = 2048
-	levels := make([]int16, numToEncode)
-	numones := 0
-	for idx := range levels {
-		if (idx % 16) < 7 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-			numones++
-		}
-	}
-
-	output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	var encoder encoding.LevelEncoder
-	encoder.Init(parquet.Encodings.RLE, 1, output)
-	count, _ := encoder.Encode(levels)
-	assert.Equal(t, numToEncode, count)
-	encoder.Flush()
-
-	buf := output.Bytes()
-	var prefix [4]byte
-	binary.LittleEndian.PutUint32(prefix[:], uint32(len(buf)))
-
-	var decoder encoding.LevelDecoder
-	_, err := decoder.SetData(parquet.Encodings.RLE, 1, numToEncode, append(prefix[:], buf...))
-	assert.NoError(t, err)
-
-	var levelOut [numToEncode]int16
-	total, vals := decoder.Decode(levelOut[:])
-	assert.EqualValues(t, numToEncode, total)
-	assert.EqualValues(t, numones, vals)
-	assert.Equal(t, levels, levelOut[:])
-}
diff --git a/go/parquet/internal/encoding/memo_table.go b/go/parquet/internal/encoding/memo_table.go
deleted file mode 100644
index 117ca85346d57..0000000000000
--- a/go/parquet/internal/encoding/memo_table.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata memo_table_types.gen.go.tmpl
-
-// MemoTable interface that can be used to swap out implementations of the hash table
-// used for handling dictionary encoding. Dictionary encoding is built against this interface
-// to make it easy for code generation and changing implementations.
-//
-// Values should remember the order they are inserted to generate a valid dictionary index
-type MemoTable interface {
-	// Reset drops everything in the table allowing it to be reused
-	Reset()
-	// Size returns the current number of unique values stored in the table
-	// including whether or not a null value has been passed in using GetOrInsertNull
-	Size() int
-	// CopyValues populates out with the values currently in the table, out must
-	// be a slice of the appropriate type for the table type.
-	CopyValues(out interface{})
-	// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-	// at the indicated index.
-	CopyValuesSubset(start int, out interface{})
-
-	WriteOut(out []byte)
-	WriteOutSubset(start int, out []byte)
-	// Get returns the index of the table the specified value is, and a boolean indicating
-	// whether or not the value was found in the table. Will panic if val is not the appropriate
-	// type for the underlying table.
-	Get(val interface{}) (int, bool)
-	// GetOrInsert is the same as Get, except if the value is not currently in the table it will
-	// be inserted into the table.
-	GetOrInsert(val interface{}) (idx int, existed bool, err error)
-	// GetNull returns the index of the null value and whether or not it was found in the table
-	GetNull() (int, bool)
-	// GetOrInsertNull returns the index of the null value, if it didn't already exist in the table,
-	// it is inserted.
-	GetOrInsertNull() (idx int, existed bool)
-}
-
-type NumericMemoTable interface {
-	MemoTable
-	// WriteOutLE writes the contents of the memo table out to the byteslice
-	// but ensures the values are little-endian before writing them (converting
-	// if on a big endian system).
-	WriteOutLE(out []byte)
-	// WriteOutSubsetLE writes the contents of the memo table out to the byteslice
-	// starting with the index indicated by start, but ensures the values are little
-	// endian before writing them (converting if on a big-endian system).
-	WriteOutSubsetLE(start int, out []byte)
-}
-
-// BinaryMemoTable is an extension of the MemoTable interface adding extra methods
-// for handling byte arrays/strings/fixed length byte arrays.
-type BinaryMemoTable interface {
-	MemoTable
-	// ValuesSize returns the total number of bytes needed to copy all of the values
-	// from this table.
-	ValuesSize() int
-	// CopyOffsets populates out with the start and end offsets of each value in the
-	// table data. Out should be sized to Size()+1 to accomodate all of the offsets.
-	CopyOffsets(out []int32)
-	// CopyOffsetsSubset is like CopyOffsets but only gets a subset of the offsets
-	// starting at the specified index.
-	CopyOffsetsSubset(start int, out []int32)
-	// CopyFixedWidthValues exists to cope with the fact that the table doesn't track
-	// the fixed width when inserting the null value into the databuffer populating
-	// a zero length byte slice for the null value (if found).
-	CopyFixedWidthValues(start int, width int, out []byte)
-	// VisitValues calls visitFn on each value in the table starting with the index specified
-	VisitValues(start int, visitFn func([]byte))
-	// Retain increases the reference count of the separately stored binary data that is
-	// kept alongside the table which contains all of the values in the table. This is
-	// safe to call simultaneously across multiple goroutines.
-	Retain()
-	// Release decreases the reference count by 1 of the separately stored binary data
-	// kept alongside the table containing the values. When the reference count goes to
-	// 0, the memory is freed. This is safe to call across multiple goroutines simultaneously.
-	Release()
-}
-
-// NewInt32Dictionary returns a memotable interface for use with Int32 values only
-func NewInt32Dictionary() MemoTable {
-	return hashing.NewInt32MemoTable(0)
-}
-
-// NewInt64Dictionary returns a memotable interface for use with Int64 values only
-func NewInt64Dictionary() MemoTable {
-	return hashing.NewInt64MemoTable(0)
-}
-
-// NewFloat32Dictionary returns a memotable interface for use with Float32 values only
-func NewFloat32Dictionary() MemoTable {
-	return hashing.NewFloat32MemoTable(0)
-}
-
-// NewFloat64Dictionary returns a memotable interface for use with Float64 values only
-func NewFloat64Dictionary() MemoTable {
-	return hashing.NewFloat64MemoTable(0)
-}
-
-// NewBinaryDictionary returns a memotable interface for use with strings, byte slices,
-// parquet.ByteArray and parquet.FixedLengthByteArray only.
-func NewBinaryDictionary(mem memory.Allocator) BinaryMemoTable {
-	return hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary))
-}
-
-const keyNotFound = hashing.KeyNotFound
-
-// standard map based implementation of a binary memotable which is only kept around
-// currently to be used as a benchmark against the memotables in the internal/hashing
-// module as a baseline comparison.
-
-func NewBinaryMemoTable(mem memory.Allocator) BinaryMemoTable {
-	return &binaryMemoTableImpl{
-		table:     make(map[string]int),
-		nullIndex: keyNotFound,
-		builder:   array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary),
-	}
-}
-
-type binaryMemoTableImpl struct {
-	table     map[string]int
-	builder   *array.BinaryBuilder
-	nullIndex int
-}
-
-func (m *binaryMemoTableImpl) Reset() {
-	m.table = make(map[string]int)
-	m.nullIndex = keyNotFound
-	m.builder.NewArray().Release()
-}
-
-func (m *binaryMemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *binaryMemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *binaryMemoTableImpl) ValuesSize() int {
-	return m.builder.DataLen()
-}
-
-func (m *binaryMemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *binaryMemoTableImpl) valAsString(val interface{}) string {
-	switch v := val.(type) {
-	case string:
-		return v
-	case []byte:
-		return *(*string)(unsafe.Pointer(&v))
-	case parquet.ByteArray:
-		return *(*string)(unsafe.Pointer(&v))
-	case parquet.FixedLenByteArray:
-		return *(*string)(unsafe.Pointer(&v))
-	default:
-		panic("invalid type for value in binarymemotable")
-	}
-}
-
-func (m *binaryMemoTableImpl) Get(val interface{}) (int, bool) {
-	key := m.valAsString(val)
-	if p, ok := m.table[key]; ok {
-		return p, true
-	}
-	return keyNotFound, false
-}
-
-func (m *binaryMemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	key := m.valAsString(val)
-	idx, found = m.table[key]
-	if !found {
-		idx = m.Size()
-		m.builder.AppendString(key)
-		m.table[key] = idx
-	}
-	return
-}
-
-func (m *binaryMemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-		m.builder.AppendNull()
-	}
-	return
-}
-
-func (m *binaryMemoTableImpl) findOffset(idx int) uintptr {
-	val := m.builder.Value(idx)
-	for len(val) == 0 {
-		idx++
-		if idx >= m.builder.Len() {
-			break
-		}
-		val = m.builder.Value(idx)
-	}
-	if len(val) != 0 {
-		return uintptr(unsafe.Pointer(&val[0]))
-	}
-	return uintptr(m.builder.DataLen()) + m.findOffset(0)
-}
-
-func (m *binaryMemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	var (
-		first  = m.findOffset(0)
-		offset = m.findOffset(int(start))
-		length = m.builder.DataLen() - int(offset-first)
-	)
-
-	outval := out.([]byte)
-	copy(outval, m.builder.Value(start)[0:length])
-}
-
-func (m *binaryMemoTableImpl) WriteOut(out []byte) {
-	m.CopyValues(out)
-}
-
-func (m *binaryMemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *binaryMemoTableImpl) CopyFixedWidthValues(start, width int, out []byte) {
-
-}
-
-func (m *binaryMemoTableImpl) CopyOffsetsSubset(start int, out []int32) {
-	if m.builder.Len() <= start {
-		return
-	}
-
-	first := m.findOffset(0)
-	delta := m.findOffset(start)
-	for i := start; i < m.Size(); i++ {
-		offset := int32(m.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[m.Size()-start] = int32(m.builder.DataLen() - int(delta) - int(first))
-}
-
-func (m *binaryMemoTableImpl) CopyOffsets(out []int32) {
-	m.CopyOffsetsSubset(0, out)
-}
-
-func (m *binaryMemoTableImpl) VisitValues(start int, visitFn func([]byte)) {
-	for i := int(start); i < m.Size(); i++ {
-		visitFn(m.builder.Value(i))
-	}
-}
-
-func (m *binaryMemoTableImpl) Release() {
-	m.builder.Release()
-}
-
-func (m *binaryMemoTableImpl) Retain() {
-	m.builder.Retain()
-}
-
-// standard map based implementation of a float64 memotable which is only kept around
-// currently to be used as a benchmark against the memotables in the internal/hashing
-// module as a baseline comparison.
-
-func NewFloat64MemoTable(memory.Allocator) MemoTable {
-	return &float64MemoTableImpl{
-		table: make(map[float64]struct {
-			value     float64
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-		nanIndex:  keyNotFound,
-	}
-}
-
-type float64MemoTableImpl struct {
-	table map[float64]struct {
-		value     float64
-		memoIndex int
-	}
-	nullIndex int
-	nanIndex  int
-}
-
-func (m *float64MemoTableImpl) Reset() {
-	m.table = make(map[float64]struct {
-		value     float64
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-	m.nanIndex = keyNotFound
-}
-
-func (m *float64MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *float64MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	if m.nanIndex != keyNotFound {
-		sz++
-	}
-	return sz
-}
-
-func (m *float64MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *float64MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(float64)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	if math.IsNaN(v) && m.nanIndex != keyNotFound {
-		return m.nanIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *float64MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(float64)
-	if math.IsNaN(v) {
-		if m.nanIndex == keyNotFound {
-			idx = m.Size()
-			m.nanIndex = idx
-		} else {
-			idx = m.nanIndex
-			found = true
-		}
-		return
-	}
-
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *float64MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float64MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]float64)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-	if m.nanIndex != keyNotFound {
-		outval[m.nanIndex] = math.NaN()
-	}
-}
-
-func (m *float64MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (m *float64MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, arrow.Float64Traits.CastFromBytes(out))
-}
diff --git a/go/parquet/internal/encoding/memo_table_test.go b/go/parquet/internal/encoding/memo_table_test.go
deleted file mode 100644
index 904502cafc193..0000000000000
--- a/go/parquet/internal/encoding/memo_table_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/stretchr/testify/suite"
-)
-
-type MemoTableTestSuite struct {
-	suite.Suite
-}
-
-func TestMemoTable(t *testing.T) {
-	suite.Run(t, new(MemoTableTestSuite))
-}
-
-func (m *MemoTableTestSuite) assertGetNotFound(table encoding.MemoTable, v interface{}) {
-	_, ok := table.Get(v)
-	m.False(ok)
-}
-
-func (m *MemoTableTestSuite) assertGet(table encoding.MemoTable, v interface{}, expected int) {
-	idx, ok := table.Get(v)
-	m.Equal(expected, idx)
-	m.True(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetOrInsert(table encoding.MemoTable, v interface{}, expected int) {
-	idx, _, err := table.GetOrInsert(v)
-	m.NoError(err)
-	m.Equal(expected, idx)
-}
-
-func (m *MemoTableTestSuite) assertGetNullNotFound(table encoding.MemoTable) {
-	_, ok := table.GetNull()
-	m.False(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetNull(table encoding.MemoTable, expected int) {
-	idx, ok := table.GetNull()
-	m.Equal(expected, idx)
-	m.True(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetOrInsertNull(table encoding.MemoTable, expected int) {
-	idx, _ := table.GetOrInsertNull()
-	m.Equal(expected, idx)
-}
-
-func (m *MemoTableTestSuite) TestInt64() {
-	const (
-		A int64 = 1234
-		B int64 = 0
-		C int64 = -98765321
-		D int64 = 12345678901234
-		E int64 = -1
-		F int64 = 1
-		G int64 = 9223372036854775807
-		H int64 = -9223372036854775807 - 1
-	)
-
-	// table := encoding.NewInt64MemoTable(nil)
-	table := hashing.NewInt64MemoTable(0)
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsertNull(table, 5)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGet(table, E, 4)
-	m.assertGetOrInsert(table, E, 4)
-
-	m.assertGetOrInsert(table, F, 6)
-	m.assertGetOrInsert(table, G, 7)
-	m.assertGetOrInsert(table, H, 8)
-
-	m.assertGetOrInsert(table, G, 7)
-	m.assertGetOrInsert(table, F, 6)
-	m.assertGetOrInsertNull(table, 5)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, A, 0)
-
-	const sz int = 9
-	m.Equal(sz, table.Size())
-	m.Panics(func() {
-		values := make([]int32, sz)
-		table.CopyValues(values)
-	}, "should panic because wrong type")
-	m.Panics(func() {
-		values := make([]int64, sz-3)
-		table.CopyValues(values)
-	}, "should panic because out of bounds")
-
-	{
-		values := make([]int64, sz)
-		table.CopyValues(values)
-		m.Equal([]int64{A, B, C, D, E, 0, F, G, H}, values)
-	}
-	{
-		const offset = 3
-		values := make([]int64, sz-offset)
-		table.CopyValuesSubset(offset, values)
-		m.Equal([]int64{D, E, 0, F, G, H}, values)
-	}
-}
-
-func (m *MemoTableTestSuite) TestFloat64() {
-	const (
-		A float64 = 0.0
-		B float64 = 1.5
-		C float64 = -0.1
-	)
-	var (
-		D = math.Inf(1)
-		E = -D
-		F = math.NaN()                                       // uses Quiet NaN i.e. 0x7FF8000000000001
-		G = math.Float64frombits(uint64(0x7FF0000000000001)) // test Signalling NaN
-		H = math.Float64frombits(uint64(0xFFF7FFFFFFFFFFFF)) // other NaN bit pattern
-	)
-
-	// table := encoding.NewFloat64MemoTable(nil)
-	table := hashing.NewFloat64MemoTable(0)
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetOrInsert(table, G, 5)
-	m.assertGetOrInsert(table, H, 5)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGet(table, E, 4)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGet(table, F, 5)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGet(table, G, 5)
-	m.assertGetOrInsert(table, G, 5)
-	m.assertGet(table, H, 5)
-	m.assertGetOrInsert(table, H, 5)
-
-	m.Equal(6, table.Size())
-	expected := []float64{A, B, C, D, E, F}
-	m.Panics(func() {
-		values := make([]int32, 6)
-		table.CopyValues(values)
-	}, "should panic because wrong type")
-	m.Panics(func() {
-		values := make([]float64, 3)
-		table.CopyValues(values)
-	}, "should panic because out of bounds")
-
-	values := make([]float64, len(expected))
-	table.CopyValues(values)
-	for idx, ex := range expected {
-		if math.IsNaN(ex) {
-			m.True(math.IsNaN(values[idx]))
-		} else {
-			m.Equal(ex, values[idx])
-		}
-	}
-}
-
-func (m *MemoTableTestSuite) TestBinaryBasics() {
-	const (
-		A = ""
-		B = "a"
-		C = "foo"
-		D = "bar"
-		E = "\000"
-		F = "\000trailing"
-	)
-
-	table := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-	defer table.Release()
-
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetOrInsertNull(table, 6)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGet(table, B, 1)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGet(table, F, 5)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetNull(table, 6)
-	m.assertGetOrInsertNull(table, 6)
-
-	m.Equal(7, table.Size())
-	m.Equal(17, table.ValuesSize())
-
-	size := table.Size()
-	{
-		offsets := make([]int32, size+1)
-		table.CopyOffsets(offsets)
-		m.Equal([]int32{0, 0, 1, 4, 7, 8, 17, 17}, offsets)
-
-		expectedValues := "afoobar"
-		expectedValues += "\000"
-		expectedValues += "\000"
-		expectedValues += "trailing"
-		values := make([]byte, 17)
-		table.CopyValues(values)
-		m.Equal(expectedValues, string(values))
-	}
-
-	{
-		startOffset := 4
-		offsets := make([]int32, size+1-int(startOffset))
-		table.CopyOffsetsSubset(startOffset, offsets)
-		m.Equal([]int32{0, 1, 10, 10}, offsets)
-
-		expectedValues := ""
-		expectedValues += "\000"
-		expectedValues += "\000"
-		expectedValues += "trailing"
-
-		values := make([]byte, 10)
-		table.CopyValuesSubset(startOffset, values)
-		m.Equal(expectedValues, string(values))
-	}
-
-	{
-		startOffset := 1
-		values := make([]string, 0)
-		table.VisitValues(startOffset, func(b []byte) {
-			values = append(values, string(b))
-		})
-		m.Equal([]string{B, C, D, E, F, ""}, values)
-	}
-}
-
-func (m *MemoTableTestSuite) TestBinaryEmpty() {
-	table := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-	defer table.Release()
-
-	m.Zero(table.Size())
-	offsets := make([]int32, 1)
-	table.CopyOffsetsSubset(0, offsets)
-	m.Equal(int32(0), offsets[0])
-}
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go b/go/parquet/internal/encoding/memo_table_types.gen.go
deleted file mode 100644
index 1169afc455ff5..0000000000000
--- a/go/parquet/internal/encoding/memo_table_types.gen.go
+++ /dev/null
@@ -1,398 +0,0 @@
-// Code generated by memo_table_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// standard map based implementation of memo tables which can be more efficient
-// in some cases based on the uniqueness / amount / size of the data.
-// these are left here for now for use in the benchmarks to compare against the
-// custom hash table implementation in the internal/hashing package as a base
-// benchmark comparison.
-
-func NewInt32MemoTable(memory.Allocator) MemoTable {
-	return &int32MemoTableImpl{
-		table: make(map[int32]struct {
-			value     int32
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int32MemoTableImpl struct {
-	table map[int32]struct {
-		value     int32
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int32MemoTableImpl) Reset() {
-	m.table = make(map[int32]struct {
-		value     int32
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int32MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int32MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int32MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int32MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(int32)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int32MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(int32)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int32MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int32MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int32MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int32MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]int32)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewInt64MemoTable(memory.Allocator) MemoTable {
-	return &int64MemoTableImpl{
-		table: make(map[int64]struct {
-			value     int64
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int64MemoTableImpl struct {
-	table map[int64]struct {
-		value     int64
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int64MemoTableImpl) Reset() {
-	m.table = make(map[int64]struct {
-		value     int64
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int64MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int64MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int64MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int64MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(int64)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int64MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(int64)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int64MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int64MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int64MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int64MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]int64)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewInt96MemoTable(memory.Allocator) MemoTable {
-	return &int96MemoTableImpl{
-		table: make(map[parquet.Int96]struct {
-			value     parquet.Int96
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int96MemoTableImpl struct {
-	table map[parquet.Int96]struct {
-		value     parquet.Int96
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int96MemoTableImpl) Reset() {
-	m.table = make(map[parquet.Int96]struct {
-		value     parquet.Int96
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int96MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int96MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int96MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int96MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(parquet.Int96)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int96MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(parquet.Int96)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int96MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int96MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int96MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int96MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]parquet.Int96)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewFloat32MemoTable(memory.Allocator) MemoTable {
-	return &float32MemoTableImpl{
-		table: make(map[float32]struct {
-			value     float32
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type float32MemoTableImpl struct {
-	table map[float32]struct {
-		value     float32
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *float32MemoTableImpl) Reset() {
-	m.table = make(map[float32]struct {
-		value     float32
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *float32MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *float32MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *float32MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *float32MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(float32)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *float32MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(float32)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *float32MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float32MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *float32MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float32MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]float32)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl b/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
deleted file mode 100644
index 9708b0b97e527..0000000000000
--- a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-)
-
-// standard map based implementation of memo tables which can be more efficient
-// in some cases based on the uniqueness / amount / size of the data.
-// these are left here for now for use in the benchmarks to compare against the
-// custom hash table implementation in the internal/hashing package as a base
-// benchmark comparison.
-
-{{range .In}}
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Float64") (ne .Name "Boolean")}}
-func New{{.Name}}MemoTable(memory.Allocator) MemoTable {
-  return &{{.lower}}MemoTableImpl{
-      table: make(map[{{.name}}]struct{
-        value {{.name}}
-        memoIndex int
-      }),
-      nullIndex: keyNotFound,
-    }
-}
-
-type {{.lower}}MemoTableImpl struct {
-  table map[{{.name}}]struct{
-    value {{.name}}
-    memoIndex int
-  }
-  nullIndex int
-}
-
-func (m *{{.lower}}MemoTableImpl) Reset() {
-  m.table = make(map[{{.name}}]struct{
-    value {{.name}}
-    memoIndex int
-  })
-  m.nullIndex = keyNotFound
-}
-
-func (m *{{.lower}}MemoTableImpl) GetNull() (int, bool) {
-  return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *{{.lower}}MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *{{.lower}}MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-  idx, found = m.GetNull()
-  if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *{{.lower}}MemoTableImpl) Get(val interface{}) (int, bool) {
-  v := val.({{.name}})
-  if p, ok := m.table[v]; ok {
-    return p.memoIndex, true
-  }
-  return keyNotFound, false
-}
-
-func (m *{{.lower}}MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-  v := val.({{.name}})
-  p, ok := m.table[v]
-  if ok {
-    idx = p.memoIndex
-  } else {
-    idx = m.Size()
-    p.value = v
-    p.memoIndex = idx
-    m.table[v] = p
-    found = true
-  }
-  return
-}
-
-func (m *{{.lower}}MemoTableImpl) WriteOut(out []byte) {
-  m.CopyValuesSubset(0, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) WriteOutSubset(start int, out []byte) {
-  m.CopyValuesSubset(start, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) CopyValues(out interface{}) {
-  m.CopyValuesSubset(0, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]{{.name}})
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/encoding/physical_types.tmpldata b/go/parquet/internal/encoding/physical_types.tmpldata
deleted file mode 100644
index 0adeb9955bf6b..0000000000000
--- a/go/parquet/internal/encoding/physical_types.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  }
-]
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go b/go/parquet/internal/encoding/plain_encoder_types.gen.go
deleted file mode 100644
index b651fe2d71864..0000000000000
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go
+++ /dev/null
@@ -1,641 +0,0 @@
-// Code generated by plain_encoder_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-var (
-	writeInt32LE      func(*encoder, []int32)
-	copyFromInt32LE   func(dst []int32, src []byte)
-	writeInt64LE      func(*encoder, []int64)
-	copyFromInt64LE   func(dst []int64, src []byte)
-	writeInt96LE      func(*encoder, []parquet.Int96)
-	copyFromInt96LE   func(dst []parquet.Int96, src []byte)
-	writeFloat32LE    func(*encoder, []float32)
-	copyFromFloat32LE func(dst []float32, src []byte)
-	writeFloat64LE    func(*encoder, []float64)
-	copyFromFloat64LE func(dst []float64, src []byte)
-)
-
-func init() {
-	// int96 is already internally represented as little endian data
-	// no need to have special behavior on big endian architectures
-	// for read/write, consumers will need to be aware of the fact
-	// that it is internally 12 bytes little endian when attempting
-	// to utilize it.
-	writeInt96LE = func(e *encoder, in []parquet.Int96) {
-		e.append(parquet.Int96Traits.CastToBytes(in))
-	}
-	copyFromInt96LE = func(dst []parquet.Int96, src []byte) {
-		copy(parquet.Int96Traits.CastToBytes(dst), src)
-	}
-
-	if endian.IsBigEndian {
-		writeInt32LE = func(e *encoder, in []int32) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromInt32LE = func(dst []int32, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeInt64LE = func(e *encoder, in []int64) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromInt64LE = func(dst []int64, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeFloat32LE = func(e *encoder, in []float32) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromFloat32LE = func(dst []float32, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeFloat64LE = func(e *encoder, in []float64) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromFloat64LE = func(dst []float64, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-	} else {
-		writeInt32LE = func(e *encoder, in []int32) {
-			e.append(arrow.Int32Traits.CastToBytes(in))
-		}
-		copyFromInt32LE = func(dst []int32, src []byte) {
-			copy(arrow.Int32Traits.CastToBytes(dst), src)
-		}
-		writeInt64LE = func(e *encoder, in []int64) {
-			e.append(arrow.Int64Traits.CastToBytes(in))
-		}
-		copyFromInt64LE = func(dst []int64, src []byte) {
-			copy(arrow.Int64Traits.CastToBytes(dst), src)
-		}
-		writeFloat32LE = func(e *encoder, in []float32) {
-			e.append(arrow.Float32Traits.CastToBytes(in))
-		}
-		copyFromFloat32LE = func(dst []float32, src []byte) {
-			copy(arrow.Float32Traits.CastToBytes(dst), src)
-		}
-		writeFloat64LE = func(e *encoder, in []float64) {
-			e.append(arrow.Float64Traits.CastToBytes(in))
-		}
-		copyFromFloat64LE = func(dst []float64, src []byte) {
-			copy(arrow.Float64Traits.CastToBytes(dst), src)
-		}
-	}
-}
-
-// PlainInt32Encoder is an encoder for int32 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt32Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt32Encoder) Put(in []int32) {
-	writeInt32LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt32Encoder) PutSpaced(in []int32, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Int32Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt32Encoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// PlainInt32Decoder is a decoder specifically for decoding Plain Encoding data
-// of int32 type.
-type PlainInt32Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt32Decoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt32Decoder) Decode(out []int32) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Int32SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int32, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt32LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt32Decoder) DecodeSpaced(out []int32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainInt64Encoder is an encoder for int64 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt64Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt64Encoder) Put(in []int64) {
-	writeInt64LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt64Encoder) PutSpaced(in []int64, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Int64Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt64Encoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// PlainInt64Decoder is a decoder specifically for decoding Plain Encoding data
-// of int64 type.
-type PlainInt64Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt64Decoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt64Decoder) Decode(out []int64) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Int64SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int64, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt64LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt64Decoder) DecodeSpaced(out []int64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainInt96Encoder is an encoder for parquet.Int96 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt96Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt96Encoder) Put(in []parquet.Int96) {
-	writeInt96LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-	nbytes := parquet.Int96Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt96Encoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// PlainInt96Decoder is a decoder specifically for decoding Plain Encoding data
-// of parquet.Int96 type.
-type PlainInt96Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt96Decoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt96Decoder) Decode(out []parquet.Int96) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(parquet.Int96SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int96, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt96LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt96Decoder) DecodeSpaced(out []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainFloat32Encoder is an encoder for float32 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainFloat32Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainFloat32Encoder) Put(in []float32) {
-	writeFloat32LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainFloat32Encoder) PutSpaced(in []float32, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Float32Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainFloat32Encoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// PlainFloat32Decoder is a decoder specifically for decoding Plain Encoding data
-// of float32 type.
-type PlainFloat32Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainFloat32Decoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainFloat32Decoder) Decode(out []float32) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Float32SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Float32, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromFloat32LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainFloat32Decoder) DecodeSpaced(out []float32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainFloat64Encoder is an encoder for float64 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainFloat64Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainFloat64Encoder) Put(in []float64) {
-	writeFloat64LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainFloat64Encoder) PutSpaced(in []float64, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Float64Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainFloat64Encoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// PlainFloat64Decoder is a decoder specifically for decoding Plain Encoding data
-// of float64 type.
-type PlainFloat64Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainFloat64Decoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainFloat64Decoder) Decode(out []float64) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Float64SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Float64, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromFloat64LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainFloat64Decoder) DecodeSpaced(out []float64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl b/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
deleted file mode 100644
index 1f2bc047464ea..0000000000000
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
+++ /dev/null
@@ -1,184 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (  
-  "encoding/binary"
-  "fmt"
-
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-var (
-{{range .In}}
-{{if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") -}}
-	write{{.Name}}LE   func(*encoder, []{{.name}})
-  copyFrom{{.Name}}LE  func(dst []{{.name}}, src []byte)
-{{- end}}
-{{- end}}
-)
-
-func init() {
-  // int96 is already internally represented as little endian data
-  // no need to have special behavior on big endian architectures
-  // for read/write, consumers will need to be aware of the fact
-  // that it is internally 12 bytes little endian when attempting
-  // to utilize it.
-  writeInt96LE = func(e *encoder, in []parquet.Int96) {
-    e.append(parquet.Int96Traits.CastToBytes(in))
-  }
-  copyFromInt96LE = func(dst []parquet.Int96, src []byte) {
-    copy(parquet.Int96Traits.CastToBytes(dst), src)
-  }
-
-	if endian.IsBigEndian {
-{{- range .In}}
-{{- if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Int96")}}
-    write{{.Name}}LE = func(e *encoder, in []{{.name}}) {
-      binary.Write(e.sink, binary.LittleEndian, in)
-    }
-    copyFrom{{.Name}}LE = func(dst []{{.name}}, src []byte) {
-      r := bytes.NewReader(src)
-      binary.Read(r, binary.LittleEndian, &dst)
-    }
-{{- end -}}
-{{- end}}
-	} else {
-{{- range .In}}
-{{- if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Int96")}}
-    write{{.Name}}LE = func(e *encoder, in []{{.name}}) {
-      e.append({{.prefix}}.{{.Name}}Traits.CastToBytes(in))
-    }
-    copyFrom{{.Name}}LE = func(dst []{{.name}}, src []byte) {
-      copy({{.prefix}}.{{.Name}}Traits.CastToBytes(dst), src)
-    }
-{{- end -}}
-{{- end}}
-	}
-}
-
-{{range .In}}
-{{if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}
-// Plain{{.Name}}Encoder is an encoder for {{.name}} values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type Plain{{.Name}}Encoder struct {
-  encoder
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *Plain{{.Name}}Encoder) Put(in []{{.name}}) {
-  write{{.Name}}LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *Plain{{.Name}}Encoder) PutSpaced(in []{{.name}}, validBits []byte, validBitsOffset int64) {
-  nbytes := {{.prefix}}.{{.Name}}Traits.BytesRequired(len(in))
-  enc.ReserveForWrite(nbytes)
-
-  if enc.bitSetReader == nil {
-    enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-  } else {
-    enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-  }
-
-  for {
-    run := enc.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-    enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-  }
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (Plain{{.Name}}Encoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Plain{{.Name}}Decoder is a decoder specifically for decoding Plain Encoding data
-// of {{.name}} type.
-type Plain{{.Name}}Decoder struct {
-  decoder
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (Plain{{.Name}}Decoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *Plain{{.Name}}Decoder) Decode(out []{{.name}}) (int, error) {
-  max := utils.Min(len(out), dec.nvals)
-  nbytes := int64(max) * int64({{.prefix}}.{{.Name}}SizeBytes)
-  if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-    return 0, fmt.Errorf("parquet: eof exception decode plain {{.Name}}, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-  }
-
-  copyFrom{{.Name}}LE(out, dec.data[:nbytes])
-  dec.data = dec.data[nbytes:]
-  dec.nvals -= max
-  return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *Plain{{.Name}}Decoder) DecodeSpaced(out []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  toread := len(out) - nullCount
-  values, err := dec.Decode(out[:toread])
-  if err != nil {
-    return 0, err
-  }
-  if values != toread {
-    return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-  }
-
-  nvalues := len(out)
-  if nullCount == 0 {
-    return nvalues, nil
-  }
-
-  idxDecode := nvalues - nullCount
-  if dec.bitSetReader == nil {
-    dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-  } else {
-    dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-  }
-
-  for {
-    run := dec.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-
-    idxDecode -= int(run.Length)
-    copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-  }
-  return nvalues, nil
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go b/go/parquet/internal/encoding/typed_encoder.gen.go
deleted file mode 100644
index e67c976adc042..0000000000000
--- a/go/parquet/internal/encoding/typed_encoder.gen.go
+++ /dev/null
@@ -1,1735 +0,0 @@
-// Code generated by typed_encoder.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// fully typed encoder interfaces to enable writing against encoder/decoders
-// without having to care about what encoding type is actually being used.
-
-var (
-	Int32EncoderTraits             int32EncoderTraits
-	Int32DecoderTraits             int32DecoderTraits
-	Int64EncoderTraits             int64EncoderTraits
-	Int64DecoderTraits             int64DecoderTraits
-	Int96EncoderTraits             int96EncoderTraits
-	Int96DecoderTraits             int96DecoderTraits
-	Float32EncoderTraits           float32EncoderTraits
-	Float32DecoderTraits           float32DecoderTraits
-	Float64EncoderTraits           float64EncoderTraits
-	Float64DecoderTraits           float64DecoderTraits
-	BooleanEncoderTraits           boolEncoderTraits
-	BooleanDecoderTraits           boolDecoderTraits
-	ByteArrayEncoderTraits         byteArrayEncoderTraits
-	ByteArrayDecoderTraits         byteArrayDecoderTraits
-	FixedLenByteArrayEncoderTraits fixedLenByteArrayEncoderTraits
-	FixedLenByteArrayDecoderTraits fixedLenByteArrayDecoderTraits
-)
-
-// Int32Encoder is the interface for all encoding types that implement encoding
-// int32 values.
-type Int32Encoder interface {
-	TypedEncoder
-	Put([]int32)
-	PutSpaced([]int32, []byte, int64)
-}
-
-// Int32Decoder is the interface for all encoding types that implement decoding
-// int32 values.
-type Int32Decoder interface {
-	TypedDecoder
-	Decode([]int32) (int, error)
-	DecodeSpaced([]int32, int, []byte, int64) (int, error)
-}
-
-// the int32EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int32EncoderTraits struct{}
-
-// Encoder returns an encoder for int32 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int32EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt32Encoder{newDictEncoderBase(descr, NewInt32Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt32Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_BINARY_PACKED:
-		return &DeltaBitPackInt32Encoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitInt32Encoder{PlainInt32Encoder: PlainInt32Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int32DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int32 values
-type int32DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int32 values.
-func (int32DecoderTraits) BytesRequired(n int) int {
-	return arrow.Int32Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int32 typed data of the requested encoding type if available
-func (int32DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt32Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaBinaryPacked:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaBitPackInt32Decoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitInt32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt32Encoder is an encoder for int32 data using dictionary encoding
-type DictInt32Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt32Encoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt32Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictInt32Encoder) Put(in []int32) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictInt32Encoder) PutSpaced(in []int32, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt32Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Int32SizeBytes
-	data := values.(*array.Int32).Int32Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictInt32Decoder is a decoder for decoding dictionary encoded data for int32 columns
-type DictInt32Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt32Decoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt32Decoder) Decode(out []int32) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt32Decoder) DecodeSpaced(out []int32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int32DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int32DictConverter struct {
-	valueDecoder Int32Decoder
-	dict         []int32
-	zeroVal      int32
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int32DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]int32, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int32DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int32DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]int32)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for int32
-func (dc *Int32DictConverter) FillZero(out interface{}) {
-	o := out.([]int32)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int32DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]int32)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Int64Encoder is the interface for all encoding types that implement encoding
-// int64 values.
-type Int64Encoder interface {
-	TypedEncoder
-	Put([]int64)
-	PutSpaced([]int64, []byte, int64)
-}
-
-// Int64Decoder is the interface for all encoding types that implement decoding
-// int64 values.
-type Int64Decoder interface {
-	TypedDecoder
-	Decode([]int64) (int, error)
-	DecodeSpaced([]int64, int, []byte, int64) (int, error)
-}
-
-// the int64EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int64EncoderTraits struct{}
-
-// Encoder returns an encoder for int64 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int64EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt64Encoder{newDictEncoderBase(descr, NewInt64Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt64Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_BINARY_PACKED:
-		return &DeltaBitPackInt64Encoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitInt64Encoder{PlainInt64Encoder: PlainInt64Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int64DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int64 values
-type int64DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int64 values.
-func (int64DecoderTraits) BytesRequired(n int) int {
-	return arrow.Int64Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int64 typed data of the requested encoding type if available
-func (int64DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt64Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaBinaryPacked:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaBitPackInt64Decoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitInt64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt64Encoder is an encoder for int64 data using dictionary encoding
-type DictInt64Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt64Encoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt64Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictInt64Encoder) Put(in []int64) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictInt64Encoder) PutSpaced(in []int64, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt64Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Int64SizeBytes
-	data := values.(*array.Int64).Int64Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictInt64Decoder is a decoder for decoding dictionary encoded data for int64 columns
-type DictInt64Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt64Decoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt64Decoder) Decode(out []int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt64Decoder) DecodeSpaced(out []int64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int64DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int64DictConverter struct {
-	valueDecoder Int64Decoder
-	dict         []int64
-	zeroVal      int64
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int64DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]int64, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int64DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int64DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]int64)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for int64
-func (dc *Int64DictConverter) FillZero(out interface{}) {
-	o := out.([]int64)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int64DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]int64)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Int96Encoder is the interface for all encoding types that implement encoding
-// parquet.Int96 values.
-type Int96Encoder interface {
-	TypedEncoder
-	Put([]parquet.Int96)
-	PutSpaced([]parquet.Int96, []byte, int64)
-}
-
-// Int96Decoder is the interface for all encoding types that implement decoding
-// parquet.Int96 values.
-type Int96Decoder interface {
-	TypedDecoder
-	Decode([]parquet.Int96) (int, error)
-	DecodeSpaced([]parquet.Int96, int, []byte, int64) (int, error)
-}
-
-// the int96EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int96EncoderTraits struct{}
-
-// Encoder returns an encoder for int96 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int96EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt96Encoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt96Encoder{encoder: newEncoderBase(e, descr, mem)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int96DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int96 values
-type int96DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int96 values.
-func (int96DecoderTraits) BytesRequired(n int) int {
-	return parquet.Int96Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int96 typed data of the requested encoding type if available
-func (int96DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt96Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt96Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt96Encoder is an encoder for parquet.Int96 data using dictionary encoding
-type DictInt96Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt96Encoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt96Encoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, parquet.Int96SizeBytes, out)
-}
-
-// Put encodes the values passed in, adding to the index as needed
-func (enc *DictInt96Encoder) Put(in []parquet.Int96) {
-	for _, v := range in {
-		memoIdx, found, err := enc.memo.GetOrInsert(v)
-		if err != nil {
-			panic(err)
-		}
-		if !found {
-			enc.dictEncodedSize += parquet.Int96SizeBytes
-		}
-		enc.addIndex(memoIdx)
-	}
-}
-
-// PutSpaced is like Put but assumes space for nulls
-func (enc *DictInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		enc.Put(in[pos : pos+length])
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt96Encoder) PutDictionary(arrow.Array) error {
-	return fmt.Errorf("%w: direct PutDictionary to Int96", arrow.ErrNotImplemented)
-}
-
-// DictInt96Decoder is a decoder for decoding dictionary encoded data for parquet.Int96 columns
-type DictInt96Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt96Decoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt96Decoder) Decode(out []parquet.Int96) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt96Decoder) DecodeSpaced(out []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int96DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int96DictConverter struct {
-	valueDecoder Int96Decoder
-	dict         []parquet.Int96
-	zeroVal      parquet.Int96
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int96DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.Int96, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int96DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int96DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.Int96)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.Int96
-func (dc *Int96DictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.Int96)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int96DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.Int96)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Float32Encoder is the interface for all encoding types that implement encoding
-// float32 values.
-type Float32Encoder interface {
-	TypedEncoder
-	Put([]float32)
-	PutSpaced([]float32, []byte, int64)
-}
-
-// Float32Decoder is the interface for all encoding types that implement decoding
-// float32 values.
-type Float32Decoder interface {
-	TypedDecoder
-	Decode([]float32) (int, error)
-	DecodeSpaced([]float32, int, []byte, int64) (int, error)
-}
-
-// the float32EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type float32EncoderTraits struct{}
-
-// Encoder returns an encoder for float32 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (float32EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFloat32Encoder{newDictEncoderBase(descr, NewFloat32Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFloat32Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFloat32Encoder{PlainFloat32Encoder: PlainFloat32Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// float32DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for float32 values
-type float32DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n float32 values.
-func (float32DecoderTraits) BytesRequired(n int) int {
-	return arrow.Float32Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for float32 typed data of the requested encoding type if available
-func (float32DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFloat32Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFloat32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFloat32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFloat32Encoder is an encoder for float32 data using dictionary encoding
-type DictFloat32Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFloat32Encoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictFloat32Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictFloat32Encoder) Put(in []float32) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictFloat32Encoder) PutSpaced(in []float32, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFloat32Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Float32SizeBytes
-	data := values.(*array.Float32).Float32Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictFloat32Decoder is a decoder for decoding dictionary encoded data for float32 columns
-type DictFloat32Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFloat32Decoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFloat32Decoder) Decode(out []float32) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFloat32Decoder) DecodeSpaced(out []float32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Float32DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Float32DictConverter struct {
-	valueDecoder Float32Decoder
-	dict         []float32
-	zeroVal      float32
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Float32DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]float32, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Float32DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Float32DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]float32)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for float32
-func (dc *Float32DictConverter) FillZero(out interface{}) {
-	o := out.([]float32)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Float32DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]float32)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Float64Encoder is the interface for all encoding types that implement encoding
-// float64 values.
-type Float64Encoder interface {
-	TypedEncoder
-	Put([]float64)
-	PutSpaced([]float64, []byte, int64)
-}
-
-// Float64Decoder is the interface for all encoding types that implement decoding
-// float64 values.
-type Float64Decoder interface {
-	TypedDecoder
-	Decode([]float64) (int, error)
-	DecodeSpaced([]float64, int, []byte, int64) (int, error)
-}
-
-// the float64EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type float64EncoderTraits struct{}
-
-// Encoder returns an encoder for float64 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (float64EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFloat64Encoder{newDictEncoderBase(descr, NewFloat64Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFloat64Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFloat64Encoder{PlainFloat64Encoder: PlainFloat64Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// float64DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for float64 values
-type float64DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n float64 values.
-func (float64DecoderTraits) BytesRequired(n int) int {
-	return arrow.Float64Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for float64 typed data of the requested encoding type if available
-func (float64DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFloat64Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFloat64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFloat64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFloat64Encoder is an encoder for float64 data using dictionary encoding
-type DictFloat64Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFloat64Encoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictFloat64Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictFloat64Encoder) Put(in []float64) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictFloat64Encoder) PutSpaced(in []float64, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFloat64Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Float64SizeBytes
-	data := values.(*array.Float64).Float64Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictFloat64Decoder is a decoder for decoding dictionary encoded data for float64 columns
-type DictFloat64Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFloat64Decoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFloat64Decoder) Decode(out []float64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFloat64Decoder) DecodeSpaced(out []float64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Float64DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Float64DictConverter struct {
-	valueDecoder Float64Decoder
-	dict         []float64
-	zeroVal      float64
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Float64DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]float64, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Float64DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Float64DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]float64)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for float64
-func (dc *Float64DictConverter) FillZero(out interface{}) {
-	o := out.([]float64)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Float64DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]float64)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// BooleanEncoder is the interface for all encoding types that implement encoding
-// bool values.
-type BooleanEncoder interface {
-	TypedEncoder
-	Put([]bool)
-	PutSpaced([]bool, []byte, int64)
-}
-
-// BooleanDecoder is the interface for all encoding types that implement decoding
-// bool values.
-type BooleanDecoder interface {
-	TypedDecoder
-	Decode([]bool) (int, error)
-	DecodeSpaced([]bool, int, []byte, int64) (int, error)
-}
-
-// the boolEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type boolEncoderTraits struct{}
-
-// Encoder returns an encoder for bool type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-// dictionary encoding does not exist for this type and Encoder will panic if useDict is true
-func (boolEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		panic("parquet: no bool dictionary encoding")
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_RLE:
-		return &RleBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// boolDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for bool values
-type boolDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n bool values.
-func (boolDecoderTraits) BytesRequired(n int) int {
-	return arrow.BooleanTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for bool typed data of the requested encoding type if available
-func (boolDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		panic("dictionary decoding unimplemented for bool")
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.RLE:
-		return &RleBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// ByteArrayEncoder is the interface for all encoding types that implement encoding
-// parquet.ByteArray values.
-type ByteArrayEncoder interface {
-	TypedEncoder
-	Put([]parquet.ByteArray)
-	PutSpaced([]parquet.ByteArray, []byte, int64)
-}
-
-// ByteArrayDecoder is the interface for all encoding types that implement decoding
-// parquet.ByteArray values.
-type ByteArrayDecoder interface {
-	TypedDecoder
-	Decode([]parquet.ByteArray) (int, error)
-	DecodeSpaced([]parquet.ByteArray, int, []byte, int64) (int, error)
-}
-
-// the byteArrayEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type byteArrayEncoderTraits struct{}
-
-// Encoder returns an encoder for byteArray type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (byteArrayEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictByteArrayEncoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_LENGTH_BYTE_ARRAY:
-		return &DeltaLengthByteArrayEncoder{
-			encoder: newEncoderBase(e, descr, mem),
-			lengthEncoder: &DeltaBitPackInt32Encoder{
-				encoder: newEncoderBase(e, descr, mem),
-			},
-		}
-	case format.Encoding_DELTA_BYTE_ARRAY:
-		return &DeltaByteArrayEncoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// byteArrayDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for byteArray values
-type byteArrayDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n byteArray values.
-func (byteArrayDecoderTraits) BytesRequired(n int) int {
-	return parquet.ByteArrayTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for byteArray typed data of the requested encoding type if available
-func (byteArrayDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictByteArrayDecoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaLengthByteArray:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaLengthByteArrayDecoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.DeltaByteArray:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaByteArrayDecoder{
-			DeltaLengthByteArrayDecoder: &DeltaLengthByteArrayDecoder{
-				decoder: newDecoderBase(format.Encoding(e), descr),
-				mem:     mem,
-			}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictByteArrayEncoder is an encoder for parquet.ByteArray data using dictionary encoding
-type DictByteArrayEncoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// DictByteArrayDecoder is a decoder for decoding dictionary encoded data for parquet.ByteArray columns
-type DictByteArrayDecoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// ByteArrayDictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type ByteArrayDictConverter struct {
-	valueDecoder ByteArrayDecoder
-	dict         []parquet.ByteArray
-	zeroVal      parquet.ByteArray
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *ByteArrayDictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.ByteArray, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *ByteArrayDictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *ByteArrayDictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.ByteArray)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.ByteArray
-func (dc *ByteArrayDictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.ByteArray)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *ByteArrayDictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.ByteArray)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// FixedLenByteArrayEncoder is the interface for all encoding types that implement encoding
-// parquet.FixedLenByteArray values.
-type FixedLenByteArrayEncoder interface {
-	TypedEncoder
-	Put([]parquet.FixedLenByteArray)
-	PutSpaced([]parquet.FixedLenByteArray, []byte, int64)
-}
-
-// FixedLenByteArrayDecoder is the interface for all encoding types that implement decoding
-// parquet.FixedLenByteArray values.
-type FixedLenByteArrayDecoder interface {
-	TypedDecoder
-	Decode([]parquet.FixedLenByteArray) (int, error)
-	DecodeSpaced([]parquet.FixedLenByteArray, int, []byte, int64) (int, error)
-}
-
-// the fixedLenByteArrayEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type fixedLenByteArrayEncoderTraits struct{}
-
-// Encoder returns an encoder for fixedLenByteArray type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (fixedLenByteArrayEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFixedLenByteArrayEncoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFixedLenByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFixedLenByteArrayEncoder{PlainFixedLenByteArrayEncoder: PlainFixedLenByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// fixedLenByteArrayDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for fixedLenByteArray values
-type fixedLenByteArrayDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n fixedLenByteArray values.
-func (fixedLenByteArrayDecoderTraits) BytesRequired(n int) int {
-	return parquet.FixedLenByteArrayTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for fixedLenByteArray typed data of the requested encoding type if available
-func (fixedLenByteArrayDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFixedLenByteArrayDecoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFixedLenByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFixedLenByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFixedLenByteArrayEncoder is an encoder for parquet.FixedLenByteArray data using dictionary encoding
-type DictFixedLenByteArrayEncoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFixedLenByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// DictFixedLenByteArrayDecoder is a decoder for decoding dictionary encoded data for parquet.FixedLenByteArray columns
-type DictFixedLenByteArrayDecoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// FixedLenByteArrayDictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type FixedLenByteArrayDictConverter struct {
-	valueDecoder FixedLenByteArrayDecoder
-	dict         []parquet.FixedLenByteArray
-	zeroVal      parquet.FixedLenByteArray
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *FixedLenByteArrayDictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.FixedLenByteArray, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *FixedLenByteArrayDictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *FixedLenByteArrayDictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.FixedLenByteArray)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.FixedLenByteArray
-func (dc *FixedLenByteArrayDictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.FixedLenByteArray)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *FixedLenByteArrayDictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.FixedLenByteArray)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// NewDictConverter creates a dict converter of the appropriate type, using the passed in
-// decoder as the decoder to decode the dictionary index.
-func NewDictConverter(dict TypedDecoder) utils.DictionaryConverter {
-	switch dict.Type() {
-	case parquet.Types.Int32:
-		return &Int32DictConverter{valueDecoder: dict.(Int32Decoder), dict: make([]int32, 0, dict.ValuesLeft())}
-	case parquet.Types.Int64:
-		return &Int64DictConverter{valueDecoder: dict.(Int64Decoder), dict: make([]int64, 0, dict.ValuesLeft())}
-	case parquet.Types.Int96:
-		return &Int96DictConverter{valueDecoder: dict.(Int96Decoder), dict: make([]parquet.Int96, 0, dict.ValuesLeft())}
-	case parquet.Types.Float:
-		return &Float32DictConverter{valueDecoder: dict.(Float32Decoder), dict: make([]float32, 0, dict.ValuesLeft())}
-	case parquet.Types.Double:
-		return &Float64DictConverter{valueDecoder: dict.(Float64Decoder), dict: make([]float64, 0, dict.ValuesLeft())}
-	case parquet.Types.ByteArray:
-		return &ByteArrayDictConverter{valueDecoder: dict.(ByteArrayDecoder), dict: make([]parquet.ByteArray, 0, dict.ValuesLeft())}
-	case parquet.Types.FixedLenByteArray:
-		return &FixedLenByteArrayDictConverter{valueDecoder: dict.(FixedLenByteArrayDecoder), dict: make([]parquet.FixedLenByteArray, 0, dict.ValuesLeft())}
-	default:
-		return nil
-	}
-}
-
-// helper function to get encoding traits object for the physical type indicated
-func getEncodingTraits(t parquet.Type) EncoderTraits {
-	switch t {
-	case parquet.Types.Int32:
-		return Int32EncoderTraits
-	case parquet.Types.Int64:
-		return Int64EncoderTraits
-	case parquet.Types.Int96:
-		return Int96EncoderTraits
-	case parquet.Types.Float:
-		return Float32EncoderTraits
-	case parquet.Types.Double:
-		return Float64EncoderTraits
-	case parquet.Types.Boolean:
-		return BooleanEncoderTraits
-	case parquet.Types.ByteArray:
-		return ByteArrayEncoderTraits
-	case parquet.Types.FixedLenByteArray:
-		return FixedLenByteArrayEncoderTraits
-	default:
-		return nil
-	}
-}
-
-// helper function to get decoding traits object for the physical type indicated
-func getDecodingTraits(t parquet.Type) DecoderTraits {
-	switch t {
-	case parquet.Types.Int32:
-		return Int32DecoderTraits
-	case parquet.Types.Int64:
-		return Int64DecoderTraits
-	case parquet.Types.Int96:
-		return Int96DecoderTraits
-	case parquet.Types.Float:
-		return Float32DecoderTraits
-	case parquet.Types.Double:
-		return Float64DecoderTraits
-	case parquet.Types.Boolean:
-		return BooleanDecoderTraits
-	case parquet.Types.ByteArray:
-		return ByteArrayDecoderTraits
-	case parquet.Types.FixedLenByteArray:
-		return FixedLenByteArrayDecoderTraits
-	default:
-		return nil
-	}
-}
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl b/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
deleted file mode 100644
index 601d90712baa6..0000000000000
--- a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
+++ /dev/null
@@ -1,419 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/parquet/schema"
-  format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-// fully typed encoder interfaces to enable writing against encoder/decoders
-// without having to care about what encoding type is actually being used.
-
-var (
-{{range .In}}
-  {{.Name}}EncoderTraits {{.lower}}EncoderTraits
-  {{.Name}}DecoderTraits {{.lower}}DecoderTraits
-{{- end}}
-)
-
-{{range .In}}
-// {{.Name}}Encoder is the interface for all encoding types that implement encoding
-// {{.name}} values.
-type {{.Name}}Encoder interface {
-  TypedEncoder
-  Put([]{{.name}})
-  PutSpaced([]{{.name}}, []byte, int64)
-}
-
-// {{.Name}}Decoder is the interface for all encoding types that implement decoding
-// {{.name}} values.
-type {{.Name}}Decoder interface {
-  TypedDecoder
-  Decode([]{{.name}}) (int, error)
-  DecodeSpaced([]{{.name}}, int, []byte, int64) (int, error)
-}
-
-// the {{.lower}}EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type {{.lower}}EncoderTraits struct{}
-
-// Encoder returns an encoder for {{.lower}} type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-{{- if or (eq .Name "Boolean") }}
-// dictionary encoding does not exist for this type and Encoder will panic if useDict is true
-{{- end }}
-func ({{.lower}}EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-  if useDict {
-{{- if or (eq .Name "Boolean") }}
-    panic("parquet: no {{.name}} dictionary encoding")
-{{- else}}
-    return &Dict{{.Name}}Encoder{newDictEncoderBase(descr, New{{if and (ne .Name "Int96") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}{{.Name}}Dictionary(){{else}}BinaryDictionary(mem){{end}}, mem)}
-{{- end}}
-  }
-
-  switch e {
-  case format.Encoding_PLAIN:
-    return &Plain{{.Name}}Encoder{encoder: newEncoderBase(e, descr, mem)}
-{{- if eq .Name "Boolean" }}
-  case format.Encoding_RLE:
-    return &RleBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-{{- end}}
-{{- if or (eq .Name "Int32") (eq .Name "Int64")}}
-  case format.Encoding_DELTA_BINARY_PACKED:
-    return &DeltaBitPack{{.Name}}Encoder{
-      encoder: newEncoderBase(e, descr, mem),
-    }
-{{- end}}
-{{- if eq .Name "ByteArray"}}
-  case format.Encoding_DELTA_LENGTH_BYTE_ARRAY:
-    return &DeltaLengthByteArrayEncoder{
-      encoder: newEncoderBase(e, descr, mem),
-      lengthEncoder: &DeltaBitPackInt32Encoder{
-        encoder: newEncoderBase(e, descr, mem),
-      },
-    }
-  case format.Encoding_DELTA_BYTE_ARRAY:
-    return &DeltaByteArrayEncoder{
-      encoder: newEncoderBase(e, descr, mem),
-    }
-{{- end}}
-{{- if or (eq .Name "FixedLenByteArray") (eq .Name "Float32") (eq .Name "Float64") (eq .Name "Int32") (eq .Name "Int64")}}
-  case format.Encoding_BYTE_STREAM_SPLIT:
-    return &ByteStreamSplit{{.Name}}Encoder{Plain{{.Name}}Encoder: Plain{{.Name}}Encoder{encoder: newEncoderBase(e,descr,mem)}}
-{{- end}}
-  default:
-    panic("unimplemented encoding type")
-  }
-}
-
-// {{.lower}}DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for {{.lower}} values
-type {{.lower}}DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n {{.lower}} values.
-func ({{.lower}}DecoderTraits) BytesRequired(n int) int {
-  return {{.prefix}}.{{.Name}}Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for {{.lower}} typed data of the requested encoding type if available
-func ({{.lower}}DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-  if useDict {
-{{- if and (ne .Name "Boolean") }}
-    return &Dict{{.Name}}Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-{{- else}}
-    panic("dictionary decoding unimplemented for {{.lower}}")
-{{- end}}
-  }
-
-  switch e {
-  case parquet.Encodings.Plain:
-    return &Plain{{.Name}}Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- if eq .Name "Boolean" }}
-  case parquet.Encodings.RLE:
-    return &RleBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- end}}
-{{- if or (eq .Name "Int32") (eq .Name "Int64")}}
-  case parquet.Encodings.DeltaBinaryPacked:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaBitPack{{.Name}}Decoder{
-      decoder: newDecoderBase(format.Encoding(e), descr),
-      mem:     mem,
-    }
-{{- end}}
-{{- if eq .Name "ByteArray"}}
-  case parquet.Encodings.DeltaLengthByteArray:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaLengthByteArrayDecoder{
-      decoder: newDecoderBase(format.Encoding(e), descr),
-      mem: mem,
-    }
-  case parquet.Encodings.DeltaByteArray:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaByteArrayDecoder{
-      DeltaLengthByteArrayDecoder: &DeltaLengthByteArrayDecoder{
-        decoder: newDecoderBase(format.Encoding(e), descr),
-        mem: mem,
-      }}
-{{- end}}
-{{- if or (eq .Name "FixedLenByteArray") (eq .Name "Float32") (eq .Name "Float64") (eq .Name "Int32") (eq .Name "Int64")}}
-  case parquet.Encodings.ByteStreamSplit:
-    return &ByteStreamSplit{{.Name}}Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- end}}
-  default:
-    panic("unimplemented encoding type")
-  }
-}
-
-{{if and (ne .Name "Boolean") }}
-// Dict{{.Name}}Encoder is an encoder for {{.name}} data using dictionary encoding
-type Dict{{.Name}}Encoder struct {
-  dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *Dict{{.Name}}Encoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}
-{{if (ne .Name "Int96")}}
-// WriteDict populates the byte slice with the dictionary index
-func (enc *Dict{{.Name}}Encoder) WriteDict(out []byte) {
-  enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *Dict{{.Name}}Encoder) Put(in []{{.name}}) {
-  for _, val := range in {
-    enc.dictEncoder.Put(val)
-  }
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *Dict{{.Name}}Encoder) PutSpaced(in []{{.name}}, validBits []byte, validBitsOffset int64) {
-  bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-    for i := int64(0); i < length; i++ {
-      enc.dictEncoder.Put(in[i+pos])
-    }
-    return nil
-  })
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *Dict{{.Name}}Encoder) PutDictionary(values arrow.Array) error {
-  if err := enc.canPutDictionary(values); err != nil {
-    return err
-  }
-
-  enc.dictEncodedSize += values.Len() * arrow.{{.Name}}SizeBytes
-  data := values.(*array.{{.Name}}).{{.Name}}Values()
-  for _, v := range data {
-    if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-      return err
-    }
-  }
-
-  values.Retain()
-  enc.preservedDict = values
-  return nil
-}
-{{else}}
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt96Encoder) WriteDict(out []byte) {
-  enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, parquet.Int96SizeBytes, out)
-}
-
-// Put encodes the values passed in, adding to the index as needed
-func (enc *DictInt96Encoder) Put(in []parquet.Int96) {
-  for _, v := range in {
-    memoIdx, found, err := enc.memo.GetOrInsert(v)
-    if err != nil {
-      panic(err)
-    }
-    if !found {
-      enc.dictEncodedSize += parquet.Int96SizeBytes
-    }
-    enc.addIndex(memoIdx)
-  }
-}
-
-// PutSpaced is like Put but assumes space for nulls
-func (enc *DictInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-  bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-    enc.Put(in[pos : pos+length])
-    return nil
-  })
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt96Encoder) PutDictionary(arrow.Array) error {
-  return fmt.Errorf("%w: direct PutDictionary to Int96", arrow.ErrNotImplemented)
-}
-{{end}}
-{{end}}
-
-// Dict{{.Name}}Decoder is a decoder for decoding dictionary encoded data for {{.name}} columns
-type Dict{{.Name}}Decoder struct {
-  dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (Dict{{.Name}}Decoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *Dict{{.Name}}Decoder) Decode(out []{{.name}}) (int, error) {
-  vals := shared_utils.Min(len(out), d.nvals)
-  decoded, err := d.decode(out[:vals])
-  if err != nil {
-    return decoded, err
-  }
-  if vals != decoded {
-    return decoded, xerrors.New("parquet: dict eof exception")
-  }  
-  return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *Dict{{.Name}}Decoder) DecodeSpaced(out []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  vals := shared_utils.Min(len(out), d.nvals)
-  decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-  if err != nil {
-    return decoded, err
-  }
-  if vals != decoded {
-    return decoded, xerrors.New("parquet: dict spaced eof exception")
-  }  
-  return vals, nil
-}
-
-// {{.Name}}DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type {{.Name}}DictConverter struct {
-  valueDecoder {{.Name}}Decoder
-  dict []{{.name}}
-  zeroVal {{.name}}
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *{{.Name}}DictConverter) ensure(idx utils.IndexType) error {
-  if len(dc.dict) <= int(idx) {
-    if cap(dc.dict) <= int(idx) {
-      val := make([]{{.name}}, int(idx+1)-len(dc.dict))
-      n, err := dc.valueDecoder.Decode(val)
-      if err != nil {
-        return err
-      }
-      dc.dict = append(dc.dict, val[:n]...)
-    } else {
-      cur := len(dc.dict)
-      n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-      if err != nil {
-        return err
-      }
-      dc.dict = dc.dict[:cur+n]
-    }
-  }
-  return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *{{.Name}}DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-  dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *{{.Name}}DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]{{.name}})
-	if err := dc.ensure(val); err != nil {
-    return err
-  }
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-  return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for {{.name}}
-func (dc *{{.Name}}DictConverter) FillZero(out interface{}) {
-  o := out.([]{{.name}})
-  o[0] = dc.zeroVal
-  for i := 1; i < len(o); i *= 2 {
-    copy(o[i:], o[:i])
-  }
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *{{.Name}}DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]{{.name}})
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-  return nil
-}
-{{end}}
-
-{{end}}
-
-// NewDictConverter creates a dict converter of the appropriate type, using the passed in
-// decoder as the decoder to decode the dictionary index.
-func NewDictConverter(dict TypedDecoder) utils.DictionaryConverter {
-  switch dict.Type() {
-  {{ range .In }}{{ if and (ne .Name "Boolean") -}}
-  case parquet.Types.{{if .physical }}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return &{{.Name}}DictConverter{valueDecoder: dict.({{.Name}}Decoder), dict: make([]{{.name}}, 0, dict.ValuesLeft())}
-  {{ end }}{{ end -}}
-  default:
-    return nil
-  }
-}
-
-// helper function to get encoding traits object for the physical type indicated
-func getEncodingTraits(t parquet.Type) EncoderTraits {
-  switch t {
-  {{ range .In -}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return {{.Name}}EncoderTraits
-  {{ end -}}
-  default:
-    return nil
-  }
-}
-
-// helper function to get decoding traits object for the physical type indicated
-func getDecodingTraits(t parquet.Type) DecoderTraits {
-  switch t {
-  {{ range .In -}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return {{.Name}}DecoderTraits
-  {{ end -}}
-  default:
-    return nil
-  }
-}
diff --git a/go/parquet/internal/encoding/types.go b/go/parquet/internal/encoding/types.go
deleted file mode 100644
index fb81ba8729cca..0000000000000
--- a/go/parquet/internal/encoding/types.go
+++ /dev/null
@@ -1,467 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"io"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// TypedDecoder is the general interface for all decoder types which can
-// then be type asserted to a specific Type Decoder
-type TypedDecoder interface {
-	// SetData updates the data in the decoder with the passed in byte slice and the
-	// stated number of values as expected to be decoded.
-	SetData(buffered int, buf []byte) error
-	// Encoding returns the encoding type that this decoder decodes data of
-	Encoding() parquet.Encoding
-	// ValuesLeft returns the number of remaining values to be decoded
-	ValuesLeft() int
-	// Type returns the physical type this can decode.
-	Type() parquet.Type
-}
-
-// DictDecoder is a special TypedDecoder which implements dictionary decoding
-type DictDecoder interface {
-	TypedDecoder
-	// SetDict takes in a decoder which can decode the dictionary index to be used
-	SetDict(TypedDecoder)
-}
-
-// TypedEncoder is the general interface for all encoding types which
-// can then be type asserted to a specific Type Encoder
-type TypedEncoder interface {
-	// Bytes returns the current slice of bytes that have been encoded but does not pass ownership
-	Bytes() []byte
-	// Reset resets the encoder and dumps all the data to let it be reused.
-	Reset()
-	// ReserveForWrite reserves n bytes in the buffer so that the next n bytes written will not
-	// cause a memory allocation.
-	ReserveForWrite(n int)
-	// EstimatedDataEncodedSize returns the estimated number of bytes in the buffer
-	// so far.
-	EstimatedDataEncodedSize() int64
-	// FlushValues finishes up any unwritten data and returns the buffer of data passing
-	// ownership to the caller, Release needs to be called on the Buffer to free the memory
-	// if error is nil
-	FlushValues() (Buffer, error)
-	// Encoding returns the type of encoding that this encoder operates with
-	Encoding() parquet.Encoding
-	// Allocator returns the allocator that was used when creating this encoder
-	Allocator() memory.Allocator
-	// Type returns the underlying physical type this encodes.
-	Type() parquet.Type
-	Release()
-}
-
-// DictEncoder is a special kind of TypedEncoder which implements Dictionary
-// encoding.
-type DictEncoder interface {
-	TypedEncoder
-	// WriteIndices populates the byte slice with the final indexes of data and returns
-	// the number of bytes written
-	WriteIndices(out []byte) (int, error)
-	// DictEncodedSize returns the current size of the encoded dictionary index.
-	DictEncodedSize() int
-	// BitWidth returns the bitwidth needed to encode all of the index values based
-	// on the number of values in the dictionary index.
-	BitWidth() int
-	// WriteDict populates out with the dictionary index values, out should be sized to at least
-	// as many bytes as DictEncodedSize
-	WriteDict(out []byte)
-	// NumEntries returns the number of values currently in the dictionary index.
-	NumEntries() int
-	// PutDictionary allows pre-seeding a dictionary encoder with
-	// a dictionary from an Arrow Array.
-	//
-	// The passed in array must not have any nulls and this can only
-	// be called on an empty encoder. The dictionary passed in will
-	// be stored internally as a preserved dictionary, and will be
-	// released when this encoder is reset or released.
-	PutDictionary(arrow.Array) error
-	// PreservedDictionary returns the currently stored preserved dict
-	// from PutDictionary or nil.
-	PreservedDictionary() arrow.Array
-	// PutIndices adds the indices from the passed in integral array to
-	// the column data. It is assumed that the indices are within the bounds
-	// of [0,dictSize) and is not validated. Returns an error if a non-integral
-	// array is passed.
-	PutIndices(arrow.Array) error
-}
-
-var bufferPool = sync.Pool{
-	New: func() interface{} {
-		return memory.NewResizableBuffer(memory.DefaultAllocator)
-	},
-}
-
-// Buffer is an interface used as a general interface for handling buffers
-// regardless of the underlying implementation.
-type Buffer interface {
-	Len() int
-	Buf() []byte
-	Bytes() []byte
-	Resize(int)
-	Release()
-}
-
-// poolBuffer is a buffer that will release the allocated buffer to a pool
-// of buffers when release is called in order to allow it to be reused to
-// cut down on the number of allocations.
-type poolBuffer struct {
-	buf *memory.Buffer
-}
-
-func (p poolBuffer) Resize(n int) { p.buf.ResizeNoShrink(n) }
-
-func (p poolBuffer) Len() int { return p.buf.Len() }
-
-func (p poolBuffer) Bytes() []byte { return p.buf.Bytes() }
-
-func (p poolBuffer) Buf() []byte { return p.buf.Buf() }
-
-func (p poolBuffer) Release() {
-	if p.buf.Mutable() {
-		memory.Set(p.buf.Buf(), 0)
-		p.buf.ResizeNoShrink(0)
-		bufferPool.Put(p.buf)
-		return
-	}
-
-	p.buf.Release()
-}
-
-// PooledBufferWriter uses buffers from the buffer pool to back it while
-// implementing io.Writer and io.WriterAt interfaces
-type PooledBufferWriter struct {
-	buf    *memory.Buffer
-	pos    int
-	offset int
-}
-
-// NewPooledBufferWriter returns a new buffer with 'initial' bytes reserved
-// and pre-allocated to guarantee that writing that many more bytes will not
-// require another allocation.
-func NewPooledBufferWriter(initial int) *PooledBufferWriter {
-	ret := &PooledBufferWriter{}
-	ret.Reserve(initial)
-	return ret
-}
-
-// SetOffset sets an offset in the buffer which will ensure that all references
-// to offsets and sizes in the buffer will be offset by this many bytes, allowing
-// the writer to reserve space in the buffer.
-func (b *PooledBufferWriter) SetOffset(offset int) {
-	b.pos -= b.offset
-	b.offset = offset
-	b.pos += offset
-}
-
-// Reserve pre-allocates nbytes to ensure that the next write of that many bytes
-// will not require another allocation.
-func (b *PooledBufferWriter) Reserve(nbytes int) {
-	if b.buf == nil {
-		b.buf = bufferPool.Get().(*memory.Buffer)
-	}
-
-	newCap := utils.Max(b.buf.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buf.Reserve(newCap)
-}
-
-// Reset will release any current memory and initialize it with the new
-// allocated bytes.
-func (b *PooledBufferWriter) Reset(initial int) {
-	if b.buf != nil {
-		memory.Set(b.buf.Buf(), 0)
-		b.buf.ResizeNoShrink(0)
-		bufferPool.Put(b.buf)
-		b.buf = nil
-	}
-
-	b.pos = 0
-	b.offset = 0
-	b.Reserve(initial)
-}
-
-// Finish returns the current buffer, with the responsibility for releasing
-// the memory on the caller, resetting this writer to be re-used
-func (b *PooledBufferWriter) Finish() Buffer {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	buf := poolBuffer{b.buf}
-
-	b.buf = nil
-	b.Reset(0)
-	return buf
-}
-
-// WriteAt writes the bytes from p into this buffer starting at offset.
-//
-// Does not affect the internal position of the writer.
-func (b *PooledBufferWriter) WriteAt(p []byte, offset int64) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-	offset += int64(b.offset)
-	need := int(offset) + len(p)
-
-	if need >= b.buf.Cap() {
-		b.Reserve(need - b.pos)
-	}
-	n = copy(b.buf.Buf()[offset:], p)
-
-	if need > b.buf.Len() {
-		b.buf.ResizeNoShrink(need)
-	}
-	return
-}
-
-func (b *PooledBufferWriter) Write(buf []byte) (int, error) {
-	if len(buf) == 0 {
-		return 0, nil
-	}
-	b.Reserve(len(buf))
-	return b.UnsafeWrite(buf)
-}
-
-func (b *PooledBufferWriter) UnsafeWriteCopy(ncopies int, pattern []byte) (int, error) {
-	nbytes := len(pattern) * ncopies
-	slc := b.buf.Buf()[b.pos : b.pos+nbytes]
-	copy(slc, pattern)
-	for j := len(pattern); j < len(slc); j *= 2 {
-		copy(slc[j:], slc[:j])
-	}
-	b.pos += nbytes
-	return nbytes, nil
-}
-
-// UnsafeWrite does not check the capacity / length before writing.
-func (b *PooledBufferWriter) UnsafeWrite(buf []byte) (n int, err error) {
-	n = copy(b.buf.Buf()[b.pos:], buf)
-	b.pos += n
-	return
-}
-
-func (b *PooledBufferWriter) Tell() int64 {
-	return int64(b.pos)
-}
-
-// Bytes returns the current bytes slice of slice Len
-func (b *PooledBufferWriter) Bytes() []byte {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return b.buf.Bytes()[b.offset:]
-}
-
-// Len provides the current Length of the byte slice
-func (b *PooledBufferWriter) Len() int {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return b.buf.Len() - b.offset
-}
-
-// BufferWriter is a utility class for building and writing to a memory.Buffer
-// with a given allocator that fulfills the interfaces io.Write, io.WriteAt
-// and io.Seeker, while providing the ability to pre-allocate memory.
-type BufferWriter struct {
-	buffer *memory.Buffer
-	pos    int
-	mem    memory.Allocator
-
-	offset int
-}
-
-// NewBufferWriterFromBuffer wraps the provided buffer to allow it to fulfill these
-// interfaces.
-func NewBufferWriterFromBuffer(b *memory.Buffer, mem memory.Allocator) *BufferWriter {
-	return &BufferWriter{b, 0, mem, 0}
-}
-
-// NewBufferWriter constructs a buffer with initially reserved/allocated memory.
-func NewBufferWriter(initial int, mem memory.Allocator) *BufferWriter {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Reserve(initial)
-	return &BufferWriter{buffer: buf, mem: mem}
-}
-
-func (b *BufferWriter) SetOffset(offset int) {
-	b.offset = offset
-}
-
-// Bytes returns the current bytes slice of slice Len
-func (b *BufferWriter) Bytes() []byte {
-	return b.buffer.Bytes()[b.offset:]
-}
-
-// Len provides the current Length of the byte slice
-func (b *BufferWriter) Len() int {
-	return b.buffer.Len() - b.offset
-}
-
-// Cap returns the current capacity of the underlying buffer
-func (b *BufferWriter) Cap() int {
-	return b.buffer.Cap() - b.offset
-}
-
-// Finish returns the current buffer, with the responsibility for releasing
-// the memory on the caller, resetting this writer to be re-used
-func (b *BufferWriter) Finish() *memory.Buffer {
-	buf := b.buffer
-	b.buffer = nil
-	b.Reset(0)
-	return buf
-}
-
-// Release the underlying buffer and not allocate anything else. To re-use this buffer, Reset() or Finish() should be called
-func (b *BufferWriter) Release() {
-	b.buffer.Release()
-	b.buffer = nil
-}
-
-func (b *BufferWriter) Truncate() {
-	b.pos = 0
-	b.offset = 0
-
-	if b.buffer == nil {
-		b.Reserve(1024)
-	} else {
-		b.buffer.ResizeNoShrink(0)
-	}
-}
-
-// Reset will release any current memory and initialize it with the new
-// allocated bytes.
-func (b *BufferWriter) Reset(initial int) {
-	if b.buffer != nil {
-		b.buffer.Release()
-	} else {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-
-	b.pos = 0
-	b.offset = 0
-
-	if initial > 0 {
-		b.Reserve(initial)
-	}
-}
-
-// Reserve ensures that there is at least enough capacity to write nbytes
-// without another allocation, may allocate more than that in order to
-// efficiently reduce allocations
-func (b *BufferWriter) Reserve(nbytes int) {
-	if b.buffer == nil {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-	newCap := utils.Max(b.buffer.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buffer.Reserve(newCap)
-}
-
-// WriteAt writes the bytes from p into this buffer starting at offset.
-//
-// Does not affect the internal position of the writer.
-func (b *BufferWriter) WriteAt(p []byte, offset int64) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-	offset += int64(b.offset)
-	need := int(offset) + len(p)
-
-	if need >= b.buffer.Cap() {
-		b.Reserve(need - b.pos)
-	}
-	copy(b.buffer.Buf()[offset:], p)
-
-	if need > b.buffer.Len() {
-		b.buffer.ResizeNoShrink(need)
-	}
-	return len(p), nil
-}
-
-func (b *BufferWriter) Write(buf []byte) (int, error) {
-	if len(buf) == 0 {
-		return 0, nil
-	}
-	if b.buffer == nil {
-		b.Reserve(len(buf))
-	}
-
-	if b.pos+b.offset+len(buf) >= b.buffer.Cap() {
-		b.Reserve(len(buf))
-	}
-	return b.UnsafeWrite(buf)
-}
-
-func (b *BufferWriter) UnsafeWriteCopy(ncopies int, pattern []byte) (int, error) {
-	nbytes := len(pattern) * ncopies
-	slc := b.buffer.Buf()[b.pos : b.pos+nbytes]
-	copy(slc, pattern)
-	for j := len(pattern); j < len(slc); j *= 2 {
-		copy(slc[j:], slc[:j])
-	}
-	b.pos += nbytes
-	b.buffer.ResizeNoShrink(b.pos)
-	return nbytes, nil
-}
-
-// UnsafeWrite does not check the capacity / length before writing.
-func (b *BufferWriter) UnsafeWrite(buf []byte) (int, error) {
-	copy(b.buffer.Buf()[b.pos+b.offset:], buf)
-	b.pos += len(buf)
-	b.buffer.ResizeNoShrink(b.pos)
-	return len(buf), nil
-}
-
-// Seek fulfills the io.Seeker interface returning it's new position
-// whence must be io.SeekStart, io.SeekCurrent or io.SeekEnd or it will be ignored.
-func (b *BufferWriter) Seek(offset int64, whence int) (int64, error) {
-	newPos, offs := 0, int(offset)
-	offs += b.offset
-	switch whence {
-	case io.SeekStart:
-		newPos = offs
-	case io.SeekCurrent:
-		newPos = b.pos + offs
-	case io.SeekEnd:
-		newPos = b.buffer.Len() + offs
-	}
-	if newPos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	b.pos = newPos
-	return int64(newPos), nil
-}
-
-func (b *BufferWriter) Tell() int64 {
-	return int64(b.pos)
-}
diff --git a/go/parquet/internal/encryption/aes.go b/go/parquet/internal/encryption/aes.go
deleted file mode 100644
index 1e861ffd2a1d0..0000000000000
--- a/go/parquet/internal/encryption/aes.go
+++ /dev/null
@@ -1,310 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package encryption contains the internal helpers for the parquet AES encryption/decryption handling.
-//
-// Testing for this is done via integration testing at the top level parquet package via attempting to
-// read and write encrypted files with different configurations to match test files in parquet-testing
-package encryption
-
-import (
-	"bytes"
-	"crypto/aes"
-	"crypto/cipher"
-	"crypto/rand"
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// important constants for handling the aes encryption
-const (
-	GcmTagLength = 16
-	NonceLength  = 12
-
-	gcmMode          = 0
-	ctrMode          = 1
-	ctrIVLen         = 16
-	bufferSizeLength = 4
-)
-
-// Module constants for constructing the AAD bytes, the order here is
-// important as the constants are set via iota.
-const (
-	FooterModule int8 = iota
-	ColumnMetaModule
-	DataPageModule
-	DictPageModule
-	DataPageHeaderModule
-	DictPageHeaderModule
-	ColumnIndexModule
-	OffsetIndexModule
-)
-
-type aesEncryptor struct {
-	mode                int
-	ciphertextSizeDelta int
-}
-
-// NewAesEncryptor constructs an encryptor for the passed in cipher and whether
-// or not it's being used to encrypt metadata.
-func NewAesEncryptor(alg parquet.Cipher, metadata bool) *aesEncryptor {
-	ret := &aesEncryptor{}
-	ret.ciphertextSizeDelta = bufferSizeLength + NonceLength
-	if metadata || alg == parquet.AesGcm {
-		ret.mode = gcmMode
-		ret.ciphertextSizeDelta += GcmTagLength
-	} else {
-		ret.mode = ctrMode
-	}
-
-	return ret
-}
-
-// CiphertextSizeDelta is the number of extra bytes that are part of the encrypted data
-// above and beyond the plaintext value.
-func (a *aesEncryptor) CiphertextSizeDelta() int { return a.ciphertextSizeDelta }
-
-// SignedFooterEncrypt writes the signature for the provided footer bytes using the given key, AAD and nonce.
-// It returns the number of bytes that were written to w.
-func (a *aesEncryptor) SignedFooterEncrypt(w io.Writer, footer, key, aad, nonce []byte) int {
-	if a.mode != gcmMode {
-		panic("must use AES GCM (metadata) encryptor")
-	}
-
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	aead, err := cipher.NewGCM(block)
-	if err != nil {
-		panic(err)
-	}
-	if aead.NonceSize() != NonceLength {
-		panic(fmt.Errorf("nonce size mismatch %d, %d", aead.NonceSize(), NonceLength))
-	}
-	if aead.Overhead() != GcmTagLength {
-		panic(fmt.Errorf("tagsize mismatch %d %d", aead.Overhead(), GcmTagLength))
-	}
-
-	ciphertext := aead.Seal(nil, nonce, footer, aad)
-	bufferSize := uint32(len(ciphertext) + len(nonce))
-	// data is written with a prefix of the size written as a little endian 32bit int.
-	if err := binary.Write(w, binary.LittleEndian, bufferSize); err != nil {
-		panic(err)
-	}
-	w.Write(nonce)
-	w.Write(ciphertext)
-	return bufferSizeLength + int(bufferSize)
-}
-
-// Encrypt calculates the ciphertext for src with the given key and aad, then writes it to w.
-// Returns the total number of bytes written.
-func (a *aesEncryptor) Encrypt(w io.Writer, src, key, aad []byte) int {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	nonce := make([]byte, NonceLength)
-	rand.Read(nonce)
-
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-		if aead.NonceSize() != NonceLength {
-			panic(fmt.Errorf("nonce size mismatch %d, %d", aead.NonceSize(), NonceLength))
-		}
-		if aead.Overhead() != GcmTagLength {
-			panic(fmt.Errorf("tagsize mismatch %d %d", aead.Overhead(), GcmTagLength))
-		}
-
-		ciphertext := aead.Seal(nil, nonce, src, aad)
-		bufferSize := len(ciphertext) + len(nonce)
-		// data is written with a prefix of the size written as a little endian 32bit int.
-		if err := binary.Write(w, binary.LittleEndian, uint32(bufferSize)); err != nil {
-			panic(err)
-		}
-		w.Write(nonce)
-		w.Write(ciphertext)
-		return bufferSizeLength + bufferSize
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	bufferSize := NonceLength + len(src)
-	// data is written with a prefix of the size written as a little endian 32bit int.
-	if err := binary.Write(w, binary.LittleEndian, uint32(bufferSize)); err != nil {
-		panic(err)
-	}
-	w.Write(nonce)
-	cipher.StreamWriter{S: cipher.NewCTR(block, iv), W: w}.Write(src)
-	return bufferSizeLength + bufferSize
-}
-
-type aesDecryptor struct {
-	mode                int
-	ciphertextSizeDelta int
-}
-
-// newAesDecryptor constructs and returns a decryptor for the given cipher type and whether or
-// not it is intended to be used for decrypting metadata.
-func newAesDecryptor(alg parquet.Cipher, metadata bool) *aesDecryptor {
-	ret := &aesDecryptor{}
-	ret.ciphertextSizeDelta = bufferSizeLength + NonceLength
-	if metadata || alg == parquet.AesGcm {
-		ret.mode = gcmMode
-		ret.ciphertextSizeDelta += GcmTagLength
-	} else {
-		ret.mode = ctrMode
-	}
-
-	return ret
-}
-
-// CiphertextSizeDelta is the number of bytes in the ciphertext that will not exist in the
-// plaintext due to be used for the decryption. The total size - the CiphertextSizeDelta is
-// the length of the plaintext after decryption.
-func (a *aesDecryptor) CiphertextSizeDelta() int { return a.ciphertextSizeDelta }
-
-// DecryptFrom
-func (a *aesDecryptor) DecryptFrom(r io.Reader, key, aad []byte) []byte {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	var writtenCiphertextLen uint32
-	if err := binary.Read(r, binary.LittleEndian, &writtenCiphertextLen); err != nil {
-		panic(err)
-	}
-
-	cipherText := make([]byte, writtenCiphertextLen)
-	if n, err := io.ReadFull(r, cipherText); n != int(writtenCiphertextLen) || err != nil {
-		panic(err)
-	}
-
-	nonce := cipherText[:NonceLength]
-	cipherText = cipherText[NonceLength:]
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-
-		plain, err := aead.Open(cipherText[:0], nonce, cipherText, aad)
-		if err != nil {
-			panic(err)
-		}
-		return plain
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	stream := cipher.NewCTR(block, iv)
-	// dst := make([]byte, len(cipherText))
-	stream.XORKeyStream(cipherText, cipherText)
-	return cipherText
-}
-
-// Decrypt returns the plaintext version of the given ciphertext when decrypted
-// with the provided key and AAD security bytes.
-func (a *aesDecryptor) Decrypt(cipherText, key, aad []byte) []byte {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	writtenCiphertextLen := binary.LittleEndian.Uint32(cipherText)
-	cipherLen := writtenCiphertextLen + bufferSizeLength
-	nonce := cipherText[bufferSizeLength : bufferSizeLength+NonceLength]
-
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-
-		plain, err := aead.Open(nil, nonce, cipherText[bufferSizeLength+NonceLength:cipherLen], aad)
-		if err != nil {
-			panic(err)
-		}
-		return plain
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	stream := cipher.NewCTR(block, iv)
-	dst := make([]byte, len(cipherText)-bufferSizeLength-NonceLength)
-	stream.XORKeyStream(dst, cipherText[bufferSizeLength+NonceLength:])
-	return dst
-}
-
-// CreateModuleAad creates the section AAD security bytes for the file, module, row group, column and page.
-//
-// This should be used for being passed to the encryptor and decryptor whenever requesting AAD bytes.
-func CreateModuleAad(fileAad string, moduleType int8, rowGroupOrdinal, columnOrdinal, pageOrdinal int16) string {
-	buf := bytes.NewBuffer([]byte(fileAad))
-	buf.WriteByte(byte(moduleType))
-
-	if moduleType == FooterModule {
-		return buf.String()
-	}
-
-	binary.Write(buf, binary.LittleEndian, rowGroupOrdinal)
-	binary.Write(buf, binary.LittleEndian, columnOrdinal)
-	if DataPageModule != moduleType && DataPageHeaderModule != moduleType {
-		return buf.String()
-	}
-
-	binary.Write(buf, binary.LittleEndian, pageOrdinal)
-	return buf.String()
-}
-
-// CreateFooterAad takes an aadPrefix and constructs the security AAD bytes for encrypting
-// and decrypting the parquet footer bytes.
-func CreateFooterAad(aadPrefix string) string {
-	return CreateModuleAad(aadPrefix, FooterModule, -1, -1, -1)
-}
-
-// QuickUpdatePageAad updates aad with the new page ordinal, modifying the
-// last two bytes of aad.
-func QuickUpdatePageAad(aad []byte, newPageOrdinal int16) {
-	binary.LittleEndian.PutUint16(aad[len(aad)-2:], uint16(newPageOrdinal))
-}
diff --git a/go/parquet/internal/encryption/decryptor.go b/go/parquet/internal/encryption/decryptor.go
deleted file mode 100644
index 6af9a4aacfe15..0000000000000
--- a/go/parquet/internal/encryption/decryptor.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// FileDecryptor is an interface used by the filereader for decrypting an
-// entire parquet file as we go, usually constructed from the DecryptionProperties
-type FileDecryptor interface {
-	// Returns the key for decrypting the footer if provided
-	GetFooterKey() string
-	// Provides the file level AAD security bytes
-	FileAad() string
-	// return which algorithm this decryptor was constructed for
-	Algorithm() parquet.Cipher
-	// return the FileDecryptionProperties that were used for this decryptor
-	Properties() *parquet.FileDecryptionProperties
-	// Clear out the decryption keys, this is automatically called after every
-	// successfully decrypted file to ensure that keys aren't kept around.
-	WipeOutDecryptionKeys()
-	// GetFooterDecryptor returns a Decryptor interface for use to decrypt the footer
-	// of a parquet file.
-	GetFooterDecryptor() Decryptor
-	// GetFooterDecryptorForColumnMeta returns a Decryptor interface for Column Metadata
-	// in the file footer using the AAD bytes provided.
-	GetFooterDecryptorForColumnMeta(aad string) Decryptor
-	// GetFooterDecryptorForColumnData returns the decryptor that can be used for decrypting
-	// actual column data footer bytes, not column metadata.
-	GetFooterDecryptorForColumnData(aad string) Decryptor
-	// GetColumnMetaDecryptor returns a decryptor for the requested column path, key and AAD bytes
-	// but only for decrypting the row group level metadata
-	GetColumnMetaDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor
-	// GetColumnDataDecryptor returns a decryptor for the requested column path, key, and AAD bytes
-	// but only for the rowgroup column data.
-	GetColumnDataDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor
-}
-
-type fileDecryptor struct {
-	// the properties contains the key retriever for us to get keys
-	// from the key metadata
-	props *parquet.FileDecryptionProperties
-	// concatenation of aad_prefix (if exists) and aad_file_unique
-	fileAad                 string
-	columnDataMap           map[string]Decryptor
-	columnMetaDataMap       map[string]Decryptor
-	footerMetadataDecryptor Decryptor
-	footerDataDecryptor     Decryptor
-	alg                     parquet.Cipher
-	footerKeyMetadata       string
-	metaDecryptor           *aesDecryptor
-	dataDecryptor           *aesDecryptor
-	mem                     memory.Allocator
-}
-
-// NewFileDecryptor constructs a decryptor from the provided configuration of properties, cipher and key metadata. Using the provided memory allocator or
-// the default allocator if one isn't provided.
-func NewFileDecryptor(props *parquet.FileDecryptionProperties, fileAad string, alg parquet.Cipher, keymetadata string, mem memory.Allocator) FileDecryptor {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return &fileDecryptor{
-		fileAad:           fileAad,
-		props:             props,
-		alg:               alg,
-		footerKeyMetadata: keymetadata,
-		mem:               mem,
-		columnDataMap:     make(map[string]Decryptor),
-		columnMetaDataMap: make(map[string]Decryptor),
-	}
-}
-
-func (d *fileDecryptor) FileAad() string                               { return d.fileAad }
-func (d *fileDecryptor) Properties() *parquet.FileDecryptionProperties { return d.props }
-func (d *fileDecryptor) Algorithm() parquet.Cipher                     { return d.alg }
-func (d *fileDecryptor) GetFooterKey() string {
-	footerKey := d.props.FooterKey()
-	if footerKey == "" {
-		if d.footerKeyMetadata == "" {
-			panic("no footer key or key metadata")
-		}
-		if d.props.KeyRetriever == nil {
-			panic("no footer key or key retriever")
-		}
-		footerKey = d.props.KeyRetriever.GetKey([]byte(d.footerKeyMetadata))
-	}
-	if footerKey == "" {
-		panic("invalid footer encryption key. Could not parse footer metadata")
-	}
-	return footerKey
-}
-
-func (d *fileDecryptor) GetFooterDecryptor() Decryptor {
-	aad := CreateFooterAad(d.fileAad)
-	return d.getFooterDecryptor(aad, true)
-}
-
-func (d *fileDecryptor) GetFooterDecryptorForColumnMeta(aad string) Decryptor {
-	return d.getFooterDecryptor(aad, true)
-}
-
-func (d *fileDecryptor) GetFooterDecryptorForColumnData(aad string) Decryptor {
-	return d.getFooterDecryptor(aad, false)
-}
-
-func (d *fileDecryptor) GetColumnMetaDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor {
-	return d.getColumnDecryptor(columnPath, columnKeyMetadata, aad, true)
-}
-
-func (d *fileDecryptor) GetColumnDataDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor {
-	return d.getColumnDecryptor(columnPath, columnKeyMetadata, aad, false)
-}
-
-func (d *fileDecryptor) WipeOutDecryptionKeys() {
-	d.props.WipeOutDecryptionKeys()
-}
-
-func (d *fileDecryptor) getFooterDecryptor(aad string, metadata bool) Decryptor {
-	if metadata {
-		if d.footerMetadataDecryptor != nil {
-			return d.footerMetadataDecryptor
-		}
-	} else {
-		if d.footerDataDecryptor != nil {
-			return d.footerDataDecryptor
-		}
-	}
-
-	footerKey := d.GetFooterKey()
-
-	// Create both data and metadata decryptors to avoid redundant retrieval of key
-	// from the key_retriever.
-	aesMetaDecrypt := d.getMetaAesDecryptor()
-	aesDataDecrypt := d.getDataAesDecryptor()
-
-	d.footerMetadataDecryptor = &decryptor{
-		decryptor: aesMetaDecrypt,
-		key:       []byte(footerKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-	d.footerDataDecryptor = &decryptor{
-		decryptor: aesDataDecrypt,
-		key:       []byte(footerKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-
-	if metadata {
-		return d.footerMetadataDecryptor
-	}
-	return d.footerDataDecryptor
-}
-
-func (d *fileDecryptor) getColumnDecryptor(columnPath, columnMeta, aad string, metadata bool) Decryptor {
-	if metadata {
-		if res, ok := d.columnMetaDataMap[columnPath]; ok {
-			res.UpdateAad(aad)
-			return res
-		}
-	} else {
-		if res, ok := d.columnDataMap[columnPath]; ok {
-			res.UpdateAad(aad)
-			return res
-		}
-	}
-
-	columnKey := d.props.ColumnKey(columnPath)
-	// No explicit column key given via API. Retrieve via key metadata.
-	if columnKey == "" && columnMeta != "" && d.props.KeyRetriever != nil {
-		columnKey = d.props.KeyRetriever.GetKey([]byte(columnMeta))
-	}
-	if columnKey == "" {
-		panic("hidden column exception, path=" + columnPath)
-	}
-
-	aesDataDecrypt := d.getDataAesDecryptor()
-	aesMetaDecrypt := d.getMetaAesDecryptor()
-
-	d.columnDataMap[columnPath] = &decryptor{
-		decryptor: aesDataDecrypt,
-		key:       []byte(columnKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-	d.columnMetaDataMap[columnPath] = &decryptor{
-		decryptor: aesMetaDecrypt,
-		key:       []byte(columnKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-
-	if metadata {
-		return d.columnMetaDataMap[columnPath]
-	}
-	return d.columnDataMap[columnPath]
-}
-
-func (d *fileDecryptor) getMetaAesDecryptor() *aesDecryptor {
-	if d.metaDecryptor == nil {
-		d.metaDecryptor = newAesDecryptor(d.alg, true)
-	}
-	return d.metaDecryptor
-}
-
-func (d *fileDecryptor) getDataAesDecryptor() *aesDecryptor {
-	if d.dataDecryptor == nil {
-		d.dataDecryptor = newAesDecryptor(d.alg, false)
-	}
-	return d.dataDecryptor
-}
-
-// Decryptor is the basic interface for any decryptor generated from a FileDecryptor
-type Decryptor interface {
-	// returns the File Level AAD bytes
-	FileAad() string
-	// returns the current allocator that was used for any extra allocations of buffers
-	Allocator() memory.Allocator
-	// returns the CiphertextSizeDelta from the decryptor
-	CiphertextSizeDelta() int
-	// Decrypt just returns the decrypted plaintext from the src ciphertext
-	Decrypt(src []byte) []byte
-	// Decrypt just returns the decrypted plaintext from the src ciphertext
-	DecryptFrom(r io.Reader) []byte
-	// set the AAD bytes of the decryptor to the provided string
-	UpdateAad(string)
-}
-
-type decryptor struct {
-	decryptor *aesDecryptor
-	key       []byte
-	fileAad   []byte
-	aad       []byte
-	mem       memory.Allocator
-}
-
-func (d *decryptor) Allocator() memory.Allocator { return d.mem }
-func (d *decryptor) FileAad() string             { return string(d.fileAad) }
-func (d *decryptor) UpdateAad(aad string)        { d.aad = []byte(aad) }
-func (d *decryptor) CiphertextSizeDelta() int    { return d.decryptor.CiphertextSizeDelta() }
-func (d *decryptor) Decrypt(src []byte) []byte {
-	return d.decryptor.Decrypt(src, d.key, d.aad)
-}
-func (d *decryptor) DecryptFrom(r io.Reader) []byte {
-	return d.decryptor.DecryptFrom(r, d.key, d.aad)
-}
diff --git a/go/parquet/internal/encryption/encryptor.go b/go/parquet/internal/encryption/encryptor.go
deleted file mode 100644
index 57ff0a4173cdf..0000000000000
--- a/go/parquet/internal/encryption/encryptor.go
+++ /dev/null
@@ -1,237 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// FileEncryptor is the interface for constructing encryptors for the different
-// sections of a parquet file.
-type FileEncryptor interface {
-	// GetFooterEncryptor returns an encryptor for the footer metadata
-	GetFooterEncryptor() Encryptor
-	// GetFooterSigningEncryptor returns an encryptor for creating the signature
-	// for the footer as opposed to encrypting the footer bytes directly.
-	GetFooterSigningEncryptor() Encryptor
-	// GetColumnMetaEncryptor returns an encryptor for the metadata only of the requested
-	// column path string.
-	GetColumnMetaEncryptor(columnPath string) Encryptor
-	// GetColumnDataEncryptor returns an encryptor for the column data ONLY of
-	// the requested column path string.
-	GetColumnDataEncryptor(columnPath string) Encryptor
-	// WipeOutEncryptionKeys deletes the keys that were used for encryption,
-	// called after every successfully encrypted file to ensure against accidental
-	// key re-use.
-	WipeOutEncryptionKeys()
-}
-
-type fileEncryptor struct {
-	props                  *parquet.FileEncryptionProperties
-	columnDataMap          map[string]Encryptor
-	columnMetaDataMap      map[string]Encryptor
-	footerSigningEncryptor Encryptor
-	footerEncryptor        Encryptor
-
-	// Key must be 16, 24, or 32 bytes in length thus there could be up to
-	// three types of meta_encryptors and data_encryptors
-	metaEncryptor *aesEncryptor
-	dataEncryptor *aesEncryptor
-
-	mem memory.Allocator
-}
-
-// NewFileEncryptor returns a new encryptor using the given encryption properties.
-//
-// Panics if the properties passed have already been used to construct an encryptor
-// ie: props.IsUtilized returns true. If mem is nil, will default to memory.DefaultAllocator
-func NewFileEncryptor(props *parquet.FileEncryptionProperties, mem memory.Allocator) FileEncryptor {
-	if props.IsUtilized() {
-		panic("re-using encryption properties for another file")
-	}
-
-	props.SetUtilized()
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	return &fileEncryptor{
-		props:             props,
-		mem:               mem,
-		columnDataMap:     make(map[string]Encryptor),
-		columnMetaDataMap: make(map[string]Encryptor),
-	}
-}
-
-func (e *fileEncryptor) WipeOutEncryptionKeys() {
-	e.props.WipeOutEncryptionKeys()
-}
-
-func (e *fileEncryptor) GetFooterEncryptor() Encryptor {
-	if e.footerEncryptor == nil {
-		alg := e.props.Algorithm().Algo
-		footerAad := CreateFooterAad(e.props.FileAad())
-		footerKey := e.props.FooterKey()
-		enc := e.getMetaAesEncryptor(alg)
-		e.footerEncryptor = &encryptor{
-			aesEncryptor: enc,
-			key:          []byte(footerKey),
-			fileAad:      e.props.FileAad(),
-			aad:          footerAad,
-			mem:          e.mem,
-		}
-	}
-	return e.footerEncryptor
-}
-
-func (e *fileEncryptor) GetFooterSigningEncryptor() Encryptor {
-	if e.footerSigningEncryptor == nil {
-		alg := e.props.Algorithm().Algo
-		footerAad := CreateFooterAad(e.props.FileAad())
-		footerKey := e.props.FooterKey()
-		enc := e.getMetaAesEncryptor(alg)
-		e.footerSigningEncryptor = &encryptor{
-			aesEncryptor: enc,
-			key:          []byte(footerKey),
-			fileAad:      e.props.FileAad(),
-			aad:          footerAad,
-			mem:          e.mem,
-		}
-	}
-	return e.footerSigningEncryptor
-}
-
-func (e *fileEncryptor) getMetaAesEncryptor(alg parquet.Cipher) *aesEncryptor {
-	if e.metaEncryptor == nil {
-		e.metaEncryptor = NewAesEncryptor(alg, true)
-	}
-	return e.metaEncryptor
-}
-
-func (e *fileEncryptor) getDataAesEncryptor(alg parquet.Cipher) *aesEncryptor {
-	if e.dataEncryptor == nil {
-		e.dataEncryptor = NewAesEncryptor(alg, false)
-	}
-	return e.dataEncryptor
-}
-
-func (e *fileEncryptor) GetColumnMetaEncryptor(columnPath string) Encryptor {
-	return e.getColumnEncryptor(columnPath, true)
-}
-
-func (e *fileEncryptor) GetColumnDataEncryptor(columnPath string) Encryptor {
-	return e.getColumnEncryptor(columnPath, false)
-}
-
-func (e *fileEncryptor) getColumnEncryptor(columnPath string, metadata bool) Encryptor {
-	if metadata {
-		if enc, ok := e.columnMetaDataMap[columnPath]; ok {
-			return enc
-		}
-	} else {
-		if enc, ok := e.columnDataMap[columnPath]; ok {
-			return enc
-		}
-	}
-
-	columnProp := e.props.ColumnEncryptionProperties(columnPath)
-	if columnProp == nil {
-		return nil
-	}
-
-	var key string
-	if columnProp.IsEncryptedWithFooterKey() {
-		key = e.props.FooterKey()
-	} else {
-		key = columnProp.Key()
-	}
-
-	alg := e.props.Algorithm().Algo
-	var enc *aesEncryptor
-	if metadata {
-		enc = e.getMetaAesEncryptor(alg)
-	} else {
-		enc = e.getDataAesEncryptor(alg)
-	}
-
-	fileAad := e.props.FileAad()
-	ret := &encryptor{
-		aesEncryptor: enc,
-		key:          []byte(key),
-		fileAad:      fileAad,
-		aad:          "",
-		mem:          e.mem,
-	}
-	if metadata {
-		e.columnMetaDataMap[columnPath] = ret
-	} else {
-		e.columnDataMap[columnPath] = ret
-	}
-	return ret
-}
-
-// Encryptor is the basic interface for encryptors, for now there's only the single
-// aes encryptor implementation, but having it as an interface allows easy addition
-// manipulation of encryptor implementations in the future.
-type Encryptor interface {
-	// FileAad returns the file level AAD bytes for this encryptor
-	FileAad() string
-	// UpdateAad sets the aad bytes for encryption to the provided string
-	UpdateAad(string)
-	// Allocator returns the allocator that was used to construct the encryptor
-	Allocator() memory.Allocator
-	// CiphertextSizeDelta returns the extra bytes that will be added to the ciphertext
-	// for a total size of len(plaintext) + CiphertextSizeDelta bytes
-	CiphertextSizeDelta() int
-	// Encrypt writes the encrypted ciphertext for src to w and returns the total
-	// number of bytes written.
-	Encrypt(w io.Writer, src []byte) int
-	// EncryptColumnMetaData returns true if the column metadata should be encrypted based on the
-	// column encryption settings and footer encryption setting.
-	EncryptColumnMetaData(encryptFooter bool, properties *parquet.ColumnEncryptionProperties) bool
-}
-
-type encryptor struct {
-	aesEncryptor *aesEncryptor
-	key          []byte
-	fileAad      string
-	aad          string
-	mem          memory.Allocator
-}
-
-func (e *encryptor) FileAad() string             { return e.fileAad }
-func (e *encryptor) UpdateAad(aad string)        { e.aad = aad }
-func (e *encryptor) Allocator() memory.Allocator { return e.mem }
-func (e *encryptor) CiphertextSizeDelta() int    { return e.aesEncryptor.CiphertextSizeDelta() }
-
-func (e *encryptor) EncryptColumnMetaData(encryptFooter bool, properties *parquet.ColumnEncryptionProperties) bool {
-	if properties == nil || !properties.IsEncrypted() {
-		return false
-	}
-	if !encryptFooter {
-		return false
-	}
-	// if not encrypted with footer key then encrypt the metadata
-	return !properties.IsEncryptedWithFooterKey()
-}
-
-func (e *encryptor) Encrypt(w io.Writer, src []byte) int {
-	return e.aesEncryptor.Encrypt(w, src, e.key, []byte(e.aad))
-}
diff --git a/go/parquet/internal/encryption/key_handling.go b/go/parquet/internal/encryption/key_handling.go
deleted file mode 100644
index 87a9ed761fe9e..0000000000000
--- a/go/parquet/internal/encryption/key_handling.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"encoding/binary"
-	"fmt"
-	"unsafe"
-)
-
-// StringKeyIDRetriever implements the KeyRetriever interface GetKey
-// to allow setting in keys with a string id.
-type StringKeyIDRetriever map[string]string
-
-// PutKey adds a key with the given string ID that can be retrieved
-func (s StringKeyIDRetriever) PutKey(keyID, key string) {
-	s[keyID] = key
-}
-
-// GetKey expects the keymetadata to match one of the keys that were added
-// with PutKey and panics if the key cannot be found.
-func (s StringKeyIDRetriever) GetKey(keyMetadata []byte) string {
-	k, ok := s[*(*string)(unsafe.Pointer(&keyMetadata))]
-	if !ok {
-		panic(fmt.Errorf("parquet: key missing for id %s", keyMetadata))
-	}
-	return k
-}
-
-// IntegerKeyIDRetriever is used for using unsigned 32bit integers as key ids.
-type IntegerKeyIDRetriever map[uint32]string
-
-// PutKey adds keys with uint32 IDs
-func (i IntegerKeyIDRetriever) PutKey(keyID uint32, key string) {
-	i[keyID] = key
-}
-
-// GetKey expects the key metadata bytes to be a little endian uint32 which
-// is then used to retrieve the key bytes. Panics if the key id cannot be found.
-func (i IntegerKeyIDRetriever) GetKey(keyMetadata []byte) string {
-	keyID := binary.LittleEndian.Uint32(keyMetadata)
-	k, ok := i[keyID]
-	if !ok {
-		panic(fmt.Errorf("parquet: key missing for id %d", keyID))
-	}
-	return k
-}
diff --git a/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go b/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
deleted file mode 100644
index c2a8e5415ed64..0000000000000
--- a/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
+++ /dev/null
@@ -1,5 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-var GoUnusedProtection__ int
diff --git a/go/parquet/internal/gen-go/parquet/parquet-consts.go b/go/parquet/internal/gen-go/parquet/parquet-consts.go
deleted file mode 100644
index f83e0be7640ff..0000000000000
--- a/go/parquet/internal/gen-go/parquet/parquet-consts.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-import (
-	"bytes"
-	"context"
-	"errors"
-	"fmt"
-	"regexp"
-	"strings"
-	"time"
-
-	thrift "github.com/apache/thrift/lib/go/thrift"
-)
-
-// (needed to ensure safety because of naive import list construction.)
-var _ = thrift.ZERO
-var _ = fmt.Printf
-var _ = errors.New
-var _ = context.Background
-var _ = time.Now
-var _ = bytes.Equal
-
-// (needed by validator.)
-var _ = strings.Contains
-var _ = regexp.MatchString
-
-func init() {
-}
diff --git a/go/parquet/internal/gen-go/parquet/parquet.go b/go/parquet/internal/gen-go/parquet/parquet.go
deleted file mode 100644
index 5b616d1335150..0000000000000
--- a/go/parquet/internal/gen-go/parquet/parquet.go
+++ /dev/null
@@ -1,12796 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-import (
-	"bytes"
-	"context"
-	"database/sql/driver"
-	"errors"
-	"fmt"
-	"regexp"
-	"strings"
-	"time"
-
-	thrift "github.com/apache/thrift/lib/go/thrift"
-)
-
-// (needed to ensure safety because of naive import list construction.)
-var _ = thrift.ZERO
-var _ = fmt.Printf
-var _ = errors.New
-var _ = context.Background
-var _ = time.Now
-var _ = bytes.Equal
-
-// (needed by validator.)
-var _ = strings.Contains
-var _ = regexp.MatchString
-
-// Types supported by Parquet.  These types are intended to be used in combination
-// with the encodings to control the on disk storage format.
-// For example INT16 is not included as a type since a good encoding of INT32
-// would handle this.
-type Type int64
-
-const (
-	Type_BOOLEAN              Type = 0
-	Type_INT32                Type = 1
-	Type_INT64                Type = 2
-	Type_INT96                Type = 3
-	Type_FLOAT                Type = 4
-	Type_DOUBLE               Type = 5
-	Type_BYTE_ARRAY           Type = 6
-	Type_FIXED_LEN_BYTE_ARRAY Type = 7
-)
-
-func (p Type) String() string {
-	switch p {
-	case Type_BOOLEAN:
-		return "BOOLEAN"
-	case Type_INT32:
-		return "INT32"
-	case Type_INT64:
-		return "INT64"
-	case Type_INT96:
-		return "INT96"
-	case Type_FLOAT:
-		return "FLOAT"
-	case Type_DOUBLE:
-		return "DOUBLE"
-	case Type_BYTE_ARRAY:
-		return "BYTE_ARRAY"
-	case Type_FIXED_LEN_BYTE_ARRAY:
-		return "FIXED_LEN_BYTE_ARRAY"
-	}
-	return "<UNSET>"
-}
-
-func TypeFromString(s string) (Type, error) {
-	switch s {
-	case "BOOLEAN":
-		return Type_BOOLEAN, nil
-	case "INT32":
-		return Type_INT32, nil
-	case "INT64":
-		return Type_INT64, nil
-	case "INT96":
-		return Type_INT96, nil
-	case "FLOAT":
-		return Type_FLOAT, nil
-	case "DOUBLE":
-		return Type_DOUBLE, nil
-	case "BYTE_ARRAY":
-		return Type_BYTE_ARRAY, nil
-	case "FIXED_LEN_BYTE_ARRAY":
-		return Type_FIXED_LEN_BYTE_ARRAY, nil
-	}
-	return Type(0), fmt.Errorf("not a valid Type string")
-}
-
-func TypePtr(v Type) *Type { return &v }
-
-func (p Type) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *Type) UnmarshalText(text []byte) error {
-	q, err := TypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *Type) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = Type(v)
-	return nil
-}
-
-func (p *Type) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// DEPRECATED: Common types used by frameworks(e.g. hive, pig) using parquet.
-// ConvertedType is superseded by LogicalType.  This enum should not be extended.
-//
-// See LogicalTypes.md for conversion between ConvertedType and LogicalType.
-type ConvertedType int64
-
-const (
-	ConvertedType_UTF8             ConvertedType = 0
-	ConvertedType_MAP              ConvertedType = 1
-	ConvertedType_MAP_KEY_VALUE    ConvertedType = 2
-	ConvertedType_LIST             ConvertedType = 3
-	ConvertedType_ENUM             ConvertedType = 4
-	ConvertedType_DECIMAL          ConvertedType = 5
-	ConvertedType_DATE             ConvertedType = 6
-	ConvertedType_TIME_MILLIS      ConvertedType = 7
-	ConvertedType_TIME_MICROS      ConvertedType = 8
-	ConvertedType_TIMESTAMP_MILLIS ConvertedType = 9
-	ConvertedType_TIMESTAMP_MICROS ConvertedType = 10
-	ConvertedType_UINT_8           ConvertedType = 11
-	ConvertedType_UINT_16          ConvertedType = 12
-	ConvertedType_UINT_32          ConvertedType = 13
-	ConvertedType_UINT_64          ConvertedType = 14
-	ConvertedType_INT_8            ConvertedType = 15
-	ConvertedType_INT_16           ConvertedType = 16
-	ConvertedType_INT_32           ConvertedType = 17
-	ConvertedType_INT_64           ConvertedType = 18
-	ConvertedType_JSON             ConvertedType = 19
-	ConvertedType_BSON             ConvertedType = 20
-	ConvertedType_INTERVAL         ConvertedType = 21
-)
-
-func (p ConvertedType) String() string {
-	switch p {
-	case ConvertedType_UTF8:
-		return "UTF8"
-	case ConvertedType_MAP:
-		return "MAP"
-	case ConvertedType_MAP_KEY_VALUE:
-		return "MAP_KEY_VALUE"
-	case ConvertedType_LIST:
-		return "LIST"
-	case ConvertedType_ENUM:
-		return "ENUM"
-	case ConvertedType_DECIMAL:
-		return "DECIMAL"
-	case ConvertedType_DATE:
-		return "DATE"
-	case ConvertedType_TIME_MILLIS:
-		return "TIME_MILLIS"
-	case ConvertedType_TIME_MICROS:
-		return "TIME_MICROS"
-	case ConvertedType_TIMESTAMP_MILLIS:
-		return "TIMESTAMP_MILLIS"
-	case ConvertedType_TIMESTAMP_MICROS:
-		return "TIMESTAMP_MICROS"
-	case ConvertedType_UINT_8:
-		return "UINT_8"
-	case ConvertedType_UINT_16:
-		return "UINT_16"
-	case ConvertedType_UINT_32:
-		return "UINT_32"
-	case ConvertedType_UINT_64:
-		return "UINT_64"
-	case ConvertedType_INT_8:
-		return "INT_8"
-	case ConvertedType_INT_16:
-		return "INT_16"
-	case ConvertedType_INT_32:
-		return "INT_32"
-	case ConvertedType_INT_64:
-		return "INT_64"
-	case ConvertedType_JSON:
-		return "JSON"
-	case ConvertedType_BSON:
-		return "BSON"
-	case ConvertedType_INTERVAL:
-		return "INTERVAL"
-	}
-	return "<UNSET>"
-}
-
-func ConvertedTypeFromString(s string) (ConvertedType, error) {
-	switch s {
-	case "UTF8":
-		return ConvertedType_UTF8, nil
-	case "MAP":
-		return ConvertedType_MAP, nil
-	case "MAP_KEY_VALUE":
-		return ConvertedType_MAP_KEY_VALUE, nil
-	case "LIST":
-		return ConvertedType_LIST, nil
-	case "ENUM":
-		return ConvertedType_ENUM, nil
-	case "DECIMAL":
-		return ConvertedType_DECIMAL, nil
-	case "DATE":
-		return ConvertedType_DATE, nil
-	case "TIME_MILLIS":
-		return ConvertedType_TIME_MILLIS, nil
-	case "TIME_MICROS":
-		return ConvertedType_TIME_MICROS, nil
-	case "TIMESTAMP_MILLIS":
-		return ConvertedType_TIMESTAMP_MILLIS, nil
-	case "TIMESTAMP_MICROS":
-		return ConvertedType_TIMESTAMP_MICROS, nil
-	case "UINT_8":
-		return ConvertedType_UINT_8, nil
-	case "UINT_16":
-		return ConvertedType_UINT_16, nil
-	case "UINT_32":
-		return ConvertedType_UINT_32, nil
-	case "UINT_64":
-		return ConvertedType_UINT_64, nil
-	case "INT_8":
-		return ConvertedType_INT_8, nil
-	case "INT_16":
-		return ConvertedType_INT_16, nil
-	case "INT_32":
-		return ConvertedType_INT_32, nil
-	case "INT_64":
-		return ConvertedType_INT_64, nil
-	case "JSON":
-		return ConvertedType_JSON, nil
-	case "BSON":
-		return ConvertedType_BSON, nil
-	case "INTERVAL":
-		return ConvertedType_INTERVAL, nil
-	}
-	return ConvertedType(0), fmt.Errorf("not a valid ConvertedType string")
-}
-
-func ConvertedTypePtr(v ConvertedType) *ConvertedType { return &v }
-
-func (p ConvertedType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *ConvertedType) UnmarshalText(text []byte) error {
-	q, err := ConvertedTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *ConvertedType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = ConvertedType(v)
-	return nil
-}
-
-func (p *ConvertedType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Representation of Schemas
-type FieldRepetitionType int64
-
-const (
-	FieldRepetitionType_REQUIRED FieldRepetitionType = 0
-	FieldRepetitionType_OPTIONAL FieldRepetitionType = 1
-	FieldRepetitionType_REPEATED FieldRepetitionType = 2
-)
-
-func (p FieldRepetitionType) String() string {
-	switch p {
-	case FieldRepetitionType_REQUIRED:
-		return "REQUIRED"
-	case FieldRepetitionType_OPTIONAL:
-		return "OPTIONAL"
-	case FieldRepetitionType_REPEATED:
-		return "REPEATED"
-	}
-	return "<UNSET>"
-}
-
-func FieldRepetitionTypeFromString(s string) (FieldRepetitionType, error) {
-	switch s {
-	case "REQUIRED":
-		return FieldRepetitionType_REQUIRED, nil
-	case "OPTIONAL":
-		return FieldRepetitionType_OPTIONAL, nil
-	case "REPEATED":
-		return FieldRepetitionType_REPEATED, nil
-	}
-	return FieldRepetitionType(0), fmt.Errorf("not a valid FieldRepetitionType string")
-}
-
-func FieldRepetitionTypePtr(v FieldRepetitionType) *FieldRepetitionType { return &v }
-
-func (p FieldRepetitionType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *FieldRepetitionType) UnmarshalText(text []byte) error {
-	q, err := FieldRepetitionTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *FieldRepetitionType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = FieldRepetitionType(v)
-	return nil
-}
-
-func (p *FieldRepetitionType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Encodings supported by Parquet.  Not all encodings are valid for all types.  These
-// enums are also used to specify the encoding of definition and repetition levels.
-// See the accompanying doc for the details of the more complicated encodings.
-type Encoding int64
-
-const (
-	Encoding_PLAIN                   Encoding = 0
-	Encoding_PLAIN_DICTIONARY        Encoding = 2
-	Encoding_RLE                     Encoding = 3
-	Encoding_BIT_PACKED              Encoding = 4
-	Encoding_DELTA_BINARY_PACKED     Encoding = 5
-	Encoding_DELTA_LENGTH_BYTE_ARRAY Encoding = 6
-	Encoding_DELTA_BYTE_ARRAY        Encoding = 7
-	Encoding_RLE_DICTIONARY          Encoding = 8
-	Encoding_BYTE_STREAM_SPLIT       Encoding = 9
-)
-
-func (p Encoding) String() string {
-	switch p {
-	case Encoding_PLAIN:
-		return "PLAIN"
-	case Encoding_PLAIN_DICTIONARY:
-		return "PLAIN_DICTIONARY"
-	case Encoding_RLE:
-		return "RLE"
-	case Encoding_BIT_PACKED:
-		return "BIT_PACKED"
-	case Encoding_DELTA_BINARY_PACKED:
-		return "DELTA_BINARY_PACKED"
-	case Encoding_DELTA_LENGTH_BYTE_ARRAY:
-		return "DELTA_LENGTH_BYTE_ARRAY"
-	case Encoding_DELTA_BYTE_ARRAY:
-		return "DELTA_BYTE_ARRAY"
-	case Encoding_RLE_DICTIONARY:
-		return "RLE_DICTIONARY"
-	case Encoding_BYTE_STREAM_SPLIT:
-		return "BYTE_STREAM_SPLIT"
-	}
-	return "<UNSET>"
-}
-
-func EncodingFromString(s string) (Encoding, error) {
-	switch s {
-	case "PLAIN":
-		return Encoding_PLAIN, nil
-	case "PLAIN_DICTIONARY":
-		return Encoding_PLAIN_DICTIONARY, nil
-	case "RLE":
-		return Encoding_RLE, nil
-	case "BIT_PACKED":
-		return Encoding_BIT_PACKED, nil
-	case "DELTA_BINARY_PACKED":
-		return Encoding_DELTA_BINARY_PACKED, nil
-	case "DELTA_LENGTH_BYTE_ARRAY":
-		return Encoding_DELTA_LENGTH_BYTE_ARRAY, nil
-	case "DELTA_BYTE_ARRAY":
-		return Encoding_DELTA_BYTE_ARRAY, nil
-	case "RLE_DICTIONARY":
-		return Encoding_RLE_DICTIONARY, nil
-	case "BYTE_STREAM_SPLIT":
-		return Encoding_BYTE_STREAM_SPLIT, nil
-	}
-	return Encoding(0), fmt.Errorf("not a valid Encoding string")
-}
-
-func EncodingPtr(v Encoding) *Encoding { return &v }
-
-func (p Encoding) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *Encoding) UnmarshalText(text []byte) error {
-	q, err := EncodingFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *Encoding) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = Encoding(v)
-	return nil
-}
-
-func (p *Encoding) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Supported compression algorithms.
-//
-// Codecs added in format version X.Y can be read by readers based on X.Y and later.
-// Codec support may vary between readers based on the format version and
-// libraries available at runtime.
-//
-// See Compression.md for a detailed specification of these algorithms.
-type CompressionCodec int64
-
-const (
-	CompressionCodec_UNCOMPRESSED CompressionCodec = 0
-	CompressionCodec_SNAPPY       CompressionCodec = 1
-	CompressionCodec_GZIP         CompressionCodec = 2
-	CompressionCodec_LZO          CompressionCodec = 3
-	CompressionCodec_BROTLI       CompressionCodec = 4
-	CompressionCodec_LZ4          CompressionCodec = 5
-	CompressionCodec_ZSTD         CompressionCodec = 6
-	CompressionCodec_LZ4_RAW      CompressionCodec = 7
-)
-
-func (p CompressionCodec) String() string {
-	switch p {
-	case CompressionCodec_UNCOMPRESSED:
-		return "UNCOMPRESSED"
-	case CompressionCodec_SNAPPY:
-		return "SNAPPY"
-	case CompressionCodec_GZIP:
-		return "GZIP"
-	case CompressionCodec_LZO:
-		return "LZO"
-	case CompressionCodec_BROTLI:
-		return "BROTLI"
-	case CompressionCodec_LZ4:
-		return "LZ4"
-	case CompressionCodec_ZSTD:
-		return "ZSTD"
-	case CompressionCodec_LZ4_RAW:
-		return "LZ4_RAW"
-	}
-	return "<UNSET>"
-}
-
-func CompressionCodecFromString(s string) (CompressionCodec, error) {
-	switch s {
-	case "UNCOMPRESSED":
-		return CompressionCodec_UNCOMPRESSED, nil
-	case "SNAPPY":
-		return CompressionCodec_SNAPPY, nil
-	case "GZIP":
-		return CompressionCodec_GZIP, nil
-	case "LZO":
-		return CompressionCodec_LZO, nil
-	case "BROTLI":
-		return CompressionCodec_BROTLI, nil
-	case "LZ4":
-		return CompressionCodec_LZ4, nil
-	case "ZSTD":
-		return CompressionCodec_ZSTD, nil
-	case "LZ4_RAW":
-		return CompressionCodec_LZ4_RAW, nil
-	}
-	return CompressionCodec(0), fmt.Errorf("not a valid CompressionCodec string")
-}
-
-func CompressionCodecPtr(v CompressionCodec) *CompressionCodec { return &v }
-
-func (p CompressionCodec) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *CompressionCodec) UnmarshalText(text []byte) error {
-	q, err := CompressionCodecFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *CompressionCodec) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = CompressionCodec(v)
-	return nil
-}
-
-func (p *CompressionCodec) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-type PageType int64
-
-const (
-	PageType_DATA_PAGE       PageType = 0
-	PageType_INDEX_PAGE      PageType = 1
-	PageType_DICTIONARY_PAGE PageType = 2
-	PageType_DATA_PAGE_V2    PageType = 3
-)
-
-func (p PageType) String() string {
-	switch p {
-	case PageType_DATA_PAGE:
-		return "DATA_PAGE"
-	case PageType_INDEX_PAGE:
-		return "INDEX_PAGE"
-	case PageType_DICTIONARY_PAGE:
-		return "DICTIONARY_PAGE"
-	case PageType_DATA_PAGE_V2:
-		return "DATA_PAGE_V2"
-	}
-	return "<UNSET>"
-}
-
-func PageTypeFromString(s string) (PageType, error) {
-	switch s {
-	case "DATA_PAGE":
-		return PageType_DATA_PAGE, nil
-	case "INDEX_PAGE":
-		return PageType_INDEX_PAGE, nil
-	case "DICTIONARY_PAGE":
-		return PageType_DICTIONARY_PAGE, nil
-	case "DATA_PAGE_V2":
-		return PageType_DATA_PAGE_V2, nil
-	}
-	return PageType(0), fmt.Errorf("not a valid PageType string")
-}
-
-func PageTypePtr(v PageType) *PageType { return &v }
-
-func (p PageType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *PageType) UnmarshalText(text []byte) error {
-	q, err := PageTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *PageType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = PageType(v)
-	return nil
-}
-
-func (p *PageType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Enum to annotate whether lists of min/max elements inside ColumnIndex
-// are ordered and if so, in which direction.
-type BoundaryOrder int64
-
-const (
-	BoundaryOrder_UNORDERED  BoundaryOrder = 0
-	BoundaryOrder_ASCENDING  BoundaryOrder = 1
-	BoundaryOrder_DESCENDING BoundaryOrder = 2
-)
-
-func (p BoundaryOrder) String() string {
-	switch p {
-	case BoundaryOrder_UNORDERED:
-		return "UNORDERED"
-	case BoundaryOrder_ASCENDING:
-		return "ASCENDING"
-	case BoundaryOrder_DESCENDING:
-		return "DESCENDING"
-	}
-	return "<UNSET>"
-}
-
-func BoundaryOrderFromString(s string) (BoundaryOrder, error) {
-	switch s {
-	case "UNORDERED":
-		return BoundaryOrder_UNORDERED, nil
-	case "ASCENDING":
-		return BoundaryOrder_ASCENDING, nil
-	case "DESCENDING":
-		return BoundaryOrder_DESCENDING, nil
-	}
-	return BoundaryOrder(0), fmt.Errorf("not a valid BoundaryOrder string")
-}
-
-func BoundaryOrderPtr(v BoundaryOrder) *BoundaryOrder { return &v }
-
-func (p BoundaryOrder) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *BoundaryOrder) UnmarshalText(text []byte) error {
-	q, err := BoundaryOrderFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *BoundaryOrder) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = BoundaryOrder(v)
-	return nil
-}
-
-func (p *BoundaryOrder) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Statistics per row group and per page
-// All fields are optional.
-//
-// Attributes:
-//   - Max: DEPRECATED: min and max value of the column. Use min_value and max_value.
-//
-// Values are encoded using PLAIN encoding, except that variable-length byte
-// arrays do not include a length prefix.
-//
-// These fields encode min and max values determined by signed comparison
-// only. New files should use the correct order for a column's logical type
-// and store the values in the min_value and max_value fields.
-//
-// To support older readers, these may be set when the column order is
-// signed.
-//   - Min
-//   - NullCount: count of null value in the column
-//   - DistinctCount: count of distinct values occurring
-//   - MaxValue: Min and max values for the column, determined by its ColumnOrder.
-//
-// Values are encoded using PLAIN encoding, except that variable-length byte
-// arrays do not include a length prefix.
-//   - MinValue
-type Statistics struct {
-	Max           []byte `thrift:"max,1" db:"max" json:"max,omitempty"`
-	Min           []byte `thrift:"min,2" db:"min" json:"min,omitempty"`
-	NullCount     *int64 `thrift:"null_count,3" db:"null_count" json:"null_count,omitempty"`
-	DistinctCount *int64 `thrift:"distinct_count,4" db:"distinct_count" json:"distinct_count,omitempty"`
-	MaxValue      []byte `thrift:"max_value,5" db:"max_value" json:"max_value,omitempty"`
-	MinValue      []byte `thrift:"min_value,6" db:"min_value" json:"min_value,omitempty"`
-}
-
-func NewStatistics() *Statistics {
-	return &Statistics{}
-}
-
-var Statistics_Max_DEFAULT []byte
-
-func (p *Statistics) GetMax() []byte {
-	return p.Max
-}
-
-var Statistics_Min_DEFAULT []byte
-
-func (p *Statistics) GetMin() []byte {
-	return p.Min
-}
-
-var Statistics_NullCount_DEFAULT int64
-
-func (p *Statistics) GetNullCount() int64 {
-	if !p.IsSetNullCount() {
-		return Statistics_NullCount_DEFAULT
-	}
-	return *p.NullCount
-}
-
-var Statistics_DistinctCount_DEFAULT int64
-
-func (p *Statistics) GetDistinctCount() int64 {
-	if !p.IsSetDistinctCount() {
-		return Statistics_DistinctCount_DEFAULT
-	}
-	return *p.DistinctCount
-}
-
-var Statistics_MaxValue_DEFAULT []byte
-
-func (p *Statistics) GetMaxValue() []byte {
-	return p.MaxValue
-}
-
-var Statistics_MinValue_DEFAULT []byte
-
-func (p *Statistics) GetMinValue() []byte {
-	return p.MinValue
-}
-func (p *Statistics) IsSetMax() bool {
-	return p.Max != nil
-}
-
-func (p *Statistics) IsSetMin() bool {
-	return p.Min != nil
-}
-
-func (p *Statistics) IsSetNullCount() bool {
-	return p.NullCount != nil
-}
-
-func (p *Statistics) IsSetDistinctCount() bool {
-	return p.DistinctCount != nil
-}
-
-func (p *Statistics) IsSetMaxValue() bool {
-	return p.MaxValue != nil
-}
-
-func (p *Statistics) IsSetMinValue() bool {
-	return p.MinValue != nil
-}
-
-func (p *Statistics) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Max = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Min = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NullCount = &v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.DistinctCount = &v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.MaxValue = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.MinValue = v
-	}
-	return nil
-}
-
-func (p *Statistics) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Statistics"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Statistics) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMax() {
-		if err := oprot.WriteFieldBegin(ctx, "max", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:max: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.Max); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.max (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:max: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMin() {
-		if err := oprot.WriteFieldBegin(ctx, "min", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:min: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.Min); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.min (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:min: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNullCount() {
-		if err := oprot.WriteFieldBegin(ctx, "null_count", thrift.I64, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:null_count: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.NullCount)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.null_count (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:null_count: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDistinctCount() {
-		if err := oprot.WriteFieldBegin(ctx, "distinct_count", thrift.I64, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:distinct_count: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.DistinctCount)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.distinct_count (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:distinct_count: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMaxValue() {
-		if err := oprot.WriteFieldBegin(ctx, "max_value", thrift.STRING, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:max_value: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.MaxValue); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.max_value (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:max_value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMinValue() {
-		if err := oprot.WriteFieldBegin(ctx, "min_value", thrift.STRING, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:min_value: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.MinValue); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.min_value (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:min_value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) Equals(other *Statistics) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.Max, other.Max) != 0 {
-		return false
-	}
-	if bytes.Compare(p.Min, other.Min) != 0 {
-		return false
-	}
-	if p.NullCount != other.NullCount {
-		if p.NullCount == nil || other.NullCount == nil {
-			return false
-		}
-		if (*p.NullCount) != (*other.NullCount) {
-			return false
-		}
-	}
-	if p.DistinctCount != other.DistinctCount {
-		if p.DistinctCount == nil || other.DistinctCount == nil {
-			return false
-		}
-		if (*p.DistinctCount) != (*other.DistinctCount) {
-			return false
-		}
-	}
-	if bytes.Compare(p.MaxValue, other.MaxValue) != 0 {
-		return false
-	}
-	if bytes.Compare(p.MinValue, other.MinValue) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *Statistics) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Statistics(%+v)", *p)
-}
-
-func (p *Statistics) Validate() error {
-	return nil
-}
-
-// Empty structs to use as logical type annotations
-type StringType struct {
-}
-
-func NewStringType() *StringType {
-	return &StringType{}
-}
-
-func (p *StringType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *StringType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "StringType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *StringType) Equals(other *StringType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *StringType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("StringType(%+v)", *p)
-}
-
-func (p *StringType) Validate() error {
-	return nil
-}
-
-type UUIDType struct {
-}
-
-func NewUUIDType() *UUIDType {
-	return &UUIDType{}
-}
-
-func (p *UUIDType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *UUIDType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "UUIDType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *UUIDType) Equals(other *UUIDType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *UUIDType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("UUIDType(%+v)", *p)
-}
-
-func (p *UUIDType) Validate() error {
-	return nil
-}
-
-type MapType struct {
-}
-
-func NewMapType() *MapType {
-	return &MapType{}
-}
-
-func (p *MapType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MapType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MapType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MapType) Equals(other *MapType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MapType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MapType(%+v)", *p)
-}
-
-func (p *MapType) Validate() error {
-	return nil
-}
-
-type ListType struct {
-}
-
-func NewListType() *ListType {
-	return &ListType{}
-}
-
-func (p *ListType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ListType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ListType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ListType) Equals(other *ListType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *ListType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ListType(%+v)", *p)
-}
-
-func (p *ListType) Validate() error {
-	return nil
-}
-
-type EnumType struct {
-}
-
-func NewEnumType() *EnumType {
-	return &EnumType{}
-}
-
-func (p *EnumType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EnumType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EnumType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EnumType) Equals(other *EnumType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *EnumType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EnumType(%+v)", *p)
-}
-
-func (p *EnumType) Validate() error {
-	return nil
-}
-
-type DateType struct {
-}
-
-func NewDateType() *DateType {
-	return &DateType{}
-}
-
-func (p *DateType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *DateType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DateType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DateType) Equals(other *DateType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *DateType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DateType(%+v)", *p)
-}
-
-func (p *DateType) Validate() error {
-	return nil
-}
-
-type Float16Type struct {
-}
-
-func NewFloat16Type() *Float16Type {
-	return &Float16Type{}
-}
-
-func (p *Float16Type) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Float16Type) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Float16Type"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Float16Type) Equals(other *Float16Type) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *Float16Type) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Float16Type(%+v)", *p)
-}
-
-func (p *Float16Type) Validate() error {
-	return nil
-}
-
-// Logical type to annotate a column that is always null.
-//
-// Sometimes when discovering the schema of existing data, values are always
-// null and the physical type can't be determined. This annotation signals
-// the case where the physical type was guessed from all null values.
-type NullType struct {
-}
-
-func NewNullType() *NullType {
-	return &NullType{}
-}
-
-func (p *NullType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *NullType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "NullType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *NullType) Equals(other *NullType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *NullType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("NullType(%+v)", *p)
-}
-
-func (p *NullType) Validate() error {
-	return nil
-}
-
-// Decimal logical type annotation
-//
-// To maintain forward-compatibility in v1, implementations using this logical
-// type must also set scale and precision on the annotated SchemaElement.
-//
-// Allowed for physical types: INT32, INT64, FIXED, and BINARY
-//
-// Attributes:
-//   - Scale
-//   - Precision
-type DecimalType struct {
-	Scale     int32 `thrift:"scale,1,required" db:"scale" json:"scale"`
-	Precision int32 `thrift:"precision,2,required" db:"precision" json:"precision"`
-}
-
-func NewDecimalType() *DecimalType {
-	return &DecimalType{}
-}
-
-func (p *DecimalType) GetScale() int32 {
-	return p.Scale
-}
-
-func (p *DecimalType) GetPrecision() int32 {
-	return p.Precision
-}
-func (p *DecimalType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetScale bool = false
-	var issetPrecision bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetScale = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetPrecision = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetScale {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Scale is not set"))
-	}
-	if !issetPrecision {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Precision is not set"))
-	}
-	return nil
-}
-
-func (p *DecimalType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Scale = v
-	}
-	return nil
-}
-
-func (p *DecimalType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Precision = v
-	}
-	return nil
-}
-
-func (p *DecimalType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DecimalType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DecimalType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "scale", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:scale: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Scale)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.scale (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:scale: ", p), err)
-	}
-	return err
-}
-
-func (p *DecimalType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "precision", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:precision: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Precision)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.precision (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:precision: ", p), err)
-	}
-	return err
-}
-
-func (p *DecimalType) Equals(other *DecimalType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Scale != other.Scale {
-		return false
-	}
-	if p.Precision != other.Precision {
-		return false
-	}
-	return true
-}
-
-func (p *DecimalType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DecimalType(%+v)", *p)
-}
-
-func (p *DecimalType) Validate() error {
-	return nil
-}
-
-// Time units for logical types
-type MilliSeconds struct {
-}
-
-func NewMilliSeconds() *MilliSeconds {
-	return &MilliSeconds{}
-}
-
-func (p *MilliSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MilliSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MilliSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MilliSeconds) Equals(other *MilliSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MilliSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MilliSeconds(%+v)", *p)
-}
-
-func (p *MilliSeconds) Validate() error {
-	return nil
-}
-
-type MicroSeconds struct {
-}
-
-func NewMicroSeconds() *MicroSeconds {
-	return &MicroSeconds{}
-}
-
-func (p *MicroSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MicroSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MicroSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MicroSeconds) Equals(other *MicroSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MicroSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MicroSeconds(%+v)", *p)
-}
-
-func (p *MicroSeconds) Validate() error {
-	return nil
-}
-
-type NanoSeconds struct {
-}
-
-func NewNanoSeconds() *NanoSeconds {
-	return &NanoSeconds{}
-}
-
-func (p *NanoSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *NanoSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "NanoSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *NanoSeconds) Equals(other *NanoSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *NanoSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("NanoSeconds(%+v)", *p)
-}
-
-func (p *NanoSeconds) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - MILLIS
-//   - MICROS
-//   - NANOS
-type TimeUnit struct {
-	MILLIS *MilliSeconds `thrift:"MILLIS,1" db:"MILLIS" json:"MILLIS,omitempty"`
-	MICROS *MicroSeconds `thrift:"MICROS,2" db:"MICROS" json:"MICROS,omitempty"`
-	NANOS  *NanoSeconds  `thrift:"NANOS,3" db:"NANOS" json:"NANOS,omitempty"`
-}
-
-func NewTimeUnit() *TimeUnit {
-	return &TimeUnit{}
-}
-
-var TimeUnit_MILLIS_DEFAULT *MilliSeconds
-
-func (p *TimeUnit) GetMILLIS() *MilliSeconds {
-	if !p.IsSetMILLIS() {
-		return TimeUnit_MILLIS_DEFAULT
-	}
-	return p.MILLIS
-}
-
-var TimeUnit_MICROS_DEFAULT *MicroSeconds
-
-func (p *TimeUnit) GetMICROS() *MicroSeconds {
-	if !p.IsSetMICROS() {
-		return TimeUnit_MICROS_DEFAULT
-	}
-	return p.MICROS
-}
-
-var TimeUnit_NANOS_DEFAULT *NanoSeconds
-
-func (p *TimeUnit) GetNANOS() *NanoSeconds {
-	if !p.IsSetNANOS() {
-		return TimeUnit_NANOS_DEFAULT
-	}
-	return p.NANOS
-}
-func (p *TimeUnit) CountSetFieldsTimeUnit() int {
-	count := 0
-	if p.IsSetMILLIS() {
-		count++
-	}
-	if p.IsSetMICROS() {
-		count++
-	}
-	if p.IsSetNANOS() {
-		count++
-	}
-	return count
-
-}
-
-func (p *TimeUnit) IsSetMILLIS() bool {
-	return p.MILLIS != nil
-}
-
-func (p *TimeUnit) IsSetMICROS() bool {
-	return p.MICROS != nil
-}
-
-func (p *TimeUnit) IsSetNANOS() bool {
-	return p.NANOS != nil
-}
-
-func (p *TimeUnit) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MILLIS = &MilliSeconds{}
-	if err := p.MILLIS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MILLIS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MICROS = &MicroSeconds{}
-	if err := p.MICROS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MICROS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.NANOS = &NanoSeconds{}
-	if err := p.NANOS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.NANOS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsTimeUnit(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "TimeUnit"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMILLIS() {
-		if err := oprot.WriteFieldBegin(ctx, "MILLIS", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:MILLIS: ", p), err)
-		}
-		if err := p.MILLIS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MILLIS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:MILLIS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMICROS() {
-		if err := oprot.WriteFieldBegin(ctx, "MICROS", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:MICROS: ", p), err)
-		}
-		if err := p.MICROS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MICROS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:MICROS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNANOS() {
-		if err := oprot.WriteFieldBegin(ctx, "NANOS", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:NANOS: ", p), err)
-		}
-		if err := p.NANOS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.NANOS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:NANOS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) Equals(other *TimeUnit) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.MILLIS.Equals(other.MILLIS) {
-		return false
-	}
-	if !p.MICROS.Equals(other.MICROS) {
-		return false
-	}
-	if !p.NANOS.Equals(other.NANOS) {
-		return false
-	}
-	return true
-}
-
-func (p *TimeUnit) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimeUnit(%+v)", *p)
-}
-
-func (p *TimeUnit) Validate() error {
-	return nil
-}
-
-// Timestamp logical type annotation
-//
-// Allowed for physical types: INT64
-//
-// Attributes:
-//   - IsAdjustedToUTC
-//   - Unit
-type TimestampType struct {
-	IsAdjustedToUTC bool      `thrift:"isAdjustedToUTC,1,required" db:"isAdjustedToUTC" json:"isAdjustedToUTC"`
-	Unit            *TimeUnit `thrift:"unit,2,required" db:"unit" json:"unit"`
-}
-
-func NewTimestampType() *TimestampType {
-	return &TimestampType{}
-}
-
-func (p *TimestampType) GetIsAdjustedToUTC() bool {
-	return p.IsAdjustedToUTC
-}
-
-var TimestampType_Unit_DEFAULT *TimeUnit
-
-func (p *TimestampType) GetUnit() *TimeUnit {
-	if !p.IsSetUnit() {
-		return TimestampType_Unit_DEFAULT
-	}
-	return p.Unit
-}
-func (p *TimestampType) IsSetUnit() bool {
-	return p.Unit != nil
-}
-
-func (p *TimestampType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetIsAdjustedToUTC bool = false
-	var issetUnit bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsAdjustedToUTC = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUnit = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetIsAdjustedToUTC {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsAdjustedToUTC is not set"))
-	}
-	if !issetUnit {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Unit is not set"))
-	}
-	return nil
-}
-
-func (p *TimestampType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.IsAdjustedToUTC = v
-	}
-	return nil
-}
-
-func (p *TimestampType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Unit = &TimeUnit{}
-	if err := p.Unit.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Unit), err)
-	}
-	return nil
-}
-
-func (p *TimestampType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TimestampType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimestampType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isAdjustedToUTC", thrift.BOOL, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:isAdjustedToUTC: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsAdjustedToUTC)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isAdjustedToUTC (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:isAdjustedToUTC: ", p), err)
-	}
-	return err
-}
-
-func (p *TimestampType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "unit", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:unit: ", p), err)
-	}
-	if err := p.Unit.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Unit), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:unit: ", p), err)
-	}
-	return err
-}
-
-func (p *TimestampType) Equals(other *TimestampType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.IsAdjustedToUTC != other.IsAdjustedToUTC {
-		return false
-	}
-	if !p.Unit.Equals(other.Unit) {
-		return false
-	}
-	return true
-}
-
-func (p *TimestampType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimestampType(%+v)", *p)
-}
-
-func (p *TimestampType) Validate() error {
-	return nil
-}
-
-// Time logical type annotation
-//
-// Allowed for physical types: INT32 (millis), INT64 (micros, nanos)
-//
-// Attributes:
-//   - IsAdjustedToUTC
-//   - Unit
-type TimeType struct {
-	IsAdjustedToUTC bool      `thrift:"isAdjustedToUTC,1,required" db:"isAdjustedToUTC" json:"isAdjustedToUTC"`
-	Unit            *TimeUnit `thrift:"unit,2,required" db:"unit" json:"unit"`
-}
-
-func NewTimeType() *TimeType {
-	return &TimeType{}
-}
-
-func (p *TimeType) GetIsAdjustedToUTC() bool {
-	return p.IsAdjustedToUTC
-}
-
-var TimeType_Unit_DEFAULT *TimeUnit
-
-func (p *TimeType) GetUnit() *TimeUnit {
-	if !p.IsSetUnit() {
-		return TimeType_Unit_DEFAULT
-	}
-	return p.Unit
-}
-func (p *TimeType) IsSetUnit() bool {
-	return p.Unit != nil
-}
-
-func (p *TimeType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetIsAdjustedToUTC bool = false
-	var issetUnit bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsAdjustedToUTC = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUnit = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetIsAdjustedToUTC {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsAdjustedToUTC is not set"))
-	}
-	if !issetUnit {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Unit is not set"))
-	}
-	return nil
-}
-
-func (p *TimeType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.IsAdjustedToUTC = v
-	}
-	return nil
-}
-
-func (p *TimeType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Unit = &TimeUnit{}
-	if err := p.Unit.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Unit), err)
-	}
-	return nil
-}
-
-func (p *TimeType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TimeType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimeType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isAdjustedToUTC", thrift.BOOL, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:isAdjustedToUTC: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsAdjustedToUTC)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isAdjustedToUTC (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:isAdjustedToUTC: ", p), err)
-	}
-	return err
-}
-
-func (p *TimeType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "unit", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:unit: ", p), err)
-	}
-	if err := p.Unit.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Unit), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:unit: ", p), err)
-	}
-	return err
-}
-
-func (p *TimeType) Equals(other *TimeType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.IsAdjustedToUTC != other.IsAdjustedToUTC {
-		return false
-	}
-	if !p.Unit.Equals(other.Unit) {
-		return false
-	}
-	return true
-}
-
-func (p *TimeType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimeType(%+v)", *p)
-}
-
-func (p *TimeType) Validate() error {
-	return nil
-}
-
-// Integer logical type annotation
-//
-// bitWidth must be 8, 16, 32, or 64.
-//
-// Allowed for physical types: INT32, INT64
-//
-// Attributes:
-//   - BitWidth
-//   - IsSigned
-type IntType struct {
-	BitWidth int8 `thrift:"bitWidth,1,required" db:"bitWidth" json:"bitWidth"`
-	IsSigned bool `thrift:"isSigned,2,required" db:"isSigned" json:"isSigned"`
-}
-
-func NewIntType() *IntType {
-	return &IntType{}
-}
-
-func (p *IntType) GetBitWidth() int8 {
-	return p.BitWidth
-}
-
-func (p *IntType) GetIsSigned() bool {
-	return p.IsSigned
-}
-func (p *IntType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetBitWidth bool = false
-	var issetIsSigned bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BYTE {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetBitWidth = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsSigned = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetBitWidth {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field BitWidth is not set"))
-	}
-	if !issetIsSigned {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsSigned is not set"))
-	}
-	return nil
-}
-
-func (p *IntType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadByte(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := int8(v)
-		p.BitWidth = temp
-	}
-	return nil
-}
-
-func (p *IntType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.IsSigned = v
-	}
-	return nil
-}
-
-func (p *IntType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "IntType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *IntType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "bitWidth", thrift.BYTE, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:bitWidth: ", p), err)
-	}
-	if err := oprot.WriteByte(ctx, int8(p.BitWidth)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.bitWidth (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:bitWidth: ", p), err)
-	}
-	return err
-}
-
-func (p *IntType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isSigned", thrift.BOOL, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:isSigned: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsSigned)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isSigned (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:isSigned: ", p), err)
-	}
-	return err
-}
-
-func (p *IntType) Equals(other *IntType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.BitWidth != other.BitWidth {
-		return false
-	}
-	if p.IsSigned != other.IsSigned {
-		return false
-	}
-	return true
-}
-
-func (p *IntType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("IntType(%+v)", *p)
-}
-
-func (p *IntType) Validate() error {
-	return nil
-}
-
-// Embedded JSON logical type annotation
-//
-// Allowed for physical types: BINARY
-type JsonType struct {
-}
-
-func NewJsonType() *JsonType {
-	return &JsonType{}
-}
-
-func (p *JsonType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *JsonType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "JsonType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *JsonType) Equals(other *JsonType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *JsonType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("JsonType(%+v)", *p)
-}
-
-func (p *JsonType) Validate() error {
-	return nil
-}
-
-// Embedded BSON logical type annotation
-//
-// Allowed for physical types: BINARY
-type BsonType struct {
-}
-
-func NewBsonType() *BsonType {
-	return &BsonType{}
-}
-
-func (p *BsonType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BsonType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "BsonType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BsonType) Equals(other *BsonType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *BsonType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BsonType(%+v)", *p)
-}
-
-func (p *BsonType) Validate() error {
-	return nil
-}
-
-// LogicalType annotations to replace ConvertedType.
-//
-// To maintain compatibility, implementations using LogicalType for a
-// SchemaElement must also set the corresponding ConvertedType (if any)
-// from the following table.
-//
-// Attributes:
-//   - STRING
-//   - MAP
-//   - LIST
-//   - ENUM
-//   - DECIMAL
-//   - DATE
-//   - TIME
-//   - TIMESTAMP
-//   - INTEGER
-//   - UNKNOWN
-//   - JSON
-//   - BSON
-//   - UUID
-//   - FLOAT16
-type LogicalType struct {
-	STRING    *StringType    `thrift:"STRING,1" db:"STRING" json:"STRING,omitempty"`
-	MAP       *MapType       `thrift:"MAP,2" db:"MAP" json:"MAP,omitempty"`
-	LIST      *ListType      `thrift:"LIST,3" db:"LIST" json:"LIST,omitempty"`
-	ENUM      *EnumType      `thrift:"ENUM,4" db:"ENUM" json:"ENUM,omitempty"`
-	DECIMAL   *DecimalType   `thrift:"DECIMAL,5" db:"DECIMAL" json:"DECIMAL,omitempty"`
-	DATE      *DateType      `thrift:"DATE,6" db:"DATE" json:"DATE,omitempty"`
-	TIME      *TimeType      `thrift:"TIME,7" db:"TIME" json:"TIME,omitempty"`
-	TIMESTAMP *TimestampType `thrift:"TIMESTAMP,8" db:"TIMESTAMP" json:"TIMESTAMP,omitempty"`
-	// unused field # 9
-	INTEGER *IntType     `thrift:"INTEGER,10" db:"INTEGER" json:"INTEGER,omitempty"`
-	UNKNOWN *NullType    `thrift:"UNKNOWN,11" db:"UNKNOWN" json:"UNKNOWN,omitempty"`
-	JSON    *JsonType    `thrift:"JSON,12" db:"JSON" json:"JSON,omitempty"`
-	BSON    *BsonType    `thrift:"BSON,13" db:"BSON" json:"BSON,omitempty"`
-	UUID    *UUIDType    `thrift:"UUID,14" db:"UUID" json:"UUID,omitempty"`
-	FLOAT16 *Float16Type `thrift:"FLOAT16,15" db:"FLOAT16" json:"FLOAT16,omitempty"`
-}
-
-func NewLogicalType() *LogicalType {
-	return &LogicalType{}
-}
-
-var LogicalType_STRING_DEFAULT *StringType
-
-func (p *LogicalType) GetSTRING() *StringType {
-	if !p.IsSetSTRING() {
-		return LogicalType_STRING_DEFAULT
-	}
-	return p.STRING
-}
-
-var LogicalType_MAP_DEFAULT *MapType
-
-func (p *LogicalType) GetMAP() *MapType {
-	if !p.IsSetMAP() {
-		return LogicalType_MAP_DEFAULT
-	}
-	return p.MAP
-}
-
-var LogicalType_LIST_DEFAULT *ListType
-
-func (p *LogicalType) GetLIST() *ListType {
-	if !p.IsSetLIST() {
-		return LogicalType_LIST_DEFAULT
-	}
-	return p.LIST
-}
-
-var LogicalType_ENUM_DEFAULT *EnumType
-
-func (p *LogicalType) GetENUM() *EnumType {
-	if !p.IsSetENUM() {
-		return LogicalType_ENUM_DEFAULT
-	}
-	return p.ENUM
-}
-
-var LogicalType_DECIMAL_DEFAULT *DecimalType
-
-func (p *LogicalType) GetDECIMAL() *DecimalType {
-	if !p.IsSetDECIMAL() {
-		return LogicalType_DECIMAL_DEFAULT
-	}
-	return p.DECIMAL
-}
-
-var LogicalType_DATE_DEFAULT *DateType
-
-func (p *LogicalType) GetDATE() *DateType {
-	if !p.IsSetDATE() {
-		return LogicalType_DATE_DEFAULT
-	}
-	return p.DATE
-}
-
-var LogicalType_TIME_DEFAULT *TimeType
-
-func (p *LogicalType) GetTIME() *TimeType {
-	if !p.IsSetTIME() {
-		return LogicalType_TIME_DEFAULT
-	}
-	return p.TIME
-}
-
-var LogicalType_TIMESTAMP_DEFAULT *TimestampType
-
-func (p *LogicalType) GetTIMESTAMP() *TimestampType {
-	if !p.IsSetTIMESTAMP() {
-		return LogicalType_TIMESTAMP_DEFAULT
-	}
-	return p.TIMESTAMP
-}
-
-var LogicalType_INTEGER_DEFAULT *IntType
-
-func (p *LogicalType) GetINTEGER() *IntType {
-	if !p.IsSetINTEGER() {
-		return LogicalType_INTEGER_DEFAULT
-	}
-	return p.INTEGER
-}
-
-var LogicalType_UNKNOWN_DEFAULT *NullType
-
-func (p *LogicalType) GetUNKNOWN() *NullType {
-	if !p.IsSetUNKNOWN() {
-		return LogicalType_UNKNOWN_DEFAULT
-	}
-	return p.UNKNOWN
-}
-
-var LogicalType_JSON_DEFAULT *JsonType
-
-func (p *LogicalType) GetJSON() *JsonType {
-	if !p.IsSetJSON() {
-		return LogicalType_JSON_DEFAULT
-	}
-	return p.JSON
-}
-
-var LogicalType_BSON_DEFAULT *BsonType
-
-func (p *LogicalType) GetBSON() *BsonType {
-	if !p.IsSetBSON() {
-		return LogicalType_BSON_DEFAULT
-	}
-	return p.BSON
-}
-
-var LogicalType_UUID_DEFAULT *UUIDType
-
-func (p *LogicalType) GetUUID() *UUIDType {
-	if !p.IsSetUUID() {
-		return LogicalType_UUID_DEFAULT
-	}
-	return p.UUID
-}
-
-var LogicalType_FLOAT16_DEFAULT *Float16Type
-
-func (p *LogicalType) GetFLOAT16() *Float16Type {
-	if !p.IsSetFLOAT16() {
-		return LogicalType_FLOAT16_DEFAULT
-	}
-	return p.FLOAT16
-}
-func (p *LogicalType) CountSetFieldsLogicalType() int {
-	count := 0
-	if p.IsSetSTRING() {
-		count++
-	}
-	if p.IsSetMAP() {
-		count++
-	}
-	if p.IsSetLIST() {
-		count++
-	}
-	if p.IsSetENUM() {
-		count++
-	}
-	if p.IsSetDECIMAL() {
-		count++
-	}
-	if p.IsSetDATE() {
-		count++
-	}
-	if p.IsSetTIME() {
-		count++
-	}
-	if p.IsSetTIMESTAMP() {
-		count++
-	}
-	if p.IsSetINTEGER() {
-		count++
-	}
-	if p.IsSetUNKNOWN() {
-		count++
-	}
-	if p.IsSetJSON() {
-		count++
-	}
-	if p.IsSetBSON() {
-		count++
-	}
-	if p.IsSetUUID() {
-		count++
-	}
-	if p.IsSetFLOAT16() {
-		count++
-	}
-	return count
-
-}
-
-func (p *LogicalType) IsSetSTRING() bool {
-	return p.STRING != nil
-}
-
-func (p *LogicalType) IsSetMAP() bool {
-	return p.MAP != nil
-}
-
-func (p *LogicalType) IsSetLIST() bool {
-	return p.LIST != nil
-}
-
-func (p *LogicalType) IsSetENUM() bool {
-	return p.ENUM != nil
-}
-
-func (p *LogicalType) IsSetDECIMAL() bool {
-	return p.DECIMAL != nil
-}
-
-func (p *LogicalType) IsSetDATE() bool {
-	return p.DATE != nil
-}
-
-func (p *LogicalType) IsSetTIME() bool {
-	return p.TIME != nil
-}
-
-func (p *LogicalType) IsSetTIMESTAMP() bool {
-	return p.TIMESTAMP != nil
-}
-
-func (p *LogicalType) IsSetINTEGER() bool {
-	return p.INTEGER != nil
-}
-
-func (p *LogicalType) IsSetUNKNOWN() bool {
-	return p.UNKNOWN != nil
-}
-
-func (p *LogicalType) IsSetJSON() bool {
-	return p.JSON != nil
-}
-
-func (p *LogicalType) IsSetBSON() bool {
-	return p.BSON != nil
-}
-
-func (p *LogicalType) IsSetUUID() bool {
-	return p.UUID != nil
-}
-
-func (p *LogicalType) IsSetFLOAT16() bool {
-	return p.FLOAT16 != nil
-}
-
-func (p *LogicalType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 11:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField11(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 12:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField12(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 13:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField13(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 14:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField14(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 15:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField15(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.STRING = &StringType{}
-	if err := p.STRING.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.STRING), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MAP = &MapType{}
-	if err := p.MAP.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MAP), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.LIST = &ListType{}
-	if err := p.LIST.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.LIST), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENUM = &EnumType{}
-	if err := p.ENUM.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENUM), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DECIMAL = &DecimalType{}
-	if err := p.DECIMAL.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DECIMAL), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DATE = &DateType{}
-	if err := p.DATE.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DATE), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TIME = &TimeType{}
-	if err := p.TIME.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TIME), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TIMESTAMP = &TimestampType{}
-	if err := p.TIMESTAMP.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TIMESTAMP), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	p.INTEGER = &IntType{}
-	if err := p.INTEGER.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.INTEGER), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField11(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UNKNOWN = &NullType{}
-	if err := p.UNKNOWN.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UNKNOWN), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField12(ctx context.Context, iprot thrift.TProtocol) error {
-	p.JSON = &JsonType{}
-	if err := p.JSON.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.JSON), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField13(ctx context.Context, iprot thrift.TProtocol) error {
-	p.BSON = &BsonType{}
-	if err := p.BSON.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.BSON), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField14(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UUID = &UUIDType{}
-	if err := p.UUID.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UUID), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField15(ctx context.Context, iprot thrift.TProtocol) error {
-	p.FLOAT16 = &Float16Type{}
-	if err := p.FLOAT16.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.FLOAT16), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsLogicalType(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "LogicalType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField11(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField12(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField13(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField14(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField15(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *LogicalType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSTRING() {
-		if err := oprot.WriteFieldBegin(ctx, "STRING", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:STRING: ", p), err)
-		}
-		if err := p.STRING.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.STRING), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:STRING: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMAP() {
-		if err := oprot.WriteFieldBegin(ctx, "MAP", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:MAP: ", p), err)
-		}
-		if err := p.MAP.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MAP), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:MAP: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetLIST() {
-		if err := oprot.WriteFieldBegin(ctx, "LIST", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:LIST: ", p), err)
-		}
-		if err := p.LIST.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.LIST), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:LIST: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENUM() {
-		if err := oprot.WriteFieldBegin(ctx, "ENUM", thrift.STRUCT, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:ENUM: ", p), err)
-		}
-		if err := p.ENUM.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENUM), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:ENUM: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDECIMAL() {
-		if err := oprot.WriteFieldBegin(ctx, "DECIMAL", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:DECIMAL: ", p), err)
-		}
-		if err := p.DECIMAL.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DECIMAL), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:DECIMAL: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDATE() {
-		if err := oprot.WriteFieldBegin(ctx, "DATE", thrift.STRUCT, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:DATE: ", p), err)
-		}
-		if err := p.DATE.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DATE), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:DATE: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTIME() {
-		if err := oprot.WriteFieldBegin(ctx, "TIME", thrift.STRUCT, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:TIME: ", p), err)
-		}
-		if err := p.TIME.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TIME), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:TIME: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTIMESTAMP() {
-		if err := oprot.WriteFieldBegin(ctx, "TIMESTAMP", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:TIMESTAMP: ", p), err)
-		}
-		if err := p.TIMESTAMP.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TIMESTAMP), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:TIMESTAMP: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetINTEGER() {
-		if err := oprot.WriteFieldBegin(ctx, "INTEGER", thrift.STRUCT, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:INTEGER: ", p), err)
-		}
-		if err := p.INTEGER.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.INTEGER), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:INTEGER: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField11(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUNKNOWN() {
-		if err := oprot.WriteFieldBegin(ctx, "UNKNOWN", thrift.STRUCT, 11); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 11:UNKNOWN: ", p), err)
-		}
-		if err := p.UNKNOWN.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UNKNOWN), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 11:UNKNOWN: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField12(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetJSON() {
-		if err := oprot.WriteFieldBegin(ctx, "JSON", thrift.STRUCT, 12); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 12:JSON: ", p), err)
-		}
-		if err := p.JSON.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.JSON), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 12:JSON: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField13(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBSON() {
-		if err := oprot.WriteFieldBegin(ctx, "BSON", thrift.STRUCT, 13); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 13:BSON: ", p), err)
-		}
-		if err := p.BSON.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.BSON), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 13:BSON: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField14(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUUID() {
-		if err := oprot.WriteFieldBegin(ctx, "UUID", thrift.STRUCT, 14); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 14:UUID: ", p), err)
-		}
-		if err := p.UUID.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UUID), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 14:UUID: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField15(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFLOAT16() {
-		if err := oprot.WriteFieldBegin(ctx, "FLOAT16", thrift.STRUCT, 15); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 15:FLOAT16: ", p), err)
-		}
-		if err := p.FLOAT16.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.FLOAT16), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 15:FLOAT16: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) Equals(other *LogicalType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.STRING.Equals(other.STRING) {
-		return false
-	}
-	if !p.MAP.Equals(other.MAP) {
-		return false
-	}
-	if !p.LIST.Equals(other.LIST) {
-		return false
-	}
-	if !p.ENUM.Equals(other.ENUM) {
-		return false
-	}
-	if !p.DECIMAL.Equals(other.DECIMAL) {
-		return false
-	}
-	if !p.DATE.Equals(other.DATE) {
-		return false
-	}
-	if !p.TIME.Equals(other.TIME) {
-		return false
-	}
-	if !p.TIMESTAMP.Equals(other.TIMESTAMP) {
-		return false
-	}
-	if !p.INTEGER.Equals(other.INTEGER) {
-		return false
-	}
-	if !p.UNKNOWN.Equals(other.UNKNOWN) {
-		return false
-	}
-	if !p.JSON.Equals(other.JSON) {
-		return false
-	}
-	if !p.BSON.Equals(other.BSON) {
-		return false
-	}
-	if !p.UUID.Equals(other.UUID) {
-		return false
-	}
-	if !p.FLOAT16.Equals(other.FLOAT16) {
-		return false
-	}
-	return true
-}
-
-func (p *LogicalType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("LogicalType(%+v)", *p)
-}
-
-func (p *LogicalType) Validate() error {
-	return nil
-}
-
-// Represents a element inside a schema definition.
-//   - if it is a group (inner node) then type is undefined and num_children is defined
-//   - if it is a primitive type (leaf) then type is defined and num_children is undefined
-//
-// the nodes are listed in depth first traversal order.
-//
-// Attributes:
-//   - Type: Data type for this field. Not set if the current element is a non-leaf node
-//   - TypeLength: If type is FIXED_LEN_BYTE_ARRAY, this is the byte length of the values.
-//
-// Otherwise, if specified, this is the maximum bit length to store any of the values.
-// (e.g. a low cardinality INT col could have this set to 3).  Note that this is
-// in the schema, and therefore fixed for the entire file.
-//   - RepetitionType: repetition of the field. The root of the schema does not have a repetition_type.
-//
-// All other nodes must have one
-//   - Name: Name of the field in the schema
-//   - NumChildren: Nested fields.  Since thrift does not support nested fields,
-//
-// the nesting is flattened to a single list by a depth-first traversal.
-// The children count is used to construct the nested relationship.
-// This field is not set when the element is a primitive type
-//   - ConvertedType: DEPRECATED: When the schema is the result of a conversion from another model.
-//
-// Used to record the original type to help with cross conversion.
-//
-// This is superseded by logicalType.
-//   - Scale: DEPRECATED: Used when this column contains decimal data.
-//
-// See the DECIMAL converted type for more details.
-//
-// This is superseded by using the DecimalType annotation in logicalType.
-//   - Precision
-//   - FieldID: When the original schema supports field ids, this will save the
-//
-// original field id in the parquet schema
-//   - LogicalType: The logical type of this SchemaElement
-//
-// LogicalType replaces ConvertedType, but ConvertedType is still required
-// for some logical types to ensure forward-compatibility in format v1.
-type SchemaElement struct {
-	Type           *Type                `thrift:"type,1" db:"type" json:"type,omitempty"`
-	TypeLength     *int32               `thrift:"type_length,2" db:"type_length" json:"type_length,omitempty"`
-	RepetitionType *FieldRepetitionType `thrift:"repetition_type,3" db:"repetition_type" json:"repetition_type,omitempty"`
-	Name           string               `thrift:"name,4,required" db:"name" json:"name"`
-	NumChildren    *int32               `thrift:"num_children,5" db:"num_children" json:"num_children,omitempty"`
-	ConvertedType  *ConvertedType       `thrift:"converted_type,6" db:"converted_type" json:"converted_type,omitempty"`
-	Scale          *int32               `thrift:"scale,7" db:"scale" json:"scale,omitempty"`
-	Precision      *int32               `thrift:"precision,8" db:"precision" json:"precision,omitempty"`
-	FieldID        *int32               `thrift:"field_id,9" db:"field_id" json:"field_id,omitempty"`
-	LogicalType    *LogicalType         `thrift:"logicalType,10" db:"logicalType" json:"logicalType,omitempty"`
-}
-
-func NewSchemaElement() *SchemaElement {
-	return &SchemaElement{}
-}
-
-var SchemaElement_Type_DEFAULT Type
-
-func (p *SchemaElement) GetType() Type {
-	if !p.IsSetType() {
-		return SchemaElement_Type_DEFAULT
-	}
-	return *p.Type
-}
-
-var SchemaElement_TypeLength_DEFAULT int32
-
-func (p *SchemaElement) GetTypeLength() int32 {
-	if !p.IsSetTypeLength() {
-		return SchemaElement_TypeLength_DEFAULT
-	}
-	return *p.TypeLength
-}
-
-var SchemaElement_RepetitionType_DEFAULT FieldRepetitionType
-
-func (p *SchemaElement) GetRepetitionType() FieldRepetitionType {
-	if !p.IsSetRepetitionType() {
-		return SchemaElement_RepetitionType_DEFAULT
-	}
-	return *p.RepetitionType
-}
-
-func (p *SchemaElement) GetName() string {
-	return p.Name
-}
-
-var SchemaElement_NumChildren_DEFAULT int32
-
-func (p *SchemaElement) GetNumChildren() int32 {
-	if !p.IsSetNumChildren() {
-		return SchemaElement_NumChildren_DEFAULT
-	}
-	return *p.NumChildren
-}
-
-var SchemaElement_ConvertedType_DEFAULT ConvertedType
-
-func (p *SchemaElement) GetConvertedType() ConvertedType {
-	if !p.IsSetConvertedType() {
-		return SchemaElement_ConvertedType_DEFAULT
-	}
-	return *p.ConvertedType
-}
-
-var SchemaElement_Scale_DEFAULT int32
-
-func (p *SchemaElement) GetScale() int32 {
-	if !p.IsSetScale() {
-		return SchemaElement_Scale_DEFAULT
-	}
-	return *p.Scale
-}
-
-var SchemaElement_Precision_DEFAULT int32
-
-func (p *SchemaElement) GetPrecision() int32 {
-	if !p.IsSetPrecision() {
-		return SchemaElement_Precision_DEFAULT
-	}
-	return *p.Precision
-}
-
-var SchemaElement_FieldID_DEFAULT int32
-
-func (p *SchemaElement) GetFieldID() int32 {
-	if !p.IsSetFieldID() {
-		return SchemaElement_FieldID_DEFAULT
-	}
-	return *p.FieldID
-}
-
-var SchemaElement_LogicalType_DEFAULT *LogicalType
-
-func (p *SchemaElement) GetLogicalType() *LogicalType {
-	if !p.IsSetLogicalType() {
-		return SchemaElement_LogicalType_DEFAULT
-	}
-	return p.LogicalType
-}
-func (p *SchemaElement) IsSetType() bool {
-	return p.Type != nil
-}
-
-func (p *SchemaElement) IsSetTypeLength() bool {
-	return p.TypeLength != nil
-}
-
-func (p *SchemaElement) IsSetRepetitionType() bool {
-	return p.RepetitionType != nil
-}
-
-func (p *SchemaElement) IsSetNumChildren() bool {
-	return p.NumChildren != nil
-}
-
-func (p *SchemaElement) IsSetConvertedType() bool {
-	return p.ConvertedType != nil
-}
-
-func (p *SchemaElement) IsSetScale() bool {
-	return p.Scale != nil
-}
-
-func (p *SchemaElement) IsSetPrecision() bool {
-	return p.Precision != nil
-}
-
-func (p *SchemaElement) IsSetFieldID() bool {
-	return p.FieldID != nil
-}
-
-func (p *SchemaElement) IsSetLogicalType() bool {
-	return p.LogicalType != nil
-}
-
-func (p *SchemaElement) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetName bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetName = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetName {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Name is not set"))
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := Type(v)
-		p.Type = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.TypeLength = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		temp := FieldRepetitionType(v)
-		p.RepetitionType = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.Name = v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.NumChildren = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		temp := ConvertedType(v)
-		p.ConvertedType = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.Scale = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 8: ", err)
-	} else {
-		p.Precision = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.FieldID = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	p.LogicalType = &LogicalType{}
-	if err := p.LogicalType.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.LogicalType), err)
-	}
-	return nil
-}
-
-func (p *SchemaElement) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SchemaElement"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SchemaElement) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetType() {
-		if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Type)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTypeLength() {
-		if err := oprot.WriteFieldBegin(ctx, "type_length", thrift.I32, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:type_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.TypeLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.type_length (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:type_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetRepetitionType() {
-		if err := oprot.WriteFieldBegin(ctx, "repetition_type", thrift.I32, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:repetition_type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.RepetitionType)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.repetition_type (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:repetition_type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "name", thrift.STRING, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:name: ", p), err)
-	}
-	if err := oprot.WriteString(ctx, string(p.Name)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.name (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:name: ", p), err)
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNumChildren() {
-		if err := oprot.WriteFieldBegin(ctx, "num_children", thrift.I32, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:num_children: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.NumChildren)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.num_children (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:num_children: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetConvertedType() {
-		if err := oprot.WriteFieldBegin(ctx, "converted_type", thrift.I32, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:converted_type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.ConvertedType)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.converted_type (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:converted_type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetScale() {
-		if err := oprot.WriteFieldBegin(ctx, "scale", thrift.I32, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:scale: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Scale)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.scale (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:scale: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetPrecision() {
-		if err := oprot.WriteFieldBegin(ctx, "precision", thrift.I32, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:precision: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Precision)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.precision (8) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:precision: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFieldID() {
-		if err := oprot.WriteFieldBegin(ctx, "field_id", thrift.I32, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:field_id: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.FieldID)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.field_id (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:field_id: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetLogicalType() {
-		if err := oprot.WriteFieldBegin(ctx, "logicalType", thrift.STRUCT, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:logicalType: ", p), err)
-		}
-		if err := p.LogicalType.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.LogicalType), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:logicalType: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) Equals(other *SchemaElement) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		if p.Type == nil || other.Type == nil {
-			return false
-		}
-		if (*p.Type) != (*other.Type) {
-			return false
-		}
-	}
-	if p.TypeLength != other.TypeLength {
-		if p.TypeLength == nil || other.TypeLength == nil {
-			return false
-		}
-		if (*p.TypeLength) != (*other.TypeLength) {
-			return false
-		}
-	}
-	if p.RepetitionType != other.RepetitionType {
-		if p.RepetitionType == nil || other.RepetitionType == nil {
-			return false
-		}
-		if (*p.RepetitionType) != (*other.RepetitionType) {
-			return false
-		}
-	}
-	if p.Name != other.Name {
-		return false
-	}
-	if p.NumChildren != other.NumChildren {
-		if p.NumChildren == nil || other.NumChildren == nil {
-			return false
-		}
-		if (*p.NumChildren) != (*other.NumChildren) {
-			return false
-		}
-	}
-	if p.ConvertedType != other.ConvertedType {
-		if p.ConvertedType == nil || other.ConvertedType == nil {
-			return false
-		}
-		if (*p.ConvertedType) != (*other.ConvertedType) {
-			return false
-		}
-	}
-	if p.Scale != other.Scale {
-		if p.Scale == nil || other.Scale == nil {
-			return false
-		}
-		if (*p.Scale) != (*other.Scale) {
-			return false
-		}
-	}
-	if p.Precision != other.Precision {
-		if p.Precision == nil || other.Precision == nil {
-			return false
-		}
-		if (*p.Precision) != (*other.Precision) {
-			return false
-		}
-	}
-	if p.FieldID != other.FieldID {
-		if p.FieldID == nil || other.FieldID == nil {
-			return false
-		}
-		if (*p.FieldID) != (*other.FieldID) {
-			return false
-		}
-	}
-	if !p.LogicalType.Equals(other.LogicalType) {
-		return false
-	}
-	return true
-}
-
-func (p *SchemaElement) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SchemaElement(%+v)", *p)
-}
-
-func (p *SchemaElement) Validate() error {
-	return nil
-}
-
-// Data page header
-//
-// Attributes:
-//   - NumValues: Number of values, including NULLs, in this data page. *
-//   - Encoding: Encoding used for this data page *
-//   - DefinitionLevelEncoding: Encoding used for definition levels *
-//   - RepetitionLevelEncoding: Encoding used for repetition levels *
-//   - Statistics: Optional statistics for the data in this page*
-type DataPageHeader struct {
-	NumValues               int32       `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	Encoding                Encoding    `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	DefinitionLevelEncoding Encoding    `thrift:"definition_level_encoding,3,required" db:"definition_level_encoding" json:"definition_level_encoding"`
-	RepetitionLevelEncoding Encoding    `thrift:"repetition_level_encoding,4,required" db:"repetition_level_encoding" json:"repetition_level_encoding"`
-	Statistics              *Statistics `thrift:"statistics,5" db:"statistics" json:"statistics,omitempty"`
-}
-
-func NewDataPageHeader() *DataPageHeader {
-	return &DataPageHeader{}
-}
-
-func (p *DataPageHeader) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DataPageHeader) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *DataPageHeader) GetDefinitionLevelEncoding() Encoding {
-	return p.DefinitionLevelEncoding
-}
-
-func (p *DataPageHeader) GetRepetitionLevelEncoding() Encoding {
-	return p.RepetitionLevelEncoding
-}
-
-var DataPageHeader_Statistics_DEFAULT *Statistics
-
-func (p *DataPageHeader) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return DataPageHeader_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-func (p *DataPageHeader) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *DataPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetEncoding bool = false
-	var issetDefinitionLevelEncoding bool = false
-	var issetRepetitionLevelEncoding bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetDefinitionLevelEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetRepetitionLevelEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetDefinitionLevelEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DefinitionLevelEncoding is not set"))
-	}
-	if !issetRepetitionLevelEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RepetitionLevelEncoding is not set"))
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		temp := Encoding(v)
-		p.DefinitionLevelEncoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := Encoding(v)
-		p.RepetitionLevelEncoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *DataPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DataPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DataPageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "definition_level_encoding", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:definition_level_encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.DefinitionLevelEncoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.definition_level_encoding (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:definition_level_encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "repetition_level_encoding", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:repetition_level_encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.RepetitionLevelEncoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.repetition_level_encoding (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:repetition_level_encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeader) Equals(other *DataPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.DefinitionLevelEncoding != other.DefinitionLevelEncoding {
-		return false
-	}
-	if p.RepetitionLevelEncoding != other.RepetitionLevelEncoding {
-		return false
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	return true
-}
-
-func (p *DataPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DataPageHeader(%+v)", *p)
-}
-
-func (p *DataPageHeader) Validate() error {
-	return nil
-}
-
-type IndexPageHeader struct {
-}
-
-func NewIndexPageHeader() *IndexPageHeader {
-	return &IndexPageHeader{}
-}
-
-func (p *IndexPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *IndexPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "IndexPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *IndexPageHeader) Equals(other *IndexPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *IndexPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("IndexPageHeader(%+v)", *p)
-}
-
-func (p *IndexPageHeader) Validate() error {
-	return nil
-}
-
-// The dictionary page must be placed at the first position of the column chunk
-// if it is partly or completely dictionary encoded. At most one dictionary page
-// can be placed in a column chunk.
-//
-// Attributes:
-//   - NumValues: Number of values in the dictionary *
-//   - Encoding: Encoding using this dictionary page *
-//   - IsSorted: If true, the entries in the dictionary are sorted in ascending order *
-type DictionaryPageHeader struct {
-	NumValues int32    `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	Encoding  Encoding `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	IsSorted  *bool    `thrift:"is_sorted,3" db:"is_sorted" json:"is_sorted,omitempty"`
-}
-
-func NewDictionaryPageHeader() *DictionaryPageHeader {
-	return &DictionaryPageHeader{}
-}
-
-func (p *DictionaryPageHeader) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DictionaryPageHeader) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-var DictionaryPageHeader_IsSorted_DEFAULT bool
-
-func (p *DictionaryPageHeader) GetIsSorted() bool {
-	if !p.IsSetIsSorted() {
-		return DictionaryPageHeader_IsSorted_DEFAULT
-	}
-	return *p.IsSorted
-}
-func (p *DictionaryPageHeader) IsSetIsSorted() bool {
-	return p.IsSorted != nil
-}
-
-func (p *DictionaryPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetEncoding bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.IsSorted = &v
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DictionaryPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIsSorted() {
-		if err := oprot.WriteFieldBegin(ctx, "is_sorted", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:is_sorted: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.IsSorted)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.is_sorted (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:is_sorted: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) Equals(other *DictionaryPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.IsSorted != other.IsSorted {
-		if p.IsSorted == nil || other.IsSorted == nil {
-			return false
-		}
-		if (*p.IsSorted) != (*other.IsSorted) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *DictionaryPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DictionaryPageHeader(%+v)", *p)
-}
-
-func (p *DictionaryPageHeader) Validate() error {
-	return nil
-}
-
-// New page format allowing reading levels without decompressing the data
-// Repetition and definition levels are uncompressed
-// The remaining section containing the data is compressed if is_compressed is true
-//
-// Attributes:
-//   - NumValues: Number of values, including NULLs, in this data page. *
-//   - NumNulls: Number of NULL values, in this data page.
-//
-// Number of non-null = num_values - num_nulls which is also the number of values in the data section *
-//   - NumRows: Number of rows in this data page. which means pages change on record boundaries (r = 0) *
-//   - Encoding: Encoding used for data in this page *
-//   - DefinitionLevelsByteLength: length of the definition levels
-//   - RepetitionLevelsByteLength: length of the repetition levels
-//   - IsCompressed: whether the values are compressed.
-//
-// Which means the section of the page between
-// definition_levels_byte_length + repetition_levels_byte_length + 1 and compressed_page_size (included)
-// is compressed with the compression_codec.
-// If missing it is considered compressed
-//   - Statistics: optional statistics for the data in this page *
-type DataPageHeaderV2 struct {
-	NumValues                  int32       `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	NumNulls                   int32       `thrift:"num_nulls,2,required" db:"num_nulls" json:"num_nulls"`
-	NumRows                    int32       `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	Encoding                   Encoding    `thrift:"encoding,4,required" db:"encoding" json:"encoding"`
-	DefinitionLevelsByteLength int32       `thrift:"definition_levels_byte_length,5,required" db:"definition_levels_byte_length" json:"definition_levels_byte_length"`
-	RepetitionLevelsByteLength int32       `thrift:"repetition_levels_byte_length,6,required" db:"repetition_levels_byte_length" json:"repetition_levels_byte_length"`
-	IsCompressed               bool        `thrift:"is_compressed,7" db:"is_compressed" json:"is_compressed"`
-	Statistics                 *Statistics `thrift:"statistics,8" db:"statistics" json:"statistics,omitempty"`
-}
-
-func NewDataPageHeaderV2() *DataPageHeaderV2 {
-	return &DataPageHeaderV2{
-		IsCompressed: true,
-	}
-}
-
-func (p *DataPageHeaderV2) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DataPageHeaderV2) GetNumNulls() int32 {
-	return p.NumNulls
-}
-
-func (p *DataPageHeaderV2) GetNumRows() int32 {
-	return p.NumRows
-}
-
-func (p *DataPageHeaderV2) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *DataPageHeaderV2) GetDefinitionLevelsByteLength() int32 {
-	return p.DefinitionLevelsByteLength
-}
-
-func (p *DataPageHeaderV2) GetRepetitionLevelsByteLength() int32 {
-	return p.RepetitionLevelsByteLength
-}
-
-var DataPageHeaderV2_IsCompressed_DEFAULT bool = true
-
-func (p *DataPageHeaderV2) GetIsCompressed() bool {
-	return p.IsCompressed
-}
-
-var DataPageHeaderV2_Statistics_DEFAULT *Statistics
-
-func (p *DataPageHeaderV2) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return DataPageHeaderV2_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-func (p *DataPageHeaderV2) IsSetIsCompressed() bool {
-	return p.IsCompressed != DataPageHeaderV2_IsCompressed_DEFAULT
-}
-
-func (p *DataPageHeaderV2) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *DataPageHeaderV2) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetNumNulls bool = false
-	var issetNumRows bool = false
-	var issetEncoding bool = false
-	var issetDefinitionLevelsByteLength bool = false
-	var issetRepetitionLevelsByteLength bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumNulls = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-				issetDefinitionLevelsByteLength = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-				issetRepetitionLevelsByteLength = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetNumNulls {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumNulls is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetDefinitionLevelsByteLength {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DefinitionLevelsByteLength is not set"))
-	}
-	if !issetRepetitionLevelsByteLength {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RepetitionLevelsByteLength is not set"))
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.NumNulls = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.DefinitionLevelsByteLength = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.RepetitionLevelsByteLength = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.IsCompressed = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DataPageHeaderV2"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_nulls", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:num_nulls: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumNulls)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_nulls (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:num_nulls: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "definition_levels_byte_length", thrift.I32, 5); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:definition_levels_byte_length: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.DefinitionLevelsByteLength)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.definition_levels_byte_length (5) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 5:definition_levels_byte_length: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "repetition_levels_byte_length", thrift.I32, 6); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:repetition_levels_byte_length: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.RepetitionLevelsByteLength)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.repetition_levels_byte_length (6) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 6:repetition_levels_byte_length: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIsCompressed() {
-		if err := oprot.WriteFieldBegin(ctx, "is_compressed", thrift.BOOL, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:is_compressed: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(p.IsCompressed)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.is_compressed (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:is_compressed: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) Equals(other *DataPageHeaderV2) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.NumNulls != other.NumNulls {
-		return false
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.DefinitionLevelsByteLength != other.DefinitionLevelsByteLength {
-		return false
-	}
-	if p.RepetitionLevelsByteLength != other.RepetitionLevelsByteLength {
-		return false
-	}
-	if p.IsCompressed != other.IsCompressed {
-		return false
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	return true
-}
-
-func (p *DataPageHeaderV2) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DataPageHeaderV2(%+v)", *p)
-}
-
-func (p *DataPageHeaderV2) Validate() error {
-	return nil
-}
-
-// Block-based algorithm type annotation. *
-type SplitBlockAlgorithm struct {
-}
-
-func NewSplitBlockAlgorithm() *SplitBlockAlgorithm {
-	return &SplitBlockAlgorithm{}
-}
-
-func (p *SplitBlockAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *SplitBlockAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SplitBlockAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SplitBlockAlgorithm) Equals(other *SplitBlockAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *SplitBlockAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SplitBlockAlgorithm(%+v)", *p)
-}
-
-func (p *SplitBlockAlgorithm) Validate() error {
-	return nil
-}
-
-// The algorithm used in Bloom filter. *
-//
-// Attributes:
-//   - BLOCK: Block-based Bloom filter. *
-type BloomFilterAlgorithm struct {
-	BLOCK *SplitBlockAlgorithm `thrift:"BLOCK,1" db:"BLOCK" json:"BLOCK,omitempty"`
-}
-
-func NewBloomFilterAlgorithm() *BloomFilterAlgorithm {
-	return &BloomFilterAlgorithm{}
-}
-
-var BloomFilterAlgorithm_BLOCK_DEFAULT *SplitBlockAlgorithm
-
-func (p *BloomFilterAlgorithm) GetBLOCK() *SplitBlockAlgorithm {
-	if !p.IsSetBLOCK() {
-		return BloomFilterAlgorithm_BLOCK_DEFAULT
-	}
-	return p.BLOCK
-}
-func (p *BloomFilterAlgorithm) CountSetFieldsBloomFilterAlgorithm() int {
-	count := 0
-	if p.IsSetBLOCK() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterAlgorithm) IsSetBLOCK() bool {
-	return p.BLOCK != nil
-}
-
-func (p *BloomFilterAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.BLOCK = &SplitBlockAlgorithm{}
-	if err := p.BLOCK.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.BLOCK), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterAlgorithm(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBLOCK() {
-		if err := oprot.WriteFieldBegin(ctx, "BLOCK", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:BLOCK: ", p), err)
-		}
-		if err := p.BLOCK.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.BLOCK), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:BLOCK: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterAlgorithm) Equals(other *BloomFilterAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.BLOCK.Equals(other.BLOCK) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterAlgorithm(%+v)", *p)
-}
-
-func (p *BloomFilterAlgorithm) Validate() error {
-	return nil
-}
-
-// Hash strategy type annotation. xxHash is an extremely fast non-cryptographic hash
-// algorithm. It uses 64 bits version of xxHash.
-type XxHash struct {
-}
-
-func NewXxHash() *XxHash {
-	return &XxHash{}
-}
-
-func (p *XxHash) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *XxHash) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "XxHash"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *XxHash) Equals(other *XxHash) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *XxHash) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("XxHash(%+v)", *p)
-}
-
-func (p *XxHash) Validate() error {
-	return nil
-}
-
-// The hash function used in Bloom filter. This function takes the hash of a column value
-// using plain encoding.
-//
-// Attributes:
-//   - XXHASH: xxHash Strategy. *
-type BloomFilterHash struct {
-	XXHASH *XxHash `thrift:"XXHASH,1" db:"XXHASH" json:"XXHASH,omitempty"`
-}
-
-func NewBloomFilterHash() *BloomFilterHash {
-	return &BloomFilterHash{}
-}
-
-var BloomFilterHash_XXHASH_DEFAULT *XxHash
-
-func (p *BloomFilterHash) GetXXHASH() *XxHash {
-	if !p.IsSetXXHASH() {
-		return BloomFilterHash_XXHASH_DEFAULT
-	}
-	return p.XXHASH
-}
-func (p *BloomFilterHash) CountSetFieldsBloomFilterHash() int {
-	count := 0
-	if p.IsSetXXHASH() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterHash) IsSetXXHASH() bool {
-	return p.XXHASH != nil
-}
-
-func (p *BloomFilterHash) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.XXHASH = &XxHash{}
-	if err := p.XXHASH.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.XXHASH), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterHash(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterHash"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetXXHASH() {
-		if err := oprot.WriteFieldBegin(ctx, "XXHASH", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:XXHASH: ", p), err)
-		}
-		if err := p.XXHASH.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.XXHASH), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:XXHASH: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterHash) Equals(other *BloomFilterHash) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.XXHASH.Equals(other.XXHASH) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterHash) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterHash(%+v)", *p)
-}
-
-func (p *BloomFilterHash) Validate() error {
-	return nil
-}
-
-// The compression used in the Bloom filter.
-type Uncompressed struct {
-}
-
-func NewUncompressed() *Uncompressed {
-	return &Uncompressed{}
-}
-
-func (p *Uncompressed) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Uncompressed) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Uncompressed"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Uncompressed) Equals(other *Uncompressed) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *Uncompressed) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Uncompressed(%+v)", *p)
-}
-
-func (p *Uncompressed) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - UNCOMPRESSED
-type BloomFilterCompression struct {
-	UNCOMPRESSED *Uncompressed `thrift:"UNCOMPRESSED,1" db:"UNCOMPRESSED" json:"UNCOMPRESSED,omitempty"`
-}
-
-func NewBloomFilterCompression() *BloomFilterCompression {
-	return &BloomFilterCompression{}
-}
-
-var BloomFilterCompression_UNCOMPRESSED_DEFAULT *Uncompressed
-
-func (p *BloomFilterCompression) GetUNCOMPRESSED() *Uncompressed {
-	if !p.IsSetUNCOMPRESSED() {
-		return BloomFilterCompression_UNCOMPRESSED_DEFAULT
-	}
-	return p.UNCOMPRESSED
-}
-func (p *BloomFilterCompression) CountSetFieldsBloomFilterCompression() int {
-	count := 0
-	if p.IsSetUNCOMPRESSED() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterCompression) IsSetUNCOMPRESSED() bool {
-	return p.UNCOMPRESSED != nil
-}
-
-func (p *BloomFilterCompression) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UNCOMPRESSED = &Uncompressed{}
-	if err := p.UNCOMPRESSED.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UNCOMPRESSED), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterCompression(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterCompression"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUNCOMPRESSED() {
-		if err := oprot.WriteFieldBegin(ctx, "UNCOMPRESSED", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:UNCOMPRESSED: ", p), err)
-		}
-		if err := p.UNCOMPRESSED.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UNCOMPRESSED), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:UNCOMPRESSED: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterCompression) Equals(other *BloomFilterCompression) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.UNCOMPRESSED.Equals(other.UNCOMPRESSED) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterCompression) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterCompression(%+v)", *p)
-}
-
-func (p *BloomFilterCompression) Validate() error {
-	return nil
-}
-
-// Bloom filter header is stored at beginning of Bloom filter data of each column
-// and followed by its bitset.
-//
-// Attributes:
-//   - NumBytes: The size of bitset in bytes *
-//   - Algorithm: The algorithm for setting bits. *
-//   - Hash: The hash function used for Bloom filter. *
-//   - Compression: The compression used in the Bloom filter *
-type BloomFilterHeader struct {
-	NumBytes    int32                   `thrift:"numBytes,1,required" db:"numBytes" json:"numBytes"`
-	Algorithm   *BloomFilterAlgorithm   `thrift:"algorithm,2,required" db:"algorithm" json:"algorithm"`
-	Hash        *BloomFilterHash        `thrift:"hash,3,required" db:"hash" json:"hash"`
-	Compression *BloomFilterCompression `thrift:"compression,4,required" db:"compression" json:"compression"`
-}
-
-func NewBloomFilterHeader() *BloomFilterHeader {
-	return &BloomFilterHeader{}
-}
-
-func (p *BloomFilterHeader) GetNumBytes() int32 {
-	return p.NumBytes
-}
-
-var BloomFilterHeader_Algorithm_DEFAULT *BloomFilterAlgorithm
-
-func (p *BloomFilterHeader) GetAlgorithm() *BloomFilterAlgorithm {
-	if !p.IsSetAlgorithm() {
-		return BloomFilterHeader_Algorithm_DEFAULT
-	}
-	return p.Algorithm
-}
-
-var BloomFilterHeader_Hash_DEFAULT *BloomFilterHash
-
-func (p *BloomFilterHeader) GetHash() *BloomFilterHash {
-	if !p.IsSetHash() {
-		return BloomFilterHeader_Hash_DEFAULT
-	}
-	return p.Hash
-}
-
-var BloomFilterHeader_Compression_DEFAULT *BloomFilterCompression
-
-func (p *BloomFilterHeader) GetCompression() *BloomFilterCompression {
-	if !p.IsSetCompression() {
-		return BloomFilterHeader_Compression_DEFAULT
-	}
-	return p.Compression
-}
-func (p *BloomFilterHeader) IsSetAlgorithm() bool {
-	return p.Algorithm != nil
-}
-
-func (p *BloomFilterHeader) IsSetHash() bool {
-	return p.Hash != nil
-}
-
-func (p *BloomFilterHeader) IsSetCompression() bool {
-	return p.Compression != nil
-}
-
-func (p *BloomFilterHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumBytes bool = false
-	var issetAlgorithm bool = false
-	var issetHash bool = false
-	var issetCompression bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumBytes = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetAlgorithm = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetHash = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompression = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumBytes {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumBytes is not set"))
-	}
-	if !issetAlgorithm {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Algorithm is not set"))
-	}
-	if !issetHash {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Hash is not set"))
-	}
-	if !issetCompression {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Compression is not set"))
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumBytes = v
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Algorithm = &BloomFilterAlgorithm{}
-	if err := p.Algorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Algorithm), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Hash = &BloomFilterHash{}
-	if err := p.Hash.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Hash), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Compression = &BloomFilterCompression{}
-	if err := p.Compression.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Compression), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "numBytes", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:numBytes: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumBytes)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.numBytes (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:numBytes: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "algorithm", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:algorithm: ", p), err)
-	}
-	if err := p.Algorithm.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Algorithm), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:algorithm: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "hash", thrift.STRUCT, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:hash: ", p), err)
-	}
-	if err := p.Hash.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Hash), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:hash: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compression", thrift.STRUCT, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:compression: ", p), err)
-	}
-	if err := p.Compression.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Compression), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:compression: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) Equals(other *BloomFilterHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumBytes != other.NumBytes {
-		return false
-	}
-	if !p.Algorithm.Equals(other.Algorithm) {
-		return false
-	}
-	if !p.Hash.Equals(other.Hash) {
-		return false
-	}
-	if !p.Compression.Equals(other.Compression) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterHeader(%+v)", *p)
-}
-
-func (p *BloomFilterHeader) Validate() error {
-	return nil
-}
-
-// Attributes:
-//
-//   - Type: the type of the page: indicates which of the *_header fields is set *
-//
-//   - UncompressedPageSize: Uncompressed page size in bytes (not including this header) *
-//
-//   - CompressedPageSize: Compressed (and potentially encrypted) page size in bytes, not including this header *
-//
-//   - Crc: The 32-bit CRC checksum for the page, to be be calculated as follows:
-//
-//   - The standard CRC32 algorithm is used (with polynomial 0x04C11DB7,
-//     the same as in e.g. GZip).
-//
-//   - All page types can have a CRC (v1 and v2 data pages, dictionary pages,
-//     etc.).
-//
-//   - The CRC is computed on the serialization binary representation of the page
-//     (as written to disk), excluding the page header. For example, for v1
-//     data pages, the CRC is computed on the concatenation of repetition levels,
-//     definition levels and column values (optionally compressed, optionally
-//     encrypted).
-//
-//   - The CRC computation therefore takes place after any compression
-//     and encryption steps, if any.
-//
-// If enabled, this allows for disabling checksumming in HDFS if only a few
-// pages need to be read.
-//   - DataPageHeader
-//   - IndexPageHeader
-//   - DictionaryPageHeader
-//   - DataPageHeaderV2
-type PageHeader struct {
-	Type                 PageType              `thrift:"type,1,required" db:"type" json:"type"`
-	UncompressedPageSize int32                 `thrift:"uncompressed_page_size,2,required" db:"uncompressed_page_size" json:"uncompressed_page_size"`
-	CompressedPageSize   int32                 `thrift:"compressed_page_size,3,required" db:"compressed_page_size" json:"compressed_page_size"`
-	Crc                  *int32                `thrift:"crc,4" db:"crc" json:"crc,omitempty"`
-	DataPageHeader       *DataPageHeader       `thrift:"data_page_header,5" db:"data_page_header" json:"data_page_header,omitempty"`
-	IndexPageHeader      *IndexPageHeader      `thrift:"index_page_header,6" db:"index_page_header" json:"index_page_header,omitempty"`
-	DictionaryPageHeader *DictionaryPageHeader `thrift:"dictionary_page_header,7" db:"dictionary_page_header" json:"dictionary_page_header,omitempty"`
-	DataPageHeaderV2     *DataPageHeaderV2     `thrift:"data_page_header_v2,8" db:"data_page_header_v2" json:"data_page_header_v2,omitempty"`
-}
-
-func NewPageHeader() *PageHeader {
-	return &PageHeader{}
-}
-
-func (p *PageHeader) GetType() PageType {
-	return p.Type
-}
-
-func (p *PageHeader) GetUncompressedPageSize() int32 {
-	return p.UncompressedPageSize
-}
-
-func (p *PageHeader) GetCompressedPageSize() int32 {
-	return p.CompressedPageSize
-}
-
-var PageHeader_Crc_DEFAULT int32
-
-func (p *PageHeader) GetCrc() int32 {
-	if !p.IsSetCrc() {
-		return PageHeader_Crc_DEFAULT
-	}
-	return *p.Crc
-}
-
-var PageHeader_DataPageHeader_DEFAULT *DataPageHeader
-
-func (p *PageHeader) GetDataPageHeader() *DataPageHeader {
-	if !p.IsSetDataPageHeader() {
-		return PageHeader_DataPageHeader_DEFAULT
-	}
-	return p.DataPageHeader
-}
-
-var PageHeader_IndexPageHeader_DEFAULT *IndexPageHeader
-
-func (p *PageHeader) GetIndexPageHeader() *IndexPageHeader {
-	if !p.IsSetIndexPageHeader() {
-		return PageHeader_IndexPageHeader_DEFAULT
-	}
-	return p.IndexPageHeader
-}
-
-var PageHeader_DictionaryPageHeader_DEFAULT *DictionaryPageHeader
-
-func (p *PageHeader) GetDictionaryPageHeader() *DictionaryPageHeader {
-	if !p.IsSetDictionaryPageHeader() {
-		return PageHeader_DictionaryPageHeader_DEFAULT
-	}
-	return p.DictionaryPageHeader
-}
-
-var PageHeader_DataPageHeaderV2_DEFAULT *DataPageHeaderV2
-
-func (p *PageHeader) GetDataPageHeaderV2() *DataPageHeaderV2 {
-	if !p.IsSetDataPageHeaderV2() {
-		return PageHeader_DataPageHeaderV2_DEFAULT
-	}
-	return p.DataPageHeaderV2
-}
-func (p *PageHeader) IsSetCrc() bool {
-	return p.Crc != nil
-}
-
-func (p *PageHeader) IsSetDataPageHeader() bool {
-	return p.DataPageHeader != nil
-}
-
-func (p *PageHeader) IsSetIndexPageHeader() bool {
-	return p.IndexPageHeader != nil
-}
-
-func (p *PageHeader) IsSetDictionaryPageHeader() bool {
-	return p.DictionaryPageHeader != nil
-}
-
-func (p *PageHeader) IsSetDataPageHeaderV2() bool {
-	return p.DataPageHeaderV2 != nil
-}
-
-func (p *PageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetType bool = false
-	var issetUncompressedPageSize bool = false
-	var issetCompressedPageSize bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUncompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Type is not set"))
-	}
-	if !issetUncompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field UncompressedPageSize is not set"))
-	}
-	if !issetCompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field CompressedPageSize is not set"))
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := PageType(v)
-		p.Type = temp
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.UncompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.CompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.Crc = &v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DataPageHeader = &DataPageHeader{}
-	if err := p.DataPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DataPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	p.IndexPageHeader = &IndexPageHeader{}
-	if err := p.IndexPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.IndexPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DictionaryPageHeader = &DictionaryPageHeader{}
-	if err := p.DictionaryPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DictionaryPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DataPageHeaderV2 = &DataPageHeaderV2{
-		IsCompressed: true,
-	}
-	if err := p.DataPageHeaderV2.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DataPageHeaderV2), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Type)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "uncompressed_page_size", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:uncompressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.UncompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.uncompressed_page_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:uncompressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compressed_page_size", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:compressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.CompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.compressed_page_size (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:compressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCrc() {
-		if err := oprot.WriteFieldBegin(ctx, "crc", thrift.I32, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:crc: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Crc)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.crc (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:crc: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDataPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "data_page_header", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:data_page_header: ", p), err)
-		}
-		if err := p.DataPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DataPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:data_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIndexPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "index_page_header", thrift.STRUCT, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:index_page_header: ", p), err)
-		}
-		if err := p.IndexPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.IndexPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:index_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDictionaryPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "dictionary_page_header", thrift.STRUCT, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:dictionary_page_header: ", p), err)
-		}
-		if err := p.DictionaryPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DictionaryPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:dictionary_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDataPageHeaderV2() {
-		if err := oprot.WriteFieldBegin(ctx, "data_page_header_v2", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:data_page_header_v2: ", p), err)
-		}
-		if err := p.DataPageHeaderV2.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DataPageHeaderV2), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:data_page_header_v2: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) Equals(other *PageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		return false
-	}
-	if p.UncompressedPageSize != other.UncompressedPageSize {
-		return false
-	}
-	if p.CompressedPageSize != other.CompressedPageSize {
-		return false
-	}
-	if p.Crc != other.Crc {
-		if p.Crc == nil || other.Crc == nil {
-			return false
-		}
-		if (*p.Crc) != (*other.Crc) {
-			return false
-		}
-	}
-	if !p.DataPageHeader.Equals(other.DataPageHeader) {
-		return false
-	}
-	if !p.IndexPageHeader.Equals(other.IndexPageHeader) {
-		return false
-	}
-	if !p.DictionaryPageHeader.Equals(other.DictionaryPageHeader) {
-		return false
-	}
-	if !p.DataPageHeaderV2.Equals(other.DataPageHeaderV2) {
-		return false
-	}
-	return true
-}
-
-func (p *PageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageHeader(%+v)", *p)
-}
-
-func (p *PageHeader) Validate() error {
-	return nil
-}
-
-// Wrapper struct to store key values
-//
-// Attributes:
-//   - Key
-//   - Value
-type KeyValue struct {
-	Key   string  `thrift:"key,1,required" db:"key" json:"key"`
-	Value *string `thrift:"value,2" db:"value" json:"value,omitempty"`
-}
-
-func NewKeyValue() *KeyValue {
-	return &KeyValue{}
-}
-
-func (p *KeyValue) GetKey() string {
-	return p.Key
-}
-
-var KeyValue_Value_DEFAULT string
-
-func (p *KeyValue) GetValue() string {
-	if !p.IsSetValue() {
-		return KeyValue_Value_DEFAULT
-	}
-	return *p.Value
-}
-func (p *KeyValue) IsSetValue() bool {
-	return p.Value != nil
-}
-
-func (p *KeyValue) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetKey bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetKey = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetKey {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Key is not set"))
-	}
-	return nil
-}
-
-func (p *KeyValue) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Key = v
-	}
-	return nil
-}
-
-func (p *KeyValue) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Value = &v
-	}
-	return nil
-}
-
-func (p *KeyValue) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "KeyValue"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *KeyValue) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "key", thrift.STRING, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:key: ", p), err)
-	}
-	if err := oprot.WriteString(ctx, string(p.Key)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.key (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:key: ", p), err)
-	}
-	return err
-}
-
-func (p *KeyValue) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetValue() {
-		if err := oprot.WriteFieldBegin(ctx, "value", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:value: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.Value)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.value (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *KeyValue) Equals(other *KeyValue) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Key != other.Key {
-		return false
-	}
-	if p.Value != other.Value {
-		if p.Value == nil || other.Value == nil {
-			return false
-		}
-		if (*p.Value) != (*other.Value) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *KeyValue) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("KeyValue(%+v)", *p)
-}
-
-func (p *KeyValue) Validate() error {
-	return nil
-}
-
-// Wrapper struct to specify sort order
-//
-// Attributes:
-//   - ColumnIdx: The column index (in this row group) *
-//   - Descending: If true, indicates this column is sorted in descending order. *
-//   - NullsFirst: If true, nulls will come before non-null values, otherwise,
-//
-// nulls go at the end.
-type SortingColumn struct {
-	ColumnIdx  int32 `thrift:"column_idx,1,required" db:"column_idx" json:"column_idx"`
-	Descending bool  `thrift:"descending,2,required" db:"descending" json:"descending"`
-	NullsFirst bool  `thrift:"nulls_first,3,required" db:"nulls_first" json:"nulls_first"`
-}
-
-func NewSortingColumn() *SortingColumn {
-	return &SortingColumn{}
-}
-
-func (p *SortingColumn) GetColumnIdx() int32 {
-	return p.ColumnIdx
-}
-
-func (p *SortingColumn) GetDescending() bool {
-	return p.Descending
-}
-
-func (p *SortingColumn) GetNullsFirst() bool {
-	return p.NullsFirst
-}
-func (p *SortingColumn) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetColumnIdx bool = false
-	var issetDescending bool = false
-	var issetNullsFirst bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetColumnIdx = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetDescending = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNullsFirst = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetColumnIdx {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field ColumnIdx is not set"))
-	}
-	if !issetDescending {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Descending is not set"))
-	}
-	if !issetNullsFirst {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NullsFirst is not set"))
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.ColumnIdx = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Descending = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NullsFirst = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SortingColumn"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SortingColumn) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "column_idx", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:column_idx: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.ColumnIdx)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.column_idx (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:column_idx: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "descending", thrift.BOOL, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:descending: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.Descending)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.descending (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:descending: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "nulls_first", thrift.BOOL, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:nulls_first: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.NullsFirst)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.nulls_first (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:nulls_first: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) Equals(other *SortingColumn) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.ColumnIdx != other.ColumnIdx {
-		return false
-	}
-	if p.Descending != other.Descending {
-		return false
-	}
-	if p.NullsFirst != other.NullsFirst {
-		return false
-	}
-	return true
-}
-
-func (p *SortingColumn) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SortingColumn(%+v)", *p)
-}
-
-func (p *SortingColumn) Validate() error {
-	return nil
-}
-
-// statistics of a given page type and encoding
-//
-// Attributes:
-//   - PageType: the page type (data/dic/...) *
-//   - Encoding: encoding of the page *
-//   - Count: number of pages of this type with this encoding *
-type PageEncodingStats struct {
-	PageType PageType `thrift:"page_type,1,required" db:"page_type" json:"page_type"`
-	Encoding Encoding `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	Count    int32    `thrift:"count,3,required" db:"count" json:"count"`
-}
-
-func NewPageEncodingStats() *PageEncodingStats {
-	return &PageEncodingStats{}
-}
-
-func (p *PageEncodingStats) GetPageType() PageType {
-	return p.PageType
-}
-
-func (p *PageEncodingStats) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *PageEncodingStats) GetCount() int32 {
-	return p.Count
-}
-func (p *PageEncodingStats) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPageType bool = false
-	var issetEncoding bool = false
-	var issetCount bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPageType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetCount = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPageType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PageType is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetCount {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Count is not set"))
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := PageType(v)
-		p.PageType = temp
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.Count = v
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageEncodingStats"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "page_type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:page_type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.PageType)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.page_type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:page_type: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "count", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:count: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Count)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.count (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:count: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) Equals(other *PageEncodingStats) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.PageType != other.PageType {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.Count != other.Count {
-		return false
-	}
-	return true
-}
-
-func (p *PageEncodingStats) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageEncodingStats(%+v)", *p)
-}
-
-func (p *PageEncodingStats) Validate() error {
-	return nil
-}
-
-// Description for column metadata
-//
-// Attributes:
-//   - Type: Type of this column *
-//   - Encodings: Set of all encodings used for this column. The purpose is to validate
-//
-// whether we can decode those pages. *
-//   - PathInSchema: Path in schema *
-//   - Codec: Compression codec *
-//   - NumValues: Number of values in this column *
-//   - TotalUncompressedSize: total byte size of all uncompressed pages in this column chunk (including the headers) *
-//   - TotalCompressedSize: total byte size of all compressed, and potentially encrypted, pages
-//
-// in this column chunk (including the headers) *
-//   - KeyValueMetadata: Optional key/value metadata *
-//   - DataPageOffset: Byte offset from beginning of file to first data page *
-//   - IndexPageOffset: Byte offset from beginning of file to root index page *
-//   - DictionaryPageOffset: Byte offset from the beginning of file to first (only) dictionary page *
-//   - Statistics: optional statistics for this column chunk
-//   - EncodingStats: Set of all encodings used for pages in this column chunk.
-//
-// This information can be used to determine if all data pages are
-// dictionary encoded for example *
-//   - BloomFilterOffset: Byte offset from beginning of file to Bloom filter data. *
-type ColumnMetaData struct {
-	Type                  Type                 `thrift:"type,1,required" db:"type" json:"type"`
-	Encodings             []Encoding           `thrift:"encodings,2,required" db:"encodings" json:"encodings"`
-	PathInSchema          []string             `thrift:"path_in_schema,3,required" db:"path_in_schema" json:"path_in_schema"`
-	Codec                 CompressionCodec     `thrift:"codec,4,required" db:"codec" json:"codec"`
-	NumValues             int64                `thrift:"num_values,5,required" db:"num_values" json:"num_values"`
-	TotalUncompressedSize int64                `thrift:"total_uncompressed_size,6,required" db:"total_uncompressed_size" json:"total_uncompressed_size"`
-	TotalCompressedSize   int64                `thrift:"total_compressed_size,7,required" db:"total_compressed_size" json:"total_compressed_size"`
-	KeyValueMetadata      []*KeyValue          `thrift:"key_value_metadata,8" db:"key_value_metadata" json:"key_value_metadata,omitempty"`
-	DataPageOffset        int64                `thrift:"data_page_offset,9,required" db:"data_page_offset" json:"data_page_offset"`
-	IndexPageOffset       *int64               `thrift:"index_page_offset,10" db:"index_page_offset" json:"index_page_offset,omitempty"`
-	DictionaryPageOffset  *int64               `thrift:"dictionary_page_offset,11" db:"dictionary_page_offset" json:"dictionary_page_offset,omitempty"`
-	Statistics            *Statistics          `thrift:"statistics,12" db:"statistics" json:"statistics,omitempty"`
-	EncodingStats         []*PageEncodingStats `thrift:"encoding_stats,13" db:"encoding_stats" json:"encoding_stats,omitempty"`
-	BloomFilterOffset     *int64               `thrift:"bloom_filter_offset,14" db:"bloom_filter_offset" json:"bloom_filter_offset,omitempty"`
-}
-
-func NewColumnMetaData() *ColumnMetaData {
-	return &ColumnMetaData{}
-}
-
-func (p *ColumnMetaData) GetType() Type {
-	return p.Type
-}
-
-func (p *ColumnMetaData) GetEncodings() []Encoding {
-	return p.Encodings
-}
-
-func (p *ColumnMetaData) GetPathInSchema() []string {
-	return p.PathInSchema
-}
-
-func (p *ColumnMetaData) GetCodec() CompressionCodec {
-	return p.Codec
-}
-
-func (p *ColumnMetaData) GetNumValues() int64 {
-	return p.NumValues
-}
-
-func (p *ColumnMetaData) GetTotalUncompressedSize() int64 {
-	return p.TotalUncompressedSize
-}
-
-func (p *ColumnMetaData) GetTotalCompressedSize() int64 {
-	return p.TotalCompressedSize
-}
-
-var ColumnMetaData_KeyValueMetadata_DEFAULT []*KeyValue
-
-func (p *ColumnMetaData) GetKeyValueMetadata() []*KeyValue {
-	return p.KeyValueMetadata
-}
-
-func (p *ColumnMetaData) GetDataPageOffset() int64 {
-	return p.DataPageOffset
-}
-
-var ColumnMetaData_IndexPageOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetIndexPageOffset() int64 {
-	if !p.IsSetIndexPageOffset() {
-		return ColumnMetaData_IndexPageOffset_DEFAULT
-	}
-	return *p.IndexPageOffset
-}
-
-var ColumnMetaData_DictionaryPageOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetDictionaryPageOffset() int64 {
-	if !p.IsSetDictionaryPageOffset() {
-		return ColumnMetaData_DictionaryPageOffset_DEFAULT
-	}
-	return *p.DictionaryPageOffset
-}
-
-var ColumnMetaData_Statistics_DEFAULT *Statistics
-
-func (p *ColumnMetaData) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return ColumnMetaData_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-
-var ColumnMetaData_EncodingStats_DEFAULT []*PageEncodingStats
-
-func (p *ColumnMetaData) GetEncodingStats() []*PageEncodingStats {
-	return p.EncodingStats
-}
-
-var ColumnMetaData_BloomFilterOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetBloomFilterOffset() int64 {
-	if !p.IsSetBloomFilterOffset() {
-		return ColumnMetaData_BloomFilterOffset_DEFAULT
-	}
-	return *p.BloomFilterOffset
-}
-func (p *ColumnMetaData) IsSetKeyValueMetadata() bool {
-	return p.KeyValueMetadata != nil
-}
-
-func (p *ColumnMetaData) IsSetIndexPageOffset() bool {
-	return p.IndexPageOffset != nil
-}
-
-func (p *ColumnMetaData) IsSetDictionaryPageOffset() bool {
-	return p.DictionaryPageOffset != nil
-}
-
-func (p *ColumnMetaData) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *ColumnMetaData) IsSetEncodingStats() bool {
-	return p.EncodingStats != nil
-}
-
-func (p *ColumnMetaData) IsSetBloomFilterOffset() bool {
-	return p.BloomFilterOffset != nil
-}
-
-func (p *ColumnMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetType bool = false
-	var issetEncodings bool = false
-	var issetPathInSchema bool = false
-	var issetCodec bool = false
-	var issetNumValues bool = false
-	var issetTotalUncompressedSize bool = false
-	var issetTotalCompressedSize bool = false
-	var issetDataPageOffset bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncodings = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetPathInSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetCodec = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalUncompressedSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalCompressedSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-				issetDataPageOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 11:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField11(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 12:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField12(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 13:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField13(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 14:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField14(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Type is not set"))
-	}
-	if !issetEncodings {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encodings is not set"))
-	}
-	if !issetPathInSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PathInSchema is not set"))
-	}
-	if !issetCodec {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Codec is not set"))
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetTotalUncompressedSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalUncompressedSize is not set"))
-	}
-	if !issetTotalCompressedSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalCompressedSize is not set"))
-	}
-	if !issetDataPageOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DataPageOffset is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := Type(v)
-		p.Type = temp
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]Encoding, 0, size)
-	p.Encodings = tSlice
-	for i := 0; i < size; i++ {
-		var _elem0 Encoding
-		if v, err := iprot.ReadI32(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			temp := Encoding(v)
-			_elem0 = temp
-		}
-		p.Encodings = append(p.Encodings, _elem0)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]string, 0, size)
-	p.PathInSchema = tSlice
-	for i := 0; i < size; i++ {
-		var _elem1 string
-		if v, err := iprot.ReadString(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem1 = v
-		}
-		p.PathInSchema = append(p.PathInSchema, _elem1)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := CompressionCodec(v)
-		p.Codec = temp
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.TotalUncompressedSize = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.TotalCompressedSize = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*KeyValue, 0, size)
-	p.KeyValueMetadata = tSlice
-	for i := 0; i < size; i++ {
-		_elem2 := &KeyValue{}
-		if err := _elem2.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem2), err)
-		}
-		p.KeyValueMetadata = append(p.KeyValueMetadata, _elem2)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.DataPageOffset = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 10: ", err)
-	} else {
-		p.IndexPageOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField11(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 11: ", err)
-	} else {
-		p.DictionaryPageOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField12(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField13(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*PageEncodingStats, 0, size)
-	p.EncodingStats = tSlice
-	for i := 0; i < size; i++ {
-		_elem3 := &PageEncodingStats{}
-		if err := _elem3.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem3), err)
-		}
-		p.EncodingStats = append(p.EncodingStats, _elem3)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField14(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 14: ", err)
-	} else {
-		p.BloomFilterOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField11(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField12(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField13(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField14(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Type)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encodings", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encodings: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.I32, len(p.Encodings)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Encodings {
-		if err := oprot.WriteI32(ctx, int32(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encodings: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "path_in_schema", thrift.LIST, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:path_in_schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.PathInSchema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PathInSchema {
-		if err := oprot.WriteString(ctx, string(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:path_in_schema: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "codec", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:codec: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Codec)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.codec (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:codec: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I64, 5); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:num_values: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (5) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 5:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_uncompressed_size", thrift.I64, 6); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:total_uncompressed_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalUncompressedSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_uncompressed_size (6) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 6:total_uncompressed_size: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_compressed_size", thrift.I64, 7); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:total_compressed_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalCompressedSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_compressed_size (7) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 7:total_compressed_size: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyValueMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_value_metadata", thrift.LIST, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:key_value_metadata: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.KeyValueMetadata)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.KeyValueMetadata {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:key_value_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "data_page_offset", thrift.I64, 9); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:data_page_offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.DataPageOffset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.data_page_offset (9) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 9:data_page_offset: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIndexPageOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "index_page_offset", thrift.I64, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:index_page_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.IndexPageOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.index_page_offset (10) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:index_page_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField11(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDictionaryPageOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "dictionary_page_offset", thrift.I64, 11); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 11:dictionary_page_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.DictionaryPageOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.dictionary_page_offset (11) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 11:dictionary_page_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField12(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 12); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 12:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 12:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField13(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncodingStats() {
-		if err := oprot.WriteFieldBegin(ctx, "encoding_stats", thrift.LIST, 13); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 13:encoding_stats: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.EncodingStats)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.EncodingStats {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 13:encoding_stats: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField14(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBloomFilterOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "bloom_filter_offset", thrift.I64, 14); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 14:bloom_filter_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.BloomFilterOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.bloom_filter_offset (14) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 14:bloom_filter_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) Equals(other *ColumnMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		return false
-	}
-	if len(p.Encodings) != len(other.Encodings) {
-		return false
-	}
-	for i, _tgt := range p.Encodings {
-		_src4 := other.Encodings[i]
-		if _tgt != _src4 {
-			return false
-		}
-	}
-	if len(p.PathInSchema) != len(other.PathInSchema) {
-		return false
-	}
-	for i, _tgt := range p.PathInSchema {
-		_src5 := other.PathInSchema[i]
-		if _tgt != _src5 {
-			return false
-		}
-	}
-	if p.Codec != other.Codec {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.TotalUncompressedSize != other.TotalUncompressedSize {
-		return false
-	}
-	if p.TotalCompressedSize != other.TotalCompressedSize {
-		return false
-	}
-	if len(p.KeyValueMetadata) != len(other.KeyValueMetadata) {
-		return false
-	}
-	for i, _tgt := range p.KeyValueMetadata {
-		_src6 := other.KeyValueMetadata[i]
-		if !_tgt.Equals(_src6) {
-			return false
-		}
-	}
-	if p.DataPageOffset != other.DataPageOffset {
-		return false
-	}
-	if p.IndexPageOffset != other.IndexPageOffset {
-		if p.IndexPageOffset == nil || other.IndexPageOffset == nil {
-			return false
-		}
-		if (*p.IndexPageOffset) != (*other.IndexPageOffset) {
-			return false
-		}
-	}
-	if p.DictionaryPageOffset != other.DictionaryPageOffset {
-		if p.DictionaryPageOffset == nil || other.DictionaryPageOffset == nil {
-			return false
-		}
-		if (*p.DictionaryPageOffset) != (*other.DictionaryPageOffset) {
-			return false
-		}
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	if len(p.EncodingStats) != len(other.EncodingStats) {
-		return false
-	}
-	for i, _tgt := range p.EncodingStats {
-		_src7 := other.EncodingStats[i]
-		if !_tgt.Equals(_src7) {
-			return false
-		}
-	}
-	if p.BloomFilterOffset != other.BloomFilterOffset {
-		if p.BloomFilterOffset == nil || other.BloomFilterOffset == nil {
-			return false
-		}
-		if (*p.BloomFilterOffset) != (*other.BloomFilterOffset) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *ColumnMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnMetaData(%+v)", *p)
-}
-
-func (p *ColumnMetaData) Validate() error {
-	return nil
-}
-
-type EncryptionWithFooterKey struct {
-}
-
-func NewEncryptionWithFooterKey() *EncryptionWithFooterKey {
-	return &EncryptionWithFooterKey{}
-}
-
-func (p *EncryptionWithFooterKey) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithFooterKey) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EncryptionWithFooterKey"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithFooterKey) Equals(other *EncryptionWithFooterKey) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionWithFooterKey) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionWithFooterKey(%+v)", *p)
-}
-
-func (p *EncryptionWithFooterKey) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - PathInSchema: Column path in schema *
-//   - KeyMetadata: Retrieval metadata of column encryption key *
-type EncryptionWithColumnKey struct {
-	PathInSchema []string `thrift:"path_in_schema,1,required" db:"path_in_schema" json:"path_in_schema"`
-	KeyMetadata  []byte   `thrift:"key_metadata,2" db:"key_metadata" json:"key_metadata,omitempty"`
-}
-
-func NewEncryptionWithColumnKey() *EncryptionWithColumnKey {
-	return &EncryptionWithColumnKey{}
-}
-
-func (p *EncryptionWithColumnKey) GetPathInSchema() []string {
-	return p.PathInSchema
-}
-
-var EncryptionWithColumnKey_KeyMetadata_DEFAULT []byte
-
-func (p *EncryptionWithColumnKey) GetKeyMetadata() []byte {
-	return p.KeyMetadata
-}
-func (p *EncryptionWithColumnKey) IsSetKeyMetadata() bool {
-	return p.KeyMetadata != nil
-}
-
-func (p *EncryptionWithColumnKey) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPathInSchema bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPathInSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPathInSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PathInSchema is not set"))
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]string, 0, size)
-	p.PathInSchema = tSlice
-	for i := 0; i < size; i++ {
-		var _elem8 string
-		if v, err := iprot.ReadString(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem8 = v
-		}
-		p.PathInSchema = append(p.PathInSchema, _elem8)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.KeyMetadata = v
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EncryptionWithColumnKey"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "path_in_schema", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:path_in_schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.PathInSchema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PathInSchema {
-		if err := oprot.WriteString(ctx, string(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:path_in_schema: ", p), err)
-	}
-	return err
-}
-
-func (p *EncryptionWithColumnKey) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_metadata", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.KeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.key_metadata (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionWithColumnKey) Equals(other *EncryptionWithColumnKey) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.PathInSchema) != len(other.PathInSchema) {
-		return false
-	}
-	for i, _tgt := range p.PathInSchema {
-		_src9 := other.PathInSchema[i]
-		if _tgt != _src9 {
-			return false
-		}
-	}
-	if bytes.Compare(p.KeyMetadata, other.KeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionWithColumnKey) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionWithColumnKey(%+v)", *p)
-}
-
-func (p *EncryptionWithColumnKey) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - ENCRYPTION_WITH_FOOTER_KEY
-//   - ENCRYPTION_WITH_COLUMN_KEY
-type ColumnCryptoMetaData struct {
-	ENCRYPTION_WITH_FOOTER_KEY *EncryptionWithFooterKey `thrift:"ENCRYPTION_WITH_FOOTER_KEY,1" db:"ENCRYPTION_WITH_FOOTER_KEY" json:"ENCRYPTION_WITH_FOOTER_KEY,omitempty"`
-	ENCRYPTION_WITH_COLUMN_KEY *EncryptionWithColumnKey `thrift:"ENCRYPTION_WITH_COLUMN_KEY,2" db:"ENCRYPTION_WITH_COLUMN_KEY" json:"ENCRYPTION_WITH_COLUMN_KEY,omitempty"`
-}
-
-func NewColumnCryptoMetaData() *ColumnCryptoMetaData {
-	return &ColumnCryptoMetaData{}
-}
-
-var ColumnCryptoMetaData_ENCRYPTION_WITH_FOOTER_KEY_DEFAULT *EncryptionWithFooterKey
-
-func (p *ColumnCryptoMetaData) GetENCRYPTION_WITH_FOOTER_KEY() *EncryptionWithFooterKey {
-	if !p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		return ColumnCryptoMetaData_ENCRYPTION_WITH_FOOTER_KEY_DEFAULT
-	}
-	return p.ENCRYPTION_WITH_FOOTER_KEY
-}
-
-var ColumnCryptoMetaData_ENCRYPTION_WITH_COLUMN_KEY_DEFAULT *EncryptionWithColumnKey
-
-func (p *ColumnCryptoMetaData) GetENCRYPTION_WITH_COLUMN_KEY() *EncryptionWithColumnKey {
-	if !p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		return ColumnCryptoMetaData_ENCRYPTION_WITH_COLUMN_KEY_DEFAULT
-	}
-	return p.ENCRYPTION_WITH_COLUMN_KEY
-}
-func (p *ColumnCryptoMetaData) CountSetFieldsColumnCryptoMetaData() int {
-	count := 0
-	if p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		count++
-	}
-	if p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		count++
-	}
-	return count
-
-}
-
-func (p *ColumnCryptoMetaData) IsSetENCRYPTION_WITH_FOOTER_KEY() bool {
-	return p.ENCRYPTION_WITH_FOOTER_KEY != nil
-}
-
-func (p *ColumnCryptoMetaData) IsSetENCRYPTION_WITH_COLUMN_KEY() bool {
-	return p.ENCRYPTION_WITH_COLUMN_KEY != nil
-}
-
-func (p *ColumnCryptoMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENCRYPTION_WITH_FOOTER_KEY = &EncryptionWithFooterKey{}
-	if err := p.ENCRYPTION_WITH_FOOTER_KEY.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENCRYPTION_WITH_FOOTER_KEY), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENCRYPTION_WITH_COLUMN_KEY = &EncryptionWithColumnKey{}
-	if err := p.ENCRYPTION_WITH_COLUMN_KEY.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENCRYPTION_WITH_COLUMN_KEY), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsColumnCryptoMetaData(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "ColumnCryptoMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		if err := oprot.WriteFieldBegin(ctx, "ENCRYPTION_WITH_FOOTER_KEY", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:ENCRYPTION_WITH_FOOTER_KEY: ", p), err)
-		}
-		if err := p.ENCRYPTION_WITH_FOOTER_KEY.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENCRYPTION_WITH_FOOTER_KEY), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:ENCRYPTION_WITH_FOOTER_KEY: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnCryptoMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		if err := oprot.WriteFieldBegin(ctx, "ENCRYPTION_WITH_COLUMN_KEY", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:ENCRYPTION_WITH_COLUMN_KEY: ", p), err)
-		}
-		if err := p.ENCRYPTION_WITH_COLUMN_KEY.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENCRYPTION_WITH_COLUMN_KEY), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:ENCRYPTION_WITH_COLUMN_KEY: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnCryptoMetaData) Equals(other *ColumnCryptoMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.ENCRYPTION_WITH_FOOTER_KEY.Equals(other.ENCRYPTION_WITH_FOOTER_KEY) {
-		return false
-	}
-	if !p.ENCRYPTION_WITH_COLUMN_KEY.Equals(other.ENCRYPTION_WITH_COLUMN_KEY) {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnCryptoMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnCryptoMetaData(%+v)", *p)
-}
-
-func (p *ColumnCryptoMetaData) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - FilePath: File where column data is stored.  If not set, assumed to be same file as
-//
-// metadata.  This path is relative to the current file.
-//
-//   - FileOffset: Byte offset in file_path to the ColumnMetaData *
-//   - MetaData: Column metadata for this chunk. This is the same content as what is at
-//
-// file_path/file_offset.  Having it here has it replicated in the file
-// metadata.
-//
-//   - OffsetIndexOffset: File offset of ColumnChunk's OffsetIndex *
-//   - OffsetIndexLength: Size of ColumnChunk's OffsetIndex, in bytes *
-//   - ColumnIndexOffset: File offset of ColumnChunk's ColumnIndex *
-//   - ColumnIndexLength: Size of ColumnChunk's ColumnIndex, in bytes *
-//   - CryptoMetadata: Crypto metadata of encrypted columns *
-//   - EncryptedColumnMetadata: Encrypted column metadata for this chunk *
-type ColumnChunk struct {
-	FilePath                *string               `thrift:"file_path,1" db:"file_path" json:"file_path,omitempty"`
-	FileOffset              int64                 `thrift:"file_offset,2,required" db:"file_offset" json:"file_offset"`
-	MetaData                *ColumnMetaData       `thrift:"meta_data,3" db:"meta_data" json:"meta_data,omitempty"`
-	OffsetIndexOffset       *int64                `thrift:"offset_index_offset,4" db:"offset_index_offset" json:"offset_index_offset,omitempty"`
-	OffsetIndexLength       *int32                `thrift:"offset_index_length,5" db:"offset_index_length" json:"offset_index_length,omitempty"`
-	ColumnIndexOffset       *int64                `thrift:"column_index_offset,6" db:"column_index_offset" json:"column_index_offset,omitempty"`
-	ColumnIndexLength       *int32                `thrift:"column_index_length,7" db:"column_index_length" json:"column_index_length,omitempty"`
-	CryptoMetadata          *ColumnCryptoMetaData `thrift:"crypto_metadata,8" db:"crypto_metadata" json:"crypto_metadata,omitempty"`
-	EncryptedColumnMetadata []byte                `thrift:"encrypted_column_metadata,9" db:"encrypted_column_metadata" json:"encrypted_column_metadata,omitempty"`
-}
-
-func NewColumnChunk() *ColumnChunk {
-	return &ColumnChunk{}
-}
-
-var ColumnChunk_FilePath_DEFAULT string
-
-func (p *ColumnChunk) GetFilePath() string {
-	if !p.IsSetFilePath() {
-		return ColumnChunk_FilePath_DEFAULT
-	}
-	return *p.FilePath
-}
-
-func (p *ColumnChunk) GetFileOffset() int64 {
-	return p.FileOffset
-}
-
-var ColumnChunk_MetaData_DEFAULT *ColumnMetaData
-
-func (p *ColumnChunk) GetMetaData() *ColumnMetaData {
-	if !p.IsSetMetaData() {
-		return ColumnChunk_MetaData_DEFAULT
-	}
-	return p.MetaData
-}
-
-var ColumnChunk_OffsetIndexOffset_DEFAULT int64
-
-func (p *ColumnChunk) GetOffsetIndexOffset() int64 {
-	if !p.IsSetOffsetIndexOffset() {
-		return ColumnChunk_OffsetIndexOffset_DEFAULT
-	}
-	return *p.OffsetIndexOffset
-}
-
-var ColumnChunk_OffsetIndexLength_DEFAULT int32
-
-func (p *ColumnChunk) GetOffsetIndexLength() int32 {
-	if !p.IsSetOffsetIndexLength() {
-		return ColumnChunk_OffsetIndexLength_DEFAULT
-	}
-	return *p.OffsetIndexLength
-}
-
-var ColumnChunk_ColumnIndexOffset_DEFAULT int64
-
-func (p *ColumnChunk) GetColumnIndexOffset() int64 {
-	if !p.IsSetColumnIndexOffset() {
-		return ColumnChunk_ColumnIndexOffset_DEFAULT
-	}
-	return *p.ColumnIndexOffset
-}
-
-var ColumnChunk_ColumnIndexLength_DEFAULT int32
-
-func (p *ColumnChunk) GetColumnIndexLength() int32 {
-	if !p.IsSetColumnIndexLength() {
-		return ColumnChunk_ColumnIndexLength_DEFAULT
-	}
-	return *p.ColumnIndexLength
-}
-
-var ColumnChunk_CryptoMetadata_DEFAULT *ColumnCryptoMetaData
-
-func (p *ColumnChunk) GetCryptoMetadata() *ColumnCryptoMetaData {
-	if !p.IsSetCryptoMetadata() {
-		return ColumnChunk_CryptoMetadata_DEFAULT
-	}
-	return p.CryptoMetadata
-}
-
-var ColumnChunk_EncryptedColumnMetadata_DEFAULT []byte
-
-func (p *ColumnChunk) GetEncryptedColumnMetadata() []byte {
-	return p.EncryptedColumnMetadata
-}
-func (p *ColumnChunk) IsSetFilePath() bool {
-	return p.FilePath != nil
-}
-
-func (p *ColumnChunk) IsSetMetaData() bool {
-	return p.MetaData != nil
-}
-
-func (p *ColumnChunk) IsSetOffsetIndexOffset() bool {
-	return p.OffsetIndexOffset != nil
-}
-
-func (p *ColumnChunk) IsSetOffsetIndexLength() bool {
-	return p.OffsetIndexLength != nil
-}
-
-func (p *ColumnChunk) IsSetColumnIndexOffset() bool {
-	return p.ColumnIndexOffset != nil
-}
-
-func (p *ColumnChunk) IsSetColumnIndexLength() bool {
-	return p.ColumnIndexLength != nil
-}
-
-func (p *ColumnChunk) IsSetCryptoMetadata() bool {
-	return p.CryptoMetadata != nil
-}
-
-func (p *ColumnChunk) IsSetEncryptedColumnMetadata() bool {
-	return p.EncryptedColumnMetadata != nil
-}
-
-func (p *ColumnChunk) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetFileOffset bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetFileOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetFileOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field FileOffset is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.FilePath = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.FileOffset = v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MetaData = &ColumnMetaData{}
-	if err := p.MetaData.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MetaData), err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.OffsetIndexOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.OffsetIndexLength = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.ColumnIndexOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.ColumnIndexLength = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.CryptoMetadata = &ColumnCryptoMetaData{}
-	if err := p.CryptoMetadata.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.CryptoMetadata), err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.EncryptedColumnMetadata = v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnChunk"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFilePath() {
-		if err := oprot.WriteFieldBegin(ctx, "file_path", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:file_path: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.FilePath)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.file_path (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:file_path: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "file_offset", thrift.I64, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:file_offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.FileOffset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.file_offset (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:file_offset: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMetaData() {
-		if err := oprot.WriteFieldBegin(ctx, "meta_data", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:meta_data: ", p), err)
-		}
-		if err := p.MetaData.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MetaData), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:meta_data: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOffsetIndexOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "offset_index_offset", thrift.I64, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:offset_index_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.OffsetIndexOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.offset_index_offset (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:offset_index_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOffsetIndexLength() {
-		if err := oprot.WriteFieldBegin(ctx, "offset_index_length", thrift.I32, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:offset_index_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.OffsetIndexLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.offset_index_length (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:offset_index_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnIndexOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "column_index_offset", thrift.I64, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:column_index_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.ColumnIndexOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.column_index_offset (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:column_index_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnIndexLength() {
-		if err := oprot.WriteFieldBegin(ctx, "column_index_length", thrift.I32, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:column_index_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.ColumnIndexLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.column_index_length (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:column_index_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCryptoMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "crypto_metadata", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:crypto_metadata: ", p), err)
-		}
-		if err := p.CryptoMetadata.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.CryptoMetadata), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:crypto_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncryptedColumnMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "encrypted_column_metadata", thrift.STRING, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:encrypted_column_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.EncryptedColumnMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.encrypted_column_metadata (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:encrypted_column_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) Equals(other *ColumnChunk) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.FilePath != other.FilePath {
-		if p.FilePath == nil || other.FilePath == nil {
-			return false
-		}
-		if (*p.FilePath) != (*other.FilePath) {
-			return false
-		}
-	}
-	if p.FileOffset != other.FileOffset {
-		return false
-	}
-	if !p.MetaData.Equals(other.MetaData) {
-		return false
-	}
-	if p.OffsetIndexOffset != other.OffsetIndexOffset {
-		if p.OffsetIndexOffset == nil || other.OffsetIndexOffset == nil {
-			return false
-		}
-		if (*p.OffsetIndexOffset) != (*other.OffsetIndexOffset) {
-			return false
-		}
-	}
-	if p.OffsetIndexLength != other.OffsetIndexLength {
-		if p.OffsetIndexLength == nil || other.OffsetIndexLength == nil {
-			return false
-		}
-		if (*p.OffsetIndexLength) != (*other.OffsetIndexLength) {
-			return false
-		}
-	}
-	if p.ColumnIndexOffset != other.ColumnIndexOffset {
-		if p.ColumnIndexOffset == nil || other.ColumnIndexOffset == nil {
-			return false
-		}
-		if (*p.ColumnIndexOffset) != (*other.ColumnIndexOffset) {
-			return false
-		}
-	}
-	if p.ColumnIndexLength != other.ColumnIndexLength {
-		if p.ColumnIndexLength == nil || other.ColumnIndexLength == nil {
-			return false
-		}
-		if (*p.ColumnIndexLength) != (*other.ColumnIndexLength) {
-			return false
-		}
-	}
-	if !p.CryptoMetadata.Equals(other.CryptoMetadata) {
-		return false
-	}
-	if bytes.Compare(p.EncryptedColumnMetadata, other.EncryptedColumnMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnChunk) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnChunk(%+v)", *p)
-}
-
-func (p *ColumnChunk) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - Columns: Metadata for each column chunk in this row group.
-//
-// This list must have the same order as the SchemaElement list in FileMetaData.
-//
-//   - TotalByteSize: Total byte size of all the uncompressed column data in this row group *
-//   - NumRows: Number of rows in this row group *
-//   - SortingColumns: If set, specifies a sort ordering of the rows in this RowGroup.
-//
-// The sorting columns can be a subset of all the columns.
-//   - FileOffset: Byte offset from beginning of file to first page (data or dictionary)
-//
-// in this row group *
-//   - TotalCompressedSize: Total byte size of all compressed (and potentially encrypted) column data
-//
-// in this row group *
-//   - Ordinal: Row group ordinal in the file *
-type RowGroup struct {
-	Columns             []*ColumnChunk   `thrift:"columns,1,required" db:"columns" json:"columns"`
-	TotalByteSize       int64            `thrift:"total_byte_size,2,required" db:"total_byte_size" json:"total_byte_size"`
-	NumRows             int64            `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	SortingColumns      []*SortingColumn `thrift:"sorting_columns,4" db:"sorting_columns" json:"sorting_columns,omitempty"`
-	FileOffset          *int64           `thrift:"file_offset,5" db:"file_offset" json:"file_offset,omitempty"`
-	TotalCompressedSize *int64           `thrift:"total_compressed_size,6" db:"total_compressed_size" json:"total_compressed_size,omitempty"`
-	Ordinal             *int16           `thrift:"ordinal,7" db:"ordinal" json:"ordinal,omitempty"`
-}
-
-func NewRowGroup() *RowGroup {
-	return &RowGroup{}
-}
-
-func (p *RowGroup) GetColumns() []*ColumnChunk {
-	return p.Columns
-}
-
-func (p *RowGroup) GetTotalByteSize() int64 {
-	return p.TotalByteSize
-}
-
-func (p *RowGroup) GetNumRows() int64 {
-	return p.NumRows
-}
-
-var RowGroup_SortingColumns_DEFAULT []*SortingColumn
-
-func (p *RowGroup) GetSortingColumns() []*SortingColumn {
-	return p.SortingColumns
-}
-
-var RowGroup_FileOffset_DEFAULT int64
-
-func (p *RowGroup) GetFileOffset() int64 {
-	if !p.IsSetFileOffset() {
-		return RowGroup_FileOffset_DEFAULT
-	}
-	return *p.FileOffset
-}
-
-var RowGroup_TotalCompressedSize_DEFAULT int64
-
-func (p *RowGroup) GetTotalCompressedSize() int64 {
-	if !p.IsSetTotalCompressedSize() {
-		return RowGroup_TotalCompressedSize_DEFAULT
-	}
-	return *p.TotalCompressedSize
-}
-
-var RowGroup_Ordinal_DEFAULT int16
-
-func (p *RowGroup) GetOrdinal() int16 {
-	if !p.IsSetOrdinal() {
-		return RowGroup_Ordinal_DEFAULT
-	}
-	return *p.Ordinal
-}
-func (p *RowGroup) IsSetSortingColumns() bool {
-	return p.SortingColumns != nil
-}
-
-func (p *RowGroup) IsSetFileOffset() bool {
-	return p.FileOffset != nil
-}
-
-func (p *RowGroup) IsSetTotalCompressedSize() bool {
-	return p.TotalCompressedSize != nil
-}
-
-func (p *RowGroup) IsSetOrdinal() bool {
-	return p.Ordinal != nil
-}
-
-func (p *RowGroup) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetColumns bool = false
-	var issetTotalByteSize bool = false
-	var issetNumRows bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetColumns = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalByteSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I16 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetColumns {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Columns is not set"))
-	}
-	if !issetTotalByteSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalByteSize is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*ColumnChunk, 0, size)
-	p.Columns = tSlice
-	for i := 0; i < size; i++ {
-		_elem10 := &ColumnChunk{}
-		if err := _elem10.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem10), err)
-		}
-		p.Columns = append(p.Columns, _elem10)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.TotalByteSize = v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*SortingColumn, 0, size)
-	p.SortingColumns = tSlice
-	for i := 0; i < size; i++ {
-		_elem11 := &SortingColumn{}
-		if err := _elem11.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem11), err)
-		}
-		p.SortingColumns = append(p.SortingColumns, _elem11)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.FileOffset = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.TotalCompressedSize = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI16(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.Ordinal = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "RowGroup"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "columns", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:columns: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.Columns)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Columns {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:columns: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_byte_size", thrift.I64, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:total_byte_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalByteSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_byte_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:total_byte_size: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSortingColumns() {
-		if err := oprot.WriteFieldBegin(ctx, "sorting_columns", thrift.LIST, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:sorting_columns: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.SortingColumns)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.SortingColumns {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:sorting_columns: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFileOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "file_offset", thrift.I64, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:file_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.FileOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.file_offset (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:file_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTotalCompressedSize() {
-		if err := oprot.WriteFieldBegin(ctx, "total_compressed_size", thrift.I64, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:total_compressed_size: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.TotalCompressedSize)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.total_compressed_size (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:total_compressed_size: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOrdinal() {
-		if err := oprot.WriteFieldBegin(ctx, "ordinal", thrift.I16, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:ordinal: ", p), err)
-		}
-		if err := oprot.WriteI16(ctx, int16(*p.Ordinal)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.ordinal (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:ordinal: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) Equals(other *RowGroup) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.Columns) != len(other.Columns) {
-		return false
-	}
-	for i, _tgt := range p.Columns {
-		_src12 := other.Columns[i]
-		if !_tgt.Equals(_src12) {
-			return false
-		}
-	}
-	if p.TotalByteSize != other.TotalByteSize {
-		return false
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if len(p.SortingColumns) != len(other.SortingColumns) {
-		return false
-	}
-	for i, _tgt := range p.SortingColumns {
-		_src13 := other.SortingColumns[i]
-		if !_tgt.Equals(_src13) {
-			return false
-		}
-	}
-	if p.FileOffset != other.FileOffset {
-		if p.FileOffset == nil || other.FileOffset == nil {
-			return false
-		}
-		if (*p.FileOffset) != (*other.FileOffset) {
-			return false
-		}
-	}
-	if p.TotalCompressedSize != other.TotalCompressedSize {
-		if p.TotalCompressedSize == nil || other.TotalCompressedSize == nil {
-			return false
-		}
-		if (*p.TotalCompressedSize) != (*other.TotalCompressedSize) {
-			return false
-		}
-	}
-	if p.Ordinal != other.Ordinal {
-		if p.Ordinal == nil || other.Ordinal == nil {
-			return false
-		}
-		if (*p.Ordinal) != (*other.Ordinal) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *RowGroup) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("RowGroup(%+v)", *p)
-}
-
-func (p *RowGroup) Validate() error {
-	return nil
-}
-
-// Empty struct to signal the order defined by the physical or logical type
-type TypeDefinedOrder struct {
-}
-
-func NewTypeDefinedOrder() *TypeDefinedOrder {
-	return &TypeDefinedOrder{}
-}
-
-func (p *TypeDefinedOrder) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *TypeDefinedOrder) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TypeDefinedOrder"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TypeDefinedOrder) Equals(other *TypeDefinedOrder) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *TypeDefinedOrder) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TypeDefinedOrder(%+v)", *p)
-}
-
-func (p *TypeDefinedOrder) Validate() error {
-	return nil
-}
-
-// Union to specify the order used for the min_value and max_value fields for a
-// column. This union takes the role of an enhanced enum that allows rich
-// elements (which will be needed for a collation-based ordering in the future).
-//
-// Possible values are:
-//   - TypeDefinedOrder - the column uses the order defined by its logical or
-//     physical type (if there is no logical type).
-//
-// If the reader does not support the value of this union, min and max stats
-// for this column should be ignored.
-//
-// Attributes:
-//   - TYPE_ORDER: The sort orders for logical types are:
-//     UTF8 - unsigned byte-wise comparison
-//     INT8 - signed comparison
-//     INT16 - signed comparison
-//     INT32 - signed comparison
-//     INT64 - signed comparison
-//     UINT8 - unsigned comparison
-//     UINT16 - unsigned comparison
-//     UINT32 - unsigned comparison
-//     UINT64 - unsigned comparison
-//     DECIMAL - signed comparison of the represented value
-//     DATE - signed comparison
-//     TIME_MILLIS - signed comparison
-//     TIME_MICROS - signed comparison
-//     TIMESTAMP_MILLIS - signed comparison
-//     TIMESTAMP_MICROS - signed comparison
-//     INTERVAL - unsigned comparison
-//     JSON - unsigned byte-wise comparison
-//     BSON - unsigned byte-wise comparison
-//     ENUM - unsigned byte-wise comparison
-//     LIST - undefined
-//     MAP - undefined
-//
-// In the absence of logical types, the sort order is determined by the physical type:
-//
-//	BOOLEAN - false, true
-//	INT32 - signed comparison
-//	INT64 - signed comparison
-//	INT96 (only used for legacy timestamps) - undefined
-//	FLOAT - signed comparison of the represented value (*)
-//	DOUBLE - signed comparison of the represented value (*)
-//	BYTE_ARRAY - unsigned byte-wise comparison
-//	FIXED_LEN_BYTE_ARRAY - unsigned byte-wise comparison
-//
-// (*) Because the sorting order is not specified properly for floating
-//
-//	point values (relations vs. total ordering) the following
-//	compatibility rules should be applied when reading statistics:
-//	- If the min is a NaN, it should be ignored.
-//	- If the max is a NaN, it should be ignored.
-//	- If the min is +0, the row group may contain -0 values as well.
-//	- If the max is -0, the row group may contain +0 values as well.
-//	- When looking for NaN values, min and max should be ignored.
-//
-//	When writing statistics the following rules should be followed:
-//	- NaNs should not be written to min or max statistics fields.
-//	- If the computed max value is zero (whether negative or positive),
-//	  `+0.0` should be written into the max statistics field.
-//	- If the computed min value is zero (whether negative or positive),
-//	  `-0.0` should be written into the min statistics field.
-type ColumnOrder struct {
-	TYPE_ORDER *TypeDefinedOrder `thrift:"TYPE_ORDER,1" db:"TYPE_ORDER" json:"TYPE_ORDER,omitempty"`
-}
-
-func NewColumnOrder() *ColumnOrder {
-	return &ColumnOrder{}
-}
-
-var ColumnOrder_TYPE_ORDER_DEFAULT *TypeDefinedOrder
-
-func (p *ColumnOrder) GetTYPE_ORDER() *TypeDefinedOrder {
-	if !p.IsSetTYPE_ORDER() {
-		return ColumnOrder_TYPE_ORDER_DEFAULT
-	}
-	return p.TYPE_ORDER
-}
-func (p *ColumnOrder) CountSetFieldsColumnOrder() int {
-	count := 0
-	if p.IsSetTYPE_ORDER() {
-		count++
-	}
-	return count
-
-}
-
-func (p *ColumnOrder) IsSetTYPE_ORDER() bool {
-	return p.TYPE_ORDER != nil
-}
-
-func (p *ColumnOrder) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TYPE_ORDER = &TypeDefinedOrder{}
-	if err := p.TYPE_ORDER.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TYPE_ORDER), err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsColumnOrder(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "ColumnOrder"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTYPE_ORDER() {
-		if err := oprot.WriteFieldBegin(ctx, "TYPE_ORDER", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:TYPE_ORDER: ", p), err)
-		}
-		if err := p.TYPE_ORDER.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TYPE_ORDER), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:TYPE_ORDER: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnOrder) Equals(other *ColumnOrder) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.TYPE_ORDER.Equals(other.TYPE_ORDER) {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnOrder) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnOrder(%+v)", *p)
-}
-
-func (p *ColumnOrder) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - Offset: Offset of the page in the file *
-//   - CompressedPageSize: Size of the page, including header. Sum of compressed_page_size and header
-//
-// length
-//   - FirstRowIndex: Index within the RowGroup of the first row of the page; this means pages
-//
-// change on record boundaries (r = 0).
-type PageLocation struct {
-	Offset             int64 `thrift:"offset,1,required" db:"offset" json:"offset"`
-	CompressedPageSize int32 `thrift:"compressed_page_size,2,required" db:"compressed_page_size" json:"compressed_page_size"`
-	FirstRowIndex      int64 `thrift:"first_row_index,3,required" db:"first_row_index" json:"first_row_index"`
-}
-
-func NewPageLocation() *PageLocation {
-	return &PageLocation{}
-}
-
-func (p *PageLocation) GetOffset() int64 {
-	return p.Offset
-}
-
-func (p *PageLocation) GetCompressedPageSize() int32 {
-	return p.CompressedPageSize
-}
-
-func (p *PageLocation) GetFirstRowIndex() int64 {
-	return p.FirstRowIndex
-}
-func (p *PageLocation) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetOffset bool = false
-	var issetCompressedPageSize bool = false
-	var issetFirstRowIndex bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetFirstRowIndex = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Offset is not set"))
-	}
-	if !issetCompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field CompressedPageSize is not set"))
-	}
-	if !issetFirstRowIndex {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field FirstRowIndex is not set"))
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Offset = v
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.CompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.FirstRowIndex = v
-	}
-	return nil
-}
-
-func (p *PageLocation) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageLocation"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageLocation) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "offset", thrift.I64, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.Offset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.offset (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:offset: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compressed_page_size", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:compressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.CompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.compressed_page_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:compressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "first_row_index", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:first_row_index: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.FirstRowIndex)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.first_row_index (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:first_row_index: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) Equals(other *PageLocation) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Offset != other.Offset {
-		return false
-	}
-	if p.CompressedPageSize != other.CompressedPageSize {
-		return false
-	}
-	if p.FirstRowIndex != other.FirstRowIndex {
-		return false
-	}
-	return true
-}
-
-func (p *PageLocation) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageLocation(%+v)", *p)
-}
-
-func (p *PageLocation) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - PageLocations: PageLocations, ordered by increasing PageLocation.offset. It is required
-//
-// that page_locations[i].first_row_index < page_locations[i+1].first_row_index.
-type OffsetIndex struct {
-	PageLocations []*PageLocation `thrift:"page_locations,1,required" db:"page_locations" json:"page_locations"`
-}
-
-func NewOffsetIndex() *OffsetIndex {
-	return &OffsetIndex{}
-}
-
-func (p *OffsetIndex) GetPageLocations() []*PageLocation {
-	return p.PageLocations
-}
-func (p *OffsetIndex) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPageLocations bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPageLocations = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPageLocations {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PageLocations is not set"))
-	}
-	return nil
-}
-
-func (p *OffsetIndex) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*PageLocation, 0, size)
-	p.PageLocations = tSlice
-	for i := 0; i < size; i++ {
-		_elem14 := &PageLocation{}
-		if err := _elem14.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem14), err)
-		}
-		p.PageLocations = append(p.PageLocations, _elem14)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *OffsetIndex) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "OffsetIndex"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *OffsetIndex) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "page_locations", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:page_locations: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.PageLocations)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PageLocations {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:page_locations: ", p), err)
-	}
-	return err
-}
-
-func (p *OffsetIndex) Equals(other *OffsetIndex) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.PageLocations) != len(other.PageLocations) {
-		return false
-	}
-	for i, _tgt := range p.PageLocations {
-		_src15 := other.PageLocations[i]
-		if !_tgt.Equals(_src15) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *OffsetIndex) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("OffsetIndex(%+v)", *p)
-}
-
-func (p *OffsetIndex) Validate() error {
-	return nil
-}
-
-// Description for ColumnIndex.
-// Each <array-field>[i] refers to the page at OffsetIndex.page_locations[i]
-//
-// Attributes:
-//   - NullPages: A list of Boolean values to determine the validity of the corresponding
-//
-// min and max values. If true, a page contains only null values, and writers
-// have to set the corresponding entries in min_values and max_values to
-// byte[0], so that all lists have the same length. If false, the
-// corresponding entries in min_values and max_values must be valid.
-//   - MinValues: Two lists containing lower and upper bounds for the values of each page
-//
-// determined by the ColumnOrder of the column. These may be the actual
-// minimum and maximum values found on a page, but can also be (more compact)
-// values that do not exist on a page. For example, instead of storing ""Blart
-// Versenwald III", a writer may set min_values[i]="B", max_values[i]="C".
-// Such more compact values must still be valid values within the column's
-// logical type. Readers must make sure that list entries are populated before
-// using them by inspecting null_pages.
-//   - MaxValues
-//   - BoundaryOrder: Stores whether both min_values and max_values are ordered and if so, in
-//
-// which direction. This allows readers to perform binary searches in both
-// lists. Readers cannot assume that max_values[i] <= min_values[i+1], even
-// if the lists are ordered.
-//   - NullCounts: A list containing the number of null values for each page *
-type ColumnIndex struct {
-	NullPages     []bool        `thrift:"null_pages,1,required" db:"null_pages" json:"null_pages"`
-	MinValues     [][]byte      `thrift:"min_values,2,required" db:"min_values" json:"min_values"`
-	MaxValues     [][]byte      `thrift:"max_values,3,required" db:"max_values" json:"max_values"`
-	BoundaryOrder BoundaryOrder `thrift:"boundary_order,4,required" db:"boundary_order" json:"boundary_order"`
-	NullCounts    []int64       `thrift:"null_counts,5" db:"null_counts" json:"null_counts,omitempty"`
-}
-
-func NewColumnIndex() *ColumnIndex {
-	return &ColumnIndex{}
-}
-
-func (p *ColumnIndex) GetNullPages() []bool {
-	return p.NullPages
-}
-
-func (p *ColumnIndex) GetMinValues() [][]byte {
-	return p.MinValues
-}
-
-func (p *ColumnIndex) GetMaxValues() [][]byte {
-	return p.MaxValues
-}
-
-func (p *ColumnIndex) GetBoundaryOrder() BoundaryOrder {
-	return p.BoundaryOrder
-}
-
-var ColumnIndex_NullCounts_DEFAULT []int64
-
-func (p *ColumnIndex) GetNullCounts() []int64 {
-	return p.NullCounts
-}
-func (p *ColumnIndex) IsSetNullCounts() bool {
-	return p.NullCounts != nil
-}
-
-func (p *ColumnIndex) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNullPages bool = false
-	var issetMinValues bool = false
-	var issetMaxValues bool = false
-	var issetBoundaryOrder bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNullPages = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetMinValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetMaxValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetBoundaryOrder = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNullPages {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NullPages is not set"))
-	}
-	if !issetMinValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field MinValues is not set"))
-	}
-	if !issetMaxValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field MaxValues is not set"))
-	}
-	if !issetBoundaryOrder {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field BoundaryOrder is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]bool, 0, size)
-	p.NullPages = tSlice
-	for i := 0; i < size; i++ {
-		var _elem16 bool
-		if v, err := iprot.ReadBool(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem16 = v
-		}
-		p.NullPages = append(p.NullPages, _elem16)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([][]byte, 0, size)
-	p.MinValues = tSlice
-	for i := 0; i < size; i++ {
-		var _elem17 []byte
-		if v, err := iprot.ReadBinary(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem17 = v
-		}
-		p.MinValues = append(p.MinValues, _elem17)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([][]byte, 0, size)
-	p.MaxValues = tSlice
-	for i := 0; i < size; i++ {
-		var _elem18 []byte
-		if v, err := iprot.ReadBinary(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem18 = v
-		}
-		p.MaxValues = append(p.MaxValues, _elem18)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := BoundaryOrder(v)
-		p.BoundaryOrder = temp
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]int64, 0, size)
-	p.NullCounts = tSlice
-	for i := 0; i < size; i++ {
-		var _elem19 int64
-		if v, err := iprot.ReadI64(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem19 = v
-		}
-		p.NullCounts = append(p.NullCounts, _elem19)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnIndex"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "null_pages", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:null_pages: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.BOOL, len(p.NullPages)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.NullPages {
-		if err := oprot.WriteBool(ctx, bool(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:null_pages: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "min_values", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:min_values: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.MinValues)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.MinValues {
-		if err := oprot.WriteBinary(ctx, v); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:min_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "max_values", thrift.LIST, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:max_values: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.MaxValues)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.MaxValues {
-		if err := oprot.WriteBinary(ctx, v); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:max_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "boundary_order", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:boundary_order: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.BoundaryOrder)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.boundary_order (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:boundary_order: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNullCounts() {
-		if err := oprot.WriteFieldBegin(ctx, "null_counts", thrift.LIST, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:null_counts: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.I64, len(p.NullCounts)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.NullCounts {
-			if err := oprot.WriteI64(ctx, int64(v)); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:null_counts: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnIndex) Equals(other *ColumnIndex) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.NullPages) != len(other.NullPages) {
-		return false
-	}
-	for i, _tgt := range p.NullPages {
-		_src20 := other.NullPages[i]
-		if _tgt != _src20 {
-			return false
-		}
-	}
-	if len(p.MinValues) != len(other.MinValues) {
-		return false
-	}
-	for i, _tgt := range p.MinValues {
-		_src21 := other.MinValues[i]
-		if bytes.Compare(_tgt, _src21) != 0 {
-			return false
-		}
-	}
-	if len(p.MaxValues) != len(other.MaxValues) {
-		return false
-	}
-	for i, _tgt := range p.MaxValues {
-		_src22 := other.MaxValues[i]
-		if bytes.Compare(_tgt, _src22) != 0 {
-			return false
-		}
-	}
-	if p.BoundaryOrder != other.BoundaryOrder {
-		return false
-	}
-	if len(p.NullCounts) != len(other.NullCounts) {
-		return false
-	}
-	for i, _tgt := range p.NullCounts {
-		_src23 := other.NullCounts[i]
-		if _tgt != _src23 {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *ColumnIndex) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnIndex(%+v)", *p)
-}
-
-func (p *ColumnIndex) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AadPrefix: AAD prefix *
-//   - AadFileUnique: Unique file identifier part of AAD suffix *
-//   - SupplyAadPrefix: In files encrypted with AAD prefix without storing it,
-//
-// readers must supply the prefix *
-type AesGcmV1 struct {
-	AadPrefix       []byte `thrift:"aad_prefix,1" db:"aad_prefix" json:"aad_prefix,omitempty"`
-	AadFileUnique   []byte `thrift:"aad_file_unique,2" db:"aad_file_unique" json:"aad_file_unique,omitempty"`
-	SupplyAadPrefix *bool  `thrift:"supply_aad_prefix,3" db:"supply_aad_prefix" json:"supply_aad_prefix,omitempty"`
-}
-
-func NewAesGcmV1() *AesGcmV1 {
-	return &AesGcmV1{}
-}
-
-var AesGcmV1_AadPrefix_DEFAULT []byte
-
-func (p *AesGcmV1) GetAadPrefix() []byte {
-	return p.AadPrefix
-}
-
-var AesGcmV1_AadFileUnique_DEFAULT []byte
-
-func (p *AesGcmV1) GetAadFileUnique() []byte {
-	return p.AadFileUnique
-}
-
-var AesGcmV1_SupplyAadPrefix_DEFAULT bool
-
-func (p *AesGcmV1) GetSupplyAadPrefix() bool {
-	if !p.IsSetSupplyAadPrefix() {
-		return AesGcmV1_SupplyAadPrefix_DEFAULT
-	}
-	return *p.SupplyAadPrefix
-}
-func (p *AesGcmV1) IsSetAadPrefix() bool {
-	return p.AadPrefix != nil
-}
-
-func (p *AesGcmV1) IsSetAadFileUnique() bool {
-	return p.AadFileUnique != nil
-}
-
-func (p *AesGcmV1) IsSetSupplyAadPrefix() bool {
-	return p.SupplyAadPrefix != nil
-}
-
-func (p *AesGcmV1) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.AadPrefix = v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.AadFileUnique = v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.SupplyAadPrefix = &v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "AesGcmV1"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *AesGcmV1) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_prefix", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadPrefix); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_prefix (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadFileUnique() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_file_unique", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:aad_file_unique: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadFileUnique); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_file_unique (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:aad_file_unique: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSupplyAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "supply_aad_prefix", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:supply_aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.SupplyAadPrefix)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.supply_aad_prefix (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:supply_aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) Equals(other *AesGcmV1) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.AadPrefix, other.AadPrefix) != 0 {
-		return false
-	}
-	if bytes.Compare(p.AadFileUnique, other.AadFileUnique) != 0 {
-		return false
-	}
-	if p.SupplyAadPrefix != other.SupplyAadPrefix {
-		if p.SupplyAadPrefix == nil || other.SupplyAadPrefix == nil {
-			return false
-		}
-		if (*p.SupplyAadPrefix) != (*other.SupplyAadPrefix) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *AesGcmV1) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("AesGcmV1(%+v)", *p)
-}
-
-func (p *AesGcmV1) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AadPrefix: AAD prefix *
-//   - AadFileUnique: Unique file identifier part of AAD suffix *
-//   - SupplyAadPrefix: In files encrypted with AAD prefix without storing it,
-//
-// readers must supply the prefix *
-type AesGcmCtrV1 struct {
-	AadPrefix       []byte `thrift:"aad_prefix,1" db:"aad_prefix" json:"aad_prefix,omitempty"`
-	AadFileUnique   []byte `thrift:"aad_file_unique,2" db:"aad_file_unique" json:"aad_file_unique,omitempty"`
-	SupplyAadPrefix *bool  `thrift:"supply_aad_prefix,3" db:"supply_aad_prefix" json:"supply_aad_prefix,omitempty"`
-}
-
-func NewAesGcmCtrV1() *AesGcmCtrV1 {
-	return &AesGcmCtrV1{}
-}
-
-var AesGcmCtrV1_AadPrefix_DEFAULT []byte
-
-func (p *AesGcmCtrV1) GetAadPrefix() []byte {
-	return p.AadPrefix
-}
-
-var AesGcmCtrV1_AadFileUnique_DEFAULT []byte
-
-func (p *AesGcmCtrV1) GetAadFileUnique() []byte {
-	return p.AadFileUnique
-}
-
-var AesGcmCtrV1_SupplyAadPrefix_DEFAULT bool
-
-func (p *AesGcmCtrV1) GetSupplyAadPrefix() bool {
-	if !p.IsSetSupplyAadPrefix() {
-		return AesGcmCtrV1_SupplyAadPrefix_DEFAULT
-	}
-	return *p.SupplyAadPrefix
-}
-func (p *AesGcmCtrV1) IsSetAadPrefix() bool {
-	return p.AadPrefix != nil
-}
-
-func (p *AesGcmCtrV1) IsSetAadFileUnique() bool {
-	return p.AadFileUnique != nil
-}
-
-func (p *AesGcmCtrV1) IsSetSupplyAadPrefix() bool {
-	return p.SupplyAadPrefix != nil
-}
-
-func (p *AesGcmCtrV1) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.AadPrefix = v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.AadFileUnique = v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.SupplyAadPrefix = &v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "AesGcmCtrV1"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_prefix", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadPrefix); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_prefix (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadFileUnique() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_file_unique", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:aad_file_unique: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadFileUnique); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_file_unique (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:aad_file_unique: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSupplyAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "supply_aad_prefix", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:supply_aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.SupplyAadPrefix)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.supply_aad_prefix (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:supply_aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) Equals(other *AesGcmCtrV1) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.AadPrefix, other.AadPrefix) != 0 {
-		return false
-	}
-	if bytes.Compare(p.AadFileUnique, other.AadFileUnique) != 0 {
-		return false
-	}
-	if p.SupplyAadPrefix != other.SupplyAadPrefix {
-		if p.SupplyAadPrefix == nil || other.SupplyAadPrefix == nil {
-			return false
-		}
-		if (*p.SupplyAadPrefix) != (*other.SupplyAadPrefix) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *AesGcmCtrV1) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("AesGcmCtrV1(%+v)", *p)
-}
-
-func (p *AesGcmCtrV1) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AES_GCM_V1
-//   - AES_GCM_CTR_V1
-type EncryptionAlgorithm struct {
-	AES_GCM_V1     *AesGcmV1    `thrift:"AES_GCM_V1,1" db:"AES_GCM_V1" json:"AES_GCM_V1,omitempty"`
-	AES_GCM_CTR_V1 *AesGcmCtrV1 `thrift:"AES_GCM_CTR_V1,2" db:"AES_GCM_CTR_V1" json:"AES_GCM_CTR_V1,omitempty"`
-}
-
-func NewEncryptionAlgorithm() *EncryptionAlgorithm {
-	return &EncryptionAlgorithm{}
-}
-
-var EncryptionAlgorithm_AES_GCM_V1_DEFAULT *AesGcmV1
-
-func (p *EncryptionAlgorithm) GetAES_GCM_V1() *AesGcmV1 {
-	if !p.IsSetAES_GCM_V1() {
-		return EncryptionAlgorithm_AES_GCM_V1_DEFAULT
-	}
-	return p.AES_GCM_V1
-}
-
-var EncryptionAlgorithm_AES_GCM_CTR_V1_DEFAULT *AesGcmCtrV1
-
-func (p *EncryptionAlgorithm) GetAES_GCM_CTR_V1() *AesGcmCtrV1 {
-	if !p.IsSetAES_GCM_CTR_V1() {
-		return EncryptionAlgorithm_AES_GCM_CTR_V1_DEFAULT
-	}
-	return p.AES_GCM_CTR_V1
-}
-func (p *EncryptionAlgorithm) CountSetFieldsEncryptionAlgorithm() int {
-	count := 0
-	if p.IsSetAES_GCM_V1() {
-		count++
-	}
-	if p.IsSetAES_GCM_CTR_V1() {
-		count++
-	}
-	return count
-
-}
-
-func (p *EncryptionAlgorithm) IsSetAES_GCM_V1() bool {
-	return p.AES_GCM_V1 != nil
-}
-
-func (p *EncryptionAlgorithm) IsSetAES_GCM_CTR_V1() bool {
-	return p.AES_GCM_CTR_V1 != nil
-}
-
-func (p *EncryptionAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.AES_GCM_V1 = &AesGcmV1{}
-	if err := p.AES_GCM_V1.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.AES_GCM_V1), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.AES_GCM_CTR_V1 = &AesGcmCtrV1{}
-	if err := p.AES_GCM_CTR_V1.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.AES_GCM_CTR_V1), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsEncryptionAlgorithm(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "EncryptionAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAES_GCM_V1() {
-		if err := oprot.WriteFieldBegin(ctx, "AES_GCM_V1", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:AES_GCM_V1: ", p), err)
-		}
-		if err := p.AES_GCM_V1.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.AES_GCM_V1), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:AES_GCM_V1: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionAlgorithm) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAES_GCM_CTR_V1() {
-		if err := oprot.WriteFieldBegin(ctx, "AES_GCM_CTR_V1", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:AES_GCM_CTR_V1: ", p), err)
-		}
-		if err := p.AES_GCM_CTR_V1.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.AES_GCM_CTR_V1), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:AES_GCM_CTR_V1: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionAlgorithm) Equals(other *EncryptionAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.AES_GCM_V1.Equals(other.AES_GCM_V1) {
-		return false
-	}
-	if !p.AES_GCM_CTR_V1.Equals(other.AES_GCM_CTR_V1) {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionAlgorithm(%+v)", *p)
-}
-
-func (p *EncryptionAlgorithm) Validate() error {
-	return nil
-}
-
-// Description for file metadata
-//
-// Attributes:
-//   - Version: Version of this file *
-//   - Schema: Parquet schema for this file.  This schema contains metadata for all the columns.
-//
-// The schema is represented as a tree with a single root.  The nodes of the tree
-// are flattened to a list by doing a depth-first traversal.
-// The column metadata contains the path in the schema for that column which can be
-// used to map columns to nodes in the schema.
-// The first element is the root *
-//   - NumRows: Number of rows in this file *
-//   - RowGroups: Row groups in this file *
-//   - KeyValueMetadata: Optional key/value metadata *
-//   - CreatedBy: String for application that wrote this file.  This should be in the format
-//
-// <Application> version <App Version> (build <App Build Hash>).
-// e.g. impala version 1.0 (build 6cf94d29b2b7115df4de2c06e2ab4326d721eb55)
-//
-//   - ColumnOrders: Sort order used for the min_value and max_value fields in the Statistics
-//
-// objects and the min_values and max_values fields in the ColumnIndex
-// objects of each column in this file. Sort orders are listed in the order
-// matching the columns in the schema. The indexes are not necessary the same
-// though, because only leaf nodes of the schema are represented in the list
-// of sort orders.
-//
-// Without column_orders, the meaning of the min_value and max_value fields
-// in the Statistics object and the ColumnIndex object is undefined. To ensure
-// well-defined behaviour, if these fields are written to a Parquet file,
-// column_orders must be written as well.
-//
-// The obsolete min and max fields in the Statistics object are always sorted
-// by signed comparison regardless of column_orders.
-//   - EncryptionAlgorithm: Encryption algorithm. This field is set only in encrypted files
-//
-// with plaintext footer. Files with encrypted footer store algorithm id
-// in FileCryptoMetaData structure.
-//   - FooterSigningKeyMetadata: Retrieval metadata of key used for signing the footer.
-//
-// Used only in encrypted files with plaintext footer.
-type FileMetaData struct {
-	Version                  int32                `thrift:"version,1,required" db:"version" json:"version"`
-	Schema                   []*SchemaElement     `thrift:"schema,2,required" db:"schema" json:"schema"`
-	NumRows                  int64                `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	RowGroups                []*RowGroup          `thrift:"row_groups,4,required" db:"row_groups" json:"row_groups"`
-	KeyValueMetadata         []*KeyValue          `thrift:"key_value_metadata,5" db:"key_value_metadata" json:"key_value_metadata,omitempty"`
-	CreatedBy                *string              `thrift:"created_by,6" db:"created_by" json:"created_by,omitempty"`
-	ColumnOrders             []*ColumnOrder       `thrift:"column_orders,7" db:"column_orders" json:"column_orders,omitempty"`
-	EncryptionAlgorithm      *EncryptionAlgorithm `thrift:"encryption_algorithm,8" db:"encryption_algorithm" json:"encryption_algorithm,omitempty"`
-	FooterSigningKeyMetadata []byte               `thrift:"footer_signing_key_metadata,9" db:"footer_signing_key_metadata" json:"footer_signing_key_metadata,omitempty"`
-}
-
-func NewFileMetaData() *FileMetaData {
-	return &FileMetaData{}
-}
-
-func (p *FileMetaData) GetVersion() int32 {
-	return p.Version
-}
-
-func (p *FileMetaData) GetSchema() []*SchemaElement {
-	return p.Schema
-}
-
-func (p *FileMetaData) GetNumRows() int64 {
-	return p.NumRows
-}
-
-func (p *FileMetaData) GetRowGroups() []*RowGroup {
-	return p.RowGroups
-}
-
-var FileMetaData_KeyValueMetadata_DEFAULT []*KeyValue
-
-func (p *FileMetaData) GetKeyValueMetadata() []*KeyValue {
-	return p.KeyValueMetadata
-}
-
-var FileMetaData_CreatedBy_DEFAULT string
-
-func (p *FileMetaData) GetCreatedBy() string {
-	if !p.IsSetCreatedBy() {
-		return FileMetaData_CreatedBy_DEFAULT
-	}
-	return *p.CreatedBy
-}
-
-var FileMetaData_ColumnOrders_DEFAULT []*ColumnOrder
-
-func (p *FileMetaData) GetColumnOrders() []*ColumnOrder {
-	return p.ColumnOrders
-}
-
-var FileMetaData_EncryptionAlgorithm_DEFAULT *EncryptionAlgorithm
-
-func (p *FileMetaData) GetEncryptionAlgorithm() *EncryptionAlgorithm {
-	if !p.IsSetEncryptionAlgorithm() {
-		return FileMetaData_EncryptionAlgorithm_DEFAULT
-	}
-	return p.EncryptionAlgorithm
-}
-
-var FileMetaData_FooterSigningKeyMetadata_DEFAULT []byte
-
-func (p *FileMetaData) GetFooterSigningKeyMetadata() []byte {
-	return p.FooterSigningKeyMetadata
-}
-func (p *FileMetaData) IsSetKeyValueMetadata() bool {
-	return p.KeyValueMetadata != nil
-}
-
-func (p *FileMetaData) IsSetCreatedBy() bool {
-	return p.CreatedBy != nil
-}
-
-func (p *FileMetaData) IsSetColumnOrders() bool {
-	return p.ColumnOrders != nil
-}
-
-func (p *FileMetaData) IsSetEncryptionAlgorithm() bool {
-	return p.EncryptionAlgorithm != nil
-}
-
-func (p *FileMetaData) IsSetFooterSigningKeyMetadata() bool {
-	return p.FooterSigningKeyMetadata != nil
-}
-
-func (p *FileMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetVersion bool = false
-	var issetSchema bool = false
-	var issetNumRows bool = false
-	var issetRowGroups bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetVersion = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetRowGroups = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetVersion {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Version is not set"))
-	}
-	if !issetSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Schema is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	if !issetRowGroups {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RowGroups is not set"))
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Version = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*SchemaElement, 0, size)
-	p.Schema = tSlice
-	for i := 0; i < size; i++ {
-		_elem24 := &SchemaElement{}
-		if err := _elem24.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem24), err)
-		}
-		p.Schema = append(p.Schema, _elem24)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*RowGroup, 0, size)
-	p.RowGroups = tSlice
-	for i := 0; i < size; i++ {
-		_elem25 := &RowGroup{}
-		if err := _elem25.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem25), err)
-		}
-		p.RowGroups = append(p.RowGroups, _elem25)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*KeyValue, 0, size)
-	p.KeyValueMetadata = tSlice
-	for i := 0; i < size; i++ {
-		_elem26 := &KeyValue{}
-		if err := _elem26.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem26), err)
-		}
-		p.KeyValueMetadata = append(p.KeyValueMetadata, _elem26)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.CreatedBy = &v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*ColumnOrder, 0, size)
-	p.ColumnOrders = tSlice
-	for i := 0; i < size; i++ {
-		_elem27 := &ColumnOrder{}
-		if err := _elem27.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem27), err)
-		}
-		p.ColumnOrders = append(p.ColumnOrders, _elem27)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.EncryptionAlgorithm = &EncryptionAlgorithm{}
-	if err := p.EncryptionAlgorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.EncryptionAlgorithm), err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.FooterSigningKeyMetadata = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "FileMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "version", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:version: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Version)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.version (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:version: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "schema", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.Schema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Schema {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:schema: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "row_groups", thrift.LIST, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:row_groups: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.RowGroups)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.RowGroups {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:row_groups: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyValueMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_value_metadata", thrift.LIST, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:key_value_metadata: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.KeyValueMetadata)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.KeyValueMetadata {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:key_value_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCreatedBy() {
-		if err := oprot.WriteFieldBegin(ctx, "created_by", thrift.STRING, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:created_by: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.CreatedBy)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.created_by (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:created_by: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnOrders() {
-		if err := oprot.WriteFieldBegin(ctx, "column_orders", thrift.LIST, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:column_orders: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.ColumnOrders)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.ColumnOrders {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:column_orders: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncryptionAlgorithm() {
-		if err := oprot.WriteFieldBegin(ctx, "encryption_algorithm", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:encryption_algorithm: ", p), err)
-		}
-		if err := p.EncryptionAlgorithm.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.EncryptionAlgorithm), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:encryption_algorithm: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFooterSigningKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "footer_signing_key_metadata", thrift.STRING, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:footer_signing_key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.FooterSigningKeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.footer_signing_key_metadata (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:footer_signing_key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) Equals(other *FileMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Version != other.Version {
-		return false
-	}
-	if len(p.Schema) != len(other.Schema) {
-		return false
-	}
-	for i, _tgt := range p.Schema {
-		_src28 := other.Schema[i]
-		if !_tgt.Equals(_src28) {
-			return false
-		}
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if len(p.RowGroups) != len(other.RowGroups) {
-		return false
-	}
-	for i, _tgt := range p.RowGroups {
-		_src29 := other.RowGroups[i]
-		if !_tgt.Equals(_src29) {
-			return false
-		}
-	}
-	if len(p.KeyValueMetadata) != len(other.KeyValueMetadata) {
-		return false
-	}
-	for i, _tgt := range p.KeyValueMetadata {
-		_src30 := other.KeyValueMetadata[i]
-		if !_tgt.Equals(_src30) {
-			return false
-		}
-	}
-	if p.CreatedBy != other.CreatedBy {
-		if p.CreatedBy == nil || other.CreatedBy == nil {
-			return false
-		}
-		if (*p.CreatedBy) != (*other.CreatedBy) {
-			return false
-		}
-	}
-	if len(p.ColumnOrders) != len(other.ColumnOrders) {
-		return false
-	}
-	for i, _tgt := range p.ColumnOrders {
-		_src31 := other.ColumnOrders[i]
-		if !_tgt.Equals(_src31) {
-			return false
-		}
-	}
-	if !p.EncryptionAlgorithm.Equals(other.EncryptionAlgorithm) {
-		return false
-	}
-	if bytes.Compare(p.FooterSigningKeyMetadata, other.FooterSigningKeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *FileMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("FileMetaData(%+v)", *p)
-}
-
-func (p *FileMetaData) Validate() error {
-	return nil
-}
-
-// Crypto metadata for files with encrypted footer *
-//
-// Attributes:
-//   - EncryptionAlgorithm: Encryption algorithm. This field is only used for files
-//
-// with encrypted footer. Files with plaintext footer store algorithm id
-// inside footer (FileMetaData structure).
-//   - KeyMetadata: Retrieval metadata of key used for encryption of footer,
-//
-// and (possibly) columns *
-type FileCryptoMetaData struct {
-	EncryptionAlgorithm *EncryptionAlgorithm `thrift:"encryption_algorithm,1,required" db:"encryption_algorithm" json:"encryption_algorithm"`
-	KeyMetadata         []byte               `thrift:"key_metadata,2" db:"key_metadata" json:"key_metadata,omitempty"`
-}
-
-func NewFileCryptoMetaData() *FileCryptoMetaData {
-	return &FileCryptoMetaData{}
-}
-
-var FileCryptoMetaData_EncryptionAlgorithm_DEFAULT *EncryptionAlgorithm
-
-func (p *FileCryptoMetaData) GetEncryptionAlgorithm() *EncryptionAlgorithm {
-	if !p.IsSetEncryptionAlgorithm() {
-		return FileCryptoMetaData_EncryptionAlgorithm_DEFAULT
-	}
-	return p.EncryptionAlgorithm
-}
-
-var FileCryptoMetaData_KeyMetadata_DEFAULT []byte
-
-func (p *FileCryptoMetaData) GetKeyMetadata() []byte {
-	return p.KeyMetadata
-}
-func (p *FileCryptoMetaData) IsSetEncryptionAlgorithm() bool {
-	return p.EncryptionAlgorithm != nil
-}
-
-func (p *FileCryptoMetaData) IsSetKeyMetadata() bool {
-	return p.KeyMetadata != nil
-}
-
-func (p *FileCryptoMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetEncryptionAlgorithm bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncryptionAlgorithm = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetEncryptionAlgorithm {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field EncryptionAlgorithm is not set"))
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.EncryptionAlgorithm = &EncryptionAlgorithm{}
-	if err := p.EncryptionAlgorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.EncryptionAlgorithm), err)
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.KeyMetadata = v
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "FileCryptoMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encryption_algorithm", thrift.STRUCT, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:encryption_algorithm: ", p), err)
-	}
-	if err := p.EncryptionAlgorithm.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.EncryptionAlgorithm), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:encryption_algorithm: ", p), err)
-	}
-	return err
-}
-
-func (p *FileCryptoMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_metadata", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.KeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.key_metadata (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileCryptoMetaData) Equals(other *FileCryptoMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.EncryptionAlgorithm.Equals(other.EncryptionAlgorithm) {
-		return false
-	}
-	if bytes.Compare(p.KeyMetadata, other.KeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *FileCryptoMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("FileCryptoMetaData(%+v)", *p)
-}
-
-func (p *FileCryptoMetaData) Validate() error {
-	return nil
-}
diff --git a/go/parquet/internal/gen-go/parquet/staticcheck.conf b/go/parquet/internal/gen-go/parquet/staticcheck.conf
deleted file mode 100644
index d714bfd89ba9f..0000000000000
--- a/go/parquet/internal/gen-go/parquet/staticcheck.conf
+++ /dev/null
@@ -1,17 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-checks = ["all", "-ST1005", "-ST1000"]
diff --git a/go/parquet/internal/testutils/pagebuilder.go b/go/parquet/internal/testutils/pagebuilder.go
deleted file mode 100644
index e3b8ffccb341c..0000000000000
--- a/go/parquet/internal/testutils/pagebuilder.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/mock"
-)
-
-type DataPageBuilder struct {
-	sink    io.Writer
-	version parquet.DataPageVersion
-
-	nvals          int
-	encoding       parquet.Encoding
-	defLvlEncoding parquet.Encoding
-	repLvlEncoding parquet.Encoding
-	defLvlBytesLen int
-	repLvlBytesLen int
-	hasDefLvls     bool
-	hasRepLvls     bool
-	hasValues      bool
-}
-
-var mem = memory.NewGoAllocator()
-
-func (d *DataPageBuilder) appendLevels(lvls []int16, maxLvl int16, e parquet.Encoding) int {
-	if e != parquet.Encodings.RLE {
-		panic("parquet: only rle encoding currently implemented")
-	}
-
-	buf := encoding.NewBufferWriter(encoding.LevelEncodingMaxBufferSize(e, maxLvl, len(lvls)), memory.DefaultAllocator)
-	var enc encoding.LevelEncoder
-	enc.Init(e, maxLvl, buf)
-	enc.Encode(lvls)
-
-	rleBytes := enc.Len()
-	if d.version == parquet.DataPageV1 {
-		if err := binary.Write(d.sink, binary.LittleEndian, int32(rleBytes)); err != nil {
-			panic(err)
-		}
-	}
-
-	if _, err := d.sink.Write(buf.Bytes()[:rleBytes]); err != nil {
-		panic(err)
-	}
-	return rleBytes
-}
-
-func (d *DataPageBuilder) AppendDefLevels(lvls []int16, maxLvl int16) {
-	d.defLvlBytesLen = d.appendLevels(lvls, maxLvl, parquet.Encodings.RLE)
-
-	d.nvals = utils.Max(len(lvls), d.nvals)
-	d.defLvlEncoding = parquet.Encodings.RLE
-	d.hasDefLvls = true
-}
-
-func (d *DataPageBuilder) AppendRepLevels(lvls []int16, maxLvl int16) {
-	d.repLvlBytesLen = d.appendLevels(lvls, maxLvl, parquet.Encodings.RLE)
-
-	d.nvals = utils.Max(len(lvls), d.nvals)
-	d.repLvlEncoding = parquet.Encodings.RLE
-	d.hasRepLvls = true
-}
-
-func (d *DataPageBuilder) AppendValues(desc *schema.Column, values interface{}, e parquet.Encoding) {
-	enc := encoding.NewEncoder(desc.PhysicalType(), e, false, desc, mem)
-	var sz int
-	switch v := values.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).Put(v)
-		sz = len(v)
-	case []int32:
-		enc.(encoding.Int32Encoder).Put(v)
-		sz = len(v)
-	case []int64:
-		enc.(encoding.Int64Encoder).Put(v)
-		sz = len(v)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).Put(v)
-		sz = len(v)
-	case []float32:
-		enc.(encoding.Float32Encoder).Put(v)
-		sz = len(v)
-	case []float64:
-		enc.(encoding.Float64Encoder).Put(v)
-		sz = len(v)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).Put(v)
-		sz = len(v)
-	default:
-		panic(fmt.Sprintf("no testutil data page builder for type %T", values))
-	}
-	buf, _ := enc.FlushValues()
-	_, err := d.sink.Write(buf.Bytes())
-	if err != nil {
-		panic(err)
-	}
-
-	d.nvals = utils.Max(sz, d.nvals)
-	d.encoding = e
-	d.hasValues = true
-}
-
-type DictionaryPageBuilder struct {
-	traits        encoding.DictEncoder
-	numDictValues int32
-	hasValues     bool
-}
-
-func NewDictionaryPageBuilder(d *schema.Column) *DictionaryPageBuilder {
-	return &DictionaryPageBuilder{
-		encoding.NewEncoder(d.PhysicalType(), parquet.Encodings.Plain, true, d, mem).(encoding.DictEncoder),
-		0, false}
-}
-
-func (d *DictionaryPageBuilder) AppendValues(values interface{}) encoding.Buffer {
-	switch v := values.(type) {
-	case []int32:
-		d.traits.(encoding.Int32Encoder).Put(v)
-	case []int64:
-		d.traits.(encoding.Int64Encoder).Put(v)
-	case []parquet.Int96:
-		d.traits.(encoding.Int96Encoder).Put(v)
-	case []float32:
-		d.traits.(encoding.Float32Encoder).Put(v)
-	case []float64:
-		d.traits.(encoding.Float64Encoder).Put(v)
-	case []parquet.ByteArray:
-		d.traits.(encoding.ByteArrayEncoder).Put(v)
-	default:
-		panic(fmt.Sprintf("no testutil dictionary page builder for type %T", values))
-	}
-
-	d.numDictValues = int32(d.traits.NumEntries())
-	d.hasValues = true
-	buf, _ := d.traits.FlushValues()
-	return buf
-}
-
-func (d *DictionaryPageBuilder) WriteDict() *memory.Buffer {
-	buf := memory.NewBufferBytes(make([]byte, d.traits.DictEncodedSize()))
-	d.traits.WriteDict(buf.Bytes())
-	return buf
-}
-
-func (d *DictionaryPageBuilder) NumValues() int32 {
-	return d.numDictValues
-}
-
-func MakeDataPage(dataPageVersion parquet.DataPageVersion, d *schema.Column, values interface{}, nvals int, e parquet.Encoding, indexBuffer encoding.Buffer, defLvls, repLvls []int16, maxDef, maxRep int16) file.Page {
-	num := 0
-
-	stream := encoding.NewBufferWriter(1024, mem)
-	builder := DataPageBuilder{sink: stream, version: dataPageVersion}
-
-	if len(repLvls) > 0 {
-		builder.AppendRepLevels(repLvls, maxRep)
-	}
-	if len(defLvls) > 0 {
-		builder.AppendDefLevels(defLvls, maxDef)
-	}
-
-	if e == parquet.Encodings.Plain {
-		builder.AppendValues(d, values, e)
-		num = builder.nvals
-	} else {
-		stream.Write(indexBuffer.Bytes())
-		num = utils.Max(builder.nvals, nvals)
-	}
-
-	buf := stream.Finish()
-	if dataPageVersion == parquet.DataPageV1 {
-		return file.NewDataPageV1(buf, int32(num), e, builder.defLvlEncoding, builder.repLvlEncoding, int32(buf.Len()))
-	}
-	return file.NewDataPageV2(buf, int32(num), 0, int32(num), e, int32(builder.defLvlBytesLen), int32(builder.repLvlBytesLen), int32(buf.Len()), false)
-}
-
-func MakeDictPage(d *schema.Column, values interface{}, valuesPerPage []int, e parquet.Encoding) (*file.DictionaryPage, []encoding.Buffer) {
-	bldr := NewDictionaryPageBuilder(d)
-	npages := len(valuesPerPage)
-
-	ref := reflect.ValueOf(values)
-	valStart := 0
-
-	rleIndices := make([]encoding.Buffer, 0, npages)
-	for _, nvals := range valuesPerPage {
-		rleIndices = append(rleIndices, bldr.AppendValues(ref.Slice(valStart, valStart+nvals).Interface()))
-		valStart += nvals
-	}
-
-	buffer := bldr.WriteDict()
-	return file.NewDictionaryPage(buffer, bldr.NumValues(), parquet.Encodings.Plain), rleIndices
-}
-
-type MockPageReader struct {
-	mock.Mock
-
-	curpage int
-}
-
-func (m *MockPageReader) Err() error {
-	return m.Called().Error(0)
-}
-
-func (m *MockPageReader) Reset(parquet.BufferedReader, int64, compress.Compression, *file.CryptoContext) {
-}
-
-func (m *MockPageReader) SetMaxPageHeaderSize(int) {}
-
-func (m *MockPageReader) Page() file.Page {
-	return m.TestData().Get("pages").Data().([]file.Page)[m.curpage-1]
-}
-
-func (m *MockPageReader) Next() bool {
-	pageList := m.TestData().Get("pages").Data().([]file.Page)
-	m.curpage++
-	return len(pageList) >= m.curpage
-}
-
-func PaginatePlain(version parquet.DataPageVersion, d *schema.Column, values reflect.Value, defLevels, repLevels []int16,
-	maxDef, maxRep int16, lvlsPerPage int, valuesPerPage []int, enc parquet.Encoding) []file.Page {
-
-	var (
-		npages      = len(valuesPerPage)
-		defLvlStart = 0
-		defLvlEnd   = 0
-		repLvlStart = 0
-		repLvlEnd   = 0
-		valueStart  = 0
-	)
-
-	pageList := make([]file.Page, 0, npages)
-	for i := 0; i < npages; i++ {
-		if maxDef > 0 {
-			defLvlStart = i * lvlsPerPage
-			defLvlEnd = (i + 1) * lvlsPerPage
-		}
-		if maxRep > 0 {
-			repLvlStart = i * lvlsPerPage
-			repLvlEnd = (i + 1) * lvlsPerPage
-		}
-
-		page := MakeDataPage(version, d,
-			values.Slice(valueStart, valueStart+valuesPerPage[i]).Interface(),
-			valuesPerPage[i], enc, nil, defLevels[defLvlStart:defLvlEnd],
-			repLevels[repLvlStart:repLvlEnd], maxDef, maxRep)
-		valueStart += valuesPerPage[i]
-		pageList = append(pageList, page)
-	}
-	return pageList
-}
-
-func PaginateDict(version parquet.DataPageVersion, d *schema.Column, values reflect.Value, defLevels, repLevels []int16, maxDef, maxRep int16, lvlsPerPage int, valuesPerPage []int, enc parquet.Encoding) []file.Page {
-	var (
-		npages   = len(valuesPerPage)
-		pages    = make([]file.Page, 0, npages)
-		defStart = 0
-		defEnd   = 0
-		repStart = 0
-		repEnd   = 0
-	)
-
-	dictPage, rleIndices := MakeDictPage(d, values.Interface(), valuesPerPage, enc)
-	pages = append(pages, dictPage)
-	for i := 0; i < npages; i++ {
-		if maxDef > 0 {
-			defStart = i * lvlsPerPage
-			defEnd = (i + 1) * lvlsPerPage
-		}
-		if maxRep > 0 {
-			repStart = i * lvlsPerPage
-			repEnd = (i + 1) * lvlsPerPage
-		}
-		page := MakeDataPage(version, d, nil, valuesPerPage[i], enc, rleIndices[i],
-			defLevels[defStart:defEnd], repLevels[repStart:repEnd], maxDef, maxRep)
-		pages = append(pages, page)
-	}
-	return pages
-}
diff --git a/go/parquet/internal/testutils/primitive_typed.go b/go/parquet/internal/testutils/primitive_typed.go
deleted file mode 100644
index d97677c54d727..0000000000000
--- a/go/parquet/internal/testutils/primitive_typed.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-type PrimitiveTypedTest struct {
-	Node   schema.Node
-	Schema *schema.Schema
-
-	Typ reflect.Type
-
-	DefLevels []int16
-	RepLevels []int16
-	Buffer    *memory.Buffer
-	Values    interface{}
-
-	ValuesOut    interface{}
-	DefLevelsOut []int16
-	RepLevelsOut []int16
-}
-
-func NewPrimitiveTypedTest(typ reflect.Type) PrimitiveTypedTest {
-	return PrimitiveTypedTest{Typ: typ}
-}
-
-func (p *PrimitiveTypedTest) SetupValuesOut(nvalues int64) {
-	p.ValuesOut = reflect.MakeSlice(reflect.SliceOf(p.Typ), int(nvalues), int(nvalues)).Interface()
-	p.DefLevelsOut = make([]int16, nvalues)
-	p.RepLevelsOut = make([]int16, nvalues)
-}
-
-func (p *PrimitiveTypedTest) GenerateData(nvalues int64) {
-	p.DefLevels = make([]int16, nvalues)
-	p.Values = reflect.MakeSlice(reflect.SliceOf(p.Typ), int(nvalues), int(nvalues)).Interface()
-	InitValues(p.Values, p.Buffer)
-	for idx := range p.DefLevels {
-		p.DefLevels[idx] = 1
-	}
-}
-
-func (p *PrimitiveTypedTest) SetupSchema(rep parquet.Repetition, ncols int) {
-	fields := make([]schema.Node, ncols)
-	for i := 0; i < ncols; i++ {
-		name := fmt.Sprintf("column_%d", i)
-		fields[i], _ = schema.NewPrimitiveNode(name, rep, TypeToParquetType(p.Typ), -1, 12)
-	}
-	p.Node, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, -1)
-	p.Schema = schema.NewSchema(p.Node.(*schema.GroupNode))
-	p.Buffer = memory.NewResizableBuffer(memory.DefaultAllocator)
-}
-
-func (p *PrimitiveTypedTest) UpdateStats(stat metadata.TypedStatistics, numNull int64) {
-	nvalues := int64(len(p.DefLevels))
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		s.Update(p.Values.([]int32)[:nvalues-numNull], numNull)
-	case *metadata.Int64Statistics:
-		s.Update(p.Values.([]int64)[:nvalues-numNull], numNull)
-	case *metadata.Float32Statistics:
-		s.Update(p.Values.([]float32)[:nvalues-numNull], numNull)
-	case *metadata.Float64Statistics:
-		s.Update(p.Values.([]float64)[:nvalues-numNull], numNull)
-	case *metadata.Int96Statistics:
-		s.Update(p.Values.([]parquet.Int96)[:nvalues-numNull], numNull)
-	case *metadata.ByteArrayStatistics:
-		s.Update(p.Values.([]parquet.ByteArray)[:nvalues-numNull], numNull)
-	case *metadata.BooleanStatistics:
-		s.Update(p.Values.([]bool)[:nvalues-numNull], numNull)
-	case *metadata.FixedLenByteArrayStatistics:
-		s.Update(p.Values.([]parquet.FixedLenByteArray)[:nvalues-numNull], numNull)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) UpdateStatsSpaced(stat metadata.TypedStatistics, numNull int64, validBits []byte, validBitsOffset int64) {
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		s.UpdateSpaced(p.Values.([]int32), validBits, validBitsOffset, numNull)
-	case *metadata.Int64Statistics:
-		s.UpdateSpaced(p.Values.([]int64), validBits, validBitsOffset, numNull)
-	case *metadata.Float32Statistics:
-		s.UpdateSpaced(p.Values.([]float32), validBits, validBitsOffset, numNull)
-	case *metadata.Float64Statistics:
-		s.UpdateSpaced(p.Values.([]float64), validBits, validBitsOffset, numNull)
-	case *metadata.Int96Statistics:
-		s.UpdateSpaced(p.Values.([]parquet.Int96), validBits, validBitsOffset, numNull)
-	case *metadata.ByteArrayStatistics:
-		s.UpdateSpaced(p.Values.([]parquet.ByteArray), validBits, validBitsOffset, numNull)
-	case *metadata.BooleanStatistics:
-		s.UpdateSpaced(p.Values.([]bool), validBits, validBitsOffset, numNull)
-	case *metadata.FixedLenByteArrayStatistics:
-		s.UpdateSpaced(p.Values.([]parquet.FixedLenByteArray), validBits, validBitsOffset, numNull)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) GetMinMax(stat metadata.TypedStatistics) (min, max interface{}) {
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Int64Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Float32Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Float64Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.ByteArrayStatistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Int96Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.BooleanStatistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.FixedLenByteArrayStatistics:
-		min = s.Min()
-		max = s.Max()
-	default:
-		panic("unimplemented")
-	}
-	return
-}
-
-func (p *PrimitiveTypedTest) WriteBatchValues(writer file.ColumnChunkWriter, defLevels, repLevels []int16) (int64, error) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int32), defLevels, repLevels)
-	case *file.Int64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int64), defLevels, repLevels)
-	case *file.Float32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float32), defLevels, repLevels)
-	case *file.Float64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float64), defLevels, repLevels)
-	case *file.Int96ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.Int96), defLevels, repLevels)
-	case *file.ByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.ByteArray), defLevels, repLevels)
-	case *file.BooleanColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]bool), defLevels, repLevels)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.FixedLenByteArray), defLevels, repLevels)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) WriteBatchSubset(batch, offset int, writer file.ColumnChunkWriter, defLevels, repLevels []int16) (int64, error) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int32)[offset:batch+offset], defLevels, repLevels)
-	case *file.Int64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int64)[offset:batch+offset], defLevels, repLevels)
-	case *file.Float32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float32)[offset:batch+offset], defLevels, repLevels)
-	case *file.Float64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float64)[offset:batch+offset], defLevels, repLevels)
-	case *file.Int96ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.Int96)[offset:batch+offset], defLevels, repLevels)
-	case *file.ByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.ByteArray)[offset:batch+offset], defLevels, repLevels)
-	case *file.BooleanColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]bool)[offset:batch+offset], defLevels, repLevels)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.FixedLenByteArray)[offset:batch+offset], defLevels, repLevels)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) WriteBatchValuesSpaced(writer file.ColumnChunkWriter, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]int32), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Int64ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]int64), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Float32ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]float32), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Float64ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]float64), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Int96ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.Int96), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.ByteArrayColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.ByteArray), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.BooleanColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]bool), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.FixedLenByteArray), defLevels, repLevels, validBits, validBitsOffset)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) ReadBatch(reader file.ColumnChunkReader, batch, valuesRead int64, defLevels, repLevels []int16) int64 {
-	switch r := reader.(type) {
-	case *file.Int32ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]int32)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Int64ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]int64)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Float32ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]float32)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Float64ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]float64)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Int96ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.Int96)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.ByteArrayColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.ByteArray)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.BooleanColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]bool)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.FixedLenByteArray)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func Min(v1, v2 interface{}) interface{} {
-	switch n1 := v1.(type) {
-	case int32:
-		if n1 < v2.(int32) {
-			return n1
-		}
-		return v2
-	case int64:
-		if n1 < v2.(int64) {
-			return n1
-		}
-		return v2
-	case float32:
-		if n1 < v2.(float32) {
-			return n1
-		}
-		return v2
-	case float64:
-		if n1 < v2.(float64) {
-			return n1
-		}
-		return v2
-	}
-	panic("min utility only implemented for int32, int64, float32, float64")
-}
-
-func Max(v1, v2 interface{}) interface{} {
-	switch n1 := v1.(type) {
-	case int32:
-		if n1 < v2.(int32) {
-			return v2
-		}
-		return n1
-	case int64:
-		if n1 < v2.(int64) {
-			return v2
-		}
-		return n1
-	case float32:
-		if n1 < v2.(float32) {
-			return v2
-		}
-		return n1
-	case float64:
-		if n1 < v2.(float64) {
-			return v2
-		}
-		return n1
-	}
-	panic("max utility only implemented for int32, int64, float32, float64")
-}
diff --git a/go/parquet/internal/testutils/random.go b/go/parquet/internal/testutils/random.go
deleted file mode 100644
index 1f4b1b7068beb..0000000000000
--- a/go/parquet/internal/testutils/random.go
+++ /dev/null
@@ -1,538 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package testutils contains utilities for generating random data and other
-// helpers that are used for testing the various aspects of the parquet library.
-package testutils
-
-import (
-	"encoding/binary"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-// RandomArrayGenerator is a struct used for constructing Random Arrow arrays
-// for use with testing.
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-}
-
-// NewRandomArrayGenerator constructs a new generator with the requested Seed
-func NewRandomArrayGenerator(seed uint64) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src)}
-}
-
-// GenerateBitmap generates a bitmap of n bits and stores it into buffer. Prob is the probability
-// that a given bit will be zero, with 1-prob being the probability it will be 1. The return value
-// is the number of bits that were left unset. The assumption being that buffer is currently
-// zero initialized as this function does not clear any bits, it only sets 1s.
-func (r *RandomArrayGenerator) GenerateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	// bernoulli distribution uses P to determine the probability of a 0 or a 1,
-	// which we'll use to generate the bitmap.
-	dist := distuv.Bernoulli{P: prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := 0; int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-// ByteArray creates an array.String for use of creating random ByteArray values for testing parquet
-// writing/reading. minLen/maxLen are the min and max length for a given value in the resulting array,
-// with nullProb being the probability of a given index being null.
-//
-// For this generation we only generate ascii values with a min of 'A' and max of 'z'.
-func (r *RandomArrayGenerator) ByteArray(size int64, minLen, maxLen int32, nullProb float64) arrow.Array {
-	if nullProb < 0 || nullProb > 1 {
-		panic("null prob must be between 0 and 1")
-	}
-
-	lengths := r.Int32(size, minLen, maxLen, nullProb)
-	defer lengths.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	bldr := array.NewStringBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	strbuf := make([]byte, maxLen)
-
-	for i := 0; int64(i) < size; i++ {
-		if lengths.IsValid(i) {
-			l := lengths.Value(i)
-			for j := int32(0); j < l; j++ {
-				strbuf[j] = byte(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-			}
-			val := strbuf[:l]
-			bldr.Append(*(*string)(unsafe.Pointer(&val)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-// Uint8 generates a random array.Uint8 of the requested size whose values are between min and max
-// with prob as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Uint8(size int64, min, max uint8, prob float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(int(size * int64(arrow.Uint8SizeBytes)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint8(dist.Intn(int(max-min+1))) + min
-	}
-
-	return array.NewUint8Data(array.NewData(arrow.PrimitiveTypes.Uint8, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Int32 generates a random array.Int32 of the given size with each value between min and max,
-// and pctNull as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, pctNull float64) *array.Int32 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Int32Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.Int31n(max-min+1) + min
-	}
-	return array.NewInt32Data(array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Int64 generates a random array.Int64 of the given size with each value between min and max,
-// and pctNull as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Int64(size int64, min, max int64, pctNull float64) *array.Int64 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Int64Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.Int63n(max-min+1) + min
-	}
-	return array.NewInt64Data(array.NewData(arrow.PrimitiveTypes.Int64, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Float64 generates a random array.Float64 of the requested size with pctNull as the probability
-// that a given index will be null.
-func (r *RandomArrayGenerator) Float64(size int64, pctNull float64) *array.Float64 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Float64Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.NormFloat64()
-	}
-	return array.NewFloat64Data(array.NewData(arrow.PrimitiveTypes.Float64, int(size), buffers, nil, int(nullCount), 0))
-}
-
-func (r *RandomArrayGenerator) StringWithRepeats(mem memory.Allocator, sz, unique int64, minLen, maxLen int32, nullProb float64) *array.String {
-	if unique > sz {
-		panic("invalid config for random StringWithRepeats")
-	}
-
-	// generate a random string dictionary without any nulls
-	arr := r.ByteArray(unique, minLen, maxLen, 0)
-	defer arr.Release()
-	dict := arr.(*array.String)
-
-	// generate random indices to sample dictionary with
-	idArray := r.Int64(sz, 0, unique-1, nullProb)
-	defer idArray.Release()
-
-	bldr := array.NewStringBuilder(mem)
-	defer bldr.Release()
-
-	for i := int64(0); i < sz; i++ {
-		if idArray.IsValid(int(i)) {
-			idx := idArray.Value(int(i))
-			bldr.Append(dict.Value(int(idx)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewStringArray()
-}
-
-// FillRandomInt8 populates the slice out with random int8 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomInt8(seed uint64, min, max int8, out []int8) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int8(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomUint8 populates the slice out with random uint8 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomUint8(seed uint64, min, max uint8, out []uint8) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint8(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomInt16 populates the slice out with random int16 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomInt16(seed uint64, min, max int16, out []int16) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int16(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomUint16 populates the slice out with random uint16 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomUint16(seed uint64, min, max uint16, out []uint16) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint16(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomInt32 populates out with random int32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt32(seed uint64, out []int32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int32(r.Uint32())
-	}
-}
-
-// FillRandomInt32Max populates out with random int32 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt32Max(seed uint64, max int32, out []int32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Int31n(max)
-	}
-}
-
-// FillRandomUint32Max populates out with random uint32 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint32Max(seed uint64, max uint32, out []uint32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint32(r.Uint64n(uint64(max)))
-	}
-}
-
-// FillRandomInt64Max populates out with random int64 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt64Max(seed uint64, max int64, out []int64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Int63n(max)
-	}
-}
-
-// FillRandomUint32 populates out with random uint32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint32(seed uint64, out []uint32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint32()
-	}
-}
-
-// FillRandomUint64 populates out with random uint64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint64(seed uint64, out []uint64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint64()
-	}
-}
-
-// FillRandomUint64Max populates out with random uint64 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint64Max(seed uint64, max uint64, out []uint64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint64n(max)
-	}
-}
-
-// FillRandomInt64 populates out with random int64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt64(seed uint64, out []int64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int64(r.Uint64())
-	}
-}
-
-// FillRandomInt96 populates out with random Int96 values using seed as the random
-// seed for the generator to allow consistency for testing. It does this by generating
-// three random uint32 values for each int96 value.
-func FillRandomInt96(seed uint64, out []parquet.Int96) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		*(*int32)(unsafe.Pointer(&out[idx][0])) = int32(r.Uint32())
-		*(*int32)(unsafe.Pointer(&out[idx][4])) = int32(r.Uint32())
-		*(*int32)(unsafe.Pointer(&out[idx][8])) = int32(r.Uint32())
-	}
-}
-
-// randFloat32 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN values.
-func randFloat32(r *rand.Rand) float32 {
-	for {
-		f := math.Float32frombits(r.Uint32())
-		if !math.IsNaN(float64(f)) {
-			return f
-		}
-	}
-}
-
-// randFloat64 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN values.
-func randFloat64(r *rand.Rand) float64 {
-	for {
-		f := math.Float64frombits(r.Uint64())
-		if !math.IsNaN(f) {
-			return f
-		}
-	}
-}
-
-// randFloat16 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN or Inf values.
-func randFloat16(r *rand.Rand) float16.Num {
-	for {
-		f := float16.FromBits(uint16(r.Uint64n(math.MaxUint16 + 1)))
-		if !f.IsNaN() {
-			return f
-		}
-	}
-}
-
-// FillRandomFloat32 populates out with random float32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat32(seed uint64, out []float32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat32(r)
-	}
-}
-
-// FillRandomFloat64 populates out with random float64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat64(seed uint64, out []float64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat64(r)
-	}
-}
-
-// FillRandomFloat16 populates out with random float64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat16(seed uint64, out []float16.Num) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat16(r)
-	}
-}
-
-// FillRandomByteArray populates out with random ByteArray values with lengths between 2 and 12
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be some slice of the bytes in heap, and as such heap must outlive the byte array slices.
-func FillRandomByteArray(seed uint64, out []parquet.ByteArray, heap *memory.Buffer) {
-	const (
-		maxByteArrayLen = 12
-		minByteArrayLen = 2
-	)
-	RandomByteArray(seed, out, heap, minByteArrayLen, maxByteArrayLen)
-}
-
-// FillRandomFixedByteArray populates out with random FixedLenByteArray values with of a length equal to size
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be a slice of size bytes in heap, and as such heap must outlive the byte array slices.
-func FillRandomFixedByteArray(seed uint64, out []parquet.FixedLenByteArray, heap *memory.Buffer, size int) {
-	heap.Resize(len(out) * size)
-
-	buf := heap.Bytes()
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		r.Read(buf[:size])
-		out[idx] = buf[:size]
-		buf = buf[size:]
-	}
-}
-
-// FillRandomBooleans populates out with random bools with the probability p of being false using
-// seed as the random seed to the generator in order to allow consistency for testing. This uses
-// a Bernoulli distribution of values.
-func FillRandomBooleans(p float64, seed uint64, out []bool) {
-	dist := distuv.Bernoulli{P: p, Src: rand.NewSource(seed)}
-	for idx := range out {
-		out[idx] = dist.Rand() != float64(0.0)
-	}
-}
-
-// fillRandomIsValid populates out with random bools with the probability pctNull of being false using
-// seed as the random seed to the generator in order to allow consistency for testing. This uses
-// the default Golang random generator distribution of float64 values between 0 and 1 comparing against
-// pctNull. If the random value is > pctNull, it is true.
-func fillRandomIsValid(seed uint64, pctNull float64, out []bool) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Float64() > pctNull
-	}
-}
-
-// InitValues is a convenience function for generating a slice of random values based on the type.
-// If the type is parquet.ByteArray or parquet.FixedLenByteArray, heap must not be null.
-//
-// The default values are:
-//
-//	[]bool uses the current time as the seed with only values of 1 being false, for use
-//	 of creating validity boolean slices.
-//	all other types use 0 as the seed
-//	a []parquet.ByteArray is populated with lengths between 2 and 12
-//	a []parquet.FixedLenByteArray is populated with fixed size random byte arrays of length 12.
-func InitValues(values interface{}, heap *memory.Buffer) {
-	switch arr := values.(type) {
-	case []bool:
-		fillRandomIsValid(uint64(time.Now().Unix()), 0.5, arr)
-	case []int32:
-		FillRandomInt32(0, arr)
-	case []int64:
-		FillRandomInt64(0, arr)
-	case []float32:
-		FillRandomFloat32(0, arr)
-	case []float64:
-		FillRandomFloat64(0, arr)
-	case []float16.Num:
-		FillRandomFloat16(0, arr)
-	case []parquet.Int96:
-		FillRandomInt96(0, arr)
-	case []parquet.ByteArray:
-		FillRandomByteArray(0, arr, heap)
-	case []parquet.FixedLenByteArray:
-		FillRandomFixedByteArray(0, arr, heap, 12)
-	}
-}
-
-// RandomByteArray populates out with random ByteArray values with lengths between minlen and maxlen
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be some slice of the bytes in heap, and as such heap must outlive the byte array slices.
-func RandomByteArray(seed uint64, out []parquet.ByteArray, heap *memory.Buffer, minlen, maxlen int) {
-	heap.Resize(len(out) * (maxlen + arrow.Uint32SizeBytes))
-
-	buf := heap.Bytes()
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		length := r.Intn(maxlen-minlen+1) + minlen
-		r.Read(buf[:length])
-		out[idx] = buf[:length]
-
-		buf = buf[length:]
-	}
-}
-
-// RandomDecimals generates n random decimal values with precision determining the byte width
-// for the values and seed as the random generator seed to allow consistency for testing. The
-// resulting values will be either 32 bytes or 16 bytes each depending on the precision.
-func RandomDecimals(n int64, seed uint64, precision int32) []byte {
-	r := rand.New(rand.NewSource(seed))
-	nreqBytes := pqarrow.DecimalSize(precision)
-	byteWidth := 32
-	if precision <= 38 {
-		byteWidth = 16
-	}
-
-	out := make([]byte, int(int64(byteWidth)*n))
-	for i := int64(0); i < n; i++ {
-		start := int(i) * byteWidth
-		r.Read(out[start : start+int(nreqBytes)])
-		// sign extend if the sign bit is set for the last generated byte
-		// 0b10000000 == 0x80 == 128
-		if out[start+int(nreqBytes)-1]&byte(0x80) != 0 {
-			memory.Set(out[start+int(nreqBytes):start+byteWidth], 0xFF)
-		}
-
-		// byte swap for big endian
-		if endian.IsBigEndian {
-			for j := 0; j+8 <= byteWidth; j += 8 {
-				v := binary.LittleEndian.Uint64(out[start+j : start+j+8])
-				binary.BigEndian.PutUint64(out[start+j:start+j+8], v)
-			}
-		}
-	}
-	return out
-}
diff --git a/go/parquet/internal/testutils/random_arrow.go b/go/parquet/internal/testutils/random_arrow.go
deleted file mode 100644
index f9a199de77963..0000000000000
--- a/go/parquet/internal/testutils/random_arrow.go
+++ /dev/null
@@ -1,518 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/rand"
-)
-
-// RandomNonNull generates a random arrow array of the requested type with length size with no nulls.
-// Accepts float32, float64, all integer primitives, Date32, date64, string, binary, fixed_size_binary, bool and decimal.
-//
-// Always uses 0 as the seed with the following min/max restrictions:
-// int16, uint16, int8, and uint8 will be min 0, max 64
-// Date32 and Date64 will be between 0 and 24 * 86400000 in increments of 86400000
-// String will all have the value "test-string"
-// binary will have each value between length 2 and 12 but random bytes that are not limited to ascii
-// fixed size binary will all be of length 10, random bytes are not limited to ascii
-// bool will be approximately half false and half true randomly.
-func RandomNonNull(mem memory.Allocator, dt arrow.DataType, size int) arrow.Array {
-	switch dt.ID() {
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		values := make([]float32, size)
-		FillRandomFloat32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		values := make([]float64, size)
-		FillRandomFloat64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.FLOAT16:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-		values := make([]float16.Num, size)
-		FillRandomFloat16(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		values := make([]uint64, size)
-		FillRandomUint64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		values := make([]uint32, size)
-		FillRandomUint32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		values := make([]int16, size)
-		FillRandomInt16(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		values := make([]uint16, size)
-		FillRandomUint16(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		values := make([]int8, size)
-		FillRandomInt8(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		values := make([]uint8, size)
-		FillRandomUint8(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.DATE32:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 24, values)
-
-		dates := make([]arrow.Date32, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date32(val) * 86400000
-		}
-		bldr.AppendValues(dates, nil)
-		return bldr.NewArray()
-	case arrow.DATE64:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 24, values)
-
-		dates := make([]arrow.Date64, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date64(val) * 86400000
-		}
-		bldr.AppendValues(dates, nil)
-		return bldr.NewArray()
-	case arrow.STRING:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append("test-string")
-		}
-		return bldr.NewArray()
-	case arrow.LARGE_STRING:
-		bldr := array.NewLargeStringBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append("test-large-string")
-		}
-		return bldr.NewArray()
-	case arrow.BINARY, arrow.LARGE_BINARY:
-		bldr := array.NewBinaryBuilder(mem, dt.(arrow.BinaryDataType))
-		defer bldr.Release()
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			bldr.Append(buf[:length])
-		}
-		return bldr.NewArray()
-	case arrow.FIXED_SIZE_BINARY:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 10})
-		defer bldr.Release()
-
-		buf := make([]byte, 10)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			r.Read(buf)
-			bldr.Append(buf)
-		}
-		return bldr.NewArray()
-	case arrow.DECIMAL:
-		dectype := dt.(*arrow.Decimal128Type)
-		bldr := array.NewDecimal128Builder(mem, dectype)
-		defer bldr.Release()
-
-		data := RandomDecimals(int64(size), 0, dectype.Precision)
-		bldr.AppendValues(arrow.Decimal128Traits.CastFromBytes(data), nil)
-		return bldr.NewArray()
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		values := make([]bool, size)
-		FillRandomBooleans(0.5, 0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-// RandomNullable generates a random arrow array of length size with approximately numNulls,
-// at most there can be size/2 nulls. Other than there being nulls, the values follow the same rules
-// as described in the docs for RandomNonNull.
-func RandomNullable(dt arrow.DataType, size int, numNulls int) arrow.Array {
-	switch dt.ID() {
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float32, size)
-		FillRandomFloat32(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float64, size)
-		FillRandomFloat64(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.FLOAT16:
-		bldr := array.NewFloat16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float16.Num, size)
-		FillRandomFloat16(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int8, size)
-		FillRandomInt8(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint8, size)
-		FillRandomUint8(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int16, size)
-		FillRandomInt16(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint16, size)
-		FillRandomUint16(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint32, size)
-		FillRandomUint32Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint64, size)
-		FillRandomUint64Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.DATE32:
-		bldr := array.NewDate32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 24, values)
-
-		dates := make([]arrow.Date32, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date32(val) * 86400000
-		}
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(dates, valid)
-		return bldr.NewArray()
-	case arrow.DATE64:
-		bldr := array.NewDate64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 24, values)
-
-		dates := make([]arrow.Date64, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date64(val) * 86400000
-		}
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(dates, valid)
-		return bldr.NewArray()
-	case arrow.BINARY:
-		bldr := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			bldr.Append(buf[:length])
-		}
-		return bldr.NewArray()
-	case arrow.STRING:
-		bldr := array.NewStringBuilder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			// trivially force data to be valid UTF8 by making it all ASCII
-			for idx := range buf[:length] {
-				buf[idx] &= 0x7f
-			}
-			bldr.Append(string(buf[:length]))
-		}
-		return bldr.NewArray()
-	case arrow.FIXED_SIZE_BINARY:
-		bldr := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 10})
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 10)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			r.Read(buf)
-			bldr.Append(buf)
-		}
-		return bldr.NewArray()
-	case arrow.DECIMAL:
-		dectype := dt.(*arrow.Decimal128Type)
-		bldr := array.NewDecimal128Builder(memory.DefaultAllocator, dectype)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		data := RandomDecimals(int64(size), 0, dectype.Precision)
-		bldr.AppendValues(arrow.Decimal128Traits.CastFromBytes(data), valid)
-		return bldr.NewArray()
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		values := make([]bool, size)
-		FillRandomBooleans(0.5, 0, values)
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	}
-	return nil
-}
diff --git a/go/parquet/internal/testutils/utils.go b/go/parquet/internal/testutils/utils.go
deleted file mode 100644
index 823f7fbd07d1d..0000000000000
--- a/go/parquet/internal/testutils/utils.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-var typeToParquetTypeMap = map[reflect.Type]parquet.Type{
-	reflect.TypeOf(true):                        parquet.Types.Boolean,
-	reflect.TypeOf(int32(0)):                    parquet.Types.Int32,
-	reflect.TypeOf(int64(0)):                    parquet.Types.Int64,
-	reflect.TypeOf(float32(0)):                  parquet.Types.Float,
-	reflect.TypeOf(float64(0)):                  parquet.Types.Double,
-	reflect.TypeOf(parquet.ByteArray{}):         parquet.Types.ByteArray,
-	reflect.TypeOf(parquet.Int96{}):             parquet.Types.Int96,
-	reflect.TypeOf(parquet.FixedLenByteArray{}): parquet.Types.FixedLenByteArray,
-}
-
-func TypeToParquetType(typ reflect.Type) parquet.Type {
-	ret, ok := typeToParquetTypeMap[typ]
-	if !ok {
-		panic("invalid type for parquet type")
-	}
-	return ret
-}
diff --git a/go/parquet/internal/thrift/helpers.go b/go/parquet/internal/thrift/helpers.go
deleted file mode 100644
index f8b0f2170c45d..0000000000000
--- a/go/parquet/internal/thrift/helpers.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package thrift is just some useful helpers for interacting with thrift to
-// make other code easier to read/write and centralize interactions.
-package thrift
-
-import (
-	"bytes"
-	"context"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/thrift/lib/go/thrift"
-)
-
-// default factory for creating thrift protocols for serialization/deserialization
-var protocolFactory = thrift.NewTCompactProtocolFactoryConf(&thrift.TConfiguration{})
-
-// DeserializeThrift deserializes the bytes in buf into the given thrift msg type
-// returns the number of remaining bytes in the buffer that weren't needed for deserialization
-// and any error if there was one, or nil.
-func DeserializeThrift(msg thrift.TStruct, buf []byte) (remain uint64, err error) {
-	tbuf := &thrift.TMemoryBuffer{Buffer: bytes.NewBuffer(buf)}
-	err = msg.Read(context.TODO(), protocolFactory.GetProtocol(tbuf))
-	remain = tbuf.RemainingBytes()
-	return
-}
-
-// SerializeThriftStream writes out the serialized bytes of the passed in type
-// to the given writer stream.
-func SerializeThriftStream(msg thrift.TStruct, w io.Writer) error {
-	return msg.Write(context.TODO(), protocolFactory.GetProtocol(thrift.NewStreamTransportW(w)))
-}
-
-// DeserializeThriftStream populates the given msg by reading from the provided
-// stream until it completes the deserialization.
-func DeserializeThriftStream(msg thrift.TStruct, r io.Reader) error {
-	return msg.Read(context.TODO(), protocolFactory.GetProtocol(thrift.NewStreamTransportR(r)))
-}
-
-// Serializer is an object that can stick around to provide convenience
-// functions and allow object reuse
-type Serializer struct {
-	thrift.TSerializer
-}
-
-// NewThriftSerializer constructs a serializer with a default buffer of 1024
-func NewThriftSerializer() *Serializer {
-	tbuf := thrift.NewTMemoryBufferLen(1024)
-	return &Serializer{thrift.TSerializer{
-		Transport: tbuf,
-		Protocol:  protocolFactory.GetProtocol(tbuf),
-	}}
-}
-
-// Serialize will serialize the given msg to the writer stream w, optionally encrypting it on the way
-// if enc is not nil, returning the total number of bytes written and any error received, or nil
-func (t *Serializer) Serialize(msg thrift.TStruct, w io.Writer, enc encryption.Encryptor) (int, error) {
-	b, err := t.Write(context.Background(), msg)
-	if err != nil {
-		return 0, err
-	}
-
-	if enc == nil {
-		return w.Write(b)
-	}
-
-	var cipherBuf bytes.Buffer
-	cipherBuf.Grow(enc.CiphertextSizeDelta() + len(b))
-	enc.Encrypt(&cipherBuf, b)
-	n, err := cipherBuf.WriteTo(w)
-	return int(n), err
-}
diff --git a/go/parquet/internal/utils/Makefile b/go/parquet/internal/utils/Makefile
deleted file mode 100644
index f6dce46197fef..0000000000000
--- a/go/parquet/internal/utils/Makefile
+++ /dev/null
@@ -1,78 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONY: assembly
-
-INTEL_SOURCES := \
-	bit_packing_avx2_amd64.s \
-	unpack_bool_avx2_amd64.s unpack_bool_sse4_amd64.s
-
-ARM_SOURCES := \
-	bit_packing_neon_arm64.s unpack_bool_neon_arm64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bit_packing_avx2.s: _lib/bit_packing_avx2.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@; perl -i -pe 's/mem(cpy|set)/clib·_mem\1(SB)/' $@
-
-_lib/unpack_bool_avx2.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/unpack_bool_sse4.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/unpack_bool_neon.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/bit_packing_neon.s: _lib/bit_packing_neon.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@
-
-bit_packing_avx2_amd64.s: _lib/bit_packing_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-unpack_bool_avx2_amd64.s: _lib/unpack_bool_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-unpack_bool_sse4_amd64.s: _lib/unpack_bool_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/parquet/internal/utils/_lib/README.md b/go/parquet/internal/utils/_lib/README.md
deleted file mode 100644
index 17c3006a5ce08..0000000000000
--- a/go/parquet/internal/utils/_lib/README.md
+++ /dev/null
@@ -1,154 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-# SIMD Bit Packing Implementation
-
-Go doesn't have any SIMD intrinsics so for some low-level optimizations we can 
-leverage auto-vectorization by C++ compilers and the fact that Go lets you specify the body of a
-function in assembly to benefit from SIMD.
-
-In here we have implementations using SIMD intrinsics for AVX (amd64) and NEON (arm64).
-
-## Generating the Go assembly
-
-c2goasm and asm2plan9s are two projects which can be used in conjunction to generate
-compatible Go assembly from C assembly.
-
-First the tools need to be installed:
-
-```bash
-go install github.com/klauspost/asmfmt/cmd/asmfmt@latest
-go install github.com/minio/asm2plan9s@latest
-go install github.com/minio/c2goasm@latest
-```
-
-### Generating for amd64
-
-The Makefile in the directory above will work for amd64. `make assembly` will compile
-the c sources and then call `c2goasm` to generate the Go assembly for amd64 
-architectures.
-
-### Generating for arm64
-
-Unfortunately there are some caveats for arm64. c2goasm / asm2plan9s doesn't fully
-support arm64 correctly. However, proper assembly can be created with some slight
-manipulation of the result.
-
-The Makefile has the NEON flags for compiling the assembly by using 
-`make _lib/bit_packing_neon.s` and `make _lib/unpack_bool_neon.s` to generate the
-raw assembly sources. 
-
-Before calling `c2goasm` there's a few things that need to be modified in the assembly:
-
-* x86-64 assembly uses `#` for comments while arm64 assembly uses `//` for comments.
-  `c2goasm` assumes `#` for comments and splits lines based on them. For most lines
-  this isn't an issue, but for any constants this is important and will need to have
-  the comment character converted from `//` to `#`.
-* A `word` for x86-64 is 16 bits, a `double` word is 32 bits, and a `quad` is 64 bits.
-  For arm64, a `word` is 32 bits. This means that constants in the assembly need to be
-  modified. `c2goasm` and `asm2plan9s` expect the x86-64 meaning for the sizes, so
-  usage of `.word ######` needs to be converted to `.long #####` before running
-  `c2goasm`. In addition, `.xword` is an 8-byte value and as such should be changed to
-  `.quad` before running `c2goasm`.
-* Because of this change in bits, `MOVQ` instructions will also be converted to 
-  `MOVD` instructions.
-
-After running `c2goasm` there will still need to be modifications made to the 
-resulting assembly.
-
-* Most of the ARM instructions will be converted to using the Go assembly construction
-  of `WORD $0x########` to provide an instruction directly to the processor rather than
-  going through the Go assembler. Some of the instructions, however, aren't recognized
-  by `c2goasm` and will need to added. If you look at the assembly, you'll see these
-  as assembly that is commented out without any `WORD` instruction. For example:
-  ```asm
-  // stp x29, x30, [sp, #-48]!
-  WORD $0x11007c48 // add  w8, w2, #31
-  ```
-  The `stp` instruction needs to be added. This can be done in one of two ways:
-  1. Many instructions are properly handled by the Go assembler correctly. You can
-     find the arm-specific caveats to Go's assembly [here](https://pkg.go.dev/cmd/internal/obj/arm64). In this case, the instruction would be `STP.W (R29, R30), -48(RSP)`.
-  2. Assuming that the GNU assembler is installed, you can use it to generate the
-     correct byte sequence. Create a file named `neon.asm` with a single line 
-     (the instruction) and call `as -o neon.o neon.asm`. Then you can run
-     `objdump -S neon.o` to get the value to use. The output should look something 
-     like:
-     ```
-     Disassembly of section .text:
-
-     0000000000000000 <.text>:
-     0:   11 00 7c 48    add  w8, w2, #31
-     ```
-     And then update the assembly as `WORD $0x11007c48 // add w8, w2, #31`
-* Labels used in instructions won't work when using the `WORD $0x#########` syntax.
-  They need to be the actual instructions for the labels. So all lines that have a
-  label will need to be converted. This is two-fold:
-  1. Any lines for branching such as those which end with `// b.le LBB0_10` are updated
-     to be `BLE LBB0_10`. The same is true for `b.gt`, `b.ge`, `b.ne`, and `b.eq`. `b` 
-     instructions are instead converted to `JMP` calls.
-  2. References to constants need to be updated, for example `LCPI0_192`. By default,
-     these will get converted to global data instructions like 
-     `DATA LCDATA1<>+0xc68(SB)/8, $0x0000000000000000`. Unfortunately, these seem to 
-     have issues with being referenced by the assembler. The pattern to look for in 
-     the assembly is an `adrp x9, .LCPI0_192` instruction that is later followed by 
-     an instruction that looks like `str d4, [x9, 0:lo12:.LCPI0_192]`. These will
-     need to be converted to a macro and a `VMOV` instruction. 
-     * In the original assembly, you'll see blocks like:
-       ```asm
-       .LCPI0_0
-          .word 1           // 0x00000001
-          .word 2           // 0x00000002
-       .LCPI0_1
-          .word 4294967265  // 0xffffffe1
-          .word 4294967266  // 0xffffffe2
-       ```
-       which were converted to the `DATA LCDATA1`.... lines. Instead they should get
-       converted to a macro and a vector instruction:
-       ```asm
-       #define LCPI0_0 $0x0000000200000001
-       #define LCPI0_1 $0xffffffe2ffffffe1
-       ```
-       Notice the lower/higher bits!
-       Then replace the `str`/`ldr`/`mov` instruction as `VMOVD LCPI0_0, v4`. Because
-       the original instruction storing the value in `d4`, we use `VMOVD` and `V4`. 
-       Alternately we might find a prefix of `q` instead of `d`, in which case it we
-       need to use `VMOVQ` and pass the lower bytes followed by the higher bytes.
-       ```asm
-       #define LCPI0_48L $0x0000000d00000008
-       #define LCPI0_48H $0x0000001700000012
-       ...
-       VMOVQ LCPI0_48L, LCPI0_48H, V4
-       ```
-       After replacing the instructions, both the `adrp` and the `str`/`ldr`/`mov` 
-       instructions should be removed/commented out.
-       There might also be a `LEAQ LCDATA1<>(SB), BP` instruction at the top of the
-       function. That should be removed/commented out as we are replacing the constants
-       with macros.
-* Finally, if the function has a return value, make sure that at the end of the 
-  function, ends with something akin to `MOVD R0, num+32(FP)`. Where `num` is the
-  local variable name of the return value, and `32` is the byte size of the arguments.
-
-To facilitate some automation, a `script.sed` file is provided in this directory which
-can be run against the generated assembly from `c2goasm` as 
-`sed -f _lib/script.sed -i bit_packing_neon_arm64.s` which will perform several of 
-these steps on the generated assembly such as converting `b.le`/etc calls with labels
-to proper `BLE LBB0_....` lines, and converting `adrp`/`ldr` pairs to `VMOVD` and 
-`VMOVQ` instructions.
-
-This should be sufficient to ensuring the assembly is generated and works properly!
\ No newline at end of file
diff --git a/go/parquet/internal/utils/_lib/arch.h b/go/parquet/internal/utils/_lib/arch.h
deleted file mode 100644
index 7c75cd2f60fd7..0000000000000
--- a/go/parquet/internal/utils/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/parquet/internal/utils/_lib/bit_packing_avx2.c b/go/parquet/internal/utils/_lib/bit_packing_avx2.c
deleted file mode 100644
index b57f24fd5c727..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_avx2.c
+++ /dev/null
@@ -1,1879 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <stdint.h>
-#include <immintrin.h>
-#include <string.h>
-
-inline const uint32_t* unpack0_32_avx2(const uint32_t* in, uint32_t* out) {
-  memset(out, 0x0, 32 * sizeof(*out));
-  out += 32;
-
-  return in;
-}
-
-inline static const uint32_t* unpack1_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(7, 6, 5, 4,
-                               3, 2, 1, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(15, 14, 13, 12,
-                                11, 10, 9, 8);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(23, 22, 21, 20,
-                                19, 18, 17, 16);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(31, 30, 29, 28,
-                                27, 26, 25, 24);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 1;
-
-  return in;
-}
-
-inline static const uint32_t* unpack2_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(14, 12, 10, 8,
-                               6, 4, 2, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(30, 28, 26, 24,
-                                22, 20, 18, 16);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(14, 12, 10, 8,
-                                6, 4, 2, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(30, 28, 26, 24,
-                                22, 20, 18, 16);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 2;
-
-  return in;
-}
-
-inline static const uint32_t* unpack3_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(21, 18, 15, 12,
-                               9, 6, 3, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(13, 10, 7, 4,
-                                1, 0, 27, 24);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[0] >> 30 | in[1] << 2,
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(5, 2, 0, 28,
-                                25, 22, 19, 16);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[1] >> 31 | in[2] << 1, in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(29, 26, 23, 20,
-                                17, 14, 11, 8);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 3;
-
-  return in;
-}
-
-inline static const uint32_t* unpack4_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xf;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                               12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[3], in[3],
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 4;
-
-  return in;
-}
-
-inline static const uint32_t* unpack5_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 25, 20,
-                               15, 10, 5, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[0] >> 30 | in[1] << 2,
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(11, 6, 1, 0,
-                                23, 18, 13, 8);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[1] >> 28 | in[2] << 4,
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(19, 14, 9, 4,
-                                0, 26, 21, 16);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[2] >> 31 | in[3] << 1, in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(27, 22, 17, 12,
-                                7, 2, 0, 24);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[4], in[4],
-                              in[4], in[4],
-                              in[3] >> 29 | in[4] << 3, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 5;
-
-  return in;
-}
-
-inline static const uint32_t* unpack6_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(10, 4, 0, 24,
-                               18, 12, 6, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[0] >> 30 | in[1] << 2, in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(26, 20, 14, 8,
-                                2, 0, 22, 16);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[1] >> 28 | in[2] << 4,
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(10, 4, 0, 24,
-                                18, 12, 6, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[3] >> 30 | in[4] << 2, in[3],
-                              in[3], in[3],
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(26, 20, 14, 8,
-                                2, 0, 22, 16);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[5], in[5],
-                              in[5], in[4] >> 28 | in[5] << 4,
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 6;
-
-  return in;
-}
-
-inline static const uint32_t* unpack7_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(17, 10, 3, 0,
-                               21, 14, 7, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[1], in[0] >> 28 | in[1] << 4,
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(9, 2, 0, 20,
-                                13, 6, 0, 24);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[2] >> 27 | in[3] << 5, in[2],
-                              in[2], in[2],
-                              in[1] >> 31 | in[2] << 1, in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 19, 12,
-                                5, 0, 23, 16);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 26 | in[5] << 6,
-                              in[4], in[4],
-                              in[4], in[3] >> 30 | in[4] << 2,
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(25, 18, 11, 4,
-                                0, 22, 15, 8);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[6], in[6],
-                              in[5] >> 29 | in[6] << 3, in[5],
-                              in[5], in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 7;
-
-  return in;
-}
-
-inline static const uint32_t* unpack8_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                               24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[1], in[1],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[5], in[5],
-                              in[4], in[4],
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[7],
-                              in[7], in[7],
-                              in[6], in[6],
-                              in[6], in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 8;
-
-  return in;
-}
-
-inline static const uint32_t* unpack9_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 22, 13, 4,
-                               0, 18, 9, 0);
-  reg_inls = _mm256_set_epi32(in[1] >> 31 | in[2] << 1, in[1],
-                             in[1], in[1],
-                             in[0] >> 27 | in[1] << 5, in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 21, 12,
-                                3, 0, 17, 8);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 30 | in[4] << 2,
-                              in[3], in[3],
-                              in[3], in[2] >> 26 | in[3] << 6,
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(15, 6, 0, 20,
-                                11, 2, 0, 16);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[5] >> 29 | in[6] << 3, in[5],
-                              in[5], in[5],
-                              in[4] >> 25 | in[5] << 7, in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(23, 14, 5, 0,
-                                19, 10, 1, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[8],
-                              in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[7],
-                              in[7], in[6] >> 24 | in[7] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 9;
-
-  return in;
-}
-
-inline static const uint32_t* unpack10_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 18, 8,
-                               0, 20, 10, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[1] >> 28 | in[2] << 4,
-                             in[1], in[1],
-                             in[0] >> 30 | in[1] << 2, in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(22, 12, 2, 0,
-                                14, 4, 0, 16);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[4], in[3] >> 24 | in[4] << 8,
-                              in[3], in[3],
-                              in[2] >> 26 | in[3] << 6, in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 18, 8,
-                                0, 20, 10, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[6] >> 28 | in[7] << 4,
-                              in[6], in[6],
-                              in[5] >> 30 | in[6] << 2, in[5],
-                              in[5], in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(22, 12, 2, 0,
-                                14, 4, 0, 16);
-  reg_inls = _mm256_set_epi32(in[9], in[9],
-                              in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[8],
-                              in[7] >> 26 | in[8] << 6, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 10;
-
-  return in;
-}
-
-inline static const uint32_t* unpack11_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(13, 2, 0, 12,
-                               1, 0, 11, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                             in[1] >> 23 | in[2] << 9, in[1],
-                             in[1], in[0] >> 22 | in[1] << 10,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 15, 4,
-                                0, 14, 3, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 26 | in[5] << 6,
-                              in[4], in[4],
-                              in[3] >> 25 | in[4] << 7, in[3],
-                              in[3], in[2] >> 24 | in[3] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 18, 7, 0,
-                                17, 6, 0, 16);
-  reg_inls = _mm256_set_epi32(in[7] >> 29 | in[8] << 3, in[7],
-                              in[7], in[6] >> 28 | in[7] << 4,
-                              in[6], in[6],
-                              in[5] >> 27 | in[6] << 5, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(21, 10, 0, 20,
-                                9, 0, 19, 8);
-  reg_inls = _mm256_set_epi32(in[10], in[10],
-                              in[9] >> 31 | in[10] << 1, in[9],
-                              in[9], in[8] >> 30 | in[9] << 2,
-                              in[8], in[8]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 11;
-
-  return in;
-}
-
-inline static const uint32_t* unpack12_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                               4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                             in[1] >> 28 | in[2] << 4, in[1],
-                             in[1], in[0] >> 24 | in[1] << 8,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[4] >> 28 | in[5] << 4, in[4],
-                              in[4], in[3] >> 24 | in[4] << 8,
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[8],
-                              in[7] >> 28 | in[8] << 4, in[7],
-                              in[7], in[6] >> 24 | in[7] << 8,
-                              in[6], in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[11],
-                              in[10] >> 28 | in[11] << 4, in[10],
-                              in[10], in[9] >> 24 | in[10] << 8,
-                              in[9], in[9]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 12;
-
-  return in;
-}
-
-inline static const uint32_t* unpack13_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 14, 1, 0,
-                               7, 0, 13, 0);
-  reg_inls = _mm256_set_epi32(in[2] >> 27 | in[3] << 5, in[2],
-                             in[2], in[1] >> 20 | in[2] << 12,
-                             in[1], in[0] >> 26 | in[1] << 6,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 9, 0,
-                                15, 2, 0, 8);
-  reg_inls = _mm256_set_epi32(in[6], in[5] >> 22 | in[6] << 10,
-                              in[5], in[4] >> 28 | in[5] << 4,
-                              in[4], in[4],
-                              in[3] >> 21 | in[4] << 11, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(11, 0, 17, 4,
-                                0, 10, 0, 16);
-  reg_inls = _mm256_set_epi32(in[9], in[8] >> 30 | in[9] << 2,
-                              in[8], in[8],
-                              in[7] >> 23 | in[8] << 9, in[7],
-                              in[6] >> 29 | in[7] << 3, in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(19, 6, 0, 12,
-                                0, 18, 5, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[12],
-                              in[11] >> 25 | in[12] << 7, in[11],
-                              in[10] >> 31 | in[11] << 1, in[10],
-                              in[10], in[9] >> 24 | in[10] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 13;
-
-  return in;
-}
-
-inline static const uint32_t* unpack14_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 6, 0,
-                               10, 0, 14, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[2] >> 20 | in[3] << 12,
-                             in[2], in[1] >> 24 | in[2] << 8,
-                             in[1], in[0] >> 28 | in[1] << 4,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(18, 4, 0, 8,
-                                0, 12, 0, 16);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[5] >> 22 | in[6] << 10, in[5],
-                              in[4] >> 26 | in[5] << 6, in[4],
-                              in[3] >> 30 | in[4] << 2, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 6, 0,
-                                10, 0, 14, 0);
-  reg_inls = _mm256_set_epi32(in[10], in[9] >> 20 | in[10] << 12,
-                              in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(18, 4, 0, 8,
-                                0, 12, 0, 16);
-  reg_inls = _mm256_set_epi32(in[13], in[13],
-                              in[12] >> 22 | in[13] << 10, in[12],
-                              in[11] >> 26 | in[12] << 6, in[11],
-                              in[10] >> 30 | in[11] << 2, in[10]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 14;
-
-  return in;
-}
-
-inline static const uint32_t* unpack15_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(9, 0, 11, 0,
-                               13, 0, 15, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[2] >> 26 | in[3] << 6,
-                             in[2], in[1] >> 28 | in[2] << 4,
-                             in[1], in[0] >> 30 | in[1] << 2,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 3, 0,
-                                5, 0, 7, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[6] >> 18 | in[7] << 14,
-                              in[6], in[5] >> 20 | in[6] << 12,
-                              in[5], in[4] >> 22 | in[5] << 10,
-                              in[4], in[3] >> 24 | in[4] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 10, 0, 12,
-                                0, 14, 0, 16);
-  reg_inls = _mm256_set_epi32(in[10] >> 25 | in[11] << 7, in[10],
-                              in[9] >> 27 | in[10] << 5, in[9],
-                              in[8] >> 29 | in[9] << 3, in[8],
-                              in[7] >> 31 | in[8] << 1, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(17, 2, 0, 4,
-                                0, 6, 0, 8);
-  reg_inls = _mm256_set_epi32(in[14], in[14],
-                              in[13] >> 19 | in[14] << 13, in[13],
-                              in[12] >> 21 | in[13] << 11, in[12],
-                              in[11] >> 23 | in[12] << 9, in[11]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 15;
-
-  return in;
-}
-
-inline static const uint32_t* unpack16_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                               16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                             in[2], in[2],
-                             in[1], in[1],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[7],
-                              in[6], in[6],
-                              in[5], in[5],
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[11],
-                              in[10], in[10],
-                              in[9], in[9],
-                              in[8], in[8]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[15], in[15],
-                              in[14], in[14],
-                              in[13], in[13],
-                              in[12], in[12]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 16;
-
-  return in;
-}
-
-inline static const uint32_t* unpack17_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 4,
-                               0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[3] >> 23 | in[4] << 9, in[3],
-                             in[2] >> 21 | in[3] << 11, in[2],
-                             in[1] >> 19 | in[2] << 13, in[1],
-                             in[0] >> 17 | in[1] << 15, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 14, 0, 12,
-                                0, 10, 0, 8);
-  reg_inls = _mm256_set_epi32(in[7] >> 31 | in[8] << 1, in[7],
-                              in[6] >> 29 | in[7] << 3, in[6],
-                              in[5] >> 27 | in[6] << 5, in[5],
-                              in[4] >> 25 | in[5] << 7, in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 5, 0,
-                                3, 0, 1, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[11] >> 22 | in[12] << 10,
-                              in[11], in[10] >> 20 | in[11] << 12,
-                              in[10], in[9] >> 18 | in[10] << 14,
-                              in[9], in[8] >> 16 | in[9] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(15, 0, 13, 0,
-                                11, 0, 9, 0);
-  reg_inls = _mm256_set_epi32(in[16], in[15] >> 30 | in[16] << 2,
-                              in[15], in[14] >> 28 | in[15] << 4,
-                              in[14], in[13] >> 26 | in[14] << 6,
-                              in[13], in[12] >> 24 | in[13] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 17;
-
-  return in;
-}
-
-inline static const uint32_t* unpack18_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 12, 0, 8,
-                               0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[3] >> 30 | in[4] << 2, in[3],
-                             in[2] >> 26 | in[3] << 6, in[2],
-                             in[1] >> 22 | in[2] << 10, in[1],
-                             in[0] >> 18 | in[1] << 14, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(14, 0, 10, 0,
-                                6, 0, 2, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[6] >> 24 | in[7] << 8,
-                              in[6], in[5] >> 20 | in[6] << 12,
-                              in[5], in[4] >> 16 | in[5] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 12, 0, 8,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12] >> 30 | in[13] << 2, in[12],
-                              in[11] >> 26 | in[12] << 6, in[11],
-                              in[10] >> 22 | in[11] << 10, in[10],
-                              in[9] >> 18 | in[10] << 14, in[9]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(14, 0, 10, 0,
-                                6, 0, 2, 0);
-  reg_inls = _mm256_set_epi32(in[17], in[16] >> 28 | in[17] << 4,
-                              in[16], in[15] >> 24 | in[16] << 8,
-                              in[15], in[14] >> 20 | in[15] << 12,
-                              in[14], in[13] >> 16 | in[14] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 18;
-
-  return in;
-}
-
-inline static const uint32_t* unpack19_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 0, 12,
-                               0, 6, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 18 | in[4] << 14,
-                             in[2] >> 31 | in[3] << 1, in[2],
-                             in[1] >> 25 | in[2] << 7, in[1],
-                             in[0] >> 19 | in[1] << 13, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 10, 0, 4,
-                                0, 0, 11, 0);
-  reg_inls = _mm256_set_epi32(in[8] >> 29 | in[9] << 3, in[8],
-                              in[7] >> 23 | in[8] << 9, in[7],
-                              in[6] >> 17 | in[7] << 15, in[5] >> 30 | in[6] << 2,
-                              in[5], in[4] >> 24 | in[5] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                                9, 0, 3, 0);
-  reg_inls = _mm256_set_epi32(in[13] >> 21 | in[14] << 11, in[13],
-                              in[12] >> 15 | in[13] << 17, in[11] >> 28 | in[12] << 4,
-                              in[11], in[10] >> 22 | in[11] << 10,
-                              in[10], in[9] >> 16 | in[10] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(13, 0, 7, 0,
-                                1, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[18], in[17] >> 26 | in[18] << 6,
-                              in[17], in[16] >> 20 | in[17] << 12,
-                              in[16], in[15] >> 14 | in[16] << 18,
-                              in[14] >> 27 | in[15] << 5, in[14]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 19;
-
-  return in;
-}
-
-inline static const uint32_t* unpack20_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                               0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 24 | in[4] << 8,
-                             in[3], in[2] >> 16 | in[3] << 16,
-                             in[1] >> 28 | in[2] << 4, in[1],
-                             in[0] >> 20 | in[1] << 12, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[7] >> 16 | in[8] << 16,
-                              in[6] >> 28 | in[7] << 4, in[6],
-                              in[5] >> 20 | in[6] << 12, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14], in[13] >> 24 | in[14] << 8,
-                              in[13], in[12] >> 16 | in[13] << 16,
-                              in[11] >> 28 | in[12] << 4, in[11],
-                              in[10] >> 20 | in[11] << 12, in[10]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[19], in[18] >> 24 | in[19] << 8,
-                              in[18], in[17] >> 16 | in[18] << 16,
-                              in[16] >> 28 | in[17] << 4, in[16],
-                              in[15] >> 20 | in[16] << 12, in[15]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 20;
-
-  return in;
-}
-
-inline static const uint32_t* unpack21_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 9, 0,
-                               0, 10, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4] >> 19 | in[5] << 13, in[3] >> 30 | in[4] << 2,
-                             in[3], in[2] >> 20 | in[3] << 12,
-                             in[1] >> 31 | in[2] << 1, in[1],
-                             in[0] >> 21 | in[1] << 11, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 0,
-                                7, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[9] >> 27 | in[10] << 5, in[9],
-                              in[8] >> 17 | in[9] << 15, in[7] >> 28 | in[8] << 4,
-                              in[7], in[6] >> 18 | in[7] << 14,
-                              in[5] >> 29 | in[6] << 3, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 0, 4,
-                                0, 0, 5, 0);
-  reg_inls = _mm256_set_epi32(in[15], in[14] >> 14 | in[15] << 18,
-                              in[13] >> 25 | in[14] << 7, in[13],
-                              in[12] >> 15 | in[13] << 17, in[11] >> 26 | in[12] << 6,
-                              in[11], in[10] >> 16 | in[11] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(11, 0, 1, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20], in[19] >> 22 | in[20] << 10,
-                              in[19], in[18] >> 12 | in[19] << 20,
-                              in[17] >> 23 | in[18] << 9, in[17],
-                              in[16] >> 13 | in[17] << 19, in[15] >> 24 | in[16] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 21;
-
-  return in;
-}
-
-inline static const uint32_t* unpack22_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 4, 0, 0,
-                               2, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4] >> 26 | in[5] << 6, in[4],
-                             in[3] >> 14 | in[4] << 18, in[2] >> 24 | in[3] << 8,
-                             in[2], in[1] >> 12 | in[2] << 20,
-                             in[0] >> 22 | in[1] << 10, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(10, 0, 0, 8,
-                                0, 0, 6, 0);
-  reg_inls = _mm256_set_epi32(in[10], in[9] >> 20 | in[10] << 12,
-                              in[8] >> 30 | in[9] << 2, in[8],
-                              in[7] >> 18 | in[8] << 14, in[6] >> 28 | in[7] << 4,
-                              in[6], in[5] >> 16 | in[6] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 4, 0, 0,
-                                2, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[15] >> 26 | in[16] << 6, in[15],
-                              in[14] >> 14 | in[15] << 18, in[13] >> 24 | in[14] << 8,
-                              in[13], in[12] >> 12 | in[13] << 20,
-                              in[11] >> 22 | in[12] << 10, in[11]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(10, 0, 0, 8,
-                                0, 0, 6, 0);
-  reg_inls = _mm256_set_epi32(in[21], in[20] >> 20 | in[21] << 12,
-                              in[19] >> 30 | in[20] << 2, in[19],
-                              in[18] >> 18 | in[19] << 14, in[17] >> 28 | in[18] << 4,
-                              in[17], in[16] >> 16 | in[17] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 22;
-
-  return in;
-}
-
-inline static const uint32_t* unpack23_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 0, 0,
-                               5, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 10 | in[5] << 22,
-                             in[3] >> 19 | in[4] << 13, in[2] >> 28 | in[3] << 4,
-                             in[2], in[1] >> 14 | in[2] << 18,
-                             in[0] >> 23 | in[1] << 9, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                                0, 6, 0, 0);
-  reg_inls = _mm256_set_epi32(in[10] >> 25 | in[11] << 7, in[10],
-                              in[9] >> 11 | in[10] << 21, in[8] >> 20 | in[9] << 12,
-                              in[7] >> 29 | in[8] << 3, in[7],
-                              in[6] >> 15 | in[7] << 17, in[5] >> 24 | in[6] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 3, 0,
-                                0, 0, 7, 0);
-  reg_inls = _mm256_set_epi32(in[16] >> 17 | in[17] << 15, in[15] >> 26 | in[16] << 6,
-                              in[15], in[14] >> 12 | in[15] << 20,
-                              in[13] >> 21 | in[14] << 11, in[12] >> 30 | in[13] << 2,
-                              in[12], in[11] >> 16 | in[12] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(9, 0, 0, 4,
-                                0, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[22], in[21] >> 18 | in[22] << 14,
-                              in[20] >> 27 | in[21] << 5, in[20],
-                              in[19] >> 13 | in[20] << 19, in[18] >> 22 | in[19] << 10,
-                              in[17] >> 31 | in[18] << 1, in[17]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 23;
-
-  return in;
-}
-
-inline static const uint32_t* unpack24_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                               8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 16 | in[5] << 16,
-                             in[3] >> 24 | in[4] << 8, in[3],
-                             in[2], in[1] >> 16 | in[2] << 16,
-                             in[0] >> 24 | in[1] << 8, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[10] >> 16 | in[11] << 16,
-                              in[9] >> 24 | in[10] << 8, in[9],
-                              in[8], in[7] >> 16 | in[8] << 16,
-                              in[6] >> 24 | in[7] << 8, in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[17], in[16] >> 16 | in[17] << 16,
-                              in[15] >> 24 | in[16] << 8, in[15],
-                              in[14], in[13] >> 16 | in[14] << 16,
-                              in[12] >> 24 | in[13] << 8, in[12]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[23], in[22] >> 16 | in[23] << 16,
-                              in[21] >> 24 | in[22] << 8, in[21],
-                              in[20], in[19] >> 16 | in[20] << 16,
-                              in[18] >> 24 | in[19] << 8, in[18]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 24;
-
-  return in;
-}
-
-inline static const uint32_t* unpack25_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 4,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 15 | in[6] << 17, in[4] >> 22 | in[5] << 10,
-                             in[3] >> 29 | in[4] << 3, in[3],
-                             in[2] >> 11 | in[3] << 21, in[1] >> 18 | in[2] << 14,
-                             in[0] >> 25 | in[1] << 7, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 5, 0,
-                                0, 0, 1, 0);
-  reg_inls = _mm256_set_epi32(in[11] >> 23 | in[12] << 9, in[10] >> 30 | in[11] << 2,
-                              in[10], in[9] >> 12 | in[10] << 20,
-                              in[8] >> 19 | in[9] << 13, in[7] >> 26 | in[8] << 6,
-                              in[7], in[6] >> 8 | in[7] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[17] >> 31 | in[18] << 1, in[17],
-                              in[16] >> 13 | in[17] << 19, in[15] >> 20 | in[16] << 12,
-                              in[14] >> 27 | in[15] << 5, in[14],
-                              in[13] >> 9 | in[14] << 23, in[12] >> 16 | in[13] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 0, 0,
-                                3, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[24], in[23] >> 14 | in[24] << 18,
-                              in[22] >> 21 | in[23] << 11, in[21] >> 28 | in[22] << 4,
-                              in[21], in[20] >> 10 | in[21] << 22,
-                              in[19] >> 17 | in[20] << 15, in[18] >> 24 | in[19] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 25;
-
-  return in;
-}
-
-inline static const uint32_t* unpack26_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 2, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 22 | in[6] << 10, in[4] >> 28 | in[5] << 4,
-                             in[4], in[3] >> 8 | in[4] << 24,
-                             in[2] >> 14 | in[3] << 18, in[1] >> 20 | in[2] << 12,
-                             in[0] >> 26 | in[1] << 6, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 0, 0,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[11] >> 12 | in[12] << 20,
-                              in[10] >> 18 | in[11] << 14, in[9] >> 24 | in[10] << 8,
-                              in[8] >> 30 | in[9] << 2, in[8],
-                              in[7] >> 10 | in[8] << 22, in[6] >> 16 | in[7] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 2, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[18] >> 22 | in[19] << 10, in[17] >> 28 | in[18] << 4,
-                              in[17], in[16] >> 8 | in[17] << 24,
-                              in[15] >> 14 | in[16] << 18, in[14] >> 20 | in[15] << 12,
-                              in[13] >> 26 | in[14] << 6, in[13]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 0, 0,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[25], in[24] >> 12 | in[25] << 20,
-                              in[23] >> 18 | in[24] << 14, in[22] >> 24 | in[23] << 8,
-                              in[21] >> 30 | in[22] << 2, in[21],
-                              in[20] >> 10 | in[21] << 22, in[19] >> 16 | in[20] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 26;
-
-  return in;
-}
-
-inline static const uint32_t* unpack27_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 29 | in[6] << 3, in[5],
-                             in[4] >> 7 | in[5] << 25, in[3] >> 12 | in[4] << 20,
-                             in[2] >> 17 | in[3] << 15, in[1] >> 22 | in[2] << 10,
-                             in[0] >> 27 | in[1] << 5, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 4,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12] >> 21 | in[13] << 11, in[11] >> 26 | in[12] << 6,
-                              in[10] >> 31 | in[11] << 1, in[10],
-                              in[9] >> 9 | in[10] << 23, in[8] >> 14 | in[9] << 18,
-                              in[7] >> 19 | in[8] << 13, in[6] >> 24 | in[7] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                1, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[19] >> 13 | in[20] << 19, in[18] >> 18 | in[19] << 14,
-                              in[17] >> 23 | in[18] << 9, in[16] >> 28 | in[17] << 4,
-                              in[16], in[15] >> 6 | in[16] << 26,
-                              in[14] >> 11 | in[15] << 21, in[13] >> 16 | in[14] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 0, 0,
-                                0, 0, 3, 0);
-  reg_inls = _mm256_set_epi32(in[26], in[25] >> 10 | in[26] << 22,
-                              in[24] >> 15 | in[25] << 17, in[23] >> 20 | in[24] << 12,
-                              in[22] >> 25 | in[23] << 7, in[21] >> 30 | in[22] << 2,
-                              in[21], in[20] >> 8 | in[21] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 27;
-
-  return in;
-}
-
-inline static const uint32_t* unpack28_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6], in[5] >> 8 | in[6] << 24,
-                             in[4] >> 12 | in[5] << 20, in[3] >> 16 | in[4] << 16,
-                             in[2] >> 20 | in[3] << 12, in[1] >> 24 | in[2] << 8,
-                             in[0] >> 28 | in[1] << 4, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[13], in[12] >> 8 | in[13] << 24,
-                              in[11] >> 12 | in[12] << 20, in[10] >> 16 | in[11] << 16,
-                              in[9] >> 20 | in[10] << 12, in[8] >> 24 | in[9] << 8,
-                              in[7] >> 28 | in[8] << 4, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20], in[19] >> 8 | in[20] << 24,
-                              in[18] >> 12 | in[19] << 20, in[17] >> 16 | in[18] << 16,
-                              in[16] >> 20 | in[17] << 12, in[15] >> 24 | in[16] << 8,
-                              in[14] >> 28 | in[15] << 4, in[14]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[27], in[26] >> 8 | in[27] << 24,
-                              in[25] >> 12 | in[26] << 20, in[24] >> 16 | in[25] << 16,
-                              in[23] >> 20 | in[24] << 12, in[22] >> 24 | in[23] << 8,
-                              in[21] >> 28 | in[22] << 4, in[21]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 28;
-
-  return in;
-}
-
-inline static const uint32_t* unpack29_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 11 | in[7] << 21, in[5] >> 14 | in[6] << 18,
-                             in[4] >> 17 | in[5] << 15, in[3] >> 20 | in[4] << 12,
-                             in[2] >> 23 | in[3] << 9, in[1] >> 26 | in[2] << 6,
-                             in[0] >> 29 | in[1] << 3, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[13] >> 19 | in[14] << 13, in[12] >> 22 | in[13] << 10,
-                              in[11] >> 25 | in[12] << 7, in[10] >> 28 | in[11] << 4,
-                              in[9] >> 31 | in[10] << 1, in[9],
-                              in[8] >> 5 | in[9] << 27, in[7] >> 8 | in[8] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 1, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20] >> 27 | in[21] << 5, in[19] >> 30 | in[20] << 2,
-                              in[19], in[18] >> 4 | in[19] << 28,
-                              in[17] >> 7 | in[18] << 25, in[16] >> 10 | in[17] << 22,
-                              in[15] >> 13 | in[16] << 19, in[14] >> 16 | in[15] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[28], in[27] >> 6 | in[28] << 26,
-                              in[26] >> 9 | in[27] << 23, in[25] >> 12 | in[26] << 20,
-                              in[24] >> 15 | in[25] << 17, in[23] >> 18 | in[24] << 14,
-                              in[22] >> 21 | in[23] << 11, in[21] >> 24 | in[22] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 29;
-
-  return in;
-}
-
-inline static const uint32_t* unpack30_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 18 | in[7] << 14, in[5] >> 20 | in[6] << 12,
-                             in[4] >> 22 | in[5] << 10, in[3] >> 24 | in[4] << 8,
-                             in[2] >> 26 | in[3] << 6, in[1] >> 28 | in[2] << 4,
-                             in[0] >> 30 | in[1] << 2, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14], in[13] >> 4 | in[14] << 28,
-                              in[12] >> 6 | in[13] << 26, in[11] >> 8 | in[12] << 24,
-                              in[10] >> 10 | in[11] << 22, in[9] >> 12 | in[10] << 20,
-                              in[8] >> 14 | in[9] << 18, in[7] >> 16 | in[8] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[21] >> 18 | in[22] << 14, in[20] >> 20 | in[21] << 12,
-                              in[19] >> 22 | in[20] << 10, in[18] >> 24 | in[19] << 8,
-                              in[17] >> 26 | in[18] << 6, in[16] >> 28 | in[17] << 4,
-                              in[15] >> 30 | in[16] << 2, in[15]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[29], in[28] >> 4 | in[29] << 28,
-                              in[27] >> 6 | in[28] << 26, in[26] >> 8 | in[27] << 24,
-                              in[25] >> 10 | in[26] << 22, in[24] >> 12 | in[25] << 20,
-                              in[23] >> 14 | in[24] << 18, in[22] >> 16 | in[23] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 30;
-
-  return in;
-}
-
-inline static const uint32_t* unpack31_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 25 | in[7] << 7, in[5] >> 26 | in[6] << 6,
-                             in[4] >> 27 | in[5] << 5, in[3] >> 28 | in[4] << 4,
-                             in[2] >> 29 | in[3] << 3, in[1] >> 30 | in[2] << 2,
-                             in[0] >> 31 | in[1] << 1, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14] >> 17 | in[15] << 15, in[13] >> 18 | in[14] << 14,
-                              in[12] >> 19 | in[13] << 13, in[11] >> 20 | in[12] << 12,
-                              in[10] >> 21 | in[11] << 11, in[9] >> 22 | in[10] << 10,
-                              in[8] >> 23 | in[9] << 9, in[7] >> 24 | in[8] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[22] >> 9 | in[23] << 23, in[21] >> 10 | in[22] << 22,
-                              in[20] >> 11 | in[21] << 21, in[19] >> 12 | in[20] << 20,
-                              in[18] >> 13 | in[19] << 19, in[17] >> 14 | in[18] << 18,
-                              in[16] >> 15 | in[17] << 17, in[15] >> 16 | in[16] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[30], in[29] >> 2 | in[30] << 30,
-                              in[28] >> 3 | in[29] << 29, in[27] >> 4 | in[28] << 28,
-                              in[26] >> 5 | in[27] << 27, in[25] >> 6 | in[26] << 26,
-                              in[24] >> 7 | in[25] << 25, in[23] >> 8 | in[24] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 31;
-
-  return in;
-}
-
-inline const uint32_t* unpack32_32_avx2(const uint32_t* in, uint32_t* out) {
-  memcpy(out, in, 32 * sizeof(*out));
-  in += 32;
-  out += 32;
-
-  return in;
-}
-
-int unpack32_avx2(const uint32_t* in, uint32_t* out, int batch_size, int num_bits) {
-  batch_size = batch_size / 32 * 32;
-  int num_loops = batch_size / 32;
-
-  switch (num_bits) {
-    case 0:
-      for (int i = 0; i < num_loops; ++i) in = unpack0_32_avx2(in, out + i * 32);
-      break;
-    case 1:
-      for (int i = 0; i < num_loops; ++i) in = unpack1_32_avx2(in, out + i * 32);
-      break;
-    case 2:
-      for (int i = 0; i < num_loops; ++i) in = unpack2_32_avx2(in, out + i * 32);
-      break;
-    case 3:
-      for (int i = 0; i < num_loops; ++i) in = unpack3_32_avx2(in, out + i * 32);
-      break;
-    case 4:
-      for (int i = 0; i < num_loops; ++i) in = unpack4_32_avx2(in, out + i * 32);
-      break;
-    case 5:
-      for (int i = 0; i < num_loops; ++i) in = unpack5_32_avx2(in, out + i * 32);
-      break;
-    case 6:
-      for (int i = 0; i < num_loops; ++i) in = unpack6_32_avx2(in, out + i * 32);
-      break;
-    case 7:
-      for (int i = 0; i < num_loops; ++i) in = unpack7_32_avx2(in, out + i * 32);
-      break;
-    case 8:
-      for (int i = 0; i < num_loops; ++i) in = unpack8_32_avx2(in, out + i * 32);
-      break;
-    case 9:
-      for (int i = 0; i < num_loops; ++i) in = unpack9_32_avx2(in, out + i * 32);
-      break;
-    case 10:
-      for (int i = 0; i < num_loops; ++i) in = unpack10_32_avx2(in, out + i * 32);
-      break;
-    case 11:
-      for (int i = 0; i < num_loops; ++i) in = unpack11_32_avx2(in, out + i * 32);
-      break;
-    case 12:
-      for (int i = 0; i < num_loops; ++i) in = unpack12_32_avx2(in, out + i * 32);
-      break;
-    case 13:
-      for (int i = 0; i < num_loops; ++i) in = unpack13_32_avx2(in, out + i * 32);
-      break;
-    case 14:
-      for (int i = 0; i < num_loops; ++i) in = unpack14_32_avx2(in, out + i * 32);
-      break;
-    case 15:
-      for (int i = 0; i < num_loops; ++i) in = unpack15_32_avx2(in, out + i * 32);
-      break;
-    case 16:
-      for (int i = 0; i < num_loops; ++i) in = unpack16_32_avx2(in, out + i * 32);
-      break;
-    case 17:
-      for (int i = 0; i < num_loops; ++i) in = unpack17_32_avx2(in, out + i * 32);
-      break;
-    case 18:
-      for (int i = 0; i < num_loops; ++i) in = unpack18_32_avx2(in, out + i * 32);
-      break;
-    case 19:
-      for (int i = 0; i < num_loops; ++i) in = unpack19_32_avx2(in, out + i * 32);
-      break;
-    case 20:
-      for (int i = 0; i < num_loops; ++i) in = unpack20_32_avx2(in, out + i * 32);
-      break;
-    case 21:
-      for (int i = 0; i < num_loops; ++i) in = unpack21_32_avx2(in, out + i * 32);
-      break;
-    case 22:
-      for (int i = 0; i < num_loops; ++i) in = unpack22_32_avx2(in, out + i * 32);
-      break;
-    case 23:
-      for (int i = 0; i < num_loops; ++i) in = unpack23_32_avx2(in, out + i * 32);
-      break;
-    case 24:
-      for (int i = 0; i < num_loops; ++i) in = unpack24_32_avx2(in, out + i * 32);
-      break;
-    case 25:
-      for (int i = 0; i < num_loops; ++i) in = unpack25_32_avx2(in, out + i * 32);
-      break;
-    case 26:
-      for (int i = 0; i < num_loops; ++i) in = unpack26_32_avx2(in, out + i * 32);
-      break;
-    case 27:
-      for (int i = 0; i < num_loops; ++i) in = unpack27_32_avx2(in, out + i * 32);
-      break;
-    case 28:
-      for (int i = 0; i < num_loops; ++i) in = unpack28_32_avx2(in, out + i * 32);
-      break;
-    case 29:
-      for (int i = 0; i < num_loops; ++i) in = unpack29_32_avx2(in, out + i * 32);
-      break;
-    case 30:
-      for (int i = 0; i < num_loops; ++i) in = unpack30_32_avx2(in, out + i * 32);
-      break;
-    case 31:
-      for (int i = 0; i < num_loops; ++i) in = unpack31_32_avx2(in, out + i * 32);
-      break;
-    case 32:
-      for (int i = 0; i < num_loops; ++i) in = unpack32_32_avx2(in, out + i * 32);
-      break;
-  }
-
-  return batch_size;
-}
diff --git a/go/parquet/internal/utils/_lib/bit_packing_avx2.s b/go/parquet/internal/utils/_lib/bit_packing_avx2.s
deleted file mode 100644
index 84a5cca2ea30a..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_avx2.s
+++ /dev/null
@@ -1,4012 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bit_packing_avx2.c"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function unpack32_avx2
-.LCPI0_0:
-	.quad	9223372034707292159             # 0x7fffffff7fffffff
-.LCPI0_8:
-	.quad	4611686015206162431             # 0x3fffffff3fffffff
-.LCPI0_12:
-	.quad	2305843005455597567             # 0x1fffffff1fffffff
-.LCPI0_23:
-	.quad	1152921500580315135             # 0xfffffff0fffffff
-.LCPI0_25:
-	.quad	576460748142673919              # 0x7ffffff07ffffff
-.LCPI0_34:
-	.quad	288230371923853311              # 0x3ffffff03ffffff
-.LCPI0_35:
-	.quad	42949672976                     # 0xa00000010
-.LCPI0_36:
-	.quad	94489280528                     # 0x1600000010
-.LCPI0_38:
-	.quad	144115183814443007              # 0x1ffffff01ffffff
-.LCPI0_49:
-	.quad	36028792732385279               # 0x7fffff007fffff
-.LCPI0_56:
-	.quad	18014394218708991               # 0x3fffff003fffff
-.LCPI0_59:
-	.quad	9007194961870847                # 0x1fffff001fffff
-.LCPI0_66:
-	.quad	4503595333451775                # 0xfffff000fffff
-.LCPI0_68:
-	.quad	2251795519242239                # 0x7ffff0007ffff
-.LCPI0_73:
-	.quad	1125895612137471                # 0x3ffff0003ffff
-.LCPI0_76:
-	.quad	562945658585087                 # 0x1ffff0001ffff
-.LCPI0_80:
-	.quad	68719476736                     # 0x1000000000
-.LCPI0_82:
-	.quad	140733193420799                 # 0x7fff00007fff
-.LCPI0_87:
-	.quad	70364449226751                  # 0x3fff00003fff
-.LCPI0_90:
-	.quad	35180077129727                  # 0x1fff00001fff
-.LCPI0_95:
-	.quad	17587891081215                  # 0xfff00000fff
-.LCPI0_97:
-	.quad	8791798056959                   # 0x7ff000007ff
-.LCPI0_102:
-	.quad	4393751544831                   # 0x3ff000003ff
-.LCPI0_105:
-	.quad	2194728288767                   # 0x1ff000001ff
-.LCPI0_112:
-	.quad	545460846719                    # 0x7f0000007f
-.LCPI0_117:
-	.quad	270582939711                    # 0x3f0000003f
-.LCPI0_120:
-	.quad	133143986207                    # 0x1f0000001f
-.LCPI0_125:
-	.quad	64424509455                     # 0xf0000000f
-.LCPI0_127:
-	.quad	30064771079                     # 0x700000007
-.LCPI0_132:
-	.quad	12884901891                     # 0x300000003
-.LCPI0_135:
-	.quad	4294967297                      # 0x100000001
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI0_1:
-	.long	24                              # 0x18
-	.long	23                              # 0x17
-	.long	22                              # 0x16
-	.long	21                              # 0x15
-	.long	20                              # 0x14
-	.long	19                              # 0x13
-	.long	18                              # 0x12
-	.long	17                              # 0x11
-.LCPI0_2:
-	.long	8                               # 0x8
-	.long	9                               # 0x9
-	.long	10                              # 0xa
-	.long	11                              # 0xb
-	.long	12                              # 0xc
-	.long	13                              # 0xd
-	.long	14                              # 0xe
-	.long	15                              # 0xf
-.LCPI0_3:
-	.long	16                              # 0x10
-	.long	15                              # 0xf
-	.long	14                              # 0xe
-	.long	13                              # 0xd
-	.long	12                              # 0xc
-	.long	11                              # 0xb
-	.long	10                              # 0xa
-	.long	9                               # 0x9
-.LCPI0_4:
-	.long	16                              # 0x10
-	.long	17                              # 0x11
-	.long	18                              # 0x12
-	.long	19                              # 0x13
-	.long	20                              # 0x14
-	.long	21                              # 0x15
-	.long	22                              # 0x16
-	.long	23                              # 0x17
-.LCPI0_7:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_11:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-.LCPI0_15:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_18:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_21:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_22:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-.LCPI0_24:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_28:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_31:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_32:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_33:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_37:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-.LCPI0_39:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_42:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_45:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_48:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_52:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_53:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_54:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-.LCPI0_55:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-.LCPI0_57:
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-.LCPI0_58:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_60:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_61:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_64:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-.LCPI0_65:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-.LCPI0_67:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_69:
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-.LCPI0_70:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_71:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-.LCPI0_72:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-.LCPI0_74:
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-.LCPI0_75:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_77:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-.LCPI0_78:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_79:
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	15                              # 0xf
-.LCPI0_81:
-	.long	0                               # 0x0
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-.LCPI0_83:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_84:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-.LCPI0_85:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	17                              # 0x11
-.LCPI0_86:
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-.LCPI0_88:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	18                              # 0x12
-.LCPI0_89:
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-.LCPI0_91:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_92:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-.LCPI0_93:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	19                              # 0x13
-.LCPI0_94:
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	20                              # 0x14
-.LCPI0_96:
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	13                              # 0xd
-.LCPI0_98:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_99:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-.LCPI0_100:
-	.long	8                               # 0x8
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	21                              # 0x15
-.LCPI0_101:
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-.LCPI0_103:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	12                              # 0xc
-	.long	22                              # 0x16
-.LCPI0_104:
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	13                              # 0xd
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-.LCPI0_106:
-	.long	8                               # 0x8
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	12                              # 0xc
-	.long	21                              # 0x15
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_107:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	11                              # 0xb
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	15                              # 0xf
-.LCPI0_108:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	10                              # 0xa
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	14                              # 0xe
-	.long	23                              # 0x17
-.LCPI0_111:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	14                              # 0xe
-	.long	21                              # 0x15
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	10                              # 0xa
-	.long	17                              # 0x11
-.LCPI0_113:
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	13                              # 0xd
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	9                               # 0x9
-.LCPI0_114:
-	.long	16                              # 0x10
-	.long	23                              # 0x17
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	12                              # 0xc
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_115:
-	.long	8                               # 0x8
-	.long	15                              # 0xf
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	11                              # 0xb
-	.long	18                              # 0x12
-	.long	25                              # 0x19
-.LCPI0_116:
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	12                              # 0xc
-	.long	18                              # 0x12
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	10                              # 0xa
-.LCPI0_118:
-	.long	16                              # 0x10
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	8                               # 0x8
-	.long	14                              # 0xe
-	.long	20                              # 0x14
-	.long	26                              # 0x1a
-.LCPI0_119:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	10                              # 0xa
-	.long	15                              # 0xf
-	.long	20                              # 0x14
-	.long	25                              # 0x19
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_121:
-	.long	8                               # 0x8
-	.long	13                              # 0xd
-	.long	18                              # 0x12
-	.long	23                              # 0x17
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	6                               # 0x6
-	.long	11                              # 0xb
-.LCPI0_122:
-	.long	16                              # 0x10
-	.long	21                              # 0x15
-	.long	26                              # 0x1a
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	9                               # 0x9
-	.long	14                              # 0xe
-	.long	19                              # 0x13
-.LCPI0_123:
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	7                               # 0x7
-	.long	12                              # 0xc
-	.long	17                              # 0x11
-	.long	22                              # 0x16
-	.long	27                              # 0x1b
-.LCPI0_124:
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	8                               # 0x8
-	.long	12                              # 0xc
-	.long	16                              # 0x10
-	.long	20                              # 0x14
-	.long	24                              # 0x18
-	.long	28                              # 0x1c
-.LCPI0_126:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	6                               # 0x6
-	.long	9                               # 0x9
-	.long	12                              # 0xc
-	.long	15                              # 0xf
-	.long	18                              # 0x12
-	.long	21                              # 0x15
-.LCPI0_128:
-	.long	24                              # 0x18
-	.long	27                              # 0x1b
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	4                               # 0x4
-	.long	7                               # 0x7
-	.long	10                              # 0xa
-	.long	13                              # 0xd
-.LCPI0_129:
-	.long	16                              # 0x10
-	.long	19                              # 0x13
-	.long	22                              # 0x16
-	.long	25                              # 0x19
-	.long	28                              # 0x1c
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	5                               # 0x5
-.LCPI0_130:
-	.long	8                               # 0x8
-	.long	11                              # 0xb
-	.long	14                              # 0xe
-	.long	17                              # 0x11
-	.long	20                              # 0x14
-	.long	23                              # 0x17
-	.long	26                              # 0x1a
-	.long	29                              # 0x1d
-.LCPI0_131:
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	4                               # 0x4
-	.long	6                               # 0x6
-	.long	8                               # 0x8
-	.long	10                              # 0xa
-	.long	12                              # 0xc
-	.long	14                              # 0xe
-.LCPI0_133:
-	.long	16                              # 0x10
-	.long	18                              # 0x12
-	.long	20                              # 0x14
-	.long	22                              # 0x16
-	.long	24                              # 0x18
-	.long	26                              # 0x1a
-	.long	28                              # 0x1c
-	.long	30                              # 0x1e
-.LCPI0_134:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	2                               # 0x2
-	.long	3                               # 0x3
-	.long	4                               # 0x4
-	.long	5                               # 0x5
-	.long	6                               # 0x6
-	.long	7                               # 0x7
-.LCPI0_136:
-	.long	24                              # 0x18
-	.long	25                              # 0x19
-	.long	26                              # 0x1a
-	.long	27                              # 0x1b
-	.long	28                              # 0x1c
-	.long	29                              # 0x1d
-	.long	30                              # 0x1e
-	.long	31                              # 0x1f
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_5:
-	.long	8                               # 0x8
-	.long	7                               # 0x7
-	.long	6                               # 0x6
-	.long	5                               # 0x5
-.LCPI0_6:
-	.long	24                              # 0x18
-	.long	25                              # 0x19
-	.long	26                              # 0x1a
-	.long	27                              # 0x1b
-.LCPI0_9:
-	.long	16                              # 0x10
-	.long	14                              # 0xe
-	.long	12                              # 0xc
-	.long	10                              # 0xa
-.LCPI0_10:
-	.long	16                              # 0x10
-	.long	18                              # 0x12
-	.long	20                              # 0x14
-	.long	22                              # 0x16
-.LCPI0_13:
-	.long	8                               # 0x8
-	.long	5                               # 0x5
-	.zero	4
-	.zero	4
-.LCPI0_14:
-	.long	24                              # 0x18
-	.long	27                              # 0x1b
-	.zero	4
-	.zero	4
-.LCPI0_16:
-	.long	16                              # 0x10
-	.long	13                              # 0xd
-	.long	10                              # 0xa
-	.long	7                               # 0x7
-.LCPI0_17:
-	.long	16                              # 0x10
-	.long	19                              # 0x13
-	.long	22                              # 0x16
-	.long	25                              # 0x19
-.LCPI0_19:
-	.long	24                              # 0x18
-	.long	21                              # 0x15
-	.long	18                              # 0x12
-	.long	15                              # 0xf
-.LCPI0_20:
-	.long	8                               # 0x8
-	.long	11                              # 0xb
-	.long	14                              # 0xe
-	.long	17                              # 0x11
-.LCPI0_26:
-	.long	24                              # 0x18
-	.long	19                              # 0x13
-	.long	14                              # 0xe
-	.long	9                               # 0x9
-.LCPI0_27:
-	.long	8                               # 0x8
-	.long	13                              # 0xd
-	.long	18                              # 0x12
-	.long	23                              # 0x17
-.LCPI0_29:
-	.long	16                              # 0x10
-	.long	11                              # 0xb
-	.zero	4
-	.zero	4
-.LCPI0_30:
-	.long	16                              # 0x10
-	.long	21                              # 0x15
-	.zero	4
-	.zero	4
-.LCPI0_40:
-	.long	16                              # 0x10
-	.long	9                               # 0x9
-	.zero	4
-	.zero	4
-.LCPI0_41:
-	.long	16                              # 0x10
-	.long	23                              # 0x17
-	.zero	4
-	.zero	4
-.LCPI0_43:
-	.long	24                              # 0x18
-	.long	17                              # 0x11
-	.zero	4
-	.zero	4
-.LCPI0_44:
-	.long	8                               # 0x8
-	.long	15                              # 0xf
-	.zero	4
-	.zero	4
-.LCPI0_46:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-.LCPI0_50:
-	.long	24                              # 0x18
-	.long	15                              # 0xf
-	.zero	4
-	.zero	4
-.LCPI0_51:
-	.long	8                               # 0x8
-	.long	17                              # 0x11
-	.zero	4
-	.zero	4
-.LCPI0_62:
-	.long	24                              # 0x18
-	.long	13                              # 0xd
-	.zero	4
-	.zero	4
-.LCPI0_63:
-	.long	8                               # 0x8
-	.long	19                              # 0x13
-	.zero	4
-	.zero	4
-.LCPI0_109:
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	16                              # 0x10
-	.long	24                              # 0x18
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_47:
-	.long	16777215                        # 0xffffff
-.LCPI0_110:
-	.long	255                             # 0xff
-	.text
-	.globl	unpack32_avx2
-	.p2align	4, 0x90
-	.type	unpack32_avx2,@function
-unpack32_avx2:                          # @unpack32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r12
-	push	rbx
-	and	rsp, -16
-                                        # kill: def $edx killed $edx def $rdx
-	mov	r15, rsi
-	mov	rbx, rdi
-	lea	r14d, [rdx + 31]
-	test	edx, edx
-	cmovns	r14d, edx
-	sar	r14d, 5
-	cmp	ecx, 15
-	jle	.LBB0_1
-# %bb.48:
-	cmp	ecx, 23
-	jle	.LBB0_49
-# %bb.72:
-	cmp	ecx, 27
-	jle	.LBB0_73
-# %bb.84:
-	cmp	ecx, 29
-	jle	.LBB0_85
-# %bb.90:
-	cmp	ecx, 30
-	je	.LBB0_99
-# %bb.91:
-	cmp	ecx, 31
-	je	.LBB0_96
-# %bb.92:
-	cmp	ecx, 32
-	jne	.LBB0_147
-# %bb.93:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.94:
-	mov	r12d, r14d
-	.p2align	4, 0x90
-.LBB0_95:                               # =>This Inner Loop Header: Depth=1
-	mov	edx, 128
-	mov	rdi, r15
-	mov	rsi, rbx
-	call	clib·_memcpy(SB)
-	sub	rbx, -128
-	sub	r15, -128
-	add	r12, -1
-	jne	.LBB0_95
-	jmp	.LBB0_147
-.LBB0_1:
-	cmp	ecx, 7
-	jg	.LBB0_25
-# %bb.2:
-	cmp	ecx, 3
-	jg	.LBB0_14
-# %bb.3:
-	cmp	ecx, 1
-	jg	.LBB0_9
-# %bb.4:
-	test	ecx, ecx
-	je	.LBB0_144
-# %bb.5:
-	cmp	ecx, 1
-	jne	.LBB0_147
-# %bb.6:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.7:
-	mov	eax, r14d
-	add	r15, 96
-	xor	ecx, ecx
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_135] # ymm0 = [4294967297,4294967297,4294967297,4294967297]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_134] # ymm1 = [0,1,2,3,4,5,6,7]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_2] # ymm2 = [8,9,10,11,12,13,14,15]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_4] # ymm3 = [16,17,18,19,20,21,22,23]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_136] # ymm4 = [24,25,26,27,28,29,30,31]
-	.p2align	4, 0x90
-.LBB0_8:                                # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	add	rcx, 1
-	sub	r15, -128
-	cmp	rax, rcx
-	jne	.LBB0_8
-	jmp	.LBB0_147
-.LBB0_49:
-	cmp	ecx, 19
-	jg	.LBB0_61
-# %bb.50:
-	cmp	ecx, 17
-	jg	.LBB0_56
-# %bb.51:
-	cmp	ecx, 16
-	je	.LBB0_120
-# %bb.52:
-	cmp	ecx, 17
-	jne	.LBB0_147
-# %bb.53:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.54:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 64
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_76] # ymm0 = [562945658585087,562945658585087,562945658585087,562945658585087]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_75] # ymm1 = [0,0,2,0,4,0,6,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_77] # ymm2 = [8,0,10,0,12,0,14,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_78] # ymm3 = [0,1,0,3,0,5,0,7]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_79] # ymm4 = [0,9,0,11,0,13,0,15]
-	.p2align	4, 0x90
-.LBB0_55:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 52]
-	mov	r10d, dword ptr [rbx - 48]
-	shld	r10d, ecx, 9
-	mov	esi, dword ptr [rbx - 56]
-	mov	edi, ecx
-	shld	edi, esi, 11
-	mov	r9d, dword ptr [rbx - 64]
-	mov	edx, dword ptr [rbx - 60]
-	mov	eax, edx
-	shld	eax, r9d, 15
-	vmovd	xmm5, esi
-	shld	esi, edx, 13
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	eax, dword ptr [rbx - 36]
-	mov	r10d, dword ptr [rbx - 32]
-	shld	r10d, eax, 1
-	mov	edx, dword ptr [rbx - 40]
-	mov	esi, eax
-	shld	esi, edx, 3
-	mov	r9d, dword ptr [rbx - 48]
-	mov	ecx, dword ptr [rbx - 44]
-	mov	edi, ecx
-	shld	edi, r9d, 7
-	vmovd	xmm5, edx
-	shld	edx, ecx, 5
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r9d, dword ptr [rbx - 16]
-	mov	r11d, dword ptr [rbx - 20]
-	mov	edx, r9d
-	shld	edx, r11d, 10
-	mov	r10d, dword ptr [rbx - 24]
-	mov	edi, r11d
-	shld	edi, r10d, 12
-	mov	eax, dword ptr [rbx - 28]
-	mov	esi, r10d
-	shld	esi, eax, 14
-	mov	ecx, dword ptr [rbx - 32]
-	shrd	ecx, eax, 16
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 2
-	mov	r10d, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, r10d, 4
-	mov	eax, dword ptr [rbx - 16]
-	mov	esi, dword ptr [rbx - 12]
-	mov	ecx, r10d
-	shld	ecx, esi, 6
-	shrd	eax, esi, 24
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 68
-	add	r8, -1
-	jne	.LBB0_55
-	jmp	.LBB0_147
-.LBB0_25:
-	cmp	ecx, 11
-	jg	.LBB0_37
-# %bb.26:
-	cmp	ecx, 9
-	jg	.LBB0_32
-# %bb.27:
-	cmp	ecx, 8
-	je	.LBB0_132
-# %bb.28:
-	cmp	ecx, 9
-	jne	.LBB0_147
-# %bb.29:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.30:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 32
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_105] # ymm0 = [2194728288767,2194728288767,2194728288767,2194728288767]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_104] # ymm1 = [0,9,18,0,4,13,22,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_106] # ymm2 = [8,17,0,3,12,21,0,7]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_107] # ymm3 = [16,0,2,11,20,0,6,15]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_108] # ymm4 = [0,1,10,19,0,5,14,23]
-	.p2align	4, 0x90
-.LBB0_31:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, dword ptr [rbx - 24]
-	shld	esi, edx, 1
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	shld	edx, ecx, 5
-	vpinsrd	xmm5, xmm5, esi, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, dword ptr [rbx - 20]
-	mov	edi, ecx
-	shld	edi, esi, 2
-	mov	eax, esi
-	shld	eax, edx, 6
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 8]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edx, 3
-	mov	edi, edx
-	shld	edi, ecx, 7
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 4
-	shrd	ecx, edx, 24
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 36
-	add	r8, -1
-	jne	.LBB0_31
-	jmp	.LBB0_147
-.LBB0_73:
-	cmp	ecx, 25
-	jg	.LBB0_79
-# %bb.74:
-	cmp	ecx, 24
-	je	.LBB0_108
-# %bb.75:
-	cmp	ecx, 25
-	jne	.LBB0_147
-# %bb.76:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.77:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_38] # ymm0 = [144115183814443007,144115183814443007,144115183814443007,144115183814443007]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_28] # ymm9 = [0,0,0,0,4,0,0,0]
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI0_39] # ymm10 = [0,1,0,0,0,5,0,0]
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI0_40] # xmm11 = <16,9,u,u>
-	vmovdqa	xmm4, xmmword ptr [rip + .LCPI0_41] # xmm4 = <16,23,u,u>
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI0_42] # ymm5 = [0,0,2,0,0,0,6,0]
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_43] # xmm6 = <24,17,u,u>
-	vmovdqa	xmm7, xmmword ptr [rip + .LCPI0_44] # xmm7 = <8,15,u,u>
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_45] # ymm8 = [0,0,0,3,0,0,0,7]
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 76]
-	mov	r9d, dword ptr [rbx - 72]
-	shld	r9d, ecx, 17
-	mov	esi, dword ptr [rbx - 80]
-	shld	ecx, esi, 10
-	mov	edi, dword ptr [rbx - 84]
-	shld	esi, edi, 3
-	mov	eax, dword ptr [rbx - 88]
-	vmovd	xmm1, edi
-	shld	edi, eax, 21
-	mov	r10d, dword ptr [rbx - 96]
-	mov	edx, dword ptr [rbx - 92]
-	shld	eax, edx, 14
-	shld	edx, r10d, 7
-	vpinsrd	xmm1, xmm1, esi, 1
-	vmovd	xmm2, r10d
-	vpinsrd	xmm1, xmm1, ecx, 2
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm9
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	mov	r11d, dword ptr [rbx - 52]
-	mov	r9d, dword ptr [rbx - 48]
-	shld	r9d, r11d, 9
-	mov	r10d, dword ptr [rbx - 56]
-	shld	r11d, r10d, 2
-	mov	esi, dword ptr [rbx - 60]
-	mov	edi, r10d
-	mov	ecx, dword ptr [rbx - 64]
-	shld	edi, esi, 20
-	mov	edx, dword ptr [rbx - 72]
-	mov	eax, dword ptr [rbx - 68]
-	shld	esi, ecx, 13
-	shrd	edx, eax, 8
-	shld	ecx, eax, 6
-	vmovd	xmm1, edi
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vmovd	xmm2, edx
-	vpinsrd	xmm1, xmm1, r11d, 2
-	vpinsrd	xmm2, xmm2, eax, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm2, xmm2, esi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm10
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 1
-	mov	edx, dword ptr [rbx - 32]
-	mov	esi, eax
-	shld	esi, edx, 19
-	mov	edi, dword ptr [rbx - 40]
-	mov	ecx, dword ptr [rbx - 36]
-	shld	edx, ecx, 12
-	shld	ecx, edi, 5
-	vmovq	xmm1, qword ptr [rbx - 48]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm11
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, edi, 1
-	vpsllvd	xmm1, xmm1, xmm4
-	vpor	xmm1, xmm2, xmm1
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, edi, 2
-	vpinsrd	xmm1, xmm1, ecx, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm5
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 18
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 11
-	mov	r10d, dword ptr [rbx - 16]
-	mov	edi, dword ptr [rbx - 12]
-	shld	esi, edi, 4
-	mov	eax, edi
-	shld	eax, r10d, 22
-	vmovq	xmm1, qword ptr [rbx - 24]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm6
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vpsllvd	xmm1, xmm1, xmm7
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpor	xmm1, xmm2, xmm1
-	vpinsrd	xmm2, xmm3, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, eax, 2
-	vpinsrd	xmm1, xmm1, edi, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm8
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	sub	r15, -128
-	add	rbx, 100
-	add	r8, -1
-	jne	.LBB0_78
-	jmp	.LBB0_147
-.LBB0_14:
-	cmp	ecx, 5
-	jg	.LBB0_20
-# %bb.15:
-	cmp	ecx, 4
-	je	.LBB0_138
-# %bb.16:
-	cmp	ecx, 5
-	jne	.LBB0_147
-# %bb.17:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.18:
-	mov	eax, r14d
-	add	r15, 96
-	add	rbx, 16
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_120] # ymm0 = [133143986207,133143986207,133143986207,133143986207]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_119] # ymm1 = [0,5,10,15,20,25,0,3]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_121] # ymm2 = [8,13,18,23,0,1,6,11]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_122] # ymm3 = [16,21,26,0,4,9,14,19]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_123] # ymm4 = [24,0,2,7,12,17,22,27]
-	.p2align	4, 0x90
-.LBB0_19:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm6, xmm5
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 8]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm5, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	vmovd	xmm5, edx
-	shld	edx, ecx, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, dword ptr [rbx]
-	mov	esi, edx
-	shld	esi, ecx, 3
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vmovd	xmm6, edx
-	vpbroadcastd	xmm6, xmm6
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 20
-	add	rax, -1
-	jne	.LBB0_19
-	jmp	.LBB0_147
-.LBB0_61:
-	cmp	ecx, 21
-	jg	.LBB0_67
-# %bb.62:
-	cmp	ecx, 20
-	je	.LBB0_114
-# %bb.63:
-	cmp	ecx, 21
-	jne	.LBB0_147
-# %bb.64:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.65:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 80
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_58] # ymm8 = [0,0,10,0,0,9,0,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_59] # ymm1 = [9007194961870847,9007194961870847,9007194961870847,9007194961870847]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_60] # ymm2 = [8,0,0,7,0,0,6,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_61] # ymm3 = [0,5,0,0,4,0,0,3]
-	vmovdqa	xmm4, xmmword ptr [rip + .LCPI0_62] # xmm4 = <24,13,u,u>
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_63] # xmm5 = <8,19,u,u>
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_64] # ymm6 = [0,0,2,0,0,1,0,11]
-	.p2align	4, 0x90
-.LBB0_66:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 64]
-	mov	r9d, dword ptr [rbx - 60]
-	shld	r9d, ecx, 13
-	mov	r11d, dword ptr [rbx - 68]
-	shld	ecx, r11d, 2
-	mov	edi, dword ptr [rbx - 72]
-	mov	esi, r11d
-	shld	esi, edi, 12
-	mov	r10d, dword ptr [rbx - 80]
-	mov	eax, dword ptr [rbx - 76]
-	shld	edi, eax, 1
-	mov	edx, eax
-	shld	edx, r10d, 11
-	vmovd	xmm7, r10d
-	vmovd	xmm0, esi
-	vpinsrd	xmm7, xmm7, edx, 1
-	vpinsrd	xmm0, xmm0, r11d, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm0, xmm0, ecx, 2
-	vpinsrd	xmm7, xmm7, edi, 3
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm8
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm0
-	mov	r10d, dword ptr [rbx - 44]
-	mov	r9d, dword ptr [rbx - 40]
-	shld	r9d, r10d, 5
-	mov	edx, dword ptr [rbx - 48]
-	mov	esi, r10d
-	shld	esi, edx, 15
-	mov	ecx, dword ptr [rbx - 52]
-	shld	edx, ecx, 4
-	mov	r11d, dword ptr [rbx - 60]
-	mov	eax, dword ptr [rbx - 56]
-	mov	edi, ecx
-	shld	edi, eax, 14
-	shld	eax, r11d, 3
-	vmovd	xmm0, r11d
-	vmovd	xmm7, edx
-	vpinsrd	xmm0, xmm0, eax, 1
-	vpinsrd	xmm7, xmm7, esi, 1
-	vpinsrd	xmm0, xmm0, edi, 2
-	vpinsrd	xmm7, xmm7, r10d, 2
-	vpinsrd	xmm0, xmm0, ecx, 3
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm2
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm0
-	mov	r9d, dword ptr [rbx - 20]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	r10d, r9d
-	shld	r10d, ecx, 18
-	mov	esi, dword ptr [rbx - 28]
-	shld	ecx, esi, 7
-	mov	edi, dword ptr [rbx - 32]
-	vmovd	xmm0, esi
-	shld	esi, edi, 17
-	mov	eax, dword ptr [rbx - 40]
-	mov	edx, dword ptr [rbx - 36]
-	shld	edi, edx, 6
-	shrd	eax, edx, 16
-	vpinsrd	xmm0, xmm0, ecx, 1
-	vmovd	xmm7, eax
-	vpinsrd	xmm0, xmm0, r10d, 2
-	vpinsrd	xmm7, xmm7, edx, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, edi, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm3
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm0
-	mov	r9d, dword ptr [rbx]
-	mov	eax, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, eax, 10
-	mov	esi, dword ptr [rbx - 12]
-	mov	edi, dword ptr [rbx - 8]
-	mov	ecx, eax
-	shld	ecx, edi, 20
-	shld	edi, esi, 9
-	vmovq	xmm0, qword ptr [rbx - 20]      # xmm0 = mem[0],zero
-	vpsrlvd	xmm7, xmm0, xmm4
-	vpshufd	xmm0, xmm0, 229                 # xmm0 = xmm0[1,1,2,3]
-	vpinsrd	xmm0, xmm0, esi, 1
-	vpsllvd	xmm0, xmm0, xmm5
-	vpor	xmm0, xmm7, xmm0
-	vmovd	xmm7, ecx
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm7, xmm7, edx, 2
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vpinsrd	xmm0, xmm0, esi, 2
-	vpinsrd	xmm0, xmm0, edi, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm6
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15], ymm0
-	sub	r15, -128
-	add	rbx, 84
-	add	r8, -1
-	jne	.LBB0_66
-	jmp	.LBB0_147
-.LBB0_37:
-	cmp	ecx, 13
-	jg	.LBB0_43
-# %bb.38:
-	cmp	ecx, 12
-	je	.LBB0_126
-# %bb.39:
-	cmp	ecx, 13
-	jne	.LBB0_147
-# %bb.40:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.41:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 48
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_90] # ymm0 = [35180077129727,35180077129727,35180077129727,35180077129727]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_89] # ymm1 = [0,13,0,7,0,1,14,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_91] # ymm2 = [8,0,2,15,0,9,0,3]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_92] # ymm3 = [16,0,10,0,4,17,0,11]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_93] # ymm4 = [0,5,18,0,12,0,6,19]
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rbx - 40]
-	mov	r9d, dword ptr [rbx - 36]
-	shld	r9d, eax, 5
-	mov	esi, dword ptr [rbx - 48]
-	mov	edx, dword ptr [rbx - 44]
-	mov	ecx, eax
-	shld	ecx, edx, 12
-	mov	edi, edx
-	shld	edi, esi, 6
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, r9d
-	shld	edx, ecx, 10
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	mov	r10d, dword ptr [rbx - 36]
-	mov	eax, esi
-	shld	eax, r10d, 11
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, r10d
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r9d, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, r9d
-	shld	edx, ecx, 2
-	mov	esi, dword ptr [rbx - 24]
-	mov	eax, dword ptr [rbx - 20]
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	shld	ecx, eax, 9
-	mov	edi, eax
-	shld	edi, esi, 3
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, eax
-	shld	edx, ecx, 7
-	mov	esi, dword ptr [rbx - 8]
-	vmovd	xmm5, ecx
-	shld	ecx, esi, 1
-	mov	edi, dword ptr [rbx - 12]
-	shrd	edi, esi, 24
-	vmovd	xmm6, edi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 52
-	add	r8, -1
-	jne	.LBB0_42
-	jmp	.LBB0_147
-.LBB0_85:
-	cmp	ecx, 28
-	je	.LBB0_102
-# %bb.86:
-	cmp	ecx, 29
-	jne	.LBB0_147
-# %bb.87:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.88:
-	mov	r8d, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_12] # ymm0 = [2305843005455597567,2305843005455597567,2305843005455597567,2305843005455597567]
-	vmovdqa	xmm8, xmmword ptr [rip + .LCPI0_13] # xmm8 = <8,5,u,u>
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI0_14] # xmm10 = <24,27,u,u>
-	vmovdqa	ymm11, ymmword ptr [rip + .LCPI0_15] # ymm11 = [0,0,2,0,0,0,0,0]
-	vmovdqa	xmm12, xmmword ptr [rip + .LCPI0_16] # xmm12 = [16,13,10,7]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_17] # xmm5 = [16,19,22,25]
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_18] # ymm6 = [0,0,0,0,0,1,0,0]
-	vmovdqa	xmm7, xmmword ptr [rip + .LCPI0_19] # xmm7 = [24,21,18,15]
-	vmovdqa	xmm1, xmmword ptr [rip + .LCPI0_20] # xmm1 = [8,11,14,17]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_21] # ymm9 = [0,0,0,0,0,0,0,3]
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	mov	r11d, dword ptr [rbx + 24]
-	mov	r9d, dword ptr [rbx + 28]
-	shld	r9d, r11d, 21
-	mov	esi, dword ptr [rbx + 20]
-	shld	r11d, esi, 18
-	mov	edi, dword ptr [rbx + 16]
-	shld	esi, edi, 15
-	mov	eax, dword ptr [rbx + 12]
-	shld	edi, eax, 12
-	mov	edx, dword ptr [rbx + 8]
-	shld	eax, edx, 9
-	mov	r10d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx + 4]
-	shld	edx, ecx, 6
-	shld	ecx, r10d, 3
-	vmovd	xmm2, r10d
-	vmovd	xmm3, edi
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, r11d, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	eax, dword ptr [rbx + 52]
-	mov	r9d, dword ptr [rbx + 56]
-	shld	r9d, eax, 13
-	mov	edx, dword ptr [rbx + 48]
-	shld	eax, edx, 10
-	mov	esi, dword ptr [rbx + 44]
-	shld	edx, esi, 7
-	mov	edi, dword ptr [rbx + 36]
-	mov	ecx, dword ptr [rbx + 40]
-	shld	esi, ecx, 4
-	shld	ecx, edi, 1
-	vmovq	xmm2, qword ptr [rbx + 28]      # xmm2 = mem[0],zero
-	vpsrlvd	xmm3, xmm2, xmm8
-	vpshufd	xmm2, xmm2, 229                 # xmm2 = xmm2[1,1,2,3]
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpsllvd	xmm2, xmm2, xmm10
-	vpor	xmm2, xmm3, xmm2
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm2, xmm2, edi, 2
-	vpinsrd	xmm2, xmm2, ecx, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm11
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	eax, dword ptr [rbx + 80]
-	mov	ecx, dword ptr [rbx + 84]
-	shld	ecx, eax, 5
-	mov	edx, dword ptr [rbx + 76]
-	mov	esi, dword ptr [rbx + 72]
-	shld	eax, edx, 2
-	mov	edi, edx
-	shld	edi, esi, 28
-	vmovdqu	xmm2, xmmword ptr [rbx + 56]
-	vpsrlvd	xmm3, xmm2, xmm12
-	vpshufd	xmm2, xmm2, 249                 # xmm2 = xmm2[1,2,3,3]
-	vpinsrd	xmm2, xmm2, esi, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpsllvd	xmm2, xmm2, xmm5
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpor	xmm2, xmm3, xmm2
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpsrlvd	ymm2, ymm2, ymm6
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	eax, dword ptr [rbx + 112]
-	mov	ecx, dword ptr [rbx + 108]
-	mov	edx, eax
-	shld	edx, ecx, 26
-	mov	esi, dword ptr [rbx + 104]
-	shld	ecx, esi, 23
-	mov	edi, dword ptr [rbx + 100]
-	vmovdqu	xmm2, xmmword ptr [rbx + 84]
-	shld	esi, edi, 20
-	vpsrlvd	xmm3, xmm2, xmm7
-	vpshufd	xmm2, xmm2, 249                 # xmm2 = xmm2[1,2,3,3]
-	vpinsrd	xmm2, xmm2, edi, 3
-	vmovd	xmm4, esi
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpsllvd	xmm2, xmm2, xmm1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, eax, 3
-	vpor	xmm2, xmm3, xmm2
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpsrlvd	ymm2, ymm2, ymm9
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15], ymm2
-	add	rbx, 116
-	sub	r15, -128
-	add	r8, -1
-	jne	.LBB0_89
-	jmp	.LBB0_147
-.LBB0_9:
-	cmp	ecx, 2
-	je	.LBB0_141
-# %bb.10:
-	cmp	ecx, 3
-	jne	.LBB0_147
-# %bb.11:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.12:
-	mov	eax, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_127] # ymm0 = [30064771079,30064771079,30064771079,30064771079]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_126] # ymm1 = [0,3,6,9,12,15,18,21]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_128] # ymm2 = [24,27,0,1,4,7,10,13]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_129] # ymm3 = [16,19,22,25,28,0,2,5]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_130] # ymm4 = [8,11,14,17,20,23,26,29]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm5, dword ptr [rbx]
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx]
-	mov	edx, dword ptr [rbx + 4]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vmovd	xmm6, edx
-	vpbroadcastd	xmm6, xmm6
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	ecx, dword ptr [rbx + 4]
-	mov	edx, dword ptr [rbx + 8]
-	mov	esi, edx
-	shld	esi, ecx, 1
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm6, xmm5
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 8]
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 12
-	add	rax, -1
-	jne	.LBB0_13
-	jmp	.LBB0_147
-.LBB0_56:
-	cmp	ecx, 18
-	je	.LBB0_117
-# %bb.57:
-	cmp	ecx, 19
-	jne	.LBB0_147
-# %bb.58:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.59:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 72
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_68] # ymm0 = [2251795519242239,2251795519242239,2251795519242239,2251795519242239]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_67] # ymm1 = [0,0,6,0,12,0,0,5]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_69] # ymm2 = [0,11,0,0,4,0,10,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_70] # ymm3 = [0,3,0,9,0,0,2,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_71] # ymm4 = [8,0,0,1,0,7,0,13]
-	.p2align	4, 0x90
-.LBB0_60:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 56]
-	mov	edx, dword ptr [rbx - 60]
-	mov	esi, r9d
-	shld	esi, edx, 14
-	mov	edi, dword ptr [rbx - 64]
-	mov	r10d, dword ptr [rbx - 72]
-	shld	edx, edi, 1
-	mov	eax, dword ptr [rbx - 68]
-	mov	ecx, eax
-	shld	ecx, r10d, 13
-	vmovd	xmm5, edi
-	shld	edi, eax, 7
-	vpinsrd	xmm5, xmm5, edx, 1
-	vmovd	xmm6, r10d
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, edi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r10d, dword ptr [rbx - 40]
-	mov	r9d, dword ptr [rbx - 36]
-	shld	r9d, r10d, 3
-	mov	edx, dword ptr [rbx - 44]
-	mov	esi, r10d
-	shld	esi, edx, 9
-	mov	edi, dword ptr [rbx - 48]
-	vmovd	xmm5, edx
-	shld	edx, edi, 15
-	mov	ecx, dword ptr [rbx - 56]
-	mov	eax, dword ptr [rbx - 52]
-	shld	edi, eax, 2
-	shrd	ecx, eax, 24
-	vpinsrd	xmm5, xmm5, esi, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm5, xmm5, r10d, 2
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r10d, dword ptr [rbx - 20]
-	mov	r9d, dword ptr [rbx - 16]
-	shld	r9d, r10d, 11
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, r10d
-	mov	r11d, dword ptr [rbx - 28]
-	shld	esi, edx, 17
-	mov	ecx, dword ptr [rbx - 36]
-	mov	eax, dword ptr [rbx - 32]
-	shld	edx, r11d, 4
-	mov	edi, r11d
-	shld	edi, eax, 10
-	shrd	ecx, eax, 16
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm5, xmm5, r10d, 2
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, r11d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 6
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, ecx, 12
-	mov	r10d, dword ptr [rbx - 16]
-	mov	eax, dword ptr [rbx - 12]
-	mov	esi, ecx
-	shld	esi, eax, 18
-	shld	eax, r10d, 5
-	vmovd	xmm5, r10d
-	vmovd	xmm6, edi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 76
-	add	r8, -1
-	jne	.LBB0_60
-	jmp	.LBB0_147
-.LBB0_32:
-	cmp	ecx, 10
-	je	.LBB0_129
-# %bb.33:
-	cmp	ecx, 11
-	jne	.LBB0_147
-# %bb.34:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.35:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 40
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_97] # ymm0 = [8791798056959,8791798056959,8791798056959,8791798056959]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_96] # ymm1 = [0,11,0,1,12,0,2,13]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_98] # ymm2 = [0,3,14,0,4,15,0,5]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_99] # ymm3 = [16,0,6,17,0,7,18,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_100] # ymm4 = [8,19,0,9,20,0,10,21]
-	.p2align	4, 0x90
-.LBB0_36:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 40]
-	mov	esi, dword ptr [rbx - 36]
-	mov	edi, ecx
-	shld	edi, esi, 9
-	mov	eax, esi
-	shld	eax, edx, 10
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	eax, dword ptr [rbx - 20]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edx, eax
-	shld	edx, ecx, 6
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, dword ptr [rbx - 28]
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	shld	ecx, edi, 7
-	shrd	esi, edi, 24
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 8]
-	shld	ecx, eax, 3
-	mov	r9d, dword ptr [rbx - 20]
-	mov	esi, dword ptr [rbx - 16]
-	mov	edi, eax
-	shld	edi, esi, 4
-	mov	edx, esi
-	shld	edx, r9d, 5
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 1
-	mov	edi, edx
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 44
-	add	r8, -1
-	jne	.LBB0_36
-	jmp	.LBB0_147
-.LBB0_79:
-	cmp	ecx, 26
-	je	.LBB0_105
-# %bb.80:
-	cmp	ecx, 27
-	jne	.LBB0_147
-# %bb.81:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.82:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 104
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_25] # ymm0 = [576460748142673919,576460748142673919,576460748142673919,576460748142673919]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_24] # ymm9 = [0,0,0,0,0,0,2,0]
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI0_26] # xmm10 = [24,19,14,9]
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI0_27] # xmm11 = [8,13,18,23]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_28] # ymm4 = [0,0,0,0,4,0,0,0]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_29] # xmm5 = <16,11,u,u>
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_30] # xmm6 = <16,21,u,u>
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI0_31] # ymm7 = [0,0,0,1,0,0,0,0]
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_32] # ymm8 = [0,3,0,0,0,0,0,5]
-	.p2align	4, 0x90
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx - 84]
-	mov	r9d, dword ptr [rbx - 80]
-	shld	r9d, r10d, 3
-	mov	esi, dword ptr [rbx - 88]
-	mov	edi, r10d
-	shld	edi, esi, 25
-	mov	eax, dword ptr [rbx - 92]
-	shld	esi, eax, 20
-	mov	edx, dword ptr [rbx - 96]
-	shld	eax, edx, 15
-	mov	r11d, dword ptr [rbx - 104]
-	mov	ecx, dword ptr [rbx - 100]
-	shld	edx, ecx, 10
-	shld	ecx, r11d, 5
-	vmovd	xmm1, r11d
-	vmovd	xmm2, esi
-	vpinsrd	xmm1, xmm1, ecx, 1
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpinsrd	xmm1, xmm1, edx, 2
-	vpinsrd	xmm2, xmm2, r10d, 2
-	vpinsrd	xmm1, xmm1, eax, 3
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm9
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	mov	eax, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 52]
-	shld	ecx, eax, 11
-	mov	edx, dword ptr [rbx - 60]
-	mov	esi, dword ptr [rbx - 64]
-	shld	eax, edx, 6
-	shld	edx, esi, 1
-	vmovdqu	xmm1, xmmword ptr [rbx - 80]
-	vpsrlvd	xmm2, xmm1, xmm10
-	vpshufd	xmm1, xmm1, 249                 # xmm1 = xmm1[1,2,3,3]
-	vmovd	xmm3, esi
-	vpinsrd	xmm1, xmm1, esi, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpsllvd	xmm1, xmm1, xmm11
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vpor	xmm1, xmm2, xmm1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpsrlvd	ymm1, ymm1, ymm4
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 19
-	mov	edx, dword ptr [rbx - 32]
-	shld	eax, edx, 14
-	mov	esi, dword ptr [rbx - 36]
-	shld	edx, esi, 9
-	mov	r10d, dword ptr [rbx - 44]
-	mov	edi, dword ptr [rbx - 40]
-	shld	esi, edi, 4
-	mov	ecx, edi
-	shld	ecx, r10d, 26
-	vmovq	xmm1, qword ptr [rbx - 52]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm5
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vpsllvd	xmm1, xmm1, xmm6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpor	xmm1, xmm2, xmm1
-	vpinsrd	xmm2, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, ecx, 2
-	vpinsrd	xmm1, xmm1, edi, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm7
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, r11d, 22
-	mov	esi, dword ptr [rbx - 8]
-	shld	r11d, esi, 17
-	mov	edi, dword ptr [rbx - 12]
-	mov	eax, dword ptr [rbx - 16]
-	shld	esi, edi, 12
-	mov	edx, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 20]
-	shld	edi, eax, 7
-	shrd	edx, ecx, 8
-	shld	eax, ecx, 2
-	vmovd	xmm1, esi
-	vpinsrd	xmm1, xmm1, r11d, 1
-	vmovd	xmm2, edx
-	vpinsrd	xmm1, xmm1, r10d, 2
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm8
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	sub	r15, -128
-	add	rbx, 108
-	add	r8, -1
-	jne	.LBB0_83
-	jmp	.LBB0_147
-.LBB0_20:
-	cmp	ecx, 6
-	je	.LBB0_135
-# %bb.21:
-	cmp	ecx, 7
-	jne	.LBB0_147
-# %bb.22:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.23:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 24
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_112] # ymm0 = [545460846719,545460846719,545460846719,545460846719]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_111] # ymm1 = [0,7,14,21,0,3,10,17]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_113] # ymm2 = [24,0,6,13,20,0,2,9]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_114] # ymm3 = [16,23,0,5,12,19,0,1]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_115] # ymm4 = [8,15,22,0,4,11,18,25]
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm5, ecx
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, dword ptr [rbx - 16]
-	mov	edi, ecx
-	shld	edi, esi, 5
-	mov	eax, esi
-	shld	eax, edx, 1
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 4]
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 8]
-	mov	esi, eax
-	shld	esi, edx, 6
-	mov	edi, edx
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx - 4]
-	mov	ecx, dword ptr [rbx]
-	mov	edx, ecx
-	shld	edx, eax, 3
-	vmovd	xmm5, ecx
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 28
-	add	r8, -1
-	jne	.LBB0_24
-	jmp	.LBB0_147
-.LBB0_67:
-	cmp	ecx, 22
-	je	.LBB0_111
-# %bb.68:
-	cmp	ecx, 23
-	jne	.LBB0_147
-# %bb.69:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.70:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 88
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_48] # ymm8 = [0,0,0,5,0,0,0,1]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_49] # ymm1 = [36028792732385279,36028792732385279,36028792732385279,36028792732385279]
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI0_50] # xmm2 = <24,15,u,u>
-	vmovdqa	xmm3, xmmword ptr [rip + .LCPI0_51] # xmm3 = <8,17,u,u>
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_52] # ymm4 = [0,0,6,0,0,0,2,0]
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI0_53] # ymm5 = [0,7,0,0,0,3,0,0]
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_54] # ymm6 = [8,0,0,0,4,0,0,9]
-	.p2align	4, 0x90
-.LBB0_71:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 68]
-	mov	edx, dword ptr [rbx - 72]
-	mov	r11d, r9d
-	shld	r11d, edx, 22
-	mov	edi, dword ptr [rbx - 76]
-	shld	edx, edi, 13
-	mov	esi, dword ptr [rbx - 80]
-	shld	edi, esi, 4
-	mov	r10d, dword ptr [rbx - 88]
-	mov	ecx, dword ptr [rbx - 84]
-	mov	eax, esi
-	shld	eax, ecx, 18
-	shld	ecx, r10d, 9
-	vmovd	xmm7, r10d
-	vmovd	xmm0, edi
-	vpinsrd	xmm7, xmm7, ecx, 1
-	vpinsrd	xmm0, xmm0, edx, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm0, xmm0, r11d, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm8
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm0
-	mov	eax, dword ptr [rbx - 48]
-	mov	r9d, dword ptr [rbx - 44]
-	shld	r9d, eax, 7
-	mov	edx, dword ptr [rbx - 52]
-	mov	esi, eax
-	shld	esi, edx, 21
-	mov	edi, dword ptr [rbx - 60]
-	mov	ecx, dword ptr [rbx - 56]
-	shld	edx, ecx, 12
-	shld	ecx, edi, 3
-	vmovq	xmm0, qword ptr [rbx - 68]      # xmm0 = mem[0],zero
-	vpsrlvd	xmm7, xmm0, xmm2
-	vpshufd	xmm0, xmm0, 229                 # xmm0 = xmm0[1,1,2,3]
-	vpinsrd	xmm0, xmm0, edi, 1
-	vpsllvd	xmm0, xmm0, xmm3
-	vpor	xmm0, xmm7, xmm0
-	vmovd	xmm7, edx
-	vpinsrd	xmm7, xmm7, esi, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vpinsrd	xmm0, xmm0, edi, 2
-	vpinsrd	xmm0, xmm0, ecx, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm4
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm0
-	mov	r11d, dword ptr [rbx - 24]
-	mov	r9d, dword ptr [rbx - 20]
-	shld	r9d, r11d, 15
-	mov	r10d, dword ptr [rbx - 28]
-	shld	r11d, r10d, 6
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, r10d
-	mov	ecx, dword ptr [rbx - 36]
-	shld	edi, esi, 20
-	mov	edx, dword ptr [rbx - 44]
-	mov	eax, dword ptr [rbx - 40]
-	shld	esi, ecx, 11
-	shrd	edx, eax, 16
-	shld	ecx, eax, 2
-	vmovd	xmm0, edi
-	vpinsrd	xmm0, xmm0, r10d, 1
-	vmovd	xmm7, edx
-	vpinsrd	xmm0, xmm0, r11d, 2
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, ecx, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm5
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm0
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 14
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 5
-	mov	edi, dword ptr [rbx - 12]
-	vmovd	xmm0, esi
-	shld	esi, edi, 19
-	mov	r10d, dword ptr [rbx - 20]
-	mov	eax, dword ptr [rbx - 16]
-	shld	edi, eax, 10
-	shld	eax, r10d, 1
-	vpinsrd	xmm0, xmm0, ecx, 1
-	vmovd	xmm7, r10d
-	vpinsrd	xmm0, xmm0, edx, 2
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, edi, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm6
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15], ymm0
-	sub	r15, -128
-	add	rbx, 92
-	add	r8, -1
-	jne	.LBB0_71
-	jmp	.LBB0_147
-.LBB0_43:
-	cmp	ecx, 14
-	je	.LBB0_123
-# %bb.44:
-	cmp	ecx, 15
-	jne	.LBB0_147
-# %bb.45:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.46:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 56
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_82] # ymm0 = [140733193420799,140733193420799,140733193420799,140733193420799]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_81] # ymm1 = [0,15,0,13,0,11,0,9]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_83] # ymm2 = [0,7,0,5,0,3,0,1]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_84] # ymm3 = [16,0,14,0,12,0,10,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_85] # ymm4 = [8,0,6,0,4,0,2,17]
-	.p2align	4, 0x90
-.LBB0_47:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 44]
-	mov	eax, dword ptr [rbx - 48]
-	mov	esi, r9d
-	shld	esi, eax, 6
-	mov	r10d, dword ptr [rbx - 52]
-	mov	edx, eax
-	shld	edx, r10d, 4
-	mov	ecx, dword ptr [rbx - 56]
-	mov	edi, r10d
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 28]
-	mov	r11d, dword ptr [rbx - 32]
-	mov	edx, r9d
-	shld	edx, r11d, 14
-	mov	r10d, dword ptr [rbx - 36]
-	mov	edi, r11d
-	shld	edi, r10d, 12
-	mov	eax, dword ptr [rbx - 44]
-	mov	esi, dword ptr [rbx - 40]
-	mov	ecx, r10d
-	shld	ecx, esi, 10
-	shrd	eax, esi, 24
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 16]
-	mov	r10d, dword ptr [rbx - 12]
-	shld	r10d, eax, 7
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, eax
-	shld	esi, edx, 5
-	mov	r9d, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edi, ecx
-	shld	edi, r9d, 1
-	vmovd	xmm5, edx
-	shld	edx, ecx, 3
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 13
-	mov	eax, dword ptr [rbx - 8]
-	vmovd	xmm5, ecx
-	shld	ecx, eax, 11
-	mov	edi, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edi, 9
-	vmovd	xmm6, edi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, r9d, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 60
-	add	r8, -1
-	jne	.LBB0_47
-	jmp	.LBB0_147
-.LBB0_96:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.97:
-	mov	r8d, r14d
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_0] # ymm0 = [9223372034707292159,9223372034707292159,9223372034707292159,9223372034707292159]
-	add	r15, 96
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_1] # ymm8 = [24,23,22,21,20,19,18,17]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_2] # ymm9 = [8,9,10,11,12,13,14,15]
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI0_3] # ymm10 = [16,15,14,13,12,11,10,9]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_4] # ymm4 = [16,17,18,19,20,21,22,23]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_5] # xmm5 = [8,7,6,5]
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_6] # xmm6 = [24,25,26,27]
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI0_7] # ymm7 = [0,0,0,0,0,0,0,1]
-	.p2align	4, 0x90
-.LBB0_98:                               # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx + 24]
-	mov	r9d, dword ptr [rbx + 28]
-	shld	r9d, r10d, 7
-	mov	esi, dword ptr [rbx + 20]
-	shld	r10d, esi, 6
-	mov	edi, dword ptr [rbx + 16]
-	shld	esi, edi, 5
-	mov	eax, dword ptr [rbx + 12]
-	shld	edi, eax, 4
-	mov	edx, dword ptr [rbx + 8]
-	shld	eax, edx, 3
-	mov	ecx, dword ptr [rbx + 4]
-	shld	edx, ecx, 2
-	mov	r11d, dword ptr [rbx]
-	shld	ecx, r11d, 1
-	vmovd	xmm1, edi
-	vpinsrd	xmm1, xmm1, esi, 1
-	vpinsrd	xmm1, xmm1, r10d, 2
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vmovd	xmm2, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	vmovdqu	ymm1, ymmword ptr [rbx + 28]
-	vpsrlvd	ymm1, ymm1, ymm8
-	vmovdqu	xmm2, xmmword ptr [rbx + 44]
-	vpshufd	xmm3, xmm2, 249                 # xmm3 = xmm2[1,2,3,3]
-	vpinsrd	xmm3, xmm3, dword ptr [rbx + 60], 3
-	vpalignr	xmm2, xmm2, xmmword ptr [rbx + 28], 4 # xmm2 = mem[4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsllvd	ymm2, ymm2, ymm9
-	vpor	ymm1, ymm1, ymm2
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rbx + 60]
-	vmovdqu	xmm2, xmmword ptr [rbx + 76]
-	vpshufd	xmm3, xmm2, 249                 # xmm3 = xmm2[1,2,3,3]
-	vpinsrd	xmm3, xmm3, dword ptr [rbx + 92], 3
-	vpsrlvd	ymm1, ymm1, ymm10
-	vpalignr	xmm2, xmm2, xmmword ptr [rbx + 60], 4 # xmm2 = mem[4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsllvd	ymm2, ymm2, ymm4
-	vpor	ymm1, ymm1, ymm2
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	eax, dword ptr [rbx + 120]
-	mov	ecx, dword ptr [rbx + 116]
-	mov	edx, eax
-	shld	edx, ecx, 30
-	mov	esi, dword ptr [rbx + 112]
-	shld	ecx, esi, 29
-	mov	edi, dword ptr [rbx + 108]
-	shld	esi, edi, 28
-	vmovdqu	xmm1, xmmword ptr [rbx + 92]
-	vpsrlvd	xmm2, xmm1, xmm5
-	vpshufd	xmm1, xmm1, 249                 # xmm1 = xmm1[1,2,3,3]
-	vpinsrd	xmm1, xmm1, edi, 3
-	vpsllvd	xmm1, xmm1, xmm6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vpor	xmm1, xmm2, xmm1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpsrlvd	ymm1, ymm1, ymm7
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	add	rbx, 124
-	sub	r15, -128
-	add	r8, -1
-	jne	.LBB0_98
-	jmp	.LBB0_147
-.LBB0_144:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.145:
-	mov	ebx, r14d
-	.p2align	4, 0x90
-.LBB0_146:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, 128
-	mov	rdi, r15
-	xor	esi, esi
-	call	clib·_memset(SB)
-	sub	r15, -128
-	add	rbx, -1
-	jne	.LBB0_146
-	jmp	.LBB0_147
-.LBB0_120:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.121:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_80] # ymm0 = [68719476736,68719476736,68719476736,68719476736]
-	vpxor	xmm1, xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 16]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 32], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 32]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 64], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 48]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 96], ymm2
-	add	rcx, 64
-	add	rax, -1
-	jne	.LBB0_122
-	jmp	.LBB0_147
-.LBB0_132:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.133:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vbroadcasti128	ymm0, xmmword ptr [rip + .LCPI0_109] # ymm0 = [0,8,16,24,0,8,16,24]
-                                        # ymm0 = mem[0,1,0,1]
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_110] # ymm1 = [255,255,255,255,255,255,255,255]
-	.p2align	4, 0x90
-.LBB0_134:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm2, qword ptr [rbx + rcx]     # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 8] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 16] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 24] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm2
-	add	rcx, 32
-	add	rax, -1
-	jne	.LBB0_134
-	jmp	.LBB0_147
-.LBB0_108:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.109:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 92
-	vbroadcasti128	ymm0, xmmword ptr [rip + .LCPI0_46] # ymm0 = [0,0,0,8,0,0,0,8]
-                                        # ymm0 = mem[0,1,0,1]
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_47] # ymm1 = [16777215,16777215,16777215,16777215,16777215,16777215,16777215,16777215]
-	.p2align	4, 0x90
-.LBB0_110:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 72]
-	mov	edx, dword ptr [rbx - 76]
-	mov	esi, r9d
-	mov	edi, dword ptr [rbx - 80]
-	mov	r10d, dword ptr [rbx - 84]
-	shld	esi, edx, 16
-	mov	r11d, dword ptr [rbx - 92]
-	mov	eax, dword ptr [rbx - 88]
-	shld	edx, edi, 8
-	mov	ecx, r10d
-	shld	ecx, eax, 16
-	shld	eax, r11d, 8
-	vmovd	xmm2, edi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm2, xmm2, esi, 2
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 48]
-	mov	ecx, dword ptr [rbx - 52]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 56]
-	mov	r10d, dword ptr [rbx - 60]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 68]
-	mov	edi, dword ptr [rbx - 64]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 32]
-	mov	r10d, dword ptr [rbx - 36]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 44]
-	mov	edi, dword ptr [rbx - 40]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 8]
-	mov	r10d, dword ptr [rbx - 12]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 20]
-	mov	edi, dword ptr [rbx - 16]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 96
-	add	r8, -1
-	jne	.LBB0_110
-	jmp	.LBB0_147
-.LBB0_138:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.139:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_124] # ymm0 = [0,4,8,12,16,20,24,28]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_125] # ymm1 = [64424509455,64424509455,64424509455,64424509455]
-	.p2align	4, 0x90
-.LBB0_140:                              # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 4]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 32], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 8]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 64], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 12]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 96], ymm2
-	add	rcx, 16
-	add	rax, -1
-	jne	.LBB0_140
-	jmp	.LBB0_147
-.LBB0_114:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.115:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 76
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_65] # ymm0 = [0,0,8,0,0,4,0,12]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_66] # ymm1 = [4503595333451775,4503595333451775,4503595333451775,4503595333451775]
-	.p2align	4, 0x90
-.LBB0_116:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 60]
-	mov	r11d, dword ptr [rbx - 64]
-	mov	esi, r9d
-	shld	esi, r11d, 8
-	mov	edi, dword ptr [rbx - 68]
-	mov	edx, r11d
-	shld	edx, edi, 16
-	mov	eax, dword ptr [rbx - 72]
-	shld	edi, eax, 4
-	mov	r10d, dword ptr [rbx - 76]
-	mov	ecx, eax
-	shld	ecx, r10d, 12
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, esi, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, edi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 40]
-	mov	r11d, dword ptr [rbx - 44]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 48]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	r10d, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 52]
-	shld	esi, ecx, 4
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 20]
-	mov	r11d, dword ptr [rbx - 24]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 28]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	ecx, dword ptr [rbx - 32]
-	shld	esi, ecx, 4
-	mov	r10d, dword ptr [rbx - 36]
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	r10d, dword ptr [rbx - 16]
-	mov	ecx, dword ptr [rbx - 12]
-	shld	esi, ecx, 4
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 80
-	add	r8, -1
-	jne	.LBB0_116
-	jmp	.LBB0_147
-.LBB0_126:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.127:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 44
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_94] # ymm0 = [0,12,0,4,16,0,8,20]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_95] # ymm1 = [17587891081215,17587891081215,17587891081215,17587891081215]
-	.p2align	4, 0x90
-.LBB0_128:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 36]
-	mov	edx, dword ptr [rbx - 44]
-	mov	esi, dword ptr [rbx - 40]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	mov	eax, esi
-	shld	eax, edx, 8
-	vmovd	xmm2, esi
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm2, xmm2, ecx, 3
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	eax, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	eax, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 48
-	add	r8, -1
-	jne	.LBB0_128
-	jmp	.LBB0_147
-.LBB0_102:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.103:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 108
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_22] # ymm0 = [0,0,0,0,0,0,0,4]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_23] # ymm1 = [1152921500580315135,1152921500580315135,1152921500580315135,1152921500580315135]
-	.p2align	4, 0x90
-.LBB0_104:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 84]
-	mov	edx, dword ptr [rbx - 88]
-	mov	r10d, r9d
-	shld	r10d, edx, 24
-	mov	edi, dword ptr [rbx - 92]
-	shld	edx, edi, 20
-	mov	eax, dword ptr [rbx - 96]
-	shld	edi, eax, 16
-	mov	ecx, dword ptr [rbx - 100]
-	shld	eax, ecx, 12
-	mov	r11d, dword ptr [rbx - 108]
-	mov	esi, dword ptr [rbx - 104]
-	shld	ecx, esi, 8
-	shld	esi, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, edi
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 60]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 64]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 68]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 72]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 80]
-	mov	edx, dword ptr [rbx - 76]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 36]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 40]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 44]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 52]
-	mov	edx, dword ptr [rbx - 48]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 12]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 16]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 24]
-	mov	edx, dword ptr [rbx - 20]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 112
-	add	r8, -1
-	jne	.LBB0_104
-	jmp	.LBB0_147
-.LBB0_141:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.142:
-	mov	eax, r14d
-	add	r15, 96
-	xor	ecx, ecx
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_131] # ymm0 = [0,2,4,6,8,10,12,14]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_132] # ymm1 = [12884901891,12884901891,12884901891,12884901891]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_133] # ymm2 = [16,18,20,22,24,26,28,30]
-	.p2align	4, 0x90
-.LBB0_143:                              # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx]
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx]
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx + 4]
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx + 4]
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	add	rcx, 1
-	sub	r15, -128
-	cmp	rax, rcx
-	jne	.LBB0_143
-	jmp	.LBB0_147
-.LBB0_117:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.118:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 68
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_72] # ymm0 = [0,0,4,0,8,0,12,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_73] # ymm1 = [1125895612137471,1125895612137471,1125895612137471,1125895612137471]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_74] # ymm2 = [0,2,0,6,0,10,0,14]
-	.p2align	4, 0x90
-.LBB0_119:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 56]
-	mov	r10d, dword ptr [rbx - 52]
-	shld	r10d, ecx, 2
-	mov	esi, dword ptr [rbx - 60]
-	mov	edi, ecx
-	shld	edi, esi, 6
-	mov	r9d, dword ptr [rbx - 68]
-	mov	edx, dword ptr [rbx - 64]
-	mov	eax, edx
-	shld	eax, r9d, 14
-	vmovd	xmm3, esi
-	shld	esi, edx, 10
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	r9d, dword ptr [rbx - 36]
-	mov	r11d, dword ptr [rbx - 40]
-	mov	edx, r9d
-	shld	edx, r11d, 4
-	mov	r10d, dword ptr [rbx - 44]
-	mov	edi, r11d
-	shld	edi, r10d, 8
-	mov	eax, dword ptr [rbx - 52]
-	mov	esi, dword ptr [rbx - 48]
-	mov	ecx, r10d
-	shld	ecx, esi, 12
-	shrd	eax, esi, 16
-	vmovd	xmm3, edi
-	vpinsrd	xmm3, xmm3, r11d, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, eax
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	eax, dword ptr [rbx - 20]
-	mov	r10d, dword ptr [rbx - 16]
-	shld	r10d, eax, 2
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, eax
-	shld	esi, edx, 6
-	mov	r9d, dword ptr [rbx - 32]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edi, ecx
-	shld	edi, r9d, 14
-	vmovd	xmm3, edx
-	shld	edx, ecx, 10
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 4
-	mov	r10d, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, r10d, 8
-	mov	eax, dword ptr [rbx - 16]
-	mov	esi, dword ptr [rbx - 12]
-	mov	ecx, r10d
-	shld	ecx, esi, 12
-	shrd	eax, esi, 16
-	vmovd	xmm3, edi
-	vpinsrd	xmm3, xmm3, r11d, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, eax
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 72
-	add	r8, -1
-	jne	.LBB0_119
-	jmp	.LBB0_147
-.LBB0_129:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.130:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 36
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_101] # ymm0 = [0,10,20,0,8,18,0,6]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_102] # ymm1 = [4393751544831,4393751544831,4393751544831,4393751544831]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_103] # ymm2 = [16,0,4,14,0,2,12,22]
-	.p2align	4, 0x90
-.LBB0_131:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, dword ptr [rbx - 36]
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, esi, 1
-	shld	esi, edx, 2
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vmovd	xmm4, edx
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, ecx
-	shld	esi, edx, 8
-	mov	edi, dword ptr [rbx - 28]
-	mov	eax, edx
-	shld	eax, edi, 6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	eax, dword ptr [rbx - 8]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edx, 4
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, edx, 1
-	shld	edx, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vmovd	xmm4, ecx
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 8
-	mov	edi, edx
-	shld	edi, ecx, 6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vmovd	xmm4, ecx
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 40
-	add	r8, -1
-	jne	.LBB0_131
-	jmp	.LBB0_147
-.LBB0_105:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.106:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 100
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_34] # ymm0 = [288230371923853311,288230371923853311,288230371923853311,288230371923853311]
-	vpbroadcastq	xmm1, qword ptr [rip + .LCPI0_35] # xmm1 = [42949672976,42949672976]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_33] # ymm2 = [0,0,0,0,0,2,0,0]
-	vpbroadcastq	xmm3, qword ptr [rip + .LCPI0_36] # xmm3 = [94489280528,94489280528]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_37] # ymm4 = [0,0,4,0,0,0,0,6]
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 80]
-	mov	r9d, dword ptr [rbx - 76]
-	shld	r9d, ecx, 10
-	mov	r11d, dword ptr [rbx - 84]
-	shld	ecx, r11d, 4
-	mov	edi, dword ptr [rbx - 88]
-	mov	esi, r11d
-	shld	esi, edi, 24
-	mov	edx, dword ptr [rbx - 92]
-	shld	edi, edx, 18
-	mov	r10d, dword ptr [rbx - 100]
-	mov	eax, dword ptr [rbx - 96]
-	shld	edx, eax, 12
-	shld	eax, r10d, 6
-	vmovd	xmm5, r10d
-	vmovd	xmm6, esi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm5, xmm5, edi, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 52]
-	mov	ecx, dword ptr [rbx - 56]
-	mov	edx, r9d
-	shld	edx, ecx, 20
-	mov	esi, dword ptr [rbx - 60]
-	shld	ecx, esi, 14
-	mov	edi, dword ptr [rbx - 68]
-	mov	eax, dword ptr [rbx - 64]
-	shld	esi, eax, 8
-	shld	eax, edi, 2
-	vmovq	xmm5, qword ptr [rbx - 76]      # xmm5 = mem[0],zero
-	vpsrlvd	xmm6, xmm5, xmm1
-	vpshufd	xmm5, xmm5, 229                 # xmm5 = xmm5[1,1,2,3]
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpsllvd	xmm5, xmm5, xmm3
-	vpor	xmm5, xmm6, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 10
-	mov	r11d, dword ptr [rbx - 32]
-	shld	eax, r11d, 4
-	mov	esi, dword ptr [rbx - 36]
-	mov	edi, r11d
-	shld	edi, esi, 24
-	mov	ecx, dword ptr [rbx - 40]
-	shld	esi, ecx, 18
-	mov	r10d, dword ptr [rbx - 48]
-	mov	edx, dword ptr [rbx - 44]
-	shld	ecx, edx, 12
-	shld	edx, r10d, 6
-	vmovd	xmm5, r10d
-	vmovd	xmm6, edi
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm5, xmm5, esi, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 20
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 14
-	mov	edi, dword ptr [rbx - 16]
-	mov	eax, dword ptr [rbx - 12]
-	shld	esi, eax, 8
-	shld	eax, edi, 2
-	vmovq	xmm5, qword ptr [rbx - 24]      # xmm5 = mem[0],zero
-	vpsrlvd	xmm6, xmm5, xmm1
-	vpshufd	xmm5, xmm5, 229                 # xmm5 = xmm5[1,1,2,3]
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpsllvd	xmm5, xmm5, xmm3
-	vpor	xmm5, xmm6, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 104
-	add	r8, -1
-	jne	.LBB0_107
-	jmp	.LBB0_147
-.LBB0_135:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.136:
-	mov	eax, r14d
-	add	r15, 96
-	add	rbx, 20
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_116] # ymm0 = [0,6,12,18,24,0,4,10]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_117] # ymm1 = [270582939711,270582939711,270582939711,270582939711]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_118] # ymm2 = [16,22,0,2,8,14,20,26]
-	.p2align	4, 0x90
-.LBB0_137:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm3, ecx
-	vpbroadcastd	xmm4, xmm3
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vmovd	xmm4, edx
-	vpbroadcastd	xmm4, xmm4
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm3, ecx
-	vpinsrd	xmm4, xmm3, esi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpbroadcastd	xmm3, xmm3
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, dword ptr [rbx]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vmovd	xmm4, edx
-	vpbroadcastd	xmm4, xmm4
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 24
-	add	rax, -1
-	jne	.LBB0_137
-	jmp	.LBB0_147
-.LBB0_111:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.112:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 84
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_55] # ymm0 = [0,0,0,2,0,0,4,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_56] # ymm1 = [18014394218708991,18014394218708991,18014394218708991,18014394218708991]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_57] # ymm2 = [0,6,0,0,8,0,0,10]
-	.p2align	4, 0x90
-.LBB0_113:                              # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx - 68]
-	mov	r9d, dword ptr [rbx - 64]
-	shld	r9d, r10d, 6
-	mov	esi, dword ptr [rbx - 72]
-	mov	edi, r10d
-	shld	edi, esi, 18
-	mov	edx, dword ptr [rbx - 76]
-	shld	esi, edx, 8
-	mov	r11d, dword ptr [rbx - 84]
-	mov	ecx, dword ptr [rbx - 80]
-	mov	eax, edx
-	shld	eax, ecx, 20
-	shld	ecx, r11d, 10
-	vmovd	xmm3, r11d
-	vmovd	xmm4, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm4, xmm4, r10d, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vpinsrd	xmm4, xmm4, r9d, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	r9d, dword ptr [rbx - 44]
-	mov	ecx, dword ptr [rbx - 48]
-	mov	r10d, r9d
-	shld	r10d, ecx, 12
-	mov	esi, dword ptr [rbx - 52]
-	shld	ecx, esi, 2
-	mov	edi, dword ptr [rbx - 56]
-	vmovd	xmm3, esi
-	shld	esi, edi, 14
-	mov	eax, dword ptr [rbx - 64]
-	mov	edx, dword ptr [rbx - 60]
-	shld	edi, edx, 4
-	shrd	eax, edx, 16
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vmovd	xmm4, eax
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	r10d, dword ptr [rbx - 24]
-	mov	r9d, dword ptr [rbx - 20]
-	shld	r9d, r10d, 6
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, r10d
-	shld	esi, edx, 18
-	mov	ecx, dword ptr [rbx - 32]
-	shld	edx, ecx, 8
-	mov	r11d, dword ptr [rbx - 40]
-	mov	eax, dword ptr [rbx - 36]
-	mov	edi, ecx
-	shld	edi, eax, 20
-	shld	eax, r11d, 10
-	vmovd	xmm3, r11d
-	vmovd	xmm4, edx
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm4, xmm4, r10d, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vpinsrd	xmm4, xmm4, r9d, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, ecx, 12
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 2
-	mov	edi, dword ptr [rbx - 12]
-	vmovd	xmm3, esi
-	shld	esi, edi, 14
-	mov	eax, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	shld	edi, edx, 4
-	shrd	eax, edx, 16
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vmovd	xmm4, eax
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 88
-	add	r8, -1
-	jne	.LBB0_113
-	jmp	.LBB0_147
-.LBB0_123:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.124:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 52
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_86] # ymm0 = [0,14,0,10,0,6,0,2]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_87] # ymm1 = [70364449226751,70364449226751,70364449226751,70364449226751]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_88] # ymm2 = [16,0,12,0,8,0,4,18]
-	.p2align	4, 0x90
-.LBB0_125:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 40]
-	mov	ecx, dword ptr [rbx - 44]
-	mov	esi, r9d
-	shld	esi, ecx, 12
-	mov	edi, dword ptr [rbx - 52]
-	mov	r10d, dword ptr [rbx - 48]
-	mov	edx, ecx
-	shld	edx, r10d, 8
-	mov	eax, r10d
-	shld	eax, edi, 4
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	eax, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, eax
-	shld	edx, ecx, 10
-	mov	r9d, dword ptr [rbx - 40]
-	mov	esi, dword ptr [rbx - 36]
-	vmovd	xmm3, ecx
-	shld	ecx, esi, 6
-	mov	edi, esi
-	shld	edi, r9d, 2
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, esi, 2
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	r9d, dword ptr [rbx - 12]
-	mov	eax, dword ptr [rbx - 16]
-	mov	edx, r9d
-	shld	edx, eax, 12
-	mov	esi, dword ptr [rbx - 24]
-	mov	r10d, dword ptr [rbx - 20]
-	mov	ecx, eax
-	shld	ecx, r10d, 8
-	mov	edi, r10d
-	shld	edi, esi, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, esi
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 10
-	mov	eax, dword ptr [rbx - 8]
-	vmovd	xmm3, ecx
-	shld	ecx, eax, 6
-	mov	edi, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edi, 2
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 56
-	add	r8, -1
-	jne	.LBB0_125
-	jmp	.LBB0_147
-.LBB0_99:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.100:
-	mov	r8d, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_8] # ymm0 = [4611686015206162431,4611686015206162431,4611686015206162431,4611686015206162431]
-	add	rbx, 116
-	vmovdqa	xmm1, xmmword ptr [rip + .LCPI0_9] # xmm1 = [16,14,12,10]
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI0_10] # xmm2 = [16,18,20,22]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_11] # ymm3 = [0,0,0,0,0,0,0,2]
-	.p2align	4, 0x90
-.LBB0_101:                              # =>This Inner Loop Header: Depth=1
-	mov	r11d, dword ptr [rbx - 92]
-	mov	r9d, dword ptr [rbx - 88]
-	shld	r9d, r11d, 14
-	mov	esi, dword ptr [rbx - 96]
-	shld	r11d, esi, 12
-	mov	edi, dword ptr [rbx - 100]
-	shld	esi, edi, 10
-	mov	eax, dword ptr [rbx - 104]
-	shld	edi, eax, 8
-	mov	edx, dword ptr [rbx - 108]
-	shld	eax, edx, 6
-	mov	r10d, dword ptr [rbx - 116]
-	mov	ecx, dword ptr [rbx - 112]
-	shld	edx, ecx, 4
-	shld	ecx, r10d, 2
-	vmovd	xmm4, r10d
-	vmovd	xmm5, edi
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm5, xmm5, r11d, 2
-	vpinsrd	xmm4, xmm4, eax, 3
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm4
-	mov	eax, dword ptr [rbx - 60]
-	mov	ecx, dword ptr [rbx - 64]
-	mov	edx, eax
-	shld	edx, ecx, 28
-	mov	esi, dword ptr [rbx - 68]
-	mov	edi, dword ptr [rbx - 72]
-	shld	ecx, esi, 26
-	shld	esi, edi, 24
-	vmovdqu	xmm4, xmmword ptr [rbx - 88]
-	vpsrlvd	xmm5, xmm4, xmm1
-	vpshufd	xmm4, xmm4, 249                 # xmm4 = xmm4[1,2,3,3]
-	vpinsrd	xmm4, xmm4, edi, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpsllvd	xmm4, xmm4, xmm2
-	vpinsrd	xmm6, xmm6, eax, 3
-	vpor	xmm4, xmm5, xmm4
-	vinserti128	ymm4, ymm4, xmm6, 1
-	vpsrlvd	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm4
-	mov	r11d, dword ptr [rbx - 32]
-	mov	r9d, dword ptr [rbx - 28]
-	shld	r9d, r11d, 14
-	mov	edx, dword ptr [rbx - 36]
-	shld	r11d, edx, 12
-	mov	esi, dword ptr [rbx - 40]
-	shld	edx, esi, 10
-	mov	edi, dword ptr [rbx - 44]
-	shld	esi, edi, 8
-	mov	ecx, dword ptr [rbx - 48]
-	shld	edi, ecx, 6
-	mov	r10d, dword ptr [rbx - 56]
-	mov	eax, dword ptr [rbx - 52]
-	shld	ecx, eax, 4
-	shld	eax, r10d, 2
-	vmovd	xmm4, r10d
-	vmovd	xmm5, esi
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm5, xmm5, r11d, 2
-	vpinsrd	xmm4, xmm4, edi, 3
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm4
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, eax
-	shld	edx, ecx, 28
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 26
-	mov	edi, dword ptr [rbx - 12]
-	vmovdqu	xmm4, xmmword ptr [rbx - 28]
-	shld	esi, edi, 24
-	vpsrlvd	xmm5, xmm4, xmm1
-	vpshufd	xmm4, xmm4, 249                 # xmm4 = xmm4[1,2,3,3]
-	vpinsrd	xmm4, xmm4, edi, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpsllvd	xmm4, xmm4, xmm2
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, eax, 3
-	vpor	xmm4, xmm5, xmm4
-	vinserti128	ymm4, ymm4, xmm6, 1
-	vpsrlvd	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15], ymm4
-	sub	r15, -128
-	add	rbx, 120
-	add	r8, -1
-	jne	.LBB0_101
-.LBB0_147:
-	shl	r14d, 5
-	mov	eax, r14d
-	lea	rsp, [rbp - 32]
-	pop	rbx
-	pop	r12
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	unpack32_avx2, .Lfunc_end0-unpack32_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/bit_packing_neon.c b/go/parquet/internal/utils/_lib/bit_packing_neon.c
deleted file mode 100755
index 6d09eeb75b6a8..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_neon.c
+++ /dev/null
@@ -1,3196 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <stdint.h>
-#include <string.h>
-
-#include "arm_neon.h"
-
-inline const uint32_t* unpack0_32_neon(const uint32_t* in, uint32_t* out) {
-  for (const uint32_t* end = out + 32; out != end; out++) {
-    *out = 0;
-  }
-
-  return in;
-}
-
-inline static const uint32_t* unpack1_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 1, 2, 3};
-  uint32_t shifts_2nd[4] = {4, 5, 6, 7};
-  uint32_t shifts_3rd[4] = {8, 9, 10, 11};
-  uint32_t shifts_4th[4] = {12, 13, 14, 15};
-  uint32_t shifts_5th[4] = {16, 17, 18, 19};
-  uint32_t shifts_6th[4] = {20, 21, 22, 23};
-  uint32_t shifts_7th[4] = {24, 25, 26, 27};
-  uint32_t shifts_8th[4] = {28, 29, 30, 31};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = in[0] >> shifts_3rd[2];
-  ind[3] = in[0] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[0] >> shifts_4th[0];
-  ind[1] = in[0] >> shifts_4th[1];
-  ind[2] = in[0] >> shifts_4th[2];
-  ind[3] = in[0] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[0] >> shifts_5th[0];
-  ind[1] = in[0] >> shifts_5th[1];
-  ind[2] = in[0] >> shifts_5th[2];
-  ind[3] = in[0] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[0] >> shifts_6th[0];
-  ind[1] = in[0] >> shifts_6th[1];
-  ind[2] = in[0] >> shifts_6th[2];
-  ind[3] = in[0] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[0] >> shifts_7th[0];
-  ind[1] = in[0] >> shifts_7th[1];
-  ind[2] = in[0] >> shifts_7th[2];
-  ind[3] = in[0] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[0] >> shifts_8th[0];
-  ind[1] = in[0] >> shifts_8th[1];
-  ind[2] = in[0] >> shifts_8th[2];
-  ind[3] = in[0] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 1;
-
-  return in;
-}
-
-inline static const uint32_t* unpack2_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 2, 4, 6};
-  uint32_t shifts_2nd[4] = {8, 10, 12, 14};
-  uint32_t shifts_3rd[4] = {16, 18, 20, 22};
-  uint32_t shifts_4th[4] = {24, 26, 28, 30};
-
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = in[0] >> shifts_3rd[2];
-  ind[3] = in[0] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[0] >> shifts_4th[0];
-  ind[1] = in[0] >> shifts_4th[1];
-  ind[2] = in[0] >> shifts_4th[2];
-  ind[3] = in[0] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = in[1] >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[1] >> shifts_4th[0];
-  ind[1] = in[1] >> shifts_4th[1];
-  ind[2] = in[1] >> shifts_4th[2];
-  ind[3] = in[1] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 2;
-
-  return in;
-}
-
-inline static const uint32_t* unpack3_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 3, 6, 9};
-  uint32_t shifts_2nd[4] = {12, 15, 18, 21};
-  uint32_t shifts_3rd[4] = {24, 27, 0, 1};
-  uint32_t shifts_4th[4] = {4, 7, 10, 13};
-  uint32_t shifts_5th[4] = {16, 19, 22, 25};
-  uint32_t shifts_6th[4] = {28, 0, 2, 5};
-  uint32_t shifts_7th[4] = {8, 11, 14, 17};
-  uint32_t shifts_8th[4] = {20, 23, 26, 29};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[1] >> shifts_4th[0];
-  ind[1] = in[1] >> shifts_4th[1];
-  ind[2] = in[1] >> shifts_4th[2];
-  ind[3] = in[1] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[1] >> shifts_5th[0];
-  ind[1] = in[1] >> shifts_5th[1];
-  ind[2] = in[1] >> shifts_5th[2];
-  ind[3] = in[1] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[1] >> shifts_6th[0];
-  ind[1] = (in[1] >> 31 | in[2] << 1) >> shifts_6th[1];
-  ind[2] = in[2] >> shifts_6th[2];
-  ind[3] = in[2] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[2] >> shifts_7th[0];
-  ind[1] = in[2] >> shifts_7th[1];
-  ind[2] = in[2] >> shifts_7th[2];
-  ind[3] = in[2] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[2] >> shifts_8th[0];
-  ind[1] = in[2] >> shifts_8th[1];
-  ind[2] = in[2] >> shifts_8th[2];
-  ind[3] = in[2] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 3;
-
-  return in;
-}
-
-inline static const uint32_t* unpack4_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xf;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 4, 8, 12};
-  uint32_t shifts_2nd[4] = {16, 20, 24, 28};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[2] >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 4;
-
-  return in;
-}
-
-inline static const uint32_t* unpack5_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 5, 10, 15};
-  uint32_t shifts_2nd[4] = {20, 25, 0, 3};
-  uint32_t shifts_3rd[4] = {8, 13, 18, 23};
-  uint32_t shifts_4th[4] = {0, 1, 6, 11};
-  uint32_t shifts_5th[4] = {16, 21, 26, 0};
-  uint32_t shifts_6th[4] = {4, 9, 14, 19};
-  uint32_t shifts_7th[4] = {24, 0, 2, 7};
-  uint32_t shifts_8th[4] = {12, 17, 22, 27};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = in[1] >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[1] >> 28 | in[2] << 4) >> shifts_4th[0];
-  ind[1] = in[2] >> shifts_4th[1];
-  ind[2] = in[2] >> shifts_4th[2];
-  ind[3] = in[2] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[2] >> shifts_5th[0];
-  ind[1] = in[2] >> shifts_5th[1];
-  ind[2] = in[2] >> shifts_5th[2];
-  ind[3] = (in[2] >> 31 | in[3] << 1) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[3] >> shifts_6th[0];
-  ind[1] = in[3] >> shifts_6th[1];
-  ind[2] = in[3] >> shifts_6th[2];
-  ind[3] = in[3] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[3] >> shifts_7th[0];
-  ind[1] = (in[3] >> 29 | in[4] << 3) >> shifts_7th[1];
-  ind[2] = in[4] >> shifts_7th[2];
-  ind[3] = in[4] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[4] >> shifts_8th[0];
-  ind[1] = in[4] >> shifts_8th[1];
-  ind[2] = in[4] >> shifts_8th[2];
-  ind[3] = in[4] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 5;
-
-  return in;
-}
-
-inline static const uint32_t* unpack6_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 6, 12, 18};
-  uint32_t shifts_2nd[4] = {24, 0, 4, 10};
-  uint32_t shifts_3rd[4] = {16, 22, 0, 2};
-  uint32_t shifts_4th[4] = {8, 14, 20, 26};
-
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = (in[0] >> 30 | in[1] << 2) >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_3rd[2];
-  ind[3] = in[2] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[2] >> shifts_4th[0];
-  ind[1] = in[2] >> shifts_4th[1];
-  ind[2] = in[2] >> shifts_4th[2];
-  ind[3] = in[2] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[1];
-  ind[2] = in[4] >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[4] >> shifts_3rd[0];
-  ind[1] = in[4] >> shifts_3rd[1];
-  ind[2] = (in[4] >> 28 | in[5] << 4) >> shifts_3rd[2];
-  ind[3] = in[5] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[5] >> shifts_4th[0];
-  ind[1] = in[5] >> shifts_4th[1];
-  ind[2] = in[5] >> shifts_4th[2];
-  ind[3] = in[5] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 6;
-
-  return in;
-}
-
-inline static const uint32_t* unpack7_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 7, 14, 21};
-  uint32_t shifts_2nd[4] = {0, 3, 10, 17};
-  uint32_t shifts_3rd[4] = {24, 0, 6, 13};
-  uint32_t shifts_4th[4] = {20, 0, 2, 9};
-  uint32_t shifts_5th[4] = {16, 23, 0, 5};
-  uint32_t shifts_6th[4] = {12, 19, 0, 1};
-  uint32_t shifts_7th[4] = {8, 15, 22, 0};
-  uint32_t shifts_8th[4] = {4, 11, 18, 25};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[0] >> 28 | in[1] << 4) >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = (in[1] >> 31 | in[2] << 1) >> shifts_3rd[1];
-  ind[2] = in[2] >> shifts_3rd[2];
-  ind[3] = in[2] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[2] >> shifts_4th[0];
-  ind[1] = (in[2] >> 27 | in[3] << 5) >> shifts_4th[1];
-  ind[2] = in[3] >> shifts_4th[2];
-  ind[3] = in[3] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[3] >> shifts_5th[0];
-  ind[1] = in[3] >> shifts_5th[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_5th[2];
-  ind[3] = in[4] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[4] >> shifts_6th[0];
-  ind[1] = in[4] >> shifts_6th[1];
-  ind[2] = (in[4] >> 26 | in[5] << 6) >> shifts_6th[2];
-  ind[3] = in[5] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[5] >> shifts_7th[0];
-  ind[1] = in[5] >> shifts_7th[1];
-  ind[2] = in[5] >> shifts_7th[2];
-  ind[3] = (in[5] >> 29 | in[6] << 3) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[6] >> shifts_8th[0];
-  ind[1] = in[6] >> shifts_8th[1];
-  ind[2] = in[6] >> shifts_8th[2];
-  ind[3] = in[6] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 7;
-
-  return in;
-}
-
-inline static const uint32_t* unpack8_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 8, 16, 24};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[2] >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[4] >> shifts_1st[0];
-  ind[1] = in[4] >> shifts_1st[1];
-  ind[2] = in[4] >> shifts_1st[2];
-  ind[3] = in[4] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = in[5] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = in[6] >> shifts_1st[2];
-  ind[3] = in[6] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = in[7] >> shifts_1st[1];
-  ind[2] = in[7] >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 8;
-
-  return in;
-}
-
-inline static const uint32_t* unpack9_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 9, 18, 0};
-  uint32_t shifts_2nd[4] = {4, 13, 22, 0};
-  uint32_t shifts_3rd[4] = {8, 17, 0, 3};
-  uint32_t shifts_4th[4] = {12, 21, 0, 7};
-  uint32_t shifts_5th[4] = {16, 0, 2, 11};
-  uint32_t shifts_6th[4] = {20, 0, 6, 15};
-  uint32_t shifts_7th[4] = {0, 1, 10, 19};
-  uint32_t shifts_8th[4] = {0, 5, 14, 23};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = (in[0] >> 27 | in[1] << 5) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = (in[1] >> 31 | in[2] << 1) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_3rd[0];
-  ind[1] = in[2] >> shifts_3rd[1];
-  ind[2] = (in[2] >> 26 | in[3] << 6) >> shifts_3rd[2];
-  ind[3] = in[3] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[3] >> shifts_4th[0];
-  ind[1] = in[3] >> shifts_4th[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_4th[2];
-  ind[3] = in[4] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[4] >> shifts_5th[0];
-  ind[1] = (in[4] >> 25 | in[5] << 7) >> shifts_5th[1];
-  ind[2] = in[5] >> shifts_5th[2];
-  ind[3] = in[5] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[5] >> shifts_6th[0];
-  ind[1] = (in[5] >> 29 | in[6] << 3) >> shifts_6th[1];
-  ind[2] = in[6] >> shifts_6th[2];
-  ind[3] = in[6] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_7th[0];
-  ind[1] = in[7] >> shifts_7th[1];
-  ind[2] = in[7] >> shifts_7th[2];
-  ind[3] = in[7] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[7] >> 28 | in[8] << 4) >> shifts_8th[0];
-  ind[1] = in[8] >> shifts_8th[1];
-  ind[2] = in[8] >> shifts_8th[2];
-  ind[3] = in[8] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 9;
-
-  return in;
-}
-
-inline static const uint32_t* unpack10_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 10, 20, 0};
-  uint32_t shifts_2nd[4] = {8, 18, 0, 6};
-  uint32_t shifts_3rd[4] = {16, 0, 4, 14};
-  uint32_t shifts_4th[4] = {0, 2, 12, 22};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_3rd[0];
-  ind[1] = (in[2] >> 26 | in[3] << 6) >> shifts_3rd[1];
-  ind[2] = in[3] >> shifts_3rd[2];
-  ind[3] = in[3] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_4th[0];
-  ind[1] = in[4] >> shifts_4th[1];
-  ind[2] = in[4] >> shifts_4th[2];
-  ind[3] = in[4] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = in[5] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = (in[5] >> 30 | in[6] << 2) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[6] >> shifts_2nd[0];
-  ind[1] = in[6] >> shifts_2nd[1];
-  ind[2] = (in[6] >> 28 | in[7] << 4) >> shifts_2nd[2];
-  ind[3] = in[7] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[7] >> shifts_3rd[0];
-  ind[1] = (in[7] >> 26 | in[8] << 6) >> shifts_3rd[1];
-  ind[2] = in[8] >> shifts_3rd[2];
-  ind[3] = in[8] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[8] >> 24 | in[9] << 8) >> shifts_4th[0];
-  ind[1] = in[9] >> shifts_4th[1];
-  ind[2] = in[9] >> shifts_4th[2];
-  ind[3] = in[9] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 10;
-
-  return in;
-}
-
-inline static const uint32_t* unpack11_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 11, 0, 1};
-  uint32_t shifts_2nd[4] = {12, 0, 2, 13};
-  uint32_t shifts_3rd[4] = {0, 3, 14, 0};
-  uint32_t shifts_4th[4] = {4, 15, 0, 5};
-  uint32_t shifts_5th[4] = {16, 0, 6, 17};
-  uint32_t shifts_6th[4] = {0, 7, 18, 0};
-  uint32_t shifts_7th[4] = {8, 19, 0, 9};
-  uint32_t shifts_8th[4] = {20, 0, 10, 21};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 22 | in[1] << 10) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = (in[1] >> 23 | in[2] << 9) >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[2] >> 24 | in[3] << 8) >> shifts_3rd[0];
-  ind[1] = in[3] >> shifts_3rd[1];
-  ind[2] = in[3] >> shifts_3rd[2];
-  ind[3] = (in[3] >> 25 | in[4] << 7) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[4] >> shifts_4th[0];
-  ind[1] = in[4] >> shifts_4th[1];
-  ind[2] = (in[4] >> 26 | in[5] << 6) >> shifts_4th[2];
-  ind[3] = in[5] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[5] >> shifts_5th[0];
-  ind[1] = (in[5] >> 27 | in[6] << 5) >> shifts_5th[1];
-  ind[2] = in[6] >> shifts_5th[2];
-  ind[3] = in[6] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[6] >> 28 | in[7] << 4) >> shifts_6th[0];
-  ind[1] = in[7] >> shifts_6th[1];
-  ind[2] = in[7] >> shifts_6th[2];
-  ind[3] = (in[7] >> 29 | in[8] << 3) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[8] >> shifts_7th[0];
-  ind[1] = in[8] >> shifts_7th[1];
-  ind[2] = (in[8] >> 30 | in[9] << 2) >> shifts_7th[2];
-  ind[3] = in[9] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[9] >> shifts_8th[0];
-  ind[1] = (in[9] >> 31 | in[10] << 1) >> shifts_8th[1];
-  ind[2] = in[10] >> shifts_8th[2];
-  ind[3] = in[10] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 11;
-
-  return in;
-}
-
-inline static const uint32_t* unpack12_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 12, 0, 4};
-  uint32_t shifts_2nd[4] = {16, 0, 8, 20};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 24 | in[1] << 8) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = (in[3] >> 24 | in[4] << 8) >> shifts_1st[2];
-  ind[3] = in[4] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[4] >> shifts_2nd[0];
-  ind[1] = (in[4] >> 28 | in[5] << 4) >> shifts_2nd[1];
-  ind[2] = in[5] >> shifts_2nd[2];
-  ind[3] = in[5] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = (in[6] >> 24 | in[7] << 8) >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[7] >> shifts_2nd[0];
-  ind[1] = (in[7] >> 28 | in[8] << 4) >> shifts_2nd[1];
-  ind[2] = in[8] >> shifts_2nd[2];
-  ind[3] = in[8] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = in[9] >> shifts_1st[1];
-  ind[2] = (in[9] >> 24 | in[10] << 8) >> shifts_1st[2];
-  ind[3] = in[10] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[10] >> shifts_2nd[0];
-  ind[1] = (in[10] >> 28 | in[11] << 4) >> shifts_2nd[1];
-  ind[2] = in[11] >> shifts_2nd[2];
-  ind[3] = in[11] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 12;
-
-  return in;
-}
-
-inline static const uint32_t* unpack13_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 13, 0, 7};
-  uint32_t shifts_2nd[4] = {0, 1, 14, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 2, 15};
-  uint32_t shifts_4th[4] = {0, 9, 0, 3};
-  uint32_t shifts_5th[4] = {16, 0, 10, 0};
-  uint32_t shifts_6th[4] = {4, 17, 0, 11};
-  uint32_t shifts_7th[4] = {0, 5, 18, 0};
-  uint32_t shifts_8th[4] = {12, 0, 6, 19};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 26 | in[1] << 6) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 20 | in[2] << 12) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = (in[2] >> 27 | in[3] << 5) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_3rd[0];
-  ind[1] = (in[3] >> 21 | in[4] << 11) >> shifts_3rd[1];
-  ind[2] = in[4] >> shifts_3rd[2];
-  ind[3] = in[4] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[4] >> 28 | in[5] << 4) >> shifts_4th[0];
-  ind[1] = in[5] >> shifts_4th[1];
-  ind[2] = (in[5] >> 22 | in[6] << 10) >> shifts_4th[2];
-  ind[3] = in[6] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[6] >> shifts_5th[0];
-  ind[1] = (in[6] >> 29 | in[7] << 3) >> shifts_5th[1];
-  ind[2] = in[7] >> shifts_5th[2];
-  ind[3] = (in[7] >> 23 | in[8] << 9) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[8] >> shifts_6th[0];
-  ind[1] = in[8] >> shifts_6th[1];
-  ind[2] = (in[8] >> 30 | in[9] << 2) >> shifts_6th[2];
-  ind[3] = in[9] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[9] >> 24 | in[10] << 8) >> shifts_7th[0];
-  ind[1] = in[10] >> shifts_7th[1];
-  ind[2] = in[10] >> shifts_7th[2];
-  ind[3] = (in[10] >> 31 | in[11] << 1) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[11] >> shifts_8th[0];
-  ind[1] = (in[11] >> 25 | in[12] << 7) >> shifts_8th[1];
-  ind[2] = in[12] >> shifts_8th[2];
-  ind[3] = in[12] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 13;
-
-  return in;
-}
-
-inline static const uint32_t* unpack14_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 14, 0, 10};
-  uint32_t shifts_2nd[4] = {0, 6, 0, 2};
-  uint32_t shifts_3rd[4] = {16, 0, 12, 0};
-  uint32_t shifts_4th[4] = {8, 0, 4, 18};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 28 | in[1] << 4) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 24 | in[2] << 8) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = (in[2] >> 20 | in[3] << 12) >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_3rd[0];
-  ind[1] = (in[3] >> 30 | in[4] << 2) >> shifts_3rd[1];
-  ind[2] = in[4] >> shifts_3rd[2];
-  ind[3] = (in[4] >> 26 | in[5] << 6) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[5] >> shifts_4th[0];
-  ind[1] = (in[5] >> 22 | in[6] << 10) >> shifts_4th[1];
-  ind[2] = in[6] >> shifts_4th[2];
-  ind[3] = in[6] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = in[7] >> shifts_1st[1];
-  ind[2] = (in[7] >> 28 | in[8] << 4) >> shifts_1st[2];
-  ind[3] = in[8] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[8] >> 24 | in[9] << 8) >> shifts_2nd[0];
-  ind[1] = in[9] >> shifts_2nd[1];
-  ind[2] = (in[9] >> 20 | in[10] << 12) >> shifts_2nd[2];
-  ind[3] = in[10] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[10] >> shifts_3rd[0];
-  ind[1] = (in[10] >> 30 | in[11] << 2) >> shifts_3rd[1];
-  ind[2] = in[11] >> shifts_3rd[2];
-  ind[3] = (in[11] >> 26 | in[12] << 6) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[12] >> shifts_4th[0];
-  ind[1] = (in[12] >> 22 | in[13] << 10) >> shifts_4th[1];
-  ind[2] = in[13] >> shifts_4th[2];
-  ind[3] = in[13] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 14;
-
-  return in;
-}
-
-inline static const uint32_t* unpack15_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 15, 0, 13};
-  uint32_t shifts_2nd[4] = {0, 11, 0, 9};
-  uint32_t shifts_3rd[4] = {0, 7, 0, 5};
-  uint32_t shifts_4th[4] = {0, 3, 0, 1};
-  uint32_t shifts_5th[4] = {16, 0, 14, 0};
-  uint32_t shifts_6th[4] = {12, 0, 10, 0};
-  uint32_t shifts_7th[4] = {8, 0, 6, 0};
-  uint32_t shifts_8th[4] = {4, 0, 2, 17};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = (in[2] >> 26 | in[3] << 6) >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_3rd[0];
-  ind[1] = in[4] >> shifts_3rd[1];
-  ind[2] = (in[4] >> 22 | in[5] << 10) >> shifts_3rd[2];
-  ind[3] = in[5] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[5] >> 20 | in[6] << 12) >> shifts_4th[0];
-  ind[1] = in[6] >> shifts_4th[1];
-  ind[2] = (in[6] >> 18 | in[7] << 14) >> shifts_4th[2];
-  ind[3] = in[7] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[7] >> shifts_5th[0];
-  ind[1] = (in[7] >> 31 | in[8] << 1) >> shifts_5th[1];
-  ind[2] = in[8] >> shifts_5th[2];
-  ind[3] = (in[8] >> 29 | in[9] << 3) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[9] >> shifts_6th[0];
-  ind[1] = (in[9] >> 27 | in[10] << 5) >> shifts_6th[1];
-  ind[2] = in[10] >> shifts_6th[2];
-  ind[3] = (in[10] >> 25 | in[11] << 7) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[11] >> shifts_7th[0];
-  ind[1] = (in[11] >> 23 | in[12] << 9) >> shifts_7th[1];
-  ind[2] = in[12] >> shifts_7th[2];
-  ind[3] = (in[12] >> 21 | in[13] << 11) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[13] >> shifts_8th[0];
-  ind[1] = (in[13] >> 19 | in[14] << 13) >> shifts_8th[1];
-  ind[2] = in[14] >> shifts_8th[2];
-  ind[3] = in[14] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 15;
-
-  return in;
-}
-
-inline static const uint32_t* unpack16_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 16, 0, 16};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[4] >> shifts_1st[0];
-  ind[1] = in[4] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = in[7] >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[8] >> shifts_1st[0];
-  ind[1] = in[8] >> shifts_1st[1];
-  ind[2] = in[9] >> shifts_1st[2];
-  ind[3] = in[9] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[10] >> shifts_1st[0];
-  ind[1] = in[10] >> shifts_1st[1];
-  ind[2] = in[11] >> shifts_1st[2];
-  ind[3] = in[11] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[12] >> shifts_1st[0];
-  ind[1] = in[12] >> shifts_1st[1];
-  ind[2] = in[13] >> shifts_1st[2];
-  ind[3] = in[13] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[14] >> shifts_1st[0];
-  ind[1] = in[14] >> shifts_1st[1];
-  ind[2] = in[15] >> shifts_1st[2];
-  ind[3] = in[15] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 16;
-
-  return in;
-}
-
-inline static const uint32_t* unpack17_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 2, 0};
-  uint32_t shifts_2nd[4] = {4, 0, 6, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 10, 0};
-  uint32_t shifts_4th[4] = {12, 0, 14, 0};
-  uint32_t shifts_5th[4] = {0, 1, 0, 3};
-  uint32_t shifts_6th[4] = {0, 5, 0, 7};
-  uint32_t shifts_7th[4] = {0, 9, 0, 11};
-  uint32_t shifts_8th[4] = {0, 13, 0, 15};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 17 | in[1] << 15) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 19 | in[2] << 13) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 21 | in[3] << 11) >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = (in[3] >> 23 | in[4] << 9) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[4] >> shifts_3rd[0];
-  ind[1] = (in[4] >> 25 | in[5] << 7) >> shifts_3rd[1];
-  ind[2] = in[5] >> shifts_3rd[2];
-  ind[3] = (in[5] >> 27 | in[6] << 5) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[6] >> shifts_4th[0];
-  ind[1] = (in[6] >> 29 | in[7] << 3) >> shifts_4th[1];
-  ind[2] = in[7] >> shifts_4th[2];
-  ind[3] = (in[7] >> 31 | in[8] << 1) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[8] >> 16 | in[9] << 16) >> shifts_5th[0];
-  ind[1] = in[9] >> shifts_5th[1];
-  ind[2] = (in[9] >> 18 | in[10] << 14) >> shifts_5th[2];
-  ind[3] = in[10] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[10] >> 20 | in[11] << 12) >> shifts_6th[0];
-  ind[1] = in[11] >> shifts_6th[1];
-  ind[2] = (in[11] >> 22 | in[12] << 10) >> shifts_6th[2];
-  ind[3] = in[12] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[12] >> 24 | in[13] << 8) >> shifts_7th[0];
-  ind[1] = in[13] >> shifts_7th[1];
-  ind[2] = (in[13] >> 26 | in[14] << 6) >> shifts_7th[2];
-  ind[3] = in[14] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[14] >> 28 | in[15] << 4) >> shifts_8th[0];
-  ind[1] = in[15] >> shifts_8th[1];
-  ind[2] = (in[15] >> 30 | in[16] << 2) >> shifts_8th[2];
-  ind[3] = in[16] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 17;
-
-  return in;
-}
-
-inline static const uint32_t* unpack18_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 4, 0};
-  uint32_t shifts_2nd[4] = {8, 0, 12, 0};
-  uint32_t shifts_3rd[4] = {0, 2, 0, 6};
-  uint32_t shifts_4th[4] = {0, 10, 0, 14};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 18 | in[1] << 14) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 22 | in[2] << 10) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 26 | in[3] << 6) >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[4] >> 16 | in[5] << 16) >> shifts_3rd[0];
-  ind[1] = in[5] >> shifts_3rd[1];
-  ind[2] = (in[5] >> 20 | in[6] << 12) >> shifts_3rd[2];
-  ind[3] = in[6] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_4th[0];
-  ind[1] = in[7] >> shifts_4th[1];
-  ind[2] = (in[7] >> 28 | in[8] << 4) >> shifts_4th[2];
-  ind[3] = in[8] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = (in[9] >> 18 | in[10] << 14) >> shifts_1st[1];
-  ind[2] = in[10] >> shifts_1st[2];
-  ind[3] = (in[10] >> 22 | in[11] << 10) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[11] >> shifts_2nd[0];
-  ind[1] = (in[11] >> 26 | in[12] << 6) >> shifts_2nd[1];
-  ind[2] = in[12] >> shifts_2nd[2];
-  ind[3] = (in[12] >> 30 | in[13] << 2) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[13] >> 16 | in[14] << 16) >> shifts_3rd[0];
-  ind[1] = in[14] >> shifts_3rd[1];
-  ind[2] = (in[14] >> 20 | in[15] << 12) >> shifts_3rd[2];
-  ind[3] = in[15] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[15] >> 24 | in[16] << 8) >> shifts_4th[0];
-  ind[1] = in[16] >> shifts_4th[1];
-  ind[2] = (in[16] >> 28 | in[17] << 4) >> shifts_4th[2];
-  ind[3] = in[17] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 18;
-
-  return in;
-}
-
-inline static const uint32_t* unpack19_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 6, 0};
-  uint32_t shifts_2nd[4] = {12, 0, 0, 5};
-  uint32_t shifts_3rd[4] = {0, 11, 0, 0};
-  uint32_t shifts_4th[4] = {4, 0, 10, 0};
-  uint32_t shifts_5th[4] = {0, 3, 0, 9};
-  uint32_t shifts_6th[4] = {0, 0, 2, 0};
-  uint32_t shifts_7th[4] = {8, 0, 0, 1};
-  uint32_t shifts_8th[4] = {0, 7, 0, 13};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 19 | in[1] << 13) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 25 | in[2] << 7) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 31 | in[3] << 1) >> shifts_2nd[1];
-  ind[2] = (in[3] >> 18 | in[4] << 14) >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[4] >> 24 | in[5] << 8) >> shifts_3rd[0];
-  ind[1] = in[5] >> shifts_3rd[1];
-  ind[2] = (in[5] >> 30 | in[6] << 2) >> shifts_3rd[2];
-  ind[3] = (in[6] >> 17 | in[7] << 15) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[7] >> shifts_4th[0];
-  ind[1] = (in[7] >> 23 | in[8] << 9) >> shifts_4th[1];
-  ind[2] = in[8] >> shifts_4th[2];
-  ind[3] = (in[8] >> 29 | in[9] << 3) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[9] >> 16 | in[10] << 16) >> shifts_5th[0];
-  ind[1] = in[10] >> shifts_5th[1];
-  ind[2] = (in[10] >> 22 | in[11] << 10) >> shifts_5th[2];
-  ind[3] = in[11] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[11] >> 28 | in[12] << 4) >> shifts_6th[0];
-  ind[1] = (in[12] >> 15 | in[13] << 17) >> shifts_6th[1];
-  ind[2] = in[13] >> shifts_6th[2];
-  ind[3] = (in[13] >> 21 | in[14] << 11) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[14] >> shifts_7th[0];
-  ind[1] = (in[14] >> 27 | in[15] << 5) >> shifts_7th[1];
-  ind[2] = (in[15] >> 14 | in[16] << 18) >> shifts_7th[2];
-  ind[3] = in[16] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[16] >> 20 | in[17] << 12) >> shifts_8th[0];
-  ind[1] = in[17] >> shifts_8th[1];
-  ind[2] = (in[17] >> 26 | in[18] << 6) >> shifts_8th[2];
-  ind[3] = in[18] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 19;
-
-  return in;
-}
-
-inline static const uint32_t* unpack20_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 8, 0};
-  uint32_t shifts_2nd[4] = {0, 4, 0, 12};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 20 | in[1] << 12) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 28 | in[2] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 16 | in[3] << 16) >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = (in[3] >> 24 | in[4] << 8) >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = (in[5] >> 20 | in[6] << 12) >> shifts_1st[1];
-  ind[2] = in[6] >> shifts_1st[2];
-  ind[3] = (in[6] >> 28 | in[7] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[7] >> 16 | in[8] << 16) >> shifts_2nd[0];
-  ind[1] = in[8] >> shifts_2nd[1];
-  ind[2] = (in[8] >> 24 | in[9] << 8) >> shifts_2nd[2];
-  ind[3] = in[9] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[10] >> shifts_1st[0];
-  ind[1] = (in[10] >> 20 | in[11] << 12) >> shifts_1st[1];
-  ind[2] = in[11] >> shifts_1st[2];
-  ind[3] = (in[11] >> 28 | in[12] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[12] >> 16 | in[13] << 16) >> shifts_2nd[0];
-  ind[1] = in[13] >> shifts_2nd[1];
-  ind[2] = (in[13] >> 24 | in[14] << 8) >> shifts_2nd[2];
-  ind[3] = in[14] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 20 | in[16] << 12) >> shifts_1st[1];
-  ind[2] = in[16] >> shifts_1st[2];
-  ind[3] = (in[16] >> 28 | in[17] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[17] >> 16 | in[18] << 16) >> shifts_2nd[0];
-  ind[1] = in[18] >> shifts_2nd[1];
-  ind[2] = (in[18] >> 24 | in[19] << 8) >> shifts_2nd[2];
-  ind[3] = in[19] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 20;
-
-  return in;
-}
-
-inline static const uint32_t* unpack21_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 10, 0};
-  uint32_t shifts_2nd[4] = {0, 9, 0, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 0, 7};
-  uint32_t shifts_4th[4] = {0, 0, 6, 0};
-  uint32_t shifts_5th[4] = {0, 5, 0, 0};
-  uint32_t shifts_6th[4] = {4, 0, 0, 3};
-  uint32_t shifts_7th[4] = {0, 0, 2, 0};
-  uint32_t shifts_8th[4] = {0, 1, 0, 11};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 21 | in[1] << 11) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 31 | in[2] << 1) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 20 | in[3] << 12) >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[2];
-  ind[3] = (in[4] >> 19 | in[5] << 13) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[5] >> shifts_3rd[0];
-  ind[1] = (in[5] >> 29 | in[6] << 3) >> shifts_3rd[1];
-  ind[2] = (in[6] >> 18 | in[7] << 14) >> shifts_3rd[2];
-  ind[3] = in[7] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[7] >> 28 | in[8] << 4) >> shifts_4th[0];
-  ind[1] = (in[8] >> 17 | in[9] << 15) >> shifts_4th[1];
-  ind[2] = in[9] >> shifts_4th[2];
-  ind[3] = (in[9] >> 27 | in[10] << 5) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[10] >> 16 | in[11] << 16) >> shifts_5th[0];
-  ind[1] = in[11] >> shifts_5th[1];
-  ind[2] = (in[11] >> 26 | in[12] << 6) >> shifts_5th[2];
-  ind[3] = (in[12] >> 15 | in[13] << 17) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[13] >> shifts_6th[0];
-  ind[1] = (in[13] >> 25 | in[14] << 7) >> shifts_6th[1];
-  ind[2] = (in[14] >> 14 | in[15] << 18) >> shifts_6th[2];
-  ind[3] = in[15] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[15] >> 24 | in[16] << 8) >> shifts_7th[0];
-  ind[1] = (in[16] >> 13 | in[17] << 19) >> shifts_7th[1];
-  ind[2] = in[17] >> shifts_7th[2];
-  ind[3] = (in[17] >> 23 | in[18] << 9) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[18] >> 12 | in[19] << 20) >> shifts_8th[0];
-  ind[1] = in[19] >> shifts_8th[1];
-  ind[2] = (in[19] >> 22 | in[20] << 10) >> shifts_8th[2];
-  ind[3] = in[20] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 21;
-
-  return in;
-}
-
-inline static const uint32_t* unpack22_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 2};
-  uint32_t shifts_2nd[4] = {0, 0, 4, 0};
-  uint32_t shifts_3rd[4] = {0, 6, 0, 0};
-  uint32_t shifts_4th[4] = {8, 0, 0, 10};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 22 | in[1] << 10) >> shifts_1st[1];
-  ind[2] = (in[1] >> 12 | in[2] << 20) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 24 | in[3] << 8) >> shifts_2nd[0];
-  ind[1] = (in[3] >> 14 | in[4] << 18) >> shifts_2nd[1];
-  ind[2] = in[4] >> shifts_2nd[2];
-  ind[3] = (in[4] >> 26 | in[5] << 6) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[5] >> 16 | in[6] << 16) >> shifts_3rd[0];
-  ind[1] = in[6] >> shifts_3rd[1];
-  ind[2] = (in[6] >> 28 | in[7] << 4) >> shifts_3rd[2];
-  ind[3] = (in[7] >> 18 | in[8] << 14) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[8] >> shifts_4th[0];
-  ind[1] = (in[8] >> 30 | in[9] << 2) >> shifts_4th[1];
-  ind[2] = (in[9] >> 20 | in[10] << 12) >> shifts_4th[2];
-  ind[3] = in[10] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[11] >> shifts_1st[0];
-  ind[1] = (in[11] >> 22 | in[12] << 10) >> shifts_1st[1];
-  ind[2] = (in[12] >> 12 | in[13] << 20) >> shifts_1st[2];
-  ind[3] = in[13] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[13] >> 24 | in[14] << 8) >> shifts_2nd[0];
-  ind[1] = (in[14] >> 14 | in[15] << 18) >> shifts_2nd[1];
-  ind[2] = in[15] >> shifts_2nd[2];
-  ind[3] = (in[15] >> 26 | in[16] << 6) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[16] >> 16 | in[17] << 16) >> shifts_3rd[0];
-  ind[1] = in[17] >> shifts_3rd[1];
-  ind[2] = (in[17] >> 28 | in[18] << 4) >> shifts_3rd[2];
-  ind[3] = (in[18] >> 18 | in[19] << 14) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[19] >> shifts_4th[0];
-  ind[1] = (in[19] >> 30 | in[20] << 2) >> shifts_4th[1];
-  ind[2] = (in[20] >> 20 | in[21] << 12) >> shifts_4th[2];
-  ind[3] = in[21] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 22;
-
-  return in;
-}
-
-inline static const uint32_t* unpack23_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 5};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 1};
-  uint32_t shifts_3rd[4] = {0, 0, 6, 0};
-  uint32_t shifts_4th[4] = {0, 0, 2, 0};
-  uint32_t shifts_5th[4] = {0, 7, 0, 0};
-  uint32_t shifts_6th[4] = {0, 3, 0, 0};
-  uint32_t shifts_7th[4] = {8, 0, 0, 0};
-  uint32_t shifts_8th[4] = {4, 0, 0, 9};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 23 | in[1] << 9) >> shifts_1st[1];
-  ind[2] = (in[1] >> 14 | in[2] << 18) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 28 | in[3] << 4) >> shifts_2nd[0];
-  ind[1] = (in[3] >> 19 | in[4] << 13) >> shifts_2nd[1];
-  ind[2] = (in[4] >> 10 | in[5] << 22) >> shifts_2nd[2];
-  ind[3] = in[5] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[5] >> 24 | in[6] << 8) >> shifts_3rd[0];
-  ind[1] = (in[6] >> 15 | in[7] << 17) >> shifts_3rd[1];
-  ind[2] = in[7] >> shifts_3rd[2];
-  ind[3] = (in[7] >> 29 | in[8] << 3) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[8] >> 20 | in[9] << 12) >> shifts_4th[0];
-  ind[1] = (in[9] >> 11 | in[10] << 21) >> shifts_4th[1];
-  ind[2] = in[10] >> shifts_4th[2];
-  ind[3] = (in[10] >> 25 | in[11] << 7) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[11] >> 16 | in[12] << 16) >> shifts_5th[0];
-  ind[1] = in[12] >> shifts_5th[1];
-  ind[2] = (in[12] >> 30 | in[13] << 2) >> shifts_5th[2];
-  ind[3] = (in[13] >> 21 | in[14] << 11) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[14] >> 12 | in[15] << 20) >> shifts_6th[0];
-  ind[1] = in[15] >> shifts_6th[1];
-  ind[2] = (in[15] >> 26 | in[16] << 6) >> shifts_6th[2];
-  ind[3] = (in[16] >> 17 | in[17] << 15) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[17] >> shifts_7th[0];
-  ind[1] = (in[17] >> 31 | in[18] << 1) >> shifts_7th[1];
-  ind[2] = (in[18] >> 22 | in[19] << 10) >> shifts_7th[2];
-  ind[3] = (in[19] >> 13 | in[20] << 19) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[20] >> shifts_8th[0];
-  ind[1] = (in[20] >> 27 | in[21] << 5) >> shifts_8th[1];
-  ind[2] = (in[21] >> 18 | in[22] << 14) >> shifts_8th[2];
-  ind[3] = in[22] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 23;
-
-  return in;
-}
-
-inline static const uint32_t* unpack24_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 8};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 24 | in[1] << 8) >> shifts_1st[1];
-  ind[2] = (in[1] >> 16 | in[2] << 16) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = (in[3] >> 24 | in[4] << 8) >> shifts_1st[1];
-  ind[2] = (in[4] >> 16 | in[5] << 16) >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = (in[6] >> 24 | in[7] << 8) >> shifts_1st[1];
-  ind[2] = (in[7] >> 16 | in[8] << 16) >> shifts_1st[2];
-  ind[3] = in[8] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = (in[9] >> 24 | in[10] << 8) >> shifts_1st[1];
-  ind[2] = (in[10] >> 16 | in[11] << 16) >> shifts_1st[2];
-  ind[3] = in[11] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[12] >> shifts_1st[0];
-  ind[1] = (in[12] >> 24 | in[13] << 8) >> shifts_1st[1];
-  ind[2] = (in[13] >> 16 | in[14] << 16) >> shifts_1st[2];
-  ind[3] = in[14] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 24 | in[16] << 8) >> shifts_1st[1];
-  ind[2] = (in[16] >> 16 | in[17] << 16) >> shifts_1st[2];
-  ind[3] = in[17] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[18] >> shifts_1st[0];
-  ind[1] = (in[18] >> 24 | in[19] << 8) >> shifts_1st[1];
-  ind[2] = (in[19] >> 16 | in[20] << 16) >> shifts_1st[2];
-  ind[3] = in[20] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[21] >> shifts_1st[0];
-  ind[1] = (in[21] >> 24 | in[22] << 8) >> shifts_1st[1];
-  ind[2] = (in[22] >> 16 | in[23] << 16) >> shifts_1st[2];
-  ind[3] = in[23] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 24;
-
-  return in;
-}
-
-inline static const uint32_t* unpack25_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {4, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 1, 0, 0};
-  uint32_t shifts_4th[4] = {0, 5, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 2, 0};
-  uint32_t shifts_6th[4] = {0, 0, 6, 0};
-  uint32_t shifts_7th[4] = {0, 0, 0, 3};
-  uint32_t shifts_8th[4] = {0, 0, 0, 7};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 25 | in[1] << 7) >> shifts_1st[1];
-  ind[2] = (in[1] >> 18 | in[2] << 14) >> shifts_1st[2];
-  ind[3] = (in[2] >> 11 | in[3] << 21) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = (in[3] >> 29 | in[4] << 3) >> shifts_2nd[1];
-  ind[2] = (in[4] >> 22 | in[5] << 10) >> shifts_2nd[2];
-  ind[3] = (in[5] >> 15 | in[6] << 17) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 8 | in[7] << 24) >> shifts_3rd[0];
-  ind[1] = in[7] >> shifts_3rd[1];
-  ind[2] = (in[7] >> 26 | in[8] << 6) >> shifts_3rd[2];
-  ind[3] = (in[8] >> 19 | in[9] << 13) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[9] >> 12 | in[10] << 20) >> shifts_4th[0];
-  ind[1] = in[10] >> shifts_4th[1];
-  ind[2] = (in[10] >> 30 | in[11] << 2) >> shifts_4th[2];
-  ind[3] = (in[11] >> 23 | in[12] << 9) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[12] >> 16 | in[13] << 16) >> shifts_5th[0];
-  ind[1] = (in[13] >> 9 | in[14] << 23) >> shifts_5th[1];
-  ind[2] = in[14] >> shifts_5th[2];
-  ind[3] = (in[14] >> 27 | in[15] << 5) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[15] >> 20 | in[16] << 12) >> shifts_6th[0];
-  ind[1] = (in[16] >> 13 | in[17] << 19) >> shifts_6th[1];
-  ind[2] = in[17] >> shifts_6th[2];
-  ind[3] = (in[17] >> 31 | in[18] << 1) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[18] >> 24 | in[19] << 8) >> shifts_7th[0];
-  ind[1] = (in[19] >> 17 | in[20] << 15) >> shifts_7th[1];
-  ind[2] = (in[20] >> 10 | in[21] << 22) >> shifts_7th[2];
-  ind[3] = in[21] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[21] >> 28 | in[22] << 4) >> shifts_8th[0];
-  ind[1] = (in[22] >> 21 | in[23] << 11) >> shifts_8th[1];
-  ind[2] = (in[23] >> 14 | in[24] << 18) >> shifts_8th[2];
-  ind[3] = in[24] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 25;
-
-  return in;
-}
-
-inline static const uint32_t* unpack26_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 2, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 4, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 6};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 26 | in[1] << 6) >> shifts_1st[1];
-  ind[2] = (in[1] >> 20 | in[2] << 12) >> shifts_1st[2];
-  ind[3] = (in[2] >> 14 | in[3] << 18) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 8 | in[4] << 24) >> shifts_2nd[0];
-  ind[1] = in[4] >> shifts_2nd[1];
-  ind[2] = (in[4] >> 28 | in[5] << 4) >> shifts_2nd[2];
-  ind[3] = (in[5] >> 22 | in[6] << 10) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 16 | in[7] << 16) >> shifts_3rd[0];
-  ind[1] = (in[7] >> 10 | in[8] << 22) >> shifts_3rd[1];
-  ind[2] = in[8] >> shifts_3rd[2];
-  ind[3] = (in[8] >> 30 | in[9] << 2) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[9] >> 24 | in[10] << 8) >> shifts_4th[0];
-  ind[1] = (in[10] >> 18 | in[11] << 14) >> shifts_4th[1];
-  ind[2] = (in[11] >> 12 | in[12] << 20) >> shifts_4th[2];
-  ind[3] = in[12] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[13] >> shifts_1st[0];
-  ind[1] = (in[13] >> 26 | in[14] << 6) >> shifts_1st[1];
-  ind[2] = (in[14] >> 20 | in[15] << 12) >> shifts_1st[2];
-  ind[3] = (in[15] >> 14 | in[16] << 18) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[16] >> 8 | in[17] << 24) >> shifts_2nd[0];
-  ind[1] = in[17] >> shifts_2nd[1];
-  ind[2] = (in[17] >> 28 | in[18] << 4) >> shifts_2nd[2];
-  ind[3] = (in[18] >> 22 | in[19] << 10) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[19] >> 16 | in[20] << 16) >> shifts_3rd[0];
-  ind[1] = (in[20] >> 10 | in[21] << 22) >> shifts_3rd[1];
-  ind[2] = in[21] >> shifts_3rd[2];
-  ind[3] = (in[21] >> 30 | in[22] << 2) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[22] >> 24 | in[23] << 8) >> shifts_4th[0];
-  ind[1] = (in[23] >> 18 | in[24] << 14) >> shifts_4th[1];
-  ind[2] = (in[24] >> 12 | in[25] << 20) >> shifts_4th[2];
-  ind[3] = in[25] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 26;
-
-  return in;
-}
-
-inline static const uint32_t* unpack27_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 2, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 0, 0};
-  uint32_t shifts_4th[4] = {4, 0, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 0, 1};
-  uint32_t shifts_6th[4] = {0, 0, 0, 0};
-  uint32_t shifts_7th[4] = {0, 3, 0, 0};
-  uint32_t shifts_8th[4] = {0, 0, 0, 5};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 27 | in[1] << 5) >> shifts_1st[1];
-  ind[2] = (in[1] >> 22 | in[2] << 10) >> shifts_1st[2];
-  ind[3] = (in[2] >> 17 | in[3] << 15) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 12 | in[4] << 20) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 7 | in[5] << 25) >> shifts_2nd[1];
-  ind[2] = in[5] >> shifts_2nd[2];
-  ind[3] = (in[5] >> 29 | in[6] << 3) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_3rd[0];
-  ind[1] = (in[7] >> 19 | in[8] << 13) >> shifts_3rd[1];
-  ind[2] = (in[8] >> 14 | in[9] << 18) >> shifts_3rd[2];
-  ind[3] = (in[9] >> 9 | in[10] << 23) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[10] >> shifts_4th[0];
-  ind[1] = (in[10] >> 31 | in[11] << 1) >> shifts_4th[1];
-  ind[2] = (in[11] >> 26 | in[12] << 6) >> shifts_4th[2];
-  ind[3] = (in[12] >> 21 | in[13] << 11) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[13] >> 16 | in[14] << 16) >> shifts_5th[0];
-  ind[1] = (in[14] >> 11 | in[15] << 21) >> shifts_5th[1];
-  ind[2] = (in[15] >> 6 | in[16] << 26) >> shifts_5th[2];
-  ind[3] = in[16] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[16] >> 28 | in[17] << 4) >> shifts_6th[0];
-  ind[1] = (in[17] >> 23 | in[18] << 9) >> shifts_6th[1];
-  ind[2] = (in[18] >> 18 | in[19] << 14) >> shifts_6th[2];
-  ind[3] = (in[19] >> 13 | in[20] << 19) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[20] >> 8 | in[21] << 24) >> shifts_7th[0];
-  ind[1] = in[21] >> shifts_7th[1];
-  ind[2] = (in[21] >> 30 | in[22] << 2) >> shifts_7th[2];
-  ind[3] = (in[22] >> 25 | in[23] << 7) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[23] >> 20 | in[24] << 12) >> shifts_8th[0];
-  ind[1] = (in[24] >> 15 | in[25] << 17) >> shifts_8th[1];
-  ind[2] = (in[25] >> 10 | in[26] << 22) >> shifts_8th[2];
-  ind[3] = in[26] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 27;
-
-  return in;
-}
-
-inline static const uint32_t* unpack28_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 4};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 28 | in[1] << 4) >> shifts_1st[1];
-  ind[2] = (in[1] >> 24 | in[2] << 8) >> shifts_1st[2];
-  ind[3] = (in[2] >> 20 | in[3] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 16 | in[4] << 16) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 12 | in[5] << 20) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 8 | in[6] << 24) >> shifts_2nd[2];
-  ind[3] = in[6] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = (in[7] >> 28 | in[8] << 4) >> shifts_1st[1];
-  ind[2] = (in[8] >> 24 | in[9] << 8) >> shifts_1st[2];
-  ind[3] = (in[9] >> 20 | in[10] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[10] >> 16 | in[11] << 16) >> shifts_2nd[0];
-  ind[1] = (in[11] >> 12 | in[12] << 20) >> shifts_2nd[1];
-  ind[2] = (in[12] >> 8 | in[13] << 24) >> shifts_2nd[2];
-  ind[3] = in[13] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[14] >> shifts_1st[0];
-  ind[1] = (in[14] >> 28 | in[15] << 4) >> shifts_1st[1];
-  ind[2] = (in[15] >> 24 | in[16] << 8) >> shifts_1st[2];
-  ind[3] = (in[16] >> 20 | in[17] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[17] >> 16 | in[18] << 16) >> shifts_2nd[0];
-  ind[1] = (in[18] >> 12 | in[19] << 20) >> shifts_2nd[1];
-  ind[2] = (in[19] >> 8 | in[20] << 24) >> shifts_2nd[2];
-  ind[3] = in[20] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[21] >> shifts_1st[0];
-  ind[1] = (in[21] >> 28 | in[22] << 4) >> shifts_1st[1];
-  ind[2] = (in[22] >> 24 | in[23] << 8) >> shifts_1st[2];
-  ind[3] = (in[23] >> 20 | in[24] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[24] >> 16 | in[25] << 16) >> shifts_2nd[0];
-  ind[1] = (in[25] >> 12 | in[26] << 20) >> shifts_2nd[1];
-  ind[2] = (in[26] >> 8 | in[27] << 24) >> shifts_2nd[2];
-  ind[3] = in[27] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 28;
-
-  return in;
-}
-
-inline static const uint32_t* unpack29_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 2, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 0, 0};
-  uint32_t shifts_6th[4] = {0, 1, 0, 0};
-  uint32_t shifts_7th[4] = {0, 0, 0, 0};
-  uint32_t shifts_8th[4] = {0, 0, 0, 3};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 29 | in[1] << 3) >> shifts_1st[1];
-  ind[2] = (in[1] >> 26 | in[2] << 6) >> shifts_1st[2];
-  ind[3] = (in[2] >> 23 | in[3] << 9) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 20 | in[4] << 12) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 17 | in[5] << 15) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 14 | in[6] << 18) >> shifts_2nd[2];
-  ind[3] = (in[6] >> 11 | in[7] << 21) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 8 | in[8] << 24) >> shifts_3rd[0];
-  ind[1] = (in[8] >> 5 | in[9] << 27) >> shifts_3rd[1];
-  ind[2] = in[9] >> shifts_3rd[2];
-  ind[3] = (in[9] >> 31 | in[10] << 1) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[10] >> 28 | in[11] << 4) >> shifts_4th[0];
-  ind[1] = (in[11] >> 25 | in[12] << 7) >> shifts_4th[1];
-  ind[2] = (in[12] >> 22 | in[13] << 10) >> shifts_4th[2];
-  ind[3] = (in[13] >> 19 | in[14] << 13) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[14] >> 16 | in[15] << 16) >> shifts_5th[0];
-  ind[1] = (in[15] >> 13 | in[16] << 19) >> shifts_5th[1];
-  ind[2] = (in[16] >> 10 | in[17] << 22) >> shifts_5th[2];
-  ind[3] = (in[17] >> 7 | in[18] << 25) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[18] >> 4 | in[19] << 28) >> shifts_6th[0];
-  ind[1] = in[19] >> shifts_6th[1];
-  ind[2] = (in[19] >> 30 | in[20] << 2) >> shifts_6th[2];
-  ind[3] = (in[20] >> 27 | in[21] << 5) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[21] >> 24 | in[22] << 8) >> shifts_7th[0];
-  ind[1] = (in[22] >> 21 | in[23] << 11) >> shifts_7th[1];
-  ind[2] = (in[23] >> 18 | in[24] << 14) >> shifts_7th[2];
-  ind[3] = (in[24] >> 15 | in[25] << 17) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[25] >> 12 | in[26] << 20) >> shifts_8th[0];
-  ind[1] = (in[26] >> 9 | in[27] << 23) >> shifts_8th[1];
-  ind[2] = (in[27] >> 6 | in[28] << 26) >> shifts_8th[2];
-  ind[3] = in[28] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 29;
-
-  return in;
-}
-
-inline static const uint32_t* unpack30_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 0, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 2};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_1st[2];
-  ind[3] = (in[2] >> 26 | in[3] << 6) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 22 | in[5] << 10) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 20 | in[6] << 12) >> shifts_2nd[2];
-  ind[3] = (in[6] >> 18 | in[7] << 14) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 16 | in[8] << 16) >> shifts_3rd[0];
-  ind[1] = (in[8] >> 14 | in[9] << 18) >> shifts_3rd[1];
-  ind[2] = (in[9] >> 12 | in[10] << 20) >> shifts_3rd[2];
-  ind[3] = (in[10] >> 10 | in[11] << 22) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[11] >> 8 | in[12] << 24) >> shifts_4th[0];
-  ind[1] = (in[12] >> 6 | in[13] << 26) >> shifts_4th[1];
-  ind[2] = (in[13] >> 4 | in[14] << 28) >> shifts_4th[2];
-  ind[3] = in[14] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 30 | in[16] << 2) >> shifts_1st[1];
-  ind[2] = (in[16] >> 28 | in[17] << 4) >> shifts_1st[2];
-  ind[3] = (in[17] >> 26 | in[18] << 6) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[18] >> 24 | in[19] << 8) >> shifts_2nd[0];
-  ind[1] = (in[19] >> 22 | in[20] << 10) >> shifts_2nd[1];
-  ind[2] = (in[20] >> 20 | in[21] << 12) >> shifts_2nd[2];
-  ind[3] = (in[21] >> 18 | in[22] << 14) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[22] >> 16 | in[23] << 16) >> shifts_3rd[0];
-  ind[1] = (in[23] >> 14 | in[24] << 18) >> shifts_3rd[1];
-  ind[2] = (in[24] >> 12 | in[25] << 20) >> shifts_3rd[2];
-  ind[3] = (in[25] >> 10 | in[26] << 22) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[26] >> 8 | in[27] << 24) >> shifts_4th[0];
-  ind[1] = (in[27] >> 6 | in[28] << 26) >> shifts_4th[1];
-  ind[2] = (in[28] >> 4 | in[29] << 28) >> shifts_4th[2];
-  ind[3] = in[29] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 30;
-
-  return in;
-}
-
-inline static const uint32_t* unpack31_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 1};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 31 | in[1] << 1) >> shifts_1st[1];
-  ind[2] = (in[1] >> 30 | in[2] << 2) >> shifts_1st[2];
-  ind[3] = (in[2] >> 29 | in[3] << 3) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 28 | in[4] << 4) >> shifts_1st[0];
-  ind[1] = (in[4] >> 27 | in[5] << 5) >> shifts_1st[1];
-  ind[2] = (in[5] >> 26 | in[6] << 6) >> shifts_1st[2];
-  ind[3] = (in[6] >> 25 | in[7] << 7) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 24 | in[8] << 8) >> shifts_1st[0];
-  ind[1] = (in[8] >> 23 | in[9] << 9) >> shifts_1st[1];
-  ind[2] = (in[9] >> 22 | in[10] << 10) >> shifts_1st[2];
-  ind[3] = (in[10] >> 21 | in[11] << 11) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[11] >> 20 | in[12] << 12) >> shifts_1st[0];
-  ind[1] = (in[12] >> 19 | in[13] << 13) >> shifts_1st[1];
-  ind[2] = (in[13] >> 18 | in[14] << 14) >> shifts_1st[2];
-  ind[3] = (in[14] >> 17 | in[15] << 15) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[15] >> 16 | in[16] << 16) >> shifts_1st[0];
-  ind[1] = (in[16] >> 15 | in[17] << 17) >> shifts_1st[1];
-  ind[2] = (in[17] >> 14 | in[18] << 18) >> shifts_1st[2];
-  ind[3] = (in[18] >> 13 | in[19] << 19) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[19] >> 12 | in[20] << 20) >> shifts_1st[0];
-  ind[1] = (in[20] >> 11 | in[21] << 21) >> shifts_1st[1];
-  ind[2] = (in[21] >> 10 | in[22] << 22) >> shifts_1st[2];
-  ind[3] = (in[22] >> 9 | in[23] << 23) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[23] >> 8 | in[24] << 24) >> shifts_1st[0];
-  ind[1] = (in[24] >> 7 | in[25] << 25) >> shifts_1st[1];
-  ind[2] = (in[25] >> 6 | in[26] << 26) >> shifts_1st[2];
-  ind[3] = (in[26] >> 5 | in[27] << 27) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[27] >> 4 | in[28] << 28) >> shifts_2nd[0];
-  ind[1] = (in[28] >> 3 | in[29] << 29) >> shifts_2nd[1];
-  ind[2] = (in[29] >> 2 | in[30] << 30) >> shifts_2nd[2];
-  ind[3] = in[30] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 31;
-
-  return in;
-}
-
-inline const uint32_t* unpack32_32_neon(const uint32_t* in, uint32_t* out) {
-  for (const uint32_t* end = out + 32; out != end; out++) {
-    *out = *in;
-    in++;
-  }
-
-  return in;
-}
-
-int unpack32_neon(const uint32_t* in, uint32_t* out, int batch_size, int num_bits) {
-  batch_size = batch_size / 32 * 32;
-  int num_loops = batch_size / 32;
-
-  switch (num_bits) {
-    case 0:
-      for (int i = 0; i < num_loops; ++i) in = unpack0_32_neon(in, out + i * 32);
-      break;
-    case 1:
-      for (int i = 0; i < num_loops; ++i) in = unpack1_32_neon(in, out + i * 32);
-      break;
-    case 2:
-      for (int i = 0; i < num_loops; ++i) in = unpack2_32_neon(in, out + i * 32);
-      break;
-    case 3:
-      for (int i = 0; i < num_loops; ++i) in = unpack3_32_neon(in, out + i * 32);
-      break;
-    case 4:
-      for (int i = 0; i < num_loops; ++i) in = unpack4_32_neon(in, out + i * 32);
-      break;
-    case 5:
-      for (int i = 0; i < num_loops; ++i) in = unpack5_32_neon(in, out + i * 32);
-      break;
-    case 6:
-      for (int i = 0; i < num_loops; ++i) in = unpack6_32_neon(in, out + i * 32);
-      break;
-    case 7:
-      for (int i = 0; i < num_loops; ++i) in = unpack7_32_neon(in, out + i * 32);
-      break;
-    case 8:
-      for (int i = 0; i < num_loops; ++i) in = unpack8_32_neon(in, out + i * 32);
-      break;
-    case 9:
-      for (int i = 0; i < num_loops; ++i) in = unpack9_32_neon(in, out + i * 32);
-      break;
-    case 10:
-      for (int i = 0; i < num_loops; ++i) in = unpack10_32_neon(in, out + i * 32);
-      break;
-    case 11:
-      for (int i = 0; i < num_loops; ++i) in = unpack11_32_neon(in, out + i * 32);
-      break;
-    case 12:
-      for (int i = 0; i < num_loops; ++i) in = unpack12_32_neon(in, out + i * 32);
-      break;
-    case 13:
-      for (int i = 0; i < num_loops; ++i) in = unpack13_32_neon(in, out + i * 32);
-      break;
-    case 14:
-      for (int i = 0; i < num_loops; ++i) in = unpack14_32_neon(in, out + i * 32);
-      break;
-    case 15:
-      for (int i = 0; i < num_loops; ++i) in = unpack15_32_neon(in, out + i * 32);
-      break;
-    case 16:
-      for (int i = 0; i < num_loops; ++i) in = unpack16_32_neon(in, out + i * 32);
-      break;
-    case 17:
-      for (int i = 0; i < num_loops; ++i) in = unpack17_32_neon(in, out + i * 32);
-      break;
-    case 18:
-      for (int i = 0; i < num_loops; ++i) in = unpack18_32_neon(in, out + i * 32);
-      break;
-    case 19:
-      for (int i = 0; i < num_loops; ++i) in = unpack19_32_neon(in, out + i * 32);
-      break;
-    case 20:
-      for (int i = 0; i < num_loops; ++i) in = unpack20_32_neon(in, out + i * 32);
-      break;
-    case 21:
-      for (int i = 0; i < num_loops; ++i) in = unpack21_32_neon(in, out + i * 32);
-      break;
-    case 22:
-      for (int i = 0; i < num_loops; ++i) in = unpack22_32_neon(in, out + i * 32);
-      break;
-    case 23:
-      for (int i = 0; i < num_loops; ++i) in = unpack23_32_neon(in, out + i * 32);
-      break;
-    case 24:
-      for (int i = 0; i < num_loops; ++i) in = unpack24_32_neon(in, out + i * 32);
-      break;
-    case 25:
-      for (int i = 0; i < num_loops; ++i) in = unpack25_32_neon(in, out + i * 32);
-      break;
-    case 26:
-      for (int i = 0; i < num_loops; ++i) in = unpack26_32_neon(in, out + i * 32);
-      break;
-    case 27:
-      for (int i = 0; i < num_loops; ++i) in = unpack27_32_neon(in, out + i * 32);
-      break;
-    case 28:
-      for (int i = 0; i < num_loops; ++i) in = unpack28_32_neon(in, out + i * 32);
-      break;
-    case 29:
-      for (int i = 0; i < num_loops; ++i) in = unpack29_32_neon(in, out + i * 32);
-      break;
-    case 30:
-      for (int i = 0; i < num_loops; ++i) in = unpack30_32_neon(in, out + i * 32);
-      break;
-    case 31:
-      for (int i = 0; i < num_loops; ++i) in = unpack31_32_neon(in, out + i * 32);
-      break;
-    case 32:
-      for (int i = 0; i < num_loops; ++i) in = unpack32_32_neon(in, out + i * 32);
-      break;
-  }
-
-  return batch_size;
-}
diff --git a/go/parquet/internal/utils/_lib/script.sed b/go/parquet/internal/utils/_lib/script.sed
deleted file mode 100644
index 908cce695a5ba..0000000000000
--- a/go/parquet/internal/utils/_lib/script.sed
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-s|WORD $0x54[0-9a-f]\+[[:space:]]\+//[[:space:]]\+b.\([leqgtnso]\+\)[[:space:]]\+.\(LBB0_[0-9]\+\)|B\U\1 \2|
-s|WORD $0x14000000[[:space:]]\+//[[:space:]]\+b[[:space:]]\+.\(LBB0_[0-9]\+\)|JMP \1|
-s|\(WORD $0x9[0-9a-f]\+ // adrp.*\)|// \1|
-s|WORD $0x[0-9a-f]\+ // ldr[[:space:]]\+d\([0-9]\+\), \[x[0-9]\+, :lo[0-9]\+:.\(LCPI0_[0-9]\+\)\]|VMOVD \2, V\1|
-s|WORD $0x[0-9a-f]\+ // ldr[[:space:]]\+q\([0-9]\+\), \[x[0-9]\+, :lo[0-9]\+:.\(LCPI0_[0-9]\+\)\]|VMOVQ \2L, \2H, V\1|
diff --git a/go/parquet/internal/utils/_lib/unpack_bool.c b/go/parquet/internal/utils/_lib/unpack_bool.c
deleted file mode 100644
index b47e0037ee358..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool.c
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdbool.h>
-#include <stdint.h>
-
-void FULL_NAME(bytes_to_bools)(const uint8_t bytes[], const int len, bool out[], const int outlen) {
-  for (int i = 0; i < len; i++) {
-    for (int j = 0; j < 8; j++) {
-      int idx = 8*i+j;
-      if (idx >= outlen) { break; }
-      out[idx] = (bytes[i] & (1 << j)) != 0;
-    }
-  }
-}
-
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_avx2.s b/go/parquet/internal/utils/_lib/unpack_bool_avx2.s
deleted file mode 100644
index 6ac34887c003d..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_avx2.s
+++ /dev/null
@@ -1,104 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_avx2             # -- Begin function bytes_to_bools_avx2
-	.p2align	4, 0x90
-	.type	bytes_to_bools_avx2,@function
-bytes_to_bools_avx2:                    # @bytes_to_bools_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_5
-# %bb.1:
-	mov	r8d, esi
-	shl	r8, 3
-	xor	r10d, r10d
-	jmp	.LBB0_2
-	.p2align	4, 0x90
-.LBB0_4:                                #   in Loop: Header=BB0_2 Depth=1
-	add	r10, 8
-	add	rdi, 1
-	cmp	r8, r10
-	je	.LBB0_5
-.LBB0_2:                                # =>This Inner Loop Header: Depth=1
-	cmp	r10d, ecx
-	jge	.LBB0_4
-# %bb.3:                                #   in Loop: Header=BB0_2 Depth=1
-	mov	r9d, r10d
-	movzx	eax, byte ptr [rdi]
-	and	al, 1
-	mov	byte ptr [rdx + r9], al
-	mov	rsi, r9
-	or	rsi, 1
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.6:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 2
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.7:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 2
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 3
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.8:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 3
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 4
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.9:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 4
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 5
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.10:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 5
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 6
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.11:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 6
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	or	r9, 7
-	cmp	r9d, ecx
-	jge	.LBB0_4
-# %bb.12:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 7
-	mov	byte ptr [rdx + r9], al
-	jmp	.LBB0_4
-.LBB0_5:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_avx2, .Lfunc_end0-bytes_to_bools_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_neon.s b/go/parquet/internal/utils/_lib/unpack_bool_neon.s
deleted file mode 100644
index ac832a29d6d36..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_neon.s
+++ /dev/null
@@ -1,89 +0,0 @@
-	.text
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_neon     // -- Begin function bytes_to_bools_neon
-	.p2align	2
-	.type	bytes_to_bools_neon,@function
-bytes_to_bools_neon:                    // @bytes_to_bools_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB0_12
-// %bb.1:
-	mov	w9, w1
-	mov	x8, xzr
-	lsl	x9, x9, #3
-	mov	w10, #5
-	b	.LBB0_3
-.LBB0_2:                                //   in Loop: Header=BB0_3 Depth=1
-	add	x8, x8, #8              // =8
-	cmp	x9, x8
-	add	x0, x0, #1              // =1
-	b.eq	.LBB0_12
-.LBB0_3:                                // =>This Inner Loop Header: Depth=1
-	cmp	w8, w3
-	b.ge	.LBB0_2
-// %bb.4:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w12, [x0]
-	and	x11, x8, #0xffffffff
-	orr	x13, x11, #0x1
-	cmp	w13, w3
-	and	w12, w12, #0x1
-	strb	w12, [x2, x11]
-	b.ge	.LBB0_2
-// %bb.5:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x2
-	cmp	w12, w3
-	ubfx	w14, w14, #1, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.6:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x13, x11, #0x3
-	cmp	w13, w3
-	ubfx	w14, w14, #2, #1
-	strb	w14, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.7:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x4
-	cmp	w12, w3
-	ubfx	w14, w14, #3, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.8:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x13, x11, x10
-	cmp	w13, w3
-	ubfx	w14, w14, #4, #1
-	strb	w14, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.9:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x6
-	cmp	w12, w3
-	ubfx	w14, w14, #5, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.10:                              //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w13, [x0]
-	orr	x11, x11, #0x7
-	cmp	w11, w3
-	ubfx	w13, w13, #6, #1
-	strb	w13, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.11:                              //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w12, [x0]
-	lsr	w12, w12, #7
-	strb	w12, [x2, x11]
-	b	.LBB0_2
-.LBB0_12:
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_neon, .Lfunc_end0-bytes_to_bools_neon
-                                        // -- End function
-	.ident	"clang version 10.0.0-4ubuntu1 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_sse4.s b/go/parquet/internal/utils/_lib/unpack_bool_sse4.s
deleted file mode 100644
index 6719771b865af..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_sse4.s
+++ /dev/null
@@ -1,104 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_sse4             # -- Begin function bytes_to_bools_sse4
-	.p2align	4, 0x90
-	.type	bytes_to_bools_sse4,@function
-bytes_to_bools_sse4:                    # @bytes_to_bools_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_5
-# %bb.1:
-	mov	r8d, esi
-	shl	r8, 3
-	xor	r10d, r10d
-	jmp	.LBB0_2
-	.p2align	4, 0x90
-.LBB0_4:                                #   in Loop: Header=BB0_2 Depth=1
-	add	r10, 8
-	add	rdi, 1
-	cmp	r8, r10
-	je	.LBB0_5
-.LBB0_2:                                # =>This Inner Loop Header: Depth=1
-	cmp	r10d, ecx
-	jge	.LBB0_4
-# %bb.3:                                #   in Loop: Header=BB0_2 Depth=1
-	mov	r9d, r10d
-	movzx	eax, byte ptr [rdi]
-	and	al, 1
-	mov	byte ptr [rdx + r9], al
-	mov	rsi, r9
-	or	rsi, 1
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.6:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 2
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.7:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 2
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 3
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.8:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 3
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 4
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.9:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 4
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 5
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.10:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 5
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 6
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.11:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 6
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	or	r9, 7
-	cmp	r9d, ecx
-	jge	.LBB0_4
-# %bb.12:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 7
-	mov	byte ptr [rdx + r9], al
-	jmp	.LBB0_4
-.LBB0_5:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_sse4, .Lfunc_end0-bytes_to_bools_sse4
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/bit_benchmark_test.go b/go/parquet/internal/utils/bit_benchmark_test.go
deleted file mode 100644
index d171e81e952fa..0000000000000
--- a/go/parquet/internal/utils/bit_benchmark_test.go
+++ /dev/null
@@ -1,132 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-)
-
-type linearBitRunReader struct {
-	reader *bitutil.BitmapReader
-}
-
-func (l linearBitRunReader) NextRun() bitutils.BitRun {
-	r := bitutils.BitRun{0, l.reader.Set()}
-	for l.reader.Pos() < l.reader.Len() && l.reader.Set() == r.Set {
-		r.Len++
-		l.reader.Next()
-	}
-	return r
-}
-
-func randomBitsBuffer(nbits, setPct int64) []byte {
-	rag := testutils.NewRandomArrayGenerator(23)
-	prob := float64(0)
-	if setPct != -1 {
-		prob = float64(setPct) / 100.0
-	}
-	buf := make([]byte, int(bitutil.BytesForBits(nbits)))
-	rag.GenerateBitmap(buf, nbits, prob)
-
-	if setPct == -1 {
-		wr := bitutil.NewBitmapWriter(buf, 0, int(nbits))
-		for i := int64(0); i < nbits; i++ {
-			if i%2 == 0 {
-				wr.Set()
-			} else {
-				wr.Clear()
-			}
-			wr.Next()
-		}
-	}
-	return buf
-}
-
-func testBitRunReader(rdr bitutils.BitRunReader) (setTotal int64) {
-	for {
-		br := rdr.NextRun()
-		if br.Len == 0 {
-			break
-		}
-		if br.Set {
-			setTotal += br.Len
-		}
-	}
-	return
-}
-
-func BenchmarkBitRunReader(b *testing.B) {
-	const numBits = 4096
-	for _, pct := range []int64{1, 0, 10, 25, 50, 60, 75, 99} {
-		buf := randomBitsBuffer(numBits, pct)
-		b.Run("set pct "+strconv.Itoa(int(pct)), func(b *testing.B) {
-			b.Run("linear", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := linearBitRunReader{bitutil.NewBitmapReader(buf, 0, numBits)}
-					testBitRunReader(rdr)
-				}
-			})
-			b.Run("internal", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewBitRunReader(buf, 0, numBits)
-					testBitRunReader(rdr)
-				}
-			})
-		})
-	}
-}
-
-func testSetBitRunReader(rdr bitutils.SetBitRunReader) (setTotal int64) {
-	for {
-		br := rdr.NextRun()
-		if br.Length == 0 {
-			break
-		}
-		setTotal += br.Length
-	}
-	return
-}
-
-func BenchmarkSetBitRunReader(b *testing.B) {
-	const numBits = 4096
-	for _, pct := range []int64{1, 0, 10, 25, 50, 60, 75, 99} {
-		buf := randomBitsBuffer(numBits, pct)
-		b.Run("set pct "+strconv.Itoa(int(pct)), func(b *testing.B) {
-			b.Run("reader", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewSetBitRunReader(buf, 0, numBits)
-					testSetBitRunReader(rdr)
-				}
-			})
-			b.Run("reverse rdr", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewReverseSetBitRunReader(buf, 0, numBits)
-					testSetBitRunReader(rdr)
-				}
-			})
-		})
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_amd64.go b/go/parquet/internal/utils/bit_packing_amd64.go
deleted file mode 100644
index 72702578c1202..0000000000000
--- a/go/parquet/internal/utils/bit_packing_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		unpack32 = unpack32Avx2
-	} else { // default to the pure go implementation if no avx2 available
-		unpack32 = unpack32Default
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_arm64.go b/go/parquet/internal/utils/bit_packing_arm64.go
deleted file mode 100644
index 89a00b0c63b9d..0000000000000
--- a/go/parquet/internal/utils/bit_packing_arm64.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"github.com/klauspost/cpuid/v2"
-	// import for side effect of initializing feature flags
-	// based on ARM_ENABLE_EXT env var
-	_ "github.com/apache/arrow/go/v18/parquet/internal/bmi"
-)
-
-func init() {
-	if cpuid.CPU.Has(cpuid.ASIMD) {
-		unpack32 = unpack32NEON
-	} else { // default to the pure go implementation if no avx2 available
-		unpack32 = unpack32Default
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_avx2_amd64.go b/go/parquet/internal/utils/bit_packing_avx2_amd64.go
deleted file mode 100644
index 0455ccc505bfe..0000000000000
--- a/go/parquet/internal/utils/bit_packing_avx2_amd64.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"bytes"
-	"io"
-	"sync"
-	"unsafe"
-)
-
-var bufferPool = sync.Pool{New: func() interface{} { return &bytes.Buffer{} }}
-
-//go:noescape
-func _unpack32_avx2(in, out unsafe.Pointer, batchSize, nbits int) (num int)
-
-func unpack32Avx2(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	if batch <= 0 {
-		return 0
-	}
-
-	n := batch * nbits / 8
-
-	buffer := bufferPool.Get().(*bytes.Buffer)
-	defer bufferPool.Put(buffer)
-	buffer.Reset()
-	buffer.Grow(n)
-	io.CopyN(buffer, in, int64(n))
-
-	var (
-		input  = unsafe.Pointer(&buffer.Bytes()[0])
-		output = unsafe.Pointer(&out[0])
-	)
-
-	return _unpack32_avx2(input, output, len(out), nbits)
-}
diff --git a/go/parquet/internal/utils/bit_packing_avx2_amd64.s b/go/parquet/internal/utils/bit_packing_avx2_amd64.s
deleted file mode 100644
index 8a678160951ef..0000000000000
--- a/go/parquet/internal/utils/bit_packing_avx2_amd64.s
+++ /dev/null
@@ -1,3439 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA1<>+0x008(SB)/8, $0x3fffffff3fffffff
-DATA LCDATA1<>+0x010(SB)/8, $0x1fffffff1fffffff
-DATA LCDATA1<>+0x018(SB)/8, $0x0fffffff0fffffff
-DATA LCDATA1<>+0x020(SB)/8, $0x07ffffff07ffffff
-DATA LCDATA1<>+0x028(SB)/8, $0x03ffffff03ffffff
-DATA LCDATA1<>+0x030(SB)/8, $0x0000000a00000010
-DATA LCDATA1<>+0x038(SB)/8, $0x0000001600000010
-DATA LCDATA1<>+0x040(SB)/8, $0x01ffffff01ffffff
-DATA LCDATA1<>+0x048(SB)/8, $0x007fffff007fffff
-DATA LCDATA1<>+0x050(SB)/8, $0x003fffff003fffff
-DATA LCDATA1<>+0x058(SB)/8, $0x001fffff001fffff
-DATA LCDATA1<>+0x060(SB)/8, $0x000fffff000fffff
-DATA LCDATA1<>+0x068(SB)/8, $0x0007ffff0007ffff
-DATA LCDATA1<>+0x070(SB)/8, $0x0003ffff0003ffff
-DATA LCDATA1<>+0x078(SB)/8, $0x0001ffff0001ffff
-DATA LCDATA1<>+0x080(SB)/8, $0x0000001000000000
-DATA LCDATA1<>+0x088(SB)/8, $0x00007fff00007fff
-DATA LCDATA1<>+0x090(SB)/8, $0x00003fff00003fff
-DATA LCDATA1<>+0x098(SB)/8, $0x00001fff00001fff
-DATA LCDATA1<>+0x0a0(SB)/8, $0x00000fff00000fff
-DATA LCDATA1<>+0x0a8(SB)/8, $0x000007ff000007ff
-DATA LCDATA1<>+0x0b0(SB)/8, $0x000003ff000003ff
-DATA LCDATA1<>+0x0b8(SB)/8, $0x000001ff000001ff
-DATA LCDATA1<>+0x0c0(SB)/8, $0x0000007f0000007f
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0000003f0000003f
-DATA LCDATA1<>+0x0d0(SB)/8, $0x0000001f0000001f
-DATA LCDATA1<>+0x0d8(SB)/8, $0x0000000f0000000f
-DATA LCDATA1<>+0x0e0(SB)/8, $0x0000000700000007
-DATA LCDATA1<>+0x0e8(SB)/8, $0x0000000300000003
-DATA LCDATA1<>+0x0f0(SB)/8, $0x0000000100000001
-DATA LCDATA1<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x100(SB)/8, $0x0000001700000018
-DATA LCDATA1<>+0x108(SB)/8, $0x0000001500000016
-DATA LCDATA1<>+0x110(SB)/8, $0x0000001300000014
-DATA LCDATA1<>+0x118(SB)/8, $0x0000001100000012
-DATA LCDATA1<>+0x120(SB)/8, $0x0000000900000008
-DATA LCDATA1<>+0x128(SB)/8, $0x0000000b0000000a
-DATA LCDATA1<>+0x130(SB)/8, $0x0000000d0000000c
-DATA LCDATA1<>+0x138(SB)/8, $0x0000000f0000000e
-DATA LCDATA1<>+0x140(SB)/8, $0x0000000f00000010
-DATA LCDATA1<>+0x148(SB)/8, $0x0000000d0000000e
-DATA LCDATA1<>+0x150(SB)/8, $0x0000000b0000000c
-DATA LCDATA1<>+0x158(SB)/8, $0x000000090000000a
-DATA LCDATA1<>+0x160(SB)/8, $0x0000001100000010
-DATA LCDATA1<>+0x168(SB)/8, $0x0000001300000012
-DATA LCDATA1<>+0x170(SB)/8, $0x0000001500000014
-DATA LCDATA1<>+0x178(SB)/8, $0x0000001700000016
-DATA LCDATA1<>+0x180(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x188(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x190(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x198(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x1a0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1b0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1b8(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x1c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1c8(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x1d0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1d8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1e8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1f0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x1f8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x200(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x208(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x210(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x218(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x220(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x228(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x230(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x238(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x240(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x248(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x250(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x258(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x260(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x268(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x270(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x278(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x280(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x288(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x290(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x298(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2a0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x2a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2b0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2b8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x2c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2d0(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x2d8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2e8(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x2f0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2f8(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x300(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x308(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x310(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x318(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x320(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x328(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x330(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x338(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x340(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x348(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x350(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x358(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x360(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x368(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x370(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x378(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x380(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x388(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x390(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x398(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x3a0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x3a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3b0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x3b8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3c0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x3c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3d0(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x3d8(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x3e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3e8(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x3f0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3f8(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x400(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x408(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x410(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x418(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x420(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x428(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x430(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x438(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x440(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x448(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x450(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x458(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x460(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x468(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x470(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x478(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x480(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x488(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x490(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x498(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x4a0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4a8(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x4b0(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x4b8(SB)/8, $0x0000000c00000000
-DATA LCDATA1<>+0x4c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4c8(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x4d0(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x4d8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x4e0(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x4e8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4f0(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x4f8(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x500(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x508(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x510(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x518(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x520(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x528(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x530(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x538(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x540(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x548(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x550(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x558(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x560(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x568(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x570(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x578(SB)/8, $0x0000000e00000000
-DATA LCDATA1<>+0x580(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x588(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x590(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x598(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x5a0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x5a8(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x5b0(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x5b8(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x5c0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x5c8(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x5d0(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x5d8(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x5e0(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x5e8(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x5f0(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x5f8(SB)/8, $0x0000000f00000000
-DATA LCDATA1<>+0x600(SB)/8, $0x0000000f00000000
-DATA LCDATA1<>+0x608(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x610(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x618(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x620(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x628(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x630(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x638(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x640(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x648(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x650(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x658(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x660(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x668(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x670(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x678(SB)/8, $0x0000001100000002
-DATA LCDATA1<>+0x680(SB)/8, $0x0000000e00000000
-DATA LCDATA1<>+0x688(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x690(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x698(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x6a0(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x6a8(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x6b0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x6b8(SB)/8, $0x0000001200000004
-DATA LCDATA1<>+0x6c0(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x6c8(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x6d0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x6d8(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x6e0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x6e8(SB)/8, $0x0000000f00000002
-DATA LCDATA1<>+0x6f0(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x6f8(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x700(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x708(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x710(SB)/8, $0x0000001100000004
-DATA LCDATA1<>+0x718(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x720(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x728(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x730(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x738(SB)/8, $0x0000001300000006
-DATA LCDATA1<>+0x740(SB)/8, $0x0000000c00000000
-DATA LCDATA1<>+0x748(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x750(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x758(SB)/8, $0x0000001400000008
-DATA LCDATA1<>+0x760(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x768(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x770(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x778(SB)/8, $0x0000000d00000002
-DATA LCDATA1<>+0x780(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x788(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x790(SB)/8, $0x0000000f00000004
-DATA LCDATA1<>+0x798(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x7a0(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x7a8(SB)/8, $0x0000001100000006
-DATA LCDATA1<>+0x7b0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x7b8(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x7c0(SB)/8, $0x0000001300000008
-DATA LCDATA1<>+0x7c8(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x7d0(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x7d8(SB)/8, $0x000000150000000a
-DATA LCDATA1<>+0x7e0(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x7e8(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x7f0(SB)/8, $0x0000001200000008
-DATA LCDATA1<>+0x7f8(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x800(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x808(SB)/8, $0x0000000e00000004
-DATA LCDATA1<>+0x810(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x818(SB)/8, $0x000000160000000c
-DATA LCDATA1<>+0x820(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x828(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x830(SB)/8, $0x0000000d00000004
-DATA LCDATA1<>+0x838(SB)/8, $0x0000000000000016
-DATA LCDATA1<>+0x840(SB)/8, $0x0000001100000008
-DATA LCDATA1<>+0x848(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x850(SB)/8, $0x000000150000000c
-DATA LCDATA1<>+0x858(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x860(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x868(SB)/8, $0x0000000b00000002
-DATA LCDATA1<>+0x870(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x878(SB)/8, $0x0000000f00000006
-DATA LCDATA1<>+0x880(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x888(SB)/8, $0x000000130000000a
-DATA LCDATA1<>+0x890(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x898(SB)/8, $0x000000170000000e
-DATA LCDATA1<>+0x8a0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x8a8(SB)/8, $0x000000150000000e
-DATA LCDATA1<>+0x8b0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x8b8(SB)/8, $0x000000110000000a
-DATA LCDATA1<>+0x8c0(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x8c8(SB)/8, $0x0000000d00000006
-DATA LCDATA1<>+0x8d0(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x8d8(SB)/8, $0x0000000900000002
-DATA LCDATA1<>+0x8e0(SB)/8, $0x0000001700000010
-DATA LCDATA1<>+0x8e8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x8f0(SB)/8, $0x000000130000000c
-DATA LCDATA1<>+0x8f8(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x900(SB)/8, $0x0000000f00000008
-DATA LCDATA1<>+0x908(SB)/8, $0x0000000000000016
-DATA LCDATA1<>+0x910(SB)/8, $0x0000000b00000004
-DATA LCDATA1<>+0x918(SB)/8, $0x0000001900000012
-DATA LCDATA1<>+0x920(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x928(SB)/8, $0x000000120000000c
-DATA LCDATA1<>+0x930(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x938(SB)/8, $0x0000000a00000004
-DATA LCDATA1<>+0x940(SB)/8, $0x0000001600000010
-DATA LCDATA1<>+0x948(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x950(SB)/8, $0x0000000e00000008
-DATA LCDATA1<>+0x958(SB)/8, $0x0000001a00000014
-DATA LCDATA1<>+0x960(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x968(SB)/8, $0x0000000f0000000a
-DATA LCDATA1<>+0x970(SB)/8, $0x0000001900000014
-DATA LCDATA1<>+0x978(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x980(SB)/8, $0x0000000d00000008
-DATA LCDATA1<>+0x988(SB)/8, $0x0000001700000012
-DATA LCDATA1<>+0x990(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x998(SB)/8, $0x0000000b00000006
-DATA LCDATA1<>+0x9a0(SB)/8, $0x0000001500000010
-DATA LCDATA1<>+0x9a8(SB)/8, $0x000000000000001a
-DATA LCDATA1<>+0x9b0(SB)/8, $0x0000000900000004
-DATA LCDATA1<>+0x9b8(SB)/8, $0x000000130000000e
-DATA LCDATA1<>+0x9c0(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x9c8(SB)/8, $0x0000000700000002
-DATA LCDATA1<>+0x9d0(SB)/8, $0x000000110000000c
-DATA LCDATA1<>+0x9d8(SB)/8, $0x0000001b00000016
-DATA LCDATA1<>+0x9e0(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x9e8(SB)/8, $0x0000000c00000008
-DATA LCDATA1<>+0x9f0(SB)/8, $0x0000001400000010
-DATA LCDATA1<>+0x9f8(SB)/8, $0x0000001c00000018
-DATA LCDATA1<>+0xa00(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0xa08(SB)/8, $0x0000000900000006
-DATA LCDATA1<>+0xa10(SB)/8, $0x0000000f0000000c
-DATA LCDATA1<>+0xa18(SB)/8, $0x0000001500000012
-DATA LCDATA1<>+0xa20(SB)/8, $0x0000001b00000018
-DATA LCDATA1<>+0xa28(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0xa30(SB)/8, $0x0000000700000004
-DATA LCDATA1<>+0xa38(SB)/8, $0x0000000d0000000a
-DATA LCDATA1<>+0xa40(SB)/8, $0x0000001300000010
-DATA LCDATA1<>+0xa48(SB)/8, $0x0000001900000016
-DATA LCDATA1<>+0xa50(SB)/8, $0x000000000000001c
-DATA LCDATA1<>+0xa58(SB)/8, $0x0000000500000002
-DATA LCDATA1<>+0xa60(SB)/8, $0x0000000b00000008
-DATA LCDATA1<>+0xa68(SB)/8, $0x000000110000000e
-DATA LCDATA1<>+0xa70(SB)/8, $0x0000001700000014
-DATA LCDATA1<>+0xa78(SB)/8, $0x0000001d0000001a
-DATA LCDATA1<>+0xa80(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0xa88(SB)/8, $0x0000000600000004
-DATA LCDATA1<>+0xa90(SB)/8, $0x0000000a00000008
-DATA LCDATA1<>+0xa98(SB)/8, $0x0000000e0000000c
-DATA LCDATA1<>+0xaa0(SB)/8, $0x0000001200000010
-DATA LCDATA1<>+0xaa8(SB)/8, $0x0000001600000014
-DATA LCDATA1<>+0xab0(SB)/8, $0x0000001a00000018
-DATA LCDATA1<>+0xab8(SB)/8, $0x0000001e0000001c
-DATA LCDATA1<>+0xac0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0xac8(SB)/8, $0x0000000300000002
-DATA LCDATA1<>+0xad0(SB)/8, $0x0000000500000004
-DATA LCDATA1<>+0xad8(SB)/8, $0x0000000700000006
-DATA LCDATA1<>+0xae0(SB)/8, $0x0000001900000018
-DATA LCDATA1<>+0xae8(SB)/8, $0x0000001b0000001a
-DATA LCDATA1<>+0xaf0(SB)/8, $0x0000001d0000001c
-DATA LCDATA1<>+0xaf8(SB)/8, $0x0000001f0000001e
-DATA LCDATA1<>+0xb00(SB)/8, $0x0000000700000008
-DATA LCDATA1<>+0xb08(SB)/8, $0x0000000500000006
-DATA LCDATA1<>+0xb10(SB)/8, $0x0000001900000018
-DATA LCDATA1<>+0xb18(SB)/8, $0x0000001b0000001a
-DATA LCDATA1<>+0xb20(SB)/8, $0x0000000e00000010
-DATA LCDATA1<>+0xb28(SB)/8, $0x0000000a0000000c
-DATA LCDATA1<>+0xb30(SB)/8, $0x0000001200000010
-DATA LCDATA1<>+0xb38(SB)/8, $0x0000001600000014
-DATA LCDATA1<>+0xb40(SB)/8, $0x0000000500000008
-DATA LCDATA1<>+0xb48(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xb50(SB)/8, $0x0000001b00000018
-DATA LCDATA1<>+0xb58(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xb60(SB)/8, $0x0000000d00000010
-DATA LCDATA1<>+0xb68(SB)/8, $0x000000070000000a
-DATA LCDATA1<>+0xb70(SB)/8, $0x0000001300000010
-DATA LCDATA1<>+0xb78(SB)/8, $0x0000001900000016
-DATA LCDATA1<>+0xb80(SB)/8, $0x0000001500000018
-DATA LCDATA1<>+0xb88(SB)/8, $0x0000000f00000012
-DATA LCDATA1<>+0xb90(SB)/8, $0x0000000b00000008
-DATA LCDATA1<>+0xb98(SB)/8, $0x000000110000000e
-DATA LCDATA1<>+0xba0(SB)/8, $0x0000001300000018
-DATA LCDATA1<>+0xba8(SB)/8, $0x000000090000000e
-DATA LCDATA1<>+0xbb0(SB)/8, $0x0000000d00000008
-DATA LCDATA1<>+0xbb8(SB)/8, $0x0000001700000012
-DATA LCDATA1<>+0xbc0(SB)/8, $0x0000000b00000010
-DATA LCDATA1<>+0xbc8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbd0(SB)/8, $0x0000001500000010
-DATA LCDATA1<>+0xbd8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbe0(SB)/8, $0x0000000900000010
-DATA LCDATA1<>+0xbe8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbf0(SB)/8, $0x0000001700000010
-DATA LCDATA1<>+0xbf8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc00(SB)/8, $0x0000001100000018
-DATA LCDATA1<>+0xc08(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc10(SB)/8, $0x0000000f00000008
-DATA LCDATA1<>+0xc18(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc20(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc28(SB)/8, $0x0000000800000000
-DATA LCDATA1<>+0xc30(SB)/8, $0x0000000f00000018
-DATA LCDATA1<>+0xc38(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc40(SB)/8, $0x0000001100000008
-DATA LCDATA1<>+0xc48(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc50(SB)/8, $0x0000000d00000018
-DATA LCDATA1<>+0xc58(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc60(SB)/8, $0x0000001300000008
-DATA LCDATA1<>+0xc68(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc70(SB)/8, $0x0000000800000000
-DATA LCDATA1<>+0xc78(SB)/8, $0x0000001800000010
-DATA LCDATA1<>+0xc80(SB)/8, $0x000000ff00ffffff
-GLOBL LCDATA1<>(SB), 8, $3208
-
-TEXT ·_unpack32_avx2(SB), $24-40
-
-	MOVQ in+0(FP), DI
-	MOVQ out+8(FP), SI
-	MOVQ batchSize+16(FP), DX
-	MOVQ nbits+24(FP), CX
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 0(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x8949; BYTE $0xf7 // mov    r15, rsi
-	WORD $0x8948; BYTE $0xfb // mov    rbx, rdi
-	LONG $0x1f728d44         // lea    r14d, [rdx + 31]
-	WORD $0xd285             // test    edx, edx
-	LONG $0xf2490f44         // cmovns    r14d, edx
-	LONG $0x05fec141         // sar    r14d, 5
-	WORD $0xf983; BYTE $0x0f // cmp    ecx, 15
-	JLE  LBB0_1
-	WORD $0xf983; BYTE $0x17 // cmp    ecx, 23
-	JLE  LBB0_49
-	WORD $0xf983; BYTE $0x1b // cmp    ecx, 27
-	JLE  LBB0_73
-	WORD $0xf983; BYTE $0x1d // cmp    ecx, 29
-	JLE  LBB0_85
-	WORD $0xf983; BYTE $0x1e // cmp    ecx, 30
-	JE   LBB0_99
-	WORD $0xf983; BYTE $0x1f // cmp    ecx, 31
-	JE   LBB0_96
-	WORD $0xf983; BYTE $0x20 // cmp    ecx, 32
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20 // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf4 // mov    r12d, r14d
-
-LBB0_95:
-	LONG $0x000080ba; BYTE $0x00 // mov    edx, 128
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
-	CALL clib·_memcpy(SB)
-	LONG $0x80eb8348             // sub    rbx, -128
-	LONG $0x80ef8349             // sub    r15, -128
-	LONG $0xffc48349             // add    r12, -1
-	JNE  LBB0_95
-	JMP  LBB0_147
-
-LBB0_1:
-	WORD $0xf983; BYTE $0x07             // cmp    ecx, 7
-	JG   LBB0_25
-	WORD $0xf983; BYTE $0x03             // cmp    ecx, 3
-	JG   LBB0_14
-	WORD $0xf983; BYTE $0x01             // cmp    ecx, 1
-	JG   LBB0_9
-	WORD $0xc985                         // test    ecx, ecx
-	JE   LBB0_144
-	WORD $0xf983; BYTE $0x01             // cmp    ecx, 1
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x0000f085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 240[rbp] /* [rip + .LCPI0_135] */
-	QUAD $0x00000ac08d6ffdc5             // vmovdqa    ymm1, yword 2752[rbp] /* [rip + .LCPI0_134] */
-	QUAD $0x00000120956ffdc5             // vmovdqa    ymm2, yword 288[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000001609d6ffdc5             // vmovdqa    ymm3, yword 352[rbp] /* [rip + .LCPI0_4] */
-	QUAD $0x00000ae0a56ffdc5             // vmovdqa    ymm4, yword 2784[rbp] /* [rip + .LCPI0_136] */
-
-LBB0_8:
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0x80ef8349               // sub    r15, -128
-	WORD $0x3948; BYTE $0xc8       // cmp    rax, rcx
-	JNE  LBB0_8
-	JMP  LBB0_147
-
-LBB0_49:
-	WORD $0xf983; BYTE $0x13       // cmp    ecx, 19
-	JG   LBB0_61
-	WORD $0xf983; BYTE $0x11       // cmp    ecx, 17
-	JG   LBB0_56
-	WORD $0xf983; BYTE $0x10       // cmp    ecx, 16
-	JE   LBB0_120
-	WORD $0xf983; BYTE $0x11       // cmp    ecx, 17
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x40c38348               // add    rbx, 64
-	LONG $0x597de2c4; WORD $0x7845 // vpbroadcastq    ymm0, qword 120[rbp] /* [rip + .LCPI0_76] */
-	QUAD $0x000005808d6ffdc5       // vmovdqa    ymm1, yword 1408[rbp] /* [rip + .LCPI0_75] */
-	QUAD $0x000005a0956ffdc5       // vmovdqa    ymm2, yword 1440[rbp] /* [rip + .LCPI0_77] */
-	QUAD $0x000005c09d6ffdc5       // vmovdqa    ymm3, yword 1472[rbp] /* [rip + .LCPI0_78] */
-	QUAD $0x000005e0a56ffdc5       // vmovdqa    ymm4, yword 1504[rbp] /* [rip + .LCPI0_79] */
-
-LBB0_55:
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	LONG $0xcaa40f41; BYTE $0x09   // shld    r10d, ecx, 9
-	WORD $0x738b; BYTE $0xc8       // mov    esi, dword [rbx - 56]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x0bf7a40f               // shld    edi, esi, 11
-	LONG $0xc04b8b44               // mov    r9d, dword [rbx - 64]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0xc8a40f44; BYTE $0x0f   // shld    eax, r9d, 15
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x0dd6a40f               // shld    esi, edx, 13
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x438b; BYTE $0xdc       // mov    eax, dword [rbx - 36]
-	LONG $0xe0538b44               // mov    r10d, dword [rbx - 32]
-	LONG $0xc2a40f41; BYTE $0x01   // shld    r10d, eax, 1
-	WORD $0x538b; BYTE $0xd8       // mov    edx, dword [rbx - 40]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x03d6a40f               // shld    esi, edx, 3
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	WORD $0x4b8b; BYTE $0xd4       // mov    ecx, dword [rbx - 44]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x07   // shld    edi, r9d, 7
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x05caa40f               // shld    edx, ecx, 5
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xf04b8b44               // mov    r9d, dword [rbx - 16]
-	LONG $0xec5b8b44               // mov    r11d, dword [rbx - 20]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x0a   // shld    edx, r11d, 10
-	LONG $0xe8538b44               // mov    r10d, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x0c   // shld    edi, r10d, 12
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x0ec6a40f               // shld    esi, eax, 14
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x10c1ac0f               // shrd    ecx, eax, 16
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x02   // shld    edx, r11d, 2
-	LONG $0xf8538b44               // mov    r10d, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x04   // shld    edi, r10d, 4
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x06f1a40f               // shld    ecx, esi, 6
-	LONG $0x18f0ac0f               // shrd    eax, esi, 24
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x44c38348               // add    rbx, 68
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_55
-	JMP  LBB0_147
-
-LBB0_25:
-	WORD $0xf983; BYTE $0x0b             // cmp    ecx, 11
-	JG   LBB0_37
-	WORD $0xf983; BYTE $0x09             // cmp    ecx, 9
-	JG   LBB0_32
-	WORD $0xf983; BYTE $0x08             // cmp    ecx, 8
-	JE   LBB0_132
-	WORD $0xf983; BYTE $0x09             // cmp    ecx, 9
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x20c38348                     // add    rbx, 32
-	QUAD $0x0000b885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 184[rbp] /* [rip + .LCPI0_105] */
-	QUAD $0x000008208d6ffdc5             // vmovdqa    ymm1, yword 2080[rbp] /* [rip + .LCPI0_104] */
-	QUAD $0x00000840956ffdc5             // vmovdqa    ymm2, yword 2112[rbp] /* [rip + .LCPI0_106] */
-	QUAD $0x000008609d6ffdc5             // vmovdqa    ymm3, yword 2144[rbp] /* [rip + .LCPI0_107] */
-	QUAD $0x00000880a56ffdc5             // vmovdqa    ymm4, yword 2176[rbp] /* [rip + .LCPI0_108] */
-
-LBB0_31:
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	LONG $0x01d6a40f               // shld    esi, edx, 1
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x05caa40f               // shld    edx, ecx, 5
-	LONG $0x2251e3c4; WORD $0x03ee // vpinsrd    xmm5, xmm5, esi, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x738b; BYTE $0xec       // mov    esi, dword [rbx - 20]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x02f7a40f               // shld    edi, esi, 2
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x03d6a40f               // shld    esi, edx, 3
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x07cfa40f               // shld    edi, ecx, 7
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	LONG $0x18d1ac0f               // shrd    ecx, edx, 24
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x24c38348               // add    rbx, 36
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_31
-	JMP  LBB0_147
-
-LBB0_73:
-	WORD $0xf983; BYTE $0x19       // cmp    ecx, 25
-	JG   LBB0_79
-	WORD $0xf983; BYTE $0x18       // cmp    ecx, 24
-	JE   LBB0_108
-	WORD $0xf983; BYTE $0x19       // cmp    ecx, 25
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x60c38348               // add    rbx, 96
-	LONG $0x597de2c4; WORD $0x4045 // vpbroadcastq    ymm0, qword 64[rbp] /* [rip + .LCPI0_38] */
-	QUAD $0x000002608d6f7dc5       // vmovdqa    ymm9, yword 608[rbp] /* [rip + .LCPI0_28] */
-	QUAD $0x00000300956f7dc5       // vmovdqa    ymm10, yword 768[rbp] /* [rip + .LCPI0_39] */
-	QUAD $0x00000be09d6f79c5       // vmovdqa    xmm11, oword 3040[rbp] /* [rip + .LCPI0_40] */
-	QUAD $0x00000bf0a56ff9c5       // vmovdqa    xmm4, oword 3056[rbp] /* [rip + .LCPI0_41] */
-	QUAD $0x00000320ad6ffdc5       // vmovdqa    ymm5, yword 800[rbp] /* [rip + .LCPI0_42] */
-	QUAD $0x00000c00b56ff9c5       // vmovdqa    xmm6, oword 3072[rbp] /* [rip + .LCPI0_43] */
-	QUAD $0x00000c10bd6ff9c5       // vmovdqa    xmm7, oword 3088[rbp] /* [rip + .LCPI0_44] */
-	QUAD $0x00000340856f7dc5       // vmovdqa    ymm8, yword 832[rbp] /* [rip + .LCPI0_45] */
-
-LBB0_78:
-	WORD $0x4b8b; BYTE $0xb4       // mov    ecx, dword [rbx - 76]
-	LONG $0xb84b8b44               // mov    r9d, dword [rbx - 72]
-	LONG $0xc9a40f41; BYTE $0x11   // shld    r9d, ecx, 17
-	WORD $0x738b; BYTE $0xb0       // mov    esi, dword [rbx - 80]
-	LONG $0x0af1a40f               // shld    ecx, esi, 10
-	WORD $0x7b8b; BYTE $0xac       // mov    edi, dword [rbx - 84]
-	LONG $0x03fea40f               // shld    esi, edi, 3
-	WORD $0x438b; BYTE $0xa8       // mov    eax, dword [rbx - 88]
-	LONG $0xcf6ef9c5               // vmovd    xmm1, edi
-	LONG $0x15c7a40f               // shld    edi, eax, 21
-	LONG $0xa0538b44               // mov    r10d, dword [rbx - 96]
-	WORD $0x538b; BYTE $0xa4       // mov    edx, dword [rbx - 92]
-	LONG $0x0ed0a40f               // shld    eax, edx, 14
-	LONG $0xd2a40f44; BYTE $0x07   // shld    edx, r10d, 7
-	LONG $0x2271e3c4; WORD $0x01ce // vpinsrd    xmm1, xmm1, esi, 1
-	LONG $0x6e79c1c4; BYTE $0xd2   // vmovd    xmm2, r10d
-	LONG $0x2271e3c4; WORD $0x02c9 // vpinsrd    xmm1, xmm1, ecx, 2
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xc9   // vpsrlvd    ymm1, ymm1, ymm9
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f // vmovdqu    yword [r15 - 96], ymm1
-	LONG $0xcc5b8b44               // mov    r11d, dword [rbx - 52]
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	LONG $0xd9a40f45; BYTE $0x09   // shld    r9d, r11d, 9
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	LONG $0xd3a40f45; BYTE $0x02   // shld    r11d, r10d, 2
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	LONG $0x14f7a40f               // shld    edi, esi, 20
-	WORD $0x538b; BYTE $0xb8       // mov    edx, dword [rbx - 72]
-	WORD $0x438b; BYTE $0xbc       // mov    eax, dword [rbx - 68]
-	LONG $0x0dcea40f               // shld    esi, ecx, 13
-	LONG $0x08c2ac0f               // shrd    edx, eax, 8
-	LONG $0x06c1a40f               // shld    ecx, eax, 6
-	LONG $0xcf6ef9c5               // vmovd    xmm1, edi
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2271c3c4; WORD $0x02cb // vpinsrd    xmm1, xmm1, r11d, 2
-	LONG $0x2269e3c4; WORD $0x01d0 // vpinsrd    xmm2, xmm2, eax, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2269e3c4; WORD $0x03d6 // vpinsrd    xmm2, xmm2, esi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xca   // vpsrlvd    ymm1, ymm1, ymm10
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f // vmovdqu    yword [r15 - 64], ymm1
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x01   // shld    r9d, eax, 1
-	WORD $0x538b; BYTE $0xe0       // mov    edx, dword [rbx - 32]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x13d6a40f               // shld    esi, edx, 19
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	LONG $0x0ccaa40f               // shld    edx, ecx, 12
-	LONG $0x05f9a40f               // shld    ecx, edi, 5
-	LONG $0x4b7efac5; BYTE $0xd0   // vmovq    xmm1, qword [rbx - 48]
-	LONG $0x4571c2c4; BYTE $0xd3   // vpsrlvd    xmm2, xmm1, xmm11
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271e3c4; WORD $0x01cf // vpinsrd    xmm1, xmm1, edi, 1
-	LONG $0x4771e2c4; BYTE $0xcc   // vpsllvd    xmm1, xmm1, xmm4
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02cf // vpinsrd    xmm1, xmm1, edi, 2
-	LONG $0x2271e3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, ecx, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575e2c4; BYTE $0xcd   // vpsrlvd    ymm1, ymm1, ymm5
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x12caa40f               // shld    edx, ecx, 18
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x0bf1a40f               // shld    ecx, esi, 11
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x04fea40f               // shld    esi, edi, 4
-	WORD $0xf889                   // mov    eax, edi
-	LONG $0xd0a40f44; BYTE $0x16   // shld    eax, r10d, 22
-	LONG $0x4b7efac5; BYTE $0xe8   // vmovq    xmm1, qword [rbx - 24]
-	LONG $0x4571e2c4; BYTE $0xd6   // vpsrlvd    xmm2, xmm1, xmm6
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0x4771e2c4; BYTE $0xcf   // vpsllvd    xmm1, xmm1, xmm7
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x2261e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm3, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02c8 // vpinsrd    xmm1, xmm1, eax, 2
-	LONG $0x2271e3c4; WORD $0x03cf // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575c2c4; BYTE $0xc8   // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f   // vmovdqu    yword [r15], ymm1
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x64c38348               // add    rbx, 100
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_78
-	JMP  LBB0_147
-
-LBB0_14:
-	WORD $0xf983; BYTE $0x05             // cmp    ecx, 5
-	JG   LBB0_20
-	WORD $0xf983; BYTE $0x04             // cmp    ecx, 4
-	JE   LBB0_138
-	WORD $0xf983; BYTE $0x05             // cmp    ecx, 5
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x10c38348                     // add    rbx, 16
-	QUAD $0x0000d085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 208[rbp] /* [rip + .LCPI0_120] */
-	QUAD $0x000009608d6ffdc5             // vmovdqa    ymm1, yword 2400[rbp] /* [rip + .LCPI0_119] */
-	QUAD $0x00000980956ffdc5             // vmovdqa    ymm2, yword 2432[rbp] /* [rip + .LCPI0_121] */
-	QUAD $0x000009a09d6ffdc5             // vmovdqa    ymm3, yword 2464[rbp] /* [rip + .LCPI0_122] */
-	QUAD $0x000009c0a56ffdc5             // vmovdqa    ymm4, yword 2496[rbp] /* [rip + .LCPI0_123] */
-
-LBB0_19:
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xf5   // vpbroadcastd    xmm6, xmm5
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xf8       // mov    edx, dword [rbx - 8]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x01caa40f               // shld    edx, ecx, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x138b                   // mov    edx, dword [rbx]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x03cea40f               // shld    esi, ecx, 3
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x5879e2c4; BYTE $0xf6   // vpbroadcastd    xmm6, xmm6
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x14c38348               // add    rbx, 20
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_19
-	JMP  LBB0_147
-
-LBB0_61:
-	WORD $0xf983; BYTE $0x15       // cmp    ecx, 21
-	JG   LBB0_67
-	WORD $0xf983; BYTE $0x14       // cmp    ecx, 20
-	JE   LBB0_114
-	WORD $0xf983; BYTE $0x15       // cmp    ecx, 21
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x50c38348               // add    rbx, 80
-	QUAD $0x00000420856f7dc5       // vmovdqa    ymm8, yword 1056[rbp] /* [rip + .LCPI0_58] */
-	LONG $0x597de2c4; WORD $0x584d // vpbroadcastq    ymm1, qword 88[rbp] /* [rip + .LCPI0_59] */
-	QUAD $0x00000440956ffdc5       // vmovdqa    ymm2, yword 1088[rbp] /* [rip + .LCPI0_60] */
-	QUAD $0x000004609d6ffdc5       // vmovdqa    ymm3, yword 1120[rbp] /* [rip + .LCPI0_61] */
-	QUAD $0x00000c50a56ff9c5       // vmovdqa    xmm4, oword 3152[rbp] /* [rip + .LCPI0_62] */
-	QUAD $0x00000c60ad6ff9c5       // vmovdqa    xmm5, oword 3168[rbp] /* [rip + .LCPI0_63] */
-	QUAD $0x00000480b56ffdc5       // vmovdqa    ymm6, yword 1152[rbp] /* [rip + .LCPI0_64] */
-
-LBB0_66:
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	LONG $0xc44b8b44               // mov    r9d, dword [rbx - 60]
-	LONG $0xc9a40f41; BYTE $0x0d   // shld    r9d, ecx, 13
-	LONG $0xbc5b8b44               // mov    r11d, dword [rbx - 68]
-	LONG $0xd9a40f44; BYTE $0x02   // shld    ecx, r11d, 2
-	WORD $0x7b8b; BYTE $0xb8       // mov    edi, dword [rbx - 72]
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	LONG $0x0cfea40f               // shld    esi, edi, 12
-	LONG $0xb0538b44               // mov    r10d, dword [rbx - 80]
-	WORD $0x438b; BYTE $0xb4       // mov    eax, dword [rbx - 76]
-	LONG $0x01c7a40f               // shld    edi, eax, 1
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0xd2a40f44; BYTE $0x0b   // shld    edx, r10d, 11
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x2241e3c4; WORD $0x01fa // vpinsrd    xmm7, xmm7, edx, 1
-	LONG $0x2279c3c4; WORD $0x01c3 // vpinsrd    xmm0, xmm0, r11d, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2279e3c4; WORD $0x02c1 // vpinsrd    xmm0, xmm0, ecx, 2
-	LONG $0x2241e3c4; WORD $0x03ff // vpinsrd    xmm7, xmm7, edi, 3
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457dc2c4; BYTE $0xc0   // vpsrlvd    ymm0, ymm0, ymm8
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa047 // vmovdqu    yword [r15 - 96], ymm0
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	LONG $0xd1a40f45; BYTE $0x05   // shld    r9d, r10d, 5
-	WORD $0x538b; BYTE $0xd0       // mov    edx, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x0fd6a40f               // shld    esi, edx, 15
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x04caa40f               // shld    edx, ecx, 4
-	LONG $0xc45b8b44               // mov    r11d, dword [rbx - 60]
-	WORD $0x438b; BYTE $0xc8       // mov    eax, dword [rbx - 56]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x0ec7a40f               // shld    edi, eax, 14
-	LONG $0xd8a40f44; BYTE $0x03   // shld    eax, r11d, 3
-	LONG $0x6e79c1c4; BYTE $0xc3   // vmovd    xmm0, r11d
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2279e3c4; WORD $0x01c0 // vpinsrd    xmm0, xmm0, eax, 1
-	LONG $0x2241e3c4; WORD $0x01fe // vpinsrd    xmm7, xmm7, esi, 1
-	LONG $0x2279e3c4; WORD $0x02c7 // vpinsrd    xmm0, xmm0, edi, 2
-	LONG $0x2241c3c4; WORD $0x02fa // vpinsrd    xmm7, xmm7, r10d, 2
-	LONG $0x2279e3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, ecx, 3
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc2   // vpsrlvd    ymm0, ymm0, ymm2
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc047 // vmovdqu    yword [r15 - 64], ymm0
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x12   // shld    r10d, ecx, 18
-	WORD $0x738b; BYTE $0xe4       // mov    esi, dword [rbx - 28]
-	LONG $0x07f1a40f               // shld    ecx, esi, 7
-	WORD $0x7b8b; BYTE $0xe0       // mov    edi, dword [rbx - 32]
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x11fea40f               // shld    esi, edi, 17
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	LONG $0x06d7a40f               // shld    edi, edx, 6
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2279e3c4; WORD $0x01c1 // vpinsrd    xmm0, xmm0, ecx, 1
-	LONG $0xf86ef9c5               // vmovd    xmm7, eax
-	LONG $0x2279c3c4; WORD $0x02c2 // vpinsrd    xmm0, xmm0, r10d, 2
-	LONG $0x2241e3c4; WORD $0x01fa // vpinsrd    xmm7, xmm7, edx, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02ff // vpinsrd    xmm7, xmm7, edi, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc3   // vpsrlvd    ymm0, ymm0, ymm3
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe047 // vmovdqu    yword [r15 - 32], ymm0
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0ac2a40f               // shld    edx, eax, 10
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x7b8b; BYTE $0xf8       // mov    edi, dword [rbx - 8]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x14f9a40f               // shld    ecx, edi, 20
-	LONG $0x09f7a40f               // shld    edi, esi, 9
-	LONG $0x437efac5; BYTE $0xec   // vmovq    xmm0, qword [rbx - 20]
-	LONG $0x4579e2c4; BYTE $0xfc   // vpsrlvd    xmm7, xmm0, xmm4
-	LONG $0xc070f9c5; BYTE $0xe5   // vpshufd    xmm0, xmm0, 229
-	LONG $0x2279e3c4; WORD $0x01c6 // vpinsrd    xmm0, xmm0, esi, 1
-	LONG $0x4779e2c4; BYTE $0xc5   // vpsllvd    xmm0, xmm0, xmm5
-	LONG $0xc0ebc1c5               // vpor    xmm0, xmm7, xmm0
-	LONG $0xf96ef9c5               // vmovd    xmm7, ecx
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2241e3c4; WORD $0x02fa // vpinsrd    xmm7, xmm7, edx, 2
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x2279e3c4; WORD $0x02c6 // vpinsrd    xmm0, xmm0, esi, 2
-	LONG $0x2279e3c4; WORD $0x03c7 // vpinsrd    xmm0, xmm0, edi, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc6   // vpsrlvd    ymm0, ymm0, ymm6
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x07   // vmovdqu    yword [r15], ymm0
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x54c38348               // add    rbx, 84
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_66
-	JMP  LBB0_147
-
-LBB0_37:
-	WORD $0xf983; BYTE $0x0d             // cmp    ecx, 13
-	JG   LBB0_43
-	WORD $0xf983; BYTE $0x0c             // cmp    ecx, 12
-	JE   LBB0_126
-	WORD $0xf983; BYTE $0x0d             // cmp    ecx, 13
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x30c38348                     // add    rbx, 48
-	QUAD $0x00009885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 152[rbp] /* [rip + .LCPI0_90] */
-	QUAD $0x000006c08d6ffdc5             // vmovdqa    ymm1, yword 1728[rbp] /* [rip + .LCPI0_89] */
-	QUAD $0x000006e0956ffdc5             // vmovdqa    ymm2, yword 1760[rbp] /* [rip + .LCPI0_91] */
-	QUAD $0x000007009d6ffdc5             // vmovdqa    ymm3, yword 1792[rbp] /* [rip + .LCPI0_92] */
-	QUAD $0x00000720a56ffdc5             // vmovdqa    ymm4, yword 1824[rbp] /* [rip + .LCPI0_93] */
-
-LBB0_42:
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xc1a40f41; BYTE $0x05   // shld    r9d, eax, 5
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x0cd1a40f               // shld    ecx, edx, 12
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x06f7a40f               // shld    edi, esi, 6
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0xd0a40f44; BYTE $0x0b   // shld    eax, r10d, 11
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xf2   // vmovd    xmm6, r10d
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xf44b8b44               // mov    r9d, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x02caa40f               // shld    edx, ecx, 2
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x09c1a40f               // shld    ecx, eax, 9
-	WORD $0xc789                   // mov    edi, eax
-	LONG $0x03f7a40f               // shld    edi, esi, 3
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x07caa40f               // shld    edx, ecx, 7
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x01f1a40f               // shld    ecx, esi, 1
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x18f7ac0f               // shrd    edi, esi, 24
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x34c38348               // add    rbx, 52
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_42
-	JMP  LBB0_147
-
-LBB0_85:
-	WORD $0xf983; BYTE $0x1c       // cmp    ecx, 28
-	JE   LBB0_102
-	WORD $0xf983; BYTE $0x1d       // cmp    ecx, 29
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x597de2c4; WORD $0x1045 // vpbroadcastq    ymm0, qword 16[rbp] /* [rip + .LCPI0_12] */
-	QUAD $0x00000b40856f79c5       // vmovdqa    xmm8, oword 2880[rbp] /* [rip + .LCPI0_13] */
-	QUAD $0x00000b50956f79c5       // vmovdqa    xmm10, oword 2896[rbp] /* [rip + .LCPI0_14] */
-	QUAD $0x000001c09d6f7dc5       // vmovdqa    ymm11, yword 448[rbp] /* [rip + .LCPI0_15] */
-	QUAD $0x00000b60a56f79c5       // vmovdqa    xmm12, oword 2912[rbp] /* [rip + .LCPI0_16] */
-	QUAD $0x00000b70ad6ff9c5       // vmovdqa    xmm5, oword 2928[rbp] /* [rip + .LCPI0_17] */
-	QUAD $0x000001e0b56ffdc5       // vmovdqa    ymm6, yword 480[rbp] /* [rip + .LCPI0_18] */
-	QUAD $0x00000b80bd6ff9c5       // vmovdqa    xmm7, oword 2944[rbp] /* [rip + .LCPI0_19] */
-	QUAD $0x00000b908d6ff9c5       // vmovdqa    xmm1, oword 2960[rbp] /* [rip + .LCPI0_20] */
-	QUAD $0x000002008d6f7dc5       // vmovdqa    ymm9, yword 512[rbp] /* [rip + .LCPI0_21] */
-
-LBB0_89:
-	LONG $0x185b8b44               // mov    r11d, dword [rbx + 24]
-	LONG $0x1c4b8b44               // mov    r9d, dword [rbx + 28]
-	LONG $0xd9a40f45; BYTE $0x15   // shld    r9d, r11d, 21
-	WORD $0x738b; BYTE $0x14       // mov    esi, dword [rbx + 20]
-	LONG $0xf3a40f41; BYTE $0x12   // shld    r11d, esi, 18
-	WORD $0x7b8b; BYTE $0x10       // mov    edi, dword [rbx + 16]
-	LONG $0x0ffea40f               // shld    esi, edi, 15
-	WORD $0x438b; BYTE $0x0c       // mov    eax, dword [rbx + 12]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	WORD $0x538b; BYTE $0x08       // mov    edx, dword [rbx + 8]
-	LONG $0x09d0a40f               // shld    eax, edx, 9
-	WORD $0x8b44; BYTE $0x13       // mov    r10d, dword [rbx]
-	WORD $0x4b8b; BYTE $0x04       // mov    ecx, dword [rbx + 4]
-	LONG $0x06caa40f               // shld    edx, ecx, 6
-	LONG $0xd1a40f44; BYTE $0x03   // shld    ecx, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xd2   // vmovd    xmm2, r10d
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261c3c4; WORD $0x02db // vpinsrd    xmm3, xmm3, r11d, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	WORD $0x438b; BYTE $0x34       // mov    eax, dword [rbx + 52]
-	LONG $0x384b8b44               // mov    r9d, dword [rbx + 56]
-	LONG $0xc1a40f41; BYTE $0x0d   // shld    r9d, eax, 13
-	WORD $0x538b; BYTE $0x30       // mov    edx, dword [rbx + 48]
-	LONG $0x0ad0a40f               // shld    eax, edx, 10
-	WORD $0x738b; BYTE $0x2c       // mov    esi, dword [rbx + 44]
-	LONG $0x07f2a40f               // shld    edx, esi, 7
-	WORD $0x7b8b; BYTE $0x24       // mov    edi, dword [rbx + 36]
-	WORD $0x4b8b; BYTE $0x28       // mov    ecx, dword [rbx + 40]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0x01f9a40f               // shld    ecx, edi, 1
-	LONG $0x537efac5; BYTE $0x1c   // vmovq    xmm2, qword [rbx + 28]
-	LONG $0x4569c2c4; BYTE $0xd8   // vpsrlvd    xmm3, xmm2, xmm8
-	LONG $0xd270f9c5; BYTE $0xe5   // vpshufd    xmm2, xmm2, 229
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x4769c2c4; BYTE $0xd2   // vpsllvd    xmm2, xmm2, xmm10
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d7 // vpinsrd    xmm2, xmm2, edi, 2
-	LONG $0x2269e3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, ecx, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456dc2c4; BYTE $0xd3   // vpsrlvd    ymm2, ymm2, ymm11
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	WORD $0x438b; BYTE $0x50       // mov    eax, dword [rbx + 80]
-	WORD $0x4b8b; BYTE $0x54       // mov    ecx, dword [rbx + 84]
-	LONG $0x05c1a40f               // shld    ecx, eax, 5
-	WORD $0x538b; BYTE $0x4c       // mov    edx, dword [rbx + 76]
-	WORD $0x738b; BYTE $0x48       // mov    esi, dword [rbx + 72]
-	LONG $0x02d0a40f               // shld    eax, edx, 2
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x1cf7a40f               // shld    edi, esi, 28
-	LONG $0x536ffac5; BYTE $0x38   // vmovdqu    xmm2, oword [rbx + 56]
-	LONG $0x4569c2c4; BYTE $0xdc   // vpsrlvd    xmm3, xmm2, xmm12
-	LONG $0xd270f9c5; BYTE $0xf9   // vpshufd    xmm2, xmm2, 249
-	LONG $0x2269e3c4; WORD $0x03d6 // vpinsrd    xmm2, xmm2, esi, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x4769e2c4; BYTE $0xd5   // vpsllvd    xmm2, xmm2, xmm5
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x456de2c4; BYTE $0xd6   // vpsrlvd    ymm2, ymm2, ymm6
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x438b; BYTE $0x70       // mov    eax, dword [rbx + 112]
-	WORD $0x4b8b; BYTE $0x6c       // mov    ecx, dword [rbx + 108]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1acaa40f               // shld    edx, ecx, 26
-	WORD $0x738b; BYTE $0x68       // mov    esi, dword [rbx + 104]
-	LONG $0x17f1a40f               // shld    ecx, esi, 23
-	WORD $0x7b8b; BYTE $0x64       // mov    edi, dword [rbx + 100]
-	LONG $0x536ffac5; BYTE $0x54   // vmovdqu    xmm2, oword [rbx + 84]
-	LONG $0x14fea40f               // shld    esi, edi, 20
-	LONG $0x4569e2c4; BYTE $0xdf   // vpsrlvd    xmm3, xmm2, xmm7
-	LONG $0xd270f9c5; BYTE $0xf9   // vpshufd    xmm2, xmm2, 249
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x4769e2c4; BYTE $0xd1   // vpsllvd    xmm2, xmm2, xmm1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e0 // vpinsrd    xmm4, xmm4, eax, 3
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x456dc2c4; BYTE $0xd1   // vpsrlvd    ymm2, ymm2, ymm9
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x74c38348               // add    rbx, 116
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_89
-	JMP  LBB0_147
-
-LBB0_9:
-	WORD $0xf983; BYTE $0x02             // cmp    ecx, 2
-	JE   LBB0_141
-	WORD $0xf983; BYTE $0x03             // cmp    ecx, 3
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	QUAD $0x0000e085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 224[rbp] /* [rip + .LCPI0_127] */
-	QUAD $0x00000a008d6ffdc5             // vmovdqa    ymm1, yword 2560[rbp] /* [rip + .LCPI0_126] */
-	QUAD $0x00000a20956ffdc5             // vmovdqa    ymm2, yword 2592[rbp] /* [rip + .LCPI0_128] */
-	QUAD $0x00000a409d6ffdc5             // vmovdqa    ymm3, yword 2624[rbp] /* [rip + .LCPI0_129] */
-	QUAD $0x00000a60a56ffdc5             // vmovdqa    ymm4, yword 2656[rbp] /* [rip + .LCPI0_130] */
-
-LBB0_13:
-	LONG $0x587de2c4; BYTE $0x2b   // vpbroadcastd    ymm5, dword [rbx]
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x0b8b                   // mov    ecx, dword [rbx]
-	WORD $0x538b; BYTE $0x04       // mov    edx, dword [rbx + 4]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x5879e2c4; BYTE $0xf6   // vpbroadcastd    xmm6, xmm6
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x4b8b; BYTE $0x04       // mov    ecx, dword [rbx + 4]
-	WORD $0x538b; BYTE $0x08       // mov    edx, dword [rbx + 8]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x01cea40f               // shld    esi, ecx, 1
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xf5   // vpbroadcastd    xmm6, xmm5
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	LONG $0x587de2c4; WORD $0x086b // vpbroadcastd    ymm5, dword [rbx + 8]
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x0cc38348               // add    rbx, 12
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_13
-	JMP  LBB0_147
-
-LBB0_56:
-	WORD $0xf983; BYTE $0x12       // cmp    ecx, 18
-	JE   LBB0_117
-	WORD $0xf983; BYTE $0x13       // cmp    ecx, 19
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x48c38348               // add    rbx, 72
-	LONG $0x597de2c4; WORD $0x6845 // vpbroadcastq    ymm0, qword 104[rbp] /* [rip + .LCPI0_68] */
-	QUAD $0x000004c08d6ffdc5       // vmovdqa    ymm1, yword 1216[rbp] /* [rip + .LCPI0_67] */
-	QUAD $0x000004e0956ffdc5       // vmovdqa    ymm2, yword 1248[rbp] /* [rip + .LCPI0_69] */
-	QUAD $0x000005009d6ffdc5       // vmovdqa    ymm3, yword 1280[rbp] /* [rip + .LCPI0_70] */
-	QUAD $0x00000520a56ffdc5       // vmovdqa    ymm4, yword 1312[rbp] /* [rip + .LCPI0_71] */
-
-LBB0_60:
-	LONG $0xc84b8b44               // mov    r9d, dword [rbx - 56]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x0ed6a40f               // shld    esi, edx, 14
-	WORD $0x7b8b; BYTE $0xc0       // mov    edi, dword [rbx - 64]
-	LONG $0xb8538b44               // mov    r10d, dword [rbx - 72]
-	LONG $0x01faa40f               // shld    edx, edi, 1
-	WORD $0x438b; BYTE $0xbc       // mov    eax, dword [rbx - 68]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x0d   // shld    ecx, r10d, 13
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x07c7a40f               // shld    edi, eax, 7
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x6e79c1c4; BYTE $0xf2   // vmovd    xmm6, r10d
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f7 // vpinsrd    xmm6, xmm6, edi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xd8538b44               // mov    r10d, dword [rbx - 40]
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xd1a40f45; BYTE $0x03   // shld    r9d, r10d, 3
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x09d6a40f               // shld    esi, edx, 9
-	WORD $0x7b8b; BYTE $0xd0       // mov    edi, dword [rbx - 48]
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x0ffaa40f               // shld    edx, edi, 15
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	LONG $0x02c7a40f               // shld    edi, eax, 2
-	LONG $0x18c1ac0f               // shrd    ecx, eax, 24
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2251c3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, r10d, 2
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	LONG $0xf04b8b44               // mov    r9d, dword [rbx - 16]
-	LONG $0xd1a40f45; BYTE $0x0b   // shld    r9d, r10d, 11
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0xe45b8b44               // mov    r11d, dword [rbx - 28]
-	LONG $0x11d6a40f               // shld    esi, edx, 17
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	WORD $0x438b; BYTE $0xe0       // mov    eax, dword [rbx - 32]
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x0ac7a40f               // shld    edi, eax, 10
-	LONG $0x10c1ac0f               // shrd    ecx, eax, 16
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2251c3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, r10d, 2
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249c3c4; WORD $0x03f3 // vpinsrd    xmm6, xmm6, r11d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x06   // shld    edx, r11d, 6
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x0ccfa40f               // shld    edi, ecx, 12
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0xce89                   // mov    esi, ecx
-	LONG $0x12c6a40f               // shld    esi, eax, 18
-	LONG $0xd0a40f44; BYTE $0x05   // shld    eax, r10d, 5
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x4cc38348               // add    rbx, 76
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_60
-	JMP  LBB0_147
-
-LBB0_32:
-	WORD $0xf983; BYTE $0x0a             // cmp    ecx, 10
-	JE   LBB0_129
-	WORD $0xf983; BYTE $0x0b             // cmp    ecx, 11
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x28c38348                     // add    rbx, 40
-	QUAD $0x0000a885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 168[rbp] /* [rip + .LCPI0_97] */
-	QUAD $0x000007608d6ffdc5             // vmovdqa    ymm1, yword 1888[rbp] /* [rip + .LCPI0_96] */
-	QUAD $0x00000780956ffdc5             // vmovdqa    ymm2, yword 1920[rbp] /* [rip + .LCPI0_98] */
-	QUAD $0x000007a09d6ffdc5             // vmovdqa    ymm3, yword 1952[rbp] /* [rip + .LCPI0_99] */
-	QUAD $0x000007c0a56ffdc5             // vmovdqa    ymm4, yword 1984[rbp] /* [rip + .LCPI0_100] */
-
-LBB0_36:
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xd8       // mov    edx, dword [rbx - 40]
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x09f7a40f               // shld    edi, esi, 9
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x0ad0a40f               // shld    eax, edx, 10
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x06caa40f               // shld    edx, ecx, 6
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0x7b8b; BYTE $0xe4       // mov    edi, dword [rbx - 28]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x07f9a40f               // shld    ecx, edi, 7
-	LONG $0x18feac0f               // shrd    esi, edi, 24
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	LONG $0x03c1a40f               // shld    ecx, eax, 3
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	WORD $0x738b; BYTE $0xf0       // mov    esi, dword [rbx - 16]
-	WORD $0xc789                   // mov    edi, eax
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	WORD $0xf289                   // mov    edx, esi
-	LONG $0xcaa40f44; BYTE $0x05   // shld    edx, r9d, 5
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x01d6a40f               // shld    esi, edx, 1
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x2cc38348               // add    rbx, 44
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_36
-	JMP  LBB0_147
-
-LBB0_79:
-	WORD $0xf983; BYTE $0x1a       // cmp    ecx, 26
-	JE   LBB0_105
-	WORD $0xf983; BYTE $0x1b       // cmp    ecx, 27
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x68c38348               // add    rbx, 104
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_25] */
-	QUAD $0x000002408d6f7dc5       // vmovdqa    ymm9, yword 576[rbp] /* [rip + .LCPI0_24] */
-	QUAD $0x00000ba0956f79c5       // vmovdqa    xmm10, oword 2976[rbp] /* [rip + .LCPI0_26] */
-	QUAD $0x00000bb09d6f79c5       // vmovdqa    xmm11, oword 2992[rbp] /* [rip + .LCPI0_27] */
-	QUAD $0x00000260a56ffdc5       // vmovdqa    ymm4, yword 608[rbp] /* [rip + .LCPI0_28] */
-	QUAD $0x00000bc0ad6ff9c5       // vmovdqa    xmm5, oword 3008[rbp] /* [rip + .LCPI0_29] */
-	QUAD $0x00000bd0b56ff9c5       // vmovdqa    xmm6, oword 3024[rbp] /* [rip + .LCPI0_30] */
-	QUAD $0x00000280bd6ffdc5       // vmovdqa    ymm7, yword 640[rbp] /* [rip + .LCPI0_31] */
-	QUAD $0x000002a0856f7dc5       // vmovdqa    ymm8, yword 672[rbp] /* [rip + .LCPI0_32] */
-
-LBB0_83:
-	LONG $0xac538b44               // mov    r10d, dword [rbx - 84]
-	LONG $0xb04b8b44               // mov    r9d, dword [rbx - 80]
-	LONG $0xd1a40f45; BYTE $0x03   // shld    r9d, r10d, 3
-	WORD $0x738b; BYTE $0xa8       // mov    esi, dword [rbx - 88]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x19f7a40f               // shld    edi, esi, 25
-	WORD $0x438b; BYTE $0xa4       // mov    eax, dword [rbx - 92]
-	LONG $0x14c6a40f               // shld    esi, eax, 20
-	WORD $0x538b; BYTE $0xa0       // mov    edx, dword [rbx - 96]
-	LONG $0x0fd0a40f               // shld    eax, edx, 15
-	LONG $0x985b8b44               // mov    r11d, dword [rbx - 104]
-	WORD $0x4b8b; BYTE $0x9c       // mov    ecx, dword [rbx - 100]
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0xd9a40f44; BYTE $0x05   // shld    ecx, r11d, 5
-	LONG $0x6e79c1c4; BYTE $0xcb   // vmovd    xmm1, r11d
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2271e3c4; WORD $0x01c9 // vpinsrd    xmm1, xmm1, ecx, 1
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x2271e3c4; WORD $0x02ca // vpinsrd    xmm1, xmm1, edx, 2
-	LONG $0x2269c3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, r10d, 2
-	LONG $0x2271e3c4; WORD $0x03c8 // vpinsrd    xmm1, xmm1, eax, 3
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575c2c4; BYTE $0xc9   // vpsrlvd    ymm1, ymm1, ymm9
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f // vmovdqu    yword [r15 - 96], ymm1
-	WORD $0x438b; BYTE $0xc8       // mov    eax, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x0bc1a40f               // shld    ecx, eax, 11
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0x738b; BYTE $0xc0       // mov    esi, dword [rbx - 64]
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0x01f2a40f               // shld    edx, esi, 1
-	LONG $0x4b6ffac5; BYTE $0xb0   // vmovdqu    xmm1, oword [rbx - 80]
-	LONG $0x4571c2c4; BYTE $0xd2   // vpsrlvd    xmm2, xmm1, xmm10
-	LONG $0xc970f9c5; BYTE $0xf9   // vpshufd    xmm1, xmm1, 249
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2271e3c4; WORD $0x03ce // vpinsrd    xmm1, xmm1, esi, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x4771c2c4; BYTE $0xcb   // vpsllvd    xmm1, xmm1, xmm11
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x4575e2c4; BYTE $0xcc   // vpsrlvd    ymm1, ymm1, ymm4
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f // vmovdqu    yword [r15 - 64], ymm1
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x13   // shld    r9d, eax, 19
-	WORD $0x538b; BYTE $0xe0       // mov    edx, dword [rbx - 32]
-	LONG $0x0ed0a40f               // shld    eax, edx, 14
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0x09f2a40f               // shld    edx, esi, 9
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x04fea40f               // shld    esi, edi, 4
-	WORD $0xf989                   // mov    ecx, edi
-	LONG $0xd1a40f44; BYTE $0x1a   // shld    ecx, r10d, 26
-	LONG $0x4b7efac5; BYTE $0xcc   // vmovq    xmm1, qword [rbx - 52]
-	LONG $0x4571e2c4; BYTE $0xd5   // vpsrlvd    xmm2, xmm1, xmm5
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0x4771e2c4; BYTE $0xce   // vpsllvd    xmm1, xmm1, xmm6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x2261e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02c9 // vpinsrd    xmm1, xmm1, ecx, 2
-	LONG $0x2271e3c4; WORD $0x03cf // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575e2c4; BYTE $0xcf   // vpsrlvd    ymm1, ymm1, ymm7
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xdaa40f45; BYTE $0x16   // shld    r10d, r11d, 22
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xf3a40f41; BYTE $0x11   // shld    r11d, esi, 17
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0cfea40f               // shld    esi, edi, 12
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	LONG $0x07c7a40f               // shld    edi, eax, 7
-	LONG $0x08caac0f               // shrd    edx, ecx, 8
-	LONG $0x02c8a40f               // shld    eax, ecx, 2
-	LONG $0xce6ef9c5               // vmovd    xmm1, esi
-	LONG $0x2271c3c4; WORD $0x01cb // vpinsrd    xmm1, xmm1, r11d, 1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2271c3c4; WORD $0x02ca // vpinsrd    xmm1, xmm1, r10d, 2
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xc8   // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f   // vmovdqu    yword [r15], ymm1
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x6cc38348               // add    rbx, 108
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_83
-	JMP  LBB0_147
-
-LBB0_20:
-	WORD $0xf983; BYTE $0x06             // cmp    ecx, 6
-	JE   LBB0_135
-	WORD $0xf983; BYTE $0x07             // cmp    ecx, 7
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x18c38348                     // add    rbx, 24
-	QUAD $0x0000c085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 192[rbp] /* [rip + .LCPI0_112] */
-	QUAD $0x000008a08d6ffdc5             // vmovdqa    ymm1, yword 2208[rbp] /* [rip + .LCPI0_111] */
-	QUAD $0x000008c0956ffdc5             // vmovdqa    ymm2, yword 2240[rbp] /* [rip + .LCPI0_113] */
-	QUAD $0x000008e09d6ffdc5             // vmovdqa    ymm3, yword 2272[rbp] /* [rip + .LCPI0_114] */
-	QUAD $0x00000900a56ffdc5             // vmovdqa    ymm4, yword 2304[rbp] /* [rip + .LCPI0_115] */
-
-LBB0_24:
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0x738b; BYTE $0xf0       // mov    esi, dword [rbx - 16]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x05f7a40f               // shld    edi, esi, 5
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x01d0a40f               // shld    eax, edx, 1
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xf8       // mov    edx, dword [rbx - 8]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x06d6a40f               // shld    esi, edx, 6
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x0b8b                   // mov    ecx, dword [rbx]
-	WORD $0xca89                   // mov    edx, ecx
-	LONG $0x03c2a40f               // shld    edx, eax, 3
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x1cc38348               // add    rbx, 28
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_24
-	JMP  LBB0_147
-
-LBB0_67:
-	WORD $0xf983; BYTE $0x16       // cmp    ecx, 22
-	JE   LBB0_111
-	WORD $0xf983; BYTE $0x17       // cmp    ecx, 23
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x58c38348               // add    rbx, 88
-	QUAD $0x00000360856f7dc5       // vmovdqa    ymm8, yword 864[rbp] /* [rip + .LCPI0_48] */
-	LONG $0x597de2c4; WORD $0x484d // vpbroadcastq    ymm1, qword 72[rbp] /* [rip + .LCPI0_49] */
-	QUAD $0x00000c30956ff9c5       // vmovdqa    xmm2, oword 3120[rbp] /* [rip + .LCPI0_50] */
-	QUAD $0x00000c409d6ff9c5       // vmovdqa    xmm3, oword 3136[rbp] /* [rip + .LCPI0_51] */
-	QUAD $0x00000380a56ffdc5       // vmovdqa    ymm4, yword 896[rbp] /* [rip + .LCPI0_52] */
-	QUAD $0x000003a0ad6ffdc5       // vmovdqa    ymm5, yword 928[rbp] /* [rip + .LCPI0_53] */
-	QUAD $0x000003c0b56ffdc5       // vmovdqa    ymm6, yword 960[rbp] /* [rip + .LCPI0_54] */
-
-LBB0_71:
-	LONG $0xbc4b8b44               // mov    r9d, dword [rbx - 68]
-	WORD $0x538b; BYTE $0xb8       // mov    edx, dword [rbx - 72]
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xd3a40f41; BYTE $0x16   // shld    r11d, edx, 22
-	WORD $0x7b8b; BYTE $0xb4       // mov    edi, dword [rbx - 76]
-	LONG $0x0dfaa40f               // shld    edx, edi, 13
-	WORD $0x738b; BYTE $0xb0       // mov    esi, dword [rbx - 80]
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xa8538b44               // mov    r10d, dword [rbx - 88]
-	WORD $0x4b8b; BYTE $0xac       // mov    ecx, dword [rbx - 84]
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x12c8a40f               // shld    eax, ecx, 18
-	LONG $0xd1a40f44; BYTE $0x09   // shld    ecx, r10d, 9
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0xc76ef9c5               // vmovd    xmm0, edi
-	LONG $0x2241e3c4; WORD $0x01f9 // vpinsrd    xmm7, xmm7, ecx, 1
-	LONG $0x2279e3c4; WORD $0x01c2 // vpinsrd    xmm0, xmm0, edx, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2279c3c4; WORD $0x02c3 // vpinsrd    xmm0, xmm0, r11d, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457dc2c4; BYTE $0xc0   // vpsrlvd    ymm0, ymm0, ymm8
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa047 // vmovdqu    yword [r15 - 96], ymm0
-	WORD $0x438b; BYTE $0xd0       // mov    eax, dword [rbx - 48]
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	LONG $0xc1a40f41; BYTE $0x07   // shld    r9d, eax, 7
-	WORD $0x538b; BYTE $0xcc       // mov    edx, dword [rbx - 52]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x15d6a40f               // shld    esi, edx, 21
-	WORD $0x7b8b; BYTE $0xc4       // mov    edi, dword [rbx - 60]
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	LONG $0x0ccaa40f               // shld    edx, ecx, 12
-	LONG $0x03f9a40f               // shld    ecx, edi, 3
-	LONG $0x437efac5; BYTE $0xbc   // vmovq    xmm0, qword [rbx - 68]
-	LONG $0x4579e2c4; BYTE $0xfa   // vpsrlvd    xmm7, xmm0, xmm2
-	LONG $0xc070f9c5; BYTE $0xe5   // vpshufd    xmm0, xmm0, 229
-	LONG $0x2279e3c4; WORD $0x01c7 // vpinsrd    xmm0, xmm0, edi, 1
-	LONG $0x4779e2c4; BYTE $0xc3   // vpsllvd    xmm0, xmm0, xmm3
-	LONG $0xc0ebc1c5               // vpor    xmm0, xmm7, xmm0
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2241e3c4; WORD $0x01fe // vpinsrd    xmm7, xmm7, esi, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x2279e3c4; WORD $0x02c7 // vpinsrd    xmm0, xmm0, edi, 2
-	LONG $0x2279e3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, ecx, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc4   // vpsrlvd    ymm0, ymm0, ymm4
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc047 // vmovdqu    yword [r15 - 64], ymm0
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xd9a40f45; BYTE $0x0f   // shld    r9d, r11d, 15
-	LONG $0xe4538b44               // mov    r10d, dword [rbx - 28]
-	LONG $0xd3a40f45; BYTE $0x06   // shld    r11d, r10d, 6
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	LONG $0x14f7a40f               // shld    edi, esi, 20
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	LONG $0x0bcea40f               // shld    esi, ecx, 11
-	LONG $0x10c2ac0f               // shrd    edx, eax, 16
-	LONG $0x02c1a40f               // shld    ecx, eax, 2
-	LONG $0xc76ef9c5               // vmovd    xmm0, edi
-	LONG $0x2279c3c4; WORD $0x01c2 // vpinsrd    xmm0, xmm0, r10d, 1
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2279c3c4; WORD $0x02c3 // vpinsrd    xmm0, xmm0, r11d, 2
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02f9 // vpinsrd    xmm7, xmm7, ecx, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc5   // vpsrlvd    ymm0, ymm0, ymm5
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe047 // vmovdqu    yword [r15 - 32], ymm0
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0ecaa40f               // shld    edx, ecx, 14
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x05f1a40f               // shld    ecx, esi, 5
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x13fea40f               // shld    esi, edi, 19
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0ac7a40f               // shld    edi, eax, 10
-	LONG $0xd0a40f44; BYTE $0x01   // shld    eax, r10d, 1
-	LONG $0x2279e3c4; WORD $0x01c1 // vpinsrd    xmm0, xmm0, ecx, 1
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0x2279e3c4; WORD $0x02c2 // vpinsrd    xmm0, xmm0, edx, 2
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02ff // vpinsrd    xmm7, xmm7, edi, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc6   // vpsrlvd    ymm0, ymm0, ymm6
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x07   // vmovdqu    yword [r15], ymm0
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x5cc38348               // add    rbx, 92
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_71
-	JMP  LBB0_147
-
-LBB0_43:
-	WORD $0xf983; BYTE $0x0e             // cmp    ecx, 14
-	JE   LBB0_123
-	WORD $0xf983; BYTE $0x0f             // cmp    ecx, 15
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x38c38348                     // add    rbx, 56
-	QUAD $0x00008885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 136[rbp] /* [rip + .LCPI0_82] */
-	QUAD $0x000006008d6ffdc5             // vmovdqa    ymm1, yword 1536[rbp] /* [rip + .LCPI0_81] */
-	QUAD $0x00000620956ffdc5             // vmovdqa    ymm2, yword 1568[rbp] /* [rip + .LCPI0_83] */
-	QUAD $0x000006409d6ffdc5             // vmovdqa    ymm3, yword 1600[rbp] /* [rip + .LCPI0_84] */
-	QUAD $0x00000660a56ffdc5             // vmovdqa    ymm4, yword 1632[rbp] /* [rip + .LCPI0_85] */
-
-LBB0_47:
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	WORD $0x438b; BYTE $0xd0       // mov    eax, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x06c6a40f               // shld    esi, eax, 6
-	LONG $0xcc538b44               // mov    r10d, dword [rbx - 52]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0xd2a40f44; BYTE $0x04   // shld    edx, r10d, 4
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x0e   // shld    edx, r11d, 14
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x0c   // shld    edi, r10d, 12
-	WORD $0x438b; BYTE $0xd4       // mov    eax, dword [rbx - 44]
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0af1a40f               // shld    ecx, esi, 10
-	LONG $0x18f0ac0f               // shrd    eax, esi, 24
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0xf4538b44               // mov    r10d, dword [rbx - 12]
-	LONG $0xc2a40f41; BYTE $0x07   // shld    r10d, eax, 7
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x05d6a40f               // shld    esi, edx, 5
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x01   // shld    edi, r9d, 1
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x03caa40f               // shld    edx, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0dcaa40f               // shld    edx, ecx, 13
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x0bc1a40f               // shld    ecx, eax, 11
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x09fea40f               // shld    esi, edi, 9
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251c3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, r9d, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x3cc38348               // add    rbx, 60
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_47
-	JMP  LBB0_147
-
-LBB0_96:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x60c78349               // add    r15, 96
-	QUAD $0x00000100856f7dc5       // vmovdqa    ymm8, yword 256[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000001208d6f7dc5       // vmovdqa    ymm9, yword 288[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x00000140956f7dc5       // vmovdqa    ymm10, yword 320[rbp] /* [rip + .LCPI0_3] */
-	QUAD $0x00000160a56ffdc5       // vmovdqa    ymm4, yword 352[rbp] /* [rip + .LCPI0_4] */
-	QUAD $0x00000b00ad6ff9c5       // vmovdqa    xmm5, oword 2816[rbp] /* [rip + .LCPI0_5] */
-	QUAD $0x00000b10b56ff9c5       // vmovdqa    xmm6, oword 2832[rbp] /* [rip + .LCPI0_6] */
-	QUAD $0x00000180bd6ffdc5       // vmovdqa    ymm7, yword 384[rbp] /* [rip + .LCPI0_7] */
-
-LBB0_98:
-	LONG $0x18538b44                           // mov    r10d, dword [rbx + 24]
-	LONG $0x1c4b8b44                           // mov    r9d, dword [rbx + 28]
-	LONG $0xd1a40f45; BYTE $0x07               // shld    r9d, r10d, 7
-	WORD $0x738b; BYTE $0x14                   // mov    esi, dword [rbx + 20]
-	LONG $0xf2a40f41; BYTE $0x06               // shld    r10d, esi, 6
-	WORD $0x7b8b; BYTE $0x10                   // mov    edi, dword [rbx + 16]
-	LONG $0x05fea40f                           // shld    esi, edi, 5
-	WORD $0x438b; BYTE $0x0c                   // mov    eax, dword [rbx + 12]
-	LONG $0x04c7a40f                           // shld    edi, eax, 4
-	WORD $0x538b; BYTE $0x08                   // mov    edx, dword [rbx + 8]
-	LONG $0x03d0a40f                           // shld    eax, edx, 3
-	WORD $0x4b8b; BYTE $0x04                   // mov    ecx, dword [rbx + 4]
-	LONG $0x02caa40f                           // shld    edx, ecx, 2
-	WORD $0x8b44; BYTE $0x1b                   // mov    r11d, dword [rbx]
-	LONG $0xd9a40f44; BYTE $0x01               // shld    ecx, r11d, 1
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x2271e3c4; WORD $0x01ce             // vpinsrd    xmm1, xmm1, esi, 1
-	LONG $0x2271c3c4; WORD $0x02ca             // vpinsrd    xmm1, xmm1, r10d, 2
-	LONG $0x2271c3c4; WORD $0x03c9             // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xd3               // vmovd    xmm2, r11d
-	LONG $0x2269e3c4; WORD $0x01d1             // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d2             // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269e3c4; WORD $0x03d0             // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f             // vmovdqu    yword [r15 - 96], ymm1
-	LONG $0x4b6ffec5; BYTE $0x1c               // vmovdqu    ymm1, yword [rbx + 28]
-	LONG $0x4575c2c4; BYTE $0xc8               // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0x536ffac5; BYTE $0x2c               // vmovdqu    xmm2, oword [rbx + 44]
-	LONG $0xda70f9c5; BYTE $0xf9               // vpshufd    xmm3, xmm2, 249
-	LONG $0x2261e3c4; WORD $0x3c5b; BYTE $0x03 // vpinsrd    xmm3, xmm3, dword [rbx + 60], 3
-	LONG $0x0f69e3c4; WORD $0x1c53; BYTE $0x04 // vpalignr    xmm2, xmm2, oword [rbx + 28], 4
-	LONG $0x386de3c4; WORD $0x01d3             // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x476dc2c4; BYTE $0xd1               // vpsllvd    ymm2, ymm2, ymm9
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f             // vmovdqu    yword [r15 - 64], ymm1
-	LONG $0x4b6ffec5; BYTE $0x3c               // vmovdqu    ymm1, yword [rbx + 60]
-	LONG $0x536ffac5; BYTE $0x4c               // vmovdqu    xmm2, oword [rbx + 76]
-	LONG $0xda70f9c5; BYTE $0xf9               // vpshufd    xmm3, xmm2, 249
-	LONG $0x2261e3c4; WORD $0x5c5b; BYTE $0x03 // vpinsrd    xmm3, xmm3, dword [rbx + 92], 3
-	LONG $0x4575c2c4; BYTE $0xca               // vpsrlvd    ymm1, ymm1, ymm10
-	LONG $0x0f69e3c4; WORD $0x3c53; BYTE $0x04 // vpalignr    xmm2, xmm2, oword [rbx + 60], 4
-	LONG $0x386de3c4; WORD $0x01d3             // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x476de2c4; BYTE $0xd4               // vpsllvd    ymm2, ymm2, ymm4
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f             // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x438b; BYTE $0x78                   // mov    eax, dword [rbx + 120]
-	WORD $0x4b8b; BYTE $0x74                   // mov    ecx, dword [rbx + 116]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x1ecaa40f                           // shld    edx, ecx, 30
-	WORD $0x738b; BYTE $0x70                   // mov    esi, dword [rbx + 112]
-	LONG $0x1df1a40f                           // shld    ecx, esi, 29
-	WORD $0x7b8b; BYTE $0x6c                   // mov    edi, dword [rbx + 108]
-	LONG $0x1cfea40f                           // shld    esi, edi, 28
-	LONG $0x4b6ffac5; BYTE $0x5c               // vmovdqu    xmm1, oword [rbx + 92]
-	LONG $0x4571e2c4; BYTE $0xd5               // vpsrlvd    xmm2, xmm1, xmm5
-	LONG $0xc970f9c5; BYTE $0xf9               // vpshufd    xmm1, xmm1, 249
-	LONG $0x2271e3c4; WORD $0x03cf             // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x4771e2c4; BYTE $0xce               // vpsllvd    xmm1, xmm1, xmm6
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9             // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02da             // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261e3c4; WORD $0x03d8             // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xc9ebe9c5                           // vpor    xmm1, xmm2, xmm1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x4575e2c4; BYTE $0xcf               // vpsrlvd    ymm1, ymm1, ymm7
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f               // vmovdqu    yword [r15], ymm1
-	LONG $0x7cc38348                           // add    rbx, 124
-	LONG $0x80ef8349                           // sub    r15, -128
-	LONG $0xffc08349                           // add    r8, -1
-	JNE  LBB0_98
-	JMP  LBB0_147
-
-LBB0_144:
-	WORD $0xfa83; BYTE $0x20 // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf3 // mov    ebx, r14d
-
-LBB0_146:
-	LONG $0x000080ba; BYTE $0x00 // mov    edx, 128
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	WORD $0xf631                 // xor    esi, esi
-	CALL clib·_memset(SB)
-	LONG $0x80ef8349             // sub    r15, -128
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_146
-	JMP  LBB0_147
-
-LBB0_120:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x00008085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 128[rbp] /* [rip + .LCPI0_80] */
-	LONG $0xc9eff1c5                     // vpxor    xmm1, xmm1, xmm1
-
-LBB0_122:
-	LONG $0x146ffac5; BYTE $0x0b               // vmovdqu    xmm2, oword [rbx + rcx]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f14             // vmovdqu    yword [r15 + 2*rcx], ymm2
-	LONG $0x546ffac5; WORD $0x100b             // vmovdqu    xmm2, oword [rbx + rcx + 16]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x20 // vmovdqu    yword [r15 + 2*rcx + 32], ymm2
-	LONG $0x546ffac5; WORD $0x200b             // vmovdqu    xmm2, oword [rbx + rcx + 32]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x40 // vmovdqu    yword [r15 + 2*rcx + 64], ymm2
-	LONG $0x546ffac5; WORD $0x300b             // vmovdqu    xmm2, oword [rbx + rcx + 48]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x60 // vmovdqu    yword [r15 + 2*rcx + 96], ymm2
-	LONG $0x40c18348                           // add    rcx, 64
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_122
-	JMP  LBB0_147
-
-LBB0_132:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x000c70855a7de2c4; BYTE $0x00 // vbroadcasti128    ymm0, oword 3184[rbp] /* [rip + .LCPI0_109] */
-	QUAD $0x000c848d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 3204[rbp] /* [rip + .LCPI0_110] */
-
-LBB0_134:
-	LONG $0x147efac5; BYTE $0x0b               // vmovq    xmm2, qword [rbx + rcx]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f14             // vmovdqu    yword [r15 + 4*rcx], ymm2
-	LONG $0x547efac5; WORD $0x080b             // vmovq    xmm2, qword [rbx + rcx + 8]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm2
-	LONG $0x547efac5; WORD $0x100b             // vmovq    xmm2, qword [rbx + rcx + 16]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x547efac5; WORD $0x180b             // vmovq    xmm2, qword [rbx + rcx + 24]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm2
-	LONG $0x20c18348                           // add    rcx, 32
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_134
-	JMP  LBB0_147
-
-LBB0_108:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x5cc38348                     // add    rbx, 92
-	QUAD $0x000c20855a7de2c4; BYTE $0x00 // vbroadcasti128    ymm0, oword 3104[rbp] /* [rip + .LCPI0_46] */
-	QUAD $0x000c808d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 3200[rbp] /* [rip + .LCPI0_47] */
-
-LBB0_110:
-	LONG $0xb84b8b44               // mov    r9d, dword [rbx - 72]
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0x7b8b; BYTE $0xb0       // mov    edi, dword [rbx - 80]
-	LONG $0xac538b44               // mov    r10d, dword [rbx - 84]
-	LONG $0x10d6a40f               // shld    esi, edx, 16
-	LONG $0xa45b8b44               // mov    r11d, dword [rbx - 92]
-	WORD $0x438b; BYTE $0xa8       // mov    eax, dword [rbx - 88]
-	LONG $0x08faa40f               // shld    edx, edi, 8
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x10c1a40f               // shld    ecx, eax, 16
-	LONG $0xd8a40f44; BYTE $0x08   // shld    eax, r11d, 8
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2269e3c4; WORD $0x02d6 // vpinsrd    xmm2, xmm2, esi, 2
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xc8       // mov    esi, dword [rbx - 56]
-	LONG $0xc4538b44               // mov    r10d, dword [rbx - 60]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xbc5b8b44               // mov    r11d, dword [rbx - 68]
-	WORD $0x7b8b; BYTE $0xc0       // mov    edi, dword [rbx - 64]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xd45b8b44               // mov    r11d, dword [rbx - 44]
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xf4538b44               // mov    r10d, dword [rbx - 12]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xec5b8b44               // mov    r11d, dword [rbx - 20]
-	WORD $0x7b8b; BYTE $0xf0       // mov    edi, dword [rbx - 16]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x60c38348               // add    rbx, 96
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_110
-	JMP  LBB0_147
-
-LBB0_138:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x000009e0856ffdc5             // vmovdqa    ymm0, yword 2528[rbp] /* [rip + .LCPI0_124] */
-	QUAD $0x0000d88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 216[rbp] /* [rip + .LCPI0_125] */
-
-LBB0_140:
-	LONG $0x587de2c4; WORD $0x0b14             // vpbroadcastd    ymm2, dword [rbx + rcx]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf14             // vmovdqu    yword [r15 + 8*rcx], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x04 // vpbroadcastd    ymm2, dword [rbx + rcx + 4]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x20 // vmovdqu    yword [r15 + 8*rcx + 32], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x08 // vpbroadcastd    ymm2, dword [rbx + rcx + 8]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x40 // vmovdqu    yword [r15 + 8*rcx + 64], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x0c // vpbroadcastd    ymm2, dword [rbx + rcx + 12]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x60 // vmovdqu    yword [r15 + 8*rcx + 96], ymm2
-	LONG $0x10c18348                           // add    rcx, 16
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_140
-	JMP  LBB0_147
-
-LBB0_114:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x4cc38348               // add    rbx, 76
-	QUAD $0x000004a0856ffdc5       // vmovdqa    ymm0, yword 1184[rbp] /* [rip + .LCPI0_65] */
-	LONG $0x597de2c4; WORD $0x604d // vpbroadcastq    ymm1, qword 96[rbp] /* [rip + .LCPI0_66] */
-
-LBB0_116:
-	LONG $0xc44b8b44               // mov    r9d, dword [rbx - 60]
-	LONG $0xc05b8b44               // mov    r11d, dword [rbx - 64]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0xdea40f44; BYTE $0x08   // shld    esi, r11d, 8
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	LONG $0x10faa40f               // shld    edx, edi, 16
-	WORD $0x438b; BYTE $0xb8       // mov    eax, dword [rbx - 72]
-	LONG $0x04c7a40f               // shld    edi, eax, 4
-	LONG $0xb4538b44               // mov    r10d, dword [rbx - 76]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x0c   // shld    ecx, r10d, 12
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d6 // vpinsrd    xmm2, xmm2, esi, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03df // vpinsrd    xmm3, xmm3, edi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	LONG $0xd45b8b44               // mov    r11d, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xe4       // mov    esi, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x50c38348               // add    rbx, 80
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_116
-	JMP  LBB0_147
-
-LBB0_126:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x2cc38348                     // add    rbx, 44
-	QUAD $0x00000740856ffdc5             // vmovdqa    ymm0, yword 1856[rbp] /* [rip + .LCPI0_94] */
-	QUAD $0x0000a08d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 160[rbp] /* [rip + .LCPI0_95] */
-
-LBB0_128:
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2269e3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, ecx, 3
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	WORD $0x438b; BYTE $0xe8       // mov    eax, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x30c38348               // add    rbx, 48
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_128
-	JMP  LBB0_147
-
-LBB0_102:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x6cc38348               // add    rbx, 108
-	QUAD $0x00000220856ffdc5       // vmovdqa    ymm0, yword 544[rbp] /* [rip + .LCPI0_22] */
-	LONG $0x597de2c4; WORD $0x184d // vpbroadcastq    ymm1, qword 24[rbp] /* [rip + .LCPI0_23] */
-
-LBB0_104:
-	LONG $0xac4b8b44               // mov    r9d, dword [rbx - 84]
-	WORD $0x538b; BYTE $0xa8       // mov    edx, dword [rbx - 88]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xd2a40f41; BYTE $0x18   // shld    r10d, edx, 24
-	WORD $0x7b8b; BYTE $0xa4       // mov    edi, dword [rbx - 92]
-	LONG $0x14faa40f               // shld    edx, edi, 20
-	WORD $0x438b; BYTE $0xa0       // mov    eax, dword [rbx - 96]
-	LONG $0x10c7a40f               // shld    edi, eax, 16
-	WORD $0x4b8b; BYTE $0x9c       // mov    ecx, dword [rbx - 100]
-	LONG $0x0cc8a40f               // shld    eax, ecx, 12
-	LONG $0x945b8b44               // mov    r11d, dword [rbx - 108]
-	WORD $0x738b; BYTE $0x98       // mov    esi, dword [rbx - 104]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	LONG $0xdea40f44; BYTE $0x04   // shld    esi, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xc84b8b44               // mov    r9d, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xc4       // mov    ecx, dword [rbx - 60]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xc0       // mov    esi, dword [rbx - 64]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xb8       // mov    eax, dword [rbx - 72]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xb05b8b44               // mov    r11d, dword [rbx - 80]
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xd4       // mov    eax, dword [rbx - 44]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xcc5b8b44               // mov    r11d, dword [rbx - 52]
-	WORD $0x538b; BYTE $0xd0       // mov    edx, dword [rbx - 48]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x70c38348               // add    rbx, 112
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_104
-	JMP  LBB0_147
-
-LBB0_141:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x00000a80856ffdc5             // vmovdqa    ymm0, yword 2688[rbp] /* [rip + .LCPI0_131] */
-	QUAD $0x0000e88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 232[rbp] /* [rip + .LCPI0_132] */
-	QUAD $0x00000aa0956ffdc5             // vmovdqa    ymm2, yword 2720[rbp] /* [rip + .LCPI0_133] */
-
-LBB0_143:
-	LONG $0x587de2c4; WORD $0xcb1c             // vpbroadcastd    ymm3, dword [rbx + 8*rcx]
-	LONG $0x4565e2c4; BYTE $0xd8               // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f             // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0x587de2c4; WORD $0xcb1c             // vpbroadcastd    ymm3, dword [rbx + 8*rcx]
-	LONG $0x4565e2c4; BYTE $0xda               // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f             // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0x587de2c4; WORD $0xcb5c; BYTE $0x04 // vpbroadcastd    ymm3, dword [rbx + 8*rcx + 4]
-	LONG $0x4565e2c4; BYTE $0xd8               // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f             // vmovdqu    yword [r15 - 32], ymm3
-	LONG $0x587de2c4; WORD $0xcb5c; BYTE $0x04 // vpbroadcastd    ymm3, dword [rbx + 8*rcx + 4]
-	LONG $0x4565e2c4; BYTE $0xda               // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f               // vmovdqu    yword [r15], ymm3
-	LONG $0x01c18348                           // add    rcx, 1
-	LONG $0x80ef8349                           // sub    r15, -128
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB0_143
-	JMP  LBB0_147
-
-LBB0_117:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x44c38348               // add    rbx, 68
-	QUAD $0x00000540856ffdc5       // vmovdqa    ymm0, yword 1344[rbp] /* [rip + .LCPI0_72] */
-	LONG $0x597de2c4; WORD $0x704d // vpbroadcastq    ymm1, qword 112[rbp] /* [rip + .LCPI0_73] */
-	QUAD $0x00000560956ffdc5       // vmovdqa    ymm2, yword 1376[rbp] /* [rip + .LCPI0_74] */
-
-LBB0_119:
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	LONG $0xcc538b44               // mov    r10d, dword [rbx - 52]
-	LONG $0xcaa40f41; BYTE $0x02   // shld    r10d, ecx, 2
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x06f7a40f               // shld    edi, esi, 6
-	LONG $0xbc4b8b44               // mov    r9d, dword [rbx - 68]
-	WORD $0x538b; BYTE $0xc0       // mov    edx, dword [rbx - 64]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0xc8a40f44; BYTE $0x0e   // shld    eax, r9d, 14
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0ad6a40f               // shld    esi, edx, 10
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xd85b8b44               // mov    r11d, dword [rbx - 40]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x08   // shld    edi, r10d, 8
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0cf1a40f               // shld    ecx, esi, 12
-	LONG $0x10f0ac0f               // shrd    eax, esi, 16
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2261c3c4; WORD $0x01db // vpinsrd    xmm3, xmm3, r11d, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	LONG $0xc2a40f41; BYTE $0x02   // shld    r10d, eax, 2
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x06d6a40f               // shld    esi, edx, 6
-	LONG $0xe04b8b44               // mov    r9d, dword [rbx - 32]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x0e   // shld    edi, r9d, 14
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0xf8538b44               // mov    r10d, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x08   // shld    edi, r10d, 8
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0cf1a40f               // shld    ecx, esi, 12
-	LONG $0x10f0ac0f               // shrd    eax, esi, 16
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2261c3c4; WORD $0x01db // vpinsrd    xmm3, xmm3, r11d, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x48c38348               // add    rbx, 72
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_119
-	JMP  LBB0_147
-
-LBB0_129:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x24c38348                     // add    rbx, 36
-	QUAD $0x000007e0856ffdc5             // vmovdqa    ymm0, yword 2016[rbp] /* [rip + .LCPI0_101] */
-	QUAD $0x0000b08d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 176[rbp] /* [rip + .LCPI0_102] */
-	QUAD $0x00000800956ffdc5             // vmovdqa    ymm2, yword 2048[rbp] /* [rip + .LCPI0_103] */
-
-LBB0_131:
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x02d6a40f               // shld    esi, edx, 2
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0xce89                   // mov    esi, ecx
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	WORD $0x7b8b; BYTE $0xe4       // mov    edi, dword [rbx - 28]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0x06f8a40f               // shld    eax, edi, 6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x02caa40f               // shld    edx, ecx, 2
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xe16ef9c5               // vmovd    xmm4, ecx
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x06cfa40f               // shld    edi, ecx, 6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xe16ef9c5               // vmovd    xmm4, ecx
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x28c38348               // add    rbx, 40
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_131
-	JMP  LBB0_147
-
-LBB0_105:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x64c38348               // add    rbx, 100
-	LONG $0x597de2c4; WORD $0x2845 // vpbroadcastq    ymm0, qword 40[rbp] /* [rip + .LCPI0_34] */
-	LONG $0x5979e2c4; WORD $0x304d // vpbroadcastq    xmm1, qword 48[rbp] /* [rip + .LCPI0_35] */
-	QUAD $0x000002c0956ffdc5       // vmovdqa    ymm2, yword 704[rbp] /* [rip + .LCPI0_33] */
-	LONG $0x5979e2c4; WORD $0x385d // vpbroadcastq    xmm3, qword 56[rbp] /* [rip + .LCPI0_36] */
-	QUAD $0x000002e0a56ffdc5       // vmovdqa    ymm4, yword 736[rbp] /* [rip + .LCPI0_37] */
-
-LBB0_107:
-	WORD $0x4b8b; BYTE $0xb0       // mov    ecx, dword [rbx - 80]
-	LONG $0xb44b8b44               // mov    r9d, dword [rbx - 76]
-	LONG $0xc9a40f41; BYTE $0x0a   // shld    r9d, ecx, 10
-	LONG $0xac5b8b44               // mov    r11d, dword [rbx - 84]
-	LONG $0xd9a40f44; BYTE $0x04   // shld    ecx, r11d, 4
-	WORD $0x7b8b; BYTE $0xa8       // mov    edi, dword [rbx - 88]
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	WORD $0x538b; BYTE $0xa4       // mov    edx, dword [rbx - 92]
-	LONG $0x12d7a40f               // shld    edi, edx, 18
-	LONG $0x9c538b44               // mov    r10d, dword [rbx - 100]
-	WORD $0x438b; BYTE $0xa0       // mov    eax, dword [rbx - 96]
-	LONG $0x0cc2a40f               // shld    edx, eax, 12
-	LONG $0xd0a40f44; BYTE $0x06   // shld    eax, r10d, 6
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03ef // vpinsrd    xmm5, xmm5, edi, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xcc4b8b44               // mov    r9d, dword [rbx - 52]
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x14caa40f               // shld    edx, ecx, 20
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	LONG $0x0ef1a40f               // shld    ecx, esi, 14
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	WORD $0x438b; BYTE $0xc0       // mov    eax, dword [rbx - 64]
-	LONG $0x08c6a40f               // shld    esi, eax, 8
-	LONG $0x02f8a40f               // shld    eax, edi, 2
-	LONG $0x6b7efac5; BYTE $0xb4   // vmovq    xmm5, qword [rbx - 76]
-	LONG $0x4551e2c4; BYTE $0xf1   // vpsrlvd    xmm6, xmm5, xmm1
-	LONG $0xed70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm5, 229
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x4751e2c4; BYTE $0xeb   // vpsllvd    xmm5, xmm5, xmm3
-	LONG $0xedebc9c5               // vpor    xmm5, xmm6, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x0a   // shld    r9d, eax, 10
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	LONG $0xd8a40f44; BYTE $0x04   // shld    eax, r11d, 4
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x18f7a40f               // shld    edi, esi, 24
-	WORD $0x4b8b; BYTE $0xd8       // mov    ecx, dword [rbx - 40]
-	LONG $0x12cea40f               // shld    esi, ecx, 18
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	LONG $0x0cd1a40f               // shld    ecx, edx, 12
-	LONG $0xd2a40f44; BYTE $0x06   // shld    edx, r10d, 6
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2251e3c4; WORD $0x03ee // vpinsrd    xmm5, xmm5, esi, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x14caa40f               // shld    edx, ecx, 20
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x0ef1a40f               // shld    ecx, esi, 14
-	WORD $0x7b8b; BYTE $0xf0       // mov    edi, dword [rbx - 16]
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	LONG $0x08c6a40f               // shld    esi, eax, 8
-	LONG $0x02f8a40f               // shld    eax, edi, 2
-	LONG $0x6b7efac5; BYTE $0xe8   // vmovq    xmm5, qword [rbx - 24]
-	LONG $0x4551e2c4; BYTE $0xf1   // vpsrlvd    xmm6, xmm5, xmm1
-	LONG $0xed70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm5, 229
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x4751e2c4; BYTE $0xeb   // vpsllvd    xmm5, xmm5, xmm3
-	LONG $0xedebc9c5               // vpor    xmm5, xmm6, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x68c38348               // add    rbx, 104
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_107
-	JMP  LBB0_147
-
-LBB0_135:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x14c38348                     // add    rbx, 20
-	QUAD $0x00000920856ffdc5             // vmovdqa    ymm0, yword 2336[rbp] /* [rip + .LCPI0_116] */
-	QUAD $0x0000c88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 200[rbp] /* [rip + .LCPI0_117] */
-	QUAD $0x00000940956ffdc5             // vmovdqa    ymm2, yword 2368[rbp] /* [rip + .LCPI0_118] */
-
-LBB0_137:
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x5879e2c4; BYTE $0xe3   // vpbroadcastd    xmm4, xmm3
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x5879e2c4; BYTE $0xe4   // vpbroadcastd    xmm4, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm3, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x5879e2c4; BYTE $0xdb   // vpbroadcastd    xmm3, xmm3
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x138b                   // mov    edx, dword [rbx]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x5879e2c4; BYTE $0xe4   // vpbroadcastd    xmm4, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x18c38348               // add    rbx, 24
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_137
-	JMP  LBB0_147
-
-LBB0_111:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x54c38348               // add    rbx, 84
-	QUAD $0x000003e0856ffdc5       // vmovdqa    ymm0, yword 992[rbp] /* [rip + .LCPI0_55] */
-	LONG $0x597de2c4; WORD $0x504d // vpbroadcastq    ymm1, qword 80[rbp] /* [rip + .LCPI0_56] */
-	QUAD $0x00000400956ffdc5       // vmovdqa    ymm2, yword 1024[rbp] /* [rip + .LCPI0_57] */
-
-LBB0_113:
-	LONG $0xbc538b44               // mov    r10d, dword [rbx - 68]
-	LONG $0xc04b8b44               // mov    r9d, dword [rbx - 64]
-	LONG $0xd1a40f45; BYTE $0x06   // shld    r9d, r10d, 6
-	WORD $0x738b; BYTE $0xb8       // mov    esi, dword [rbx - 72]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x12f7a40f               // shld    edi, esi, 18
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	LONG $0xac5b8b44               // mov    r11d, dword [rbx - 84]
-	WORD $0x4b8b; BYTE $0xb0       // mov    ecx, dword [rbx - 80]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0x14c8a40f               // shld    eax, ecx, 20
-	LONG $0xd9a40f44; BYTE $0x0a   // shld    ecx, r11d, 10
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2259c3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, r10d, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x2259c3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, r9d, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	WORD $0x4b8b; BYTE $0xd0       // mov    ecx, dword [rbx - 48]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x0c   // shld    r10d, ecx, 12
-	WORD $0x738b; BYTE $0xcc       // mov    esi, dword [rbx - 52]
-	LONG $0x02f1a40f               // shld    ecx, esi, 2
-	WORD $0x7b8b; BYTE $0xc8       // mov    edi, dword [rbx - 56]
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0efea40f               // shld    esi, edi, 14
-	WORD $0x438b; BYTE $0xc0       // mov    eax, dword [rbx - 64]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	LONG $0x04d7a40f               // shld    edi, edx, 4
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0xe8538b44               // mov    r10d, dword [rbx - 24]
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xd1a40f45; BYTE $0x06   // shld    r9d, r10d, 6
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x12d6a40f               // shld    esi, edx, 18
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x08caa40f               // shld    edx, ecx, 8
-	LONG $0xd85b8b44               // mov    r11d, dword [rbx - 40]
-	WORD $0x438b; BYTE $0xdc       // mov    eax, dword [rbx - 36]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x14c7a40f               // shld    edi, eax, 20
-	LONG $0xd8a40f44; BYTE $0x0a   // shld    eax, r11d, 10
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2259c3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, r10d, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0x2259c3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, r9d, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x0c   // shld    r10d, ecx, 12
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x02f1a40f               // shld    ecx, esi, 2
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0efea40f               // shld    esi, edi, 14
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	LONG $0x04d7a40f               // shld    edi, edx, 4
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x58c38348               // add    rbx, 88
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_113
-	JMP  LBB0_147
-
-LBB0_123:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x34c38348                     // add    rbx, 52
-	QUAD $0x00000680856ffdc5             // vmovdqa    ymm0, yword 1664[rbp] /* [rip + .LCPI0_86] */
-	QUAD $0x0000908d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 144[rbp] /* [rip + .LCPI0_87] */
-	QUAD $0x000006a0956ffdc5             // vmovdqa    ymm2, yword 1696[rbp] /* [rip + .LCPI0_88] */
-
-LBB0_125:
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	WORD $0x4b8b; BYTE $0xd4       // mov    ecx, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x0ccea40f               // shld    esi, ecx, 12
-	WORD $0x7b8b; BYTE $0xcc       // mov    edi, dword [rbx - 52]
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	WORD $0xca89                   // mov    edx, ecx
-	LONG $0xd2a40f44; BYTE $0x08   // shld    edx, r10d, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x04f8a40f               // shld    eax, edi, 4
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x06f1a40f               // shld    ecx, esi, 6
-	WORD $0xf789                   // mov    edi, esi
-	LONG $0xcfa40f44; BYTE $0x02   // shld    edi, r9d, 2
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e6 // vpinsrd    xmm4, xmm4, esi, 2
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0xf44b8b44               // mov    r9d, dword [rbx - 12]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0cc2a40f               // shld    edx, eax, 12
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x08   // shld    ecx, r10d, 8
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x06c1a40f               // shld    ecx, eax, 6
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x02fea40f               // shld    esi, edi, 2
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261c3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, r9d, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x38c38348               // add    rbx, 56
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_125
-	JMP  LBB0_147
-
-LBB0_99:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_8] */
-	LONG $0x74c38348               // add    rbx, 116
-	QUAD $0x00000b208d6ff9c5       // vmovdqa    xmm1, oword 2848[rbp] /* [rip + .LCPI0_9] */
-	QUAD $0x00000b30956ff9c5       // vmovdqa    xmm2, oword 2864[rbp] /* [rip + .LCPI0_10] */
-	QUAD $0x000001a09d6ffdc5       // vmovdqa    ymm3, yword 416[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_101:
-	LONG $0xa45b8b44               // mov    r11d, dword [rbx - 92]
-	LONG $0xa84b8b44               // mov    r9d, dword [rbx - 88]
-	LONG $0xd9a40f45; BYTE $0x0e   // shld    r9d, r11d, 14
-	WORD $0x738b; BYTE $0xa0       // mov    esi, dword [rbx - 96]
-	LONG $0xf3a40f41; BYTE $0x0c   // shld    r11d, esi, 12
-	WORD $0x7b8b; BYTE $0x9c       // mov    edi, dword [rbx - 100]
-	LONG $0x0afea40f               // shld    esi, edi, 10
-	WORD $0x438b; BYTE $0x98       // mov    eax, dword [rbx - 104]
-	LONG $0x08c7a40f               // shld    edi, eax, 8
-	WORD $0x538b; BYTE $0x94       // mov    edx, dword [rbx - 108]
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0x8c538b44               // mov    r10d, dword [rbx - 116]
-	WORD $0x4b8b; BYTE $0x90       // mov    ecx, dword [rbx - 112]
-	LONG $0x04caa40f               // shld    edx, ecx, 4
-	LONG $0xd1a40f44; BYTE $0x02   // shld    ecx, r10d, 2
-	LONG $0x6e79c1c4; BYTE $0xe2   // vmovd    xmm4, r10d
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2251c3c4; WORD $0x02eb // vpinsrd    xmm5, xmm5, r11d, 2
-	LONG $0x2259e3c4; WORD $0x03e0 // vpinsrd    xmm4, xmm4, eax, 3
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x385de3c4; WORD $0x01e5 // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa067 // vmovdqu    yword [r15 - 96], ymm4
-	WORD $0x438b; BYTE $0xc4       // mov    eax, dword [rbx - 60]
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1ccaa40f               // shld    edx, ecx, 28
-	WORD $0x738b; BYTE $0xbc       // mov    esi, dword [rbx - 68]
-	WORD $0x7b8b; BYTE $0xb8       // mov    edi, dword [rbx - 72]
-	LONG $0x1af1a40f               // shld    ecx, esi, 26
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	LONG $0x636ffac5; BYTE $0xa8   // vmovdqu    xmm4, oword [rbx - 88]
-	LONG $0x4559e2c4; BYTE $0xe9   // vpsrlvd    xmm5, xmm4, xmm1
-	LONG $0xe470f9c5; BYTE $0xf9   // vpshufd    xmm4, xmm4, 249
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x4759e2c4; BYTE $0xe2   // vpsllvd    xmm4, xmm4, xmm2
-	LONG $0x2249e3c4; WORD $0x03f0 // vpinsrd    xmm6, xmm6, eax, 3
-	LONG $0xe4ebd1c5               // vpor    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01e6 // vinserti128    ymm4, ymm4, xmm6, 1
-	LONG $0x455de2c4; BYTE $0xe3   // vpsrlvd    ymm4, ymm4, ymm3
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc067 // vmovdqu    yword [r15 - 64], ymm4
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	LONG $0xd9a40f45; BYTE $0x0e   // shld    r9d, r11d, 14
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	LONG $0xd3a40f41; BYTE $0x0c   // shld    r11d, edx, 12
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	LONG $0x0af2a40f               // shld    edx, esi, 10
-	WORD $0x7b8b; BYTE $0xd4       // mov    edi, dword [rbx - 44]
-	LONG $0x08fea40f               // shld    esi, edi, 8
-	WORD $0x4b8b; BYTE $0xd0       // mov    ecx, dword [rbx - 48]
-	LONG $0x06cfa40f               // shld    edi, ecx, 6
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	LONG $0x04c1a40f               // shld    ecx, eax, 4
-	LONG $0xd0a40f44; BYTE $0x02   // shld    eax, r10d, 2
-	LONG $0x6e79c1c4; BYTE $0xe2   // vmovd    xmm4, r10d
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2251c3c4; WORD $0x02eb // vpinsrd    xmm5, xmm5, r11d, 2
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x385de3c4; WORD $0x01e5 // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe067 // vmovdqu    yword [r15 - 32], ymm4
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1ccaa40f               // shld    edx, ecx, 28
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x1af1a40f               // shld    ecx, esi, 26
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x636ffac5; BYTE $0xe4   // vmovdqu    xmm4, oword [rbx - 28]
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	LONG $0x4559e2c4; BYTE $0xe9   // vpsrlvd    xmm5, xmm4, xmm1
-	LONG $0xe470f9c5; BYTE $0xf9   // vpshufd    xmm4, xmm4, 249
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x4759e2c4; BYTE $0xe2   // vpsllvd    xmm4, xmm4, xmm2
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f0 // vpinsrd    xmm6, xmm6, eax, 3
-	LONG $0xe4ebd1c5               // vpor    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01e6 // vinserti128    ymm4, ymm4, xmm6, 1
-	LONG $0x455de2c4; BYTE $0xe3   // vpsrlvd    ymm4, ymm4, ymm3
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x27   // vmovdqu    yword [r15], ymm4
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x78c38348               // add    rbx, 120
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_101
-
-LBB0_147:
-	LONG $0x05e6c141         // shl    r14d, 5
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	MOVQ 0(SP), SP
-	VZEROUPPER
-	MOVQ AX, num+32(FP)
-	RET
diff --git a/go/parquet/internal/utils/bit_packing_default.go b/go/parquet/internal/utils/bit_packing_default.go
deleted file mode 100644
index fa814f6375f97..0000000000000
--- a/go/parquet/internal/utils/bit_packing_default.go
+++ /dev/null
@@ -1,1943 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"io"
-)
-
-var unpack32 func(io.Reader, []uint32, int) int = unpack32Default
-
-type unpackFunc func(in io.Reader, out []uint32)
-
-func unpack1_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for idx := range out[:32] {
-		out[idx] = (inl >> idx) & 1
-	}
-}
-
-func unpack2_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 2)
-	out[1] = (inl >> 2) % (1 << 2)
-	out[2] = (inl >> 4) % (1 << 2)
-	out[3] = (inl >> 6) % (1 << 2)
-	out[4] = (inl >> 8) % (1 << 2)
-	out[5] = (inl >> 10) % (1 << 2)
-	out[6] = (inl >> 12) % (1 << 2)
-	out[7] = (inl >> 14) % (1 << 2)
-	out[8] = (inl >> 16) % (1 << 2)
-	out[9] = (inl >> 18) % (1 << 2)
-	out[10] = (inl >> 20) % (1 << 2)
-	out[11] = (inl >> 22) % (1 << 2)
-	out[12] = (inl >> 24) % (1 << 2)
-	out[13] = (inl >> 26) % (1 << 2)
-	out[14] = (inl >> 28) % (1 << 2)
-	out[15] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 2)
-	out[17] = (inl >> 2) % (1 << 2)
-	out[18] = (inl >> 4) % (1 << 2)
-	out[19] = (inl >> 6) % (1 << 2)
-	out[20] = (inl >> 8) % (1 << 2)
-	out[21] = (inl >> 10) % (1 << 2)
-	out[22] = (inl >> 12) % (1 << 2)
-	out[23] = (inl >> 14) % (1 << 2)
-	out[24] = (inl >> 16) % (1 << 2)
-	out[25] = (inl >> 18) % (1 << 2)
-	out[26] = (inl >> 20) % (1 << 2)
-	out[27] = (inl >> 22) % (1 << 2)
-	out[28] = (inl >> 24) % (1 << 2)
-	out[29] = (inl >> 26) % (1 << 2)
-	out[30] = (inl >> 28) % (1 << 2)
-	out[31] = (inl >> 30)
-}
-
-func unpack3_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 3)
-	out[1] = (inl >> 3) % (1 << 3)
-	out[2] = (inl >> 6) % (1 << 3)
-	out[3] = (inl >> 9) % (1 << 3)
-	out[4] = (inl >> 12) % (1 << 3)
-	out[5] = (inl >> 15) % (1 << 3)
-	out[6] = (inl >> 18) % (1 << 3)
-	out[7] = (inl >> 21) % (1 << 3)
-	out[8] = (inl >> 24) % (1 << 3)
-	out[9] = (inl >> 27) % (1 << 3)
-	out[10] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 1)) << (3 - 1)
-	out[11] = (inl >> 1) % (1 << 3)
-	out[12] = (inl >> 4) % (1 << 3)
-	out[13] = (inl >> 7) % (1 << 3)
-	out[14] = (inl >> 10) % (1 << 3)
-	out[15] = (inl >> 13) % (1 << 3)
-	out[16] = (inl >> 16) % (1 << 3)
-	out[17] = (inl >> 19) % (1 << 3)
-	out[18] = (inl >> 22) % (1 << 3)
-	out[19] = (inl >> 25) % (1 << 3)
-	out[20] = (inl >> 28) % (1 << 3)
-	out[21] = (inl >> 31) % (1 << 3)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 2)) << (3 - 2)
-	out[22] = (inl >> 2) % (1 << 3)
-	out[23] = (inl >> 5) % (1 << 3)
-	out[24] = (inl >> 8) % (1 << 3)
-	out[25] = (inl >> 11) % (1 << 3)
-	out[26] = (inl >> 14) % (1 << 3)
-	out[27] = (inl >> 17) % (1 << 3)
-	out[28] = (inl >> 20) % (1 << 3)
-	out[29] = (inl >> 23) % (1 << 3)
-	out[30] = (inl >> 26) % (1 << 3)
-	out[31] = (inl >> 29)
-}
-
-func unpack4_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[i/4] = (inl >> i) % (1 << 4)
-	}
-	out[7] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[8+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[15] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[16+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[23] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[24+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[31] = (inl >> 28)
-}
-
-func unpack5_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 5)
-	out[1] = (inl >> 5) % (1 << 5)
-	out[2] = (inl >> 10) % (1 << 5)
-	out[3] = (inl >> 15) % (1 << 5)
-	out[4] = (inl >> 20) % (1 << 5)
-	out[5] = (inl >> 25) % (1 << 5)
-	out[6] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 3)) << (5 - 3)
-	out[7] = (inl >> 3) % (1 << 5)
-	out[8] = (inl >> 8) % (1 << 5)
-	out[9] = (inl >> 13) % (1 << 5)
-	out[10] = (inl >> 18) % (1 << 5)
-	out[11] = (inl >> 23) % (1 << 5)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 1)) << (5 - 1)
-	out[13] = (inl >> 1) % (1 << 5)
-	out[14] = (inl >> 6) % (1 << 5)
-	out[15] = (inl >> 11) % (1 << 5)
-	out[16] = (inl >> 16) % (1 << 5)
-	out[17] = (inl >> 21) % (1 << 5)
-	out[18] = (inl >> 26) % (1 << 5)
-	out[19] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (5 - 4)
-	out[20] = (inl >> 4) % (1 << 5)
-	out[21] = (inl >> 9) % (1 << 5)
-	out[22] = (inl >> 14) % (1 << 5)
-	out[23] = (inl >> 19) % (1 << 5)
-	out[24] = (inl >> 24) % (1 << 5)
-	out[25] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 2)) << (5 - 2)
-	out[26] = (inl >> 2) % (1 << 5)
-	out[27] = (inl >> 7) % (1 << 5)
-	out[28] = (inl >> 12) % (1 << 5)
-	out[29] = (inl >> 17) % (1 << 5)
-	out[30] = (inl >> 22) % (1 << 5)
-	out[31] = (inl >> 27)
-}
-
-func unpack6_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 6)
-	out[1] = (inl >> 6) % (1 << 6)
-	out[2] = (inl >> 12) % (1 << 6)
-	out[3] = (inl >> 18) % (1 << 6)
-	out[4] = (inl >> 24) % (1 << 6)
-	out[5] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 4)) << (6 - 4)
-	out[6] = (inl >> 4) % (1 << 6)
-	out[7] = (inl >> 10) % (1 << 6)
-	out[8] = (inl >> 16) % (1 << 6)
-	out[9] = (inl >> 22) % (1 << 6)
-	out[10] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 2)) << (6 - 2)
-	out[11] = (inl >> 2) % (1 << 6)
-	out[12] = (inl >> 8) % (1 << 6)
-	out[13] = (inl >> 14) % (1 << 6)
-	out[14] = (inl >> 20) % (1 << 6)
-	out[15] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 6)
-	out[17] = (inl >> 6) % (1 << 6)
-	out[18] = (inl >> 12) % (1 << 6)
-	out[19] = (inl >> 18) % (1 << 6)
-	out[20] = (inl >> 24) % (1 << 6)
-	out[21] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 4)) << (6 - 4)
-	out[22] = (inl >> 4) % (1 << 6)
-	out[23] = (inl >> 10) % (1 << 6)
-	out[24] = (inl >> 16) % (1 << 6)
-	out[25] = (inl >> 22) % (1 << 6)
-	out[26] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 2)) << (6 - 2)
-	out[27] = (inl >> 2) % (1 << 6)
-	out[28] = (inl >> 8) % (1 << 6)
-	out[29] = (inl >> 14) % (1 << 6)
-	out[30] = (inl >> 20) % (1 << 6)
-	out[31] = (inl >> 26)
-}
-
-func unpack7_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 7)
-	out[1] = (inl >> 7) % (1 << 7)
-	out[2] = (inl >> 14) % (1 << 7)
-	out[3] = (inl >> 21) % (1 << 7)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 3)) << (7 - 3)
-	out[5] = (inl >> 3) % (1 << 7)
-	out[6] = (inl >> 10) % (1 << 7)
-	out[7] = (inl >> 17) % (1 << 7)
-	out[8] = (inl >> 24) % (1 << 7)
-	out[9] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 6)) << (7 - 6)
-	out[10] = (inl >> 6) % (1 << 7)
-	out[11] = (inl >> 13) % (1 << 7)
-	out[12] = (inl >> 20) % (1 << 7)
-	out[13] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 2)) << (7 - 2)
-	out[14] = (inl >> 2) % (1 << 7)
-	out[15] = (inl >> 9) % (1 << 7)
-	out[16] = (inl >> 16) % (1 << 7)
-	out[17] = (inl >> 23) % (1 << 7)
-	out[18] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 5)) << (7 - 5)
-	out[19] = (inl >> 5) % (1 << 7)
-	out[20] = (inl >> 12) % (1 << 7)
-	out[21] = (inl >> 19) % (1 << 7)
-	out[22] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 1)) << (7 - 1)
-	out[23] = (inl >> 1) % (1 << 7)
-	out[24] = (inl >> 8) % (1 << 7)
-	out[25] = (inl >> 15) % (1 << 7)
-	out[26] = (inl >> 22) % (1 << 7)
-	out[27] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (7 - 4)
-	out[28] = (inl >> 4) % (1 << 7)
-	out[29] = (inl >> 11) % (1 << 7)
-	out[30] = (inl >> 18) % (1 << 7)
-	out[31] = (inl >> 25)
-}
-
-func unpack8_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[0+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[3] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[4+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[7] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[8+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[11] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[12+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[15] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[16+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[19] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[20+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[23] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[24+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[27] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[28+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[31] = (inl >> 24)
-}
-
-func unpack9_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 9)
-	out[1] = (inl >> 9) % (1 << 9)
-	out[2] = (inl >> 18) % (1 << 9)
-	out[3] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (9 - 4)
-	out[4] = (inl >> 4) % (1 << 9)
-	out[5] = (inl >> 13) % (1 << 9)
-	out[6] = (inl >> 22) % (1 << 9)
-	out[7] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (9 - 8)
-	out[8] = (inl >> 8) % (1 << 9)
-	out[9] = (inl >> 17) % (1 << 9)
-	out[10] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 3)) << (9 - 3)
-	out[11] = (inl >> 3) % (1 << 9)
-	out[12] = (inl >> 12) % (1 << 9)
-	out[13] = (inl >> 21) % (1 << 9)
-	out[14] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 7)) << (9 - 7)
-	out[15] = (inl >> 7) % (1 << 9)
-	out[16] = (inl >> 16) % (1 << 9)
-	out[17] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 2)) << (9 - 2)
-	out[18] = (inl >> 2) % (1 << 9)
-	out[19] = (inl >> 11) % (1 << 9)
-	out[20] = (inl >> 20) % (1 << 9)
-	out[21] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 6)) << (9 - 6)
-	out[22] = (inl >> 6) % (1 << 9)
-	out[23] = (inl >> 15) % (1 << 9)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 1)) << (9 - 1)
-	out[25] = (inl >> 1) % (1 << 9)
-	out[26] = (inl >> 10) % (1 << 9)
-	out[27] = (inl >> 19) % (1 << 9)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 5)) << (9 - 5)
-	out[29] = (inl >> 5) % (1 << 9)
-	out[30] = (inl >> 14) % (1 << 9)
-	out[31] = (inl >> 23)
-}
-
-func unpack10_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 10)
-	out[1] = (inl >> 10) % (1 << 10)
-	out[2] = (inl >> 20) % (1 << 10)
-	out[3] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (10 - 8)
-	out[4] = (inl >> 8) % (1 << 10)
-	out[5] = (inl >> 18) % (1 << 10)
-	out[6] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 6)) << (10 - 6)
-	out[7] = (inl >> 6) % (1 << 10)
-	out[8] = (inl >> 16) % (1 << 10)
-	out[9] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 4)) << (10 - 4)
-	out[10] = (inl >> 4) % (1 << 10)
-	out[11] = (inl >> 14) % (1 << 10)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 2)) << (10 - 2)
-	out[13] = (inl >> 2) % (1 << 10)
-	out[14] = (inl >> 12) % (1 << 10)
-	out[15] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 10)
-	out[17] = (inl >> 10) % (1 << 10)
-	out[18] = (inl >> 20) % (1 << 10)
-	out[19] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (10 - 8)
-	out[20] = (inl >> 8) % (1 << 10)
-	out[21] = (inl >> 18) % (1 << 10)
-	out[22] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 6)) << (10 - 6)
-	out[23] = (inl >> 6) % (1 << 10)
-	out[24] = (inl >> 16) % (1 << 10)
-	out[25] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 4)) << (10 - 4)
-	out[26] = (inl >> 4) % (1 << 10)
-	out[27] = (inl >> 14) % (1 << 10)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 2)) << (10 - 2)
-	out[29] = (inl >> 2) % (1 << 10)
-	out[30] = (inl >> 12) % (1 << 10)
-	out[31] = (inl >> 22)
-}
-
-func unpack11_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 11)
-	out[1] = (inl >> 11) % (1 << 11)
-	out[2] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 1)) << (11 - 1)
-	out[3] = (inl >> 1) % (1 << 11)
-	out[4] = (inl >> 12) % (1 << 11)
-	out[5] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 2)) << (11 - 2)
-	out[6] = (inl >> 2) % (1 << 11)
-	out[7] = (inl >> 13) % (1 << 11)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 3)) << (11 - 3)
-	out[9] = (inl >> 3) % (1 << 11)
-	out[10] = (inl >> 14) % (1 << 11)
-	out[11] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (11 - 4)
-	out[12] = (inl >> 4) % (1 << 11)
-	out[13] = (inl >> 15) % (1 << 11)
-	out[14] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 5)) << (11 - 5)
-	out[15] = (inl >> 5) % (1 << 11)
-	out[16] = (inl >> 16) % (1 << 11)
-	out[17] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 6)) << (11 - 6)
-	out[18] = (inl >> 6) % (1 << 11)
-	out[19] = (inl >> 17) % (1 << 11)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 7)) << (11 - 7)
-	out[21] = (inl >> 7) % (1 << 11)
-	out[22] = (inl >> 18) % (1 << 11)
-	out[23] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (11 - 8)
-	out[24] = (inl >> 8) % (1 << 11)
-	out[25] = (inl >> 19) % (1 << 11)
-	out[26] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 9)) << (11 - 9)
-	out[27] = (inl >> 9) % (1 << 11)
-	out[28] = (inl >> 20) % (1 << 11)
-	out[29] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 10)) << (11 - 10)
-	out[30] = (inl >> 10) % (1 << 11)
-	out[31] = (inl >> 21)
-}
-
-func unpack12_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 12)
-	out[1] = (inl >> 12) % (1 << 12)
-	out[2] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 4)) << (12 - 4)
-	out[3] = (inl >> 4) % (1 << 12)
-	out[4] = (inl >> 16) % (1 << 12)
-	out[5] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 8)) << (12 - 8)
-	out[6] = (inl >> 8) % (1 << 12)
-	out[7] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] = (inl >> 0) % (1 << 12)
-	out[9] = (inl >> 12) % (1 << 12)
-	out[10] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 4)) << (12 - 4)
-	out[11] = (inl >> 4) % (1 << 12)
-	out[12] = (inl >> 16) % (1 << 12)
-	out[13] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 8)) << (12 - 8)
-	out[14] = (inl >> 8) % (1 << 12)
-	out[15] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 12)
-	out[17] = (inl >> 12) % (1 << 12)
-	out[18] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 4)) << (12 - 4)
-	out[19] = (inl >> 4) % (1 << 12)
-	out[20] = (inl >> 16) % (1 << 12)
-	out[21] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 8)) << (12 - 8)
-	out[22] = (inl >> 8) % (1 << 12)
-	out[23] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] = (inl >> 0) % (1 << 12)
-	out[25] = (inl >> 12) % (1 << 12)
-	out[26] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 4)) << (12 - 4)
-	out[27] = (inl >> 4) % (1 << 12)
-	out[28] = (inl >> 16) % (1 << 12)
-	out[29] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 8)) << (12 - 8)
-	out[30] = (inl >> 8) % (1 << 12)
-	out[31] = (inl >> 20)
-}
-
-func unpack13_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 13)
-	out[1] = (inl >> 13) % (1 << 13)
-	out[2] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 7)) << (13 - 7)
-	out[3] = (inl >> 7) % (1 << 13)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 1)) << (13 - 1)
-	out[5] = (inl >> 1) % (1 << 13)
-	out[6] = (inl >> 14) % (1 << 13)
-	out[7] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (13 - 8)
-	out[8] = (inl >> 8) % (1 << 13)
-	out[9] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 2)) << (13 - 2)
-	out[10] = (inl >> 2) % (1 << 13)
-	out[11] = (inl >> 15) % (1 << 13)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 9)) << (13 - 9)
-	out[13] = (inl >> 9) % (1 << 13)
-	out[14] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 3)) << (13 - 3)
-	out[15] = (inl >> 3) % (1 << 13)
-	out[16] = (inl >> 16) % (1 << 13)
-	out[17] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 10)) << (13 - 10)
-	out[18] = (inl >> 10) % (1 << 13)
-	out[19] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (13 - 4)
-	out[20] = (inl >> 4) % (1 << 13)
-	out[21] = (inl >> 17) % (1 << 13)
-	out[22] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 11)) << (13 - 11)
-	out[23] = (inl >> 11) % (1 << 13)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 5)) << (13 - 5)
-	out[25] = (inl >> 5) % (1 << 13)
-	out[26] = (inl >> 18) % (1 << 13)
-	out[27] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (13 - 12)
-	out[28] = (inl >> 12) % (1 << 13)
-	out[29] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 6)) << (13 - 6)
-	out[30] = (inl >> 6) % (1 << 13)
-	out[31] = (inl >> 19)
-}
-
-func unpack14_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 14)
-	out[1] = (inl >> 14) % (1 << 14)
-	out[2] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 10)) << (14 - 10)
-	out[3] = (inl >> 10) % (1 << 14)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 6)) << (14 - 6)
-	out[5] = (inl >> 6) % (1 << 14)
-	out[6] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 2)) << (14 - 2)
-	out[7] = (inl >> 2) % (1 << 14)
-	out[8] = (inl >> 16) % (1 << 14)
-	out[9] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 12)) << (14 - 12)
-	out[10] = (inl >> 12) % (1 << 14)
-	out[11] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (14 - 8)
-	out[12] = (inl >> 8) % (1 << 14)
-	out[13] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 4)) << (14 - 4)
-	out[14] = (inl >> 4) % (1 << 14)
-	out[15] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 14)
-	out[17] = (inl >> 14) % (1 << 14)
-	out[18] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 10)) << (14 - 10)
-	out[19] = (inl >> 10) % (1 << 14)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 6)) << (14 - 6)
-	out[21] = (inl >> 6) % (1 << 14)
-	out[22] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 2)) << (14 - 2)
-	out[23] = (inl >> 2) % (1 << 14)
-	out[24] = (inl >> 16) % (1 << 14)
-	out[25] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 12)) << (14 - 12)
-	out[26] = (inl >> 12) % (1 << 14)
-	out[27] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (14 - 8)
-	out[28] = (inl >> 8) % (1 << 14)
-	out[29] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 4)) << (14 - 4)
-	out[30] = (inl >> 4) % (1 << 14)
-	out[31] = (inl >> 18)
-}
-
-func unpack15_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 15)
-	out[1] = (inl >> 15) % (1 << 15)
-	out[2] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 13)) << (15 - 13)
-	out[3] = (inl >> 13) % (1 << 15)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 11)) << (15 - 11)
-	out[5] = (inl >> 11) % (1 << 15)
-	out[6] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 9)) << (15 - 9)
-	out[7] = (inl >> 9) % (1 << 15)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 7)) << (15 - 7)
-	out[9] = (inl >> 7) % (1 << 15)
-	out[10] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 5)) << (15 - 5)
-	out[11] = (inl >> 5) % (1 << 15)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 3)) << (15 - 3)
-	out[13] = (inl >> 3) % (1 << 15)
-	out[14] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 1)) << (15 - 1)
-	out[15] = (inl >> 1) % (1 << 15)
-	out[16] = (inl >> 16) % (1 << 15)
-	out[17] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 14)) << (15 - 14)
-	out[18] = (inl >> 14) % (1 << 15)
-	out[19] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (15 - 12)
-	out[20] = (inl >> 12) % (1 << 15)
-	out[21] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 10)) << (15 - 10)
-	out[22] = (inl >> 10) % (1 << 15)
-	out[23] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (15 - 8)
-	out[24] = (inl >> 8) % (1 << 15)
-	out[25] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 6)) << (15 - 6)
-	out[26] = (inl >> 6) % (1 << 15)
-	out[27] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (15 - 4)
-	out[28] = (inl >> 4) % (1 << 15)
-	out[29] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 2)) << (15 - 2)
-	out[30] = (inl >> 2) % (1 << 15)
-	out[31] = (inl >> 17)
-}
-
-func unpack16_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 16; i++ {
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[i*2] = (inl >> 0) % (1 << 16)
-		out[(i*2)+1] = (inl >> 16)
-	}
-}
-
-func unpack17_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 17)
-	out[1] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 2)) << (17 - 2)
-	out[2] = (inl >> 2) % (1 << 17)
-	out[3] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (17 - 4)
-	out[4] = (inl >> 4) % (1 << 17)
-	out[5] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 6)) << (17 - 6)
-	out[6] = (inl >> 6) % (1 << 17)
-	out[7] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (17 - 8)
-	out[8] = (inl >> 8) % (1 << 17)
-	out[9] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 10)) << (17 - 10)
-	out[10] = (inl >> 10) % (1 << 17)
-	out[11] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 12)) << (17 - 12)
-	out[12] = (inl >> 12) % (1 << 17)
-	out[13] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 14)) << (17 - 14)
-	out[14] = (inl >> 14) % (1 << 17)
-	out[15] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (17 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 1)) << (17 - 1)
-	out[17] = (inl >> 1) % (1 << 17)
-	out[18] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 3)) << (17 - 3)
-	out[19] = (inl >> 3) % (1 << 17)
-	out[20] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 5)) << (17 - 5)
-	out[21] = (inl >> 5) % (1 << 17)
-	out[22] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 7)) << (17 - 7)
-	out[23] = (inl >> 7) % (1 << 17)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 9)) << (17 - 9)
-	out[25] = (inl >> 9) % (1 << 17)
-	out[26] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 11)) << (17 - 11)
-	out[27] = (inl >> 11) % (1 << 17)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 13)) << (17 - 13)
-	out[29] = (inl >> 13) % (1 << 17)
-	out[30] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 15)) << (17 - 15)
-	out[31] = (inl >> 15)
-}
-
-func unpack18_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 18)
-	out[1] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 4)) << (18 - 4)
-	out[2] = (inl >> 4) % (1 << 18)
-	out[3] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (18 - 8)
-	out[4] = (inl >> 8) % (1 << 18)
-	out[5] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 12)) << (18 - 12)
-	out[6] = (inl >> 12) % (1 << 18)
-	out[7] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (18 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 2)) << (18 - 2)
-	out[9] = (inl >> 2) % (1 << 18)
-	out[10] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 6)) << (18 - 6)
-	out[11] = (inl >> 6) % (1 << 18)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 10)) << (18 - 10)
-	out[13] = (inl >> 10) % (1 << 18)
-	out[14] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 14)) << (18 - 14)
-	out[15] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 18)
-	out[17] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 4)) << (18 - 4)
-	out[18] = (inl >> 4) % (1 << 18)
-	out[19] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (18 - 8)
-	out[20] = (inl >> 8) % (1 << 18)
-	out[21] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 12)) << (18 - 12)
-	out[22] = (inl >> 12) % (1 << 18)
-	out[23] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (18 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 2)) << (18 - 2)
-	out[25] = (inl >> 2) % (1 << 18)
-	out[26] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 6)) << (18 - 6)
-	out[27] = (inl >> 6) % (1 << 18)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 10)) << (18 - 10)
-	out[29] = (inl >> 10) % (1 << 18)
-	out[30] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 14)) << (18 - 14)
-	out[31] = (inl >> 14)
-}
-
-func unpack19_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 19)
-	out[1] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 6)) << (19 - 6)
-	out[2] = (inl >> 6) % (1 << 19)
-	out[3] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 12)) << (19 - 12)
-	out[4] = (inl >> 12) % (1 << 19)
-	out[5] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 18)) << (19 - 18)
-	out[6] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 5)) << (19 - 5)
-	out[7] = (inl >> 5) % (1 << 19)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 11)) << (19 - 11)
-	out[9] = (inl >> 11) % (1 << 19)
-	out[10] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 17)) << (19 - 17)
-	out[11] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (19 - 4)
-	out[12] = (inl >> 4) % (1 << 19)
-	out[13] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 10)) << (19 - 10)
-	out[14] = (inl >> 10) % (1 << 19)
-	out[15] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (19 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 3)) << (19 - 3)
-	out[17] = (inl >> 3) % (1 << 19)
-	out[18] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 9)) << (19 - 9)
-	out[19] = (inl >> 9) % (1 << 19)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 15)) << (19 - 15)
-	out[21] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 2)) << (19 - 2)
-	out[22] = (inl >> 2) % (1 << 19)
-	out[23] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (19 - 8)
-	out[24] = (inl >> 8) % (1 << 19)
-	out[25] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 14)) << (19 - 14)
-	out[26] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 1)) << (19 - 1)
-	out[27] = (inl >> 1) % (1 << 19)
-	out[28] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 7)) << (19 - 7)
-	out[29] = (inl >> 7) % (1 << 19)
-	out[30] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 13)) << (19 - 13)
-	out[31] = (inl >> 13)
-}
-
-func unpack20_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 20)
-	out[1] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 8)) << (20 - 8)
-	out[2] = (inl >> 8) % (1 << 20)
-	out[3] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 16)) << (20 - 16)
-	out[4] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 4)) << (20 - 4)
-	out[5] = (inl >> 4) % (1 << 20)
-	out[6] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 12)) << (20 - 12)
-	out[7] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] = (inl >> 0) % (1 << 20)
-	out[9] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 8)) << (20 - 8)
-	out[10] = (inl >> 8) % (1 << 20)
-	out[11] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 16)) << (20 - 16)
-	out[12] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 4)) << (20 - 4)
-	out[13] = (inl >> 4) % (1 << 20)
-	out[14] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 12)) << (20 - 12)
-	out[15] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 20)
-	out[17] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 8)) << (20 - 8)
-	out[18] = (inl >> 8) % (1 << 20)
-	out[19] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 16)) << (20 - 16)
-	out[20] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 4)) << (20 - 4)
-	out[21] = (inl >> 4) % (1 << 20)
-	out[22] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 12)) << (20 - 12)
-	out[23] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] = (inl >> 0) % (1 << 20)
-	out[25] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 8)) << (20 - 8)
-	out[26] = (inl >> 8) % (1 << 20)
-	out[27] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 16)) << (20 - 16)
-	out[28] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 4)) << (20 - 4)
-	out[29] = (inl >> 4) % (1 << 20)
-	out[30] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 12)) << (20 - 12)
-	out[31] = (inl >> 12)
-}
-
-func unpack21_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 21)
-	out[1] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 10)) << (21 - 10)
-	out[2] = (inl >> 10) % (1 << 21)
-	out[3] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 20)) << (21 - 20)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 9)) << (21 - 9)
-	out[5] = (inl >> 9) % (1 << 21)
-	out[6] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 19)) << (21 - 19)
-	out[7] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (21 - 8)
-	out[8] = (inl >> 8) % (1 << 21)
-	out[9] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 18)) << (21 - 18)
-	out[10] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 7)) << (21 - 7)
-	out[11] = (inl >> 7) % (1 << 21)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 17)) << (21 - 17)
-	out[13] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 6)) << (21 - 6)
-	out[14] = (inl >> 6) % (1 << 21)
-	out[15] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (21 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 5)) << (21 - 5)
-	out[17] = (inl >> 5) % (1 << 21)
-	out[18] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 15)) << (21 - 15)
-	out[19] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (21 - 4)
-	out[20] = (inl >> 4) % (1 << 21)
-	out[21] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 14)) << (21 - 14)
-	out[22] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 3)) << (21 - 3)
-	out[23] = (inl >> 3) % (1 << 21)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 13)) << (21 - 13)
-	out[25] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 2)) << (21 - 2)
-	out[26] = (inl >> 2) % (1 << 21)
-	out[27] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (21 - 12)
-	out[28] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 1)) << (21 - 1)
-	out[29] = (inl >> 1) % (1 << 21)
-	out[30] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 11)) << (21 - 11)
-	out[31] = (inl >> 11)
-}
-
-func unpack22_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 22)
-	out[1] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 12)) << (22 - 12)
-	out[2] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 2)) << (22 - 2)
-	out[3] = (inl >> 2) % (1 << 22)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 14)) << (22 - 14)
-	out[5] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 4)) << (22 - 4)
-	out[6] = (inl >> 4) % (1 << 22)
-	out[7] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (22 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 6)) << (22 - 6)
-	out[9] = (inl >> 6) % (1 << 22)
-	out[10] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 18)) << (22 - 18)
-	out[11] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (22 - 8)
-	out[12] = (inl >> 8) % (1 << 22)
-	out[13] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 20)) << (22 - 20)
-	out[14] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 10)) << (22 - 10)
-	out[15] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 22)
-	out[17] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 12)) << (22 - 12)
-	out[18] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 2)) << (22 - 2)
-	out[19] = (inl >> 2) % (1 << 22)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 14)) << (22 - 14)
-	out[21] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 4)) << (22 - 4)
-	out[22] = (inl >> 4) % (1 << 22)
-	out[23] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (22 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 6)) << (22 - 6)
-	out[25] = (inl >> 6) % (1 << 22)
-	out[26] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 18)) << (22 - 18)
-	out[27] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (22 - 8)
-	out[28] = (inl >> 8) % (1 << 22)
-	out[29] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 20)) << (22 - 20)
-	out[30] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 10)) << (22 - 10)
-	out[31] = (inl >> 10)
-}
-
-func unpack23_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 23)
-	out[1] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 14)) << (23 - 14)
-	out[2] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 5)) << (23 - 5)
-	out[3] = (inl >> 5) % (1 << 23)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 19)) << (23 - 19)
-	out[5] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 10)) << (23 - 10)
-	out[6] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 1)) << (23 - 1)
-	out[7] = (inl >> 1) % (1 << 23)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 15)) << (23 - 15)
-	out[9] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 6)) << (23 - 6)
-	out[10] = (inl >> 6) % (1 << 23)
-	out[11] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 20)) << (23 - 20)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 11)) << (23 - 11)
-	out[13] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 2)) << (23 - 2)
-	out[14] = (inl >> 2) % (1 << 23)
-	out[15] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (23 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 7)) << (23 - 7)
-	out[17] = (inl >> 7) % (1 << 23)
-	out[18] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 21)) << (23 - 21)
-	out[19] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (23 - 12)
-	out[20] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 3)) << (23 - 3)
-	out[21] = (inl >> 3) % (1 << 23)
-	out[22] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 17)) << (23 - 17)
-	out[23] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (23 - 8)
-	out[24] = (inl >> 8) % (1 << 23)
-	out[25] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 22)) << (23 - 22)
-	out[26] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 13)) << (23 - 13)
-	out[27] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (23 - 4)
-	out[28] = (inl >> 4) % (1 << 23)
-	out[29] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 18)) << (23 - 18)
-	out[30] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 9)) << (23 - 9)
-	out[31] = (inl >> 9)
-}
-
-func unpack24_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 8; i++ {
-		base := i * 4
-
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base] = (inl >> 0) % (1 << 24)
-		out[base+1] = (inl >> 24)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+1] |= (inl % (1 << 16)) << (24 - 16)
-		out[base+2] = (inl >> 16)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+2] |= (inl % (1 << 8)) << (24 - 8)
-		out[base+3] = (inl >> 8)
-	}
-}
-
-func unpack25_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 25)
-	out[1] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 18)) << (25 - 18)
-	out[2] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 11)) << (25 - 11)
-	out[3] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (25 - 4)
-	out[4] = (inl >> 4) % (1 << 25)
-	out[5] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 22)) << (25 - 22)
-	out[6] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 15)) << (25 - 15)
-	out[7] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (25 - 8)
-	out[8] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 1)) << (25 - 1)
-	out[9] = (inl >> 1) % (1 << 25)
-	out[10] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 19)) << (25 - 19)
-	out[11] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 12)) << (25 - 12)
-	out[12] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 5)) << (25 - 5)
-	out[13] = (inl >> 5) % (1 << 25)
-	out[14] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 23)) << (25 - 23)
-	out[15] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (25 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 9)) << (25 - 9)
-	out[17] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 2)) << (25 - 2)
-	out[18] = (inl >> 2) % (1 << 25)
-	out[19] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 20)) << (25 - 20)
-	out[20] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 13)) << (25 - 13)
-	out[21] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 6)) << (25 - 6)
-	out[22] = (inl >> 6) % (1 << 25)
-	out[23] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 24)) << (25 - 24)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 17)) << (25 - 17)
-	out[25] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 10)) << (25 - 10)
-	out[26] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 3)) << (25 - 3)
-	out[27] = (inl >> 3) % (1 << 25)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 21)) << (25 - 21)
-	out[29] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 14)) << (25 - 14)
-	out[30] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 7)) << (25 - 7)
-	out[31] = (inl >> 7)
-}
-
-func unpack26_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 26)
-	out[1] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 20)) << (26 - 20)
-	out[2] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 14)) << (26 - 14)
-	out[3] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (26 - 8)
-	out[4] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 2)) << (26 - 2)
-	out[5] = (inl >> 2) % (1 << 26)
-	out[6] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 22)) << (26 - 22)
-	out[7] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (26 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 10)) << (26 - 10)
-	out[9] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 4)) << (26 - 4)
-	out[10] = (inl >> 4) % (1 << 26)
-	out[11] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 24)) << (26 - 24)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 18)) << (26 - 18)
-	out[13] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 12)) << (26 - 12)
-	out[14] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 6)) << (26 - 6)
-	out[15] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 26)
-	out[17] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 20)) << (26 - 20)
-	out[18] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 14)) << (26 - 14)
-	out[19] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (26 - 8)
-	out[20] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 2)) << (26 - 2)
-	out[21] = (inl >> 2) % (1 << 26)
-	out[22] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 22)) << (26 - 22)
-	out[23] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (26 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 10)) << (26 - 10)
-	out[25] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 4)) << (26 - 4)
-	out[26] = (inl >> 4) % (1 << 26)
-	out[27] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 24)) << (26 - 24)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 18)) << (26 - 18)
-	out[29] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 12)) << (26 - 12)
-	out[30] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 6)) << (26 - 6)
-	out[31] = (inl >> 6)
-}
-
-func unpack27_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 27)
-	out[1] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 22)) << (27 - 22)
-	out[2] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 17)) << (27 - 17)
-	out[3] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 12)) << (27 - 12)
-	out[4] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 7)) << (27 - 7)
-	out[5] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 2)) << (27 - 2)
-	out[6] = (inl >> 2) % (1 << 27)
-	out[7] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 24)) << (27 - 24)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 19)) << (27 - 19)
-	out[9] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 14)) << (27 - 14)
-	out[10] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 9)) << (27 - 9)
-	out[11] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (27 - 4)
-	out[12] = (inl >> 4) % (1 << 27)
-	out[13] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 26)) << (27 - 26)
-	out[14] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 21)) << (27 - 21)
-	out[15] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (27 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 11)) << (27 - 11)
-	out[17] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 6)) << (27 - 6)
-	out[18] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 1)) << (27 - 1)
-	out[19] = (inl >> 1) % (1 << 27)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 23)) << (27 - 23)
-	out[21] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 18)) << (27 - 18)
-	out[22] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 13)) << (27 - 13)
-	out[23] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (27 - 8)
-	out[24] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 3)) << (27 - 3)
-	out[25] = (inl >> 3) % (1 << 27)
-	out[26] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 25)) << (27 - 25)
-	out[27] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 20)) << (27 - 20)
-	out[28] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 15)) << (27 - 15)
-	out[29] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 10)) << (27 - 10)
-	out[30] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 5)) << (27 - 5)
-	out[31] = (inl >> 5)
-}
-
-func unpack28_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 4; i++ {
-		base := i * 8
-
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base] = (inl >> 0) % (1 << 28)
-		out[base+1] = (inl >> 28)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+1] |= (inl % (1 << 24)) << (28 - 24)
-		out[base+2] = (inl >> 24)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+2] |= (inl % (1 << 20)) << (28 - 20)
-		out[base+3] = (inl >> 20)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+3] |= (inl % (1 << 16)) << (28 - 16)
-		out[base+4] = (inl >> 16)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+4] |= (inl % (1 << 12)) << (28 - 12)
-		out[base+5] = (inl >> 12)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+5] |= (inl % (1 << 8)) << (28 - 8)
-		out[base+6] = (inl >> 8)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+6] |= (inl % (1 << 4)) << (28 - 4)
-		out[base+7] = (inl >> 4)
-	}
-}
-
-func unpack29_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 29)
-	out[1] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 26)) << (29 - 26)
-	out[2] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 23)) << (29 - 23)
-	out[3] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 20)) << (29 - 20)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 17)) << (29 - 17)
-	out[5] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 14)) << (29 - 14)
-	out[6] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 11)) << (29 - 11)
-	out[7] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (29 - 8)
-	out[8] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 5)) << (29 - 5)
-	out[9] = (inl >> 5)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 2)) << (29 - 2)
-	out[10] = (inl >> 2) % (1 << 29)
-	out[11] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 28)) << (29 - 28)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 25)) << (29 - 25)
-	out[13] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 22)) << (29 - 22)
-	out[14] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 19)) << (29 - 19)
-	out[15] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (29 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 13)) << (29 - 13)
-	out[17] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 10)) << (29 - 10)
-	out[18] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 7)) << (29 - 7)
-	out[19] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (29 - 4)
-	out[20] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 1)) << (29 - 1)
-	out[21] = (inl >> 1) % (1 << 29)
-	out[22] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 27)) << (29 - 27)
-	out[23] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 24)) << (29 - 24)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 21)) << (29 - 21)
-	out[25] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 18)) << (29 - 18)
-	out[26] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 15)) << (29 - 15)
-	out[27] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (29 - 12)
-	out[28] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 9)) << (29 - 9)
-	out[29] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 6)) << (29 - 6)
-	out[30] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 3)) << (29 - 3)
-	out[31] = (inl >> 3)
-}
-
-func unpack30_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 30)
-	out[1] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 28)) << (30 - 28)
-	out[2] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 26)) << (30 - 26)
-	out[3] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 24)) << (30 - 24)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 22)) << (30 - 22)
-	out[5] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 20)) << (30 - 20)
-	out[6] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 18)) << (30 - 18)
-	out[7] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (30 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 14)) << (30 - 14)
-	out[9] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 12)) << (30 - 12)
-	out[10] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 10)) << (30 - 10)
-	out[11] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (30 - 8)
-	out[12] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 6)) << (30 - 6)
-	out[13] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 4)) << (30 - 4)
-	out[14] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 2)) << (30 - 2)
-	out[15] = (inl >> 2)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 30)
-	out[17] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 28)) << (30 - 28)
-	out[18] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 26)) << (30 - 26)
-	out[19] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 24)) << (30 - 24)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 22)) << (30 - 22)
-	out[21] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 20)) << (30 - 20)
-	out[22] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 18)) << (30 - 18)
-	out[23] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (30 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 14)) << (30 - 14)
-	out[25] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 12)) << (30 - 12)
-	out[26] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 10)) << (30 - 10)
-	out[27] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (30 - 8)
-	out[28] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 6)) << (30 - 6)
-	out[29] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 4)) << (30 - 4)
-	out[30] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 2)) << (30 - 2)
-	out[31] = (inl >> 2)
-}
-
-func unpack31_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 31)
-	out[1] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 30)) << (31 - 30)
-	out[2] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 29)) << (31 - 29)
-	out[3] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 28)) << (31 - 28)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 27)) << (31 - 27)
-	out[5] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 26)) << (31 - 26)
-	out[6] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 25)) << (31 - 25)
-	out[7] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 24)) << (31 - 24)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 23)) << (31 - 23)
-	out[9] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 22)) << (31 - 22)
-	out[10] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 21)) << (31 - 21)
-	out[11] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 20)) << (31 - 20)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 19)) << (31 - 19)
-	out[13] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 18)) << (31 - 18)
-	out[14] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 17)) << (31 - 17)
-	out[15] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (31 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 15)) << (31 - 15)
-	out[17] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 14)) << (31 - 14)
-	out[18] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 13)) << (31 - 13)
-	out[19] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (31 - 12)
-	out[20] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 11)) << (31 - 11)
-	out[21] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 10)) << (31 - 10)
-	out[22] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 9)) << (31 - 9)
-	out[23] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (31 - 8)
-	out[24] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 7)) << (31 - 7)
-	out[25] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 6)) << (31 - 6)
-	out[26] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 5)) << (31 - 5)
-	out[27] = (inl >> 5)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (31 - 4)
-	out[28] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 3)) << (31 - 3)
-	out[29] = (inl >> 3)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 2)) << (31 - 2)
-	out[30] = (inl >> 2)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 1)) << (31 - 1)
-	out[31] = (inl >> 1)
-}
-
-func unpack32_32(in io.Reader, out []uint32) {
-	for idx := range out[:32] {
-		binary.Read(in, binary.LittleEndian, &out[idx])
-	}
-}
-
-func nullunpack32(_ io.Reader, out []uint32) {
-	out[0] = 0
-	for i := 1; i < 32; i *= 2 {
-		copy(out[i:], out[:i])
-	}
-}
-
-func unpack32Default(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	nloops := batch / 32
-
-	var f unpackFunc
-	switch nbits {
-	case 0:
-		f = nullunpack32
-	case 1:
-		f = unpack1_32
-	case 2:
-		f = unpack2_32
-	case 3:
-		f = unpack3_32
-	case 4:
-		f = unpack4_32
-	case 5:
-		f = unpack5_32
-	case 6:
-		f = unpack6_32
-	case 7:
-		f = unpack7_32
-	case 8:
-		f = unpack8_32
-	case 9:
-		f = unpack9_32
-	case 10:
-		f = unpack10_32
-	case 11:
-		f = unpack11_32
-	case 12:
-		f = unpack12_32
-	case 13:
-		f = unpack13_32
-	case 14:
-		f = unpack14_32
-	case 15:
-		f = unpack15_32
-	case 16:
-		f = unpack16_32
-	case 17:
-		f = unpack17_32
-	case 18:
-		f = unpack18_32
-	case 19:
-		f = unpack19_32
-	case 20:
-		f = unpack20_32
-	case 21:
-		f = unpack21_32
-	case 22:
-		f = unpack22_32
-	case 23:
-		f = unpack23_32
-	case 24:
-		f = unpack24_32
-	case 25:
-		f = unpack25_32
-	case 26:
-		f = unpack26_32
-	case 27:
-		f = unpack27_32
-	case 28:
-		f = unpack28_32
-	case 29:
-		f = unpack29_32
-	case 30:
-		f = unpack30_32
-	case 31:
-		f = unpack31_32
-	case 32:
-		f = unpack32_32
-	default:
-		return 0
-	}
-
-	for i := 0; i < nloops; i++ {
-		f(in, out[i*32:])
-	}
-	return batch
-}
diff --git a/go/parquet/internal/utils/bit_packing_neon_arm64.go b/go/parquet/internal/utils/bit_packing_neon_arm64.go
deleted file mode 100755
index 09154e3e4b7dd..0000000000000
--- a/go/parquet/internal/utils/bit_packing_neon_arm64.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"bytes"
-	"io"
-	"sync"
-	"unsafe"
-)
-
-var bufferPool = sync.Pool{New: func() interface{} { return &bytes.Buffer{} }}
-
-//go:noescape
-func _unpack32_neon(in, out unsafe.Pointer, batchSize, nbits int) (num int)
-
-func unpack32NEON(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	if batch <= 0 {
-		return 0
-	}
-
-	n := batch * nbits / 8
-
-	buffer := bufferPool.Get().(*bytes.Buffer)
-	defer bufferPool.Put(buffer)
-	buffer.Reset()
-	buffer.Grow(n)
-	io.CopyN(buffer, in, int64(n))
-
-	var (
-		input  = unsafe.Pointer(&buffer.Bytes()[0])
-		output = unsafe.Pointer(&out[0])
-	)
-
-	return _unpack32_neon(input, output, len(out), nbits)
-}
diff --git a/go/parquet/internal/utils/bit_packing_neon_arm64.s b/go/parquet/internal/utils/bit_packing_neon_arm64.s
deleted file mode 100644
index 2d18dccdb573b..0000000000000
--- a/go/parquet/internal/utils/bit_packing_neon_arm64.s
+++ /dev/null
@@ -1,6926 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-#include "go_asm.h"
-#include "textflag.h"
-
-#define LCPI0_0L $0x000000000000000e
-#define LCPI0_0H $0x000000000000000f
-#define LCPI0_1L $0x000000000000000c
-#define LCPI0_1H $0x000000000000000d
-#define LCPI0_2L $0x000000000000000a
-#define LCPI0_2H $0x000000000000000b
-#define LCPI0_3L $0x0000000000000008
-#define LCPI0_3H $0x0000000000000009
-#define LCPI0_4L $0x0000000000000006
-#define LCPI0_4H $0x0000000000000007
-#define LCPI0_5L $0x0000000000000004
-#define LCPI0_5H $0x0000000000000005
-#define LCPI0_6L $0x0000000000000002
-#define LCPI0_6H $0x0000000000000003
-#define LCPI0_7L $0x0000000000000000
-#define LCPI0_7H $0x0000000000000001
-
-#define LCPI0_10L $0x0000000500000004
-#define LCPI0_10H $0x0000000700000006
-#define LCPI0_11L $0xffffffe5ffffffe4
-#define LCPI0_11H $0xffffffe7ffffffe6
-#define LCPI0_12L $0x0000000900000008
-#define LCPI0_12H $0x0000000b0000000a
-#define LCPI0_13L $0xffffffe9ffffffe8
-#define LCPI0_13H $0xffffffebffffffea
-#define LCPI0_14L $0x0000000d0000000c
-#define LCPI0_14H $0x0000000f0000000e
-#define LCPI0_15L $0xffffffedffffffec
-#define LCPI0_15H $0xffffffefffffffee
-#define LCPI0_16L $0x0000001100000010
-#define LCPI0_16H $0x0000001300000012
-#define LCPI0_17L $0xfffffff1fffffff0
-#define LCPI0_17H $0xfffffff3fffffff2
-#define LCPI0_18L $0x0000001500000014
-#define LCPI0_18H $0x0000001700000016
-#define LCPI0_19L $0xfffffff5fffffff4
-#define LCPI0_19H $0xfffffff7fffffff6
-#define LCPI0_20L $0x0000001900000018
-#define LCPI0_20H $0x0000001b0000001a
-#define LCPI0_21L $0xfffffff9fffffff8
-#define LCPI0_21H $0xfffffffbfffffffa
-#define LCPI0_26L $0x0000000a00000008
-#define LCPI0_26H $0x0000000e0000000c
-#define LCPI0_27L $0xffffffeaffffffe8
-#define LCPI0_27H $0xffffffeeffffffec
-#define LCPI0_28L $0x0000001200000010
-#define LCPI0_28H $0x0000001600000014
-#define LCPI0_29L $0xfffffff2fffffff0
-#define LCPI0_29H $0xfffffff6fffffff4
-#define LCPI0_34L $0x0000000f0000000c
-#define LCPI0_34H $0x0000001500000012
-#define LCPI0_35L $0xffffffefffffffec
-#define LCPI0_35H $0xfffffff5fffffff2
-#define LCPI0_38L $0x0000000700000004
-#define LCPI0_38H $0x0000000d0000000a
-#define LCPI0_39L $0xffffffe7ffffffe4
-#define LCPI0_39H $0xffffffedffffffea
-#define LCPI0_40L $0x0000001300000010
-#define LCPI0_40H $0x0000001900000016
-#define LCPI0_41L $0xfffffff3fffffff0
-#define LCPI0_41H $0xfffffff9fffffff6
-#define LCPI0_44L $0x0000000b00000008
-#define LCPI0_44H $0x000000110000000e
-#define LCPI0_45L $0xffffffebffffffe8
-#define LCPI0_45H $0xfffffff1ffffffee
-#define LCPI0_56L $0x0000000d00000008
-#define LCPI0_56H $0x0000001700000012
-#define LCPI0_57L $0xffffffedffffffe8
-#define LCPI0_57H $0xfffffff7fffffff2
-#define LCPI0_62L $0x0000000900000004
-#define LCPI0_62H $0x000000130000000e
-#define LCPI0_63L $0xffffffe9ffffffe4
-#define LCPI0_63H $0xfffffff3ffffffee
-#define LCPI0_173L $0xfffffff5fffffffc
-#define LCPI0_173H $0xffffffe7ffffffee
-#define LCPI0_177L $0xfffffff2fffffff8
-#define LCPI0_177H $0xffffffe6ffffffec
-#define LCPI0_180L $0xfffffff3fffffff8
-#define LCPI0_180H $0xffffffe9ffffffee
-#define LCPI0_183L $0xfffffff7fffffffc
-#define LCPI0_183H $0xffffffedfffffff2
-#define LCPI0_185L $0xffffffeffffffff4
-#define LCPI0_185H $0xffffffe5ffffffea
-#define LCPI0_187L $0xffffffecfffffff0
-#define LCPI0_187H $0xffffffe4ffffffe8
-#define LCPI0_189L $0xfffffff1fffffff4
-#define LCPI0_189H $0xffffffebffffffee
-#define LCPI0_191L $0xfffffff9fffffffc
-#define LCPI0_191H $0xfffffff3fffffff6
-#define LCPI0_192L $0xffffffedfffffff0
-#define LCPI0_192H $0xffffffe7ffffffea
-#define LCPI0_194L $0xfffffff5fffffff8
-#define LCPI0_194H $0xffffffeffffffff2
-#define LCPI0_195L $0xffffffe9ffffffec
-#define LCPI0_195H $0xffffffe3ffffffe6
-#define LCPI0_197L $0xfffffff6fffffff8
-#define LCPI0_197H $0xfffffff2fffffff4
-#define LCPI0_198L $0xffffffeefffffff0
-#define LCPI0_198H $0xffffffeaffffffec
-#define LCPI0_199L $0xffffffe6ffffffe8
-#define LCPI0_199H $0xffffffe2ffffffe4
-#define LCPI0_201L $0xfffffffbfffffffc
-#define LCPI0_201H $0xfffffff9fffffffa
-#define LCPI0_202L $0xfffffff7fffffff8
-#define LCPI0_202H $0xfffffff5fffffff6
-#define LCPI0_203L $0xfffffff3fffffff4
-#define LCPI0_203H $0xfffffff1fffffff2
-#define LCPI0_204L $0xffffffeffffffff0
-#define LCPI0_204H $0xffffffedffffffee
-#define LCPI0_205L $0xffffffebffffffec
-#define LCPI0_205H $0xffffffe9ffffffea
-#define LCPI0_206L $0xffffffe7ffffffe8
-#define LCPI0_206H $0xffffffe5ffffffe6
-#define LCPI0_207L $0xffffffe3ffffffe4
-#define LCPI0_207H $0xffffffe1ffffffe2
-
-#define LCPI0_8 $0x0000000200000001
-#define LCPI0_9 $0xffffffe2ffffffe1
-#define LCPI0_22 $0x0000001d0000001c
-#define LCPI0_23 $0xfffffffdfffffffc
-#define LCPI0_24 $0x0000000400000002
-#define LCPI0_25 $0xffffffe4ffffffe2
-#define LCPI0_30 $0x0000001a00000018
-#define LCPI0_31 $0xfffffffafffffff8
-#define LCPI0_32 $0x0000000600000003
-#define LCPI0_33 $0xffffffe6ffffffe3
-#define LCPI0_36 $0x0000001b00000018
-#define LCPI0_37 $0xfffffffbfffffff8
-#define LCPI0_42 $0x0000000500000002
-#define LCPI0_43 $0xffffffe5ffffffe2
-#define LCPI0_46 $0x0000001700000014
-#define LCPI0_47 $0xfffffff7fffffff4
-#define LCPI0_48 $0x0000000800000004
-#define LCPI0_49 $0xffffffe8ffffffe4
-#define LCPI0_50 $0x0000001400000010
-#define LCPI0_51 $0xfffffff4fffffff0
-#define LCPI0_52 $0x0000000a00000005
-#define LCPI0_53 $0xffffffeaffffffe5
-#define LCPI0_54 $0x0000001900000014
-#define LCPI0_55 $0xfffffff9fffffff4
-#define LCPI0_58 $0x0000000600000001
-#define LCPI0_59 $0xffffffe6ffffffe1
-#define LCPI0_60 $0x0000001500000010
-#define LCPI0_61 $0xfffffff5fffffff0
-#define LCPI0_64 $0x0000000700000002
-#define LCPI0_65 $0xffffffe7ffffffe2
-#define LCPI0_66 $0x000000110000000c
-#define LCPI0_67 $0xfffffff1ffffffec
-#define LCPI0_68 $0x0000000c00000006
-#define LCPI0_69 $0xffffffecffffffe6
-#define LCPI0_70 $0x0000000a00000004
-#define LCPI0_71 $0xffffffeaffffffe4
-#define LCPI0_72 $0x0000001600000010
-#define LCPI0_73 $0xfffffff6fffffff0
-#define LCPI0_74 $0x0000000e00000008
-#define LCPI0_75 $0xffffffeeffffffe8
-#define LCPI0_76 $0x0000000e00000007
-#define LCPI0_77 $0xffffffeeffffffe7
-#define LCPI0_78 $0x0000000a00000003
-#define LCPI0_79 $0xffffffeaffffffe3
-#define LCPI0_80 $0x0000000d00000006
-#define LCPI0_81 $0xffffffedffffffe6
-#define LCPI0_82 $0x0000000900000002
-#define LCPI0_83 $0xffffffe9ffffffe2
-#define LCPI0_84 $0x0000001700000010
-#define LCPI0_85 $0xfffffff7fffffff0
-#define LCPI0_86 $0x000000130000000c
-#define LCPI0_87 $0xfffffff3ffffffec
-#define LCPI0_88 $0x0000000f00000008
-#define LCPI0_89 $0xffffffefffffffe8
-#define LCPI0_90 $0x0000000b00000004
-#define LCPI0_91 $0xffffffebffffffe4
-#define LCPI0_92 $0x0000001000000008
-#define LCPI0_93 $0xfffffff0ffffffe8
-#define LCPI0_94 $0x0000001200000009
-#define LCPI0_95 $0xfffffff2ffffffe9
-#define LCPI0_96 $0x0000000d00000004
-#define LCPI0_97 $0xffffffedffffffe4
-#define LCPI0_98 $0x0000001100000008
-#define LCPI0_99 $0xfffffff1ffffffe8
-#define LCPI0_100 $0x000000150000000c
-#define LCPI0_101 $0xfffffff5ffffffec
-#define LCPI0_102 $0x0000000b00000002
-#define LCPI0_103 $0xffffffebffffffe2
-#define LCPI0_104 $0x0000000f00000006
-#define LCPI0_105 $0xffffffefffffffe6
-#define LCPI0_106 $0x0000000a00000001
-#define LCPI0_107 $0xffffffeaffffffe1
-#define LCPI0_108 $0x0000000e00000005
-#define LCPI0_109 $0xffffffeeffffffe5
-#define LCPI0_110 $0x000000140000000a
-#define LCPI0_111 $0xfffffff4ffffffea
-#define LCPI0_112 $0x0000001200000008
-#define LCPI0_113 $0xfffffff2ffffffe8
-#define LCPI0_114 $0x0000000e00000004
-#define LCPI0_115 $0xffffffeeffffffe4
-#define LCPI0_116 $0x0000000c00000002
-#define LCPI0_117 $0xffffffecffffffe2
-#define LCPI0_118 $0x0000000d00000002
-#define LCPI0_119 $0xffffffedffffffe2
-#define LCPI0_120 $0x0000000e00000003
-#define LCPI0_121 $0xffffffeeffffffe3
-#define LCPI0_122 $0x0000000f00000004
-#define LCPI0_123 $0xffffffefffffffe4
-#define LCPI0_124 $0x0000001100000006
-#define LCPI0_125 $0xfffffff1ffffffe6
-#define LCPI0_126 $0x0000001200000007
-#define LCPI0_127 $0xfffffff2ffffffe7
-#define LCPI0_128 $0x0000001300000008
-#define LCPI0_129 $0xfffffff3ffffffe8
-#define LCPI0_130 $0x0000000e00000001
-#define LCPI0_131 $0xffffffeeffffffe1
-#define LCPI0_132 $0x0000000f00000002
-#define LCPI0_133 $0xffffffefffffffe2
-#define LCPI0_134 $0x0000001100000004
-#define LCPI0_135 $0xfffffff1ffffffe4
-#define LCPI0_136 $0x0000001200000005
-#define LCPI0_137 $0xfffffff2ffffffe5
-#define LCPI0_138 $0xffffffeffffffffe
-#define LCPI0_139 $0xffffffeefffffffc
-#define LCPI0_140 $0xfffffff2ffffffff
-#define LCPI0_141 $0xfffffff1fffffffe
-#define LCPI0_142 $0xffffffeffffffffc
-#define LCPI0_143 $0xffffffeefffffffb
-#define LCPI0_144 $0xffffffedfffffffa
-#define LCPI0_145 $0xffffffecfffffff8
-#define LCPI0_146 $0xfffffff3fffffffe
-#define LCPI0_147 $0xfffffff2fffffffd
-#define LCPI0_148 $0xfffffff1fffffffc
-#define LCPI0_149 $0xffffffeffffffffa
-#define LCPI0_150 $0xffffffeefffffff9
-#define LCPI0_151 $0xffffffedfffffff8
-#define LCPI0_152 $0xffffffebfffffff6
-#define LCPI0_153 $0xffffffecfffffff6
-#define LCPI0_154 $0xffffffeefffffff8
-#define LCPI0_155 $0xfffffff2fffffffc
-#define LCPI0_156 $0xfffffff4fffffffe
-#define LCPI0_157 $0xffffffeefffffff7
-#define LCPI0_158 $0xfffffff3fffffffc
-#define LCPI0_159 $0xffffffeffffffff8
-#define LCPI0_160 $0xffffffebfffffff4
-#define LCPI0_161 $0xfffffff5fffffffe
-#define LCPI0_162 $0xfffffff1fffffffa
-#define LCPI0_163 $0xfffffff6ffffffff
-#define LCPI0_164 $0xfffffff2fffffffb
-#define LCPI0_165 $0xfffffff0fffffff8
-#define LCPI0_166 $0xfffffff2fffffff9
-#define LCPI0_167 $0xfffffff6fffffffd
-#define LCPI0_168 $0xfffffff3fffffffa
-#define LCPI0_169 $0xfffffff7fffffffe
-#define LCPI0_170 $0xffffffe9fffffff0
-#define LCPI0_171 $0xffffffedfffffff4
-#define LCPI0_172 $0xfffffff1fffffff8
-#define LCPI0_174 $0xfffffff4fffffffa
-#define LCPI0_175 $0xfffffff6fffffffc
-#define LCPI0_176 $0xffffffeafffffff0
-#define LCPI0_178 $0xfffffff6fffffffb
-#define LCPI0_179 $0xffffffe7ffffffec
-#define LCPI0_181 $0xfffffffaffffffff
-#define LCPI0_182 $0xffffffebfffffff0
-#define LCPI0_184 $0xfffffff9fffffffe
-#define LCPI0_186 $0xfffffff8fffffffc
-#define LCPI0_188 $0xfffffffafffffffd
-#define LCPI0_190 $0xffffffe5ffffffe8
-#define LCPI0_193 $0xfffffffbfffffffe
-#define LCPI0_196 $0xfffffffcfffffffe
-#define LCPI0_200 $0xfffffffeffffffff
-
-TEXT ·_unpack32_neon(SB), $0-40
-
-	MOVD in+0(FP), R0
-	MOVD out+8(FP), R1
-	MOVD batchSize+16(FP), R2
-	MOVD nbits+24(FP), R3
-	// LEAQ LCDATA1<>(SB), BP
-
-	// %bb.0:
-	WORD $0xa9ba7bfd // stp    x29, x30, [sp, #-96]!
-	WORD $0xd10643e9 // sub    x9, sp, #400
-	WORD $0xa9016ffc // stp    x28, x27, [sp, #16]
-	WORD $0xa90267fa // stp    x26, x25, [sp, #32]
-	WORD $0x910003fd // mov    x29, sp
-	WORD $0xa9035ff8 // stp    x24, x23, [sp, #48]
-	WORD $0xa90457f6 // stp    x22, x21, [sp, #64]
-	WORD $0xa9054ff4 // stp    x20, x19, [sp, #80]
-	WORD $0x927df13f // and    sp, x9, #0xfffffffffffffff8
-	WORD $0x11007c48 // add    w8, w2, #31
-	WORD $0x7100005f // cmp    w2, #0
-	WORD $0x1a82b108 // csel    w8, w8, w2, lt
-	WORD $0xaa0103fa // mov    x26, x1
-	WORD $0x13057d13 // asr    w19, w8, #5
-	WORD $0x71003c7f // cmp    w3, #15
-	BLE LBB0_14
-
-	// %bb.1:
-	WORD $0x71005c7f // cmp    w3, #23
-	BLE LBB0_22
-
-	// %bb.2:
-	WORD $0x71006c7f // cmp    w3, #27
-	BLE LBB0_36
-
-	// %bb.3:
-	WORD $0x7100747f // cmp    w3, #29
-	BLE LBB0_60
-
-	// %bb.4:
-	WORD $0x7100787f // cmp    w3, #30
-	BEQ LBB0_148
-
-	// %bb.5:
-	WORD $0x71007c7f // cmp    w3, #31
-	BEQ LBB0_100
-
-	// %bb.6:
-	WORD $0x7100807f // cmp    w3, #32
-	BNE LBB0_156
-
-	// %bb.7:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.8:
-	WORD $0x7100427f // cmp    w19, #16
-	BLO LBB0_11
-
-	// %bb.9:
-	WORD $0xd379e268 // lsl    x8, x19, #7
-	WORD $0x8b080009 // add    x9, x0, x8
-	WORD $0xeb1a013f // cmp    x9, x26
-	BLS LBB0_157
-
-	// %bb.10:
-	WORD $0x8b080348 // add    x8, x26, x8
-	WORD $0xeb00011f // cmp    x8, x0
-	BLS LBB0_157
-
-LBB0_11:
-	WORD $0xf9000fff // str    xzr, [sp, #24]
-
-LBB0_12:
-	WORD $0xf9400fe8 // ldr    x8, [sp, #24]
-	WORD $0x8b081f4a // add    x10, x26, x8, lsl #7
-	WORD $0xcb080268 // sub    x8, x19, x8
-	WORD $0x9101014a // add    x10, x10, #64
-
-LBB0_13:
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0xb81c014b // stur    w11, [x10, #-64]
-	WORD $0xb940040b // ldr    w11, [x0, #4]
-	WORD $0xb81c414b // stur    w11, [x10, #-60]
-	WORD $0xb940080b // ldr    w11, [x0, #8]
-	WORD $0xb81c814b // stur    w11, [x10, #-56]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0xb81cc14b // stur    w11, [x10, #-52]
-	WORD $0xb940100b // ldr    w11, [x0, #16]
-	WORD $0xb81d014b // stur    w11, [x10, #-48]
-	WORD $0xb940140b // ldr    w11, [x0, #20]
-	WORD $0xb81d414b // stur    w11, [x10, #-44]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0xb81d814b // stur    w11, [x10, #-40]
-	WORD $0xb9401c0b // ldr    w11, [x0, #28]
-	WORD $0xb81dc14b // stur    w11, [x10, #-36]
-	WORD $0xb940200b // ldr    w11, [x0, #32]
-	WORD $0xb81e014b // stur    w11, [x10, #-32]
-	WORD $0xb940240b // ldr    w11, [x0, #36]
-	WORD $0xb81e414b // stur    w11, [x10, #-28]
-	WORD $0xb940280b // ldr    w11, [x0, #40]
-	WORD $0xb81e814b // stur    w11, [x10, #-24]
-	WORD $0xb9402c0b // ldr    w11, [x0, #44]
-	WORD $0xb81ec14b // stur    w11, [x10, #-20]
-	WORD $0xb940300b // ldr    w11, [x0, #48]
-	WORD $0xb81f014b // stur    w11, [x10, #-16]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0xb81f414b // stur    w11, [x10, #-12]
-	WORD $0xb940380b // ldr    w11, [x0, #56]
-	WORD $0xb81f814b // stur    w11, [x10, #-8]
-	WORD $0xb9403c0b // ldr    w11, [x0, #60]
-	WORD $0xb81fc14b // stur    w11, [x10, #-4]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0xb900014b // str    w11, [x10]
-	WORD $0xb940440b // ldr    w11, [x0, #68]
-	WORD $0xb900054b // str    w11, [x10, #4]
-	WORD $0xb940480b // ldr    w11, [x0, #72]
-	WORD $0xb900094b // str    w11, [x10, #8]
-	WORD $0xb9404c0b // ldr    w11, [x0, #76]
-	WORD $0xb9000d4b // str    w11, [x10, #12]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0xb900114b // str    w11, [x10, #16]
-	WORD $0xb940540b // ldr    w11, [x0, #84]
-	WORD $0xb900154b // str    w11, [x10, #20]
-	WORD $0xb940580b // ldr    w11, [x0, #88]
-	WORD $0xb900194b // str    w11, [x10, #24]
-	WORD $0xb9405c0b // ldr    w11, [x0, #92]
-	WORD $0xb9001d4b // str    w11, [x10, #28]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0xb900214b // str    w11, [x10, #32]
-	WORD $0xb940640b // ldr    w11, [x0, #100]
-	WORD $0xb900254b // str    w11, [x10, #36]
-	WORD $0xb940680b // ldr    w11, [x0, #104]
-	WORD $0xb900294b // str    w11, [x10, #40]
-	WORD $0xb9406c0b // ldr    w11, [x0, #108]
-	WORD $0xb9002d4b // str    w11, [x10, #44]
-	WORD $0xb940700b // ldr    w11, [x0, #112]
-	WORD $0xb900314b // str    w11, [x10, #48]
-	WORD $0xb940740b // ldr    w11, [x0, #116]
-	WORD $0xb900354b // str    w11, [x10, #52]
-	WORD $0xb940780b // ldr    w11, [x0, #120]
-	WORD $0xb900394b // str    w11, [x10, #56]
-	WORD $0xb9407c0b // ldr    w11, [x0, #124]
-	WORD $0x91020000 // add    x0, x0, #128
-	WORD $0xb9003d4b // str    w11, [x10, #60]
-	WORD $0x9102014a // add    x10, x10, #128
-	BNE LBB0_13
-	JMP LBB0_156
-
-LBB0_14:
-	WORD $0x71001c7f // cmp    w3, #7
-	BGT LBB0_29
-
-	// %bb.15:
-	WORD $0x71000c7f // cmp    w3, #3
-	BGT LBB0_42
-
-	// %bb.16:
-	WORD $0x7100047f // cmp    w3, #1
-	BGT LBB0_65
-
-	// %bb.17:
-	WORD $0x34000003 // cbz    w3, .LBB0_103
-
-	// %bb.18:
-	WORD $0x7100047f // cmp    w3, #1
-	BNE LBB0_156
-
-	// %bb.19:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.20:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_201
-	// WORD $0x90000008 // adrp    x8, .LCPI0_200
-	// WORD $0x9000000a // adrp    x10, .LCPI0_202
-	// WORD $0x9000000b // adrp    x11, .LCPI0_206
-	WORD $0x4f000427 // movi    v7.4s, #1
-	VMOVQ LCPI0_201L, LCPI0_201H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_204
-	VMOVD LCPI0_200, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_203
-	VMOVQ LCPI0_202L, LCPI0_202H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_205
-	VMOVQ LCPI0_204L, LCPI0_204H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_207
-	VMOVQ LCPI0_203L, LCPI0_203H, V3
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_205L, LCPI0_205H, V5
-	WORD $0xaa0003ea // mov    x10, x0
-	VMOVQ LCPI0_206L, LCPI0_206H, V6
-	VMOVQ LCPI0_207L, LCPI0_207H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_21:
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x53037d6b // lsr    w11, w11, #3
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d71 // mov    v17.s[3], w11
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x4ddfc951 // ld1r    { v17.4s }, [x10], #4
-	WORD $0x6ea14631 // ushl    v17.4s, v17.4s, v1.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea34631 // ushl    v17.4s, v17.4s, v3.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea54631 // ushl    v17.4s, v17.4s, v5.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea64631 // ushl    v17.4s, v17.4s, v6.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0xaa0a03e0 // mov    x0, x10
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_21
-	JMP LBB0_156
-
-LBB0_22:
-	WORD $0x71004c7f // cmp    w3, #19
-	BGT LBB0_48
-
-	// %bb.23:
-	WORD $0x7100447f // cmp    w3, #17
-	BGT LBB0_70
-
-	// %bb.24:
-	WORD $0x7100407f // cmp    w3, #16
-	BEQ LBB0_106
-
-	// %bb.25:
-	WORD $0x7100447f // cmp    w3, #17
-	BNE LBB0_156
-
-	// %bb.26:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.27:
-	WORD $0x4f00d420 // movi    v0.4s, #1, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_28:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a456c // extr    w12, w11, w10, #17
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b4d8a // extr    w10, w12, w11, #19
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940100c // ldr    w12, [x0, #16]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b5d8a // extr    w10, w12, w11, #23
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940180c // ldr    w12, [x0, #24]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b6d8a // extr    w10, w12, w11, #27
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530e7d6a // lsr    w10, w11, #14
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b7d8a // extr    w10, w12, w11, #31
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53017d6c // lsr    w12, w11, #1
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0x138b494b // extr    w11, w10, w11, #18
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53057d6c // lsr    w12, w11, #5
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940300a // ldr    w10, [x0, #48]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53097d6c // lsr    w12, w11, #9
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x29472c0a // ldp    w10, w11, [x0, #56]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x530d7d6c // lsr    w12, w11, #13
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940400a // ldr    w10, [x0, #64]
-	WORD $0x91011000 // add    x0, x0, #68
-	WORD $0x138b794b // extr    w11, w10, w11, #30
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530f7d4a // lsr    w10, w10, #15
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_28
-	JMP LBB0_156
-
-LBB0_29:
-	WORD $0x71002c7f // cmp    w3, #11
-	BGT LBB0_54
-
-	// %bb.30:
-	WORD $0x7100247f // cmp    w3, #9
-	BGT LBB0_75
-
-	// %bb.31:
-	WORD $0x7100207f // cmp    w3, #8
-	BEQ LBB0_109
-
-	// %bb.32:
-	WORD $0x7100247f // cmp    w3, #9
-	BNE LBB0_156
-
-	// %bb.33:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.34:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_157
-	// WORD $0x90000009 // adrp    x9, .LCPI0_158
-	// WORD $0x9000000a // adrp    x10, .LCPI0_159
-	WORD $0x4f00c427 // movi    v7.4s, #1, msl #8
-	VMOVD LCPI0_157, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_160
-	VMOVD LCPI0_158, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_161
-	VMOVD LCPI0_159, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_162
-	VMOVD LCPI0_160, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_163
-	VMOVD LCPI0_161, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_164
-	VMOVD LCPI0_162, V5
-	VMOVD LCPI0_163, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_164, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_35:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x53167d4c // lsr    w12, w10, #22
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53137d6a // lsr    w10, w11, #19
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x91009000 // add    x0, x0, #36
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53177d6a // lsr    w10, w11, #23
-	WORD $0x2eb04631 // ushl    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_35
-	JMP LBB0_156
-
-LBB0_36:
-	WORD $0x7100647f // cmp    w3, #25
-	BGT LBB0_80
-
-	// %bb.37:
-	WORD $0x7100607f // cmp    w3, #24
-	BEQ LBB0_112
-
-	// %bb.38:
-	WORD $0x7100647f // cmp    w3, #25
-	BNE LBB0_156
-
-	// %bb.39:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.40:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_76
-	// WORD $0x90000009 // adrp    x9, .LCPI0_77
-	// WORD $0x9000000a // adrp    x10, .LCPI0_78
-	// WORD $0x9000000b // adrp    x11, .LCPI0_91
-	VMOVD LCPI0_76, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_79
-	VMOVD LCPI0_77, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_80
-	VMOVD LCPI0_78, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_81
-	VMOVD LCPI0_79, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_82
-	VMOVD LCPI0_80, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_83
-	VMOVD LCPI0_81, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_84
-	VMOVD LCPI0_82, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_85
-	VMOVD LCPI0_83, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_86
-	VMOVD LCPI0_84, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_87
-	VMOVD LCPI0_85, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_88
-	VMOVD LCPI0_86, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_89
-	VMOVD LCPI0_87, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_90
-	VMOVD LCPI0_88, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_89, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_90, V22
-	VMOVD LCPI0_91, V23
-
-LBB0_41:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a2d6a // extr    w10, w11, w10, #11
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0xfd400818 // ldr    d24, [x0, #16]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2ea2471a // ushl    v26.2s, v24.2s, v2.2s
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x2ea34739 // ushl    v25.2s, v25.2s, v3.2s
-	WORD $0x138a3d6a // extr    w10, w11, w10, #15
-	WORD $0x0eb91f59 // orr    v25.8b, v26.8b, v25.8b
-	WORD $0x6e196378 // ext    v24.16b, v27.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0x2943280b // ldp    w11, w10, [x0, #24]
-	WORD $0xfd401018 // ldr    d24, [x0, #32]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2ea44718 // ushl    v24.2s, v24.2s, v4.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2ea54739 // ushl    v25.2s, v25.2s, v5.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f0777da // bic    v26.4s, #254, lsl #24
-	WORD $0x3c9e011a // stur    q26, [x8, #-32]
-	WORD $0x2944a80b // ldp    w11, w10, [x0, #36]
-	WORD $0xfc42c018 // ldur    d24, [x0, #44]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b314b // extr    w11, w10, w11, #12
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2ea64718 // ushl    v24.2s, v24.2s, v6.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2ea74739 // ushl    v25.2s, v25.2s, v7.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f0777da // bic    v26.4s, #254, lsl #24
-	WORD $0x3c9f011a // stur    q26, [x8, #-16]
-	WORD $0xfc434018 // ldur    d24, [x0, #52]
-	WORD $0xbd403019 // ldr    s25, [x0, #48]
-	WORD $0xb9403c0c // ldr    w12, [x0, #60]
-	WORD $0x2eb0471a // ushl    v26.2s, v24.2s, v16.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a6d8a // extr    w10, w12, w10, #27
-	WORD $0x2eb14739 // ushl    v25.2s, v25.2s, v17.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xfd402018 // ldr    d24, [x0, #64]
-	WORD $0xbd403c19 // ldr    s25, [x0, #60]
-	WORD $0xb940480c // ldr    w12, [x0, #72]
-	WORD $0x2eb2471a // ushl    v26.2s, v24.2s, v18.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a7d8a // extr    w10, w12, w10, #31
-	WORD $0x2eb34739 // ushl    v25.2s, v25.2s, v19.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0xfc44c018 // ldur    d24, [x0, #76]
-	WORD $0xbd404819 // ldr    s25, [x0, #72]
-	WORD $0xb940540b // ldr    w11, [x0, #84]
-	WORD $0x2eb4471a // ushl    v26.2s, v24.2s, v20.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2eb54739 // ushl    v25.2s, v25.2s, v21.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd402c18 // ldr    d24, [x0, #88]
-	WORD $0xbd405419 // ldr    s25, [x0, #84]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0x91019000 // add    x0, x0, #100
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_41
-	JMP LBB0_156
-
-LBB0_42:
-	WORD $0x7100147f // cmp    w3, #5
-	BGT LBB0_85
-
-	// %bb.43:
-	WORD $0x7100107f // cmp    w3, #4
-	BEQ LBB0_115
-
-	// %bb.44:
-	WORD $0x7100147f // cmp    w3, #5
-	BNE LBB0_156
-
-	// %bb.45:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.46:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_178
-	// WORD $0x90000009 // adrp    x9, .LCPI0_179
-	// WORD $0x9000000a // adrp    x10, .LCPI0_180
-	WORD $0x4f0007e7 // movi    v7.4s, #31
-	VMOVD LCPI0_178, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_181
-	VMOVD LCPI0_179, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_182
-	VMOVQ LCPI0_180L, LCPI0_180H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_183
-	VMOVD LCPI0_181, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_184
-	VMOVD LCPI0_182, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_185
-	VMOVQ LCPI0_183L, LCPI0_183H, V5
-	VMOVD LCPI0_184, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_185L, LCPI0_185H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_47:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530f7d4a // lsr    w10, w10, #15
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100100a // add    x10, x0, #4
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530b7d6a // lsr    w10, w11, #11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x531a7d4c // lsr    w12, w10, #26
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100300a // add    x10, x0, #12
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea54631 // ushl    v17.4s, v17.4s, v5.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0x91005000 // add    x0, x0, #20
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_47
-	JMP LBB0_156
-
-LBB0_48:
-	WORD $0x7100547f // cmp    w3, #21
-	BGT LBB0_90
-
-	// %bb.49:
-	WORD $0x7100507f // cmp    w3, #20
-	BEQ LBB0_118
-
-	// %bb.50:
-	WORD $0x7100547f // cmp    w3, #21
-	BNE LBB0_156
-
-	// %bb.51:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.52:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_118
-	// WORD $0x90000009 // adrp    x9, .LCPI0_119
-	// WORD $0x9000000a // adrp    x10, .LCPI0_120
-	WORD $0x4f00d7f3 // movi    v19.4s, #31, msl #16
-	VMOVD LCPI0_118, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_121
-	VMOVD LCPI0_119, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_122
-	VMOVD LCPI0_120, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_123
-	VMOVD LCPI0_121, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_124
-	VMOVD LCPI0_122, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_125
-	VMOVD LCPI0_123, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_126
-	VMOVD LCPI0_124, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_127
-	VMOVD LCPI0_125, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_128
-	VMOVD LCPI0_126, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_129
-	VMOVD LCPI0_127, V17
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_128, V18
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_129, V20
-
-LBB0_53:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a556c // extr    w12, w11, w10, #21
-	WORD $0x1e270155 // fmov    s21, w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e0c1d95 // mov    v21.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d55 // mov    v21.s[2], w10
-	WORD $0x138b7d8a // extr    w10, w12, w11, #31
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9c0115 // stur    q21, [x8, #-64]
-	WORD $0x2941280b // ldp    w11, w10, [x0, #8]
-	WORD $0xfd400815 // ldr    d21, [x0, #16]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x2ea046b5 // ushl    v21.2s, v21.2s, v0.2s
-	WORD $0x1e270177 // fmov    s23, w11
-	WORD $0x2ea146d6 // ushl    v22.2s, v22.2s, v1.2s
-	WORD $0x4e0c1d57 // mov    v23.s[1], w10
-	WORD $0x0eb61eb5 // orr    v21.8b, v21.8b, v22.8b
-	WORD $0x6e1806b7 // mov    v23.d[1], v21.d[0]
-	WORD $0x4e331ef5 // and    v21.16b, v23.16b, v19.16b
-	WORD $0x3c9d0115 // stur    q21, [x8, #-48]
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0xfd400c15 // ldr    d21, [x0, #24]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea246b7 // ushl    v23.2s, v21.2s, v2.2s
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x1e270158 // fmov    s24, w10
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x2ea346d6 // ushl    v22.2s, v22.2s, v3.2s
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x0eb61ef6 // orr    v22.8b, v23.8b, v22.8b
-	WORD $0x6e166315 // ext    v21.16b, v24.16b, v22.16b, #12
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9e0115 // stur    q21, [x8, #-32]
-	WORD $0xfd401015 // ldr    d21, [x0, #32]
-	WORD $0xbd401c16 // ldr    s22, [x0, #28]
-	WORD $0xb940280c // ldr    w12, [x0, #40]
-	WORD $0x2ea446b7 // ushl    v23.2s, v21.2s, v4.2s
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a6d8a // extr    w10, w12, w10, #27
-	WORD $0x2ea546d6 // ushl    v22.2s, v22.2s, v5.2s
-	WORD $0x0eb61ef5 // orr    v21.8b, v23.8b, v22.8b
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9f0115 // stur    q21, [x8, #-16]
-	WORD $0x2945280b // ldp    w11, w10, [x0, #40]
-	WORD $0xfd401815 // ldr    d21, [x0, #48]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x2ea646b5 // ushl    v21.2s, v21.2s, v6.2s
-	WORD $0x1e270177 // fmov    s23, w11
-	WORD $0x2ea746d6 // ushl    v22.2s, v22.2s, v7.2s
-	WORD $0x4e0c1d57 // mov    v23.s[1], w10
-	WORD $0x0eb61eb5 // orr    v21.8b, v21.8b, v22.8b
-	WORD $0x6e1806b7 // mov    v23.d[1], v21.d[0]
-	WORD $0x4e331ef5 // and    v21.16b, v23.16b, v19.16b
-	WORD $0x3d800115 // str    q21, [x8]
-	WORD $0xb940340a // ldr    w10, [x0, #52]
-	WORD $0xfd401c15 // ldr    d21, [x0, #56]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2eb046b7 // ushl    v23.2s, v21.2s, v16.2s
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x1e270158 // fmov    s24, w10
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x2eb146d6 // ushl    v22.2s, v22.2s, v17.2s
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0eb61ef6 // orr    v22.8b, v23.8b, v22.8b
-	WORD $0x6e166315 // ext    v21.16b, v24.16b, v22.16b, #12
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800515 // str    q21, [x8, #16]
-	WORD $0xfd402015 // ldr    d21, [x0, #64]
-	WORD $0xbd403c16 // ldr    s22, [x0, #60]
-	WORD $0xb940480c // ldr    w12, [x0, #72]
-	WORD $0x2eb246b7 // ushl    v23.2s, v21.2s, v18.2s
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a5d8a // extr    w10, w12, w10, #23
-	WORD $0x2eb446d6 // ushl    v22.2s, v22.2s, v20.2s
-	WORD $0x0eb61ef5 // orr    v21.8b, v23.8b, v22.8b
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800915 // str    q21, [x8, #32]
-	WORD $0x29492c0a // ldp    w10, w11, [x0, #72]
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x53017d6c // lsr    w12, w11, #1
-	WORD $0x1e270155 // fmov    s21, w10
-	WORD $0xb940500a // ldr    w10, [x0, #80]
-	WORD $0x91015000 // add    x0, x0, #84
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d95 // mov    v21.s[1], w12
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800d15 // str    q21, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_53
-	JMP LBB0_156
-
-LBB0_54:
-	WORD $0x7100347f // cmp    w3, #13
-	BGT LBB0_95
-
-	// %bb.55:
-	WORD $0x7100307f // cmp    w3, #12
-	BEQ LBB0_121
-
-	// %bb.56:
-	WORD $0x7100347f // cmp    w3, #13
-	BNE LBB0_156
-
-	// %bb.57:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.58:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_140
-	// WORD $0x90000009 // adrp    x9, .LCPI0_141
-	// WORD $0x9000000a // adrp    x10, .LCPI0_142
-	// WORD $0x9000000b // adrp    x11, .LCPI0_143
-	// WORD $0x9000000c // adrp    x12, .LCPI0_144
-	WORD $0x4f00c7e3 // movi    v3.4s, #31, msl #8
-	VMOVD LCPI0_140, V0
-	VMOVD LCPI0_141, V1
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_142, V2
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_143, V4
-	VMOVD LCPI0_144, V5
-
-LBB0_59:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530d7d4c // lsr    w12, w10, #13
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x4e0c1d86 // mov    v6.s[1], w12
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9c0106 // stur    q6, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x1e270147 // fmov    s7, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x2ea044c6 // ushl    v6.2s, v6.2s, v0.2s
-	WORD $0x138b6d4a // extr    w10, w10, w11, #27
-	WORD $0x6e0720e7 // ext    v7.16b, v7.16b, v7.16b, #4
-	WORD $0x6e0660e6 // ext    v6.16b, v7.16b, v6.16b, #12
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9d0106 // stur    q6, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x1e270187 // fmov    s7, w12
-	WORD $0x2ea144c6 // ushl    v6.2s, v6.2s, v1.2s
-	WORD $0x4e0c1d47 // mov    v7.s[1], w10
-	WORD $0x6e1804c7 // mov    v7.d[1], v6.d[0]
-	WORD $0x4e231ce6 // and    v6.16b, v7.16b, v3.16b
-	WORD $0x3c9e0106 // stur    q6, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x53097d6c // lsr    w12, w11, #9
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d86 // mov    v6.s[1], w12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x4e141d66 // mov    v6.s[2], w11
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9f0106 // stur    q6, [x8, #-16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x138b5d8a // extr    w10, w12, w11, #23
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800106 // str    q6, [x8]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x0e040d46 // dup    v6.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea244c6 // ushl    v6.2s, v6.2s, v2.2s
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x530b7d6a // lsr    w10, w11, #11
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800506 // str    q6, [x8, #16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x1e270147 // fmov    s7, w10
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0x2ea444c6 // ushl    v6.2s, v6.2s, v4.2s
-	WORD $0x138b7d4a // extr    w10, w10, w11, #31
-	WORD $0x6e0720e7 // ext    v7.16b, v7.16b, v7.16b, #4
-	WORD $0x6e0660e6 // ext    v6.16b, v7.16b, v6.16b, #12
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800906 // str    q6, [x8, #32]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x9100d000 // add    x0, x0, #52
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270187 // fmov    s7, w12
-	WORD $0x2ea544c6 // ushl    v6.2s, v6.2s, v5.2s
-	WORD $0x4e0c1d47 // mov    v7.s[1], w10
-	WORD $0x6e1804c7 // mov    v7.d[1], v6.d[0]
-	WORD $0x4e231ce6 // and    v6.16b, v7.16b, v3.16b
-	WORD $0x3d800d06 // str    q6, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_59
-	JMP LBB0_156
-
-LBB0_60:
-	WORD $0x7100707f // cmp    w3, #28
-	BEQ LBB0_124
-
-	// %bb.61:
-	WORD $0x7100747f // cmp    w3, #29
-	BNE LBB0_156
-
-	// %bb.62:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.63:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_32
-	// WORD $0x90000009 // adrp    x9, .LCPI0_33
-	// WORD $0x9000000a // adrp    x10, .LCPI0_34
-	// WORD $0x9000000b // adrp    x11, .LCPI0_47
-	VMOVD LCPI0_32, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_35
-	VMOVD LCPI0_33, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_36
-	VMOVQ LCPI0_34L, LCPI0_34H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_37
-	VMOVQ LCPI0_35L, LCPI0_35H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_38
-	VMOVD LCPI0_36, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_39
-	VMOVD LCPI0_37, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_40
-	VMOVQ LCPI0_38L, LCPI0_38H, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_41
-	VMOVQ LCPI0_39L, LCPI0_39H, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_42
-	VMOVQ LCPI0_40L, LCPI0_40H, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_43
-	VMOVQ LCPI0_41L, LCPI0_41H, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_44
-	VMOVD LCPI0_42, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_45
-	VMOVD LCPI0_43, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_46
-	VMOVQ LCPI0_44L, LCPI0_44H, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_45L, LCPI0_45H, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_46, V22
-	VMOVD LCPI0_47, V23
-
-LBB0_64:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xbd400c18 // ldr    s24, [x0, #12]
-	WORD $0x3dc00419 // ldr    q25, [x0, #16]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea24739 // ushl    v25.4s, v25.4s, v2.4s
-	WORD $0x6ea34718 // ushl    v24.4s, v24.4s, v3.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xfd401018 // ldr    d24, [x0, #32]
-	WORD $0xbd401c19 // ldr    s25, [x0, #28]
-	WORD $0xb940280c // ldr    w12, [x0, #40]
-	WORD $0x2ea4471a // ushl    v26.2s, v24.2s, v4.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a7d8a // extr    w10, w12, w10, #31
-	WORD $0x2ea54739 // ushl    v25.2s, v25.2s, v5.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xbd402818 // ldr    s24, [x0, #40]
-	WORD $0x3cc2c019 // ldur    q25, [x0, #44]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea64739 // ushl    v25.4s, v25.4s, v6.4s
-	WORD $0x6ea74718 // ushl    v24.4s, v24.4s, v7.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xbd403818 // ldr    s24, [x0, #56]
-	WORD $0x3cc3c019 // ldur    q25, [x0, #60]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb04739 // ushl    v25.4s, v25.4s, v16.4s
-	WORD $0x6eb14718 // ushl    v24.4s, v24.4s, v17.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0x2949280b // ldp    w11, w10, [x0, #72]
-	WORD $0xfd402818 // ldr    d24, [x0, #80]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b114b // extr    w11, w10, w11, #4
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2eb24718 // ushl    v24.2s, v24.2s, v18.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2eb34739 // ushl    v25.2s, v25.2s, v19.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f07741a // bic    v26.4s, #224, lsl #24
-	WORD $0x3d80051a // str    q26, [x8, #16]
-	WORD $0xbd405418 // ldr    s24, [x0, #84]
-	WORD $0x3cc58019 // ldur    q25, [x0, #88]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb44739 // ushl    v25.4s, v25.4s, v20.4s
-	WORD $0x6eb54718 // ushl    v24.4s, v24.4s, v21.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd403418 // ldr    d24, [x0, #104]
-	WORD $0xbd406419 // ldr    s25, [x0, #100]
-	WORD $0xb940700b // ldr    w11, [x0, #112]
-	WORD $0x9101d000 // add    x0, x0, #116
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a196a // extr    w10, w11, w10, #6
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_64
-	JMP LBB0_156
-
-LBB0_65:
-	WORD $0x7100087f // cmp    w3, #2
-	BEQ LBB0_127
-
-	// %bb.66:
-	WORD $0x71000c7f // cmp    w3, #3
-	BNE LBB0_156
-
-	// %bb.67:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.68:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_188
-	// WORD $0x90000009 // adrp    x9, .LCPI0_189
-	// WORD $0x9000000a // adrp    x10, .LCPI0_190
-	WORD $0x4f0004e7 // movi    v7.4s, #7
-	VMOVD LCPI0_188, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_191
-	VMOVQ LCPI0_189L, LCPI0_189H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_192
-	VMOVD LCPI0_190, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_193
-	VMOVQ LCPI0_191L, LCPI0_191H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_194
-	VMOVQ LCPI0_192L, LCPI0_192H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_195
-	VMOVD LCPI0_193, V5
-	VMOVQ LCPI0_194L, LCPI0_194H, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_195L, LCPI0_195H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_69:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x4ddfc951 // ld1r    { v17.4s }, [x10], #4
-	WORD $0x6ea14631 // ushl    v17.4s, v17.4s, v1.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xb940014c // ldr    w12, [x10]
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138b798b // extr    w11, w12, w11, #30
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x53017d8b // lsr    w11, w12, #1
-	WORD $0x4e1c1d71 // mov    v17.s[3], w11
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea34631 // ushl    v17.4s, v17.4s, v3.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xb940014a // ldr    w10, [x10]
-	WORD $0xb940080b // ldr    w11, [x0, #8]
-	WORD $0x531c7d4c // lsr    w12, w10, #28
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x91003000 // add    x0, x0, #12
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea64631 // ushl    v17.4s, v17.4s, v6.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_69
-	JMP LBB0_156
-
-LBB0_70:
-	WORD $0x7100487f // cmp    w3, #18
-	BEQ LBB0_130
-
-	// %bb.71:
-	WORD $0x71004c7f // cmp    w3, #19
-	BNE LBB0_156
-
-	// %bb.72:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.73:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_130
-	// WORD $0x90000009 // adrp    x9, .LCPI0_131
-	// WORD $0x9000000a // adrp    x10, .LCPI0_132
-	WORD $0x4f00d4e7 // movi    v7.4s, #7, msl #16
-	VMOVD LCPI0_130, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_133
-	VMOVD LCPI0_131, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_134
-	VMOVD LCPI0_132, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_135
-	VMOVD LCPI0_133, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_136
-	VMOVD LCPI0_134, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_137
-	VMOVD LCPI0_135, V5
-	VMOVD LCPI0_136, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_137, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_74:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a4d6c // extr    w12, w11, w10, #19
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x138b658a // extr    w10, w12, w11, #25
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0xfc40c011 // ldur    d17, [x0, #12]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x2ea04633 // ushl    v19.2s, v17.2s, v0.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2942280b // ldp    w11, w10, [x0, #16]
-	WORD $0xfd400c11 // ldr    d17, [x0, #24]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x138b758a // extr    w10, w12, w11, #29
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53037d6c // lsr    w12, w11, #3
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xfd401811 // ldr    d17, [x0, #48]
-	WORD $0xbd402c12 // ldr    s18, [x0, #44]
-	WORD $0xb940380c // ldr    w12, [x0, #56]
-	WORD $0x2ea44633 // ushl    v19.2s, v17.2s, v4.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a558a // extr    w10, w12, w10, #21
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0xfc43c011 // ldur    d17, [x0, #60]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x29482c0a // ldp    w10, w11, [x0, #64]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53077d6c // lsr    w12, w11, #7
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940480a // ldr    w10, [x0, #72]
-	WORD $0x91013000 // add    x0, x0, #76
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0x530d7d4a // lsr    w10, w10, #13
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_74
-	JMP LBB0_156
-
-LBB0_75:
-	WORD $0x7100287f // cmp    w3, #10
-	BEQ LBB0_133
-
-	// %bb.76:
-	WORD $0x71002c7f // cmp    w3, #11
-	BNE LBB0_156
-
-	// %bb.77:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.78:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_147
-	// WORD $0x90000008 // adrp    x8, .LCPI0_146
-	// WORD $0x9000000a // adrp    x10, .LCPI0_148
-	WORD $0x4f00c4e6 // movi    v6.4s, #7, msl #8
-	VMOVD LCPI0_147, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_150
-	VMOVD LCPI0_146, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_149
-	VMOVD LCPI0_148, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_151
-	VMOVD LCPI0_150, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_152
-	VMOVD LCPI0_149, V3
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_151, V5
-	VMOVD LCPI0_152, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_79:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530b7d4c // lsr    w12, w10, #11
-	WORD $0x1e270150 // fmov    s16, w10
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x4e0c1d90 // mov    v16.s[1], w12
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea04610 // ushl    v16.2s, v16.2s, v0.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3c9d0110 // stur    q16, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x2ea14610 // ushl    v16.2s, v16.2s, v1.2s
-	WORD $0x138b654a // extr    w10, w10, w11, #25
-	WORD $0x6e112231 // ext    v17.16b, v17.16b, v17.16b, #4
-	WORD $0x6e106230 // ext    v16.16b, v17.16b, v16.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d50 // dup    v16.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea34610 // ushl    v16.2s, v16.2s, v3.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0x2ea44610 // ushl    v16.2s, v16.2s, v4.2s
-	WORD $0x138b754a // extr    w10, w10, w11, #29
-	WORD $0x6e112231 // ext    v17.16b, v17.16b, v17.16b, #4
-	WORD $0x6e106230 // ext    v16.16b, v17.16b, v16.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3d800510 // str    q16, [x8, #16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x0e040d50 // dup    v16.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea54610 // ushl    v16.2s, v16.2s, v5.2s
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53097d6a // lsr    w10, w11, #9
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x9100b000 // add    x0, x0, #44
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea74610 // ushl    v16.2s, v16.2s, v7.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_79
-	JMP LBB0_156
-
-LBB0_80:
-	WORD $0x7100687f // cmp    w3, #26
-	BEQ LBB0_136
-
-	// %bb.81:
-	WORD $0x71006c7f // cmp    w3, #27
-	BNE LBB0_156
-
-	// %bb.82:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.83:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_52
-	// WORD $0x90000009 // adrp    x9, .LCPI0_53
-	// WORD $0x9000000a // adrp    x10, .LCPI0_54
-	// WORD $0x9000000b // adrp    x11, .LCPI0_67
-	VMOVD LCPI0_52, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_55
-	VMOVD LCPI0_53, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_56
-	VMOVD LCPI0_54, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_57
-	VMOVD LCPI0_55, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_58
-	VMOVQ LCPI0_56L, LCPI0_56H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_59
-	VMOVQ LCPI0_57L, LCPI0_57H, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_60
-	VMOVD LCPI0_58, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_61
-	VMOVD LCPI0_59, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_62
-	VMOVD LCPI0_60, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_63
-	VMOVD LCPI0_61, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_64
-	VMOVQ LCPI0_62L, LCPI0_62H, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_65
-	VMOVQ LCPI0_63L, LCPI0_63H, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_66
-	VMOVD LCPI0_64, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_65, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_66, V22
-	VMOVD LCPI0_67, V23
-
-LBB0_84:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a456a // extr    w10, w11, w10, #17
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xfd400818 // ldr    d24, [x0, #16]
-	WORD $0xbd400c19 // ldr    s25, [x0, #12]
-	WORD $0xb940180c // ldr    w12, [x0, #24]
-	WORD $0x2ea2471a // ushl    v26.2s, v24.2s, v2.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a758a // extr    w10, w12, w10, #29
-	WORD $0x2ea34739 // ushl    v25.2s, v25.2s, v3.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xbd401818 // ldr    s24, [x0, #24]
-	WORD $0x3cc1c019 // ldur    q25, [x0, #28]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea44739 // ushl    v25.4s, v25.4s, v4.4s
-	WORD $0x6ea54718 // ushl    v24.4s, v24.4s, v5.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0xfc42c018 // ldur    d24, [x0, #44]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2ea6471a // ushl    v26.2s, v24.2s, v6.2s
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x2ea74739 // ushl    v25.2s, v25.2s, v7.2s
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x0eb91f59 // orr    v25.8b, v26.8b, v25.8b
-	WORD $0x6e196378 // ext    v24.16b, v27.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xfd401c18 // ldr    d24, [x0, #56]
-	WORD $0xbd403419 // ldr    s25, [x0, #52]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0x2eb0471a // ushl    v26.2s, v24.2s, v16.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a196a // extr    w10, w11, w10, #6
-	WORD $0x2eb14739 // ushl    v25.2s, v25.2s, v17.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xbd404018 // ldr    s24, [x0, #64]
-	WORD $0x3cc44019 // ldur    q25, [x0, #68]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb24739 // ushl    v25.4s, v25.4s, v18.4s
-	WORD $0x6eb34718 // ushl    v24.4s, v24.4s, v19.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0x294a280b // ldp    w11, w10, [x0, #80]
-	WORD $0xfd402c18 // ldr    d24, [x0, #88]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2eb44718 // ushl    v24.2s, v24.2s, v20.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2eb54739 // ushl    v25.2s, v25.2s, v21.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f07771a // bic    v26.4s, #248, lsl #24
-	WORD $0x3d80091a // str    q26, [x8, #32]
-	WORD $0xfd403018 // ldr    d24, [x0, #96]
-	WORD $0xbd405c19 // ldr    s25, [x0, #92]
-	WORD $0xb940680b // ldr    w11, [x0, #104]
-	WORD $0x9101b000 // add    x0, x0, #108
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_84
-	JMP LBB0_156
-
-LBB0_85:
-	WORD $0x7100187f // cmp    w3, #6
-	BEQ LBB0_139
-
-	// %bb.86:
-	WORD $0x71001c7f // cmp    w3, #7
-	BNE LBB0_156
-
-	// %bb.87:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.88:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_166
-	// WORD $0x90000009 // adrp    x9, .LCPI0_167
-	// WORD $0x9000000a // adrp    x10, .LCPI0_168
-	WORD $0x4f0307e7 // movi    v7.4s, #127
-	VMOVD LCPI0_166, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_169
-	VMOVD LCPI0_167, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_170
-	VMOVD LCPI0_168, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_171
-	VMOVD LCPI0_169, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_172
-	VMOVD LCPI0_170, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_173
-	VMOVD LCPI0_171, V5
-	VMOVD LCPI0_172, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_173L, LCPI0_173H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_89:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53157d4a // lsr    w10, w10, #21
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53117d6a // lsr    w10, w11, #17
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x53167d4c // lsr    w12, w10, #22
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100600a // add    x10, x0, #24
-	WORD $0x91007000 // add    x0, x0, #28
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_89
-	JMP LBB0_156
-
-LBB0_90:
-	WORD $0x7100587f // cmp    w3, #22
-	BEQ LBB0_142
-
-	// %bb.91:
-	WORD $0x71005c7f // cmp    w3, #23
-	BNE LBB0_156
-
-	// %bb.92:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.93:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_95
-	// WORD $0x90000008 // adrp    x8, .LCPI0_94
-	// WORD $0x9000000a // adrp    x10, .LCPI0_96
-	WORD $0x4f03d7f7 // movi    v23.4s, #127, msl #16
-	VMOVD LCPI0_95, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_98
-	VMOVD LCPI0_94, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_97
-	VMOVD LCPI0_96, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_99
-	VMOVD LCPI0_98, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_101
-	VMOVD LCPI0_97, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_100
-	VMOVD LCPI0_99, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_102
-	VMOVD LCPI0_101, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_104
-	VMOVD LCPI0_100, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_103
-	VMOVD LCPI0_102, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_105
-	VMOVD LCPI0_104, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_107
-	VMOVD LCPI0_103, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_106
-	VMOVD LCPI0_105, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_108
-	VMOVD LCPI0_107, V21
-	// WORD $0x90000009 // adrp    x9, .LCPI0_109
-	VMOVD LCPI0_106, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_108, V22
-	VMOVD LCPI0_109, V24
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_94:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404019 // ldur    d25, [x0, #4]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x2ea0473c // ushl    v28.2s, v25.2s, v0.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x2ea1475a // ushl    v26.2s, v26.2s, v1.2s
-	WORD $0x0eba1f9a // orr    v26.8b, v28.8b, v26.8b
-	WORD $0x6e1a6379 // ext    v25.16b, v27.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9c0119 // stur    q25, [x8, #-64]
-	WORD $0xfc40c019 // ldur    d25, [x0, #12]
-	WORD $0xbd40081a // ldr    s26, [x0, #8]
-	WORD $0xb940140b // ldr    w11, [x0, #20]
-	WORD $0x2ea2473b // ushl    v27.2s, v25.2s, v2.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2ea3475a // ushl    v26.2s, v26.2s, v3.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d59 // mov    v25.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9d0119 // stur    q25, [x8, #-48]
-	WORD $0xfd400c19 // ldr    d25, [x0, #24]
-	WORD $0xbd40141a // ldr    s26, [x0, #20]
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x2ea4473b // ushl    v27.2s, v25.2s, v4.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a758a // extr    w10, w12, w10, #29
-	WORD $0x2ea5475a // ushl    v26.2s, v26.2s, v5.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d79 // mov    v25.s[2], w11
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9e0119 // stur    q25, [x8, #-32]
-	WORD $0xfc424019 // ldur    d25, [x0, #36]
-	WORD $0xbd40201a // ldr    s26, [x0, #32]
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x2ea6473b // ushl    v27.2s, v25.2s, v6.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a658a // extr    w10, w12, w10, #25
-	WORD $0x2ea7475a // ushl    v26.2s, v26.2s, v7.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d79 // mov    v25.s[2], w11
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9f0119 // stur    q25, [x8, #-16]
-	WORD $0x2945a80b // ldp    w11, w10, [x0, #44]
-	WORD $0xfc434019 // ldur    d25, [x0, #52]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x2eb04739 // ushl    v25.2s, v25.2s, v16.2s
-	WORD $0x1e27017b // fmov    s27, w11
-	WORD $0x2eb1475a // ushl    v26.2s, v26.2s, v17.2s
-	WORD $0x4e0c1d5b // mov    v27.s[1], w10
-	WORD $0x0eba1f39 // orr    v25.8b, v25.8b, v26.8b
-	WORD $0x6e18073b // mov    v27.d[1], v25.d[0]
-	WORD $0x4e371f79 // and    v25.16b, v27.16b, v23.16b
-	WORD $0x3d800119 // str    q25, [x8]
-	WORD $0x2947280b // ldp    w11, w10, [x0, #56]
-	WORD $0xfd402019 // ldr    d25, [x0, #64]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x138b314b // extr    w11, w10, w11, #12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x2eb24739 // ushl    v25.2s, v25.2s, v18.2s
-	WORD $0x1e27017b // fmov    s27, w11
-	WORD $0x2eb3475a // ushl    v26.2s, v26.2s, v19.2s
-	WORD $0x4e0c1d5b // mov    v27.s[1], w10
-	WORD $0x0eba1f39 // orr    v25.8b, v25.8b, v26.8b
-	WORD $0x6e18073b // mov    v27.d[1], v25.d[0]
-	WORD $0x4e371f79 // and    v25.16b, v27.16b, v23.16b
-	WORD $0x3d800519 // str    q25, [x8, #16]
-	WORD $0xb940440a // ldr    w10, [x0, #68]
-	WORD $0xfd402419 // ldr    d25, [x0, #72]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2eb4473b // ushl    v27.2s, v25.2s, v20.2s
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x1e27015c // fmov    s28, w10
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x6e1c239c // ext    v28.16b, v28.16b, v28.16b, #4
-	WORD $0x2eb5475a // ushl    v26.2s, v26.2s, v21.2s
-	WORD $0x138a356a // extr    w10, w11, w10, #13
-	WORD $0x0eba1f7a // orr    v26.8b, v27.8b, v26.8b
-	WORD $0x6e1a6399 // ext    v25.16b, v28.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3d800919 // str    q25, [x8, #32]
-	WORD $0xb940500a // ldr    w10, [x0, #80]
-	WORD $0xfc454019 // ldur    d25, [x0, #84]
-	WORD $0x91017000 // add    x0, x0, #92
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2eb6473b // ushl    v27.2s, v25.2s, v22.2s
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x1e27015c // fmov    s28, w10
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x6e1c239c // ext    v28.16b, v28.16b, v28.16b, #4
-	WORD $0x2eb8475a // ushl    v26.2s, v26.2s, v24.2s
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x0eba1f7a // orr    v26.8b, v27.8b, v26.8b
-	WORD $0x6e1a6399 // ext    v25.16b, v28.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3d800d19 // str    q25, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_94
-	JMP LBB0_156
-
-LBB0_95:
-	WORD $0x7100387f // cmp    w3, #14
-	BEQ LBB0_145
-
-	// %bb.96:
-	WORD $0x71003c7f // cmp    w3, #15
-	BNE LBB0_156
-
-	// %bb.97:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.98:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_138
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f03c7e0 // movi    v0.4s, #127, msl #8
-	VMOVD LCPI0_138, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_99:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530f7d4c // lsr    w12, w10, #15
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530d7d6a // lsr    w10, w11, #13
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x530b7d6c // lsr    w12, w11, #11
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53077d6c // lsr    w12, w11, #7
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53037d6c // lsr    w12, w11, #3
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0x138b494b // extr    w11, w10, w11, #18
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530e7d6a // lsr    w10, w11, #14
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b758a // extr    w10, w12, w11, #29
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b658a // extr    w10, w12, w11, #25
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940340c // ldr    w12, [x0, #52]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b558a // extr    w10, w12, w11, #21
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x2946ac0a // ldp    w10, w11, [x0, #52]
-	WORD $0x9100f000 // add    x0, x0, #60
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a4d6a // extr    w10, w11, w10, #19
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_99
-	JMP LBB0_156
-
-LBB0_100:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.101:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_8
-	// WORD $0x90000009 // adrp    x9, .LCPI0_9
-	// WORD $0x9000000a // adrp    x10, .LCPI0_10
-	// WORD $0x9000000b // adrp    x11, .LCPI0_23
-	VMOVD LCPI0_8, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_11
-	VMOVD LCPI0_9, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_12
-	VMOVQ LCPI0_10L, LCPI0_10H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_13
-	VMOVQ LCPI0_11L, LCPI0_11H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_14
-	VMOVQ LCPI0_12L, LCPI0_12H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_15
-	VMOVQ LCPI0_13L, LCPI0_13H, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_16
-	VMOVQ LCPI0_14L, LCPI0_14H, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_17
-	VMOVQ LCPI0_15L, LCPI0_15H, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_18
-	VMOVQ LCPI0_16L, LCPI0_16H, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_19
-	VMOVQ LCPI0_17L, LCPI0_17H, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_20
-	VMOVQ LCPI0_18L, LCPI0_18H, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_21
-	VMOVQ LCPI0_19L, LCPI0_19H, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_22
-	VMOVQ LCPI0_20L, LCPI0_20H, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_21L, LCPI0_21H, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_22, V22
-	VMOVD LCPI0_23, V23
-
-LBB0_102:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xbd400c18 // ldr    s24, [x0, #12]
-	WORD $0x3dc00419 // ldr    q25, [x0, #16]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea24739 // ushl    v25.4s, v25.4s, v2.4s
-	WORD $0x6ea34718 // ushl    v24.4s, v24.4s, v3.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xbd401c18 // ldr    s24, [x0, #28]
-	WORD $0x3dc00819 // ldr    q25, [x0, #32]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea44739 // ushl    v25.4s, v25.4s, v4.4s
-	WORD $0x6ea54718 // ushl    v24.4s, v24.4s, v5.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xbd402c18 // ldr    s24, [x0, #44]
-	WORD $0x3dc00c19 // ldr    q25, [x0, #48]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea64739 // ushl    v25.4s, v25.4s, v6.4s
-	WORD $0x6ea74718 // ushl    v24.4s, v24.4s, v7.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xbd403c18 // ldr    s24, [x0, #60]
-	WORD $0x3dc01019 // ldr    q25, [x0, #64]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb04739 // ushl    v25.4s, v25.4s, v16.4s
-	WORD $0x6eb14718 // ushl    v24.4s, v24.4s, v17.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xbd404c18 // ldr    s24, [x0, #76]
-	WORD $0x3dc01419 // ldr    q25, [x0, #80]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb24739 // ushl    v25.4s, v25.4s, v18.4s
-	WORD $0x6eb34718 // ushl    v24.4s, v24.4s, v19.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0xbd405c18 // ldr    s24, [x0, #92]
-	WORD $0x3dc01819 // ldr    q25, [x0, #96]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb44739 // ushl    v25.4s, v25.4s, v20.4s
-	WORD $0x6eb54718 // ushl    v24.4s, v24.4s, v21.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd403818 // ldr    d24, [x0, #112]
-	WORD $0xbd406c19 // ldr    s25, [x0, #108]
-	WORD $0xb940780b // ldr    w11, [x0, #120]
-	WORD $0x9101f000 // add    x0, x0, #124
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a096a // extr    w10, w11, w10, #2
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_102
-	JMP LBB0_156
-
-LBB0_103:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.104:
-	WORD $0x7100427f // cmp    w19, #16
-	WORD $0x54000002 // b.hs    .LBB0_151
-
-	// %bb.105:
-	WORD $0xaa1f03e8 // mov    x8, xzr
-	JMP LBB0_154
-
-LBB0_106:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.107:
-	WORD $0x6f01e660 // movi    v0.2d, #0x00ffff0000ffff
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_108:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x29472c0a // ldp    w10, w11, [x0, #56]
-	WORD $0x91010000 // add    x0, x0, #64
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_108
-	JMP LBB0_156
-
-LBB0_109:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.110:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_165
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x6f00e620 // movi    v0.2d, #0x0000ff000000ff
-	VMOVD LCPI0_165, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_111:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0xb940040a // ldr    w10, [x0, #4]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0x91008000 // add    x0, x0, #32
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_111
-	JMP LBB0_156
-
-LBB0_112:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.113:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_92
-	// WORD $0x9000000a // adrp    x10, .LCPI0_93
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_92, V0
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_93, V1
-
-LBB0_114:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404002 // ldur    d2, [x0, #4]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0xfd400802 // ldr    d2, [x0, #16]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0xfc41c002 // ldur    d2, [x0, #28]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0xb940240a // ldr    w10, [x0, #36]
-	WORD $0xfd401402 // ldr    d2, [x0, #40]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0xb940300a // ldr    w10, [x0, #48]
-	WORD $0xfc434002 // ldur    d2, [x0, #52]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0xfd402002 // ldr    d2, [x0, #64]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0xb940480a // ldr    w10, [x0, #72]
-	WORD $0xfc44c002 // ldur    d2, [x0, #76]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0xb940540a // ldr    w10, [x0, #84]
-	WORD $0xfd402c02 // ldr    d2, [x0, #88]
-	WORD $0x91018000 // add    x0, x0, #96
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_114
-	JMP LBB0_156
-
-LBB0_115:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.116:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_186
-	// WORD $0x9000000a // adrp    x10, .LCPI0_187
-	WORD $0x4f0005e0 // movi    v0.4s, #15
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_186, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVQ LCPI0_187L, LCPI0_187H, V2
-
-LBB0_117:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9c0103 // stur    q3, [x8, #-64]
-	WORD $0x4ddfc943 // ld1r    { v3.4s }, [x10], #4
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9d0103 // stur    q3, [x8, #-48]
-	WORD $0xb940014b // ldr    w11, [x10]
-	WORD $0x0e040d63 // dup    v3.2s, w11
-	WORD $0x1e270164 // fmov    s4, w11
-	WORD $0x530c7d6b // lsr    w11, w11, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d63 // mov    v3.s[3], w11
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9e0103 // stur    q3, [x8, #-32]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9f0103 // stur    q3, [x8, #-16]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800103 // str    q3, [x8]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800503 // str    q3, [x8, #16]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0x9100300a // add    x10, x0, #12
-	WORD $0x91004000 // add    x0, x0, #16
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800903 // str    q3, [x8, #32]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800d03 // str    q3, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_117
-	JMP LBB0_156
-
-LBB0_118:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.119:
-	WORD $0x4f00d5e0 // movi    v0.4s, #15, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_120:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb9401c0c // ldr    w12, [x0, #28]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940240a // ldr    w10, [x0, #36]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940300c // ldr    w12, [x0, #48]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x2947ac0a // ldp    w10, w11, [x0, #60]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940440c // ldr    w12, [x0, #68]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x2948ac0a // ldp    w10, w11, [x0, #68]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb9404c0a // ldr    w10, [x0, #76]
-	WORD $0x91014000 // add    x0, x0, #80
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_120
-	JMP LBB0_156
-
-LBB0_121:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.122:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_145
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f00c5e0 // movi    v0.4s, #15, msl #8
-	VMOVD LCPI0_145, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_123:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x9100c000 // add    x0, x0, #48
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_123
-	JMP LBB0_156
-
-LBB0_124:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.125:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_48
-	// WORD $0x90000009 // adrp    x9, .LCPI0_49
-	// WORD $0x9000000a // adrp    x10, .LCPI0_50
-	// WORD $0x9000000b // adrp    x11, .LCPI0_51
-	VMOVD LCPI0_48, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_49, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_50, V2
-	VMOVD LCPI0_51, V3
-
-LBB0_126:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404004 // ldur    d4, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9c0104 // stur    q4, [x8, #-64]
-	WORD $0xfd400804 // ldr    d4, [x0, #16]
-	WORD $0xbd400c05 // ldr    s5, [x0, #12]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9d0104 // stur    q4, [x8, #-48]
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0xfd401004 // ldr    d4, [x0, #32]
-	WORD $0xb940280b // ldr    w11, [x0, #40]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9e0104 // stur    q4, [x8, #-32]
-	WORD $0xfc42c004 // ldur    d4, [x0, #44]
-	WORD $0xbd402805 // ldr    s5, [x0, #40]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9f0104 // stur    q4, [x8, #-16]
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0xfc43c004 // ldur    d4, [x0, #60]
-	WORD $0xb940440b // ldr    w11, [x0, #68]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800104 // str    q4, [x8]
-	WORD $0xfd402404 // ldr    d4, [x0, #72]
-	WORD $0xbd404405 // ldr    s5, [x0, #68]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800504 // str    q4, [x8, #16]
-	WORD $0xb940540a // ldr    w10, [x0, #84]
-	WORD $0xfd402c04 // ldr    d4, [x0, #88]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800904 // str    q4, [x8, #32]
-	WORD $0xfc464004 // ldur    d4, [x0, #100]
-	WORD $0xbd406005 // ldr    s5, [x0, #96]
-	WORD $0xb9406c0b // ldr    w11, [x0, #108]
-	WORD $0x9101c000 // add    x0, x0, #112
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800d04 // str    q4, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_126
-	JMP LBB0_156
-
-LBB0_127:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.128:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_196
-	// WORD $0x90000009 // adrp    x9, .LCPI0_197
-	// WORD $0x9000000a // adrp    x10, .LCPI0_198
-	// WORD $0x9000000b // adrp    x11, .LCPI0_199
-	WORD $0x4f000462 // movi    v2.4s, #3
-	VMOVD LCPI0_196, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_197L, LCPI0_197H, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVQ LCPI0_198L, LCPI0_198H, V3
-	VMOVQ LCPI0_199L, LCPI0_199H, V4
-
-LBB0_129:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x4ddfc945 // ld1r    { v5.4s }, [x10], #4
-	WORD $0x6ea144a5 // ushl    v5.4s, v5.4s, v1.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x4d40c805 // ld1r    { v5.4s }, [x0]
-	WORD $0x6ea344a5 // ushl    v5.4s, v5.4s, v3.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0xb840840b // ldr    w11, [x0], #8
-	WORD $0x4e040d65 // dup    v5.4s, w11
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0xb940014b // ldr    w11, [x10]
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270166 // fmov    s6, w11
-	WORD $0x53067d6b // lsr    w11, w11, #6
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d65 // mov    v5.s[3], w11
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea144a5 // ushl    v5.4s, v5.4s, v1.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea344a5 // ushl    v5.4s, v5.4s, v3.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_129
-	JMP LBB0_156
-
-LBB0_130:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.131:
-	WORD $0x4f00d460 // movi    v0.4s, #3, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_132:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a496c // extr    w12, w11, w10, #18
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b598a // extr    w10, w12, w11, #22
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940100c // ldr    w12, [x0, #16]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b798a // extr    w10, w12, w11, #30
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53027d6c // lsr    w12, w11, #2
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x530a7d6c // lsr    w12, w11, #10
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0x138b714b // extr    w11, w10, w11, #28
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530e7d4a // lsr    w10, w10, #14
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a496c // extr    w12, w11, w10, #18
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b598a // extr    w10, w12, w11, #22
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940340c // ldr    w12, [x0, #52]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b798a // extr    w10, w12, w11, #30
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x2946ac0a // ldp    w10, w11, [x0, #52]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53027d6c // lsr    w12, w11, #2
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x2947ac0a // ldp    w10, w11, [x0, #60]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x530a7d6c // lsr    w12, w11, #10
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940440a // ldr    w10, [x0, #68]
-	WORD $0x91012000 // add    x0, x0, #72
-	WORD $0x138b714b // extr    w11, w10, w11, #28
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530e7d4a // lsr    w10, w10, #14
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_132
-	JMP LBB0_156
-
-LBB0_133:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.134:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_153
-	// WORD $0x90000009 // adrp    x9, .LCPI0_154
-	// WORD $0x9000000a // adrp    x10, .LCPI0_155
-	// WORD $0x9000000b // adrp    x11, .LCPI0_156
-	WORD $0x4f00c462 // movi    v2.4s, #3, msl #8
-	VMOVD LCPI0_153, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_154, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_155, V3
-	VMOVD LCPI0_156, V4
-
-LBB0_135:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53167d6a // lsr    w10, w11, #22
-	WORD $0x2ea444a5 // ushl    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x9100a000 // add    x0, x0, #40
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53167d6a // lsr    w10, w11, #22
-	WORD $0x2ea444a5 // ushl    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_135
-	JMP LBB0_156
-
-LBB0_136:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.137:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_68
-	// WORD $0x90000009 // adrp    x9, .LCPI0_69
-	// WORD $0x9000000a // adrp    x10, .LCPI0_70
-	VMOVD LCPI0_68, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_71
-	VMOVD LCPI0_69, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_72
-	VMOVD LCPI0_70, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_73
-	VMOVD LCPI0_71, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_74
-	VMOVD LCPI0_72, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_75
-	VMOVD LCPI0_73, V5
-	VMOVD LCPI0_74, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_75, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_138:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404010 // ldur    d16, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0x2941a80b // ldp    w11, w10, [x0, #12]
-	WORD $0xfc414010 // ldur    d16, [x0, #20]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x0eb11e10 // orr    v16.8b, v16.8b, v17.8b
-	WORD $0x6e180612 // mov    v18.d[1], v16.d[0]
-	WORD $0x6f077792 // bic    v18.4s, #252, lsl #24
-	WORD $0x3c9d0112 // stur    q18, [x8, #-48]
-	WORD $0xfc41c010 // ldur    d16, [x0, #28]
-	WORD $0xbd401811 // ldr    s17, [x0, #24]
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x2ea44612 // ushl    v18.2s, v16.2s, v4.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a798a // extr    w10, w12, w10, #30
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d70 // mov    v16.s[2], w11
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0xfd401410 // ldr    d16, [x0, #40]
-	WORD $0xbd402411 // ldr    s17, [x0, #36]
-	WORD $0xb940300b // ldr    w11, [x0, #48]
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0xb940340a // ldr    w10, [x0, #52]
-	WORD $0xfd401c10 // ldr    d16, [x0, #56]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0x2948280b // ldp    w11, w10, [x0, #64]
-	WORD $0xfd402410 // ldr    d16, [x0, #72]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x0eb11e10 // orr    v16.8b, v16.8b, v17.8b
-	WORD $0x6e180612 // mov    v18.d[1], v16.d[0]
-	WORD $0x6f077792 // bic    v18.4s, #252, lsl #24
-	WORD $0x3d800512 // str    q18, [x8, #16]
-	WORD $0xfd402810 // ldr    d16, [x0, #80]
-	WORD $0xbd404c11 // ldr    s17, [x0, #76]
-	WORD $0xb940580c // ldr    w12, [x0, #88]
-	WORD $0x2ea44612 // ushl    v18.2s, v16.2s, v4.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a798a // extr    w10, w12, w10, #30
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d70 // mov    v16.s[2], w11
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0xfc45c010 // ldur    d16, [x0, #92]
-	WORD $0xbd405811 // ldr    s17, [x0, #88]
-	WORD $0xb940640b // ldr    w11, [x0, #100]
-	WORD $0x9101a000 // add    x0, x0, #104
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_138
-	JMP LBB0_156
-
-LBB0_139:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.140:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_174
-	// WORD $0x90000009 // adrp    x9, .LCPI0_175
-	// WORD $0x9000000a // adrp    x10, .LCPI0_176
-	// WORD $0x9000000b // adrp    x11, .LCPI0_177
-	WORD $0x4f0107e2 // movi    v2.4s, #63
-	VMOVD LCPI0_174, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_175, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_176, V3
-	VMOVQ LCPI0_177L, LCPI0_177H, V4
-
-LBB0_141:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53127d4a // lsr    w10, w10, #18
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53127d4a // lsr    w10, w10, #18
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x9100500a // add    x10, x0, #20
-	WORD $0x91006000 // add    x0, x0, #24
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_141
-	JMP LBB0_156
-
-LBB0_142:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.143:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_110
-	// WORD $0x90000009 // adrp    x9, .LCPI0_111
-	// WORD $0x9000000a // adrp    x10, .LCPI0_112
-	WORD $0x4f01d7e7 // movi    v7.4s, #63, msl #16
-	VMOVD LCPI0_110, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_113
-	VMOVD LCPI0_111, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_114
-	VMOVD LCPI0_112, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_115
-	VMOVD LCPI0_113, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_116
-	VMOVD LCPI0_114, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_117
-	VMOVD LCPI0_115, V5
-	VMOVD LCPI0_116, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_117, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_144:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404011 // ldur    d17, [x0, #4]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x1e270153 // fmov    s19, w10
-	WORD $0x2ea04634 // ushl    v20.2s, v17.2s, v0.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x6e132273 // ext    v19.16b, v19.16b, v19.16b, #4
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x0eb21e92 // orr    v18.8b, v20.8b, v18.8b
-	WORD $0x6e126271 // ext    v17.16b, v19.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0xfc40c011 // ldur    d17, [x0, #12]
-	WORD $0xbd400812 // ldr    s18, [x0, #8]
-	WORD $0xb940140c // ldr    w12, [x0, #20]
-	WORD $0x2ea24633 // ushl    v19.2s, v17.2s, v2.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a698a // extr    w10, w12, w10, #26
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2942a80b // ldp    w11, w10, [x0, #20]
-	WORD $0xfc41c011 // ldur    d17, [x0, #28]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0xfc424011 // ldur    d17, [x0, #36]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x530a7d4a // lsr    w10, w10, #10
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0xfd401811 // ldr    d17, [x0, #48]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x1e270153 // fmov    s19, w10
-	WORD $0x2ea04634 // ushl    v20.2s, v17.2s, v0.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x6e132273 // ext    v19.16b, v19.16b, v19.16b, #4
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x0eb21e92 // orr    v18.8b, v20.8b, v18.8b
-	WORD $0x6e126271 // ext    v17.16b, v19.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xfd401c11 // ldr    d17, [x0, #56]
-	WORD $0xbd403412 // ldr    s18, [x0, #52]
-	WORD $0xb940400c // ldr    w12, [x0, #64]
-	WORD $0x2ea24633 // ushl    v19.2s, v17.2s, v2.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a698a // extr    w10, w12, w10, #26
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2948280b // ldp    w11, w10, [x0, #64]
-	WORD $0xfd402411 // ldr    d17, [x0, #72]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0xb9404c0a // ldr    w10, [x0, #76]
-	WORD $0xfd402811 // ldr    d17, [x0, #80]
-	WORD $0x91016000 // add    x0, x0, #88
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x530a7d4a // lsr    w10, w10, #10
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_144
-	JMP LBB0_156
-
-LBB0_145:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.146:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_139
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f01c7e0 // movi    v0.4s, #63, msl #8
-	VMOVD LCPI0_139, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_147:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530e7d4c // lsr    w12, w10, #14
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53067d6c // lsr    w12, w11, #6
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940140c // ldr    w12, [x0, #20]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b698a // extr    w10, w12, w11, #26
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x530e7d4c // lsr    w12, w10, #14
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53067d6c // lsr    w12, w11, #6
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940300c // ldr    w12, [x0, #48]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b698a // extr    w10, w12, w11, #26
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x9100e000 // add    x0, x0, #56
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_147
-	JMP LBB0_156
-
-LBB0_148:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.149:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_24
-	// WORD $0x90000009 // adrp    x9, .LCPI0_25
-	// WORD $0x9000000a // adrp    x10, .LCPI0_26
-	VMOVD LCPI0_24, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_27
-	VMOVD LCPI0_25, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_28
-	VMOVQ LCPI0_26L, LCPI0_26H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_29
-	VMOVQ LCPI0_27L, LCPI0_27H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_30
-	VMOVQ LCPI0_28L, LCPI0_28H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_31
-	VMOVQ LCPI0_29L, LCPI0_29H, V5
-	VMOVD LCPI0_30, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_31, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_150:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404010 // ldur    d16, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0xbd400c10 // ldr    s16, [x0, #12]
-	WORD $0x3dc00411 // ldr    q17, [x0, #16]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x6ea34610 // ushl    v16.4s, v16.4s, v3.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9d0110 // stur    q16, [x8, #-48]
-	WORD $0xbd401c10 // ldr    s16, [x0, #28]
-	WORD $0x3dc00811 // ldr    q17, [x0, #32]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x6ea54610 // ushl    v16.4s, v16.4s, v5.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0xfd401810 // ldr    d16, [x0, #48]
-	WORD $0xbd402c11 // ldr    s17, [x0, #44]
-	WORD $0xb940380b // ldr    w11, [x0, #56]
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a116a // extr    w10, w11, w10, #4
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0xfd402010 // ldr    d16, [x0, #64]
-	WORD $0xb940480b // ldr    w11, [x0, #72]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0xbd404810 // ldr    s16, [x0, #72]
-	WORD $0x3cc4c011 // ldur    q17, [x0, #76]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x6ea34610 // ushl    v16.4s, v16.4s, v3.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800510 // str    q16, [x8, #16]
-	WORD $0xbd405810 // ldr    s16, [x0, #88]
-	WORD $0x3cc5c011 // ldur    q17, [x0, #92]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x6ea54610 // ushl    v16.4s, v16.4s, v5.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0xfc46c010 // ldur    d16, [x0, #108]
-	WORD $0xbd406811 // ldr    s17, [x0, #104]
-	WORD $0xb940740b // ldr    w11, [x0, #116]
-	WORD $0x9101e000 // add    x0, x0, #120
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a116a // extr    w10, w11, w10, #4
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_150
-	JMP LBB0_156
-
-LBB0_151:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_0
-	// WORD $0x90000009 // adrp    x9, .LCPI0_1
-	// WORD $0x9000000a // adrp    x10, .LCPI0_2
-	// WORD $0x9000000b // adrp    x11, .LCPI0_3
-	WORD $0x5280020c // mov    w12, #16
-	VMOVQ LCPI0_0L, LCPI0_0H, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_4
-	VMOVQ LCPI0_1L, LCPI0_1H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_5
-	VMOVQ LCPI0_2L, LCPI0_2H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_6
-	VMOVQ LCPI0_3L, LCPI0_3H, V3
-	// WORD $0x9000000b // adrp    x11, .LCPI0_7
-	VMOVQ LCPI0_4L, LCPI0_4H, V4
-	WORD $0x927c6e68 // and    x8, x19, #0xfffffff0
-	VMOVQ LCPI0_5L, LCPI0_5H, V5
-	WORD $0xaa0803e9 // mov    x9, x8
-	VMOVQ LCPI0_6L, LCPI0_6H, V6
-	WORD $0x4e080d90 // dup    v16.2d, x12
-	VMOVQ LCPI0_7L, LCPI0_7H, V7
-
-LBB0_152:
-	WORD $0x4f4554f1 // shl    v17.2d, v7.2d, #5
-	WORD $0xf1004129 // subs    x9, x9, #16
-	WORD $0x4f4554d2 // shl    v18.2d, v6.2d, #5
-	WORD $0x4f4554b3 // shl    v19.2d, v5.2d, #5
-	WORD $0x4f455494 // shl    v20.2d, v4.2d, #5
-	WORD $0x4e183e2d // mov    x13, v17.d[1]
-	WORD $0x9e66022a // fmov    x10, d17
-	WORD $0x4e183e4e // mov    x14, v18.d[1]
-	WORD $0x9e66026f // fmov    x15, d19
-	WORD $0x4e183e70 // mov    x16, v19.d[1]
-	WORD $0x4f455471 // shl    v17.2d, v3.2d, #5
-	WORD $0x8b0a0b4c // add    x12, x26, x10, lsl #2
-	WORD $0x9e660280 // fmov    x0, d20
-	WORD $0x8b0f0b4a // add    x10, x26, x15, lsl #2
-	WORD $0x4f455453 // shl    v19.2d, v2.2d, #5
-	WORD $0x9e66024b // fmov    x11, d18
-	WORD $0x8b0d0b51 // add    x17, x26, x13, lsl #2
-	WORD $0x8b0e0b4f // add    x15, x26, x14, lsl #2
-	WORD $0x4f455412 // shl    v18.2d, v0.2d, #5
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0x8b000b4e // add    x14, x26, x0, lsl #2
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0x4e183e20 // mov    x0, v17.d[1]
-	WORD $0x9e660263 // fmov    x3, d19
-	WORD $0x4f455431 // shl    v17.2d, v1.2d, #5
-	WORD $0x8b0b0b4b // add    x11, x26, x11, lsl #2
-	WORD $0x4e183e92 // mov    x18, v20.d[1]
-	WORD $0x8b100b50 // add    x16, x26, x16, lsl #2
-	WORD $0x4e183e62 // mov    x2, v19.d[1]
-	WORD $0x8b030b54 // add    x20, x26, x3, lsl #2
-	WORD $0x4e183e46 // mov    x6, v18.d[1]
-	WORD $0x8b000b40 // add    x0, x26, x0, lsl #2
-	WORD $0x4e183e23 // mov    x3, v17.d[1]
-	WORD $0xb900019f // str    wzr, [x12]
-	WORD $0x9e660225 // fmov    x5, d17
-	WORD $0x8b120b52 // add    x18, x26, x18, lsl #2
-	WORD $0x9e660247 // fmov    x7, d18
-	WORD $0x8b020b44 // add    x4, x26, x2, lsl #2
-	WORD $0x4ef084a5 // add    v5.2d, v5.2d, v16.2d
-	WORD $0x8b060b46 // add    x6, x26, x6, lsl #2
-	WORD $0x4ef084c6 // add    v6.2d, v6.2d, v16.2d
-	WORD $0x8b050b45 // add    x5, x26, x5, lsl #2
-	WORD $0x4ef084e7 // add    v7.2d, v7.2d, v16.2d
-	WORD $0x8b030b42 // add    x2, x26, x3, lsl #2
-	WORD $0x4ef08484 // add    v4.2d, v4.2d, v16.2d
-	WORD $0x8b070b43 // add    x3, x26, x7, lsl #2
-	WORD $0x4ef08463 // add    v3.2d, v3.2d, v16.2d
-	WORD $0xb900023f // str    wzr, [x17]
-	WORD $0x4ef08442 // add    v2.2d, v2.2d, v16.2d
-	WORD $0xb900017f // str    wzr, [x11]
-	WORD $0x4ef08421 // add    v1.2d, v1.2d, v16.2d
-	WORD $0xb90001ff // str    wzr, [x15]
-	WORD $0x4ef08400 // add    v0.2d, v0.2d, v16.2d
-	WORD $0xb900015f // str    wzr, [x10]
-	WORD $0xb90001bf // str    wzr, [x13]
-	WORD $0xb90001df // str    wzr, [x14]
-	WORD $0xb900025f // str    wzr, [x18]
-	WORD $0xb900021f // str    wzr, [x16]
-	WORD $0xb900001f // str    wzr, [x0]
-	WORD $0xb900029f // str    wzr, [x20]
-	WORD $0xb900009f // str    wzr, [x4]
-	WORD $0xb90000bf // str    wzr, [x5]
-	WORD $0xb900005f // str    wzr, [x2]
-	WORD $0xb900007f // str    wzr, [x3]
-	WORD $0xb90000df // str    wzr, [x6]
-	WORD $0xb900059f // str    wzr, [x12, #4]
-	WORD $0xb900063f // str    wzr, [x17, #4]
-	WORD $0xb900057f // str    wzr, [x11, #4]
-	WORD $0xb90005ff // str    wzr, [x15, #4]
-	WORD $0xb900055f // str    wzr, [x10, #4]
-	WORD $0xb90005bf // str    wzr, [x13, #4]
-	WORD $0xb90005df // str    wzr, [x14, #4]
-	WORD $0xb900065f // str    wzr, [x18, #4]
-	WORD $0xb900061f // str    wzr, [x16, #4]
-	WORD $0xb900041f // str    wzr, [x0, #4]
-	WORD $0xb900069f // str    wzr, [x20, #4]
-	WORD $0xb900049f // str    wzr, [x4, #4]
-	WORD $0xb90004bf // str    wzr, [x5, #4]
-	WORD $0xb900045f // str    wzr, [x2, #4]
-	WORD $0xb900047f // str    wzr, [x3, #4]
-	WORD $0xb90004df // str    wzr, [x6, #4]
-	WORD $0xb900099f // str    wzr, [x12, #8]
-	WORD $0xb9000a3f // str    wzr, [x17, #8]
-	WORD $0xb900097f // str    wzr, [x11, #8]
-	WORD $0xb90009ff // str    wzr, [x15, #8]
-	WORD $0xb900095f // str    wzr, [x10, #8]
-	WORD $0xb90009bf // str    wzr, [x13, #8]
-	WORD $0xb90009df // str    wzr, [x14, #8]
-	WORD $0xb9000a5f // str    wzr, [x18, #8]
-	WORD $0xb9000a1f // str    wzr, [x16, #8]
-	WORD $0xb900081f // str    wzr, [x0, #8]
-	WORD $0xb9000a9f // str    wzr, [x20, #8]
-	WORD $0xb900089f // str    wzr, [x4, #8]
-	WORD $0xb90008bf // str    wzr, [x5, #8]
-	WORD $0xb900085f // str    wzr, [x2, #8]
-	WORD $0xb900087f // str    wzr, [x3, #8]
-	WORD $0xb90008df // str    wzr, [x6, #8]
-	WORD $0xb9000d9f // str    wzr, [x12, #12]
-	WORD $0xb9000e3f // str    wzr, [x17, #12]
-	WORD $0xb9000d7f // str    wzr, [x11, #12]
-	WORD $0xb9000dff // str    wzr, [x15, #12]
-	WORD $0xb9000d5f // str    wzr, [x10, #12]
-	WORD $0xb9000dbf // str    wzr, [x13, #12]
-	WORD $0xb9000ddf // str    wzr, [x14, #12]
-	WORD $0xb9000e5f // str    wzr, [x18, #12]
-	WORD $0xb9000e1f // str    wzr, [x16, #12]
-	WORD $0xb9000c1f // str    wzr, [x0, #12]
-	WORD $0xb9000e9f // str    wzr, [x20, #12]
-	WORD $0xb9000c9f // str    wzr, [x4, #12]
-	WORD $0xb9000cbf // str    wzr, [x5, #12]
-	WORD $0xb9000c5f // str    wzr, [x2, #12]
-	WORD $0xb9000c7f // str    wzr, [x3, #12]
-	WORD $0xb9000cdf // str    wzr, [x6, #12]
-	WORD $0xb900119f // str    wzr, [x12, #16]
-	WORD $0xb900123f // str    wzr, [x17, #16]
-	WORD $0xb900117f // str    wzr, [x11, #16]
-	WORD $0xb90011ff // str    wzr, [x15, #16]
-	WORD $0xb900115f // str    wzr, [x10, #16]
-	WORD $0xb90011bf // str    wzr, [x13, #16]
-	WORD $0xb90011df // str    wzr, [x14, #16]
-	WORD $0xb900125f // str    wzr, [x18, #16]
-	WORD $0xb900121f // str    wzr, [x16, #16]
-	WORD $0xb900101f // str    wzr, [x0, #16]
-	WORD $0xb900129f // str    wzr, [x20, #16]
-	WORD $0xb900109f // str    wzr, [x4, #16]
-	WORD $0xb90010bf // str    wzr, [x5, #16]
-	WORD $0xb900105f // str    wzr, [x2, #16]
-	WORD $0xb900107f // str    wzr, [x3, #16]
-	WORD $0xb90010df // str    wzr, [x6, #16]
-	WORD $0xb900159f // str    wzr, [x12, #20]
-	WORD $0xb900163f // str    wzr, [x17, #20]
-	WORD $0xb900157f // str    wzr, [x11, #20]
-	WORD $0xb90015ff // str    wzr, [x15, #20]
-	WORD $0xb900155f // str    wzr, [x10, #20]
-	WORD $0xb90015bf // str    wzr, [x13, #20]
-	WORD $0xb90015df // str    wzr, [x14, #20]
-	WORD $0xb900165f // str    wzr, [x18, #20]
-	WORD $0xb900161f // str    wzr, [x16, #20]
-	WORD $0xb900141f // str    wzr, [x0, #20]
-	WORD $0xb900169f // str    wzr, [x20, #20]
-	WORD $0xb900149f // str    wzr, [x4, #20]
-	WORD $0xb90014bf // str    wzr, [x5, #20]
-	WORD $0xb900145f // str    wzr, [x2, #20]
-	WORD $0xb900147f // str    wzr, [x3, #20]
-	WORD $0xb90014df // str    wzr, [x6, #20]
-	WORD $0xb900199f // str    wzr, [x12, #24]
-	WORD $0xb9001a3f // str    wzr, [x17, #24]
-	WORD $0xb900197f // str    wzr, [x11, #24]
-	WORD $0xb90019ff // str    wzr, [x15, #24]
-	WORD $0xb900195f // str    wzr, [x10, #24]
-	WORD $0xb90019bf // str    wzr, [x13, #24]
-	WORD $0xb90019df // str    wzr, [x14, #24]
-	WORD $0xb9001a5f // str    wzr, [x18, #24]
-	WORD $0xb9001a1f // str    wzr, [x16, #24]
-	WORD $0xb900181f // str    wzr, [x0, #24]
-	WORD $0xb9001a9f // str    wzr, [x20, #24]
-	WORD $0xb900189f // str    wzr, [x4, #24]
-	WORD $0xb90018bf // str    wzr, [x5, #24]
-	WORD $0xb900185f // str    wzr, [x2, #24]
-	WORD $0xb900187f // str    wzr, [x3, #24]
-	WORD $0xb90018df // str    wzr, [x6, #24]
-	WORD $0xb9001d9f // str    wzr, [x12, #28]
-	WORD $0xb9001e3f // str    wzr, [x17, #28]
-	WORD $0xb9001d7f // str    wzr, [x11, #28]
-	WORD $0xb9001dff // str    wzr, [x15, #28]
-	WORD $0xb9001d5f // str    wzr, [x10, #28]
-	WORD $0xb9001dbf // str    wzr, [x13, #28]
-	WORD $0xb9001ddf // str    wzr, [x14, #28]
-	WORD $0xb9001e5f // str    wzr, [x18, #28]
-	WORD $0xb9001e1f // str    wzr, [x16, #28]
-	WORD $0xb9001c1f // str    wzr, [x0, #28]
-	WORD $0xb9001e9f // str    wzr, [x20, #28]
-	WORD $0xb9001c9f // str    wzr, [x4, #28]
-	WORD $0xb9001cbf // str    wzr, [x5, #28]
-	WORD $0xb9001c5f // str    wzr, [x2, #28]
-	WORD $0xb9001c7f // str    wzr, [x3, #28]
-	WORD $0xb9001cdf // str    wzr, [x6, #28]
-	WORD $0xb900219f // str    wzr, [x12, #32]
-	WORD $0xb900223f // str    wzr, [x17, #32]
-	WORD $0xb900217f // str    wzr, [x11, #32]
-	WORD $0xb90021ff // str    wzr, [x15, #32]
-	WORD $0xb900215f // str    wzr, [x10, #32]
-	WORD $0xb90021bf // str    wzr, [x13, #32]
-	WORD $0xb90021df // str    wzr, [x14, #32]
-	WORD $0xb900225f // str    wzr, [x18, #32]
-	WORD $0xb900221f // str    wzr, [x16, #32]
-	WORD $0xb900201f // str    wzr, [x0, #32]
-	WORD $0xb900229f // str    wzr, [x20, #32]
-	WORD $0xb900209f // str    wzr, [x4, #32]
-	WORD $0xb90020bf // str    wzr, [x5, #32]
-	WORD $0xb900205f // str    wzr, [x2, #32]
-	WORD $0xb900207f // str    wzr, [x3, #32]
-	WORD $0xb90020df // str    wzr, [x6, #32]
-	WORD $0xb900259f // str    wzr, [x12, #36]
-	WORD $0xb900263f // str    wzr, [x17, #36]
-	WORD $0xb900257f // str    wzr, [x11, #36]
-	WORD $0xb90025ff // str    wzr, [x15, #36]
-	WORD $0xb900255f // str    wzr, [x10, #36]
-	WORD $0xb90025bf // str    wzr, [x13, #36]
-	WORD $0xb90025df // str    wzr, [x14, #36]
-	WORD $0xb900265f // str    wzr, [x18, #36]
-	WORD $0xb900261f // str    wzr, [x16, #36]
-	WORD $0xb900241f // str    wzr, [x0, #36]
-	WORD $0xb900269f // str    wzr, [x20, #36]
-	WORD $0xb900249f // str    wzr, [x4, #36]
-	WORD $0xb90024bf // str    wzr, [x5, #36]
-	WORD $0xb900245f // str    wzr, [x2, #36]
-	WORD $0xb900247f // str    wzr, [x3, #36]
-	WORD $0xb90024df // str    wzr, [x6, #36]
-	WORD $0xb900299f // str    wzr, [x12, #40]
-	WORD $0xb9002a3f // str    wzr, [x17, #40]
-	WORD $0xb900297f // str    wzr, [x11, #40]
-	WORD $0xb90029ff // str    wzr, [x15, #40]
-	WORD $0xb900295f // str    wzr, [x10, #40]
-	WORD $0xb90029bf // str    wzr, [x13, #40]
-	WORD $0xb90029df // str    wzr, [x14, #40]
-	WORD $0xb9002a5f // str    wzr, [x18, #40]
-	WORD $0xb9002a1f // str    wzr, [x16, #40]
-	WORD $0xb900281f // str    wzr, [x0, #40]
-	WORD $0xb9002a9f // str    wzr, [x20, #40]
-	WORD $0xb900289f // str    wzr, [x4, #40]
-	WORD $0xb90028bf // str    wzr, [x5, #40]
-	WORD $0xb900285f // str    wzr, [x2, #40]
-	WORD $0xb900287f // str    wzr, [x3, #40]
-	WORD $0xb90028df // str    wzr, [x6, #40]
-	WORD $0xb9002d9f // str    wzr, [x12, #44]
-	WORD $0xb9002e3f // str    wzr, [x17, #44]
-	WORD $0xb9002d7f // str    wzr, [x11, #44]
-	WORD $0xb9002dff // str    wzr, [x15, #44]
-	WORD $0xb9002d5f // str    wzr, [x10, #44]
-	WORD $0xb9002dbf // str    wzr, [x13, #44]
-	WORD $0xb9002ddf // str    wzr, [x14, #44]
-	WORD $0xb9002e5f // str    wzr, [x18, #44]
-	WORD $0xb9002e1f // str    wzr, [x16, #44]
-	WORD $0xb9002c1f // str    wzr, [x0, #44]
-	WORD $0xb9002e9f // str    wzr, [x20, #44]
-	WORD $0xb9002c9f // str    wzr, [x4, #44]
-	WORD $0xb9002cbf // str    wzr, [x5, #44]
-	WORD $0xb9002c5f // str    wzr, [x2, #44]
-	WORD $0xb9002c7f // str    wzr, [x3, #44]
-	WORD $0xb9002cdf // str    wzr, [x6, #44]
-	WORD $0xb900319f // str    wzr, [x12, #48]
-	WORD $0xb900323f // str    wzr, [x17, #48]
-	WORD $0xb900317f // str    wzr, [x11, #48]
-	WORD $0xb90031ff // str    wzr, [x15, #48]
-	WORD $0xb900315f // str    wzr, [x10, #48]
-	WORD $0xb90031bf // str    wzr, [x13, #48]
-	WORD $0xb90031df // str    wzr, [x14, #48]
-	WORD $0xb900325f // str    wzr, [x18, #48]
-	WORD $0xb900321f // str    wzr, [x16, #48]
-	WORD $0xb900301f // str    wzr, [x0, #48]
-	WORD $0xb900329f // str    wzr, [x20, #48]
-	WORD $0xb900309f // str    wzr, [x4, #48]
-	WORD $0xb90030bf // str    wzr, [x5, #48]
-	WORD $0xb900305f // str    wzr, [x2, #48]
-	WORD $0xb900307f // str    wzr, [x3, #48]
-	WORD $0xb90030df // str    wzr, [x6, #48]
-	WORD $0xb900359f // str    wzr, [x12, #52]
-	WORD $0xb900363f // str    wzr, [x17, #52]
-	WORD $0xb900357f // str    wzr, [x11, #52]
-	WORD $0xb90035ff // str    wzr, [x15, #52]
-	WORD $0xb900355f // str    wzr, [x10, #52]
-	WORD $0xb90035bf // str    wzr, [x13, #52]
-	WORD $0xb90035df // str    wzr, [x14, #52]
-	WORD $0xb900365f // str    wzr, [x18, #52]
-	WORD $0xb900361f // str    wzr, [x16, #52]
-	WORD $0xb900341f // str    wzr, [x0, #52]
-	WORD $0xb900369f // str    wzr, [x20, #52]
-	WORD $0xb900349f // str    wzr, [x4, #52]
-	WORD $0xb90034bf // str    wzr, [x5, #52]
-	WORD $0xb900345f // str    wzr, [x2, #52]
-	WORD $0xb900347f // str    wzr, [x3, #52]
-	WORD $0xb90034df // str    wzr, [x6, #52]
-	WORD $0xb900399f // str    wzr, [x12, #56]
-	WORD $0xb9003a3f // str    wzr, [x17, #56]
-	WORD $0xb900397f // str    wzr, [x11, #56]
-	WORD $0xb90039ff // str    wzr, [x15, #56]
-	WORD $0xb900395f // str    wzr, [x10, #56]
-	WORD $0xb90039bf // str    wzr, [x13, #56]
-	WORD $0xb90039df // str    wzr, [x14, #56]
-	WORD $0xb9003a5f // str    wzr, [x18, #56]
-	WORD $0xb9003a1f // str    wzr, [x16, #56]
-	WORD $0xb900381f // str    wzr, [x0, #56]
-	WORD $0xb9003a9f // str    wzr, [x20, #56]
-	WORD $0xb900389f // str    wzr, [x4, #56]
-	WORD $0xb90038bf // str    wzr, [x5, #56]
-	WORD $0xb900385f // str    wzr, [x2, #56]
-	WORD $0xb900387f // str    wzr, [x3, #56]
-	WORD $0xb90038df // str    wzr, [x6, #56]
-	WORD $0xb9003d9f // str    wzr, [x12, #60]
-	WORD $0xb9003e3f // str    wzr, [x17, #60]
-	WORD $0xb9003d7f // str    wzr, [x11, #60]
-	WORD $0xb9003dff // str    wzr, [x15, #60]
-	WORD $0xb9003d5f // str    wzr, [x10, #60]
-	WORD $0xb9003dbf // str    wzr, [x13, #60]
-	WORD $0xb9003ddf // str    wzr, [x14, #60]
-	WORD $0xb9003e5f // str    wzr, [x18, #60]
-	WORD $0xb9003e1f // str    wzr, [x16, #60]
-	WORD $0xb9003c1f // str    wzr, [x0, #60]
-	WORD $0xb9003e9f // str    wzr, [x20, #60]
-	WORD $0xb9003c9f // str    wzr, [x4, #60]
-	WORD $0xb9003cbf // str    wzr, [x5, #60]
-	WORD $0xb9003c5f // str    wzr, [x2, #60]
-	WORD $0xb9003c7f // str    wzr, [x3, #60]
-	WORD $0xb9003cdf // str    wzr, [x6, #60]
-	WORD $0xb900419f // str    wzr, [x12, #64]
-	WORD $0xb900423f // str    wzr, [x17, #64]
-	WORD $0xb900417f // str    wzr, [x11, #64]
-	WORD $0xb90041ff // str    wzr, [x15, #64]
-	WORD $0xb900415f // str    wzr, [x10, #64]
-	WORD $0xb90041bf // str    wzr, [x13, #64]
-	WORD $0xb90041df // str    wzr, [x14, #64]
-	WORD $0xb900425f // str    wzr, [x18, #64]
-	WORD $0xb900421f // str    wzr, [x16, #64]
-	WORD $0xb900401f // str    wzr, [x0, #64]
-	WORD $0xb900429f // str    wzr, [x20, #64]
-	WORD $0xb900409f // str    wzr, [x4, #64]
-	WORD $0xb90040bf // str    wzr, [x5, #64]
-	WORD $0xb900405f // str    wzr, [x2, #64]
-	WORD $0xb900407f // str    wzr, [x3, #64]
-	WORD $0xb90040df // str    wzr, [x6, #64]
-	WORD $0xb900459f // str    wzr, [x12, #68]
-	WORD $0xb900463f // str    wzr, [x17, #68]
-	WORD $0xb900457f // str    wzr, [x11, #68]
-	WORD $0xb90045ff // str    wzr, [x15, #68]
-	WORD $0xb900455f // str    wzr, [x10, #68]
-	WORD $0xb90045bf // str    wzr, [x13, #68]
-	WORD $0xb90045df // str    wzr, [x14, #68]
-	WORD $0xb900465f // str    wzr, [x18, #68]
-	WORD $0xb900461f // str    wzr, [x16, #68]
-	WORD $0xb900441f // str    wzr, [x0, #68]
-	WORD $0xb900469f // str    wzr, [x20, #68]
-	WORD $0xb900449f // str    wzr, [x4, #68]
-	WORD $0xb90044bf // str    wzr, [x5, #68]
-	WORD $0xb900445f // str    wzr, [x2, #68]
-	WORD $0xb900447f // str    wzr, [x3, #68]
-	WORD $0xb90044df // str    wzr, [x6, #68]
-	WORD $0xb900499f // str    wzr, [x12, #72]
-	WORD $0xb9004a3f // str    wzr, [x17, #72]
-	WORD $0xb900497f // str    wzr, [x11, #72]
-	WORD $0xb90049ff // str    wzr, [x15, #72]
-	WORD $0xb900495f // str    wzr, [x10, #72]
-	WORD $0xb90049bf // str    wzr, [x13, #72]
-	WORD $0xb90049df // str    wzr, [x14, #72]
-	WORD $0xb9004a5f // str    wzr, [x18, #72]
-	WORD $0xb9004a1f // str    wzr, [x16, #72]
-	WORD $0xb900481f // str    wzr, [x0, #72]
-	WORD $0xb9004a9f // str    wzr, [x20, #72]
-	WORD $0xb900489f // str    wzr, [x4, #72]
-	WORD $0xb90048bf // str    wzr, [x5, #72]
-	WORD $0xb900485f // str    wzr, [x2, #72]
-	WORD $0xb900487f // str    wzr, [x3, #72]
-	WORD $0xb90048df // str    wzr, [x6, #72]
-	WORD $0xb9004d9f // str    wzr, [x12, #76]
-	WORD $0xb9004e3f // str    wzr, [x17, #76]
-	WORD $0xb9004d7f // str    wzr, [x11, #76]
-	WORD $0xb9004dff // str    wzr, [x15, #76]
-	WORD $0xb9004d5f // str    wzr, [x10, #76]
-	WORD $0xb9004dbf // str    wzr, [x13, #76]
-	WORD $0xb9004ddf // str    wzr, [x14, #76]
-	WORD $0xb9004e5f // str    wzr, [x18, #76]
-	WORD $0xb9004e1f // str    wzr, [x16, #76]
-	WORD $0xb9004c1f // str    wzr, [x0, #76]
-	WORD $0xb9004e9f // str    wzr, [x20, #76]
-	WORD $0xb9004c9f // str    wzr, [x4, #76]
-	WORD $0xb9004cbf // str    wzr, [x5, #76]
-	WORD $0xb9004c5f // str    wzr, [x2, #76]
-	WORD $0xb9004c7f // str    wzr, [x3, #76]
-	WORD $0xb9004cdf // str    wzr, [x6, #76]
-	WORD $0xb900519f // str    wzr, [x12, #80]
-	WORD $0xb900523f // str    wzr, [x17, #80]
-	WORD $0xb900517f // str    wzr, [x11, #80]
-	WORD $0xb90051ff // str    wzr, [x15, #80]
-	WORD $0xb900515f // str    wzr, [x10, #80]
-	WORD $0xb90051bf // str    wzr, [x13, #80]
-	WORD $0xb90051df // str    wzr, [x14, #80]
-	WORD $0xb900525f // str    wzr, [x18, #80]
-	WORD $0xb900521f // str    wzr, [x16, #80]
-	WORD $0xb900501f // str    wzr, [x0, #80]
-	WORD $0xb900529f // str    wzr, [x20, #80]
-	WORD $0xb900509f // str    wzr, [x4, #80]
-	WORD $0xb90050bf // str    wzr, [x5, #80]
-	WORD $0xb900505f // str    wzr, [x2, #80]
-	WORD $0xb900507f // str    wzr, [x3, #80]
-	WORD $0xb90050df // str    wzr, [x6, #80]
-	WORD $0xb900559f // str    wzr, [x12, #84]
-	WORD $0xb900563f // str    wzr, [x17, #84]
-	WORD $0xb900557f // str    wzr, [x11, #84]
-	WORD $0xb90055ff // str    wzr, [x15, #84]
-	WORD $0xb900555f // str    wzr, [x10, #84]
-	WORD $0xb90055bf // str    wzr, [x13, #84]
-	WORD $0xb90055df // str    wzr, [x14, #84]
-	WORD $0xb900565f // str    wzr, [x18, #84]
-	WORD $0xb900561f // str    wzr, [x16, #84]
-	WORD $0xb900541f // str    wzr, [x0, #84]
-	WORD $0xb900569f // str    wzr, [x20, #84]
-	WORD $0xb900549f // str    wzr, [x4, #84]
-	WORD $0xb90054bf // str    wzr, [x5, #84]
-	WORD $0xb900545f // str    wzr, [x2, #84]
-	WORD $0xb900547f // str    wzr, [x3, #84]
-	WORD $0xb90054df // str    wzr, [x6, #84]
-	WORD $0xb900599f // str    wzr, [x12, #88]
-	WORD $0xb9005a3f // str    wzr, [x17, #88]
-	WORD $0xb900597f // str    wzr, [x11, #88]
-	WORD $0xb90059ff // str    wzr, [x15, #88]
-	WORD $0xb900595f // str    wzr, [x10, #88]
-	WORD $0xb90059bf // str    wzr, [x13, #88]
-	WORD $0xb90059df // str    wzr, [x14, #88]
-	WORD $0xb9005a5f // str    wzr, [x18, #88]
-	WORD $0xb9005a1f // str    wzr, [x16, #88]
-	WORD $0xb900581f // str    wzr, [x0, #88]
-	WORD $0xb9005a9f // str    wzr, [x20, #88]
-	WORD $0xb900589f // str    wzr, [x4, #88]
-	WORD $0xb90058bf // str    wzr, [x5, #88]
-	WORD $0xb900585f // str    wzr, [x2, #88]
-	WORD $0xb900587f // str    wzr, [x3, #88]
-	WORD $0xb90058df // str    wzr, [x6, #88]
-	WORD $0xb9005d9f // str    wzr, [x12, #92]
-	WORD $0xb9005e3f // str    wzr, [x17, #92]
-	WORD $0xb9005d7f // str    wzr, [x11, #92]
-	WORD $0xb9005dff // str    wzr, [x15, #92]
-	WORD $0xb9005d5f // str    wzr, [x10, #92]
-	WORD $0xb9005dbf // str    wzr, [x13, #92]
-	WORD $0xb9005ddf // str    wzr, [x14, #92]
-	WORD $0xb9005e5f // str    wzr, [x18, #92]
-	WORD $0xb9005e1f // str    wzr, [x16, #92]
-	WORD $0xb9005c1f // str    wzr, [x0, #92]
-	WORD $0xb9005e9f // str    wzr, [x20, #92]
-	WORD $0xb9005c9f // str    wzr, [x4, #92]
-	WORD $0xb9005cbf // str    wzr, [x5, #92]
-	WORD $0xb9005c5f // str    wzr, [x2, #92]
-	WORD $0xb9005c7f // str    wzr, [x3, #92]
-	WORD $0xb9005cdf // str    wzr, [x6, #92]
-	WORD $0xb900619f // str    wzr, [x12, #96]
-	WORD $0xb900623f // str    wzr, [x17, #96]
-	WORD $0xb900617f // str    wzr, [x11, #96]
-	WORD $0xb90061ff // str    wzr, [x15, #96]
-	WORD $0xb900615f // str    wzr, [x10, #96]
-	WORD $0xb90061bf // str    wzr, [x13, #96]
-	WORD $0xb90061df // str    wzr, [x14, #96]
-	WORD $0xb900625f // str    wzr, [x18, #96]
-	WORD $0xb900621f // str    wzr, [x16, #96]
-	WORD $0xb900601f // str    wzr, [x0, #96]
-	WORD $0xb900629f // str    wzr, [x20, #96]
-	WORD $0xb900609f // str    wzr, [x4, #96]
-	WORD $0xb90060bf // str    wzr, [x5, #96]
-	WORD $0xb900605f // str    wzr, [x2, #96]
-	WORD $0xb900607f // str    wzr, [x3, #96]
-	WORD $0xb90060df // str    wzr, [x6, #96]
-	WORD $0xb900659f // str    wzr, [x12, #100]
-	WORD $0xb900663f // str    wzr, [x17, #100]
-	WORD $0xb900657f // str    wzr, [x11, #100]
-	WORD $0xb90065ff // str    wzr, [x15, #100]
-	WORD $0xb900655f // str    wzr, [x10, #100]
-	WORD $0xb90065bf // str    wzr, [x13, #100]
-	WORD $0xb90065df // str    wzr, [x14, #100]
-	WORD $0xb900665f // str    wzr, [x18, #100]
-	WORD $0xb900661f // str    wzr, [x16, #100]
-	WORD $0xb900641f // str    wzr, [x0, #100]
-	WORD $0xb900669f // str    wzr, [x20, #100]
-	WORD $0xb900649f // str    wzr, [x4, #100]
-	WORD $0xb90064bf // str    wzr, [x5, #100]
-	WORD $0xb900645f // str    wzr, [x2, #100]
-	WORD $0xb900647f // str    wzr, [x3, #100]
-	WORD $0xb90064df // str    wzr, [x6, #100]
-	WORD $0xb900699f // str    wzr, [x12, #104]
-	WORD $0xb9006a3f // str    wzr, [x17, #104]
-	WORD $0xb900697f // str    wzr, [x11, #104]
-	WORD $0xb90069ff // str    wzr, [x15, #104]
-	WORD $0xb900695f // str    wzr, [x10, #104]
-	WORD $0xb90069bf // str    wzr, [x13, #104]
-	WORD $0xb90069df // str    wzr, [x14, #104]
-	WORD $0xb9006a5f // str    wzr, [x18, #104]
-	WORD $0xb9006a1f // str    wzr, [x16, #104]
-	WORD $0xb900681f // str    wzr, [x0, #104]
-	WORD $0xb9006a9f // str    wzr, [x20, #104]
-	WORD $0xb900689f // str    wzr, [x4, #104]
-	WORD $0xb90068bf // str    wzr, [x5, #104]
-	WORD $0xb900685f // str    wzr, [x2, #104]
-	WORD $0xb900687f // str    wzr, [x3, #104]
-	WORD $0xb90068df // str    wzr, [x6, #104]
-	WORD $0xb9006d9f // str    wzr, [x12, #108]
-	WORD $0xb9006e3f // str    wzr, [x17, #108]
-	WORD $0xb9006d7f // str    wzr, [x11, #108]
-	WORD $0xb9006dff // str    wzr, [x15, #108]
-	WORD $0xb9006d5f // str    wzr, [x10, #108]
-	WORD $0xb9006dbf // str    wzr, [x13, #108]
-	WORD $0xb9006ddf // str    wzr, [x14, #108]
-	WORD $0xb9006e5f // str    wzr, [x18, #108]
-	WORD $0xb9006e1f // str    wzr, [x16, #108]
-	WORD $0xb9006c1f // str    wzr, [x0, #108]
-	WORD $0xb9006e9f // str    wzr, [x20, #108]
-	WORD $0xb9006c9f // str    wzr, [x4, #108]
-	WORD $0xb9006cbf // str    wzr, [x5, #108]
-	WORD $0xb9006c5f // str    wzr, [x2, #108]
-	WORD $0xb9006c7f // str    wzr, [x3, #108]
-	WORD $0xb9006cdf // str    wzr, [x6, #108]
-	WORD $0xb900719f // str    wzr, [x12, #112]
-	WORD $0xb900723f // str    wzr, [x17, #112]
-	WORD $0xb900717f // str    wzr, [x11, #112]
-	WORD $0xb90071ff // str    wzr, [x15, #112]
-	WORD $0xb900715f // str    wzr, [x10, #112]
-	WORD $0xb90071bf // str    wzr, [x13, #112]
-	WORD $0xb90071df // str    wzr, [x14, #112]
-	WORD $0xb900725f // str    wzr, [x18, #112]
-	WORD $0xb900721f // str    wzr, [x16, #112]
-	WORD $0xb900701f // str    wzr, [x0, #112]
-	WORD $0xb900729f // str    wzr, [x20, #112]
-	WORD $0xb900709f // str    wzr, [x4, #112]
-	WORD $0xb90070bf // str    wzr, [x5, #112]
-	WORD $0xb900705f // str    wzr, [x2, #112]
-	WORD $0xb900707f // str    wzr, [x3, #112]
-	WORD $0xb90070df // str    wzr, [x6, #112]
-	WORD $0xb900759f // str    wzr, [x12, #116]
-	WORD $0xb900763f // str    wzr, [x17, #116]
-	WORD $0xb900757f // str    wzr, [x11, #116]
-	WORD $0xb90075ff // str    wzr, [x15, #116]
-	WORD $0xb900755f // str    wzr, [x10, #116]
-	WORD $0xb90075bf // str    wzr, [x13, #116]
-	WORD $0xb90075df // str    wzr, [x14, #116]
-	WORD $0xb900765f // str    wzr, [x18, #116]
-	WORD $0xb900761f // str    wzr, [x16, #116]
-	WORD $0xb900741f // str    wzr, [x0, #116]
-	WORD $0xb900769f // str    wzr, [x20, #116]
-	WORD $0xb900749f // str    wzr, [x4, #116]
-	WORD $0xb90074bf // str    wzr, [x5, #116]
-	WORD $0xb900745f // str    wzr, [x2, #116]
-	WORD $0xb900747f // str    wzr, [x3, #116]
-	WORD $0xb90074df // str    wzr, [x6, #116]
-	WORD $0xb900799f // str    wzr, [x12, #120]
-	WORD $0xb9007a3f // str    wzr, [x17, #120]
-	WORD $0xb900797f // str    wzr, [x11, #120]
-	WORD $0xb90079ff // str    wzr, [x15, #120]
-	WORD $0xb900795f // str    wzr, [x10, #120]
-	WORD $0xb90079bf // str    wzr, [x13, #120]
-	WORD $0xb90079df // str    wzr, [x14, #120]
-	WORD $0xb9007a5f // str    wzr, [x18, #120]
-	WORD $0xb9007a1f // str    wzr, [x16, #120]
-	WORD $0xb900781f // str    wzr, [x0, #120]
-	WORD $0xb9007a9f // str    wzr, [x20, #120]
-	WORD $0xb900789f // str    wzr, [x4, #120]
-	WORD $0xb90078bf // str    wzr, [x5, #120]
-	WORD $0xb900785f // str    wzr, [x2, #120]
-	WORD $0xb900787f // str    wzr, [x3, #120]
-	WORD $0xb90078df // str    wzr, [x6, #120]
-	WORD $0xb9007d9f // str    wzr, [x12, #124]
-	WORD $0xb9007e3f // str    wzr, [x17, #124]
-	WORD $0xb9007d7f // str    wzr, [x11, #124]
-	WORD $0xb9007dff // str    wzr, [x15, #124]
-	WORD $0xb9007d5f // str    wzr, [x10, #124]
-	WORD $0xb9007dbf // str    wzr, [x13, #124]
-	WORD $0xb9007ddf // str    wzr, [x14, #124]
-	WORD $0xb9007e5f // str    wzr, [x18, #124]
-	WORD $0xb9007e1f // str    wzr, [x16, #124]
-	WORD $0xb9007c1f // str    wzr, [x0, #124]
-	WORD $0xb9007e9f // str    wzr, [x20, #124]
-	WORD $0xb9007c9f // str    wzr, [x4, #124]
-	WORD $0xb9007cbf // str    wzr, [x5, #124]
-	WORD $0xb9007c5f // str    wzr, [x2, #124]
-	WORD $0xb9007c7f // str    wzr, [x3, #124]
-	WORD $0xb9007cdf // str    wzr, [x6, #124]
-	BNE LBB0_152
-
-	// %bb.153:
-	WORD $0xeb13011f // cmp    x8, x19
-	BEQ LBB0_156
-
-LBB0_154:
-	WORD $0x8b081f49 // add    x9, x26, x8, lsl #7
-	WORD $0xcb080268 // sub    x8, x19, x8
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0x91010129 // add    x9, x9, #64
-
-LBB0_155:
-	WORD $0xad3e0120 // stp    q0, q0, [x9, #-64]
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0xad3f0120 // stp    q0, q0, [x9, #-32]
-	WORD $0xad000120 // stp    q0, q0, [x9]
-	WORD $0xad010120 // stp    q0, q0, [x9, #32]
-	WORD $0x91020129 // add    x9, x9, #128
-	BNE LBB0_155
-
-LBB0_157:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_0
-	// WORD $0x90000009 // adrp    x9, .LCPI0_1
-	// WORD $0x9000000a // adrp    x10, .LCPI0_2
-	// WORD $0x9000000b // adrp    x11, .LCPI0_3
-	WORD $0xaa1f03ec // mov    x12, xzr
-	WORD $0xf9000bf3 // str    x19, [sp, #16]
-	VMOVQ LCPI0_0L, LCPI0_0H, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_4
-	VMOVQ LCPI0_1L, LCPI0_1H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_5
-	VMOVQ LCPI0_2L, LCPI0_2H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_6
-	VMOVQ LCPI0_4L, LCPI0_4H, V4
-	// WORD $0x90000008 // adrp    x8, .LCPI0_7
-	VMOVQ LCPI0_3L, LCPI0_3H, V3
-	WORD $0x927c6e6b // and    x11, x19, #0xfffffff0
-	VMOVQ LCPI0_5L, LCPI0_5H, V5
-	WORD $0xf90047fa // str    x26, [sp, #136]
-	VMOVQ LCPI0_7L, LCPI0_7H, V7
-	WORD $0x52800208 // mov    w8, #16
-	VMOVQ LCPI0_6L, LCPI0_6H, V6
-	WORD $0x8b0b1c09 // add    x9, x0, x11, lsl #7
-	WORD $0xf9000feb // str    x11, [sp, #24]
-	WORD $0x4e080d10 // dup    v16.2d, x8
-	WORD $0xf90007e9 // str    x9, [sp, #8]
-
-LBB0_158:
-	WORD $0x4f4554f2 // shl    v18.2d, v7.2d, #5
-	WORD $0xd379e188 // lsl    x8, x12, #7
-	WORD $0x4f4554d3 // shl    v19.2d, v6.2d, #5
-	WORD $0xb278010b // orr    x11, x8, #0x100
-	WORD $0x4f4554b4 // shl    v20.2d, v5.2d, #5
-	WORD $0xf90043ec // str    x12, [sp, #128]
-	WORD $0x8b0b0010 // add    x16, x0, x11
-	WORD $0x8b080003 // add    x3, x0, x8
-	WORD $0x4e183e4b // mov    x11, v18.d[1]
-	WORD $0x9e66024c // fmov    x12, d18
-	WORD $0x4f455492 // shl    v18.2d, v4.2d, #5
-	WORD $0xb279010a // orr    x10, x8, #0x80
-	WORD $0x4e183e6d // mov    x13, v19.d[1]
-	WORD $0x8b0a0014 // add    x20, x0, x10
-	WORD $0x8b0c0b49 // add    x9, x26, x12, lsl #2
-	WORD $0x9e66028c // fmov    x12, d20
-	WORD $0x8b0b0b5b // add    x27, x26, x11, lsl #2
-	WORD $0xb279050a // orr    x10, x8, #0x180
-	WORD $0x4e183e8b // mov    x11, v20.d[1]
-	WORD $0x9e66026e // fmov    x14, d19
-	WORD $0x9e66024f // fmov    x15, d18
-	WORD $0x8b0a0013 // add    x19, x0, x10
-	WORD $0xb277010a // orr    x10, x8, #0x200
-	WORD $0x8b0d0b57 // add    x23, x26, x13, lsl #2
-	WORD $0x8b0c0b5c // add    x28, x26, x12, lsl #2
-	WORD $0x8b0a0011 // add    x17, x0, x10
-	WORD $0x2940306d // ldp    w13, w12, [x3]
-	WORD $0x5280500a // mov    w10, #640
-	WORD $0x8b0e0b41 // add    x1, x26, x14, lsl #2
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xf900bbe3 // str    x3, [sp, #368]
-	WORD $0x2940168e // ldp    w14, w5, [x20]
-	WORD $0x8b0b0b43 // add    x3, x26, x11, lsl #2
-	WORD $0x8b0f0b44 // add    x4, x26, x15, lsl #2
-	WORD $0x29403e0b // ldp    w11, w15, [x16]
-	WORD $0x8b0a0006 // add    x6, x0, x10
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0x4e183e4c // mov    x12, v18.d[1]
-	WORD $0xb278050a // orr    x10, x8, #0x300
-	WORD $0x8b0a0007 // add    x7, x0, x10
-	WORD $0xb900012d // str    w13, [x9]
-	WORD $0xb900036e // str    w14, [x27]
-	WORD $0xb279090a // orr    x10, x8, #0x380
-	WORD $0xb900002b // str    w11, [x1]
-	WORD $0x29402ccd // ldp    w13, w11, [x6]
-	WORD $0x4f455471 // shl    v17.2d, v3.2d, #5
-	WORD $0xa91453f0 // stp    x16, x20, [sp, #320]
-	WORD $0x290f17ef // stp    w15, w5, [sp, #120]
-	WORD $0x8b0c0b45 // add    x5, x26, x12, lsl #2
-	WORD $0x2940426c // ldp    w12, w16, [x19]
-	WORD $0x8b0a0012 // add    x18, x0, x10
-	WORD $0xf9009ff3 // str    x19, [sp, #312]
-	WORD $0xaa1103f3 // mov    x19, x17
-	WORD $0xa9181ff1 // stp    x17, x7, [sp, #384]
-	WORD $0xb9400231 // ldr    w17, [x17]
-	WORD $0xb90067eb // str    w11, [sp, #100]
-	WORD $0xb276010a // orr    x10, x8, #0x400
-	WORD $0xb94000eb // ldr    w11, [x7]
-	WORD $0x8b0a0002 // add    x2, x0, x10
-	WORD $0xb90077f0 // str    w16, [sp, #116]
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0xb90002ec // str    w12, [x23]
-	WORD $0xb94004ee // ldr    w14, [x7, #4]
-	WORD $0xb9000391 // str    w17, [x28]
-	WORD $0x5280900a // mov    w10, #1152
-	WORD $0xb900006d // str    w13, [x3]
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb900008b // str    w11, [x4]
-	WORD $0x29402e4c // ldp    w12, w11, [x18]
-	WORD $0x4e183e2f // mov    x15, v17.d[1]
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0xa90c27f7 // stp    x23, x9, [sp, #192]
-	WORD $0x290bbbeb // stp    w11, w14, [sp, #92]
-	WORD $0xb940004b // ldr    w11, [x2]
-	WORD $0x8b0a000e // add    x14, x0, x10
-	WORD $0x5280a00a // mov    w10, #1280
-	WORD $0x4f455451 // shl    v17.2d, v2.2d, #5
-	WORD $0xf9004fed // str    x13, [sp, #152]
-	WORD $0xb90000ac // str    w12, [x5]
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb90001ab // str    w11, [x13]
-	WORD $0xb9400669 // ldr    w9, [x19, #4]
-	WORD $0x294035cb // ldp    w11, w13, [x14]
-	WORD $0x8b0a0011 // add    x17, x0, x10
-	WORD $0x8b0f0b4c // add    x12, x26, x15, lsl #2
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0x5280b00a // mov    w10, #1408
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xaa0103e9 // mov    x9, x1
-	WORD $0xaa0603e1 // mov    x1, x6
-	WORD $0xa911cbe6 // stp    x6, x18, [sp, #280]
-	WORD $0x8b0a0006 // add    x6, x0, x10
-	WORD $0xf9006fec // str    x12, [sp, #216]
-	WORD $0xb9400452 // ldr    w18, [x2, #4]
-	WORD $0x4e183e2f // mov    x15, v17.d[1]
-	WORD $0xb900018b // str    w11, [x12]
-	WORD $0x4f455431 // shl    v17.2d, v1.2d, #5
-	WORD $0x8b100b4c // add    x12, x26, x16, lsl #2
-	WORD $0x2940422a // ldp    w10, w16, [x17]
-	WORD $0xb277050b // orr    x11, x8, #0x600
-	WORD $0xaa0c03fe // mov    x30, x12
-	WORD $0x8b0b000b // add    x11, x0, x11
-	WORD $0xf90073ec // str    x12, [sp, #224]
-	WORD $0x2909cbed // stp    w13, w18, [sp, #76]
-	WORD $0x8b0f0b4d // add    x13, x26, x15, lsl #2
-	WORD $0xb900018a // str    w10, [x12]
-	WORD $0x9e66022a // fmov    x10, d17
-	WORD $0x294030cf // ldp    w15, w12, [x6]
-	WORD $0xaa0e03f3 // mov    x19, x14
-	WORD $0xf900b3ee // str    x14, [sp, #352]
-	WORD $0x8b0a0b4e // add    x14, x26, x10, lsl #2
-	WORD $0xb940016a // ldr    w10, [x11]
-	WORD $0xb9006bec // str    w12, [sp, #104]
-	WORD $0xaa0b03ec // mov    x12, x11
-	WORD $0x5280d00b // mov    w11, #1664
-	WORD $0xb90001af // str    w15, [x13]
-	WORD $0xaa0d03f9 // mov    x25, x13
-	WORD $0xf9005fed // str    x13, [sp, #184]
-	WORD $0xaa0b010d // orr    x13, x8, x11
-	WORD $0xb90073f0 // str    w16, [sp, #112]
-	WORD $0x8b0d0012 // add    x18, x0, x13
-	WORD $0xb90001ca // str    w10, [x14]
-	WORD $0x4e183e30 // mov    x16, v17.d[1]
-	WORD $0xb278090a // orr    x10, x8, #0x700
-	WORD $0x4f455412 // shl    v18.2d, v0.2d, #5
-	WORD $0xb2790d08 // orr    x8, x8, #0x780
-	WORD $0xf90053e5 // str    x5, [sp, #160]
-	WORD $0xb940058b // ldr    w11, [x12, #4]
-	WORD $0xaa0c03f6 // mov    x22, x12
-	WORD $0xf9009bec // str    x12, [sp, #304]
-	WORD $0x8b08000c // add    x12, x0, x8
-	WORD $0x8b0a0007 // add    x7, x0, x10
-	WORD $0x29401648 // ldp    w8, w5, [x18]
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0xf90077e3 // str    x3, [sp, #232]
-	WORD $0x9e660243 // fmov    x3, d18
-	WORD $0xf900abe2 // str    x2, [sp, #336]
-	WORD $0x4e183e42 // mov    x2, v18.d[1]
-	WORD $0xb9005beb // str    w11, [sp, #88]
-	WORD $0xf94047eb // ldr    x11, [sp, #136]
-	WORD $0xb90001a8 // str    w8, [x13]
-	WORD $0x294040ea // ldp    w10, w16, [x7]
-	WORD $0xa9103be4 // stp    x4, x14, [sp, #256]
-	WORD $0xb9400588 // ldr    w8, [x12, #4]
-	WORD $0x8b030b4e // add    x14, x26, x3, lsl #2
-	WORD $0xa94c0fe4 // ldp    x4, x3, [sp, #192]
-	WORD $0x8b02096f // add    x15, x11, x2, lsl #2
-	WORD $0x290843e8 // stp    w8, w16, [sp, #64]
-	WORD $0xb940018b // ldr    w11, [x12]
-	WORD $0xb90001ca // str    w10, [x14]
-	WORD $0xb94057e8 // ldr    w8, [sp, #84]
-	WORD $0xf90097f1 // str    x17, [sp, #296]
-	WORD $0xf940a3f1 // ldr    x17, [sp, #320]
-	WORD $0xaa1203f7 // mov    x23, x18
-	WORD $0xb90001eb // str    w11, [x15]
-	WORD $0xf94077eb // ldr    x11, [sp, #232]
-	WORD $0xb9000468 // str    w8, [x3, #4]
-	WORD $0xb9400a88 // ldr    w8, [x20, #8]
-	WORD $0xaa0903f4 // mov    x20, x9
-	WORD $0xf900b7f2 // str    x18, [sp, #360]
-	WORD $0xa9580bf2 // ldp    x18, x2, [sp, #384]
-	WORD $0xb90057e8 // str    w8, [sp, #84]
-	WORD $0xaa0d03f8 // mov    x24, x13
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xf900bfec // str    x12, [sp, #376]
-	WORD $0xa95243ed // ldp    x13, x16, [sp, #288]
-	WORD $0xaa0f03fa // mov    x26, x15
-	WORD $0xf9006bef // str    x15, [sp, #208]
-	WORD $0xb9000768 // str    w8, [x27, #4]
-	WORD $0xb9400a28 // ldr    w8, [x17, #8]
-	WORD $0xb9400a4a // ldr    w10, [x18, #8]
-	WORD $0xa90f3bfb // stp    x27, x14, [sp, #240]
-	WORD $0xaa0703f5 // mov    x21, x7
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xf940abee // ldr    x14, [sp, #336]
-	WORD $0xa90ae3f4 // stp    x20, x24, [sp, #168]
-	WORD $0xa9501fec // ldp    x12, x7, [sp, #256]
-	WORD $0xf900aff5 // str    x21, [sp, #344]
-	WORD $0xb9000528 // str    w8, [x9, #4]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xf9004bfc // str    x28, [sp, #144]
-	WORD $0xb9400909 // ldr    w9, [x8, #8]
-	WORD $0x4ef084a5 // add    v5.2d, v5.2d, v16.2d
-	WORD $0x4ef084c6 // add    v6.2d, v6.2d, v16.2d
-	WORD $0xb90033e9 // str    w9, [sp, #48]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0x4ef084e7 // add    v7.2d, v7.2d, v16.2d
-	WORD $0x4ef08484 // add    v4.2d, v4.2d, v16.2d
-	WORD $0xb9000489 // str    w9, [x4, #4]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0x4ef08463 // add    v3.2d, v3.2d, v16.2d
-	WORD $0x4ef08442 // add    v2.2d, v2.2d, v16.2d
-	WORD $0xb9000789 // str    w9, [x28, #4]
-	WORD $0xb9400829 // ldr    w9, [x1, #8]
-	WORD $0xf9406fe1 // ldr    x1, [sp, #216]
-	WORD $0x4ef08421 // add    v1.2d, v1.2d, v16.2d
-	WORD $0x29072be9 // stp    w9, w10, [sp, #56]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xa949abef // ldp    x15, x10, [sp, #152]
-	WORD $0x4ef08400 // add    v0.2d, v0.2d, v16.2d
-	WORD $0xb9000569 // str    w9, [x11, #4]
-	WORD $0xb9400849 // ldr    w9, [x2, #8]
-	WORD $0xb9007be9 // str    w9, [sp, #120]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9000589 // str    w9, [x12, #4]
-	WORD $0xb94009a9 // ldr    w9, [x13, #8]
-	WORD $0xb90037e9 // str    w9, [sp, #52]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9000549 // str    w9, [x10, #4]
-	WORD $0xb94009c9 // ldr    w9, [x14, #8]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xb90005e9 // str    w9, [x15, #4]
-	WORD $0xb9400a69 // ldr    w9, [x19, #8]
-	WORD $0xb94047f3 // ldr    w19, [sp, #68]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9000429 // str    w9, [x1, #4]
-	WORD $0xb9400a09 // ldr    w9, [x16, #8]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xb90007c9 // str    w9, [x30, #4]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb94008de // ldr    w30, [x6, #8]
-	WORD $0xb9000729 // str    w9, [x25, #4]
-	WORD $0xb9400ac9 // ldr    w9, [x22, #8]
-	WORD $0xaa1803f6 // mov    x22, x24
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb90004e9 // str    w9, [x7, #4]
-	WORD $0xb9400ae9 // ldr    w9, [x23, #8]
-	WORD $0xf9407ff7 // ldr    x23, [sp, #248]
-	WORD $0xb9000705 // str    w5, [x24, #4]
-	WORD $0xaa1503f8 // mov    x24, x21
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xf940bbe9 // ldr    x9, [sp, #368]
-	WORD $0xb90006f3 // str    w19, [x23, #4]
-	WORD $0xb9400ab3 // ldr    w19, [x21, #8]
-	WORD $0xf9408ff5 // ldr    x21, [sp, #280]
-	WORD $0x29416525 // ldp    w5, w25, [x9, #8]
-	WORD $0xb90073f3 // str    w19, [sp, #112]
-	WORD $0xb94043f3 // ldr    w19, [sp, #64]
-	WORD $0xb9000753 // str    w19, [x26, #4]
-	WORD $0xaa0f03f3 // mov    x19, x15
-	WORD $0xb9000865 // str    w5, [x3, #8]
-	WORD $0xf940a7e3 // ldr    x3, [sp, #328]
-	WORD $0xaa0403fa // mov    x26, x4
-	WORD $0xb9400c69 // ldr    w9, [x3, #12]
-	WORD $0xaa0603e3 // mov    x3, x6
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb9000b69 // str    w9, [x27, #8]
-	WORD $0xb9404be9 // ldr    w9, [sp, #72]
-	WORD $0xb9400e3b // ldr    w27, [x17, #12]
-	WORD $0xaa0703f1 // mov    x17, x7
-	WORD $0xb9000a89 // str    w9, [x20, #8]
-	WORD $0xb9400d09 // ldr    w9, [x8, #12]
-	WORD $0xb94033e8 // ldr    w8, [sp, #48]
-	WORD $0xb9000888 // str    w8, [x4, #8]
-	WORD $0xb9400e48 // ldr    w8, [x18, #12]
-	WORD $0xaa0103e4 // mov    x4, x1
-	WORD $0x2908a7e8 // stp    w8, w9, [sp, #68]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xaa0a03e9 // mov    x9, x10
-	WORD $0xb9000b88 // str    w8, [x28, #8]
-	WORD $0xb9400ea8 // ldr    w8, [x21, #12]
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb9000968 // str    w8, [x11, #8]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xb9400c4b // ldr    w11, [x2, #12]
-	WORD $0xaa1003e2 // mov    x2, x16
-	WORD $0xb9000988 // str    w8, [x12, #8]
-	WORD $0xb9400da8 // ldr    w8, [x13, #12]
-	WORD $0xf94073ec // ldr    x12, [sp, #224]
-	WORD $0xb9407fed // ldr    w13, [sp, #124]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94037e8 // ldr    w8, [sp, #52]
-	WORD $0xb9000948 // str    w8, [x10, #8]
-	WORD $0xb9400dc8 // ldr    w8, [x14, #12]
-	WORD $0xf940b3ea // ldr    x10, [sp, #352]
-	WORD $0x290623eb // stp    w11, w8, [sp, #48]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9400e0b // ldr    w11, [x16, #12]
-	WORD $0xb90009e8 // str    w8, [x15, #8]
-	WORD $0xb9400d48 // ldr    w8, [x10, #12]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9000828 // str    w8, [x1, #8]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xaa1703e1 // mov    x1, x23
-	WORD $0xb9000988 // str    w8, [x12, #8]
-	WORD $0xb9400cc8 // ldr    w8, [x6, #12]
-	WORD $0x290aafe8 // stp    w8, w11, [sp, #84]
-	WORD $0xf9405feb // ldr    x11, [sp, #184]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb900097e // str    w30, [x11, #8]
-	WORD $0xf940b7fe // ldr    x30, [sp, #360]
-	WORD $0xb9400d0f // ldr    w15, [x8, #12]
-	WORD $0xb90008ed // str    w13, [x7, #8]
-	WORD $0xf940bfed // ldr    x13, [sp, #376]
-	WORD $0xb9400fce // ldr    w14, [x30, #12]
-	WORD $0xf940a7e7 // ldr    x7, [sp, #328]
-	WORD $0xb94009a5 // ldr    w5, [x13, #8]
-	WORD $0x2909bfee // stp    w14, w15, [sp, #76]
-	WORD $0xb9406bee // ldr    w14, [sp, #104]
-	WORD $0xb94010ef // ldr    w15, [x7, #16]
-	WORD $0xb9000ace // str    w14, [x22, #8]
-	WORD $0xb9400f0e // ldr    w14, [x24, #12]
-	WORD $0xa94ec3f6 // ldp    x22, x16, [sp, #232]
-	WORD $0xb9006bee // str    w14, [sp, #104]
-	WORD $0xb9400db8 // ldr    w24, [x13, #12]
-	WORD $0x294dbbed // ldp    w13, w14, [sp, #108]
-	WORD $0xb9000aee // str    w14, [x23, #8]
-	WORD $0xa94cdff2 // ldp    x18, x23, [sp, #200]
-	WORD $0xb9000ae5 // str    w5, [x23, #8]
-	WORD $0xb9000e59 // str    w25, [x18, #12]
-	WORD $0xb9000e0d // str    w13, [x16, #12]
-	WORD $0xa953b7e5 // ldp    x5, x13, [sp, #312]
-	WORD $0xb9000e9b // str    w27, [x20, #12]
-	WORD $0xf940c3fb // ldr    x27, [sp, #384]
-	WORD $0xb94011ae // ldr    w14, [x13, #16]
-	WORD $0x29073fee // stp    w14, w15, [sp, #56]
-	WORD $0xb94010ae // ldr    w14, [x5, #16]
-	WORD $0xb94012af // ldr    w15, [x21, #16]
-	WORD $0xb90067ee // str    w14, [sp, #100]
-	WORD $0xb9404bee // ldr    w14, [sp, #72]
-	WORD $0xb90043ef // str    w15, [sp, #64]
-	WORD $0xb94063ef // ldr    w15, [sp, #96]
-	WORD $0xb9000f4e // str    w14, [x26, #12]
-	WORD $0xb940136e // ldr    w14, [x27, #16]
-	WORD $0xb9005fee // str    w14, [sp, #92]
-	WORD $0xb94047ee // ldr    w14, [sp, #68]
-	WORD $0xb9000f8e // str    w14, [x28, #12]
-	WORD $0xaa1503ee // mov    x14, x21
-	WORD $0xb9000ecf // str    w15, [x22, #12]
-	WORD $0xf940c7ef // ldr    x15, [sp, #392]
-	WORD $0xf94083f5 // ldr    x21, [sp, #256]
-	WORD $0xb94011e6 // ldr    w6, [x15, #16]
-	WORD $0xb9006fe6 // str    w6, [sp, #108]
-	WORD $0xb94033e6 // ldr    w6, [sp, #48]
-	WORD $0xb9000ea6 // str    w6, [x21, #12]
-	WORD $0xf94093e6 // ldr    x6, [sp, #288]
-	WORD $0xb94010d9 // ldr    w25, [x6, #16]
-	WORD $0xb90047f9 // str    w25, [sp, #68]
-	WORD $0xb9407bf9 // ldr    w25, [sp, #120]
-	WORD $0xb9000d39 // str    w25, [x9, #12]
-	WORD $0xf940abf9 // ldr    x25, [sp, #336]
-	WORD $0xb9401329 // ldr    w9, [x25, #16]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9000e69 // str    w9, [x19, #12]
-	WORD $0xb9401149 // ldr    w9, [x10, #16]
-	WORD $0xf940bbea // ldr    x10, [sp, #368]
-	WORD $0xaa1603f3 // mov    x19, x22
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9402fe9 // ldr    w9, [sp, #44]
-	WORD $0xb9000c89 // str    w9, [x4, #12]
-	WORD $0xb9401049 // ldr    w9, [x2, #16]
-	WORD $0xb9401544 // ldr    w4, [x10, #20]
-	WORD $0xaa1403e2 // mov    x2, x20
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9000d89 // str    w9, [x12, #12]
-	WORD $0xb9401069 // ldr    w9, [x3, #16]
-	WORD $0xaa0303ec // mov    x12, x3
-	WORD $0xaa0b03e3 // mov    x3, x11
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xf9008bec // str    x12, [sp, #272]
-	WORD $0xb9000d69 // str    w9, [x11, #12]
-	WORD $0xb9401109 // ldr    w9, [x8, #16]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9406beb // ldr    w11, [sp, #104]
-	WORD $0xb9000e28 // str    w8, [x17, #12]
-	WORD $0xb94013c8 // ldr    w8, [x30, #16]
-	WORD $0xf94087fe // ldr    x30, [sp, #264]
-	WORD $0x290f23e9 // stp    w9, w8, [sp, #120]
-	WORD $0xf9405be9 // ldr    x9, [sp, #176]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9000d28 // str    w8, [x9, #12]
-	WORD $0xb9401148 // ldr    w8, [x10, #16]
-	WORD $0xb9000c2b // str    w11, [x1, #12]
-	WORD $0xb94015aa // ldr    w10, [x13, #20]
-	WORD $0xb9000ef8 // str    w24, [x23, #12]
-	WORD $0xb940172d // ldr    w13, [x25, #20]
-	WORD $0xb9001248 // str    w8, [x18, #16]
-	WORD $0xb94014e8 // ldr    w8, [x7, #20]
-	WORD $0xa9559fe1 // ldp    x1, x7, [sp, #344]
-	WORD $0xaa0503eb // mov    x11, x5
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb9401031 // ldr    w17, [x1, #16]
-	WORD $0xb9001208 // str    w8, [x16, #16]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb94014d0 // ldr    w16, [x6, #20]
-	WORD $0xb9001288 // str    w8, [x20, #16]
-	WORD $0xb94014a8 // ldr    w8, [x5, #20]
-	WORD $0x2909c3ed // stp    w13, w16, [sp, #76]
-	WORD $0xb94077ed // ldr    w13, [sp, #116]
-	WORD $0xaa0f03e5 // mov    x5, x15
-	WORD $0xf940bff0 // ldr    x16, [sp, #376]
-	WORD $0x29062be8 // stp    w8, w10, [sp, #48]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb94015ca // ldr    w10, [x14, #20]
-	WORD $0xb9001348 // str    w8, [x26, #16]
-	WORD $0xb9401768 // ldr    w8, [x27, #20]
-	WORD $0xaa0903fb // mov    x27, x9
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9001388 // str    w8, [x28, #16]
-	WORD $0xb94043e8 // ldr    w8, [sp, #64]
-	WORD $0xaa0e03fc // mov    x28, x14
-	WORD $0xa94dbbf8 // ldp    x24, x14, [sp, #216]
-	WORD $0xb90012c8 // str    w8, [x22, #16]
-	WORD $0xb94015e8 // ldr    w8, [x15, #20]
-	WORD $0xa949dff6 // ldp    x22, x23, [sp, #152]
-	WORD $0x290aabe8 // stp    w8, w10, [sp, #84]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb94047ea // ldr    w10, [sp, #68]
-	WORD $0xa952bff4 // ldp    x20, x15, [sp, #296]
-	WORD $0xb90012a8 // str    w8, [x21, #16]
-	WORD $0xaa0603e8 // mov    x8, x6
-	WORD $0xb90012ea // str    w10, [x23, #16]
-	WORD $0xaa1903ea // mov    x10, x25
-	WORD $0xb90012cd // str    w13, [x22, #16]
-	WORD $0xb94014ed // ldr    w13, [x7, #20]
-	WORD $0xa94f67fa // ldp    x26, x25, [sp, #240]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xb94063ed // ldr    w13, [sp, #96]
-	WORD $0xb900130d // str    w13, [x24, #16]
-	WORD $0xb940168d // ldr    w13, [x20, #20]
-	WORD $0xb9003fed // str    w13, [sp, #60]
-	WORD $0xb9404bed // ldr    w13, [sp, #72]
-	WORD $0xb90011cd // str    w13, [x14, #16]
-	WORD $0xb940158d // ldr    w13, [x12, #20]
-	WORD $0xb90067ed // str    w13, [sp, #100]
-	WORD $0xb94073ed // ldr    w13, [sp, #112]
-	WORD $0xb900106d // str    w13, [x3, #16]
-	WORD $0xb94015ed // ldr    w13, [x15, #20]
-	WORD $0xb9401203 // ldr    w3, [x16, #16]
-	WORD $0xb9004bed // str    w13, [sp, #72]
-	WORD $0xb9407bed // ldr    w13, [sp, #120]
-	WORD $0xb90013cd // str    w13, [x30, #16]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xb9001369 // str    w9, [x27, #16]
-	WORD $0xb9401429 // ldr    w9, [x1, #20]
-	WORD $0xb9001331 // str    w17, [x25, #16]
-	WORD $0xaa1403e1 // mov    x1, x20
-	WORD $0xb94015a6 // ldr    w6, [x13, #20]
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9003be6 // str    w6, [sp, #56]
-	WORD $0xb9401606 // ldr    w6, [x16, #20]
-	WORD $0xf9406bf0 // ldr    x16, [sp, #208]
-	WORD $0xb9001203 // str    w3, [x16, #16]
-	WORD $0xa95447e3 // ldp    x3, x17, [sp, #320]
-	WORD $0xb9001644 // str    w4, [x18, #20]
-	WORD $0xaa0d03e4 // mov    x4, x13
-	WORD $0xb9401a29 // ldr    w9, [x17, #24]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb9001749 // str    w9, [x26, #20]
-	WORD $0xb9401869 // ldr    w9, [x3, #24]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9001449 // str    w9, [x2, #20]
-	WORD $0xb9401969 // ldr    w9, [x11, #24]
-	WORD $0xf94063e2 // ldr    x2, [sp, #192]
-	WORD $0xf940c3eb // ldr    x11, [sp, #384]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94033e9 // ldr    w9, [sp, #48]
-	WORD $0xb9001449 // str    w9, [x2, #20]
-	WORD $0xb9401969 // ldr    w9, [x11, #24]
-	WORD $0xf9404beb // ldr    x11, [sp, #144]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb9402fe9 // ldr    w9, [sp, #44]
-	WORD $0xb9001569 // str    w9, [x11, #20]
-	WORD $0xb9401b89 // ldr    w9, [x28, #24]
-	WORD $0xf940bbfc // ldr    x28, [sp, #368]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9001669 // str    w9, [x19, #20]
-	WORD $0xb94018a9 // ldr    w9, [x5, #24]
-	WORD $0xaa1803e5 // mov    x5, x24
-	WORD $0xaa1603f3 // mov    x19, x22
-	WORD $0xb9005be9 // str    w9, [sp, #88]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb90016a9 // str    w9, [x21, #20]
-	WORD $0xb9401909 // ldr    w9, [x8, #24]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xaa1203f5 // mov    x21, x18
-	WORD $0xb90016e8 // str    w8, [x23, #20]
-	WORD $0xb9401948 // ldr    w8, [x10, #24]
-	WORD $0xb940198a // ldr    w10, [x12, #24]
-	WORD $0xf940afec // ldr    x12, [sp, #344]
-	WORD $0x290a27e8 // stp    w8, w9, [sp, #80]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb94018e9 // ldr    w9, [x7, #24]
-	WORD $0xb90016c8 // str    w8, [x22, #20]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9001708 // str    w8, [x24, #20]
-	WORD $0xb9401a88 // ldr    w8, [x20, #24]
-	WORD $0xa9585ff8 // ldp    x24, x23, [sp, #384]
-	WORD $0xaa0203f4 // mov    x20, x2
-	WORD $0x290827e8 // stp    w8, w9, [sp, #64]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb90015c8 // str    w8, [x14, #20]
-	WORD $0xf9405fe8 // ldr    x8, [sp, #184]
-	WORD $0xb9405bee // ldr    w14, [sp, #88]
-	WORD $0xb9001509 // str    w9, [x8, #20]
-	WORD $0xb94019e9 // ldr    w9, [x15, #24]
-	WORD $0xf9409fef // ldr    x15, [sp, #312]
-	WORD $0x290ea7ea // stp    w10, w9, [sp, #116]
-	WORD $0xb9404be9 // ldr    w9, [sp, #72]
-	WORD $0xb9401b8a // ldr    w10, [x28, #24]
-	WORD $0xb90017c9 // str    w9, [x30, #20]
-	WORD $0xb94019a9 // ldr    w9, [x13, #24]
-	WORD $0xf94053fe // ldr    x30, [sp, #160]
-	WORD $0xb9004fe9 // str    w9, [sp, #76]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9001769 // str    w9, [x27, #20]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xaa0803fb // mov    x27, x8
-	WORD $0xb9001729 // str    w9, [x25, #20]
-	WORD $0xb9401989 // ldr    w9, [x12, #24]
-	WORD $0xb9001606 // str    w6, [x16, #20]
-	WORD $0xb9401df0 // ldr    w16, [x15, #28]
-	WORD $0xb9001a4a // str    w10, [x18, #24]
-	WORD $0xb9401e2a // ldr    w10, [x17, #28]
-	WORD $0xaa1a03f2 // mov    x18, x26
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9401f86 // ldr    w6, [x28, #28]
-	WORD $0xaa1c03e9 // mov    x9, x28
-	WORD $0xb90067ea // str    w10, [sp, #100]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xaa1103fc // mov    x28, x17
-	WORD $0xa94e37f9 // ldp    x25, x13, [sp, #224]
-	WORD $0xa951c7f6 // ldp    x22, x17, [sp, #280]
-	WORD $0xb9001b4a // str    w10, [x26, #24]
-	WORD $0xaa0303fa // mov    x26, x3
-	WORD $0xb9401c6a // ldr    w10, [x3, #28]
-	WORD $0xf94057e3 // ldr    x3, [sp, #168]
-	WORD $0xb9401d8c // ldr    w12, [x12, #28]
-	WORD $0xb9004bea // str    w10, [sp, #72]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xb900186a // str    w10, [x3, #24]
-	WORD $0xb9406fea // ldr    w10, [sp, #108]
-	WORD $0xb900184a // str    w10, [x2, #24]
-	WORD $0xb9401f0a // ldr    w10, [x24, #28]
-	WORD $0xaa0703e2 // mov    x2, x7
-	WORD $0x2906c3ea // stp    w10, w16, [sp, #52]
-	WORD $0xaa0b03ea // mov    x10, x11
-	WORD $0xb9406beb // ldr    w11, [sp, #104]
-	WORD $0xb9401ef0 // ldr    w16, [x23, #28]
-	WORD $0xb900194b // str    w11, [x10, #24]
-	WORD $0xb9401ec8 // ldr    w8, [x22, #28]
-	WORD $0xb94063eb // ldr    w11, [sp, #96]
-	WORD $0xb90019ab // str    w11, [x13, #24]
-	WORD $0xf94083eb // ldr    x11, [sp, #256]
-	WORD $0xb900196e // str    w14, [x11, #24]
-	WORD $0xb9401e2e // ldr    w14, [x17, #28]
-	WORD $0x2905bbf0 // stp    w16, w14, [sp, #44]
-	WORD $0xb94057ee // ldr    w14, [sp, #84]
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0xf9407fec // ldr    x12, [sp, #248]
-	WORD $0xb9001bce // str    w14, [x30, #24]
-	WORD $0xf940abee // ldr    x14, [sp, #336]
-	WORD $0xb9401dd0 // ldr    w16, [x14, #28]
-	WORD $0xb9003ff0 // str    w16, [sp, #60]
-	WORD $0xb94053f0 // ldr    w16, [sp, #80]
-	WORD $0xb9001a70 // str    w16, [x19, #24]
-	WORD $0xb9401cf0 // ldr    w16, [x7, #28]
-	WORD $0xf9409be7 // ldr    x7, [sp, #304]
-	WORD $0x290b23f0 // stp    w16, w8, [sp, #88]
-	WORD $0xb94047f0 // ldr    w16, [sp, #68]
-	WORD $0xb90018b0 // str    w16, [x5, #24]
-	WORD $0xb9401c30 // ldr    w16, [x1, #28]
-	WORD $0xf9408be5 // ldr    x5, [sp, #272]
-	WORD $0xb90063f0 // str    w16, [sp, #96]
-	WORD $0xb94043f0 // ldr    w16, [sp, #64]
-	WORD $0xb9001b30 // str    w16, [x25, #24]
-	WORD $0xb9401cb0 // ldr    w16, [x5, #28]
-	WORD $0xb90053f0 // str    w16, [sp, #80]
-	WORD $0x294ec3e8 // ldp    w8, w16, [sp, #116]
-	WORD $0xb9001b68 // str    w8, [x27, #24]
-	WORD $0xb9401ce8 // ldr    w8, [x7, #28]
-	WORD $0xb90077e8 // str    w8, [sp, #116]
-	WORD $0xf94087e8 // ldr    x8, [sp, #264]
-	WORD $0xb9001910 // str    w16, [x8, #24]
-	WORD $0xb9401c90 // ldr    w16, [x4, #28]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb9404fe4 // ldr    w4, [sp, #76]
-	WORD $0xb9006bf0 // str    w16, [sp, #104]
-	WORD $0xf9405bf0 // ldr    x16, [sp, #176]
-	WORD $0x29432101 // ldp    w1, w8, [x8, #24]
-	WORD $0xb9001a04 // str    w4, [x16, #24]
-	WORD $0xb9407fe4 // ldr    w4, [sp, #124]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xf9406be8 // ldr    x8, [sp, #208]
-	WORD $0xb9001984 // str    w4, [x12, #24]
-	WORD $0xb94067e4 // ldr    w4, [sp, #100]
-	WORD $0xb9001901 // str    w1, [x8, #24]
-	WORD $0xb9402381 // ldr    w1, [x28, #32]
-	WORD $0xb9001ea6 // str    w6, [x21, #28]
-	WORD $0xaa0703f5 // mov    x21, x7
-	WORD $0xb9001e44 // str    w4, [x18, #28]
-	WORD $0xb9402352 // ldr    w18, [x26, #32]
-	WORD $0xf94097fa // ldr    x26, [sp, #296]
-	WORD $0xb9006fe1 // str    w1, [sp, #108]
-	WORD $0xaa1c03e1 // mov    x1, x28
-	WORD $0xb9402126 // ldr    w6, [x9, #32]
-	WORD $0xb9007ff2 // str    w18, [sp, #124]
-	WORD $0xb9404bf2 // ldr    w18, [sp, #72]
-	WORD $0xf940affc // ldr    x28, [sp, #344]
-	WORD $0xb9001c72 // str    w18, [x3, #28]
-	WORD $0xb94021f2 // ldr    w18, [x15, #32]
-	WORD $0xb9402384 // ldr    w4, [x28, #32]
-	WORD $0xb90067f2 // str    w18, [sp, #100]
-	WORD $0xaa0f03f2 // mov    x18, x15
-	WORD $0x2946bfe3 // ldp    w3, w15, [sp, #52]
-	WORD $0xb9001e8f // str    w15, [x20, #28]
-	WORD $0xf94057f4 // ldr    x20, [sp, #168]
-	WORD $0xb9001d43 // str    w3, [x10, #28]
-	WORD $0xaa0a03e3 // mov    x3, x10
-	WORD $0xb94022ca // ldr    w10, [x22, #32]
-	WORD $0xb940230f // ldr    w15, [x24, #32]
-	WORD $0x29093fea // stp    w10, w15, [sp, #72]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xaa1803ef // mov    x15, x24
-	WORD $0xaa0203f8 // mov    x24, x2
-	WORD $0xb9001daa // str    w10, [x13, #28]
-	WORD $0xb94022ea // ldr    w10, [x23, #32]
-	WORD $0xf9406ff7 // ldr    x23, [sp, #216]
-	WORD $0xb9003bea // str    w10, [sp, #56]
-	WORD $0x2945b7ea // ldp    w10, w13, [sp, #44]
-	WORD $0xb9001d6a // str    w10, [x11, #28]
-	WORD $0xb940222a // ldr    w10, [x17, #32]
-	WORD $0xb9001fcd // str    w13, [x30, #28]
-	WORD $0xb94021cd // ldr    w13, [x14, #32]
-	WORD $0xb940204e // ldr    w14, [x2, #32]
-	WORD $0xaa1103eb // mov    x11, x17
-	WORD $0xb90037ea // str    w10, [sp, #52]
-	WORD $0xaa1e03ea // mov    x10, x30
-	WORD $0xb9005fed // str    w13, [sp, #92]
-	WORD $0xb9403fed // ldr    w13, [sp, #60]
-	WORD $0xaa1b03f1 // mov    x17, x27
-	WORD $0xf94087fe // ldr    x30, [sp, #264]
-	WORD $0xaa1903e2 // mov    x2, x25
-	WORD $0xb940256b // ldr    w11, [x11, #36]
-	WORD $0xb9001e6d // str    w13, [x19, #28]
-	WORD $0xb9405bed // ldr    w13, [sp, #88]
-	WORD $0xb9001eed // str    w13, [x23, #28]
-	WORD $0xb940234d // ldr    w13, [x26, #32]
-	WORD $0xb9005bed // str    w13, [sp, #88]
-	WORD $0xb94063ed // ldr    w13, [sp, #96]
-	WORD $0xb9001f2d // str    w13, [x25, #28]
-	WORD $0xb94020ad // ldr    w13, [x5, #32]
-	WORD $0xaa0503f9 // mov    x25, x5
-	WORD $0x29083bed // stp    w13, w14, [sp, #64]
-	WORD $0xb94020ee // ldr    w14, [x7, #32]
-	WORD $0xaa0903e7 // mov    x7, x9
-	WORD $0x294a27ed // ldp    w13, w9, [sp, #80]
-	WORD $0xb9001f6d // str    w13, [x27, #28]
-	WORD $0xb94077ed // ldr    w13, [sp, #116]
-	WORD $0xf940b7fb // ldr    x27, [sp, #360]
-	WORD $0xb94024e5 // ldr    w5, [x7, #36]
-	WORD $0xb9001fcd // str    w13, [x30, #28]
-	WORD $0xb940236d // ldr    w13, [x27, #32]
-	WORD $0x290ebbed // stp    w13, w14, [sp, #116]
-	WORD $0xb9406bed // ldr    w13, [sp, #104]
-	WORD $0xb9006beb // str    w11, [sp, #104]
-	WORD $0xb94037eb // ldr    w11, [sp, #52]
-	WORD $0xb9001e0d // str    w13, [x16, #28]
-	WORD $0xf94083f0 // ldr    x16, [sp, #256]
-	WORD $0xb9001d89 // str    w9, [x12, #28]
-	WORD $0xb940242c // ldr    w12, [x1, #36]
-	WORD $0x294da7ed // ldp    w13, w9, [sp, #108]
-	WORD $0xb90073ec // str    w12, [sp, #112]
-	WORD $0xa94eb3e1 // ldp    x1, x12, [sp, #232]
-	WORD $0xb9001d09 // str    w9, [x8, #28]
-	WORD $0xaa0703e9 // mov    x9, x7
-	WORD $0xf94067e8 // ldr    x8, [sp, #200]
-	WORD $0xaa0f03e7 // mov    x7, x15
-	WORD $0xb9002106 // str    w6, [x8, #32]
-	WORD $0xf94063e6 // ldr    x6, [sp, #192]
-	WORD $0xb900218d // str    w13, [x12, #32]
-	WORD $0xf940a3ed // ldr    x13, [sp, #320]
-	WORD $0xb94025ae // ldr    w14, [x13, #36]
-	WORD $0xb90053ee // str    w14, [sp, #80]
-	WORD $0xb9407fee // ldr    w14, [sp, #124]
-	WORD $0xb900228e // str    w14, [x20, #32]
-	WORD $0xb940264e // ldr    w14, [x18, #36]
-	WORD $0xaa0a03f2 // mov    x18, x10
-	WORD $0xb90063ee // str    w14, [sp, #96]
-	WORD $0xb94067ee // ldr    w14, [sp, #100]
-	WORD $0xb90020ce // str    w14, [x6, #32]
-	WORD $0xb94025ee // ldr    w14, [x15, #36]
-	WORD $0xb9006fee // str    w14, [sp, #108]
-	WORD $0xb9404fee // ldr    w14, [sp, #76]
-	WORD $0xb900206e // str    w14, [x3, #32]
-	WORD $0xb94026ce // ldr    w14, [x22, #36]
-	WORD $0xb9007fee // str    w14, [sp, #124]
-	WORD $0xb9404bee // ldr    w14, [sp, #72]
-	WORD $0xb900202e // str    w14, [x1, #32]
-	WORD $0xf940c7ee // ldr    x14, [sp, #392]
-	WORD $0xb94025cf // ldr    w15, [x14, #36]
-	WORD $0xb9003fef // str    w15, [sp, #60]
-	WORD $0xb9403bef // ldr    w15, [sp, #56]
-	WORD $0xb900220f // str    w15, [x16, #32]
-	WORD $0xaa0203ef // mov    x15, x2
-	WORD $0xb900214b // str    w11, [x10, #32]
-	WORD $0xf940abea // ldr    x10, [sp, #336]
-	WORD $0xb940254b // ldr    w11, [x10, #36]
-	WORD $0xb9004feb // str    w11, [sp, #76]
-	WORD $0xb9405feb // ldr    w11, [sp, #92]
-	WORD $0xb900226b // str    w11, [x19, #32]
-	WORD $0xb940270b // ldr    w11, [x24, #36]
-	WORD $0xaa1503f3 // mov    x19, x21
-	WORD $0xaa1e03f8 // mov    x24, x30
-	WORD $0xb9004beb // str    w11, [sp, #72]
-	WORD $0xb94047eb // ldr    w11, [sp, #68]
-	WORD $0xb90022eb // str    w11, [x23, #32]
-	WORD $0xb940274b // ldr    w11, [x26, #36]
-	WORD $0xf9405bfa // ldr    x26, [sp, #176]
-	WORD $0xb90067eb // str    w11, [sp, #100]
-	WORD $0xb9405beb // ldr    w11, [sp, #88]
-	WORD $0xb900204b // str    w11, [x2, #32]
-	WORD $0xb940272b // ldr    w11, [x25, #36]
-	WORD $0xb9402762 // ldr    w2, [x27, #36]
-	WORD $0xb9005feb // str    w11, [sp, #92]
-	WORD $0xaa1103eb // mov    x11, x17
-	WORD $0xb94043f1 // ldr    w17, [sp, #64]
-	WORD $0xb9002171 // str    w17, [x11, #32]
-	WORD $0xb94026b1 // ldr    w17, [x21, #36]
-	WORD $0xf940bff5 // ldr    x21, [sp, #376]
-	WORD $0xb9005bf1 // str    w17, [sp, #88]
-	WORD $0x294ec7f9 // ldp    w25, w17, [sp, #116]
-	WORD $0xb9007be2 // str    w2, [sp, #120]
-	WORD $0xaa1b03e2 // mov    x2, x27
-	WORD $0xf9407ffb // ldr    x27, [sp, #248]
-	WORD $0xb90023d1 // str    w17, [x30, #32]
-	WORD $0xb94022b1 // ldr    w17, [x21, #32]
-	WORD $0xb9002359 // str    w25, [x26, #32]
-	WORD $0xb9402799 // ldr    w25, [x28, #36]
-	WORD $0xb9002364 // str    w4, [x27, #32]
-	WORD $0xb94026a4 // ldr    w4, [x21, #36]
-	WORD $0xf9409ffe // ldr    x30, [sp, #312]
-	WORD $0xb90057f9 // str    w25, [sp, #84]
-	WORD $0xf9406bf9 // ldr    x25, [sp, #208]
-	WORD $0xb90077e4 // str    w4, [sp, #116]
-	WORD $0xaa0803e4 // mov    x4, x8
-	WORD $0xf940a7f5 // ldr    x21, [sp, #328]
-	WORD $0xb9002331 // str    w17, [x25, #32]
-	WORD $0xb9002505 // str    w5, [x8, #36]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9402ab1 // ldr    w17, [x21, #40]
-	WORD $0xaa1603e5 // mov    x5, x22
-	WORD $0xb9002588 // str    w8, [x12, #36]
-	WORD $0xb94029a8 // ldr    w8, [x13, #40]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9002688 // str    w8, [x20, #36]
-	WORD $0xb9402bc8 // ldr    w8, [x30, #40]
-	WORD $0xaa0303f4 // mov    x20, x3
-	WORD $0xb90047e8 // str    w8, [sp, #68]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb90024c8 // str    w8, [x6, #36]
-	WORD $0xb94028e8 // ldr    w8, [x7, #40]
-	WORD $0xaa1a03e7 // mov    x7, x26
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9002468 // str    w8, [x3, #36]
-	WORD $0xb9402ac8 // ldr    w8, [x22, #40]
-	WORD $0xaa1303f6 // mov    x22, x19
-	WORD $0xb90053e8 // str    w8, [sp, #80]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9002428 // str    w8, [x1, #36]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb94029c1 // ldr    w1, [x14, #40]
-	WORD $0xf940b3ee // ldr    x14, [sp, #352]
-	WORD $0xb9002608 // str    w8, [x16, #36]
-	WORD $0xa95243e3 // ldp    x3, x16, [sp, #288]
-	WORD $0xb9402868 // ldr    w8, [x3, #40]
-	WORD $0xb9003be8 // str    w8, [sp, #56]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xb9002648 // str    w8, [x18, #36]
-	WORD $0xb9402948 // ldr    w8, [x10, #40]
-	WORD $0xf9404fea // ldr    x10, [sp, #152]
-	WORD $0xb9402932 // ldr    w18, [x9, #40]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9002548 // str    w8, [x10, #36]
-	WORD $0xb94029c8 // ldr    w8, [x14, #40]
-	WORD $0xb90037e8 // str    w8, [sp, #52]
-	WORD $0xb9404be8 // ldr    w8, [sp, #72]
-	WORD $0xb90026e8 // str    w8, [x23, #36]
-	WORD $0xb9402a08 // ldr    w8, [x16, #40]
-	WORD $0xb9004fe8 // str    w8, [sp, #76]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb90025e8 // str    w8, [x15, #36]
-	WORD $0xf9408bef // ldr    x15, [sp, #272]
-	WORD $0xb94029e8 // ldr    w8, [x15, #40]
-	WORD $0xb90067e8 // str    w8, [sp, #100]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9002568 // str    w8, [x11, #36]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb9402a6b // ldr    w11, [x19, #40]
-	WORD $0xf9405ff3 // ldr    x19, [sp, #184]
-	WORD $0xb9002708 // str    w8, [x24, #36]
-	WORD $0xb9402848 // ldr    w8, [x2, #40]
-	WORD $0xaa1403f8 // mov    x24, x20
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xb9002748 // str    w8, [x26, #36]
-	WORD $0xaa0903e8 // mov    x8, x9
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xaa1c03fa // mov    x26, x28
-	WORD $0xb9402d02 // ldr    w2, [x8, #44]
-	WORD $0xaa0403e8 // mov    x8, x4
-	WORD $0xb9002769 // str    w9, [x27, #36]
-	WORD $0xb9402b89 // ldr    w9, [x28, #40]
-	WORD $0xaa0303fb // mov    x27, x3
-	WORD $0x290f2fe9 // stp    w9, w11, [sp, #120]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0xaa1503eb // mov    x11, x21
-	WORD $0xb9002729 // str    w9, [x25, #36]
-	WORD $0xb9402ea9 // ldr    w9, [x21, #44]
-	WORD $0xb9002892 // str    w18, [x4, #40]
-	WORD $0xf94057f2 // ldr    x18, [sp, #168]
-	WORD $0xb9002991 // str    w17, [x12, #40]
-	WORD $0xaa0603e4 // mov    x4, x6
-	WORD $0xb9003fe9 // str    w9, [sp, #60]
-	WORD $0xb9402da9 // ldr    w9, [x13, #44]
-	WORD $0xaa0c03f9 // mov    x25, x12
-	WORD $0xb9402cb1 // ldr    w17, [x5, #44]
-	WORD $0xb9005be9 // str    w9, [sp, #88]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xa95037ec // ldp    x12, x13, [sp, #256]
-	WORD $0xb9002a49 // str    w9, [x18, #40]
-	WORD $0xb9402fc9 // ldr    w9, [x30, #44]
-	WORD $0xf940abfe // ldr    x30, [sp, #336]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb90028c9 // str    w9, [x6, #40]
-	WORD $0xa9581bfc // ldp    x28, x6, [sp, #384]
-	WORD $0xb9402f89 // ldr    w9, [x28, #44]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9002a89 // str    w9, [x20, #40]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xa94e57f4 // ldp    x20, x21, [sp, #224]
-	WORD $0xb9002aa9 // str    w9, [x21, #40]
-	WORD $0xb9402cc9 // ldr    w9, [x6, #44]
-	WORD $0xb9002981 // str    w1, [x12, #40]
-	WORD $0xaa1703e1 // mov    x1, x23
-	WORD $0x290bc7e9 // stp    w9, w17, [sp, #92]
-	WORD $0xb9402c69 // ldr    w9, [x3, #44]
-	WORD $0xf94053f1 // ldr    x17, [sp, #160]
-	WORD $0xaa0a03e3 // mov    x3, x10
-	WORD $0xb90033e9 // str    w9, [sp, #48]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9002a29 // str    w9, [x17, #40]
-	WORD $0xb9402fc9 // ldr    w9, [x30, #44]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94043e9 // ldr    w9, [sp, #64]
-	WORD $0xb9002949 // str    w9, [x10, #40]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9402dca // ldr    w10, [x14, #44]
-	WORD $0xf9406bee // ldr    x14, [sp, #208]
-	WORD $0xb9002ae9 // str    w9, [x23, #40]
-	WORD $0xb9402e09 // ldr    w9, [x16, #44]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xaa0303f7 // mov    x23, x3
-	WORD $0x2906abe9 // stp    w9, w10, [sp, #52]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9402dea // ldr    w10, [x15, #44]
-	WORD $0xb9002a89 // str    w9, [x20, #40]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9002a69 // str    w9, [x19, #40]
-	WORD $0xb9402ec9 // ldr    w9, [x22, #44]
-	WORD $0xaa1c03f6 // mov    x22, x28
-	WORD $0x29082be9 // stp    w9, w10, [sp, #64]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xf940bfea // ldr    x10, [sp, #376]
-	WORD $0xb90029a9 // str    w9, [x13, #40]
-	WORD $0xb9402e09 // ldr    w9, [x16, #44]
-	WORD $0xb940294f // ldr    w15, [x10, #40]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0xb90028e9 // str    w9, [x7, #40]
-	WORD $0xb9402f49 // ldr    w9, [x26, #44]
-	WORD $0xf9407ffa // ldr    x26, [sp, #248]
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9407be9 // ldr    w9, [sp, #120]
-	WORD $0xb9002b49 // str    w9, [x26, #40]
-	WORD $0xb9402d49 // ldr    w9, [x10, #44]
-	WORD $0xb90029cf // str    w15, [x14, #40]
-	WORD $0xf940a3ea // ldr    x10, [sp, #320]
-	WORD $0xb9002d02 // str    w2, [x8, #44]
-	WORD $0xb9403168 // ldr    w8, [x11, #48]
-	WORD $0xaa0c03e2 // mov    x2, x12
-	WORD $0xf940afef // ldr    x15, [sp, #344]
-	WORD $0xb9004fe8 // str    w8, [sp, #76]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb9002f28 // str    w8, [x25, #44]
-	WORD $0xb9403148 // ldr    w8, [x10, #48]
-	WORD $0x290a27e8 // stp    w8, w9, [sp, #80]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb9403389 // ldr    w9, [x28, #48]
-	WORD $0xaa0503fc // mov    x28, x5
-	WORD $0xb9002e48 // str    w8, [x18, #44]
-	WORD $0xf9409ff2 // ldr    x18, [sp, #312]
-	WORD $0xb9403248 // ldr    w8, [x18, #48]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9002c88 // str    w8, [x4, #44]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xaa0e03e4 // mov    x4, x14
-	WORD $0xb9002f08 // str    w8, [x24, #44]
-	WORD $0xb94030a8 // ldr    w8, [x5, #48]
-	WORD $0xf9408bf8 // ldr    x24, [sp, #272]
-	WORD $0xaa1a03e5 // mov    x5, x26
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb9002ea8 // str    w8, [x21, #44]
-	WORD $0xb94030c8 // ldr    w8, [x6, #48]
-	WORD $0x290f27e8 // stp    w8, w9, [sp, #120]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9002d88 // str    w8, [x12, #44]
-	WORD $0xb9403368 // ldr    w8, [x27, #48]
-	WORD $0xa952b3f5 // ldp    x21, x12, [sp, #296]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb94033e8 // ldr    w8, [sp, #48]
-	WORD $0xb9002e28 // str    w8, [x17, #44]
-	WORD $0xb94033c8 // ldr    w8, [x30, #48]
-	WORD $0xb90033e8 // str    w8, [sp, #48]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9002c68 // str    w8, [x3, #44]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1303e3 // mov    x3, x19
-	WORD $0x29462109 // ldp    w9, w8, [x8, #48]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9002c29 // str    w9, [x1, #44]
-	WORD $0xb94032a9 // ldr    w9, [x21, #48]
-	WORD $0xf94077e1 // ldr    x1, [sp, #232]
-	WORD $0xb9003fe9 // str    w9, [sp, #60]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9002e89 // str    w9, [x20, #44]
-	WORD $0xb9403309 // ldr    w9, [x24, #48]
-	WORD $0xb9003be9 // str    w9, [sp, #56]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb9002e69 // str    w9, [x19, #44]
-	WORD $0xb9403189 // ldr    w9, [x12, #48]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94043e9 // ldr    w9, [sp, #64]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9002da9 // str    w9, [x13, #44]
-	WORD $0xb9403209 // ldr    w9, [x16, #48]
-	WORD $0xb9404bed // ldr    w13, [sp, #72]
-	WORD $0xb90047e9 // str    w9, [sp, #68]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9002ce9 // str    w9, [x7, #44]
-	WORD $0xf940bbe9 // ldr    x9, [sp, #368]
-	WORD $0xb9002f4d // str    w13, [x26, #44]
-	WORD $0xb94031ed // ldr    w13, [x15, #48]
-	WORD $0xa94c6bf4 // ldp    x20, x26, [sp, #192]
-	WORD $0x29464126 // ldp    w6, w16, [x9, #48]
-	WORD $0xb90063ed // str    w13, [sp, #96]
-	WORD $0xb9403569 // ldr    w9, [x11, #52]
-	WORD $0xb94057ed // ldr    w13, [sp, #84]
-	WORD $0xb940364b // ldr    w11, [x18, #52]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9002dcd // str    w13, [x14, #44]
-	WORD $0xb9403772 // ldr    w18, [x27, #52]
-	WORD $0xb9003346 // str    w6, [x26, #48]
-	WORD $0xaa1603ed // mov    x13, x22
-	WORD $0xb9003329 // str    w9, [x25, #48]
-	WORD $0xb9403549 // ldr    w9, [x10, #52]
-	WORD $0xf94057ea // ldr    x10, [sp, #168]
-	WORD $0xaa1803e6 // mov    x6, x24
-	WORD $0xaa0203ee // mov    x14, x2
-	WORD $0xb90037e9 // str    w9, [sp, #52]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xb9003149 // str    w9, [x10, #48]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9003289 // str    w9, [x20, #48]
-	WORD $0xb94036c9 // ldr    w9, [x22, #52]
-	WORD $0xaa1103f6 // mov    x22, x17
-	WORD $0x2909afe9 // stp    w9, w11, [sp, #76]
-	WORD $0xf9404beb // ldr    x11, [sp, #144]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xb9003169 // str    w9, [x11, #48]
-	WORD $0xb9403789 // ldr    w9, [x28, #52]
-	WORD $0xf940c7fc // ldr    x28, [sp, #392]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb9003029 // str    w9, [x1, #48]
-	WORD $0xb9403789 // ldr    w9, [x28, #52]
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9407be9 // ldr    w9, [sp, #120]
-	WORD $0xb9003049 // str    w9, [x2, #48]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xaa0c03e2 // mov    x2, x12
-	WORD $0xb9003229 // str    w9, [x17, #48]
-	WORD $0xb94037c9 // ldr    w9, [x30, #52]
-	WORD $0xaa1703f1 // mov    x17, x23
-	WORD $0x290acbe9 // stp    w9, w18, [sp, #84]
-	WORD $0xb94033e9 // ldr    w9, [sp, #48]
-	WORD $0xf94087f2 // ldr    x18, [sp, #264]
-	WORD $0xb90032e9 // str    w9, [x23, #48]
-	WORD $0xb9403709 // ldr    w9, [x24, #52]
-	WORD $0xa94ddff3 // ldp    x19, x23, [sp, #216]
-	WORD $0xf940b7f8 // ldr    x24, [sp, #360]
-	WORD $0xb9003268 // str    w8, [x19, #48]
-	WORD $0xb94036a8 // ldr    w8, [x21, #52]
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb90032e8 // str    w8, [x23, #48]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb9003068 // str    w8, [x3, #48]
-	WORD $0xb9403588 // ldr    w8, [x12, #52]
-	WORD $0x2904a7e8 // stp    w8, w9, [sp, #36]
-	WORD $0xb9403709 // ldr    w9, [x24, #52]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90023e9 // str    w9, [sp, #32]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb9003248 // str    w8, [x18, #48]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb90030e9 // str    w9, [x7, #48]
-	WORD $0xb94035e9 // ldr    w9, [x15, #52]
-	WORD $0xb940310c // ldr    w12, [x8, #48]
-	WORD $0xaa0103ef // mov    x15, x1
-	WORD $0xb9003be9 // str    w9, [sp, #56]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb90030a9 // str    w9, [x5, #48]
-	WORD $0xb9403509 // ldr    w9, [x8, #52]
-	WORD $0xb900308c // str    w12, [x4, #48]
-	WORD $0xaa1c03e5 // mov    x5, x28
-	WORD $0xb9003750 // str    w16, [x26, #52]
-	WORD $0xf9409ffa // ldr    x26, [sp, #312]
-	WORD $0xa95433f0 // ldp    x16, x12, [sp, #320]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xaa0803e9 // mov    x9, x8
-	WORD $0xaa1b03e4 // mov    x4, x27
-	WORD $0xb9403988 // ldr    w8, [x12, #56]
-	WORD $0xb90033e8 // str    w8, [sp, #48]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9003728 // str    w8, [x25, #52]
-	WORD $0xb9403a08 // ldr    w8, [x16, #56]
-	WORD $0xaa1203f9 // mov    x25, x18
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94037e8 // ldr    w8, [sp, #52]
-	WORD $0xb9003548 // str    w8, [x10, #52]
-	WORD $0xb9403b48 // ldr    w8, [x26, #56]
-	WORD $0xf9408fea // ldr    x10, [sp, #280]
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9003688 // str    w8, [x20, #52]
-	WORD $0xb94039a8 // ldr    w8, [x13, #56]
-	WORD $0xaa1e03ed // mov    x13, x30
-	WORD $0xf94057f4 // ldr    x20, [sp, #168]
-	WORD $0xb9007fe8 // str    w8, [sp, #124]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9003568 // str    w8, [x11, #52]
-	WORD $0x29472948 // ldp    w8, w10, [x10, #56]
-	WORD $0xb9403b8b // ldr    w11, [x28, #56]
-	WORD $0xb90047e8 // str    w8, [sp, #68]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9003428 // str    w8, [x1, #52]
-	WORD $0xb9404be8 // ldr    w8, [sp, #72]
-	WORD $0xb90035c8 // str    w8, [x14, #52]
-	WORD $0xb9403b68 // ldr    w8, [x27, #56]
-	WORD $0xb9003fe8 // str    w8, [sp, #60]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb90036c8 // str    w8, [x22, #52]
-	WORD $0xb9403bc8 // ldr    w8, [x30, #56]
-	WORD $0xa95587fe // ldp    x30, x1, [sp, #344]
-	WORD $0xb9403e16 // ldr    w22, [x16, #60]
-	WORD $0x290e2fe8 // stp    w8, w11, [sp, #112]
-	WORD $0xb94057e8 // ldr    w8, [sp, #84]
-	WORD $0xb9402beb // ldr    w11, [sp, #40]
-	WORD $0xb9003628 // str    w8, [x17, #52]
-	WORD $0xb9403828 // ldr    w8, [x1, #56]
-	WORD $0xaa0603f1 // mov    x17, x6
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb94043e8 // ldr    w8, [sp, #64]
-	WORD $0xb9003668 // str    w8, [x19, #52]
-	WORD $0xb9403aa8 // ldr    w8, [x21, #56]
-	WORD $0xa94f4ffc // ldp    x28, x19, [sp, #240]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xb90036e8 // str    w8, [x23, #52]
-	WORD $0xb94038c8 // ldr    w8, [x6, #56]
-	WORD $0xb900346b // str    w11, [x3, #52]
-	WORD $0xb940384b // ldr    w11, [x2, #56]
-	WORD $0xa94ceff7 // ldp    x23, x27, [sp, #200]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xaa0303e8 // mov    x8, x3
-	WORD $0xb90063eb // str    w11, [sp, #96]
-	WORD $0xf94083e3 // ldr    x3, [sp, #256]
-	WORD $0x29442fee // ldp    w14, w11, [sp, #32]
-	WORD $0xa94943e2 // ldp    x2, x16, [sp, #144]
-	WORD $0xb900364b // str    w11, [x18, #52]
-	WORD $0xb9403bf2 // ldr    w18, [sp, #56]
-	WORD $0xb90034ee // str    w14, [x7, #52]
-	WORD $0xf940bbee // ldr    x14, [sp, #368]
-	WORD $0xb9403b0b // ldr    w11, [x24, #56]
-	WORD $0xb9003672 // str    w18, [x19, #52]
-	WORD $0xb9403bd2 // ldr    w18, [x30, #56]
-	WORD $0x294739c6 // ldp    w6, w14, [x14, #56]
-	WORD $0xb90037eb // str    w11, [sp, #52]
-	WORD $0xaa1803eb // mov    x11, x24
-	WORD $0xb9004ff2 // str    w18, [sp, #76]
-	WORD $0xb9406ff2 // ldr    w18, [sp, #108]
-	WORD $0xaa0703f8 // mov    x24, x7
-	WORD $0xf94063e7 // ldr    x7, [sp, #192]
-	WORD $0xb9003772 // str    w18, [x27, #52]
-	WORD $0xf94053f2 // ldr    x18, [sp, #160]
-	WORD $0xb9003ae6 // str    w6, [x23, #56]
-	WORD $0xb9403d86 // ldr    w6, [x12, #60]
-	WORD $0xb94033ec // ldr    w12, [sp, #48]
-	WORD $0xb9003b8c // str    w12, [x28, #56]
-	WORD $0xb9407bec // ldr    w12, [sp, #120]
-	WORD $0xb9007bea // str    w10, [sp, #120]
-	WORD $0xb94047ea // ldr    w10, [sp, #68]
-	WORD $0xb9003a8c // str    w12, [x20, #56]
-	WORD $0xb9403f4c // ldr    w12, [x26, #60]
-	WORD $0xb90053ec // str    w12, [sp, #80]
-	WORD $0xb9405fec // ldr    w12, [sp, #92]
-	WORD $0xb90038ec // str    w12, [x7, #56]
-	WORD $0xf940c3ec // ldr    x12, [sp, #384]
-	WORD $0xb9403d8c // ldr    w12, [x12, #60]
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0xb9407fec // ldr    w12, [sp, #124]
-	WORD $0xb900384c // str    w12, [x2, #56]
-	WORD $0xb940392c // ldr    w12, [x9, #56]
-	WORD $0xb90039ea // str    w10, [x15, #56]
-	WORD $0xb9403caa // ldr    w10, [x5, #60]
-	WORD $0xb9403ea5 // ldr    w5, [x21, #60]
-	WORD $0xb9005bea // str    w10, [sp, #88]
-	WORD $0xb94077ea // ldr    w10, [sp, #116]
-	WORD $0xb900386a // str    w10, [x3, #56]
-	WORD $0xb9403c8a // ldr    w10, [x4, #60]
-	WORD $0xb90067ea // str    w10, [sp, #100]
-	WORD $0xb9403fea // ldr    w10, [sp, #60]
-	WORD $0xb9003a4a // str    w10, [x18, #56]
-	WORD $0xb9403daa // ldr    w10, [x13, #60]
-	WORD $0xaa1203ed // mov    x13, x18
-	WORD $0xb9005fea // str    w10, [sp, #92]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xb9003a0a // str    w10, [x16, #56]
-	WORD $0xb9403c2a // ldr    w10, [x1, #60]
-	WORD $0xa94d93e1 // ldp    x1, x4, [sp, #216]
-	WORD $0xb90073ea // str    w10, [sp, #112]
-	WORD $0xb9404bea // ldr    w10, [sp, #72]
-	WORD $0xb900382a // str    w10, [x1, #56]
-	WORD $0xb94043ea // ldr    w10, [sp, #64]
-	WORD $0xb900388a // str    w10, [x4, #56]
-	WORD $0xb9403e2a // ldr    w10, [x17, #60]
-	WORD $0xb9006bea // str    w10, [sp, #104]
-	WORD $0xb9402fea // ldr    w10, [sp, #44]
-	WORD $0xb900390a // str    w10, [x8, #56]
-	WORD $0xf9409bea // ldr    x10, [sp, #304]
-	WORD $0xb9403d48 // ldr    w8, [x10, #60]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb9003b28 // str    w8, [x25, #56]
-	WORD $0xaa0903e8 // mov    x8, x9
-	WORD $0xb9403d69 // ldr    w9, [x11, #60]
-	WORD $0xb9403fcb // ldr    w11, [x30, #60]
-	WORD $0xb9403d08 // ldr    w8, [x8, #60]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb90077eb // str    w11, [sp, #116]
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xb9007fe8 // str    w8, [sp, #124]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9003b09 // str    w9, [x24, #56]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xf9405ffe // ldr    x30, [sp, #184]
-	WORD $0xb9404515 // ldr    w21, [x8, #68]
-	WORD $0xb9003a69 // str    w9, [x19, #56]
-	WORD $0xb9404149 // ldr    w9, [x10, #64]
-	WORD $0xb9404113 // ldr    w19, [x8, #64]
-	WORD $0xb9003b6c // str    w12, [x27, #56]
-	WORD $0x294a23ea // ldp    w10, w8, [sp, #80]
-	WORD $0xb9003eee // str    w14, [x23, #60]
-	WORD $0xb9003f86 // str    w6, [x28, #60]
-	WORD $0xb9003e96 // str    w22, [x20, #60]
-	WORD $0xb94073ec // ldr    w12, [sp, #112]
-	WORD $0xb9003cea // str    w10, [x7, #60]
-	WORD $0xb9407bea // ldr    w10, [sp, #120]
-	WORD $0xb9003c48 // str    w8, [x2, #60]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xaa1903fc // mov    x28, x25
-	WORD $0xaa0203ee // mov    x14, x2
-	WORD $0xb9003dea // str    w10, [x15, #60]
-	WORD $0xb94067ea // ldr    w10, [sp, #100]
-	WORD $0x29485116 // ldp    w22, w20, [x8, #64]
-	WORD $0xaa0403f7 // mov    x23, x4
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb940435b // ldr    w27, [x26, #64]
-	WORD $0xb9003c68 // str    w8, [x3, #60]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb9003e4a // str    w10, [x18, #60]
-	WORD $0xaa1003ea // mov    x10, x16
-	WORD $0x29482111 // ldp    w17, w8, [x8, #64]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9003e08 // str    w8, [x16, #60]
-	WORD $0xb9406bf0 // ldr    w16, [sp, #104]
-	WORD $0xb9003c2c // str    w12, [x1, #60]
-	WORD $0xb940474c // ldr    w12, [x26, #68]
-	WORD $0xb9003c85 // str    w5, [x4, #60]
-	WORD $0xaa0103e8 // mov    x8, x1
-	WORD $0xb9003fd0 // str    w16, [x30, #60]
-	WORD $0xb94063f0 // ldr    w16, [sp, #96]
-	WORD $0xb90073ec // str    w12, [sp, #112]
-	WORD $0xb9407fe1 // ldr    w1, [sp, #124]
-	WORD $0xa9584bec // ldp    x12, x18, [sp, #384]
-	WORD $0xa94cebe5 // ldp    x5, x26, [sp, #200]
-	WORD $0x29483183 // ldp    w3, w12, [x12, #64]
-	WORD $0xf940abe4 // ldr    x4, [sp, #336]
-	WORD $0xb9006bec // str    w12, [sp, #104]
-	WORD $0xb9406fec // ldr    w12, [sp, #108]
-	WORD $0xb9003f2c // str    w12, [x25, #60]
-	WORD $0xf9408fec // ldr    x12, [sp, #280]
-	WORD $0xb9003f10 // str    w16, [x24, #60]
-	WORD $0xa94f43e6 // ldp    x6, x16, [sp, #240]
-	WORD $0x29483199 // ldp    w25, w12, [x12, #64]
-	WORD $0xb90063ec // str    w12, [sp, #96]
-	WORD $0xb94077ec // ldr    w12, [sp, #116]
-	WORD $0xb9003e0c // str    w12, [x16, #60]
-	WORD $0x29484a4c // ldp    w12, w18, [x18, #64]
-	WORD $0xb9003f41 // str    w1, [x26, #60]
-	WORD $0xb90040b3 // str    w19, [x5, #64]
-	WORD $0xaa0703e1 // mov    x1, x7
-	WORD $0xb90040d6 // str    w22, [x6, #64]
-	WORD $0xaa1e03f6 // mov    x22, x30
-	WORD $0xb9007ff2 // str    w18, [sp, #124]
-	WORD $0xf94093f2 // ldr    x18, [sp, #288]
-	WORD $0x29484a42 // ldp    w2, w18, [x18, #64]
-	WORD $0xb9006ff2 // str    w18, [sp, #108]
-	WORD $0xf94057f2 // ldr    x18, [sp, #168]
-	WORD $0xb9004251 // str    w17, [x18, #64]
-	WORD $0xb9404091 // ldr    w17, [x4, #64]
-	WORD $0xb90040fb // str    w27, [x7, #64]
-	WORD $0xb9404487 // ldr    w7, [x4, #68]
-	WORD $0xb90041c3 // str    w3, [x14, #64]
-	WORD $0xf940b3e4 // ldr    x4, [sp, #352]
-	WORD $0xb90041f9 // str    w25, [x15, #64]
-	WORD $0xaa0b03f9 // mov    x25, x11
-	WORD $0xb900416c // str    w12, [x11, #64]
-	WORD $0xf94097ec // ldr    x12, [sp, #296]
-	WORD $0xb9404083 // ldr    w3, [x4, #64]
-	WORD $0xb90041a2 // str    w2, [x13, #64]
-	WORD $0xb9004151 // str    w17, [x10, #64]
-	WORD $0xf940afe2 // ldr    x2, [sp, #344]
-	WORD $0x2948318b // ldp    w11, w12, [x12, #64]
-	WORD $0xb9004103 // str    w3, [x8, #64]
-	WORD $0xf940b7e3 // ldr    x3, [sp, #360]
-	WORD $0xb90042eb // str    w11, [x23, #64]
-	WORD $0xb9404484 // ldr    w4, [x4, #68]
-	WORD $0xb9005fec // str    w12, [sp, #92]
-	WORD $0xf9408bec // ldr    x12, [sp, #272]
-	WORD $0x29480c6b // ldp    w11, w3, [x3, #64]
-	WORD $0xb90067e4 // str    w4, [sp, #100]
-	WORD $0x29482191 // ldp    w17, w8, [x12, #64]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb90043d1 // str    w17, [x30, #64]
-	WORD $0xb9404051 // ldr    w17, [x2, #64]
-	WORD $0xb9004389 // str    w9, [x28, #64]
-	WORD $0xaa0e03fc // mov    x28, x14
-	WORD $0xb940410c // ldr    w12, [x8, #64]
-	WORD $0xb900430b // str    w11, [x24, #64]
-	WORD $0xb9004211 // str    w17, [x16, #64]
-	WORD $0xb9404513 // ldr    w19, [x8, #68]
-	WORD $0xaa0503e8 // mov    x8, x5
-	WORD $0xb94073f1 // ldr    w17, [sp, #112]
-	WORD $0xb900434c // str    w12, [x26, #64]
-	WORD $0xb9406bee // ldr    w14, [sp, #104]
-	WORD $0xb90044b5 // str    w21, [x5, #68]
-	WORD $0xf9409be5 // ldr    x5, [sp, #304]
-	WORD $0xb90044d4 // str    w20, [x6, #68]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb940444b // ldr    w11, [x2, #68]
-	WORD $0xaa0f03fe // mov    x30, x15
-	WORD $0x2948c0ac // ldp    w12, w16, [x5, #68]
-	WORD $0xaa1703f5 // mov    x21, x23
-	WORD $0xaa0503e6 // mov    x6, x5
-	WORD $0xf940c3e5 // ldr    x5, [sp, #384]
-	WORD $0xb90077f0 // str    w16, [sp, #116]
-	WORD $0xb9407bf0 // ldr    w16, [sp, #120]
-	WORD $0xb9004650 // str    w16, [x18, #68]
-	WORD $0xaa1203f0 // mov    x16, x18
-	WORD $0xb9004431 // str    w17, [x1, #68]
-	WORD $0xf940bbf2 // ldr    x18, [sp, #368]
-	WORD $0xb900478e // str    w14, [x28, #68]
-	WORD $0xf940a7ee // ldr    x14, [sp, #328]
-	WORD $0xb90045e9 // str    w9, [x15, #68]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0x29490a5b // ldp    w27, w2, [x18, #72]
-	WORD $0xaa1903e1 // mov    x1, x25
-	WORD $0x294911d4 // ldp    w20, w4, [x14, #72]
-	WORD $0xb9407fee // ldr    w14, [sp, #124]
-	WORD $0xaa0a03f2 // mov    x18, x10
-	WORD $0xf940a3ef // ldr    x15, [sp, #320]
-	WORD $0xb900472e // str    w14, [x25, #68]
-	WORD $0xaa0d03f9 // mov    x25, x13
-	WORD $0xb90045a9 // str    w9, [x13, #68]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9004547 // str    w7, [x10, #68]
-	WORD $0xf9406fea // ldr    x10, [sp, #216]
-	WORD $0xb9404ded // ldr    w13, [x15, #76]
-	WORD $0xf9407fe7 // ldr    x7, [sp, #248]
-	WORD $0xb9004549 // str    w9, [x10, #68]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9007bed // str    w13, [sp, #120]
-	WORD $0xf9409fed // ldr    x13, [sp, #312]
-	WORD $0xb94049ee // ldr    w14, [x15, #72]
-	WORD $0xb90046e9 // str    w9, [x23, #68]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xf94087f7 // ldr    x23, [sp, #264]
-	WORD $0xb94049af // ldr    w15, [x13, #72]
-	WORD $0xb90046c9 // str    w9, [x22, #68]
-	WORD $0xb9404db1 // ldr    w17, [x13, #76]
-	WORD $0xb90046ec // str    w12, [x23, #68]
-	WORD $0xb94048ad // ldr    w13, [x5, #72]
-	WORD $0xb9004703 // str    w3, [x24, #68]
-	WORD $0xf940c7e3 // ldr    x3, [sp, #392]
-	WORD $0xb9404ca9 // ldr    w9, [x5, #76]
-	WORD $0xb90044eb // str    w11, [x7, #68]
-	WORD $0xf9408fe5 // ldr    x5, [sp, #280]
-	WORD $0xb9004753 // str    w19, [x26, #68]
-	WORD $0xb940486b // ldr    w11, [x3, #72]
-	WORD $0xb900491b // str    w27, [x8, #72]
-	WORD $0xb9404c63 // ldr    w3, [x3, #76]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0x294924ac // ldp    w12, w9, [x5, #72]
-	WORD $0xaa0803fb // mov    x27, x8
-	WORD $0xf9407be8 // ldr    x8, [sp, #240]
-	WORD $0xb9007fe3 // str    w3, [sp, #124]
-	WORD $0xf94093e3 // ldr    x3, [sp, #288]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9004914 // str    w20, [x8, #72]
-	WORD $0xaa1003f4 // mov    x20, x16
-	WORD $0xb9404c69 // ldr    w9, [x3, #76]
-	WORD $0xb9004a0e // str    w14, [x16, #72]
-	WORD $0xf940abf0 // ldr    x16, [sp, #336]
-	WORD $0xaa1a03e5 // mov    x5, x26
-	WORD $0xb940487a // ldr    w26, [x3, #72]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xf94063e3 // ldr    x3, [sp, #192]
-	WORD $0x2949260e // ldp    w14, w9, [x16, #72]
-	WORD $0xb900486f // str    w15, [x3, #72]
-	WORD $0xf94097ef // ldr    x15, [sp, #296]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xf940b3e9 // ldr    x9, [sp, #352]
-	WORD $0xb9004b8d // str    w13, [x28, #72]
-	WORD $0xb9004bcc // str    w12, [x30, #72]
-	WORD $0xaa1e03ec // mov    x12, x30
-	WORD $0xb940492d // ldr    w13, [x9, #72]
-	WORD $0xb900482b // str    w11, [x1, #72]
-	WORD $0xb94049eb // ldr    w11, [x15, #72]
-	WORD $0xb9004b3a // str    w26, [x25, #72]
-	WORD $0xb9404dfe // ldr    w30, [x15, #76]
-	WORD $0xb9004a4e // str    w14, [x18, #72]
-	WORD $0xf9408bef // ldr    x15, [sp, #272]
-	WORD $0xb900494d // str    w13, [x10, #72]
-	WORD $0xb9004aab // str    w11, [x21, #72]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xaa1703fa // mov    x26, x23
-	WORD $0xaa1903e1 // mov    x1, x25
-	WORD $0x294929ee // ldp    w14, w10, [x15, #72]
-	WORD $0xaa1403f9 // mov    x25, x20
-	WORD $0xaa0103f5 // mov    x21, x1
-	WORD $0xf940afef // ldr    x15, [sp, #344]
-	WORD $0xb9005fea // str    w10, [sp, #92]
-	WORD $0xb94077ea // ldr    w10, [sp, #116]
-	WORD $0xb9004ace // str    w14, [x22, #72]
-	WORD $0xb94049ab // ldr    w11, [x13, #72]
-	WORD $0xb94049ee // ldr    w14, [x15, #72]
-	WORD $0xaa0503f6 // mov    x22, x5
-	WORD $0xb9004aea // str    w10, [x23, #72]
-	WORD $0xf940bfea // ldr    x10, [sp, #376]
-	WORD $0xb9004b0b // str    w11, [x24, #72]
-	WORD $0xb9404deb // ldr    w11, [x15, #76]
-	WORD $0xb90048ee // str    w14, [x7, #72]
-	WORD $0xf94083f7 // ldr    x23, [sp, #256]
-	WORD $0x29493950 // ldp    w16, w14, [x10, #72]
-	WORD $0xaa1203e7 // mov    x7, x18
-	WORD $0xaa0603ea // mov    x10, x6
-	WORD $0xb94063ea // ldr    w10, [sp, #96]
-	WORD $0xb90077eb // str    w11, [sp, #116]
-	WORD $0xb90048b0 // str    w16, [x5, #72]
-	WORD $0xb9404d29 // ldr    w9, [x9, #76]
-	WORD $0xb9004f62 // str    w2, [x27, #76]
-	WORD $0xaa0303e2 // mov    x2, x3
-	WORD $0xb9004d04 // str    w4, [x8, #76]
-	WORD $0x2949a0d0 // ldp    w16, w8, [x6, #76]
-	WORD $0xaa0c03f8 // mov    x24, x12
-	WORD $0xb9404dad // ldr    w13, [x13, #76]
-	WORD $0xaa1c03e6 // mov    x6, x28
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xf940c3eb // ldr    x11, [sp, #384]
-	WORD $0xaa1603e4 // mov    x4, x22
-	WORD $0xb9004e88 // str    w8, [x20, #76]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9004c71 // str    w17, [x3, #76]
-	WORD $0x294a4d0f // ldp    w15, w19, [x8, #80]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9004f88 // str    w8, [x28, #76]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xb9004d8a // str    w10, [x12, #76]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xaa1a03fc // mov    x28, x26
-	WORD $0x294a1503 // ldp    w3, w5, [x8, #80]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9004ee8 // str    w8, [x23, #76]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb9004c2a // str    w10, [x1, #76]
-	WORD $0xa94dabf4 // ldp    x20, x10, [sp, #216]
-	WORD $0x294a2111 // ldp    w17, w8, [x8, #80]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9004e48 // str    w8, [x18, #76]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xb9004e89 // str    w9, [x20, #76]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9004d5e // str    w30, [x10, #76]
-	WORD $0xb9405172 // ldr    w18, [x11, #80]
-	WORD $0x294a2101 // ldp    w1, w8, [x8, #80]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xf9405fe8 // ldr    x8, [sp, #184]
-	WORD $0xb9004d09 // str    w9, [x8, #76]
-	WORD $0xb9405569 // ldr    w9, [x11, #84]
-	WORD $0xb9004f50 // str    w16, [x26, #76]
-	WORD $0xf9405bf0 // ldr    x16, [sp, #176]
-	WORD $0xf9408feb // ldr    x11, [sp, #280]
-	WORD $0xaa1703fa // mov    x26, x23
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9004e0d // str    w13, [x16, #76]
-	WORD $0xf940c7ed // ldr    x13, [sp, #392]
-	WORD $0x294a257e // ldp    w30, w9, [x11, #80]
-	WORD $0x294a35ac // ldp    w12, w13, [x13, #80]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xf9407feb // ldr    x11, [sp, #248]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0xf94093ed // ldr    x13, [sp, #288]
-	WORD $0xb9004d69 // str    w9, [x11, #76]
-	WORD $0xb9004ece // str    w14, [x22, #76]
-	WORD $0xf9407bee // ldr    x14, [sp, #240]
-	WORD $0xb900536f // str    w15, [x27, #80]
-	WORD $0x294a35af // ldp    w15, w13, [x13, #80]
-	WORD $0xaa1b03f6 // mov    x22, x27
-	WORD $0xb90051c3 // str    w3, [x14, #80]
-	WORD $0xaa1903e3 // mov    x3, x25
-	WORD $0xb9005331 // str    w17, [x25, #80]
-	WORD $0xaa0b03fb // mov    x27, x11
-	WORD $0xb90073ed // str    w13, [sp, #112]
-	WORD $0xf940abed // ldr    x13, [sp, #336]
-	WORD $0xb9005041 // str    w1, [x2, #80]
-	WORD $0xaa0203e1 // mov    x1, x2
-	WORD $0xb90050d2 // str    w18, [x6, #80]
-	WORD $0xaa0603f9 // mov    x25, x6
-	WORD $0xb94051b1 // ldr    w17, [x13, #80]
-	WORD $0xb900531e // str    w30, [x24, #80]
-	WORD $0xb94055a9 // ldr    w9, [x13, #84]
-	WORD $0xb90052ec // str    w12, [x23, #80]
-	WORD $0xf940b3ed // ldr    x13, [sp, #352]
-	WORD $0xb90052af // str    w15, [x21, #80]
-	WORD $0xb90050f1 // str    w17, [x7, #80]
-	WORD $0xaa0a03fe // mov    x30, x10
-	WORD $0xaa0703ef // mov    x15, x7
-	WORD $0xaa0e03e7 // mov    x7, x14
-	WORD $0x294a35b2 // ldp    w18, w13, [x13, #80]
-	WORD $0xaa0103f7 // mov    x23, x1
-	WORD $0xb9005292 // str    w18, [x20, #80]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xf94097ed // ldr    x13, [sp, #296]
-	WORD $0x294a35ac // ldp    w12, w13, [x13, #80]
-	WORD $0xb900514c // str    w12, [x10, #80]
-	WORD $0xb9406bec // ldr    w12, [sp, #104]
-	WORD $0xb9005fed // str    w13, [sp, #92]
-	WORD $0xf9408bed // ldr    x13, [sp, #272]
-	WORD $0x294a35b1 // ldp    w17, w13, [x13, #80]
-	WORD $0xb9005111 // str    w17, [x8, #80]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xb9005bed // str    w13, [sp, #88]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xb900538c // str    w12, [x28, #80]
-	WORD $0xf940bfec // ldr    x12, [sp, #376]
-	WORD $0x294a2111 // ldp    w17, w8, [x8, #80]
-	WORD $0xaa1903fc // mov    x28, x25
-	WORD $0xb94051aa // ldr    w10, [x13, #80]
-	WORD $0xb9405182 // ldr    w2, [x12, #80]
-	WORD $0xb90057e8 // str    w8, [sp, #84]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb900520a // str    w10, [x16, #80]
-	WORD $0xb9405586 // ldr    w6, [x12, #84]
-	WORD $0xb9005171 // str    w17, [x11, #80]
-	WORD $0xb94055b2 // ldr    w18, [x13, #84]
-	WORD $0xb9005082 // str    w2, [x4, #80]
-	WORD $0x294a890b // ldp    w11, w2, [x8, #84]
-	WORD $0xb90056d3 // str    w19, [x22, #84]
-	WORD $0x294ea3ed // ldp    w13, w8, [sp, #116]
-	WORD $0xb90055c5 // str    w5, [x14, #84]
-	WORD $0x294db3ea // ldp    w10, w12, [sp, #108]
-	WORD $0xb9005468 // str    w8, [x3, #84]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xf9406be5 // ldr    x5, [sp, #208]
-	WORD $0xb900542a // str    w10, [x1, #84]
-	WORD $0x294b2110 // ldp    w16, w8, [x8, #88]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294c23ea // ldp    w10, w8, [sp, #96]
-	WORD $0xb9005728 // str    w8, [x25, #84]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xb900570a // str    w10, [x24, #84]
-	WORD $0xaa1503ea // mov    x10, x21
-	WORD $0x294b1111 // ldp    w17, w4, [x8, #88]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9005748 // str    w8, [x26, #84]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb90056ac // str    w12, [x21, #84]
-	WORD $0xaa1403ec // mov    x12, x20
-	WORD $0xb90055e9 // str    w9, [x15, #84]
-	WORD $0xb940590e // ldr    w14, [x8, #88]
-	WORD $0xb900568d // str    w13, [x20, #84]
-	WORD $0xb9405d09 // ldr    w9, [x8, #92]
-	WORD $0xf940c3ed // ldr    x13, [sp, #384]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xb94059b4 // ldr    w20, [x13, #88]
-	WORD $0x294b2101 // ldp    w1, w8, [x8, #88]
-	WORD $0x290ca7e8 // stp    w8, w9, [sp, #100]
-	WORD $0x294b23e9 // ldp    w9, w8, [sp, #88]
-	WORD $0xb90057c8 // str    w8, [x30, #84]
-	WORD $0xa94b23f3 // ldp    x19, x8, [sp, #176]
-	WORD $0xb9005509 // str    w9, [x8, #84]
-	WORD $0xb9405da9 // ldr    w9, [x13, #92]
-	WORD $0xf94087ed // ldr    x13, [sp, #264]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb90055ab // str    w11, [x13, #84]
-	WORD $0xf9408feb // ldr    x11, [sp, #280]
-	WORD $0xb9005672 // str    w18, [x19, #84]
-	WORD $0xf940c7f2 // ldr    x18, [sp, #392]
-	WORD $0x294b2575 // ldp    w21, w9, [x11, #88]
-	WORD $0xb9405a59 // ldr    w25, [x18, #88]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb9005769 // str    w9, [x27, #84]
-	WORD $0xb9405e49 // ldr    w9, [x18, #92]
-	WORD $0xf94093f2 // ldr    x18, [sp, #288]
-	WORD $0xb90054a6 // str    w6, [x5, #84]
-	WORD $0xb9005ad0 // str    w16, [x22, #88]
-	WORD $0xaa0a03e6 // mov    x6, x10
-	WORD $0xb90058f1 // str    w17, [x7, #88]
-	WORD $0xaa1703f1 // mov    x17, x23
-	WORD $0xb9405a50 // ldr    w16, [x18, #88]
-	WORD $0xb900586e // str    w14, [x3, #88]
-	WORD $0xb9405e4b // ldr    w11, [x18, #92]
-	WORD $0xb9005ae1 // str    w1, [x23, #88]
-	WORD $0xf940abf2 // ldr    x18, [sp, #336]
-	WORD $0xb9005b94 // str    w20, [x28, #88]
-	WORD $0xb9005b15 // str    w21, [x24, #88]
-	WORD $0xb9005b59 // str    w25, [x26, #88]
-	WORD $0xaa0803f5 // mov    x21, x8
-	WORD $0xb9405a4e // ldr    w14, [x18, #88]
-	WORD $0xb9005950 // str    w16, [x10, #88]
-	WORD $0xb9405e52 // ldr    w18, [x18, #92]
-	WORD $0xaa1b03f8 // mov    x24, x27
-	WORD $0xf9408bea // ldr    x10, [sp, #272]
-	WORD $0xaa1e03f4 // mov    x20, x30
-	WORD $0xb90059ee // str    w14, [x15, #88]
-	WORD $0xa95587f0 // ldp    x16, x1, [sp, #344]
-	WORD $0x290f2ff2 // stp    w18, w11, [sp, #120]
-	WORD $0x294b0432 // ldp    w18, w1, [x1, #88]
-	WORD $0x294b294e // ldp    w14, w10, [x10, #88]
-	WORD $0xb9005992 // str    w18, [x12, #88]
-	WORD $0x290b87ea // stp    w10, w1, [sp, #92]
-	WORD $0xf94097e1 // ldr    x1, [sp, #296]
-	WORD $0xaa0603f2 // mov    x18, x6
-	WORD $0x294b6437 // ldp    w23, w25, [x1, #88]
-	WORD $0xaa0f03e1 // mov    x1, x15
-	WORD $0xf940b7ef // ldr    x15, [sp, #360]
-	WORD $0xb9005bd7 // str    w23, [x30, #88]
-	WORD $0xb9405e1e // ldr    w30, [x16, #92]
-	WORD $0xb900590e // str    w14, [x8, #88]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb94059ea // ldr    w10, [x15, #88]
-	WORD $0xb90059a2 // str    w2, [x13, #88]
-	WORD $0xb9405a0e // ldr    w14, [x16, #88]
-	WORD $0xaa1103f0 // mov    x16, x17
-	WORD $0xb9405902 // ldr    w2, [x8, #88]
-	WORD $0xaa0503f7 // mov    x23, x5
-	WORD $0xb9005a6a // str    w10, [x19, #88]
-	WORD $0xb9405d0a // ldr    w10, [x8, #92]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9005b6e // str    w14, [x27, #88]
-	WORD $0xb90058a2 // str    w2, [x5, #88]
-	WORD $0xaa0303fb // mov    x27, x3
-	WORD $0xb9407fe5 // ldr    w5, [sp, #124]
-	WORD $0xb9005ec8 // str    w8, [x22, #92]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9005ce4 // str    w4, [x7, #92]
-	WORD $0xb9405def // ldr    w15, [x15, #92]
-	WORD $0xaa1503e7 // mov    x7, x21
-	WORD $0x294b891a // ldp    w26, w2, [x8, #92]
-	WORD $0x294ca3eb // ldp    w11, w8, [sp, #100]
-	WORD $0xb9005c68 // str    w8, [x3, #92]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9005e2b // str    w11, [x17, #92]
-	WORD $0xf94077eb // ldr    x11, [sp, #232]
-	WORD $0x294c2103 // ldp    w3, w8, [x8, #96]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294e23ed // ldp    w13, w8, [sp, #112]
-	WORD $0xb9005f88 // str    w8, [x28, #92]
-	WORD $0xb9005d6d // str    w13, [x11, #92]
-	WORD $0xa95423ed // ldp    x13, x8, [sp, #320]
-	WORD $0x294c110e // ldp    w14, w4, [x8, #96]
-	WORD $0x294c35b1 // ldp    w17, w13, [x13, #96]
-	WORD $0xf94083e8 // ldr    x8, [sp, #256]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xb9407bed // ldr    w13, [sp, #120]
-	WORD $0xb9005d09 // str    w9, [x8, #92]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9005cc5 // str    w5, [x6, #92]
-	WORD $0xf940c3e5 // ldr    x5, [sp, #384]
-	WORD $0xb9005c2d // str    w13, [x1, #92]
-	WORD $0xf9409fed // ldr    x13, [sp, #312]
-	WORD $0xb9005d89 // str    w9, [x12, #92]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9005e99 // str    w25, [x20, #92]
-	WORD $0x294c35a6 // ldp    w6, w13, [x13, #96]
-	WORD $0xb9005ea9 // str    w9, [x21, #92]
-	WORD $0xf94087f5 // ldr    x21, [sp, #264]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0x294c24ad // ldp    w13, w9, [x5, #96]
-	WORD $0xf9408fe5 // ldr    x5, [sp, #280]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb9005eba // str    w26, [x21, #92]
-	WORD $0xb9005e6f // str    w15, [x19, #92]
-	WORD $0xf940c7ef // ldr    x15, [sp, #392]
-	WORD $0xb94064a9 // ldr    w9, [x5, #100]
-	WORD $0xb9005f1e // str    w30, [x24, #92]
-	WORD $0xb9005eea // str    w10, [x23, #92]
-	WORD $0xf9407bea // ldr    x10, [sp, #240]
-	WORD $0xb94061f9 // ldr    w25, [x15, #96]
-	WORD $0xb90062c3 // str    w3, [x22, #96]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb94065e9 // ldr    w9, [x15, #100]
-	WORD $0xb900614e // str    w14, [x10, #96]
-	WORD $0xb9006371 // str    w17, [x27, #96]
-	WORD $0xb94060ba // ldr    w26, [x5, #96]
-	WORD $0xb9006206 // str    w6, [x16, #96]
-	WORD $0xa9521bef // ldp    x15, x6, [sp, #288]
-	WORD $0xb94061e3 // ldr    w3, [x15, #96]
-	WORD $0xb900638d // str    w13, [x28, #96]
-	WORD $0xb94065ee // ldr    w14, [x15, #100]
-	WORD $0xb900617a // str    w26, [x11, #96]
-	WORD $0xf940abef // ldr    x15, [sp, #336]
-	WORD $0xb9006119 // str    w25, [x8, #96]
-	WORD $0xb94060cb // ldr    w11, [x6, #96]
-	WORD $0xb9006243 // str    w3, [x18, #96]
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0xaa1803e5 // mov    x5, x24
-	WORD $0x294c3df1 // ldp    w17, w15, [x15, #96]
-	WORD $0xb9007bee // str    w14, [sp, #120]
-	WORD $0xaa1b03ee // mov    x14, x27
-	WORD $0xb9406510 // ldr    w16, [x8, #100]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9006031 // str    w17, [x1, #96]
-	WORD $0xb9406111 // ldr    w17, [x8, #96]
-	WORD $0xb90073ef // str    w15, [sp, #112]
-	WORD $0xa955bfe8 // ldp    x8, x15, [sp, #344]
-	WORD $0xaa0503fe // mov    x30, x5
-	WORD $0xaa1203e3 // mov    x3, x18
-	WORD $0xaa1503f8 // mov    x24, x21
-	WORD $0x294c25ed // ldp    w13, w9, [x15, #96]
-	WORD $0xaa1703f2 // mov    x18, x23
-	WORD $0xaa0603fc // mov    x28, x6
-	WORD $0xf94063ef // ldr    x15, [sp, #192]
-	WORD $0xaa1403fa // mov    x26, x20
-	WORD $0xb900618d // str    w13, [x12, #96]
-	WORD $0xf940b7ec // ldr    x12, [sp, #360]
-	WORD $0xb900628b // str    w11, [x20, #96]
-	WORD $0xf940bfed // ldr    x13, [sp, #376]
-	WORD $0xb90060f1 // str    w17, [x7, #96]
-	WORD $0xb9406111 // ldr    w17, [x8, #96]
-	WORD $0xb940618b // ldr    w11, [x12, #96]
-	WORD $0xb90062a2 // str    w2, [x21, #96]
-	WORD $0xb940658c // ldr    w12, [x12, #100]
-	WORD $0xaa0703f4 // mov    x20, x7
-	WORD $0xb94061a2 // ldr    w2, [x13, #96]
-	WORD $0xaa0103e7 // mov    x7, x1
-	WORD $0xb900626b // str    w11, [x19, #96]
-	WORD $0xb94065b9 // ldr    w25, [x13, #100]
-	WORD $0x290b33f0 // stp    w16, w12, [sp, #88]
-	WORD $0xb940650c // ldr    w12, [x8, #100]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90060b1 // str    w17, [x5, #96]
-	WORD $0xb90062e2 // str    w2, [x23, #96]
-	WORD $0xaa0a03f1 // mov    x17, x10
-	WORD $0xaa0e03e5 // mov    x5, x14
-	WORD $0xf940a7eb // ldr    x11, [sp, #328]
-	WORD $0xb90066c8 // str    w8, [x22, #100]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9006544 // str    w4, [x10, #100]
-	WORD $0xb9407fea // ldr    w10, [sp, #124]
-	WORD $0xf94077f7 // ldr    x23, [sp, #232]
-	WORD $0x294c8910 // ldp    w16, w2, [x8, #100]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9406d64 // ldr    w4, [x11, #108]
-	WORD $0xf94083f5 // ldr    x21, [sp, #256]
-	WORD $0xb90065c8 // str    w8, [x14, #100]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb90065ea // str    w10, [x15, #100]
-	WORD $0xf9404bea // ldr    x10, [sp, #144]
-	WORD $0xb94064db // ldr    w27, [x6, #100]
-	WORD $0xaa1303e6 // mov    x6, x19
-	WORD $0x294d210d // ldp    w13, w8, [x8, #104]
-	WORD $0xaa0303f3 // mov    x19, x3
-	WORD $0xb9407be3 // ldr    w3, [sp, #120]
-	WORD $0xf9406ff6 // ldr    x22, [sp, #216]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294ca3ee // ldp    w14, w8, [sp, #100]
-	WORD $0xb9006548 // str    w8, [x10, #100]
-	WORD $0xb9406968 // ldr    w8, [x11, #104]
-	WORD $0xb94063eb // ldr    w11, [sp, #96]
-	WORD $0xb90066ee // str    w14, [x23, #100]
-	WORD $0xb90066ab // str    w11, [x21, #100]
-	WORD $0xf940a3eb // ldr    x11, [sp, #320]
-	WORD $0xb9006663 // str    w3, [x19, #100]
-	WORD $0x294d2d6e // ldp    w14, w11, [x11, #104]
-	WORD $0xb9007feb // str    w11, [sp, #124]
-	WORD $0xb94073eb // ldr    w11, [sp, #112]
-	WORD $0xb900642b // str    w11, [x1, #100]
-	WORD $0xf9409feb // ldr    x11, [sp, #312]
-	WORD $0xb90066c9 // str    w9, [x22, #100]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb900675b // str    w27, [x26, #100]
-	WORD $0x294d2d61 // ldp    w1, w11, [x11, #104]
-	WORD $0xb9006689 // str    w9, [x20, #100]
-	WORD $0xb9006710 // str    w16, [x24, #100]
-	WORD $0xb9007beb // str    w11, [sp, #120]
-	WORD $0xaa1a03eb // mov    x11, x26
-	WORD $0xf940c3fa // ldr    x26, [sp, #384]
-	WORD $0x294d2743 // ldp    w3, w9, [x26, #104]
-	WORD $0xf9408ffa // ldr    x26, [sp, #280]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9406b50 // ldr    w16, [x26, #104]
-	WORD $0xb90064c9 // str    w9, [x6, #100]
-	WORD $0xb9406f49 // ldr    w9, [x26, #108]
-	WORD $0xb90067cc // str    w12, [x30, #100]
-	WORD $0xf940c7ec // ldr    x12, [sp, #392]
-	WORD $0xb9006659 // str    w25, [x18, #100]
-	WORD $0xf94093f9 // ldr    x25, [sp, #288]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xaa1503fa // mov    x26, x21
-	WORD $0x294d259b // ldp    w27, w9, [x12, #104]
-	WORD $0xaa1e03fa // mov    x26, x30
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xf94067e9 // ldr    x9, [sp, #200]
-	WORD $0xb900692d // str    w13, [x9, #104]
-	WORD $0xb9406b2d // ldr    w13, [x25, #104]
-	WORD $0xb9006a28 // str    w8, [x17, #104]
-	WORD $0xb9406f28 // ldr    w8, [x25, #108]
-	WORD $0xb90068ae // str    w14, [x5, #104]
-	WORD $0xaa1303f9 // mov    x25, x19
-	WORD $0xb90069e1 // str    w1, [x15, #104]
-	WORD $0xaa0a03e1 // mov    x1, x10
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xf940abe8 // ldr    x8, [sp, #336]
-	WORD $0xb9006943 // str    w3, [x10, #104]
-	WORD $0xb9406b8a // ldr    w10, [x28, #104]
-	WORD $0xb9006af0 // str    w16, [x23, #104]
-	WORD $0xb940690e // ldr    w14, [x8, #104]
-	WORD $0xb9006abb // str    w27, [x21, #104]
-	WORD $0xb9406d08 // ldr    w8, [x8, #108]
-	WORD $0xb9006a6d // str    w13, [x19, #104]
-	WORD $0xaa0703fb // mov    x27, x7
-	WORD $0xb9406f8d // ldr    w13, [x28, #108]
-	WORD $0xb90068ee // str    w14, [x7, #104]
-	WORD $0xaa0103e7 // mov    x7, x1
-	WORD $0xb90077e8 // str    w8, [sp, #116]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1403f3 // mov    x19, x20
-	WORD $0x294d4103 // ldp    w3, w16, [x8, #104]
-	WORD $0xaa1c03e8 // mov    x8, x28
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0xaa1603fc // mov    x28, x22
-	WORD $0xb9006ac3 // str    w3, [x22, #104]
-	WORD $0xf940bfe3 // ldr    x3, [sp, #376]
-	WORD $0xb900696a // str    w10, [x11, #104]
-	WORD $0xaa1803eb // mov    x11, x24
-	WORD $0x294d210e // ldp    w14, w8, [x8, #104]
-	WORD $0xaa1103f6 // mov    x22, x17
-	WORD $0xf9405beb // ldr    x11, [sp, #176]
-	WORD $0xb9006a8e // str    w14, [x20, #104]
-	WORD $0xf94073f4 // ldr    x20, [sp, #224]
-	WORD $0x290a23f0 // stp    w16, w8, [sp, #80]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xb9006b02 // str    w2, [x24, #104]
-	WORD $0xb9406862 // ldr    w2, [x3, #104]
-	WORD $0x294d210e // ldp    w14, w8, [x8, #104]
-	WORD $0x294d320a // ldp    w10, w12, [x16, #104]
-	WORD $0xaa0503f0 // mov    x16, x5
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90068ca // str    w10, [x6, #104]
-	WORD $0xaa0f03e6 // mov    x6, x15
-	WORD $0xb9006bce // str    w14, [x30, #104]
-	WORD $0xb9406c6e // ldr    w14, [x3, #108]
-	WORD $0xb9006a42 // str    w2, [x18, #104]
-	WORD $0xaa1203e3 // mov    x3, x18
-	WORD $0xb9006d28 // str    w8, [x9, #108]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9004bec // str    w12, [sp, #72]
-	WORD $0xaa1503e2 // mov    x2, x21
-	WORD $0xb9006e24 // str    w4, [x17, #108]
-	WORD $0xaa1903e4 // mov    x4, x25
-	WORD $0x294da50a // ldp    w10, w9, [x8, #108]
-	WORD $0x294f23ec // ldp    w12, w8, [sp, #120]
-	WORD $0xb9006ca8 // str    w8, [x5, #108]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9006dec // str    w12, [x15, #108]
-	WORD $0xb94067ef // ldr    w15, [sp, #100]
-	WORD $0xa95433e5 // ldp    x5, x12, [sp, #320]
-	WORD $0x294e2112 // ldp    w18, w8, [x8, #112]
-	WORD $0xb94070b1 // ldr    w17, [x5, #112]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9006c28 // str    w8, [x1, #108]
-	WORD $0x294e3188 // ldp    w8, w12, [x12, #112]
-	WORD $0xb9006eef // str    w15, [x23, #108]
-	WORD $0xb94053ef // ldr    w15, [sp, #80]
-	WORD $0xb9004fec // str    w12, [sp, #76]
-	WORD $0xb9406bec // ldr    w12, [sp, #104]
-	WORD $0xb9006eac // str    w12, [x21, #108]
-	WORD $0xb94063ec // ldr    w12, [sp, #96]
-	WORD $0xb9006f2c // str    w12, [x25, #108]
-	WORD $0xb94074ac // ldr    w12, [x5, #116]
-	WORD $0xaa1b03f9 // mov    x25, x27
-	WORD $0xb9007fec // str    w12, [sp, #124]
-	WORD $0xb94077ec // ldr    w12, [sp, #116]
-	WORD $0xb9006f6c // str    w12, [x27, #108]
-	WORD $0xf9409fec // ldr    x12, [sp, #312]
-	WORD $0xb9006f8f // str    w15, [x28, #108]
-	WORD $0xb94057ef // ldr    w15, [sp, #84]
-	WORD $0xb9006e8d // str    w13, [x20, #108]
-	WORD $0xaa1c03fb // mov    x27, x28
-	WORD $0x294e3181 // ldp    w1, w12, [x12, #112]
-	WORD $0xaa1603fc // mov    x28, x22
-	WORD $0xb9006e6f // str    w15, [x19, #108]
-	WORD $0xb9006f0a // str    w10, [x24, #108]
-	WORD $0xf9408fea // ldr    x10, [sp, #280]
-	WORD $0xb9404bef // ldr    w15, [sp, #72]
-	WORD $0xb90067ec // str    w12, [sp, #100]
-	WORD $0xb9006d6f // str    w15, [x11, #108]
-	WORD $0xa9583fec // ldp    x12, x15, [sp, #384]
-	WORD $0x294e318d // ldp    w13, w12, [x12, #112]
-	WORD $0xb9007bec // str    w12, [sp, #120]
-	WORD $0x294e294c // ldp    w12, w10, [x10, #112]
-	WORD $0xb90077ea // str    w10, [sp, #116]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xb9006fca // str    w10, [x30, #108]
-	WORD $0xb94071ea // ldr    w10, [x15, #112]
-	WORD $0xb9006c6e // str    w14, [x3, #108]
-	WORD $0xb94075ee // ldr    w14, [x15, #116]
-	WORD $0xf94067ef // ldr    x15, [sp, #200]
-	WORD $0xb90057ee // str    w14, [sp, #84]
-	WORD $0xf94093ee // ldr    x14, [sp, #288]
-	WORD $0xb90071f2 // str    w18, [x15, #112]
-	WORD $0xb90072c8 // str    w8, [x22, #112]
-	WORD $0xaa1703f6 // mov    x22, x23
-	WORD $0xb94075c8 // ldr    w8, [x14, #116]
-	WORD $0xb9007211 // str    w17, [x16, #112]
-	WORD $0xb90070c1 // str    w1, [x6, #112]
-	WORD $0xb94071d2 // ldr    w18, [x14, #112]
-	WORD $0xb90070ed // str    w13, [x7, #112]
-	WORD $0xaa0603ee // mov    x14, x6
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb90072ec // str    w12, [x23, #112]
-	WORD $0xaa0703e1 // mov    x1, x7
-	WORD $0xb90072aa // str    w10, [x21, #112]
-	WORD $0xa9552be8 // ldp    x8, x10, [sp, #336]
-	WORD $0xb9407111 // ldr    w17, [x8, #112]
-	WORD $0xb9007092 // str    w18, [x4, #112]
-	WORD $0xb9407508 // ldr    w8, [x8, #116]
-	WORD $0xaa1903f2 // mov    x18, x25
-	WORD $0xaa0403f7 // mov    x23, x4
-	WORD $0xaa1803e7 // mov    x7, x24
-	WORD $0xb9007331 // str    w17, [x25, #112]
-	WORD $0xaa1403f9 // mov    x25, x20
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1003e4 // mov    x4, x16
-	WORD $0xaa1303e6 // mov    x6, x19
-	WORD $0x294e210d // ldp    w13, w8, [x8, #112]
-	WORD $0xb900736d // str    w13, [x27, #112]
-	WORD $0xb9404fed // ldr    w13, [sp, #76]
-	WORD $0xb90053e8 // str    w8, [sp, #80]
-	WORD $0xf94097e8 // ldr    x8, [sp, #296]
-	WORD $0x294e210c // ldp    w12, w8, [x8, #112]
-	WORD $0xb900728c // str    w12, [x20, #112]
-	WORD $0xaa0303f4 // mov    x20, x3
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0x294e2111 // ldp    w17, w8, [x8, #112]
-	WORD $0xb9007271 // str    w17, [x19, #112]
-	WORD $0xb9407151 // ldr    w17, [x10, #112]
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xf940b7e8 // ldr    x8, [sp, #360]
-	WORD $0xb9007309 // str    w9, [x24, #112]
-	WORD $0xf940bfe9 // ldr    x9, [sp, #376]
-	WORD $0xb940754a // ldr    w10, [x10, #116]
-	WORD $0xaa1c03f8 // mov    x24, x28
-	WORD $0x294e210c // ldp    w12, w8, [x8, #112]
-	WORD $0xb9407122 // ldr    w2, [x9, #112]
-	WORD $0xb900716c // str    w12, [x11, #112]
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9407528 // ldr    w8, [x9, #116]
-	WORD $0xb90073d1 // str    w17, [x30, #112]
-	WORD $0xaa0f03fe // mov    x30, x15
-	WORD $0xb9007062 // str    w2, [x3, #112]
-	WORD $0xb94078a3 // ldr    w3, [x5, #120]
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb90075e8 // str    w8, [x15, #116]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb900778d // str    w13, [x28, #116]
-	WORD $0xf940a7ed // ldr    x13, [sp, #328]
-	WORD $0xf940c3ef // ldr    x15, [sp, #384]
-	WORD $0xaa1a03fc // mov    x28, x26
-	WORD $0x294f210c // ldp    w12, w8, [x8, #120]
-	WORD $0x294f35b1 // ldp    w17, w13, [x13, #120]
-	WORD $0xb90173e8 // str    w8, [sp, #368]
-	WORD $0xb9014bed // str    w13, [sp, #328]
-	WORD $0x294f23ed // ldp    w13, w8, [sp, #120]
-	WORD $0xb9007608 // str    w8, [x16, #116]
-	WORD $0xaa0e03e8 // mov    x8, x14
-	WORD $0xb94067ee // ldr    w14, [sp, #100]
-	WORD $0xb9405ff0 // ldr    w16, [sp, #92]
-	WORD $0xb900750e // str    w14, [x8, #116]
-	WORD $0xb900742d // str    w13, [x1, #116]
-	WORD $0x294e37ee // ldp    w14, w13, [sp, #112]
-	WORD $0xb90076cd // str    w13, [x22, #116]
-	WORD $0xb9407cad // ldr    w13, [x5, #124]
-	WORD $0xb90143ed // str    w13, [sp, #320]
-	WORD $0xb94057ed // ldr    w13, [sp, #84]
-	WORD $0xb90076ad // str    w13, [x21, #116]
-	WORD $0xa95337e5 // ldp    x5, x13, [sp, #304]
-	WORD $0xb90076ee // str    w14, [x23, #116]
-	WORD $0xb94074ae // ldr    w14, [x5, #116]
-	WORD $0x294f35a2 // ldp    w2, w13, [x13, #120]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0xb9406fed // ldr    w13, [sp, #108]
-	WORD $0xb900764d // str    w13, [x18, #116]
-	WORD $0xb94053ed // ldr    w13, [sp, #80]
-	WORD $0xb900776d // str    w13, [x27, #116]
-	WORD $0x294f3ded // ldp    w13, w15, [x15, #120]
-	WORD $0xb9007730 // str    w16, [x25, #116]
-	WORD $0xb9013bef // str    w15, [sp, #312]
-	WORD $0xb9406bef // ldr    w15, [sp, #104]
-	WORD $0xb900766f // str    w15, [x19, #116]
-	WORD $0xb94078b3 // ldr    w19, [x5, #120]
-	WORD $0xb90074ee // str    w14, [x7, #116]
-	WORD $0xf9408fee // ldr    x14, [sp, #280]
-	WORD $0xb94063ef // ldr    w15, [sp, #96]
-	WORD $0xf940c7e5 // ldr    x5, [sp, #392]
-	WORD $0x294f39d0 // ldp    w16, w14, [x14, #120]
-	WORD $0xb900756f // str    w15, [x11, #116]
-	WORD $0xb9404bef // ldr    w15, [sp, #72]
-	WORD $0xb900774a // str    w10, [x26, #116]
-	WORD $0xaa1403ea // mov    x10, x20
-	WORD $0xb90183ee // str    w14, [sp, #384]
-	WORD $0x294f68ae // ldp    w14, w26, [x5, #120]
-	WORD $0xb900768f // str    w15, [x20, #116]
-	WORD $0xf94093e5 // ldr    x5, [sp, #288]
-	WORD $0xb9007bcc // str    w12, [x30, #120]
-	WORD $0xaa1e03ef // mov    x15, x30
-	WORD $0xb9007b11 // str    w17, [x24, #120]
-	WORD $0xf940abf1 // ldr    x17, [sp, #336]
-	WORD $0xb9007883 // str    w3, [x4, #120]
-	WORD $0xb94078ac // ldr    w12, [x5, #120]
-	WORD $0xb9007902 // str    w2, [x8, #120]
-	WORD $0xaa0803e2 // mov    x2, x8
-	WORD $0xb900782d // str    w13, [x1, #120]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xb9007ad0 // str    w16, [x22, #120]
-	WORD $0xaa1803fe // mov    x30, x24
-	WORD $0xb9007aae // str    w14, [x21, #120]
-	WORD $0xf94097ee // ldr    x14, [sp, #296]
-	WORD $0xb9407cb8 // ldr    w24, [x5, #124]
-	WORD $0xb9007aec // str    w12, [x23, #120]
-	WORD $0x294f5223 // ldp    w3, w20, [x17, #120]
-	WORD $0x294f150d // ldp    w13, w5, [x8, #120]
-	WORD $0xb9007a43 // str    w3, [x18, #120]
-	WORD $0x294f45c8 // ldp    w8, w17, [x14, #120]
-	WORD $0xb9007b6d // str    w13, [x27, #120]
-	WORD $0xf9408bee // ldr    x14, [sp, #272]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xb9007b28 // str    w8, [x25, #120]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xb94079c3 // ldr    w3, [x14, #120]
-	WORD $0xb9407a0c // ldr    w12, [x16, #120]
-	WORD $0xb940792d // ldr    w13, [x9, #120]
-	WORD $0xb90078c3 // str    w3, [x6, #120]
-	WORD $0xb9407903 // ldr    w3, [x8, #120]
-	WORD $0xb90078f3 // str    w19, [x7, #120]
-	WORD $0xb9407e13 // ldr    w19, [x16, #124]
-	WORD $0xb900796c // str    w12, [x11, #120]
-	WORD $0xaa0b03f0 // mov    x16, x11
-	WORD $0xb9407d0b // ldr    w11, [x8, #124]
-	WORD $0xb9007b83 // str    w3, [x28, #120]
-	WORD $0xb94173e8 // ldr    w8, [sp, #368]
-	WORD $0xb900794d // str    w13, [x10, #120]
-	WORD $0xb9407dce // ldr    w14, [x14, #124]
-	WORD $0xb9407d23 // ldr    w3, [x9, #124]
-	WORD $0xb9007de8 // str    w8, [x15, #124]
-	WORD $0xb9414be8 // ldr    w8, [sp, #328]
-	WORD $0xb9007fc8 // str    w8, [x30, #124]
-	WORD $0xb94143e8 // ldr    w8, [sp, #320]
-	WORD $0xb9007c88 // str    w8, [x4, #124]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9007c48 // str    w8, [x2, #124]
-	WORD $0xb9413be8 // ldr    w8, [sp, #312]
-	WORD $0xb9007c28 // str    w8, [x1, #124]
-	WORD $0xb94183e8 // ldr    w8, [sp, #384]
-	WORD $0xb9007ec8 // str    w8, [x22, #124]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9007eba // str    w26, [x21, #124]
-	WORD $0xa9486bec // ldp    x12, x26, [sp, #128]
-	WORD $0xb9007ef8 // str    w24, [x23, #124]
-	WORD $0xb9407d08 // ldr    w8, [x8, #124]
-	WORD $0xb9007e54 // str    w20, [x18, #124]
-	WORD $0xb9007f65 // str    w5, [x27, #124]
-	WORD $0xb9007f31 // str    w17, [x25, #124]
-	WORD $0x9100418c // add    x12, x12, #16
-	WORD $0xb9007cce // str    w14, [x6, #124]
-	WORD $0xb9007ce8 // str    w8, [x7, #124]
-	WORD $0xf9400fe8 // ldr    x8, [sp, #24]
-	WORD $0xb9007e13 // str    w19, [x16, #124]
-	WORD $0xb9007f8b // str    w11, [x28, #124]
-	WORD $0xeb08019f // cmp    x12, x8
-	WORD $0xb9007d43 // str    w3, [x10, #124]
-	BNE LBB0_158
-
-	// %bb.159:
-	WORD $0xa94123f3 // ldp    x19, x8, [sp, #16]
-	WORD $0xf94007e0 // ldr    x0, [sp, #8]
-	WORD $0xeb13011f // cmp    x8, x19
-	BEQ LBB0_156
-	JMP LBB0_12
-
-LBB0_156:
-	WORD $0x531b6a60    // lsl    w0, w19, #5
-	WORD $0x910003bf    // mov    sp, x29
-	WORD $0xa9454ff4    // ldp    x20, x19, [sp, #80]
-	WORD $0xa94457f6    // ldp    x22, x21, [sp, #64]
-	WORD $0xa9435ff8    // ldp    x24, x23, [sp, #48]
-	WORD $0xa94267fa    // ldp    x26, x25, [sp, #32]
-	WORD $0xa9416ffc    // ldp    x28, x27, [sp, #16]
-	WORD $0xa8c67bfd    // ldp    x29, x30, [sp], #96
-	MOVD R0, num+32(FP)
-	RET
diff --git a/go/parquet/internal/utils/bit_reader.go b/go/parquet/internal/utils/bit_reader.go
deleted file mode 100644
index 2343b5500242c..0000000000000
--- a/go/parquet/internal/utils/bit_reader.go
+++ /dev/null
@@ -1,349 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"errors"
-	"io"
-	"math"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// masks for grabbing the trailing bits based on the number of trailing bits desired
-var trailingMask [64]uint64
-
-func init() {
-	// generate the masks at init so we don't have to hard code them.
-	for i := 0; i < 64; i++ {
-		trailingMask[i] = (math.MaxUint64 >> (64 - i))
-	}
-}
-
-// trailingBits returns a value constructed from the bits trailing bits of
-// the value v that is passed in. If bits >= 64, then we just return v.
-func trailingBits(v uint64, bits uint) uint64 {
-	if bits >= 64 {
-		return v
-	}
-	return v & trailingMask[bits]
-}
-
-// reader is a useful interface to define the functionality we need for implementation
-type reader interface {
-	io.Reader
-	io.ReaderAt
-	io.Seeker
-}
-
-// default buffer length
-const buflen = 1024
-
-// BitReader implements functionality for reading bits or bytes buffering up to a uint64
-// at a time from the reader in order to improve efficiency. It also provides
-// methods to read multiple bytes in one read such as encoded ints/values.
-//
-// This BitReader is the basis for the other utility classes like RLE decoding
-// and such, providing the necessary functions for interpreting the values.
-type BitReader struct {
-	reader     reader
-	buffer     uint64
-	byteoffset int64
-	bitoffset  uint
-	raw        [8]byte
-
-	unpackBuf [buflen]uint32
-}
-
-// NewBitReader takes in a reader that implements io.Reader, io.ReaderAt and io.Seeker
-// interfaces and returns a BitReader for use with various bit level manipulations.
-func NewBitReader(r reader) *BitReader {
-	return &BitReader{reader: r}
-}
-
-// CurOffset returns the current Byte offset into the data that the reader is at.
-func (b *BitReader) CurOffset() int64 {
-	return b.byteoffset + bitutil.BytesForBits(int64(b.bitoffset))
-}
-
-// Reset allows reusing a BitReader by setting a new reader and resetting the internal
-// state back to zeros.
-func (b *BitReader) Reset(r reader) {
-	b.reader = r
-	b.buffer = 0
-	b.byteoffset = 0
-	b.bitoffset = 0
-}
-
-// GetVlqInt reads a Vlq encoded int from the stream. The encoded value must start
-// at the beginning of a byte and this returns false if there weren't enough bytes
-// in the buffer or reader. This will call `ReadByte` which in turn retrieves byte
-// aligned values from the reader
-func (b *BitReader) GetVlqInt() (uint64, bool) {
-	tmp, err := binary.ReadUvarint(b)
-	if err != nil {
-		return 0, false
-	}
-	return tmp, true
-}
-
-// GetZigZagVlqInt reads a zigzag encoded integer, returning false if there weren't
-// enough bytes remaining.
-func (b *BitReader) GetZigZagVlqInt() (int64, bool) {
-	u, ok := b.GetVlqInt()
-	if !ok {
-		return 0, false
-	}
-
-	return int64(u>>1) ^ -int64(u&1), true
-}
-
-// ReadByte reads a single aligned byte from the underlying stream, or populating
-// error if there aren't enough bytes left.
-func (b *BitReader) ReadByte() (byte, error) {
-	var tmp byte
-	if ok := b.GetAligned(1, &tmp); !ok {
-		return 0, errors.New("failed to read byte")
-	}
-
-	return tmp, nil
-}
-
-// GetAligned reads nbytes from the underlying stream into the passed interface value.
-// Returning false if there aren't enough bytes remaining in the stream or if an invalid
-// type is passed. The bytes are read aligned to byte boundaries.
-//
-// v must be a pointer to a byte or sized uint type (*byte, *uint16, *uint32, *uint64).
-// encoded values are assumed to be little endian.
-func (b *BitReader) GetAligned(nbytes int, v interface{}) bool {
-	// figure out the number of bytes to represent v
-	typBytes := int(reflect.TypeOf(v).Elem().Size())
-	if nbytes > typBytes {
-		return false
-	}
-
-	bread := bitutil.BytesForBits(int64(b.bitoffset))
-
-	b.byteoffset += bread
-	n, err := b.reader.ReadAt(b.raw[:nbytes], b.byteoffset)
-	if err != nil && err != io.EOF {
-		return false
-	}
-	if n != nbytes {
-		return false
-	}
-	// zero pad the bytes
-	memory.Set(b.raw[n:typBytes], 0)
-
-	switch v := v.(type) {
-	case *byte:
-		*v = b.raw[0]
-	case *uint64:
-		*v = binary.LittleEndian.Uint64(b.raw[:typBytes])
-	case *uint32:
-		*v = binary.LittleEndian.Uint32(b.raw[:typBytes])
-	case *uint16:
-		*v = binary.LittleEndian.Uint16(b.raw[:typBytes])
-	default:
-		return false
-	}
-
-	b.byteoffset += int64(nbytes)
-
-	b.bitoffset = 0
-	b.fillbuffer()
-	return true
-}
-
-// fillbuffer fills the uint64 buffer with bytes from the underlying stream
-func (b *BitReader) fillbuffer() error {
-	n, err := b.reader.ReadAt(b.raw[:], b.byteoffset)
-	if err != nil && n == 0 && err != io.EOF {
-		return err
-	}
-	for i := n; i < 8; i++ {
-		b.raw[i] = 0
-	}
-	b.buffer = binary.LittleEndian.Uint64(b.raw[:])
-	return nil
-}
-
-// next reads an integral value from the next bits in the buffer
-func (b *BitReader) next(bits uint) (v uint64, err error) {
-	v = trailingBits(b.buffer, b.bitoffset+bits) >> b.bitoffset
-	b.bitoffset += bits
-	// if we need more bits to get what was requested then refill the buffer
-	if b.bitoffset >= 64 {
-		b.byteoffset += 8
-		b.bitoffset -= 64
-		if err = b.fillbuffer(); err != nil {
-			return 0, err
-		}
-		v |= trailingBits(b.buffer, b.bitoffset) << (bits - b.bitoffset)
-	}
-	return
-}
-
-// GetBatchIndex is like GetBatch but for IndexType (used for dictionary decoding)
-func (b *BitReader) GetBatchIndex(bits uint, out []IndexType) (i int, err error) {
-	// IndexType is a 32-bit value so bits must be less than 32 when unpacking
-	// values using the bitreader.
-	if bits > 32 {
-		return 0, errors.New("must be 32 bits or less per read")
-	}
-
-	var val uint64
-
-	length := len(out)
-	// if we aren't currently byte-aligned, read bits until we are byte-aligned.
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err = b.next(bits)
-		out[i] = IndexType(val)
-		if err != nil {
-			return
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	// grab as many 32 byte chunks as possible in one shot
-	if i < length { // IndexType should be a 32 bit value so we can do quick unpacking right into the output
-		numUnpacked := unpack32(b.reader, (*(*[]uint32)(unsafe.Pointer(&out)))[i:], int(bits))
-		i += numUnpacked
-		b.byteoffset += int64(numUnpacked * int(bits) / 8)
-	}
-
-	// re-fill our buffer just in case.
-	b.fillbuffer()
-	// grab the remaining values that aren't 32 byte aligned
-	for ; i < length; i++ {
-		val, err = b.next(bits)
-		out[i] = IndexType(val)
-		if err != nil {
-			break
-		}
-	}
-	return
-}
-
-// GetBatchBools is like GetBatch but optimized for reading bits as boolean values
-func (b *BitReader) GetBatchBools(out []bool) (int, error) {
-	bits := uint(1)
-	length := len(out)
-
-	i := 0
-	// read until we are byte-aligned
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err := b.next(bits)
-		out[i] = val != 0
-		if err != nil {
-			return i, err
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	buf := arrow.Uint32Traits.CastToBytes(b.unpackBuf[:])
-	blen := buflen * 8
-	for i < length {
-		// grab byte-aligned bits in a loop since it's more efficient than going
-		// bit by bit when you can grab 8 bools at a time.
-		unpackSize := utils.Min(blen, length-i) / 8 * 8
-		n, err := b.reader.Read(buf[:bitutil.BytesForBits(int64(unpackSize))])
-		if err != nil {
-			return i, err
-		}
-		BytesToBools(buf[:n], out[i:])
-		i += unpackSize
-		b.byteoffset += int64(n)
-	}
-
-	b.fillbuffer()
-	// grab the trailing bits
-	for ; i < length; i++ {
-		val, err := b.next(bits)
-		out[i] = val != 0
-		if err != nil {
-			return i, err
-		}
-	}
-
-	return i, nil
-}
-
-// GetBatch fills out by decoding values repeated from the stream that are encoded
-// using bits as the number of bits per value. The values are expected to be bit packed
-// so we will unpack the values to populate.
-func (b *BitReader) GetBatch(bits uint, out []uint64) (int, error) {
-	// since we're unpacking into uint64 values, we can't support bits being
-	// larger than 64 here as that's the largest size value we're reading
-	if bits > 64 {
-		return 0, errors.New("must be 64 bits or less per read")
-	}
-
-	length := len(out)
-
-	i := 0
-	// read until we are byte aligned
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err := b.next(bits)
-		out[i] = val
-		if err != nil {
-			return i, err
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	for i < length {
-		// unpack groups of 32 bytes at a time into a buffer since it's more efficient
-		unpackSize := utils.Min(buflen, length-i)
-		numUnpacked := unpack32(b.reader, b.unpackBuf[:unpackSize], int(bits))
-		if numUnpacked == 0 {
-			break
-		}
-
-		for k := 0; k < numUnpacked; k++ {
-			out[i+k] = uint64(b.unpackBuf[k])
-		}
-		i += numUnpacked
-		b.byteoffset += int64(numUnpacked * int(bits) / 8)
-	}
-
-	b.fillbuffer()
-	// and then the remaining trailing values
-	for ; i < length; i++ {
-		val, err := b.next(bits)
-		out[i] = val
-		if err != nil {
-			return i, err
-		}
-	}
-
-	return i, nil
-}
-
-// GetValue returns a single value that is bit packed using width as the number of bits
-// and returns false if there weren't enough bits remaining.
-func (b *BitReader) GetValue(width int) (uint64, bool) {
-	v := make([]uint64, 1)
-	n, _ := b.GetBatch(uint(width), v)
-	return v[0], n == 1
-}
diff --git a/go/parquet/internal/utils/bit_reader_test.go b/go/parquet/internal/utils/bit_reader_test.go
deleted file mode 100644
index 5bb1c9a70190f..0000000000000
--- a/go/parquet/internal/utils/bit_reader_test.go
+++ /dev/null
@@ -1,654 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-	"math/bits"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-func TestBitWriter(t *testing.T) {
-	buf := make([]byte, 8)
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-
-	for i := 0; i < 8; i++ {
-		assert.Nil(t, bw.WriteValue(uint64(i%2), 1))
-	}
-	bw.Flush(false)
-
-	assert.Equal(t, byte(0xAA), buf[0])
-
-	for i := 0; i < 8; i++ {
-		switch i {
-		case 0, 1, 4, 5:
-			assert.Nil(t, bw.WriteValue(0, 1))
-		default:
-			assert.Nil(t, bw.WriteValue(1, 1))
-		}
-	}
-	bw.Flush(false)
-
-	assert.Equal(t, byte(0xAA), buf[0])
-	assert.Equal(t, byte(0xCC), buf[1])
-
-	for i := 0; i < 3; i++ {
-		assert.True(t, bw.WriteVlqInt(uint64(i)))
-	}
-	assert.Equal(t, byte(0xAA), buf[0])
-	assert.Equal(t, byte(0xCC), buf[1])
-	assert.Equal(t, byte(0), buf[2])
-	assert.Equal(t, byte(1), buf[3])
-	assert.Equal(t, byte(2), buf[4])
-}
-
-func BenchmarkBitWriter(b *testing.B) {
-	buf := make([]byte, b.N)
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-	for i := 0; i < b.N; i++ {
-		assert.True(b, bw.WriteVlqInt(uint64(1)))
-	}
-}
-
-func TestBitReader(t *testing.T) {
-	buf := []byte{0xAA, 0xCC} // 0b10101010 0b11001100
-
-	reader := utils.NewBitReader(bytes.NewReader(buf))
-	for i := 0; i < 8; i++ {
-		val, ok := reader.GetValue(1)
-		assert.True(t, ok)
-		assert.Equalf(t, (i%2) != 0, val != 0, "val: %d, i: %d", val, i)
-	}
-
-	for i := 0; i < 8; i++ {
-		val, ok := reader.GetValue(1)
-		assert.True(t, ok)
-		switch i {
-		case 0, 1, 4, 5:
-			assert.EqualValues(t, 0, val)
-		default:
-			assert.EqualValues(t, 1, val)
-		}
-	}
-}
-
-func TestBitArrayVals(t *testing.T) {
-	tests := []struct {
-		name  string
-		nvals func(uint) int
-	}{
-		{"1 value", func(uint) int { return 1 }},
-		{"2 values", func(uint) int { return 2 }},
-		{"larger", func(w uint) int {
-			if w < 12 {
-				return 1 << w
-			}
-			return 4096
-		}},
-		{"1024 values", func(uint) int { return 1024 }},
-	}
-
-	for width := uint(1); width < 32; width++ {
-		t.Run(fmt.Sprintf("BitWriter Width %d", width), func(t *testing.T) {
-			for _, tt := range tests {
-				t.Run(tt.name, func(t *testing.T) {
-					var (
-						nvals        = tt.nvals(width)
-						mod   uint64 = 1
-					)
-					l := bitutil.BytesForBits(int64(int(width) * nvals))
-					assert.Greater(t, l, int64(0))
-
-					if width != 64 {
-						mod = uint64(1) << width
-					}
-
-					buf := make([]byte, l)
-					bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-					for i := 0; i < nvals; i++ {
-						assert.Nil(t, bw.WriteValue(uint64(i)%mod, width))
-					}
-					bw.Flush(false)
-					assert.Equal(t, l, int64(bw.Written()))
-
-					br := utils.NewBitReader(bytes.NewReader(buf))
-					for i := 0; i < nvals; i++ {
-						val, ok := br.GetValue(int(width))
-						assert.True(t, ok)
-						assert.Equal(t, uint64(i)%mod, val)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestMixedValues(t *testing.T) {
-	const buflen = 1024
-	buf := make([]byte, buflen)
-	parity := true
-
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-	for i := 0; i < buflen; i++ {
-		if i%2 == 0 {
-			v := uint64(1)
-			if !parity {
-				v = 0
-			}
-			assert.Nil(t, bw.WriteValue(v, 1))
-			parity = !parity
-		} else {
-			assert.Nil(t, bw.WriteValue(uint64(i), 10))
-		}
-	}
-	bw.Flush(false)
-
-	parity = true
-	br := utils.NewBitReader(bytes.NewReader(buf))
-	for i := 0; i < buflen; i++ {
-		if i%2 == 0 {
-			val, ok := br.GetValue(1)
-			assert.True(t, ok)
-			exp := uint64(1)
-			if !parity {
-				exp = 0
-			}
-			assert.Equal(t, exp, val)
-			parity = !parity
-		} else {
-			val, ok := br.GetValue(10)
-			assert.True(t, ok)
-			assert.Equal(t, uint64(i), val)
-		}
-	}
-}
-
-func TestZigZag(t *testing.T) {
-	testvals := []struct {
-		val int64
-		exp [10]byte
-	}{
-		{0, [...]byte{0, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{1, [...]byte{2, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{1234, [...]byte{164, 19, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{-1, [...]byte{1, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{-1234, [...]byte{163, 19, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{math.MaxInt32, [...]byte{254, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{-math.MaxInt32, [...]byte{253, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{math.MinInt32, [...]byte{255, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{math.MaxInt64, [...]byte{254, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-		{-math.MaxInt64, [...]byte{253, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-		{math.MinInt64, [...]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-	}
-
-	for _, v := range testvals {
-		t.Run(strconv.Itoa(int(v.val)), func(t *testing.T) {
-			var buf [binary.MaxVarintLen64]byte
-			wrtr := utils.NewBitWriter(utils.NewWriterAtBuffer(buf[:]))
-			assert.True(t, wrtr.WriteZigZagVlqInt(v.val))
-			wrtr.Flush(false)
-
-			assert.Equal(t, v.exp, buf)
-
-			rdr := utils.NewBitReader(bytes.NewReader(buf[:]))
-			val, ok := rdr.GetZigZagVlqInt()
-			assert.True(t, ok)
-			assert.EqualValues(t, v.val, val)
-		})
-	}
-}
-
-const buflen = 1024
-
-type RLETestSuite struct {
-	suite.Suite
-
-	expectedBuf []byte
-	values      []uint64
-}
-
-type RLERandomSuite struct {
-	suite.Suite
-}
-
-func TestRLE(t *testing.T) {
-	suite.Run(t, new(RLETestSuite))
-}
-
-func TestRleRandom(t *testing.T) {
-	suite.Run(t, new(RLERandomSuite))
-}
-
-func (r *RLETestSuite) ValidateRle(vals []uint64, width int, expected []byte, explen int) {
-	const buflen = 64 * 1024
-	buf := make([]byte, buflen)
-
-	r.Run("test encode", func() {
-		r.LessOrEqual(explen, buflen)
-
-		enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(buf), width)
-		for _, val := range vals {
-			r.NoError(enc.Put(val))
-		}
-		encoded := enc.Flush()
-		if explen != -1 {
-			r.Equal(explen, encoded)
-		}
-
-		if expected != nil {
-			r.Equal(expected, buf[:encoded])
-		}
-	})
-
-	r.Run("decode read", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf), width)
-		for _, val := range vals {
-			v, ok := dec.GetValue()
-			r.True(ok)
-			r.Equal(val, v)
-		}
-	})
-
-	r.Run("decode batch read", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf), width)
-		check := make([]uint64, len(vals))
-		r.Equal(len(vals), dec.GetBatch(check))
-		r.Equal(vals, check)
-	})
-}
-
-func (r *RLETestSuite) SetupTest() {
-	r.expectedBuf = make([]byte, 0, buflen)
-	r.values = make([]uint64, 100)
-}
-
-func (r *RLETestSuite) Test50Zeros50Ones() {
-	for i := 0; i < 50; i++ {
-		r.values[i] = 0
-	}
-	for i := 50; i < 100; i++ {
-		r.values[i] = 1
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{50 << 1, 0, 50 << 1, 1}...)
-	for width := 1; width <= 8; width++ {
-		r.Run(fmt.Sprintf("bitwidth: %d", width), func() {
-			r.ValidateRle(r.values, width, r.expectedBuf, 4)
-		})
-	}
-
-	for width := 9; width <= 32; width++ {
-		r.Run(fmt.Sprintf("bitwidth: %d", width), func() {
-			r.ValidateRle(r.values, width, nil, int(2*(1+bitutil.BytesForBits(int64(width)))))
-		})
-	}
-}
-
-func (r *RLETestSuite) Test100ZerosOnesAlternating() {
-	for idx := range r.values {
-		r.values[idx] = uint64(idx % 2)
-	}
-
-	ngroups := bitutil.BytesForBits(100)
-	r.expectedBuf = r.expectedBuf[:ngroups+1]
-	r.expectedBuf[0] = byte(ngroups<<1) | 1
-	for i := 1; i <= 100/8; i++ {
-		r.expectedBuf[i] = 0xAA
-	}
-	r.expectedBuf[100/8+1] = 0x0A
-
-	r.Run("width: 1", func() {
-		r.ValidateRle(r.values, 1, r.expectedBuf, int(1+ngroups))
-	})
-	for width := 2; width < 32; width++ {
-		r.Run(fmt.Sprintf("width: %d", width), func() {
-			nvalues := bitutil.BytesForBits(100) * 8
-			r.ValidateRle(r.values, width, nil, int(1+bitutil.BytesForBits(int64(width)*nvalues)))
-		})
-	}
-}
-
-func (r *RLETestSuite) Test16BitValues() {
-	// confirm encoded values are little endian
-	r.values = r.values[:28]
-	for i := 0; i < 16; i++ {
-		r.values[i] = 0x55aa
-	}
-	for i := 16; i < 28; i++ {
-		r.values[i] = 0xaa55
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{
-		16 << 1, 0xaa, 0x55, 12 << 1, 0x55, 0xaa,
-	}...)
-
-	r.ValidateRle(r.values, 16, r.expectedBuf, 6)
-}
-
-func (r *RLETestSuite) Test32BitValues() {
-	// confirm encoded values are little endian
-	r.values = r.values[:28]
-	for i := 0; i < 16; i++ {
-		r.values[i] = 0x555aaaa5
-	}
-	for i := 16; i < 28; i++ {
-		r.values[i] = 0x5aaaa555
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{
-		16 << 1, 0xa5, 0xaa, 0x5a, 0x55,
-		12 << 1, 0x55, 0xa5, 0xaa, 0x5a,
-	}...)
-
-	r.ValidateRle(r.values, 32, r.expectedBuf, 10)
-}
-
-func (r *RLETestSuite) TestRleValues() {
-	tests := []struct {
-		name  string
-		nvals int
-		val   int
-	}{
-		{"1", 1, -1},
-		{"1024", 1024, -1},
-		{"1024 0", 1024, 0},
-		{"1024 1", 1024, 1},
-	}
-
-	for width := 1; width <= 32; width++ {
-		r.Run(fmt.Sprintf("width %d", width), func() {
-			for _, tt := range tests {
-				r.Run(tt.name, func() {
-
-					var mod uint64 = 1
-					if width != 64 {
-						mod = uint64(1) << width
-					}
-
-					r.values = r.values[:0]
-
-					for v := 0; v < tt.nvals; v++ {
-						if tt.val != -1 {
-							r.values = append(r.values, uint64(tt.val))
-						} else {
-							r.values = append(r.values, uint64(v)%mod)
-						}
-					}
-					r.ValidateRle(r.values, width, nil, -1)
-				})
-			}
-		})
-	}
-}
-
-// Test that writes out a repeated group and then a literal group
-// but flush before finishing
-func (r *RLETestSuite) TestBitRleFlush() {
-	vals := make([]uint64, 0, 16)
-	for i := 0; i < 16; i++ {
-		vals = append(vals, 1)
-	}
-	vals = append(vals, 0)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-}
-
-func (r *RLETestSuite) TestRepeatedPattern() {
-	r.values = r.values[:0]
-	const minrun = 1
-	const maxrun = 32
-
-	for i := minrun; i <= maxrun; i++ {
-		v := i % 2
-		for j := 0; j < i; j++ {
-			r.values = append(r.values, uint64(v))
-		}
-	}
-
-	// and go back down again
-	for i := maxrun; i >= minrun; i-- {
-		v := i % 2
-		for j := 0; j < i; j++ {
-			r.values = append(r.values, uint64(v))
-		}
-	}
-
-	r.ValidateRle(r.values, 1, nil, -1)
-}
-
-func TestBitWidthZeroRepeated(t *testing.T) {
-	buf := make([]byte, 1)
-	const nvals = 15
-	buf[0] = nvals << 1 // repeated indicator byte
-	dec := utils.NewRleDecoder(bytes.NewReader(buf), 0)
-	for i := 0; i < nvals; i++ {
-		val, ok := dec.GetValue()
-		assert.True(t, ok)
-		assert.Zero(t, val)
-	}
-	_, ok := dec.GetValue()
-	assert.False(t, ok)
-}
-
-func TestBitWidthZeroLiteral(t *testing.T) {
-	const ngroups = 4
-	buf := []byte{4<<1 | 1}
-	dec := utils.NewRleDecoder(bytes.NewReader(buf), 0)
-	const nvals = ngroups * 8
-	for i := 0; i < nvals; i++ {
-		val, ok := dec.GetValue()
-		assert.True(t, ok)
-		assert.Zero(t, val)
-	}
-	_, ok := dec.GetValue()
-	assert.False(t, ok)
-}
-
-func (r *RLERandomSuite) checkRoundTrip(vals []uint64, width int) bool {
-	const buflen = 64 * 1024
-	buf := make([]byte, buflen)
-	var encoded int
-
-	res := r.Run("encode values", func() {
-		enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(buf), width)
-		for idx, val := range vals {
-			r.Require().NoErrorf(enc.Put(val), "encoding idx: %d", idx)
-		}
-		encoded = enc.Flush()
-	})
-
-	res = res && r.Run("decode individual", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf[:encoded]), width)
-		for idx, val := range vals {
-			out, ok := dec.GetValue()
-			r.True(ok)
-			r.Require().Equalf(out, val, "mismatch idx: %d", idx)
-		}
-	})
-
-	res = res && r.Run("batch decode", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf[:encoded]), width)
-		read := make([]uint64, len(vals))
-		r.Require().Equal(len(vals), dec.GetBatch(read))
-		r.Equal(vals, read)
-	})
-
-	return res
-}
-
-func (r *RLERandomSuite) checkRoundTripSpaced(vals arrow.Array, width int) {
-	nvalues := vals.Len()
-	bufsize := utils.MaxRLEBufferSize(width, nvalues)
-
-	buffer := make([]byte, bufsize)
-	encoder := utils.NewRleEncoder(utils.NewWriterAtBuffer(buffer), width)
-
-	switch v := vals.(type) {
-	case *array.Int32:
-		for i := 0; i < v.Len(); i++ {
-			if v.IsValid(i) {
-				r.Require().NoError(encoder.Put(uint64(v.Value(i))))
-			}
-		}
-	}
-
-	encodedSize := encoder.Flush()
-
-	// verify batch read
-	decoder := utils.NewRleDecoder(bytes.NewReader(buffer[:encodedSize]), width)
-	valuesRead := make([]uint64, nvalues)
-	val, err := decoder.GetBatchSpaced(valuesRead, vals.NullN(), vals.NullBitmapBytes(), int64(vals.Data().Offset()))
-	r.NoError(err)
-	r.EqualValues(nvalues, val)
-
-	switch v := vals.(type) {
-	case *array.Int32:
-		for i := 0; i < nvalues; i++ {
-			if vals.IsValid(i) {
-				r.EqualValues(v.Value(i), valuesRead[i])
-			}
-		}
-	}
-}
-
-func (r *RLERandomSuite) TestRandomSequences() {
-	const niters = 50
-	const ngroups = 1000
-	const maxgroup = 16
-
-	values := make([]uint64, ngroups+maxgroup)
-	seed := rand.Uint64() ^ (rand.Uint64() << 32)
-	gen := rand.New(rand.NewSource(seed))
-
-	for itr := 0; itr < niters; itr++ {
-		parity := false
-		values = values[:0]
-
-		for i := 0; i < ngroups; i++ {
-			groupsize := gen.Intn(19) + 1
-			if groupsize > maxgroup {
-				groupsize = 1
-			}
-
-			v := uint64(0)
-			if parity {
-				v = 1
-			}
-			for j := 0; j < groupsize; j++ {
-				values = append(values, v)
-			}
-			parity = !parity
-		}
-		r.Require().Truef(r.checkRoundTrip(values, bits.Len(uint(len(values)))), "failing seed: %d", seed)
-	}
-}
-
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-}
-
-func NewRandomArrayGenerator(seed uint64) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src)}
-}
-
-func (r *RandomArrayGenerator) generateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	dist := distuv.Bernoulli{P: prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := int(0); int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, prob float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.generateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(int(size * int64(arrow.Int32SizeBytes)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int32(dist.Int31n(max-min+1)) + min
-	}
-
-	return array.NewInt32Data(array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullCount), 0))
-}
-
-func (r *RLERandomSuite) TestGetBatchSpaced() {
-	seed := uint64(1337)
-
-	rng := NewRandomArrayGenerator(seed)
-
-	tests := []struct {
-		name     string
-		max      int32
-		size     int64
-		nullProb float64
-		bitWidth int
-	}{
-		{"all ones 0.01 nullprob width 1", 1, 100000, 0.01, 1},
-		{"all ones 0.1 nullprob width 1", 1, 100000, 0.1, 1},
-		{"all ones 0.5 nullprob width 1", 1, 100000, 0.5, 1},
-		{"max 4 0.05 nullprob width 3", 4, 100000, 0.05, 3},
-		{"max 100 0.05 nullprob width 7", 100, 100000, 0.05, 7},
-	}
-
-	for _, tt := range tests {
-		r.Run(tt.name, func() {
-			arr := rng.Int32(tt.size, 0, tt.max, tt.nullProb)
-			r.checkRoundTripSpaced(arr, tt.bitWidth)
-			r.checkRoundTripSpaced(array.NewSlice(arr, 1, int64(arr.Len())), tt.bitWidth)
-		})
-	}
-}
diff --git a/go/parquet/internal/utils/bit_writer.go b/go/parquet/internal/utils/bit_writer.go
deleted file mode 100644
index ab0cb3ce58445..0000000000000
--- a/go/parquet/internal/utils/bit_writer.go
+++ /dev/null
@@ -1,188 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"io"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-// WriterAtBuffer is a convenience struct for providing a WriteAt function
-// to a byte slice for use with things that want an io.WriterAt
-type WriterAtBuffer struct {
-	buf []byte
-}
-
-// NewWriterAtBuffer returns an object which fulfills the io.WriterAt interface
-// by taking ownership of the passed in slice.
-func NewWriterAtBuffer(buf []byte) WriterAtWithLen {
-	return &WriterAtBuffer{buf}
-}
-
-// Len returns the length of the underlying byte slice.
-func (w *WriterAtBuffer) Len() int {
-	return len(w.buf)
-}
-
-// WriteAt fulfills the io.WriterAt interface to write len(p) bytes from p
-// to the underlying byte slice starting at offset off. It returns the number
-// of bytes written from p (0 <= n <= len(p)) and any error encountered.
-func (w *WriterAtBuffer) WriteAt(p []byte, off int64) (n int, err error) {
-	if off > int64(len(w.buf)) {
-		return 0, io.ErrUnexpectedEOF
-	}
-
-	n = copy(w.buf[off:], p)
-	if n < len(p) {
-		err = io.ErrUnexpectedEOF
-	}
-	return
-}
-
-func (w *WriterAtBuffer) Reserve(nbytes int) {
-	// no-op. We should not expand or otherwise modify the underlying buffer
-}
-
-// WriterAtWithLen is an interface for an io.WriterAt with a Len function
-type WriterAtWithLen interface {
-	io.WriterAt
-	Len() int
-	Reserve(int)
-}
-
-// BitWriter is a utility for writing values of specific bit widths to a stream
-// using a uint64 as a buffer to build up between flushing for efficiency.
-type BitWriter struct {
-	wr         WriterAtWithLen
-	buffer     uint64
-	byteoffset int
-	bitoffset  uint
-	raw        [8]byte
-	buf        [binary.MaxVarintLen64]byte
-}
-
-// NewBitWriter initializes a new bit writer to write to the passed in interface
-// using WriteAt to write the appropriate offsets and values.
-func NewBitWriter(w WriterAtWithLen) *BitWriter {
-	return &BitWriter{wr: w}
-}
-
-// SkipBytes reserves the next aligned nbytes, skipping them and returning
-// the offset to use with WriteAt to write to those reserved bytes. Used for
-// RLE encoding to fill in the indicators after encoding.
-func (b *BitWriter) SkipBytes(nbytes int) (int, error) {
-	b.Flush(true)
-	ret := b.byteoffset
-	b.byteoffset += nbytes
-	b.wr.Reserve(b.byteoffset)
-	return ret, nil
-}
-
-// WriteAt fulfills the io.WriterAt interface to write len(p) bytes from p
-// to the underlying byte slice starting at offset off. It returns the number
-// of bytes written from p (0 <= n <= len(p)) and any error encountered.
-// This allows writing full bytes directly to the underlying writer.
-func (b *BitWriter) WriteAt(val []byte, off int64) (int, error) {
-	return b.wr.WriteAt(val, off)
-}
-
-// Written returns the number of bytes that have been written to the BitWriter,
-// not how many bytes have been flushed. Use Flush to ensure that all data is flushed
-// to the underlying writer.
-func (b *BitWriter) Written() int {
-	return b.byteoffset + int(bitutil.BytesForBits(int64(b.bitoffset)))
-}
-
-// WriteValue writes the value v using nbits to pack it, returning false if it fails
-// for some reason.
-func (b *BitWriter) WriteValue(v uint64, nbits uint) error {
-	b.buffer |= v << b.bitoffset
-	b.bitoffset += nbits
-
-	if b.bitoffset >= 64 {
-		binary.LittleEndian.PutUint64(b.raw[:], b.buffer)
-		if _, err := b.wr.WriteAt(b.raw[:], int64(b.byteoffset)); err != nil {
-			return err
-		}
-		b.buffer = 0
-		b.byteoffset += 8
-		b.bitoffset -= 64
-		b.buffer = v >> (nbits - b.bitoffset)
-	}
-	return nil
-}
-
-// Flush will flush any buffered data to the underlying writer, pass true if
-// the next write should be byte-aligned after this flush.
-func (b *BitWriter) Flush(align bool) {
-	var nbytes int64
-	if b.bitoffset > 0 {
-		nbytes = bitutil.BytesForBits(int64(b.bitoffset))
-		binary.LittleEndian.PutUint64(b.raw[:], b.buffer)
-		b.wr.WriteAt(b.raw[:nbytes], int64(b.byteoffset))
-	}
-
-	if align {
-		b.buffer = 0
-		b.byteoffset += int(nbytes)
-		b.bitoffset = 0
-	}
-}
-
-// WriteAligned writes the value val as a little endian value in exactly nbytes
-// byte-aligned to the underlying writer, flushing via Flush(true) before writing nbytes
-// without buffering.
-func (b *BitWriter) WriteAligned(val uint64, nbytes int) bool {
-	b.Flush(true)
-	binary.LittleEndian.PutUint64(b.raw[:], val)
-	if _, err := b.wr.WriteAt(b.raw[:nbytes], int64(b.byteoffset)); err != nil {
-		log.Println(err)
-		return false
-	}
-	b.byteoffset += nbytes
-	return true
-}
-
-// WriteVlqInt writes v as a vlq encoded integer byte-aligned to the underlying writer
-// without buffering.
-func (b *BitWriter) WriteVlqInt(v uint64) bool {
-	b.Flush(true)
-	nbytes := binary.PutUvarint(b.buf[:], v)
-	if _, err := b.wr.WriteAt(b.buf[:nbytes], int64(b.byteoffset)); err != nil {
-		log.Println(err)
-		return false
-	}
-	b.byteoffset += nbytes
-	return true
-}
-
-// WriteZigZagVlqInt writes a zigzag encoded integer byte-aligned to the underlying writer
-// without buffering.
-func (b *BitWriter) WriteZigZagVlqInt(v int64) bool {
-	return b.WriteVlqInt(uint64((v << 1) ^ (v >> 63)))
-}
-
-// Clear resets the writer so that subsequent writes will start from offset 0,
-// allowing reuse of the underlying buffer and writer.
-func (b *BitWriter) Clear() {
-	b.byteoffset = 0
-	b.bitoffset = 0
-	b.buffer = 0
-}
diff --git a/go/parquet/internal/utils/bitmap_writer.go b/go/parquet/internal/utils/bitmap_writer.go
deleted file mode 100644
index 163e928f4b689..0000000000000
--- a/go/parquet/internal/utils/bitmap_writer.go
+++ /dev/null
@@ -1,173 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-// BitmapWriter is an interface for bitmap writers so that we can use multiple
-// implementations or swap if necessary.
-type BitmapWriter interface {
-	// Set sets the current bit that will be written
-	Set()
-	// Clear clears the current bit that will be written
-	Clear()
-	// Next advances to the next bit for the writer
-	Next()
-	// Finish flushes the current byte out to the bitmap slice
-	Finish()
-	// AppendWord takes nbits from word which should be an LSB bitmap and appends them to the bitmap.
-	AppendWord(word uint64, nbits int64)
-	// AppendBools appends the bit representation of the bools slice, returning the number
-	// of bools that were able to fit in the remaining length of the bitmapwriter.
-	AppendBools(in []bool) int
-	// Pos is the current position that will be written next
-	Pos() int
-	// Reset allows reusing the bitmapwriter by resetting Pos to start with length as
-	// the number of bits that the writer can write.
-	Reset(start, length int)
-}
-
-type bitmapWriter struct {
-	*bitutil.BitmapWriter
-}
-
-func NewBitmapWriter(bitmap []byte, start, length int) BitmapWriter {
-	return &bitmapWriter{bitutil.NewBitmapWriter(bitmap, start, length)}
-}
-
-func (b *bitmapWriter) AppendWord(uint64, int64) {
-	panic("unimplemented")
-}
-
-type firstTimeBitmapWriter struct {
-	buf    []byte
-	pos    int64
-	length int64
-
-	curByte      uint8
-	bitMask      uint8
-	byteOffset   int64
-	endianBuffer [8]byte
-}
-
-// NewFirstTimeBitmapWriter creates a bitmap writer that might clobber any bit values
-// following the bits written to the bitmap, as such it is faster than the bitmapwriter
-// that is created with NewBitmapWriter
-func NewFirstTimeBitmapWriter(buf []byte, start, length int64) BitmapWriter {
-	ret := &firstTimeBitmapWriter{
-		buf:        buf,
-		byteOffset: start / 8,
-		bitMask:    bitutil.BitMask[start%8],
-		length:     length,
-	}
-	if length > 0 {
-		ret.curByte = ret.buf[int(ret.byteOffset)] & bitutil.PrecedingBitmask[start%8]
-	}
-	return ret
-}
-
-func (bw *firstTimeBitmapWriter) Reset(start, length int) {
-	bw.pos = 0
-	bw.byteOffset = int64(start / 8)
-	bw.bitMask = bitutil.BitMask[start%8]
-	bw.length = int64(length)
-	if length > 0 {
-		bw.curByte = bw.buf[int(bw.byteOffset)] & bitutil.PrecedingBitmask[start%8]
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Pos() int { return int(bw.pos) }
-func (bw *firstTimeBitmapWriter) AppendWord(word uint64, nbits int64) {
-	if nbits == 0 {
-		return
-	}
-
-	// location that the first byte needs to be written to for appending
-	appslice := bw.buf[int(bw.byteOffset):]
-
-	// update everything but curByte
-	bw.pos += nbits
-	bitOffset := bits.TrailingZeros32(uint32(bw.bitMask))
-	bw.bitMask = bitutil.BitMask[(int64(bitOffset)+nbits)%8]
-	bw.byteOffset += (int64(bitOffset) + nbits) / 8
-
-	if bitOffset != 0 {
-		// we're in the middle of the byte. Update the byte and shift bits appropriately
-		// so we can just copy the bytes.
-		carry := 8 - bitOffset
-		// Carry over bits from word to curByte. We assume any extra bits in word are unset
-		// so no additional accounting is needed for when nbits < carry
-		bw.curByte |= uint8((word & uint64(bitutil.PrecedingBitmask[carry])) << bitOffset)
-		// check everything was transferred to curByte
-		if nbits < int64(carry) {
-			return
-		}
-		appslice[0] = bw.curByte
-		appslice = appslice[1:]
-		// move the carry bits off of word
-		word = word >> carry
-		nbits -= int64(carry)
-	}
-	bytesForWord := bitutil.BytesForBits(nbits)
-	binary.LittleEndian.PutUint64(bw.endianBuffer[:], word)
-	copy(appslice, bw.endianBuffer[:bytesForWord])
-
-	// at this point, the previous curByte has been written, the new curByte
-	// is either the last relevant byte in word or cleared if the new position
-	// is byte aligned (ie. a fresh byte)
-	if bw.bitMask == 0x1 {
-		bw.curByte = 0
-	} else {
-		bw.curByte = appslice[bytesForWord-1]
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Set() {
-	bw.curByte |= bw.bitMask
-}
-
-func (bw *firstTimeBitmapWriter) Clear() {}
-
-func (bw *firstTimeBitmapWriter) Next() {
-	bw.bitMask = uint8(bw.bitMask << 1)
-	bw.pos++
-	if bw.bitMask == 0 {
-		// byte finished, advance to the next one
-		bw.bitMask = 0x1
-		bw.buf[int(bw.byteOffset)] = bw.curByte
-		bw.byteOffset++
-		bw.curByte = 0
-	}
-}
-
-func (b *firstTimeBitmapWriter) AppendBools(in []bool) int {
-	panic("Append Bools not yet implemented for firstTimeBitmapWriter")
-}
-
-func (bw *firstTimeBitmapWriter) Finish() {
-	// store curByte into the bitmap
-	if bw.length > 0 && bw.bitMask != 0x01 || bw.pos < bw.length {
-		bw.buf[int(bw.byteOffset)] = bw.curByte
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Position() int64 { return bw.pos }
diff --git a/go/parquet/internal/utils/bitmap_writer_test.go b/go/parquet/internal/utils/bitmap_writer_test.go
deleted file mode 100644
index 39838e87d3223..0000000000000
--- a/go/parquet/internal/utils/bitmap_writer_test.go
+++ /dev/null
@@ -1,304 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"fmt"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/suite"
-)
-
-func writeSliceToWriter(wr utils.BitmapWriter, values []int) {
-	for _, v := range values {
-		if v != 0 {
-			wr.Set()
-		} else {
-			wr.Clear()
-		}
-		wr.Next()
-	}
-	wr.Finish()
-}
-
-type FirstTimeBitmapWriterSuite struct {
-	suite.Suite
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestNormalOperation() {
-	for _, fb := range []byte{0x00, 0xFF} {
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			wr := utils.NewFirstTimeBitmapWriter(bitmap, 0, 12)
-			writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1})
-			// {0b00110110, 0b1010, 0, 0}
-			f.Equal([]byte{0x36, 0x0a}, bitmap[:2])
-		}
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 12)
-			writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1})
-			// {0b00110110, 0b1010, 0, 0}
-			f.Equal([]byte{0x60 | (fb & 0x0f), 0xa3}, bitmap[:2])
-		}
-		// Consecutive write chunks
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 0, 6)
-				writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 6, 3)
-				writeSliceToWriter(wr, []int{0, 0, 0})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 9, 3)
-				writeSliceToWriter(wr, []int{1, 0, 1})
-			}
-			f.Equal([]byte{0x36, 0x0a}, bitmap[:2])
-		}
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 0)
-				writeSliceToWriter(wr, []int{})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 6)
-				writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 10, 3)
-				writeSliceToWriter(wr, []int{0, 0, 0})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 13, 0)
-				writeSliceToWriter(wr, []int{})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 13, 3)
-				writeSliceToWriter(wr, []int{1, 0, 1})
-			}
-			f.Equal([]byte{0x60 | (fb & 0x0f), 0xa3}, bitmap[:2])
-		}
-	}
-}
-
-func bitmapToString(bitmap []byte, bitCount int64) string {
-	var bld strings.Builder
-	bld.Grow(int(bitCount))
-	for i := 0; i < int(bitCount); i++ {
-		if bitutil.BitIsSet(bitmap, i) {
-			bld.WriteByte('1')
-		} else {
-			bld.WriteByte('0')
-		}
-	}
-	return bld.String()
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordOffsetOverwritesCorrectBits() {
-	check := func(start byte, expectedBits string, offset int64) {
-		validBits := []byte{start}
-		const bitsAfterAppend = 8
-		wr := utils.NewFirstTimeBitmapWriter(validBits, offset, int64(8*len(validBits))-offset)
-		wr.AppendWord(0xFF, bitsAfterAppend-offset)
-		wr.Finish()
-		f.Equal(expectedBits, bitmapToString(validBits, bitsAfterAppend))
-	}
-
-	f.Run("CheckAppend", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 0},
-			{"01111111", 1},
-			{"00111111", 2},
-			{"00011111", 3},
-			{"00001111", 4},
-			{"00000111", 5},
-			{"00000011", 6},
-			{"00000001", 7},
-		}
-		for _, tt := range tests {
-			f.Run(tt.expectedBits, func() { check(0x00, tt.expectedBits, tt.offset) })
-		}
-	})
-
-	f.Run("CheckWithSet", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 1},
-			{"10111111", 2},
-			{"10011111", 3},
-			{"10001111", 4},
-			{"10000111", 5},
-			{"10000011", 6},
-			{"10000001", 7},
-		}
-		for _, tt := range tests {
-			f.Run(tt.expectedBits, func() { check(0x1, tt.expectedBits, tt.offset) })
-		}
-	})
-
-	f.Run("CheckWithPreceding", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 0},
-			{"11111111", 1},
-			{"11111111", 2},
-			{"11111111", 3},
-			{"11111111", 4},
-			{"11111111", 5},
-			{"11111111", 6},
-			{"11111111", 7},
-		}
-		for _, tt := range tests {
-			f.Run(fmt.Sprintf("%d", tt.offset), func() { check(0xFF, tt.expectedBits, tt.offset) })
-		}
-	})
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendZeroBitsNoImpact() {
-	validBits := []byte{0x00}
-	wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(len(validBits)*8))
-	wr.AppendWord(0xFF, 0)
-	wr.AppendWord(0xFF, 0)
-	wr.AppendWord(0x01, 1)
-	wr.Finish()
-	f.Equal(uint8(0x2), validBits[0])
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendLessThanByte() {
-	{
-		validBits := make([]byte, 8)
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, 8)
-		wr.AppendWord(0xB, 4)
-		wr.Finish()
-		f.Equal("01101000", bitmapToString(validBits, 8))
-	}
-	{
-		// test with all bits initially set
-		validBits := []byte{0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF}
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, 8)
-		wr.AppendWord(0xB, 4)
-		wr.Finish()
-		f.Equal("11101000", bitmapToString(validBits, 8))
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendByteThenMore() {
-	{
-		validBits := make([]byte, 8)
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 0, 9)
-		wr.AppendWord(0xC3, 8)
-		wr.AppendWord(0x01, 1)
-		wr.Finish()
-		f.Equal("110000111", bitmapToString(validBits, 9))
-	}
-	{
-		// test with all bits initially set
-		validBits := []byte{0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF}
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 0, 9)
-		wr.AppendWord(0xC3, 8)
-		wr.AppendWord(0x01, 1)
-		wr.Finish()
-		f.Equal("110000111", bitmapToString(validBits, 9))
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordShiftBitsCorrectly() {
-	const pattern = 0x9A9A9A9A9A9A9A9A
-
-	tests := []struct {
-		leadingBits      string
-		middleBits       string
-		trailingBits     string
-		offset           int64
-		presetBufferBits bool
-	}{
-		{"01011001", "01011001", "00000000", 8, false},
-		{"00101100", "10101100", "10000000", 9, false},
-		{"00010110", "01010110", "01000000", 10, false},
-		{"00001011", "00101011", "00100000", 11, false},
-		{"00000101", "10010101", "10010000", 12, false},
-		{"00000010", "11001010", "11001000", 13, false},
-		{"00000001", "01100101", "01100100", 14, false},
-		{"00000000", "10110010", "10110010", 15, false},
-		{"01011001", "01011001", "11111111", 8, true},
-		{"10101100", "10101100", "10000000", 9, true},
-		{"11010110", "01010110", "01000000", 10, true},
-		{"11101011", "00101011", "00100000", 11, true},
-		{"11110101", "10010101", "10010000", 12, true},
-		{"11111010", "11001010", "11001000", 13, true},
-		{"11111101", "01100101", "01100100", 14, true},
-		{"11111110", "10110010", "10110010", 15, true},
-	}
-	for _, tt := range tests {
-		f.Run(tt.leadingBits, func() {
-			f.Require().GreaterOrEqual(tt.offset, int64(8))
-			validBits := make([]byte, 10)
-			if tt.presetBufferBits {
-				for idx := range validBits {
-					validBits[idx] = 0xFF
-				}
-			}
-
-			validBits[0] = 0x99
-			wr := utils.NewFirstTimeBitmapWriter(validBits, tt.offset, (9*int64(reflect.TypeOf(uint64(0)).Size()))-tt.offset)
-			wr.AppendWord(pattern, 64)
-			wr.Finish()
-			f.Equal(uint8(0x99), validBits[0])
-			f.Equal(tt.leadingBits, bitmapToString(validBits[1:], 8))
-			for x := 2; x < 9; x++ {
-				f.Equal(tt.middleBits, bitmapToString(validBits[x:], 8))
-			}
-			f.Equal(tt.trailingBits, bitmapToString(validBits[9:], 8))
-		})
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordOnlyAppropriateBytesWritten() {
-	validBits := []byte{0x00, 0x00}
-	bitmap := uint64(0x1FF)
-	{
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(8*len(validBits))-1)
-		wr.AppendWord(bitmap, 7)
-		wr.Finish()
-		f.Equal([]byte{0xFE, 0x00}, validBits)
-	}
-	{
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(8*len(validBits)-1))
-		wr.AppendWord(bitmap, 8)
-		wr.Finish()
-		f.Equal([]byte{0xFE, 0x03}, validBits)
-	}
-}
-
-func TestFirstTimeBitmapWriter(t *testing.T) {
-	suite.Run(t, new(FirstTimeBitmapWriterSuite))
-}
diff --git a/go/parquet/internal/utils/clib_amd64.s b/go/parquet/internal/utils/clib_amd64.s
deleted file mode 100644
index b1534d4cf18f6..0000000000000
--- a/go/parquet/internal/utils/clib_amd64.s
+++ /dev/null
@@ -1,105 +0,0 @@
-#include "textflag.h"
-
-// void *memcpy(void *dst, const void *src, size_t n)
-// DI = dst, SI = src, DX = size
-TEXT clib·_memcpy(SB), $16-0
-	PUSHQ R8
-	PUSHQ CX
-	XORQ  CX, CX // clear register
-
-MEMCPY_QUAD_LOOP:
-	ADDQ $8, CX
-	CMPQ CX, DX
-	JA   MEMCPY_QUAD_DONE
-	MOVQ -8(SI)(CX*1), R8
-	MOVQ R8, -8(DI)(CX*1)
-	JMP  MEMCPY_QUAD_LOOP
-
-MEMCPY_QUAD_DONE:
-	SUBQ $4, CX
-	CMPQ CX, DX
-	JA   MEMCPY_LONG_DONE
-	MOVL -4(SI)(CX*1), R8
-	MOVL R8, -4(DI)(CX*1)
-	ADDQ $4, CX
-
-MEMCPY_LONG_DONE:
-	SUBQ $2, CX
-	CMPQ CX, DX
-	JA   MEMCPY_WORD_DONE
-	MOVW -2(SI)(CX*1), R8
-	MOVW R8, -2(DI)(CX*1)
-	ADDQ $2, CX
-
-MEMCPY_WORD_DONE:
-	SUBQ $1, CX
-	CMPQ CX, DX
-	JA   MEMCPY_BYTE_DONE
-	MOVB -1(SI)(CX*1), R8
-	MOVB R8, -1(DI)(CX*1)
-
-MEMCPY_BYTE_DONE:
-	MOVQ DI, AX // set return value
-	POPQ CX
-	POPQ R8
-	RET
-
-// func _ClibMemcpy(dst, src unsafe.Pointer, n uint) unsafe.Pointer
-TEXT ·_ClibMemcpy(SB), NOSPLIT|NOFRAME, $16-24
-	MOVQ arg1+0(FP), DI
-	MOVQ arg2+8(FP), SI
-	MOVQ arg3+16(FP), DX
-	CALL clib·_memcpy(SB)
-	MOVQ AX, ret+24(FP)
-	RET
-
-// void *memset(void *str, int c, size_t n)
-// DI = str, SI = c, DX = size
-TEXT clib·_memset(SB), $16-0
-	PUSHQ CX
-    LONG $0x0101f669; WORD $0x0101 // imul esi, 0x1010101
-    MOVQ SI, CX
-    ROLQ $32, CX
-    ORQ CX, SI
-	XORQ CX, CX // clear register
-
-MEMSET_QUAD_LOOP:
-	ADDQ $8, CX
-	CMPQ CX, DX
-	JA   MEMSET_QUAD_DONE
-	MOVQ SI, -8(DI)(CX*1)
-	JMP  MEMSET_QUAD_LOOP
-
-MEMSET_QUAD_DONE:
-	SUBQ $4, CX
-	CMPQ CX, DX
-	JA   MEMSET_LONG_DONE
-	MOVL SI, -4(DI)(CX*1)
-	ADDQ $4, CX
-
-MEMSET_LONG_DONE:
-	SUBQ $2, CX
-	CMPQ CX, DX
-	JA   MEMSET_WORD_DONE
-	MOVW SI, -2(DI)(CX*1)
-	ADDQ $2, CX
-
-MEMSET_WORD_DONE:
-	SUBQ $1, CX
-	CMPQ CX, DX
-	JA   MEMSET_BYTE_DONE
-	MOVB SI, -1(DI)(CX*1)
-
-MEMSET_BYTE_DONE:
-	MOVQ DI, AX // set return value
-	POPQ CX
-	RET
-
-// func _ClibMemset(dst unsafe.Pointer, c int, n uint) unsafe.Pointer
-TEXT ·_ClibMemset(SB), NOSPLIT|NOFRAME, $16-24
-	MOVQ arg1+0(FP), DI
-	MOVQ arg2+8(FP), SI
-	MOVQ arg3+16(FP), DX
-	CALL clib·_memset(SB)
-	MOVQ AX, ret+24(FP)
-	RET
diff --git a/go/parquet/internal/utils/dictionary.go b/go/parquet/internal/utils/dictionary.go
deleted file mode 100644
index 4d5ef13fbf3b2..0000000000000
--- a/go/parquet/internal/utils/dictionary.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-	"reflect"
-)
-
-// IndexType is the type we're going to use for Dictionary indexes, currently
-// an alias to int32
-type IndexType = int32
-
-// Max and Min constants for the IndexType
-const (
-	MaxIndexType = math.MaxInt32
-	MinIndexType = math.MinInt32
-)
-
-// DictionaryConverter is an interface used for dealing with RLE decoding and encoding
-// when working with dictionaries to get values from indexes.
-type DictionaryConverter interface {
-	// Copy takes an interface{} which must be a slice of the appropriate type, and will be populated
-	// by the dictionary values at the indexes from the IndexType slice
-	Copy(interface{}, []IndexType) error
-	// Fill fills interface{} which must be a slice of the appropriate type, with the value
-	// specified by the dictionary index passed in.
-	Fill(interface{}, IndexType) error
-	// FillZero fills interface{}, which must be a slice of the appropriate type, with the zero value
-	// for the given type.
-	FillZero(interface{})
-	// IsValid validates that all of the indexes passed in are valid indexes for the dictionary
-	IsValid(...IndexType) bool
-}
-
-// converter for getspaced that handles runs that get returned directly
-// as output, rather than using a dictionary
-type plainConverter struct{}
-
-func (plainConverter) IsValid(...IndexType) bool { return true }
-func (plainConverter) Fill(values interface{}, val IndexType) error {
-	v := reflect.ValueOf(values)
-	switch v.Type().Elem().Kind() {
-	case reflect.Int, reflect.Int8, reflect.Int16, reflect.Int32, reflect.Int64:
-		v.Index(0).SetInt(int64(val))
-	case reflect.Uint, reflect.Uint8, reflect.Uint16, reflect.Uint32, reflect.Uint64:
-		v.Index(0).SetUint(uint64(val))
-	}
-
-	for i := 1; i < v.Len(); i *= 2 {
-		reflect.Copy(v.Slice(i, v.Len()), v.Slice(0, i))
-	}
-	return nil
-}
-
-func (plainConverter) FillZero(values interface{}) {
-	v := reflect.ValueOf(values)
-	zeroVal := reflect.New(v.Type().Elem()).Elem()
-
-	v.Index(0).Set(zeroVal)
-	for i := 1; i < v.Len(); i *= 2 {
-		reflect.Copy(v.Slice(i, v.Len()), v.Slice(0, i))
-	}
-}
-
-func (plainConverter) Copy(out interface{}, values []IndexType) error {
-	vout := reflect.ValueOf(out)
-	vin := reflect.ValueOf(values)
-	for i := 0; i < vin.Len(); i++ {
-		vout.Index(i).Set(vin.Index(i).Convert(vout.Type().Elem()))
-	}
-	return nil
-}
diff --git a/go/parquet/internal/utils/physical_types.tmpldata b/go/parquet/internal/utils/physical_types.tmpldata
deleted file mode 100644
index 0adeb9955bf6b..0000000000000
--- a/go/parquet/internal/utils/physical_types.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  }
-]
diff --git a/go/parquet/internal/utils/rle.go b/go/parquet/internal/utils/rle.go
deleted file mode 100644
index bf24a5822341d..0000000000000
--- a/go/parquet/internal/utils/rle.go
+++ /dev/null
@@ -1,594 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package utils contains various internal utilities for the parquet library
-// that aren't intended to be exposed to external consumers such as interfaces
-// and bitmap readers/writers including the RLE encoder/decoder and so on.
-package utils
-
-import (
-	"bytes"
-	"encoding/binary"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata typed_rle_dict.gen.go.tmpl
-
-const (
-	MaxValuesPerLiteralRun = (1 << 6) * 8
-)
-
-func MinRLEBufferSize(bitWidth int) int {
-	maxLiteralRunSize := 1 + bitutil.BytesForBits(int64(MaxValuesPerLiteralRun*bitWidth))
-	maxRepeatedRunSize := binary.MaxVarintLen32 + bitutil.BytesForBits(int64(bitWidth))
-	return int(utils.Max(maxLiteralRunSize, maxRepeatedRunSize))
-}
-
-func MaxRLEBufferSize(width, numValues int) int {
-	bytesPerRun := width
-	numRuns := int(bitutil.BytesForBits(int64(numValues)))
-	literalMaxSize := numRuns + (numRuns * bytesPerRun)
-
-	minRepeatedRunSize := 1 + int(bitutil.BytesForBits(int64(width)))
-	repeatedMaxSize := int(bitutil.BytesForBits(int64(numValues))) * minRepeatedRunSize
-
-	return utils.Max(literalMaxSize, repeatedMaxSize)
-}
-
-// Utility classes to do run length encoding (RLE) for fixed bit width values.  If runs
-// are sufficiently long, RLE is used, otherwise, the values are just bit-packed
-// (literal encoding).
-// For both types of runs, there is a byte-aligned indicator which encodes the length
-// of the run and the type of the run.
-// This encoding has the benefit that when there aren't any long enough runs, values
-// are always decoded at fixed (can be precomputed) bit offsets OR both the value and
-// the run length are byte aligned. This allows for very efficient decoding
-// implementations.
-// The encoding is:
-//    encoded-block := run*
-//    run := literal-run | repeated-run
-//    literal-run := literal-indicator < literal bytes >
-//    repeated-run := repeated-indicator < repeated value. padded to byte boundary >
-//    literal-indicator := varint_encode( number_of_groups << 1 | 1)
-//    repeated-indicator := varint_encode( number_of_repetitions << 1 )
-//
-// Each run is preceded by a varint. The varint's least significant bit is
-// used to indicate whether the run is a literal run or a repeated run. The rest
-// of the varint is used to determine the length of the run (eg how many times the
-// value repeats).
-//
-// In the case of literal runs, the run length is always a multiple of 8 (i.e. encode
-// in groups of 8), so that no matter the bit-width of the value, the sequence will end
-// on a byte boundary without padding.
-// Given that we know it is a multiple of 8, we store the number of 8-groups rather than
-// the actual number of encoded ints. (This means that the total number of encoded values
-// cannot be determined from the encoded data, since the number of values in the last
-// group may not be a multiple of 8). For the last group of literal runs, we pad
-// the group to 8 with zeros. This allows for 8 at a time decoding on the read side
-// without the need for additional checks.
-//
-// There is a break-even point when it is more storage efficient to do run length
-// encoding.  For 1 bit-width values, that point is 8 values.  They require 2 bytes
-// for both the repeated encoding or the literal encoding.  This value can always
-// be computed based on the bit-width.
-//
-// Examples with bit-width 1 (eg encoding booleans):
-// ----------------------------------------
-// 100 1s followed by 100 0s:
-// <varint(100 << 1)> <1, padded to 1 byte> <varint(100 << 1)> <0, padded to 1 byte>
-//  - (total 4 bytes)
-//
-// alternating 1s and 0s (200 total):
-// 200 ints = 25 groups of 8
-// <varint((25 << 1) | 1)> <25 bytes of values, bitpacked>
-// (total 26 bytes, 1 byte overhead)
-//
-
-type RleDecoder struct {
-	r *BitReader
-
-	bitWidth int
-	curVal   uint64
-	repCount int32
-	litCount int32
-}
-
-func NewRleDecoder(data *bytes.Reader, width int) *RleDecoder {
-	return &RleDecoder{r: NewBitReader(data), bitWidth: width}
-}
-
-func (r *RleDecoder) Reset(data *bytes.Reader, width int) {
-	r.bitWidth = width
-	r.curVal = 0
-	r.repCount = 0
-	r.litCount = 0
-	r.r.Reset(data)
-}
-
-func (r *RleDecoder) Next() bool {
-	indicator, ok := r.r.GetVlqInt()
-	if !ok {
-		return false
-	}
-
-	literal := (indicator & 1) != 0
-	count := uint32(indicator >> 1)
-	if literal {
-		if count == 0 || count > uint32(math.MaxInt32/8) {
-			return false
-		}
-		r.litCount = int32(count) * 8
-	} else {
-		if count == 0 || count > uint32(math.MaxInt32) {
-			return false
-		}
-		r.repCount = int32(count)
-
-		nbytes := int(bitutil.BytesForBits(int64(r.bitWidth)))
-		switch {
-		case nbytes > 4:
-			if !r.r.GetAligned(nbytes, &r.curVal) {
-				return false
-			}
-		case nbytes > 2:
-			var val uint32
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		case nbytes > 1:
-			var val uint16
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		default:
-			var val uint8
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		}
-	}
-	return true
-}
-
-func (r *RleDecoder) GetValue() (uint64, bool) {
-	vals := make([]uint64, 1)
-	n := r.GetBatch(vals)
-	return vals[0], n == 1
-}
-
-func (r *RleDecoder) GetBatch(values []uint64) int {
-	read := 0
-	size := len(values)
-
-	out := values
-	for read < size {
-		remain := size - read
-
-		if r.repCount > 0 {
-			repbatch := int(math.Min(float64(remain), float64(r.repCount)))
-			for i := 0; i < repbatch; i++ {
-				out[i] = r.curVal
-			}
-
-			r.repCount -= int32(repbatch)
-			read += repbatch
-			out = out[repbatch:]
-		} else if r.litCount > 0 {
-			litbatch := int(math.Min(float64(remain), float64(r.litCount)))
-			n, _ := r.r.GetBatch(uint(r.bitWidth), out[:litbatch])
-			if n != litbatch {
-				return read
-			}
-
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			out = out[litbatch:]
-		} else {
-			if !r.Next() {
-				return read
-			}
-		}
-	}
-	return read
-}
-
-func (r *RleDecoder) GetBatchSpaced(vals []uint64, nullcount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullcount == 0 {
-		return r.GetBatch(vals), nil
-	}
-
-	converter := plainConverter{}
-	blockCounter := bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-
-	var (
-		totalProcessed int
-		processed      int
-		block          bitutils.BitBlockCount
-		err            error
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		if block.AllSet() {
-			processed = r.GetBatch(vals[:block.Len])
-		} else if block.NoneSet() {
-			converter.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		} else {
-			processed, err = r.getspaced(converter, vals, int(block.Len), int(block.Len-block.Popcnt), validBits, validBitsOffset)
-			if err != nil {
-				return totalProcessed, err
-			}
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return totalProcessed, nil
-}
-
-func (r *RleDecoder) getspaced(dc DictionaryConverter, vals interface{}, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.getspacedInt32(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return r.getspacedInt64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return r.getspacedFloat32(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return r.getspacedFloat64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return r.getspacedByteArray(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return r.getspacedFixedLenByteArray(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return r.getspacedInt96(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []uint64:
-		return r.getspacedUint64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	default:
-		return 0, xerrors.New("parquet/rle: getspaced invalid type")
-	}
-}
-
-func (r *RleDecoder) getspacedUint64(dc DictionaryConverter, vals []uint64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsUint64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeRepeatCounts(read, batchSize, remain int, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun) {
-	// Consume the entire repeat counts incrementing repeat_batch to
-	// be the total of nulls + values consumed, we only need to
-	// get the total count because we can fill in the same value for
-	// nulls and non-nulls. This proves to be a big efficiency win.
-	repeatBatch := 0
-	for r.repCount > 0 && (read+repeatBatch) < batchSize {
-		if run.Set {
-			updateSize := int(utils.Min(run.Len, int64(r.repCount)))
-			r.repCount -= int32(updateSize)
-			repeatBatch += updateSize
-			run.Len -= int64(updateSize)
-			remain -= updateSize
-		} else {
-			repeatBatch += int(run.Len)
-			run.Len = 0
-		}
-
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	return repeatBatch, remain, run
-}
-
-func (r *RleDecoder) consumeLiteralsUint64(dc DictionaryConverter, vals []uint64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDict(dc DictionaryConverter, vals interface{}) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.GetBatchWithDictInt32(dc, vals)
-	case []int64:
-		return r.GetBatchWithDictInt64(dc, vals)
-	case []float32:
-		return r.GetBatchWithDictFloat32(dc, vals)
-	case []float64:
-		return r.GetBatchWithDictFloat64(dc, vals)
-	case []parquet.ByteArray:
-		return r.GetBatchWithDictByteArray(dc, vals)
-	case []parquet.FixedLenByteArray:
-		return r.GetBatchWithDictFixedLenByteArray(dc, vals)
-	case []parquet.Int96:
-		return r.GetBatchWithDictInt96(dc, vals)
-	default:
-		return 0, xerrors.New("parquet/rle: GetBatchWithDict invalid type")
-	}
-}
-
-func (r *RleDecoder) GetBatchWithDictSpaced(dc DictionaryConverter, vals interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.GetBatchWithDictSpacedInt32(dc, vals, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return r.GetBatchWithDictSpacedInt64(dc, vals, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return r.GetBatchWithDictSpacedFloat32(dc, vals, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return r.GetBatchWithDictSpacedFloat64(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return r.GetBatchWithDictSpacedByteArray(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return r.GetBatchWithDictSpacedFixedLenByteArray(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return r.GetBatchWithDictSpacedInt96(dc, vals, nullCount, validBits, validBitsOffset)
-	default:
-		return 0, xerrors.New("parquet/rle: GetBatchWithDictSpaced invalid type")
-	}
-}
-
-type RleEncoder struct {
-	w *BitWriter
-
-	buffer                 []uint64
-	BitWidth               int
-	curVal                 uint64
-	repCount               int32
-	litCount               int32
-	literalIndicatorOffset int
-
-	indicatorBuffer [1]byte
-}
-
-func NewRleEncoder(w WriterAtWithLen, width int) *RleEncoder {
-	return &RleEncoder{
-		w:                      NewBitWriter(w),
-		buffer:                 make([]uint64, 0, 8),
-		BitWidth:               width,
-		literalIndicatorOffset: -1,
-	}
-}
-
-func (r *RleEncoder) Flush() int {
-	if r.litCount > 0 || r.repCount > 0 || len(r.buffer) > 0 {
-		allRep := r.litCount == 0 && (r.repCount == int32(len(r.buffer)) || len(r.buffer) == 0)
-		if r.repCount > 0 && allRep {
-			r.flushRepeated()
-		} else {
-			// buffer the last group of literals to 8 by padding with 0s
-			for len(r.buffer) != 0 && len(r.buffer) < 8 {
-				r.buffer = append(r.buffer, 0)
-			}
-
-			r.litCount += int32(len(r.buffer))
-			r.flushLiteral(true)
-			r.repCount = 0
-		}
-	}
-	r.w.Flush(false)
-	return r.w.Written()
-}
-
-func (r *RleEncoder) flushBuffered(done bool) (err error) {
-	if r.repCount >= 8 {
-		// clear buffered values. they are part of the repeated run now and we
-		// don't want to flush them as literals
-		r.buffer = r.buffer[:0]
-		if r.litCount != 0 {
-			// there was  current literal run. all values flushed but need to update the indicator
-			err = r.flushLiteral(true)
-		}
-		return
-	}
-
-	r.litCount += int32(len(r.buffer))
-	ngroups := r.litCount / 8
-	if ngroups+1 >= (1 << 6) {
-		// we need to start a new literal run because the indicator byte we've reserved
-		// cannot store any more values
-		err = r.flushLiteral(true)
-	} else {
-		err = r.flushLiteral(done)
-	}
-	r.repCount = 0
-	return
-}
-
-func (r *RleEncoder) flushLiteral(updateIndicator bool) (err error) {
-	if r.literalIndicatorOffset == -1 {
-		r.literalIndicatorOffset, err = r.w.SkipBytes(1)
-		if err != nil {
-			return
-		}
-	}
-
-	for _, val := range r.buffer {
-		if err = r.w.WriteValue(val, uint(r.BitWidth)); err != nil {
-			return
-		}
-	}
-	r.buffer = r.buffer[:0]
-
-	if updateIndicator {
-		// at this point we need to write the indicator byte for the literal run.
-		// we only reserve one byte, to allow for streaming writes of literal values.
-		// the logic makes sure we flush literal runs often enough to not overrun the 1 byte.
-		ngroups := r.litCount / 8
-		r.indicatorBuffer[0] = byte((ngroups << 1) | 1)
-		_, err = r.w.WriteAt(r.indicatorBuffer[:], int64(r.literalIndicatorOffset))
-		r.literalIndicatorOffset = -1
-		r.litCount = 0
-	}
-	return
-}
-
-func (r *RleEncoder) flushRepeated() (ret bool) {
-	indicator := r.repCount << 1
-
-	ret = r.w.WriteVlqInt(uint64(indicator))
-	ret = ret && r.w.WriteAligned(r.curVal, int(bitutil.BytesForBits(int64(r.BitWidth))))
-
-	r.repCount = 0
-	r.buffer = r.buffer[:0]
-	return
-}
-
-// Put buffers input values 8 at a time. after seeing all 8 values,
-// it decides whether they should be encoded as a literal or repeated run.
-func (r *RleEncoder) Put(value uint64) error {
-	if r.curVal == value {
-		r.repCount++
-		if r.repCount > 8 {
-			// this is just a continuation of the current run, no need to buffer the values
-			// NOTE this is the fast path for long repeated runs
-			return nil
-		}
-	} else {
-		if r.repCount >= 8 {
-			if !r.flushRepeated() {
-				return xerrors.New("failed to flush repeated value")
-			}
-		}
-		r.repCount = 1
-		r.curVal = value
-	}
-
-	r.buffer = append(r.buffer, value)
-	if len(r.buffer) == 8 {
-		return r.flushBuffered(false)
-	}
-	return nil
-}
-
-func (r *RleEncoder) Clear() {
-	r.curVal = 0
-	r.repCount = 0
-	r.buffer = r.buffer[:0]
-	r.litCount = 0
-	r.literalIndicatorOffset = -1
-	r.w.Clear()
-}
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go b/go/parquet/internal/utils/typed_rle_dict.gen.go
deleted file mode 100644
index 80f76ef12d71a..0000000000000
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go
+++ /dev/null
@@ -1,1377 +0,0 @@
-// Code generated by typed_rle_dict.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt32(dc DictionaryConverter, vals []int32, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt32(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt32(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt32(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt32(dc DictionaryConverter, vals []int32, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt32(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt32(dc DictionaryConverter, vals []int32, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt32(dc DictionaryConverter, vals []int32) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt64(dc DictionaryConverter, vals []int64, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt64(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt64(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt64(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt64(dc DictionaryConverter, vals []int64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt64(dc DictionaryConverter, vals []int64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt64(dc DictionaryConverter, vals []int64) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt96(dc DictionaryConverter, vals []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt96(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt96(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt96(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt96(dc DictionaryConverter, vals []parquet.Int96, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt96(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt96(dc DictionaryConverter, vals []parquet.Int96, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt96(dc DictionaryConverter, vals []parquet.Int96) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFloat32(dc DictionaryConverter, vals []float32, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFloat32(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFloat32(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFloat32(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFloat32(dc DictionaryConverter, vals []float32, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFloat32(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFloat32(dc DictionaryConverter, vals []float32, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFloat32(dc DictionaryConverter, vals []float32) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFloat64(dc DictionaryConverter, vals []float64, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFloat64(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFloat64(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFloat64(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFloat64(dc DictionaryConverter, vals []float64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFloat64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFloat64(dc DictionaryConverter, vals []float64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFloat64(dc DictionaryConverter, vals []float64) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedByteArray(dc DictionaryConverter, vals []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictByteArray(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictByteArray(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedByteArray(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedByteArray(dc DictionaryConverter, vals []parquet.ByteArray, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsByteArray(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsByteArray(dc DictionaryConverter, vals []parquet.ByteArray, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictByteArray(dc DictionaryConverter, vals []parquet.ByteArray) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFixedLenByteArray(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFixedLenByteArray(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFixedLenByteArray(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFixedLenByteArray(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl b/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
deleted file mode 100644
index 992270d8d8e00..0000000000000
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
+++ /dev/null
@@ -1,220 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-  "github.com/apache/arrow/go/v18/internal/utils"
-)
-
-{{range .In}}
-{{if ne .Name "Boolean"}}
-func (r *RleDecoder) GetBatchWithDictSpaced{{.Name}}(dc DictionaryConverter, vals []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-  if nullCount == 0 {
-    return r.GetBatchWithDict{{.Name}}(dc, vals)
-  }
-
-  var (
-    blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-    processed = 0
-    block bitutils.BitBlockCount
-  )
-
-  for {
-    block = blockCounter.NextFourWords()
-    if block.Len == 0 {
-      break
-    }
-
-    switch {
-    case block.AllSet():
-      processed, err = r.GetBatchWithDict{{.Name}}(dc, vals[:block.Len])
-    case block.NoneSet():
-      dc.FillZero(vals[:block.Len])
-      processed = int(block.Len)
-    default:
-      processed, err = r.getspaced{{.Name}}(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-    }
-
-    if err != nil {
-      break
-    }
-
-    totalProcessed += processed
-    vals = vals[int(block.Len):]
-    validBitsOffset += int64(block.Len)
-    if processed != int(block.Len) {
-      break
-    }
-  }
-  return
-}
-
-func (r *RleDecoder) getspaced{{.Name}}(dc DictionaryConverter, vals []{{.name}}, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  if nullCount == batchSize {
-    dc.FillZero(vals[:batchSize])
-    return batchSize, nil
-  }
-
-  read := 0
-  remain := batchSize - nullCount
-
-  const bufferSize = 1024
-  var indexbuffer [bufferSize]IndexType
-
-  // assume no bits to start
-  bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-  validRun := bitReader.NextRun()
-  for read < batchSize {
-    if validRun.Len == 0 {
-      validRun = bitReader.NextRun()
-    }
-
-    if !validRun.Set {
-      dc.FillZero(vals[:int(validRun.Len)])
-      vals = vals[int(validRun.Len):]
-      read += int(validRun.Len)
-      validRun.Len = 0
-      continue
-    }
-
-    if r.repCount == 0 && r.litCount == 0 {
-      if !r.Next() {
-        return read, nil
-      }
-    }
-
-    var batch int
-    switch {
-    case r.repCount > 0:
-      batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-      current := IndexType(r.curVal)
-      if !dc.IsValid(current) {
-        return read, nil
-      }
-      dc.Fill(vals[:batch], current)
-    case r.litCount > 0:
-      var (
-        litread int
-        skipped int
-        err error
-      )
-      litread, skipped, validRun, err = r.consumeLiterals{{.Name}}(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-    	if err != nil {
-        return read, err
-      }
-      batch = litread + skipped
-      remain -= litread
-    }
-
-    vals = vals[batch:]
-    read += batch
-  }
-  return read, nil
-}
-
-func (r *RleDecoder) consumeLiterals{{.Name}}(dc DictionaryConverter, vals []{{.name}}, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-  batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDict{{.Name}}(dc DictionaryConverter, vals []{{.name}}) (int, error) {
-  var (
-    read = 0
-    size = len(vals)
-    indexbuffer [1024]IndexType
-  )
-
-  for read < size {
-    remain := size - read
-
-    switch {
-    case r.repCount > 0:
-      idx := IndexType(r.curVal)
-      if !dc.IsValid(idx) {
-        return read, nil
-      }
-      batch := utils.Min(remain, int(r.repCount))
-      if err := dc.Fill(vals[:batch], idx); err != nil {
-        return read, err
-      }
-      r.repCount -= int32(batch)
-      read += batch
-      vals = vals[batch:]
-    case r.litCount > 0:
-      litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-      buf := indexbuffer[:litbatch]
-      n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-      if n != litbatch {
-        return read, nil
-      }
-      if !dc.IsValid(buf...) {
-        return read, nil
-      }
-      if err := dc.Copy(vals, buf); err != nil {
-        return read, nil
-      }
-      r.litCount -= int32(litbatch)
-      read += litbatch
-      vals = vals[litbatch:]
-    default:
-      if !r.Next() {
-        return read, nil
-      }
-    }
-  }
-
-  return read, nil
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/utils/unpack_bool.go b/go/parquet/internal/utils/unpack_bool.go
deleted file mode 100644
index 3ccb0b7bfb7ec..0000000000000
--- a/go/parquet/internal/utils/unpack_bool.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-// pure go implementation of converting a bitmap to a slice of bools
-func bytesToBoolsGo(in []byte, out []bool) {
-	for i, b := range in {
-		for j := 0; j < 8; j++ {
-			out[8*i+j] = (b & (1 << j)) != 0
-		}
-	}
-}
diff --git a/go/parquet/internal/utils/unpack_bool_amd64.go b/go/parquet/internal/utils/unpack_bool_amd64.go
deleted file mode 100644
index 2b2054f3b00b8..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "golang.org/x/sys/cpu"
-
-var byteToBoolFunc func([]byte, []bool)
-
-func init() {
-	// if the cpu supports AVX2 or SSE4 then use SIMD to accelerate the conversion
-	// of a bitmap to a slice of bools in an optimized fashion, otherwise fallback
-	// to the pure go implementation
-	if cpu.X86.HasAVX2 {
-		byteToBoolFunc = bytesToBoolsAVX2
-	} else if cpu.X86.HasSSE42 {
-		byteToBoolFunc = bytesToBoolsSSE4
-	} else {
-		byteToBoolFunc = bytesToBoolsGo
-	}
-}
-
-// BytesToBools efficiently populates a slice of booleans from an input bitmap
-func BytesToBools(in []byte, out []bool) {
-	byteToBoolFunc(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_arm64.go b/go/parquet/internal/utils/unpack_bool_arm64.go
deleted file mode 100644
index 879ffd3c9540d..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_arm64.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"os"
-	"strings"
-
-	"golang.org/x/sys/cpu"
-)
-
-var byteToBoolFunc func([]byte, []bool)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		exts := strings.Split(ext, ",")
-
-		for _, x := range exts {
-			switch x {
-			case "NEON":
-				cpu.ARM64.HasASIMD = true
-			case "AES":
-				cpu.ARM64.HasAES = true
-			case "PMULL":
-				cpu.ARM64.HasPMULL = true
-			default:
-				cpu.ARM64.HasASIMD = false
-				cpu.ARM64.HasAES = false
-				cpu.ARM64.HasPMULL = false
-			}
-		}
-	}
-
-	// if the cpu supports Arm64 Neon then use SIMD to accelerate the conversion
-	// of a bitmap to a slice of bools in an optimized fashion, otherwise fallback
-	// to the pure go implementation
-	if cpu.ARM64.HasASIMD {
-		byteToBoolFunc = bytesToBoolsNEON
-	} else {
-		byteToBoolFunc = bytesToBoolsGo
-	}
-}
-
-// BytesToBools efficiently populates a slice of booleans from an input bitmap
-func BytesToBools(in []byte, out []bool) {
-	byteToBoolFunc(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_avx2_amd64.go b/go/parquet/internal/utils/unpack_bool_avx2_amd64.go
deleted file mode 100644
index cec772a2ccf97..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_avx2_amd64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_avx2(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use AVX2 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsAVX2(in []byte, out []bool) {
-	_bytes_to_bools_avx2(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_avx2_amd64.s b/go/parquet/internal/utils/unpack_bool_avx2_amd64.s
deleted file mode 100644
index 459ff78675de8..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_avx2_amd64.s
+++ /dev/null
@@ -1,88 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bytes_to_bools_avx2(SB), $0-32
-
-	MOVQ in+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ outlen+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_5
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e0c149         // shl    r8, 3
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_2
-
-LBB0_4:
-	LONG $0x08c28349         // add    r10, 8
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x394d; BYTE $0xd0 // cmp    r8, r10
-	JE   LBB0_5
-
-LBB0_2:
-	WORD $0x3941; BYTE $0xca // cmp    r10d, ecx
-	JGE  LBB0_4
-	WORD $0x8945; BYTE $0xd1 // mov    r9d, r10d
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0x0124             // and    al, 1
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x01ce8348         // or    rsi, 1
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8d0             // shr    al, 1
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x02ce8348         // or    rsi, 2
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x02 // shr    al, 2
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x03ce8348         // or    rsi, 3
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x03 // shr    al, 3
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x04ce8348         // or    rsi, 4
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x04 // shr    al, 4
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x05ce8348         // or    rsi, 5
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x05 // shr    al, 5
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x06ce8348         // or    rsi, 6
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x06 // shr    al, 6
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	LONG $0x07c98349         // or    r9, 7
-	WORD $0x3941; BYTE $0xc9 // cmp    r9d, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x07 // shr    al, 7
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	JMP  LBB0_4
-
-LBB0_5:
-	RET
diff --git a/go/parquet/internal/utils/unpack_bool_default.go b/go/parquet/internal/utils/unpack_bool_default.go
deleted file mode 100644
index 6aee1c8d007e0..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_default.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm && !amd64 && !arm64
-// +build !noasm,!amd64,!arm64
-
-package utils
-
-// BytesToBools when built with the noasm tag will direct to the pure go implementation
-// for converting a bitmap to a slice of bools
-func BytesToBools(in []byte, out []bool) {
-	bytesToBoolsGo(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_neon_arm64.go b/go/parquet/internal/utils/unpack_bool_neon_arm64.go
deleted file mode 100755
index ed46ce29e0309..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_neon_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_neon(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use SSE4 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsNEON(in []byte, out []bool) {
-	_bytes_to_bools_neon(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_neon_arm64.s b/go/parquet/internal/utils/unpack_bool_neon_arm64.s
deleted file mode 100755
index 242789599c0c9..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_neon_arm64.s
+++ /dev/null
@@ -1,81 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15440
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _bytes_to_bools_neon(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-TEXT ·_bytes_to_bools_neon(SB), $0-32
-
-    MOVD in+0(FP), R0
-    MOVD len+8(FP), R1
-    MOVD out+16(FP), R2
-    MOVD outlen+24(FP), R3
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100043f // cmp    w1, #1
-    WORD $0x910003fd // mov    x29, sp
-    BLT LBB0_12
-    WORD $0x2a0103e9 // mov    w9, w1
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    WORD $0xd37df129 // lsl    x9, x9, #3
-    WORD $0x528000aa // mov    w10, #5
-    JMP LBB0_3
-LBB0_2:
-    WORD $0x91002108 // add    x8, x8, #8
-    WORD $0xeb08013f // cmp    x9, x8
-    WORD $0x91000400 // add    x0, x0, #1
-    BEQ LBB0_12
-LBB0_3:
-    WORD $0x6b03011f // cmp    w8, w3
-    BGE LBB0_2
-    WORD $0x3940000c // ldrb    w12, [x0]
-    WORD $0x92407d0b // and    x11, x8, #0xffffffff
-    WORD $0xb240016d // orr    x13, x11, #0x1
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x1200018c // and    w12, w12, #0x1
-    WORD $0x382b684c // strb    w12, [x2, x11]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27f016c // orr    x12, x11, #0x2
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x530105ce // ubfx    w14, w14, #1, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb240056d // orr    x13, x11, #0x3
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x530209ce // ubfx    w14, w14, #2, #1
-    WORD $0x382c684e // strb    w14, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27e016c // orr    x12, x11, #0x4
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x53030dce // ubfx    w14, w14, #3, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xaa0a016d // orr    x13, x11, x10
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x530411ce // ubfx    w14, w14, #4, #1
-    WORD $0x382c684e // strb    w14, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27f056c // orr    x12, x11, #0x6
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x530515ce // ubfx    w14, w14, #5, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000d // ldrb    w13, [x0]
-    WORD $0xb240096b // orr    x11, x11, #0x7
-    WORD $0x6b03017f // cmp    w11, w3
-    WORD $0x530619ad // ubfx    w13, w13, #6, #1
-    WORD $0x382c684d // strb    w13, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000c // ldrb    w12, [x0]
-    WORD $0x53077d8c // lsr    w12, w12, #7
-    WORD $0x382b684c // strb    w12, [x2, x11]
-    JMP LBB0_2
-LBB0_12:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    RET
diff --git a/go/parquet/internal/utils/unpack_bool_noasm.go b/go/parquet/internal/utils/unpack_bool_noasm.go
deleted file mode 100644
index eba20fa9c0f56..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package utils
-
-// BytesToBools when built with the noasm tag will direct to the pure go implementation
-// for converting a bitmap to a slice of bools
-func BytesToBools(in []byte, out []bool) {
-	bytesToBoolsGo(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_sse4_amd64.go b/go/parquet/internal/utils/unpack_bool_sse4_amd64.go
deleted file mode 100644
index d00c37474e61c..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_sse4_amd64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_sse4(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use SSE4 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsSSE4(in []byte, out []bool) {
-	_bytes_to_bools_sse4(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_sse4_amd64.s b/go/parquet/internal/utils/unpack_bool_sse4_amd64.s
deleted file mode 100644
index ac8acb9f4d24e..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_sse4_amd64.s
+++ /dev/null
@@ -1,88 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bytes_to_bools_sse4(SB), $0-32
-
-	MOVQ in+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ outlen+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_5
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e0c149         // shl    r8, 3
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_2
-
-LBB0_4:
-	LONG $0x08c28349         // add    r10, 8
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x394d; BYTE $0xd0 // cmp    r8, r10
-	JE   LBB0_5
-
-LBB0_2:
-	WORD $0x3941; BYTE $0xca // cmp    r10d, ecx
-	JGE  LBB0_4
-	WORD $0x8945; BYTE $0xd1 // mov    r9d, r10d
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0x0124             // and    al, 1
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x01ce8348         // or    rsi, 1
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8d0             // shr    al, 1
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x02ce8348         // or    rsi, 2
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x02 // shr    al, 2
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x03ce8348         // or    rsi, 3
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x03 // shr    al, 3
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x04ce8348         // or    rsi, 4
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x04 // shr    al, 4
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x05ce8348         // or    rsi, 5
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x05 // shr    al, 5
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x06ce8348         // or    rsi, 6
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x06 // shr    al, 6
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	LONG $0x07c98349         // or    r9, 7
-	WORD $0x3941; BYTE $0xc9 // cmp    r9d, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x07 // shr    al, 7
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	JMP  LBB0_4
-
-LBB0_5:
-	RET
diff --git a/go/parquet/internal/utils/write_utils.go b/go/parquet/internal/utils/write_utils.go
deleted file mode 100644
index 28662c647e73f..0000000000000
--- a/go/parquet/internal/utils/write_utils.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "io"
-
-// WriterTell is an interface that adds a Tell function to an io.Writer
-type WriterTell interface {
-	io.Writer
-	Tell() int64
-}
-
-// WriteCloserTell is an interface adding a Tell function to a WriteCloser
-// so if the underlying writer has a Close function, it is exposed and not
-// hidden.
-type WriteCloserTell interface {
-	io.WriteCloser
-	Tell() int64
-}
-
-// TellWrapper wraps any io.Writer to add a Tell function that tracks
-// the position based on calls to Write. It does not take into account
-// any calls to Seek or any Writes that don't go through the TellWrapper
-type TellWrapper struct {
-	io.Writer
-	pos int64
-}
-
-// Close makes TellWrapper an io.Closer so that calling Close
-// will also call Close on the wrapped writer if it has a Close function.
-func (w *TellWrapper) Close() error {
-	if closer, ok := w.Writer.(io.WriteCloser); ok {
-		return closer.Close()
-	}
-	return nil
-}
-
-func (w *TellWrapper) Tell() int64 { return w.pos }
-func (w *TellWrapper) Write(p []byte) (n int, err error) {
-	n, err = w.Writer.Write(p)
-	w.pos += int64(n)
-	return
-}
diff --git a/go/parquet/metadata/app_version.go b/go/parquet/metadata/app_version.go
deleted file mode 100644
index 345e9d440a1ca..0000000000000
--- a/go/parquet/metadata/app_version.go
+++ /dev/null
@@ -1,185 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"regexp"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-var (
-	// Regular expression for the version format
-	// major . minor . patch unknown - prerelease.x + build info
-	// Eg: 1.5.0ab-cdh5.5.0+cd
-	versionRx = regexp.MustCompile(`^(\d+)\.(\d+)\.(\d+)([^-+]*)?(?:-([^+]*))?(?:\+(.*))?$`)
-	// Regular expression for the application format
-	// application_name version VERSION_FORMAT (build build_name)
-	// Eg: parquet-cpp version 1.5.0ab-xyz5.5.0+cd (build abcd)
-	applicationRx = regexp.MustCompile(`^(.*?)\s*(?:(version\s*(?:([^(]*?)\s*(?:\(\s*build\s*([^)]*?)\s*\))?)?)?)$`)
-
-	// Parquet816FixedVersion is the version used for fixing PARQUET-816
-	// that changed the padding calculations for dictionary headers on row groups.
-	Parquet816FixedVersion      = NewAppVersionExplicit("parquet-mr", 1, 2, 9)
-	parquet251FixedVersion      = NewAppVersionExplicit("parquet-mr", 1, 8, 0)
-	parquetCPPFixedStatsVersion = NewAppVersionExplicit("parquet-cpp", 1, 3, 0)
-	parquetMRFixedStatsVersion  = NewAppVersionExplicit("parquet-mr", 1, 10, 0)
-	// parquet1655FixedVersion is the version used for fixing PARQUET-1655
-	// which fixed min/max stats comparisons for Decimal types
-	parquet1655FixedVersion = NewAppVersionExplicit("parquet-cpp-arrow", 4, 0, 0)
-)
-
-// AppVersion represents a specific application version either read from
-// or written to a parquet file.
-type AppVersion struct {
-	App     string
-	Build   string
-	Version struct {
-		Major      int
-		Minor      int
-		Patch      int
-		Unknown    string
-		PreRelease string
-		BuildInfo  string
-	}
-}
-
-// NewAppVersionExplicit is a convenience function to construct a specific
-// application version from the given app string and version
-func NewAppVersionExplicit(app string, major, minor, patch int) *AppVersion {
-	v := &AppVersion{App: app}
-	v.Version.Major = major
-	v.Version.Minor = minor
-	v.Version.Patch = patch
-	return v
-}
-
-// NewAppVersion parses a "created by" string such as "parquet-go 1.0.0".
-//
-// It also supports handling pre-releases and build info such as
-//
-//	parquet-cpp version 1.5.0ab-xyz5.5.0+cd (build abcd)
-func NewAppVersion(createdby string) *AppVersion {
-	v := &AppVersion{}
-
-	var ver []string
-
-	m := applicationRx.FindStringSubmatch(strings.ToLower(createdby))
-	if len(m) >= 4 {
-		v.App = m[1]
-		v.Build = m[4]
-		ver = versionRx.FindStringSubmatch(m[3])
-	} else {
-		v.App = "unknown"
-	}
-
-	if len(ver) >= 7 {
-		v.Version.Major, _ = strconv.Atoi(ver[1])
-		v.Version.Minor, _ = strconv.Atoi(ver[2])
-		v.Version.Patch, _ = strconv.Atoi(ver[3])
-		v.Version.Unknown = ver[4]
-		v.Version.PreRelease = ver[5]
-		v.Version.BuildInfo = ver[6]
-	}
-	return v
-}
-
-// LessThan compares the app versions and returns true if this version
-// is "less than" the passed version.
-//
-// If the apps don't match, this always returns false. Otherwise it compares
-// the major versions first, then the minor versions, and finally the patch
-// versions.
-//
-// Pre-release and build info are not considered.
-func (v AppVersion) LessThan(other *AppVersion) bool {
-	switch {
-	case v.App != other.App:
-		return false
-	case v.Version.Major < other.Version.Major:
-		return true
-	case v.Version.Major > other.Version.Major:
-		return false
-	case v.Version.Minor < other.Version.Minor:
-		return true
-	case v.Version.Minor > other.Version.Minor:
-		return false
-	}
-
-	return v.Version.Patch < other.Version.Patch
-}
-
-// Equal only compares the Application and major/minor/patch versions.
-//
-// Pre-release and build info are not considered.
-func (v AppVersion) Equal(other *AppVersion) bool {
-	return v.App == other.App &&
-		v.Version.Major == other.Version.Major &&
-		v.Version.Minor == other.Version.Minor &&
-		v.Version.Patch == other.Version.Patch
-}
-
-// HasCorrectStatistics checks whether or not the statistics are valid to be used
-// based on the primitive type and the version since previous versions had issues with
-// properly computing stats.
-//
-// Reference: parquet-cpp/src/parquet/metadata.cc
-//
-// PARQUET-686 has more discussion on statistics
-func (v AppVersion) HasCorrectStatistics(coltype parquet.Type, logicalType schema.LogicalType, stats EncodedStatistics, sort schema.SortOrder) bool {
-	// parquet-cpp version 1.3.0 and parquet-mr 1.10.0 onwards stats are computed correctly for all types except decimal
-	if (v.App == "parquet-cpp" && v.LessThan(parquetCPPFixedStatsVersion)) ||
-		(v.App == "parquet-mr" && v.LessThan(parquetMRFixedStatsVersion)) {
-		// only SIGNED are valid unless max and min are the same (in which case the sort order doesn't matter)
-		var maxEqualsMin bool
-		if stats.HasMin && stats.HasMax {
-			maxEqualsMin = string(stats.Min) == string(stats.Max)
-		}
-		if sort != schema.SortSIGNED && !maxEqualsMin {
-			return false
-		}
-
-		if coltype != parquet.Types.FixedLenByteArray && coltype != parquet.Types.ByteArray {
-			return true
-		}
-	}
-
-	// parquet-cpp-arrow version 4.0.0 fixed Decimal comparisons for creating min/max stats
-	// parquet-cpp also becomes parquet-cpp-arrow as of version 4.0.0
-	if v.App == "parquet-cpp" || (v.App == "parquet-cpp-arrow" && v.LessThan(parquet1655FixedVersion)) {
-		if _, ok := logicalType.(schema.DecimalLogicalType); ok && coltype == parquet.Types.FixedLenByteArray {
-			return false
-		}
-	}
-
-	// created_by is not populated, which could have been caused by
-	// parquet-mr during the same time as PARQUET-251, see PARQUET-297
-	if v.App == "unknown" {
-		return true
-	}
-
-	// unknown sort order has incorrect stats
-	if sort == schema.SortUNKNOWN {
-		return false
-	}
-
-	// PARQUET-251
-	return !v.LessThan(parquet251FixedVersion)
-}
diff --git a/go/parquet/metadata/column_chunk.go b/go/parquet/metadata/column_chunk.go
deleted file mode 100644
index a05b3c9124154..0000000000000
--- a/go/parquet/metadata/column_chunk.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"context"
-	"io"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// PageEncodingStats is used for counting the number of pages of specific
-// types with the given internal encoding.
-type PageEncodingStats struct {
-	Encoding parquet.Encoding
-	PageType format.PageType
-}
-
-type statvalues struct {
-	*format.Statistics
-}
-
-func (s *statvalues) GetMin() []byte { return s.GetMinValue() }
-func (s *statvalues) GetMax() []byte { return s.GetMaxValue() }
-func (s *statvalues) IsSetMin() bool { return s.IsSetMinValue() }
-func (s *statvalues) IsSetMax() bool { return s.IsSetMaxValue() }
-
-func makeColumnStats(metadata *format.ColumnMetaData, descr *schema.Column, mem memory.Allocator) TypedStatistics {
-	if descr.ColumnOrder() == parquet.ColumnOrders.TypeDefinedOrder {
-		return NewStatisticsFromEncoded(descr, mem,
-			metadata.NumValues-metadata.Statistics.GetNullCount(),
-			&statvalues{metadata.Statistics})
-	}
-	return NewStatisticsFromEncoded(descr, mem,
-		metadata.NumValues-metadata.Statistics.GetNullCount(),
-		metadata.Statistics)
-}
-
-// ColumnChunkMetaData is a proxy around format.ColumnChunkMetaData
-// containing all of the information and metadata for a given column chunk
-// and it's associated Column
-type ColumnChunkMetaData struct {
-	column        *format.ColumnChunk
-	columnMeta    *format.ColumnMetaData
-	decryptedMeta format.ColumnMetaData
-	descr         *schema.Column
-	writerVersion *AppVersion
-	encodings     []parquet.Encoding
-	encodingStats []format.PageEncodingStats
-	possibleStats TypedStatistics
-	mem           memory.Allocator
-}
-
-// NewColumnChunkMetaData creates an instance of the metadata from a column chunk and descriptor
-//
-// this is primarily used internally or between the subpackages. ColumnChunkMetaDataBuilder should
-// be used by consumers instead of using this directly.
-func NewColumnChunkMetaData(column *format.ColumnChunk, descr *schema.Column, writerVersion *AppVersion, rowGroupOrdinal, columnOrdinal int16, fileDecryptor encryption.FileDecryptor) (*ColumnChunkMetaData, error) {
-	c := &ColumnChunkMetaData{
-		column:        column,
-		columnMeta:    column.GetMetaData(),
-		descr:         descr,
-		writerVersion: writerVersion,
-		mem:           memory.DefaultAllocator,
-	}
-	if column.IsSetCryptoMetadata() {
-		ccmd := column.CryptoMetadata
-
-		if ccmd.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-			if fileDecryptor != nil && fileDecryptor.Properties() != nil {
-				// should decrypt metadata
-				path := parquet.ColumnPath(ccmd.ENCRYPTION_WITH_COLUMN_KEY.GetPathInSchema())
-				keyMetadata := ccmd.ENCRYPTION_WITH_COLUMN_KEY.GetKeyMetadata()
-				aadColumnMetadata := encryption.CreateModuleAad(fileDecryptor.FileAad(), encryption.ColumnMetaModule, rowGroupOrdinal, columnOrdinal, -1)
-				decryptor := fileDecryptor.GetColumnMetaDecryptor(path.String(), string(keyMetadata), aadColumnMetadata)
-				thrift.DeserializeThrift(&c.decryptedMeta, decryptor.Decrypt(column.GetEncryptedColumnMetadata()))
-				c.columnMeta = &c.decryptedMeta
-			} else {
-				return nil, xerrors.New("cannot decrypt column metadata. file decryption not setup correctly")
-			}
-		}
-	}
-	for _, enc := range c.columnMeta.Encodings {
-		c.encodings = append(c.encodings, parquet.Encoding(enc))
-	}
-	for _, enc := range c.columnMeta.EncodingStats {
-		c.encodingStats = append(c.encodingStats, *enc)
-	}
-	return c, nil
-}
-
-// CryptoMetadata returns the cryptographic metadata for how this column was
-// encrypted and how to decrypt it.
-func (c *ColumnChunkMetaData) CryptoMetadata() *format.ColumnCryptoMetaData {
-	return c.column.GetCryptoMetadata()
-}
-
-// FileOffset is the location in the file where the column data begins
-func (c *ColumnChunkMetaData) FileOffset() int64 { return c.column.FileOffset }
-
-// FilePath gives the name of the parquet file if provided in the metadata
-func (c *ColumnChunkMetaData) FilePath() string { return c.column.GetFilePath() }
-
-// Type is the physical storage type used in the parquet file for this column chunk.
-func (c *ColumnChunkMetaData) Type() parquet.Type { return parquet.Type(c.columnMeta.Type) }
-
-// NumValues is the number of values stored in just this chunk including nulls.
-func (c *ColumnChunkMetaData) NumValues() int64 { return c.columnMeta.NumValues }
-
-// PathInSchema is the full path to this column from the root of the schema including
-// any nested columns
-func (c *ColumnChunkMetaData) PathInSchema() parquet.ColumnPath {
-	return c.columnMeta.GetPathInSchema()
-}
-
-// Compression provides the type of compression used for this particular chunk.
-func (c *ColumnChunkMetaData) Compression() compress.Compression {
-	return compress.Compression(c.columnMeta.Codec)
-}
-
-// Encodings returns the list of different encodings used in this chunk
-func (c *ColumnChunkMetaData) Encodings() []parquet.Encoding { return c.encodings }
-
-// EncodingStats connects the order of encodings based on the list of pages and types
-func (c *ColumnChunkMetaData) EncodingStats() []PageEncodingStats {
-	ret := make([]PageEncodingStats, len(c.encodingStats))
-	for idx := range ret {
-		ret[idx].Encoding = parquet.Encoding(c.encodingStats[idx].Encoding)
-		ret[idx].PageType = c.encodingStats[idx].PageType
-	}
-	return ret
-}
-
-// HasDictionaryPage returns true if there is a dictionary page offset set in
-// this metadata.
-func (c *ColumnChunkMetaData) HasDictionaryPage() bool {
-	return c.columnMeta.IsSetDictionaryPageOffset()
-}
-
-// DictionaryPageOffset returns the location in the file where the dictionary page starts
-func (c *ColumnChunkMetaData) DictionaryPageOffset() int64 {
-	return c.columnMeta.GetDictionaryPageOffset()
-}
-
-// DataPageOffset returns the location in the file where the data pages begin for this column
-func (c *ColumnChunkMetaData) DataPageOffset() int64 { return c.columnMeta.GetDataPageOffset() }
-
-// HasIndexPage returns true if the offset for the index page is set in the metadata
-func (c *ColumnChunkMetaData) HasIndexPage() bool { return c.columnMeta.IsSetIndexPageOffset() }
-
-// IndexPageOffset is the location in the file where the index page starts.
-func (c *ColumnChunkMetaData) IndexPageOffset() int64 { return c.columnMeta.GetIndexPageOffset() }
-
-// TotalCompressedSize will be equal to TotalUncompressedSize if the data is not compressed.
-// Otherwise this will be the size of the actual data in the file.
-func (c *ColumnChunkMetaData) TotalCompressedSize() int64 {
-	return c.columnMeta.GetTotalCompressedSize()
-}
-
-// TotalUncompressedSize is the total size of the raw data after uncompressing the chunk
-func (c *ColumnChunkMetaData) TotalUncompressedSize() int64 {
-	return c.columnMeta.GetTotalUncompressedSize()
-}
-
-// BloomFilterOffset is the byte offset from the beginning of the file to the bloom
-// filter data.
-func (c *ColumnChunkMetaData) BloomFilterOffset() int64 {
-	return c.columnMeta.GetBloomFilterOffset()
-}
-
-// StatsSet returns true only if there are statistics set in the metadata and the column
-// descriptor has a sort order that is not SortUnknown
-//
-// It also checks the writer version to ensure that it was not written by a version
-// of parquet which is known to have incorrect stat computations.
-func (c *ColumnChunkMetaData) StatsSet() (bool, error) {
-	if !c.columnMeta.IsSetStatistics() || c.descr.SortOrder() == schema.SortUNKNOWN {
-		return false, nil
-	}
-
-	if c.possibleStats == nil {
-		c.possibleStats = makeColumnStats(c.columnMeta, c.descr, c.mem)
-	}
-
-	encoded, err := c.possibleStats.Encode()
-	if err != nil {
-		return false, err
-	}
-
-	return c.writerVersion.HasCorrectStatistics(c.Type(), c.descr.LogicalType(), encoded, c.descr.SortOrder()), nil
-}
-
-func (c *ColumnChunkMetaData) Equals(other *ColumnChunkMetaData) bool {
-	return reflect.DeepEqual(c.columnMeta, other.columnMeta)
-}
-
-// Statistics can return nil if there are no stats in this metadata
-func (c *ColumnChunkMetaData) Statistics() (TypedStatistics, error) {
-	ok, err := c.StatsSet()
-	if err != nil {
-		return nil, err
-	}
-
-	if ok {
-		return c.possibleStats, nil
-	}
-	return nil, nil
-}
-
-// ColumnChunkMetaDataBuilder is used during writing to construct metadata
-// for a given column chunk while writing, providing a proxy around constructing
-// the actual thrift object.
-type ColumnChunkMetaDataBuilder struct {
-	chunk  *format.ColumnChunk
-	props  *parquet.WriterProperties
-	column *schema.Column
-
-	compressedSize int64
-}
-
-func NewColumnChunkMetaDataBuilder(props *parquet.WriterProperties, column *schema.Column) *ColumnChunkMetaDataBuilder {
-	return NewColumnChunkMetaDataBuilderWithContents(props, column, format.NewColumnChunk())
-}
-
-// NewColumnChunkMetaDataBuilderWithContents will construct a builder and start it with the provided
-// column chunk information rather than with an empty column chunk.
-func NewColumnChunkMetaDataBuilderWithContents(props *parquet.WriterProperties, column *schema.Column, chunk *format.ColumnChunk) *ColumnChunkMetaDataBuilder {
-	b := &ColumnChunkMetaDataBuilder{
-		props:  props,
-		column: column,
-		chunk:  chunk,
-	}
-	b.init(chunk)
-	return b
-}
-
-// Contents returns the underlying thrift ColumnChunk object so that it can be used
-// for constructing or duplicating column metadata
-func (c *ColumnChunkMetaDataBuilder) Contents() *format.ColumnChunk { return c.chunk }
-
-func (c *ColumnChunkMetaDataBuilder) init(chunk *format.ColumnChunk) {
-	c.chunk = chunk
-	if !c.chunk.IsSetMetaData() {
-		c.chunk.MetaData = format.NewColumnMetaData()
-	}
-	c.chunk.MetaData.Type = format.Type(c.column.PhysicalType())
-	c.chunk.MetaData.PathInSchema = schema.ColumnPathFromNode(c.column.SchemaNode())
-	c.chunk.MetaData.Codec = format.CompressionCodec(c.props.CompressionFor(c.column.Path()))
-}
-
-func (c *ColumnChunkMetaDataBuilder) SetFilePath(val string) {
-	c.chunk.FilePath = &val
-}
-
-// Descr returns the associated column descriptor for this column chunk
-func (c *ColumnChunkMetaDataBuilder) Descr() *schema.Column { return c.column }
-
-func (c *ColumnChunkMetaDataBuilder) TotalCompressedSize() int64 {
-	// if this column is encrypted, after Finish is called, the MetaData
-	// field is set to nil and we store the compressed size so return that
-	if c.chunk.MetaData == nil {
-		return c.compressedSize
-	}
-	return c.chunk.MetaData.GetTotalCompressedSize()
-}
-
-func (c *ColumnChunkMetaDataBuilder) SetStats(val EncodedStatistics) {
-	c.chunk.MetaData.Statistics = val.ToThrift()
-}
-
-// ChunkMetaInfo is a helper struct for passing the offset and size information
-// for finishing the building of column chunk metadata
-type ChunkMetaInfo struct {
-	NumValues        int64
-	DictPageOffset   int64
-	IndexPageOffset  int64
-	DataPageOffset   int64
-	CompressedSize   int64
-	UncompressedSize int64
-}
-
-// EncodingStats is a helper struct for passing the encoding stat information
-// for finishing up metadata for a column chunk.
-type EncodingStats struct {
-	DictEncodingStats map[parquet.Encoding]int32
-	DataEncodingStats map[parquet.Encoding]int32
-}
-
-// Finish finalizes the metadata with the given offsets,
-// flushes any compression that needs to be done, and performs
-// any encryption if an encryptor is provided.
-func (c *ColumnChunkMetaDataBuilder) Finish(info ChunkMetaInfo, hasDict, dictFallback bool, encStats EncodingStats, metaEncryptor encryption.Encryptor) error {
-	if info.DictPageOffset > 0 {
-		c.chunk.MetaData.DictionaryPageOffset = &info.DictPageOffset
-		c.chunk.FileOffset = info.DictPageOffset + info.CompressedSize
-	} else {
-		c.chunk.FileOffset = info.DataPageOffset + info.CompressedSize
-	}
-
-	c.chunk.MetaData.NumValues = info.NumValues
-	if info.IndexPageOffset >= 0 {
-		c.chunk.MetaData.IndexPageOffset = &info.IndexPageOffset
-	}
-
-	c.chunk.MetaData.DataPageOffset = info.DataPageOffset
-	c.chunk.MetaData.TotalUncompressedSize = info.UncompressedSize
-	c.chunk.MetaData.TotalCompressedSize = info.CompressedSize
-
-	// no matter the configuration, the maximum number of thrift encodings we'll
-	// populate is going to be 3:
-	// 	1. potential dictionary index encoding
-	//	2. page encoding
-	//	3. RLE for repetition and definition levels
-	// so let's preallocate a capacity of 3 but initialize the slice at 0 len
-	const maxEncodings = 3
-
-	thriftEncodings := make([]format.Encoding, 0, maxEncodings)
-	if hasDict {
-		thriftEncodings = append(thriftEncodings, format.Encoding(c.props.DictionaryIndexEncoding()))
-		if c.props.Version() == parquet.V1_0 {
-			thriftEncodings = append(thriftEncodings, format.Encoding_PLAIN)
-		} else {
-			thriftEncodings = append(thriftEncodings, format.Encoding(c.props.DictionaryPageEncoding()))
-		}
-	} else { // no dictionary
-		thriftEncodings = append(thriftEncodings, format.Encoding(c.props.EncodingFor(c.column.Path())))
-	}
-
-	thriftEncodings = append(thriftEncodings, format.Encoding(parquet.Encodings.RLE))
-	// Only PLAIN encoding is supported for fallback in V1
-	// TODO(zeroshade): Use user specified encoding for V2
-	if dictFallback {
-		thriftEncodings = append(thriftEncodings, format.Encoding_PLAIN)
-	}
-	c.chunk.MetaData.Encodings = thriftEncodings
-
-	thriftEncodingStats := make([]*format.PageEncodingStats, 0, len(encStats.DictEncodingStats)+len(encStats.DataEncodingStats))
-	for k, v := range encStats.DictEncodingStats {
-		thriftEncodingStats = append(thriftEncodingStats, &format.PageEncodingStats{
-			PageType: format.PageType_DICTIONARY_PAGE,
-			Encoding: format.Encoding(k),
-			Count:    v,
-		})
-	}
-	for k, v := range encStats.DataEncodingStats {
-		thriftEncodingStats = append(thriftEncodingStats, &format.PageEncodingStats{
-			PageType: format.PageType_DATA_PAGE,
-			Encoding: format.Encoding(k),
-			Count:    v,
-		})
-	}
-	c.chunk.MetaData.EncodingStats = thriftEncodingStats
-
-	encryptProps := c.props.ColumnEncryptionProperties(c.column.Path())
-	if encryptProps != nil && encryptProps.IsEncrypted() {
-		ccmd := format.NewColumnCryptoMetaData()
-		if encryptProps.IsEncryptedWithFooterKey() {
-			ccmd.ENCRYPTION_WITH_FOOTER_KEY = format.NewEncryptionWithFooterKey()
-		} else {
-			ccmd.ENCRYPTION_WITH_COLUMN_KEY = &format.EncryptionWithColumnKey{
-				KeyMetadata:  []byte(encryptProps.KeyMetadata()),
-				PathInSchema: c.column.ColumnPath(),
-			}
-		}
-		c.chunk.CryptoMetadata = ccmd
-
-		encryptedFooter := c.props.FileEncryptionProperties().EncryptedFooter()
-		encryptMetadata := !encryptedFooter || !encryptProps.IsEncryptedWithFooterKey()
-		if encryptMetadata {
-			// Serialize and encrypt ColumnMetadata separately
-			// Thrift-serialize the ColumnMetaData structure,
-			// encrypt it with the column key, and write to encrypted_column_metadata
-			serializer := thrift.NewThriftSerializer()
-			data, err := serializer.Write(context.Background(), c.chunk.MetaData)
-			if err != nil {
-				return err
-			}
-			var buf bytes.Buffer
-			metaEncryptor.Encrypt(&buf, data)
-			c.chunk.EncryptedColumnMetadata = buf.Bytes()
-
-			if encryptedFooter {
-				c.compressedSize = c.chunk.MetaData.GetTotalCompressedSize()
-				c.chunk.MetaData = nil
-			} else {
-				// Keep redacted metadata version for old readers
-				c.chunk.MetaData.Statistics = nil
-				c.chunk.MetaData.EncodingStats = nil
-			}
-		}
-	}
-	return nil
-}
-
-// WriteTo will always return 0 as the int64 since the thrift writer library
-// does not return the number of bytes written, we only use the signature
-// of (int64, error) in order to match the standard WriteTo interfaces.
-func (c *ColumnChunkMetaDataBuilder) WriteTo(w io.Writer) (int64, error) {
-	return 0, thrift.SerializeThriftStream(c.chunk, w)
-}
diff --git a/go/parquet/metadata/file.go b/go/parquet/metadata/file.go
deleted file mode 100644
index 2f7fe53303c3f..0000000000000
--- a/go/parquet/metadata/file.go
+++ /dev/null
@@ -1,527 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"io"
-	"reflect"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// DefaultCompressionType is used unless a different compression is specified
-// in the properties
-var DefaultCompressionType = compress.Codecs.Uncompressed
-
-// FileMetaDataBuilder is a proxy for more easily constructing file metadata
-// particularly used when writing a file out.
-type FileMetaDataBuilder struct {
-	metadata       *format.FileMetaData
-	props          *parquet.WriterProperties
-	schema         *schema.Schema
-	rowGroups      []*format.RowGroup
-	currentRgBldr  *RowGroupMetaDataBuilder
-	kvmeta         KeyValueMetadata
-	cryptoMetadata *format.FileCryptoMetaData
-}
-
-// NewFileMetadataBuilder will use the default writer properties if nil is passed for
-// the writer properties and nil is allowable for the key value metadata.
-func NewFileMetadataBuilder(schema *schema.Schema, props *parquet.WriterProperties, kvmeta KeyValueMetadata) *FileMetaDataBuilder {
-	var crypto *format.FileCryptoMetaData
-	if props.FileEncryptionProperties() != nil && props.FileEncryptionProperties().EncryptedFooter() {
-		crypto = format.NewFileCryptoMetaData()
-	}
-	return &FileMetaDataBuilder{
-		metadata:       format.NewFileMetaData(),
-		props:          props,
-		schema:         schema,
-		kvmeta:         kvmeta,
-		cryptoMetadata: crypto,
-	}
-}
-
-// GetFileCryptoMetaData returns the cryptographic information for encrypting/
-// decrypting the file.
-func (f *FileMetaDataBuilder) GetFileCryptoMetaData() *FileCryptoMetadata {
-	if f.cryptoMetadata == nil {
-		return nil
-	}
-
-	props := f.props.FileEncryptionProperties()
-	f.cryptoMetadata.EncryptionAlgorithm = props.Algorithm().ToThrift()
-	keyMetadata := props.FooterKeyMetadata()
-	if keyMetadata != "" {
-		f.cryptoMetadata.KeyMetadata = []byte(keyMetadata)
-	}
-
-	return &FileCryptoMetadata{f.cryptoMetadata, 0}
-}
-
-// AppendRowGroup adds a rowgroup to the list and returns a builder
-// for that row group
-func (f *FileMetaDataBuilder) AppendRowGroup() *RowGroupMetaDataBuilder {
-	if f.rowGroups == nil {
-		f.rowGroups = make([]*format.RowGroup, 0, 1)
-	}
-
-	rg := format.NewRowGroup()
-	f.rowGroups = append(f.rowGroups, rg)
-	f.currentRgBldr = NewRowGroupMetaDataBuilder(f.props, f.schema, rg)
-	return f.currentRgBldr
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (f *FileMetaDataBuilder) AppendKeyValueMetadata(key string, value string) error {
-	return f.kvmeta.Append(key, value)
-}
-
-// Finish will finalize the metadata of the number of rows, row groups,
-// version etc. This will clear out this filemetadatabuilder so it can
-// be re-used
-func (f *FileMetaDataBuilder) Finish() (*FileMetaData, error) {
-	out, err := f.Snapshot()
-	f.Clear()
-	return out, err
-}
-
-// Snapshot returns finalized metadata of the number of rows, row groups, version etc.
-// The snapshot must be used (e.g., serialized) before any additional (meta)data is
-// written, as it refers to builder datastructures that will continue to mutate.
-func (f *FileMetaDataBuilder) Snapshot() (*FileMetaData, error) {
-	totalRows := int64(0)
-	for _, rg := range f.rowGroups {
-		totalRows += rg.NumRows
-	}
-	f.metadata.NumRows = totalRows
-	f.metadata.RowGroups = f.rowGroups
-	switch f.props.Version() {
-	case parquet.V1_0:
-		f.metadata.Version = 1
-	default:
-		f.metadata.Version = 2
-	}
-	createdBy := f.props.CreatedBy()
-	f.metadata.CreatedBy = &createdBy
-
-	// Users cannot set the `ColumnOrder` since we do not have user defined sort order
-	// in the spec yet.
-	//
-	// We always default to `TYPE_DEFINED_ORDER`. We can expose it in
-	// the API once we have user defined sort orders in the Parquet format.
-	// TypeDefinedOrder implies choose SortOrder based on ConvertedType/PhysicalType
-	typeDefined := format.NewTypeDefinedOrder()
-	colOrder := &format.ColumnOrder{TYPE_ORDER: typeDefined}
-	f.metadata.ColumnOrders = make([]*format.ColumnOrder, f.schema.NumColumns())
-	for idx := range f.metadata.ColumnOrders {
-		f.metadata.ColumnOrders[idx] = colOrder
-	}
-
-	encryptProps := f.props.FileEncryptionProperties()
-	if encryptProps != nil && !encryptProps.EncryptedFooter() {
-		var signingAlgo parquet.Algorithm
-		algo := encryptProps.Algorithm()
-		signingAlgo.Aad.AadFileUnique = algo.Aad.AadFileUnique
-		signingAlgo.Aad.SupplyAadPrefix = algo.Aad.SupplyAadPrefix
-		if !algo.Aad.SupplyAadPrefix {
-			signingAlgo.Aad.AadPrefix = algo.Aad.AadPrefix
-		}
-		signingAlgo.Algo = parquet.AesGcm
-		f.metadata.EncryptionAlgorithm = signingAlgo.ToThrift()
-		footerSigningMetadata := f.props.FileEncryptionProperties().FooterKeyMetadata()
-		if footerSigningMetadata != "" {
-			f.metadata.FooterSigningKeyMetadata = []byte(footerSigningMetadata)
-		}
-	}
-
-	f.metadata.Schema = schema.ToThrift(f.schema.Root())
-	f.metadata.KeyValueMetadata = f.kvmeta
-
-	out := &FileMetaData{
-		FileMetaData: f.metadata,
-		version:      NewAppVersion(f.metadata.GetCreatedBy()),
-	}
-	if err := out.initSchema(); err != nil {
-		return nil, err
-	}
-	out.initColumnOrders()
-
-	return out, nil
-}
-
-// Clears out this filemetadatabuilder so it can be re-used
-func (f *FileMetaDataBuilder) Clear() {
-	f.metadata = format.NewFileMetaData()
-	f.rowGroups = nil
-}
-
-// KeyValueMetadata is an alias for a slice of thrift keyvalue pairs.
-//
-// It is presumed that the metadata should all be utf8 valid.
-type KeyValueMetadata []*format.KeyValue
-
-// NewKeyValueMetadata is equivalent to make(KeyValueMetadata, 0)
-func NewKeyValueMetadata() KeyValueMetadata {
-	return make(KeyValueMetadata, 0)
-}
-
-// Append adds the passed in key and value to the metadata, if either contains
-// any invalid utf8 runes, then it is not added and an error is returned.
-func (k *KeyValueMetadata) Append(key, value string) error {
-	if !utf8.ValidString(key) || !utf8.ValidString(value) {
-		return fmt.Errorf("metadata must be valid utf8 strings, got key = '%s' and value = '%s'", key, value)
-	}
-	*k = append(*k, &format.KeyValue{Key: key, Value: &value})
-	return nil
-}
-
-func (k KeyValueMetadata) Len() int { return len(k) }
-
-// Equals compares all of the metadata keys and values to check they are equal
-func (k KeyValueMetadata) Equals(other KeyValueMetadata) bool {
-	return reflect.DeepEqual(k, other)
-}
-
-func (k KeyValueMetadata) Keys() (ret []string) {
-	ret = make([]string, len(k))
-	for idx, v := range k {
-		ret[idx] = v.GetKey()
-	}
-	return
-}
-
-func (k KeyValueMetadata) Values() (ret []string) {
-	ret = make([]string, len(k))
-	for idx, v := range k {
-		ret[idx] = v.GetValue()
-	}
-	return
-}
-
-func (k KeyValueMetadata) FindValue(key string) *string {
-	for _, v := range k {
-		if v.Key == key {
-			return v.Value
-		}
-	}
-	return nil
-}
-
-// FileMetaData is a proxy around the underlying thrift FileMetaData object
-// to make it easier to use and interact with.
-type FileMetaData struct {
-	*format.FileMetaData
-	Schema        *schema.Schema
-	FileDecryptor encryption.FileDecryptor
-
-	// app version of the writer for this file
-	version *AppVersion
-	// size of the raw bytes of the metadata in the file which were
-	// decoded by thrift, Size() getter returns the value.
-	metadataLen int
-}
-
-// NewFileMetaData takes in the raw bytes of the serialized metadata to deserialize
-// and will attempt to decrypt the footer if a decryptor is provided.
-func NewFileMetaData(data []byte, fileDecryptor encryption.FileDecryptor) (*FileMetaData, error) {
-	meta := format.NewFileMetaData()
-	if fileDecryptor != nil {
-		footerDecryptor := fileDecryptor.GetFooterDecryptor()
-		data = footerDecryptor.Decrypt(data)
-	}
-
-	remain, err := thrift.DeserializeThrift(meta, data)
-	if err != nil {
-		return nil, err
-	}
-
-	f := &FileMetaData{
-		FileMetaData:  meta,
-		version:       NewAppVersion(meta.GetCreatedBy()),
-		metadataLen:   len(data) - int(remain),
-		FileDecryptor: fileDecryptor,
-	}
-
-	f.initSchema()
-	f.initColumnOrders()
-
-	return f, nil
-}
-
-// Size is the length of the raw serialized metadata bytes in the footer
-func (f *FileMetaData) Size() int { return f.metadataLen }
-
-// NumSchemaElements is the length of the flattened schema list in the thrift
-func (f *FileMetaData) NumSchemaElements() int {
-	return len(f.FileMetaData.Schema)
-}
-
-// RowGroup provides the metadata for the (0-based) index of the row group
-func (f *FileMetaData) RowGroup(i int) *RowGroupMetaData {
-	return &RowGroupMetaData{
-		f.RowGroups[i], f.Schema, f.version, f.FileDecryptor,
-	}
-}
-
-func (f *FileMetaData) Serialize(ctx context.Context) ([]byte, error) {
-	return thrift.NewThriftSerializer().Write(ctx, f.FileMetaData)
-}
-
-func (f *FileMetaData) SerializeString(ctx context.Context) (string, error) {
-	return thrift.NewThriftSerializer().WriteString(ctx, f.FileMetaData)
-}
-
-// EncryptionAlgorithm constructs the algorithm object from the thrift
-// information or returns an empty instance if it was not set.
-func (f *FileMetaData) EncryptionAlgorithm() parquet.Algorithm {
-	if f.IsSetEncryptionAlgorithm() {
-		return parquet.AlgorithmFromThrift(f.GetEncryptionAlgorithm())
-	}
-	return parquet.Algorithm{}
-}
-
-func (f *FileMetaData) initSchema() error {
-	root, err := schema.FromParquet(f.FileMetaData.Schema)
-	if err != nil {
-		return err
-	}
-	f.Schema = schema.NewSchema(root.(*schema.GroupNode))
-	return nil
-}
-
-func (f *FileMetaData) initColumnOrders() {
-	orders := make([]parquet.ColumnOrder, 0, f.Schema.NumColumns())
-	if f.IsSetColumnOrders() {
-		for _, o := range f.GetColumnOrders() {
-			if o.IsSetTYPE_ORDER() {
-				orders = append(orders, parquet.ColumnOrders.TypeDefinedOrder)
-			} else {
-				orders = append(orders, parquet.ColumnOrders.Undefined)
-			}
-		}
-	} else {
-		orders = orders[:f.Schema.NumColumns()]
-		orders[0] = parquet.ColumnOrders.Undefined
-		for i := 1; i < len(orders); i *= 2 {
-			copy(orders[i:], orders[:i])
-		}
-	}
-	f.Schema.UpdateColumnOrders(orders)
-}
-
-// WriterVersion returns the constructed application version from the
-// created by string
-func (f *FileMetaData) WriterVersion() *AppVersion {
-	if f.version == nil {
-		f.version = NewAppVersion(f.GetCreatedBy())
-	}
-	return f.version
-}
-
-// SetFilePath will set the file path into all of the columns in each row group.
-func (f *FileMetaData) SetFilePath(path string) {
-	for _, rg := range f.RowGroups {
-		for _, chunk := range rg.Columns {
-			chunk.FilePath = &path
-		}
-	}
-}
-
-// AppendRowGroups will add all of the rowgroup metadata from other to the
-// current file metadata
-func (f *FileMetaData) AppendRowGroups(other *FileMetaData) error {
-	if !f.Schema.Equals(other.Schema) {
-		return xerrors.New("parquet/FileMetaData: AppendRowGroups requires equal schemas")
-	}
-
-	f.RowGroups = append(f.RowGroups, other.GetRowGroups()...)
-	for _, rg := range other.GetRowGroups() {
-		f.NumRows += rg.NumRows
-	}
-	return nil
-}
-
-// Subset will construct a new FileMetaData object containing only the requested
-// row groups by index
-func (f *FileMetaData) Subset(rowGroups []int) (*FileMetaData, error) {
-	for _, i := range rowGroups {
-		if i < len(f.RowGroups) {
-			continue
-		}
-		return nil, fmt.Errorf("parquet: this file only has %d row groups, but requested a subset including row group: %d", len(f.RowGroups), i)
-	}
-
-	out := &FileMetaData{
-		&format.FileMetaData{
-			Schema:                   f.FileMetaData.Schema,
-			CreatedBy:                f.CreatedBy,
-			ColumnOrders:             f.GetColumnOrders(),
-			EncryptionAlgorithm:      f.FileMetaData.EncryptionAlgorithm,
-			FooterSigningKeyMetadata: f.FooterSigningKeyMetadata,
-			Version:                  f.FileMetaData.Version,
-			KeyValueMetadata:         f.KeyValueMetadata(),
-		},
-		f.Schema,
-		f.FileDecryptor,
-		f.version,
-		0,
-	}
-
-	out.RowGroups = make([]*format.RowGroup, 0, len(rowGroups))
-	for _, selected := range rowGroups {
-		out.RowGroups = append(out.RowGroups, f.RowGroups[selected])
-		out.NumRows += f.RowGroups[selected].GetNumRows()
-	}
-
-	return out, nil
-}
-
-func (f *FileMetaData) Equals(other *FileMetaData) bool {
-	return reflect.DeepEqual(f.FileMetaData, other.FileMetaData)
-}
-
-func (f *FileMetaData) KeyValueMetadata() KeyValueMetadata {
-	return f.GetKeyValueMetadata()
-}
-
-// VerifySignature constructs a cryptographic signature using the FileDecryptor
-// of the footer and then verifies it's integrity.
-//
-// Panics if f.FileDecryptor is nil
-func (f *FileMetaData) VerifySignature(signature []byte) bool {
-	if f.FileDecryptor == nil {
-		panic("decryption not set properly, cannot verify signature")
-	}
-
-	serializer := thrift.NewThriftSerializer()
-	data, _ := serializer.Write(context.Background(), f.FileMetaData)
-	nonce := signature[:encryption.NonceLength]
-	tag := signature[encryption.NonceLength : encryption.NonceLength+encryption.GcmTagLength]
-
-	key := f.FileDecryptor.GetFooterKey()
-	aad := encryption.CreateFooterAad(f.FileDecryptor.FileAad())
-
-	enc := encryption.NewAesEncryptor(f.FileDecryptor.Algorithm(), true)
-	var buf bytes.Buffer
-	buf.Grow(enc.CiphertextSizeDelta() + len(data))
-	encryptedLen := enc.SignedFooterEncrypt(&buf, data, []byte(key), []byte(aad), nonce)
-	return bytes.Equal(buf.Bytes()[encryptedLen-encryption.GcmTagLength:], tag)
-}
-
-// WriteTo will serialize and write out this file metadata, encrypting it if
-// appropriate.
-//
-// If it is an encrypted file with a plaintext footer, then we will write the
-// signature with the unencrypted footer.
-func (f *FileMetaData) WriteTo(w io.Writer, encryptor encryption.Encryptor) (int64, error) {
-	serializer := thrift.NewThriftSerializer()
-	// only in encrypted files with plaintext footers, the encryption algorithm is set in the footer
-	if f.IsSetEncryptionAlgorithm() {
-		data, err := serializer.Write(context.Background(), f.FileMetaData)
-		if err != nil {
-			return 0, err
-		}
-
-		// encrypt the footer key
-		var buf bytes.Buffer
-		buf.Grow(encryptor.CiphertextSizeDelta() + len(data))
-		encryptedLen := encryptor.Encrypt(&buf, data)
-
-		wrote := 0
-		n := 0
-		// write unencrypted footer
-		if n, err = w.Write(data); err != nil {
-			return int64(n), err
-		}
-		wrote += n
-		// write signature (nonce and tag)
-		buf.Next(4)
-		if n, err = w.Write(buf.Next(encryption.NonceLength)); err != nil {
-			return int64(wrote + n), err
-		}
-		wrote += n
-		buf.Next(encryptedLen - 4 - encryption.NonceLength - encryption.GcmTagLength)
-		n, err = w.Write(buf.Next(encryption.GcmTagLength))
-		return int64(wrote + n), err
-	}
-	n, err := serializer.Serialize(f.FileMetaData, w, encryptor)
-	return int64(n), err
-}
-
-// Version returns the "version" of the file
-//
-// WARNING: The value returned by this method is unreliable as 1) the
-// parquet file metadata stores the version as a single integer and
-// 2) some producers are known to always write a hardcoded value. Therefore
-// you cannot use this value to know which features are used in the file.
-func (f *FileMetaData) Version() parquet.Version {
-	switch f.FileMetaData.Version {
-	case 1:
-		return parquet.V1_0
-	case 2:
-		return parquet.V2_LATEST
-	default:
-		// improperly set version, assume parquet 1.0
-		return parquet.V1_0
-	}
-}
-
-// FileCryptoMetadata is a proxy for the thrift fileCryptoMetadata object
-type FileCryptoMetadata struct {
-	metadata          *format.FileCryptoMetaData
-	cryptoMetadataLen uint32
-}
-
-// NewFileCryptoMetaData takes in the raw serialized bytes to deserialize
-// storing the number of bytes that were actually deserialized.
-func NewFileCryptoMetaData(metadata []byte) (ret FileCryptoMetadata, err error) {
-	ret.metadata = format.NewFileCryptoMetaData()
-	var remain uint64
-	remain, err = thrift.DeserializeThrift(ret.metadata, metadata)
-	ret.cryptoMetadataLen = uint32(uint64(len(metadata)) - remain)
-	return
-}
-
-// WriteTo writes out the serialized crypto metadata to w
-func (fc FileCryptoMetadata) WriteTo(w io.Writer) (int64, error) {
-	serializer := thrift.NewThriftSerializer()
-	n, err := serializer.Serialize(fc.metadata, w, nil)
-	return int64(n), err
-}
-
-// Len is the number of bytes that were deserialized to create this object
-func (fc FileCryptoMetadata) Len() int { return int(fc.cryptoMetadataLen) }
-
-func (fc FileCryptoMetadata) KeyMetadata() []byte {
-	return fc.metadata.KeyMetadata
-}
-
-// EncryptionAlgorithm constructs the object from the thrift instance of
-// the encryption algorithm
-func (fc FileCryptoMetadata) EncryptionAlgorithm() parquet.Algorithm {
-	return parquet.AlgorithmFromThrift(fc.metadata.GetEncryptionAlgorithm())
-}
diff --git a/go/parquet/metadata/metadata_test.go b/go/parquet/metadata/metadata_test.go
deleted file mode 100644
index 8ecb95cf41e9d..0000000000000
--- a/go/parquet/metadata/metadata_test.go
+++ /dev/null
@@ -1,381 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata_test
-
-import (
-	"context"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func generateTableMetaData(schema *schema.Schema, props *parquet.WriterProperties, nrows int, statsInt, statsFloat metadata.EncodedStatistics) (*metadata.FileMetaData, error) {
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, nil)
-	rg1Builder := fbuilder.AppendRowGroup()
-	// metadata
-	// row group 1
-	col1Builder := rg1Builder.NextColumnChunk()
-	col2Builder := rg1Builder.NextColumnChunk()
-	// column metadata
-	dictEncodingStats := map[parquet.Encoding]int32{parquet.Encodings.RLEDict: 1}
-	dataEncodingStats := map[parquet.Encoding]int32{parquet.Encodings.Plain: 1, parquet.Encodings.RLE: 1}
-	statsInt.Signed = true
-	col1Builder.SetStats(statsInt)
-	statsFloat.Signed = true
-	col2Builder.SetStats(statsFloat)
-
-	col1Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 4, 0, 10, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-	col2Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 24, 0, 30, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-
-	rg1Builder.SetNumRows(nrows / 2)
-	rg1Builder.Finish(1024, -1)
-
-	// rowgroup2 metadata
-	rg2Builder := fbuilder.AppendRowGroup()
-	col1Builder = rg2Builder.NextColumnChunk()
-	col2Builder = rg2Builder.NextColumnChunk()
-	// column metadata
-	col1Builder.SetStats(statsInt)
-	col2Builder.SetStats(statsFloat)
-	dictEncodingStats = make(map[parquet.Encoding]int32)
-	col1Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 0 /*dictionary page offset*/, 0, 10, 512, 600}, false /* has dictionary */, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-	col2Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 16, 0, 26, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-
-	rg2Builder.SetNumRows(nrows / 2)
-	rg2Builder.Finish(1024, -1)
-
-	return fbuilder.Finish()
-}
-
-func assertStatsSet(t *testing.T, m *metadata.ColumnChunkMetaData) {
-	ok, err := m.StatsSet()
-	assert.NoError(t, err)
-	assert.True(t, ok)
-}
-
-func assertStats(t *testing.T, m *metadata.ColumnChunkMetaData) metadata.TypedStatistics {
-	s, err := m.Statistics()
-	assert.NoError(t, err)
-	assert.NotNil(t, s)
-	return s
-}
-
-func TestBuildAccess(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	var (
-		nrows      int64   = 1000
-		intMin     int32   = 100
-		intMax     int32   = 200
-		floatMin   float32 = 100.100
-		floatMax   float32 = 200.200
-		statsInt   metadata.EncodedStatistics
-		statsFloat metadata.EncodedStatistics
-	)
-
-	statsInt.SetNullCount(0).
-		SetDistinctCount(nrows).
-		SetMin((*(*[4]byte)(unsafe.Pointer(&intMin)))[:]).
-		SetMax((*(*[4]byte)(unsafe.Pointer(&intMax)))[:])
-
-	statsFloat.SetNullCount(0).
-		SetDistinctCount(nrows).
-		SetMin((*(*[4]byte)(unsafe.Pointer(&floatMin)))[:]).
-		SetMax((*(*[4]byte)(unsafe.Pointer(&floatMax)))[:])
-
-	faccessor, err := generateTableMetaData(schema, props, int(nrows), statsInt, statsFloat)
-	require.NoError(t, err)
-	serialized, err := faccessor.SerializeString(context.Background())
-	assert.NoError(t, err)
-	faccessorCopy, err := metadata.NewFileMetaData([]byte(serialized), nil)
-	assert.NoError(t, err)
-
-	for _, accessor := range []*metadata.FileMetaData{faccessor, faccessorCopy} {
-		// file metadata
-		assert.Equal(t, nrows, accessor.NumRows)
-		assert.Len(t, accessor.RowGroups, 2)
-		assert.EqualValues(t, parquet.V2_LATEST, accessor.Version())
-		assert.Equal(t, parquet.DefaultCreatedBy, accessor.GetCreatedBy())
-		assert.Equal(t, 3, accessor.NumSchemaElements())
-
-		// row group 1 metadata
-		rg1Access := accessor.RowGroup(0)
-		assert.Equal(t, 2, rg1Access.NumColumns())
-		assert.Equal(t, nrows/2, rg1Access.NumRows())
-		assert.Equal(t, int64(1024), rg1Access.TotalByteSize())
-		assert.Equal(t, int64(1024), rg1Access.TotalCompressedSize())
-
-		rg1Col1, err := rg1Access.ColumnChunk(0)
-		assert.NoError(t, err)
-		assert.Equal(t, rg1Access.FileOffset(), rg1Col1.DictionaryPageOffset())
-
-		rg1Col2, err := rg1Access.ColumnChunk(1)
-		assert.NoError(t, err)
-		assertStatsSet(t, rg1Col1)
-		assertStatsSet(t, rg1Col2)
-		assert.Equal(t, statsInt.Min, assertStats(t, rg1Col1).EncodeMin())
-		assert.Equal(t, statsInt.Max, assertStats(t, rg1Col1).EncodeMax())
-		assert.Equal(t, statsFloat.Min, assertStats(t, rg1Col2).EncodeMin())
-		assert.Equal(t, statsFloat.Max, assertStats(t, rg1Col2).EncodeMax())
-		assert.Zero(t, assertStats(t, rg1Col1).NullCount())
-		assert.Zero(t, assertStats(t, rg1Col2).NullCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col1).DistinctCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col2).DistinctCount())
-		assert.Equal(t, metadata.DefaultCompressionType, rg1Col1.Compression())
-		assert.Equal(t, metadata.DefaultCompressionType, rg1Col2.Compression())
-		assert.Equal(t, nrows/2, rg1Col1.NumValues())
-		assert.Equal(t, nrows/2, rg1Col2.NumValues())
-		assert.Len(t, rg1Col1.Encodings(), 3)
-		assert.Len(t, rg1Col2.Encodings(), 3)
-		assert.EqualValues(t, 512, rg1Col1.TotalCompressedSize())
-		assert.EqualValues(t, 512, rg1Col2.TotalCompressedSize())
-		assert.EqualValues(t, 600, rg1Col1.TotalUncompressedSize())
-		assert.EqualValues(t, 600, rg1Col2.TotalUncompressedSize())
-		assert.EqualValues(t, 4, rg1Col1.DictionaryPageOffset())
-		assert.EqualValues(t, 24, rg1Col2.DictionaryPageOffset())
-		assert.EqualValues(t, 10, rg1Col1.DataPageOffset())
-		assert.EqualValues(t, 30, rg1Col2.DataPageOffset())
-		assert.Len(t, rg1Col1.EncodingStats(), 3)
-		assert.Len(t, rg1Col2.EncodingStats(), 3)
-
-		// row group 2 metadata
-		rg2Access := accessor.RowGroup(1)
-		assert.Equal(t, 2, rg2Access.NumColumns())
-		assert.Equal(t, nrows/2, rg2Access.NumRows())
-		assert.EqualValues(t, 1024, rg2Access.TotalByteSize())
-		assert.EqualValues(t, 1024, rg2Access.TotalCompressedSize())
-
-		rg2Col1, err := rg2Access.ColumnChunk(0)
-		assert.NoError(t, err)
-		assert.Equal(t, rg2Access.FileOffset(), rg2Col1.DataPageOffset())
-
-		rg2Col2, err := rg2Access.ColumnChunk(1)
-		assert.NoError(t, err)
-		assertStatsSet(t, rg1Col1)
-		assertStatsSet(t, rg1Col2)
-		assert.Equal(t, statsInt.Min, assertStats(t, rg1Col1).EncodeMin())
-		assert.Equal(t, statsInt.Max, assertStats(t, rg1Col1).EncodeMax())
-		assert.Equal(t, statsFloat.Min, assertStats(t, rg1Col2).EncodeMin())
-		assert.Equal(t, statsFloat.Max, assertStats(t, rg1Col2).EncodeMax())
-		assert.Zero(t, assertStats(t, rg1Col1).NullCount())
-		assert.Zero(t, assertStats(t, rg1Col2).NullCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col1).DistinctCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col2).DistinctCount())
-		assert.Equal(t, metadata.DefaultCompressionType, rg2Col1.Compression())
-		assert.Equal(t, metadata.DefaultCompressionType, rg2Col2.Compression())
-		assert.Equal(t, nrows/2, rg2Col1.NumValues())
-		assert.Equal(t, nrows/2, rg2Col2.NumValues())
-		assert.Len(t, rg2Col1.Encodings(), 2)
-		assert.Len(t, rg2Col2.Encodings(), 3)
-		assert.EqualValues(t, 512, rg2Col1.TotalCompressedSize())
-		assert.EqualValues(t, 512, rg2Col2.TotalCompressedSize())
-		assert.EqualValues(t, 600, rg2Col1.TotalUncompressedSize())
-		assert.EqualValues(t, 600, rg2Col2.TotalUncompressedSize())
-		assert.EqualValues(t, 0, rg2Col1.DictionaryPageOffset())
-		assert.EqualValues(t, 16, rg2Col2.DictionaryPageOffset())
-		assert.EqualValues(t, 10, rg2Col1.DataPageOffset())
-		assert.EqualValues(t, 26, rg2Col2.DataPageOffset())
-		assert.Len(t, rg2Col1.EncodingStats(), 2)
-		assert.Len(t, rg2Col2.EncodingStats(), 2)
-
-		assert.Empty(t, rg2Col1.FilePath())
-		accessor.SetFilePath("/foo/bar/bar.parquet")
-		assert.Equal(t, "/foo/bar/bar.parquet", rg2Col1.FilePath())
-	}
-
-	faccessor2, err := generateTableMetaData(schema, props, int(nrows), statsInt, statsFloat)
-	require.NoError(t, err)
-	faccessor.AppendRowGroups(faccessor2)
-	assert.Len(t, faccessor.RowGroups, 4)
-	assert.Equal(t, nrows*2, faccessor.NumRows)
-	assert.EqualValues(t, parquet.V2_LATEST, faccessor.Version())
-	assert.Equal(t, parquet.DefaultCreatedBy, faccessor.GetCreatedBy())
-	assert.Equal(t, 3, faccessor.NumSchemaElements())
-
-	faccessor1, err := faccessor.Subset([]int{2, 3})
-	require.NoError(t, err)
-	assert.True(t, faccessor1.Equals(faccessor2))
-
-	faccessor1, err = faccessor2.Subset([]int{0})
-	require.NoError(t, err)
-
-	next, err := faccessor.Subset([]int{0})
-	require.NoError(t, err)
-	faccessor1.AppendRowGroups(next)
-
-	sub, err := faccessor.Subset([]int{2, 0})
-	require.NoError(t, err)
-	assert.True(t, faccessor1.Equals(sub))
-}
-
-func TestV1VersionMetadata(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, nil)
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-	assert.EqualValues(t, parquet.V1_0, faccessor.Version())
-}
-
-func TestKeyValueMetadata(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-	kvmeta := metadata.NewKeyValueMetadata()
-	kvmeta.Append("test_key", "test_value")
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, kvmeta)
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-
-	assert.True(t, faccessor.KeyValueMetadata().Equals(kvmeta))
-}
-
-func TestKeyValueMetadataAppend(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	kvmeta := metadata.NewKeyValueMetadata()
-	key1 := "test_key1"
-	value1 := "test_value1"
-	require.NoError(t, kvmeta.Append(key1, value1))
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, kvmeta)
-
-	key2 := "test_key2"
-	value2 := "test_value2"
-	require.NoError(t, fbuilder.AppendKeyValueMetadata(key2, value2))
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-
-	kv := faccessor.KeyValueMetadata()
-
-	got1 := kv.FindValue(key1)
-	require.NotNil(t, got1)
-	assert.Equal(t, value1, *got1)
-
-	got2 := kv.FindValue(key2)
-	require.NotNil(t, got2)
-	assert.Equal(t, value2, *got2)
-}
-
-func TestApplicationVersion(t *testing.T) {
-	version := metadata.NewAppVersion("parquet-mr version 1.7.9")
-	version1 := metadata.NewAppVersion("parquet-mr version 1.8.0")
-	version2 := metadata.NewAppVersion("parquet-cpp version 1.0.0")
-	version3 := metadata.NewAppVersion("")
-	version4 := metadata.NewAppVersion("parquet-mr version 1.5.0ab-cdh5.5.0+cd (build abcd)")
-	version5 := metadata.NewAppVersion("parquet-mr")
-
-	assert.Equal(t, "parquet-mr", version.App)
-	assert.Equal(t, 1, version.Version.Major)
-	assert.Equal(t, 7, version.Version.Minor)
-	assert.Equal(t, 9, version.Version.Patch)
-
-	assert.Equal(t, "parquet-cpp", version2.App)
-	assert.Equal(t, 1, version2.Version.Major)
-	assert.Equal(t, 0, version2.Version.Minor)
-	assert.Equal(t, 0, version2.Version.Patch)
-
-	assert.Equal(t, "parquet-mr", version4.App)
-	assert.Equal(t, "abcd", version4.Build)
-	assert.Equal(t, 1, version4.Version.Major)
-	assert.Equal(t, 5, version4.Version.Minor)
-	assert.Equal(t, 0, version4.Version.Patch)
-	assert.Equal(t, "ab", version4.Version.Unknown)
-	assert.Equal(t, "cdh5.5.0", version4.Version.PreRelease)
-	assert.Equal(t, "cd", version4.Version.BuildInfo)
-
-	assert.Equal(t, "parquet-mr", version5.App)
-	assert.Equal(t, 0, version5.Version.Major)
-	assert.Equal(t, 0, version5.Version.Minor)
-	assert.Equal(t, 0, version5.Version.Patch)
-
-	assert.True(t, version.LessThan(version1))
-
-	var stats metadata.EncodedStatistics
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.Int96, schema.NoLogicalType{}, stats, schema.SortUNKNOWN))
-	assert.True(t, version.HasCorrectStatistics(parquet.Types.Int32, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.False(t, version.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortUNSIGNED))
-	assert.True(t, version3.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-
-	// check that the old stats are correct if min and max are the same regardless of sort order
-	var statsStr metadata.EncodedStatistics
-	statsStr.SetMin([]byte("a")).SetMax([]byte("b"))
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsStr, schema.SortUNSIGNED))
-	statsStr.SetMax([]byte("a"))
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsStr, schema.SortUNSIGNED))
-
-	// check that the same holds true for ints
-	var (
-		intMin int32 = 100
-		intMax int32 = 200
-	)
-	var statsInt metadata.EncodedStatistics
-	statsInt.SetMin((*(*[4]byte)(unsafe.Pointer(&intMin)))[:])
-	statsInt.SetMax((*(*[4]byte)(unsafe.Pointer(&intMax)))[:])
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsInt, schema.SortUNSIGNED))
-	statsInt.SetMax((*(*[4]byte)(unsafe.Pointer(&intMin)))[:])
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsInt, schema.SortUNSIGNED))
-}
-
-func TestCheckBadDecimalStats(t *testing.T) {
-	version1 := metadata.NewAppVersion("parquet-cpp version 3.0.0")
-	version2 := metadata.NewAppVersion("parquet-cpp-arrow version 3.0.0")
-	version3 := metadata.NewAppVersion("parquet-cpp-arrow version 4.0.0")
-
-	var stats metadata.EncodedStatistics
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-	assert.False(t, version2.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-	assert.True(t, version3.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-}
diff --git a/go/parquet/metadata/row_group.go b/go/parquet/metadata/row_group.go
deleted file mode 100644
index 5373fb6f783fc..0000000000000
--- a/go/parquet/metadata/row_group.go
+++ /dev/null
@@ -1,177 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// RowGroupMetaData is a proxy around the thrift RowGroup meta data object
-type RowGroupMetaData struct {
-	rowGroup      *format.RowGroup
-	Schema        *schema.Schema
-	version       *AppVersion
-	fileDecryptor encryption.FileDecryptor
-}
-
-// NewRowGroupMetaData constructs an object from the underlying thrift objects and schema,
-// decrypting if provided and necessary. This is primarily used internally and consumers
-// should use the RowGroupMetaDataBuilder rather than this directly.
-func NewRowGroupMetaData(rg *format.RowGroup, sc *schema.Schema, version *AppVersion, decryptor encryption.FileDecryptor) *RowGroupMetaData {
-	return &RowGroupMetaData{
-		rowGroup:      rg,
-		Schema:        sc,
-		version:       version,
-		fileDecryptor: decryptor,
-	}
-}
-
-// NumColumns returns the number of column metadata objects in this row group
-func (r *RowGroupMetaData) NumColumns() int {
-	return len(r.rowGroup.GetColumns())
-}
-
-func (r *RowGroupMetaData) Equals(other *RowGroupMetaData) bool {
-	return reflect.DeepEqual(r.rowGroup, other.rowGroup)
-}
-
-// NumRows is just the number of rows in this row group. All columns have the same
-// number of rows for a row group regardless of repetition and definition levels.
-func (r *RowGroupMetaData) NumRows() int64 { return r.rowGroup.NumRows }
-
-// TotalByteSize is the total size of this rowgroup on disk
-func (r *RowGroupMetaData) TotalByteSize() int64 { return r.rowGroup.GetTotalByteSize() }
-
-// FileOffset is the location in the file where the data for this rowgroup begins
-func (r *RowGroupMetaData) FileOffset() int64 { return r.rowGroup.GetFileOffset() }
-
-func (r *RowGroupMetaData) TotalCompressedSize() int64 { return r.rowGroup.GetTotalCompressedSize() }
-
-// Ordinal is the row group number in order for the given file.
-func (r *RowGroupMetaData) Ordinal() int16 { return r.rowGroup.GetOrdinal() }
-
-// ColumnChunk returns the metadata for the requested (0-based) chunk index
-func (r *RowGroupMetaData) ColumnChunk(i int) (*ColumnChunkMetaData, error) {
-	if i >= r.NumColumns() {
-		panic(fmt.Errorf("parquet: the file only has %d columns, requested metadata for column: %d", r.NumColumns(), i))
-	}
-
-	return NewColumnChunkMetaData(r.rowGroup.Columns[i], r.Schema.Column(i), r.version, r.rowGroup.GetOrdinal(), int16(i), r.fileDecryptor)
-}
-
-// RowGroupMetaDataBuilder is a convenience object for constructing row group
-// metadata information. Primarily used in conjunction with writing new files.
-type RowGroupMetaDataBuilder struct {
-	rg          *format.RowGroup
-	props       *parquet.WriterProperties
-	schema      *schema.Schema
-	colBuilders []*ColumnChunkMetaDataBuilder
-	nextCol     int
-}
-
-// NewRowGroupMetaDataBuilder returns a builder using the given properties and underlying thrift object.
-//
-// This is primarily used internally, consumers should use the file metadatabuilder and call
-// AppendRowGroup on it to get instances of RowGroupMetaDataBuilder
-func NewRowGroupMetaDataBuilder(props *parquet.WriterProperties, schema *schema.Schema, rg *format.RowGroup) *RowGroupMetaDataBuilder {
-	r := &RowGroupMetaDataBuilder{
-		rg:          rg,
-		props:       props,
-		schema:      schema,
-		colBuilders: make([]*ColumnChunkMetaDataBuilder, 0),
-	}
-	r.rg.Columns = make([]*format.ColumnChunk, schema.NumColumns())
-	return r
-}
-
-// NumColumns returns the current number of columns in this metadata
-func (r *RowGroupMetaDataBuilder) NumColumns() int {
-	return int(len(r.rg.GetColumns()))
-}
-
-func (r *RowGroupMetaDataBuilder) NumRows() int64 {
-	return r.rg.GetNumRows()
-}
-
-func (r *RowGroupMetaDataBuilder) SetNumRows(nrows int) {
-	r.rg.NumRows = int64(nrows)
-}
-
-// CurrentColumn returns the current column chunk (0-based) index that is being built.
-//
-// Returns -1 until the first time NextColumnChunk is called.
-func (r *RowGroupMetaDataBuilder) CurrentColumn() int { return r.nextCol - 1 }
-
-// NextColumnChunk appends a new column chunk, updates the column index,
-// and returns a builder for that column chunk's metadata
-func (r *RowGroupMetaDataBuilder) NextColumnChunk() *ColumnChunkMetaDataBuilder {
-	if r.nextCol >= r.NumColumns() {
-		panic(fmt.Errorf("parquet: the schema only has %d columns, requested metadata for col: %d", r.NumColumns(), r.nextCol))
-	}
-
-	col := r.schema.Column(r.nextCol)
-	if r.rg.Columns[r.nextCol] == nil {
-		r.rg.Columns[r.nextCol] = &format.ColumnChunk{MetaData: format.NewColumnMetaData()}
-	}
-	colBldr := NewColumnChunkMetaDataBuilderWithContents(r.props, col, r.rg.Columns[r.nextCol])
-	r.nextCol++
-	r.colBuilders = append(r.colBuilders, colBldr)
-	return colBldr
-}
-
-// Finish should be called when complete and updates the metadata with the final
-// file offset, and total compressed sizes. totalBytesWritten gets written as the
-// TotalByteSize for the row group and Ordinal should be the index of the row group
-// being written. e.g. first row group should be 0, second is 1, and so on...
-func (r *RowGroupMetaDataBuilder) Finish(totalBytesWritten int64, ordinal int16) error {
-	if r.nextCol != r.NumColumns() {
-		return fmt.Errorf("parquet: only %d out of %d columns are initialized", r.nextCol-1, r.schema.NumColumns())
-	}
-
-	var (
-		fileOffset      int64 = 0
-		totalCompressed int64 = 0
-	)
-
-	for idx, col := range r.rg.Columns {
-		if col.FileOffset < 0 {
-			return fmt.Errorf("parquet: Column %d is not complete", idx)
-		}
-		if idx == 0 {
-			if col.MetaData.IsSetDictionaryPageOffset() && col.MetaData.GetDictionaryPageOffset() > 0 {
-				fileOffset = col.MetaData.GetDictionaryPageOffset()
-			} else {
-				fileOffset = col.MetaData.DataPageOffset
-			}
-		}
-		// sometimes column metadata is encrypted and not available to read
-		// so we must get total compressed size from column builder
-		totalCompressed += r.colBuilders[idx].TotalCompressedSize()
-	}
-
-	r.rg.FileOffset = &fileOffset
-	r.rg.TotalCompressedSize = &totalCompressed
-	r.rg.TotalByteSize = totalBytesWritten
-	r.rg.Ordinal = &ordinal
-	return nil
-}
diff --git a/go/parquet/metadata/stat_compare_test.go b/go/parquet/metadata/stat_compare_test.go
deleted file mode 100644
index dafbf3ed04f1a..0000000000000
--- a/go/parquet/metadata/stat_compare_test.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"encoding/binary"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestSignedByteArrayCompare(t *testing.T) {
-	s := ByteArrayStatistics{
-		statistics: statistics{
-			order: schema.SortSIGNED,
-		},
-	}
-
-	// signed byte array comparison is only used for Decimal comparison.
-	// when decimals are encoded as byte arrays they use twos compliment
-	// big-endian encoded values. Comparisons of byte arrays of unequal
-	// types need to handle sign extension.
-
-	tests := []struct {
-		b     []byte
-		order int
-	}{
-		{[]byte{0x80, 0x80, 0, 0}, 0},
-		{[]byte{ /*0xFF,*/ 0x80, 0, 0}, 1},
-		{[]byte{0xFF, 0x80, 0, 0}, 1},
-		{[]byte{ /*0xFF,*/ 0xFF, 0x01, 0}, 2},
-		{[]byte{ /*0xFF, 0xFF,*/ 0x80, 0}, 3},
-		{[]byte{ /*0xFF,*/ 0xFF, 0x80, 0}, 3},
-		{[]byte{0xFF, 0xFF, 0x80, 0}, 3},
-		{[]byte{ /*0xFF,0xFF,0xFF,*/ 0x80}, 4},
-		{[]byte{ /*0xFF,0xFF,0xFF*/ 0xFF}, 5},
-		{[]byte{ /*0, 0,*/ 0x01, 0x01}, 6},
-		{[]byte{ /*0,*/ 0, 0x01, 0x01}, 6},
-		{[]byte{0, 0, 0x01, 0x01}, 6},
-		{[]byte{ /*0,*/ 0x01, 0x01, 0}, 7},
-		{[]byte{0x01, 0x01, 0, 0}, 8},
-	}
-
-	for i, tt := range tests {
-		// empty array is always the smallest
-		assert.Truef(t, s.less(parquet.ByteArray{}, parquet.ByteArray(tt.b)), "case: %d", i)
-		assert.Falsef(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray{}), "case: %d", i)
-		// equals is always false
-		assert.Falsef(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray(tt.b)), "case: %d", i)
-
-		for j, case2 := range tests {
-			var fn func(assert.TestingT, bool, string, ...interface{}) bool
-			if tt.order < case2.order {
-				fn = assert.Truef
-			} else {
-				fn = assert.Falsef
-			}
-			fn(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray(case2.b)),
-				"%d (order: %d) %d (order: %d)", i, tt.order, j, case2.order)
-		}
-	}
-}
-
-func TestUnsignedByteArrayCompare(t *testing.T) {
-	s := ByteArrayStatistics{
-		statistics: statistics{
-			order: schema.SortUNSIGNED,
-		},
-	}
-
-	s1ba := parquet.ByteArray("arrange")
-	s2ba := parquet.ByteArray("arrangement")
-	assert.True(t, s.less(s1ba, s2ba))
-
-	// multi-byte utf-8 characters
-	s1ba = parquet.ByteArray("braten")
-	s2ba = parquet.ByteArray("bügeln")
-	assert.True(t, s.less(s1ba, s2ba))
-
-	s1ba = parquet.ByteArray("ünk123456") // ü = 252
-	s2ba = parquet.ByteArray("ănk123456") // ă = 259
-	assert.True(t, s.less(s1ba, s2ba))
-}
-
-func TestSignedCompareFLBA(t *testing.T) {
-	s := FixedLenByteArrayStatistics{
-		statistics: statistics{order: schema.SortSIGNED},
-	}
-
-	values := []parquet.FixedLenByteArray{
-		[]byte{0x80, 0, 0, 0},
-		[]byte{0xFF, 0xFF, 0x01, 0},
-		[]byte{0xFF, 0xFF, 0x80, 0},
-		[]byte{0xFF, 0xFF, 0xFF, 0x80},
-		[]byte{0xFF, 0xFF, 0xFF, 0xFF},
-		[]byte{0, 0, 0x01, 0x01},
-		[]byte{0, 0x01, 0x01, 0},
-		[]byte{0x01, 0x01, 0, 0},
-	}
-
-	for i, v := range values {
-		assert.Falsef(t, s.less(v, v), "%d", i)
-		for j, v2 := range values[i+1:] {
-			assert.Truef(t, s.less(v, v2), "%d %d", i, j)
-			assert.Falsef(t, s.less(v2, v), "%d %d", j, i)
-		}
-	}
-}
-
-func TestUnsignedCompareFLBA(t *testing.T) {
-	s := FixedLenByteArrayStatistics{
-		statistics: statistics{order: schema.SortUNSIGNED},
-	}
-
-	s1flba := parquet.FixedLenByteArray("Anti123456")
-	s2flba := parquet.FixedLenByteArray("Bunkd123456")
-	assert.True(t, s.less(s1flba, s2flba))
-
-	s1flba = parquet.FixedLenByteArray("Bunk123456")
-	s2flba = parquet.FixedLenByteArray("Bünk123456")
-	assert.True(t, s.less(s1flba, s2flba))
-}
-
-func TestSignedCompareInt96(t *testing.T) {
-	s := Int96Statistics{
-		statistics: statistics{order: schema.SortSIGNED},
-	}
-
-	val := -14
-
-	var (
-		a   = parquet.NewInt96([3]uint32{1, 41, 14})
-		b   = parquet.NewInt96([3]uint32{1, 41, 42})
-		aa  = parquet.NewInt96([3]uint32{1, 41, 14})
-		bb  = parquet.NewInt96([3]uint32{1, 41, 14})
-		aaa = parquet.NewInt96([3]uint32{1, 41, uint32(val)})
-		bbb = parquet.NewInt96([3]uint32{1, 41, 42})
-	)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestUnsignedCompareInt96(t *testing.T) {
-	s := Int96Statistics{
-		statistics: statistics{order: schema.SortUNSIGNED},
-	}
-
-	valb := -41
-	valbb := -14
-
-	var (
-		a   = parquet.NewInt96([3]uint32{1, 41, 14})
-		b   = parquet.NewInt96([3]uint32{1, uint32(valb), 42})
-		aa  = parquet.NewInt96([3]uint32{1, 41, 14})
-		bb  = parquet.NewInt96([3]uint32{1, 41, uint32(valbb)})
-		aaa parquet.Int96
-		bbb parquet.Int96
-	)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, s.less(aa, bb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451546) // 2000-01-02
-	// 12 hours + 34 minutes + 56 seconds
-	aaa.SetNanoSeconds(45296000000000)
-	// 12 hours + 34 minutes + 50 seconds
-	bbb.SetNanoSeconds(45290000000000)
-	assert.True(t, s.less(aaa, bbb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451545) // 2000-01-01
-	// 11 hours + 34 minutes + 56 seconds
-	aaa.SetNanoSeconds(41696000000000)
-	// 12 hours + 34 minutes + 50 seconds
-	bbb.SetNanoSeconds(45290000000000)
-	assert.True(t, s.less(aaa, bbb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451545) // 2000-01-01
-	// 12 hours + 34 minutes + 55 seconds
-	aaa.SetNanoSeconds(45295000000000)
-	// 12 hours + 34 minutes + 56 seconds
-	bbb.SetNanoSeconds(45296000000000)
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareSignedInt64(t *testing.T) {
-	var (
-		a   int64 = 1
-		b   int64 = 4
-		aa  int64 = 1
-		bb  int64 = 1
-		aaa int64 = -1
-		bbb int64 = 1
-	)
-
-	n := schema.NewInt64Node("signedint64", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(n, 0, 0)
-	s := NewStatistics(descr, nil).(*Int64Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareUnsignedInt64(t *testing.T) {
-	var (
-		a   int64 = 1
-		b   int64 = 4
-		aa  int64 = 1
-		bb  int64 = 1
-		aaa int64 = 1
-		bbb int64 = -1
-	)
-
-	n, err := schema.NewPrimitiveNodeConverted("unsigned int64", parquet.Repetitions.Required, parquet.Types.Int64, schema.ConvertedTypes.Uint64, 0, 0, 0, 0)
-	require.NoError(t, err)
-	descr := schema.NewColumn(n, 0, 0)
-
-	assert.Equal(t, schema.SortUNSIGNED, descr.SortOrder())
-	s := NewStatistics(descr, nil).(*Int64Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareUnsignedInt32(t *testing.T) {
-	var (
-		a   int32 = 1
-		b   int32 = 4
-		aa  int32 = 1
-		bb  int32 = 1
-		aaa int32 = 1
-		bbb int32 = -1
-	)
-
-	n, err := schema.NewPrimitiveNodeConverted("unsigned int32", parquet.Repetitions.Required, parquet.Types.Int32, schema.ConvertedTypes.Uint32, 0, 0, 0, 0)
-	require.NoError(t, err)
-	descr := schema.NewColumn(n, 0, 0)
-
-	assert.Equal(t, schema.SortUNSIGNED, descr.SortOrder())
-	s := NewStatistics(descr, nil).(*Int32Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
diff --git a/go/parquet/metadata/statistics.go b/go/parquet/metadata/statistics.go
deleted file mode 100644
index e7ffc2a096370..0000000000000
--- a/go/parquet/metadata/statistics.go
+++ /dev/null
@@ -1,617 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"encoding/binary"
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=statistics_types.tmpldata statistics_types.gen.go.tmpl
-
-type StatProvider interface {
-	GetMin() []byte
-	GetMax() []byte
-	GetNullCount() int64
-	GetDistinctCount() int64
-	IsSetMax() bool
-	IsSetMin() bool
-	IsSetNullCount() bool
-	IsSetDistinctCount() bool
-}
-
-// EncodedStatistics are raw statistics with encoded values that will be written
-// to the parquet file, or was read from the parquet file.
-type EncodedStatistics struct {
-	HasMax           bool
-	Max              []byte
-	HasMin           bool
-	Min              []byte
-	Signed           bool
-	HasNullCount     bool
-	NullCount        int64
-	HasDistinctCount bool
-	DistinctCount    int64
-}
-
-// ApplyStatSizeLimits sets the maximum size of the min/max values.
-//
-// from parquet-mr
-// we don't write stats larger than the max size rather than truncating.
-// the rationale is that some engines may use the minimum value in the page
-// as the true minimum for aggregations and there is no way to mark that
-// a value has been truncated and is a lower bound and not in the page
-func (e *EncodedStatistics) ApplyStatSizeLimits(length int) {
-	if len(e.Max) > length {
-		e.HasMax = false
-	}
-	if len(e.Min) > length {
-		e.HasMin = false
-	}
-}
-
-// IsSet returns true iff one of the Has* values is true.
-func (e *EncodedStatistics) IsSet() bool {
-	return e.HasMin || e.HasMax || e.HasNullCount || e.HasDistinctCount
-}
-
-// SetMax sets the encoded Max value to val and sets HasMax to true
-func (e *EncodedStatistics) SetMax(val []byte) *EncodedStatistics {
-	e.Max = val[:]
-	e.HasMax = true
-	return e
-}
-
-// SetMin sets the encoded Min value to val, and sets HasMin to true
-func (e *EncodedStatistics) SetMin(val []byte) *EncodedStatistics {
-	e.Min = val[:]
-	e.HasMin = true
-	return e
-}
-
-// SetNullCount sets the NullCount to val and sets HasNullCount to true
-func (e *EncodedStatistics) SetNullCount(val int64) *EncodedStatistics {
-	e.NullCount = val
-	e.HasNullCount = true
-	return e
-}
-
-// SetDistinctCount sets the DistinctCount to val and sets HasDistinctCount to true
-func (e *EncodedStatistics) SetDistinctCount(val int64) *EncodedStatistics {
-	e.DistinctCount = val
-	e.HasDistinctCount = true
-	return e
-}
-
-func (e *EncodedStatistics) ToThrift() (stats *format.Statistics) {
-	stats = format.NewStatistics()
-	if e.HasMin {
-		stats.MinValue = e.Min
-		// if sort order is SIGNED then the old min value must be set too for backwards compatibility
-		if e.Signed {
-			stats.Min = e.Min
-		}
-	}
-	if e.HasMax {
-		stats.MaxValue = e.Max
-		// if sort order is SIGNED then old max value must be set to
-		if e.Signed {
-			stats.Max = e.Max
-		}
-	}
-	if e.HasNullCount {
-		stats.NullCount = &e.NullCount
-	}
-	if e.HasDistinctCount {
-		stats.DistinctCount = &e.DistinctCount
-	}
-	return
-}
-
-// TypedStatistics is the base interface for dealing with stats as
-// they are being populated
-type TypedStatistics interface {
-	// Type is the underlying physical type for this stat block
-	Type() parquet.Type
-	// Returns true if there is a min and max value set for this stat object
-	HasMinMax() bool
-	// Returns true if a nullcount has been set
-	HasNullCount() bool
-	// returns true only if a distinct count has been set
-	// current implementation does of the writer does not automatically populate
-	// the distinct count right now.
-	HasDistinctCount() bool
-	NullCount() int64
-	DistinctCount() int64
-	NumValues() int64
-	// return the column descriptor that this stat object was initialized with
-	Descr() *schema.Column
-
-	// Encode the current min value and return the bytes. ByteArray does not
-	// include the len in the encoded bytes, otherwise this is identical to
-	// plain encoding
-	EncodeMin() []byte
-	// Encode the current max value and return the bytes. ByteArray does not
-	// include the len in the encoded bytes, otherwise this is identical to
-	// plain encoding
-	EncodeMax() []byte
-	// Populate an EncodedStatistics object from the current stats
-	Encode() (EncodedStatistics, error)
-	// Resets all values to 0 to enable reusing this stat object for multiple
-	// columns, by calling Encode to get the finished values and then calling
-	// reset
-	Reset()
-	// Merge the min/max/nullcounts and distinct count from the passed stat object
-	// into this one.
-	Merge(TypedStatistics)
-
-	// UpdateFromArrow updates the statistics from an Arrow Array,
-	// only updating the null and num value counts if updateCounts
-	// is true.
-	UpdateFromArrow(values arrow.Array, updateCounts bool) error
-	// IncNulls increments the number of nulls in the statistics
-	// and marks HasNullCount as true
-	IncNulls(int64)
-	// IncDistinct increments the number of distinct values in
-	// the statistics and marks HasDistinctCount as true
-	IncDistinct(int64)
-	// IncNumValues increments the total number of values in
-	// the statistics
-	IncNumValues(int64)
-}
-
-type statistics struct {
-	descr            *schema.Column
-	hasMinMax        bool
-	hasNullCount     bool
-	hasDistinctCount bool
-	mem              memory.Allocator
-	nvalues          int64
-	stats            EncodedStatistics
-	order            schema.SortOrder
-
-	encoder encoding.TypedEncoder
-}
-
-func (s *statistics) IncNumValues(n int64) {
-	s.nvalues += n
-}
-func (s *statistics) IncNulls(n int64) {
-	s.stats.NullCount += n
-	s.hasNullCount = true
-}
-func (s *statistics) IncDistinct(n int64) {
-	s.stats.DistinctCount += n
-	s.hasDistinctCount = true
-}
-
-func (s *statistics) Descr() *schema.Column  { return s.descr }
-func (s *statistics) Type() parquet.Type     { return s.descr.PhysicalType() }
-func (s *statistics) HasDistinctCount() bool { return s.hasDistinctCount }
-func (s *statistics) HasMinMax() bool        { return s.hasMinMax }
-func (s *statistics) HasNullCount() bool     { return s.hasNullCount }
-func (s *statistics) NullCount() int64       { return s.stats.NullCount }
-func (s *statistics) DistinctCount() int64   { return s.stats.DistinctCount }
-func (s *statistics) NumValues() int64       { return s.nvalues }
-
-func (s *statistics) Reset() {
-	s.stats.NullCount = 0
-	s.stats.DistinctCount = 0
-	s.nvalues = 0
-	s.hasMinMax = false
-	s.hasDistinctCount = false
-	s.hasNullCount = false
-}
-
-// base merge function for base non-typed stat object so we don't have to
-// duplicate this in each of the typed implementations
-func (s *statistics) merge(other TypedStatistics) {
-	s.nvalues += other.NumValues()
-	if other.HasNullCount() {
-		s.stats.NullCount += other.NullCount()
-	}
-	if other.HasDistinctCount() {
-		// this isn't technically correct as it should be keeping an actual set
-		// of the distinct values and then combining the sets to get a new count
-		// but for now we'll do this to match the C++ implementation at the current
-		// time.
-		s.stats.DistinctCount += other.DistinctCount()
-	}
-}
-
-func coalesce(val, fallback interface{}) interface{} {
-	switch v := val.(type) {
-	case float32:
-		if math.IsNaN(float64(v)) {
-			return fallback
-		}
-	case float64:
-		if math.IsNaN(v) {
-			return fallback
-		}
-	}
-	return val
-}
-
-func signedByteLess(a, b []byte) bool {
-	// signed comparison is used for integers encoded as big-endian twos complement
-	// integers (e.g. decimals)
-
-	// if at least one of the lengths is zero, we can short circuit
-	if len(a) == 0 || len(b) == 0 {
-		return len(a) == 0 && len(b) > 0
-	}
-
-	sa := *(*[]int8)(unsafe.Pointer(&a))
-	sb := *(*[]int8)(unsafe.Pointer(&b))
-
-	// we can short circuit for different signed numbers or for equal length byte
-	// arrays that have different first bytes. The equality requirement is necessary
-	// for sign extension cases. 0xFF10 should be equal to 0x10 (due to big endian sign extension)
-	if int8(0x80&uint8(sa[0])) != int8(0x80&uint8(sb[0])) || (len(sa) == len(sb) && sa[0] != sb[0]) {
-		return sa[0] < sb[0]
-	}
-
-	// when the lengths are unequal and the numbers are of the same sign, we need
-	// to do comparison by sign extending the shorter value first, and once we get
-	// to equal sized arrays, lexicographical unsigned comparison of everything but
-	// the first byte is sufficient.
-
-	if len(a) != len(b) {
-		var lead []byte
-		if len(a) > len(b) {
-			leadLen := len(a) - len(b)
-			lead = a[:leadLen]
-			a = a[leadLen:]
-		} else {
-			debug.Assert(len(a) < len(b), "something weird in byte slice signed comparison")
-			leadLen := len(b) - len(a)
-			lead = b[:leadLen]
-			b = b[leadLen:]
-		}
-
-		// compare extra bytes to the sign extension of the first byte of the other number
-		var extension byte
-		if sa[0] < 0 {
-			extension = 0xFF
-		}
-
-		notequal := false
-		for _, c := range lead {
-			if c != extension {
-				notequal = true
-				break
-			}
-		}
-
-		if notequal {
-			// since sign extension are extrema values for unsigned bytes:
-			//
-			// Four cases exist:
-			//	 negative values:
-			//	   b is the longer value
-			//       b must be the lesser value: return false
-			//     else:
-			//       a must be the lesser value: return true
-			//
-			//   positive values:
-			//     b is the longer value
-			//       values in b must be greater than a: return true
-			//     else:
-			//       values in a must be greater than b: return false
-			neg := sa[0] < 0
-			blonger := len(sa) < len(sb)
-			return neg != blonger
-		}
-	} else {
-		a = a[1:]
-		b = b[1:]
-	}
-
-	return bytes.Compare(a, b) == -1
-}
-
-func (BooleanStatistics) defaultMin() bool { return true }
-func (BooleanStatistics) defaultMax() bool { return false }
-func (s *Int32Statistics) defaultMin() int32 {
-	if s.order == schema.SortUNSIGNED {
-		val := uint32(math.MaxUint32)
-		return int32(val)
-	}
-	return math.MaxInt32
-}
-
-func (s *Int32Statistics) defaultMax() int32 {
-	if s.order == schema.SortUNSIGNED {
-		return int32(0)
-	}
-	return math.MinInt32
-}
-
-func (s *Int64Statistics) defaultMin() int64 {
-	if s.order == schema.SortUNSIGNED {
-		val := uint64(math.MaxUint64)
-		return int64(val)
-	}
-	return math.MaxInt64
-}
-
-func (s *Int64Statistics) defaultMax() int64 {
-	if s.order == schema.SortUNSIGNED {
-		return int64(0)
-	}
-	return math.MinInt64
-}
-
-var (
-	defaultMinInt96  parquet.Int96
-	defaultMinUInt96 parquet.Int96
-	defaultMaxInt96  parquet.Int96
-	defaultMaxUInt96 parquet.Int96
-
-	defaultMinFloat16 parquet.FixedLenByteArray = float16.MaxNum.ToLEBytes()
-	defaultMaxFloat16 parquet.FixedLenByteArray = float16.MinNum.ToLEBytes()
-)
-
-func init() {
-	i96 := arrow.Uint32Traits.CastFromBytes(defaultMinInt96[:])
-	i96[0] = math.MaxUint32
-	i96[1] = math.MaxUint32
-	i96[2] = math.MaxInt32
-
-	i96 = arrow.Uint32Traits.CastFromBytes(defaultMinUInt96[:])
-	i96[0] = math.MaxUint32
-	i96[1] = math.MaxUint32
-	i96[2] = math.MaxUint32
-
-	// golang will initialize the bytes to 0
-	i96 = arrow.Uint32Traits.CastFromBytes(defaultMaxInt96[:])
-	i96[2] = math.MaxInt32 + 1
-
-	// defaultMaxUInt96 will be initialized to 0 as desired
-}
-
-func (s *Int96Statistics) defaultMin() parquet.Int96 {
-	if s.order == schema.SortUNSIGNED {
-		return defaultMinUInt96
-	}
-	return defaultMinInt96
-}
-
-func (s *Int96Statistics) defaultMax() parquet.Int96 {
-	if s.order == schema.SortUNSIGNED {
-		return defaultMaxUInt96
-	}
-	return defaultMaxInt96
-}
-
-func (Float16Statistics) defaultMin() parquet.FixedLenByteArray {
-	return defaultMinFloat16
-}
-
-func (Float16Statistics) defaultMax() parquet.FixedLenByteArray {
-	return defaultMaxFloat16
-}
-
-func (Float32Statistics) defaultMin() float32                             { return math.MaxFloat32 }
-func (Float32Statistics) defaultMax() float32                             { return -math.MaxFloat32 }
-func (Float64Statistics) defaultMin() float64                             { return math.MaxFloat64 }
-func (Float64Statistics) defaultMax() float64                             { return -math.MaxFloat64 }
-func (ByteArrayStatistics) defaultMin() parquet.ByteArray                 { return nil }
-func (ByteArrayStatistics) defaultMax() parquet.ByteArray                 { return nil }
-func (FixedLenByteArrayStatistics) defaultMin() parquet.FixedLenByteArray { return nil }
-func (FixedLenByteArrayStatistics) defaultMax() parquet.FixedLenByteArray { return nil }
-
-func (BooleanStatistics) equal(a, b bool) bool                { return a == b }
-func (Int32Statistics) equal(a, b int32) bool                 { return a == b }
-func (Int64Statistics) equal(a, b int64) bool                 { return a == b }
-func (Float32Statistics) equal(a, b float32) bool             { return a == b }
-func (Float64Statistics) equal(a, b float64) bool             { return a == b }
-func (Int96Statistics) equal(a, b parquet.Int96) bool         { return bytes.Equal(a[:], b[:]) }
-func (ByteArrayStatistics) equal(a, b parquet.ByteArray) bool { return bytes.Equal(a, b) }
-func (FixedLenByteArrayStatistics) equal(a, b parquet.FixedLenByteArray) bool {
-	return bytes.Equal(a, b)
-}
-
-func (Float16Statistics) equal(a, b parquet.FixedLenByteArray) bool {
-	return float16.FromLEBytes(a).Equal(float16.FromLEBytes(b))
-}
-
-func (BooleanStatistics) less(a, b bool) bool {
-	return !a && b
-}
-
-func (s *Int32Statistics) less(a, b int32) bool {
-	if s.order == schema.SortUNSIGNED {
-		return uint32(a) < uint32(b)
-	}
-	return a < b
-}
-
-func (s *Int64Statistics) less(a, b int64) bool {
-	if s.order == schema.SortUNSIGNED {
-		return uint64(a) < uint64(b)
-	}
-	return a < b
-}
-func (Float32Statistics) less(a, b float32) bool { return a < b }
-func (Float64Statistics) less(a, b float64) bool { return a < b }
-func (s *Int96Statistics) less(a, b parquet.Int96) bool {
-	i96a := arrow.Uint32Traits.CastFromBytes(a[:])
-	i96b := arrow.Uint32Traits.CastFromBytes(b[:])
-
-	a0, a1, a2 := utils.ToLEUint32(i96a[0]), utils.ToLEUint32(i96a[1]), utils.ToLEUint32(i96a[2])
-	b0, b1, b2 := utils.ToLEUint32(i96b[0]), utils.ToLEUint32(i96b[1]), utils.ToLEUint32(i96b[2])
-
-	if a2 != b2 {
-		// only the msb bit is by signed comparison
-		if s.order == schema.SortSIGNED {
-			return int32(a2) < int32(b2)
-		}
-		return a2 < b2
-	} else if a1 != b1 {
-		return a1 < b1
-	}
-	return a0 < b0
-}
-
-func (s *ByteArrayStatistics) less(a, b parquet.ByteArray) bool {
-	if s.order == schema.SortUNSIGNED {
-		return bytes.Compare(a, b) == -1
-	}
-
-	return signedByteLess([]byte(a), []byte(b))
-}
-
-func (s *FixedLenByteArrayStatistics) less(a, b parquet.FixedLenByteArray) bool {
-	if s.order == schema.SortUNSIGNED {
-		return bytes.Compare(a, b) == -1
-	}
-
-	return signedByteLess([]byte(a), []byte(b))
-}
-
-func (Float16Statistics) less(a, b parquet.FixedLenByteArray) bool {
-	return float16.FromLEBytes(a).Less(float16.FromLEBytes(b))
-}
-
-func (BooleanStatistics) cleanStat(minMax minmaxPairBoolean) *minmaxPairBoolean { return &minMax }
-func (Int32Statistics) cleanStat(minMax minmaxPairInt32) *minmaxPairInt32       { return &minMax }
-func (Int64Statistics) cleanStat(minMax minmaxPairInt64) *minmaxPairInt64       { return &minMax }
-func (Int96Statistics) cleanStat(minMax minmaxPairInt96) *minmaxPairInt96       { return &minMax }
-
-// in the case of floating point types, the following rules are applied as per parquet-mr:
-// - if any of min/max is NaN, return nothing
-// - if min is 0.0f replace with -0.0f
-// - if max is -0.0f replace with 0.0f
-//
-// https://issues.apache.org/jira/browse/PARQUET-1222 tracks the official documenting of
-// a well-defined order for floats and doubles.
-func (Float32Statistics) cleanStat(minMax minmaxPairFloat32) *minmaxPairFloat32 {
-	if math.IsNaN(float64(minMax[0])) || math.IsNaN(float64(minMax[1])) {
-		return nil
-	}
-
-	if minMax[0] == math.MaxFloat32 && minMax[1] == -math.MaxFloat32 {
-		return nil
-	}
-
-	var zero float32 = 0
-	if minMax[0] == zero && !math.Signbit(float64(minMax[0])) {
-		minMax[0] = -minMax[0]
-	}
-
-	if minMax[1] == zero && math.Signbit(float64(minMax[1])) {
-		minMax[1] = -minMax[1]
-	}
-
-	return &minMax
-}
-
-func (Float64Statistics) cleanStat(minMax minmaxPairFloat64) *minmaxPairFloat64 {
-	if math.IsNaN(minMax[0]) || math.IsNaN(minMax[1]) {
-		return nil
-	}
-
-	if minMax[0] == math.MaxFloat64 && minMax[1] == -math.MaxFloat64 {
-		return nil
-	}
-
-	var zero float64 = 0
-	if minMax[0] == zero && !math.Signbit(minMax[0]) {
-		minMax[0] = -minMax[0]
-	}
-
-	if minMax[1] == zero && math.Signbit(minMax[1]) {
-		minMax[1] = -minMax[1]
-	}
-
-	return &minMax
-}
-
-func (Float16Statistics) cleanStat(minMax minmaxPairFloat16) *minmaxPairFloat16 {
-	min := float16.FromLEBytes(minMax[0][:])
-	max := float16.FromLEBytes(minMax[1][:])
-
-	if min.IsNaN() || max.IsNaN() {
-		return nil
-	}
-
-	if min.Equal(float16.MaxNum) && max.Equal(float16.MinNum) {
-		return nil
-	}
-
-	zero := float16.New(0)
-	if min.Equal(zero) && !min.Signbit() {
-		minMax[0] = min.Negate().ToLEBytes()
-	}
-	if max.Equal(zero) && max.Signbit() {
-		minMax[1] = max.Negate().ToLEBytes()
-	}
-
-	return &minMax
-}
-
-func (ByteArrayStatistics) cleanStat(minMax minmaxPairByteArray) *minmaxPairByteArray {
-	if minMax[0] == nil || minMax[1] == nil {
-		return nil
-	}
-	return &minMax
-}
-
-func (FixedLenByteArrayStatistics) cleanStat(minMax minmaxPairFixedLenByteArray) *minmaxPairFixedLenByteArray {
-	if minMax[0] == nil || minMax[1] == nil {
-		return nil
-	}
-	return &minMax
-}
-
-func GetStatValue(typ parquet.Type, val []byte) interface{} {
-	switch typ {
-	case parquet.Types.Boolean:
-		return val[0] != 0
-	case parquet.Types.Int32:
-		return int32(binary.LittleEndian.Uint32(val))
-	case parquet.Types.Int64:
-		return int64(binary.LittleEndian.Uint64(val))
-	case parquet.Types.Int96:
-		p := parquet.Int96{}
-		copy(p[:], val)
-		return p
-	case parquet.Types.Float:
-		return math.Float32frombits(binary.LittleEndian.Uint32(val))
-	case parquet.Types.Double:
-		return math.Float64frombits(binary.LittleEndian.Uint64(val))
-	case parquet.Types.ByteArray:
-		fallthrough
-	case parquet.Types.FixedLenByteArray:
-		return val
-	}
-	return nil
-}
diff --git a/go/parquet/metadata/statistics_test.go b/go/parquet/metadata/statistics_test.go
deleted file mode 100644
index 913629959e928..0000000000000
--- a/go/parquet/metadata/statistics_test.go
+++ /dev/null
@@ -1,262 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata_test
-
-import (
-	"math"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-// NOTE(zeroshade): tests will be added and updated after merging the "file" package
-// since the tests that I wrote relied on the file writer/reader for ease of use.
-
-func newFloat16Node(name string, rep parquet.Repetition, fieldID int32) *schema.PrimitiveNode {
-	return schema.MustPrimitive(schema.NewPrimitiveNodeLogical(name, rep, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, fieldID))
-}
-
-func TestCheckNaNs(t *testing.T) {
-	const (
-		numvals = 8
-		min     = -4.0
-		max     = 3.0
-	)
-	var (
-		nan                              = math.NaN()
-		f16Min parquet.FixedLenByteArray = float16.New(float32(min)).ToLEBytes()
-		f16Max parquet.FixedLenByteArray = float16.New(float32(max)).ToLEBytes()
-	)
-
-	allNans := []float64{nan, nan, nan, nan, nan, nan, nan, nan}
-	allNansf32 := make([]float32, numvals)
-	allNansf16 := make([]parquet.FixedLenByteArray, numvals)
-	for idx, v := range allNans {
-		allNansf32[idx] = float32(v)
-		allNansf16[idx] = float16.New(float32(v)).ToLEBytes()
-	}
-
-	someNans := []float64{nan, max, -3.0, -1.0, nan, 2.0, min, nan}
-	someNansf32 := make([]float32, numvals)
-	someNansf16 := make([]parquet.FixedLenByteArray, numvals)
-	for idx, v := range someNans {
-		someNansf32[idx] = float32(v)
-		someNansf16[idx] = float16.New(float32(v)).ToLEBytes()
-	}
-
-	validBitmap := []byte{0x7F}       // 0b01111111
-	validBitmapNoNaNs := []byte{0x6E} // 0b01101110
-
-	assertUnsetMinMax := func(stats metadata.TypedStatistics, values interface{}, bitmap []byte) {
-		if bitmap == nil {
-			switch s := stats.(type) {
-			case *metadata.Float32Statistics:
-				s.Update(values.([]float32), 0)
-			case *metadata.Float64Statistics:
-				s.Update(values.([]float64), 0)
-			case *metadata.Float16Statistics:
-				s.Update(values.([]parquet.FixedLenByteArray), 0)
-			}
-			assert.False(t, stats.HasMinMax())
-		} else {
-			nvalues := reflect.ValueOf(values).Len()
-			nullCount := bitutil.CountSetBits(bitmap, 0, nvalues)
-			switch s := stats.(type) {
-			case *metadata.Float32Statistics:
-				s.UpdateSpaced(values.([]float32), bitmap, 0, int64(nullCount))
-			case *metadata.Float64Statistics:
-				s.UpdateSpaced(values.([]float64), bitmap, 0, int64(nullCount))
-			case *metadata.Float16Statistics:
-				s.UpdateSpaced(values.([]parquet.FixedLenByteArray), bitmap, 0, int64(nullCount))
-			}
-			assert.False(t, stats.HasMinMax())
-		}
-	}
-
-	assertMinMaxAre := func(stats metadata.TypedStatistics, values interface{}, expectedMin, expectedMax interface{}) {
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.Update(values.([]float32), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float64Statistics:
-			s.Update(values.([]float64), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float16Statistics:
-			s.Update(values.([]parquet.FixedLenByteArray), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		}
-	}
-
-	assertMinMaxAreSpaced := func(stats metadata.TypedStatistics, values interface{}, bitmap []byte, expectedMin, expectedMax interface{}) {
-		nvalues := reflect.ValueOf(values).Len()
-		nullCount := bitutil.CountSetBits(bitmap, 0, nvalues)
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.UpdateSpaced(values.([]float32), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float64Statistics:
-			s.UpdateSpaced(values.([]float64), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float16Statistics:
-			s.UpdateSpaced(values.([]parquet.FixedLenByteArray), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		}
-	}
-
-	f32Col := schema.NewColumn(schema.NewFloat32Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	f64Col := schema.NewColumn(schema.NewFloat64Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	f16Col := schema.NewColumn(newFloat16Node("f", parquet.Repetitions.Required, -1), 1, 1)
-	// test values
-	someNanStats := metadata.NewStatistics(f64Col, memory.DefaultAllocator)
-	someNanStatsf32 := metadata.NewStatistics(f32Col, memory.DefaultAllocator)
-	someNanStatsf16 := metadata.NewStatistics(f16Col, memory.DefaultAllocator)
-	// ingesting only nans should not yield a min or max
-	assertUnsetMinMax(someNanStats, allNans, nil)
-	assertUnsetMinMax(someNanStatsf32, allNansf32, nil)
-	assertUnsetMinMax(someNanStatsf16, allNansf16, nil)
-	// ingesting a mix should yield a valid min/max
-	assertMinMaxAre(someNanStats, someNans, min, max)
-	assertMinMaxAre(someNanStatsf32, someNansf32, float32(min), float32(max))
-	assertMinMaxAre(someNanStatsf16, someNansf16, f16Min, f16Max)
-	// ingesting only nans after a valid min/max should have no effect
-	assertMinMaxAre(someNanStats, allNans, min, max)
-	assertMinMaxAre(someNanStatsf32, allNansf32, float32(min), float32(max))
-	assertMinMaxAre(someNanStatsf16, allNansf16, f16Min, f16Max)
-
-	someNanStats = metadata.NewStatistics(f64Col, memory.DefaultAllocator)
-	someNanStatsf32 = metadata.NewStatistics(f32Col, memory.DefaultAllocator)
-	someNanStatsf16 = metadata.NewStatistics(f16Col, memory.DefaultAllocator)
-	assertUnsetMinMax(someNanStats, allNans, validBitmap)
-	assertUnsetMinMax(someNanStatsf32, allNansf32, validBitmap)
-	assertUnsetMinMax(someNanStatsf16, allNansf16, validBitmap)
-	// nans should not pollute min/max when excluded via null bitmap
-	assertMinMaxAreSpaced(someNanStats, someNans, validBitmapNoNaNs, min, max)
-	assertMinMaxAreSpaced(someNanStatsf32, someNansf32, validBitmapNoNaNs, float32(min), float32(max))
-	assertMinMaxAreSpaced(someNanStatsf16, someNansf16, validBitmapNoNaNs, f16Min, f16Max)
-	// ingesting nans with a null bitmap should not change the result
-	assertMinMaxAreSpaced(someNanStats, someNans, validBitmap, min, max)
-	assertMinMaxAreSpaced(someNanStatsf32, someNansf32, validBitmap, float32(min), float32(max))
-	assertMinMaxAreSpaced(someNanStatsf16, someNansf16, validBitmap, f16Min, f16Max)
-}
-
-func TestCheckNegativeZeroStats(t *testing.T) {
-	assertMinMaxZeroesSign := func(stats metadata.TypedStatistics, values interface{}) {
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.Update(values.([]float32), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float32
-			assert.Equal(t, zero, s.Min())
-			assert.True(t, math.Signbit(float64(s.Min())))
-			assert.Equal(t, zero, s.Max())
-			assert.False(t, math.Signbit(float64(s.Max())))
-		case *metadata.Float64Statistics:
-			s.Update(values.([]float64), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float64
-			assert.Equal(t, zero, s.Min())
-			assert.True(t, math.Signbit(s.Min()))
-			assert.Equal(t, zero, s.Max())
-			assert.False(t, math.Signbit(s.Max()))
-		case *metadata.Float16Statistics:
-			s.Update(values.([]parquet.FixedLenByteArray), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float64
-			min := float64(float16.FromLEBytes(s.Min()).Float32())
-			max := float64(float16.FromLEBytes(s.Max()).Float32())
-			assert.Equal(t, zero, min)
-			assert.True(t, math.Signbit(min))
-			assert.Equal(t, zero, max)
-			assert.False(t, math.Signbit(max))
-		}
-	}
-
-	fcol := schema.NewColumn(schema.NewFloat32Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	dcol := schema.NewColumn(schema.NewFloat64Node("d", parquet.Repetitions.Optional, -1), 1, 1)
-	hcol := schema.NewColumn(newFloat16Node("h", parquet.Repetitions.Optional, -1), 1, 1)
-
-	var f32zero float32
-	var f64zero float64
-	var f16PosZero parquet.FixedLenByteArray = float16.New(+f32zero).ToLEBytes()
-	var f16NegZero parquet.FixedLenByteArray = float16.New(-f32zero).ToLEBytes()
-
-	assert.False(t, float16.FromLEBytes(f16PosZero).Signbit())
-	assert.True(t, float16.FromLEBytes(f16NegZero).Signbit())
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{-f32zero, f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{-f64zero, f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16NegZero, f16PosZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{f32zero, -f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{f64zero, -f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16PosZero, f16NegZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{-f32zero, -f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{-f64zero, -f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16NegZero, f16NegZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{f32zero, f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{f64zero, f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16PosZero, f16PosZero})
-	}
-}
-
-func TestBooleanStatisticsEncoding(t *testing.T) {
-	n := schema.NewBooleanNode("boolean", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(n, 0, 0)
-	s := metadata.NewStatistics(descr, nil)
-	bs := s.(*metadata.BooleanStatistics)
-	bs.SetMinMax(false, true)
-	maxEnc := bs.EncodeMax()
-	minEnc := bs.EncodeMin()
-	assert.Equal(t, []byte{1}, maxEnc)
-	assert.Equal(t, []byte{0}, minEnc)
-}
diff --git a/go/parquet/metadata/statistics_types.gen.go b/go/parquet/metadata/statistics_types.gen.go
deleted file mode 100644
index 0c383fc7f5414..0000000000000
--- a/go/parquet/metadata/statistics_types.gen.go
+++ /dev/null
@@ -1,2742 +0,0 @@
-// Code generated by statistics_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-type minmaxPairInt32 [2]int32
-
-// Int32Statistics is the typed interface for managing stats for a column
-// of Int32 type.
-type Int32Statistics struct {
-	statistics
-	min int32
-	max int32
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt32Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int32
-func NewInt32Statistics(descr *schema.Column, mem memory.Allocator) *Int32Statistics {
-	if descr.PhysicalType() != parquet.Types.Int32 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int32 stat object", descr.PhysicalType()))
-	}
-
-	return &Int32Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt32StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt32StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int32Statistics {
-	ret := NewInt32Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int32Statistics) plainEncode(src int32) []byte {
-	s.encoder.(encoding.Int32Encoder).Put([]int32{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int32Statistics) plainDecode(src []byte) int32 {
-	var buf [1]int32
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int32Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int32Statistics) minval(a, b int32) int32 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int32Statistics) maxval(a, b int32) int32 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int32Statistics) MinMaxEqual(rhs *Int32Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int32Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int32Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int32Statistics) getMinMax(values []int32) (min, max int32) {
-	if s.order == schema.SortSIGNED {
-		min, max = shared_utils.GetMinMaxInt32(values)
-	} else {
-		umin, umax := shared_utils.GetMinMaxUint32(arrow.Uint32Traits.CastFromBytes(arrow.Int32Traits.CastToBytes(values)))
-		min, max = int32(umin), int32(umax)
-	}
-	return
-}
-
-func (s *Int32Statistics) getMinMaxSpaced(values []int32, validBits []byte, validBitsOffset int64) (min, max int32) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-	var fn func([]int32) (int32, int32)
-	if s.order == schema.SortSIGNED {
-		fn = shared_utils.GetMinMaxInt32
-	} else {
-		fn = func(v []int32) (int32, int32) {
-			umin, umax := shared_utils.GetMinMaxUint32(arrow.Uint32Traits.CastFromBytes(arrow.Int32Traits.CastToBytes(values)))
-			return int32(umin), int32(umax)
-		}
-	}
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-		if min > localMin {
-			min = localMin
-		}
-		if max < localMax {
-			max = localMax
-		}
-	}
-	return
-}
-
-func (s *Int32Statistics) Min() int32 { return s.min }
-func (s *Int32Statistics) Max() int32 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int32Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int32Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int32Statistics) Update(values []int32, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int32Statistics) UpdateSpaced(values []int32, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int32Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Int32SizeBytes {
-		return fmt.Errorf("%w: cannot update int32 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Int32SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Int32Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int32Statistics) SetMinMax(argMin, argMax int32) {
-	maybeMinMax := s.cleanStat([2]int32{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int32Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int32Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int32Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairInt64 [2]int64
-
-// Int64Statistics is the typed interface for managing stats for a column
-// of Int64 type.
-type Int64Statistics struct {
-	statistics
-	min int64
-	max int64
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt64Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int64
-func NewInt64Statistics(descr *schema.Column, mem memory.Allocator) *Int64Statistics {
-	if descr.PhysicalType() != parquet.Types.Int64 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int64 stat object", descr.PhysicalType()))
-	}
-
-	return &Int64Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt64StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt64StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int64Statistics {
-	ret := NewInt64Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int64Statistics) plainEncode(src int64) []byte {
-	s.encoder.(encoding.Int64Encoder).Put([]int64{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int64Statistics) plainDecode(src []byte) int64 {
-	var buf [1]int64
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int64Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int64Statistics) minval(a, b int64) int64 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int64Statistics) maxval(a, b int64) int64 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int64Statistics) MinMaxEqual(rhs *Int64Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int64Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int64Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int64Statistics) getMinMax(values []int64) (min, max int64) {
-	if s.order == schema.SortSIGNED {
-		min, max = shared_utils.GetMinMaxInt64(values)
-	} else {
-		umin, umax := shared_utils.GetMinMaxUint64(arrow.Uint64Traits.CastFromBytes(arrow.Int64Traits.CastToBytes(values)))
-		min, max = int64(umin), int64(umax)
-	}
-	return
-}
-
-func (s *Int64Statistics) getMinMaxSpaced(values []int64, validBits []byte, validBitsOffset int64) (min, max int64) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-	var fn func([]int64) (int64, int64)
-	if s.order == schema.SortSIGNED {
-		fn = shared_utils.GetMinMaxInt64
-	} else {
-		fn = func(v []int64) (int64, int64) {
-			umin, umax := shared_utils.GetMinMaxUint64(arrow.Uint64Traits.CastFromBytes(arrow.Int64Traits.CastToBytes(values)))
-			return int64(umin), int64(umax)
-		}
-	}
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-		if min > localMin {
-			min = localMin
-		}
-		if max < localMax {
-			max = localMax
-		}
-	}
-	return
-}
-
-func (s *Int64Statistics) Min() int64 { return s.min }
-func (s *Int64Statistics) Max() int64 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int64Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int64Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int64Statistics) Update(values []int64, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int64Statistics) UpdateSpaced(values []int64, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int64Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Int64SizeBytes {
-		return fmt.Errorf("%w: cannot update int64 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Int64SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Int64Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int64Statistics) SetMinMax(argMin, argMax int64) {
-	maybeMinMax := s.cleanStat([2]int64{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int64Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int64Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int64Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairInt96 [2]parquet.Int96
-
-// Int96Statistics is the typed interface for managing stats for a column
-// of Int96 type.
-type Int96Statistics struct {
-	statistics
-	min parquet.Int96
-	max parquet.Int96
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt96Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int96
-func NewInt96Statistics(descr *schema.Column, mem memory.Allocator) *Int96Statistics {
-	if descr.PhysicalType() != parquet.Types.Int96 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int96 stat object", descr.PhysicalType()))
-	}
-
-	return &Int96Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt96StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt96StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int96Statistics {
-	ret := NewInt96Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int96Statistics) plainEncode(src parquet.Int96) []byte {
-	s.encoder.(encoding.Int96Encoder).Put([]parquet.Int96{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int96Statistics) plainDecode(src []byte) parquet.Int96 {
-	var buf [1]parquet.Int96
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int96Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int96Statistics) minval(a, b parquet.Int96) parquet.Int96 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int96Statistics) maxval(a, b parquet.Int96) parquet.Int96 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int96Statistics) MinMaxEqual(rhs *Int96Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int96Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int96Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int96Statistics) getMinMax(values []parquet.Int96) (min, max parquet.Int96) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *Int96Statistics) getMinMaxSpaced(values []parquet.Int96, validBits []byte, validBitsOffset int64) (min, max parquet.Int96) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *Int96Statistics) Min() parquet.Int96 { return s.min }
-func (s *Int96Statistics) Max() parquet.Int96 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int96Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int96Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int96Statistics) Update(values []parquet.Int96, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int96Statistics) UpdateSpaced(values []parquet.Int96, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int96Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update int96 stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int96Statistics) SetMinMax(argMin, argMax parquet.Int96) {
-	maybeMinMax := s.cleanStat([2]parquet.Int96{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int96Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int96Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int96Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat32 [2]float32
-
-// Float32Statistics is the typed interface for managing stats for a column
-// of Float32 type.
-type Float32Statistics struct {
-	statistics
-	min float32
-	max float32
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat32Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Float
-func NewFloat32Statistics(descr *schema.Column, mem memory.Allocator) *Float32Statistics {
-	if descr.PhysicalType() != parquet.Types.Float {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float32 stat object", descr.PhysicalType()))
-	}
-
-	return &Float32Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat32StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat32StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float32Statistics {
-	ret := NewFloat32Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float32Statistics) plainEncode(src float32) []byte {
-	s.encoder.(encoding.Float32Encoder).Put([]float32{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float32Statistics) plainDecode(src []byte) float32 {
-	var buf [1]float32
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Float32Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float32Statistics) minval(a, b float32) float32 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Float32Statistics) maxval(a, b float32) float32 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float32Statistics) MinMaxEqual(rhs *Float32Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float32Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Float32Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float32Statistics) coalesce(val, fallback float32) float32 {
-	if math.IsNaN(float64(val)) {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float32Statistics) getMinMax(values []float32) (min, max float32) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float32Statistics) getMinMaxSpaced(values []float32, validBits []byte, validBitsOffset int64) (min, max float32) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(float32))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(float32))
-		}
-	}
-	return
-}
-
-func (s *Float32Statistics) Min() float32 { return s.min }
-func (s *Float32Statistics) Max() float32 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float32Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float32Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float32Statistics) Update(values []float32, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float32Statistics) UpdateSpaced(values []float32, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float32Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Float32SizeBytes {
-		return fmt.Errorf("%w: cannot update float32 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Float32SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Float32Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float32Statistics) SetMinMax(argMin, argMax float32) {
-	maybeMinMax := s.cleanStat([2]float32{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float32Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float32Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float32Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat64 [2]float64
-
-// Float64Statistics is the typed interface for managing stats for a column
-// of Float64 type.
-type Float64Statistics struct {
-	statistics
-	min float64
-	max float64
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat64Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Double
-func NewFloat64Statistics(descr *schema.Column, mem memory.Allocator) *Float64Statistics {
-	if descr.PhysicalType() != parquet.Types.Double {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float64 stat object", descr.PhysicalType()))
-	}
-
-	return &Float64Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat64StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat64StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float64Statistics {
-	ret := NewFloat64Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float64Statistics) plainEncode(src float64) []byte {
-	s.encoder.(encoding.Float64Encoder).Put([]float64{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float64Statistics) plainDecode(src []byte) float64 {
-	var buf [1]float64
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Float64Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float64Statistics) minval(a, b float64) float64 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Float64Statistics) maxval(a, b float64) float64 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float64Statistics) MinMaxEqual(rhs *Float64Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float64Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Float64Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float64Statistics) coalesce(val, fallback float64) float64 {
-	if math.IsNaN(float64(val)) {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float64Statistics) getMinMax(values []float64) (min, max float64) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float64Statistics) getMinMaxSpaced(values []float64, validBits []byte, validBitsOffset int64) (min, max float64) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(float64))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(float64))
-		}
-	}
-	return
-}
-
-func (s *Float64Statistics) Min() float64 { return s.min }
-func (s *Float64Statistics) Max() float64 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float64Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float64Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float64Statistics) Update(values []float64, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float64Statistics) UpdateSpaced(values []float64, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float64Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Float64SizeBytes {
-		return fmt.Errorf("%w: cannot update float64 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Float64SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Float64Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float64Statistics) SetMinMax(argMin, argMax float64) {
-	maybeMinMax := s.cleanStat([2]float64{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float64Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float64Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float64Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairBoolean [2]bool
-
-// BooleanStatistics is the typed interface for managing stats for a column
-// of Boolean type.
-type BooleanStatistics struct {
-	statistics
-	min bool
-	max bool
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewBooleanStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Boolean
-func NewBooleanStatistics(descr *schema.Column, mem memory.Allocator) *BooleanStatistics {
-	if descr.PhysicalType() != parquet.Types.Boolean {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Boolean stat object", descr.PhysicalType()))
-	}
-
-	return &BooleanStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewBooleanStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewBooleanStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *BooleanStatistics {
-	ret := NewBooleanStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *BooleanStatistics) plainEncode(src bool) []byte {
-	s.encoder.(encoding.BooleanEncoder).Put([]bool{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *BooleanStatistics) plainDecode(src []byte) bool {
-	var buf [1]bool
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.BooleanDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *BooleanStatistics) minval(a, b bool) bool {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *BooleanStatistics) maxval(a, b bool) bool {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *BooleanStatistics) MinMaxEqual(rhs *BooleanStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *BooleanStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*BooleanStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *BooleanStatistics) getMinMax(values []bool) (min, max bool) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *BooleanStatistics) getMinMaxSpaced(values []bool, validBits []byte, validBitsOffset int64) (min, max bool) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *BooleanStatistics) Min() bool { return s.min }
-func (s *BooleanStatistics) Max() bool { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *BooleanStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*BooleanStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *BooleanStatistics) Update(values []bool, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *BooleanStatistics) UpdateSpaced(values []bool, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *BooleanStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update boolean stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *BooleanStatistics) SetMinMax(argMin, argMax bool) {
-	maybeMinMax := s.cleanStat([2]bool{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *BooleanStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *BooleanStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *BooleanStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairByteArray [2]parquet.ByteArray
-
-// ByteArrayStatistics is the typed interface for managing stats for a column
-// of ByteArray type.
-type ByteArrayStatistics struct {
-	statistics
-	min parquet.ByteArray
-	max parquet.ByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewByteArrayStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.ByteArray
-func NewByteArrayStatistics(descr *schema.Column, mem memory.Allocator) *ByteArrayStatistics {
-	if descr.PhysicalType() != parquet.Types.ByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a ByteArray stat object", descr.PhysicalType()))
-	}
-
-	return &ByteArrayStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-
-		min: make([]byte, 0),
-		max: make([]byte, 0),
-	}
-}
-
-// NewByteArrayStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewByteArrayStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *ByteArrayStatistics {
-	ret := NewByteArrayStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *ByteArrayStatistics) plainEncode(src parquet.ByteArray) []byte {
-	out := make([]byte, len(src))
-	copy(out, src)
-	return out
-}
-
-func (s *ByteArrayStatistics) plainDecode(src []byte) parquet.ByteArray {
-	return src
-}
-
-func (s *ByteArrayStatistics) minval(a, b parquet.ByteArray) parquet.ByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *ByteArrayStatistics) maxval(a, b parquet.ByteArray) parquet.ByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *ByteArrayStatistics) MinMaxEqual(rhs *ByteArrayStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *ByteArrayStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*ByteArrayStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *ByteArrayStatistics) getMinMax(values []parquet.ByteArray) (min, max parquet.ByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *ByteArrayStatistics) getMinMaxSpaced(values []parquet.ByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.ByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *ByteArrayStatistics) Min() parquet.ByteArray { return s.min }
-func (s *ByteArrayStatistics) Max() parquet.ByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *ByteArrayStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*ByteArrayStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *ByteArrayStatistics) Update(values []parquet.ByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *ByteArrayStatistics) UpdateSpaced(values []parquet.ByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *ByteArrayStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if !arrow.IsBaseBinary(values.DataType().ID()) {
-		return fmt.Errorf("%w: can only update ByteArray stats from binary or string array", arrow.ErrInvalid)
-	}
-
-	var (
-		min       = s.defaultMin()
-		max       = s.defaultMax()
-		arr       = values.(array.BinaryLike)
-		data      = arr.ValueBytes()
-		curOffset = int64(0)
-	)
-
-	for i := 0; i < arr.Len(); i++ {
-		nextOffset := arr.ValueOffset64(i + 1)
-		v := data[curOffset:nextOffset]
-		curOffset = nextOffset
-
-		if len(v) == 0 {
-			continue
-		}
-
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-
-	s.SetMinMax(min, max)
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *ByteArrayStatistics) SetMinMax(argMin, argMax parquet.ByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.ByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *ByteArrayStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *ByteArrayStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *ByteArrayStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFixedLenByteArray [2]parquet.FixedLenByteArray
-
-// FixedLenByteArrayStatistics is the typed interface for managing stats for a column
-// of FixedLenByteArray type.
-type FixedLenByteArrayStatistics struct {
-	statistics
-	min parquet.FixedLenByteArray
-	max parquet.FixedLenByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFixedLenByteArrayStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.FixedLenByteArray
-func NewFixedLenByteArrayStatistics(descr *schema.Column, mem memory.Allocator) *FixedLenByteArrayStatistics {
-	if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a FixedLenByteArray stat object", descr.PhysicalType()))
-	}
-
-	return &FixedLenByteArrayStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFixedLenByteArrayStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFixedLenByteArrayStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *FixedLenByteArrayStatistics {
-	ret := NewFixedLenByteArrayStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *FixedLenByteArrayStatistics) plainEncode(src parquet.FixedLenByteArray) []byte {
-	s.encoder.(encoding.FixedLenByteArrayEncoder).Put([]parquet.FixedLenByteArray{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *FixedLenByteArrayStatistics) plainDecode(src []byte) parquet.FixedLenByteArray {
-	var buf [1]parquet.FixedLenByteArray
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.FixedLenByteArrayDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *FixedLenByteArrayStatistics) minval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *FixedLenByteArrayStatistics) maxval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *FixedLenByteArrayStatistics) MinMaxEqual(rhs *FixedLenByteArrayStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *FixedLenByteArrayStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*FixedLenByteArrayStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *FixedLenByteArrayStatistics) getMinMax(values []parquet.FixedLenByteArray) (min, max parquet.FixedLenByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *FixedLenByteArrayStatistics) getMinMaxSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.FixedLenByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *FixedLenByteArrayStatistics) Min() parquet.FixedLenByteArray { return s.min }
-func (s *FixedLenByteArrayStatistics) Max() parquet.FixedLenByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *FixedLenByteArrayStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*FixedLenByteArrayStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *FixedLenByteArrayStatistics) Update(values []parquet.FixedLenByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *FixedLenByteArrayStatistics) UpdateSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *FixedLenByteArrayStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	dt := values.DataType()
-	if dt.ID() != arrow.FIXED_SIZE_BINARY && dt.ID() != arrow.DECIMAL {
-		return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported to update stats from arrow",
-			arrow.ErrInvalid)
-	}
-
-	var (
-		width = dt.(arrow.FixedWidthDataType).Bytes()
-		data  = values.Data().Buffers()[1].Bytes()[values.Data().Offset()*width:]
-		min   = s.defaultMin()
-		max   = s.defaultMax()
-	)
-
-	for i := 0; i < values.Len(); i++ {
-		v := data[i*width : (i+1)*width]
-		min = s.minval(min, v)
-		max = s.maxval(min, v)
-	}
-
-	s.SetMinMax(min, max)
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *FixedLenByteArrayStatistics) SetMinMax(argMin, argMax parquet.FixedLenByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.FixedLenByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *FixedLenByteArrayStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *FixedLenByteArrayStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *FixedLenByteArrayStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat16 [2]parquet.FixedLenByteArray
-
-// Float16Statistics is the typed interface for managing stats for a column
-// of Float16 type.
-type Float16Statistics struct {
-	statistics
-	min parquet.FixedLenByteArray
-	max parquet.FixedLenByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat16Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.FixedLenByteArray
-// Panics if the logical type of descr is not schema.Float16LogicalType
-func NewFloat16Statistics(descr *schema.Column, mem memory.Allocator) *Float16Statistics {
-	if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float16 stat object", descr.PhysicalType()))
-	}
-	if !descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-		panic(fmt.Errorf("parquet: invalid logical type %s for constructing a Float16 stat object", descr.LogicalType().String()))
-	}
-
-	return &Float16Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat16StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat16StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float16Statistics {
-	ret := NewFloat16Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float16Statistics) plainEncode(src parquet.FixedLenByteArray) []byte {
-	s.encoder.(encoding.FixedLenByteArrayEncoder).Put([]parquet.FixedLenByteArray{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float16Statistics) plainDecode(src []byte) parquet.FixedLenByteArray {
-	var buf [1]parquet.FixedLenByteArray
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.FixedLenByteArrayDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float16Statistics) minval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *Float16Statistics) maxval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float16Statistics) MinMaxEqual(rhs *Float16Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float16Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() || !s.descr.LogicalType().Equals(other.Descr().LogicalType()) {
-		return false
-	}
-	rhs, ok := other.(*Float16Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float16Statistics) coalesce(val, fallback parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	if float16.FromLEBytes(val).IsNaN() {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float16Statistics) getMinMax(values []parquet.FixedLenByteArray) (min, max parquet.FixedLenByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float16Statistics) getMinMaxSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.FixedLenByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(parquet.FixedLenByteArray))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(parquet.FixedLenByteArray))
-		}
-	}
-	return
-}
-
-func (s *Float16Statistics) Min() parquet.FixedLenByteArray { return s.min }
-func (s *Float16Statistics) Max() parquet.FixedLenByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float16Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float16Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float16Statistics) Update(values []parquet.FixedLenByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float16Statistics) UpdateSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float16Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update float16 stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float16Statistics) SetMinMax(argMin, argMax parquet.FixedLenByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.FixedLenByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float16Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float16Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float16Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-// NewStatistics uses the type in the column descriptor to construct the appropriate
-// typed stats object. If mem is nil, then memory.DefaultAllocator will be used.
-func NewStatistics(descr *schema.Column, mem memory.Allocator) TypedStatistics {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32Statistics(descr, mem)
-	case parquet.Types.Int64:
-		return NewInt64Statistics(descr, mem)
-	case parquet.Types.Int96:
-		return NewInt96Statistics(descr, mem)
-	case parquet.Types.Float:
-		return NewFloat32Statistics(descr, mem)
-	case parquet.Types.Double:
-		return NewFloat64Statistics(descr, mem)
-	case parquet.Types.Boolean:
-		return NewBooleanStatistics(descr, mem)
-	case parquet.Types.ByteArray:
-		return NewByteArrayStatistics(descr, mem)
-	case parquet.Types.FixedLenByteArray:
-		if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-			return NewFloat16Statistics(descr, mem)
-		}
-		return NewFixedLenByteArrayStatistics(descr, mem)
-	default:
-		panic("not implemented")
-	}
-}
-
-// NewStatisticsFromEncoded uses the provided information to initialize a typed stat object
-// by checking the type of the provided column descriptor.
-//
-// If mem is nil, then memory.DefaultAllocator is used.
-func NewStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) TypedStatistics {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Int64:
-		return NewInt64StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Int96:
-		return NewInt96StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Float:
-		return NewFloat32StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Double:
-		return NewFloat64StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Boolean:
-		return NewBooleanStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.ByteArray:
-		return NewByteArrayStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.FixedLenByteArray:
-		if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-			return NewFloat16StatisticsFromEncoded(descr, mem, nvalues, encoded)
-		}
-		return NewFixedLenByteArrayStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	default:
-		panic("not implemented")
-	}
-}
diff --git a/go/parquet/metadata/statistics_types.gen.go.tmpl b/go/parquet/metadata/statistics_types.gen.go.tmpl
deleted file mode 100644
index 4b3c2a7158ac8..0000000000000
--- a/go/parquet/metadata/statistics_types.gen.go.tmpl
+++ /dev/null
@@ -1,530 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-  "fmt"
-
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/parquet/schema"
-  "github.com/apache/arrow/go/v18/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-{{range .In}}
-type minmaxPair{{.Name}} [2]{{.name}}
-
-// {{.Name}}Statistics is the typed interface for managing stats for a column
-// of {{.Name}} type.
-type {{.Name}}Statistics struct {
-  statistics
-  min {{.name}}
-  max {{.name}}
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// New{{.Name}}Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-{{- if eq .Name "Float16"}}
-// Panics if the logical type of descr is not schema.Float16LogicalType
-{{- end}}
-func New{{.Name}}Statistics(descr *schema.Column, mem memory.Allocator) *{{.Name}}Statistics {
-  if descr.PhysicalType() != parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}} {
-    panic(fmt.Errorf("parquet: invalid type %s for constructing a {{.Name}} stat object", descr.PhysicalType()))
-  }
-{{- if eq .Name "Float16"}}
-  if !descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-    panic(fmt.Errorf("parquet: invalid logical type %s for constructing a {{.Name}} stat object", descr.LogicalType().String()))
-  }
-{{- end}}
-
-  return &{{.Name}}Statistics{
-    statistics: statistics{
-      descr: descr,
-      hasNullCount: true,
-      hasDistinctCount: true,
-      order: descr.SortOrder(),
-      encoder: encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-      mem: mem,
-    },
-    {{if eq .Name "ByteArray"}}
-    min: make([]byte, 0),
-    max: make([]byte, 0),
-    {{end}}
-  }
-}
-
-// New{{.Name}}StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func New{{.Name}}StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *{{.Name}}Statistics {
-  ret := New{{.Name}}Statistics(descr, mem)
-  ret.nvalues += nvalues
-  if encoded.IsSetNullCount() {
-    ret.IncNulls(encoded.GetNullCount())
-  }
-  if encoded.IsSetDistinctCount() {
-    ret.IncDistinct(encoded.GetDistinctCount())
-  }
-
-  encodedMin := encoded.GetMin()
-  if encodedMin != nil && len(encodedMin) > 0 {
-    ret.min = ret.plainDecode(encodedMin)
-  }
-  encodedMax := encoded.GetMax()
-  if encodedMax != nil && len(encodedMax) > 0 {
-    ret.max = ret.plainDecode(encodedMax)
-  }
-  ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-  return ret
-}
-
-func (s *{{.Name}}Statistics) plainEncode(src {{.name}}) []byte {
-{{- if eq .Name "ByteArray"}}
-  out := make([]byte, len(src))
-  copy(out, src)
-  return out
-{{- else}}
-  s.encoder.(encoding.{{if .logical}}{{.physical}}{{else}}{{.Name}}{{end}}Encoder).Put([]{{.name}}{src})
-  buf, err := s.encoder.FlushValues()
-  if err != nil {
-    panic(err) // recovered by Encode
-  }
-  defer buf.Release()
-
-  out := make([]byte, buf.Len())
-  copy(out, buf.Bytes())
-  return out
-{{- end}}
-}
-
-func (s *{{.Name}}Statistics) plainDecode(src []byte) {{.name}} {
-{{- if eq .Name "ByteArray"}}
-  return src
-{{- else}}
-  var buf [1]{{.name}}
-
-  decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-  decoder.SetData(1, src)
-  decoder.(encoding.{{if .logical}}{{.physical}}{{else}}{{.Name}}{{end}}Decoder).Decode(buf[:])
-  return buf[0]
-{{- end}}
-}
-
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Float16")}}
-func (s *{{.Name}}Statistics) minval(a, b {{.name}}) {{.name}} {
-  if s.less(a, b) {
-    return a
-  }
-  return b
-}
-
-func (s *{{.Name}}Statistics) maxval(a, b {{.name}}) {{.name}} {
-  if s.less(a, b) {
-    return b
-  }
-  return a
-}
-{{else}}
-func (s *{{.Name}}Statistics) minval(a, b {{.name}}) {{.name}} {
-  switch {
-  case a == nil:
-    return b
-  case b == nil:
-    return a
-  case s.less(a, b):
-    return a
-  default:
-    return b
-  }
-}
-
-func (s *{{.Name}}Statistics) maxval(a, b {{.name}}) {{.name}} {
-  switch {
-  case a == nil:
-    return b
-  case b == nil:
-    return a
-  case s.less(a, b):
-    return b
-  default:
-    return a
-  }
-}
-{{end}}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *{{.Name}}Statistics) MinMaxEqual(rhs *{{.Name}}Statistics) bool {
-  return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *{{.Name}}Statistics) Equals(other TypedStatistics) bool {
-{{- if .logical}}
-  if s.Type() != other.Type() || !s.descr.LogicalType().Equals(other.Descr().LogicalType()) {
-{{- else}}
-  if s.Type() != other.Type() {
-{{- end}}
-    return false
-  }
-  rhs, ok := other.(*{{.Name}}Statistics)
-  if !ok {
-    return false
-  }
-
-  if s.HasMinMax() != rhs.HasMinMax() { return false }
-  return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-    s.NullCount() == rhs.NullCount() &&
-    s.DistinctCount() == rhs.DistinctCount() &&
-    s.NumValues() == rhs.NumValues()
-}
-
-{{if or (eq .name "float32") (eq .name "float64")}}
-func (s *{{.Name}}Statistics) coalesce(val, fallback {{.name}}) {{.name}} {
-  if math.IsNaN(float64(val)) {
-    return fallback
-  }
-  return val
-}
-{{else if eq .Name "Float16"}}
-func (s *{{.Name}}Statistics) coalesce(val, fallback {{.name}}) {{.name}} {
-  if float16.FromLEBytes(val).IsNaN() {
-    return fallback
-  }
-  return val
-}
-{{end}}
-
-func (s *{{.Name}}Statistics) getMinMax(values []{{.name}}) (min, max {{.name}}) {
-{{- if or (eq .name "int32") (eq .name "int64")}}
-  if s.order == schema.SortSIGNED {
-    min, max = shared_utils.GetMinMax{{.Name}}(values)
-  } else {
-    umin, umax := shared_utils.GetMinMaxU{{.name}}(arrow.U{{.name}}Traits.CastFromBytes(arrow.{{.Name}}Traits.CastToBytes(values)))
-    min, max = {{.name}}(umin), {{.name}}(umax)
-  }
-{{- else}}
-  defMin := s.defaultMin()
-  defMax := s.defaultMax()
-
-  min = defMin
-  max = defMax
-
-  for _, v := range values {
-{{- if or (eq .name "float32") (eq .name "float64") (eq .Name "Float16") }}
-    min = s.minval(min, s.coalesce(v, defMin))
-    max = s.maxval(max, s.coalesce(v, defMax))
-{{- else}}
-    min = s.minval(min, v)
-    max = s.maxval(max, v)
-{{- end }}
-  }
-{{- end}}
-  return
-}
-
-func (s *{{.Name}}Statistics) getMinMaxSpaced(values []{{.name}}, validBits []byte, validBitsOffset int64) (min, max {{.name}}) {
-  min = s.defaultMin()
-  max = s.defaultMax()
-
-{{- if or (eq .name "int32") (eq .name "int64")}}
-  var fn func([]{{.name}}) ({{.name}}, {{.name}})
-  if s.order == schema.SortSIGNED {
-    fn = shared_utils.GetMinMax{{.Name}}
-  } else {
-    fn = func(v []{{.name}}) ({{.name}}, {{.name}}) {
-      umin, umax := shared_utils.GetMinMaxU{{.name}}(arrow.U{{.name}}Traits.CastFromBytes(arrow.{{.Name}}Traits.CastToBytes(values)))
-      return {{.name}}(umin), {{.name}}(umax)
-    }
-  }
-{{- end}}
-
-  if s.bitSetReader == nil {
-    s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-  } else {
-    s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-  }
-
-  for {
-    run := s.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-{{- if or (eq .name "int32") (eq .name "int64")}}
-    localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-    if min > localMin {
-      min = localMin
-    }
-    if max < localMax {
-      max = localMax
-    }
-{{- else}}
-    for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-{{- if or (eq .name "float32") (eq .name "float64") (eq .Name "Float16") }}
-      min = s.minval(min, coalesce(v, s.defaultMin()).({{.name}}))
-      max = s.maxval(max, coalesce(v, s.defaultMax()).({{.name}}))
-{{- else}}
-      min = s.minval(min, v)
-      max = s.maxval(max, v)
-{{- end }}
-    }
-{{- end}}
-  }
-  return
-}
-
-func (s *{{.Name}}Statistics) Min() {{.name}} { return s.min }
-func (s *{{.Name}}Statistics) Max() {{.name}} { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *{{.Name}}Statistics) Merge(other TypedStatistics) {
-  rhs, ok := other.(*{{.Name}}Statistics)
-  if !ok {
-    panic("incompatible stat type merge")
-  }
-
-  s.statistics.merge(rhs)
-  if rhs.HasMinMax() {
-    s.SetMinMax(rhs.Min(), rhs.Max())
-  }
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *{{.Name}}Statistics) Update(values []{{.name}}, numNull int64) {
-  s.IncNulls(numNull)
-  s.nvalues += int64(len(values))
-
-  if len(values) == 0 {
-    return
-  }
-
-  s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *{{.Name}}Statistics) UpdateSpaced(values []{{.name}}, validBits []byte, validBitsOffset, numNull int64) {
-  s.IncNulls(numNull)
-  notnull := int64(len(values)) - numNull
-  s.nvalues += notnull
-
-  if notnull == 0 {
-    return
-  }
-
-  s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *{{.Name}}Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-  if updateCounts {
-    s.IncNulls(int64(values.NullN()))
-    s.nvalues += int64(values.Len() - values.NullN())
-  }
-
-  if values.NullN() == values.Len() {
-    return nil
-  }
-{{if eq .Name "FixedLenByteArray"}}
-  dt := values.DataType()
-  if dt.ID() != arrow.FIXED_SIZE_BINARY && dt.ID() != arrow.DECIMAL {
-    return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported to update stats from arrow", 
-      arrow.ErrInvalid)
-  }
-
-  var (
-    width = dt.(arrow.FixedWidthDataType).Bytes()
-    data = values.Data().Buffers()[1].Bytes()[values.Data().Offset()*width:]
-    min = s.defaultMin()
-    max = s.defaultMax()
-  )
-
-  for i := 0; i < values.Len(); i++ {
-    v := data[i * width : (i+1) * width]
-    min = s.minval(min, v)
-    max = s.maxval(min, v)
-  }
-
-  s.SetMinMax(min, max)
-  return nil
-{{else if eq .Name "Int96"}}
-  return fmt.Errorf("%w: update int96 stats from Arrow", arrow.ErrNotImplemented)
-{{else if eq .Name "ByteArray"}}
-  if !arrow.IsBaseBinary(values.DataType().ID()) {
-    return fmt.Errorf("%w: can only update ByteArray stats from binary or string array", arrow.ErrInvalid)
-  }
-
-  var (
-    min = s.defaultMin()
-    max = s.defaultMax()
-    arr = values.(array.BinaryLike)
-    data = arr.ValueBytes()
-    curOffset = int64(0)
-  )
-
-  for i := 0; i < arr.Len(); i++ {
-    nextOffset := arr.ValueOffset64(i + 1)
-    v := data[curOffset:nextOffset]
-    curOffset = nextOffset
-
-    if len(v) == 0 {
-      continue
-    }
-    
-    min = s.minval(min, v)
-    max = s.maxval(max, v)
-  }
-
-  s.SetMinMax(min, max)
-  return nil
-{{else if eq .Name "Boolean"}}
-  return fmt.Errorf("%w: update boolean stats from Arrow", arrow.ErrNotImplemented)
-{{else if eq .Name "Float16"}}
-  return fmt.Errorf("%w: update float16 stats from Arrow", arrow.ErrNotImplemented)
-{{else}}
-  if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.{{.Name}}SizeBytes {
-    return fmt.Errorf("%w: cannot update {{.name}} stats with %s arrow array", 
-      arrow.ErrInvalid, values.DataType())
-  }
-
-  rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.{{.Name}}SizeBytes:]
-  s.SetMinMax(s.getMinMax(arrow.{{.Name}}Traits.CastFromBytes(rawBytes)))
-  return nil
-{{end -}}
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *{{.Name}}Statistics) SetMinMax(argMin, argMax {{.name}}) {
-  maybeMinMax := s.cleanStat([2]{{.name}}{argMin, argMax})
-  if maybeMinMax == nil {
-    return
-  }
-
-  min := (*maybeMinMax)[0]
-  max := (*maybeMinMax)[1]
-
-  if !s.hasMinMax {
-    s.hasMinMax = true
-    s.min = min
-    s.max = max
-  } else {
-    if !s.less(s.min, min) {
-      s.min = min
-    }
-    if s.less(s.max, max) {
-      s.max = max
-    }
-  }
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *{{.Name}}Statistics) EncodeMin() []byte {
-  if s.HasMinMax() {
-    return s.plainEncode(s.min)
-  }
-  return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *{{.Name}}Statistics) EncodeMax() []byte{
-  if s.HasMinMax() {
-    return s.plainEncode(s.max)
-  }
-  return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *{{.Name}}Statistics) Encode() (enc EncodedStatistics, err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-    }
-  }()
-  if s.HasMinMax() {
-    enc.SetMax(s.EncodeMax())
-    enc.SetMin(s.EncodeMin())
-  }
-  if s.HasNullCount() {
-    enc.SetNullCount(s.NullCount())
-  }
-  if s.HasDistinctCount() {
-    enc.SetDistinctCount(s.DistinctCount())
-  }
-  return
-}
-{{end}}
-
-// NewStatistics uses the type in the column descriptor to construct the appropriate
-// typed stats object. If mem is nil, then memory.DefaultAllocator will be used.
-func NewStatistics(descr *schema.Column, mem memory.Allocator) TypedStatistics {
-  if mem == nil {
-    mem = memory.DefaultAllocator
-  }
-  switch descr.PhysicalType() {
-{{- range .In}}
-  {{- if not .logical}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    {{- if eq .Name "FixedLenByteArray"}}
-    if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-      return NewFloat16Statistics(descr, mem)
-    }
-    {{- end}}
-    return New{{.Name}}Statistics(descr, mem)
-  {{- end}}
-{{- end}}
-  default:
-    panic("not implemented")
-  }
-}
-
-// NewStatisticsFromEncoded uses the provided information to initialize a typed stat object
-// by checking the type of the provided column descriptor.
-//
-// If mem is nil, then memory.DefaultAllocator is used.
-func NewStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) TypedStatistics {
-  if mem == nil {
-    mem = memory.DefaultAllocator
-  }
-  switch descr.PhysicalType() {
-{{- range .In}}
-  {{- if not .logical}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    {{- if eq .Name "FixedLenByteArray"}}
-    if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-      return NewFloat16StatisticsFromEncoded(descr, mem, nvalues, encoded)
-    }
-    {{- end}}
-    return New{{.Name}}StatisticsFromEncoded(descr, mem, nvalues, encoded)
-  {{- end}}
-{{- end}}
-  default:
-    panic("not implemented")
-  }
-}
diff --git a/go/parquet/metadata/statistics_types.tmpldata b/go/parquet/metadata/statistics_types.tmpldata
deleted file mode 100644
index 400c0a3ca515d..0000000000000
--- a/go/parquet/metadata/statistics_types.tmpldata
+++ /dev/null
@@ -1,60 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float16",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "float16",
-    "prefix": "parquet",
-    "physical": "FixedLenByteArray",
-    "logical": "Float16LogicalType"
-  }
-]
diff --git a/go/parquet/pqarrow/column_readers.go b/go/parquet/pqarrow/column_readers.go
deleted file mode 100644
index 1e5d5958e6732..0000000000000
--- a/go/parquet/pqarrow/column_readers.go
+++ /dev/null
@@ -1,969 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"reflect"
-	"sync"
-	"sync/atomic"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/sync/errgroup"
-)
-
-// column reader for leaf columns (non-nested)
-type leafReader struct {
-	out       *arrow.Chunked
-	rctx      *readerCtx
-	field     *arrow.Field
-	input     *columnIterator
-	descr     *schema.Column
-	recordRdr file.RecordReader
-	props     ArrowReadProperties
-
-	refCount int64
-}
-
-func newLeafReader(rctx *readerCtx, field *arrow.Field, input *columnIterator, leafInfo file.LevelInfo, props ArrowReadProperties, bufferPool *sync.Pool) (*ColumnReader, error) {
-	ret := &leafReader{
-		rctx:      rctx,
-		field:     field,
-		input:     input,
-		descr:     input.Descr(),
-		recordRdr: file.NewRecordReader(input.Descr(), leafInfo, field.Type, rctx.mem, bufferPool),
-		props:     props,
-		refCount:  1,
-	}
-	err := ret.nextRowGroup()
-	return &ColumnReader{ret}, err
-}
-
-func (lr *leafReader) Retain() {
-	atomic.AddInt64(&lr.refCount, 1)
-}
-
-func (lr *leafReader) Release() {
-	if atomic.AddInt64(&lr.refCount, -1) == 0 {
-		lr.releaseOut()
-		if lr.recordRdr != nil {
-			lr.recordRdr.Release()
-			lr.recordRdr = nil
-		}
-	}
-}
-
-func (lr *leafReader) GetDefLevels() ([]int16, error) {
-	return lr.recordRdr.DefLevels()[:int(lr.recordRdr.LevelsPos())], nil
-}
-
-func (lr *leafReader) GetRepLevels() ([]int16, error) {
-	return lr.recordRdr.RepLevels()[:int(lr.recordRdr.LevelsPos())], nil
-}
-
-func (lr *leafReader) IsOrHasRepeatedChild() bool { return false }
-
-func (lr *leafReader) LoadBatch(nrecords int64) (err error) {
-	lr.releaseOut()
-	lr.recordRdr.Reset()
-
-	if err := lr.recordRdr.Reserve(nrecords); err != nil {
-		return err
-	}
-	for nrecords > 0 {
-		if !lr.recordRdr.HasMore() {
-			break
-		}
-		numRead, err := lr.recordRdr.ReadRecords(nrecords)
-		if err != nil {
-			return err
-		}
-		nrecords -= numRead
-		if numRead == 0 {
-			if err = lr.nextRowGroup(); err != nil {
-				return err
-			}
-		}
-	}
-	lr.out, err = transferColumnData(lr.recordRdr, lr.field.Type, lr.descr)
-	return
-}
-
-func (lr *leafReader) BuildArray(int64) (*arrow.Chunked, error) {
-	return lr.clearOut(), nil
-}
-
-// releaseOut will clear lr.out as well as release it if it wasn't nil
-func (lr *leafReader) releaseOut() {
-	if out := lr.clearOut(); out != nil {
-		out.Release()
-	}
-}
-
-// clearOut will clear lt.out and return the old value
-func (lr *leafReader) clearOut() (out *arrow.Chunked) {
-	out, lr.out = lr.out, nil
-	return out
-}
-
-func (lr *leafReader) Field() *arrow.Field { return lr.field }
-
-func (lr *leafReader) nextRowGroup() error {
-	pr, err := lr.input.NextChunk()
-	if err != nil {
-		return err
-	}
-	lr.recordRdr.SetPageReader(pr)
-	return nil
-}
-
-// column reader for struct arrays, has readers for each child which could
-// themselves be nested or leaf columns.
-type structReader struct {
-	rctx             *readerCtx
-	filtered         *arrow.Field
-	levelInfo        file.LevelInfo
-	children         []*ColumnReader
-	defRepLevelChild *ColumnReader
-	hasRepeatedChild bool
-	props            ArrowReadProperties
-
-	refCount int64
-}
-
-func (sr *structReader) Retain() {
-	atomic.AddInt64(&sr.refCount, 1)
-}
-
-func (sr *structReader) Release() {
-	if atomic.AddInt64(&sr.refCount, -1) == 0 {
-		if sr.defRepLevelChild != nil {
-			sr.defRepLevelChild.Release()
-			sr.defRepLevelChild = nil
-		}
-		for _, c := range sr.children {
-			c.Release()
-		}
-		sr.children = nil
-	}
-}
-
-func newStructReader(rctx *readerCtx, filtered *arrow.Field, levelInfo file.LevelInfo, children []*ColumnReader, props ArrowReadProperties) *ColumnReader {
-	ret := &structReader{
-		rctx:      rctx,
-		filtered:  filtered,
-		levelInfo: levelInfo,
-		children:  children,
-		props:     props,
-		refCount:  1,
-	}
-
-	// there could be a mix of children some might be repeated and some might not be
-	// if possible use one that isn't since that will be guaranteed to have the least
-	// number of levels to reconstruct a nullable bitmap
-	for _, child := range children {
-		if !child.IsOrHasRepeatedChild() {
-			ret.defRepLevelChild = child
-			break
-		}
-	}
-
-	if ret.defRepLevelChild == nil {
-		ret.defRepLevelChild = children[0]
-		ret.hasRepeatedChild = true
-	}
-	ret.defRepLevelChild.Retain()
-	return &ColumnReader{ret}
-}
-
-func (sr *structReader) IsOrHasRepeatedChild() bool { return sr.hasRepeatedChild }
-
-func (sr *structReader) GetDefLevels() ([]int16, error) {
-	if len(sr.children) == 0 {
-		return nil, errors.New("struct reader has no children")
-	}
-
-	// this method should only be called when this struct or one of its parents
-	// are optional/repeated or has a repeated child
-	// meaning all children must have rep/def levels associated with them
-	return sr.defRepLevelChild.GetDefLevels()
-}
-
-func (sr *structReader) GetRepLevels() ([]int16, error) {
-	if len(sr.children) == 0 {
-		return nil, errors.New("struct reader has no children")
-	}
-
-	// this method should only be called when this struct or one of its parents
-	// are optional/repeated or has a repeated child
-	// meaning all children must have rep/def levels associated with them
-	return sr.defRepLevelChild.GetRepLevels()
-}
-
-func (sr *structReader) LoadBatch(nrecords int64) error {
-	// Load batches in parallel
-	// When reading structs with large numbers of columns, the serial load is very slow.
-	// This is especially true when reading Cloud Storage. Loading concurrently
-	// greatly improves performance.
-	g := new(errgroup.Group)
-	if !sr.props.Parallel {
-		g.SetLimit(1)
-	}
-	for _, rdr := range sr.children {
-		rdr := rdr
-		g.Go(func() error {
-			return rdr.LoadBatch(nrecords)
-		})
-	}
-
-	return g.Wait()
-}
-
-func (sr *structReader) Field() *arrow.Field { return sr.filtered }
-
-func (sr *structReader) BuildArray(lenBound int64) (*arrow.Chunked, error) {
-	validityIO := file.ValidityBitmapInputOutput{
-		ReadUpperBound: lenBound,
-		Read:           lenBound,
-	}
-
-	var nullBitmap *memory.Buffer
-
-	if lenBound > 0 && (sr.hasRepeatedChild || sr.filtered.Nullable) {
-		nullBitmap = memory.NewResizableBuffer(sr.rctx.mem)
-		nullBitmap.Resize(int(bitutil.BytesForBits(lenBound)))
-		defer nullBitmap.Release()
-		validityIO.ValidBits = nullBitmap.Bytes()
-		defLevels, err := sr.GetDefLevels()
-		if err != nil {
-			return nil, err
-		}
-
-		if sr.hasRepeatedChild {
-			repLevels, err := sr.GetRepLevels()
-			if err != nil {
-				return nil, err
-			}
-
-			if err := file.DefRepLevelsToBitmap(defLevels, repLevels, sr.levelInfo, &validityIO); err != nil {
-				return nil, err
-			}
-		} else {
-			file.DefLevelsToBitmap(defLevels, sr.levelInfo, &validityIO)
-		}
-	}
-
-	if nullBitmap != nil {
-		nullBitmap.Resize(int(bitutil.BytesForBits(validityIO.Read)))
-	}
-
-	childArrData := make([]arrow.ArrayData, len(sr.children))
-	defer releaseArrayData(childArrData)
-	// gather children arrays and def levels
-	for i, child := range sr.children {
-		field, err := child.BuildArray(lenBound)
-		if err != nil {
-			return nil, err
-		}
-
-		childArrData[i], err = chunksToSingle(field)
-		field.Release() // release field before checking
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	if !sr.filtered.Nullable && !sr.hasRepeatedChild {
-		validityIO.Read = int64(childArrData[0].Len())
-	}
-
-	buffers := make([]*memory.Buffer, 1)
-	if validityIO.NullCount > 0 {
-		buffers[0] = nullBitmap
-	}
-
-	data := array.NewData(sr.filtered.Type, int(validityIO.Read), buffers, childArrData, int(validityIO.NullCount), 0)
-	defer data.Release()
-	arr := array.NewStructData(data)
-	defer arr.Release()
-	return arrow.NewChunked(sr.filtered.Type, []arrow.Array{arr}), nil
-}
-
-// column reader for repeated columns specifically for list arrays
-type listReader struct {
-	rctx     *readerCtx
-	field    *arrow.Field
-	info     file.LevelInfo
-	itemRdr  *ColumnReader
-	props    ArrowReadProperties
-	refCount int64
-}
-
-func newListReader(rctx *readerCtx, field *arrow.Field, info file.LevelInfo, childRdr *ColumnReader, props ArrowReadProperties) *ColumnReader {
-	childRdr.Retain()
-	return &ColumnReader{&listReader{rctx, field, info, childRdr, props, 1}}
-}
-
-func (lr *listReader) Retain() {
-	atomic.AddInt64(&lr.refCount, 1)
-}
-
-func (lr *listReader) Release() {
-	if atomic.AddInt64(&lr.refCount, -1) == 0 {
-		if lr.itemRdr != nil {
-			lr.itemRdr.Release()
-			lr.itemRdr = nil
-		}
-	}
-}
-
-func (lr *listReader) GetDefLevels() ([]int16, error) {
-	return lr.itemRdr.GetDefLevels()
-}
-
-func (lr *listReader) GetRepLevels() ([]int16, error) {
-	return lr.itemRdr.GetRepLevels()
-}
-
-func (lr *listReader) Field() *arrow.Field { return lr.field }
-
-func (lr *listReader) IsOrHasRepeatedChild() bool { return true }
-
-func (lr *listReader) LoadBatch(nrecords int64) error {
-	return lr.itemRdr.LoadBatch(nrecords)
-}
-
-func (lr *listReader) BuildArray(lenBound int64) (*arrow.Chunked, error) {
-	var (
-		defLevels      []int16
-		repLevels      []int16
-		err            error
-		validityBuffer *memory.Buffer
-	)
-
-	if defLevels, err = lr.itemRdr.GetDefLevels(); err != nil {
-		return nil, err
-	}
-	if repLevels, err = lr.itemRdr.GetRepLevels(); err != nil {
-		return nil, err
-	}
-
-	validityIO := file.ValidityBitmapInputOutput{ReadUpperBound: lenBound}
-	if lr.field.Nullable {
-		validityBuffer = memory.NewResizableBuffer(lr.rctx.mem)
-		validityBuffer.Resize(int(bitutil.BytesForBits(lenBound)))
-		defer validityBuffer.Release()
-		validityIO.ValidBits = validityBuffer.Bytes()
-	}
-	offsetsBuffer := memory.NewResizableBuffer(lr.rctx.mem)
-	offsetsBuffer.Resize(arrow.Int32Traits.BytesRequired(int(lenBound) + 1))
-	defer offsetsBuffer.Release()
-
-	offsetData := arrow.Int32Traits.CastFromBytes(offsetsBuffer.Bytes())
-	if err = file.DefRepLevelsToListInfo(defLevels, repLevels, lr.info, &validityIO, offsetData); err != nil {
-		return nil, err
-	}
-
-	// if the parent (itemRdr) has nulls and is a nested type like list
-	// then we need BuildArray to account for that with the number of
-	// definition levels when building out the bitmap. So the upper bound
-	// to make sure we have the space for is the worst case scenario,
-	// the upper bound is the value of the last offset + the nullcount
-	arr, err := lr.itemRdr.BuildArray(int64(offsetData[int(validityIO.Read)]) + validityIO.NullCount)
-	if err != nil {
-		return nil, err
-	}
-	defer arr.Release()
-
-	// resize to actual number of elems returned
-	offsetsBuffer.Resize(arrow.Int32Traits.BytesRequired(int(validityIO.Read) + 1))
-	if validityBuffer != nil {
-		validityBuffer.Resize(int(bitutil.BytesForBits(validityIO.Read)))
-	}
-
-	item, err := chunksToSingle(arr)
-	if err != nil {
-		return nil, err
-	}
-	defer item.Release()
-
-	buffers := []*memory.Buffer{nil, offsetsBuffer}
-	if validityIO.NullCount > 0 {
-		buffers[0] = validityBuffer
-	}
-
-	data := array.NewData(lr.field.Type, int(validityIO.Read), buffers, []arrow.ArrayData{item}, int(validityIO.NullCount), 0)
-	defer data.Release()
-	if lr.field.Type.ID() == arrow.FIXED_SIZE_LIST {
-		defer data.Buffers()[1].Release()
-		listSize := lr.field.Type.(*arrow.FixedSizeListType).Len()
-		for x := 1; x < data.Len(); x++ {
-			size := offsetData[x] - offsetData[x-1]
-			if size != listSize {
-				return nil, fmt.Errorf("expected all lists to be of size=%d, but index %d had size=%d", listSize, x, size)
-			}
-		}
-		data.Buffers()[1] = nil
-	}
-	out := array.MakeFromData(data)
-	defer out.Release()
-	return arrow.NewChunked(lr.field.Type, []arrow.Array{out}), nil
-}
-
-// column reader logic for fixed size lists instead of variable length ones.
-type fixedSizeListReader struct {
-	listReader
-}
-
-func newFixedSizeListReader(rctx *readerCtx, field *arrow.Field, info file.LevelInfo, childRdr *ColumnReader, props ArrowReadProperties) *ColumnReader {
-	childRdr.Retain()
-	return &ColumnReader{&fixedSizeListReader{listReader{rctx, field, info, childRdr, props, 1}}}
-}
-
-// helper function to combine chunks into a single array.
-//
-// nested data conversion for chunked array outputs not yet implemented
-func chunksToSingle(chunked *arrow.Chunked) (arrow.ArrayData, error) {
-	switch len(chunked.Chunks()) {
-	case 0:
-		return array.NewData(chunked.DataType(), 0, []*memory.Buffer{nil, nil}, nil, 0, 0), nil
-	case 1:
-		data := chunked.Chunk(0).Data()
-		data.Retain() // we pass control to the caller
-		return data, nil
-	default: // if an item reader yields a chunked array, this is not yet implemented
-		return nil, arrow.ErrNotImplemented
-	}
-}
-
-// create a chunked arrow array from the raw record data
-func transferColumnData(rdr file.RecordReader, valueType arrow.DataType, descr *schema.Column) (*arrow.Chunked, error) {
-	dt := valueType
-	if valueType.ID() == arrow.EXTENSION {
-		dt = valueType.(arrow.ExtensionType).StorageType()
-	}
-
-	var data arrow.ArrayData
-	switch dt.ID() {
-	case arrow.DICTIONARY:
-		return transferDictionary(rdr, valueType), nil
-	case arrow.NULL:
-		return arrow.NewChunked(arrow.Null, []arrow.Array{array.NewNull(rdr.ValuesWritten())}), nil
-	case arrow.INT32, arrow.INT64, arrow.FLOAT32, arrow.FLOAT64:
-		data = transferZeroCopy(rdr, valueType) // can just reference the raw data without copying
-	case arrow.BOOL:
-		data = transferBool(rdr)
-	case arrow.UINT8,
-		arrow.UINT16,
-		arrow.UINT32,
-		arrow.UINT64,
-		arrow.INT8,
-		arrow.INT16,
-		arrow.DATE32,
-		arrow.TIME32,
-		arrow.TIME64:
-		data = transferInt(rdr, valueType)
-	case arrow.DATE64:
-		data = transferDate64(rdr, valueType)
-	case arrow.FIXED_SIZE_BINARY, arrow.BINARY, arrow.STRING, arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return transferBinary(rdr, valueType), nil
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		switch descr.PhysicalType() {
-		case parquet.Types.Int32, parquet.Types.Int64:
-			data = transferDecimalInteger(rdr, valueType)
-		case parquet.Types.ByteArray, parquet.Types.FixedLenByteArray:
-			return transferDecimalBytes(rdr.(file.BinaryRecordReader), valueType)
-		default:
-			return nil, errors.New("physical type for decimal128/decimal256 must be int32, int64, bytearray or fixed len byte array")
-		}
-	case arrow.TIMESTAMP:
-		tstype := valueType.(*arrow.TimestampType)
-		switch tstype.Unit {
-		case arrow.Millisecond, arrow.Microsecond:
-			data = transferZeroCopy(rdr, valueType)
-		case arrow.Nanosecond:
-			if descr.PhysicalType() == parquet.Types.Int96 {
-				data = transferInt96(rdr, valueType)
-			} else {
-				data = transferZeroCopy(rdr, valueType)
-			}
-		default:
-			return nil, errors.New("time unit not supported")
-		}
-	case arrow.FLOAT16:
-		if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-			return nil, errors.New("physical type for float16 must be fixed len byte array")
-		}
-		if len := arrow.Float16SizeBytes; descr.TypeLength() != len {
-			return nil, fmt.Errorf("fixed len byte array length for float16 must be %d", len)
-		}
-		return transferBinary(rdr, valueType), nil
-	default:
-		return nil, fmt.Errorf("no support for reading columns of type: %s", valueType.Name())
-	}
-
-	defer data.Release()
-	arr := array.MakeFromData(data)
-	defer arr.Release()
-	return arrow.NewChunked(valueType, []arrow.Array{arr}), nil
-}
-
-func transferZeroCopy(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	bitmap := rdr.ReleaseValidBits()
-	values := rdr.ReleaseValues()
-	defer func() {
-		if bitmap != nil {
-			bitmap.Release()
-		}
-		if values != nil {
-			values.Release()
-		}
-	}()
-
-	return array.NewData(dt, rdr.ValuesWritten(),
-		[]*memory.Buffer{bitmap, values},
-		nil, int(rdr.NullCount()), 0)
-}
-
-func transferBinary(rdr file.RecordReader, dt arrow.DataType) *arrow.Chunked {
-	brdr := rdr.(file.BinaryRecordReader)
-	if brdr.ReadDictionary() {
-		return transferDictionary(brdr, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: dt})
-	}
-	chunks := brdr.GetBuilderChunks()
-	defer releaseArrays(chunks)
-
-	switch dt := dt.(type) {
-	case arrow.ExtensionType:
-		for idx, chunk := range chunks {
-			chunks[idx] = array.NewExtensionArrayWithStorage(dt, chunk)
-			chunk.Release()
-		}
-	case *arrow.StringType, *arrow.LargeStringType:
-		for idx, chunk := range chunks {
-			chunks[idx] = array.MakeFromData(chunk.Data())
-			chunk.Release()
-		}
-	case *arrow.Float16Type:
-		for idx, chunk := range chunks {
-			data := chunk.Data()
-			f16_data := array.NewData(dt, data.Len(), data.Buffers(), nil, data.NullN(), data.Offset())
-			defer f16_data.Release()
-			chunks[idx] = array.NewFloat16Data(f16_data)
-			chunk.Release()
-		}
-	}
-	return arrow.NewChunked(dt, chunks)
-}
-
-func transferInt(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	var (
-		output reflect.Value
-	)
-
-	signed := true
-	// create buffer for proper type since parquet only has int32 and int64
-	// physical representations, but we want the correct type representation
-	// for Arrow's in memory buffer.
-	data := make([]byte, rdr.ValuesWritten()*int(bitutil.BytesForBits(int64(dt.(arrow.FixedWidthDataType).BitWidth()))))
-	switch dt.ID() {
-	case arrow.INT8:
-		output = reflect.ValueOf(arrow.Int8Traits.CastFromBytes(data))
-	case arrow.UINT8:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint8Traits.CastFromBytes(data))
-	case arrow.INT16:
-		output = reflect.ValueOf(arrow.Int16Traits.CastFromBytes(data))
-	case arrow.UINT16:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint16Traits.CastFromBytes(data))
-	case arrow.UINT32:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint32Traits.CastFromBytes(data))
-	case arrow.UINT64:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint64Traits.CastFromBytes(data))
-	case arrow.DATE32:
-		output = reflect.ValueOf(arrow.Date32Traits.CastFromBytes(data))
-	case arrow.TIME32:
-		output = reflect.ValueOf(arrow.Time32Traits.CastFromBytes(data))
-	case arrow.TIME64:
-		output = reflect.ValueOf(arrow.Time64Traits.CastFromBytes(data))
-	}
-
-	length := rdr.ValuesWritten()
-	// copy the values semantically with the correct types
-	switch rdr.Type() {
-	case parquet.Types.Int32:
-		values := arrow.Int32Traits.CastFromBytes(rdr.Values())
-		if signed {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetInt(int64(v))
-			}
-		} else {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetUint(uint64(v))
-			}
-		}
-	case parquet.Types.Int64:
-		values := arrow.Int64Traits.CastFromBytes(rdr.Values())
-		if signed {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetInt(v)
-			}
-		} else {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetUint(uint64(v))
-			}
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-
-	return array.NewData(dt, rdr.ValuesWritten(), []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-func transferBool(rdr file.RecordReader) arrow.ArrayData {
-	// TODO(mtopol): optimize this so we don't convert bitmap to []bool back to bitmap
-	length := rdr.ValuesWritten()
-	data := make([]byte, int(bitutil.BytesForBits(int64(length))))
-	bytedata := rdr.Values()
-	values := *(*[]bool)(unsafe.Pointer(&bytedata))
-
-	for idx, v := range values[:length] {
-		if v {
-			bitutil.SetBit(data, idx)
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	bb := memory.NewBufferBytes(data)
-	defer bb.Release()
-	return array.NewData(&arrow.BooleanType{}, length, []*memory.Buffer{
-		bitmap, bb,
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-var milliPerDay = time.Duration(24 * time.Hour).Milliseconds()
-
-// parquet equivalent for date64 is a 32-bit integer of the number of days
-// since the epoch. Convert each value to milliseconds for date64
-func transferDate64(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-	values := arrow.Int32Traits.CastFromBytes(rdr.Values())
-
-	data := make([]byte, arrow.Int64Traits.BytesRequired(length))
-	out := arrow.Int64Traits.CastFromBytes(data)
-	for idx, val := range values[:length] {
-		out[idx] = int64(val) * milliPerDay
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-// coerce int96 to nanosecond timestamp
-func transferInt96(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-	values := parquet.Int96Traits.CastFromBytes(rdr.Values())
-
-	data := make([]byte, arrow.Int64SizeBytes*length)
-	out := arrow.Int64Traits.CastFromBytes(data)
-
-	for idx, val := range values[:length] {
-		if binary.LittleEndian.Uint32(val[8:]) == 0 {
-			out[idx] = 0
-		} else {
-			out[idx] = val.ToTime().UnixNano()
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-// convert physical integer storage of a decimal logical type to a decimal128 typed array
-func transferDecimalInteger(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-
-	var values reflect.Value
-	switch rdr.Type() {
-	case parquet.Types.Int32:
-		values = reflect.ValueOf(arrow.Int32Traits.CastFromBytes(rdr.Values())[:length])
-	case parquet.Types.Int64:
-		values = reflect.ValueOf(arrow.Int64Traits.CastFromBytes(rdr.Values())[:length])
-	}
-
-	var data []byte
-	switch dt.ID() {
-	case arrow.DECIMAL128:
-		data = make([]byte, arrow.Decimal128Traits.BytesRequired(length))
-		out := arrow.Decimal128Traits.CastFromBytes(data)
-		for i := 0; i < values.Len(); i++ {
-			out[i] = decimal128.FromI64(values.Index(i).Int())
-		}
-	case arrow.DECIMAL256:
-		data = make([]byte, arrow.Decimal256Traits.BytesRequired(length))
-		out := arrow.Decimal256Traits.CastFromBytes(data)
-		for i := 0; i < values.Len(); i++ {
-			out[i] = decimal256.FromI64(values.Index(i).Int())
-		}
-	}
-
-	var nullmap *memory.Buffer
-	if rdr.NullCount() > 0 {
-		nullmap = rdr.ReleaseValidBits()
-		defer nullmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		nullmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-func uint64FromBigEndianShifted(buf []byte) uint64 {
-	var (
-		bytes [8]byte
-	)
-	copy(bytes[8-len(buf):], buf)
-	return binary.BigEndian.Uint64(bytes[:])
-}
-
-// parquet's defined encoding for decimal data is for it to be written as big
-// endian bytes, so convert a bit endian byte order to a decimal128
-func bigEndianToDecimal128(buf []byte) (decimal128.Num, error) {
-	const (
-		minDecimalBytes = 1
-		maxDecimalBytes = 16
-	)
-
-	if len(buf) < minDecimalBytes || len(buf) > maxDecimalBytes {
-		return decimal128.Num{}, fmt.Errorf("length of byte array passed to bigEndianToDecimal128 was %d but must be between %d and %d",
-			len(buf), minDecimalBytes, maxDecimalBytes)
-	}
-
-	// bytes are big endian so first byte is MSB and holds the sign bit
-	isNeg := int8(buf[0]) < 0
-
-	// 1. extract high bits
-	highBitsOffset := utils.Max(0, len(buf)-8)
-	var (
-		highBits uint64
-		lowBits  uint64
-		hi       int64
-		lo       int64
-	)
-	highBits = uint64FromBigEndianShifted(buf[:highBitsOffset])
-
-	if highBitsOffset == 8 {
-		hi = int64(highBits)
-	} else {
-		if isNeg && len(buf) < maxDecimalBytes {
-			hi = -1
-		}
-
-		hi = int64(uint64(hi) << (uint64(highBitsOffset) * 8))
-		hi |= int64(highBits)
-	}
-
-	// 2. extract lower bits
-	lowBitsOffset := utils.Min(len(buf), 8)
-	lowBits = uint64FromBigEndianShifted(buf[highBitsOffset:])
-
-	if lowBitsOffset == 8 {
-		lo = int64(lowBits)
-	} else {
-		if isNeg && len(buf) < 8 {
-			lo = -1
-		}
-
-		lo = int64(uint64(lo) << (uint64(lowBitsOffset) * 8))
-		lo |= int64(lowBits)
-	}
-
-	return decimal128.New(hi, uint64(lo)), nil
-}
-
-func bigEndianToDecimal256(buf []byte) (decimal256.Num, error) {
-	const (
-		minDecimalBytes = 1
-		maxDecimalBytes = 32
-	)
-
-	if len(buf) < minDecimalBytes || len(buf) > maxDecimalBytes {
-		return decimal256.Num{},
-			fmt.Errorf("%w: length of byte array for bigEndianToDecimal256 was %d but must be between %d and %d",
-				arrow.ErrInvalid, len(buf), minDecimalBytes, maxDecimalBytes)
-	}
-
-	var littleEndian [4]uint64
-	// bytes are coming in big-endian, so the first byte is the MSB and
-	// therefore holds the sign bit
-	initWord, isNeg := uint64(0), int8(buf[0]) < 0
-	if isNeg {
-		// sign extend if necessary
-		initWord = uint64(0xFFFFFFFFFFFFFFFF)
-	}
-
-	for wordIdx := 0; wordIdx < 4; wordIdx++ {
-		wordLen := utils.Min(len(buf), arrow.Uint64SizeBytes)
-		word := buf[len(buf)-wordLen:]
-
-		if wordLen == 8 {
-			// full words can be assigned as-is
-			littleEndian[wordIdx] = binary.BigEndian.Uint64(word)
-		} else {
-			result := initWord
-			if len(buf) > 0 {
-				// incorporate the actual values if present
-				// shift left enough bits to make room for the incoming int64
-				result = result << uint64(wordLen)
-				// preserve the upper bits by inplace OR-ing the int64
-				result |= uint64FromBigEndianShifted(word)
-			}
-			littleEndian[wordIdx] = result
-		}
-
-		buf = buf[:len(buf)-wordLen]
-	}
-
-	return decimal256.New(littleEndian[3], littleEndian[2], littleEndian[1], littleEndian[0]), nil
-}
-
-type varOrFixedBin interface {
-	arrow.Array
-	Value(i int) []byte
-}
-
-// convert physical byte storage, instead of integers, to decimal128
-func transferDecimalBytes(rdr file.BinaryRecordReader, dt arrow.DataType) (*arrow.Chunked, error) {
-	convert128 := func(in varOrFixedBin) (arrow.Array, error) {
-		length := in.Len()
-		data := make([]byte, arrow.Decimal128Traits.BytesRequired(length))
-		out := arrow.Decimal128Traits.CastFromBytes(data)
-
-		nullCount := in.NullN()
-		var err error
-		for i := 0; i < length; i++ {
-			if nullCount > 0 && in.IsNull(i) {
-				continue
-			}
-
-			rec := in.Value(i)
-			if len(rec) <= 0 {
-				return nil, fmt.Errorf("invalid BYTEARRAY length for type: %s", dt)
-			}
-			out[i], err = bigEndianToDecimal128(rec)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		ret := array.NewData(dt, length, []*memory.Buffer{
-			in.Data().Buffers()[0], memory.NewBufferBytes(data),
-		}, nil, nullCount, 0)
-		defer ret.Release()
-		return array.MakeFromData(ret), nil
-	}
-
-	convert256 := func(in varOrFixedBin) (arrow.Array, error) {
-		length := in.Len()
-		data := make([]byte, arrow.Decimal256Traits.BytesRequired(length))
-		out := arrow.Decimal256Traits.CastFromBytes(data)
-
-		nullCount := in.NullN()
-		var err error
-		for i := 0; i < length; i++ {
-			if nullCount > 0 && in.IsNull(i) {
-				continue
-			}
-
-			rec := in.Value(i)
-			if len(rec) <= 0 {
-				return nil, fmt.Errorf("invalid BYTEARRAY length for type: %s", dt)
-			}
-			out[i], err = bigEndianToDecimal256(rec)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		ret := array.NewData(dt, length, []*memory.Buffer{
-			in.Data().Buffers()[0], memory.NewBufferBytes(data),
-		}, nil, nullCount, 0)
-		defer ret.Release()
-		return array.MakeFromData(ret), nil
-	}
-
-	convert := func(arr arrow.Array) (arrow.Array, error) {
-		switch dt.ID() {
-		case arrow.DECIMAL128:
-			return convert128(arr.(varOrFixedBin))
-		case arrow.DECIMAL256:
-			return convert256(arr.(varOrFixedBin))
-		}
-		return nil, arrow.ErrNotImplemented
-	}
-
-	chunks := rdr.GetBuilderChunks()
-	var err error
-	for idx, chunk := range chunks {
-		defer chunk.Release()
-		if chunks[idx], err = convert(chunk); err != nil {
-			return nil, err
-		}
-		defer chunks[idx].Release()
-	}
-	return arrow.NewChunked(dt, chunks), nil
-}
-
-func transferDictionary(rdr file.RecordReader, logicalValueType arrow.DataType) *arrow.Chunked {
-	brdr := rdr.(file.BinaryRecordReader)
-	chunks := brdr.GetBuilderChunks()
-	defer releaseArrays(chunks)
-	return arrow.NewChunked(logicalValueType, chunks)
-}
diff --git a/go/parquet/pqarrow/doc.go b/go/parquet/pqarrow/doc.go
deleted file mode 100644
index 488e12e27d869..0000000000000
--- a/go/parquet/pqarrow/doc.go
+++ /dev/null
@@ -1,21 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package pqarrow provides the implementation for connecting Arrow directly
-// with the Parquet implementation, allowing isolation of all the explicitly
-// arrow related code to this package which has the interfaces for reading and
-// writing directly to and from arrow Arrays/Tables/Records
-package pqarrow
diff --git a/go/parquet/pqarrow/encode_arrow.go b/go/parquet/pqarrow/encode_arrow.go
deleted file mode 100644
index 5526c98d7872c..0000000000000
--- a/go/parquet/pqarrow/encode_arrow.go
+++ /dev/null
@@ -1,715 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-)
-
-// get the count of the number of leaf arrays for the type
-func calcLeafCount(dt arrow.DataType) int {
-	switch dt := dt.(type) {
-	case arrow.ExtensionType:
-		return calcLeafCount(dt.StorageType())
-	case arrow.NestedType:
-		nleaves := 0
-		for _, f := range dt.Fields() {
-			nleaves += calcLeafCount(f.Type)
-		}
-		return nleaves
-	case *arrow.DictionaryType:
-		return calcLeafCount(dt.ValueType)
-	default:
-		return 1
-	}
-}
-
-func nullableRoot(manifest *SchemaManifest, field *SchemaField) bool {
-	curField := field
-	nullable := field.Field.Nullable
-	for curField != nil {
-		nullable = curField.Field.Nullable
-		curField = manifest.GetParent(curField)
-	}
-	return nullable
-}
-
-// arrowColumnWriter is a convenience object for easily writing arrow data to a specific
-// set of columns in a parquet file. Since a single arrow array can itself be a nested type
-// consisting of multiple columns of data, this will write to all of the appropriate leaves in
-// the parquet file, allowing easy writing of nested columns.
-type arrowColumnWriter struct {
-	builders  []*multipathLevelBuilder
-	leafCount int
-	colIdx    int
-	rgw       file.RowGroupWriter
-}
-
-// newArrowColumnWriter returns a new writer using the chunked array to determine the number of leaf columns,
-// and the provided schema manifest to determine the paths for writing the columns.
-//
-// Using an arrow column writer is a convenience to avoid having to process the arrow array yourself
-// and determine the correct definition and repetition levels manually.
-func newArrowColumnWriter(data *arrow.Chunked, offset, size int64, manifest *SchemaManifest, rgw file.RowGroupWriter, leafColIdx int) (arrowColumnWriter, error) {
-	if data.Len() == 0 {
-		return arrowColumnWriter{leafCount: calcLeafCount(data.DataType()), rgw: rgw}, nil
-	}
-
-	var (
-		absPos      int64
-		chunkOffset int64
-		chunkIdx    int
-		values      int64
-	)
-
-	for idx, chnk := range data.Chunks() {
-		chunkIdx = idx
-		if absPos >= offset {
-			break
-		}
-
-		chunkLen := int64(chnk.Len())
-		if absPos+chunkLen > offset {
-			chunkOffset = offset - absPos
-			break
-		}
-
-		absPos += chunkLen
-	}
-
-	if absPos >= int64(data.Len()) {
-		return arrowColumnWriter{}, errors.New("cannot write data at offset past end of chunked array")
-	}
-
-	leafCount := calcLeafCount(data.DataType())
-	isNullable := false
-	// row group writer hasn't been advanced yet so add 1 to the current
-	// which is the one this instance will start writing for
-	// colIdx := rgw.CurrentColumn() + 1
-
-	schemaField, err := manifest.GetColumnField(leafColIdx)
-	if err != nil {
-		return arrowColumnWriter{}, err
-	}
-	isNullable = nullableRoot(manifest, schemaField)
-
-	builders := make([]*multipathLevelBuilder, 0)
-	for values < size {
-		chunk := data.Chunk(chunkIdx)
-		available := int64(chunk.Len() - int(chunkOffset))
-		chunkWriteSize := utils.Min(size-values, available)
-
-		// the chunk offset will be 0 here except for possibly the first chunk
-		// because of the above advancing logic
-		arrToWrite := array.NewSlice(chunk, chunkOffset, chunkOffset+chunkWriteSize)
-		defer arrToWrite.Release()
-
-		if arrToWrite.Len() > 0 {
-			bldr, err := newMultipathLevelBuilder(arrToWrite, isNullable)
-			if err != nil {
-				return arrowColumnWriter{}, nil
-			}
-			if leafCount != bldr.leafCount() {
-				return arrowColumnWriter{}, fmt.Errorf("data type leaf_count != builder leaf_count: %d - %d", leafCount, bldr.leafCount())
-			}
-			builders = append(builders, bldr)
-		}
-
-		if chunkWriteSize == available {
-			chunkOffset = 0
-			chunkIdx++
-		}
-		values += chunkWriteSize
-	}
-
-	return arrowColumnWriter{builders: builders, leafCount: leafCount, rgw: rgw, colIdx: leafColIdx}, nil
-}
-
-func (acw *arrowColumnWriter) Write(ctx context.Context) error {
-	arrCtx := arrowCtxFromContext(ctx)
-	for leafIdx := 0; leafIdx < acw.leafCount; leafIdx++ {
-		var (
-			cw  file.ColumnChunkWriter
-			err error
-		)
-
-		if acw.rgw.Buffered() {
-			cw, err = acw.rgw.(file.BufferedRowGroupWriter).Column(acw.colIdx + leafIdx)
-		} else {
-			cw, err = acw.rgw.(file.SerialRowGroupWriter).NextColumn()
-		}
-
-		if err != nil {
-			return err
-		}
-
-		for _, bldr := range acw.builders {
-			if leafIdx == 0 {
-				defer bldr.Release()
-			}
-			res, err := bldr.write(leafIdx, arrCtx)
-			if err != nil {
-				return err
-			}
-			defer res.Release()
-
-			if len(res.postListVisitedElems) != 1 {
-				return errors.New("lists with non-zero length null components are not supported")
-			}
-			rng := res.postListVisitedElems[0]
-			values := array.NewSlice(res.leafArr, rng.start, rng.end)
-			defer values.Release()
-			if err = WriteArrowToColumn(ctx, cw, values, res.defLevels, res.repLevels, res.leafIsNullable); err != nil {
-				return err
-			}
-		}
-	}
-	return nil
-}
-
-// WriteArrowToColumn writes apache arrow columnar data directly to a ColumnWriter.
-// Returns non-nil error if the array data type is not compatible with the concrete
-// writer type.
-//
-// leafArr is always a primitive (possibly dictionary encoded type).
-// Leaf_field_nullable indicates whether the leaf array is considered nullable
-// according to its schema in a Table or its parent array.
-func WriteArrowToColumn(ctx context.Context, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, leafFieldNullable bool) error {
-	// Leaf nulls are canonical when there is only a single null element after a list
-	// and it is at the leaf.
-	colLevelInfo := cw.LevelInfo()
-	singleNullable := (colLevelInfo.DefLevel == colLevelInfo.RepeatedAncestorDefLevel+1) && leafFieldNullable
-	maybeParentNulls := colLevelInfo.HasNullableValues() && !singleNullable
-
-	if maybeParentNulls && !cw.HasBitsBuffer() {
-		buf := memory.NewResizableBuffer(cw.Properties().Allocator())
-		buf.Resize(int(bitutil.BytesForBits(cw.Properties().WriteBatchSize())))
-		cw.SetBitsBuffer(buf)
-	}
-
-	arrCtx := arrowCtxFromContext(ctx)
-	defer func() {
-		if arrCtx.dataBuffer != nil {
-			arrCtx.dataBuffer.Release()
-			arrCtx.dataBuffer = nil
-		}
-	}()
-
-	if leafArr.DataType().ID() == arrow.DICTIONARY {
-		return writeDictionaryArrow(arrCtx, cw, leafArr, defLevels, repLevels, maybeParentNulls)
-	}
-	return writeDenseArrow(arrCtx, cw, leafArr, defLevels, repLevels, maybeParentNulls)
-}
-
-type binaryarr interface {
-	ValueOffsets() []int32
-}
-
-type binary64arr interface {
-	ValueOffsets() []int64
-}
-
-func writeDenseArrow(ctx *arrowWriteContext, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, maybeParentNulls bool) (err error) {
-	if leafArr.DataType().ID() == arrow.EXTENSION {
-		extensionArray := leafArr.(array.ExtensionArray)
-		// Replace leafArr with its underlying storage array
-		leafArr = extensionArray.Storage()
-	}
-
-	noNulls := cw.Descr().SchemaNode().RepetitionType() == parquet.Repetitions.Required || leafArr.NullN() == 0
-
-	if ctx.dataBuffer == nil {
-		ctx.dataBuffer = memory.NewResizableBuffer(cw.Properties().Allocator())
-	}
-
-	switch wr := cw.(type) {
-	case *file.BooleanColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.BOOL {
-			return fmt.Errorf("type mismatch, column is %s, array is %s", cw.Type(), leafArr.DataType().ID())
-		}
-		// TODO(mtopol): optimize this so that we aren't converting from
-		// the bitmap -> []bool -> bitmap anymore
-		if leafArr.Len() == 0 {
-			_, err = wr.WriteBatch(nil, defLevels, repLevels)
-			break
-		}
-
-		ctx.dataBuffer.ResizeNoShrink(leafArr.Len())
-		buf := ctx.dataBuffer.Bytes()
-		data := *(*[]bool)(unsafe.Pointer(&buf))
-		for idx := range data {
-			data[idx] = leafArr.(*array.Boolean).Value(idx)
-		}
-		if !maybeParentNulls && noNulls {
-			wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.Int32ColumnChunkWriter:
-		var data []int32
-		switch leafArr.DataType().ID() {
-		case arrow.INT32:
-			data = leafArr.(*array.Int32).Int32Values()
-		case arrow.DATE32, arrow.UINT32:
-			if leafArr.Data().Buffers()[1] != nil {
-				data = arrow.Int32Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-				data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-			}
-		case arrow.TIME32:
-			if leafArr.DataType().(*arrow.Time32Type).Unit != arrow.Second {
-				if leafArr.Data().Buffers()[1] != nil {
-					data = arrow.Int32Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-					data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-				}
-			} else { // coerce time32 if necessary by multiplying by 1000
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int32Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				for idx, val := range leafArr.(*array.Time32).Time32Values() {
-					data[idx] = int32(val) * 1000
-				}
-			}
-		case arrow.NULL:
-			wr.WriteBatchSpaced(nil, defLevels, repLevels, leafArr.NullBitmapBytes(), 0)
-			return
-
-		default:
-			// simple integral cases, parquet physical storage is int32 or int64
-			// so we have to create a new array of int32's for anything smaller than
-			// 32-bits
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int32Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			switch leafArr.DataType().ID() {
-			case arrow.UINT8:
-				for idx, val := range leafArr.(*array.Uint8).Uint8Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.INT8:
-				for idx, val := range leafArr.(*array.Int8).Int8Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.UINT16:
-				for idx, val := range leafArr.(*array.Uint16).Uint16Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.INT16:
-				for idx, val := range leafArr.(*array.Int16).Int16Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.DATE64:
-				for idx, val := range leafArr.(*array.Date64).Date64Values() {
-					data[idx] = int32(val / 86400000) // coerce date64 values
-				}
-			case arrow.DECIMAL128:
-				for idx, val := range leafArr.(*array.Decimal128).Values() {
-					debug.Assert(val.HighBits() == 0 || val.HighBits() == -1, "casting Decimal128 greater than the value range; high bits must be 0 or -1")
-					debug.Assert(val.LowBits() <= math.MaxUint32, "casting Decimal128 to int32 when value > MaxUint32")
-					data[idx] = int32(val.LowBits())
-				}
-			case arrow.DECIMAL256:
-				for idx, val := range leafArr.(*array.Decimal256).Values() {
-					debug.Assert(val.Array()[3] == 0 || val.Array()[3] == 0xFFFFFFFF, "casting Decimal128 greater than the value range; high bits must be 0 or -1")
-					debug.Assert(val.LowBits() <= math.MaxUint32, "casting Decimal128 to int32 when value > MaxUint32")
-					data[idx] = int32(val.LowBits())
-				}
-			default:
-				return fmt.Errorf("type mismatch, column is int32 writer, arrow array is %s, and not a compatible type", leafArr.DataType().Name())
-			}
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Int64ColumnChunkWriter:
-		var data []int64
-		switch leafArr.DataType().ID() {
-		case arrow.TIMESTAMP:
-			tstype := leafArr.DataType().(*arrow.TimestampType)
-			if ctx.props.coerceTimestamps {
-				// user explicitly requested coercion to specific unit
-				if tstype.Unit == ctx.props.coerceTimestampUnit {
-					// no conversion necessary
-					if leafArr.Data().Buffers()[1] != nil {
-						data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-						data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-					}
-				} else {
-					ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-					data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-					if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &ctx.props, data); err != nil {
-						return err
-					}
-				}
-			} else if (cw.Properties().Version() == parquet.V1_0 || cw.Properties().Version() == parquet.V2_4) && tstype.Unit == arrow.Nanosecond {
-				// absent superceding user instructions, when writing a Parquet Version <=2.4 File,
-				// timestamps in nanoseconds are coerced to microseconds
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				p := NewArrowWriterProperties(WithCoerceTimestamps(arrow.Microsecond), WithTruncatedTimestamps(true))
-				if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &p, data); err != nil {
-					return err
-				}
-			} else if tstype.Unit == arrow.Second {
-				// absent superceding user instructions, timestamps in seconds are coerced
-				// to milliseconds
-				p := NewArrowWriterProperties(WithCoerceTimestamps(arrow.Millisecond))
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &p, data); err != nil {
-					return err
-				}
-			} else {
-				// no data conversion necessary
-				if leafArr.Data().Buffers()[1] != nil {
-					data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-					data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-				}
-			}
-		case arrow.UINT32:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Uint32).Uint32Values() {
-				data[idx] = int64(val)
-			}
-		case arrow.INT64:
-			data = leafArr.(*array.Int64).Int64Values()
-		case arrow.UINT64, arrow.TIME64, arrow.DATE64:
-			if leafArr.Data().Buffers()[1] != nil {
-				data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-				data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-			}
-		case arrow.DECIMAL128:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Decimal128).Values() {
-				debug.Assert(val.HighBits() == 0 || val.HighBits() == -1, "trying to cast Decimal128 to int64 greater than range, high bits must be 0 or -1")
-				data[idx] = int64(val.LowBits())
-			}
-		case arrow.DECIMAL256:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Decimal256).Values() {
-				debug.Assert(val.Array()[3] == 0 || val.Array()[3] == 0xFFFFFFFF, "trying to cast Decimal128 to int64 greater than range, high bits must be 0 or -1")
-				data[idx] = int64(val.LowBits())
-			}
-		default:
-			return fmt.Errorf("unimplemented arrow type to write to int64 column: %s", leafArr.DataType().Name())
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Int96ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.TIMESTAMP {
-			return errors.New("unsupported arrow type to write to Int96 column")
-		}
-		ctx.dataBuffer.ResizeNoShrink(parquet.Int96Traits.BytesRequired(leafArr.Len()))
-		data := parquet.Int96Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-		input := leafArr.(*array.Timestamp).TimestampValues()
-		unit := leafArr.DataType().(*arrow.TimestampType).Unit
-		for idx, val := range input {
-			arrowTimestampToImpalaTimestamp(unit, int64(val), &data[idx])
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Float32ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.FLOAT32 {
-			return errors.New("invalid column type to write to Float")
-		}
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(leafArr.(*array.Float32).Float32Values(), defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(leafArr.(*array.Float32).Float32Values(), defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.Float64ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.FLOAT64 {
-			return errors.New("invalid column type to write to Float")
-		}
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(leafArr.(*array.Float64).Float64Values(), defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(leafArr.(*array.Float64).Float64Values(), defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.ByteArrayColumnChunkWriter:
-		var (
-			buffer   = leafArr.Data().Buffers()[2]
-			valueBuf []byte
-		)
-
-		if buffer == nil {
-			valueBuf = []byte{}
-		} else {
-			valueBuf = buffer.Bytes()
-		}
-
-		data := make([]parquet.ByteArray, leafArr.Len())
-		switch leafArr.DataType().ID() {
-		case arrow.BINARY, arrow.STRING:
-			offsets := leafArr.(binaryarr).ValueOffsets()
-			for i := range data {
-				data[i] = parquet.ByteArray(valueBuf[offsets[i]:offsets[i+1]])
-			}
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			offsets := leafArr.(binary64arr).ValueOffsets()
-			for i := range data {
-				data[i] = parquet.ByteArray(valueBuf[offsets[i]:offsets[i+1]])
-			}
-		default:
-			return fmt.Errorf("%w: invalid column type to write to ByteArray: %s", arrow.ErrInvalid, leafArr.DataType().Name())
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		switch dt := leafArr.DataType().(type) {
-		case *arrow.FixedSizeBinaryType:
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			for idx := range data {
-				data[idx] = leafArr.(*array.FixedSizeBinary).Value(idx)
-			}
-			if !maybeParentNulls && noNulls {
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-			}
-		case *arrow.Decimal128Type:
-			// parquet decimal are stored with FixedLength values where the length is
-			// proportional to the precision. Arrow's Decimal are always stored with 16/32
-			// bytes. thus the internal FLBA must be adjusted by the offset calculation
-			offset := int(bitutil.BytesForBits(int64(dt.BitWidth()))) - int(DecimalSize(dt.Precision))
-			ctx.dataBuffer.ResizeNoShrink((leafArr.Len() - leafArr.NullN()) * dt.BitWidth())
-			scratch := ctx.dataBuffer.Bytes()
-			typeLen := wr.Descr().TypeLength()
-			fixDecimalEndianness := func(in decimal128.Num) parquet.FixedLenByteArray {
-				out := scratch[offset : offset+typeLen]
-				binary.BigEndian.PutUint64(scratch, uint64(in.HighBits()))
-				binary.BigEndian.PutUint64(scratch[arrow.Uint64SizeBytes:], in.LowBits())
-				scratch = scratch[2*arrow.Uint64SizeBytes:]
-				return out
-			}
-
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			arr := leafArr.(*array.Decimal128)
-			if leafArr.NullN() == 0 {
-				for idx := range data {
-					data[idx] = fixDecimalEndianness(arr.Value(idx))
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						data[idx] = fixDecimalEndianness(arr.Value(idx))
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		case *arrow.Decimal256Type:
-			// parquet decimal are stored with FixedLength values where the length is
-			// proportional to the precision. Arrow's Decimal are always stored with 16/32
-			// bytes. thus the internal FLBA must be adjusted by the offset calculation
-			offset := int(bitutil.BytesForBits(int64(dt.BitWidth()))) - int(DecimalSize(dt.Precision))
-			ctx.dataBuffer.ResizeNoShrink((leafArr.Len() - leafArr.NullN()) * dt.BitWidth())
-			scratch := ctx.dataBuffer.Bytes()
-			typeLen := wr.Descr().TypeLength()
-			fixDecimalEndianness := func(in decimal256.Num) parquet.FixedLenByteArray {
-				out := scratch[offset : offset+typeLen]
-				vals := in.Array()
-				binary.BigEndian.PutUint64(scratch, vals[3])
-				binary.BigEndian.PutUint64(scratch[arrow.Uint64SizeBytes:], vals[2])
-				binary.BigEndian.PutUint64(scratch[2*arrow.Uint64SizeBytes:], vals[1])
-				binary.BigEndian.PutUint64(scratch[3*arrow.Uint64SizeBytes:], vals[0])
-				scratch = scratch[4*arrow.Uint64SizeBytes:]
-				return out
-			}
-
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			arr := leafArr.(*array.Decimal256)
-			if leafArr.NullN() == 0 {
-				for idx := range data {
-					data[idx] = fixDecimalEndianness(arr.Value(idx))
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						data[idx] = fixDecimalEndianness(arr.Value(idx))
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		case *arrow.Float16Type:
-			typeLen := wr.Descr().TypeLength()
-			if typeLen != arrow.Float16SizeBytes {
-				return fmt.Errorf("%w: invalid FixedLenByteArray length to write from float16 column: %d", arrow.ErrInvalid, typeLen)
-			}
-
-			arr := leafArr.(*array.Float16)
-			rawValues := arrow.Float16Traits.CastToBytes(arr.Values())
-			data := make([]parquet.FixedLenByteArray, arr.Len())
-
-			if arr.NullN() == 0 {
-				for idx := range data {
-					offset := idx * typeLen
-					data[idx] = rawValues[offset : offset+typeLen]
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						offset := idx * typeLen
-						data[idx] = rawValues[offset : offset+typeLen]
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		default:
-			return fmt.Errorf("%w: invalid column type to write to FixedLenByteArray: %s", arrow.ErrInvalid, leafArr.DataType().Name())
-		}
-	default:
-		return errors.New("unknown column writer physical type")
-	}
-	return
-}
-
-type coerceType int8
-
-const (
-	coerceInvalid coerceType = iota
-	coerceDivide
-	coerceMultiply
-)
-
-type coercePair struct {
-	typ    coerceType
-	factor int64
-}
-
-var factors = map[arrow.TimeUnit]map[arrow.TimeUnit]coercePair{
-	arrow.Second: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceMultiply, 1000},
-		arrow.Microsecond: {coerceMultiply, 1000000},
-		arrow.Nanosecond:  {coerceMultiply, 1000000000},
-	},
-	arrow.Millisecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceMultiply, 1},
-		arrow.Microsecond: {coerceMultiply, 1000},
-		arrow.Nanosecond:  {coerceMultiply, 1000000},
-	},
-	arrow.Microsecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceDivide, 1000},
-		arrow.Microsecond: {coerceMultiply, 1},
-		arrow.Nanosecond:  {coerceMultiply, 1000},
-	},
-	arrow.Nanosecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceDivide, 1000000},
-		arrow.Microsecond: {coerceDivide, 1000},
-		arrow.Nanosecond:  {coerceMultiply, 1},
-	},
-}
-
-func writeCoerceTimestamps(arr *array.Timestamp, props *ArrowWriterProperties, out []int64) error {
-	source := arr.DataType().(*arrow.TimestampType).Unit
-	target := props.coerceTimestampUnit
-	truncation := props.allowTruncatedTimestamps
-
-	vals := arr.TimestampValues()
-	multiply := func(factor int64) error {
-		for idx, val := range vals {
-			out[idx] = int64(val) * factor
-		}
-		return nil
-	}
-
-	divide := func(factor int64) error {
-		for idx, val := range vals {
-			if !truncation && arr.IsValid(idx) && (int64(val)%factor != 0) {
-				return fmt.Errorf("casting from %s to %s would lose data", source, target)
-			}
-			out[idx] = int64(val) / factor
-		}
-		return nil
-	}
-
-	coerce := factors[source][target]
-	switch coerce.typ {
-	case coerceMultiply:
-		return multiply(coerce.factor)
-	case coerceDivide:
-		return divide(coerce.factor)
-	default:
-		panic("invalid coercion")
-	}
-}
-
-const (
-	julianEpochOffsetDays int64 = 2440588
-	nanoSecondsPerDay           = 24 * 60 * 60 * 1000 * 1000 * 1000
-)
-
-func arrowTimestampToImpalaTimestamp(unit arrow.TimeUnit, t int64, out *parquet.Int96) {
-	var d time.Duration
-	switch unit {
-	case arrow.Second:
-		d = time.Duration(t) * time.Second
-	case arrow.Microsecond:
-		d = time.Duration(t) * time.Microsecond
-	case arrow.Millisecond:
-		d = time.Duration(t) * time.Millisecond
-	case arrow.Nanosecond:
-		d = time.Duration(t) * time.Nanosecond
-	}
-
-	julianDays := (int64(d.Hours()) / 24) + julianEpochOffsetDays
-	lastDayNanos := t % (nanoSecondsPerDay)
-	binary.LittleEndian.PutUint64((*out)[:8], uint64(lastDayNanos))
-	binary.LittleEndian.PutUint32((*out)[8:], uint32(julianDays))
-}
diff --git a/go/parquet/pqarrow/encode_arrow_test.go b/go/parquet/pqarrow/encode_arrow_test.go
deleted file mode 100644
index a238a78133e55..0000000000000
--- a/go/parquet/pqarrow/encode_arrow_test.go
+++ /dev/null
@@ -1,2266 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func makeSimpleTable(values *arrow.Chunked, nullable bool) arrow.Table {
-	sc := arrow.NewSchema([]arrow.Field{{Name: "col", Type: values.DataType(), Nullable: nullable,
-		Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})}}, nil)
-	column := arrow.NewColumn(sc.Field(0), values)
-	defer column.Release()
-	return array.NewTable(sc, []arrow.Column{*column}, -1)
-}
-
-func makeDateTimeTypesTable(mem memory.Allocator, expected bool, addFieldMeta bool) arrow.Table {
-	isValid := []bool{true, true, true, false, true, true}
-
-	// roundtrip without modification
-	f0 := arrow.Field{Name: "f0", Type: arrow.FixedWidthTypes.Date32, Nullable: true}
-	f1 := arrow.Field{Name: "f1", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: true}
-	f2 := arrow.Field{Name: "f2", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true}
-	f3 := arrow.Field{Name: "f3", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: true}
-	f3X := arrow.Field{Name: "f3", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true}
-	f4 := arrow.Field{Name: "f4", Type: arrow.FixedWidthTypes.Time32ms, Nullable: true}
-	f5 := arrow.Field{Name: "f5", Type: arrow.FixedWidthTypes.Time64us, Nullable: true}
-	f6 := arrow.Field{Name: "f6", Type: arrow.FixedWidthTypes.Time64ns, Nullable: true}
-
-	fieldList := []arrow.Field{f0, f1, f2}
-	if expected {
-		fieldList = append(fieldList, f3X)
-	} else {
-		fieldList = append(fieldList, f3)
-	}
-	fieldList = append(fieldList, f4, f5, f6)
-
-	if addFieldMeta {
-		for idx := range fieldList {
-			fieldList[idx].Metadata = arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{strconv.Itoa(idx + 1)})
-		}
-	}
-	arrsc := arrow.NewSchema(fieldList, nil)
-
-	d32Values := []arrow.Date32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	ts64nsValues := []arrow.Timestamp{1489269000000, 1489270000000, 1489271000000, 1489272000000, 1489272000000, 1489273000000}
-	ts64usValues := []arrow.Timestamp{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	ts64msValues := []arrow.Timestamp{1489269, 1489270, 1489271, 1489272, 1489272, 1489273}
-	t32Values := []arrow.Time32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	t64nsValues := []arrow.Time64{1489269000000, 1489270000000, 1489271000000, 1489272000000, 1489272000000, 1489273000000}
-	t64usValues := []arrow.Time64{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-
-	builders := make([]array.Builder, 0, len(fieldList))
-	for _, f := range fieldList {
-		bldr := array.NewBuilder(mem, f.Type)
-		defer bldr.Release()
-		builders = append(builders, bldr)
-	}
-
-	builders[0].(*array.Date32Builder).AppendValues(d32Values, isValid)
-	builders[1].(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-	builders[2].(*array.TimestampBuilder).AppendValues(ts64usValues, isValid)
-	if expected {
-		builders[3].(*array.TimestampBuilder).AppendValues(ts64usValues, isValid)
-	} else {
-		builders[3].(*array.TimestampBuilder).AppendValues(ts64nsValues, isValid)
-	}
-	builders[4].(*array.Time32Builder).AppendValues(t32Values, isValid)
-	builders[5].(*array.Time64Builder).AppendValues(t64usValues, isValid)
-	builders[6].(*array.Time64Builder).AppendValues(t64nsValues, isValid)
-
-	cols := make([]arrow.Column, 0, len(fieldList))
-	for idx, field := range fieldList {
-		arr := builders[idx].NewArray()
-		defer arr.Release()
-
-		chunked := arrow.NewChunked(field.Type, []arrow.Array{arr})
-		defer chunked.Release()
-		col := arrow.NewColumn(field, chunked)
-		defer col.Release()
-		cols = append(cols, *col)
-	}
-
-	return array.NewTable(arrsc, cols, int64(len(isValid)))
-}
-
-func makeDateTypeTable(mem memory.Allocator, expected bool, partialDays bool) arrow.Table {
-	const (
-		millisPerHour int64 = 1000 * 60 * 60
-		millisPerDay  int64 = millisPerHour * 24
-	)
-	isValid := []bool{true, true, true, false, true, true}
-
-	var field arrow.Field
-	if expected {
-		field = arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date32, Nullable: true}
-	} else {
-		field = arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date64, Nullable: true}
-	}
-
-	field.Metadata = arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"1"})
-
-	arrsc := arrow.NewSchema([]arrow.Field{field}, nil)
-
-	d32Values := []arrow.Date32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-
-	d64Values := make([]arrow.Date64, len(d32Values))
-	for i := range d64Values {
-		// Calculate number of milliseconds at date boundary
-		d64Values[i] = arrow.Date64(int64(d32Values[i]) * millisPerDay)
-		if partialDays {
-			// Offset 1 or more hours past the date boundary
-			hoursIntoDay := int64(i) * millisPerHour
-			d64Values[i] += arrow.Date64(hoursIntoDay)
-		}
-	}
-
-	bldr := array.NewRecordBuilder(mem, arrsc)
-	defer bldr.Release()
-
-	if expected {
-		bldr.Field(0).(*array.Date32Builder).AppendValues(d32Values, isValid)
-	} else {
-		bldr.Field(0).(*array.Date64Builder).AppendValues(d64Values, isValid)
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	return array.NewTableFromRecords(arrsc, []arrow.Record{rec})
-}
-
-func makeTimestampTypeTable(mem memory.Allocator, expected bool) arrow.Table {
-	isValid := []bool{true, true, true, false, true, true}
-
-	// Timestamp with relative (i.e. local) semantics. Make sure it roundtrips without being incorrectly converted to an absolute point in time.
-	f0 := arrow.Field{Name: "f0", Type: &arrow.TimestampType{Unit: arrow.Millisecond}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"1"})}
-
-	// Timestamp with absolute (i.e. instant) semantics. The physical representation is always from Unix epoch in UTC timezone.
-	// TimeZone is used for display purposes and can be stripped on roundtrip without changing the actual instant referred to.
-	// WithStoreSchema will preserve the original timezone, but the instant in will be equivalent even if it's not used.
-	f1 := arrow.Field{Name: "f1", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "EST"}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"2"})}
-	f1X := arrow.Field{Name: "f1", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "UTC"}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"2"})}
-
-	fieldList := []arrow.Field{f0}
-	if expected {
-		fieldList = append(fieldList, f1X)
-	} else {
-		fieldList = append(fieldList, f1)
-	}
-
-	arrsc := arrow.NewSchema(fieldList, nil)
-
-	ts64msValues := []arrow.Timestamp{1489269, 1489270, 1489271, 1489272, 1489272, 1489273}
-
-	bldr := array.NewRecordBuilder(mem, arrsc)
-	defer bldr.Release()
-
-	bldr.Field(0).(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-	bldr.Field(1).(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	return array.NewTableFromRecords(arrsc, []arrow.Record{rec})
-}
-
-func TestWriteArrowCols(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, false, false)
-	defer tbl.Release()
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_4)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)),
-	)
-	require.NoError(t, err)
-
-	fileWriter.NewRowGroup()
-	for i := int64(0); i < tbl.NumCols(); i++ {
-		colChunk := tbl.Column(int(i)).Data()
-		err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-		require.NoError(t, err)
-	}
-	require.NoError(t, fileWriter.Close())
-
-	expected := makeDateTimeTypesTable(mem, true, false)
-	defer expected.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	assert.EqualValues(t, expected.NumCols(), reader.MetaData().Schema.NumColumns())
-	assert.EqualValues(t, expected.NumRows(), reader.NumRows())
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-
-	rgr := reader.RowGroup(0)
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		var (
-			total        int64
-			read         int
-			defLevelsOut = make([]int16, int(expected.NumRows()))
-			arr          = expected.Column(i).Data().Chunk(0)
-		)
-		switch expected.Schema().Field(i).Type.(arrow.FixedWidthDataType).BitWidth() {
-		case 32:
-			col, err := rgr.Column(i)
-			assert.NoError(t, err)
-			colReader := col.(*file.Int32ColumnChunkReader)
-			vals := make([]int32, int(expected.NumRows()))
-			total, read, err = colReader.ReadBatch(expected.NumRows(), vals, defLevelsOut, nil)
-			require.NoError(t, err)
-
-			nulls := 0
-			for j := 0; j < arr.Len(); j++ {
-				if arr.IsNull(j) {
-					nulls++
-					continue
-				}
-
-				switch v := arr.(type) {
-				case *array.Date32:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Time32:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				}
-			}
-		case 64:
-			col, err := rgr.Column(i)
-			assert.NoError(t, err)
-			colReader := col.(*file.Int64ColumnChunkReader)
-			vals := make([]int64, int(expected.NumRows()))
-			total, read, err = colReader.ReadBatch(expected.NumRows(), vals, defLevelsOut, nil)
-			require.NoError(t, err)
-
-			nulls := 0
-			for j := 0; j < arr.Len(); j++ {
-				if arr.IsNull(j) {
-					nulls++
-					continue
-				}
-
-				switch v := arr.(type) {
-				case *array.Date64:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Time64:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Timestamp:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				}
-			}
-		}
-		assert.EqualValues(t, expected.NumRows(), total)
-		assert.EqualValues(t, expected.NumRows()-1, read)
-		assert.Equal(t, []int16{1, 1, 1, 0, 1, 1}, defLevelsOut)
-	}
-}
-
-func TestWriteArrowInt96(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, false, false)
-	defer tbl.Release()
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithAllocator(mem)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true), pqarrow.WithAllocator(mem)),
-	)
-	require.NoError(t, err)
-
-	fileWriter.NewRowGroup()
-	for i := int64(0); i < tbl.NumCols(); i++ {
-		colChunk := tbl.Column(int(i)).Data()
-		err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-		require.NoError(t, err)
-	}
-	require.NoError(t, fileWriter.Close())
-
-	expected := makeDateTimeTypesTable(mem, false, false)
-	defer expected.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	assert.EqualValues(t, expected.NumCols(), reader.MetaData().Schema.NumColumns())
-	assert.EqualValues(t, expected.NumRows(), reader.NumRows())
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-
-	rgr := reader.RowGroup(0)
-	tsRdr, err := rgr.Column(3)
-	assert.NoError(t, err)
-	assert.Equal(t, parquet.Types.Int96, tsRdr.Type())
-
-	rdr := tsRdr.(*file.Int96ColumnChunkReader)
-	vals := make([]parquet.Int96, expected.NumRows())
-	defLevels := make([]int16, int(expected.NumRows()))
-
-	total, read, _ := rdr.ReadBatch(expected.NumRows(), vals, defLevels, nil)
-	assert.EqualValues(t, expected.NumRows(), total)
-	assert.EqualValues(t, expected.NumRows()-1, read)
-	assert.Equal(t, []int16{1, 1, 1, 0, 1, 1}, defLevels)
-
-	data := expected.Column(3).Data().Chunk(0).(*array.Timestamp)
-	assert.EqualValues(t, data.Value(0), vals[0].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(1), vals[1].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(2), vals[2].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(4), vals[3].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(5), vals[4].ToTime().UnixNano())
-}
-
-func writeTableToBuffer(t *testing.T, mem memory.Allocator, tbl arrow.Table, rowGroupSize int64, props pqarrow.ArrowWriterProperties) *memory.Buffer {
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)),
-		props,
-	)
-	require.NoError(t, err)
-
-	offset := int64(0)
-	for offset < tbl.NumRows() {
-		sz := utils.Min(rowGroupSize, tbl.NumRows()-offset)
-		fileWriter.NewRowGroup()
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			colChunk := tbl.Column(i).Data()
-			err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-			require.NoError(t, err)
-		}
-		offset += sz
-	}
-
-	require.NoError(t, fileWriter.Close())
-	return sink.Finish()
-}
-
-func simpleRoundTrip(t *testing.T, tbl arrow.Table, rowGroupSize int64) {
-	t.Helper()
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	buf := writeTableToBuffer(t, mem, tbl, rowGroupSize, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-
-	ardr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-
-	for i := 0; i < int(tbl.NumCols()); i++ {
-		crdr, err := ardr.GetColumn(context.TODO(), i)
-		require.NoError(t, err)
-
-		chunked, err := crdr.NextBatch(tbl.NumRows())
-		require.NoError(t, err)
-		defer chunked.Release()
-
-		require.EqualValues(t, tbl.NumRows(), chunked.Len())
-
-		chunkList := tbl.Column(i).Data().Chunks()
-		offset := int64(0)
-		for _, chnk := range chunkList {
-			slc := array.NewChunkedSlice(chunked, offset, offset+int64(chnk.Len()))
-			defer slc.Release()
-
-			assert.EqualValues(t, chnk.Len(), slc.Len())
-			if len(slc.Chunks()) == 1 {
-				offset += int64(chnk.Len())
-				assert.True(t, array.Equal(chnk, slc.Chunk(0)))
-			}
-		}
-		crdr.Release()
-	}
-}
-
-func TestWriteKeyValueMetadata(t *testing.T) {
-	kv := map[string]string{
-		"key1": "value1",
-		"key2": "value2",
-		"key3": "value3",
-	}
-
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-	)
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-
-	for key, value := range kv {
-		require.NoError(t, fw.AppendKeyValueMetadata(key, value))
-	}
-
-	err = fw.Close()
-	require.NoError(t, err)
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-
-	for key, value := range kv {
-		got := reader.MetaData().KeyValueMetadata().FindValue(key)
-		require.NotNil(t, got)
-		assert.Equal(t, value, *got)
-	}
-}
-
-func TestWriteEmptyLists(t *testing.T) {
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.ListOf(arrow.FixedWidthTypes.Date32)},
-		{Name: "f2", Type: arrow.ListOf(arrow.FixedWidthTypes.Date64)},
-		{Name: "f3", Type: arrow.ListOf(arrow.FixedWidthTypes.Timestamp_us)},
-		{Name: "f4", Type: arrow.ListOf(arrow.FixedWidthTypes.Timestamp_ms)},
-		{Name: "f5", Type: arrow.ListOf(arrow.FixedWidthTypes.Time32ms)},
-		{Name: "f6", Type: arrow.ListOf(arrow.FixedWidthTypes.Time64ns)},
-		{Name: "f7", Type: arrow.ListOf(arrow.FixedWidthTypes.Time64us)},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-	)
-	arrprops := pqarrow.DefaultWriterProps()
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, arrprops)
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-	err = fw.Close()
-	require.NoError(t, err)
-}
-
-func TestWriteAllNullsWithDeltaEncoding(t *testing.T) {
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f2", Type: arrow.ListOf(arrow.FixedWidthTypes.Date32)},
-		{Name: "f3", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "f4", Type: arrow.ListOf(arrow.BinaryTypes.String)},
-		{Name: "f5", Type: arrow.BinaryTypes.LargeString, Nullable: true},
-		{Name: "f6", Type: arrow.ListOf(arrow.BinaryTypes.LargeString)},
-		{Name: "f7", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "f8", Type: arrow.ListOf(arrow.FixedWidthTypes.Date64)},
-		{Name: "f9", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "f10", Type: arrow.ListOf(arrow.BinaryTypes.LargeString)},
-		{Name: "f11", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "f12", Type: arrow.ListOf(arrow.FixedWidthTypes.Boolean)},
-		{Name: "f13", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "f14", Type: arrow.ListOf(arrow.PrimitiveTypes.Float32)},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-		parquet.WithDictionaryDefault(false),
-		parquet.WithDictionaryFor("f9", true),
-		parquet.WithDictionaryFor("f10", true),
-		parquet.WithDictionaryFor("f13", true),
-		parquet.WithDictionaryFor("f14", true),
-		parquet.WithEncodingFor("f1", parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("f2", parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("f3", parquet.Encodings.DeltaByteArray),
-		parquet.WithEncodingFor("f4", parquet.Encodings.DeltaByteArray),
-		parquet.WithEncodingFor("f5", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithEncodingFor("f6", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithEncodingFor("f7", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f8", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f9", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f10", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f11", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f12", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f13", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f14", parquet.Encodings.RLE),
-	)
-	arrprops := pqarrow.DefaultWriterProps()
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, arrprops)
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-	err = fw.Close()
-	require.NoError(t, err)
-}
-
-func TestArrowReadWriteTableChunkedCols(t *testing.T) {
-	chunkSizes := []int{2, 4, 10, 2}
-	const totalLen = int64(18)
-
-	rng := testutils.NewRandomArrayGenerator(0)
-
-	arr := rng.Int32(totalLen, 0, math.MaxInt32/2, 0.9)
-	defer arr.Release()
-
-	offset := int64(0)
-	chunks := make([]arrow.Array, 0)
-	for _, chnksize := range chunkSizes {
-		chk := array.NewSlice(arr, offset, offset+int64(chnksize))
-		defer chk.Release()
-		defer chk.Release() // for NewChunked below
-		chunks = append(chunks, chk)
-	}
-
-	sc := arrow.NewSchema([]arrow.Field{{Name: "field", Type: arr.DataType(), Nullable: true}}, nil)
-
-	chk := arrow.NewChunked(arr.DataType(), chunks)
-	defer chk.Release()
-
-	tbl := array.NewTable(sc, []arrow.Column{*arrow.NewColumn(sc.Field(0), chk)}, -1)
-	defer tbl.Release()
-
-	simpleRoundTrip(t, tbl, 2)
-	simpleRoundTrip(t, tbl, 10)
-}
-
-// set this up for checking our expected results so we can test the functions
-// that generate them which we export
-func getLogicalType(typ arrow.DataType) schema.LogicalType {
-	switch typ.ID() {
-	case arrow.DICTIONARY:
-		return getLogicalType(typ.(*arrow.DictionaryType).ValueType)
-	case arrow.INT8:
-		return schema.NewIntLogicalType(8, true)
-	case arrow.UINT8:
-		return schema.NewIntLogicalType(8, false)
-	case arrow.INT16:
-		return schema.NewIntLogicalType(16, true)
-	case arrow.UINT16:
-		return schema.NewIntLogicalType(16, false)
-	case arrow.INT32:
-		return schema.NewIntLogicalType(32, true)
-	case arrow.UINT32:
-		return schema.NewIntLogicalType(32, false)
-	case arrow.INT64:
-		return schema.NewIntLogicalType(64, true)
-	case arrow.UINT64:
-		return schema.NewIntLogicalType(64, false)
-	case arrow.STRING, arrow.LARGE_STRING:
-		return schema.StringLogicalType{}
-	case arrow.DATE32:
-		return schema.DateLogicalType{}
-	case arrow.DATE64:
-		return schema.DateLogicalType{}
-	case arrow.FLOAT16:
-		return schema.Float16LogicalType{}
-	case arrow.TIMESTAMP:
-		ts := typ.(*arrow.TimestampType)
-		adjustedUTC := len(ts.TimeZone) == 0
-		switch ts.Unit {
-		case arrow.Microsecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitMicros)
-		case arrow.Millisecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitMillis)
-		case arrow.Nanosecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitNanos)
-		default:
-			panic("only milli, micro and nano units supported for arrow timestamp")
-		}
-	case arrow.TIME32:
-		return schema.NewTimeLogicalType(false, schema.TimeUnitMillis)
-	case arrow.TIME64:
-		ts := typ.(*arrow.Time64Type)
-		switch ts.Unit {
-		case arrow.Microsecond:
-			return schema.NewTimeLogicalType(false, schema.TimeUnitMicros)
-		case arrow.Nanosecond:
-			return schema.NewTimeLogicalType(false, schema.TimeUnitNanos)
-		default:
-			panic("only micro and nano seconds are supported for arrow TIME64")
-		}
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		dec := typ.(arrow.DecimalType)
-		return schema.NewDecimalLogicalType(dec.GetPrecision(), dec.GetScale())
-	}
-	return schema.NoLogicalType{}
-}
-
-func getPhysicalType(typ arrow.DataType) parquet.Type {
-	switch typ.ID() {
-	case arrow.DICTIONARY:
-		return getPhysicalType(typ.(*arrow.DictionaryType).ValueType)
-	case arrow.BOOL:
-		return parquet.Types.Boolean
-	case arrow.UINT8, arrow.INT8, arrow.UINT16, arrow.INT16, arrow.UINT32, arrow.INT32:
-		return parquet.Types.Int32
-	case arrow.INT64, arrow.UINT64:
-		return parquet.Types.Int64
-	case arrow.FLOAT32:
-		return parquet.Types.Float
-	case arrow.FLOAT64:
-		return parquet.Types.Double
-	case arrow.FLOAT16:
-		return parquet.Types.FixedLenByteArray
-	case arrow.BINARY, arrow.LARGE_BINARY, arrow.STRING, arrow.LARGE_STRING:
-		return parquet.Types.ByteArray
-	case arrow.FIXED_SIZE_BINARY, arrow.DECIMAL:
-		return parquet.Types.FixedLenByteArray
-	case arrow.DATE32:
-		return parquet.Types.Int32
-	case arrow.DATE64:
-		// convert to date32 internally
-		return parquet.Types.Int32
-	case arrow.TIME32:
-		return parquet.Types.Int32
-	case arrow.TIME64, arrow.TIMESTAMP:
-		return parquet.Types.Int64
-	default:
-		return parquet.Types.Int32
-	}
-}
-
-const (
-	boolTestValue = true
-	uint8TestVal  = uint8(64)
-	int8TestVal   = int8(-64)
-	uint16TestVal = uint16(1024)
-	int16TestVal  = int16(-1024)
-	uint32TestVal = uint32(1024)
-	int32TestVal  = int32(-1024)
-	uint64TestVal = uint64(1024)
-	int64TestVal  = int64(-1024)
-	tsTestValue   = arrow.Timestamp(14695634030000)
-	date32TestVal = arrow.Date32(170000)
-	floatTestVal  = float32(2.1)
-	doubleTestVal = float64(4.2)
-	strTestVal    = "Test"
-
-	smallSize = 100
-)
-
-type ParquetIOTestSuite struct {
-	suite.Suite
-}
-
-func (ps *ParquetIOTestSuite) makeSimpleSchema(typ arrow.DataType, rep parquet.Repetition) *schema.GroupNode {
-	byteWidth := int32(-1)
-
-	switch typ := typ.(type) {
-	case *arrow.FixedSizeBinaryType:
-		byteWidth = int32(typ.ByteWidth)
-	case arrow.DecimalType:
-		byteWidth = pqarrow.DecimalSize(typ.GetPrecision())
-	case *arrow.Float16Type:
-		byteWidth = int32(typ.Bytes())
-	case *arrow.DictionaryType:
-		valuesType := typ.ValueType
-		switch dt := valuesType.(type) {
-		case *arrow.FixedSizeBinaryType:
-			byteWidth = int32(dt.ByteWidth)
-		case arrow.DecimalType:
-			byteWidth = pqarrow.DecimalSize(dt.GetPrecision())
-		case *arrow.Float16Type:
-			byteWidth = int32(typ.Bytes())
-		}
-	}
-
-	pnode, _ := schema.NewPrimitiveNodeLogical("column1", rep, getLogicalType(typ), getPhysicalType(typ), int(byteWidth), -1)
-	return schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{pnode}, -1))
-}
-
-func (ps *ParquetIOTestSuite) makePrimitiveTestCol(mem memory.Allocator, size int, typ arrow.DataType) arrow.Array {
-	switch typ.ID() {
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(boolTestValue)
-		}
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int8TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint8TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int16TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint16TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int32TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint32TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int64TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint64TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(floatTestVal)
-		}
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(doubleTestVal)
-		}
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-func (ps *ParquetIOTestSuite) makeTestFile(mem memory.Allocator, typ arrow.DataType, arr arrow.Array, numChunks int) []byte {
-	sc := ps.makeSimpleSchema(typ, parquet.Repetitions.Required)
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(parquet.NewWriterProperties(parquet.WithAllocator(mem))))
-
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	ctx := pqarrow.NewArrowWriteContext(context.TODO(), &props)
-	rowGroupSize := arr.Len() / numChunks
-
-	for i := 0; i < numChunks; i++ {
-		rgw := writer.AppendRowGroup()
-		cw, err := rgw.NextColumn()
-		ps.NoError(err)
-
-		start := i * rowGroupSize
-		slc := array.NewSlice(arr, int64(start), int64(start+rowGroupSize))
-		defer slc.Release()
-		ps.NoError(pqarrow.WriteArrowToColumn(ctx, cw, slc, nil, nil, false))
-		ps.NoError(cw.Close())
-		ps.NoError(rgw.Close())
-	}
-	ps.NoError(writer.Close())
-	buf := sink.Finish()
-	defer buf.Release()
-	return buf.Bytes()
-}
-
-func (ps *ParquetIOTestSuite) createReader(mem memory.Allocator, data []byte) *pqarrow.FileReader {
-	rdr, err := file.NewParquetReader(bytes.NewReader(data), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	ps.NoError(err)
-
-	reader, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	ps.NoError(err)
-	return reader
-}
-
-func (ps *ParquetIOTestSuite) readTable(rdr *pqarrow.FileReader) arrow.Table {
-	tbl, err := rdr.ReadTable(context.TODO())
-	ps.NoError(err)
-	ps.NotNil(tbl)
-	return tbl
-}
-
-func (ps *ParquetIOTestSuite) checkSingleColumnRequiredTableRead(mem memory.Allocator, typ arrow.DataType, numChunks int) {
-	values := ps.makePrimitiveTestCol(mem, smallSize, typ)
-	defer values.Release()
-
-	data := ps.makeTestFile(mem, typ, values, numChunks)
-	reader := ps.createReader(mem, data)
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.EqualValues(1, tbl.NumCols())
-	ps.EqualValues(smallSize, tbl.NumRows())
-
-	chunked := tbl.Column(0).Data()
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) checkSingleColumnRead(mem memory.Allocator, typ arrow.DataType, numChunks int) {
-	values := ps.makePrimitiveTestCol(mem, smallSize, typ)
-	defer values.Release()
-
-	data := ps.makeTestFile(mem, typ, values, numChunks)
-	reader := ps.createReader(mem, data)
-
-	cr, err := reader.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-	defer cr.Release()
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestDateTimeTypesReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	toWrite := makeDateTimeTypesTable(mem, false, true)
-	defer toWrite.Release()
-	buf := writeTableToBuffer(ps.T(), mem, toWrite, toWrite.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	expected := makeDateTimeTypesTable(mem, true, true)
-	defer expected.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-	ps.Truef(expected.Schema().Equal(tbl.Schema()), "expected schema: %s\ngot schema: %s", expected.Schema(), tbl.Schema())
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		exChunk := expected.Column(i).Data()
-		tblChunk := tbl.Column(i).Data()
-
-		ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-		ps.Truef(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)), "expected %s\ngot %s", exChunk.Chunk(0), tblChunk.Chunk(0))
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestDateTimeTypesWithInt96ReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	expected := makeDateTimeTypesTable(mem, false, true)
-	defer expected.Release()
-	buf := writeTableToBuffer(ps.T(), mem, expected, expected.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-	ps.Truef(expected.Schema().Equal(tbl.Schema()), "expected schema: %s\ngot schema: %s", expected.Schema(), tbl.Schema())
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		exChunk := expected.Column(i).Data()
-		tblChunk := tbl.Column(i).Data()
-
-		ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-		ps.Truef(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)), "expected %s\ngot %s", exChunk.Chunk(0), tblChunk.Chunk(0))
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestDate64ReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	date64InputTable := makeDateTypeTable(mem, false, false)
-	defer date64InputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, date64InputTable, date64InputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	date32ExpectedOutputTable := makeDateTypeTable(mem, true, false)
-	defer date32ExpectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(date32ExpectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", date32ExpectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestTimestampTZReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	inputTable := makeTimestampTypeTable(mem, false)
-	defer inputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, inputTable, inputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	expectedOutputTable := makeTimestampTypeTable(mem, true)
-	defer expectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(expectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", expectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestDate64ReadWriteTableWithPartialDays() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	date64InputTableNotAlignedToDateBoundary := makeDateTypeTable(mem, false, true)
-	defer date64InputTableNotAlignedToDateBoundary.Release()
-	buf := writeTableToBuffer(ps.T(), mem, date64InputTableNotAlignedToDateBoundary, date64InputTableNotAlignedToDateBoundary.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	date32ExpectedOutputTable := makeDateTypeTable(mem, true, true)
-	defer date32ExpectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(date32ExpectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", date32ExpectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestTimestampTZStoreSchemaReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	inputTable := makeTimestampTypeTable(mem, false)
-	defer inputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, inputTable, inputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem), pqarrow.WithStoreSchema()))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	ps.Truef(array.TableEqual(inputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", inputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestLargeBinaryReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	// While we may write using LargeString, when we read, we get an array.String back out.
-	// So we're building a normal array.String to use with array.Equal
-	lsBldr := array.NewLargeStringBuilder(mem)
-	defer lsBldr.Release()
-	lbBldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer lbBldr.Release()
-
-	for i := 0; i < smallSize; i++ {
-		s := strconv.FormatInt(int64(i), 10)
-		lsBldr.Append(s)
-		lbBldr.Append([]byte(s))
-	}
-
-	lsValues := lsBldr.NewArray()
-	defer lsValues.Release()
-	lbValues := lbBldr.NewArray()
-	defer lbValues.Release()
-
-	lsField := arrow.Field{Name: "large_string", Type: arrow.BinaryTypes.LargeString, Nullable: true}
-	lbField := arrow.Field{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary, Nullable: true}
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{lsField, lbField}, nil),
-		[]arrow.Column{
-			*arrow.NewColumn(lsField, arrow.NewChunked(lsField.Type, []arrow.Array{lsValues})),
-			*arrow.NewColumn(lbField, arrow.NewChunked(lbField.Type, []arrow.Array{lbValues})),
-		},
-		-1,
-	)
-	defer lsValues.Release() // NewChunked
-	defer lbValues.Release() // NewChunked
-	defer expected.Release()
-	ps.roundTripTable(mem, expected, true)
-}
-
-func (ps *ParquetIOTestSuite) TestReadSingleColumnFile() {
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-
-	nchunks := []int{1, 4}
-
-	for _, n := range nchunks {
-		for _, dt := range types {
-			ps.Run(fmt.Sprintf("%s %d chunks", dt.Name(), n), func() {
-				mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-				defer mem.AssertSize(ps.T(), 0)
-				ps.checkSingleColumnRead(mem, dt, n)
-			})
-		}
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnRequiredRead() {
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-
-	nchunks := []int{1, 4}
-
-	for _, n := range nchunks {
-		for _, dt := range types {
-			ps.Run(fmt.Sprintf("%s %d chunks", dt.Name(), n), func() {
-				mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-				defer mem.AssertSize(ps.T(), 0)
-
-				ps.checkSingleColumnRequiredTableRead(mem, dt, n)
-			})
-		}
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestReadDecimals() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bigEndian := []parquet.ByteArray{
-		// 123456
-		[]byte{1, 226, 64},
-		// 987654
-		[]byte{15, 18, 6},
-		// -123456
-		[]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 254, 29, 192},
-	}
-
-	bldr := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 6, Scale: 3})
-	defer bldr.Release()
-
-	bldr.Append(decimal128.FromU64(123456))
-	bldr.Append(decimal128.FromU64(987654))
-	bldr.Append(decimal128.FromI64(-123456))
-
-	expected := bldr.NewDecimal128Array()
-	defer expected.Release()
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("decimals", parquet.Repetitions.Required, schema.NewDecimalLogicalType(6, 3), parquet.Types.ByteArray, -1, -1)),
-	}, -1))
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc)
-
-	rgw := writer.AppendRowGroup()
-	cw, _ := rgw.NextColumn()
-	cw.(*file.ByteArrayColumnChunkWriter).WriteBatch(bigEndian, nil, nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	rdr := ps.createReader(mem, sink.Bytes())
-	cr, err := rdr.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(expected, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestReadDecimal256() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bigEndian := []parquet.ByteArray{
-		// 123456
-		[]byte{1, 226, 64},
-		// 987654
-		[]byte{15, 18, 6},
-		// -123456
-		[]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 254, 29, 192},
-	}
-
-	bldr := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 40, Scale: 3})
-	defer bldr.Release()
-
-	bldr.Append(decimal256.FromU64(123456))
-	bldr.Append(decimal256.FromU64(987654))
-	bldr.Append(decimal256.FromI64(-123456))
-
-	expected := bldr.NewDecimal256Array()
-	defer expected.Release()
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("decimals", parquet.Repetitions.Required, schema.NewDecimalLogicalType(40, 3), parquet.Types.ByteArray, -1, -1)),
-	}, -1))
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc)
-
-	rgw := writer.AppendRowGroup()
-	cw, _ := rgw.NextColumn()
-	cw.(*file.ByteArrayColumnChunkWriter).WriteBatch(bigEndian, nil, nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	rdr := ps.createReader(mem, sink.Bytes())
-	cr, err := rdr.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.Truef(array.Equal(expected, chunked.Chunk(0)), "expected: %s\ngot: %s", expected, chunked.Chunk(0))
-}
-
-func (ps *ParquetIOTestSuite) TestReadNestedStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	dt := arrow.StructOf(arrow.Field{
-		Name: "nested",
-		Type: arrow.StructOf(
-			arrow.Field{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32},
-			arrow.Field{Name: "int64", Type: arrow.PrimitiveTypes.Int64},
-		),
-	})
-	field := arrow.Field{Name: "struct", Type: dt, Nullable: true}
-
-	builder := array.NewStructBuilder(mem, dt)
-	defer builder.Release()
-	nested := builder.FieldBuilder(0).(*array.StructBuilder)
-
-	builder.Append(true)
-	nested.Append(true)
-	nested.FieldBuilder(0).(*array.BooleanBuilder).Append(true)
-	nested.FieldBuilder(1).(*array.Int32Builder).Append(int32(-1))
-	nested.FieldBuilder(2).(*array.Int64Builder).Append(int64(-2))
-	builder.AppendNull()
-
-	arr := builder.NewStructArray()
-	defer arr.Release()
-
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(dt, []arrow.Array{arr}))},
-		-1,
-	)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-	ps.roundTripTable(mem, expected, true)
-}
-
-func (ps *ParquetIOTestSuite) writeColumn(mem memory.Allocator, sc *schema.GroupNode, values arrow.Array) []byte {
-	var buf bytes.Buffer
-	arrsc, err := pqarrow.FromParquet(schema.NewSchema(sc), nil, nil)
-	ps.NoError(err)
-
-	writer, err := pqarrow.NewFileWriter(arrsc, &buf, parquet.NewWriterProperties(parquet.WithDictionaryDefault(false)), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	ps.NoError(err)
-
-	writer.NewRowGroup()
-	ps.NoError(writer.WriteColumnData(values))
-	//defer values.Release()
-	ps.NoError(writer.Close())
-	ps.NoError(writer.Close())
-
-	return buf.Bytes()
-}
-
-func (ps *ParquetIOTestSuite) readAndCheckSingleColumnFile(mem memory.Allocator, data []byte, values arrow.Array) {
-	reader := ps.createReader(mem, data)
-	cr, err := reader.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-	ps.NotNil(cr)
-	defer cr.Release()
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.NotNil(chunked.Chunk(0))
-
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-var fullTypeList = []arrow.DataType{
-	arrow.FixedWidthTypes.Boolean,
-	arrow.PrimitiveTypes.Uint8,
-	arrow.PrimitiveTypes.Int8,
-	arrow.PrimitiveTypes.Uint16,
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Uint32,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Uint64,
-	arrow.PrimitiveTypes.Int64,
-	arrow.FixedWidthTypes.Date32,
-	arrow.PrimitiveTypes.Float32,
-	arrow.PrimitiveTypes.Float64,
-	arrow.FixedWidthTypes.Float16,
-	arrow.BinaryTypes.String,
-	arrow.BinaryTypes.Binary,
-	&arrow.FixedSizeBinaryType{ByteWidth: 10},
-	&arrow.Decimal128Type{Precision: 1, Scale: 0},
-	&arrow.Decimal128Type{Precision: 5, Scale: 4},
-	&arrow.Decimal128Type{Precision: 10, Scale: 9},
-	&arrow.Decimal128Type{Precision: 19, Scale: 18},
-	&arrow.Decimal128Type{Precision: 23, Scale: 22},
-	&arrow.Decimal128Type{Precision: 27, Scale: 26},
-	&arrow.Decimal128Type{Precision: 38, Scale: 37},
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnRequiredWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			values := testutils.RandomNonNull(mem, dt, smallSize)
-			defer values.Release()
-			sc := ps.makeSimpleSchema(dt, parquet.Repetitions.Required)
-			data := ps.writeColumn(mem, sc, values)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) roundTripTable(mem memory.Allocator, expected arrow.Table, storeSchema bool) {
-	var buf bytes.Buffer
-	var props pqarrow.ArrowWriterProperties
-	if storeSchema {
-		props = pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema(), pqarrow.WithAllocator(mem))
-	} else {
-		props = pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	}
-
-	writeProps := parquet.NewWriterProperties(parquet.WithAllocator(mem))
-	ps.Require().NoError(pqarrow.WriteTable(expected, &buf, expected.NumRows(), writeProps, props))
-
-	reader := ps.createReader(mem, buf.Bytes())
-	defer reader.ParquetReader().Close()
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	exc := exChunk.Chunk(0)
-	tbc := tblChunk.Chunk(0)
-	ps.Truef(array.ApproxEqual(exc, tbc), "expected: %T %s\ngot: %T %s", exc, exc, tbc, tbc)
-}
-
-func makeEmptyListsArray(size int) arrow.Array {
-	// allocate an offsets buffer with only zeros
-	offsetsNbytes := arrow.Int32Traits.BytesRequired(size + 1)
-	offsetsBuffer := make([]byte, offsetsNbytes)
-
-	childBuffers := []*memory.Buffer{nil, nil}
-	childData := array.NewData(arrow.PrimitiveTypes.Float32, 0, childBuffers, nil, 0, 0)
-	defer childData.Release()
-	buffers := []*memory.Buffer{nil, memory.NewBufferBytes(offsetsBuffer)}
-	arrayData := array.NewData(arrow.ListOf(childData.DataType()), size, buffers, []arrow.ArrayData{childData}, 0, 0)
-	defer arrayData.Release()
-	return array.MakeFromData(arrayData)
-}
-
-func makeListArray(values arrow.Array, size, nullcount int) arrow.Array {
-	nonNullEntries := size - nullcount - 1
-	lengthPerEntry := values.Len() / nonNullEntries
-
-	offsets := make([]byte, arrow.Int32Traits.BytesRequired(size+1))
-	offsetsArr := arrow.Int32Traits.CastFromBytes(offsets)
-
-	nullBitmap := make([]byte, int(bitutil.BytesForBits(int64(size))))
-
-	curOffset := 0
-	for i := 0; i < size; i++ {
-		offsetsArr[i] = int32(curOffset)
-		if !(((i % 2) == 0) && ((i / 2) < nullcount)) {
-			// non-null list (list with index 1 is always empty)
-			bitutil.SetBit(nullBitmap, i)
-			if i != 1 {
-				curOffset += lengthPerEntry
-			}
-		}
-	}
-	offsetsArr[size] = int32(values.Len())
-
-	listData := array.NewData(arrow.ListOf(values.DataType()), size,
-		[]*memory.Buffer{memory.NewBufferBytes(nullBitmap), memory.NewBufferBytes(offsets)},
-		[]arrow.ArrayData{values.Data()}, nullcount, 0)
-	defer listData.Release()
-	return array.NewListData(listData)
-}
-
-func prepareEmptyListsTable(size int) arrow.Table {
-	lists := makeEmptyListsArray(size)
-	defer lists.Release()
-	chunked := arrow.NewChunked(lists.DataType(), []arrow.Array{lists})
-	defer chunked.Release()
-	return makeSimpleTable(chunked, true)
-}
-
-func prepareListTable(dt arrow.DataType, size int, nullableLists bool, nullableElems bool, nullCount int) arrow.Table {
-	nc := nullCount
-	if !nullableElems {
-		nc = 0
-	}
-	values := testutils.RandomNullable(dt, size*size, nc)
-	defer values.Release()
-	// also test that slice offsets are respected
-	values = array.NewSlice(values, 5, int64(values.Len()))
-	defer values.Release()
-
-	if !nullableLists {
-		nullCount = 0
-	}
-	lists := makeListArray(values, size, nullCount)
-	defer lists.Release()
-
-	chunked := arrow.NewChunked(lists.DataType(), []arrow.Array{lists})
-	defer chunked.Release()
-
-	return makeSimpleTable(array.NewChunkedSlice(chunked, 3, int64(size)), nullableLists)
-}
-
-func prepareListOfListTable(dt arrow.DataType, size, nullCount int, nullableParentLists, nullableLists, nullableElems bool) arrow.Table {
-	nc := nullCount
-	if !nullableElems {
-		nc = 0
-	}
-
-	values := testutils.RandomNullable(dt, size*6, nc)
-	defer values.Release()
-
-	if nullableLists {
-		nc = nullCount
-	} else {
-		nc = 0
-	}
-
-	lists := makeListArray(values, size*3, nc)
-	defer lists.Release()
-
-	if !nullableParentLists {
-		nullCount = 0
-	}
-
-	parentLists := makeListArray(lists, size, nullCount)
-	defer parentLists.Release()
-
-	chunked := arrow.NewChunked(parentLists.DataType(), []arrow.Array{parentLists})
-	defer chunked.Release()
-
-	return makeSimpleTable(chunked, nullableParentLists)
-}
-
-func (ps *ParquetIOTestSuite) TestSingleEmptyListsColumnReadWrite() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	expected := prepareEmptyListsTable(smallSize)
-	defer expected.Release()
-	buf := writeTableToBuffer(ps.T(), mem, expected, smallSize, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.EqualValues(expected.NumCols(), tbl.NumCols())
-	ps.EqualValues(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	ps.True(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnOptionalReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			values := testutils.RandomNullable(dt, smallSize, 10)
-			defer values.Release()
-			sc := ps.makeSimpleSchema(dt, parquet.Repetitions.Optional)
-			data := ps.writeColumn(mem, sc, values)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListNullableColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, true, true, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleRequiredListNullableColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, false, true, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, true, false, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleRequiredListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, false, false, 0)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListRequiredListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListOfListTable(dt, smallSize, 2, true, false, false)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSimpleStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	links := arrow.StructOf(arrow.Field{Name: "Backward", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		arrow.Field{Name: "Forward", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-
-	bldr := array.NewStructBuilder(mem, links)
-	defer bldr.Release()
-
-	backBldr := bldr.FieldBuilder(0).(*array.Int64Builder)
-	forwardBldr := bldr.FieldBuilder(1).(*array.Int64Builder)
-
-	bldr.Append(true)
-	backBldr.AppendNull()
-	forwardBldr.Append(20)
-
-	bldr.Append(true)
-	backBldr.Append(10)
-	forwardBldr.Append(40)
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{{Name: "links", Type: links}}, nil),
-		[]arrow.Column{*arrow.NewColumn(arrow.Field{Name: "links", Type: links}, arrow.NewChunked(links, []arrow.Array{data}))}, -1)
-	defer data.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnNullableStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	links := arrow.StructOf(arrow.Field{Name: "Backward", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-	bldr := array.NewStructBuilder(mem, links)
-	defer bldr.Release()
-
-	backBldr := bldr.FieldBuilder(0).(*array.Int64Builder)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	backBldr.Append(10)
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{{Name: "links", Type: links, Nullable: true}}, nil),
-		[]arrow.Column{*arrow.NewColumn(arrow.Field{Name: "links", Type: links, Nullable: true}, arrow.NewChunked(links, []arrow.Array{data}))}, -1)
-	defer data.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedRequiredFieldStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	intField := arrow.Field{Name: "int_array", Type: arrow.PrimitiveTypes.Int32}
-	intBldr := array.NewInt32Builder(mem)
-	defer intBldr.Release()
-	intBldr.AppendValues([]int32{0, 1, 2, 3, 4, 5, 7, 8}, nil)
-
-	intArr := intBldr.NewArray()
-	defer intArr.Release()
-
-	validity := memory.NewBufferBytes([]byte{0xCC})
-	defer validity.Release()
-
-	structField := arrow.Field{Name: "root", Type: arrow.StructOf(intField), Nullable: true}
-	structData := array.NewData(structField.Type, 8, []*memory.Buffer{validity}, []arrow.ArrayData{intArr.Data()}, 4, 0)
-	defer structData.Release()
-	stData := array.NewStructData(structData)
-	defer stData.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{structField}, nil),
-		[]arrow.Column{*arrow.NewColumn(structField,
-			arrow.NewChunked(structField.Type, []arrow.Array{stData}))}, -1)
-	defer stData.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedNullableField() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	intField := arrow.Field{Name: "int_array", Type: arrow.PrimitiveTypes.Int32, Nullable: true}
-	intBldr := array.NewInt32Builder(mem)
-	defer intBldr.Release()
-	intBldr.AppendValues([]int32{0, 1, 2, 3, 4, 5, 7, 8}, []bool{true, false, true, false, true, true, false, true})
-
-	intArr := intBldr.NewArray()
-	defer intArr.Release()
-
-	validity := memory.NewBufferBytes([]byte{0xCC})
-	defer validity.Release()
-
-	structField := arrow.Field{Name: "root", Type: arrow.StructOf(intField), Nullable: true}
-	data := array.NewData(structField.Type, 8, []*memory.Buffer{validity}, []arrow.ArrayData{intArr.Data()}, 4, 0)
-	defer data.Release()
-	stData := array.NewStructData(data)
-	defer stData.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{structField}, nil),
-		[]arrow.Column{*arrow.NewColumn(structField,
-			arrow.NewChunked(structField.Type, []arrow.Array{stData}))}, -1)
-	defer stData.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedEmptyList() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{
-			Name: "root",
-			Type: arrow.StructOf(
-				arrow.Field{
-					Name: "child1",
-					Type: arrow.ListOf(arrow.StructOf(
-						arrow.Field{
-							Name: "child2",
-							Type: arrow.ListOf(arrow.StructOf(
-								arrow.Field{
-									Name: "name",
-									Type: arrow.BinaryTypes.String,
-								},
-							)),
-						},
-					)),
-				},
-			),
-		},
-	))
-	defer bldr.Release()
-
-	rootBldr := bldr.FieldBuilder(0).(*array.StructBuilder)
-	child1Bldr := rootBldr.FieldBuilder(0).(*array.ListBuilder)
-	child1ElBldr := child1Bldr.ValueBuilder().(*array.StructBuilder)
-	child2Bldr := child1ElBldr.FieldBuilder(0).(*array.ListBuilder)
-	leafBldr := child2Bldr.ValueBuilder().(*array.StructBuilder)
-	nameBldr := leafBldr.FieldBuilder(0).(*array.StringBuilder)
-
-	// target structure 8 times
-	// {
-	//   "root": {
-	//     "child1": [
-	//       { "child2": [{ "name": "foo" }] },
-	//       { "child2": [] }
-	//     ]
-	//   }
-	// }
-
-	for i := 0; i < 8; i++ {
-		bldr.Append(true)
-		rootBldr.Append(true)
-		child1Bldr.Append(true)
-
-		child1ElBldr.Append(true)
-		child2Bldr.Append(true)
-		leafBldr.Append(true)
-		nameBldr.Append("foo")
-
-		child1ElBldr.Append(true)
-		child2Bldr.Append(true)
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTableFromSlice(arrow.NewSchema([]arrow.Field{field}, nil), [][]arrow.Array{{arr}})
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestCanonicalNestedRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	docIdField := arrow.Field{Name: "DocID", Type: arrow.PrimitiveTypes.Int64}
-	linksField := arrow.Field{Name: "Links", Type: arrow.StructOf(
-		arrow.Field{Name: "Backward", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-		arrow.Field{Name: "Forward", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-	), Nullable: true}
-
-	nameStruct := arrow.StructOf(
-		arrow.Field{Name: "Language", Nullable: true, Type: arrow.ListOf(
-			arrow.StructOf(arrow.Field{Name: "Code", Type: arrow.BinaryTypes.String},
-				arrow.Field{Name: "Country", Type: arrow.BinaryTypes.String, Nullable: true}))},
-		arrow.Field{Name: "Url", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	nameField := arrow.Field{Name: "Name", Type: arrow.ListOf(nameStruct)}
-	sc := arrow.NewSchema([]arrow.Field{docIdField, linksField, nameField}, nil)
-
-	docIDArr, _, err := array.FromJSON(mem, docIdField.Type, strings.NewReader("[10, 20]"))
-	ps.Require().NoError(err)
-	defer docIDArr.Release()
-
-	linksIDArr, _, err := array.FromJSON(mem, linksField.Type, strings.NewReader(`[{"Backward":[], "Forward":[20, 40, 60]}, {"Backward":[10, 30], "Forward": [80]}]`))
-	ps.Require().NoError(err)
-	defer linksIDArr.Release()
-
-	nameArr, _, err := array.FromJSON(mem, nameField.Type, strings.NewReader(`
-			[[{"Language": [{"Code": "en_us", "Country": "us"},
-							{"Code": "en_us", "Country": null}],
-			   "Url": "http://A"},
-			  {"Url": "http://B", "Language": null},
-			  {"Language": [{"Code": "en-gb", "Country": "gb"}], "Url": null}],
-			  [{"Url": "http://C", "Language": null}]]`))
-	ps.Require().NoError(err)
-	defer nameArr.Release()
-
-	expected := array.NewTable(sc, []arrow.Column{
-		*arrow.NewColumn(docIdField, arrow.NewChunked(docIdField.Type, []arrow.Array{docIDArr})),
-		*arrow.NewColumn(linksField, arrow.NewChunked(linksField.Type, []arrow.Array{linksIDArr})),
-		*arrow.NewColumn(nameField, arrow.NewChunked(nameField.Type, []arrow.Array{nameArr})),
-	}, 2)
-	defer docIDArr.Release()   // NewChunked
-	defer linksIDArr.Release() // NewChunked
-	defer nameArr.Release()    // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestFixedSizeList() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewFixedSizeListBuilder(mem, 3, arrow.PrimitiveTypes.Int16)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int16Builder)
-
-	bldr.AppendValues([]bool{true, true, true})
-	vb.AppendValues([]int16{1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-
-	data := bldr.NewArray()
-	defer data.Release() // NewArray
-
-	field := arrow.Field{Name: "root", Type: data.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(field.Type, []arrow.Array{data})
-	defer data.Release() // NewChunked
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil), []arrow.Column{*arrow.NewColumn(field, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestNull() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewNullBuilder(mem)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	field := arrow.Field{Name: "x", Type: data.DataType(), Nullable: true}
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{data}))},
-		-1,
-	)
-
-	ps.roundTripTable(mem, expected, true)
-}
-
-// ARROW-17169
-func (ps *ParquetIOTestSuite) TestNullableListOfStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewListBuilder(mem, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String},
-	))
-	defer bldr.Release()
-
-	stBldr := bldr.ValueBuilder().(*array.StructBuilder)
-	aBldr := stBldr.FieldBuilder(0).(*array.Int32Builder)
-	bBldr := stBldr.FieldBuilder(1).(*array.StringBuilder)
-
-	for i := 0; i < 320; i++ {
-		if i%5 == 0 {
-			bldr.AppendNull()
-			continue
-		}
-		bldr.Append(true)
-		for j := 0; j < 4; j++ {
-			stBldr.Append(true)
-			aBldr.Append(int32(i + j))
-			bBldr.Append(strconv.Itoa(i + j))
-		}
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{arr}))}, -1)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestStructWithListOfNestedStructs() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{
-			Nullable: true,
-			Name:     "l",
-			Type: arrow.ListOf(arrow.StructOf(
-				arrow.Field{
-					Nullable: true,
-					Name:     "a",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Nullable: true,
-							Name:     "b",
-							Type:     arrow.BinaryTypes.String,
-						},
-					),
-				},
-			)),
-		},
-	))
-	defer bldr.Release()
-
-	lBldr := bldr.FieldBuilder(0).(*array.ListBuilder)
-	stBldr := lBldr.ValueBuilder().(*array.StructBuilder)
-	aBldr := stBldr.FieldBuilder(0).(*array.StructBuilder)
-	bBldr := aBldr.FieldBuilder(0).(*array.StringBuilder)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	lBldr.Append(true)
-	for i := 0; i < 8; i++ {
-		stBldr.Append(true)
-		aBldr.Append(true)
-		bBldr.Append(strconv.Itoa(i))
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{arr}))}, -1)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func TestParquetArrowIO(t *testing.T) {
-	suite.Run(t, new(ParquetIOTestSuite))
-}
-
-func TestBufferedRecWrite(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "struct_i64_f64", Type: arrow.StructOf(
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true})},
-	}, nil)
-
-	structData := array.NewData(sc.Field(2).Type, SIZELEN,
-		[]*memory.Buffer{nil, nil},
-		[]arrow.ArrayData{testutils.RandomNullable(arrow.PrimitiveTypes.Int64, SIZELEN, 0).Data(), testutils.RandomNullable(arrow.PrimitiveTypes.Float64, SIZELEN, 0).Data()}, 0, 0)
-	defer structData.Release()
-	cols := []arrow.Array{
-		testutils.RandomNullable(sc.Field(0).Type, SIZELEN, SIZELEN/5),
-		testutils.RandomNullable(sc.Field(1).Type, SIZELEN, SIZELEN/5),
-		array.NewStructData(structData),
-	}
-
-	rec := array.NewRecord(sc, cols, SIZELEN)
-	defer rec.Release()
-
-	var (
-		buf bytes.Buffer
-	)
-
-	wr, err := pqarrow.NewFileWriter(sc, &buf,
-		parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy), parquet.WithDictionaryDefault(false), parquet.WithDataPageSize(100*1024)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-
-	p1 := rec.NewSlice(0, SIZELEN/2)
-	defer p1.Release()
-	require.NoError(t, wr.WriteBuffered(p1))
-
-	p2 := rec.NewSlice(SIZELEN/2, SIZELEN)
-	defer p2.Release()
-	require.NoError(t, wr.WriteBuffered(p2))
-
-	wr.Close()
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, rdr.NumRowGroups())
-	assert.EqualValues(t, SIZELEN, rdr.NumRows())
-	rdr.Close()
-
-	tbl, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, pqarrow.ArrowReadProperties{}, nil)
-	assert.NoError(t, err)
-	defer tbl.Release()
-
-	assert.EqualValues(t, SIZELEN, tbl.NumRows())
-}
-
-func (ps *ParquetIOTestSuite) TestArrowMapTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewMapBuilder(mem, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fee", "Fi", "Fo", "Fum"}, nil)
-	ib.AppendValues([]int32{1, 2, 3, 4}, nil)
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fee", "Fi", "Fo"}, nil)
-	ib.AppendValues([]int32{5, 4, 3}, nil)
-
-	bldr.AppendNull()
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fo", "Fi", "Fee"}, nil)
-	ib.AppendValues([]int32{-1, 2, 3}, []bool{false, true, true})
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	fld := arrow.Field{Name: "mapped", Type: arr.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-	defer arr.Release() // NewChunked
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowExtensionTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	builder := extensions.NewUUIDBuilder(mem)
-	builder.Append(uuid.New())
-	arr := builder.NewArray()
-	defer arr.Release()
-
-	fld := arrow.Field{Name: "uuid", Type: arr.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-	defer arr.Release() // NewChunked
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowUnknownExtensionTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	var written, expected arrow.Table
-
-	{
-		// Prepare `written` table with the extension type registered.
-		extType := types.NewSmallintType()
-		bldr := array.NewExtensionBuilder(mem, extType)
-		defer bldr.Release()
-
-		bldr.Builder.(*array.Int16Builder).AppendValues(
-			[]int16{0, 0, 1, 2},
-			[]bool{false, true, true, true})
-
-		arr := bldr.NewArray()
-		defer arr.Release()
-
-		if arrow.GetExtensionType("smallint") != nil {
-			ps.NoError(arrow.UnregisterExtensionType("smallint"))
-			defer arrow.RegisterExtensionType(extType)
-		}
-
-		fld := arrow.Field{Name: "smallint", Type: arr.DataType(), Nullable: true}
-		cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-		defer arr.Release() // NewChunked
-		written = array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-		defer cnk.Release() // NewColumn
-		defer written.Release()
-	}
-
-	{
-		// Prepare `expected` table with the extension type unregistered in the underlying type.
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(
-			[]int16{0, 0, 1, 2},
-			[]bool{false, true, true, true})
-
-		arr := bldr.NewArray()
-		defer arr.Release()
-
-		fld := arrow.Field{Name: "smallint", Type: arr.DataType(), Nullable: true}
-		cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-		defer arr.Release() // NewChunked
-		expected = array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-		defer cnk.Release() // NewColumn
-		defer expected.Release()
-	}
-
-	// sanity check before going deeper
-	ps.Equal(expected.NumCols(), written.NumCols())
-	ps.Equal(expected.NumRows(), written.NumRows())
-
-	// just like roundTripTable() but different written vs. expected tables
-	var buf bytes.Buffer
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema(), pqarrow.WithAllocator(mem))
-
-	writeProps := parquet.NewWriterProperties(parquet.WithAllocator(mem))
-	ps.Require().NoError(pqarrow.WriteTable(written, &buf, written.NumRows(), writeProps, props))
-
-	reader := ps.createReader(mem, buf.Bytes())
-	defer reader.ParquetReader().Close()
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	exc := exChunk.Chunk(0)
-	tbc := tblChunk.Chunk(0)
-	ps.Truef(array.Equal(exc, tbc), "expected: %T %s\ngot: %T %s", exc, exc, tbc, tbc)
-
-	expectedMd := arrow.MetadataFrom(map[string]string{
-		ipc.ExtensionTypeKeyName:     "smallint",
-		ipc.ExtensionMetadataKeyName: "smallint-serialized",
-		"PARQUET:field_id":           "-1",
-	})
-	ps.Truef(expectedMd.Equal(tbl.Column(0).Field().Metadata), "expected: %v\ngot: %v", expectedMd, tbl.Column(0).Field().Metadata)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowExtensionTypeLogicalType() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	jsonType, err := extensions.NewJSONType(arrow.BinaryTypes.String)
-	ps.NoError(err)
-
-	sch := arrow.NewSchema([]arrow.Field{
-		{Name: "uuid", Type: extensions.NewUUIDType()},
-		{Name: "json", Type: jsonType},
-	},
-		nil,
-	)
-	bldr := array.NewRecordBuilder(mem, sch)
-	defer bldr.Release()
-
-	bldr.Field(0).(*extensions.UUIDBuilder).Append(uuid.New())
-	bldr.Field(1).(*array.ExtensionBuilder).AppendValueFromString(`{"hello": ["world", 2, true], "world": null}`)
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(
-		sch,
-		&buf,
-		parquet.NewWriterProperties(),
-		pqarrow.DefaultWriterProps(),
-	)
-	ps.Require().NoError(err)
-
-	ps.Require().NoError(wr.Write(rec))
-	ps.Require().NoError(wr.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	ps.Require().NoError(err)
-	defer rdr.Close()
-
-	pqSchema := rdr.MetaData().Schema
-	ps.True(pqSchema.Column(0).LogicalType().Equals(schema.UUIDLogicalType{}))
-	ps.True(pqSchema.Column(1).LogicalType().Equals(schema.JSONLogicalType{}))
-}
-
-func TestWriteTableMemoryAllocation(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "struct_i64_f64", Type: arrow.StructOf(
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true})},
-		{Name: "arr_i64", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-		{Name: "uuid", Type: extensions.NewUUIDType(), Nullable: true},
-	}, nil)
-
-	bld := array.NewRecordBuilder(mem, sc)
-	bld.Field(0).(*array.Float32Builder).Append(1.0)
-	bld.Field(1).(*array.Int32Builder).Append(1)
-	sbld := bld.Field(2).(*array.StructBuilder)
-	sbld.Append(true)
-	sbld.FieldBuilder(0).(*array.Int64Builder).Append(1)
-	sbld.FieldBuilder(1).(*array.Float64Builder).Append(1.0)
-	abld := bld.Field(3).(*array.ListBuilder)
-	abld.Append(true)
-	abld.ValueBuilder().(*array.Int64Builder).Append(2)
-	bld.Field(4).(*extensions.UUIDBuilder).Append(uuid.MustParse("00000000-0000-0000-0000-000000000001"))
-
-	rec := bld.NewRecord()
-	bld.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(sc, &buf,
-		parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-
-	require.NoError(t, wr.Write(rec))
-	rec.Release()
-	wr.Close()
-
-	require.Zero(t, mem.CurrentAlloc())
-}
-
-func TestEmptyListDeltaBinaryPacked(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "ts", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint64),
-			Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})}}, nil)
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	listBuilder := builder.Field(0).(*array.ListBuilder)
-	listBuilder.Append(true)
-	arrowRec := builder.NewRecord()
-	defer arrowRec.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(schema, &buf,
-		parquet.NewWriterProperties(
-			parquet.WithDictionaryFor("ts.list.element", false),
-			parquet.WithEncodingFor("ts.list.element", parquet.Encodings.DeltaBinaryPacked)),
-		pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, wr.WriteBuffered(arrowRec))
-	require.NoError(t, wr.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-	reader, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-	require.NoError(t, err)
-	defer rdr.Close()
-
-	tbl, err := reader.ReadTable(context.Background())
-	require.NoError(t, err)
-	defer tbl.Release()
-
-	assert.True(t, schema.Equal(tbl.Schema()))
-	assert.EqualValues(t, 1, tbl.NumRows())
-}
diff --git a/go/parquet/pqarrow/encode_dict_compute.go b/go/parquet/pqarrow/encode_dict_compute.go
deleted file mode 100644
index 647bb69db78d5..0000000000000
--- a/go/parquet/pqarrow/encode_dict_compute.go
+++ /dev/null
@@ -1,160 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package pqarrow
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-func isDictEncoding(enc parquet.Encoding) bool {
-	return enc == parquet.Encodings.PlainDict
-}
-
-func dictionaryDirectWriteSupported(arr arrow.Array) bool {
-	debug.Assert(arr.DataType().ID() == arrow.DICTIONARY, "should only be called with dictionary type")
-	dt := arr.DataType().(*arrow.DictionaryType)
-	return arrow.IsPrimitive(dt.ValueType.ID()) || arrow.IsBaseBinary(dt.ValueType.ID())
-}
-
-func convertDictionaryToDense(mem memory.Allocator, arr arrow.Array) (arrow.Array, error) {
-	dt := arr.DataType().(*arrow.DictionaryType).ValueType
-	ctx := compute.WithAllocator(context.Background(), mem)
-	return compute.CastArray(ctx, arr, compute.SafeCastOptions(dt))
-}
-
-func writeDictionaryArrow(ctx *arrowWriteContext, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, maybeParentNulls bool) (err error) {
-	// if this is the first time writing a dictionary array,
-	// then there's a few possible paths to take:
-	//
-	// - If dictionary encoding is not enabled, just convert to densely
-	//   encoded and call writeDenseArrow
-	// - Dictionary Encoding is enabled:
-	//   - If this is the first time this is called, then we
-	//     call PutDictionary into the encoder and PutIndices on each
-	//     chunk. We store the dictionary that was written so that
-	//     subsequent calls to this method can make sure the dictionary
-	//     hasn't changed.
-	//   - on subsequent calls, we have to check whether the dictionary
-	//     has changed. If it has, then we trigger the varying dictionary
-	//     path and materialize each chunk and call writeDenseArrow with that
-	writeDense := func() error {
-		denseArr, err := convertDictionaryToDense(ctx.props.mem, leafArr)
-		if err != nil {
-			return err
-		}
-		defer denseArr.Release()
-		return writeDenseArrow(ctx, cw, denseArr, defLevels, repLevels, maybeParentNulls)
-	}
-
-	if !isDictEncoding(cw.CurrentEncoder().Encoding()) || !dictionaryDirectWriteSupported(leafArr) {
-		// no longer dictionary-encoding for whatever reason, maybe we never were
-		// or we decided to stop. Note that writeArrowToColumn can be invoked multiple
-		// times with both dense and dictionary-encoded versions of the same data
-		// without a problem. Any dense data will be hashed to indices until the
-		// dictionary page limit is reached, at which everything (dict and dense)
-		// will fall back to plain encoding
-		return writeDense()
-	}
-
-	var (
-		dictEncoder = cw.CurrentEncoder().(encoding.DictEncoder)
-		data        = leafArr.(*array.Dictionary)
-		dict        = data.Dictionary()
-		indices     = data.Indices()
-		preserved   = dictEncoder.PreservedDictionary()
-		pageStats   = cw.PageStatistics()
-	)
-
-	updateStats := func() error {
-		var referencedDict arrow.Array
-
-		ctx := compute.WithAllocator(context.Background(), ctx.props.mem)
-		// if dictionary is the same dictionary we already have, just use that
-		if preserved != nil && preserved == dict {
-			referencedDict = preserved
-		} else {
-			referencedIndices, err := compute.UniqueArray(ctx, indices)
-			if err != nil {
-				return err
-			}
-
-			// on first run, we might be able to re-use the existing dict
-			if referencedIndices.Len() == dict.Len() {
-				referencedDict = dict
-			} else {
-				referencedDict, err = compute.TakeArrayOpts(ctx, dict, referencedIndices, compute.TakeOptions{BoundsCheck: false})
-				if err != nil {
-					return err
-				}
-				defer referencedDict.Release()
-			}
-			referencedIndices.Release()
-		}
-
-		nonNullCount := indices.Len() - indices.NullN()
-		pageStats.IncNulls(int64(len(defLevels) - nonNullCount))
-		pageStats.IncNumValues(int64(nonNullCount))
-		return pageStats.UpdateFromArrow(referencedDict, false)
-	}
-
-	switch {
-	case preserved == nil:
-		if err := dictEncoder.PutDictionary(dict); err != nil {
-			return err
-		}
-
-		// if there were duplicate values in the dictionary, the encoder's
-		// memo table will be out of sync with the indices in the arrow array
-		// the easiest solution for this uncommon case is to fallback to plain
-		// encoding
-		if dictEncoder.NumEntries() != dict.Len() {
-			cw.FallbackToPlain()
-			return writeDense()
-		}
-
-		if pageStats != nil {
-			if err := updateStats(); err != nil {
-				return err
-			}
-		}
-
-	case !array.Equal(dict, preserved):
-		// dictionary has changed
-		cw.FallbackToPlain()
-		return writeDense()
-	default:
-		// dictionary is the same but we need to update stats
-		if pageStats != nil {
-			if err := updateStats(); err != nil {
-				return err
-			}
-		}
-	}
-
-	return cw.WriteDictIndices(indices, defLevels, repLevels)
-}
diff --git a/go/parquet/pqarrow/encode_dict_nocompute.go b/go/parquet/pqarrow/encode_dict_nocompute.go
deleted file mode 100644
index aa405a90e8a12..0000000000000
--- a/go/parquet/pqarrow/encode_dict_nocompute.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.18
-
-package pqarrow
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/parquet/file"
-)
-
-func writeDictionaryArrow(*arrowWriteContext, file.ColumnChunkWriter, arrow.Array, []int16, []int16, bool) (err error) {
-	return errors.New("parquet/pqarrow: go1.18+ required to write arrow dictionary arrays in WriteArrowToColumn")
-}
diff --git a/go/parquet/pqarrow/encode_dictionary_test.go b/go/parquet/pqarrow/encode_dictionary_test.go
deleted file mode 100644
index cacdc7e39cab3..0000000000000
--- a/go/parquet/pqarrow/encode_dictionary_test.go
+++ /dev/null
@@ -1,748 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func (ps *ParquetIOTestSuite) TestSingleColumnOptionalDictionaryWrite() {
-	for _, dt := range fullTypeList {
-		// skip tests for bool as we don't do dictionaries for it
-		if dt.ID() == arrow.BOOL {
-			continue
-		}
-
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			bldr := array.NewDictionaryBuilder(mem, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: dt})
-			defer bldr.Release()
-
-			values := testutils.RandomNullable(dt, smallSize, 10)
-			defer values.Release()
-			ps.Require().NoError(bldr.AppendArray(values))
-
-			arr := bldr.NewDictionaryArray()
-			defer arr.Release()
-
-			sc := ps.makeSimpleSchema(arr.DataType(), parquet.Repetitions.Optional)
-			data := ps.writeColumn(mem, sc, arr)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func TestPqarrowDictionaries(t *testing.T) {
-	suite.Run(t, &ArrowWriteDictionarySuite{dataPageVersion: parquet.DataPageV1})
-	suite.Run(t, &ArrowWriteDictionarySuite{dataPageVersion: parquet.DataPageV2})
-	testSuite := &ArrowReadDictSuite{}
-	for _, np := range testSuite.NullProbabilities() {
-		testSuite.nullProb = np
-		t.Run(fmt.Sprintf("nullprob=%.2f", np), func(t *testing.T) {
-			suite.Run(t, testSuite)
-		})
-	}
-}
-
-type ArrowWriteDictionarySuite struct {
-	suite.Suite
-
-	dataPageVersion parquet.DataPageVersion
-}
-
-func (ad *ArrowWriteDictionarySuite) fromJSON(mem memory.Allocator, dt arrow.DataType, data string) arrow.Array {
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(data))
-	ad.Require().NoError(err)
-	return arr
-}
-
-func (ad *ArrowWriteDictionarySuite) TestStatisticsWithFallback() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ad.T(), 0)
-
-	testDictionaries := []arrow.Array{
-		ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a", "b", "c", "d", "a"]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a", "b", "c", "d", "a"]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.Binary, `["ZA==", "Yw==", "Yg==", "YQ==", "ZA==", "Yw==", "Yg==", "YQ=="]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.LargeString, `["a", "b", "c", "a", "b", "c"]`),
-	}
-
-	testIndices := []arrow.Array{
-		// ["b", null, "a", "b", null, "a"]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, null, 3, 0, null, 3]`),
-		// ["b", "c", null, "b", "c", null]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 1, null, 0, 1, null]`),
-		// ["ZA==", "Yw==", "YQ==", "ZA==", "Yw==", "YQ=="]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 1, 3, 0, 1, 3]`),
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[null, null, null, null, null, null]`),
-	}
-
-	defer func() {
-		for _, d := range testDictionaries {
-			d.Release()
-		}
-		for _, i := range testIndices {
-			i.Release()
-		}
-	}()
-
-	// arrays will be written with 3 values per row group, 2 values per data page
-	// the row groups are identical for ease of testing
-	expectedValidCounts := []int32{2, 2, 3, 0}
-	expectedNullCounts := []int32{1, 1, 0, 3}
-	expectedNumDataPages := []int{2, 2, 2, 1}
-	expectedValidByPage := [][]int32{
-		{1, 1},
-		{2, 0},
-		{2, 1},
-		{0}}
-	expectedNullByPage := [][]int64{
-		{1, 0},
-		{0, 1},
-		{0, 0},
-		{3}}
-	expectedDictCounts := []int32{4, 4, 4, 3}
-	// pairs of (min, max)
-	expectedMinMax := [][2]string{
-		{"a", "b"},
-		{"b", "c"},
-		{"a", "d"},
-		{"", ""}}
-
-	expectedMinByPage := [][][]string{
-		{{"b", "a"}, {"b", "a"}},
-		{{"b", "b"}, {"b", "b"}},
-		{{"c", "a"}, {"c", "a"}}}
-	expectedMaxByPage := [][][]string{
-		{{"b", "a"}, {"b", "a"}},
-		{{"c", "c"}, {"c", "c"}},
-		{{"d", "a"}, {"d", "a"}}}
-	expectedHasMinMaxByPage := [][][]bool{
-		{{true, true}, {true, true}},
-		// second page of each rowgroup only contains a null,
-		// so there's no stat on that page
-		{{true, false}, {true, false}},
-		{{true, true}, {true, true}},
-		{{false}, {false}}}
-
-	for caseIndex, dict := range testDictionaries {
-		ad.Run(dict.DataType().String(), func() {
-			dictType := &arrow.DictionaryType{
-				IndexType: testIndices[caseIndex].DataType(),
-				ValueType: dict.DataType(),
-			}
-			dictEncoded := array.NewDictionaryArray(dictType, testIndices[caseIndex], dict)
-			defer dictEncoded.Release()
-			schema := arrow.NewSchema([]arrow.Field{
-				{Name: "values", Type: dictEncoded.DataType(), Nullable: true}}, nil)
-			col := arrow.NewColumnFromArr(schema.Field(0), dictEncoded)
-			defer col.Release()
-			tbl := array.NewTable(schema, []arrow.Column{col}, int64(dictEncoded.Len()))
-			defer tbl.Release()
-
-			writerProperties := parquet.NewWriterProperties(
-				parquet.WithMaxRowGroupLength(3),
-				parquet.WithDataPageVersion(ad.dataPageVersion),
-				parquet.WithBatchSize(2),
-				parquet.WithDictionaryDefault(true),
-				parquet.WithDataPageSize(2),
-				parquet.WithStats(true),
-			)
-
-			var buf bytes.Buffer
-			ad.Require().NoError(pqarrow.WriteTable(tbl, &buf, math.MaxInt64, writerProperties,
-				pqarrow.DefaultWriterProps()))
-
-			rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-			ad.Require().NoError(err)
-			defer rdr.Close()
-
-			metadata := rdr.MetaData()
-			ad.Len(metadata.RowGroups, 2)
-
-			for i := 0; i < rdr.NumRowGroups(); i++ {
-				rg := metadata.RowGroup(i)
-				ad.EqualValues(1, rg.NumColumns())
-				col, err := rg.ColumnChunk(0)
-				ad.Require().NoError(err)
-				stats, err := col.Statistics()
-				ad.Require().NoError(err)
-
-				ad.EqualValues(expectedValidCounts[caseIndex], stats.NumValues())
-				ad.EqualValues(expectedNullCounts[caseIndex], stats.NullCount())
-
-				caseExpectedMinMax := expectedMinMax[caseIndex]
-				ad.Equal(caseExpectedMinMax[0], string(stats.EncodeMin()))
-				ad.Equal(caseExpectedMinMax[1], string(stats.EncodeMax()))
-			}
-
-			for rowGroup := 0; rowGroup < 2; rowGroup++ {
-				pr, err := rdr.RowGroup(0).GetColumnPageReader(0)
-				ad.Require().NoError(err)
-				ad.True(pr.Next())
-				page := pr.Page()
-				ad.NotNil(page)
-				ad.NoError(pr.Err())
-				ad.Require().IsType((*file.DictionaryPage)(nil), page)
-				dictPage := page.(*file.DictionaryPage)
-				ad.EqualValues(expectedDictCounts[caseIndex], dictPage.NumValues())
-
-				for pageIdx := 0; pageIdx < expectedNumDataPages[caseIndex]; pageIdx++ {
-					ad.True(pr.Next())
-					page = pr.Page()
-					ad.NotNil(page)
-					ad.NoError(pr.Err())
-
-					dataPage, ok := page.(file.DataPage)
-					ad.Require().True(ok)
-					stats := dataPage.Statistics()
-					ad.EqualValues(expectedNullByPage[caseIndex][pageIdx], stats.NullCount)
-
-					expectHasMinMax := expectedHasMinMaxByPage[caseIndex][rowGroup][pageIdx]
-					ad.Equal(expectHasMinMax, stats.HasMin)
-					ad.Equal(expectHasMinMax, stats.HasMax)
-
-					if expectHasMinMax {
-						ad.Equal(expectedMinByPage[caseIndex][rowGroup][pageIdx], string(stats.Min))
-						ad.Equal(expectedMaxByPage[caseIndex][rowGroup][pageIdx], string(stats.Max))
-					}
-
-					ad.EqualValues(expectedValidByPage[caseIndex][pageIdx]+int32(expectedNullByPage[caseIndex][pageIdx]),
-						dataPage.NumValues())
-				}
-
-				ad.False(pr.Next())
-			}
-		})
-	}
-}
-
-func (ad *ArrowWriteDictionarySuite) TestStatisticsUnifiedDictionary() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ad.T(), 0)
-
-	// two chunks with a shared dictionary
-	var (
-		tbl      arrow.Table
-		dictType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32,
-			ValueType: arrow.BinaryTypes.String}
-		schema = arrow.NewSchema([]arrow.Field{
-			{Name: "values", Type: dictType, Nullable: true}}, nil)
-	)
-
-	{
-		// it's important there are no duplicate values in the dictionary,
-		// otherwise we trigger the WriteDense() code path which side-steps
-		// dictionary encoding.
-		testDictionary := ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a"]`)
-		defer testDictionary.Release()
-
-		testIndices := []arrow.Array{
-			// ["a", null, "a", "a", null, "a"]
-			ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[3, null, 3, 3, null, 3]`),
-			// ["b", "a", null, "b", null, "c"]
-			ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 3, null, 0, null, 1]`),
-		}
-		chunks := []arrow.Array{
-			array.NewDictionaryArray(dictType, testIndices[0], testDictionary),
-			array.NewDictionaryArray(dictType, testIndices[1], testDictionary),
-		}
-		testIndices[0].Release()
-		testIndices[1].Release()
-
-		tbl = array.NewTableFromSlice(schema, [][]arrow.Array{chunks})
-		defer tbl.Release()
-
-		chunks[0].Release()
-		chunks[1].Release()
-	}
-
-	var buf bytes.Buffer
-	{
-		// write data as two row groups, one with 9 rows and one with 3
-		props := parquet.NewWriterProperties(
-			parquet.WithMaxRowGroupLength(9),
-			parquet.WithDataPageVersion(ad.dataPageVersion),
-			parquet.WithBatchSize(3),
-			parquet.WithDataPageSize(3),
-			parquet.WithDictionaryDefault(true),
-			parquet.WithStats(true))
-
-		ad.Require().NoError(pqarrow.WriteTable(tbl, &buf, math.MaxInt64, props, pqarrow.DefaultWriterProps()))
-	}
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	ad.Require().NoError(err)
-	defer rdr.Close()
-
-	metadata := rdr.MetaData()
-	ad.Len(metadata.RowGroups, 2)
-	ad.EqualValues(9, metadata.RowGroup(0).NumRows())
-	ad.EqualValues(3, metadata.RowGroup(1).NumRows())
-
-	col0, err := metadata.RowGroup(0).ColumnChunk(0)
-	ad.Require().NoError(err)
-	col1, err := metadata.RowGroup(1).ColumnChunk(0)
-	ad.Require().NoError(err)
-
-	stats0, err := col0.Statistics()
-	ad.Require().NoError(err)
-	stats1, err := col1.Statistics()
-	ad.Require().NoError(err)
-
-	ad.EqualValues(6, stats0.NumValues())
-	ad.EqualValues(2, stats1.NumValues())
-	ad.EqualValues(3, stats0.NullCount())
-	ad.EqualValues(1, stats1.NullCount())
-	ad.Equal([]byte("a"), stats0.EncodeMin())
-	ad.Equal([]byte("b"), stats1.EncodeMin())
-	ad.Equal([]byte("b"), stats0.EncodeMax())
-	ad.Equal([]byte("c"), stats1.EncodeMax())
-}
-
-const numRowGroups = 16
-
-type ArrowReadDictSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-
-	denseVals     arrow.Array
-	expectedDense arrow.Table
-	props         pqarrow.ArrowReadProperties
-	nullProb      float64
-
-	buf bytes.Buffer
-
-	options struct {
-		numRows      int
-		numRowGroups int
-		numUniques   int
-	}
-}
-
-func (ar *ArrowReadDictSuite) generateData(nullProb float64) {
-	const minLen = 2
-	const maxLen = 100
-	rag := testutils.NewRandomArrayGenerator(0)
-
-	ar.denseVals = rag.StringWithRepeats(ar.mem, int64(ar.options.numRows),
-		int64(ar.options.numUniques), minLen, maxLen, nullProb)
-
-	chunked := arrow.NewChunked(arrow.BinaryTypes.String, []arrow.Array{ar.denseVals})
-	defer chunked.Release()
-	ar.expectedDense = makeSimpleTable(chunked, true)
-}
-
-func (ar *ArrowReadDictSuite) SetupTest() {
-	ar.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	ar.buf.Reset()
-
-	ar.options = struct {
-		numRows      int
-		numRowGroups int
-		numUniques   int
-	}{1024 * numRowGroups, numRowGroups, 128}
-
-	ar.props = pqarrow.ArrowReadProperties{}
-	ar.generateData(ar.nullProb)
-}
-
-func (ar *ArrowReadDictSuite) TearDownTest() {
-	if ar.denseVals != nil {
-		ar.denseVals.Release()
-	}
-	ar.expectedDense.Release()
-
-	ar.mem.AssertSize(ar.T(), 0)
-}
-
-func (ar *ArrowReadDictSuite) writeSimple() {
-	// write num_row_groups row groups; each row group will have a
-	// different dictionary
-	ar.Require().NoError(pqarrow.WriteTable(ar.expectedDense, &ar.buf, int64(ar.options.numRows/ar.options.numRowGroups),
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true), parquet.WithStats(true)),
-		pqarrow.DefaultWriterProps()))
-}
-
-func (*ArrowReadDictSuite) NullProbabilities() []float64 {
-	return []float64{0.0, 0.5, 1}
-}
-
-func (ar *ArrowReadDictSuite) checkReadWholeFile(expected arrow.Table) {
-	tbl, err := pqarrow.ReadTable(context.Background(),
-		bytes.NewReader(ar.buf.Bytes()), nil, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	defer tbl.Release()
-
-	ar.Truef(array.TableEqual(expected, tbl), "expected: %s\ngot: %s", expected, tbl)
-}
-
-func (ar *ArrowReadDictSuite) checkStreamReadWholeFile(expected arrow.Table) {
-	reader, err := file.NewParquetReader(bytes.NewReader(ar.buf.Bytes()))
-	ar.Require().NoError(err)
-	defer reader.Close()
-
-	rdr, err := pqarrow.NewFileReader(reader, ar.props, ar.mem)
-	ar.Require().NoError(err)
-
-	rrdr, err := rdr.GetRecordReader(context.Background(), nil, nil)
-	ar.Require().NoError(err)
-	defer rrdr.Release()
-
-	recs := make([]arrow.Record, 0)
-	for rrdr.Next() {
-		rec := rrdr.Record()
-		rec.Retain()
-		defer rec.Release()
-		recs = append(recs, rec)
-	}
-
-	tbl := array.NewTableFromRecords(rrdr.Schema(), recs)
-	defer tbl.Release()
-
-	ar.Truef(array.TableEqual(expected, tbl), "expected: %s\ngot: %s", expected, tbl)
-}
-
-func (ar *ArrowReadDictSuite) getReader() *pqarrow.FileReader {
-	reader, err := file.NewParquetReader(bytes.NewReader(ar.buf.Bytes()))
-	ar.Require().NoError(err)
-
-	rdr, err := pqarrow.NewFileReader(reader, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	return rdr
-}
-
-func asDict32Encoded(mem memory.Allocator, arr arrow.Array) arrow.Array {
-	bldr := array.NewDictionaryBuilder(mem, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.BinaryTypes.String})
-	defer bldr.Release()
-	bldr.AppendArray(arr)
-	return bldr.NewArray()
-}
-
-func (ar *ArrowReadDictSuite) TestReadWholeFileDict() {
-	ar.props.SetReadDict(0, true)
-	ar.writeSimple()
-
-	numRowGroups := ar.options.numRowGroups
-	chunkSize := ar.options.numRows / ar.options.numRowGroups
-
-	chunks := make([]arrow.Array, numRowGroups)
-	for i := 0; i < numRowGroups; i++ {
-		start := int64(chunkSize * i)
-		sl := array.NewSlice(ar.denseVals, start, start+int64(chunkSize))
-		defer sl.Release()
-		chunks[i] = asDict32Encoded(ar.mem, sl)
-		defer chunks[i].Release()
-	}
-
-	chunked := arrow.NewChunked(chunks[0].DataType(), chunks)
-	defer chunked.Release()
-
-	exTable := makeSimpleTable(chunked, true)
-	defer exTable.Release()
-
-	ar.checkReadWholeFile(exTable)
-}
-
-func (ar *ArrowReadDictSuite) TestZeroChunksListOfDictionary() {
-	ar.props.SetReadDict(0, true)
-	ar.denseVals.Release()
-	ar.denseVals = nil
-
-	values := arrow.NewChunked(arrow.ListOf(arrow.BinaryTypes.String), []arrow.Array{})
-	defer values.Release()
-
-	ar.options.numRowGroups = 1
-	ar.options.numRows = 0
-	ar.options.numUniques = 0
-	ar.expectedDense.Release()
-	ar.expectedDense = makeSimpleTable(values, false)
-
-	ar.writeSimple()
-
-	rdr := ar.getReader()
-	defer rdr.ParquetReader().Close()
-
-	colReader, err := rdr.GetColumn(context.Background(), 0)
-	ar.Require().NoError(err)
-	defer colReader.Release()
-
-	chnked, err := colReader.NextBatch(1 << 15)
-	ar.Require().NoError(err)
-	defer chnked.Release()
-	ar.Zero(chnked.Len())
-	ar.Len(chnked.Chunks(), 1)
-}
-
-func (ar *ArrowReadDictSuite) TestIncrementalReads() {
-	ar.options.numRows = 100
-	ar.options.numUniques = 10
-
-	ar.denseVals.Release()
-	ar.expectedDense.Release()
-	ar.generateData(ar.nullProb)
-
-	ar.props.SetReadDict(0, true)
-	// just write a single row group
-	ar.Require().NoError(pqarrow.WriteTable(ar.expectedDense, &ar.buf, int64(ar.options.numRows),
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true), parquet.WithStats(true)),
-		pqarrow.DefaultWriterProps()))
-
-	// read in one shot
-	expected, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(ar.buf.Bytes()), nil, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	defer expected.Release()
-
-	rdr := ar.getReader()
-	defer rdr.ParquetReader().Close()
-	col, err := rdr.GetColumn(context.Background(), 0)
-	ar.Require().NoError(err)
-	defer col.Release()
-
-	const numReads = 4
-	batchSize := ar.options.numRows / numReads
-
-	ctx := compute.WithAllocator(context.Background(), ar.mem)
-
-	for i := 0; i < numReads; i++ {
-		chunk, err := col.NextBatch(int64(batchSize))
-		ar.Require().NoError(err)
-		defer chunk.Release()
-		// no need to manually release chunk, like other record readers
-		// the col reader holds onto the current record and will release it
-		// when the next is requested or when the reader is released
-		resultDense, err := compute.CastArray(ctx, chunk.Chunk(0),
-			compute.SafeCastOptions(arrow.BinaryTypes.String))
-		ar.Require().NoError(err)
-		defer resultDense.Release()
-
-		sl := array.NewSlice(ar.denseVals, int64(i*batchSize), int64((i*batchSize)+batchSize))
-		defer sl.Release()
-
-		ar.Truef(array.Equal(sl, resultDense), "expected: %s\ngot: %s", sl, resultDense)
-	}
-}
-
-func (ar *ArrowReadDictSuite) TestStreamReadWholeFileDict() {
-	ar.options.numRows = 100
-	ar.options.numUniques = 10
-
-	ar.denseVals.Release()
-	ar.expectedDense.Release()
-	ar.generateData(ar.nullProb)
-
-	ar.writeSimple()
-	ar.props.BatchSize = int64(ar.options.numRows * 2)
-	ar.checkStreamReadWholeFile(ar.expectedDense)
-}
-
-func (ar *ArrowReadDictSuite) TestReadWholeFileDense() {
-	ar.props.SetReadDict(0, false)
-	ar.writeSimple()
-	ar.checkReadWholeFile(ar.expectedDense)
-}
-
-func doRoundTrip(t *testing.T, tbl arrow.Table, rowGroupSize int64, wrProps *parquet.WriterProperties, arrWrProps *pqarrow.ArrowWriterProperties, arrReadProps pqarrow.ArrowReadProperties) arrow.Table {
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, rowGroupSize, wrProps, *arrWrProps))
-
-	out, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, arrReadProps, wrProps.Allocator())
-	require.NoError(t, err)
-	return out
-}
-
-func TestArrowWriteChangingDictionaries(t *testing.T) {
-	const (
-		numUnique            = 50
-		repeat               = 5000
-		minLen, maxLen int32 = 2, 20
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := rag.StringWithRepeats(mem, repeat*numUnique, numUnique, minLen, maxLen, 0.1)
-	defer values.Release()
-
-	valuesChunk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer valuesChunk.Release()
-
-	expected := makeSimpleTable(valuesChunk, true)
-	defer expected.Release()
-
-	const numChunks = 10
-	chunks := make([]arrow.Array, numChunks)
-	chunkSize := valuesChunk.Len() / numChunks
-	for i := 0; i < numChunks; i++ {
-		start := int64(chunkSize * i)
-		sl := array.NewSlice(values, start, start+int64(chunkSize))
-		defer sl.Release()
-		chunks[i] = asDict32Encoded(mem, sl)
-		defer chunks[i].Release()
-	}
-
-	dictChunked := arrow.NewChunked(chunks[0].DataType(), chunks)
-	defer dictChunked.Release()
-	dictTable := makeSimpleTable(dictChunked, true)
-	defer dictTable.Release()
-
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	actual := doRoundTrip(t, dictTable, int64(values.Len())/2, parquet.NewWriterProperties(parquet.WithAllocator(mem)),
-		&props, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func TestArrowAutoReadAsDictionary(t *testing.T) {
-	const (
-		numUnique            = 50
-		repeat               = 100
-		minLen, maxLen int32 = 2, 20
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := rag.StringWithRepeats(mem, repeat*numUnique, numUnique, minLen, maxLen, 0.1)
-	defer values.Release()
-
-	dictValues := asDict32Encoded(mem, values)
-	defer dictValues.Release()
-
-	dictChunk := arrow.NewChunked(dictValues.DataType(), []arrow.Array{dictValues})
-	defer dictChunk.Release()
-
-	valuesChunk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer valuesChunk.Release()
-
-	expected := makeSimpleTable(dictChunk, true)
-	defer expected.Release()
-	expectedDense := makeSimpleTable(valuesChunk, true)
-	defer expectedDense.Release()
-
-	wrProps := parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithDictionaryDefault(true))
-	propsStoreSchema := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema())
-	actual := doRoundTrip(t, expected, int64(valuesChunk.Len()), wrProps, &propsStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-
-	propsNoStoreSchema := pqarrow.NewArrowWriterProperties()
-	actualDense := doRoundTrip(t, expected, int64(valuesChunk.Len()), wrProps, &propsNoStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actualDense.Release()
-
-	assert.Truef(t, array.TableEqual(expectedDense, actualDense), "expected: %s\ngot: %s", expectedDense, actualDense)
-}
-
-func TestArrowWriteNestedSubfieldDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	offsets, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 2, 3]`))
-	defer offsets.Release()
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 0]`))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo"]`))
-	defer dict.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.BinaryTypes.String}
-	dictValues := array.NewDictionaryArray(dictType, indices, dict)
-	defer dictValues.Release()
-
-	data := array.NewData(arrow.ListOf(dictType), 3, []*memory.Buffer{nil, offsets.Data().Buffers()[1]},
-		[]arrow.ArrayData{dictValues.Data()}, 0, 0)
-	defer data.Release()
-	values := array.NewListData(data)
-	defer values.Release()
-
-	chk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer chk.Release()
-
-	tbl := makeSimpleTable(chk, true)
-	defer tbl.Release()
-	propsStoreSchema := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema())
-	actual := doRoundTrip(t, tbl, int64(values.Len()), parquet.NewWriterProperties(), &propsStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(tbl, actual), "expected: %s\ngot: %s", tbl, actual)
-}
-
-func TestDictOfEmptyStringsRoundtrip(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "reserved1", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, nil)
-
-	bldr := array.NewStringBuilder(mem)
-	defer bldr.Release()
-
-	for i := 0; i < 6; i++ {
-		bldr.AppendEmptyValue()
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	col1 := arrow.NewColumnFromArr(schema.Field(0), arr)
-	defer col1.Release()
-	tbl := array.NewTable(schema, []arrow.Column{col1}, 6)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, 6,
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true)),
-		pqarrow.NewArrowWriterProperties()))
-
-	result, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-	defer result.Release()
-
-	assert.EqualValues(t, 6, result.NumRows())
-	assert.EqualValues(t, 1, result.NumCols())
-	col := result.Column(0).Data().Chunk(0)
-	assert.Equal(t, arrow.STRING, col.DataType().ID())
-
-	for i := 0; i < 6; i++ {
-		assert.Zero(t, col.(*array.String).Value(i))
-	}
-}
diff --git a/go/parquet/pqarrow/file_reader.go b/go/parquet/pqarrow/file_reader.go
deleted file mode 100755
index a2e84d9ce2795..0000000000000
--- a/go/parquet/pqarrow/file_reader.go
+++ /dev/null
@@ -1,775 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"sync"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/sync/errgroup"
-	"golang.org/x/xerrors"
-)
-
-type itrFactory func(int, *file.Reader) *columnIterator
-
-type readerCtx struct {
-	rdr            *file.Reader
-	mem            memory.Allocator
-	colFactory     itrFactory
-	filterLeaves   bool
-	includedLeaves map[int]bool
-}
-
-func (r readerCtx) includesLeaf(idx int) bool {
-	_, ok := r.includedLeaves[idx]
-	return ok
-}
-
-// ReadTable is a convenience function to quickly and easily read a parquet file
-// into an arrow table.
-//
-// The schema of the arrow table is generated based on the schema of the parquet file,
-// including nested columns/lists/etc. in the same fashion as the FromParquetSchema
-// function. This just encapsulates the logic of creating a separate file.Reader and
-// pqarrow.FileReader to make a single easy function when you just want to construct
-// a table from the entire parquet file rather than reading it piecemeal.
-func ReadTable(ctx context.Context, r parquet.ReaderAtSeeker, props *parquet.ReaderProperties, arrProps ArrowReadProperties, mem memory.Allocator) (arrow.Table, error) {
-	pf, err := file.NewParquetReader(r, file.WithReadProps(props))
-	if err != nil {
-		return nil, err
-	}
-
-	reader, err := NewFileReader(pf, arrProps, mem)
-	if err != nil {
-		return nil, err
-	}
-
-	return reader.ReadTable(ctx)
-}
-
-// FileReader is the base object for reading a parquet file into arrow object
-// types.
-//
-// It provides utility functions for reading record batches, a table, subsets of
-// columns / rowgroups, and so on.
-type FileReader struct {
-	mem memory.Allocator
-	rdr *file.Reader
-
-	Props    ArrowReadProperties
-	Manifest *SchemaManifest
-}
-
-// NewFileReader constructs a reader for converting to Arrow objects from an existing
-// parquet file reader object.
-//
-// Only returns an error if there is some error constructing the schema manifest from
-// the parquet file metadata.
-func NewFileReader(rdr *file.Reader, props ArrowReadProperties, mem memory.Allocator) (*FileReader, error) {
-	manifest, err := NewSchemaManifest(rdr.MetaData().Schema, rdr.MetaData().KeyValueMetadata(), &props)
-	if err != nil {
-		return nil, err
-	}
-
-	return &FileReader{
-		mem:      mem,
-		rdr:      rdr,
-		Props:    props,
-		Manifest: manifest,
-	}, nil
-}
-
-// Schema returns the arrow schema representation of the underlying file's schema.
-func (fr *FileReader) Schema() (*arrow.Schema, error) {
-	return FromParquet(fr.rdr.MetaData().Schema, &fr.Props, fr.rdr.MetaData().KeyValueMetadata())
-}
-
-type colReaderImpl interface {
-	LoadBatch(nrecs int64) error
-	BuildArray(boundedLen int64) (*arrow.Chunked, error)
-	GetDefLevels() ([]int16, error)
-	GetRepLevels() ([]int16, error)
-	Field() *arrow.Field
-	IsOrHasRepeatedChild() bool
-	Retain()
-	Release()
-}
-
-// ColumnReader is used for reading batches of data from a specific column
-// across multiple row groups to return a chunked arrow array.
-type ColumnReader struct {
-	colReaderImpl
-}
-
-// NextBatch returns a chunked array after reading `size` values, potentially
-// across multiple row groups.
-func (c *ColumnReader) NextBatch(size int64) (*arrow.Chunked, error) {
-	if err := c.LoadBatch(size); err != nil {
-		return nil, err
-	}
-	return c.BuildArray(size)
-}
-
-type rdrCtxKey struct{}
-
-func readerCtxFromContext(ctx context.Context) readerCtx {
-	rdc := ctx.Value(rdrCtxKey{})
-	if rdc != nil {
-		return rdc.(readerCtx)
-	}
-	panic("no readerctx")
-}
-
-// ParquetReader returns the underlying parquet file reader that it was constructed with
-func (fr *FileReader) ParquetReader() *file.Reader { return fr.rdr }
-
-// GetColumn returns a reader for pulling the data of leaf column index i
-// across all row groups in the file.
-func (fr *FileReader) GetColumn(ctx context.Context, i int) (*ColumnReader, error) {
-	return fr.getColumnReader(ctx, i, fr.allRowGroupFactory())
-}
-
-func rowGroupFactory(rowGroups []int) itrFactory {
-	return func(i int, rdr *file.Reader) *columnIterator {
-		return &columnIterator{
-			index:     i,
-			rdr:       rdr,
-			schema:    rdr.MetaData().Schema,
-			rowGroups: rowGroups,
-		}
-	}
-}
-
-func (fr *FileReader) allRowGroupFactory() itrFactory {
-	rowGroups := make([]int, fr.rdr.NumRowGroups())
-	for idx := range rowGroups {
-		rowGroups[idx] = idx
-	}
-	return rowGroupFactory(rowGroups)
-}
-
-// GetFieldReader returns a reader for the entire Field of index i which could potentially include reading
-// multiple columns from the underlying parquet file if that field is a nested field.
-//
-// IncludedLeaves and RowGroups are used to specify precisely which leaf indexes and row groups to read a subset of.
-func (fr *FileReader) GetFieldReader(ctx context.Context, i int, includedLeaves map[int]bool, rowGroups []int) (*ColumnReader, error) {
-	ctx = context.WithValue(ctx, rdrCtxKey{}, readerCtx{
-		rdr:            fr.rdr,
-		mem:            fr.mem,
-		colFactory:     rowGroupFactory(rowGroups),
-		filterLeaves:   true,
-		includedLeaves: includedLeaves,
-	})
-	return fr.getReader(ctx, &fr.Manifest.Fields[i], *fr.Manifest.Fields[i].Field)
-}
-
-// GetFieldReaders is for retrieving readers for multiple fields at one time for only the list
-// of column indexes and rowgroups requested. It returns a slice of the readers and the corresponding
-// arrow.Schema for those columns.
-func (fr *FileReader) GetFieldReaders(ctx context.Context, colIndices, rowGroups []int) ([]*ColumnReader, *arrow.Schema, error) {
-	fieldIndices, err := fr.Manifest.GetFieldIndices(colIndices)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	includedLeaves := make(map[int]bool)
-	for _, col := range colIndices {
-		includedLeaves[col] = true
-	}
-
-	out := make([]*ColumnReader, len(fieldIndices))
-	outFields := make([]arrow.Field, len(fieldIndices))
-
-	// Load batches in parallel
-	// When reading structs with large numbers of columns, the serial load is very slow.
-	// This is especially true when reading Cloud Storage. Loading concurrently
-	// greatly improves performance.
-	// GetFieldReader causes read operations, when issued serially on large numbers of columns,
-	// this is super time consuming. Get field readers concurrently.
-	g, gctx := errgroup.WithContext(ctx)
-	if !fr.Props.Parallel {
-		g.SetLimit(1)
-	}
-	for idx, fidx := range fieldIndices {
-		idx, fidx := idx, fidx // create concurrent copy
-		g.Go(func() error {
-			rdr, err := fr.GetFieldReader(gctx, fidx, includedLeaves, rowGroups)
-			if err != nil {
-				return err
-			}
-			outFields[idx] = *rdr.Field()
-			out[idx] = rdr
-			return nil
-		})
-	}
-	if err = g.Wait(); err != nil {
-		return nil, nil, err
-	}
-
-	return out, arrow.NewSchema(outFields, fr.Manifest.SchemaMeta), nil
-}
-
-// RowGroup creates a reader that will *only* read from the requested row group
-func (fr *FileReader) RowGroup(idx int) RowGroupReader {
-	return RowGroupReader{fr, idx}
-}
-
-// ReadColumn reads data to create a chunked array only from the requested row groups.
-func (fr *FileReader) ReadColumn(rowGroups []int, rdr *ColumnReader) (*arrow.Chunked, error) {
-	recs := int64(0)
-	for _, rg := range rowGroups {
-		recs += fr.rdr.MetaData().RowGroups[rg].GetNumRows()
-	}
-	return rdr.NextBatch(recs)
-}
-
-// ReadTable reads the entire file into an array.Table
-func (fr *FileReader) ReadTable(ctx context.Context) (arrow.Table, error) {
-	var (
-		cols = []int{}
-		rgs  = []int{}
-	)
-	for i := 0; i < fr.rdr.MetaData().Schema.NumColumns(); i++ {
-		cols = append(cols, i)
-	}
-	for i := 0; i < fr.rdr.NumRowGroups(); i++ {
-		rgs = append(rgs, i)
-	}
-	return fr.ReadRowGroups(ctx, cols, rgs)
-}
-
-func (fr *FileReader) checkCols(indices []int) (err error) {
-	for _, col := range indices {
-		if col < 0 || col >= fr.rdr.MetaData().Schema.NumColumns() {
-			err = fmt.Errorf("invalid column index specified %d out of %d", col, fr.rdr.MetaData().Schema.NumColumns())
-			break
-		}
-	}
-	return
-}
-
-func (fr *FileReader) checkRowGroups(indices []int) (err error) {
-	for _, rg := range indices {
-		if rg < 0 || rg >= fr.rdr.NumRowGroups() {
-			err = fmt.Errorf("invalid row group specified: %d, file only has %d row groups", rg, fr.rdr.NumRowGroups())
-			break
-		}
-	}
-	return
-}
-
-type readerInfo struct {
-	rdr *ColumnReader
-	idx int
-}
-
-type resultPair struct {
-	idx  int
-	data *arrow.Chunked
-	err  error
-}
-
-//! This is Super complicated.  I would simplify the pattern, but it works and hesitant to change what works.
-
-// ReadRowGroups is for generating an array.Table from the file but filtering to only read the requested
-// columns and row groups rather than the entire file which ReadTable does.
-func (fr *FileReader) ReadRowGroups(ctx context.Context, indices, rowGroups []int) (arrow.Table, error) {
-	if err := fr.checkRowGroups(rowGroups); err != nil {
-		return nil, err
-	}
-	if err := fr.checkCols(indices); err != nil {
-		return nil, err
-	}
-
-	// TODO(mtopol): add optimizations for pre-buffering data options
-
-	readers, sc, err := fr.GetFieldReaders(ctx, indices, rowGroups)
-	if err != nil {
-		return nil, err
-	}
-
-	// producer-consumer parallelization
-	var (
-		np      = 1
-		wg      sync.WaitGroup
-		ch      = make(chan readerInfo, len(readers))
-		results = make(chan resultPair, 2)
-	)
-
-	if fr.Props.Parallel {
-		np = len(readers)
-	}
-
-	ctx, cancel := context.WithCancel(ctx)
-	defer cancel()
-
-	wg.Add(np) // fan-out to np readers
-	for i := 0; i < np; i++ {
-		go func() {
-			defer wg.Done()
-			for {
-				select {
-				case r, ok := <-ch:
-					if !ok {
-						return
-					}
-
-					chnked, err := fr.ReadColumn(rowGroups, r.rdr)
-					// pass the result column data to the result channel
-					// for the consumer goroutine to process
-					results <- resultPair{r.idx, chnked, err}
-				case <-ctx.Done(): // check if we cancelled
-					return
-				}
-			}
-		}()
-	}
-
-	go func() {
-		wg.Wait()
-		close(results) // close the result channel when there's no more
-	}()
-
-	// pass pairs of reader and column index to the channel for the
-	// goroutines to read the data
-	for idx := range readers {
-		defer readers[idx].Release()
-		ch <- readerInfo{readers[idx], idx}
-	}
-	close(ch)
-
-	// output slice of columns
-	columns := make([]arrow.Column, sc.NumFields())
-	defer releaseColumns(columns)
-	for data := range results {
-		if data.err != nil {
-			err = data.err
-			cancel()
-			break
-		}
-		columns[data.idx] = *arrow.NewColumn(sc.Field(data.idx), data.data)
-		data.data.Release()
-	}
-
-	// if the context is in error, but we haven't set an error yet, then it means that the parent context
-	// was cancelled. In this case, we should exit early as some columns may not have been read yet.
-	err = errors.Join(err, ctx.Err())
-
-	if err != nil {
-		// if we encountered an error, consume any waiting data on the channel
-		// so the goroutines don't leak and so memory can get cleaned up. we already
-		// cancelled the context, so we're just consuming anything that was already queued up.
-		for data := range results {
-			data.data.Release()
-		}
-		return nil, err
-	}
-
-	var nrows int
-	if len(columns) > 0 {
-		nrows = columns[0].Len()
-	}
-
-	return array.NewTable(sc, columns, int64(nrows)), nil
-}
-
-func (fr *FileReader) getColumnReader(ctx context.Context, i int, colFactory itrFactory) (*ColumnReader, error) {
-	if i < 0 || i >= len(fr.Manifest.Fields) {
-		return nil, fmt.Errorf("invalid column index chosen %d, there are only %d columns", i, len(fr.Manifest.Fields))
-	}
-
-	ctx = context.WithValue(ctx, rdrCtxKey{}, readerCtx{
-		rdr:          fr.rdr,
-		mem:          fr.mem,
-		colFactory:   colFactory,
-		filterLeaves: false,
-	})
-
-	return fr.getReader(ctx, &fr.Manifest.Fields[i], *fr.Manifest.Fields[i].Field)
-}
-
-// RecordReader is a Record Batch Reader that meets the interfaces for both
-// array.RecordReader and arrio.Reader to allow easy progressive reading
-// of record batches from the parquet file. Ideal for streaming.
-type RecordReader interface {
-	array.RecordReader
-	arrio.Reader
-}
-
-// GetRecordReader returns a record reader that reads only the requested column indexes and row groups.
-//
-// For both cases, if you pass nil for column indexes or rowgroups it will default to reading all of them.
-func (fr *FileReader) GetRecordReader(ctx context.Context, colIndices, rowGroups []int) (RecordReader, error) {
-	if err := fr.checkRowGroups(rowGroups); err != nil {
-		return nil, err
-	}
-
-	if rowGroups == nil {
-		rowGroups = make([]int, fr.rdr.NumRowGroups())
-		for idx := range rowGroups {
-			rowGroups[idx] = idx
-		}
-	}
-
-	if err := fr.checkCols(colIndices); err != nil {
-		return nil, err
-	}
-
-	if colIndices == nil {
-		colIndices = make([]int, fr.rdr.MetaData().Schema.NumColumns())
-		for idx := range colIndices {
-			colIndices[idx] = idx
-		}
-	}
-
-	// TODO(mtopol): add optimizations to pre-buffer data from the file
-
-	readers, sc, err := fr.GetFieldReaders(ctx, colIndices, rowGroups)
-	if err != nil {
-		return nil, err
-	}
-
-	if len(readers) == 0 {
-		return nil, xerrors.New("no leaf column readers matched col indices")
-	}
-
-	nrows := int64(0)
-	for _, rg := range rowGroups {
-		nrows += fr.rdr.MetaData().RowGroup(rg).NumRows()
-	}
-
-	return &recordReader{
-		numRows:      nrows,
-		batchSize:    fr.Props.BatchSize,
-		parallel:     fr.Props.Parallel,
-		sc:           sc,
-		fieldReaders: readers,
-		refCount:     1,
-	}, nil
-}
-
-func (fr *FileReader) getReader(ctx context.Context, field *SchemaField, arrowField arrow.Field) (out *ColumnReader, err error) {
-	rctx := readerCtxFromContext(ctx)
-	if len(field.Children) == 0 {
-		if !field.IsLeaf() {
-			return nil, xerrors.New("parquet non-leaf node has no children")
-		}
-		if rctx.filterLeaves && !rctx.includesLeaf(field.ColIndex) {
-			return nil, nil
-		}
-
-		out, err = newLeafReader(&rctx, field.Field, rctx.colFactory(field.ColIndex, rctx.rdr), field.LevelInfo, fr.Props, fr.rdr.BufferPool())
-		return
-	}
-
-	switch arrowField.Type.ID() {
-	case arrow.EXTENSION:
-		return nil, xerrors.New("extension type not implemented")
-	case arrow.STRUCT:
-
-		childReaders := make([]*ColumnReader, len(field.Children))
-		childFields := make([]arrow.Field, len(field.Children))
-
-		// Get child field readers concurrently
-		// 'getReader' causes a read operation.  Issue the 'reads' concurrently
-		// When reading structs with large numbers of columns, the serial load is very slow.
-		// This is especially true when reading Cloud Storage. Loading concurrently
-		// greatly improves performance.
-		g, gctx := errgroup.WithContext(ctx)
-		if !fr.Props.Parallel {
-			g.SetLimit(1)
-		}
-
-		for n, child := range field.Children {
-			n, child := n, child
-			g.Go(func() error {
-				reader, err := fr.getReader(gctx, &child, *child.Field)
-				if err != nil {
-					return err
-				}
-				if reader == nil {
-					return nil
-				}
-				childFields[n] = *child.Field
-				childReaders[n] = reader
-				return nil
-			})
-		}
-		if err = g.Wait(); err != nil {
-			return nil, err
-		}
-
-		// because we performed getReader concurrently, we need to prune out any empty readers
-		for n := len(childReaders) - 1; n >= 0; n-- {
-			if childReaders[n] == nil {
-				childReaders = append(childReaders[:n], childReaders[n+1:]...)
-				childFields = append(childFields[:n], childFields[n+1:]...)
-			}
-		}
-		if len(childFields) == 0 {
-			return nil, nil
-		}
-		filtered := arrow.Field{Name: arrowField.Name, Nullable: arrowField.Nullable,
-			Metadata: arrowField.Metadata, Type: arrow.StructOf(childFields...)}
-		out = newStructReader(&rctx, &filtered, field.LevelInfo, childReaders, fr.Props)
-	case arrow.LIST, arrow.FIXED_SIZE_LIST, arrow.MAP:
-		child := field.Children[0]
-		childReader, err := fr.getReader(ctx, &child, *child.Field)
-		if err != nil {
-			return nil, err
-		}
-		if childReader == nil {
-			return nil, nil
-		}
-		defer childReader.Release()
-
-		switch arrowField.Type.(type) {
-		case *arrow.MapType:
-			if len(child.Children) != 2 {
-				arrowField.Type = arrow.ListOf(childReader.Field().Type)
-			}
-			out = newListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		case *arrow.ListType:
-			out = newListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		case *arrow.FixedSizeListType:
-			out = newFixedSizeListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		default:
-			return nil, fmt.Errorf("unknown list type: %s", field.Field.String())
-		}
-	}
-	return
-}
-
-// RowGroupReader is a reader for getting data only from a single row group of the file
-// rather than having to repeatedly pass the index to functions on the reader.
-type RowGroupReader struct {
-	impl *FileReader
-	idx  int
-}
-
-// ReadTable provides an array.Table consisting only of the columns requested for this rowgroup
-func (rgr RowGroupReader) ReadTable(ctx context.Context, colIndices []int) (arrow.Table, error) {
-	return rgr.impl.ReadRowGroups(ctx, colIndices, []int{rgr.idx})
-}
-
-// Column creates a reader for just the requested column chunk in only this row group.
-func (rgr RowGroupReader) Column(idx int) ColumnChunkReader {
-	return ColumnChunkReader{rgr.impl, idx, rgr.idx}
-}
-
-// ColumnChunkReader is a reader that reads only a single column chunk from a single
-// column in a single row group
-type ColumnChunkReader struct {
-	impl     *FileReader
-	idx      int
-	rowGroup int
-}
-
-func (ccr ColumnChunkReader) Read(ctx context.Context) (*arrow.Chunked, error) {
-	rdr, err := ccr.impl.getColumnReader(ctx, ccr.idx, rowGroupFactory([]int{ccr.rowGroup}))
-	if err != nil {
-		return nil, err
-	}
-	return ccr.impl.ReadColumn([]int{ccr.rowGroup}, rdr)
-}
-
-type columnIterator struct {
-	index     int
-	rdr       *file.Reader
-	schema    *schema.Schema
-	rowGroups []int
-}
-
-func (c *columnIterator) NextChunk() (file.PageReader, error) {
-	if len(c.rowGroups) == 0 {
-		return nil, nil
-	}
-
-	rgr := c.rdr.RowGroup(c.rowGroups[0])
-	c.rowGroups = c.rowGroups[1:]
-	return rgr.GetColumnPageReader(c.index)
-}
-
-func (c *columnIterator) Descr() *schema.Column { return c.schema.Column(c.index) }
-
-// implementation of arrio.Reader for streaming record batches
-// from the parquet data.
-type recordReader struct {
-	numRows      int64
-	batchSize    int64
-	parallel     bool
-	sc           *arrow.Schema
-	fieldReaders []*ColumnReader
-	cur          arrow.Record
-	err          error
-
-	refCount int64
-}
-
-func (r *recordReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-func (r *recordReader) Release() {
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-			r.cur = nil
-		}
-		if r.fieldReaders == nil {
-			return
-		}
-		for _, fr := range r.fieldReaders {
-			fr.Release()
-		}
-		r.fieldReaders = nil
-	}
-}
-
-func (r *recordReader) Schema() *arrow.Schema { return r.sc }
-
-func (r *recordReader) next() bool {
-	cols := make([]arrow.Array, len(r.sc.Fields()))
-	defer releaseArrays(cols)
-	readField := func(idx int, rdr *ColumnReader) error {
-		data, err := rdr.NextBatch(r.batchSize)
-		if err != nil {
-			return err
-		}
-		defer data.Release()
-
-		if data.Len() == 0 {
-			return io.EOF
-		}
-
-		arrdata, err := chunksToSingle(data)
-		if err != nil {
-			return err
-		}
-		defer arrdata.Release()
-
-		cols[idx] = array.MakeFromData(arrdata)
-		return nil
-	}
-
-	if !r.parallel {
-		for idx, rdr := range r.fieldReaders {
-			if err := readField(idx, rdr); err != nil {
-				r.err = err
-				return false
-			}
-		}
-
-		r.cur = array.NewRecord(r.sc, cols, -1)
-		return true
-	}
-
-	var (
-		wg    sync.WaitGroup
-		np    = len(cols)
-		ch    = make(chan int, np)
-		errch = make(chan error, np)
-	)
-
-	ctx, cancel := context.WithCancel(context.Background())
-	defer cancel()
-
-	wg.Add(np)
-	for i := 0; i < np; i++ {
-		go func() {
-			defer wg.Done()
-			for {
-				select {
-				case idx, ok := <-ch:
-					if !ok {
-						return
-					}
-
-					if err := readField(idx, r.fieldReaders[idx]); err != nil {
-						errch <- err
-						cancel()
-						return
-					}
-
-				case <-ctx.Done():
-					return
-				}
-			}
-		}()
-	}
-
-	for idx := range r.fieldReaders {
-		ch <- idx
-	}
-	close(ch)
-	wg.Wait()
-	close(errch)
-
-	var ok bool
-	// check for any errors
-	if r.err, ok = <-errch; ok {
-		// return the first error that was reported and drain
-		// any remaining errors from the channel before returning.
-		for range errch {
-		}
-		return false
-	}
-
-	r.cur = array.NewRecord(r.sc, cols, -1)
-	return true
-}
-
-func (r *recordReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *recordReader) Record() arrow.Record { return r.cur }
-
-func (r *recordReader) Err() error { return r.err }
-
-func (r *recordReader) Read() (arrow.Record, error) {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if !r.next() {
-		return nil, r.err
-	}
-
-	return r.cur, nil
-}
diff --git a/go/parquet/pqarrow/file_reader_test.go b/go/parquet/pqarrow/file_reader_test.go
deleted file mode 100644
index fe5a4547a775c..0000000000000
--- a/go/parquet/pqarrow/file_reader_test.go
+++ /dev/null
@@ -1,375 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"io"
-	"os"
-	"path/filepath"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func getDataDir() string {
-	datadir := os.Getenv("PARQUET_TEST_DATA")
-	if datadir == "" {
-		panic("please point PARQUET_TEST_DATA env var to the test data directory")
-	}
-	return datadir
-}
-
-func TestArrowReaderAdHocReadDecimals(t *testing.T) {
-	tests := []struct {
-		file string
-		typ  *arrow.Decimal128Type
-	}{
-		{"int32_decimal", &arrow.Decimal128Type{Precision: 4, Scale: 2}},
-		{"int64_decimal", &arrow.Decimal128Type{Precision: 10, Scale: 2}},
-		{"fixed_length_decimal", &arrow.Decimal128Type{Precision: 25, Scale: 2}},
-		{"fixed_length_decimal_legacy", &arrow.Decimal128Type{Precision: 13, Scale: 2}},
-		{"byte_array_decimal", &arrow.Decimal128Type{Precision: 4, Scale: 2}},
-	}
-
-	dataDir := getDataDir()
-	for _, tt := range tests {
-		t.Run(tt.file, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			filename := filepath.Join(dataDir, tt.file+".parquet")
-			require.FileExists(t, filename)
-
-			rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-			require.NoError(t, err)
-			defer rdr.Close()
-			arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-			require.NoError(t, err)
-
-			tbl, err := arrowRdr.ReadTable(context.Background())
-			require.NoError(t, err)
-			defer tbl.Release()
-
-			assert.EqualValues(t, 1, tbl.NumCols())
-			assert.Truef(t, arrow.TypeEqual(tbl.Schema().Field(0).Type, tt.typ), "expected: %s\ngot: %s", tbl.Schema().Field(0).Type, tt.typ)
-
-			const expectedLen = 24
-			valCol := tbl.Column(0)
-
-			assert.EqualValues(t, expectedLen, valCol.Len())
-			assert.Len(t, valCol.Data().Chunks(), 1)
-
-			chunk := valCol.Data().Chunk(0)
-			bldr := array.NewDecimal128Builder(mem, tt.typ)
-			defer bldr.Release()
-			for i := 0; i < expectedLen; i++ {
-				bldr.Append(decimal128.FromI64(int64((i + 1) * 100)))
-			}
-
-			expectedArr := bldr.NewDecimal128Array()
-			defer expectedArr.Release()
-
-			assert.Truef(t, array.Equal(expectedArr, chunk), "expected: %s\ngot: %s", expectedArr, chunk)
-		})
-	}
-}
-
-func TestArrowReaderAdHocReadFloat16s(t *testing.T) {
-	tests := []struct {
-		file string
-		len  int
-		vals []float16.Num
-	}{
-		{"float16_nonzeros_and_nans", 8,
-			[]float16.Num{
-				float16.New(1.0),
-				float16.New(-2.0),
-				float16.NaN(),
-				float16.New(0.0),
-				float16.New(-1.0),
-				float16.New(0.0).Negate(),
-				float16.New(2.0),
-			}},
-		{"float16_zeros_and_nans", 3,
-			[]float16.Num{
-				float16.New(0.0),
-				float16.NaN(),
-			}},
-	}
-
-	dataDir := getDataDir()
-	for _, tt := range tests {
-		t.Run(tt.file, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			filename := filepath.Join(dataDir, tt.file+".parquet")
-			require.FileExists(t, filename)
-
-			rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-			require.NoError(t, err)
-			defer rdr.Close()
-
-			arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-			require.NoError(t, err)
-
-			tbl, err := arrowRdr.ReadTable(context.Background())
-			require.NoError(t, err)
-			defer tbl.Release()
-
-			assert.EqualValues(t, 1, tbl.NumCols())
-			assert.Truef(t, arrow.TypeEqual(tbl.Schema().Field(0).Type, &arrow.Float16Type{}), "expected: %s\ngot: %s", tbl.Schema().Field(0).Type, arrow.Float16Type{})
-
-			valCol := tbl.Column(0)
-			assert.EqualValues(t, tt.len, valCol.Len())
-			assert.Len(t, valCol.Data().Chunks(), 1)
-
-			chunk := valCol.Data().Chunk(0).(*array.Float16)
-			assert.True(t, chunk.IsNull(0))
-			for i := 0; i < tt.len-1; i++ {
-				expected := tt.vals[i]
-				actual := chunk.Value(i + 1)
-				if expected.IsNaN() {
-					// NaN representations aren't guaranteed to be exact on a binary level
-					assert.True(t, actual.IsNaN())
-				} else {
-					assert.Equal(t, expected.Uint16(), actual.Uint16())
-				}
-			}
-		})
-	}
-}
-
-func TestArrowReaderCanceledContext(t *testing.T) {
-	dataDir := getDataDir()
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	filename := filepath.Join(dataDir, "int32_decimal.parquet")
-	require.FileExists(t, filename)
-
-	rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-	defer rdr.Close()
-	arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-
-	// create a canceled context
-	ctx, cancel := context.WithCancel(context.Background())
-	cancel()
-
-	_, err = arrowRdr.ReadTable(ctx)
-	require.ErrorIs(t, err, context.Canceled)
-}
-
-func TestRecordReaderParallel(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, tbl.NumRows(), nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))))
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-
-	reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{BatchSize: 3, Parallel: true}, mem)
-	require.NoError(t, err)
-
-	sc, err := reader.Schema()
-	assert.NoError(t, err)
-	assert.Truef(t, tbl.Schema().Equal(sc), "expected: %s\ngot: %s", tbl.Schema(), sc)
-
-	rr, err := reader.GetRecordReader(context.Background(), nil, nil)
-	assert.NoError(t, err)
-	assert.NotNil(t, rr)
-	defer rr.Release()
-
-	records := make([]arrow.Record, 0)
-	for rr.Next() {
-		rec := rr.Record()
-		defer rec.Release()
-
-		assert.Truef(t, sc.Equal(rec.Schema()), "expected: %s\ngot: %s", sc, rec.Schema())
-		rec.Retain()
-		records = append(records, rec)
-	}
-
-	assert.False(t, rr.Next())
-
-	tr := array.NewTableReader(tbl, 3)
-	defer tr.Release()
-
-	assert.True(t, tr.Next())
-	assert.Truef(t, array.RecordEqual(tr.Record(), records[0]), "expected: %s\ngot: %s", tr.Record(), records[0])
-	assert.True(t, tr.Next())
-	assert.Truef(t, array.RecordEqual(tr.Record(), records[1]), "expected: %s\ngot: %s", tr.Record(), records[1])
-}
-
-func TestRecordReaderSerial(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, tbl.NumRows(), nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))))
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-
-	reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{BatchSize: 2}, mem)
-	require.NoError(t, err)
-
-	sc, err := reader.Schema()
-	assert.NoError(t, err)
-	assert.Truef(t, tbl.Schema().Equal(sc), "expected: %s\ngot: %s", tbl.Schema(), sc)
-
-	rr, err := reader.GetRecordReader(context.Background(), nil, nil)
-	assert.NoError(t, err)
-	assert.NotNil(t, rr)
-	defer rr.Release()
-
-	tr := array.NewTableReader(tbl, 2)
-	defer tr.Release()
-
-	rec, err := rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.Same(t, io.EOF, err)
-	assert.Nil(t, rec)
-}
-
-func TestFileReaderWriterMetadata(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	meta := arrow.NewMetadata([]string{"foo", "bar"}, []string{"bar", "baz"})
-	sc := arrow.NewSchema(tbl.Schema().Fields(), &meta)
-
-	var buf bytes.Buffer
-	writer, err := pqarrow.NewFileWriter(sc, &buf, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-	require.NoError(t, writer.WriteTable(tbl, tbl.NumRows()))
-	require.NoError(t, writer.Close())
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-	defer pf.Close()
-
-	kvMeta := pf.MetaData().KeyValueMetadata()
-	assert.Equal(t, []string{"foo", "bar"}, kvMeta.Keys())
-	assert.Equal(t, []string{"bar", "baz"}, kvMeta.Values())
-}
-
-func TestFileReaderColumnChunkBoundsErrors(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "zero", Type: arrow.PrimitiveTypes.Float64},
-		{Name: "g", Type: arrow.StructOf(
-			arrow.Field{Name: "one", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "two", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "three", Type: arrow.PrimitiveTypes.Float64},
-		)},
-	}, nil)
-
-	// generate Parquet data with four columns
-	// that are represented by two logical fields
-	data := `[
-		{
-			"zero": 1,
-			"g": {
-				"one": 1,
-				"two": 1,
-				"three": 1
-			}
-		},
-		{
-			"zero": 2,
-			"g": {
-				"one": 2,
-				"two": 2,
-				"three": 2
-			}
-		}
-	]`
-
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	output := &bytes.Buffer{}
-	writer, err := pqarrow.NewFileWriter(schema, output, parquet.NewWriterProperties(), pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	require.NoError(t, writer.Close())
-
-	fileReader, err := file.NewParquetReader(bytes.NewReader(output.Bytes()))
-	require.NoError(t, err)
-
-	arrowReader, err := pqarrow.NewFileReader(fileReader, pqarrow.ArrowReadProperties{BatchSize: 1024}, memory.DefaultAllocator)
-	require.NoError(t, err)
-
-	// assert that errors are returned for indexes outside the bounds of the logical fields (instead of the physical columns)
-	ctx := pqarrow.NewArrowWriteContext(context.Background(), nil)
-	assert.Greater(t, fileReader.NumRowGroups(), 0)
-	for rowGroupIndex := 0; rowGroupIndex < fileReader.NumRowGroups(); rowGroupIndex += 1 {
-		rowGroupReader := arrowReader.RowGroup(rowGroupIndex)
-		for fieldNum := 0; fieldNum < schema.NumFields(); fieldNum += 1 {
-			_, err := rowGroupReader.Column(fieldNum).Read(ctx)
-			assert.NoError(t, err, "reading field num: %d", fieldNum)
-		}
-
-		_, subZeroErr := rowGroupReader.Column(-1).Read(ctx)
-		assert.Error(t, subZeroErr)
-
-		_, tooHighErr := rowGroupReader.Column(schema.NumFields()).Read(ctx)
-		assert.ErrorContains(t, tooHighErr, fmt.Sprintf("there are only %d columns", schema.NumFields()))
-	}
-}
diff --git a/go/parquet/pqarrow/file_writer.go b/go/parquet/pqarrow/file_writer.go
deleted file mode 100644
index 539c544829e3b..0000000000000
--- a/go/parquet/pqarrow/file_writer.go
+++ /dev/null
@@ -1,340 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// WriteTable is a convenience function to create and write a full array.Table to a parquet file. The schema
-// and columns will be determined by the schema of the table, writing the file out to the provided writer.
-// The chunksize will be utilized in order to determine the size of the row groups.
-func WriteTable(tbl arrow.Table, w io.Writer, chunkSize int64, props *parquet.WriterProperties, arrprops ArrowWriterProperties) error {
-	writer, err := NewFileWriter(tbl.Schema(), w, props, arrprops)
-	if err != nil {
-		return err
-	}
-
-	if err := writer.WriteTable(tbl, chunkSize); err != nil {
-		return err
-	}
-
-	return writer.Close()
-}
-
-// FileWriter is an object for writing Arrow directly to a parquet file.
-type FileWriter struct {
-	wr         *file.Writer
-	schema     *arrow.Schema
-	manifest   *SchemaManifest
-	rgw        file.RowGroupWriter
-	arrowProps ArrowWriterProperties
-	ctx        context.Context
-	colIdx     int
-	closed     bool
-}
-
-// NewFileWriter returns a writer for writing Arrow directly to a parquetfile, rather than
-// the ArrowColumnWriter and WriteArrow functions which allow writing arrow to an existing
-// file.Writer, this will create a new file.Writer based on the schema provided.
-func NewFileWriter(arrschema *arrow.Schema, w io.Writer, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (*FileWriter, error) {
-	if props == nil {
-		props = parquet.NewWriterProperties()
-	}
-
-	pqschema, err := ToParquet(arrschema, props, arrprops)
-	if err != nil {
-		return nil, err
-	}
-
-	meta := make(metadata.KeyValueMetadata, 0)
-	for i := 0; i < arrschema.Metadata().Len(); i++ {
-		meta.Append(arrschema.Metadata().Keys()[i], arrschema.Metadata().Values()[i])
-	}
-
-	if arrprops.storeSchema {
-		serializedSchema := flight.SerializeSchema(arrschema, props.Allocator())
-		meta.Append("ARROW:schema", base64.StdEncoding.EncodeToString(serializedSchema))
-	}
-
-	schemaNode := pqschema.Root()
-	baseWriter := file.NewParquetWriter(w, schemaNode, file.WithWriterProps(props), file.WithWriteMetadata(meta))
-
-	manifest, err := NewSchemaManifest(pqschema, nil, &ArrowReadProperties{})
-	if err != nil {
-		return nil, err
-	}
-
-	return &FileWriter{wr: baseWriter, schema: arrschema, manifest: manifest, arrowProps: arrprops, ctx: NewArrowWriteContext(context.TODO(), &arrprops)}, nil
-}
-
-// NewRowGroup does what it says on the tin, creates a new row group in the underlying file.
-// Equivalent to `AppendRowGroup` on a file.Writer
-func (fw *FileWriter) NewRowGroup() {
-	if fw.rgw != nil {
-		fw.rgw.Close()
-	}
-	fw.rgw = fw.wr.AppendRowGroup()
-	fw.colIdx = 0
-}
-
-// NewBufferedRowGroup starts a new memory Buffered Row Group to allow writing columns / records
-// without immediately flushing them to disk. This allows using WriteBuffered to write records
-// and decide where to break your row group based on the TotalBytesWritten rather than on the max
-// row group len. If using Records, this should be paired with WriteBuffered, while
-// Write will always write a new record as a row group in and of itself.
-func (fw *FileWriter) NewBufferedRowGroup() {
-	if fw.rgw != nil {
-		fw.rgw.Close()
-	}
-	fw.rgw = fw.wr.AppendBufferedRowGroup()
-	fw.colIdx = 0
-}
-
-// RowGroupTotalCompressedBytes returns the total number of bytes after compression
-// that have been written to the current row group so far.
-func (fw *FileWriter) RowGroupTotalCompressedBytes() int64 {
-	if fw.rgw != nil {
-		return fw.rgw.TotalCompressedBytes()
-	}
-	return 0
-}
-
-// RowGroupTotalBytesWritten returns the total number of bytes written and flushed out in
-// the current row group.
-func (fw *FileWriter) RowGroupTotalBytesWritten() int64 {
-	if fw.rgw != nil {
-		return fw.rgw.TotalBytesWritten()
-	}
-	return 0
-}
-
-// RowGroupNumRows returns the number of rows written to the current row group.
-// Returns an error if they are unequal between columns that have been written so far.
-func (fw *FileWriter) RowGroupNumRows() (int, error) {
-	if fw.rgw != nil {
-		return fw.rgw.NumRows()
-	}
-	return 0, nil
-}
-
-// NumRows returns the total number of rows that have been written so far.
-func (fw *FileWriter) NumRows() int {
-	if fw.wr != nil {
-		return fw.wr.NumRows()
-	}
-	return 0
-}
-
-// WriteBuffered will either append to an existing row group or create a new one
-// based on the record length and max row group length.
-//
-// Additionally, it allows to manually break your row group by
-// checking RowGroupTotalBytesWritten and calling NewBufferedRowGroup,
-// while Write will always create at least 1 row group for the record.
-//
-// Performance-wise WriteBuffered might be more favorable than Write if you're dealing with:
-// * a loose memory environment (meaning you have a lot of memory to utilize)
-// * records that have only a small (~<1K?) amount of rows
-//
-// More memory is utilized compared to Write as the whole row group data is kept in memory before it's written
-// since Parquet files must have an entire column written before writing the next column.
-func (fw *FileWriter) WriteBuffered(rec arrow.Record) error {
-	if !rec.Schema().Equal(fw.schema) {
-		return fmt.Errorf("record schema does not match writer's. \nrecord: %s\nwriter: %s", rec.Schema(), fw.schema)
-	}
-
-	var (
-		recList []arrow.Record
-		maxRows = fw.wr.Properties().MaxRowGroupLength()
-		curRows int
-		err     error
-	)
-	if fw.rgw != nil {
-		if curRows, err = fw.rgw.NumRows(); err != nil {
-			return err
-		}
-	} else {
-		fw.NewBufferedRowGroup()
-	}
-
-	if int64(curRows)+rec.NumRows() <= maxRows {
-		recList = []arrow.Record{rec}
-	} else {
-		recList = []arrow.Record{rec.NewSlice(0, maxRows-int64(curRows))}
-		defer recList[0].Release()
-		for offset := maxRows - int64(curRows); offset < rec.NumRows(); offset += maxRows {
-			s := rec.NewSlice(offset, offset+utils.Min(maxRows, rec.NumRows()-offset))
-			defer s.Release()
-			recList = append(recList, s)
-		}
-	}
-
-	for idx, r := range recList {
-		if idx > 0 {
-			fw.NewBufferedRowGroup()
-		}
-		for i := 0; i < int(r.NumCols()); i++ {
-			if err := fw.WriteColumnData(r.Column(i)); err != nil {
-				fw.Close()
-				return err
-			}
-		}
-	}
-	fw.colIdx = 0
-	return nil
-}
-
-// Write an arrow Record Batch to the file, respecting the MaxRowGroupLength in the writer
-// properties to determine whether the record is broken up into more than one row group.
-// At the very least a single row group is created per record,
-// so calling Write always results in a new row group added.
-//
-// Performance-wise Write might be more favorable than WriteBuffered if you're dealing with:
-// * a highly-restricted memory environment
-// * very large records with lots of rows (potentially close to the max row group length)
-func (fw *FileWriter) Write(rec arrow.Record) error {
-	if !rec.Schema().Equal(fw.schema) {
-		return fmt.Errorf("record schema does not match writer's. \nrecord: %s\nwriter: %s", rec.Schema(), fw.schema)
-	}
-
-	var recList []arrow.Record
-	rowgroupLen := fw.wr.Properties().MaxRowGroupLength()
-	if rec.NumRows() > rowgroupLen {
-		recList = make([]arrow.Record, 0)
-		for offset := int64(0); offset < rec.NumRows(); offset += rowgroupLen {
-			s := rec.NewSlice(offset, offset+utils.Min(rowgroupLen, rec.NumRows()-offset))
-			defer s.Release()
-			recList = append(recList, s)
-		}
-	} else {
-		recList = []arrow.Record{rec}
-	}
-
-	for _, r := range recList {
-		fw.NewRowGroup()
-		for i := 0; i < int(r.NumCols()); i++ {
-			if err := fw.WriteColumnData(r.Column(i)); err != nil {
-				fw.Close()
-				return err
-			}
-		}
-	}
-	fw.colIdx = 0
-	return fw.rgw.Close()
-}
-
-// WriteTable writes an arrow table to the underlying file using chunkSize to determine
-// the size to break at for making row groups. Writing a table will always create a new
-// row group for each chunk of chunkSize rows in the table. Calling this with 0 rows will
-// still write a 0 length Row Group to the file.
-func (fw *FileWriter) WriteTable(tbl arrow.Table, chunkSize int64) error {
-	if chunkSize <= 0 && tbl.NumRows() > 0 {
-		return xerrors.New("chunk size per row group must be greater than 0")
-	} else if !tbl.Schema().Equal(fw.schema) {
-		return fmt.Errorf("table schema does not match writer's. \nTable: %s\n writer: %s", tbl.Schema(), fw.schema)
-	} else if chunkSize > fw.wr.Properties().MaxRowGroupLength() {
-		chunkSize = fw.wr.Properties().MaxRowGroupLength()
-	}
-
-	writeRowGroup := func(offset, size int64) error {
-		fw.NewRowGroup()
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			if err := fw.WriteColumnChunked(tbl.Column(i).Data(), offset, size); err != nil {
-				return err
-			}
-		}
-		return nil
-	}
-
-	if tbl.NumRows() == 0 {
-		if err := writeRowGroup(0, 0); err != nil {
-			fw.Close()
-			return err
-		}
-		return nil
-	}
-
-	for offset := int64(0); offset < tbl.NumRows(); offset += chunkSize {
-		if err := writeRowGroup(offset, utils.Min(chunkSize, tbl.NumRows()-offset)); err != nil {
-			fw.Close()
-			return err
-		}
-	}
-	return nil
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (fw *FileWriter) AppendKeyValueMetadata(key string, value string) error {
-	return fw.wr.AppendKeyValueMetadata(key, value)
-}
-
-// Close flushes out the data and closes the file. It can be called multiple times,
-// subsequent calls after the first will have no effect.
-func (fw *FileWriter) Close() error {
-	if !fw.closed {
-		fw.closed = true
-		if fw.rgw != nil {
-			if err := fw.rgw.Close(); err != nil {
-				return err
-			}
-		}
-
-		writeCtx := arrowCtxFromContext(fw.ctx)
-		if writeCtx.dataBuffer != nil {
-			writeCtx.dataBuffer.Release()
-			writeCtx.dataBuffer = nil
-		}
-
-		return fw.wr.Close()
-	}
-	return nil
-}
-
-// WriteColumnChunked will write the data provided to the underlying file, using the provided
-// offset and size to allow writing subsets of data from the chunked column. It uses the current
-// column in the underlying row group writer as the starting point, allowing progressive
-// building of writing columns to a file via arrow data without needing to already have
-// a record or table.
-func (fw *FileWriter) WriteColumnChunked(data *arrow.Chunked, offset, size int64) error {
-	acw, err := newArrowColumnWriter(data, offset, size, fw.manifest, fw.rgw, fw.colIdx)
-	if err != nil {
-		return err
-	}
-	fw.colIdx += acw.leafCount
-	return acw.Write(fw.ctx)
-}
-
-// WriteColumnData writes the entire array to the file as the next columns. Like WriteColumnChunked
-// it is based on the current column of the row group writer allowing progressive building
-// of the file by columns without needing a full record or table to write.
-func (fw *FileWriter) WriteColumnData(data arrow.Array) error {
-	chunked := arrow.NewChunked(data.DataType(), []arrow.Array{data})
-	defer chunked.Release()
-	return fw.WriteColumnChunked(chunked, 0, int64(data.Len()))
-}
diff --git a/go/parquet/pqarrow/file_writer_test.go b/go/parquet/pqarrow/file_writer_test.go
deleted file mode 100644
index 5b807389a3eb1..0000000000000
--- a/go/parquet/pqarrow/file_writer_test.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFileWriterRowGroupNumRows(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	output := &bytes.Buffer{}
-	writerProps := parquet.NewWriterProperties(parquet.WithMaxRowGroupLength(100))
-	writer, err := pqarrow.NewFileWriter(schema, output, writerProps, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	numRows, err := writer.RowGroupNumRows()
-	require.NoError(t, err)
-	assert.Equal(t, 4, numRows)
-
-	// Make sure that row group stats are up-to-date immediately after writing
-	bytesWritten := writer.RowGroupTotalBytesWritten()
-	require.NoError(t, writer.Close())
-	require.Equal(t, bytesWritten, writer.RowGroupTotalBytesWritten())
-}
-
-func TestFileWriterNumRows(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	maxRowGroupLength := 2
-
-	output := &bytes.Buffer{}
-	writerProps := parquet.NewWriterProperties(parquet.WithMaxRowGroupLength(int64(maxRowGroupLength)))
-	writer, err := pqarrow.NewFileWriter(schema, output, writerProps, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	rowGroupNumRows, err := writer.RowGroupNumRows()
-	require.NoError(t, err)
-	assert.Equal(t, maxRowGroupLength, rowGroupNumRows)
-
-	require.NoError(t, writer.Close())
-	assert.Equal(t, 4, writer.NumRows())
-}
-
-func TestFileWriterBuffered(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	record, _, err := array.RecordFromJSON(alloc, schema, strings.NewReader(data))
-	require.NoError(t, err)
-	defer record.Release()
-
-	output := &bytes.Buffer{}
-	writer, err := pqarrow.NewFileWriter(
-		schema,
-		output,
-		parquet.NewWriterProperties(
-			parquet.WithAllocator(alloc),
-			// Ensure enough space so we can close the writer with rows still buffered
-			parquet.WithMaxRowGroupLength(math.MaxInt64),
-		),
-		pqarrow.NewArrowWriterProperties(
-			pqarrow.WithAllocator(alloc),
-		),
-	)
-	require.NoError(t, err)
-
-	require.NoError(t, writer.WriteBuffered(record))
-
-	require.NoError(t, writer.Close())
-	assert.Equal(t, 4, writer.NumRows())
-}
diff --git a/go/parquet/pqarrow/helpers.go b/go/parquet/pqarrow/helpers.go
deleted file mode 100644
index 237de4366c03e..0000000000000
--- a/go/parquet/pqarrow/helpers.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func releaseArrays(arrays []arrow.Array) {
-	for _, a := range arrays {
-		if a != nil {
-			a.Release()
-		}
-	}
-}
-
-func releaseArrayData(data []arrow.ArrayData) {
-	for _, d := range data {
-		if d != nil {
-			d.Release()
-		}
-	}
-}
-
-func releaseColumns(columns []arrow.Column) {
-	for _, col := range columns {
-		if col.Data() != nil { // data can be nil due to the way columns are constructed in ReadRowGroups
-			col.Release()
-		}
-	}
-}
diff --git a/go/parquet/pqarrow/path_builder.go b/go/parquet/pqarrow/path_builder.go
deleted file mode 100644
index ff439d59a6e75..0000000000000
--- a/go/parquet/pqarrow/path_builder.go
+++ /dev/null
@@ -1,751 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"fmt"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"golang.org/x/xerrors"
-)
-
-type iterResult int8
-
-const (
-	iterDone iterResult = -1
-	iterNext iterResult = 1
-)
-
-type elemRange struct {
-	start int64
-	end   int64
-}
-
-func (e elemRange) empty() bool { return e.start == e.end }
-func (e elemRange) size() int64 { return e.end - e.start }
-
-type rangeSelector interface {
-	GetRange(idx int64) elemRange
-}
-
-type varRangeSelector struct {
-	offsets []int32
-}
-
-func (v varRangeSelector) GetRange(idx int64) elemRange {
-	return elemRange{int64(v.offsets[idx]), int64(v.offsets[idx+1])}
-}
-
-type fixedSizeRangeSelector struct {
-	listSize int32
-}
-
-func (f fixedSizeRangeSelector) GetRange(idx int64) elemRange {
-	start := idx * int64(f.listSize)
-	return elemRange{start, start + int64(f.listSize)}
-}
-
-type pathNode interface {
-	clone() pathNode
-}
-
-type allPresentTerminalNode struct {
-	defLevel int16
-}
-
-func (n *allPresentTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *allPresentTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	return ctx.AppendDefLevels(int(rng.size()), n.defLevel)
-}
-
-type allNullsTerminalNode struct {
-	defLevel int16
-	repLevel int16
-}
-
-func (n *allNullsTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *allNullsTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	fillRepLevels(int(rng.size()), n.repLevel, ctx)
-	return ctx.AppendDefLevels(int(rng.size()), n.defLevel)
-}
-
-type nullableTerminalNode struct {
-	bitmap            []byte
-	elemOffset        int64
-	defLevelIfPresent int16
-	defLevelIfNull    int16
-}
-
-func (n *nullableTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *nullableTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	elems := rng.size()
-	ctx.ReserveDefLevels(int(elems))
-
-	var (
-		present = (*(*[2]byte)(unsafe.Pointer(&n.defLevelIfPresent)))[:]
-		null    = (*(*[2]byte)(unsafe.Pointer(&n.defLevelIfNull)))[:]
-	)
-	rdr := bitutils.NewBitRunReader(n.bitmap, n.elemOffset+rng.start, elems)
-	for {
-		run := rdr.NextRun()
-		if run.Len == 0 {
-			break
-		}
-		if run.Set {
-			ctx.defLevels.UnsafeWriteCopy(int(run.Len), present)
-		} else {
-			ctx.defLevels.UnsafeWriteCopy(int(run.Len), null)
-		}
-	}
-	return iterDone
-}
-
-type listNode struct {
-	selector        rangeSelector
-	prevRepLevel    int16
-	repLevel        int16
-	defLevelIfEmpty int16
-	isLast          bool
-}
-
-func (n *listNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *listNode) run(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	if rng.empty() {
-		return iterDone
-	}
-
-	// find the first non-empty list (skipping a run of empties)
-	start := rng.start
-	for {
-		// retrieve the range of elements that this list contains
-		*childRng = n.selector.GetRange(rng.start)
-		if !childRng.empty() {
-			break
-		}
-		rng.start++
-		if rng.empty() {
-			break
-		}
-	}
-
-	// loops post-condition:
-	// * rng is either empty (we're done processing this node)
-	//     or start corresponds to a non-empty list
-	// * if rng is non-empty, childRng contains the bounds of the non-empty list
-
-	// handle any skipped over empty lists
-	emptyElems := rng.start - start
-	if emptyElems > 0 {
-		fillRepLevels(int(emptyElems), n.prevRepLevel, ctx)
-		ctx.AppendDefLevels(int(emptyElems), n.defLevelIfEmpty)
-	}
-
-	// start of a new list, note that for nested lists adding the element
-	// here effectively suppresses this code until we either encounter null
-	// elements or empty lists between here and the innermost list (since we
-	// make the rep levels repetition and definition levels unequal).
-	// similarly when we are backtracking up the stack, the repetition
-	// and definition levels are again equal so if we encounter an intermediate
-	// list, with more elements, this will detect it as a new list
-	if ctx.equalRepDeflevlsLen() && !rng.empty() {
-		ctx.AppendRepLevel(n.prevRepLevel)
-	}
-
-	if rng.empty() {
-		return iterDone
-	}
-
-	rng.start++
-	if n.isLast {
-		// if this is the last repeated node, we can try
-		// to extend the child range as wide as possible,
-		// before continuing to the next node
-		return n.fillForLast(rng, childRng, ctx)
-	}
-
-	return iterNext
-}
-
-func (n *listNode) fillForLast(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	fillRepLevels(int(childRng.size()), n.repLevel, ctx)
-	// once we've reached this point the following preconditions should hold:
-	// 1. there are no more repeated path nodes to deal with
-	// 2. all elements in |range| represent contiguous elements in the child
-	//    array (null values would have shortened the range to ensure all
-	//    remaining list elements are present, though they may be empty)
-	// 3. no element of range spans a parent list (intermediate list nodes
-	//    only handle one list entry at a time)
-	//
-	// given these preconditions, it should be safe to fill runs on non-empty lists
-	// here and expand the range in the child node accordingly
-	for !rng.empty() {
-		sizeCheck := n.selector.GetRange(rng.start)
-		if sizeCheck.empty() {
-			// the empty range will need to be handled after we pass down the accumulated
-			// range because it affects def level placement and we need to get the children
-			// def levels entered first
-			break
-		}
-
-		// this is the start of a new list. we can be sure that it only applies to the
-		// previous list (and doesn't jump to the start of any list further up in nesting
-		// due to the constraints mentioned earlier)
-		ctx.AppendRepLevel(n.prevRepLevel)
-		ctx.AppendRepLevels(int(sizeCheck.size())-1, n.repLevel)
-		childRng.end = sizeCheck.end
-		rng.start++
-	}
-
-	// do book-keeping to track the elements of the arrays that are actually visited
-	// beyond this point. this is necessary to identify "gaps" in values that should
-	// not be processed (written out to parquet)
-	ctx.recordPostListVisit(*childRng)
-	return iterNext
-}
-
-type nullableNode struct {
-	bitmap         []byte
-	entryOffset    int64
-	repLevelIfNull int16
-	defLevelIfNull int16
-
-	validBitsReader bitutils.BitRunReader
-	newRange        bool
-}
-
-func (n *nullableNode) clone() pathNode {
-	var ret nullableNode = *n
-	return &ret
-}
-
-func (n *nullableNode) run(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	if n.newRange {
-		n.validBitsReader = bitutils.NewBitRunReader(n.bitmap, n.entryOffset+rng.start, rng.size())
-	}
-	childRng.start = rng.start
-	run := n.validBitsReader.NextRun()
-	if !run.Set {
-		rng.start += run.Len
-		fillRepLevels(int(run.Len), n.repLevelIfNull, ctx)
-		ctx.AppendDefLevels(int(run.Len), n.defLevelIfNull)
-		run = n.validBitsReader.NextRun()
-	}
-
-	if rng.empty() {
-		n.newRange = true
-		return iterDone
-	}
-	childRng.start = rng.start
-	childRng.end = childRng.start
-	childRng.end += run.Len
-	rng.start += childRng.size()
-	n.newRange = false
-	return iterNext
-}
-
-type pathInfo struct {
-	path           []pathNode
-	primitiveArr   arrow.Array
-	maxDefLevel    int16
-	maxRepLevel    int16
-	leafIsNullable bool
-}
-
-func (p pathInfo) clone() pathInfo {
-	ret := p
-	ret.path = make([]pathNode, len(p.path))
-	for idx, n := range p.path {
-		ret.path[idx] = n.clone()
-	}
-	return ret
-}
-
-type pathBuilder struct {
-	info             pathInfo
-	paths            []pathInfo
-	nullableInParent bool
-
-	refCount *atomic.Int64
-}
-
-func (p *pathBuilder) Retain() {
-	p.refCount.Add(1)
-}
-
-func (p *pathBuilder) Release() {
-	if p.refCount.Add(-1) == 0 {
-		for idx := range p.paths {
-			p.paths[idx].primitiveArr.Release()
-			p.paths[idx].primitiveArr = nil
-		}
-	}
-}
-
-// calling NullN on the arr directly will compute the nulls
-// if we have "UnknownNullCount", calling NullN on the data
-// object directly will just return the value the data has.
-// thus we might bet array.UnknownNullCount as the result here.
-func lazyNullCount(arr arrow.Array) int64 {
-	return int64(arr.Data().NullN())
-}
-
-func lazyNoNulls(arr arrow.Array) bool {
-	nulls := lazyNullCount(arr)
-	return nulls == 0 || (nulls == array.UnknownNullCount && arr.NullBitmapBytes() == nil)
-}
-
-type fixupVisitor struct {
-	maxRepLevel    int
-	repLevelIfNull int16
-}
-
-func (f *fixupVisitor) visit(n pathNode) {
-	switch n := n.(type) {
-	case *listNode:
-		if n.repLevel == int16(f.maxRepLevel) {
-			n.isLast = true
-			f.repLevelIfNull = -1
-		} else {
-			f.repLevelIfNull = n.repLevel
-		}
-	case *nullableTerminalNode:
-	case *allPresentTerminalNode:
-	case *allNullsTerminalNode:
-		if f.repLevelIfNull != -1 {
-			n.repLevel = f.repLevelIfNull
-		}
-	case *nullableNode:
-		if f.repLevelIfNull != -1 {
-			n.repLevelIfNull = f.repLevelIfNull
-		}
-	}
-}
-
-func fixup(info pathInfo) pathInfo {
-	// we only need to fixup the path if there were repeated elems
-	if info.maxRepLevel == 0 {
-		return info
-	}
-
-	visitor := fixupVisitor{maxRepLevel: int(info.maxRepLevel)}
-	if visitor.maxRepLevel > 0 {
-		visitor.repLevelIfNull = 0
-	} else {
-		visitor.repLevelIfNull = -1
-	}
-
-	for _, p := range info.path {
-		visitor.visit(p)
-	}
-	return info
-}
-
-func (p *pathBuilder) Visit(arr arrow.Array) error {
-	switch arr.DataType().ID() {
-	case arrow.LIST, arrow.MAP:
-		p.maybeAddNullable(arr)
-		// increment necessary due to empty lists
-		p.info.maxDefLevel++
-		p.info.maxRepLevel++
-		larr, ok := arr.(*array.List)
-		if !ok {
-			larr = arr.(*array.Map).List
-		}
-
-		p.info.path = append(p.info.path, &listNode{
-			selector:        varRangeSelector{larr.Offsets()[larr.Data().Offset():]},
-			prevRepLevel:    p.info.maxRepLevel - 1,
-			repLevel:        p.info.maxRepLevel,
-			defLevelIfEmpty: p.info.maxDefLevel - 1,
-		})
-		p.nullableInParent = ok
-		return p.Visit(larr.ListValues())
-	case arrow.FIXED_SIZE_LIST:
-		p.maybeAddNullable(arr)
-		larr := arr.(*array.FixedSizeList)
-		listSize := larr.DataType().(*arrow.FixedSizeListType).Len()
-		// technically we could encode fixed sized lists with two level encodings
-		// but we always use 3 level encoding, so we increment def levels as well
-		p.info.maxDefLevel++
-		p.info.maxRepLevel++
-		p.info.path = append(p.info.path, &listNode{
-			selector:        fixedSizeRangeSelector{listSize},
-			prevRepLevel:    p.info.maxRepLevel - 1,
-			repLevel:        p.info.maxRepLevel,
-			defLevelIfEmpty: p.info.maxDefLevel,
-		})
-		// if arr.data.offset > 0, slice?
-		return p.Visit(larr.ListValues())
-	case arrow.DICTIONARY:
-		// only currently handle dictionaryarray where the dictionary
-		// is a primitive type
-		dictArr := arr.(*array.Dictionary)
-		valType := dictArr.DataType().(*arrow.DictionaryType).ValueType
-		if _, ok := valType.(arrow.NestedType); ok {
-			return fmt.Errorf("%w: writing DictionaryArray with nested dictionary type not yet supported",
-				arrow.ErrNotImplemented)
-		}
-		if dictArr.Dictionary().NullN() > 0 {
-			return fmt.Errorf("%w: writing DictionaryArray with null encoded in dictionary not yet supported",
-				arrow.ErrNotImplemented)
-		}
-		p.addTerminalInfo(arr)
-		return nil
-	case arrow.STRUCT:
-		p.maybeAddNullable(arr)
-		infoBackup := p.info
-		dt := arr.DataType().(*arrow.StructType)
-		for idx, f := range dt.Fields() {
-			p.nullableInParent = f.Nullable
-			if err := p.Visit(arr.(*array.Struct).Field(idx)); err != nil {
-				return err
-			}
-			p.info = infoBackup
-		}
-		return nil
-	case arrow.EXTENSION:
-		return p.Visit(arr.(array.ExtensionArray).Storage())
-	case arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		return xerrors.New("union types aren't supported in parquet")
-	default:
-		p.addTerminalInfo(arr)
-		return nil
-	}
-}
-
-func (p *pathBuilder) addTerminalInfo(arr arrow.Array) {
-	p.info.leafIsNullable = p.nullableInParent
-	if p.nullableInParent {
-		p.info.maxDefLevel++
-	}
-
-	// we don't use null_count because if the null_count isn't known
-	// and the array does in fact contain nulls, we will end up traversing
-	// the null bitmap twice.
-	if lazyNoNulls(arr) {
-		p.info.path = append(p.info.path, &allPresentTerminalNode{p.info.maxDefLevel})
-		p.info.leafIsNullable = false
-	} else if lazyNullCount(arr) == int64(arr.Len()) {
-		p.info.path = append(p.info.path, &allNullsTerminalNode{p.info.maxDefLevel - 1, -1})
-	} else {
-		p.info.path = append(p.info.path, &nullableTerminalNode{bitmap: arr.NullBitmapBytes(), elemOffset: int64(arr.Data().Offset()), defLevelIfPresent: p.info.maxDefLevel, defLevelIfNull: p.info.maxDefLevel - 1})
-	}
-	arr.Retain()
-	p.info.primitiveArr = arr
-	p.paths = append(p.paths, fixup(p.info.clone()))
-}
-
-func (p *pathBuilder) maybeAddNullable(arr arrow.Array) {
-	if !p.nullableInParent {
-		return
-	}
-
-	p.info.maxDefLevel++
-	if lazyNoNulls(arr) {
-		return
-	}
-
-	if lazyNullCount(arr) == int64(arr.Len()) {
-		p.info.path = append(p.info.path, &allNullsTerminalNode{p.info.maxDefLevel - 1, -1})
-		return
-	}
-
-	p.info.path = append(p.info.path, &nullableNode{
-		bitmap: arr.NullBitmapBytes(), entryOffset: int64(arr.Data().Offset()),
-		defLevelIfNull: p.info.maxDefLevel - 1, repLevelIfNull: -1,
-		newRange: true,
-	})
-}
-
-type multipathLevelBuilder struct {
-	rootRange elemRange
-	data      arrow.ArrayData
-	builder   pathBuilder
-
-	refCount *atomic.Int64
-}
-
-func (m *multipathLevelBuilder) Retain() {
-	m.refCount.Add(1)
-}
-
-func (m *multipathLevelBuilder) Release() {
-	if m.refCount.Add(-1) == 0 {
-		m.data.Release()
-		m.data = nil
-		m.builder.Release()
-		m.builder = pathBuilder{}
-	}
-}
-
-func newMultipathLevelBuilder(arr arrow.Array, fieldNullable bool) (*multipathLevelBuilder, error) {
-	ret := &multipathLevelBuilder{
-		refCount:  utils.NewRefCount(1),
-		rootRange: elemRange{int64(0), int64(arr.Data().Len())},
-		data:      arr.Data(),
-		builder:   pathBuilder{nullableInParent: fieldNullable, paths: make([]pathInfo, 0), refCount: utils.NewRefCount(1)},
-	}
-	if err := ret.builder.Visit(arr); err != nil {
-		return nil, err
-	}
-	arr.Data().Retain()
-	return ret, nil
-}
-
-func (m *multipathLevelBuilder) leafCount() int {
-	return len(m.builder.paths)
-}
-
-func (m *multipathLevelBuilder) write(leafIdx int, ctx *arrowWriteContext) (multipathLevelResult, error) {
-	return writePath(m.rootRange, &m.builder.paths[leafIdx], ctx)
-}
-
-func (m *multipathLevelBuilder) writeAll(ctx *arrowWriteContext) (res []multipathLevelResult, err error) {
-	res = make([]multipathLevelResult, m.leafCount())
-	for idx := range res {
-		res[idx], err = m.write(idx, ctx)
-		if err != nil {
-			break
-		}
-	}
-	return
-}
-
-type multipathLevelResult struct {
-	leafArr         arrow.Array
-	defLevels       []int16
-	defLevelsBuffer encoding.Buffer
-	repLevels       []int16
-	repLevelsBuffer encoding.Buffer
-	// contains the element ranges of the required visiting on the descendants of the
-	// final list ancestor for any leaf node.
-	//
-	// the algorithm will attempt to consolidate the visited ranges into the smallest number
-	//
-	// this data is necessary to pass along because after producing the def-rep levels for each
-	// leaf array, it is impossible to determine which values have to be sent to parquet when a
-	// null list value in a nullable listarray is non-empty
-	//
-	// this allows for the parquet writing to determine which values ultimately need to be written
-	postListVisitedElems []elemRange
-
-	leafIsNullable bool
-}
-
-func (m *multipathLevelResult) Release() {
-	m.defLevels = nil
-	if m.defLevelsBuffer != nil {
-		m.defLevelsBuffer.Release()
-	}
-	if m.repLevels != nil {
-		m.repLevels = nil
-		m.repLevelsBuffer.Release()
-	}
-}
-
-type pathWriteCtx struct {
-	mem          memory.Allocator
-	defLevels    *int16BufferBuilder
-	repLevels    *int16BufferBuilder
-	visitedElems []elemRange
-}
-
-func (p *pathWriteCtx) ReserveDefLevels(elems int) iterResult {
-	p.defLevels.Reserve(elems)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendDefLevel(lvl int16) iterResult {
-	p.defLevels.Append(lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendDefLevels(count int, defLevel int16) iterResult {
-	p.defLevels.AppendCopies(count, defLevel)
-	return iterDone
-}
-
-func (p *pathWriteCtx) UnsafeAppendDefLevel(v int16) iterResult {
-	p.defLevels.UnsafeAppend(v)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendRepLevel(lvl int16) iterResult {
-	p.repLevels.Append(lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendRepLevels(count int, lvl int16) iterResult {
-	p.repLevels.AppendCopies(count, lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) equalRepDeflevlsLen() bool { return p.defLevels.Len() == p.repLevels.Len() }
-
-func (p *pathWriteCtx) recordPostListVisit(rng elemRange) {
-	if len(p.visitedElems) > 0 && rng.start == p.visitedElems[len(p.visitedElems)-1].end {
-		p.visitedElems[len(p.visitedElems)-1].end = rng.end
-		return
-	}
-	p.visitedElems = append(p.visitedElems, rng)
-}
-
-type int16BufferBuilder struct {
-	*encoding.PooledBufferWriter
-}
-
-func (b *int16BufferBuilder) Values() []int16 {
-	return arrow.Int16Traits.CastFromBytes(b.PooledBufferWriter.Bytes())
-}
-
-func (b *int16BufferBuilder) Value(i int) int16 {
-	return b.Values()[i]
-}
-
-func (b *int16BufferBuilder) Reserve(n int) {
-	b.PooledBufferWriter.Reserve(n * arrow.Int16SizeBytes)
-}
-
-func (b *int16BufferBuilder) Len() int { return b.PooledBufferWriter.Len() / arrow.Int16SizeBytes }
-
-func (b *int16BufferBuilder) AppendCopies(count int, val int16) {
-	b.Reserve(count)
-	b.UnsafeWriteCopy(count, (*(*[2]byte)(unsafe.Pointer(&val)))[:])
-}
-
-func (b *int16BufferBuilder) UnsafeAppend(v int16) {
-	b.PooledBufferWriter.UnsafeWrite((*(*[2]byte)(unsafe.Pointer(&v)))[:])
-}
-
-func (b *int16BufferBuilder) Append(v int16) {
-	b.PooledBufferWriter.Reserve(arrow.Int16SizeBytes)
-	b.PooledBufferWriter.Write((*(*[2]byte)(unsafe.Pointer(&v)))[:])
-}
-
-func fillRepLevels(count int, repLvl int16, ctx *pathWriteCtx) {
-	if repLvl == -1 {
-		return
-	}
-
-	fillCount := count
-	// this condition occurs (rep and def levels equals), in one of a few cases:
-	// 1. before any list is encountered
-	// 2. after rep-level has been filled in due to null/empty values above
-	// 3. after finishing a list
-	if !ctx.equalRepDeflevlsLen() {
-		fillCount--
-	}
-	ctx.AppendRepLevels(fillCount, repLvl)
-}
-
-func writePath(rootRange elemRange, info *pathInfo, arrCtx *arrowWriteContext) (multipathLevelResult, error) {
-	stack := make([]elemRange, len(info.path))
-	buildResult := multipathLevelResult{
-		leafArr:        info.primitiveArr,
-		leafIsNullable: info.leafIsNullable,
-	}
-
-	if info.maxDefLevel == 0 {
-		// this case only occurs when there are no nullable or repeated columns in the path from the root to the leaf
-		leafLen := buildResult.leafArr.Len()
-		buildResult.postListVisitedElems = []elemRange{{0, int64(leafLen)}}
-		return buildResult, nil
-	}
-
-	stack[0] = rootRange
-	if arrCtx.defLevelsBuffer != nil {
-		arrCtx.defLevelsBuffer.Release()
-		arrCtx.defLevelsBuffer = nil
-	}
-	if arrCtx.repLevelsBuffer != nil {
-		arrCtx.repLevelsBuffer.Release()
-		arrCtx.repLevelsBuffer = nil
-	}
-
-	ctx := pathWriteCtx{arrCtx.props.mem,
-		&int16BufferBuilder{encoding.NewPooledBufferWriter(0)},
-		&int16BufferBuilder{encoding.NewPooledBufferWriter(0)},
-		make([]elemRange, 0)}
-
-	ctx.defLevels.Reserve(int(rootRange.size()))
-	if info.maxRepLevel > 0 {
-		ctx.repLevels.Reserve(int(rootRange.size()))
-	}
-
-	stackBase := 0
-	stackPos := stackBase
-	for stackPos >= stackBase {
-		var res iterResult
-		switch n := info.path[stackPos].(type) {
-		case *nullableNode:
-			res = n.run(&stack[stackPos], &stack[stackPos+1], &ctx)
-		case *listNode:
-			res = n.run(&stack[stackPos], &stack[stackPos+1], &ctx)
-		case *nullableTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		case *allPresentTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		case *allNullsTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		}
-		stackPos += int(res)
-	}
-
-	if ctx.repLevels.Len() > 0 {
-		// this case only occurs when there was a repeated element somewhere
-		buildResult.repLevels = ctx.repLevels.Values()
-		buildResult.repLevelsBuffer = ctx.repLevels.Finish()
-
-		buildResult.postListVisitedElems, ctx.visitedElems = ctx.visitedElems, buildResult.postListVisitedElems
-		// if it is possible when processing lists that all lists were empty. in this
-		// case, no elements would have been added to the postListVisitedElements. by
-		// adding an empty element, we avoid special casing later
-		if len(buildResult.postListVisitedElems) == 0 {
-			buildResult.postListVisitedElems = append(buildResult.postListVisitedElems, elemRange{0, 0})
-		}
-	} else {
-		buildResult.postListVisitedElems = append(buildResult.postListVisitedElems, elemRange{0, int64(buildResult.leafArr.Len())})
-		buildResult.repLevels = nil
-	}
-
-	buildResult.defLevels = ctx.defLevels.Values()
-	buildResult.defLevelsBuffer = ctx.defLevels.Finish()
-	return buildResult, nil
-}
diff --git a/go/parquet/pqarrow/path_builder_test.go b/go/parquet/pqarrow/path_builder_test.go
deleted file mode 100644
index 364f836d0bbca..0000000000000
--- a/go/parquet/pqarrow/path_builder_test.go
+++ /dev/null
@@ -1,676 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestNonNullableSingleList(t *testing.T) {
-	// translates to the following parquet schema:
-	// required group bag {
-	//   repeated group [unseen] (List) {
-	//		 required int64 Entires;
-	//	 }
-	// }
-	// So:
-	// def level 0: a null entry
-	// def level 1: a non-null entry
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	vb.Append(1)
-
-	bldr.Append(true)
-	vb.Append(2)
-	vb.Append(3)
-
-	bldr.Append(true)
-	vb.Append(4)
-	vb.Append(5)
-	vb.Append(6)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, false)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{2, 2, 2, 2, 2, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 0, 1, 1}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 6, result.postListVisitedElems[0].end)
-}
-
-// next group of tests translates to the following parquet schema:
-// optional group bag {
-//   repeated group [unseen] (List) {
-//		 optional int64 Entires;
-//	 }
-// }
-// So:
-// def level 0: a null list
-// def level 1: an empty list
-// def level 2: a null entry
-// def level 3: a non-null entry
-
-func TestNullableSingleListAllNulls(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-}
-
-func TestNullableSingleListAllEmpty(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{1, 1, 1, 1}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-}
-
-func TestNullableSingleListAllNullEntries(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{2, 2, 2, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 4, result.postListVisitedElems[0].end)
-}
-
-func TestNullableSingleListAllPresentEntries(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-	vb.Append(1)
-	bldr.Append(true)
-	bldr.Append(true)
-	vb.Append(2)
-	vb.Append(3)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{1, 1, 3, 1, 3, 3}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0, 0, 1}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 3, result.postListVisitedElems[0].end)
-}
-
-func TestNullableSingleListSomeNullEntriesSomeNullLists(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(false)
-	bldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-	bldr.Append(true)
-	vb.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 3, 3, 3, 1, 1, 0, 0, 3, 3, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0}, result.repLevels)
-}
-
-// next group of tests translate to the following parquet schema:
-//
-// optional group bag {
-//   repeated group outer_list (List) {
-//     optional group nullable {
-//       repeated group inner_list (List) {
-//         optional int64 Entries;
-//       }
-//     }
-//   }
-// }
-// So:
-// def level 0: null outer list
-// def level 1: empty outer list
-// def level 2: null inner list
-// def level 3: empty inner list
-// def level 4: null entry
-// def level 5: non-null entry
-
-func TestNestedListsWithSomeEntries(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, 2, 3], [4, 5]], [[], [], []], []]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 5, 5, 5, 5, 3, 3, 3, 1}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 2, 0, 1, 1, 0}, result.repLevels)
-}
-
-func TestNestedListsWithSomeNulls(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, null, 3], null, null], [[4, 5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.AppendNull()
-	nestedBldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 2, 2, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-}
-
-func TestNestedListsSomeNullsSomeEmpty(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, null, 3], [], []], [[4, 5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 3, 3, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-}
-
-func TestNestedExtensionListsWithSomeNulls(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	listType := arrow.ListOf(extensions.NewUUIDType())
-	bldr := array.NewListBuilder(mem, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*extensions.UUIDBuilder)
-
-	uuid1 := uuid.New()
-	uuid3 := uuid.New()
-	uuid4 := uuid.New()
-	uuid5 := uuid.New()
-
-	// produce: [null, [[uuid1, null, uuid3], null, null], [[uuid4, uuid5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.Append(uuid1)
-	vb.AppendNull()
-	vb.Append(uuid3)
-	nestedBldr.AppendNull()
-	nestedBldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]uuid.UUID{uuid4, uuid5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 2, 2, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-	assert.Equal(t, result.leafArr.NullN(), 1)
-}
-
-// triplenested translates to parquet:
-//
-// optional group bag {
-//   repeated group outer_list (List) {
-//     option group nullable {
-//       repeated group middle_list (List) {
-//         option group nullable {
-//           repeated group inner_list (List) {
-//              optional int64 Entries;
-//           }
-//         }
-//       }
-//     }
-//   }
-// }
-// So:
-// def level 0: a outer list
-// def level 1: an empty outer list
-// def level 2: a null middle list
-// def level 3: an empty middle list
-// def level 4: an null inner list
-// def level 5: an empty inner list
-// def level 6: a null entry
-// def level 7: a non-null entry
-
-func TestTripleNestedAllPresent(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	nestedListType := arrow.ListOf(listType)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, nestedListType)
-	defer bldr.Release()
-
-	dblNestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	nestedBldr := dblNestedBldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [ [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9]]] ]
-	bldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5, 6}, nil)
-
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{7, 8, 9}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{7, 7, 7, 7, 7, 7, 7, 7, 7}, result.defLevels)
-	assert.Equal(t, []int16{0, 3, 3, 2, 3, 3, 1, 3, 3}, result.repLevels)
-}
-
-func TestTripleNestedSomeNullsSomeEmpty(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	nestedListType := arrow.ListOf(listType)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, nestedListType)
-	defer bldr.Release()
-
-	dblNestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	nestedBldr := dblNestedBldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [
-	//	  [null, [[1, null, 3], []], []],     first row
-	//    [[[]], [[], [1, 2]], null, [[3]]],  second row
-	//    null,                               third row
-	//    []                                  fourth row
-	//  ]
-
-	// first row
-	bldr.Append(true)
-	dblNestedBldr.AppendNull()
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.Append(true)
-	dblNestedBldr.Append(true)
-
-	// second row
-	bldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2}, nil)
-	dblNestedBldr.AppendNull()
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.Append(3)
-
-	// third row
-	bldr.AppendNull()
-
-	// fourth row
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{
-		2, 7, 6, 7, 5, 3, // first row
-		5, 5, 7, 7, 2, 7, // second row
-		0, // third row
-		1,
-	}, result.defLevels)
-	assert.Equal(t, []int16{
-		0, 1, 3, 3, 2, 1, // first row
-		0, 1, 2, 3, 1, 1, // second row
-		0, 0,
-	}, result.repLevels)
-}
-
-func TestStruct(t *testing.T) {
-	structType := arrow.StructOf(arrow.Field{Name: "list", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64), Nullable: true},
-		arrow.Field{Name: "Entries", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-
-	bldr := array.NewStructBuilder(memory.DefaultAllocator, structType)
-	defer bldr.Release()
-
-	entryBldr := bldr.FieldBuilder(1).(*array.Int64Builder)
-	listBldr := bldr.FieldBuilder(0).(*array.ListBuilder)
-	vb := listBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [ {"Entries": 1, "list": [2, 3]}, {"Entries": 4, "list": [5, 6]}, null]
-
-	bldr.Append(true)
-	entryBldr.Append(1)
-	listBldr.Append(true)
-	vb.AppendValues([]int64{2, 3}, nil)
-
-	bldr.Append(true)
-	entryBldr.Append(4)
-	listBldr.Append(true)
-	vb.AppendValues([]int64{5, 6}, nil)
-
-	bldr.AppendNull()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 2)
-	assert.Equal(t, []int16{4, 4, 4, 4, 0}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 1, 0, 1, 0}, result[0].repLevels)
-
-	assert.Equal(t, []int16{2, 2, 0}, result[1].defLevels)
-	assert.Nil(t, result[1].repLevels)
-}
-
-func TestFixedSizeListNullableElems(t *testing.T) {
-	bldr := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-	bldr.AppendValues([]bool{false, true, true, false})
-	vb.AppendValues([]int64{2, 3, 4, 5}, nil)
-
-	// produce: [null, [2, 3], [4, 5], null]
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 1)
-	assert.Equal(t, []int16{0, 3, 3, 3, 3, 0}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 0, 1, 0}, result[0].repLevels)
-
-	// null slots take up space in a fixed size list (they can in variable
-	// size lists as well) but the actual written values are only the middle
-	// elements
-	assert.Len(t, result[0].postListVisitedElems, 1)
-	assert.EqualValues(t, 2, result[0].postListVisitedElems[0].start)
-	assert.EqualValues(t, 6, result[0].postListVisitedElems[0].end)
-}
-
-func TestFixedSizeListMissingMiddleTwoVisitedRanges(t *testing.T) {
-	bldr := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-	bldr.AppendValues([]bool{true, false, true})
-	vb.AppendValues([]int64{0, 1, 2, 3}, nil)
-
-	// produce: [[0, 1], null, [2, 3]]
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 1)
-	assert.Equal(t, []int16{3, 3, 0, 3, 3}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 1, 0, 0, 1}, result[0].repLevels)
-
-	// null slots take up space in a fixed size list (they can in variable
-	// size lists as well) but the actual written values are only the middle
-	// elements
-	assert.Len(t, result[0].postListVisitedElems, 2)
-	assert.EqualValues(t, 0, result[0].postListVisitedElems[0].start)
-	assert.EqualValues(t, 2, result[0].postListVisitedElems[0].end)
-
-	assert.EqualValues(t, 4, result[0].postListVisitedElems[1].start)
-	assert.EqualValues(t, 6, result[0].postListVisitedElems[1].end)
-}
-
-func TestPrimitiveNonNullable(t *testing.T) {
-	bldr := array.NewInt64Builder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.AppendValues([]int64{1, 2, 3, 4}, nil)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, false)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Nil(t, result.defLevels)
-	assert.Nil(t, result.repLevels)
-
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 4, result.postListVisitedElems[0].end)
-}
diff --git a/go/parquet/pqarrow/properties.go b/go/parquet/pqarrow/properties.go
deleted file mode 100755
index 25a299c86f5f5..0000000000000
--- a/go/parquet/pqarrow/properties.go
+++ /dev/null
@@ -1,193 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-// ArrowWriterProperties are used to determine how to manipulate the arrow data
-// when writing it to a parquet file.
-type ArrowWriterProperties struct {
-	mem                      memory.Allocator
-	timestampAsInt96         bool
-	coerceTimestamps         bool
-	coerceTimestampUnit      arrow.TimeUnit
-	allowTruncatedTimestamps bool
-	storeSchema              bool
-	noMapLogicalType         bool
-	// compliantNestedTypes     bool
-}
-
-// DefaultWriterProps returns the default properties for the arrow writer,
-// which are to use memory.DefaultAllocator and coerceTimestampUnit: arrow.Second.
-func DefaultWriterProps() ArrowWriterProperties {
-	return ArrowWriterProperties{
-		mem:                 memory.DefaultAllocator,
-		coerceTimestampUnit: arrow.Second,
-	}
-}
-
-type config struct {
-	props ArrowWriterProperties
-}
-
-// WriterOption is a convenience for building up arrow writer properties
-type WriterOption func(*config)
-
-// NewArrowWriterProperties creates a new writer properties object by passing in
-// a set of options to control the properties. Once created, an individual instance
-// of ArrowWriterProperties is immutable.
-func NewArrowWriterProperties(opts ...WriterOption) ArrowWriterProperties {
-	cfg := config{DefaultWriterProps()}
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return cfg.props
-}
-
-// WithAllocator specifies the allocator to be used by the writer whenever allocating
-// buffers and memory.
-func WithAllocator(mem memory.Allocator) WriterOption {
-	return func(c *config) {
-		c.props.mem = mem
-	}
-}
-
-// WithDeprecatedInt96Timestamps allows specifying to enable conversion of arrow timestamps
-// to int96 columns when constructing the schema. Since int96 is the impala standard, it's
-// technically deprecated in terms of parquet files but is sometimes needed.
-func WithDeprecatedInt96Timestamps(enabled bool) WriterOption {
-	return func(c *config) {
-		c.props.timestampAsInt96 = enabled
-	}
-}
-
-// WithCoerceTimestamps enables coercing of timestamp units to a specific time unit
-// when constructing the schema and writing data so that regardless of the unit used
-// by the datatypes being written, they will be converted to the desired time unit.
-func WithCoerceTimestamps(unit arrow.TimeUnit) WriterOption {
-	return func(c *config) {
-		c.props.coerceTimestamps = true
-		c.props.coerceTimestampUnit = unit
-	}
-}
-
-// WithTruncatedTimestamps called with true turns off the error that would be returned
-// if coercing a timestamp unit would cause a loss of data such as converting from
-// nanoseconds to seconds.
-func WithTruncatedTimestamps(allow bool) WriterOption {
-	return func(c *config) {
-		c.props.allowTruncatedTimestamps = allow
-	}
-}
-
-// WithStoreSchema enables writing a binary serialized arrow schema to the file in metadata
-// to enable certain read options (like "read_dictionary") to be set automatically
-//
-// If called, the arrow schema is serialized and base64 encoded before being added to the
-// metadata of the parquet file with the key "ARROW:schema". If the key exists when
-// opening a file for read with pqarrow.FileReader, the schema will be used to choose
-// types and options when constructing the arrow schema of the resulting data.
-func WithStoreSchema() WriterOption {
-	return func(c *config) {
-		c.props.storeSchema = true
-	}
-}
-
-func WithNoMapLogicalType() WriterOption {
-	return func(c *config) {
-		c.props.noMapLogicalType = true
-	}
-}
-
-// func WithCompliantNestedTypes(enabled bool) WriterOption {
-// 	return func(c *config) {
-// 		c.props.compliantNestedTypes = enabled
-// 	}
-// }
-
-type arrowWriteContext struct {
-	props           ArrowWriterProperties
-	dataBuffer      *memory.Buffer
-	defLevelsBuffer encoding.Buffer
-	repLevelsBuffer encoding.Buffer
-}
-
-type arrowCtxKey struct{}
-
-// NewArrowWriteContext is for creating a re-usable context object that contains writer properties
-// and other re-usable buffers for writing. The resulting context should not be used to write
-// multiple columns concurrently. If nil is passed, then DefaultWriterProps will be used.
-func NewArrowWriteContext(ctx context.Context, props *ArrowWriterProperties) context.Context {
-	if props == nil {
-		p := DefaultWriterProps()
-		props = &p
-	}
-	return context.WithValue(ctx, arrowCtxKey{}, &arrowWriteContext{props: *props})
-}
-
-func arrowCtxFromContext(ctx context.Context) *arrowWriteContext {
-	awc := ctx.Value(arrowCtxKey{})
-	if awc != nil {
-		return awc.(*arrowWriteContext)
-	}
-
-	return &arrowWriteContext{
-		props: DefaultWriterProps(),
-	}
-}
-
-// ArrowReadProperties is the properties to define how to read a parquet file
-// into arrow arrays.
-type ArrowReadProperties struct {
-	// If Parallel is true, then functions which read multiple columns will read
-	// those columns in parallel from the file with a number of readers equal
-	// to the number of columns. Otherwise columns are read serially.
-	Parallel bool
-	// BatchSize is the size used for calls to NextBatch when reading whole columns
-	BatchSize int64
-
-	readDictIndices map[int]struct{}
-}
-
-// SetReadDict determines whether to read a particular column as dictionary
-// encoded or not.
-func (props *ArrowReadProperties) SetReadDict(colIdx int, readDict bool) {
-	if props.readDictIndices == nil {
-		props.readDictIndices = make(map[int]struct{})
-	}
-
-	if readDict {
-		props.readDictIndices[colIdx] = struct{}{}
-	} else {
-		delete(props.readDictIndices, colIdx)
-	}
-}
-
-func (props *ArrowReadProperties) ReadDict(colIdx int) bool {
-	if props.readDictIndices == nil {
-		return false
-	}
-
-	_, ok := props.readDictIndices[colIdx]
-	return ok
-}
diff --git a/go/parquet/pqarrow/reader_writer_test.go b/go/parquet/pqarrow/reader_writer_test.go
deleted file mode 100644
index e020c7d9457a9..0000000000000
--- a/go/parquet/pqarrow/reader_writer_test.go
+++ /dev/null
@@ -1,388 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/require"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-const alternateOrNA = -1
-const SIZELEN = 1024 * 1024
-
-func randomUint8(size, truePct int, sampleVals [2]uint8, seed uint64) []uint8 {
-	ret := make([]uint8, size)
-	if truePct == alternateOrNA {
-		for idx := range ret {
-			ret[idx] = uint8(idx % 2)
-		}
-		return ret
-	}
-
-	dist := distuv.Bernoulli{
-		P:   float64(truePct) / 100.0,
-		Src: rand.NewSource(seed),
-	}
-
-	for idx := range ret {
-		ret[idx] = sampleVals[int(dist.Rand())]
-	}
-	return ret
-}
-
-func randomInt32(size, truePct int, sampleVals [2]int32, seed uint64) []int32 {
-	ret := make([]int32, size)
-	if truePct == alternateOrNA {
-		for idx := range ret {
-			ret[idx] = int32(idx % 2)
-		}
-		return ret
-	}
-
-	dist := distuv.Bernoulli{
-		P:   float64(truePct) / 100.0,
-		Src: rand.NewSource(seed),
-	}
-
-	for idx := range ret {
-		ret[idx] = sampleVals[int(dist.Rand())]
-	}
-	return ret
-}
-
-func tableFromVec(dt arrow.DataType, size int, data interface{}, nullable bool, nullPct int) arrow.Table {
-	if !nullable && nullPct != alternateOrNA {
-		panic("bad check")
-	}
-
-	var valid []bool
-	if nullable {
-		// true values select index 1 of sample values
-		validBytes := randomUint8(size, nullPct, [2]uint8{1, 0}, 500)
-		valid = *(*[]bool)(unsafe.Pointer(&validBytes))
-	}
-
-	bldr := array.NewBuilder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	switch v := data.(type) {
-	case []int32:
-		bldr.(*array.Int32Builder).AppendValues(v, valid)
-	case []int64:
-		bldr.(*array.Int64Builder).AppendValues(v, valid)
-	case []float32:
-		bldr.(*array.Float32Builder).AppendValues(v, valid)
-	case []float64:
-		bldr.(*array.Float64Builder).AppendValues(v, valid)
-	}
-
-	arr := bldr.NewArray()
-
-	field := arrow.Field{Name: "column", Type: dt, Nullable: nullable}
-	sc := arrow.NewSchema([]arrow.Field{field}, nil)
-	col := arrow.NewColumnFromArr(field, arr)
-	defer col.Release()
-	return array.NewTable(sc, []arrow.Column{col}, int64(size))
-}
-
-func BenchmarkWriteColumn(b *testing.B) {
-	int32Values := make([]int32, SIZELEN)
-	int64Values := make([]int64, SIZELEN)
-	float32Values := make([]float32, SIZELEN)
-	float64Values := make([]float64, SIZELEN)
-	for i := 0; i < SIZELEN; i++ {
-		int32Values[i] = 128
-		int64Values[i] = 128
-		float32Values[i] = 128
-		float64Values[i] = 128
-	}
-
-	tests := []struct {
-		name     string
-		dt       arrow.DataType
-		values   interface{}
-		nullable bool
-		nbytes   int64
-	}{
-		{"int32 not nullable", arrow.PrimitiveTypes.Int32, int32Values, false, int64(arrow.Int32Traits.BytesRequired(SIZELEN))},
-		{"int32 nullable", arrow.PrimitiveTypes.Int32, int32Values, true, int64(arrow.Int32Traits.BytesRequired(SIZELEN))},
-		{"int64 not nullable", arrow.PrimitiveTypes.Int64, int64Values, false, int64(arrow.Int64Traits.BytesRequired(SIZELEN))},
-		{"int64 nullable", arrow.PrimitiveTypes.Int64, int64Values, true, int64(arrow.Int64Traits.BytesRequired(SIZELEN))},
-		{"float32 not nullable", arrow.PrimitiveTypes.Float32, float32Values, false, int64(arrow.Float32Traits.BytesRequired(SIZELEN))},
-		{"float32 nullable", arrow.PrimitiveTypes.Float32, float32Values, true, int64(arrow.Float32Traits.BytesRequired(SIZELEN))},
-		{"float64 not nullable", arrow.PrimitiveTypes.Float64, float64Values, false, int64(arrow.Float64Traits.BytesRequired(SIZELEN))},
-		{"float64 nullable", arrow.PrimitiveTypes.Float64, float64Values, true, int64(arrow.Float64Traits.BytesRequired(SIZELEN))},
-	}
-
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-	arrProps := pqarrow.DefaultWriterProps()
-
-	for _, tt := range tests {
-		b.Run(tt.name, func(b *testing.B) {
-			tbl := tableFromVec(tt.dt, SIZELEN, tt.values, tt.nullable, alternateOrNA)
-			b.Cleanup(func() { tbl.Release() })
-			var buf bytes.Buffer
-			buf.Grow(int(tt.nbytes))
-			b.ResetTimer()
-			b.SetBytes(tt.nbytes)
-
-			for i := 0; i < b.N; i++ {
-				buf.Reset()
-				err := pqarrow.WriteTable(tbl, &buf, SIZELEN, props, arrProps)
-				if err != nil {
-					b.Error(err)
-				}
-			}
-		})
-	}
-}
-
-func benchReadTable(b *testing.B, name string, tbl arrow.Table, nbytes int64) {
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-	arrProps := pqarrow.DefaultWriterProps()
-
-	var buf bytes.Buffer
-	if err := pqarrow.WriteTable(tbl, &buf, SIZELEN, props, arrProps); err != nil {
-		b.Error(err)
-	}
-	ctx := context.Background()
-
-	b.ResetTimer()
-	b.Run(name, func(b *testing.B) {
-		b.SetBytes(nbytes)
-
-		for i := 0; i < b.N; i++ {
-			pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-			if err != nil {
-				b.Error(err)
-			}
-
-			reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-			if err != nil {
-				b.Error(err)
-			}
-
-			tbl, err := reader.ReadTable(ctx)
-			if err != nil {
-				b.Error(err)
-			}
-			defer tbl.Release()
-		}
-	})
-}
-
-func BenchmarkReadColumnInt32(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"int32 not null 1pct", false, alternateOrNA, 1},
-		{"int32 not null 10pct", false, alternateOrNA, 10},
-		{"int32 not null 50pct", false, alternateOrNA, 50},
-		{"int32 nullable alt", true, alternateOrNA, 0},
-		{"int32 nullable 1pct 1pct", true, 1, 1},
-		{"int32 nullable 10pct 10pct", true, 10, 10},
-		{"int32 nullable 25pct 5pct", true, 25, 5},
-		{"int32 nullable 50pct 50pct", true, 50, 50},
-		{"int32 nullable 50pct 0pct", true, 50, 0},
-		{"int32 nullable 99pct 50pct", true, 99, 50},
-		{"int32 nullable 99pct 0pct", true, 99, 0},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-func BenchmarkReadColumnInt64(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"int64 not null 1pct", false, alternateOrNA, 1},
-		{"int64 not null 10pct", false, alternateOrNA, 10},
-		{"int64 not null 50pct", false, alternateOrNA, 50},
-		{"int64 nullable alt", true, alternateOrNA, 0},
-		{"int64 nullable 1pct 1pct", true, 1, 1},
-		{"int64 nullable 5pct 5pct", true, 5, 5},
-		{"int64 nullable 10pct 5pct", true, 10, 5},
-		{"int64 nullable 25pct 10pct", true, 25, 10},
-		{"int64 nullable 30pct 10pct", true, 30, 10},
-		{"int64 nullable 35pct 10pct", true, 35, 10},
-		{"int64 nullable 45pct 25pct", true, 45, 25},
-		{"int64 nullable 50pct 50pct", true, 50, 50},
-		{"int64 nullable 50pct 1pct", true, 50, 1},
-		{"int64 nullable 75pct 1pct", true, 75, 1},
-		{"int64 nullable 99pct 50pct", true, 99, 50},
-		{"int64 nullable 99pct 0pct", true, 99, 0},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-func BenchmarkReadColumnFloat64(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"double not null 1pct", false, alternateOrNA, 0},
-		{"double not null 20pct", false, alternateOrNA, 20},
-		{"double nullable alt", true, alternateOrNA, 0},
-		{"double nullable 10pct 50pct", true, 10, 50},
-		{"double nullable 25pct 25pct", true, 25, 25},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-var compressTestCases = []struct {
-	c compress.Compression
-}{
-	{compress.Codecs.Uncompressed},
-	{compress.Codecs.Snappy},
-	{compress.Codecs.Gzip},
-	{compress.Codecs.Brotli},
-	{compress.Codecs.Zstd},
-	{compress.Codecs.Lz4Raw},
-	// {compress.Codecs.Lzo},
-}
-
-func buildTableForTest(mem memory.Allocator) arrow.Table {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "int64s", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "strings", Type: arrow.BinaryTypes.String},
-			{Name: "bools", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "repeated_int64s", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "repeated_strings", Type: arrow.BinaryTypes.String},
-			{Name: "repeated_bools", Type: arrow.FixedWidthTypes.Boolean},
-		},
-		nil,
-	)
-	bldr := array.NewRecordBuilder(mem, schema)
-	defer bldr.Release()
-
-	for i := 0; i < SIZELEN; i++ {
-		bldr.Field(0).(*array.Int64Builder).Append(int64(i))
-		bldr.Field(1).(*array.StringBuilder).Append(fmt.Sprint(i))
-		bldr.Field(2).(*array.BooleanBuilder).Append(i%2 == 0)
-		bldr.Field(3).(*array.Int64Builder).Append(0)
-		bldr.Field(4).(*array.StringBuilder).Append("the string is the same")
-		bldr.Field(5).(*array.BooleanBuilder).Append(true)
-	}
-
-	rec := bldr.NewRecord()
-	return array.NewTableFromRecords(schema, []arrow.Record{rec})
-}
-
-func BenchmarkWriteTableCompressed(b *testing.B) {
-	mem := memory.DefaultAllocator
-	table := buildTableForTest(mem)
-	defer table.Release()
-
-	var uncompressedSize uint64
-	for idxCol := 0; int64(idxCol) < table.NumCols(); idxCol++ {
-		column := table.Column(idxCol)
-		for _, chunk := range column.Data().Chunks() {
-			uncompressedSize += chunk.Data().SizeInBytes()
-		}
-	}
-
-	var buf bytes.Buffer
-	buf.Grow(int(uncompressedSize))
-	for _, tc := range compressTestCases {
-		b.Run(fmt.Sprintf("codec=%s", tc.c), func(b *testing.B) {
-			buf.Reset()
-			b.ResetTimer()
-			b.SetBytes(int64(uncompressedSize))
-			for n := 0; n < b.N; n++ {
-				require.NoError(b,
-					pqarrow.WriteTable(
-						table,
-						&buf,
-						math.MaxInt64,
-						parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithCompression(tc.c)),
-						pqarrow.DefaultWriterProps(),
-					),
-				)
-			}
-		})
-	}
-}
-
-func BenchmarkReadTableCompressed(b *testing.B) {
-	ctx := context.Background()
-	mem := memory.DefaultAllocator
-	table := buildTableForTest(mem)
-	defer table.Release()
-
-	for _, tc := range compressTestCases {
-		b.Run(fmt.Sprintf("codec=%s", tc.c), func(b *testing.B) {
-			var buf bytes.Buffer
-			err := pqarrow.WriteTable(
-				table,
-				&buf,
-				math.MaxInt64,
-				parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithCompression(tc.c)),
-				pqarrow.DefaultWriterProps(),
-			)
-			require.NoError(b, err)
-
-			compressedBytes := buf.Len()
-			rdr := bytes.NewReader(buf.Bytes())
-
-			b.ResetTimer()
-			b.SetBytes(int64(compressedBytes))
-			for n := 0; n < b.N; n++ {
-				tab, err := pqarrow.ReadTable(ctx, rdr, nil, pqarrow.ArrowReadProperties{}, mem)
-				require.NoError(b, err)
-				defer tab.Release()
-			}
-		})
-	}
-}
diff --git a/go/parquet/pqarrow/schema.go b/go/parquet/pqarrow/schema.go
deleted file mode 100644
index 4882077671f0f..0000000000000
--- a/go/parquet/pqarrow/schema.go
+++ /dev/null
@@ -1,1160 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"encoding/base64"
-	"fmt"
-	"math"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// SchemaField is a holder that defines a specific logical field in the schema
-// which could potentially refer to multiple physical columns in the underlying
-// parquet file if it is a nested type.
-//
-// ColIndex is only populated (not -1) when it is a leaf column.
-type SchemaField struct {
-	Field     *arrow.Field
-	Children  []SchemaField
-	ColIndex  int
-	LevelInfo file.LevelInfo
-}
-
-// IsLeaf returns true if the SchemaField is a leaf column, ie: ColIndex != -1
-func (s *SchemaField) IsLeaf() bool { return s.ColIndex != -1 }
-
-// SchemaManifest represents a full manifest for mapping a Parquet schema
-// to an arrow Schema.
-type SchemaManifest struct {
-	descr        *schema.Schema
-	OriginSchema *arrow.Schema
-	SchemaMeta   *arrow.Metadata
-
-	ColIndexToField map[int]*SchemaField
-	ChildToParent   map[*SchemaField]*SchemaField
-	Fields          []SchemaField
-}
-
-// GetColumnField returns the corresponding Field for a given column index.
-func (sm *SchemaManifest) GetColumnField(index int) (*SchemaField, error) {
-	if field, ok := sm.ColIndexToField[index]; ok {
-		return field, nil
-	}
-	return nil, fmt.Errorf("Column Index %d not found in schema manifest", index)
-}
-
-// GetParent gets the parent field for a given field if it is a nested column, otherwise
-// returns nil if there is no parent field.
-func (sm *SchemaManifest) GetParent(field *SchemaField) *SchemaField {
-	if p, ok := sm.ChildToParent[field]; ok {
-		return p
-	}
-	return nil
-}
-
-// GetFieldIndices coalesces a list of field indices (relative to the equivalent arrow::Schema) which
-// correspond to the column root (first node below the parquet schema's root group) of
-// each leaf referenced in column_indices.
-//
-// For example, for leaves `a.b.c`, `a.b.d.e`, and `i.j.k` (column_indices=[0,1,3])
-// the roots are `a` and `i` (return=[0,2]).
-//
-// root
-// -- a  <------
-// -- -- b  |  |
-// -- -- -- c  |
-// -- -- -- d  |
-// -- -- -- -- e
-// -- f
-// -- -- g
-// -- -- -- h
-// -- i  <---
-// -- -- j  |
-// -- -- -- k
-func (sm *SchemaManifest) GetFieldIndices(indices []int) ([]int, error) {
-	added := make(map[int]bool)
-	ret := make([]int, 0)
-
-	for _, idx := range indices {
-		if idx < 0 || idx >= sm.descr.NumColumns() {
-			return nil, fmt.Errorf("column index %d is not valid", idx)
-		}
-
-		fieldNode := sm.descr.ColumnRoot(idx)
-		fieldIdx := sm.descr.Root().FieldIndexByField(fieldNode)
-		if fieldIdx == -1 {
-			return nil, fmt.Errorf("column index %d is not valid", idx)
-		}
-
-		if _, ok := added[fieldIdx]; !ok {
-			ret = append(ret, fieldIdx)
-			added[fieldIdx] = true
-		}
-	}
-	return ret, nil
-}
-
-// ExtensionCustomParquetType is an interface that Arrow ExtensionTypes may implement
-// to specify the target LogicalType to use when converting to Parquet.
-//
-// The PrimitiveType is not configurable, and is determined by a fixed mapping from
-// the extension's StorageType to a Parquet type (see getParquetType in pqarrow source).
-type ExtensionCustomParquetType interface {
-	ParquetLogicalType() schema.LogicalType
-}
-
-func isDictionaryReadSupported(dt arrow.DataType) bool {
-	return arrow.IsBinaryLike(dt.ID())
-}
-
-func arrowTimestampToLogical(typ *arrow.TimestampType, unit arrow.TimeUnit) schema.LogicalType {
-	isAdjustedToUTC := typ.TimeZone != ""
-
-	// for forward compatibility reasons, and because there's no other way
-	// to signal to old readers that values are timestamps, we force
-	// the convertedtype field to be set to the corresponding TIMESTAMP_* value.
-	// this does cause some ambiguity as parquet readers have not been consistent
-	// about the interpretation of TIMESTAMP_* values as being utc-normalized
-	// see ARROW-5878
-	var scunit schema.TimeUnitType
-	switch unit {
-	case arrow.Millisecond:
-		scunit = schema.TimeUnitMillis
-	case arrow.Microsecond:
-		scunit = schema.TimeUnitMicros
-	case arrow.Nanosecond:
-		scunit = schema.TimeUnitNanos
-	case arrow.Second:
-		// no equivalent in parquet
-		return schema.NoLogicalType{}
-	}
-
-	return schema.NewTimestampLogicalTypeForce(isAdjustedToUTC, scunit)
-}
-
-func getTimestampMeta(typ *arrow.TimestampType, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (parquet.Type, schema.LogicalType, error) {
-	coerce := arrprops.coerceTimestamps
-	target := typ.Unit
-	if coerce {
-		target = arrprops.coerceTimestampUnit
-	}
-
-	// user is explicitly asking for int96, no logical type
-	if arrprops.timestampAsInt96 && target == arrow.Nanosecond {
-		return parquet.Types.Int96, schema.NoLogicalType{}, nil
-	}
-
-	physical := parquet.Types.Int64
-	logicalType := arrowTimestampToLogical(typ, target)
-
-	// user is explicitly asking for timestamp data to be converted to the specified
-	// units (target) via coercion
-	if coerce {
-		if props.Version() == parquet.V1_0 || props.Version() == parquet.V2_4 {
-			switch target {
-			case arrow.Millisecond, arrow.Microsecond:
-			case arrow.Nanosecond, arrow.Second:
-				return physical, nil, fmt.Errorf("parquet version %s files can only coerce arrow timestamps to millis or micros", props.Version())
-			}
-		} else if target == arrow.Second {
-			return physical, nil, fmt.Errorf("parquet version %s files can only coerce arrow timestamps to millis, micros or nanos", props.Version())
-		}
-		return physical, logicalType, nil
-	}
-
-	// the user implicitly wants timestamp data to retain its original time units
-	// however the converted type field used to indicate logical types for parquet
-	// version <=2.4 fields, does not allow for nanosecond time units and so nanos
-	// must be coerced to micros
-	if (props.Version() == parquet.V1_0 || props.Version() == parquet.V2_4) && typ.Unit == arrow.Nanosecond {
-		logicalType = arrowTimestampToLogical(typ, arrow.Microsecond)
-		return physical, logicalType, nil
-	}
-
-	// the user implicitly wants timestamp data to retain it's original time units,
-	// however the arrow seconds time unit cannot be represented in parquet, so must
-	// be coerced to milliseconds
-	if typ.Unit == arrow.Second {
-		logicalType = arrowTimestampToLogical(typ, arrow.Millisecond)
-	}
-
-	return physical, logicalType, nil
-}
-
-// DecimalSize returns the minimum number of bytes necessary to represent a decimal
-// with the requested precision.
-//
-// Taken from the Apache Impala codebase. The comments next to the return values
-// are the maximum value that can be represented in 2's complement with the returned
-// number of bytes
-func DecimalSize(precision int32) int32 {
-	if precision < 1 {
-		panic("precision must be >= 1")
-	}
-
-	// generated in python with:
-	// >>> decimal_size = lambda prec: int(math.ceil((prec * math.log2(10) + 1) / 8))
-	// >>> [-1] + [decimal_size(i) for i in range(1, 77)]
-	var byteblock = [...]int32{
-		-1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9,
-		9, 9, 10, 10, 11, 11, 11, 12, 12, 13, 13, 13, 14, 14, 15, 15, 16, 16, 16, 17,
-		17, 18, 18, 18, 19, 19, 20, 20, 21, 21, 21, 22, 22, 23, 23, 23, 24, 24, 25, 25,
-		26, 26, 26, 27, 27, 28, 28, 28, 29, 29, 30, 30, 31, 31, 31, 32, 32,
-	}
-
-	if precision <= 76 {
-		return byteblock[precision]
-	}
-	return int32(math.Ceil(float64(precision)/8.0)*math.Log2(10) + 1)
-}
-
-func repFromNullable(isnullable bool) parquet.Repetition {
-	if isnullable {
-		return parquet.Repetitions.Optional
-	}
-	return parquet.Repetitions.Required
-}
-
-func structToNode(typ *arrow.StructType, name string, nullable bool, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (schema.Node, error) {
-	if typ.NumFields() == 0 {
-		return nil, fmt.Errorf("cannot write struct type '%s' with no children field to parquet. Consider adding a dummy child", name)
-	}
-
-	children := make(schema.FieldList, 0, typ.NumFields())
-	for _, f := range typ.Fields() {
-		n, err := fieldToNode(f.Name, f, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-		children = append(children, n)
-	}
-
-	return schema.NewGroupNode(name, repFromNullable(nullable), children, -1)
-}
-
-func fieldToNode(name string, field arrow.Field, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (schema.Node, error) {
-	repType := repFromNullable(field.Nullable)
-
-	// Handle complex types i.e. GroupNodes
-	switch field.Type.ID() {
-	case arrow.NULL:
-		if repType != parquet.Repetitions.Optional {
-			return nil, xerrors.New("nulltype arrow field must be nullable")
-		}
-	case arrow.STRUCT:
-		return structToNode(field.Type.(*arrow.StructType), field.Name, field.Nullable, props, arrprops)
-	case arrow.FIXED_SIZE_LIST, arrow.LIST:
-		var elem arrow.DataType
-		if lt, ok := field.Type.(*arrow.ListType); ok {
-			elem = lt.Elem()
-		} else {
-			elem = field.Type.(*arrow.FixedSizeListType).Elem()
-		}
-
-		child, err := fieldToNode(name, arrow.Field{Name: name, Type: elem, Nullable: true}, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		return schema.ListOf(child, repFromNullable(field.Nullable), -1)
-	case arrow.DICTIONARY:
-		// parquet has no dictionary type, dictionary is encoding, not schema level
-		dictType := field.Type.(*arrow.DictionaryType)
-		return fieldToNode(name, arrow.Field{Name: name, Type: dictType.ValueType, Nullable: field.Nullable, Metadata: field.Metadata},
-			props, arrprops)
-	case arrow.MAP:
-		mapType := field.Type.(*arrow.MapType)
-		keyNode, err := fieldToNode("key", mapType.KeyField(), props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		valueNode, err := fieldToNode("value", mapType.ItemField(), props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		if arrprops.noMapLogicalType {
-			keyval := schema.FieldList{keyNode, valueNode}
-			keyvalNode, err := schema.NewGroupNode("key_value", parquet.Repetitions.Repeated, keyval, -1)
-			if err != nil {
-				return nil, err
-			}
-			return schema.NewGroupNode(field.Name, repFromNullable(field.Nullable), schema.FieldList{
-				keyvalNode,
-			}, -1)
-		}
-		return schema.MapOf(field.Name, keyNode, valueNode, repFromNullable(field.Nullable), -1)
-	}
-
-	// Not a GroupNode
-	typ, logicalType, length, err := getParquetType(field.Type, props, arrprops)
-	if err != nil {
-		return nil, err
-	}
-
-	return schema.NewPrimitiveNodeLogical(name, repType, logicalType, typ, length, fieldIDFromMeta(field.Metadata))
-}
-
-const fieldIDKey = "PARQUET:field_id"
-
-func fieldIDFromMeta(m arrow.Metadata) int32 {
-	if m.Len() == 0 {
-		return -1
-	}
-
-	key := m.FindKey(fieldIDKey)
-	if key < 0 {
-		return -1
-	}
-
-	id, err := strconv.ParseInt(m.Values()[key], 10, 32)
-	if err != nil {
-		return -1
-	}
-
-	if id < 0 {
-		return -1
-	}
-
-	return int32(id)
-}
-
-// ToParquet generates a Parquet Schema from an arrow Schema using the given properties to make
-// decisions when determining the logical/physical types of the columns.
-func ToParquet(sc *arrow.Schema, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (*schema.Schema, error) {
-	if props == nil {
-		props = parquet.NewWriterProperties()
-	}
-
-	nodes := make(schema.FieldList, 0, sc.NumFields())
-	for _, f := range sc.Fields() {
-		n, err := fieldToNode(f.Name, f, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-		nodes = append(nodes, n)
-	}
-
-	root, err := schema.NewGroupNode(props.RootName(), props.RootRepetition(), nodes, -1)
-	if err != nil {
-		return nil, err
-	}
-
-	return schema.NewSchema(root), err
-}
-
-type schemaTree struct {
-	manifest *SchemaManifest
-
-	schema *schema.Schema
-	props  *ArrowReadProperties
-}
-
-func (s schemaTree) LinkParent(child, parent *SchemaField) {
-	s.manifest.ChildToParent[child] = parent
-}
-
-func (s schemaTree) RecordLeaf(leaf *SchemaField) {
-	s.manifest.ColIndexToField[leaf.ColIndex] = leaf
-}
-
-func arrowInt(log schema.IntLogicalType) (arrow.DataType, error) {
-	switch log.BitWidth() {
-	case 8:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int8, nil
-		}
-		return arrow.PrimitiveTypes.Uint8, nil
-	case 16:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int16, nil
-		}
-		return arrow.PrimitiveTypes.Uint16, nil
-	case 32:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int32, nil
-		}
-		return arrow.PrimitiveTypes.Uint32, nil
-	case 64:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int64, nil
-		}
-		return arrow.PrimitiveTypes.Uint64, nil
-	default:
-		return nil, xerrors.New("invalid logical type for int32")
-	}
-}
-
-func arrowTime32(logical schema.TimeLogicalType) (arrow.DataType, error) {
-	if logical.TimeUnit() == schema.TimeUnitMillis {
-		return arrow.FixedWidthTypes.Time32ms, nil
-	}
-
-	return nil, xerrors.New(logical.String() + " cannot annotate a time32")
-}
-
-func arrowTime64(logical schema.TimeLogicalType) (arrow.DataType, error) {
-	switch logical.TimeUnit() {
-	case schema.TimeUnitMicros:
-		return arrow.FixedWidthTypes.Time64us, nil
-	case schema.TimeUnitNanos:
-		return arrow.FixedWidthTypes.Time64ns, nil
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int64")
-	}
-}
-
-func arrowTimestamp(logical schema.TimestampLogicalType) (arrow.DataType, error) {
-	tz := ""
-
-	// ConvertedTypes are adjusted to UTC per backward compatibility guidelines
-	// https://github.com/apache/parquet-format/blob/eb4b31c1d64a01088d02a2f9aefc6c17c54cc6fc/LogicalTypes.md?plain=1#L480-L485
-	if logical.IsAdjustedToUTC() || logical.IsFromConvertedType() {
-		tz = "UTC"
-	}
-
-	switch logical.TimeUnit() {
-	case schema.TimeUnitMillis:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Millisecond}, nil
-	case schema.TimeUnitMicros:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Microsecond}, nil
-	case schema.TimeUnitNanos:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Nanosecond}, nil
-	default:
-		return nil, xerrors.New("Unrecognized unit in timestamp logical type " + logical.String())
-	}
-}
-
-func arrowDecimal(logical schema.DecimalLogicalType) arrow.DataType {
-	if logical.Precision() <= decimal128.MaxPrecision {
-		return &arrow.Decimal128Type{Precision: logical.Precision(), Scale: logical.Scale()}
-	}
-	return &arrow.Decimal256Type{Precision: logical.Precision(), Scale: logical.Scale()}
-}
-
-func arrowFromInt32(logical schema.LogicalType) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.NoLogicalType:
-		return arrow.PrimitiveTypes.Int32, nil
-	case schema.TimeLogicalType:
-		return arrowTime32(logtype)
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.IntLogicalType:
-		return arrowInt(logtype)
-	case schema.DateLogicalType:
-		return arrow.FixedWidthTypes.Date32, nil
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int32")
-	}
-}
-
-func arrowFromInt64(logical schema.LogicalType) (arrow.DataType, error) {
-	if logical.IsNone() {
-		return arrow.PrimitiveTypes.Int64, nil
-	}
-
-	switch logtype := logical.(type) {
-	case schema.IntLogicalType:
-		return arrowInt(logtype)
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.TimeLogicalType:
-		return arrowTime64(logtype)
-	case schema.TimestampLogicalType:
-		return arrowTimestamp(logtype)
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int64")
-	}
-}
-
-func arrowFromByteArray(logical schema.LogicalType) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.StringLogicalType:
-		return arrow.BinaryTypes.String, nil
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.NoLogicalType,
-		schema.EnumLogicalType,
-		schema.JSONLogicalType,
-		schema.BSONLogicalType:
-		return arrow.BinaryTypes.Binary, nil
-	default:
-		return nil, xerrors.New("unhandled logicaltype " + logical.String() + " for byte_array")
-	}
-}
-
-func arrowFromFLBA(logical schema.LogicalType, length int) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.NoLogicalType, schema.IntervalLogicalType, schema.UUIDLogicalType:
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(length)}, nil
-	case schema.Float16LogicalType:
-		return &arrow.Float16Type{}, nil
-	default:
-		return nil, xerrors.New("unhandled logical type " + logical.String() + " for fixed-length byte array")
-	}
-}
-
-func getParquetType(typ arrow.DataType, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (parquet.Type, schema.LogicalType, int, error) {
-	switch typ.ID() {
-	case arrow.NULL:
-		return parquet.Types.Int32, schema.NullLogicalType{}, -1, nil
-	case arrow.BOOL:
-		return parquet.Types.Boolean, schema.NoLogicalType{}, -1, nil
-	case arrow.UINT8:
-		return parquet.Types.Int32, schema.NewIntLogicalType(8, false), -1, nil
-	case arrow.INT8:
-		return parquet.Types.Int32, schema.NewIntLogicalType(8, true), -1, nil
-	case arrow.UINT16:
-		return parquet.Types.Int32, schema.NewIntLogicalType(16, false), -1, nil
-	case arrow.INT16:
-		return parquet.Types.Int32, schema.NewIntLogicalType(16, true), -1, nil
-	case arrow.UINT32:
-		return parquet.Types.Int32, schema.NewIntLogicalType(32, false), -1, nil
-	case arrow.INT32:
-		return parquet.Types.Int32, schema.NewIntLogicalType(32, true), -1, nil
-	case arrow.UINT64:
-		return parquet.Types.Int64, schema.NewIntLogicalType(64, false), -1, nil
-	case arrow.INT64:
-		return parquet.Types.Int64, schema.NewIntLogicalType(64, true), -1, nil
-	case arrow.FLOAT32:
-		return parquet.Types.Float, schema.NoLogicalType{}, -1, nil
-	case arrow.FLOAT64:
-		return parquet.Types.Double, schema.NoLogicalType{}, -1, nil
-	case arrow.STRING, arrow.LARGE_STRING:
-		return parquet.Types.ByteArray, schema.StringLogicalType{}, -1, nil
-	case arrow.BINARY, arrow.LARGE_BINARY:
-		return parquet.Types.ByteArray, schema.NoLogicalType{}, -1, nil
-	case arrow.FIXED_SIZE_BINARY:
-		return parquet.Types.FixedLenByteArray, schema.NoLogicalType{}, typ.(*arrow.FixedSizeBinaryType).ByteWidth, nil
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		dectype := typ.(arrow.DecimalType)
-		precision := int(dectype.GetPrecision())
-		scale := int(dectype.GetScale())
-
-		if !props.StoreDecimalAsInteger() || precision > 18 {
-			return parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(int32(precision), int32(scale)), int(DecimalSize(int32(precision))), nil
-		}
-
-		pqType := parquet.Types.Int32
-		if precision > 9 {
-			pqType = parquet.Types.Int64
-		}
-
-		return pqType, schema.NoLogicalType{}, -1, nil
-	case arrow.DATE32:
-		return parquet.Types.Int32, schema.DateLogicalType{}, -1, nil
-	case arrow.DATE64:
-		return parquet.Types.Int32, schema.DateLogicalType{}, -1, nil
-	case arrow.TIMESTAMP:
-		pqType, logicalType, err := getTimestampMeta(typ.(*arrow.TimestampType), props, arrprops)
-		return pqType, logicalType, -1, err
-	case arrow.TIME32:
-		return parquet.Types.Int32, schema.NewTimeLogicalType(true, schema.TimeUnitMillis), -1, nil
-	case arrow.TIME64:
-		pqTimeUnit := schema.TimeUnitMicros
-		if typ.(*arrow.Time64Type).Unit == arrow.Nanosecond {
-			pqTimeUnit = schema.TimeUnitNanos
-		}
-
-		return parquet.Types.Int64, schema.NewTimeLogicalType(true, pqTimeUnit), -1, nil
-	case arrow.FLOAT16:
-		return parquet.Types.FixedLenByteArray, schema.Float16LogicalType{}, arrow.Float16SizeBytes, nil
-	case arrow.EXTENSION:
-		storageType := typ.(arrow.ExtensionType).StorageType()
-		pqType, logicalType, length, err := getParquetType(storageType, props, arrprops)
-		if withCustomType, ok := typ.(ExtensionCustomParquetType); ok {
-			logicalType = withCustomType.ParquetLogicalType()
-		}
-
-		return pqType, logicalType, length, err
-	default:
-		return parquet.Type(0), nil, 0, fmt.Errorf("%w: support for %s", arrow.ErrNotImplemented, typ.ID())
-	}
-}
-
-func getArrowType(physical parquet.Type, logical schema.LogicalType, typeLen int) (arrow.DataType, error) {
-	if !logical.IsValid() || logical.Equals(schema.NullLogicalType{}) {
-		return arrow.Null, nil
-	}
-
-	switch physical {
-	case parquet.Types.Boolean:
-		return arrow.FixedWidthTypes.Boolean, nil
-	case parquet.Types.Int32:
-		return arrowFromInt32(logical)
-	case parquet.Types.Int64:
-		return arrowFromInt64(logical)
-	case parquet.Types.Int96:
-		return arrow.FixedWidthTypes.Timestamp_ns, nil
-	case parquet.Types.Float:
-		return arrow.PrimitiveTypes.Float32, nil
-	case parquet.Types.Double:
-		return arrow.PrimitiveTypes.Float64, nil
-	case parquet.Types.ByteArray:
-		return arrowFromByteArray(logical)
-	case parquet.Types.FixedLenByteArray:
-		return arrowFromFLBA(logical, typeLen)
-	default:
-		return nil, xerrors.New("invalid physical column type")
-	}
-}
-
-func populateLeaf(colIndex int, field *arrow.Field, currentLevels file.LevelInfo, ctx *schemaTree, parent *SchemaField, out *SchemaField) {
-	out.Field = field
-	out.ColIndex = colIndex
-	out.LevelInfo = currentLevels
-	ctx.RecordLeaf(out)
-	ctx.LinkParent(out, parent)
-}
-
-func listToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.NumFields() != 1 {
-		return xerrors.New("LIST groups must have only 1 child")
-	}
-
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		return xerrors.New("LIST groups must not be repeated")
-	}
-
-	currentLevels.Increment(n)
-
-	out.Children = make([]SchemaField, n.NumFields())
-	ctx.LinkParent(out, parent)
-	ctx.LinkParent(&out.Children[0], out)
-
-	listNode := n.Field(0)
-	if listNode.RepetitionType() != parquet.Repetitions.Repeated {
-		return xerrors.New("non-repeated nodes in a list group are not supported")
-	}
-
-	repeatedAncestorDef := currentLevels.IncrementRepeated()
-	if listNode.Type() == schema.Group {
-		// Resolve 3-level encoding
-		//
-		// required/optional group name=whatever {
-		//   repeated group name=list {
-		//     required/optional TYPE item;
-		//   }
-		// }
-		//
-		// yields list<item: TYPE ?nullable> ?nullable
-		//
-		// We distinguish the special case that we have
-		//
-		// required/optional group name=whatever {
-		//   repeated group name=array or $SOMETHING_tuple {
-		//     required/optional TYPE item;
-		//   }
-		// }
-		//
-		// In this latter case, the inner type of the list should be a struct
-		// rather than a primitive value
-		//
-		// yields list<item: struct<item: TYPE ?nullable> not null> ?nullable
-		// Special case mentioned in the format spec:
-		//   If the name is array or ends in _tuple, this should be a list of struct
-		//   even for single child elements.
-		listGroup := listNode.(*schema.GroupNode)
-		if listGroup.NumFields() == 1 && !(listGroup.Name() == "array" || listGroup.Name() == (n.Name()+"_tuple")) {
-			// list of primitive type
-			if err := nodeToSchemaField(listGroup.Field(0), currentLevels, ctx, out, &out.Children[0]); err != nil {
-				return err
-			}
-		} else {
-			if err := groupToStructField(listGroup, currentLevels, ctx, out, &out.Children[0]); err != nil {
-				return err
-			}
-		}
-	} else {
-		// Two-level list encoding
-		//
-		// required/optional group LIST {
-		//   repeated TYPE;
-		// }
-		primitiveNode := listNode.(*schema.PrimitiveNode)
-		colIndex := ctx.schema.ColumnIndexByNode(primitiveNode)
-		arrowType, err := getArrowType(primitiveNode.PhysicalType(), primitiveNode.LogicalType(), primitiveNode.TypeLength())
-		if err != nil {
-			return err
-		}
-
-		if ctx.props.ReadDict(colIndex) && isDictionaryReadSupported(arrowType) {
-			arrowType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrowType}
-		}
-
-		itemField := arrow.Field{Name: listNode.Name(), Type: arrowType, Nullable: false, Metadata: createFieldMeta(int(listNode.FieldID()))}
-		populateLeaf(colIndex, &itemField, currentLevels, ctx, out, &out.Children[0])
-	}
-
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.ListOfField(
-		arrow.Field{Name: listNode.Name(), Type: out.Children[0].Field.Type, Nullable: true}),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional, Metadata: createFieldMeta(int(n.FieldID()))}
-
-	out.LevelInfo = currentLevels
-	// At this point current levels contains the def level for this list,
-	// we need to reset to the prior parent.
-	out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-	return nil
-}
-
-func groupToStructField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	arrowFields := make([]arrow.Field, 0, n.NumFields())
-	out.Children = make([]SchemaField, n.NumFields())
-
-	for i := 0; i < n.NumFields(); i++ {
-		if err := nodeToSchemaField(n.Field(i), currentLevels, ctx, out, &out.Children[i]); err != nil {
-			return err
-		}
-		arrowFields = append(arrowFields, *out.Children[i].Field)
-	}
-
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.StructOf(arrowFields...),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional, Metadata: createFieldMeta(int(n.FieldID()))}
-	out.LevelInfo = currentLevels
-	return nil
-}
-
-func mapToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.NumFields() != 1 {
-		return xerrors.New("MAP group must have exactly 1 child")
-	}
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		return xerrors.New("MAP groups must not be repeated")
-	}
-
-	keyvalueNode := n.Field(0)
-	if keyvalueNode.RepetitionType() != parquet.Repetitions.Repeated {
-		return xerrors.New("Non-repeated keyvalue group in MAP group is not supported")
-	}
-
-	if keyvalueNode.Type() != schema.Group {
-		return xerrors.New("keyvalue node must be a group")
-	}
-
-	kvgroup := keyvalueNode.(*schema.GroupNode)
-	if kvgroup.NumFields() != 1 && kvgroup.NumFields() != 2 {
-		return fmt.Errorf("keyvalue node group must have exactly 1 or 2 child elements, Found %d", kvgroup.NumFields())
-	}
-
-	keyNode := kvgroup.Field(0)
-	if keyNode.RepetitionType() != parquet.Repetitions.Required {
-		return xerrors.New("MAP keys must be required")
-	}
-
-	// Arrow doesn't support 1 column maps (i.e. Sets).  The options are to either
-	// make the values column nullable, or process the map as a list.  We choose the latter
-	// as it is simpler.
-	if kvgroup.NumFields() == 1 {
-		return listToSchemaField(n, currentLevels, ctx, parent, out)
-	}
-
-	currentLevels.Increment(n)
-	repeatedAncestorDef := currentLevels.IncrementRepeated()
-	out.Children = make([]SchemaField, 1)
-
-	kvfield := &out.Children[0]
-	kvfield.Children = make([]SchemaField, 2)
-
-	keyField := &kvfield.Children[0]
-	valueField := &kvfield.Children[1]
-
-	ctx.LinkParent(out, parent)
-	ctx.LinkParent(kvfield, out)
-	ctx.LinkParent(keyField, kvfield)
-	ctx.LinkParent(valueField, kvfield)
-
-	// required/optional group name=whatever {
-	//   repeated group name=key_values{
-	//     required TYPE key;
-	// required/optional TYPE value;
-	//   }
-	// }
-	//
-
-	if err := nodeToSchemaField(keyNode, currentLevels, ctx, kvfield, keyField); err != nil {
-		return err
-	}
-	if err := nodeToSchemaField(kvgroup.Field(1), currentLevels, ctx, kvfield, valueField); err != nil {
-		return err
-	}
-
-	kvfield.Field = &arrow.Field{Name: n.Name(), Type: arrow.StructOf(*keyField.Field, *valueField.Field),
-		Nullable: false, Metadata: createFieldMeta(int(kvgroup.FieldID()))}
-
-	kvfield.LevelInfo = currentLevels
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.MapOf(keyField.Field.Type, valueField.Field.Type),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional,
-		Metadata: createFieldMeta(int(n.FieldID()))}
-	out.LevelInfo = currentLevels
-	// At this point current levels contains the def level for this map,
-	// we need to reset to the prior parent.
-	out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-	return nil
-}
-
-func groupToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.LogicalType().Equals(schema.NewListLogicalType()) {
-		return listToSchemaField(n, currentLevels, ctx, parent, out)
-	} else if n.LogicalType().Equals(schema.MapLogicalType{}) {
-		return mapToSchemaField(n, currentLevels, ctx, parent, out)
-	}
-
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		// Simple repeated struct
-		//
-		// repeated group $NAME {
-		//   r/o TYPE[0] f0
-		//   r/o TYPE[1] f1
-		// }
-		out.Children = make([]SchemaField, 1)
-		repeatedAncestorDef := currentLevels.IncrementRepeated()
-		if err := groupToStructField(n, currentLevels, ctx, out, &out.Children[0]); err != nil {
-			return err
-		}
-
-		out.Field = &arrow.Field{Name: n.Name(), Type: arrow.ListOf(out.Children[0].Field.Type), Nullable: false,
-			Metadata: createFieldMeta(int(n.FieldID()))}
-		ctx.LinkParent(&out.Children[0], out)
-		out.LevelInfo = currentLevels
-		out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-		return nil
-	}
-
-	currentLevels.Increment(n)
-	return groupToStructField(n, currentLevels, ctx, parent, out)
-}
-
-func createFieldMeta(fieldID int) arrow.Metadata {
-	return arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{strconv.Itoa(fieldID)})
-}
-
-func nodeToSchemaField(n schema.Node, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	ctx.LinkParent(out, parent)
-
-	if n.Type() == schema.Group {
-		return groupToSchemaField(n.(*schema.GroupNode), currentLevels, ctx, parent, out)
-	}
-
-	// Either a normal flat primitive type, or a list type encoded with 1-level
-	// list encoding. Note that the 3-level encoding is the form recommended by
-	// the parquet specification, but technically we can have either
-	//
-	// required/optional $TYPE $FIELD_NAME
-	//
-	// or
-	//
-	// repeated $TYPE $FIELD_NAME
-
-	primitive := n.(*schema.PrimitiveNode)
-	colIndex := ctx.schema.ColumnIndexByNode(primitive)
-	arrowType, err := getArrowType(primitive.PhysicalType(), primitive.LogicalType(), primitive.TypeLength())
-	if err != nil {
-		return err
-	}
-
-	if ctx.props.ReadDict(colIndex) && isDictionaryReadSupported(arrowType) {
-		arrowType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrowType}
-	}
-
-	if primitive.RepetitionType() == parquet.Repetitions.Repeated {
-		// one-level list encoding e.g. a: repeated int32;
-		repeatedAncestorDefLevel := currentLevels.IncrementRepeated()
-		out.Children = make([]SchemaField, 1)
-		child := arrow.Field{Name: primitive.Name(), Type: arrowType, Nullable: false}
-		populateLeaf(colIndex, &child, currentLevels, ctx, out, &out.Children[0])
-		out.Field = &arrow.Field{Name: primitive.Name(), Type: arrow.ListOf(child.Type), Nullable: false,
-			Metadata: createFieldMeta(int(primitive.FieldID()))}
-		out.LevelInfo = currentLevels
-		out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDefLevel
-		return nil
-	}
-
-	currentLevels.Increment(n)
-	populateLeaf(colIndex, &arrow.Field{Name: n.Name(), Type: arrowType,
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional,
-		Metadata: createFieldMeta(int(n.FieldID()))},
-		currentLevels, ctx, parent, out)
-	return nil
-}
-
-func getOriginSchema(meta metadata.KeyValueMetadata, mem memory.Allocator) (*arrow.Schema, error) {
-	if meta == nil {
-		return nil, nil
-	}
-
-	const arrowSchemaKey = "ARROW:schema"
-	serialized := meta.FindValue(arrowSchemaKey)
-	if serialized == nil {
-		return nil, nil
-	}
-
-	var (
-		decoded []byte
-		err     error
-	)
-
-	// if the length of serialized is not a multiple of 4, it cannot be
-	// padded with std encoding.
-	if len(*serialized)%4 == 0 {
-		decoded, err = base64.StdEncoding.DecodeString(*serialized)
-	}
-	// if we failed to decode it with stdencoding or the length wasn't
-	// a multiple of 4, try using the Raw unpadded encoding
-	if len(decoded) == 0 || err != nil {
-		decoded, err = base64.RawStdEncoding.DecodeString(*serialized)
-	}
-
-	if err != nil {
-		return nil, err
-	}
-
-	return flight.DeserializeSchema(decoded, mem)
-}
-
-func getNestedFactory(origin, inferred arrow.DataType) func(fieldList []arrow.Field) arrow.DataType {
-	switch inferred.ID() {
-	case arrow.STRUCT:
-		if origin.ID() == arrow.STRUCT {
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.StructOf(list...)
-			}
-		}
-	case arrow.LIST:
-		switch origin.ID() {
-		case arrow.LIST:
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.ListOf(list[0].Type)
-			}
-		case arrow.FIXED_SIZE_LIST:
-			sz := origin.(*arrow.FixedSizeListType).Len()
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.FixedSizeListOf(sz, list[0].Type)
-			}
-		}
-	case arrow.MAP:
-		if origin.ID() == arrow.MAP {
-			return func(list []arrow.Field) arrow.DataType {
-				valType := list[0].Type.(*arrow.StructType)
-				return arrow.MapOf(valType.Field(0).Type, valType.Field(1).Type)
-			}
-		}
-	}
-	return nil
-}
-
-func applyOriginalStorageMetadata(origin arrow.Field, inferred *SchemaField) (modified bool, err error) {
-	nchildren := len(inferred.Children)
-	switch origin.Type.ID() {
-	case arrow.EXTENSION:
-		extType := origin.Type.(arrow.ExtensionType)
-		modified, err = applyOriginalStorageMetadata(arrow.Field{
-			Type:     extType.StorageType(),
-			Metadata: origin.Metadata,
-		}, inferred)
-		if err != nil {
-			return
-		}
-
-		if !arrow.TypeEqual(extType.StorageType(), inferred.Field.Type) {
-			return modified, fmt.Errorf("%w: mismatch storage type '%s' for extension type '%s'",
-				arrow.ErrInvalid, inferred.Field.Type, extType)
-		}
-
-		inferred.Field.Type = extType
-		modified = true
-	case arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		err = xerrors.New("unimplemented type")
-	case arrow.STRUCT:
-		typ := origin.Type.(*arrow.StructType)
-		if nchildren != typ.NumFields() {
-			return
-		}
-
-		factory := getNestedFactory(typ, inferred.Field.Type)
-		if factory == nil {
-			return
-		}
-
-		modified = typ.ID() != inferred.Field.Type.ID()
-		for idx := range inferred.Children {
-			childMod, err := applyOriginalMetadata(typ.Field(idx), &inferred.Children[idx])
-			if err != nil {
-				return false, err
-			}
-			modified = modified || childMod
-		}
-		if modified {
-			modifiedChildren := make([]arrow.Field, len(inferred.Children))
-			for idx, child := range inferred.Children {
-				modifiedChildren[idx] = *child.Field
-			}
-			inferred.Field.Type = factory(modifiedChildren)
-		}
-	case arrow.FIXED_SIZE_LIST, arrow.LIST, arrow.LARGE_LIST, arrow.MAP: // arrow.ListLike
-		if nchildren != 1 {
-			return
-		}
-		factory := getNestedFactory(origin.Type, inferred.Field.Type)
-		if factory == nil {
-			return
-		}
-
-		modified = origin.Type.ID() != inferred.Field.Type.ID()
-		childModified, err := applyOriginalMetadata(arrow.Field{Type: origin.Type.(arrow.ListLikeType).Elem()}, &inferred.Children[0])
-		if err != nil {
-			return modified, err
-		}
-		modified = modified || childModified
-		if modified {
-			inferred.Field.Type = factory([]arrow.Field{*inferred.Children[0].Field})
-		}
-	case arrow.TIMESTAMP:
-		if inferred.Field.Type.ID() != arrow.TIMESTAMP {
-			return
-		}
-
-		tsOtype := origin.Type.(*arrow.TimestampType)
-		tsInfType := inferred.Field.Type.(*arrow.TimestampType)
-
-		// if the unit is the same and the data is tz-aware, then set the original time zone
-		// since parquet has no native storage of timezones
-		if tsOtype.Unit == tsInfType.Unit && tsInfType.TimeZone == "UTC" && tsOtype.TimeZone != "" {
-			inferred.Field.Type = origin.Type
-		}
-		modified = true
-	case arrow.LARGE_STRING, arrow.LARGE_BINARY:
-		inferred.Field.Type = origin.Type
-		modified = true
-	case arrow.DICTIONARY:
-		if origin.Type.ID() != arrow.DICTIONARY || (inferred.Field.Type.ID() == arrow.DICTIONARY || !isDictionaryReadSupported(inferred.Field.Type)) {
-			return
-		}
-
-		// direct dictionary reads are only supported for a few primitive types
-		// so no need to recurse on value types
-		dictOriginType := origin.Type.(*arrow.DictionaryType)
-		inferred.Field.Type = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32,
-			ValueType: inferred.Field.Type, Ordered: dictOriginType.Ordered}
-		modified = true
-	case arrow.DECIMAL256:
-		if inferred.Field.Type.ID() == arrow.DECIMAL128 {
-			inferred.Field.Type = origin.Type
-			modified = true
-		}
-	}
-
-	if origin.HasMetadata() {
-		meta := origin.Metadata
-		if inferred.Field.HasMetadata() {
-			final := make(map[string]string)
-			for idx, k := range meta.Keys() {
-				final[k] = meta.Values()[idx]
-			}
-			for idx, k := range inferred.Field.Metadata.Keys() {
-				final[k] = inferred.Field.Metadata.Values()[idx]
-			}
-			inferred.Field.Metadata = arrow.MetadataFrom(final)
-		} else {
-			inferred.Field.Metadata = meta
-		}
-		modified = true
-	}
-
-	return
-}
-
-func applyOriginalMetadata(origin arrow.Field, inferred *SchemaField) (bool, error) {
-	return applyOriginalStorageMetadata(origin, inferred)
-}
-
-// NewSchemaManifest creates a manifest for mapping a parquet schema to a given arrow schema.
-//
-// The metadata passed in should be the file level key value metadata from the parquet file or nil.
-// If the ARROW:schema was in the metadata, then it is utilized to determine types.
-func NewSchemaManifest(sc *schema.Schema, meta metadata.KeyValueMetadata, props *ArrowReadProperties) (*SchemaManifest, error) {
-	var ctx schemaTree
-	ctx.manifest = &SchemaManifest{
-		ColIndexToField: make(map[int]*SchemaField),
-		ChildToParent:   make(map[*SchemaField]*SchemaField),
-		descr:           sc,
-		Fields:          make([]SchemaField, sc.Root().NumFields()),
-	}
-	ctx.props = props
-	if ctx.props == nil {
-		ctx.props = &ArrowReadProperties{}
-	}
-	ctx.schema = sc
-
-	var err error
-	ctx.manifest.OriginSchema, err = getOriginSchema(meta, memory.DefaultAllocator)
-	if err != nil {
-		return nil, err
-	}
-
-	// if original schema is not compatible with the parquet schema, ignore it
-	if ctx.manifest.OriginSchema != nil && len(ctx.manifest.OriginSchema.Fields()) != sc.Root().NumFields() {
-		ctx.manifest.OriginSchema = nil
-	}
-
-	for idx := range ctx.manifest.Fields {
-		field := &ctx.manifest.Fields[idx]
-		if err := nodeToSchemaField(sc.Root().Field(idx), file.LevelInfo{NullSlotUsage: 1}, &ctx, nil, field); err != nil {
-			return nil, err
-		}
-
-		if ctx.manifest.OriginSchema != nil {
-			if _, err := applyOriginalMetadata(ctx.manifest.OriginSchema.Field(idx), field); err != nil {
-				return nil, err
-			}
-		}
-	}
-	return ctx.manifest, nil
-}
-
-// FromParquet generates an arrow Schema from a provided Parquet Schema
-func FromParquet(sc *schema.Schema, props *ArrowReadProperties, kv metadata.KeyValueMetadata) (*arrow.Schema, error) {
-	manifest, err := NewSchemaManifest(sc, kv, props)
-	if err != nil {
-		return nil, err
-	}
-
-	fields := make([]arrow.Field, len(manifest.Fields))
-	for idx, field := range manifest.Fields {
-		fields[idx] = *field.Field
-	}
-
-	if manifest.OriginSchema != nil {
-		meta := manifest.OriginSchema.Metadata()
-		return arrow.NewSchema(fields, &meta), nil
-	}
-	return arrow.NewSchema(fields, manifest.SchemaMeta), nil
-}
diff --git a/go/parquet/pqarrow/schema_test.go b/go/parquet/pqarrow/schema_test.go
deleted file mode 100644
index 528200fd0e7d9..0000000000000
--- a/go/parquet/pqarrow/schema_test.go
+++ /dev/null
@@ -1,450 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"encoding/base64"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestGetOriginSchemaBase64(t *testing.T) {
-	uuidType := extensions.NewUUIDType()
-	md := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	extMd := arrow.NewMetadata([]string{ipc.ExtensionMetadataKeyName, ipc.ExtensionTypeKeyName, "PARQUET:field_id"}, []string{uuidType.Serialize(), uuidType.ExtensionName(), "-1"})
-	origArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType, Metadata: extMd},
-	}, nil)
-
-	arrSerializedSc := flight.SerializeSchema(origArrSc, memory.DefaultAllocator)
-	pqschema, err := pqarrow.ToParquet(origArrSc, nil, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	tests := []struct {
-		name string
-		enc  *base64.Encoding
-	}{
-		{"raw", base64.RawStdEncoding},
-		{"std", base64.StdEncoding},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			kv := metadata.NewKeyValueMetadata()
-			kv.Append("ARROW:schema", tt.enc.EncodeToString(arrSerializedSc))
-			arrsc, err := pqarrow.FromParquet(pqschema, nil, kv)
-			assert.NoError(t, err)
-			assert.True(t, origArrSc.Equal(arrsc))
-		})
-	}
-}
-
-func TestGetOriginSchemaUnregisteredExtension(t *testing.T) {
-	uuidType := extensions.NewUUIDType()
-	md := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	origArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType, Metadata: md},
-	}, nil)
-	pqschema, err := pqarrow.ToParquet(origArrSc, nil, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	arrSerializedSc := flight.SerializeSchema(origArrSc, memory.DefaultAllocator)
-	kv := metadata.NewKeyValueMetadata()
-	kv.Append("ARROW:schema", base64.StdEncoding.EncodeToString(arrSerializedSc))
-
-	arrow.UnregisterExtensionType(uuidType.ExtensionName())
-	defer arrow.RegisterExtensionType(uuidType)
-	arrsc, err := pqarrow.FromParquet(pqschema, nil, kv)
-	require.NoError(t, err)
-
-	extMd := arrow.NewMetadata([]string{ipc.ExtensionMetadataKeyName, ipc.ExtensionTypeKeyName, "PARQUET:field_id"},
-		[]string{uuidType.Serialize(), uuidType.ExtensionName(), "-1"})
-	expArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType.StorageType(), Metadata: extMd},
-	}, nil)
-
-	assert.Truef(t, expArrSc.Equal(arrsc), "expected: %s\ngot: %s", expArrSc, arrsc)
-}
-
-func TestToParquetWriterConfig(t *testing.T) {
-	origSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64},
-	}, nil)
-
-	tests := []struct {
-		name           string
-		rootRepetition parquet.Repetition
-	}{
-		{"test1", parquet.Repetitions.Required},
-		{"test2", parquet.Repetitions.Repeated},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-
-			pqschema, err := pqarrow.ToParquet(origSc,
-				parquet.NewWriterProperties(
-					parquet.WithRootName(tt.name),
-					parquet.WithRootRepetition(tt.rootRepetition),
-				),
-				pqarrow.DefaultWriterProps())
-			require.NoError(t, err)
-
-			assert.Equal(t, tt.name, pqschema.Root().Name())
-			assert.Equal(t, tt.rootRepetition, pqschema.Root().RepetitionType())
-		})
-	}
-}
-
-func TestConvertArrowFlatPrimitives(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.NewBooleanNode("boolean", parquet.Repetitions.Required, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "boolean", Type: arrow.FixedWidthTypes.Boolean, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int8", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(8, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int8", Type: arrow.PrimitiveTypes.Int8, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint8", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(8, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint8", Type: arrow.PrimitiveTypes.Uint8, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int16", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(16, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int16", Type: arrow.PrimitiveTypes.Int16, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint16", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(16, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint16", Type: arrow.PrimitiveTypes.Uint16, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int32", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint32", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(32, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint32", Type: arrow.PrimitiveTypes.Uint32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int64", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(64, true), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int64", Type: arrow.PrimitiveTypes.Int64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint64", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(64, false), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint64", Type: arrow.PrimitiveTypes.Uint64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeConverted("timestamp", parquet.Repetitions.Required,
-		parquet.Types.Int64, schema.ConvertedTypes.TimestampMillis, 0, 0, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeConverted("timestamp[us]", parquet.Repetitions.Required,
-		parquet.Types.Int64, schema.ConvertedTypes.TimestampMicros, 0, 0, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp[us]", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("date", parquet.Repetitions.Required,
-		schema.DateLogicalType{}, parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("date64", parquet.Repetitions.Required,
-		schema.DateLogicalType{}, parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "date64", Type: arrow.FixedWidthTypes.Date64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("time32", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMillis), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "time32", Type: arrow.FixedWidthTypes.Time32ms, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("time64", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "time64", Type: arrow.FixedWidthTypes.Time64us, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.NewInt96Node("timestamp96", parquet.Repetitions.Required, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp96", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.NewFloat32Node("float", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "float", Type: arrow.PrimitiveTypes.Float32, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewFloat64Node("double", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "double", Type: arrow.PrimitiveTypes.Float64, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewByteArrayNode("binary", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "binary", Type: arrow.BinaryTypes.Binary, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("string", parquet.Repetitions.Optional,
-		schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewFixedLenByteArrayNode("flba-binary", parquet.Repetitions.Optional, 12, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "flba-binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 12}, Nullable: true})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowParquetLists(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.MustGroup(schema.ListOf(schema.Must(schema.NewPrimitiveNodeLogical("my_list",
-		parquet.Repetitions.Optional, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)), parquet.Repetitions.Required, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "my_list", Type: arrow.ListOf(arrow.BinaryTypes.String)})
-
-	parquetFields = append(parquetFields, schema.MustGroup(schema.ListOf(schema.Must(schema.NewPrimitiveNodeLogical("my_list",
-		parquet.Repetitions.Optional, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)), parquet.Repetitions.Optional, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "my_list", Type: arrow.ListOf(arrow.BinaryTypes.String), Nullable: true})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result), parquetSchema.String(), result.String())
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowDecimals(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_8_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(8, 4), parquet.Types.FixedLenByteArray, 4, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_8_4", Type: &arrow.Decimal128Type{Precision: 8, Scale: 4}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_20_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(20, 4), parquet.Types.FixedLenByteArray, 9, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_20_4", Type: &arrow.Decimal128Type{Precision: 20, Scale: 4}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_77_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(77, 4), parquet.Types.FixedLenByteArray, 34, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_77_4", Type: &arrow.Decimal128Type{Precision: 77, Scale: 4}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowFloat16(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("float16", parquet.Repetitions.Required,
-		schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "float16", Type: &arrow.Float16Type{}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestCoerceTImestampV1(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "EST"}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)), pqarrow.NewArrowWriterProperties(pqarrow.WithCoerceTimestamps(arrow.Microsecond)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestAutoCoerceTImestampV1(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "EST"}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp[ms]", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(false, schema.TimeUnitMillis), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp[ms]", Type: &arrow.TimestampType{Unit: arrow.Second}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)), pqarrow.NewArrowWriterProperties())
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowStruct(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("leaf1", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)))
-	parquetFields = append(parquetFields, schema.Must(schema.NewGroupNode("outerGroup", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("leaf2", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)),
-		schema.Must(schema.NewGroupNode("innerGroup", parquet.Repetitions.Required, schema.FieldList{
-			schema.Must(schema.NewPrimitiveNodeLogical("leaf3", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)),
-		}, -1)),
-	}, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "leaf1", Type: arrow.PrimitiveTypes.Int32, Nullable: true})
-	arrowFields = append(arrowFields, arrow.Field{Name: "outerGroup", Type: arrow.StructOf(
-		arrow.Field{Name: "leaf2", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "innerGroup", Type: arrow.StructOf(
-			arrow.Field{Name: "leaf3", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		)},
-	)})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties())
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestListStructBackwardCompatible(t *testing.T) {
-	// Set up old construction for list of struct, not using
-	// the 3-level encoding. Schema looks like:
-	//
-	//     required group field_id=-1 root {
-	//       optional group field_id=-1 answers (List) {
-	//		   repeated group field_id=-1 array {
-	//           optional byte_array field_id=-1 type (String);
-	//           optional byte_array field_id=-1 rdata (String);
-	//           optional byte_array field_id=-1 class (String);
-	//         }
-	//       }
-	//     }
-	//
-	// Instead of the proper 3-level encoding which would be:
-	//
-	//     repeated group field_id=-1 schema {
-	//       optional group field_id=-1 answers (List) {
-	//         repeated group field_id=-1 list {
-	//           optional group field_id=-1 element {
-	//             optional byte_array field_id=-1 type (String);
-	//             optional byte_array field_id=-1 rdata (String);
-	//             optional byte_array field_id=-1 class (String);
-	//           }
-	//         }
-	//       }
-	//     }
-	//
-	pqSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("root", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewGroupNodeLogical("answers", parquet.Repetitions.Optional, schema.FieldList{
-			schema.Must(schema.NewGroupNode("array", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("type", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("rdata", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("class", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)),
-	}, -1)))
-
-	meta := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	// desired equivalent arrow schema would be list<item: struct<type: utf8, rdata: utf8, class: utf8>>
-	arrowSchema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "answers", Type: arrow.ListOfField(arrow.Field{
-				Name: "array", Type: arrow.StructOf(
-					arrow.Field{Name: "type", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-					arrow.Field{Name: "rdata", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-					arrow.Field{Name: "class", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-				), Nullable: true}), Nullable: true, Metadata: meta},
-		}, nil)
-
-	arrsc, err := pqarrow.FromParquet(pqSchema, nil, metadata.KeyValueMetadata{})
-	assert.NoError(t, err)
-	assert.True(t, arrowSchema.Equal(arrsc))
-}
-
-// TestUnsupportedTypes tests the error message for unsupported types. This test should be updated
-// when support for these types is added.
-func TestUnsupportedTypes(t *testing.T) {
-	unsupportedTypes := []struct {
-		typ arrow.DataType
-	}{
-		// Non-exhaustive list of unsupported types
-		{typ: &arrow.DurationType{}},
-		{typ: &arrow.DayTimeIntervalType{}},
-		{typ: &arrow.MonthIntervalType{}},
-		{typ: &arrow.MonthDayNanoIntervalType{}},
-		{typ: &arrow.DenseUnionType{}},
-		{typ: &arrow.SparseUnionType{}},
-	}
-	for _, tc := range unsupportedTypes {
-		t.Run(tc.typ.ID().String(), func(t *testing.T) {
-			arrowFields := make([]arrow.Field, 0)
-			arrowFields = append(arrowFields, arrow.Field{Name: "unsupported", Type: tc.typ, Nullable: true})
-			arrowSchema := arrow.NewSchema(arrowFields, nil)
-			_, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties())
-			assert.ErrorIs(t, err, arrow.ErrNotImplemented)
-			assert.ErrorContains(t, err, "support for "+tc.typ.ID().String())
-		})
-	}
-}
diff --git a/go/parquet/reader_properties.go b/go/parquet/reader_properties.go
deleted file mode 100644
index a9db8efaffb23..0000000000000
--- a/go/parquet/reader_properties.go
+++ /dev/null
@@ -1,88 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// ReaderProperties are used to define how the file reader will handle buffering and allocating buffers
-type ReaderProperties struct {
-	alloc memory.Allocator
-	// Default buffer size to utilize when reading chunks, when reading page
-	// headers or other metadata, this buffer may be increased if necessary
-	// to read in the necessary metadata. The value here is simply the default
-	// initial BufferSize when reading a new chunk.
-	BufferSize int64
-	// create with NewFileDecryptionProperties if dealing with an encrypted file
-	FileDecryptProps *FileDecryptionProperties
-	// If this is set to true, then the reader will use SectionReader to
-	// just use the read stream when reading data. Otherwise we will buffer
-	// the data we're going to read into memory first and then read that buffer.
-	//
-	// If reading from higher latency IO, like S3, it might improve performance to
-	// set this to true in order to read the entire row group in at once rather than
-	// make multiple smaller data requests. For low latency IO streams or if only
-	// reading small portions / subsets  of the parquet file, this can be set to false
-	// to reduce the amount of IO performed in order to avoid reading excess amounts of data.
-	BufferedStreamEnabled bool
-}
-
-type BufferedReader interface {
-	Peek(int) ([]byte, error)
-	Discard(int) (int, error)
-	io.Reader
-}
-
-// NewReaderProperties returns the default Reader Properties using the provided allocator.
-//
-// If nil is passed for the allocator, then memory.DefaultAllocator will be used.
-func NewReaderProperties(alloc memory.Allocator) *ReaderProperties {
-	if alloc == nil {
-		alloc = memory.DefaultAllocator
-	}
-	return &ReaderProperties{alloc, DefaultBufSize, nil, false}
-}
-
-// Allocator returns the allocator that the properties were initialized with
-func (r *ReaderProperties) Allocator() memory.Allocator { return r.alloc }
-
-// GetStream returns a section of the underlying reader based on whether or not BufferedStream is enabled.
-//
-// If BufferedStreamEnabled is true, it creates an io.SectionReader, otherwise it will read the entire section
-// into a buffer in memory and return a bytes.NewReader for that buffer.
-func (r *ReaderProperties) GetStream(source io.ReaderAt, start, nbytes int64) (BufferedReader, error) {
-	if r.BufferedStreamEnabled {
-		return utils.NewBufferedReader(io.NewSectionReader(source, start, nbytes), int(r.BufferSize)), nil
-	}
-
-	data := make([]byte, nbytes)
-	n, err := source.ReadAt(data, start)
-	if err != nil {
-		return nil, fmt.Errorf("parquet: tried reading from file, but got error: %w", err)
-	}
-	if n != int(nbytes) {
-		return nil, fmt.Errorf("parquet: tried reading %d bytes starting at position %d from file but only got %d", nbytes, start, n)
-	}
-
-	return utils.NewBufferedReader(bytes.NewReader(data), int(nbytes)), nil
-}
diff --git a/go/parquet/reader_writer_properties_test.go b/go/parquet/reader_writer_properties_test.go
deleted file mode 100644
index f07219c6463aa..0000000000000
--- a/go/parquet/reader_writer_properties_test.go
+++ /dev/null
@@ -1,73 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestReaderPropBasics(t *testing.T) {
-	props := parquet.NewReaderProperties(nil)
-	assert.Equal(t, parquet.DefaultBufSize, props.BufferSize)
-	assert.False(t, props.BufferedStreamEnabled)
-}
-
-func TestWriterPropBasics(t *testing.T) {
-	props := parquet.NewWriterProperties()
-
-	assert.Equal(t, parquet.DefaultDataPageSize, props.DataPageSize())
-	assert.Equal(t, parquet.DefaultDictionaryPageSizeLimit, props.DictionaryPageSizeLimit())
-	assert.Equal(t, parquet.V2_LATEST, props.Version())
-	assert.Equal(t, parquet.DataPageV1, props.DataPageVersion())
-}
-
-func TestWriterPropAdvanced(t *testing.T) {
-	props := parquet.NewWriterProperties(
-		parquet.WithCompressionFor("gzip", compress.Codecs.Gzip),
-		parquet.WithCompressionFor("zstd", compress.Codecs.Zstd),
-		parquet.WithCompression(compress.Codecs.Snappy),
-		parquet.WithEncoding(parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("delta-length", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithRootName("test2"),
-		parquet.WithRootRepetition(parquet.Repetitions.Required))
-
-	assert.Equal(t, compress.Codecs.Gzip, props.CompressionPath(parquet.ColumnPathFromString("gzip")))
-	assert.Equal(t, compress.Codecs.Zstd, props.CompressionFor("zstd"))
-	assert.Equal(t, compress.Codecs.Snappy, props.CompressionPath(parquet.ColumnPathFromString("delta-length")))
-	assert.Equal(t, parquet.Encodings.DeltaBinaryPacked, props.EncodingFor("gzip"))
-	assert.Equal(t, parquet.Encodings.DeltaLengthByteArray, props.EncodingPath(parquet.ColumnPathFromString("delta-length")))
-	assert.Equal(t, parquet.DataPageV2, props.DataPageVersion())
-	assert.Equal(t, "test2", props.RootName())
-	assert.Equal(t, parquet.Repetitions.Required, props.RootRepetition())
-}
-
-func TestReaderPropsGetStreamInsufficient(t *testing.T) {
-	data := "shorter than expected"
-	buf := memory.NewBufferBytes([]byte(data))
-	rdr := bytes.NewReader(buf.Bytes())
-
-	props := parquet.NewReaderProperties(nil)
-	_, err := props.GetStream(rdr, 12, 15)
-	assert.Error(t, err)
-}
diff --git a/go/parquet/schema/column.go b/go/parquet/schema/column.go
deleted file mode 100644
index e3cd9f709cddb..0000000000000
--- a/go/parquet/schema/column.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Column encapsulates the information necessary to interpret primitive
-// column data in the context of a particular schema. We have to examine
-// the node structure of a column's path to the root in the schema tree
-// to be able to reassemble the nested structure from the repetition and
-// definition levels.
-type Column struct {
-	pnode *PrimitiveNode
-	// the maximum definition level in this column
-	// if this is > 0 then either this column or a parent column must be optional.
-	maxDefLvl int16
-	// the maximum repetition level in this column
-	// if this is > 0, then either this column or a parent column must be repeated.
-	// when the repetition level in the column data equals this value, it indicates
-	// additional elements in the innermost list.
-	maxRepLvl int16
-}
-
-// NewColumn returns a new column object for the given node with the provided
-// maximum definition and repetition levels.
-func NewColumn(n *PrimitiveNode, maxDefinitionLvl, maxRepetitionLvl int16) *Column {
-	return &Column{n, maxDefinitionLvl, maxRepetitionLvl}
-}
-
-// Name is the column's name
-func (c *Column) Name() string { return c.pnode.Name() }
-
-// ColumnPath returns the full path to this column from the root of the schema
-func (c *Column) ColumnPath() parquet.ColumnPath { return c.pnode.columnPath() }
-
-// Path is equivalent to ColumnPath().String() returning the dot-string version of the path
-func (c *Column) Path() string { return c.pnode.Path() }
-
-// TypeLength is -1 if not a FixedLenByteArray, otherwise it is the length of elements in the column
-func (c *Column) TypeLength() int { return c.pnode.TypeLength() }
-
-func (c *Column) MaxDefinitionLevel() int16        { return c.maxDefLvl }
-func (c *Column) MaxRepetitionLevel() int16        { return c.maxRepLvl }
-func (c *Column) PhysicalType() parquet.Type       { return c.pnode.PhysicalType() }
-func (c *Column) ConvertedType() ConvertedType     { return c.pnode.convertedType }
-func (c *Column) LogicalType() LogicalType         { return c.pnode.logicalType }
-func (c *Column) ColumnOrder() parquet.ColumnOrder { return c.pnode.ColumnOrder }
-func (c *Column) String() string {
-	var bld strings.Builder
-	bld.WriteString("column descriptor = {\n")
-	fmt.Fprintf(&bld, "  name: %s,\n", c.Name())
-	fmt.Fprintf(&bld, "  path: %s,\n", c.Path())
-	fmt.Fprintf(&bld, "  physical_type: %s,\n", c.PhysicalType())
-	fmt.Fprintf(&bld, "  converted_type: %s,\n", c.ConvertedType())
-	fmt.Fprintf(&bld, "  logical_type: %s,\n", c.LogicalType())
-	fmt.Fprintf(&bld, "  max_definition_level: %d,\n", c.MaxDefinitionLevel())
-	fmt.Fprintf(&bld, "  max_repetition_level: %d,\n", c.MaxRepetitionLevel())
-	if c.PhysicalType() == parquet.Types.FixedLenByteArray {
-		fmt.Fprintf(&bld, "  length: %d,\n", c.TypeLength())
-	}
-	if c.ConvertedType() == ConvertedTypes.Decimal {
-		fmt.Fprintf(&bld, "  precision: %d,\n  scale: %d,\n", c.pnode.decimalMetaData.Precision, c.pnode.decimalMetaData.Scale)
-	}
-	bld.WriteString("}")
-	return bld.String()
-}
-
-// Equals will return true if the rhs Column has the same Max Repetition and Definition levels
-// along with having the same node definition.
-func (c *Column) Equals(rhs *Column) bool {
-	return c.pnode.Equals(rhs.pnode) &&
-		c.MaxRepetitionLevel() == rhs.MaxRepetitionLevel() &&
-		c.MaxDefinitionLevel() == rhs.MaxDefinitionLevel()
-}
-
-// SchemaNode returns the underlying Node in the schema tree for this column.
-func (c *Column) SchemaNode() Node {
-	return c.pnode
-}
-
-// SortOrder returns the sort order of this column's statistics based on the
-// Logical and Converted types.
-func (c *Column) SortOrder() SortOrder {
-	if c.LogicalType() != nil {
-		return GetLogicalSortOrder(c.LogicalType(), format.Type(c.pnode.PhysicalType()))
-	}
-	return GetSortOrder(c.ConvertedType(), format.Type(c.pnode.PhysicalType()))
-}
diff --git a/go/parquet/schema/converted_types.go b/go/parquet/schema/converted_types.go
deleted file mode 100644
index b2b6f50cbf682..0000000000000
--- a/go/parquet/schema/converted_types.go
+++ /dev/null
@@ -1,187 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// ConvertedType corresponds to the ConvertedType in the parquet.Thrift,
-// with added values of None and NA for handling when these values are not
-// set in the metadata
-type ConvertedType format.ConvertedType
-
-var (
-	// ConvertedTypes is a struct containing the constants for the types
-	// to make it easy to reference them while making it clear what they are
-	ConvertedTypes = struct {
-		None            ConvertedType
-		UTF8            ConvertedType
-		Map             ConvertedType
-		MapKeyValue     ConvertedType
-		List            ConvertedType
-		Enum            ConvertedType
-		Decimal         ConvertedType
-		Date            ConvertedType
-		TimeMillis      ConvertedType
-		TimeMicros      ConvertedType
-		TimestampMillis ConvertedType
-		TimestampMicros ConvertedType
-		Uint8           ConvertedType
-		Uint16          ConvertedType
-		Uint32          ConvertedType
-		Uint64          ConvertedType
-		Int8            ConvertedType
-		Int16           ConvertedType
-		Int32           ConvertedType
-		Int64           ConvertedType
-		JSON            ConvertedType
-		BSON            ConvertedType
-		Interval        ConvertedType
-		NA              ConvertedType
-	}{
-		None:            -1, // thrift enum starts at 0, so we know this will not be used
-		UTF8:            ConvertedType(format.ConvertedType_UTF8),
-		Map:             ConvertedType(format.ConvertedType_MAP),
-		MapKeyValue:     ConvertedType(format.ConvertedType_MAP_KEY_VALUE),
-		List:            ConvertedType(format.ConvertedType_LIST),
-		Enum:            ConvertedType(format.ConvertedType_ENUM),
-		Decimal:         ConvertedType(format.ConvertedType_DECIMAL),
-		Date:            ConvertedType(format.ConvertedType_DATE),
-		TimeMillis:      ConvertedType(format.ConvertedType_TIME_MILLIS),
-		TimeMicros:      ConvertedType(format.ConvertedType_TIME_MICROS),
-		TimestampMillis: ConvertedType(format.ConvertedType_TIMESTAMP_MILLIS),
-		TimestampMicros: ConvertedType(format.ConvertedType_TIMESTAMP_MICROS),
-		Uint8:           ConvertedType(format.ConvertedType_UINT_8),
-		Uint16:          ConvertedType(format.ConvertedType_UINT_16),
-		Uint32:          ConvertedType(format.ConvertedType_UINT_32),
-		Uint64:          ConvertedType(format.ConvertedType_UINT_64),
-		Int8:            ConvertedType(format.ConvertedType_INT_8),
-		Int16:           ConvertedType(format.ConvertedType_INT_16),
-		Int32:           ConvertedType(format.ConvertedType_INT_32),
-		Int64:           ConvertedType(format.ConvertedType_INT_64),
-		JSON:            ConvertedType(format.ConvertedType_JSON),
-		BSON:            ConvertedType(format.ConvertedType_BSON),
-		Interval:        ConvertedType(format.ConvertedType_INTERVAL),
-		NA:              24, // should always be the last values after Interval
-	}
-)
-
-func (p ConvertedType) String() string {
-	switch p {
-	case ConvertedTypes.None:
-		return "NONE"
-	case ConvertedTypes.NA:
-		return "UNKNOWN"
-	default:
-		return format.ConvertedType(p).String()
-	}
-}
-
-// ToLogicalType returns the correct LogicalType for the given ConvertedType, using the decimal
-// metadata provided to define the precision/scale if necessary
-func (p ConvertedType) ToLogicalType(convertedDecimal DecimalMetadata) LogicalType {
-	switch p {
-	case ConvertedTypes.UTF8:
-		return StringLogicalType{}
-	case ConvertedTypes.Map, ConvertedTypes.MapKeyValue:
-		return MapLogicalType{}
-	case ConvertedTypes.List:
-		return ListLogicalType{}
-	case ConvertedTypes.Enum:
-		return EnumLogicalType{}
-	case ConvertedTypes.Decimal:
-		return NewDecimalLogicalType(convertedDecimal.Precision, convertedDecimal.Scale)
-	case ConvertedTypes.Date:
-		return DateLogicalType{}
-	case ConvertedTypes.TimeMillis:
-		return NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitMillis)
-	case ConvertedTypes.TimeMicros:
-		return NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitMicros)
-	case ConvertedTypes.TimestampMillis:
-		return NewTimestampLogicalTypeWithOpts(WithTSIsAdjustedToUTC(), WithTSTimeUnitType(TimeUnitMillis), WithTSFromConverted())
-	case ConvertedTypes.TimestampMicros:
-		return NewTimestampLogicalTypeWithOpts(WithTSIsAdjustedToUTC(), WithTSTimeUnitType(TimeUnitMicros), WithTSFromConverted())
-	case ConvertedTypes.Interval:
-		return IntervalLogicalType{}
-	case ConvertedTypes.Int8:
-		return NewIntLogicalType(8 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int16:
-		return NewIntLogicalType(16 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int32:
-		return NewIntLogicalType(32 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int64:
-		return NewIntLogicalType(64 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Uint8:
-		return NewIntLogicalType(8 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint16:
-		return NewIntLogicalType(16 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint32:
-		return NewIntLogicalType(32 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint64:
-		return NewIntLogicalType(64 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.JSON:
-		return JSONLogicalType{}
-	case ConvertedTypes.BSON:
-		return BSONLogicalType{}
-	case ConvertedTypes.None:
-		return NoLogicalType{}
-	case ConvertedTypes.NA:
-		fallthrough
-	default:
-		return UnknownLogicalType{}
-	}
-}
-
-// GetSortOrder defaults to the sort order based on the physical type if convert
-// is ConvertedTypes.None, otherwise determines the sort order by the converted type.
-func GetSortOrder(convert ConvertedType, primitive format.Type) SortOrder {
-	if convert == ConvertedTypes.None {
-		return DefaultSortOrder(primitive)
-	}
-	switch convert {
-	case ConvertedTypes.Int8,
-		ConvertedTypes.Int16,
-		ConvertedTypes.Int32,
-		ConvertedTypes.Int64,
-		ConvertedTypes.Date,
-		ConvertedTypes.TimeMicros,
-		ConvertedTypes.TimeMillis,
-		ConvertedTypes.TimestampMicros,
-		ConvertedTypes.TimestampMillis,
-		ConvertedTypes.Decimal:
-		return SortSIGNED
-	case ConvertedTypes.Uint8,
-		ConvertedTypes.Uint16,
-		ConvertedTypes.Uint32,
-		ConvertedTypes.Uint64,
-		ConvertedTypes.Enum,
-		ConvertedTypes.UTF8,
-		ConvertedTypes.BSON,
-		ConvertedTypes.JSON:
-		return SortUNSIGNED
-	case ConvertedTypes.List,
-		ConvertedTypes.Map,
-		ConvertedTypes.MapKeyValue,
-		ConvertedTypes.Interval,
-		ConvertedTypes.None,
-		ConvertedTypes.NA:
-		return SortUNKNOWN
-	default:
-		return SortUNKNOWN
-	}
-}
diff --git a/go/parquet/schema/converted_types_test.go b/go/parquet/schema/converted_types_test.go
deleted file mode 100644
index 074bcb823942a..0000000000000
--- a/go/parquet/schema/converted_types_test.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestConvertedTypesToString(t *testing.T) {
-	assert.Equal(t, "NONE", schema.ConvertedTypes.None.String())
-	assert.Equal(t, "UTF8", schema.ConvertedTypes.UTF8.String())
-	assert.Equal(t, "MAP", schema.ConvertedTypes.Map.String())
-	assert.Equal(t, "MAP_KEY_VALUE", schema.ConvertedTypes.MapKeyValue.String())
-	assert.Equal(t, "LIST", schema.ConvertedTypes.List.String())
-	assert.Equal(t, "ENUM", schema.ConvertedTypes.Enum.String())
-	assert.Equal(t, "DECIMAL", schema.ConvertedTypes.Decimal.String())
-	assert.Equal(t, "DATE", schema.ConvertedTypes.Date.String())
-	assert.Equal(t, "TIME_MILLIS", schema.ConvertedTypes.TimeMillis.String())
-	assert.Equal(t, "TIME_MICROS", schema.ConvertedTypes.TimeMicros.String())
-	assert.Equal(t, "TIMESTAMP_MILLIS", schema.ConvertedTypes.TimestampMillis.String())
-	assert.Equal(t, "TIMESTAMP_MICROS", schema.ConvertedTypes.TimestampMicros.String())
-	assert.Equal(t, "UINT_8", schema.ConvertedTypes.Uint8.String())
-	assert.Equal(t, "UINT_16", schema.ConvertedTypes.Uint16.String())
-	assert.Equal(t, "UINT_32", schema.ConvertedTypes.Uint32.String())
-	assert.Equal(t, "UINT_64", schema.ConvertedTypes.Uint64.String())
-	assert.Equal(t, "INT_8", schema.ConvertedTypes.Int8.String())
-	assert.Equal(t, "INT_16", schema.ConvertedTypes.Int16.String())
-	assert.Equal(t, "INT_32", schema.ConvertedTypes.Int32.String())
-	assert.Equal(t, "INT_64", schema.ConvertedTypes.Int64.String())
-	assert.Equal(t, "JSON", schema.ConvertedTypes.JSON.String())
-	assert.Equal(t, "BSON", schema.ConvertedTypes.BSON.String())
-	assert.Equal(t, "INTERVAL", schema.ConvertedTypes.Interval.String())
-}
diff --git a/go/parquet/schema/helpers.go b/go/parquet/schema/helpers.go
deleted file mode 100644
index 87022442128b1..0000000000000
--- a/go/parquet/schema/helpers.go
+++ /dev/null
@@ -1,129 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// ListOf is a convenience helper function to create a properly structured
-// list structure according to the Parquet Spec.
-//
-//	<list-repetition> group <name> (LIST) {
-//	  repeated group list {
-//	    <element-repetition> <element-type> element;
-//	  }
-//	}
-//
-// <list-repetition> can only be optional or required.
-// <element-repetition> can only be optional or required.
-func ListOf(n Node, rep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	return ListOfWithName(n.Name(), n, rep, fieldID)
-}
-
-// ListOf is a convenience helper function to create a properly structured
-// list structure according to the Parquet Spec.
-//
-//	<list-repetition> group <name> (LIST) {
-//	  repeated group list {
-//	    <element-repetition> <element-type> element;
-//	  }
-//	}
-//
-// <list-repetition> can only be optional or required.
-// <element-repetition> can only be optional or required.
-func ListOfWithName(listName string, element Node, rep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	if rep == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: listof repetition must not be repeated, got :%s", rep)
-	}
-
-	if element.RepetitionType() == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: element repetition must not be repeated, got: %s", element.RepetitionType())
-	}
-
-	switch n := element.(type) {
-	case *PrimitiveNode:
-		n.name = "element"
-	case *GroupNode:
-		n.name = "element"
-	}
-
-	list, err := NewGroupNode("list" /* name */, parquet.Repetitions.Repeated, FieldList{element}, -1 /* fieldID */)
-	if err != nil {
-		return nil, err
-	}
-
-	return NewGroupNodeLogical(listName, rep, FieldList{list}, ListLogicalType{}, fieldID)
-}
-
-// MapOf is a convenience helper function to create a properly structured
-// parquet map node setup according to the Parquet Spec.
-//
-//	<map-repetition> group <name> (MAP) {
-//		 repeated group key_value {
-//		   required <key-type> key;
-//	    <value-repetition> <value-type> value;
-//	  }
-//	}
-//
-// key node will be renamed to "key", value node if not nil will be renamed to "value"
-//
-// <map-repetition> must be only optional or required. panics if repeated is passed.
-//
-// the key node *must* be required repetition. panics if optional or repeated
-//
-// value node can be nil (omitted) or have a repetition of required or optional *only*.
-func MapOf(name string, key Node, value Node, mapRep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	if mapRep == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: map repetition cannot be Repeated, got: %s", mapRep)
-	}
-
-	if key.RepetitionType() != parquet.Repetitions.Required {
-		return nil, xerrors.Errorf("parquet: map key repetition must be Required, got: %s", key.RepetitionType())
-	}
-
-	if value != nil {
-		if value.RepetitionType() == parquet.Repetitions.Repeated {
-			return nil, xerrors.New("parquet: map value cannot have repetition Repeated")
-		}
-		switch value := value.(type) {
-		case *PrimitiveNode:
-			value.name = "value"
-		case *GroupNode:
-			value.name = "value"
-		}
-	}
-
-	switch key := key.(type) {
-	case *PrimitiveNode:
-		key.name = "key"
-	case *GroupNode:
-		key.name = "key"
-	}
-
-	keyval := FieldList{key}
-	if value != nil {
-		keyval = append(keyval, value)
-	}
-
-	kvNode, err := NewGroupNode("key_value" /* name */, parquet.Repetitions.Repeated, keyval, -1 /* fieldID */)
-	if err != nil {
-		return nil, err
-	}
-	return NewGroupNodeLogical(name, mapRep, FieldList{kvNode}, MapLogicalType{}, fieldID)
-}
diff --git a/go/parquet/schema/helpers_test.go b/go/parquet/schema/helpers_test.go
deleted file mode 100644
index a9127d155f213..0000000000000
--- a/go/parquet/schema/helpers_test.go
+++ /dev/null
@@ -1,122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListOf(t *testing.T) {
-	n := schema.NewByteArrayNode("str", parquet.Repetitions.Required, 1)
-	list, err := schema.ListOf(n, parquet.Repetitions.Optional, 2)
-
-	assert.NoError(t, err)
-	assert.Equal(t, "str", list.Name())
-	assert.Equal(t, parquet.Repetitions.Optional, list.RepetitionType())
-	assert.Equal(t, 1, list.NumFields())
-	assert.EqualValues(t, 2, list.FieldID())
-	assert.IsType(t, &schema.GroupNode{}, list.Field(0))
-	assert.Equal(t, "list", list.Field(0).Name())
-	assert.Equal(t, 1, list.Field(0).(*schema.GroupNode).NumFields())
-	assert.Same(t, n, list.Field(0).(*schema.GroupNode).Field(0))
-	assert.Equal(t, "element", list.Field(0).(*schema.GroupNode).Field(0).Name())
-}
-
-func TestListOfNested(t *testing.T) {
-	n, err := schema.ListOf(schema.NewInt32Node("arrays", parquet.Repetitions.Required, -1), parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-	final, err := schema.ListOf(n, parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(final, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=-1 arrays (List) {
-    repeated group field_id=-1 list {
-        required group field_id=-1 element (List) {
-            repeated group field_id=-1 list {
-                required int32 field_id=-1 element;
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
-
-func TestListOfWithNameNested(t *testing.T) {
-	n, err := schema.ListOfWithName("arrays", schema.NewInt32Node("element", parquet.Repetitions.Required, -1), parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-	final, err := schema.ListOf(n, parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(final, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=-1 arrays (List) {
-    repeated group field_id=-1 list {
-        required group field_id=-1 element (List) {
-            repeated group field_id=-1 list {
-                required int32 field_id=-1 element;
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
-func TestMapOfNestedTypes(t *testing.T) {
-	n, err := schema.NewGroupNode("student", parquet.Repetitions.Required, schema.FieldList{
-		schema.NewByteArrayNode("name", parquet.Repetitions.Required, -1),
-		schema.NewInt32Node("age", parquet.Repetitions.Optional, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	grp, err := schema.NewGroupNode("classes", parquet.Repetitions.Optional, schema.FieldList{
-		schema.NewInt32Node("a", parquet.Repetitions.Repeated, -1),
-		schema.NewFloat32Node("b", parquet.Repetitions.Repeated, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	classes, err := schema.ListOf(grp, parquet.Repetitions.Optional, -1)
-	assert.NoError(t, err)
-
-	m, err := schema.MapOf("studentmap", n, classes, parquet.Repetitions.Required, 1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(m, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=1 studentmap (Map) {
-    repeated group field_id=-1 key_value {
-        required group field_id=-1 key {
-            required byte_array field_id=-1 name;
-            optional int32 field_id=-1 age;
-        }
-        optional group field_id=-1 value (List) {
-            repeated group field_id=-1 list {
-                optional group field_id=-1 element {
-                    repeated int32 field_id=-1 a;
-                    repeated float field_id=-1 b;
-                }
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
diff --git a/go/parquet/schema/logical_types.go b/go/parquet/schema/logical_types.go
deleted file mode 100644
index fa46ea0172f76..0000000000000
--- a/go/parquet/schema/logical_types.go
+++ /dev/null
@@ -1,1192 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// DecimalMetadata is a struct for managing scale and precision information between
-// converted and logical types.
-type DecimalMetadata struct {
-	IsSet     bool
-	Scale     int32
-	Precision int32
-}
-
-func getLogicalType(l *format.LogicalType) LogicalType {
-	switch {
-	case l.IsSetSTRING():
-		return StringLogicalType{}
-	case l.IsSetMAP():
-		return MapLogicalType{}
-	case l.IsSetLIST():
-		return ListLogicalType{}
-	case l.IsSetENUM():
-		return EnumLogicalType{}
-	case l.IsSetDECIMAL():
-		return DecimalLogicalType{typ: l.DECIMAL}
-	case l.IsSetDATE():
-		return DateLogicalType{}
-	case l.IsSetTIME():
-		if timeUnitFromThrift(l.TIME.Unit) == TimeUnitUnknown {
-			panic("parquet: TimeUnit must be one of MILLIS, MICROS, or NANOS for Time logical type")
-		}
-		return TimeLogicalType{typ: l.TIME}
-	case l.IsSetTIMESTAMP():
-		if timeUnitFromThrift(l.TIMESTAMP.Unit) == TimeUnitUnknown {
-			panic("parquet: TimeUnit must be one of MILLIS, MICROS, or NANOS for Timestamp logical type")
-		}
-		return TimestampLogicalType{typ: l.TIMESTAMP}
-	case l.IsSetINTEGER():
-		return IntLogicalType{typ: l.INTEGER}
-	case l.IsSetUNKNOWN():
-		return NullLogicalType{}
-	case l.IsSetJSON():
-		return JSONLogicalType{}
-	case l.IsSetBSON():
-		return BSONLogicalType{}
-	case l.IsSetUUID():
-		return UUIDLogicalType{}
-	case l.IsSetFLOAT16():
-		return Float16LogicalType{}
-	case l == nil:
-		return NoLogicalType{}
-	default:
-		panic("invalid logical type")
-	}
-}
-
-// TimeUnitType is an enum for denoting whether a time based logical type
-// is using milliseconds, microseconds or nanoseconds.
-type TimeUnitType int
-
-// Constants for the TimeUnitType
-const (
-	TimeUnitMillis TimeUnitType = iota
-	TimeUnitMicros
-	TimeUnitNanos
-	TimeUnitUnknown
-)
-
-// LogicalType is the descriptor that defines the usage of a physical primitive
-// type in the schema, such as an Interval, Date, etc.
-type LogicalType interface {
-	// Returns true if a nested type like List or Map
-	IsNested() bool
-	// Returns true if this type can be serialized, ie: not Unknown/NoType/Interval
-	IsSerialized() bool
-	// Returns true if not NoLogicalType
-	IsValid() bool
-	// Returns true if it is NoType
-	IsNone() bool
-	// returns a string representation of the Logical Type
-	String() string
-	toThrift() *format.LogicalType
-	// Return the equivalent ConvertedType for legacy Parquet systems
-	ToConvertedType() (ConvertedType, DecimalMetadata)
-	// Returns true if the specified ConvertedType is compatible with this
-	// logical type
-	IsCompatible(ConvertedType, DecimalMetadata) bool
-	// Returns true if this logical type can be used with the provided physical type
-	IsApplicable(t parquet.Type, tlen int32) bool
-	// Returns true if the logical types are the same
-	Equals(LogicalType) bool
-	// Returns the default stat sort order for this logical type
-	SortOrder() SortOrder
-}
-
-// TemporalLogicalType is a smaller interface for Time based logical types
-// like Time / Timestamp
-type TemporalLogicalType interface {
-	LogicalType
-	IsAdjustedToUTC() bool
-	TimeUnit() TimeUnitType
-}
-
-// SortOrder mirrors the parquet.thrift sort order type
-type SortOrder int8
-
-// Constants for the Stat sort order definitions
-const (
-	SortSIGNED SortOrder = iota
-	SortUNSIGNED
-	SortUNKNOWN
-)
-
-// DefaultSortOrder returns the default stat sort order for the given physical type
-func DefaultSortOrder(primitive format.Type) SortOrder {
-	switch primitive {
-	case format.Type_BOOLEAN, format.Type_INT32, format.Type_INT64, format.Type_FLOAT, format.Type_DOUBLE:
-		return SortSIGNED
-	case format.Type_BYTE_ARRAY, format.Type_FIXED_LEN_BYTE_ARRAY:
-		return SortUNSIGNED
-	case format.Type_INT96:
-		fallthrough
-	default:
-		return SortUNKNOWN
-	}
-}
-
-// GetLogicalSortOrder returns the default sort order for this logical type
-// or falls back to the default sort order for the physical type if not valid
-func GetLogicalSortOrder(logical LogicalType, primitive format.Type) SortOrder {
-	switch {
-	case logical == nil || !logical.IsValid():
-		return SortUNKNOWN
-	case logical.Equals(NoLogicalType{}):
-		return DefaultSortOrder(primitive)
-	default:
-		return logical.SortOrder()
-	}
-}
-
-type baseLogicalType struct{}
-
-func (baseLogicalType) IsSerialized() bool {
-	return true
-}
-
-func (baseLogicalType) IsValid() bool {
-	return true
-}
-
-func (baseLogicalType) IsNested() bool {
-	return false
-}
-
-func (baseLogicalType) IsNone() bool { return false }
-
-// StringLogicalType is a UTF8 string, only usable with ByteArray and FixedLenByteArray
-type StringLogicalType struct{ baseLogicalType }
-
-func (StringLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (StringLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": StringLogicalType{}.String()})
-}
-
-func (StringLogicalType) String() string {
-	return "String"
-}
-
-func (StringLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.UTF8, DecimalMetadata{}
-}
-
-func (StringLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.UTF8 && !dec.IsSet
-}
-
-func (StringLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (StringLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{STRING: format.NewStringType()}
-}
-
-func (StringLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(StringLogicalType)
-	return ok
-}
-
-// MapLogicalType represents a mapped type
-type MapLogicalType struct{ baseLogicalType }
-
-func (MapLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (MapLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": MapLogicalType{}.String()})
-}
-
-func (MapLogicalType) String() string {
-	return "Map"
-}
-
-func (MapLogicalType) IsNested() bool {
-	return true
-}
-
-func (MapLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Map, DecimalMetadata{}
-}
-
-func (MapLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return (t == ConvertedTypes.Map || t == ConvertedTypes.MapKeyValue) && !dec.IsSet
-}
-
-func (MapLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return false
-}
-
-func (MapLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{MAP: format.NewMapType()}
-}
-
-func (MapLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(MapLogicalType)
-	return ok
-}
-
-func NewListLogicalType() LogicalType {
-	return ListLogicalType{}
-}
-
-// ListLogicalType is used for columns which are themselves nested lists
-type ListLogicalType struct{ baseLogicalType }
-
-func (ListLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (ListLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": ListLogicalType{}.String()})
-}
-
-func (ListLogicalType) String() string {
-	return "List"
-}
-
-func (ListLogicalType) IsNested() bool {
-	return true
-}
-
-func (ListLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.List, DecimalMetadata{}
-}
-
-func (ListLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.List && !dec.IsSet
-}
-
-func (ListLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return false
-}
-
-func (ListLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{LIST: format.NewListType()}
-}
-
-func (ListLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(ListLogicalType)
-	return ok
-}
-
-// EnumLogicalType is for representing an enum, which should be a byte array type
-type EnumLogicalType struct{ baseLogicalType }
-
-func (EnumLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (EnumLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": EnumLogicalType{}.String()})
-}
-
-func (EnumLogicalType) String() string {
-	return "Enum"
-}
-
-func (EnumLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Enum, DecimalMetadata{}
-}
-
-func (EnumLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.Enum && !dec.IsSet
-}
-
-func (EnumLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (EnumLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{ENUM: format.NewEnumType()}
-}
-
-func (EnumLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(EnumLogicalType)
-	return ok
-}
-
-// NewDecimalLogicalType returns a Decimal logical type with the given
-// precision and scale.
-//
-// Panics if precision < 1 or scale is not in the range (0, precision)
-func NewDecimalLogicalType(precision int32, scale int32) LogicalType {
-	if precision < 1 {
-		panic("parquet: precision must be greater than or equal to 1 for decimal logical type")
-	}
-	if scale < 0 || scale > precision {
-		panic("parquet: scale must be a non-negative integer that does not exceed precision for decimal logical type")
-	}
-	return DecimalLogicalType{typ: &format.DecimalType{Precision: precision, Scale: scale}}
-}
-
-// DecimalLogicalType is used to represent a decimal value of a given
-// precision and scale
-type DecimalLogicalType struct {
-	baseLogicalType
-	typ *format.DecimalType
-}
-
-func (t DecimalLogicalType) Precision() int32 {
-	return t.typ.Precision
-}
-
-func (t DecimalLogicalType) Scale() int32 {
-	return t.typ.Scale
-}
-
-func (DecimalLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t DecimalLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{"Type": "Decimal", "precision": t.typ.Precision, "scale": t.typ.Scale})
-}
-
-func (t DecimalLogicalType) String() string {
-	return fmt.Sprintf("Decimal(precision=%d, scale=%d)", t.typ.Precision, t.typ.Scale)
-}
-
-func (t DecimalLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Decimal, DecimalMetadata{IsSet: true, Scale: t.typ.GetScale(), Precision: t.typ.GetPrecision()}
-}
-
-func (t DecimalLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.Decimal &&
-		dec.IsSet && dec.Scale == t.typ.Scale && dec.Precision == t.typ.Precision
-}
-
-func (t DecimalLogicalType) IsApplicable(typ parquet.Type, tlen int32) bool {
-	switch typ {
-	case parquet.Types.Int32:
-		return 1 <= t.typ.Precision && t.typ.Precision <= 9
-	case parquet.Types.Int64:
-		if t.typ.Precision < 10 {
-			debug.Log("int64 used for decimal logical, precision is small enough to use int32")
-		}
-		return 1 <= t.typ.Precision && t.typ.Precision <= 18
-	case parquet.Types.FixedLenByteArray:
-		return t.typ.Precision <= int32(math.Floor(math.Log10(math.Pow(2.0, (8.0*float64(tlen)-1.0)))))
-	case parquet.Types.ByteArray:
-		return true
-	}
-	return false
-}
-
-func (t DecimalLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{DECIMAL: t.typ}
-}
-
-func (t DecimalLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(DecimalLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.Precision == other.typ.Precision && t.typ.Scale == other.typ.Scale
-}
-
-// DateLogicalType is an int32 representing the number of days since the Unix Epoch
-// 1 January 1970
-type DateLogicalType struct{ baseLogicalType }
-
-func (DateLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (DateLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": DateLogicalType{}.String()})
-}
-
-func (DateLogicalType) String() string {
-	return "Date"
-}
-
-func (DateLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Date, DecimalMetadata{}
-}
-
-func (DateLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.Date && !dec.IsSet
-}
-
-func (DateLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.Int32
-}
-
-func (DateLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{DATE: format.NewDateType()}
-}
-
-func (DateLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(DateLogicalType)
-	return ok
-}
-
-func timeUnitFromThrift(unit *format.TimeUnit) TimeUnitType {
-	switch {
-	case unit == nil:
-		return TimeUnitUnknown
-	case unit.IsSetMILLIS():
-		return TimeUnitMillis
-	case unit.IsSetMICROS():
-		return TimeUnitMicros
-	case unit.IsSetNANOS():
-		return TimeUnitNanos
-	default:
-		return TimeUnitUnknown
-	}
-}
-
-func timeUnitToString(unit *format.TimeUnit) string {
-	switch {
-	case unit == nil:
-		return "unknown"
-	case unit.IsSetMILLIS():
-		return "milliseconds"
-	case unit.IsSetMICROS():
-		return "microseconds"
-	case unit.IsSetNANOS():
-		return "nanoseconds"
-	default:
-		return "unknown"
-	}
-}
-
-func timeUnitFromString(v string) TimeUnitType {
-	switch v {
-	case "millis":
-		return TimeUnitMillis
-	case "micros":
-		return TimeUnitMicros
-	case "nanos":
-		return TimeUnitNanos
-	default:
-		return TimeUnitUnknown
-	}
-}
-
-func createTimeUnit(unit TimeUnitType) *format.TimeUnit {
-	tunit := format.NewTimeUnit()
-	switch unit {
-	case TimeUnitMicros:
-		tunit.MICROS = format.NewMicroSeconds()
-	case TimeUnitMillis:
-		tunit.MILLIS = format.NewMilliSeconds()
-	case TimeUnitNanos:
-		tunit.NANOS = format.NewNanoSeconds()
-	default:
-		panic("parquet: time unit must be one of MILLIS, MICROS, or NANOS for Time logical type")
-	}
-	return tunit
-}
-
-// NewTimeLogicalType returns a time type of the given unit.
-func NewTimeLogicalType(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimeLogicalType{typ: &format.TimeType{
-		IsAdjustedToUTC: isAdjustedToUTC,
-		Unit:            createTimeUnit(unit),
-	}}
-}
-
-// TimeLogicalType is a time type without a date and must be an
-// int32 for milliseconds, or an int64 for micro or nano seconds.
-type TimeLogicalType struct {
-	baseLogicalType
-	typ *format.TimeType
-}
-
-func (t TimeLogicalType) IsAdjustedToUTC() bool {
-	return t.typ.IsAdjustedToUTC
-}
-
-func (t TimeLogicalType) TimeUnit() TimeUnitType {
-	return timeUnitFromThrift(t.typ.Unit)
-}
-
-func (TimeLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t TimeLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type": "Time", "isAdjustedToUTC": t.typ.IsAdjustedToUTC, "timeUnit": timeUnitToString(t.typ.GetUnit())})
-}
-
-func (t TimeLogicalType) String() string {
-	return fmt.Sprintf("Time(isAdjustedToUTC=%t, timeUnit=%s)", t.typ.GetIsAdjustedToUTC(), timeUnitToString(t.typ.GetUnit()))
-}
-
-func (t TimeLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC {
-		switch unit {
-		case TimeUnitMillis:
-			return ConvertedTypes.TimeMillis, DecimalMetadata{}
-		case TimeUnitMicros:
-			return ConvertedTypes.TimeMicros, DecimalMetadata{}
-		}
-	}
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (t TimeLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC {
-		switch unit {
-		case TimeUnitMillis:
-			return c == ConvertedTypes.TimeMillis
-		case TimeUnitMicros:
-			return c == ConvertedTypes.TimeMicros
-		}
-	}
-
-	return c == ConvertedTypes.None || c == ConvertedTypes.NA
-}
-
-func (t TimeLogicalType) IsApplicable(typ parquet.Type, _ int32) bool {
-	return (typ == parquet.Types.Int32 && t.typ.GetUnit().IsSetMILLIS()) ||
-		(typ == parquet.Types.Int64 &&
-			(t.typ.GetUnit().IsSetMICROS() || t.typ.GetUnit().IsSetNANOS()))
-}
-
-func (t TimeLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{TIME: t.typ}
-}
-
-func (t TimeLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(TimeLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.IsAdjustedToUTC == other.typ.IsAdjustedToUTC &&
-		timeUnitFromThrift(t.typ.Unit) == timeUnitFromThrift(other.typ.Unit)
-}
-
-// NewTimestampLogicalType returns a logical timestamp type with "forceConverted"
-// set to false
-func NewTimestampLogicalType(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimestampLogicalType{
-		typ: &format.TimestampType{
-			IsAdjustedToUTC: isAdjustedToUTC,
-			Unit:            createTimeUnit(unit),
-		},
-		forceConverted: false,
-		fromConverted:  false,
-	}
-}
-
-// NewTimestampLogicalTypeForce returns a timestamp logical type with
-// "forceConverted" set to true
-func NewTimestampLogicalTypeForce(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimestampLogicalType{
-		typ: &format.TimestampType{
-			IsAdjustedToUTC: isAdjustedToUTC,
-			Unit:            createTimeUnit(unit),
-		},
-		forceConverted: true,
-		fromConverted:  false,
-	}
-}
-
-// TimestampOpt options used with New Timestamp Logical Type
-type TimestampOpt func(*TimestampLogicalType)
-
-// WithTSIsAdjustedToUTC sets the IsAdjustedToUTC field of the timestamp type.
-func WithTSIsAdjustedToUTC() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.typ.IsAdjustedToUTC = true
-	}
-}
-
-// WithTSTimeUnitType sets the time unit for the timestamp type
-func WithTSTimeUnitType(unit TimeUnitType) TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.typ.Unit = createTimeUnit(unit)
-	}
-}
-
-// WithTSForceConverted enable force converted mode
-func WithTSForceConverted() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.forceConverted = true
-	}
-}
-
-// WithTSFromConverted enable the timestamp logical type to be
-// constructed from a converted type.
-func WithTSFromConverted() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.fromConverted = true
-	}
-}
-
-// NewTimestampLogicalTypeWithOpts creates a new TimestampLogicalType with the provided options.
-//
-// TimestampType Unit defaults to milliseconds (TimeUnitMillis)
-func NewTimestampLogicalTypeWithOpts(opts ...TimestampOpt) LogicalType {
-	ts := TimestampLogicalType{
-		typ: &format.TimestampType{
-			Unit: createTimeUnit(TimeUnitMillis), // default to milliseconds
-		},
-	}
-
-	for _, o := range opts {
-		o(&ts)
-	}
-
-	return ts
-}
-
-// TimestampLogicalType represents an int64 number that can be decoded
-// into a year, month, day, hour, minute, second, and subsecond
-type TimestampLogicalType struct {
-	baseLogicalType
-	typ *format.TimestampType
-	// forceConverted denotes whether or not the resulting serialized
-	// type when writing to parquet will be written as the legacy
-	// ConvertedType TIMESTAMP_MICROS/TIMESTAMP_MILLIS (true)
-	// or if it will write the proper current Logical Types (false, default)
-	forceConverted bool
-	// fromConverted denotes if the timestamp type was created by
-	// translating a legacy converted type of TIMESTAMP_MILLIS or
-	// TIMESTAMP_MICROS rather than by using the current logical
-	// types. Default is false.
-	fromConverted bool
-}
-
-func (t TimestampLogicalType) IsFromConvertedType() bool {
-	return t.fromConverted
-}
-
-func (t TimestampLogicalType) IsAdjustedToUTC() bool {
-	return t.typ.IsAdjustedToUTC
-}
-
-func (t TimestampLogicalType) TimeUnit() TimeUnitType {
-	return timeUnitFromThrift(t.typ.Unit)
-}
-
-func (TimestampLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t TimestampLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type":                     "Timestamp",
-		"isAdjustedToUTC":          t.typ.IsAdjustedToUTC,
-		"timeUnit":                 timeUnitToString(t.typ.GetUnit()),
-		"is_from_converted_type":   t.fromConverted,
-		"force_set_converted_type": t.forceConverted,
-	})
-}
-
-func (t TimestampLogicalType) IsSerialized() bool {
-	return !t.fromConverted
-}
-
-func (t TimestampLogicalType) String() string {
-	return fmt.Sprintf("Timestamp(isAdjustedToUTC=%t, timeUnit=%s, is_from_converted_type=%t, force_set_converted_type=%t)",
-		t.typ.GetIsAdjustedToUTC(), timeUnitToString(t.typ.GetUnit()), t.fromConverted, t.forceConverted)
-}
-
-func (t TimestampLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC || t.forceConverted {
-		switch unit {
-		case TimeUnitMillis:
-			return ConvertedTypes.TimestampMillis, DecimalMetadata{}
-		case TimeUnitMicros:
-			return ConvertedTypes.TimestampMicros, DecimalMetadata{}
-		}
-	}
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (t TimestampLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-
-	switch timeUnitFromThrift(t.typ.Unit) {
-	case TimeUnitMillis:
-		if t.typ.GetIsAdjustedToUTC() || t.forceConverted {
-			return c == ConvertedTypes.TimestampMillis
-		}
-	case TimeUnitMicros:
-		if t.typ.GetIsAdjustedToUTC() || t.forceConverted {
-			return c == ConvertedTypes.TimestampMicros
-		}
-	}
-
-	return c == ConvertedTypes.None || c == ConvertedTypes.NA
-}
-
-func (TimestampLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.Int64
-}
-
-func (t TimestampLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{TIMESTAMP: t.typ}
-}
-
-func (t TimestampLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(TimestampLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.IsAdjustedToUTC == other.typ.IsAdjustedToUTC &&
-		timeUnitFromThrift(t.typ.Unit) == timeUnitFromThrift(other.typ.Unit)
-}
-
-// NewIntLogicalType creates an integer logical type of the desired bitwidth
-// and whether it is signed or not.
-//
-// Bit width must be exactly 8, 16, 32 or 64 for an integer logical type
-func NewIntLogicalType(bitWidth int8, signed bool) LogicalType {
-	switch bitWidth {
-	case 8, 16, 32, 64:
-	default:
-		panic("parquet: bit width must be exactly 8, 16, 32, or 64 for Int logical type")
-	}
-	return IntLogicalType{
-		typ: &format.IntType{
-			BitWidth: bitWidth,
-			IsSigned: signed,
-		},
-	}
-}
-
-// IntLogicalType represents an integer type of a specific bit width and
-// is either signed or unsigned.
-type IntLogicalType struct {
-	baseLogicalType
-	typ *format.IntType
-}
-
-func (t IntLogicalType) BitWidth() int8 {
-	return t.typ.BitWidth
-}
-
-func (t IntLogicalType) IsSigned() bool {
-	return t.typ.IsSigned
-}
-
-func (t IntLogicalType) SortOrder() SortOrder {
-	if t.typ.IsSigned {
-		return SortSIGNED
-	}
-	return SortUNSIGNED
-}
-
-func (t IntLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type": "Int", "bitWidth": t.typ.BitWidth, "isSigned": t.typ.IsSigned,
-	})
-}
-
-func (t IntLogicalType) String() string {
-	return fmt.Sprintf("Int(bitWidth=%d, isSigned=%t)", t.typ.GetBitWidth(), t.typ.GetIsSigned())
-}
-
-func (t IntLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	var d DecimalMetadata
-	if t.typ.IsSigned {
-		switch t.typ.BitWidth {
-		case 8:
-			return ConvertedTypes.Int8, d
-		case 16:
-			return ConvertedTypes.Int16, d
-		case 32:
-			return ConvertedTypes.Int32, d
-		case 64:
-			return ConvertedTypes.Int64, d
-		}
-	} else {
-		switch t.typ.BitWidth {
-		case 8:
-			return ConvertedTypes.Uint8, d
-		case 16:
-			return ConvertedTypes.Uint16, d
-		case 32:
-			return ConvertedTypes.Uint32, d
-		case 64:
-			return ConvertedTypes.Uint64, d
-		}
-	}
-	return ConvertedTypes.None, d
-}
-
-func (t IntLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	v, _ := t.ToConvertedType()
-	return c == v
-}
-
-func (t IntLogicalType) IsApplicable(typ parquet.Type, _ int32) bool {
-	return (typ == parquet.Types.Int32 && t.typ.GetBitWidth() <= 32) ||
-		(typ == parquet.Types.Int64 && t.typ.GetBitWidth() == 64)
-}
-
-func (t IntLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{INTEGER: t.typ}
-}
-
-func (t IntLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(IntLogicalType)
-	if !ok {
-		return false
-	}
-
-	return t.typ.GetIsSigned() == other.typ.GetIsSigned() &&
-		t.typ.GetBitWidth() == other.typ.GetBitWidth()
-}
-
-// UnknownLogicalType is a type that is essentially a placeholder for when
-// we don't know the type.
-type UnknownLogicalType struct{ baseLogicalType }
-
-func (UnknownLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (UnknownLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": UnknownLogicalType{}.String()})
-}
-
-func (UnknownLogicalType) IsValid() bool { return false }
-
-func (UnknownLogicalType) IsSerialized() bool { return false }
-
-func (UnknownLogicalType) String() string {
-	return "Unknown"
-}
-
-func (UnknownLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.NA, DecimalMetadata{}
-}
-
-func (UnknownLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.NA && !dec.IsSet
-}
-
-func (UnknownLogicalType) IsApplicable(parquet.Type, int32) bool { return true }
-
-func (UnknownLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UNKNOWN: format.NewNullType()}
-}
-
-func (UnknownLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(UnknownLogicalType)
-	return ok
-}
-
-// JSONLogicalType represents a byte array column which is to be interpreted
-// as a JSON string.
-type JSONLogicalType struct{ baseLogicalType }
-
-func (JSONLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (JSONLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": JSONLogicalType{}.String()})
-}
-
-func (JSONLogicalType) String() string {
-	return "JSON"
-}
-
-func (JSONLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.JSON, DecimalMetadata{}
-}
-
-func (JSONLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.JSON && !dec.IsSet
-}
-
-func (JSONLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (JSONLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{JSON: format.NewJsonType()}
-}
-
-func (JSONLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(JSONLogicalType)
-	return ok
-}
-
-// BSONLogicalType represents a binary JSON string in the byte array
-type BSONLogicalType struct{ baseLogicalType }
-
-func (BSONLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (BSONLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": BSONLogicalType{}.String()})
-}
-
-func (BSONLogicalType) String() string {
-	return "BSON"
-}
-
-func (BSONLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.BSON, DecimalMetadata{}
-}
-
-func (BSONLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.BSON && !dec.IsSet
-}
-
-func (BSONLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (BSONLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{BSON: format.NewBsonType()}
-}
-
-func (BSONLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(BSONLogicalType)
-	return ok
-}
-
-// UUIDLogicalType can only be used with a FixedLength byte array column
-// that is exactly 16 bytes long
-type UUIDLogicalType struct{ baseLogicalType }
-
-func (UUIDLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (UUIDLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": UUIDLogicalType{}.String()})
-}
-
-func (UUIDLogicalType) String() string {
-	return "UUID"
-}
-
-func (UUIDLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (UUIDLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (UUIDLogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 16
-}
-
-func (UUIDLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UUID: format.NewUUIDType()}
-}
-
-func (UUIDLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(UUIDLogicalType)
-	return ok
-}
-
-// IntervalLogicalType is not yet in the thrift spec, but represents
-// an interval time and needs to be a fixed length byte array of 12 bytes
-type IntervalLogicalType struct{ baseLogicalType }
-
-func (IntervalLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (IntervalLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": IntervalLogicalType{}.String()})
-}
-
-func (IntervalLogicalType) String() string {
-	return "Interval"
-}
-
-func (IntervalLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Interval, DecimalMetadata{}
-}
-
-func (IntervalLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.Interval && !dec.IsSet
-}
-
-func (IntervalLogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 12
-}
-
-func (IntervalLogicalType) toThrift() *format.LogicalType {
-	panic("no parquet IntervalLogicalType yet implemented")
-}
-
-func (IntervalLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(IntervalLogicalType)
-	return ok
-}
-
-// Float16LogicalType can only be used with a FixedLength byte array column
-// that is exactly 2 bytes long
-type Float16LogicalType struct{ baseLogicalType }
-
-func (Float16LogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (Float16LogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": Float16LogicalType{}.String()})
-}
-
-func (Float16LogicalType) String() string {
-	return "Float16"
-}
-
-func (Float16LogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (Float16LogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (Float16LogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 2
-}
-
-func (Float16LogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{FLOAT16: format.NewFloat16Type()}
-}
-
-func (Float16LogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(Float16LogicalType)
-	return ok
-}
-
-type NullLogicalType struct{ baseLogicalType }
-
-func (NullLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (NullLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": NullLogicalType{}.String()})
-}
-
-func (NullLogicalType) String() string {
-	return "Null"
-}
-
-func (NullLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (NullLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (NullLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return true
-}
-
-func (NullLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UNKNOWN: format.NewNullType()}
-}
-
-func (NullLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(NullLogicalType)
-	return ok
-}
-
-type NoLogicalType struct{ baseLogicalType }
-
-func (NoLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (NoLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": NoLogicalType{}.String()})
-}
-
-func (NoLogicalType) IsSerialized() bool { return false }
-
-func (NoLogicalType) String() string {
-	return "None"
-}
-
-func (NoLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (NoLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.None && !dec.IsSet
-}
-
-func (NoLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return true
-}
-
-func (NoLogicalType) toThrift() *format.LogicalType {
-	panic("cannot convert NoLogicalType to thrift")
-}
-
-func (NoLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(NoLogicalType)
-	return ok
-}
-
-func (NoLogicalType) IsNone() bool { return true }
diff --git a/go/parquet/schema/logical_types_test.go b/go/parquet/schema/logical_types_test.go
deleted file mode 100644
index 395d1504182fe..0000000000000
--- a/go/parquet/schema/logical_types_test.go
+++ /dev/null
@@ -1,572 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestConvertedLogicalEquivalences(t *testing.T) {
-	tests := []struct {
-		name      string
-		converted schema.ConvertedType
-		logical   schema.LogicalType
-		expected  schema.LogicalType
-	}{
-		{"utf8", schema.ConvertedTypes.UTF8, schema.StringLogicalType{}, schema.StringLogicalType{}},
-		{"map", schema.ConvertedTypes.Map, schema.MapLogicalType{}, schema.MapLogicalType{}},
-		{"mapkeyval", schema.ConvertedTypes.MapKeyValue, schema.MapLogicalType{}, schema.MapLogicalType{}},
-		{"list", schema.ConvertedTypes.List, schema.NewListLogicalType(), schema.NewListLogicalType()},
-		{"enum", schema.ConvertedTypes.Enum, schema.EnumLogicalType{}, schema.EnumLogicalType{}},
-		{"date", schema.ConvertedTypes.Date, schema.DateLogicalType{}, schema.DateLogicalType{}},
-		{"timemilli", schema.ConvertedTypes.TimeMillis, schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimeLogicalType{}},
-		{"timemicro", schema.ConvertedTypes.TimeMicros, schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimeLogicalType{}},
-		{"timestampmilli", schema.ConvertedTypes.TimestampMillis, schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimestampLogicalType{}},
-		{"timestampmicro", schema.ConvertedTypes.TimestampMicros, schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimestampLogicalType{}},
-		{"uint8", schema.ConvertedTypes.Uint8, schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint16", schema.ConvertedTypes.Uint16, schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint32", schema.ConvertedTypes.Uint32, schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint64", schema.ConvertedTypes.Uint64, schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"int8", schema.ConvertedTypes.Int8, schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int16", schema.ConvertedTypes.Int16, schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int32", schema.ConvertedTypes.Int32, schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int64", schema.ConvertedTypes.Int64, schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"json", schema.ConvertedTypes.JSON, schema.JSONLogicalType{}, schema.JSONLogicalType{}},
-		{"bson", schema.ConvertedTypes.BSON, schema.BSONLogicalType{}, schema.BSONLogicalType{}},
-		{"interval", schema.ConvertedTypes.Interval, schema.IntervalLogicalType{}, schema.IntervalLogicalType{}},
-		{"none", schema.ConvertedTypes.None, schema.NoLogicalType{}, schema.NoLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			fromConverted := tt.converted.ToLogicalType(schema.DecimalMetadata{})
-			assert.IsType(t, tt.logical, fromConverted)
-			assert.True(t, fromConverted.Equals(tt.logical))
-			assert.IsType(t, tt.expected, fromConverted)
-			assert.IsType(t, tt.expected, tt.logical)
-		})
-	}
-
-	t.Run("decimal", func(t *testing.T) {
-		decimalMeta := schema.DecimalMetadata{IsSet: true, Precision: 10, Scale: 4}
-		fromConverted := schema.ConvertedTypes.Decimal.ToLogicalType(decimalMeta)
-		fromMake := schema.NewDecimalLogicalType(10, 4)
-		assert.IsType(t, fromMake, fromConverted)
-		assert.True(t, fromConverted.Equals(fromMake))
-		assert.IsType(t, schema.DecimalLogicalType{}, fromConverted)
-		assert.IsType(t, schema.DecimalLogicalType{}, fromMake)
-		assert.True(t, schema.NewDecimalLogicalType(16, 0).Equals(schema.NewDecimalLogicalType(16, 0)))
-	})
-}
-
-func TestConvertedTypeCompatibility(t *testing.T) {
-	tests := []struct {
-		name            string
-		logical         schema.LogicalType
-		expectConverted schema.ConvertedType
-	}{
-		{"utf8", schema.StringLogicalType{}, schema.ConvertedTypes.UTF8},
-		{"map", schema.MapLogicalType{}, schema.ConvertedTypes.Map},
-		{"list", schema.NewListLogicalType(), schema.ConvertedTypes.List},
-		{"enum", schema.EnumLogicalType{}, schema.ConvertedTypes.Enum},
-		{"date", schema.DateLogicalType{}, schema.ConvertedTypes.Date},
-		{"time_milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimeMillis},
-		{"time_micro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimeMicros},
-		{"timestamp_milli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimestampMillis},
-		{"timestamp_micro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimestampMicros},
-		{"timestamp_milli_opts", schema.NewTimestampLogicalTypeWithOpts(schema.WithTSIsAdjustedToUTC(), schema.WithTSTimeUnitType(schema.TimeUnitMillis)), schema.ConvertedTypes.TimestampMillis},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint8},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint16},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint32},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint64},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int8},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int16},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int32},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int64},
-		{"json", schema.JSONLogicalType{}, schema.ConvertedTypes.JSON},
-		{"bson", schema.BSONLogicalType{}, schema.ConvertedTypes.BSON},
-		{"interval", schema.IntervalLogicalType{}, schema.ConvertedTypes.Interval},
-		{"none", schema.NoLogicalType{}, schema.ConvertedTypes.None},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.True(t, tt.logical.IsValid())
-			converted, decimalMeta := tt.logical.ToConvertedType()
-			assert.Equal(t, tt.expectConverted, converted)
-			assert.False(t, decimalMeta.IsSet)
-			assert.True(t, tt.logical.IsCompatible(converted, decimalMeta))
-			assert.False(t, tt.logical.IsCompatible(converted, schema.DecimalMetadata{IsSet: true, Precision: 1, Scale: 1}))
-			reconstruct := converted.ToLogicalType(decimalMeta)
-			assert.True(t, reconstruct.IsValid())
-			assert.True(t, reconstruct.Equals(tt.logical))
-		})
-	}
-
-	var (
-		orig          schema.LogicalType
-		converted     schema.ConvertedType
-		convertedMeta schema.DecimalMetadata
-	)
-
-	orig = schema.NewDecimalLogicalType(6 /* precision */, 2 /* scale */)
-	converted, convertedMeta = orig.ToConvertedType()
-	assert.True(t, orig.IsValid())
-	assert.Equal(t, schema.ConvertedTypes.Decimal, converted)
-	assert.True(t, convertedMeta.IsSet)
-	assert.EqualValues(t, 6, convertedMeta.Precision)
-	assert.EqualValues(t, 2, convertedMeta.Scale)
-	assert.True(t, orig.IsCompatible(converted, convertedMeta))
-	reconstruct := converted.ToLogicalType(convertedMeta)
-	assert.True(t, reconstruct.IsValid())
-	assert.True(t, reconstruct.Equals(orig))
-
-	orig = schema.UnknownLogicalType{}
-	converted, convertedMeta = orig.ToConvertedType()
-	assert.False(t, orig.IsValid())
-	assert.Equal(t, schema.ConvertedTypes.NA, converted)
-	assert.False(t, convertedMeta.IsSet)
-	assert.True(t, orig.IsCompatible(converted, convertedMeta))
-	reconstruct = converted.ToLogicalType(convertedMeta)
-	assert.False(t, reconstruct.IsValid())
-	assert.True(t, reconstruct.Equals(orig))
-}
-
-func TestNewTypeIncompatibility(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  schema.LogicalType
-		expected schema.LogicalType
-	}{
-		{"uuid", schema.UUIDLogicalType{}, schema.UUIDLogicalType{}},
-		{"float16", schema.Float16LogicalType{}, schema.Float16LogicalType{}},
-		{"null", schema.NullLogicalType{}, schema.NullLogicalType{}},
-		{"not-utc-time_milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimeLogicalType{}},
-		{"not-utc-time-micro", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimeLogicalType{}},
-		{"not-utc-time-nano", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimeLogicalType{}},
-		{"utc-time-nano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimeLogicalType{}},
-		{"not-utc-timestamp-nano", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimestampLogicalType{}},
-		{"utc-timestamp-nano", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimestampLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.IsType(t, tt.expected, tt.logical)
-			assert.True(t, tt.logical.IsValid())
-			converted, meta := tt.logical.ToConvertedType()
-			assert.Equal(t, schema.ConvertedTypes.None, converted)
-			assert.False(t, meta.IsSet)
-		})
-	}
-}
-
-func TestFactoryPanic(t *testing.T) {
-	tests := []struct {
-		name string
-		f    func()
-	}{
-		{"invalid TimeUnit", func() { schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitUnknown) }},
-		{"invalid timestamp unit", func() { schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitUnknown) }},
-		{"negative bitwidth", func() { schema.NewIntLogicalType(-1 /* bitWidth */, false /* signed */) }},
-		{"zero bitwidth", func() { schema.NewIntLogicalType(0 /* bitWidth */, false /* signed */) }},
-		{"bitwidth one", func() { schema.NewIntLogicalType(1 /* bitWidth */, false /* signed */) }},
-		{"invalid bitwidth", func() { schema.NewIntLogicalType(65 /* bitWidth */, false /* signed */) }},
-		{"negative precision", func() { schema.NewDecimalLogicalType(-1 /* precision */, 0 /* scale */) }},
-		{"zero precision", func() { schema.NewDecimalLogicalType(0 /* precision */, 0 /* scale */) }},
-		{"negative scale", func() { schema.NewDecimalLogicalType(10 /* precision */, -1 /* scale */) }},
-		{"invalid scale", func() { schema.NewDecimalLogicalType(10 /* precision */, 11 /* scale */) }},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Panics(t, tt.f)
-		})
-	}
-}
-
-func TestLogicalTypeProperties(t *testing.T) {
-	tests := []struct {
-		name       string
-		logical    schema.LogicalType
-		nested     bool
-		serialized bool
-		valid      bool
-	}{
-		{"string", schema.StringLogicalType{}, false, true, true},
-		{"map", schema.MapLogicalType{}, true, true, true},
-		{"list", schema.NewListLogicalType(), true, true, true},
-		{"enum", schema.EnumLogicalType{}, false, true, true},
-		{"decimal", schema.NewDecimalLogicalType(16 /* precision */, 6 /* scale */), false, true, true},
-		{"date", schema.DateLogicalType{}, false, true, true},
-		{"time", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), false, true, true},
-		{"timestamp", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), false, true, true},
-		{"interval", schema.IntervalLogicalType{}, false, true, true},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), false, true, true},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), false, true, true},
-		{"null", schema.NullLogicalType{}, false, true, true},
-		{"json", schema.JSONLogicalType{}, false, true, true},
-		{"bson", schema.BSONLogicalType{}, false, true, true},
-		{"uuid", schema.UUIDLogicalType{}, false, true, true},
-		{"float16", schema.Float16LogicalType{}, false, true, true},
-		{"nological", schema.NoLogicalType{}, false, false, true},
-		{"unknown", schema.UnknownLogicalType{}, false, false, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.True(t, tt.nested == tt.logical.IsNested())
-			assert.True(t, tt.serialized == tt.logical.IsSerialized())
-			assert.True(t, tt.valid == tt.logical.IsValid())
-		})
-	}
-}
-
-var physicalTypeList = []parquet.Type{
-	parquet.Types.Boolean,
-	parquet.Types.Int32,
-	parquet.Types.Int64,
-	parquet.Types.Int96,
-	parquet.Types.Float,
-	parquet.Types.Double,
-	parquet.Types.ByteArray,
-	parquet.Types.FixedLenByteArray,
-}
-
-func TestLogicalSingleTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name       string
-		logical    schema.LogicalType
-		applicable parquet.Type
-	}{
-		{"string", schema.StringLogicalType{}, parquet.Types.ByteArray},
-		{"enum", schema.EnumLogicalType{}, parquet.Types.ByteArray},
-		{"date", schema.DateLogicalType{}, parquet.Types.Int32},
-		{"timemilli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), parquet.Types.Int32},
-		{"timemicro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), parquet.Types.Int64},
-		{"timenano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), parquet.Types.Int64},
-		{"timestampmilli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), parquet.Types.Int64},
-		{"timestampmicro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), parquet.Types.Int64},
-		{"timestampnanos", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), parquet.Types.Int64},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), parquet.Types.Int64},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), parquet.Types.Int64},
-		{"json", schema.JSONLogicalType{}, parquet.Types.ByteArray},
-		{"bson", schema.BSONLogicalType{}, parquet.Types.ByteArray},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				if typ == tt.applicable {
-					assert.True(t, tt.logical.IsApplicable(typ, -1))
-				} else {
-					assert.False(t, tt.logical.IsApplicable(typ, -1))
-				}
-			}
-		})
-	}
-}
-
-func TestLogicalNoTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-	}{
-		{"map", schema.MapLogicalType{}},
-		{"list", schema.NewListLogicalType()},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				assert.False(t, tt.logical.IsApplicable(typ, -1))
-			}
-		})
-	}
-}
-
-func TestLogicalUniversalTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-	}{
-		{"null", schema.NullLogicalType{}},
-		{"none", schema.NoLogicalType{}},
-		{"unknown", schema.UnknownLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				assert.True(t, tt.logical.IsApplicable(typ, -1))
-			}
-		})
-	}
-}
-
-func TestLogicalInapplicableTypes(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  parquet.Type
-		len  int32
-	}{
-		{"fixed 8", parquet.Types.FixedLenByteArray, 8},
-		{"fixed 20", parquet.Types.FixedLenByteArray, 20},
-		{"bool", parquet.Types.Boolean, -1},
-		{"int32", parquet.Types.Int32, -1},
-		{"int64", parquet.Types.Int64, -1},
-		{"int96", parquet.Types.Int96, -1},
-		{"float", parquet.Types.Float, -1},
-		{"double", parquet.Types.Double, -1},
-		{"bytearray", parquet.Types.ByteArray, -1},
-	}
-
-	var logical schema.LogicalType
-
-	logical = schema.IntervalLogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 12))
-	for _, tt := range tests {
-		t.Run("interval "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-
-	logical = schema.UUIDLogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 16))
-	for _, tt := range tests {
-		t.Run("uuid "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-
-	logical = schema.Float16LogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 2))
-	for _, tt := range tests {
-		t.Run("float16 "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-}
-
-func TestDecimalLogicalTypeApplicability(t *testing.T) {
-	const scale = 0
-	var logical schema.LogicalType
-	for prec := int32(1); prec <= 9; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.Int32, -1), "prec: %d", prec)
-	}
-
-	logical = schema.NewDecimalLogicalType(10 /* precision */, scale)
-	assert.False(t, logical.IsApplicable(parquet.Types.Int32, -1))
-
-	for prec := int32(1); prec <= 18; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.Int64, -1), "prec: %d", prec)
-	}
-
-	logical = schema.NewDecimalLogicalType(19, scale)
-	assert.False(t, logical.IsApplicable(parquet.Types.Int64, 0))
-
-	for prec := int32(1); prec <= 36; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.ByteArray, 0), "prec: %d", prec)
-	}
-
-	tests := []struct {
-		physicalLen    int32
-		precisionLimit int32
-	}{
-		{1, 2}, {2, 4}, {3, 6}, {4, 9}, {8, 18}, {10, 23}, {16, 38}, {20, 47}, {32, 76},
-	}
-	for _, tt := range tests {
-		var prec int32
-		for prec = 1; prec <= tt.precisionLimit; prec++ {
-			logical = schema.NewDecimalLogicalType(prec, 0)
-			assert.Truef(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, tt.physicalLen), "prec: %d, len: %d", prec, tt.physicalLen)
-		}
-		logical = schema.NewDecimalLogicalType(prec, 0)
-		assert.Falsef(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, tt.physicalLen), "prec: %d, len: %d", prec, tt.physicalLen)
-	}
-
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Boolean, 0))
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Float, 0))
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Double, 0))
-}
-
-func TestLogicalTypeRepresentation(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  schema.LogicalType
-		expected string
-		expjson  string
-	}{
-		{"unknown", schema.UnknownLogicalType{}, "Unknown", `{"Type": "Unknown"}`},
-		{"string", schema.StringLogicalType{}, "String", `{"Type": "String"}`},
-		{"map", schema.MapLogicalType{}, "Map", `{"Type": "Map"}`},
-		{"list", schema.NewListLogicalType(), "List", `{"Type": "List"}`},
-		{"enum", schema.EnumLogicalType{}, "Enum", `{"Type": "Enum"}`},
-		{"decimal 10 4", schema.NewDecimalLogicalType(10 /* precision */, 4 /* scale */), "Decimal(precision=10, scale=4)", `{"Type": "Decimal", "precision": 10, "scale": 4}`},
-		{"decimal 10 0", schema.NewDecimalLogicalType(10 /* precision */, 0 /* scale */), "Decimal(precision=10, scale=0)", `{"Type": "Decimal", "precision": 10, "scale": 0}`},
-		{"date", schema.DateLogicalType{}, "Date", `{"Type": "Date"}`},
-		{"time milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), "Time(isAdjustedToUTC=true, timeUnit=milliseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "milliseconds"}`},
-		{"time micro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), "Time(isAdjustedToUTC=true, timeUnit=microseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "microseconds"}`},
-		{"time nano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), "Time(isAdjustedToUTC=true, timeUnit=nanoseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "nanoseconds"}`},
-		{"time notutc milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), "Time(isAdjustedToUTC=false, timeUnit=milliseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "milliseconds"}`},
-		{"time notutc micro", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), "Time(isAdjustedToUTC=false, timeUnit=microseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "microseconds"}`},
-		{"time notutc nano", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), "Time(isAdjustedToUTC=false, timeUnit=nanoseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "nanoseconds"}`},
-		{"timestamp milli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), "Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "milliseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp micro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), "Timestamp(isAdjustedToUTC=true, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "microseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp nano", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), "Timestamp(isAdjustedToUTC=true, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "nanoseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc milli", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), "Timestamp(isAdjustedToUTC=false, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "milliseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc micro", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), "Timestamp(isAdjustedToUTC=false, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "microseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc nano", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), "Timestamp(isAdjustedToUTC=false, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "nanoseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"interval", schema.IntervalLogicalType{}, "Interval", `{"Type": "Interval"}`},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), "Int(bitWidth=8, isSigned=false)", `{"Type": "Int", "bitWidth": 8, "isSigned": false}`},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), "Int(bitWidth=16, isSigned=false)", `{"Type": "Int", "bitWidth": 16, "isSigned": false}`},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), "Int(bitWidth=32, isSigned=false)", `{"Type": "Int", "bitWidth": 32, "isSigned": false}`},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), "Int(bitWidth=64, isSigned=false)", `{"Type": "Int", "bitWidth": 64, "isSigned": false}`},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), "Int(bitWidth=8, isSigned=true)", `{"Type": "Int", "bitWidth": 8, "isSigned": true}`},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), "Int(bitWidth=16, isSigned=true)", `{"Type": "Int", "bitWidth": 16, "isSigned": true}`},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), "Int(bitWidth=32, isSigned=true)", `{"Type": "Int", "bitWidth": 32, "isSigned": true}`},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), "Int(bitWidth=64, isSigned=true)", `{"Type": "Int", "bitWidth": 64, "isSigned": true}`},
-		{"null", schema.NullLogicalType{}, "Null", `{"Type": "Null"}`},
-		{"json", schema.JSONLogicalType{}, "JSON", `{"Type": "JSON"}`},
-		{"bson", schema.BSONLogicalType{}, "BSON", `{"Type": "BSON"}`},
-		{"uuid", schema.UUIDLogicalType{}, "UUID", `{"Type": "UUID"}`},
-		{"float16", schema.Float16LogicalType{}, "Float16", `{"Type": "Float16"}`},
-		{"none", schema.NoLogicalType{}, "None", `{"Type": "None"}`},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.expected, tt.logical.String())
-			out, err := json.Marshal(tt.logical)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.expjson, string(out))
-		})
-	}
-}
-
-func TestLogicalTypeSortOrder(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-		order   schema.SortOrder
-	}{
-		{"unknown", schema.UnknownLogicalType{}, schema.SortUNKNOWN},
-		{"string", schema.StringLogicalType{}, schema.SortUNSIGNED},
-		{"map", schema.MapLogicalType{}, schema.SortUNKNOWN},
-		{"list", schema.NewListLogicalType(), schema.SortUNKNOWN},
-		{"enum", schema.EnumLogicalType{}, schema.SortUNSIGNED},
-		{"decimal", schema.NewDecimalLogicalType(8 /* precision */, 2 /* scale */), schema.SortSIGNED},
-		{"date", schema.DateLogicalType{}, schema.SortSIGNED},
-		{"time utc milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.SortSIGNED},
-		{"time utc micros", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.SortSIGNED},
-		{"time utc nanos", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.SortSIGNED},
-		{"time not utc milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), schema.SortSIGNED},
-		{"time not utc micros", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), schema.SortSIGNED},
-		{"time not utc nanos", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.SortSIGNED},
-		{"interval", schema.IntervalLogicalType{}, schema.SortUNKNOWN},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"null", schema.NullLogicalType{}, schema.SortUNKNOWN},
-		{"json", schema.JSONLogicalType{}, schema.SortUNSIGNED},
-		{"bson", schema.BSONLogicalType{}, schema.SortUNSIGNED},
-		{"uuid", schema.UUIDLogicalType{}, schema.SortUNSIGNED},
-		{"float16", schema.Float16LogicalType{}, schema.SortSIGNED},
-		{"none", schema.NoLogicalType{}, schema.SortUNKNOWN},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.order, tt.logical.SortOrder())
-		})
-	}
-}
-
-func TestNodeFactoryEquivalences(t *testing.T) {
-	tests := []struct {
-		name        string
-		logical     schema.LogicalType
-		converted   schema.ConvertedType
-		typ         parquet.Type
-		physicalLen int
-		precision   int
-		scale       int
-	}{
-		{"string", schema.StringLogicalType{}, schema.ConvertedTypes.UTF8, parquet.Types.ByteArray, -1, -1, -1},
-		{"enum", schema.EnumLogicalType{}, schema.ConvertedTypes.Enum, parquet.Types.ByteArray, -1, -1, -1},
-		{"decimal", schema.NewDecimalLogicalType(16 /* precision */, 6 /* scale */), schema.ConvertedTypes.Decimal, parquet.Types.Int64, -1, 16, 6},
-		{"date", schema.DateLogicalType{}, schema.ConvertedTypes.Date, parquet.Types.Int32, -1, -1, -1},
-		{"time millis", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimeMillis, parquet.Types.Int32, -1, -1, -1},
-		{"time micros", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimeMicros, parquet.Types.Int64, -1, -1, -1},
-		{"timestamp millis", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimestampMillis, parquet.Types.Int64, -1, -1, -1},
-		{"timestamp micros", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimestampMicros, parquet.Types.Int64, -1, -1, -1},
-		{"interval", schema.IntervalLogicalType{}, schema.ConvertedTypes.Interval, parquet.Types.FixedLenByteArray, 12, -1, -1},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint8, parquet.Types.Int32, -1, -1, -1},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int8, parquet.Types.Int32, -1, -1, -1},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint16, parquet.Types.Int32, -1, -1, -1},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int16, parquet.Types.Int32, -1, -1, -1},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint32, parquet.Types.Int32, -1, -1, -1},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int32, parquet.Types.Int32, -1, -1, -1},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint64, parquet.Types.Int64, -1, -1, -1},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int64, parquet.Types.Int64, -1, -1, -1},
-		{"json", schema.JSONLogicalType{}, schema.ConvertedTypes.JSON, parquet.Types.ByteArray, -1, -1, -1},
-		{"bson", schema.BSONLogicalType{}, schema.ConvertedTypes.BSON, parquet.Types.ByteArray, -1, -1, -1},
-		{"none", schema.NoLogicalType{}, schema.ConvertedTypes.None, parquet.Types.Int64, -1, -1, -1},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			name := "something"
-			repetition := parquet.Repetitions.Required
-
-			fromConverted := schema.MustPrimitive(schema.NewPrimitiveNodeConverted(name, repetition, tt.typ, tt.converted, tt.physicalLen, tt.precision, tt.scale, -1 /* fieldID */))
-			fromLogical := schema.MustPrimitive(schema.NewPrimitiveNodeLogical(name, repetition, tt.logical, tt.typ, tt.physicalLen, -1 /* fieldID */))
-			assert.True(t, fromConverted.Equals(fromLogical))
-		})
-	}
-
-	rep := parquet.Repetitions.Optional
-	fromConverted, err := schema.NewGroupNodeConverted("map" /* name */, rep, []schema.Node{}, schema.ConvertedTypes.Map, -1 /* fieldID */)
-	assert.NoError(t, err)
-
-	fromLogical, err := schema.NewGroupNodeLogical("map" /* name */, rep, []schema.Node{}, schema.MapLogicalType{}, -1 /* fieldID */)
-	assert.NoError(t, err)
-	assert.True(t, fromConverted.Equals(fromLogical))
-
-	fromConverted, err = schema.NewGroupNodeConverted("list" /* name */, rep, []schema.Node{}, schema.ConvertedTypes.List, -1 /* fieldID */)
-	assert.NoError(t, err)
-
-	fromLogical, err = schema.NewGroupNodeLogical("list" /* name */, rep, []schema.Node{}, schema.NewListLogicalType(), -1 /* fieldID */)
-	assert.NoError(t, err)
-	assert.True(t, fromConverted.Equals(fromLogical))
-}
diff --git a/go/parquet/schema/node.go b/go/parquet/schema/node.go
deleted file mode 100644
index c395caf8a26c8..0000000000000
--- a/go/parquet/schema/node.go
+++ /dev/null
@@ -1,629 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/thrift/lib/go/thrift"
-	"golang.org/x/xerrors"
-)
-
-// NodeType describes whether the Node is a Primitive or Group node
-type NodeType int
-
-// the available constants for NodeType
-const (
-	Primitive NodeType = iota
-	Group
-)
-
-// Node is the interface for both Group and Primitive Nodes.
-// A logical schema type has a name, repetition level, and optionally
-// a logical type (converted type is the deprecated version of the logical
-// type concept, which is maintained for forward compatibility)
-type Node interface {
-	Name() string
-	Type() NodeType
-	RepetitionType() parquet.Repetition
-	ConvertedType() ConvertedType
-	LogicalType() LogicalType
-	FieldID() int32
-	Parent() Node
-	SetParent(Node)
-	Path() string
-	Equals(Node) bool
-	Visit(v Visitor)
-	toThrift() *format.SchemaElement
-}
-
-// Visitor is an interface for creating functionality to walk the schema tree.
-//
-// A visitor can be passed to the Visit function of a Node in order to walk
-// the tree. VisitPre is called the first time a node is encountered. If
-// it is a group node, the return is checked and if it is false, the children
-// will be skipped.
-//
-// VisitPost is called after visiting any children
-type Visitor interface {
-	VisitPre(Node) bool
-	VisitPost(Node)
-}
-
-// ColumnPathFromNode walks the parents of the given node to construct it's
-// column path
-func ColumnPathFromNode(n Node) parquet.ColumnPath {
-	if n == nil {
-		return nil
-	}
-
-	c := make([]string, 0)
-
-	// build the path in reverse order as we traverse nodes to the top
-	cursor := n
-	for cursor.Parent() != nil {
-		c = append(c, cursor.Name())
-		cursor = cursor.Parent()
-	}
-
-	// reverse the order of the list in place so that our result
-	// is in the proper, correct order.
-	for i := len(c)/2 - 1; i >= 0; i-- {
-		opp := len(c) - 1 - i
-		c[i], c[opp] = c[opp], c[i]
-	}
-
-	return c
-}
-
-// node is the base embedded struct for both group and primitive nodes
-type node struct {
-	typ    NodeType
-	parent Node
-
-	name          string
-	repetition    parquet.Repetition
-	fieldID       int32
-	logicalType   LogicalType
-	convertedType ConvertedType
-	colPath       parquet.ColumnPath
-}
-
-func (n *node) toThrift() *format.SchemaElement    { return nil }
-func (n *node) Name() string                       { return n.name }
-func (n *node) Type() NodeType                     { return n.typ }
-func (n *node) RepetitionType() parquet.Repetition { return n.repetition }
-func (n *node) ConvertedType() ConvertedType       { return n.convertedType }
-func (n *node) LogicalType() LogicalType           { return n.logicalType }
-func (n *node) FieldID() int32                     { return n.fieldID }
-func (n *node) Parent() Node                       { return n.parent }
-func (n *node) SetParent(p Node)                   { n.parent = p }
-func (n *node) Path() string {
-	return n.columnPath().String()
-}
-func (n *node) columnPath() parquet.ColumnPath {
-	if n.colPath == nil {
-		n.colPath = ColumnPathFromNode(n)
-	}
-	return n.colPath
-}
-
-func (n *node) Equals(rhs Node) bool {
-	return n.typ == rhs.Type() &&
-		n.Name() == rhs.Name() &&
-		n.RepetitionType() == rhs.RepetitionType() &&
-		n.ConvertedType() == rhs.ConvertedType() &&
-		n.FieldID() == rhs.FieldID() &&
-		n.LogicalType().Equals(rhs.LogicalType())
-}
-
-func (n *node) Visit(v Visitor) {}
-
-// A PrimitiveNode is a type that is one of the primitive Parquet storage types. In addition to
-// the other type metadata (name, repetition level, logical type), also has the
-// physical storage type and their type-specific metadata (byte width, decimal
-// parameters)
-type PrimitiveNode struct {
-	node
-
-	ColumnOrder     parquet.ColumnOrder
-	physicalType    parquet.Type
-	typeLen         int
-	decimalMetaData DecimalMetadata
-}
-
-// NewPrimitiveNodeLogical constructs a Primitive node using the provided logical type for a given
-// physical type and typelength.
-func NewPrimitiveNodeLogical(name string, repetition parquet.Repetition, logicalType LogicalType, physicalType parquet.Type, typeLen int, id int32) (*PrimitiveNode, error) {
-	n := &PrimitiveNode{
-		node:         node{typ: Primitive, name: name, repetition: repetition, logicalType: logicalType, fieldID: id},
-		physicalType: physicalType,
-		typeLen:      typeLen,
-	}
-
-	if logicalType != nil {
-		if !logicalType.IsNested() {
-			if logicalType.IsApplicable(physicalType, int32(typeLen)) {
-				n.convertedType, n.decimalMetaData = n.logicalType.ToConvertedType()
-			} else {
-				return nil, fmt.Errorf("%s cannot be applied to primitive type %s", logicalType, physicalType)
-			}
-		} else {
-			return nil, fmt.Errorf("nested logical type %s cannot be applied to a non-group node", logicalType)
-		}
-	} else {
-		n.logicalType = NoLogicalType{}
-		n.convertedType, n.decimalMetaData = n.logicalType.ToConvertedType()
-	}
-
-	if !(n.logicalType != nil && !n.logicalType.IsNested() && n.logicalType.IsCompatible(n.convertedType, n.decimalMetaData)) {
-		return nil, fmt.Errorf("invalid logical type %s", n.logicalType)
-	}
-
-	if n.physicalType == parquet.Types.FixedLenByteArray && n.typeLen <= 0 {
-		return nil, xerrors.New("invalid fixed length byte array length")
-	}
-	return n, nil
-}
-
-// NewPrimitiveNodeConverted constructs a primitive node from the given physical type and converted type,
-// determining the logical type from the converted type.
-func NewPrimitiveNodeConverted(name string, repetition parquet.Repetition, typ parquet.Type, converted ConvertedType, typeLen, precision, scale int, id int32) (*PrimitiveNode, error) {
-	n := &PrimitiveNode{
-		node:         node{typ: Primitive, name: name, repetition: repetition, convertedType: converted, fieldID: id},
-		physicalType: typ,
-		typeLen:      -1,
-	}
-
-	switch converted {
-	case ConvertedTypes.None:
-	case ConvertedTypes.UTF8, ConvertedTypes.JSON, ConvertedTypes.BSON:
-		if typ != parquet.Types.ByteArray {
-			return nil, fmt.Errorf("parquet: %s can only annotate BYTE_LEN fields", typ)
-		}
-	case ConvertedTypes.Decimal:
-		switch typ {
-		case parquet.Types.Int32, parquet.Types.Int64, parquet.Types.ByteArray, parquet.Types.FixedLenByteArray:
-		default:
-			return nil, xerrors.New("parquet: DECIMAL can only annotate INT32, INT64, BYTE_ARRAY and FIXED")
-		}
-
-		switch {
-		case precision <= 0:
-			return nil, fmt.Errorf("parquet: invalid decimal precision: %d, must be between 1 and 38 inclusive", precision)
-		case scale < 0:
-			return nil, fmt.Errorf("parquet: invalid decimal scale: %d, must be a number between 0 and precision inclusive", scale)
-		case scale > precision:
-			return nil, fmt.Errorf("parquet: invalid decimal scale %d, cannot be greater than precision: %d", scale, precision)
-		}
-		n.decimalMetaData.IsSet = true
-		n.decimalMetaData.Precision = int32(precision)
-		n.decimalMetaData.Scale = int32(scale)
-	case ConvertedTypes.Date,
-		ConvertedTypes.TimeMillis,
-		ConvertedTypes.Int8,
-		ConvertedTypes.Int16,
-		ConvertedTypes.Int32,
-		ConvertedTypes.Uint8,
-		ConvertedTypes.Uint16,
-		ConvertedTypes.Uint32:
-		if typ != parquet.Types.Int32 {
-			return nil, fmt.Errorf("parquet: %s can only annotate INT32", converted)
-		}
-	case ConvertedTypes.TimeMicros,
-		ConvertedTypes.TimestampMicros,
-		ConvertedTypes.TimestampMillis,
-		ConvertedTypes.Int64,
-		ConvertedTypes.Uint64:
-		if typ != parquet.Types.Int64 {
-			return nil, fmt.Errorf("parquet: %s can only annotate INT64", converted)
-		}
-	case ConvertedTypes.Interval:
-		if typ != parquet.Types.FixedLenByteArray || typeLen != 12 {
-			return nil, xerrors.New("parquet: INTERVAL can only annotate FIXED_LEN_BYTE_ARRAY(12)")
-		}
-	case ConvertedTypes.Enum:
-		if typ != parquet.Types.ByteArray {
-			return nil, xerrors.New("parquet: ENUM can only annotate BYTE_ARRAY fields")
-		}
-	case ConvertedTypes.NA:
-	default:
-		return nil, fmt.Errorf("parquet: %s cannot be applied to a primitive type", converted.String())
-	}
-
-	n.logicalType = n.convertedType.ToLogicalType(n.decimalMetaData)
-	if !(n.logicalType != nil && !n.logicalType.IsNested() && n.logicalType.IsCompatible(n.convertedType, n.decimalMetaData)) {
-		return nil, fmt.Errorf("invalid logical type %s", n.logicalType)
-	}
-
-	if n.physicalType == parquet.Types.FixedLenByteArray {
-		if typeLen <= 0 {
-			return nil, xerrors.New("invalid fixed len byte array length")
-		}
-		n.typeLen = typeLen
-	}
-
-	return n, nil
-}
-
-func PrimitiveNodeFromThrift(elem *format.SchemaElement) (*PrimitiveNode, error) {
-	fieldID := int32(-1)
-	if elem.IsSetFieldID() {
-		fieldID = elem.GetFieldID()
-	}
-
-	if elem.IsSetLogicalType() {
-		return NewPrimitiveNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()),
-			getLogicalType(elem.GetLogicalType()), parquet.Type(elem.GetType()), int(elem.GetTypeLength()),
-			fieldID)
-	} else if elem.IsSetConvertedType() {
-		return NewPrimitiveNodeConverted(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()),
-			parquet.Type(elem.GetType()), ConvertedType(elem.GetConvertedType()),
-			int(elem.GetTypeLength()), int(elem.GetPrecision()), int(elem.GetScale()), fieldID)
-	}
-	return NewPrimitiveNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), NoLogicalType{}, parquet.Type(elem.GetType()), int(elem.GetTypeLength()), fieldID)
-}
-
-// NewPrimitiveNode constructs a primitive node with the ConvertedType of None and no logical type.
-//
-// Use NewPrimitiveNodeLogical and NewPrimitiveNodeConverted to specify the logical or converted type.
-func NewPrimitiveNode(name string, repetition parquet.Repetition, typ parquet.Type, fieldID, typeLength int32) (*PrimitiveNode, error) {
-	return NewPrimitiveNodeLogical(name, repetition, nil, typ, int(typeLength), fieldID)
-}
-
-// Equals returns true if both nodes are primitive nodes with the same physical
-// and converted/logical types.
-func (p *PrimitiveNode) Equals(rhs Node) bool {
-	if !p.node.Equals(rhs) {
-		return false
-	}
-
-	other := rhs.(*PrimitiveNode)
-	if p == other {
-		return true
-	}
-
-	if p.PhysicalType() != other.PhysicalType() {
-		return false
-	}
-
-	equal := true
-	if p.ConvertedType() == ConvertedTypes.Decimal {
-		equal = equal &&
-			(p.decimalMetaData.Precision == other.decimalMetaData.Precision &&
-				p.decimalMetaData.Scale == other.decimalMetaData.Scale)
-	}
-	if p.PhysicalType() == parquet.Types.FixedLenByteArray {
-		equal = equal && p.TypeLength() == other.TypeLength()
-	}
-	return equal
-}
-
-// PhysicalType returns the proper Physical parquet.Type primitive that is used
-// to store the values in this column.
-func (p *PrimitiveNode) PhysicalType() parquet.Type { return p.physicalType }
-
-// SetTypeLength will change the type length of the node, has no effect if the
-// physical type is not FixedLength Byte Array
-func (p *PrimitiveNode) SetTypeLength(length int) {
-	if p.PhysicalType() == parquet.Types.FixedLenByteArray {
-		p.typeLen = length
-	}
-}
-
-// TypeLength will be -1 if not a FixedLenByteArray column, otherwise will be the
-// length of the FixedLen Byte Array
-func (p *PrimitiveNode) TypeLength() int { return p.typeLen }
-
-// DecimalMetadata returns the current metadata for the node. If not a decimal
-// typed column, the return should have IsSet == false.
-func (p *PrimitiveNode) DecimalMetadata() DecimalMetadata { return p.decimalMetaData }
-
-// Visit is for implementing a Visitor pattern handler to walk a schema's tree. One
-// example is the Schema Printer which walks the tree to print out the schema in order.
-func (p *PrimitiveNode) Visit(v Visitor) {
-	v.VisitPre(p)
-	v.VisitPost(p)
-}
-
-func (p *PrimitiveNode) toThrift() *format.SchemaElement {
-	elem := &format.SchemaElement{
-		Name:           p.Name(),
-		RepetitionType: format.FieldRepetitionTypePtr(format.FieldRepetitionType(p.RepetitionType())),
-		Type:           format.TypePtr(format.Type(p.PhysicalType())),
-	}
-	if p.ConvertedType() != ConvertedTypes.None {
-		elem.ConvertedType = format.ConvertedTypePtr(format.ConvertedType(p.ConvertedType()))
-	}
-	if p.FieldID() >= 0 {
-		elem.FieldID = thrift.Int32Ptr(p.FieldID())
-	}
-	if p.logicalType != nil && p.logicalType.IsSerialized() && !p.logicalType.Equals(IntervalLogicalType{}) {
-		elem.LogicalType = p.logicalType.toThrift()
-	}
-	if p.physicalType == parquet.Types.FixedLenByteArray {
-		elem.TypeLength = thrift.Int32Ptr(int32(p.typeLen))
-	}
-	if p.decimalMetaData.IsSet {
-		elem.Precision = &p.decimalMetaData.Precision
-		elem.Scale = &p.decimalMetaData.Scale
-	}
-	return elem
-}
-
-// FieldList is an alias for a slice of Nodes
-type FieldList []Node
-
-// Len is equivalent to len(fieldlist)
-func (f FieldList) Len() int { return len(f) }
-
-// GroupNode is for managing nested nodes like List, Map, etc.
-type GroupNode struct {
-	node
-	fields    FieldList
-	nameToIdx strIntMultimap
-}
-
-// NewGroupNodeConverted constructs a group node with the provided fields and converted type,
-// determining the logical type from that converted type.
-func NewGroupNodeConverted(name string, repetition parquet.Repetition, fields FieldList, converted ConvertedType, id int32) (n *GroupNode, err error) {
-	n = &GroupNode{
-		node:   node{typ: Group, name: name, repetition: repetition, convertedType: converted, fieldID: id},
-		fields: fields,
-	}
-	n.logicalType = n.convertedType.ToLogicalType(DecimalMetadata{})
-	if !(n.logicalType != nil && (n.logicalType.IsNested() || n.logicalType.IsNone()) && n.logicalType.IsCompatible(n.convertedType, DecimalMetadata{})) {
-		err = fmt.Errorf("invalid logical type %s", n.logicalType.String())
-		return
-	}
-
-	n.nameToIdx = make(strIntMultimap)
-	for idx, f := range n.fields {
-		f.SetParent(n)
-		n.nameToIdx.Add(f.Name(), idx)
-	}
-	return
-}
-
-// NewGroupNodeLogical constructs a group node with the provided fields and logical type,
-// determining the converted type from the provided logical type.
-func NewGroupNodeLogical(name string, repetition parquet.Repetition, fields FieldList, logical LogicalType, id int32) (n *GroupNode, err error) {
-	n = &GroupNode{
-		node:   node{typ: Group, name: name, repetition: repetition, logicalType: logical, fieldID: id},
-		fields: fields,
-	}
-
-	if logical != nil {
-		if logical.IsNested() {
-			n.convertedType, _ = logical.ToConvertedType()
-		} else {
-			err = fmt.Errorf("logical type %s cannot be applied to group node", logical)
-			return
-		}
-	} else {
-		n.logicalType = NoLogicalType{}
-		n.convertedType, _ = n.logicalType.ToConvertedType()
-	}
-
-	if !(n.logicalType != nil && (n.logicalType.IsNested() || n.logicalType.IsNone()) && n.logicalType.IsCompatible(n.convertedType, DecimalMetadata{})) {
-		err = fmt.Errorf("invalid logical type %s", n.logicalType)
-		return
-	}
-
-	n.nameToIdx = make(strIntMultimap)
-	for idx, f := range n.fields {
-		f.SetParent(n)
-		n.nameToIdx.Add(f.Name(), idx)
-	}
-	return
-}
-
-// NewGroupNode constructs a new group node with the provided fields,
-// but with converted type None and No Logical Type
-func NewGroupNode(name string, repetition parquet.Repetition, fields FieldList, fieldID int32) (*GroupNode, error) {
-	return NewGroupNodeConverted(name, repetition, fields, ConvertedTypes.None, fieldID)
-}
-
-// Must is a convenience function for the NewNode functions that return a Node
-// and an error, panic'ing if err != nil or returning the node
-func Must(n Node, err error) Node {
-	if err != nil {
-		panic(err)
-	}
-	return n
-}
-
-// MustGroup is like Must, except it casts the node to a *GroupNode, which will panic
-// if it is a primitive node.
-func MustGroup(n Node, err error) *GroupNode {
-	if err != nil {
-		panic(err)
-	}
-	return n.(*GroupNode)
-}
-
-// MustPrimitive is like Must except it casts the node to *PrimitiveNode which will panic
-// if it is a group node.
-func MustPrimitive(n Node, err error) *PrimitiveNode {
-	if err != nil {
-		panic(err)
-	}
-	return n.(*PrimitiveNode)
-}
-
-func GroupNodeFromThrift(elem *format.SchemaElement, fields FieldList) (*GroupNode, error) {
-	id := int32(-1)
-	if elem.IsSetFieldID() {
-		id = elem.GetFieldID()
-	}
-
-	if elem.IsSetLogicalType() {
-		return NewGroupNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), fields, getLogicalType(elem.GetLogicalType()), id)
-	}
-
-	converted := ConvertedTypes.None
-	if elem.IsSetConvertedType() {
-		converted = ConvertedType(elem.GetConvertedType())
-	}
-	return NewGroupNodeConverted(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), fields, converted, id)
-}
-
-func (g *GroupNode) toThrift() *format.SchemaElement {
-	elem := &format.SchemaElement{
-		Name:           g.name,
-		NumChildren:    thrift.Int32Ptr(int32(len(g.fields))),
-		RepetitionType: format.FieldRepetitionTypePtr(format.FieldRepetitionType(g.RepetitionType())),
-	}
-	if g.convertedType != ConvertedTypes.None {
-		elem.ConvertedType = format.ConvertedTypePtr(format.ConvertedType(g.convertedType))
-	}
-	if g.fieldID >= 0 {
-		elem.FieldID = &g.fieldID
-	}
-	if g.logicalType != nil && g.logicalType.IsSerialized() {
-		elem.LogicalType = g.logicalType.toThrift()
-	}
-	return elem
-}
-
-// Equals will compare this node to the provided node and only return true if
-// this node and all of it's children are the same as the passed in node and its
-// children.
-func (g *GroupNode) Equals(rhs Node) bool {
-	if !g.node.Equals(rhs) {
-		return false
-	}
-
-	other := rhs.(*GroupNode)
-	if g == other {
-		return true
-	}
-	if len(g.fields) != len(other.fields) {
-		return false
-	}
-
-	for idx, field := range g.fields {
-		if !field.Equals(other.fields[idx]) {
-			return false
-		}
-	}
-	return true
-}
-
-// NumFields returns the number of direct child fields for this group node
-func (g *GroupNode) NumFields() int {
-	return len(g.fields)
-}
-
-// Field returns the node in the field list which is of the provided (0-based) index
-func (g *GroupNode) Field(i int) Node {
-	return g.fields[i]
-}
-
-// FieldIndexByName provides the index for the field of the given name. Returns
-// -1 if not found.
-//
-// If there are more than one field of this name, it returns the index for the first one.
-func (g *GroupNode) FieldIndexByName(name string) int {
-	if idx, ok := g.nameToIdx[name]; ok {
-		return idx[0]
-	}
-	return -1
-}
-
-// FieldIndexByField looks up the index child of this node. Returns -1
-// if n isn't a child of this group
-func (g *GroupNode) FieldIndexByField(n Node) int {
-	if search, ok := g.nameToIdx[n.Name()]; ok {
-		for _, idx := range search {
-			if n == g.fields[idx] {
-				return idx
-			}
-		}
-	}
-	return -1
-}
-
-// Visit is for implementing a Visitor pattern handler to walk a schema's tree. One
-// example is the Schema Printer which walks the tree to print out the schema in order.
-func (g *GroupNode) Visit(v Visitor) {
-	if v.VisitPre(g) {
-		for _, field := range g.fields {
-			field.Visit(v)
-		}
-	}
-	v.VisitPost(g)
-}
-
-// HasRepeatedFields returns true if any of the children of this node have
-// Repeated as its repetition type.
-//
-// This is recursive and will check the children of any group nodes that are children.
-func (g *GroupNode) HasRepeatedFields() bool {
-	for _, field := range g.fields {
-		if field.RepetitionType() == parquet.Repetitions.Repeated {
-			return true
-		}
-		if field.Type() == Group {
-			return field.(*GroupNode).HasRepeatedFields()
-		}
-	}
-	return false
-}
-
-// NewInt32Node is a convenience factory for constructing an Int32 Primitive Node
-func NewInt32Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int32, fieldID, -1))
-}
-
-// NewInt64Node is a convenience factory for constructing an Int64 Primitive Node
-func NewInt64Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int64, fieldID, -1))
-}
-
-// NewInt96Node is a convenience factory for constructing an Int96 Primitive Node
-func NewInt96Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int96, fieldID, -1))
-}
-
-// NewFloat32Node is a convenience factory for constructing an Float Primitive Node
-func NewFloat32Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Float, fieldID, -1))
-}
-
-// NewFloat64Node is a convenience factory for constructing an Double Primitive Node
-func NewFloat64Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Double, fieldID, -1))
-}
-
-// NewBooleanNode is a convenience factory for constructing an Boolean Primitive Node
-func NewBooleanNode(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Boolean, fieldID, -1))
-}
-
-// NewByteArrayNode is a convenience factory for constructing an Byte Array Primitive Node
-func NewByteArrayNode(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.ByteArray, fieldID, -1))
-}
-
-// NewFixedLenByteArrayNode is a convenience factory for constructing an Fixed Length
-// Byte Array Primitive Node of the given length
-func NewFixedLenByteArrayNode(name string, rep parquet.Repetition, length int32, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.FixedLenByteArray, fieldID, length))
-}
diff --git a/go/parquet/schema/reflection.go b/go/parquet/schema/reflection.go
deleted file mode 100644
index 51d0a84f2244f..0000000000000
--- a/go/parquet/schema/reflection.go
+++ /dev/null
@@ -1,829 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-type taggedInfo struct {
-	Name string
-
-	Type      parquet.Type
-	KeyType   parquet.Type
-	ValueType parquet.Type
-
-	Length      int32
-	KeyLength   int32
-	ValueLength int32
-
-	Scale      int32
-	KeyScale   int32
-	ValueScale int32
-
-	Precision      int32
-	KeyPrecision   int32
-	ValuePrecision int32
-
-	FieldID      int32
-	KeyFieldID   int32
-	ValueFieldID int32
-
-	RepetitionType  parquet.Repetition
-	ValueRepetition parquet.Repetition
-
-	Converted      ConvertedType
-	KeyConverted   ConvertedType
-	ValueConverted ConvertedType
-
-	LogicalFields      map[string]string
-	KeyLogicalFields   map[string]string
-	ValueLogicalFields map[string]string
-
-	LogicalType      LogicalType
-	KeyLogicalType   LogicalType
-	ValueLogicalType LogicalType
-
-	Exclude bool
-}
-
-func (t *taggedInfo) CopyForKey() (ret taggedInfo) {
-	ret = *t
-	ret.Type = t.KeyType
-	ret.Length = t.KeyLength
-	ret.Scale = t.KeyScale
-	ret.Precision = t.KeyPrecision
-	ret.FieldID = t.KeyFieldID
-	ret.RepetitionType = parquet.Repetitions.Required
-	ret.Converted = t.KeyConverted
-	ret.LogicalType = t.KeyLogicalType
-	return
-}
-
-func (t *taggedInfo) CopyForValue() (ret taggedInfo) {
-	ret = *t
-	ret.Type = t.ValueType
-	ret.Length = t.ValueLength
-	ret.Scale = t.ValueScale
-	ret.Precision = t.ValuePrecision
-	ret.FieldID = t.ValueFieldID
-	ret.RepetitionType = t.ValueRepetition
-	ret.Converted = t.ValueConverted
-	ret.LogicalType = t.ValueLogicalType
-	return
-}
-
-func (t *taggedInfo) UpdateLogicalTypes() {
-	processLogicalType := func(fields map[string]string, precision, scale int32) LogicalType {
-		t, ok := fields["type"]
-		if !ok {
-			return NoLogicalType{}
-		}
-
-		switch strings.ToLower(t) {
-		case "string":
-			return StringLogicalType{}
-		case "map":
-			return MapLogicalType{}
-		case "list":
-			return ListLogicalType{}
-		case "enum":
-			return EnumLogicalType{}
-		case "decimal":
-			if v, ok := fields["precision"]; ok {
-				precision = int32FromType(v)
-			}
-			if v, ok := fields["scale"]; ok {
-				scale = int32FromType(v)
-			}
-			return NewDecimalLogicalType(precision, scale)
-		case "date":
-			return DateLogicalType{}
-		case "time":
-			unit, ok := fields["unit"]
-			if !ok {
-				panic("must specify unit for time logical type")
-			}
-			adjustedToUtc, ok := fields["isadjustedutc"]
-			if !ok {
-				adjustedToUtc = "true"
-			}
-			return NewTimeLogicalType(boolFromStr(adjustedToUtc), timeUnitFromString(strings.ToLower(unit)))
-		case "timestamp":
-			unit, ok := fields["unit"]
-			if !ok {
-				panic("must specify unit for time logical type")
-			}
-			adjustedToUtc, ok := fields["isadjustedutc"]
-			if !ok {
-				adjustedToUtc = "true"
-			}
-			return NewTimestampLogicalType(boolFromStr(adjustedToUtc), timeUnitFromString(unit))
-		case "integer":
-			width, ok := fields["bitwidth"]
-			if !ok {
-				panic("must specify bitwidth if explicitly setting integer logical type")
-			}
-			signed, ok := fields["signed"]
-			if !ok {
-				signed = "true"
-			}
-
-			return NewIntLogicalType(int8(int32FromType(width)), boolFromStr(signed))
-		case "null":
-			return NullLogicalType{}
-		case "json":
-			return JSONLogicalType{}
-		case "bson":
-			return BSONLogicalType{}
-		case "uuid":
-			return UUIDLogicalType{}
-		case "float16":
-			return Float16LogicalType{}
-		default:
-			panic(fmt.Errorf("invalid logical type specified: %s", t))
-		}
-	}
-
-	t.LogicalType = processLogicalType(t.LogicalFields, t.Precision, t.Scale)
-	t.KeyLogicalType = processLogicalType(t.KeyLogicalFields, t.KeyPrecision, t.KeyScale)
-	t.ValueLogicalType = processLogicalType(t.ValueLogicalFields, t.ValuePrecision, t.ValueScale)
-}
-
-func newTaggedInfo() taggedInfo {
-	return taggedInfo{
-		Type:               parquet.Types.Undefined,
-		KeyType:            parquet.Types.Undefined,
-		ValueType:          parquet.Types.Undefined,
-		RepetitionType:     parquet.Repetitions.Undefined,
-		ValueRepetition:    parquet.Repetitions.Undefined,
-		Converted:          ConvertedTypes.NA,
-		KeyConverted:       ConvertedTypes.NA,
-		ValueConverted:     ConvertedTypes.NA,
-		FieldID:            -1,
-		KeyFieldID:         -1,
-		ValueFieldID:       -1,
-		LogicalFields:      make(map[string]string),
-		KeyLogicalFields:   make(map[string]string),
-		ValueLogicalFields: make(map[string]string),
-		LogicalType:        NoLogicalType{},
-		KeyLogicalType:     NoLogicalType{},
-		ValueLogicalType:   NoLogicalType{},
-		Exclude:            false,
-	}
-}
-
-var int32FromType = func(v string) int32 {
-	val, err := strconv.Atoi(v)
-	if err != nil {
-		panic(err)
-	}
-	return int32(val)
-}
-
-var boolFromStr = func(v string) bool {
-	val, err := strconv.ParseBool(v)
-	if err != nil {
-		panic(err)
-	}
-	return val
-}
-
-func infoFromTags(f reflect.StructTag) *taggedInfo {
-	typeFromStr := func(v string) parquet.Type {
-		t, err := format.TypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(fmt.Errorf("invalid type specified: %s", v))
-		}
-		return parquet.Type(t)
-	}
-
-	repFromStr := func(v string) parquet.Repetition {
-		r, err := format.FieldRepetitionTypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(err)
-		}
-		return parquet.Repetition(r)
-	}
-
-	convertedFromStr := func(v string) ConvertedType {
-		c, err := format.ConvertedTypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(err)
-		}
-		return ConvertedType(c)
-	}
-
-	if ptags, ok := f.Lookup("parquet"); ok {
-		info := newTaggedInfo()
-		if ptags == "-" {
-			info.Exclude = true
-			return &info
-		}
-		for _, tag := range strings.Split(strings.Replace(ptags, "\t", "", -1), ",") {
-			tag = strings.TrimSpace(tag)
-			kv := strings.SplitN(tag, "=", 2)
-			key := strings.TrimSpace(strings.ToLower(kv[0]))
-			value := strings.TrimSpace(kv[1])
-
-			switch key {
-			case "name":
-				info.Name = value
-			case "type":
-				info.Type = typeFromStr(value)
-			case "keytype":
-				info.KeyType = typeFromStr(value)
-			case "valuetype":
-				info.ValueType = typeFromStr(value)
-			case "length":
-				info.Length = int32FromType(value)
-			case "keylength":
-				info.KeyLength = int32FromType(value)
-			case "valuelength":
-				info.ValueLength = int32FromType(value)
-			case "scale":
-				info.Scale = int32FromType(value)
-			case "keyscale":
-				info.KeyScale = int32FromType(value)
-			case "valuescale":
-				info.ValueScale = int32FromType(value)
-			case "precision":
-				info.Precision = int32FromType(value)
-			case "keyprecision":
-				info.KeyPrecision = int32FromType(value)
-			case "valueprecision":
-				info.ValuePrecision = int32FromType(value)
-			case "fieldid":
-				info.FieldID = int32FromType(value)
-			case "keyfieldid":
-				info.KeyFieldID = int32FromType(value)
-			case "valuefieldid":
-				info.ValueFieldID = int32FromType(value)
-			case "repetition":
-				info.RepetitionType = repFromStr(value)
-			case "valuerepetition":
-				info.ValueRepetition = repFromStr(value)
-			case "converted":
-				info.Converted = convertedFromStr(value)
-			case "keyconverted":
-				info.KeyConverted = convertedFromStr(value)
-			case "valueconverted":
-				info.ValueConverted = convertedFromStr(value)
-			case "logical":
-				info.LogicalFields["type"] = value
-			case "keylogical":
-				info.KeyLogicalFields["type"] = value
-			case "valuelogical":
-				info.ValueLogicalFields["type"] = value
-			default:
-				switch {
-				case strings.HasPrefix(key, "logical."):
-					info.LogicalFields[strings.TrimPrefix(key, "logical.")] = value
-				case strings.HasPrefix(key, "keylogical."):
-					info.KeyLogicalFields[strings.TrimPrefix(key, "keylogical.")] = value
-				case strings.HasPrefix(key, "valuelogical."):
-					info.ValueLogicalFields[strings.TrimPrefix(key, "valuelogical.")] = value
-				}
-			}
-		}
-		info.UpdateLogicalTypes()
-		return &info
-	}
-	return nil
-}
-
-// typeToNode recursively converts a physical type and the tag info into parquet Nodes
-//
-// to avoid having to propagate errors up potentially high numbers of recursive calls
-// we use panics and then recover in the public function NewSchemaFromStruct so that a
-// failure very far down the stack quickly unwinds.
-func typeToNode(name string, typ reflect.Type, repType parquet.Repetition, info *taggedInfo) Node {
-	// set up our default values for everything
-	var (
-		converted             = ConvertedTypes.None
-		logical   LogicalType = NoLogicalType{}
-		fieldID               = int32(-1)
-		physical              = parquet.Types.Undefined
-		typeLen               = 0
-		precision             = 0
-		scale                 = 0
-	)
-	if info != nil { // we have struct tag info to process
-		fieldID = info.FieldID
-		if info.Converted != ConvertedTypes.NA {
-			converted = info.Converted
-		}
-		logical = info.LogicalType
-		physical = info.Type
-		typeLen = int(info.Length)
-		precision = int(info.Precision)
-		scale = int(info.Scale)
-
-		if info.Name != "" {
-			name = info.Name
-		}
-		if info.RepetitionType != parquet.Repetitions.Undefined {
-			repType = info.RepetitionType
-		}
-	}
-
-	// simplify the logic by switching based on the reflection Kind
-	switch typ.Kind() {
-	case reflect.Map:
-		// a map must have a logical type of MAP or have no tag for logical type in which case
-		// we assume MAP logical type.
-		if !logical.IsNone() && !logical.Equals(MapLogicalType{}) {
-			panic("cannot set logical type to something other than map for a map")
-		}
-
-		infoCopy := newTaggedInfo()
-		if info != nil { // populate any value specific tags to propagate for the value type
-			infoCopy = info.CopyForValue()
-		}
-
-		// create the node for the value type of the map
-		value := typeToNode("value", typ.Elem(), parquet.Repetitions.Required, &infoCopy)
-		if info != nil { // change our copy to now use the key specific tags if they exist
-			infoCopy = info.CopyForKey()
-		}
-
-		// create the node for the key type of the map
-		key := typeToNode("key", typ.Key(), parquet.Repetitions.Required, &infoCopy)
-		if key.RepetitionType() != parquet.Repetitions.Required { // key cannot be optional
-			panic("key type of map must be Required")
-		}
-		return Must(MapOf(name, key, value, repType, fieldID))
-	case reflect.Struct:
-		if typ == reflect.TypeOf(float16.Num{}) {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, fieldID))
-		}
-		// structs are Group nodes
-		fields := make(FieldList, 0)
-		for i := 0; i < typ.NumField(); i++ {
-			f := typ.Field(i)
-			tags := infoFromTags(f.Tag)
-			if tags == nil || !tags.Exclude {
-				fields = append(fields, typeToNode(f.Name, f.Type, parquet.Repetitions.Required, tags))
-			}
-		}
-		// group nodes don't have a physical type
-		if physical != parquet.Types.Undefined {
-			panic("cannot specify custom type on struct")
-		}
-		// group nodes don't have converted or logical types
-		if converted != ConvertedTypes.None {
-			panic("cannot specify converted types for a struct")
-		}
-		if !logical.IsNone() {
-			panic("cannot specify logicaltype for a struct")
-		}
-		return Must(NewGroupNode(name, repType, fields, fieldID))
-	case reflect.Ptr: // if we encounter a pointer create a node for the type it points to, but mark it as optional
-		return typeToNode(name, typ.Elem(), parquet.Repetitions.Optional, info)
-	case reflect.Array:
-		// arrays are repeated or fixed size
-		if typ == reflect.TypeOf(parquet.Int96{}) {
-			return NewInt96Node(name, repType, fieldID)
-		}
-
-		if typ.Elem() == reflect.TypeOf(byte(0)) { // something like [12]byte translates to FixedLenByteArray with length 12
-			if physical == parquet.Types.Undefined {
-				physical = parquet.Types.FixedLenByteArray
-			}
-			if typeLen == 0 { // if there was no type length specified in the tag, use the length of the type.
-				typeLen = typ.Len()
-			}
-			if !logical.IsNone() {
-				return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, physical, typeLen, fieldID))
-			}
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, physical, converted, typeLen, precision, scale, fieldID))
-		}
-		fallthrough // if it's not a fixed len byte array type, then just treat it like a slice
-	case reflect.Slice:
-		// for slices, we default to treating them as lists unless the repetition type is set to REPEATED or they are
-		// a bytearray/fixedlenbytearray
-		switch {
-		case repType == parquet.Repetitions.Repeated:
-			return typeToNode(name, typ.Elem(), parquet.Repetitions.Repeated, info)
-		case physical == parquet.Types.FixedLenByteArray || physical == parquet.Types.ByteArray:
-			if typ.Elem() != reflect.TypeOf(byte(0)) {
-				panic("slice with physical type ByteArray or FixedLenByteArray must be []byte")
-			}
-			fallthrough
-		case typ.Elem() == reflect.TypeOf(byte(0)):
-			if physical == parquet.Types.Undefined {
-				physical = parquet.Types.ByteArray
-			}
-			if !logical.IsNone() {
-				return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, physical, typeLen, fieldID))
-			}
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, physical, converted, typeLen, precision, scale, fieldID))
-		default:
-			var elemInfo *taggedInfo
-			if info != nil {
-				elemInfo = &taggedInfo{}
-				*elemInfo = info.CopyForValue()
-			}
-
-			if !logical.IsNone() && !logical.Equals(ListLogicalType{}) {
-				panic("slice must either be repeated or a List type")
-			}
-			if converted != ConvertedTypes.None && converted != ConvertedTypes.List {
-				panic("slice must either be repeated or a List type")
-			}
-			return Must(ListOf(typeToNode(name, typ.Elem(), parquet.Repetitions.Required, elemInfo), repType, fieldID))
-		}
-	case reflect.String:
-		// strings are byte arrays or fixedlen byte array
-		t := parquet.Types.ByteArray
-		switch physical {
-		case parquet.Types.Undefined, parquet.Types.ByteArray:
-		case parquet.Types.FixedLenByteArray:
-			t = parquet.Types.FixedLenByteArray
-		default:
-			panic("string fields should be of type bytearray or fixedlenbytearray only")
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, t, typeLen, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, t, converted, typeLen, precision, scale, fieldID))
-	case reflect.Int, reflect.Int32, reflect.Int8, reflect.Int16, reflect.Int64:
-		// handle integer types, default to setting the corresponding logical type
-		ptyp := parquet.Types.Int32
-		if typ.Bits() == 64 {
-			ptyp = parquet.Types.Int64
-		}
-
-		if physical != parquet.Types.Undefined {
-			ptyp = physical
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, ptyp, typeLen, fieldID))
-		}
-
-		bitwidth := int8(typ.Bits())
-		if physical != parquet.Types.Undefined {
-			if ptyp == parquet.Types.Int32 {
-				bitwidth = 32
-			} else if ptyp == parquet.Types.Int64 {
-				bitwidth = 64
-			}
-		}
-
-		if converted != ConvertedTypes.None {
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, ptyp, converted, 0, precision, scale, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeLogical(name, repType, NewIntLogicalType(bitwidth, true), ptyp, 0, fieldID))
-	case reflect.Uint, reflect.Uint32, reflect.Uint8, reflect.Uint16, reflect.Uint64:
-		// handle unsigned integer types and default to the corresponding logical type for it.
-		ptyp := parquet.Types.Int32
-		if typ.Bits() == 64 {
-			ptyp = parquet.Types.Int64
-		}
-
-		if physical != parquet.Types.Undefined {
-			ptyp = physical
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, ptyp, typeLen, fieldID))
-		}
-
-		bitwidth := int8(typ.Bits())
-		if physical != parquet.Types.Undefined {
-			if ptyp == parquet.Types.Int32 {
-				bitwidth = 32
-			} else if ptyp == parquet.Types.Int64 {
-				bitwidth = 64
-			}
-		}
-
-		if converted != ConvertedTypes.None {
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, ptyp, converted, 0, precision, scale, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeLogical(name, repType, NewIntLogicalType(bitwidth, false), ptyp, 0, fieldID))
-	case reflect.Bool:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Boolean, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Boolean, converted, typeLen, precision, scale, fieldID))
-	case reflect.Float32:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Float, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Float, converted, typeLen, precision, scale, fieldID))
-	case reflect.Float64:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Double, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Double, converted, typeLen, precision, scale, fieldID))
-	}
-	return nil
-}
-
-// NewSchemaFromStruct generates a schema from an object type via reflection of
-// the type and reading struct tags for "parquet".
-//
-// # Rules
-//
-// Everything defaults to Required repetition, unless otherwise specified.
-// Pointer types become Optional repetition.
-// Arrays and Slices become logical List types unless using the tag `repetition=repeated`.
-//
-// A length specified byte field (like [5]byte) becomes a fixed_len_byte_array of that length
-// unless otherwise specified by tags.
-//
-// string and []byte both become ByteArray unless otherwise specified.
-//
-// Integer types will default to having a logical type of the appropriate bit width
-// and signedness rather than having no logical type, ie: an int8 will become an int32
-// node with logical type Int(bitWidth=8, signed=true).
-//
-// Structs will become group nodes with the fields of the struct as the fields of the group,
-// recursively creating the nodes.
-//
-// maps will become appropriate Map structures in the schema of the defined key and values.
-//
-// # Available Tags
-//
-// name: by default the node will have the same name as the field, this tag let's you specify a name
-//
-// type: Specify the physical type instead of using the field type
-//
-// length: specify the type length of the node, only relevant for fixed_len_byte_array
-//
-// scale: specify the scale for a decimal field
-//
-// precision: specify the precision for a decimal field
-//
-// fieldid: specify the field ID for that node, defaults to -1 which means it is not set in the parquet file.
-//
-// repetition: specify the repetition as something other than what is determined by the type
-//
-// converted: specify the Converted Type of the field
-//
-// logical: specify the logical type of the field, if using decimal then the scale and precision
-// will be determined by the precision and scale fields, or by the logical.precision / logical.scale fields
-// with the logical. prefixed versions taking precedence. For Time or Timestamp logical types,
-// use logical.unit=<millis|micros|nanos> and logical.isadjustedutc=<true|false> to set those. Unit is required
-// isadjustedutc defaults to true. For Integer logical type, use logical.bitwidth and logical.signed to specify
-// those values, with bitwidth being required, and signed defaulting to true.
-//
-// All tags other than name can use a prefix of "key<tagname>=<value>" to refer to the type of the key for a map
-// and "value<tagname>=<value>" to refer to the value type of a map or the element of a list (such as the type of a slice)
-func NewSchemaFromStruct(obj interface{}) (sc *Schema, err error) {
-	ot := reflect.TypeOf(obj)
-	if ot.Kind() == reflect.Ptr {
-		ot = ot.Elem()
-	}
-
-	// typeToNode uses panics to fail fast / fail early instead of propagating
-	// errors up recursive stacks. so we recover here and return it as an error
-	defer func() {
-		if r := recover(); r != nil {
-			sc = nil
-			err = utils.FormatRecoveredError("unknown panic", r)
-		}
-	}()
-
-	root := typeToNode(ot.Name(), ot, parquet.Repetitions.Repeated, nil)
-	return NewSchema(root.(*GroupNode)), nil
-}
-
-var parquetTypeToReflect = map[parquet.Type]reflect.Type{
-	parquet.Types.Boolean:           reflect.TypeOf(true),
-	parquet.Types.Int32:             reflect.TypeOf(int32(0)),
-	parquet.Types.Int64:             reflect.TypeOf(int64(0)),
-	parquet.Types.Float:             reflect.TypeOf(float32(0)),
-	parquet.Types.Double:            reflect.TypeOf(float64(0)),
-	parquet.Types.Int96:             reflect.TypeOf(parquet.Int96{}),
-	parquet.Types.ByteArray:         reflect.TypeOf(parquet.ByteArray{}),
-	parquet.Types.FixedLenByteArray: reflect.TypeOf(parquet.FixedLenByteArray{}),
-}
-
-func typeFromNode(n Node) reflect.Type {
-	switch n.Type() {
-	case Primitive:
-		typ := parquetTypeToReflect[n.(*PrimitiveNode).PhysicalType()]
-		// if a bytearray field is annotated as a String logical type or a UTF8 converted type
-		// then use a string instead of parquet.ByteArray / parquet.FixedLenByteArray which are []byte
-		if n.LogicalType().Equals(StringLogicalType{}) || n.ConvertedType() == ConvertedTypes.UTF8 {
-			typ = reflect.TypeOf(string(""))
-		}
-
-		if n.RepetitionType() == parquet.Repetitions.Optional {
-			typ = reflect.PointerTo(typ)
-		} else if n.RepetitionType() == parquet.Repetitions.Repeated {
-			typ = reflect.SliceOf(typ)
-		}
-
-		return typ
-	case Group:
-		gnode := n.(*GroupNode)
-		switch gnode.ConvertedType() {
-		case ConvertedTypes.List:
-			// According to the Parquet Spec, a list should always be a 3-level structure
-			//
-			//	<list-repetition> group <name> (LIST) {
-			//		repeated group list {
-			//			<element-repetition> <element-type> element;
-			//		}
-			//	}
-			//
-			// Outer-most level must be a group annotated with LIST containing a single field named "list".
-			// this level must be only optional (if the list is nullable) or required
-			// Middle level, named list, must be repeated group with a single field named "element"
-			// "element" field is the lists element type and repetition, which should be only required or optional
-
-			if gnode.fields.Len() != 1 {
-				panic("invalid list node, should have exactly 1 child.")
-			}
-
-			if gnode.fields[0].RepetitionType() != parquet.Repetitions.Repeated {
-				panic("invalid list node, child should be repeated")
-			}
-
-			// it is required that the repeated group of elements is named "list" and it's element
-			// field is named "element", however existing data may not use this so readers shouldn't
-			// enforce them as errors
-			//
-			// Rules for backward compatibility from the parquet spec:
-			//
-			// 1) if the repeated field is not a group, then it's type is the element type and elements
-			//    must be required.
-			// 2) if the repeated field is a group with multiple fields, then its type is the element type
-			//    and elements must be required.
-			// 3) if the repeated field is a group with one field AND is named either "array" or uses the
-			//    LIST-annotated group's name with "_tuple" suffix, then the repeated type is the element
-			//    type and the elements must be required.
-			// 4) otherwise, the repeated field's type is the element type with the repeated field's repetition
-
-			elemMustBeRequired := false
-			addSlice := false
-			var elemType reflect.Type
-			elemNode := gnode.fields[0]
-			switch {
-			case elemNode.Type() == Primitive,
-				elemNode.(*GroupNode).fields.Len() > 1,
-				elemNode.(*GroupNode).fields.Len() == 1 && (elemNode.Name() == "array" || elemNode.Name() == gnode.Name()+"_tuple"):
-				elemMustBeRequired = true
-				elemType = typeFromNode(elemNode)
-			default:
-				addSlice = true
-				elemType = typeFromNode(elemNode.(*GroupNode).fields[0])
-			}
-
-			if elemMustBeRequired && elemType.Kind() == reflect.Ptr {
-				elemType = elemType.Elem()
-			}
-			if addSlice {
-				elemType = reflect.SliceOf(elemType)
-			}
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				elemType = reflect.PointerTo(elemType)
-			}
-			return elemType
-		case ConvertedTypes.Map, ConvertedTypes.MapKeyValue:
-			// According to the Parquet Spec, the outer-most level should be
-			// a group containing a single field named "key_value" with repetition
-			// either optional or required for whether or not the map is nullable.
-			//
-			// The key_value middle level *must* be a repeated group with a "key" field
-			// and *optionally* a "value" field
-			//
-			// the "key" field *must* be required and must always exist
-			//
-			// the "value" field can be required or optional or omitted.
-			//
-			// 	<map-repetition> group <name> (MAP) {
-			//		repeated group key_value {
-			//			required <key-type> key;
-			//			<value-repetition> <value-type> value;
-			//		}
-			//	}
-
-			if gnode.fields.Len() != 1 {
-				panic("invalid map node, should have exactly 1 child")
-			}
-
-			if gnode.fields[0].Type() != Group {
-				panic("invalid map node, child should be a group node")
-			}
-
-			// that said, this may not be used in existing data and should not be
-			// enforced as errors when reading.
-			//
-			// some data may also incorrectly use MAP_KEY_VALUE instead of MAP
-			//
-			// so any group with MAP_KEY_VALUE that is not contained inside of a "MAP"
-			// group, should be considered equivalent to being a MAP group itself.
-			//
-			// in addition, the fields may not be called "key" and "value" in existing
-			// data, and as such should not be enforced as errors when reading.
-
-			keyval := gnode.fields[0].(*GroupNode)
-
-			keyIndex := keyval.FieldIndexByName("key")
-			if keyIndex == -1 {
-				keyIndex = 0 // use first child if there is no child named "key"
-			}
-
-			keyType := typeFromNode(keyval.fields[keyIndex])
-			if keyType.Kind() == reflect.Ptr {
-				keyType = keyType.Elem()
-			}
-			// can't use a []byte as a key for a map, so use string
-			if keyType == reflect.TypeOf(parquet.ByteArray{}) || keyType == reflect.TypeOf(parquet.FixedLenByteArray{}) {
-				keyType = reflect.TypeOf(string(""))
-			}
-
-			// if the value node is omitted, then consider this a "set" and make it a
-			// map[key-type]bool
-			valType := reflect.TypeOf(true)
-			if keyval.fields.Len() > 1 {
-				valIndex := keyval.FieldIndexByName("value")
-				if valIndex == -1 {
-					valIndex = 1 // use second child if there is no child named "value"
-				}
-
-				valType = typeFromNode(keyval.fields[valIndex])
-			}
-
-			mapType := reflect.MapOf(keyType, valType)
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				mapType = reflect.PointerTo(mapType)
-			}
-			return mapType
-		default:
-			fields := []reflect.StructField{}
-			for _, f := range gnode.fields {
-				fields = append(fields, reflect.StructField{
-					Name:    f.Name(),
-					Type:    typeFromNode(f),
-					PkgPath: "parquet",
-				})
-			}
-
-			structType := reflect.StructOf(fields)
-			if gnode.RepetitionType() == parquet.Repetitions.Repeated {
-				return reflect.SliceOf(structType)
-			}
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				return reflect.PointerTo(structType)
-			}
-			return structType
-		}
-	}
-	panic("what happened?")
-}
-
-// NewStructFromSchema generates a struct type as a reflect.Type from the schema
-// by using the appropriate physical types and making things either pointers or slices
-// based on whether they are repeated/optional/required. It does not use the logical
-// or converted types to change the physical storage so that it is more efficient to use
-// the resulting type for reading without having to do conversions.
-//
-// It will use maps for map types and slices for list types, but otherwise ignores the
-// converted and logical types of the nodes. Group nodes that are not List or Map will
-// be nested structs.
-func NewStructFromSchema(sc *Schema) (t reflect.Type, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			t = nil
-			err = utils.FormatRecoveredError("unknown panic", r)
-		}
-	}()
-
-	t = typeFromNode(sc.root)
-	if t.Kind() == reflect.Slice || t.Kind() == reflect.Ptr {
-		return t.Elem(), nil
-	}
-	return
-}
diff --git a/go/parquet/schema/reflection_test.go b/go/parquet/schema/reflection_test.go
deleted file mode 100644
index 6877f33c0169f..0000000000000
--- a/go/parquet/schema/reflection_test.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"log"
-	"os"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func ExampleNewSchemaFromStruct_primitives() {
-	type Schema struct {
-		Bool              bool
-		Int8              int8
-		Uint16            uint16
-		Int32             int32
-		Int64             int64
-		Int96             parquet.Int96
-		Float             float32
-		Double            float64
-		ByteArray         string
-		FixedLenByteArray [10]byte
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Schema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 Schema {
-	//   required boolean field_id=-1 Bool;
-	//   required int32 field_id=-1 Int8 (Int(bitWidth=8, isSigned=true));
-	//   required int32 field_id=-1 Uint16 (Int(bitWidth=16, isSigned=false));
-	//   required int32 field_id=-1 Int32 (Int(bitWidth=32, isSigned=true));
-	//   required int64 field_id=-1 Int64 (Int(bitWidth=64, isSigned=true));
-	//   required int96 field_id=-1 Int96;
-	//   required float field_id=-1 Float;
-	//   required double field_id=-1 Double;
-	//   required byte_array field_id=-1 ByteArray;
-	//   required fixed_len_byte_array field_id=-1 FixedLenByteArray;
-	// }
-}
-
-func ExampleNewSchemaFromStruct_convertedtypes() {
-	type ConvertedSchema struct {
-		Utf8           string        `parquet:"name=utf8, converted=UTF8"`
-		Uint32         uint32        `parquet:"converted=INT_32"`
-		Date           int32         `parquet:"name=date, converted=date"`
-		TimeMilli      int32         `parquet:"name=timemilli, converted=TIME_MILLIS"`
-		TimeMicro      int64         `parquet:"name=timemicro, converted=time_micros"`
-		TimeStampMilli int64         `parquet:"converted=timestamp_millis"`
-		TimeStampMicro int64         `parquet:"converted=timestamp_micros"`
-		Interval       parquet.Int96 `parquet:"converted=INTERVAL"`
-		Decimal1       int32         `parquet:"converted=decimal, scale=2, precision=9"`
-		Decimal2       int64         `parquet:"converted=decimal, scale=2, precision=18"`
-		Decimal3       [12]byte      `parquet:"converted=decimal, scale=2, precision=10"`
-		Decimal4       string        `parquet:"converted=decimal, scale=2, precision=20"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(&ConvertedSchema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 ConvertedSchema {
-	//   required byte_array field_id=-1 utf8 (String);
-	//   required int32 field_id=-1 Uint32 (Int(bitWidth=32, isSigned=true));
-	//   required int32 field_id=-1 date (Date);
-	//   required int32 field_id=-1 timemilli (Time(isAdjustedToUTC=true, timeUnit=milliseconds));
-	//   required int64 field_id=-1 timemicro (Time(isAdjustedToUTC=true, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeStampMilli (Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=true, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimeStampMicro (Timestamp(isAdjustedToUTC=true, timeUnit=microseconds, is_from_converted_type=true, force_set_converted_type=false));
-	//   required int96 field_id=-1 Interval;
-	//   required int32 field_id=-1 Decimal1 (Decimal(precision=9, scale=2));
-	//   required int64 field_id=-1 Decimal2 (Decimal(precision=18, scale=2));
-	//   required fixed_len_byte_array field_id=-1 Decimal3 (Decimal(precision=10, scale=2));
-	//   required byte_array field_id=-1 Decimal4 (Decimal(precision=20, scale=2));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_repetition() {
-	type RepetitionSchema struct {
-		List     []int64 `parquet:"fieldid=1"`
-		Repeated []int64 `parquet:"repetition=repeated, fieldid=2"`
-		Optional *int64  `parquet:"fieldid=3"`
-		Required *int64  `parquet:"repetition=REQUIRED, fieldid=4"`
-		Opt      int64   `parquet:"repetition=OPTIONAL, fieldid=5"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(RepetitionSchema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 RepetitionSchema {
-	//   required group field_id=1 List (List) {
-	//     repeated group field_id=-1 list {
-	//       required int64 field_id=-1 element (Int(bitWidth=64, isSigned=true));
-	//     }
-	//   }
-	//   repeated int64 field_id=2 Repeated (Int(bitWidth=64, isSigned=true));
-	//   optional int64 field_id=3 Optional (Int(bitWidth=64, isSigned=true));
-	//   required int64 field_id=4 Required (Int(bitWidth=64, isSigned=true));
-	//   optional int64 field_id=5 Opt (Int(bitWidth=64, isSigned=true));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_logicaltypes() {
-	type LogicalTypes struct {
-		String                []byte   `parquet:"logical=String"`
-		Enum                  string   `parquet:"logical=enum"`
-		Date                  int32    `parquet:"logical=date"`
-		Decimal1              int32    `parquet:"logical=decimal, precision=9, scale=2"`
-		Decimal2              int32    `parquet:"logical=decimal, logical.precision=9, scale=2"`
-		Decimal3              int32    `parquet:"logical=decimal, precision=5, logical.precision=9, scale=1, logical.scale=3"`
-		TimeMilliUTC          int32    `parquet:"logical=TIME, logical.unit=millis"`
-		TimeMilli             int32    `parquet:"logical=Time, logical.unit=millis, logical.isadjustedutc=false"`
-		TimeMicros            int64    `parquet:"logical=time, logical.unit=micros, logical.isadjustedutc=false"`
-		TimeMicrosUTC         int64    `parquet:"logical=time, logical.unit=micros, logical.isadjustedutc=true"`
-		TimeNanos             int64    `parquet:"logical=time, logical.unit=nanos"`
-		TimestampMilli        int64    `parquet:"logical=timestamp, logical.unit=millis"`
-		TimestampMicrosNotUTC int64    `parquet:"logical=timestamp, logical.unit=micros, logical.isadjustedutc=false"`
-		TimestampNanos        int64    `parquet:"logical=timestamp, logical.unit=nanos"`
-		JSON                  string   `parquet:"logical=json"`
-		BSON                  []byte   `parquet:"logical=BSON"`
-		UUID                  [16]byte `parquet:"logical=uuid"`
-		Float16               [2]byte  `parquet:"logical=float16"`
-		Float16Optional       *[2]byte `parquet:"logical=float16"`
-		Float16Num            float16.Num
-	}
-
-	sc, err := schema.NewSchemaFromStruct(LogicalTypes{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 LogicalTypes {
-	//   required byte_array field_id=-1 String (String);
-	//   required byte_array field_id=-1 Enum (Enum);
-	//   required int32 field_id=-1 Date (Date);
-	//   required int32 field_id=-1 Decimal1 (Decimal(precision=9, scale=2));
-	//   required int32 field_id=-1 Decimal2 (Decimal(precision=9, scale=2));
-	//   required int32 field_id=-1 Decimal3 (Decimal(precision=9, scale=3));
-	//   required int32 field_id=-1 TimeMilliUTC (Time(isAdjustedToUTC=true, timeUnit=milliseconds));
-	//   required int32 field_id=-1 TimeMilli (Time(isAdjustedToUTC=false, timeUnit=milliseconds));
-	//   required int64 field_id=-1 TimeMicros (Time(isAdjustedToUTC=false, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeMicrosUTC (Time(isAdjustedToUTC=true, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeNanos (Time(isAdjustedToUTC=true, timeUnit=nanoseconds));
-	//   required int64 field_id=-1 TimestampMilli (Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimestampMicrosNotUTC (Timestamp(isAdjustedToUTC=false, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimestampNanos (Timestamp(isAdjustedToUTC=true, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required byte_array field_id=-1 JSON (JSON);
-	//   required byte_array field_id=-1 BSON (BSON);
-	//   required fixed_len_byte_array field_id=-1 UUID (UUID);
-	//   required fixed_len_byte_array field_id=-1 Float16 (Float16);
-	//   optional fixed_len_byte_array field_id=-1 Float16Optional (Float16);
-	//   required fixed_len_byte_array field_id=-1 Float16Num (Float16);
-	// }
-}
-
-func ExampleNewSchemaFromStruct_physicaltype() {
-	type ChangeTypes struct {
-		Int32        int64  `parquet:"type=int32"`
-		FixedLen     string `parquet:"type=fixed_len_byte_array, length=10"`
-		SliceAsFixed []byte `parquet:"type=fixed_len_byte_array, length=12"`
-		Int          int    `parquet:"type=int32"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(ChangeTypes{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 ChangeTypes {
-	//   required int32 field_id=-1 Int32 (Int(bitWidth=32, isSigned=true));
-	//   required fixed_len_byte_array field_id=-1 FixedLen;
-	//   required fixed_len_byte_array field_id=-1 SliceAsFixed;
-	//   required int32 field_id=-1 Int (Int(bitWidth=32, isSigned=true));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_nestedtypes() {
-	type Other struct {
-		OptionalMap *map[string]*string `parquet:"valuerepetition=required, keylogical=String, valueconverted=BSON"`
-	}
-
-	type MyMap map[int32]string
-
-	type Nested struct {
-		SimpleMap     map[int32]string
-		FixedLenMap   map[string][]byte `parquet:"keytype=fixed_len_byte_array, keyfieldid=10, valuefieldid=11, keylength=10"`
-		DecimalMap    map[int32]string  `parquet:"logical=map, keyconverted=DECIMAL, keyscale=3, keyprecision=7, valuetype=fixed_len_byte_array, valuelength=4, valuelogical=decimal, valuelogical.precision=9, valuescale=2"`
-		OtherList     []*Other
-		OtherRepeated []Other  `parquet:"repetition=repeated"`
-		DateArray     [5]int32 `parquet:"valuelogical=date, logical=list"`
-		DateMap       MyMap    `parquet:"keylogical=TIME, keylogical.unit=MILLIS, keylogical.isadjustedutc=false, valuelogical=enum"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Nested{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 Nested {
-	//   required group field_id=-1 SimpleMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Int(bitWidth=32, isSigned=true));
-	//       required byte_array field_id=-1 value;
-	//     }
-	//   }
-	//   required group field_id=-1 FixedLenMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required fixed_len_byte_array field_id=10 key;
-	//       required byte_array field_id=11 value;
-	//     }
-	//   }
-	//   required group field_id=-1 DecimalMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Decimal(precision=7, scale=3));
-	//       required fixed_len_byte_array field_id=-1 value (Decimal(precision=9, scale=2));
-	//     }
-	//   }
-	//   required group field_id=-1 OtherList (List) {
-	//     repeated group field_id=-1 list {
-	//       optional group field_id=-1 element {
-	//         optional group field_id=-1 OptionalMap (Map) {
-	//           repeated group field_id=-1 key_value {
-	//             required byte_array field_id=-1 key (String);
-	//             required byte_array field_id=-1 value (BSON);
-	//           }
-	//         }
-	//       }
-	//     }
-	//   }
-	//   repeated group field_id=-1 OtherRepeated {
-	//     optional group field_id=-1 OptionalMap (Map) {
-	//       repeated group field_id=-1 key_value {
-	//         required byte_array field_id=-1 key (String);
-	//         required byte_array field_id=-1 value (BSON);
-	//       }
-	//     }
-	//   }
-	//   required group field_id=-1 DateArray (List) {
-	//     repeated group field_id=-1 list {
-	//       required int32 field_id=-1 element (Date);
-	//     }
-	//   }
-	//   required group field_id=-1 DateMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Time(isAdjustedToUTC=false, timeUnit=milliseconds));
-	//       required byte_array field_id=-1 value (Enum);
-	//     }
-	//   }
-	// }
-}
-
-func TestStructFromSchema(t *testing.T) {
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewBooleanNode("bool", parquet.Repetitions.Required, -1),
-		schema.NewInt32Node("int32", parquet.Repetitions.Optional, -1),
-		schema.NewInt64Node("int64", parquet.Repetitions.Repeated, -1),
-		schema.NewInt96Node("int96", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float", parquet.Repetitions.Required, -1),
-		schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1),
-		schema.NewFixedLenByteArrayNode("fixedLen", parquet.Repetitions.Required, 10, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	sc := schema.NewSchema(root)
-
-	typ, err := schema.NewStructFromSchema(sc)
-	assert.NoError(t, err)
-
-	assert.Equal(t, reflect.Struct, typ.Kind())
-	assert.Equal(t, "struct { bool bool; int32 *int32; int64 []int64; int96 parquet.Int96; float float32; bytearray parquet.ByteArray; fixedLen parquet.FixedLenByteArray }",
-		typ.String())
-}
-
-func TestStructFromSchemaWithNesting(t *testing.T) {
-	type Other struct {
-		List     *[]*float32
-		Excluded int32 `parquet:"-"`
-	}
-
-	type Nested struct {
-		Nest         []int32
-		OptionalNest []*int64
-		Mapped       map[string]float32
-		Other        []Other
-		Other2       Other
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Nested{})
-	assert.NoError(t, err)
-
-	typ, err := schema.NewStructFromSchema(sc)
-	assert.NoError(t, err)
-	assert.Equal(t, "struct { Nest []int32; OptionalNest []*int64; Mapped map[string]float32; Other []struct { List *[]*float32 }; Other2 struct { List *[]*float32 } }",
-		typ.String())
-}
-
-func TestStructFromSchemaBackwardsCompatList(t *testing.T) {
-	tests := []struct {
-		name     string
-		n        schema.Node
-		expected string
-	}{
-		{"proper list", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Required,
-			schema.FieldList{
-				schema.MustGroup(schema.NewGroupNode("list", parquet.Repetitions.Repeated, schema.FieldList{schema.NewBooleanNode("element", parquet.Repetitions.Optional, -1)}, -1)),
-			}, schema.NewListLogicalType(), -1)), "struct { my_list []*bool }"},
-		{"backward nullable list nonnull ints", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.NewInt32Node("element", parquet.Repetitions.Repeated, -1),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]int32 }"},
-		{"backward nullable list tuple string int", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("element", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("str", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-				schema.NewInt32Node("num", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]struct { str string; num int32 } }"},
-		{"list tuple string", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Required, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("array", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("str", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list []struct { str parquet.ByteArray } }"},
-		{"list tuple string my_list_tuple", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("my_list_tuple", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("str", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]struct { str string } }"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			typ, err := schema.NewStructFromSchema(schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{tt.n}, -1))))
-			assert.NoError(t, err)
-			assert.Equal(t, tt.expected, typ.String())
-		})
-	}
-}
-
-func TestStructFromSchemaMaps(t *testing.T) {
-	tests := []struct {
-		name     string
-		n        schema.Node
-		expected string
-	}{
-		{"map string int", schema.MustGroup(schema.NewGroupNodeLogical("my_map", parquet.Repetitions.Required, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("key_value", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("key", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-				schema.NewInt32Node("value", parquet.Repetitions.Optional, -1),
-			}, -1)),
-		}, schema.MapLogicalType{}, -1)), "struct { my_map map[string]*int32 }"},
-		{"nullable map string, int, required values", schema.MustGroup(schema.NewGroupNodeLogical("my_map", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("map", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("str", parquet.Repetitions.Required, -1),
-				schema.NewInt32Node("num", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.MapLogicalType{}, -1)), "struct { my_map *map[string]int32 }"},
-		{"map_key_value with missing value", schema.MustGroup(schema.NewGroupNodeConverted("my_map", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("map", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("key", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.ConvertedTypes.MapKeyValue, -1)), "struct { my_map *map[string]bool }"},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			typ, err := schema.NewStructFromSchema(schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{tt.n}, -1))))
-			assert.NoError(t, err)
-			assert.Equal(t, tt.expected, typ.String())
-		})
-	}
-}
diff --git a/go/parquet/schema/schema.go b/go/parquet/schema/schema.go
deleted file mode 100644
index c8d53e647d6f9..0000000000000
--- a/go/parquet/schema/schema.go
+++ /dev/null
@@ -1,334 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package schema provides types and functions for manipulating and building parquet
-// file schemas.
-//
-// Some of the utilities provided include building a schema using Struct Tags
-// on a struct type, getting Column Paths from a node, and dealing with the
-// converted and logical types for Parquet.
-//
-// Logical types specify ways to interpret the primitive types allowing the
-// number of primitive types to be smaller and reuse efficient encodings.
-// For instance a "string" is just a ByteArray column with a UTF-8 annotation
-// or "String Logical Type".
-//
-// For more information about Logical and Converted Types, check:
-// https://github.com/apache/parquet-format/blob/master/LogicalTypes.md
-package schema
-
-import (
-	"fmt"
-	"io"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"golang.org/x/xerrors"
-)
-
-// Schema is the container for the converted Parquet schema with a computed
-// information from the schema analysis needed for file reading
-//
-// * Column index to Node
-//
-// * Max repetition / definition levels for each primitive node
-//
-// The ColumnDescriptor objects produced by this class can be used to assist in
-// the reconstruction of fully materialized data structures from the
-// repetition-definition level encoding of nested data
-type Schema struct {
-	root Node
-
-	leaves      []*Column
-	nodeToLeaf  map[*PrimitiveNode]int
-	leafToBase  map[int]Node
-	leafToIndex strIntMultimap
-}
-
-// FromParquet converts a slice of thrift Schema Elements to the correct node type
-func FromParquet(elems []*format.SchemaElement) (Node, error) {
-	if len(elems) == 0 {
-		return nil, xerrors.New("parquet: empty schema (no root)")
-	}
-
-	if elems[0].GetNumChildren() == 0 {
-		if len(elems) > 1 {
-			return nil, xerrors.New("parquet: schema had multiple nodes but root had no children")
-		}
-		// parquet file with no columns
-		return GroupNodeFromThrift(elems[0], []Node{})
-	}
-
-	// We don't check that the root node is repeated since this is not
-	// consistently set by implementations
-	var (
-		pos      = 0
-		nextNode func() (Node, error)
-	)
-
-	nextNode = func() (Node, error) {
-		if pos == len(elems) {
-			return nil, xerrors.New("parquet: malformed schema: not enough elements")
-		}
-
-		elem := elems[pos]
-		pos++
-
-		if elem.GetNumChildren() == 0 {
-			return PrimitiveNodeFromThrift(elem)
-		}
-
-		fields := make([]Node, 0, elem.GetNumChildren())
-		for i := 0; i < int(elem.GetNumChildren()); i++ {
-			n, err := nextNode()
-			if err != nil {
-				return nil, err
-			}
-			fields = append(fields, n)
-		}
-
-		return GroupNodeFromThrift(elem, fields)
-	}
-
-	return nextNode()
-}
-
-// Root returns the group node that is the root of this schema
-func (s *Schema) Root() *GroupNode {
-	return s.root.(*GroupNode)
-}
-
-// NumColumns returns the number of leaf nodes that are the actual primitive
-// columns in this schema.
-func (s *Schema) NumColumns() int {
-	return len(s.leaves)
-}
-
-// Equals returns true as long as the leaf columns are equal, doesn't take
-// into account the groups and only checks whether the schemas are compatible
-// at the physical storage level.
-func (s *Schema) Equals(rhs *Schema) bool {
-	if s.NumColumns() != rhs.NumColumns() {
-		return false
-	}
-
-	for idx, c := range s.leaves {
-		if !c.Equals(rhs.Column(idx)) {
-			return false
-		}
-	}
-	return true
-}
-
-func (s *Schema) buildTree(n Node, maxDefLvl, maxRepLvl int16, base Node) {
-	switch n.RepetitionType() {
-	case parquet.Repetitions.Repeated:
-		maxRepLvl++
-		fallthrough
-	case parquet.Repetitions.Optional:
-		maxDefLvl++
-	}
-
-	switch n := n.(type) {
-	case *GroupNode:
-		for _, f := range n.fields {
-			s.buildTree(f, maxDefLvl, maxRepLvl, base)
-		}
-	case *PrimitiveNode:
-		s.nodeToLeaf[n] = len(s.leaves)
-		s.leaves = append(s.leaves, NewColumn(n, maxDefLvl, maxRepLvl))
-		s.leafToBase[len(s.leaves)-1] = base
-		s.leafToIndex.Add(n.Path(), len(s.leaves)-1)
-	}
-}
-
-// Column returns the (0-indexed) column of the provided index.
-func (s *Schema) Column(i int) *Column {
-	return s.leaves[i]
-}
-
-// ColumnIndexByName looks up the column by it's full dot separated
-// node path. If there are multiple columns that match, it returns the first one.
-//
-// Returns -1 if not found.
-func (s *Schema) ColumnIndexByName(nodePath string) int {
-	if search, ok := s.leafToIndex[nodePath]; ok {
-		return search[0]
-	}
-	return -1
-}
-
-// ColumnIndexByNode returns the index of the column represented by this node.
-//
-// Returns -1 if not found.
-func (s *Schema) ColumnIndexByNode(n Node) int {
-	if search, ok := s.leafToIndex[n.Path()]; ok {
-		for _, idx := range search {
-			if n == s.Column(idx).SchemaNode() {
-				return idx
-			}
-		}
-	}
-	return -1
-}
-
-// ColumnRoot returns the root node of a given column if it is under a
-// nested group node, providing that root group node.
-func (s *Schema) ColumnRoot(i int) Node {
-	return s.leafToBase[i]
-}
-
-// HasRepeatedFields returns true if any node in the schema has a repeated field type.
-func (s *Schema) HasRepeatedFields() bool {
-	return s.root.(*GroupNode).HasRepeatedFields()
-}
-
-// UpdateColumnOrders must get a slice that is the same length as the number of leaf columns
-// and is used to update the schema metadata Column Orders. len(orders) must equal s.NumColumns()
-func (s *Schema) UpdateColumnOrders(orders []parquet.ColumnOrder) error {
-	if len(orders) != s.NumColumns() {
-		return xerrors.New("parquet: malformed schema: not enough ColumnOrder values")
-	}
-
-	visitor := schemaColumnOrderUpdater{orders, 0}
-	s.root.Visit(&visitor)
-	return nil
-}
-
-func (s *Schema) String() string {
-	var b strings.Builder
-	PrintSchema(s.root, &b, 2)
-	return b.String()
-}
-
-// NewSchema constructs a new Schema object from a root group node.
-//
-// Any fields with a field-id of -1 will be given an appropriate field number based on their order.
-func NewSchema(root *GroupNode) *Schema {
-	s := &Schema{
-		root,
-		make([]*Column, 0),
-		make(map[*PrimitiveNode]int),
-		make(map[int]Node),
-		make(strIntMultimap),
-	}
-
-	for _, f := range root.fields {
-		s.buildTree(f, 0, 0, f)
-	}
-	return s
-}
-
-type schemaColumnOrderUpdater struct {
-	colOrders []parquet.ColumnOrder
-	leafCount int
-}
-
-func (s *schemaColumnOrderUpdater) VisitPre(n Node) bool {
-	if n.Type() == Primitive {
-		leaf := n.(*PrimitiveNode)
-		leaf.ColumnOrder = s.colOrders[s.leafCount]
-		s.leafCount++
-	}
-	return true
-}
-
-func (s *schemaColumnOrderUpdater) VisitPost(Node) {}
-
-type toThriftVisitor struct {
-	elements []*format.SchemaElement
-}
-
-func (t *toThriftVisitor) VisitPre(n Node) bool {
-	t.elements = append(t.elements, n.toThrift())
-	return true
-}
-
-func (t *toThriftVisitor) VisitPost(Node) {}
-
-// ToThrift converts a GroupNode to a slice of SchemaElements which is used
-// for thrift serialization.
-func ToThrift(schema *GroupNode) []*format.SchemaElement {
-	t := &toThriftVisitor{make([]*format.SchemaElement, 0)}
-	schema.Visit(t)
-	return t.elements
-}
-
-type schemaPrinter struct {
-	w           io.Writer
-	indent      int
-	indentWidth int
-}
-
-func (s *schemaPrinter) VisitPre(n Node) bool {
-	fmt.Fprint(s.w, strings.Repeat(" ", s.indent))
-	if n.Type() == Group {
-		g := n.(*GroupNode)
-		fmt.Fprintf(s.w, "%s group field_id=%d %s", g.RepetitionType(), g.FieldID(), g.Name())
-		_, invalid := g.logicalType.(UnknownLogicalType)
-		_, none := g.logicalType.(NoLogicalType)
-
-		if g.logicalType != nil && !invalid && !none {
-			fmt.Fprintf(s.w, " (%s)", g.logicalType)
-		} else if g.convertedType != ConvertedTypes.None {
-			fmt.Fprintf(s.w, " (%s)", g.convertedType)
-		}
-
-		fmt.Fprintln(s.w, " {")
-		s.indent += s.indentWidth
-	} else {
-		p := n.(*PrimitiveNode)
-		fmt.Fprintf(s.w, "%s %s field_id=%d %s", p.RepetitionType(), strings.ToLower(p.PhysicalType().String()), p.FieldID(), p.Name())
-		_, invalid := p.logicalType.(UnknownLogicalType)
-		_, none := p.logicalType.(NoLogicalType)
-
-		if p.logicalType != nil && !invalid && !none {
-			fmt.Fprintf(s.w, " (%s)", p.logicalType)
-		} else if p.convertedType == ConvertedTypes.Decimal {
-			fmt.Fprintf(s.w, " (%s(%d,%d))", p.convertedType, p.DecimalMetadata().Precision, p.DecimalMetadata().Scale)
-		} else if p.convertedType != ConvertedTypes.None {
-			fmt.Fprintf(s.w, " (%s)", p.convertedType)
-		}
-		fmt.Fprintln(s.w, ";")
-	}
-	return true
-}
-
-func (s *schemaPrinter) VisitPost(n Node) {
-	if n.Type() == Group {
-		s.indent -= s.indentWidth
-		fmt.Fprint(s.w, strings.Repeat(" ", s.indent))
-		fmt.Fprintln(s.w, "}")
-	}
-}
-
-// PrintSchema writes a string representation of the tree to w using the indent
-// width provided.
-func PrintSchema(n Node, w io.Writer, indentWidth int) {
-	n.Visit(&schemaPrinter{w, 0, indentWidth})
-}
-
-type strIntMultimap map[string][]int
-
-func (f strIntMultimap) Add(key string, val int) bool {
-	if _, ok := f[key]; !ok {
-		f[key] = []int{val}
-		return false
-	}
-	f[key] = append(f[key], val)
-	return true
-}
diff --git a/go/parquet/schema/schema_element_test.go b/go/parquet/schema/schema_element_test.go
deleted file mode 100644
index e427ba6485e64..0000000000000
--- a/go/parquet/schema/schema_element_test.go
+++ /dev/null
@@ -1,521 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-type schemaElementConstruction struct {
-	node            Node
-	element         *format.SchemaElement
-	name            string
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-
-type decimalSchemaElementConstruction struct {
-	schemaElementConstruction
-	precision int
-	scale     int
-}
-
-type temporalSchemaElementConstruction struct {
-	schemaElementConstruction
-	adjusted bool
-	unit     TimeUnitType
-	getUnit  func(*format.SchemaElement) *format.TimeUnit
-}
-
-type intSchemaElementConstruction struct {
-	schemaElementConstruction
-	width  int8
-	signed bool
-}
-
-type legacySchemaElementConstructArgs struct {
-	name            string
-	physical        parquet.Type
-	len             int
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-
-type schemaElementConstructArgs struct {
-	name            string
-	logical         LogicalType
-	physical        parquet.Type
-	len             int
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-type SchemaElementConstructionSuite struct {
-	suite.Suite
-}
-
-func (s *SchemaElementConstructionSuite) reconstruct(c schemaElementConstructArgs) *schemaElementConstruction {
-	ret := &schemaElementConstruction{
-		node:            MustPrimitive(NewPrimitiveNodeLogical(c.name, parquet.Repetitions.Required, c.logical, c.physical, c.len, -1)),
-		name:            c.name,
-		expectConverted: c.expectConverted,
-		converted:       c.converted,
-		expectLogical:   c.expectLogical,
-		checkLogical:    c.checkLogical,
-	}
-	ret.element = ret.node.toThrift()
-	return ret
-}
-
-func (s *SchemaElementConstructionSuite) legacyReconstruct(c legacySchemaElementConstructArgs) *schemaElementConstruction {
-	ret := &schemaElementConstruction{
-		node:            MustPrimitive(NewPrimitiveNodeConverted(c.name, parquet.Repetitions.Required, c.physical, c.converted, c.len, 0, 0, -1)),
-		name:            c.name,
-		expectConverted: c.expectConverted,
-		converted:       c.converted,
-		expectLogical:   c.expectLogical,
-		checkLogical:    c.checkLogical,
-	}
-	ret.element = ret.node.toThrift()
-	return ret
-}
-
-func (s *SchemaElementConstructionSuite) inspect(c *schemaElementConstruction) {
-	if c.expectConverted {
-		s.True(c.element.IsSetConvertedType())
-		s.Equal(c.converted, ConvertedType(*c.element.ConvertedType))
-	} else {
-		s.False(c.element.IsSetConvertedType())
-	}
-	if c.expectLogical {
-		s.True(c.element.IsSetLogicalType())
-		s.True(c.checkLogical(c.element))
-	} else {
-		s.False(c.element.IsSetLogicalType())
-	}
-}
-
-func (s *SchemaElementConstructionSuite) TestSimple() {
-	checkNone := func(*format.SchemaElement) bool { return true }
-
-	tests := []struct {
-		name   string
-		args   *schemaElementConstructArgs
-		legacy *legacySchemaElementConstructArgs
-	}{
-		{"string", &schemaElementConstructArgs{
-			"string", StringLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.UTF8, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetSTRING() },
-		}, nil},
-		{"enum", &schemaElementConstructArgs{
-			"enum", EnumLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.Enum, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetENUM() },
-		}, nil},
-		{"date", &schemaElementConstructArgs{
-			"date", DateLogicalType{}, parquet.Types.Int32, -1, true, ConvertedTypes.Date, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetDATE() },
-		}, nil},
-		{"interval", &schemaElementConstructArgs{
-			"interval", IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 12, true, ConvertedTypes.Interval, false,
-			checkNone,
-		}, nil},
-		{"null", &schemaElementConstructArgs{
-			"null", NullLogicalType{}, parquet.Types.Double, -1, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetUNKNOWN() },
-		}, nil},
-		{"json", &schemaElementConstructArgs{
-			"json", JSONLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.JSON, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetJSON() },
-		}, nil},
-		{"bson", &schemaElementConstructArgs{
-			"bson", BSONLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.BSON, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetBSON() },
-		}, nil},
-		{"uuid", &schemaElementConstructArgs{
-			"uuid", UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetUUID() },
-		}, nil},
-		{"float16", &schemaElementConstructArgs{
-			"float16", Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetFLOAT16() },
-		}, nil},
-		{"none", &schemaElementConstructArgs{
-			"none", NoLogicalType{}, parquet.Types.Int64, -1, false, ConvertedTypes.NA, false,
-			checkNone,
-		}, nil},
-		{"unknown", &schemaElementConstructArgs{
-			"unknown", UnknownLogicalType{}, parquet.Types.Int64, -1, true, ConvertedTypes.NA, false,
-			checkNone,
-		}, nil},
-		{"timestamp_ms", nil, &legacySchemaElementConstructArgs{
-			"timestamp_ms", parquet.Types.Int64, -1, true, ConvertedTypes.TimestampMillis, false, checkNone}},
-		{"timestamp_us", nil, &legacySchemaElementConstructArgs{
-			"timestamp_us", parquet.Types.Int64, -1, true, ConvertedTypes.TimestampMicros, false, checkNone}},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			var sc *schemaElementConstruction
-			if tt.args != nil {
-				sc = s.reconstruct(*tt.args)
-			} else {
-				sc = s.legacyReconstruct(*tt.legacy)
-			}
-			s.Equal(tt.name, sc.element.Name)
-			s.inspect(sc)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructDecimal(c schemaElementConstructArgs) *decimalSchemaElementConstruction {
-	ret := s.reconstruct(c)
-	dec := c.logical.(DecimalLogicalType)
-	return &decimalSchemaElementConstruction{*ret, int(dec.Precision()), int(dec.Scale())}
-}
-
-func (s *SchemaElementConstructionSuite) inspectDecimal(d *decimalSchemaElementConstruction) {
-	s.inspect(&d.schemaElementConstruction)
-	s.EqualValues(d.precision, d.element.GetPrecision())
-	s.EqualValues(d.scale, d.element.GetScale())
-	s.EqualValues(d.precision, d.element.LogicalType.DECIMAL.Precision)
-	s.EqualValues(d.scale, d.element.LogicalType.DECIMAL.Scale)
-}
-
-func (s *SchemaElementConstructionSuite) TestDecimal() {
-	checkDecimal := func(p *format.SchemaElement) bool { return p.LogicalType.IsSetDECIMAL() }
-
-	tests := []schemaElementConstructArgs{
-		{
-			name: "decimal16_6", logical: NewDecimalLogicalType(16 /* precision */, 6 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal1_0", logical: NewDecimalLogicalType(1 /* precision */, 0 /* scale */),
-			physical: parquet.Types.Int32, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal10", logical: NewDecimalLogicalType(10 /* precision */, 0 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal11_11", logical: NewDecimalLogicalType(11 /* precision */, 11 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			d := s.reconstructDecimal(tt)
-			s.Equal(tt.name, d.element.Name)
-			s.inspectDecimal(d)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructTemporal(c schemaElementConstructArgs, getUnit func(*format.SchemaElement) *format.TimeUnit) *temporalSchemaElementConstruction {
-	base := s.reconstruct(c)
-	t := c.logical.(TemporalLogicalType)
-	return &temporalSchemaElementConstruction{
-		*base,
-		t.IsAdjustedToUTC(),
-		t.TimeUnit(),
-		getUnit,
-	}
-}
-
-func (s *SchemaElementConstructionSuite) inspectTemporal(t *temporalSchemaElementConstruction) {
-	s.inspect(&t.schemaElementConstruction)
-	switch t.unit {
-	case TimeUnitMillis:
-		s.True(t.getUnit(t.element).IsSetMILLIS())
-	case TimeUnitMicros:
-		s.True(t.getUnit(t.element).IsSetMICROS())
-	case TimeUnitNanos:
-		s.True(t.getUnit(t.element).IsSetNANOS())
-	case TimeUnitUnknown:
-		fallthrough
-	default:
-		s.Fail("invalid time unit in test case")
-	}
-}
-
-func (s *SchemaElementConstructionSuite) TestTemporal() {
-	checkTime := func(p *format.SchemaElement) bool {
-		return p.LogicalType.IsSetTIME()
-	}
-	checkTimestamp := func(p *format.SchemaElement) bool {
-		return p.LogicalType.IsSetTIMESTAMP()
-	}
-
-	getTimeUnit := func(p *format.SchemaElement) *format.TimeUnit {
-		return p.LogicalType.TIME.Unit
-	}
-	getTimestampUnit := func(p *format.SchemaElement) *format.TimeUnit {
-		return p.LogicalType.TIMESTAMP.Unit
-	}
-
-	timeTests := []schemaElementConstructArgs{
-		{
-			name: "time_T_ms", logical: NewTimeLogicalType(true, TimeUnitMillis), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimeMillis, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_ms", logical: NewTimeLogicalType(false, TimeUnitMillis), physical: parquet.Types.Int32, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_T_us", logical: NewTimeLogicalType(true, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimeMicros, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_us", logical: NewTimeLogicalType(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_T_ns", logical: NewTimeLogicalType(true, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_ns", logical: NewTimeLogicalType(false, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-	}
-	timeStampTests := []schemaElementConstructArgs{
-		{
-			name: "timestamp_T_ms", logical: NewTimestampLogicalType(true, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMillis, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ms", logical: NewTimestampLogicalType(false, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ms_force", logical: NewTimestampLogicalTypeForce(false, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMillis, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_T_us", logical: NewTimestampLogicalType(true, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMicros, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_us", logical: NewTimestampLogicalType(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_us_force", logical: NewTimestampLogicalTypeForce(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMicros, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_T_ns", logical: NewTimestampLogicalType(true, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ns", logical: NewTimestampLogicalType(false, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-	}
-
-	for _, tt := range timeTests {
-		s.Run(tt.name, func() {
-			t := s.reconstructTemporal(tt, getTimeUnit)
-			s.Equal(t.adjusted, t.element.LogicalType.TIME.IsAdjustedToUTC)
-			s.inspectTemporal(t)
-		})
-	}
-	for _, tt := range timeStampTests {
-		s.Run(tt.name, func() {
-			t := s.reconstructTemporal(tt, getTimestampUnit)
-			s.Equal(t.adjusted, t.element.LogicalType.TIMESTAMP.IsAdjustedToUTC)
-			s.inspectTemporal(t)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructInteger(c schemaElementConstructArgs) *intSchemaElementConstruction {
-	base := s.reconstruct(c)
-	l := c.logical.(IntLogicalType)
-	return &intSchemaElementConstruction{
-		*base,
-		l.BitWidth(),
-		l.IsSigned(),
-	}
-}
-
-func (s *SchemaElementConstructionSuite) inspectInt(i *intSchemaElementConstruction) {
-	s.inspect(&i.schemaElementConstruction)
-	s.Equal(i.width, i.element.LogicalType.INTEGER.BitWidth)
-	s.Equal(i.signed, i.element.LogicalType.INTEGER.IsSigned)
-}
-
-func (s *SchemaElementConstructionSuite) TestIntegerCases() {
-	checkInt := func(p *format.SchemaElement) bool { return p.LogicalType.IsSetINTEGER() }
-
-	tests := []schemaElementConstructArgs{
-		{
-			name: "uint8", logical: NewIntLogicalType(8, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint8, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint16", logical: NewIntLogicalType(16, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint16, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint32", logical: NewIntLogicalType(32, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint32, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint64", logical: NewIntLogicalType(64, false), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint64, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int8", logical: NewIntLogicalType(8, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int8, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int16", logical: NewIntLogicalType(16, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int16, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int32", logical: NewIntLogicalType(32, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int32, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int64", logical: NewIntLogicalType(64, true), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int64, expectLogical: true, checkLogical: checkInt,
-		},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			t := s.reconstructInteger(tt)
-			s.inspectInt(t)
-		})
-	}
-}
-
-func TestSchemaElementNestedSerialization(t *testing.T) {
-	// confirm that the intermediate thrift objects created during node serialization
-	// contain correct ConvertedType and ConvertedType information
-
-	strNode := MustPrimitive(NewPrimitiveNodeLogical("string" /*name */, parquet.Repetitions.Required, StringLogicalType{}, parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	dateNode := MustPrimitive(NewPrimitiveNodeLogical("date" /*name */, parquet.Repetitions.Required, DateLogicalType{}, parquet.Types.Int32, -1 /* type len */, -1 /* fieldID */))
-	jsonNode := MustPrimitive(NewPrimitiveNodeLogical("json" /*name */, parquet.Repetitions.Required, JSONLogicalType{}, parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	uuidNode := MustPrimitive(NewPrimitiveNodeLogical("uuid" /*name */, parquet.Repetitions.Required, UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16 /* type len */, - /* fieldID */ 1))
-	timestampNode := MustPrimitive(NewPrimitiveNodeLogical("timestamp" /*name */, parquet.Repetitions.Required, NewTimestampLogicalType(false /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intNode := MustPrimitive(NewPrimitiveNodeLogical("int" /*name */, parquet.Repetitions.Required, NewIntLogicalType(64 /* bitWidth */, false /* signed */), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	decimalNode := MustPrimitive(NewPrimitiveNodeLogical("decimal" /*name */, parquet.Repetitions.Required, NewDecimalLogicalType(16 /* precision */, 6 /* scale */), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	float16Node := MustPrimitive(NewPrimitiveNodeLogical("float16" /*name */, parquet.Repetitions.Required, Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2 /* type len */, - /* fieldID */ 1))
-	listNode := MustGroup(NewGroupNodeLogical("list" /*name */, parquet.Repetitions.Repeated, []Node{strNode, dateNode, jsonNode, uuidNode, timestampNode, intNode, decimalNode, float16Node}, NewListLogicalType(), -1 /* fieldID */))
-
-	listElems := ToThrift(listNode)
-	assert.Equal(t, "list", listElems[0].Name)
-	assert.True(t, listElems[0].IsSetConvertedType())
-	assert.True(t, listElems[0].IsSetLogicalType())
-	assert.Equal(t, format.ConvertedType(ConvertedTypes.List), listElems[0].GetConvertedType())
-	assert.True(t, listElems[0].LogicalType.IsSetLIST())
-	assert.True(t, listElems[1].LogicalType.IsSetSTRING())
-	assert.True(t, listElems[2].LogicalType.IsSetDATE())
-	assert.True(t, listElems[3].LogicalType.IsSetJSON())
-	assert.True(t, listElems[4].LogicalType.IsSetUUID())
-	assert.True(t, listElems[5].LogicalType.IsSetTIMESTAMP())
-	assert.True(t, listElems[6].LogicalType.IsSetINTEGER())
-	assert.True(t, listElems[7].LogicalType.IsSetDECIMAL())
-	assert.True(t, listElems[8].LogicalType.IsSetFLOAT16())
-
-	mapNode := MustGroup(NewGroupNodeLogical("map" /* name */, parquet.Repetitions.Required, []Node{}, MapLogicalType{}, -1 /* fieldID */))
-	mapElems := ToThrift(mapNode)
-	assert.Equal(t, "map", mapElems[0].Name)
-	assert.True(t, mapElems[0].IsSetConvertedType())
-	assert.True(t, mapElems[0].IsSetLogicalType())
-	assert.Equal(t, format.ConvertedType(ConvertedTypes.Map), mapElems[0].GetConvertedType())
-	assert.True(t, mapElems[0].LogicalType.IsSetMAP())
-}
-
-func TestLogicalTypeSerializationRoundTrip(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  LogicalType
-		physical parquet.Type
-		len      int
-	}{
-		{"string", StringLogicalType{}, parquet.Types.ByteArray, -1},
-		{"enum", EnumLogicalType{}, parquet.Types.ByteArray, -1},
-		{"decimal", NewDecimalLogicalType(16, 6), parquet.Types.Int64, -1},
-		{"date", DateLogicalType{}, parquet.Types.Int32, -1},
-		{"time_T_ms", NewTimeLogicalType(true, TimeUnitMillis), parquet.Types.Int32, -1},
-		{"time_T_us", NewTimeLogicalType(true, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"time_T_ns", NewTimeLogicalType(true, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"time_F_ms", NewTimeLogicalType(false, TimeUnitMillis), parquet.Types.Int32, -1},
-		{"time_F_us", NewTimeLogicalType(false, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"time_F_ns", NewTimeLogicalType(false, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"timestamp_T_ms", NewTimestampLogicalType(true, TimeUnitMillis), parquet.Types.Int64, -1},
-		{"timestamp_T_us", NewTimestampLogicalType(true, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"timestamp_T_ns", NewTimestampLogicalType(true, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"timestamp_F_ms", NewTimestampLogicalType(false, TimeUnitMillis), parquet.Types.Int64, -1},
-		{"timestamp_F_us", NewTimestampLogicalType(false, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"timestamp_F_ns", NewTimestampLogicalType(false, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"interval", IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 12},
-		{"uint8", NewIntLogicalType(8, false), parquet.Types.Int32, -1},
-		{"uint16", NewIntLogicalType(16, false), parquet.Types.Int32, -1},
-		{"uint32", NewIntLogicalType(32, false), parquet.Types.Int32, -1},
-		{"uint64", NewIntLogicalType(64, false), parquet.Types.Int64, -1},
-		{"int8", NewIntLogicalType(8, true), parquet.Types.Int32, -1},
-		{"int16", NewIntLogicalType(16, true), parquet.Types.Int32, -1},
-		{"int32", NewIntLogicalType(32, true), parquet.Types.Int32, -1},
-		{"int64", NewIntLogicalType(64, true), parquet.Types.Int64, -1},
-		{"null", NullLogicalType{}, parquet.Types.Boolean, -1},
-		{"json", JSONLogicalType{}, parquet.Types.ByteArray, -1},
-		{"bson", BSONLogicalType{}, parquet.Types.ByteArray, -1},
-		{"uuid", UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16},
-		{"float16", Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2},
-		{"none", NoLogicalType{}, parquet.Types.Boolean, -1},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			n := MustPrimitive(NewPrimitiveNodeLogical("something" /* name */, parquet.Repetitions.Required, tt.logical, tt.physical, tt.len, -1 /* fieldID */))
-			elem := n.toThrift()
-			recover := MustPrimitive(PrimitiveNodeFromThrift(elem))
-			assert.True(t, n.Equals(recover))
-		})
-	}
-
-	n := MustGroup(NewGroupNodeLogical("map" /* name */, parquet.Repetitions.Required, []Node{}, MapLogicalType{}, -1 /* fieldID */))
-	elem := n.toThrift()
-	recover := MustGroup(GroupNodeFromThrift(elem, []Node{}))
-	assert.True(t, recover.Equals(n))
-
-	n = MustGroup(NewGroupNodeLogical("list" /* name */, parquet.Repetitions.Required, []Node{}, ListLogicalType{}, -1 /* fieldID */))
-	elem = n.toThrift()
-	recover = MustGroup(GroupNodeFromThrift(elem, []Node{}))
-	assert.True(t, recover.Equals(n))
-}
-
-func TestSchemaElementConstruction(t *testing.T) {
-	suite.Run(t, new(SchemaElementConstructionSuite))
-}
diff --git a/go/parquet/schema/schema_flatten_test.go b/go/parquet/schema/schema_flatten_test.go
deleted file mode 100644
index e95d56f4d0617..0000000000000
--- a/go/parquet/schema/schema_flatten_test.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func NewPrimitive(name string, repetition format.FieldRepetitionType, typ format.Type, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		Type:           format.TypePtr(typ),
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func NewGroup(name string, repetition format.FieldRepetitionType, numChildren, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		NumChildren:    &numChildren,
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-type SchemaFlattenSuite struct {
-	suite.Suite
-
-	name string
-}
-
-func (s *SchemaFlattenSuite) SetupSuite() {
-	s.name = "parquet_schema"
-}
-
-func (s *SchemaFlattenSuite) TestDecimalMetadata() {
-	group := MustGroup(NewGroupNodeConverted("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		MustPrimitive(NewPrimitiveNodeConverted("decimal" /* name */, parquet.Repetitions.Required, parquet.Types.Int64,
-			ConvertedTypes.Decimal, 0 /* type len */, 8 /* precision */, 4 /* scale */, -1 /* fieldID */)),
-	}, ConvertedTypes.List, -1 /* fieldID */))
-	elements := ToThrift(group)
-
-	s.Len(elements, 2)
-	s.Equal("decimal", elements[1].GetName())
-	s.True(elements[1].IsSetPrecision())
-	s.True(elements[1].IsSetScale())
-
-	group = MustGroup(NewGroupNodeLogical("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		MustPrimitive(NewPrimitiveNodeLogical("decimal" /* name */, parquet.Repetitions.Required, NewDecimalLogicalType(10 /* precision */, 5 /* scale */),
-			parquet.Types.Int64, 0 /* type len */, -1 /* fieldID */)),
-	}, NewListLogicalType(), -1 /* fieldID */))
-	elements = ToThrift(group)
-	s.Equal("decimal", elements[1].Name)
-	s.True(elements[1].IsSetPrecision())
-	s.True(elements[1].IsSetScale())
-
-	group = MustGroup(NewGroupNodeConverted("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		NewInt64Node("int64" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)}, ConvertedTypes.List, -1 /* fieldID */))
-	elements = ToThrift(group)
-	s.Equal("int64", elements[1].Name)
-	s.False(elements[0].IsSetPrecision())
-	s.False(elements[1].IsSetPrecision())
-	s.False(elements[0].IsSetScale())
-	s.False(elements[1].IsSetScale())
-}
-
-func (s *SchemaFlattenSuite) TestNestedExample() {
-	elements := make([]*format.SchemaElement, 0)
-	elements = append(elements,
-		NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */),
-		NewGroup("bag" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 2 /* fieldID */))
-
-	elt := NewGroup("b" /* name */, format.FieldRepetitionType_REPEATED, 1 /* numChildren */, 3 /* fieldID */)
-	elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_LIST)
-	elt.LogicalType = &format.LogicalType{LIST: format.NewListType()}
-	elements = append(elements, elt, NewPrimitive("item" /* name */, format.FieldRepetitionType_OPTIONAL, format.Type_INT64, 4 /* fieldID */))
-
-	fields := FieldList{NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */)}
-	list := MustGroup(NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, FieldList{
-		NewInt64Node("item" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)}, ConvertedTypes.List, 3 /* fieldID */))
-	fields = append(fields, MustGroup(NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, FieldList{list}, 2 /* fieldID */)))
-
-	sc := MustGroup(NewGroupNode(s.name, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-
-	flattened := ToThrift(sc)
-	s.Len(flattened, len(elements))
-	for idx, elem := range flattened {
-		s.Equal(elements[idx], elem)
-	}
-}
-
-func TestSchemaFlatten(t *testing.T) {
-	suite.Run(t, new(SchemaFlattenSuite))
-}
-
-func TestInvalidConvertedTypeInDeserialize(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("string" /* name */, parquet.Repetitions.Required, StringLogicalType{},
-		parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	assert.True(t, n.LogicalType().Equals(StringLogicalType{}))
-	assert.True(t, n.LogicalType().IsValid())
-	assert.True(t, n.LogicalType().IsSerialized())
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.STRING = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
-
-func TestInvalidTimeUnitInTimeLogical(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("time" /* name */, parquet.Repetitions.Required,
-		NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.TIME.Unit.NANOS = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
-
-func TestInvalidTimeUnitInTimestampLogical(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("time" /* name */, parquet.Repetitions.Required,
-		NewTimestampLogicalType(true /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.TIMESTAMP.Unit.NANOS = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
diff --git a/go/parquet/schema/schema_test.go b/go/parquet/schema/schema_test.go
deleted file mode 100644
index fa6c74492460f..0000000000000
--- a/go/parquet/schema/schema_test.go
+++ /dev/null
@@ -1,670 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func TestColumnPath(t *testing.T) {
-	p := parquet.ColumnPath([]string{"toplevel", "leaf"})
-	assert.Equal(t, "toplevel.leaf", p.String())
-
-	p2 := parquet.ColumnPathFromString("toplevel.leaf")
-	assert.Equal(t, "toplevel.leaf", p2.String())
-
-	extend := p2.Extend("anotherlevel")
-	assert.Equal(t, "toplevel.leaf.anotherlevel", extend.String())
-}
-
-func NewPrimitive(name string, repetition format.FieldRepetitionType, typ format.Type, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		Type:           format.TypePtr(typ),
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func NewGroup(name string, repetition format.FieldRepetitionType, numChildren, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		NumChildren:    &numChildren,
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func TestSchemaNodes(t *testing.T) {
-	suite.Run(t, new(PrimitiveNodeTestSuite))
-	suite.Run(t, new(GroupNodeTestSuite))
-	suite.Run(t, new(SchemaConverterSuite))
-}
-
-type PrimitiveNodeTestSuite struct {
-	suite.Suite
-
-	name    string
-	fieldID int32
-	node    schema.Node
-}
-
-func (p *PrimitiveNodeTestSuite) SetupTest() {
-	p.name = "name"
-	p.fieldID = 5
-}
-
-func (p *PrimitiveNodeTestSuite) convert(elt *format.SchemaElement) {
-	p.node = schema.MustPrimitive(schema.PrimitiveNodeFromThrift(elt))
-	p.IsType(&schema.PrimitiveNode{}, p.node)
-}
-
-func (p *PrimitiveNodeTestSuite) TestAttrs() {
-	node1 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-	node2 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("bar" /* name */, parquet.Repetitions.Optional, parquet.Types.ByteArray,
-		schema.ConvertedTypes.UTF8, 0 /* type len */, 0 /* precision */, 0 /* scale */, -1 /* fieldID */))
-
-	p.Equal("foo", node1.Name())
-	p.Equal(schema.Primitive, node1.Type())
-	p.Equal(schema.Primitive, node2.Type())
-
-	p.Equal(parquet.Repetitions.Repeated, node1.RepetitionType())
-	p.Equal(parquet.Repetitions.Optional, node2.RepetitionType())
-
-	p.Equal(parquet.Types.Int32, node1.PhysicalType())
-	p.Equal(parquet.Types.ByteArray, node2.PhysicalType())
-
-	p.Equal(schema.ConvertedTypes.None, node1.ConvertedType())
-	p.Equal(schema.ConvertedTypes.UTF8, node2.ConvertedType())
-}
-
-func (p *PrimitiveNodeTestSuite) TestFromParquet() {
-	p.Run("Optional Int32", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_INT32, p.fieldID)
-		p.convert(elt)
-
-		p.Equal(p.name, p.node.Name())
-		p.Equal(p.fieldID, p.node.FieldID())
-		p.Equal(parquet.Repetitions.Optional, p.node.RepetitionType())
-		p.Equal(parquet.Types.Int32, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.None, p.node.ConvertedType())
-	})
-
-	p.Run("LogicalType", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_REQUIRED, format.Type_BYTE_ARRAY, p.fieldID)
-		elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_UTF8)
-		p.convert(elt)
-
-		p.Equal(parquet.Repetitions.Required, p.node.RepetitionType())
-		p.Equal(parquet.Types.ByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.UTF8, p.node.ConvertedType())
-	})
-
-	p.Run("FixedLenByteArray", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_FIXED_LEN_BYTE_ARRAY, p.fieldID)
-		elt.TypeLength = thrift.Int32Ptr(16)
-		p.convert(elt)
-
-		p.Equal(p.name, p.node.Name())
-		p.Equal(p.fieldID, p.node.FieldID())
-		p.Equal(parquet.Repetitions.Optional, p.node.RepetitionType())
-		p.Equal(parquet.Types.FixedLenByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(16, p.node.(*schema.PrimitiveNode).TypeLength())
-	})
-
-	p.Run("convertedtype::decimal", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_FIXED_LEN_BYTE_ARRAY, p.fieldID)
-		elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_DECIMAL)
-		elt.TypeLength = thrift.Int32Ptr(6)
-		elt.Scale = thrift.Int32Ptr(2)
-		elt.Precision = thrift.Int32Ptr(12)
-
-		p.convert(elt)
-		p.Equal(parquet.Types.FixedLenByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.Decimal, p.node.ConvertedType())
-		p.Equal(6, p.node.(*schema.PrimitiveNode).TypeLength())
-		p.EqualValues(2, p.node.(*schema.PrimitiveNode).DecimalMetadata().Scale)
-		p.EqualValues(12, p.node.(*schema.PrimitiveNode).DecimalMetadata().Precision)
-	})
-}
-
-func (p *PrimitiveNodeTestSuite) TestEquals() {
-	const fieldID = -1
-	node1 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-	node2 := schema.NewInt64Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-	node3 := schema.NewInt32Node("bar" /* name */, parquet.Repetitions.Required, fieldID)
-	node4 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Optional, fieldID)
-	node5 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-
-	p.True(node1.Equals(node1))
-	p.False(node1.Equals(node2))
-	p.False(node1.Equals(node3))
-	p.False(node1.Equals(node4))
-	p.True(node1.Equals(node5))
-
-	flba1 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 12 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba2 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 1 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba2.SetTypeLength(12)
-
-	flba3 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 1 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba3.SetTypeLength(16)
-
-	flba4 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 12 /* type len */, 4 /* precision */, 0 /* scale */, fieldID))
-	flba5 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.None, 12 /* type len */, 4 /* precision */, 0 /* scale */, fieldID))
-
-	p.True(flba1.Equals(flba2))
-	p.False(flba1.Equals(flba3))
-	p.False(flba1.Equals(flba4))
-	p.False(flba1.Equals(flba5))
-}
-
-func (p *PrimitiveNodeTestSuite) TestPhysicalLogicalMapping() {
-	tests := []struct {
-		typ       parquet.Type
-		cnv       schema.ConvertedType
-		typLen    int
-		precision int
-		scale     int
-		shouldErr bool
-	}{
-		{parquet.Types.Int32, schema.ConvertedTypes.Int32, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.JSON, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.Int32, schema.ConvertedTypes.JSON, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.Int64, schema.ConvertedTypes.TimestampMillis, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.Int32, schema.ConvertedTypes.Int64, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Int8, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Interval, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Enum, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Enum, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 0 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.Float, schema.ConvertedTypes.Decimal, 0 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 0 /* type len */, 4 /* precision */, 0 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 4 /* precision */, -1 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 6 /* precision */, 4 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Interval, 12 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Interval, 10 /* type len */, 0 /* precision */, 0 /* scale */, true},
-	}
-	for _, tt := range tests {
-		p.Run(tt.typ.String(), func() {
-			_, err := schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, tt.typ, tt.cnv, tt.typLen, tt.precision, tt.scale, -1 /* fieldID */)
-			if tt.shouldErr {
-				p.Error(err)
-			} else {
-				p.NoError(err)
-			}
-		})
-	}
-}
-
-type GroupNodeTestSuite struct {
-	suite.Suite
-}
-
-func (g *GroupNodeTestSuite) fields1() []schema.Node {
-	return schema.FieldList{
-		schema.NewInt32Node("one" /* name */, parquet.Repetitions.Required, -1 /* fieldID */),
-		schema.NewInt64Node("two" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-		schema.NewFloat64Node("three" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-	}
-}
-
-func (g *GroupNodeTestSuite) fields2() []schema.Node {
-	return schema.FieldList{
-		schema.NewInt32Node("duplicate" /* name */, parquet.Repetitions.Required, -1 /* fieldID */),
-		schema.NewInt64Node("unique" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-		schema.NewFloat64Node("duplicate" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-	}
-}
-
-func (g *GroupNodeTestSuite) TestAttrs() {
-	fields := g.fields1()
-
-	node1 := schema.MustGroup(schema.NewGroupNode("foo" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-	node2 := schema.MustGroup(schema.NewGroupNodeConverted("bar" /* name */, parquet.Repetitions.Optional, fields, schema.ConvertedTypes.List, -1 /* fieldID */))
-
-	g.Equal("foo", node1.Name())
-	g.Equal(schema.Group, node1.Type())
-	g.Equal(len(fields), node1.NumFields())
-	g.Equal(parquet.Repetitions.Repeated, node1.RepetitionType())
-	g.Equal(parquet.Repetitions.Optional, node2.RepetitionType())
-
-	g.Equal(schema.ConvertedTypes.None, node1.ConvertedType())
-	g.Equal(schema.ConvertedTypes.List, node2.ConvertedType())
-}
-
-func (g *GroupNodeTestSuite) TestEquals() {
-	f1 := g.fields1()
-	f2 := g.fields1()
-
-	group1 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f1, -1 /* fieldID */))
-	group2 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-	group3 := schema.Must(schema.NewGroupNode("group2" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-
-	f2 = append(f2, schema.NewFloat32Node("four" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */))
-	group4 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-	group5 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, g.fields1(), -1 /* fieldID */))
-
-	g.True(group1.Equals(group1))
-	g.True(group1.Equals(group2))
-	g.False(group1.Equals(group3))
-	g.False(group1.Equals(group4))
-	g.False(group5.Equals(group4))
-}
-
-func (g *GroupNodeTestSuite) TestFieldIndex() {
-	fields := g.fields1()
-	group := schema.MustGroup(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Required, fields, -1 /* fieldID */))
-	for idx, field := range fields {
-		f := group.Field(idx)
-		g.Same(field, f)
-		g.Equal(idx, group.FieldIndexByField(f))
-		g.Equal(idx, group.FieldIndexByName(field.Name()))
-	}
-
-	// Non field nodes
-	nonFieldAlien := schema.NewInt32Node("alien" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-	nonFieldFamiliar := schema.NewInt32Node("one" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-	g.Less(group.FieldIndexByField(nonFieldAlien), 0)
-	g.Less(group.FieldIndexByField(nonFieldFamiliar), 0)
-}
-
-func (g *GroupNodeTestSuite) TestFieldIndexDuplicateName() {
-	fields := g.fields2()
-	group := schema.MustGroup(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Required, fields, -1 /* fieldID */))
-	for idx, field := range fields {
-		f := group.Field(idx)
-		g.Same(f, field)
-		g.Equal(idx, group.FieldIndexByField(f))
-	}
-}
-
-type SchemaConverterSuite struct {
-	suite.Suite
-
-	name string
-	node schema.Node
-}
-
-func (s *SchemaConverterSuite) SetupSuite() {
-	s.name = "parquet_schema"
-}
-
-func (s *SchemaConverterSuite) convert(elems []*format.SchemaElement) {
-	s.node = schema.Must(schema.FromParquet(elems))
-	s.Equal(schema.Group, s.node.Type())
-}
-
-func (s *SchemaConverterSuite) checkParentConsistency(groupRoot *schema.GroupNode) bool {
-	// each node should have the group as parent
-	for i := 0; i < groupRoot.NumFields(); i++ {
-		field := groupRoot.Field(i)
-		if field.Parent() != groupRoot {
-			return false
-		}
-		if field.Type() == schema.Group {
-			if !s.checkParentConsistency(field.(*schema.GroupNode)) {
-				return false
-			}
-		}
-	}
-	return true
-}
-
-func (s *SchemaConverterSuite) TestNestedExample() {
-	elements := make([]*format.SchemaElement, 0)
-	elements = append(elements,
-		NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */),
-		NewGroup("bag" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 2 /* fieldID */))
-	elt := NewGroup("b" /* name */, format.FieldRepetitionType_REPEATED, 1 /* numChildren */, 3 /* fieldID */)
-	elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_LIST)
-	elements = append(elements, elt, NewPrimitive("item" /* name */, format.FieldRepetitionType_OPTIONAL, format.Type_INT64, 4 /* fieldID */))
-
-	s.convert(elements)
-
-	// construct the expected schema
-	fields := make([]schema.Node, 0)
-	fields = append(fields, schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */))
-
-	// 3-level list encoding
-	item := schema.NewInt64Node("item" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)
-	list := schema.MustGroup(schema.NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item}, schema.ConvertedTypes.List, 3 /* fieldID */))
-	bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, 2 /* fieldID */))
-	fields = append(fields, bag)
-
-	sc := schema.MustGroup(schema.NewGroupNode(s.name, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-	s.True(sc.Equals(s.node))
-	s.Nil(s.node.Parent())
-	s.True(s.checkParentConsistency(s.node.(*schema.GroupNode)))
-}
-
-func (s *SchemaConverterSuite) TestZeroColumns() {
-	elements := []*format.SchemaElement{NewGroup("schema" /* name */, format.FieldRepetitionType_REPEATED, 0 /* numChildren */, 0 /* fieldID */)}
-	s.NotPanics(func() { s.convert(elements) })
-}
-
-func (s *SchemaConverterSuite) TestInvalidRoot() {
-	// According to the Parquet spec, the first element in the list<SchemaElement>
-	// is a group whose children (and their descendants) contain all of the rest of
-	// the flattened schema elements. If the first element is not a group, it is malformed
-	elements := []*format.SchemaElement{NewPrimitive("not-a-group" /* name */, format.FieldRepetitionType_REQUIRED,
-		format.Type_INT32, 0 /* fieldID */), format.NewSchemaElement()}
-	s.Panics(func() { s.convert(elements) })
-
-	// While the parquet spec indicates that the root group should have REPEATED
-	// repetition type, some implementations may return REQUIRED or OPTIONAL
-	// groups as the first element. These tests check that this is okay as a
-	// practicality matter
-	elements = []*format.SchemaElement{
-		NewGroup("not-repeated" /* name */, format.FieldRepetitionType_REQUIRED, 1 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */)}
-	s.NotPanics(func() { s.convert(elements) })
-
-	elements[0] = NewGroup("not-repeated" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 0 /* fieldID */)
-	s.NotPanics(func() { s.convert(elements) })
-}
-
-func (s *SchemaConverterSuite) TestNotEnoughChildren() {
-	s.Panics(func() {
-		s.convert([]*format.SchemaElement{NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */)})
-	})
-}
-
-func TestColumnDesc(t *testing.T) {
-	n := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("name" /* name */, parquet.Repetitions.Optional, parquet.Types.ByteArray,
-		schema.ConvertedTypes.UTF8, 0 /* type len */, 0 /* precision */, 0 /* scale */, -1 /* fieldID */))
-	descr := schema.NewColumn(n, 4, 1)
-
-	assert.Equal(t, "name", descr.Name())
-	assert.EqualValues(t, 4, descr.MaxDefinitionLevel())
-	assert.EqualValues(t, 1, descr.MaxRepetitionLevel())
-	assert.Equal(t, parquet.Types.ByteArray, descr.PhysicalType())
-	assert.Equal(t, -1, descr.TypeLength())
-
-	expectedDesc := `column descriptor = {
-  name: name,
-  path: ,
-  physical_type: BYTE_ARRAY,
-  converted_type: UTF8,
-  logical_type: String,
-  max_definition_level: 4,
-  max_repetition_level: 1,
-}`
-	assert.Equal(t, expectedDesc, descr.String())
-
-	n = schema.MustPrimitive(schema.NewPrimitiveNodeConverted("name" /* name */, parquet.Repetitions.Optional, parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 12 /* type len */, 10 /* precision */, 4 /* scale */, -1 /* fieldID */))
-	descr2 := schema.NewColumn(n, 4, 1)
-
-	assert.Equal(t, parquet.Types.FixedLenByteArray, descr2.PhysicalType())
-	assert.Equal(t, 12, descr2.TypeLength())
-
-	expectedDesc = `column descriptor = {
-  name: name,
-  path: ,
-  physical_type: FIXED_LEN_BYTE_ARRAY,
-  converted_type: DECIMAL,
-  logical_type: Decimal(precision=10, scale=4),
-  max_definition_level: 4,
-  max_repetition_level: 1,
-  length: 12,
-  precision: 10,
-  scale: 4,
-}`
-	assert.Equal(t, expectedDesc, descr2.String())
-}
-
-func TestSchemaDescriptor(t *testing.T) {
-	t.Run("Equals", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		intb := schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		intb2 := schema.NewInt64Node("b2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		intc := schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		bag2 := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Required, schema.FieldList{list}, -1 /* fieldID */))
-
-		descr1 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag}, -1 /* fieldID */)))
-		assert.True(t, descr1.Equals(descr1))
-
-		descr2 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag2}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr2))
-
-		descr3 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb2, intc, bag}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr3))
-
-		descr4 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("SCHEMA" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag}, -1 /* fieldID */)))
-		assert.True(t, descr1.Equals(descr4))
-
-		descr5 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag, intb2}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr5))
-
-		col1 := schema.NewColumn(inta, 5 /* maxDefLvl */, 1 /* maxRepLvl */)
-		col2 := schema.NewColumn(inta, 6 /* maxDefLvl */, 1 /* maxRepLvl */)
-		col3 := schema.NewColumn(inta, 5 /* maxDefLvl */, 2 /* maxRepLvl */)
-
-		assert.True(t, col1.Equals(col1))
-		assert.False(t, col1.Equals(col2))
-		assert.False(t, col2.Equals(col3))
-	})
-
-	t.Run("BuildTree", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		fields := schema.FieldList{inta}
-		fields = append(fields,
-			schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-			schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */))
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		fields = append(fields, bag)
-
-		sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr := schema.NewSchema(sc)
-
-		const nleaves = 6
-		assert.Equal(t, nleaves, descr.NumColumns())
-
-		//                             mdef mrep
-		// required int32 a            0    0
-		// optional int64 b            1    0
-		// repeated byte_array c       1    1
-		// optional group bag          1    0
-		//   repeated group records    2    1
-		//     required int64 item1    2    1
-		//     optional boolean item2  3    1
-		//     repeated int32 item3    3    2
-		var (
-			exMaxDefLevels = [...]int16{0, 1, 1, 2, 3, 3}
-			exMaxRepLevels = [...]int16{0, 0, 1, 1, 1, 2}
-		)
-
-		for i := 0; i < nleaves; i++ {
-			col := descr.Column(i)
-			assert.Equal(t, exMaxDefLevels[i], col.MaxDefinitionLevel())
-			assert.Equal(t, exMaxRepLevels[i], col.MaxRepetitionLevel())
-		}
-
-		assert.Equal(t, "a", descr.Column(0).Path())
-		assert.Equal(t, "b", descr.Column(1).Path())
-		assert.Equal(t, "c", descr.Column(2).Path())
-		assert.Equal(t, "bag.records.item1", descr.Column(3).Path())
-		assert.Equal(t, "bag.records.item2", descr.Column(4).Path())
-		assert.Equal(t, "bag.records.item3", descr.Column(5).Path())
-
-		for i := 0; i < nleaves; i++ {
-			col := descr.Column(i)
-			assert.Equal(t, i, descr.ColumnIndexByNode(col.SchemaNode()))
-		}
-
-		nonColumnAlien := schema.NewInt32Node("alien" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		nonColumnFamiliar := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		assert.Less(t, descr.ColumnIndexByNode(nonColumnAlien), 0)
-		assert.Less(t, descr.ColumnIndexByNode(nonColumnFamiliar), 0)
-
-		assert.Same(t, inta, descr.ColumnRoot(0))
-		assert.Same(t, bag, descr.ColumnRoot(3))
-		assert.Same(t, bag, descr.ColumnRoot(4))
-		assert.Same(t, bag, descr.ColumnRoot(5))
-
-		assert.Same(t, sc, descr.Root())
-	})
-
-	t.Run("HasRepeatedFields", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		fields := schema.FieldList{inta}
-		fields = append(fields,
-			schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-			schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */))
-
-		sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr := schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		fields = append(fields, bag)
-
-		sc = schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr = schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-
-		itemKey := schema.NewInt64Node("key" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		itemValue := schema.NewBooleanNode("value" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		sc = schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, append(fields, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("my_map" /* name */, parquet.Repetitions.Optional, schema.FieldList{
-				schema.MustGroup(schema.NewGroupNodeConverted("map" /* name */, parquet.Repetitions.Repeated, schema.FieldList{itemKey, itemValue}, schema.ConvertedTypes.Map, -1 /* fieldID */)),
-			}, -1 /* fieldID */)),
-		}...), -1 /* fieldID */))
-		descr = schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-	})
-}
-
-func ExamplePrintSchema() {
-	fields := schema.FieldList{schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */)}
-	item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)
-	item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Required, 5 /* fieldID */)
-	list := schema.MustGroup(schema.NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2}, schema.ConvertedTypes.List, 3 /* fieldID */))
-	bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, 2 /* fieldID */))
-	fields = append(fields, bag)
-
-	fields = append(fields,
-		schema.MustPrimitive(schema.NewPrimitiveNodeConverted("c" /* name */, parquet.Repetitions.Required, parquet.Types.Int32, schema.ConvertedTypes.Decimal, 0 /* type len */, 3 /* precision */, 2 /* scale */, 6 /* fieldID */)),
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("d" /* name */, parquet.Repetitions.Required, schema.NewDecimalLogicalType(10 /* precision */, 5 /* scale */), parquet.Types.Int64, -1 /* type len */, 7 /* fieldID */)))
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-	schema.PrintSchema(sc, os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=0 schema {
-	//   required int32 field_id=1 a;
-	//   optional group field_id=2 bag {
-	//     repeated group field_id=3 b (List) {
-	//       optional int64 field_id=4 item1;
-	//       required boolean field_id=5 item2;
-	//     }
-	//   }
-	//   required int32 field_id=6 c (Decimal(precision=3, scale=2));
-	//   required int64 field_id=7 d (Decimal(precision=10, scale=5));
-	// }
-}
-
-func TestPanicSchemaNodeCreation(t *testing.T) {
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("map" /* name */, parquet.Repetitions.Required, schema.MapLogicalType{}, parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	}, "nested logical type on non-group node")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("string" /* name */, parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.Boolean, -1 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive type")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("interval" /* name */, parquet.Repetitions.Required, schema.IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 11 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("decimal" /* name */, parquet.Repetitions.Required, schema.NewDecimalLogicalType(16, 6), parquet.Types.Int32, -1 /* type len */, -1 /* fieldID */))
-	}, "primitive too small for given precision")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("uuid" /* name */, parquet.Repetitions.Required, schema.UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 64 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("float16" /* name */, parquet.Repetitions.Required, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 4 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("negative_len" /* name */, parquet.Repetitions.Required, schema.NoLogicalType{}, parquet.Types.FixedLenByteArray, -16 /* type len */, -1 /* fieldID */))
-	}, "non-positive length for fixed length binary")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("zero_len" /* name */, parquet.Repetitions.Required, schema.NoLogicalType{}, parquet.Types.FixedLenByteArray, 0 /* type len */, -1 /* fieldID */))
-	}, "non-positive length for fixed length binary")
-
-	assert.Panics(t, func() {
-		schema.MustGroup(schema.NewGroupNodeLogical("list" /* name */, parquet.Repetitions.Repeated, schema.FieldList{}, schema.JSONLogicalType{}, -1 /* fieldID */))
-	}, "non-nested logical type on group node")
-}
-
-func TestNullLogicalConvertsToNone(t *testing.T) {
-	var (
-		empty schema.LogicalType
-		n     schema.Node
-	)
-	assert.NotPanics(t, func() {
-		n = schema.MustPrimitive(schema.NewPrimitiveNodeLogical("value" /* name */, parquet.Repetitions.Required, empty, parquet.Types.Double, -1 /* type len */, -1 /* fieldID */))
-	})
-	assert.True(t, n.LogicalType().IsNone())
-	assert.Equal(t, schema.ConvertedTypes.None, n.ConvertedType())
-	assert.NotPanics(t, func() {
-		n = schema.MustGroup(schema.NewGroupNodeLogical("items" /* name */, parquet.Repetitions.Repeated, schema.FieldList{}, empty, -1 /* fieldID */))
-	})
-	assert.True(t, n.LogicalType().IsNone())
-	assert.Equal(t, schema.ConvertedTypes.None, n.ConvertedType())
-}
diff --git a/go/parquet/tools.go b/go/parquet/tools.go
deleted file mode 100644
index 64e9419e4f711..0000000000000
--- a/go/parquet/tools.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package tools
-
-import (
-	_ "github.com/klauspost/asmfmt/cmd/asmfmt"
-	_ "github.com/minio/asm2plan9s"
-	_ "github.com/minio/c2goasm"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/parquet/types.go b/go/parquet/types.go
deleted file mode 100644
index ff696c1178e18..0000000000000
--- a/go/parquet/types.go
+++ /dev/null
@@ -1,373 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"encoding/binary"
-	"io"
-	"reflect"
-	"strings"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-const (
-	julianUnixEpoch int64 = 2440588
-	nanosPerDay     int64 = 3600 * 24 * 1000 * 1000 * 1000
-	// Int96SizeBytes is the number of bytes that make up an Int96
-	Int96SizeBytes int = 12
-)
-
-var (
-	// Int96Traits provides information about the Int96 type
-	Int96Traits int96Traits
-	// ByteArrayTraits provides information about the ByteArray type, which is just an []byte
-	ByteArrayTraits byteArrayTraits
-	// FixedLenByteArrayTraits provides information about the FixedLenByteArray type which is just an []byte
-	FixedLenByteArrayTraits fixedLenByteArrayTraits
-	// ByteArraySizeBytes is the number of bytes returned by reflect.TypeOf(ByteArray{}).Size()
-	ByteArraySizeBytes int = int(reflect.TypeOf(ByteArray{}).Size())
-	// FixedLenByteArraySizeBytes is the number of bytes returned by reflect.TypeOf(FixedLenByteArray{}).Size()
-	FixedLenByteArraySizeBytes int = int(reflect.TypeOf(FixedLenByteArray{}).Size())
-)
-
-// ReaderAtSeeker is a combination of the ReaderAt and ReadSeeker interfaces
-// from the io package defining the only functionality that is required
-// in order for a parquet file to be read by the file functions. We just need
-// to be able to call ReadAt, Read, and Seek
-type ReaderAtSeeker interface {
-	io.ReaderAt
-	io.Seeker
-}
-
-// NewInt96 creates a new Int96 from the given 3 uint32 values.
-func NewInt96(v [3]uint32) (out Int96) {
-	binary.LittleEndian.PutUint32(out[0:], v[0])
-	binary.LittleEndian.PutUint32(out[4:], v[1])
-	binary.LittleEndian.PutUint32(out[8:], v[2])
-	return
-}
-
-// Int96 is a 12 byte integer value utilized for representing timestamps as a 64 bit integer and a 32 bit
-// integer.
-type Int96 [12]byte
-
-// SetNanoSeconds sets the Nanosecond field of the Int96 timestamp to the provided value
-func (i96 *Int96) SetNanoSeconds(nanos int64) {
-	binary.LittleEndian.PutUint64(i96[:8], uint64(nanos))
-}
-
-// String provides the string representation as a timestamp via converting to a time.Time
-// and then calling String
-func (i96 Int96) String() string {
-	return i96.ToTime().String()
-}
-
-// ToTime returns a go time.Time object that represents the same time instant as the given Int96 value
-func (i96 Int96) ToTime() time.Time {
-	nanos := binary.LittleEndian.Uint64(i96[:8])
-	jdays := binary.LittleEndian.Uint32(i96[8:])
-
-	nanos = (uint64(jdays)-uint64(julianUnixEpoch))*uint64(nanosPerDay) + nanos
-	t := time.Unix(0, int64(nanos))
-	return t.UTC()
-}
-
-type int96Traits struct{}
-
-func (int96Traits) BytesRequired(n int) int { return Int96SizeBytes * n }
-
-func (int96Traits) CastFromBytes(b []byte) []Int96 {
-	return unsafe.Slice((*Int96)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/Int96SizeBytes)
-}
-
-func (int96Traits) CastToBytes(b []Int96) []byte {
-	return unsafe.Slice((*byte)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)*Int96SizeBytes)
-}
-
-// ByteArray is a type to be utilized for representing the Parquet ByteArray physical type, represented as a byte slice
-type ByteArray []byte
-
-// Len returns the current length of the ByteArray, equivalent to len(bytearray)
-func (b ByteArray) Len() int {
-	return len(b)
-}
-
-// String returns a string representation of the ByteArray
-func (b ByteArray) String() string {
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (b ByteArray) Bytes() []byte {
-	return b
-}
-
-type byteArrayTraits struct{}
-
-func (byteArrayTraits) BytesRequired(n int) int {
-	return ByteArraySizeBytes * n
-}
-
-func (byteArrayTraits) CastFromBytes(b []byte) []ByteArray {
-	return unsafe.Slice((*ByteArray)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/ByteArraySizeBytes)
-}
-
-// FixedLenByteArray is a go type to represent a FixedLengthByteArray as a byte slice
-type FixedLenByteArray []byte
-
-// Len returns the current length of this FixedLengthByteArray, equivalent to len(fixedlenbytearray)
-func (b FixedLenByteArray) Len() int {
-	return len(b)
-}
-
-// String returns a string representation of the FixedLenByteArray
-func (b FixedLenByteArray) String() string {
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (b FixedLenByteArray) Bytes() []byte {
-	return b
-}
-
-type fixedLenByteArrayTraits struct{}
-
-func (fixedLenByteArrayTraits) BytesRequired(n int) int {
-	return FixedLenByteArraySizeBytes * n
-}
-
-func (fixedLenByteArrayTraits) CastFromBytes(b []byte) []FixedLenByteArray {
-	return unsafe.Slice((*FixedLenByteArray)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/FixedLenByteArraySizeBytes)
-}
-
-// Creating our own enums allows avoiding the transitive dependency on the
-// compiled thrift definitions in the public API, allowing us to not export
-// the entire Thrift definitions, while making everything a simple cast between.
-//
-// It also let's us add special values like NONE to distinguish between values
-// that are set or not set
-type (
-	// Type is the physical type as in parquet.thrift
-	Type format.Type
-	// Cipher is the parquet Cipher Algorithms
-	Cipher int
-	// ColumnOrder is the Column Order from the parquet.thrift
-	ColumnOrder *format.ColumnOrder
-	// Version is the parquet version type
-	Version int8
-	// DataPageVersion is the version of the Parquet Data Pages
-	DataPageVersion int8
-	// Encoding is the parquet Encoding type
-	Encoding format.Encoding
-	// Repetition is the underlying parquet field repetition type as in parquet.thrift
-	Repetition format.FieldRepetitionType
-	// ColumnPath is the path from the root of the schema to a given column
-	ColumnPath []string
-)
-
-func (c ColumnPath) String() string {
-	if c == nil {
-		return ""
-	}
-	return strings.Join(c, ".")
-}
-
-// Extend creates a new ColumnPath from an existing one, with the new ColumnPath having s appended to the end.
-func (c ColumnPath) Extend(s string) ColumnPath {
-	p := make([]string, len(c), len(c)+1)
-	copy(p, c)
-	return append(p, s)
-}
-
-// ColumnPathFromString constructs a ColumnPath from a dot separated string
-func ColumnPathFromString(s string) ColumnPath {
-	return strings.Split(s, ".")
-}
-
-// constants for choosing the Aes Algorithm to use for encryption/decryption
-const (
-	AesGcm Cipher = iota
-	AesCtr
-)
-
-// Constants for the parquet Version which governs which data types are allowed
-// and how they are represented. For example, uint32 data will be written differently
-// depending on this value (as INT64 for V1_0, as UINT32 for other versions).
-//
-// However, some features - such as compression algorithms, encryption,
-// or the improved v2 data page format must be enabled separately in writer
-// properties.
-const (
-	// Enable only pre-2.2 parquet format features when writing.
-	//
-	// This is useful for maximum compatibility with legacy readers.
-	// Note that logical types may still be emitted, as long as they have
-	// a corresponding converted type.
-	V1_0 Version = iota // v1.0
-	// Enable parquet format 2.4 and earlier features when writing.
-	//
-	// This enables uint32 as well as logical types which don't have a
-	// corresponding converted type.
-	//
-	// Note: Parquet format 2.4.0 was released in October 2017
-	V2_4 // v2.4
-	// Enable Parquet format 2.6 and earlier features when writing.
-	//
-	// This enables the nanos time unit in addition to the V2_4 features.
-	//
-	// Note: Parquet format 2.6.0 was released in September 2018
-	V2_6 // v2.6
-	// Enable the latest parquet format 2.x features.
-	//
-	// This is equal to the greatest 2.x version supported by this library.
-	V2_LATEST = V2_6
-)
-
-// constants for the parquet DataPage Version to use
-const (
-	DataPageV1 DataPageVersion = iota
-	DataPageV2
-)
-
-func (e Encoding) String() string {
-	return format.Encoding(e).String()
-}
-
-var (
-	// Types contains constants for the Physical Types that are used in the Parquet Spec
-	//
-	// They can be specified when needed as such: `parquet.Types.Int32` etc. The values
-	// all correspond to the values in parquet.thrift
-	Types = struct {
-		Boolean           Type
-		Int32             Type
-		Int64             Type
-		Int96             Type
-		Float             Type
-		Double            Type
-		ByteArray         Type
-		FixedLenByteArray Type
-		// this only exists as a convenience so we can denote it when necessary
-		// nearly all functions that take a parquet.Type will error/panic if given
-		// Undefined
-		Undefined Type
-	}{
-		Boolean:           Type(format.Type_BOOLEAN),
-		Int32:             Type(format.Type_INT32),
-		Int64:             Type(format.Type_INT64),
-		Int96:             Type(format.Type_INT96),
-		Float:             Type(format.Type_FLOAT),
-		Double:            Type(format.Type_DOUBLE),
-		ByteArray:         Type(format.Type_BYTE_ARRAY),
-		FixedLenByteArray: Type(format.Type_FIXED_LEN_BYTE_ARRAY),
-		Undefined:         Type(format.Type_FIXED_LEN_BYTE_ARRAY + 1),
-	}
-
-	// Encodings contains constants for the encoding types of the column data
-	//
-	// The values used all correspond to the values in parquet.thrift for the
-	// corresponding encoding type.
-	Encodings = struct {
-		Plain                Encoding
-		PlainDict            Encoding
-		RLE                  Encoding
-		RLEDict              Encoding
-		BitPacked            Encoding // deprecated, not implemented
-		DeltaByteArray       Encoding
-		DeltaBinaryPacked    Encoding
-		DeltaLengthByteArray Encoding
-		ByteStreamSplit      Encoding
-	}{
-		Plain:                Encoding(format.Encoding_PLAIN),
-		PlainDict:            Encoding(format.Encoding_PLAIN_DICTIONARY),
-		RLE:                  Encoding(format.Encoding_RLE),
-		RLEDict:              Encoding(format.Encoding_RLE_DICTIONARY),
-		BitPacked:            Encoding(format.Encoding_BIT_PACKED),
-		DeltaByteArray:       Encoding(format.Encoding_DELTA_BYTE_ARRAY),
-		DeltaBinaryPacked:    Encoding(format.Encoding_DELTA_BINARY_PACKED),
-		DeltaLengthByteArray: Encoding(format.Encoding_DELTA_LENGTH_BYTE_ARRAY),
-		ByteStreamSplit:      Encoding(format.Encoding_BYTE_STREAM_SPLIT),
-	}
-
-	// ColumnOrders contains constants for the Column Ordering fields
-	ColumnOrders = struct {
-		Undefined        ColumnOrder
-		TypeDefinedOrder ColumnOrder
-	}{
-		Undefined:        format.NewColumnOrder(),
-		TypeDefinedOrder: &format.ColumnOrder{TYPE_ORDER: format.NewTypeDefinedOrder()},
-	}
-
-	// DefaultColumnOrder is to use TypeDefinedOrder
-	DefaultColumnOrder = ColumnOrders.TypeDefinedOrder
-
-	// Repetitions contains the constants for Field Repetition Types
-	Repetitions = struct {
-		Required  Repetition
-		Optional  Repetition
-		Repeated  Repetition
-		Undefined Repetition // convenience value
-	}{
-		Required:  Repetition(format.FieldRepetitionType_REQUIRED),
-		Optional:  Repetition(format.FieldRepetitionType_OPTIONAL),
-		Repeated:  Repetition(format.FieldRepetitionType_REPEATED),
-		Undefined: Repetition(format.FieldRepetitionType_REPEATED + 1),
-	}
-)
-
-func (t Type) String() string {
-	switch t {
-	case Types.Undefined:
-		return "UNDEFINED"
-	default:
-		return format.Type(t).String()
-	}
-}
-
-func (r Repetition) String() string {
-	return strings.ToLower(format.FieldRepetitionType(r).String())
-}
-
-// ByteSize returns the number of bytes required to store a single value of
-// the given parquet.Type in memory.
-func (t Type) ByteSize() int {
-	switch t {
-	case Types.Boolean:
-		return 1
-	case Types.Int32:
-		return arrow.Int32SizeBytes
-	case Types.Int64:
-		return arrow.Int64SizeBytes
-	case Types.Int96:
-		return Int96SizeBytes
-	case Types.Float:
-		return arrow.Float32SizeBytes
-	case Types.Double:
-		return arrow.Float64SizeBytes
-	case Types.ByteArray:
-		return ByteArraySizeBytes
-	case Types.FixedLenByteArray:
-		return FixedLenByteArraySizeBytes
-	}
-	panic("no bytesize info for type")
-}
diff --git a/go/parquet/version_string.go b/go/parquet/version_string.go
deleted file mode 100644
index ab01aa485a1af..0000000000000
--- a/go/parquet/version_string.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Code generated by "stringer -type=Version -linecomment"; DO NOT EDIT.
-
-package parquet
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[V1_0-0]
-	_ = x[V2_4-1]
-	_ = x[V2_6-2]
-}
-
-const _Version_name = "v1.0v2.4v2.6"
-
-var _Version_index = [...]uint8{0, 4, 8, 12}
-
-func (i Version) String() string {
-	if i < 0 || i >= Version(len(_Version_index)-1) {
-		return "Version(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _Version_name[_Version_index[i]:_Version_index[i+1]]
-}
diff --git a/go/parquet/writer_properties.go b/go/parquet/writer_properties.go
deleted file mode 100644
index c38bb3b81fa6d..0000000000000
--- a/go/parquet/writer_properties.go
+++ /dev/null
@@ -1,552 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-)
-
-// Constants for default property values used for the default reader, writer and column props.
-const (
-	// Default Buffer size used for the Reader
-	DefaultBufSize int64 = 4096 * 4
-	// Default data page size limit is 1K it's not guaranteed, but we will try to
-	// cut data pages off at this size where possible.
-	DefaultDataPageSize int64 = 1024 * 1024
-	// Default is for dictionary encoding to be turned on, use WithDictionaryDefault
-	// writer property to change that.
-	DefaultDictionaryEnabled = true
-	// If the dictionary reaches the size of this limitation, the writer will use
-	// the fallback encoding (usually plain) instead of continuing to build the
-	// dictionary index.
-	DefaultDictionaryPageSizeLimit = DefaultDataPageSize
-	// In order to attempt to facilitate data page size limits for writing,
-	// data is written in batches. Increasing the batch size may improve performance
-	// but the larger the batch size, the easier it is to overshoot the datapage limit.
-	DefaultWriteBatchSize int64 = 1024
-	// Default maximum number of rows for a single row group
-	DefaultMaxRowGroupLen int64 = 64 * 1024 * 1024
-	// Default is to have stats enabled for all columns, use writer properties to
-	// change the default, or to enable/disable for specific columns.
-	DefaultStatsEnabled = true
-	// If the stats are larger than 4K the writer will skip writing them out anyways.
-	DefaultMaxStatsSize int64 = 4096
-	DefaultCreatedBy          = "parquet-go version 18.0.0-SNAPSHOT"
-	DefaultRootName           = "schema"
-)
-
-// ColumnProperties defines the encoding, codec, and so on for a given column.
-type ColumnProperties struct {
-	Encoding          Encoding
-	Codec             compress.Compression
-	DictionaryEnabled bool
-	StatsEnabled      bool
-	MaxStatsSize      int64
-	CompressionLevel  int
-}
-
-// DefaultColumnProperties returns the default properties which get utilized for writing.
-//
-// The default column properties are the following constants:
-//
-//	Encoding:						Encodings.Plain
-//	Codec:							compress.Codecs.Uncompressed
-//	DictionaryEnabled:	DefaultDictionaryEnabled
-//	StatsEnabled:				DefaultStatsEnabled
-//	MaxStatsSize:				DefaultMaxStatsSize
-//	CompressionLevel:		compress.DefaultCompressionLevel
-func DefaultColumnProperties() ColumnProperties {
-	return ColumnProperties{
-		Encoding:          Encodings.Plain,
-		Codec:             compress.Codecs.Uncompressed,
-		DictionaryEnabled: DefaultDictionaryEnabled,
-		StatsEnabled:      DefaultStatsEnabled,
-		MaxStatsSize:      DefaultMaxStatsSize,
-		CompressionLevel:  compress.DefaultCompressionLevel,
-	}
-}
-
-type writerPropConfig struct {
-	wr            *WriterProperties
-	encodings     map[string]Encoding
-	codecs        map[string]compress.Compression
-	compressLevel map[string]int
-	dictEnabled   map[string]bool
-	statsEnabled  map[string]bool
-}
-
-// WriterProperty is used as the options for building a writer properties instance
-type WriterProperty func(*writerPropConfig)
-
-// WithAllocator specifies the writer to use the given allocator
-func WithAllocator(mem memory.Allocator) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.mem = mem
-	}
-}
-
-// WithDictionaryDefault sets the default value for whether to enable dictionary encoding
-func WithDictionaryDefault(dict bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.DictionaryEnabled = dict
-	}
-}
-
-// WithDictionaryFor allows enabling or disabling dictionary encoding for a given column path string
-func WithDictionaryFor(path string, dict bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.dictEnabled[path] = dict
-	}
-}
-
-// WithDictionaryPath is like WithDictionaryFor, but takes a ColumnPath type
-func WithDictionaryPath(path ColumnPath, dict bool) WriterProperty {
-	return WithDictionaryFor(path.String(), dict)
-}
-
-// WithDictionaryPageSizeLimit is the limit of the dictionary at which the writer
-// will fallback to plain encoding instead
-func WithDictionaryPageSizeLimit(limit int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.dictPagesize = limit
-	}
-}
-
-// WithBatchSize specifies the number of rows to use for batch writes to columns
-func WithBatchSize(batch int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.batchSize = batch
-	}
-}
-
-// WithMaxRowGroupLength specifies the number of rows as the maximum number of rows for a given row group in the writer.
-func WithMaxRowGroupLength(nrows int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.maxRowGroupLen = nrows
-	}
-}
-
-// WithDataPageSize specifies the size to use for splitting data pages for column writing.
-func WithDataPageSize(pgsize int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.pageSize = pgsize
-	}
-}
-
-// WithDataPageVersion specifies whether to use Version 1 or Version 2 of the DataPage spec
-func WithDataPageVersion(version DataPageVersion) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.dataPageVersion = version
-	}
-}
-
-// WithVersion specifies which Parquet Spec version to utilize for writing.
-func WithVersion(version Version) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.parquetVersion = version
-	}
-}
-
-// WithCreatedBy specifies the "created by" string to use for the writer
-func WithCreatedBy(createdby string) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.createdBy = createdby
-	}
-}
-
-// WithRootName enables customization of the name used for the root schema node. This is required
-// to maintain compatibility with other tools.
-func WithRootName(name string) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.rootName = name
-	}
-}
-
-// WithRootRepetition enables customization of the repetition used for the root schema node.
-// This is required to maintain compatibility with other tools.
-func WithRootRepetition(repetition Repetition) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.rootRepetition = repetition
-	}
-}
-
-// WithEncoding defines the encoding that is used when we aren't using dictionary encoding.
-//
-// This is either applied if dictionary encoding is disabled, or if we fallback if the dictionary
-// grew too large.
-func WithEncoding(encoding Encoding) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		if encoding == Encodings.PlainDict || encoding == Encodings.RLEDict {
-			panic("parquet: can't use dictionary encoding as fallback encoding")
-		}
-		cfg.wr.defColumnProps.Encoding = encoding
-	}
-}
-
-// WithEncodingFor is for defining the encoding only for a specific column path. This encoding will be used
-// if dictionary encoding is disabled for the column or if we fallback because the dictionary grew too large
-func WithEncodingFor(path string, encoding Encoding) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		if encoding == Encodings.PlainDict || encoding == Encodings.RLEDict {
-			panic("parquet: can't use dictionary encoding as fallback encoding")
-		}
-		cfg.encodings[path] = encoding
-	}
-}
-
-// WithEncodingPath is the same as WithEncodingFor but takes a ColumnPath directly.
-func WithEncodingPath(path ColumnPath, encoding Encoding) WriterProperty {
-	return WithEncodingFor(path.String(), encoding)
-}
-
-// WithCompression specifies the default compression type to use for column writing.
-func WithCompression(codec compress.Compression) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.Codec = codec
-	}
-}
-
-// WithCompressionFor specifies the compression type for the given column.
-func WithCompressionFor(path string, codec compress.Compression) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.codecs[path] = codec
-	}
-}
-
-// WithCompressionPath is the same as WithCompressionFor but takes a ColumnPath directly.
-func WithCompressionPath(path ColumnPath, codec compress.Compression) WriterProperty {
-	return WithCompressionFor(path.String(), codec)
-}
-
-// WithMaxStatsSize sets a maximum size for the statistics before we decide not to include them.
-func WithMaxStatsSize(maxStatsSize int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.MaxStatsSize = maxStatsSize
-	}
-}
-
-// WithCompressionLevel specifies the default compression level for the compressor in every column.
-//
-// The provided compression level is compressor specific. The user would have to know what the available
-// levels are for the selected compressor. If the compressor does not allow for selecting different
-// compression levels, then this function will have no effect. Parquet and Arrow will not validate the
-// passed compression level. If no level is selected by the user or if the special compress.DefaultCompressionLevel
-// value is used, then parquet will select the compression level.
-func WithCompressionLevel(level int) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.CompressionLevel = level
-	}
-}
-
-// WithCompressionLevelFor is like WithCompressionLevel but only for the given column path.
-func WithCompressionLevelFor(path string, level int) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.compressLevel[path] = level
-	}
-}
-
-// WithCompressionLevelPath is the same as WithCompressionLevelFor but takes a ColumnPath
-func WithCompressionLevelPath(path ColumnPath, level int) WriterProperty {
-	return WithCompressionLevelFor(path.String(), level)
-}
-
-// WithStats specifies a default for whether or not to enable column statistics.
-func WithStats(enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.StatsEnabled = enabled
-	}
-}
-
-// WithStatsFor specifies a per column value as to enable or disable statistics in the resulting file.
-func WithStatsFor(path string, enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.statsEnabled[path] = enabled
-	}
-}
-
-// WithStatsPath is the same as WithStatsFor but takes a ColumnPath
-func WithStatsPath(path ColumnPath, enabled bool) WriterProperty {
-	return WithStatsFor(path.String(), enabled)
-}
-
-// WithEncryptionProperties specifies the file level encryption handling for writing the file.
-func WithEncryptionProperties(props *FileEncryptionProperties) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.encryptionProps = props
-	}
-}
-
-// WithStoreDecimalAsInteger specifies whether to try using an int32/int64 for storing
-// decimal data rather than fixed len byte arrays if the precision is low enough.
-func WithStoreDecimalAsInteger(enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.storeDecimalAsInt = enabled
-	}
-}
-
-// WriterProperties is the collection of properties to use for writing a parquet file. The values are
-// read only once it has been constructed.
-type WriterProperties struct {
-	mem               memory.Allocator
-	dictPagesize      int64
-	batchSize         int64
-	maxRowGroupLen    int64
-	pageSize          int64
-	parquetVersion    Version
-	createdBy         string
-	dataPageVersion   DataPageVersion
-	rootName          string
-	rootRepetition    Repetition
-	storeDecimalAsInt bool
-
-	defColumnProps  ColumnProperties
-	columnProps     map[string]*ColumnProperties
-	encryptionProps *FileEncryptionProperties
-}
-
-func defaultWriterProperties() *WriterProperties {
-	return &WriterProperties{
-		mem:             memory.DefaultAllocator,
-		dictPagesize:    DefaultDictionaryPageSizeLimit,
-		batchSize:       DefaultWriteBatchSize,
-		maxRowGroupLen:  DefaultMaxRowGroupLen,
-		pageSize:        DefaultDataPageSize,
-		parquetVersion:  V2_LATEST,
-		dataPageVersion: DataPageV1,
-		createdBy:       DefaultCreatedBy,
-		rootName:        DefaultRootName,
-		rootRepetition:  Repetitions.Repeated,
-		defColumnProps:  DefaultColumnProperties(),
-	}
-}
-
-// NewWriterProperties takes a list of options for building the properties. If multiple options are used which conflict
-// then the last option is the one which will take effect. If no WriterProperty options are provided, then the default
-// properties will be utilized for writing.
-//
-// The Default properties use the following constants:
-//
-//	Allocator:					memory.DefaultAllocator
-//	DictionaryPageSize: DefaultDictionaryPageSizeLimit
-//	BatchSize:					DefaultWriteBatchSize
-//	MaxRowGroupLength:	DefaultMaxRowGroupLen
-//	PageSize:						DefaultDataPageSize
-//	ParquetVersion:			V1
-//	DataPageVersion:		DataPageV1
-//	CreatedBy:					DefaultCreatedBy
-func NewWriterProperties(opts ...WriterProperty) *WriterProperties {
-	cfg := writerPropConfig{
-		wr:            defaultWriterProperties(),
-		encodings:     make(map[string]Encoding),
-		codecs:        make(map[string]compress.Compression),
-		compressLevel: make(map[string]int),
-		dictEnabled:   make(map[string]bool),
-		statsEnabled:  make(map[string]bool),
-	}
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	cfg.wr.columnProps = make(map[string]*ColumnProperties)
-	get := func(key string) *ColumnProperties {
-		if p, ok := cfg.wr.columnProps[key]; ok {
-			return p
-		}
-		cfg.wr.columnProps[key] = new(ColumnProperties)
-		*cfg.wr.columnProps[key] = cfg.wr.defColumnProps
-		return cfg.wr.columnProps[key]
-	}
-
-	for key, value := range cfg.encodings {
-		get(key).Encoding = value
-	}
-
-	for key, value := range cfg.codecs {
-		get(key).Codec = value
-	}
-
-	for key, value := range cfg.compressLevel {
-		get(key).CompressionLevel = value
-	}
-
-	for key, value := range cfg.dictEnabled {
-		get(key).DictionaryEnabled = value
-	}
-
-	for key, value := range cfg.statsEnabled {
-		get(key).StatsEnabled = value
-	}
-	return cfg.wr
-}
-
-// FileEncryptionProperties returns the current encryption properties that were
-// used to create the writer properties.
-func (w *WriterProperties) FileEncryptionProperties() *FileEncryptionProperties {
-	return w.encryptionProps
-}
-
-func (w *WriterProperties) Allocator() memory.Allocator      { return w.mem }
-func (w *WriterProperties) CreatedBy() string                { return w.createdBy }
-func (w *WriterProperties) RootName() string                 { return w.rootName }
-func (w *WriterProperties) RootRepetition() Repetition       { return w.rootRepetition }
-func (w *WriterProperties) WriteBatchSize() int64            { return w.batchSize }
-func (w *WriterProperties) DataPageSize() int64              { return w.pageSize }
-func (w *WriterProperties) DictionaryPageSizeLimit() int64   { return w.dictPagesize }
-func (w *WriterProperties) Version() Version                 { return w.parquetVersion }
-func (w *WriterProperties) DataPageVersion() DataPageVersion { return w.dataPageVersion }
-func (w *WriterProperties) MaxRowGroupLength() int64         { return w.maxRowGroupLen }
-
-// Compression returns the default compression type that will be used for any columns that don't
-// have a specific compression defined.
-func (w *WriterProperties) Compression() compress.Compression { return w.defColumnProps.Codec }
-
-// CompressionFor will return the compression type that is specified for the given column path, or
-// the default compression codec if there isn't one specific to this column.
-func (w *WriterProperties) CompressionFor(path string) compress.Compression {
-	if p, ok := w.columnProps[path]; ok {
-		return p.Codec
-	}
-	return w.defColumnProps.Codec
-}
-
-// CompressionPath is the same as CompressionFor but takes a ColumnPath
-func (w *WriterProperties) CompressionPath(path ColumnPath) compress.Compression {
-	return w.CompressionFor(path.String())
-}
-
-// CompressionLevel returns the default compression level that will be used for any column
-// that doesn't have a compression level specified for it.
-func (w *WriterProperties) CompressionLevel() int { return w.defColumnProps.CompressionLevel }
-
-// CompressionLevelFor returns the compression level that will be utilized for the given column,
-// or the default compression level if the column doesn't have a specific level specified.
-func (w *WriterProperties) CompressionLevelFor(path string) int {
-	if p, ok := w.columnProps[path]; ok {
-		return p.CompressionLevel
-	}
-	return w.defColumnProps.CompressionLevel
-}
-
-// CompressionLevelPath is the same as CompressionLevelFor but takes a ColumnPath object
-func (w *WriterProperties) CompressionLevelPath(path ColumnPath) int {
-	return w.CompressionLevelFor(path.String())
-}
-
-// Encoding returns the default encoding that will be utilized for any columns which don't have a different value
-// specified.
-func (w *WriterProperties) Encoding() Encoding { return w.defColumnProps.Encoding }
-
-// EncodingFor returns the encoding that will be used for the given column path, or the default encoding if there
-// isn't one specified for this column.
-func (w *WriterProperties) EncodingFor(path string) Encoding {
-	if p, ok := w.columnProps[path]; ok {
-		return p.Encoding
-	}
-	return w.defColumnProps.Encoding
-}
-
-// EncodingPath is the same as EncodingFor but takes a ColumnPath object
-func (w *WriterProperties) EncodingPath(path ColumnPath) Encoding {
-	return w.EncodingFor(path.String())
-}
-
-// DictionaryIndexEncoding returns which encoding will be used for the Dictionary Index values based on the
-// parquet version. V1 uses PlainDict and V2 uses RLEDict
-func (w *WriterProperties) DictionaryIndexEncoding() Encoding {
-	if w.parquetVersion == V1_0 {
-		return Encodings.PlainDict
-	}
-	return Encodings.RLEDict
-}
-
-// DictionaryPageEncoding returns the encoding that will be utilized for the DictionaryPage itself based on the parquet
-// version. V1 uses PlainDict, v2 uses Plain
-func (w *WriterProperties) DictionaryPageEncoding() Encoding {
-	if w.parquetVersion == V1_0 {
-		return Encodings.PlainDict
-	}
-	return Encodings.Plain
-}
-
-// DictionaryEnabled returns the default value as for whether or not dictionary encoding will be utilized for columns
-// that aren't separately specified.
-func (w *WriterProperties) DictionaryEnabled() bool { return w.defColumnProps.DictionaryEnabled }
-
-// DictionaryEnabledFor returns whether or not dictionary encoding will be used for the specified column when writing
-// or the default value if the column was not separately specified.
-func (w *WriterProperties) DictionaryEnabledFor(path string) bool {
-	if p, ok := w.columnProps[path]; ok {
-		return p.DictionaryEnabled
-	}
-	return w.defColumnProps.DictionaryEnabled
-}
-
-// DictionaryEnabledPath is the same as DictionaryEnabledFor but takes a ColumnPath object.
-func (w *WriterProperties) DictionaryEnabledPath(path ColumnPath) bool {
-	return w.DictionaryEnabledFor(path.String())
-}
-
-// StatisticsEnabled returns the default value for whether or not stats are enabled to be written for columns
-// that aren't separately specified.
-func (w *WriterProperties) StatisticsEnabled() bool { return w.defColumnProps.StatsEnabled }
-
-// StatisticsEnabledFor returns whether stats will be written for the given column path, or the default value if
-// it wasn't separately specified.
-func (w *WriterProperties) StatisticsEnabledFor(path string) bool {
-	if p, ok := w.columnProps[path]; ok {
-		return p.StatsEnabled
-	}
-	return w.defColumnProps.StatsEnabled
-}
-
-// StatisticsEnabledPath is the same as StatisticsEnabledFor but takes a ColumnPath object.
-func (w *WriterProperties) StatisticsEnabledPath(path ColumnPath) bool {
-	return w.StatisticsEnabledFor(path.String())
-}
-
-// MaxStatsSize returns the default maximum size for stats
-func (w *WriterProperties) MaxStatsSize() int64 { return w.defColumnProps.MaxStatsSize }
-
-// MaxStatsSizeFor returns the maximum stat size for the given column path
-func (w *WriterProperties) MaxStatsSizeFor(path string) int64 {
-	if p, ok := w.columnProps[path]; ok {
-		return p.MaxStatsSize
-	}
-	return w.defColumnProps.MaxStatsSize
-}
-
-// MaxStatsSizePath is the same as MaxStatsSizeFor but takes a ColumnPath
-func (w *WriterProperties) MaxStatsSizePath(path ColumnPath) int64 {
-	return w.MaxStatsSizeFor(path.String())
-}
-
-// ColumnEncryptionProperties returns the specific properties for encryption that will be used for the given column path
-func (w *WriterProperties) ColumnEncryptionProperties(path string) *ColumnEncryptionProperties {
-	if w.encryptionProps != nil {
-		return w.encryptionProps.ColumnEncryptionProperties(path)
-	}
-	return nil
-}
-
-// StoreDecimalAsInteger returns the config option controlling whether or not
-// to try storing decimal data as an integer type if the precision is low enough
-// (1 <= prec <= 18 can be stored as an int), otherwise it will be stored as
-// a fixed len byte array.
-func (w *WriterProperties) StoreDecimalAsInteger() bool {
-	return w.storeDecimalAsInt
-}

From 498f485c69f2ae5f7d1721b17ac3ce485c76f8ac Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Ra=C3=BAl=20Cumplido?= <raulcumplido@gmail.com>
Date: Tue, 8 Oct 2024 02:18:54 +0200
Subject: [PATCH 17/38] MINOR: [CI][R] Increase timeout for ubuntu-r-valgrind
 (#44316)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

### Rationale for this change

test-r-linux-valgrind has been failing consistently due to timeout since September 20th.
See [first failure](https://github.com/ursacomputing/crossbow/actions/runs/10951024478/job/30407361495) and [last failure](https://github.com/ursacomputing/crossbow/actions/runs/11206537690/job/31147433866)

### What changes are included in this PR?

Increase timeout

### Are these changes tested?

Will validate via archery

### Are there any user-facing changes?

No

Authored-by: Raúl Cumplido <raulcumplido@gmail.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 dev/tasks/tasks.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/dev/tasks/tasks.yml b/dev/tasks/tasks.yml
index 5c441a5035bb1..d38b822ffd853 100644
--- a/dev/tasks/tasks.yml
+++ b/dev/tasks/tasks.yml
@@ -1327,7 +1327,7 @@ tasks:
       env:
         ARROW_R_DEV: "TRUE"
       image: ubuntu-r-valgrind
-      timeout: 300 # 5 hours
+      timeout: 330 # 5.5 hours
 
   test-r-linux-rchk:
     ci: github

From 36d2962a0814d8eee604ffcd8426177954eb7a89 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 09:22:19 +0900
Subject: [PATCH 18/38] MINOR: [CI] Bump actions/upload-artifact from 4.4.0 to
 4.4.1 (#44320)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [actions/upload-artifact](https://github.com/actions/upload-artifact) from 4.4.0 to 4.4.1.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/actions/upload-artifact/releases">actions/upload-artifact's releases</a>.</em></p>
<blockquote>
<h2>v4.4.1</h2>
<h2>What's Changed</h2>
<ul>
<li>Add a section about hidden files by <a href="https://github.com/joshmgross"><code>@​joshmgross</code></a> in <a href="https://redirect.github.com/actions/upload-artifact/pull/607">actions/upload-artifact#607</a></li>
<li>Add workflow file for publishing releases to immutable action package by <a href="https://github.com/Jcambass"><code>@​Jcambass</code></a> in <a href="https://redirect.github.com/actions/upload-artifact/pull/621">actions/upload-artifact#621</a></li>
<li>Update <code>@​actions/artifact</code> to latest version, includes symlink and timeout fixes by <a href="https://github.com/robherley"><code>@​robherley</code></a> in <a href="https://redirect.github.com/actions/upload-artifact/pull/625">actions/upload-artifact#625</a></li>
</ul>
<h2>New Contributors</h2>
<ul>
<li><a href="https://github.com/Jcambass"><code>@​Jcambass</code></a> made their first contribution in <a href="https://redirect.github.com/actions/upload-artifact/pull/621">actions/upload-artifact#621</a></li>
</ul>
<p><strong>Full Changelog</strong>: <a href="https://github.com/actions/upload-artifact/compare/v4.4.0...v4.4.1">https://github.com/actions/upload-artifact/compare/v4.4.0...v4.4.1</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/actions/upload-artifact/commit/604373da6381bf24206979c74d06a550515601b9"><code>604373d</code></a> Merge pull request <a href="https://redirect.github.com/actions/upload-artifact/issues/625">#625</a> from actions/robherley/artifact-2.1.10</li>
<li><a href="https://github.com/actions/upload-artifact/commit/0150148bdf458be2451ee90b000ecdcca8216ed8"><code>0150148</code></a> paste right core version</li>
<li><a href="https://github.com/actions/upload-artifact/commit/a009b25faa61b2b26de294984570f1371b13a895"><code>a009b25</code></a> update licenses</li>
<li><a href="https://github.com/actions/upload-artifact/commit/9f6f6f402e14cb0fe462513c8fa31e6ec061e8b5"><code>9f6f6f4</code></a> update <code>@​actions/core</code> and <code>@​actions/artifact</code> to latest versions</li>
<li><a href="https://github.com/actions/upload-artifact/commit/3eadd8b791cabf7cd572f194da82158c24125bd8"><code>3eadd8b</code></a> Merge pull request <a href="https://redirect.github.com/actions/upload-artifact/issues/621">#621</a> from actions/Jcambass-patch-1</li>
<li><a href="https://github.com/actions/upload-artifact/commit/aeba9f79615961db246aa455caf3aa63488c0ace"><code>aeba9f7</code></a> Add workflow file for publishing releases to immutable action package</li>
<li><a href="https://github.com/actions/upload-artifact/commit/b18b1d32f3f31abcdc29dee3f2484801fe7822f4"><code>b18b1d3</code></a> Merge pull request <a href="https://redirect.github.com/actions/upload-artifact/issues/607">#607</a> from actions/joshmgross/hidden-files-readme</li>
<li><a href="https://github.com/actions/upload-artifact/commit/d7c12077c478ad3d03aeeb01e2f6917d1ac93c3a"><code>d7c1207</code></a> Add a section about hidden files</li>
<li>See full diff in <a href="https://github.com/actions/upload-artifact/compare/v4.4.0...v4.4.1">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=actions/upload-artifact&package-manager=github_actions&previous-version=4.4.0&new-version=4.4.1)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Lead-authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Co-authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 .github/workflows/pr_review_trigger.yml | 2 +-
 .github/workflows/r.yml                 | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/.github/workflows/pr_review_trigger.yml b/.github/workflows/pr_review_trigger.yml
index 68f922ce8b4d9..1ee824843ed2b 100644
--- a/.github/workflows/pr_review_trigger.yml
+++ b/.github/workflows/pr_review_trigger.yml
@@ -29,7 +29,7 @@ jobs:
     runs-on: ubuntu-latest
     steps:
       - name: "Upload PR review Payload"
-        uses: actions/upload-artifact@v4.4.0
+        uses: actions/upload-artifact@604373da6381bf24206979c74d06a550515601b9 # v4.4.1
         with:
           path: "${{ github.event_path }}"
           name: "pr_review_payload"
diff --git a/.github/workflows/r.yml b/.github/workflows/r.yml
index 9abedcd767150..1897f332f7506 100644
--- a/.github/workflows/r.yml
+++ b/.github/workflows/r.yml
@@ -170,7 +170,7 @@ jobs:
         if: always()
       - name: Save the test output
         if: always()
-        uses: actions/upload-artifact@50769540e7f4bd5e21e526ee35c689e35e0d6874 # v4.4.0
+        uses: actions/upload-artifact@604373da6381bf24206979c74d06a550515601b9 # v4.4.1
         with:
           name: test-output-${{ matrix.ubuntu }}-${{ matrix.r }}
           path: r/check/arrow.Rcheck/tests/testthat.Rout*
@@ -230,7 +230,7 @@ jobs:
         if: always()
       - name: Save the test output
         if: always()
-        uses: actions/upload-artifact@50769540e7f4bd5e21e526ee35c689e35e0d6874 # v4.4.0
+        uses: actions/upload-artifact@604373da6381bf24206979c74d06a550515601b9 # v4.4.1
         with:
           name: test-output-bundled
           path: r/check/arrow.Rcheck/tests/testthat.Rout*
@@ -292,7 +292,7 @@ jobs:
         # So that they're unique when multiple are downloaded in the next step
         shell: bash
         run: mv libarrow.zip libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip
-      - uses: actions/upload-artifact@50769540e7f4bd5e21e526ee35c689e35e0d6874 # # v4.0.0
+      - uses: actions/upload-artifact@604373da6381bf24206979c74d06a550515601b9 # v4.4.1
         with:
           name: libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip
           path: libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip

From a217b1d928836caff37975d65e359b7f3122a44a Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 09:42:43 +0900
Subject: [PATCH 19/38] MINOR: [Java] Bump dep.junit.jupiter.version from
 5.11.1 to 5.11.2 in /java (#44325)

Bumps `dep.junit.jupiter.version` from 5.11.1 to 5.11.2.
Updates `org.junit.jupiter:junit-jupiter-engine` from 5.11.1 to 5.11.2
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-engine's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.2 = Platform 1.11.2 + Jupiter 5.11.2 + Vintage 5.11.2</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.2/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/5b1a6d1f2f32645449df3aae745684557aa2c524"><code>5b1a6d1</code></a> Release 5.11.2</li>
<li><a href="https://github.com/junit-team/junit5/commit/b7816b6e6aa1341d9ad5cb38b8eca95ac7a0cbb6"><code>b7816b6</code></a> Finalize 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/f8e22c7a32a12ec05bba81a4e509f5138fc6ea8a"><code>f8e22c7</code></a> Finalize 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/8e6393803f4df79023ccbeffbd756bc4cf0f9e62"><code>8e63938</code></a> Remove reference to 5.10.4 in 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/7e9d728f8bcb27a9b8d2b330995bb217374aedc6"><code>7e9d728</code></a> Document <a href="https://redirect.github.com/junit-team/junit5/issues/4043">#4043</a> in 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/c11f224f821dd50fba28eee561372d76f63480cd"><code>c11f224</code></a> Create initial 5.10.5 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/ab941409706b7dabd578f1c87e48c484ba1b3182"><code>ab94140</code></a> Fix global read-write lock handling when not declared on top level</li>
<li><a href="https://github.com/junit-team/junit5/commit/9658fac066d818024939199985d49b57d6a37763"><code>9658fac</code></a> Add initial 5.11.2 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/5f52ced83a5065db965cd6f5d30aef201356ce2f"><code>5f52ced</code></a> Fix link to milestone page</li>
<li><a href="https://github.com/junit-team/junit5/commit/558f480be534e0fd1e805b8d8612860bfec08b59"><code>558f480</code></a> Back to snapshots for further development</li>
<li>See full diff in <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">compare view</a></li>
</ul>
</details>
<br />

Updates `org.junit.jupiter:junit-jupiter-api` from 5.11.1 to 5.11.2
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-api's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.2 = Platform 1.11.2 + Jupiter 5.11.2 + Vintage 5.11.2</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.2/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/5b1a6d1f2f32645449df3aae745684557aa2c524"><code>5b1a6d1</code></a> Release 5.11.2</li>
<li><a href="https://github.com/junit-team/junit5/commit/b7816b6e6aa1341d9ad5cb38b8eca95ac7a0cbb6"><code>b7816b6</code></a> Finalize 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/f8e22c7a32a12ec05bba81a4e509f5138fc6ea8a"><code>f8e22c7</code></a> Finalize 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/8e6393803f4df79023ccbeffbd756bc4cf0f9e62"><code>8e63938</code></a> Remove reference to 5.10.4 in 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/7e9d728f8bcb27a9b8d2b330995bb217374aedc6"><code>7e9d728</code></a> Document <a href="https://redirect.github.com/junit-team/junit5/issues/4043">#4043</a> in 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/c11f224f821dd50fba28eee561372d76f63480cd"><code>c11f224</code></a> Create initial 5.10.5 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/ab941409706b7dabd578f1c87e48c484ba1b3182"><code>ab94140</code></a> Fix global read-write lock handling when not declared on top level</li>
<li><a href="https://github.com/junit-team/junit5/commit/9658fac066d818024939199985d49b57d6a37763"><code>9658fac</code></a> Add initial 5.11.2 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/5f52ced83a5065db965cd6f5d30aef201356ce2f"><code>5f52ced</code></a> Fix link to milestone page</li>
<li><a href="https://github.com/junit-team/junit5/commit/558f480be534e0fd1e805b8d8612860bfec08b59"><code>558f480</code></a> Back to snapshots for further development</li>
<li>See full diff in <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">compare view</a></li>
</ul>
</details>
<br />

Updates `org.junit.jupiter:junit-jupiter-params` from 5.11.1 to 5.11.2
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/junit-team/junit5/releases">org.junit.jupiter:junit-jupiter-params's releases</a>.</em></p>
<blockquote>
<p>JUnit 5.11.2 = Platform 1.11.2 + Jupiter 5.11.2 + Vintage 5.11.2</p>
<p>See <a href="http://junit.org/junit5/docs/5.11.2/release-notes/">Release Notes</a>.</p>
<p><strong>Full Changelog</strong>: <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2</a></p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/junit-team/junit5/commit/5b1a6d1f2f32645449df3aae745684557aa2c524"><code>5b1a6d1</code></a> Release 5.11.2</li>
<li><a href="https://github.com/junit-team/junit5/commit/b7816b6e6aa1341d9ad5cb38b8eca95ac7a0cbb6"><code>b7816b6</code></a> Finalize 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/f8e22c7a32a12ec05bba81a4e509f5138fc6ea8a"><code>f8e22c7</code></a> Finalize 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/8e6393803f4df79023ccbeffbd756bc4cf0f9e62"><code>8e63938</code></a> Remove reference to 5.10.4 in 5.11.2 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/7e9d728f8bcb27a9b8d2b330995bb217374aedc6"><code>7e9d728</code></a> Document <a href="https://redirect.github.com/junit-team/junit5/issues/4043">#4043</a> in 5.10.5 release notes</li>
<li><a href="https://github.com/junit-team/junit5/commit/c11f224f821dd50fba28eee561372d76f63480cd"><code>c11f224</code></a> Create initial 5.10.5 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/ab941409706b7dabd578f1c87e48c484ba1b3182"><code>ab94140</code></a> Fix global read-write lock handling when not declared on top level</li>
<li><a href="https://github.com/junit-team/junit5/commit/9658fac066d818024939199985d49b57d6a37763"><code>9658fac</code></a> Add initial 5.11.2 release notes from template</li>
<li><a href="https://github.com/junit-team/junit5/commit/5f52ced83a5065db965cd6f5d30aef201356ce2f"><code>5f52ced</code></a> Fix link to milestone page</li>
<li><a href="https://github.com/junit-team/junit5/commit/558f480be534e0fd1e805b8d8612860bfec08b59"><code>558f480</code></a> Back to snapshots for further development</li>
<li>See full diff in <a href="https://github.com/junit-team/junit5/compare/r5.11.1...r5.11.2">compare view</a></li>
</ul>
</details>
<br />

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index 4fb81c722c116..6069dbdb31da1 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -93,7 +93,7 @@ under the License.
   <properties>
     <target.gen.source.path>${project.build.directory}/generated-sources</target.gen.source.path>
     <dep.junit.platform.version>1.9.0</dep.junit.platform.version>
-    <dep.junit.jupiter.version>5.11.1</dep.junit.jupiter.version>
+    <dep.junit.jupiter.version>5.11.2</dep.junit.jupiter.version>
     <dep.slf4j.version>2.0.16</dep.slf4j.version>
     <dep.guava-bom.version>33.3.1-jre</dep.guava-bom.version>
     <dep.netty-bom.version>4.1.113.Final</dep.netty-bom.version>

From 580b0280d74fa1b1f5f44727a49819a5f8ea363e Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 09:53:51 +0900
Subject: [PATCH 20/38] MINOR: [Java] Bump org.apache.hive:hive-storage-api
 from 4.0.0 to 4.0.1 in /java (#44328)

Bumps org.apache.hive:hive-storage-api from 4.0.0 to 4.0.1.

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=org.apache.hive:hive-storage-api&package-manager=maven&previous-version=4.0.0&new-version=4.0.1)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/adapter/orc/pom.xml | 2 +-
 java/dataset/pom.xml     | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/java/adapter/orc/pom.xml b/java/adapter/orc/pom.xml
index cf35397c9917b..f6e7b024e7d9d 100644
--- a/java/adapter/orc/pom.xml
+++ b/java/adapter/orc/pom.xml
@@ -130,7 +130,7 @@ under the License.
     <dependency>
       <groupId>org.apache.hive</groupId>
       <artifactId>hive-storage-api</artifactId>
-      <version>4.0.0</version>
+      <version>4.0.1</version>
       <scope>test</scope>
     </dependency>
   </dependencies>
diff --git a/java/dataset/pom.xml b/java/dataset/pom.xml
index a02513269b1b2..803f6278cc859 100644
--- a/java/dataset/pom.xml
+++ b/java/dataset/pom.xml
@@ -150,7 +150,7 @@ under the License.
     <dependency>
       <groupId>org.apache.hive</groupId>
       <artifactId>hive-storage-api</artifactId>
-      <version>4.0.0</version>
+      <version>4.0.1</version>
       <scope>test</scope>
     </dependency>
     <dependency>

From ae690327dded1bbfbae99a9e2845ab2aceffc24f Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 10:00:29 +0900
Subject: [PATCH 21/38] MINOR: [Java] Bump
 com.google.api.grpc:proto-google-common-protos from 2.45.1 to 2.46.0 in /java
 (#44321)

Bumps [com.google.api.grpc:proto-google-common-protos](https://github.com/googleapis/sdk-platform-java) from 2.45.1 to 2.46.0.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/googleapis/sdk-platform-java/releases">com.google.api.grpc:proto-google-common-protos's releases</a>.</em></p>
<blockquote>
<h2>v2.46.0</h2>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.45.0...v2.46.0">2.46.0</a> (2024-09-23)</h2>
<h3>Features</h3>
<ul>
<li>expose property in GrpcTransportChannel if it uses direct path. (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3170">#3170</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/9a432f7ce042fb2470ca99817200e0ff82a83c39">9a432f7</a>)</li>
<li>generate a GAPIC library from api definition (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3208">#3208</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b6b5d7bbe2743034def0859105da146134d9b1b0">b6b5d7b</a>)</li>
<li>Metrics tracer addAttribute map overload (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3202">#3202</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/1a988df22f7e3d15ce6b121bf26897c59ab468e4">1a988df</a>)</li>
</ul>
<h3>Bug Fixes</h3>
<ul>
<li>generate pr description with repo level change (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3182">#3182</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/edd2168fdc7ba7ea9ae328736cb5d39adf950929">edd2168</a>)</li>
</ul>
<h3>Dependencies</h3>
<ul>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3192">#3192</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b28070686ed1360084cd95beb622b78966f4960c">b280706</a>)</li>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3193">#3193</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ed0cd1729b6b964d730a8c5f38589939aab3fd8a">ed0cd17</a>)</li>
<li>update dependency filelock to v3.16.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3210">#3210</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/703ac3d0b73d5388d60b910bcd26bcde6327a0a3">703ac3d</a>)</li>
<li>update dependency idna to v3.10 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3201">#3201</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/211c3ecdec1a088267dc3c2765f5eb3835496c9b">211c3ec</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3205">#3205</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/c88a722c09080b18ecbb9ba94dec56f152de5eb9">c88a722</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3206">#3206</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/3e9fbacf65411521c87e67f3dd33f392276e8200">3e9fbac</a>)</li>
<li>update dependency platformdirs to v4.3.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3200">#3200</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b62b05de5295484b48b36fcbf9b94887184d05d4">b62b05d</a>)</li>
<li>update dependency platformdirs to v4.3.6 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3209">#3209</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/227ffa5a841c29b91f848453e8be2accf44041f3">227ffa5</a>)</li>
<li>update dependency urllib3 to v2.2.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3194">#3194</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/f69d511d89a50d88bb45fd113611e4f94886696b">f69d511</a>)</li>
<li>update dependency virtualenv to v20.26.5 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3212">#3212</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/d3ef97a5b9f5252a1e503b638261746a7cf4dc77">d3ef97a</a>)</li>
<li>update google api dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3183">#3183</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/02eea8d62e5e2d019a97545429346810e00bcaa6">02eea8d</a>)</li>
<li>update google auth library dependencies to v1.26.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3216">#3216</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/0b369e9ba6551eae6d2041ce430912b56ae9b394">0b369e9</a>)</li>
<li>update google auth library dependencies to v1.27.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3221">#3221</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a3cb9e75839ceb811f9e264073758691068e4a95">a3cb9e7</a>)</li>
<li>update googleapis/java-cloud-bom digest to 06f632d (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3198">#3198</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/49dcd3535fc2836df3a5d7b1665051cd54d09f29">49dcd35</a>)</li>
<li>update googleapis/java-cloud-bom digest to e7d8909 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3207">#3207</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/de497ee716a4fd0ab3bc64d66c1dc24af11c0368">de497ee</a>)</li>
<li>update opentelemetry-java monorepo to v1.42.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3189">#3189</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/38117d8b92930abc6e6922a4c46654d02e823f67">38117d8</a>)</li>
<li>Upgrade Protobuf-Java to v3.25.5 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3217">#3217</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/860c1bcfc213fe7b21969c80282c8c08637cd3ba">860c1bc</a>)</li>
</ul>
</blockquote>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a href="https://github.com/googleapis/sdk-platform-java/blob/main/CHANGELOG.md">com.google.api.grpc:proto-google-common-protos's changelog</a>.</em></p>
<blockquote>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.45.0...v2.46.0">2.46.0</a> (2024-09-23)</h2>
<h3>Features</h3>
<ul>
<li>expose property in GrpcTransportChannel if it uses direct path. (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3170">#3170</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/9a432f7ce042fb2470ca99817200e0ff82a83c39">9a432f7</a>)</li>
<li>generate a GAPIC library from api definition (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3208">#3208</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b6b5d7bbe2743034def0859105da146134d9b1b0">b6b5d7b</a>)</li>
<li>Metrics tracer addAttribute map overload (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3202">#3202</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/1a988df22f7e3d15ce6b121bf26897c59ab468e4">1a988df</a>)</li>
</ul>
<h3>Bug Fixes</h3>
<ul>
<li>generate pr description with repo level change (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3182">#3182</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/edd2168fdc7ba7ea9ae328736cb5d39adf950929">edd2168</a>)</li>
</ul>
<h3>Dependencies</h3>
<ul>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3192">#3192</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b28070686ed1360084cd95beb622b78966f4960c">b280706</a>)</li>
<li>update dependency com.google.errorprone:error_prone_annotations to v2.32.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3193">#3193</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/ed0cd1729b6b964d730a8c5f38589939aab3fd8a">ed0cd17</a>)</li>
<li>update dependency filelock to v3.16.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3210">#3210</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/703ac3d0b73d5388d60b910bcd26bcde6327a0a3">703ac3d</a>)</li>
<li>update dependency idna to v3.10 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3201">#3201</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/211c3ecdec1a088267dc3c2765f5eb3835496c9b">211c3ec</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3205">#3205</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/c88a722c09080b18ecbb9ba94dec56f152de5eb9">c88a722</a>)</li>
<li>update dependency org.threeten:threetenbp to v1.7.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3206">#3206</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/3e9fbacf65411521c87e67f3dd33f392276e8200">3e9fbac</a>)</li>
<li>update dependency platformdirs to v4.3.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3200">#3200</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b62b05de5295484b48b36fcbf9b94887184d05d4">b62b05d</a>)</li>
<li>update dependency platformdirs to v4.3.6 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3209">#3209</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/227ffa5a841c29b91f848453e8be2accf44041f3">227ffa5</a>)</li>
<li>update dependency urllib3 to v2.2.3 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3194">#3194</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/f69d511d89a50d88bb45fd113611e4f94886696b">f69d511</a>)</li>
<li>update dependency virtualenv to v20.26.5 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3212">#3212</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/d3ef97a5b9f5252a1e503b638261746a7cf4dc77">d3ef97a</a>)</li>
<li>update google api dependencies (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3183">#3183</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/02eea8d62e5e2d019a97545429346810e00bcaa6">02eea8d</a>)</li>
<li>update google auth library dependencies to v1.26.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3216">#3216</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/0b369e9ba6551eae6d2041ce430912b56ae9b394">0b369e9</a>)</li>
<li>update google auth library dependencies to v1.27.0 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3221">#3221</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a3cb9e75839ceb811f9e264073758691068e4a95">a3cb9e7</a>)</li>
<li>update googleapis/java-cloud-bom digest to 06f632d (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3198">#3198</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/49dcd3535fc2836df3a5d7b1665051cd54d09f29">49dcd35</a>)</li>
<li>update googleapis/java-cloud-bom digest to e7d8909 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3207">#3207</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/de497ee716a4fd0ab3bc64d66c1dc24af11c0368">de497ee</a>)</li>
<li>update opentelemetry-java monorepo to v1.42.1 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3189">#3189</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/38117d8b92930abc6e6922a4c46654d02e823f67">38117d8</a>)</li>
<li>Upgrade Protobuf-Java to v3.25.5 (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3217">#3217</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/860c1bcfc213fe7b21969c80282c8c08637cd3ba">860c1bc</a>)</li>
</ul>
<h2><a href="https://github.com/googleapis/sdk-platform-java/compare/v2.44.0...v2.45.0">2.45.0</a> (2024-09-09)</h2>
<h3>Features</h3>
<ul>
<li>add Batcher#close(timeout) and Batcher#cancelOutstanding (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3141">#3141</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/b5a92e4495b33ad797f9a071a97828460dacd80f">b5a92e4</a>)</li>
<li>add full RetrySettings sample code to Settings classes (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3056">#3056</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/8fe3a2d4cfac5d038bcf12afe849c9182073920e">8fe3a2d</a>)</li>
<li>add toString to futures returned by operations (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3140">#3140</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/afecb8c43c48067931b3fed78cf2eec55d983f9c">afecb8c</a>)</li>
<li>bake gapic-generator-java into the hermetic build docker image (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3067">#3067</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/a372e82ad322e409cd49196e96abee62cbc567ea">a372e82</a>)</li>
</ul>
<h3>Bug Fixes</h3>
<ul>
<li><strong>gax:</strong> prevent truncation/overflow when converting time values (<a href="https://redirect.github.com/googleapis/sdk-platform-java/issues/3095">#3095</a>) (<a href="https://github.com/googleapis/sdk-platform-java/commit/699074e2db06c4d6d7ebfa235cc2aaeee695fdb4">699074e</a>)</li>
</ul>

</blockquote>
<p>... (truncated)</p>
</details>
<details>
<summary>Commits</summary>
<ul>
<li>See full diff in <a href="https://github.com/googleapis/sdk-platform-java/commits/v2.46.0">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=com.google.api.grpc:proto-google-common-protos&package-manager=maven&previous-version=2.45.1&new-version=2.46.0)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/flight/flight-core/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/flight/flight-core/pom.xml b/java/flight/flight-core/pom.xml
index c2427272eaa89..74767fd78f1b2 100644
--- a/java/flight/flight-core/pom.xml
+++ b/java/flight/flight-core/pom.xml
@@ -134,7 +134,7 @@ under the License.
     <dependency>
       <groupId>com.google.api.grpc</groupId>
       <artifactId>proto-google-common-protos</artifactId>
-      <version>2.45.1</version>
+      <version>2.46.0</version>
       <scope>test</scope>
     </dependency>
     <dependency>

From 3326a1b226b2039eb4b15e129d1bd0aaad4b80d1 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 10:27:06 +0900
Subject: [PATCH 22/38] MINOR: [Java] Bump io.netty:netty-bom from
 4.1.113.Final to 4.1.114.Final in /java (#44322)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [io.netty:netty-bom](https://github.com/netty/netty) from 4.1.113.Final to 4.1.114.Final.
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/netty/netty/commit/7679b9efdec71b54d06db91eef40ad913681294a"><code>7679b9e</code></a> [maven-release-plugin] prepare release netty-4.1.114.Final</li>
<li><a href="https://github.com/netty/netty/commit/d5f4bfb6c9ca14bd5820fa61a9ce3352492de872"><code>d5f4bfb</code></a> Refactor DnsNameResolver to be able to use different strategies when … (<a href="https://redirect.github.com/netty/netty/issues/14374">#14374</a>)</li>
<li><a href="https://github.com/netty/netty/commit/041eaed17b066eefac20b6182533ffebd029d5f2"><code>041eaed</code></a> Re-add previous removed method to make revapi plugin happy again.</li>
<li><a href="https://github.com/netty/netty/commit/232a5abfdd5f5e9bfa397ba3e0a0c4ca89876c6a"><code>232a5ab</code></a> DnsResolverBuilder methods should make it clear that these are for Da… (<a href="https://redirect.github.com/netty/netty/issues/14379">#14379</a>)</li>
<li><a href="https://github.com/netty/netty/commit/e87ce47ea4a4866697d5cb986cfb173185498fee"><code>e87ce47</code></a> Initialize <code>DnsNameResolverBuilder</code> at runtime for native images (<a href="https://redirect.github.com/netty/netty/issues/14376">#14376</a>)</li>
<li><a href="https://github.com/netty/netty/commit/3f66dd22efde67fa775bc1bb353c0d803756abb2"><code>3f66dd2</code></a> Make it possible to notify the TrustManager of resumed sessions (<a href="https://redirect.github.com/netty/netty/issues/14358">#14358</a>)</li>
<li><a href="https://github.com/netty/netty/commit/c036b9917f20a2704150a0c034ad3477c2b737b0"><code>c036b99</code></a> DnsNameResolver: allow users to skip bind() during bootstrap (<a href="https://redirect.github.com/netty/netty/issues/14375">#14375</a>)</li>
<li><a href="https://github.com/netty/netty/commit/56a91017242c57706762bd7359c921c43af64fa7"><code>56a9101</code></a> Update small documentation typo (<a href="https://redirect.github.com/netty/netty/issues/14370">#14370</a>)</li>
<li><a href="https://github.com/netty/netty/commit/8362d9d9fd695ad8276a8c1db7733ec29e4c3619"><code>8362d9d</code></a> Fix flaky BootstrapTest (<a href="https://redirect.github.com/netty/netty/issues/14369">#14369</a>)</li>
<li><a href="https://github.com/netty/netty/commit/bbd3a4a50ed23f2ae6c3d16b17b4423722380296"><code>bbd3a4a</code></a> Fix OpenSslClientSessionCache remove (<a href="https://redirect.github.com/netty/netty/issues/14366">#14366</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/netty/netty/compare/netty-4.1.113.Final...netty-4.1.114.Final">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=io.netty:netty-bom&package-manager=maven&previous-version=4.1.113.Final&new-version=4.1.114.Final)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index 6069dbdb31da1..fb3606b866fe4 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -96,7 +96,7 @@ under the License.
     <dep.junit.jupiter.version>5.11.2</dep.junit.jupiter.version>
     <dep.slf4j.version>2.0.16</dep.slf4j.version>
     <dep.guava-bom.version>33.3.1-jre</dep.guava-bom.version>
-    <dep.netty-bom.version>4.1.113.Final</dep.netty-bom.version>
+    <dep.netty-bom.version>4.1.114.Final</dep.netty-bom.version>
     <dep.grpc-bom.version>1.65.0</dep.grpc-bom.version>
     <dep.protobuf-bom.version>3.25.4</dep.protobuf-bom.version>
     <dep.jackson-bom.version>2.18.0</dep.jackson-bom.version>

From 505e3e3747ec118f861de6875e8b6616688018bf Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 11:19:23 +0900
Subject: [PATCH 23/38] MINOR: [Java] Bump parquet.version from 1.14.2 to
 1.14.3 in /java (#44323)

Bumps `parquet.version` from 1.14.2 to 1.14.3.
Updates `org.apache.parquet:parquet-avro` from 1.14.2 to 1.14.3
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/apache/parquet-mr/releases">org.apache.parquet:parquet-avro's releases</a>.</em></p>
<blockquote>
<h2>Apache Parquet Java 1.14.3</h2>
<h2>What's Changed</h2>
<ul>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encoding</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3021">GH-3021</a>: Upgrade Avro dependency to 1.11.4</li>
</ul>
<h2>Apache Parquet Java 1.14.3 RC2</h2>
<h2>What's Changed</h2>
<ul>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encoding</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3021">GH-3021</a>: Upgrade Avro dependency to 1.11.4</li>
</ul>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/apache/parquet-java/commit/b5e376a2caee767a11e75b783512b14cf8ca90ec"><code>b5e376a</code></a> [maven-release-plugin] prepare release apache-parquet-1.14.3-rc2</li>
<li><a href="https://github.com/apache/parquet-java/commit/7d970b7485ca005c797421c9d2afc8ab09579684"><code>7d970b7</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3021">GH-3021</a>: Upgrade Avro dependency (<a href="https://redirect.github.com/apache/parquet-mr/issues/3022">#3022</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/425733735b7674b2a5649f7c4675e5a1e8c9a9fc"><code>4257337</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li><a href="https://github.com/apache/parquet-java/commit/cf1efcc932a39dad8c47bd113f03c4848b3b1ed5"><code>cf1efcc</code></a> [maven-release-plugin] prepare release apache-parquet-1.14.3-rc0</li>
<li><a href="https://github.com/apache/parquet-java/commit/b1475a706bcb3188d52409fdd18af0eac1fc7b69"><code>b1475a7</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encodin...</li>
<li><a href="https://github.com/apache/parquet-java/commit/aec24e7240aa3cd447840749b2630941aa220587"><code>aec24e7</code></a> MINOR: Don't run all the tests on a release (<a href="https://redirect.github.com/apache/parquet-mr/issues/2999">#2999</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/2734728b0e05026af93e2c9fcfbbd517080fb4d4"><code>2734728</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded (<a href="https://redirect.github.com/apache/parquet-mr/issues/3017">#3017</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/7b6753da3973c76af3d6628129857e243a6a3d2a"><code>7b6753d</code></a> MINOR: fix version of parquet-plugins</li>
<li><a href="https://github.com/apache/parquet-java/commit/dde627c9ee2a2e5db44c9a130c3dffbccf1706c4"><code>dde627c</code></a> Prepare for next development iteration</li>
<li><a href="https://github.com/apache/parquet-java/commit/2245b3043794c8a904b454e73dc6dba3a4d5415c"><code>2245b30</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li>See full diff in <a href="https://github.com/apache/parquet-mr/compare/apache-parquet-1.14.2...apache-parquet-1.14.3">compare view</a></li>
</ul>
</details>
<br />

Updates `org.apache.parquet:parquet-hadoop` from 1.14.2 to 1.14.3
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/apache/parquet-mr/releases">org.apache.parquet:parquet-hadoop's releases</a>.</em></p>
<blockquote>
<h2>Apache Parquet Java 1.14.3</h2>
<h2>What's Changed</h2>
<ul>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encoding</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3021">GH-3021</a>: Upgrade Avro dependency to 1.11.4</li>
</ul>
<h2>Apache Parquet Java 1.14.3 RC2</h2>
<h2>What's Changed</h2>
<ul>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encoding</li>
<li><a href="https://redirect.github.com/apache/parquet-java/issues/3021">GH-3021</a>: Upgrade Avro dependency to 1.11.4</li>
</ul>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/apache/parquet-java/commit/b5e376a2caee767a11e75b783512b14cf8ca90ec"><code>b5e376a</code></a> [maven-release-plugin] prepare release apache-parquet-1.14.3-rc2</li>
<li><a href="https://github.com/apache/parquet-java/commit/7d970b7485ca005c797421c9d2afc8ab09579684"><code>7d970b7</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3021">GH-3021</a>: Upgrade Avro dependency (<a href="https://redirect.github.com/apache/parquet-mr/issues/3022">#3022</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/425733735b7674b2a5649f7c4675e5a1e8c9a9fc"><code>4257337</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li><a href="https://github.com/apache/parquet-java/commit/cf1efcc932a39dad8c47bd113f03c4848b3b1ed5"><code>cf1efcc</code></a> [maven-release-plugin] prepare release apache-parquet-1.14.3-rc0</li>
<li><a href="https://github.com/apache/parquet-java/commit/b1475a706bcb3188d52409fdd18af0eac1fc7b69"><code>b1475a7</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3013">GH-3013</a>: Fix potential ClassCastException at reading DELTA_BYTE_ARRAY encodin...</li>
<li><a href="https://github.com/apache/parquet-java/commit/aec24e7240aa3cd447840749b2630941aa220587"><code>aec24e7</code></a> MINOR: Don't run all the tests on a release (<a href="https://redirect.github.com/apache/parquet-mr/issues/2999">#2999</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/2734728b0e05026af93e2c9fcfbbd517080fb4d4"><code>2734728</code></a> <a href="https://redirect.github.com/apache/parquet-mr/issues/3007">GH-3007</a>: Ensure version specific Jackson classes are shaded (<a href="https://redirect.github.com/apache/parquet-mr/issues/3017">#3017</a>)</li>
<li><a href="https://github.com/apache/parquet-java/commit/7b6753da3973c76af3d6628129857e243a6a3d2a"><code>7b6753d</code></a> MINOR: fix version of parquet-plugins</li>
<li><a href="https://github.com/apache/parquet-java/commit/dde627c9ee2a2e5db44c9a130c3dffbccf1706c4"><code>dde627c</code></a> Prepare for next development iteration</li>
<li><a href="https://github.com/apache/parquet-java/commit/2245b3043794c8a904b454e73dc6dba3a4d5415c"><code>2245b30</code></a> [maven-release-plugin] prepare for next development iteration</li>
<li>See full diff in <a href="https://github.com/apache/parquet-mr/compare/apache-parquet-1.14.2...apache-parquet-1.14.3">compare view</a></li>
</ul>
</details>
<br />

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/dataset/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/dataset/pom.xml b/java/dataset/pom.xml
index 803f6278cc859..ec90e39d522cf 100644
--- a/java/dataset/pom.xml
+++ b/java/dataset/pom.xml
@@ -32,7 +32,7 @@ under the License.
 
   <properties>
     <arrow.cpp.build.dir>../../../cpp/release-build/</arrow.cpp.build.dir>
-    <parquet.version>1.14.2</parquet.version>
+    <parquet.version>1.14.3</parquet.version>
     <avro.version>1.12.0</avro.version>
   </properties>
 

From 44fb439ad91b802faf08cbf097b67fa84bdac8d1 Mon Sep 17 00:00:00 2001
From: Feiyang472 <47224794+Feiyang472@users.noreply.github.com>
Date: Tue, 8 Oct 2024 05:08:50 +0100
Subject: [PATCH 24/38] GH-43684: [Python][Dataset] Python / Cython interface
 to C++ arrow::dataset::Partitioning::Format (#43740)

See
https://github.com/apache/arrow/issues/43684
* GitHub Issue: #43684

Lead-authored-by: feiyang <feiyangc@outlook.com>
Co-authored-by: Feiyang472 <47224794+Feiyang472@users.noreply.github.com>
Co-authored-by: Bryce Mecum <petridish@gmail.com>
Signed-off-by: Bryce Mecum <petridish@gmail.com>
---
 python/pyarrow/_dataset.pyx                  | 37 +++++++++++
 python/pyarrow/includes/libarrow_dataset.pxd |  5 ++
 python/pyarrow/tests/test_dataset.py         | 67 ++++++++++++++++++++
 3 files changed, 109 insertions(+)

diff --git a/python/pyarrow/_dataset.pyx b/python/pyarrow/_dataset.pyx
index 3583a3213ccbc..6b5259f499f05 100644
--- a/python/pyarrow/_dataset.pyx
+++ b/python/pyarrow/_dataset.pyx
@@ -2505,6 +2505,43 @@ cdef class Partitioning(_Weakrefable):
         result = self.partitioning.Parse(tobytes(path))
         return Expression.wrap(GetResultValue(result))
 
+    def format(self, expr):
+        """
+        Convert a filter expression into a tuple of (directory, filename) using 
+        the current partitioning scheme
+
+        Parameters
+        ----------
+        expr : pyarrow.dataset.Expression
+
+        Returns
+        -------
+        tuple[str, str]
+
+        Examples
+        --------
+
+        Specify the Schema for paths like "/2009/June":
+
+        >>> import pyarrow as pa
+        >>> import pyarrow.dataset as ds
+        >>> import pyarrow.compute as pc
+        >>> part = ds.partitioning(pa.schema([("year", pa.int16()),
+        ...                                   ("month", pa.string())]))
+        >>> part.format(
+        ...     (pc.field("year") == 1862) & (pc.field("month") == "Jan")
+        ... )
+        ('1862/Jan', '')
+        """
+        cdef:
+            CPartitionPathFormat result
+
+        result = GetResultValue(self.partitioning.Format(
+            Expression.unwrap(expr)
+        ))
+
+        return frombytes(result.directory), frombytes(result.filename)
+
     @property
     def schema(self):
         """The arrow Schema attached to the partitioning."""
diff --git a/python/pyarrow/includes/libarrow_dataset.pxd b/python/pyarrow/includes/libarrow_dataset.pxd
index fe96705a54b2f..ef1238e4154bb 100644
--- a/python/pyarrow/includes/libarrow_dataset.pxd
+++ b/python/pyarrow/includes/libarrow_dataset.pxd
@@ -285,9 +285,14 @@ cdef extern from "arrow/dataset/api.h" namespace "arrow::dataset" nogil:
         CJSONParseOptions parse_options
         CJSONReadOptions read_options
 
+    cdef struct CPartitionPathFormat "arrow::dataset::PartitionPathFormat":
+        c_string directory
+        c_string filename
+
     cdef cppclass CPartitioning "arrow::dataset::Partitioning":
         c_string type_name() const
         CResult[CExpression] Parse(const c_string & path) const
+        CResult[CPartitionPathFormat] Format(const CExpression & expr) const
         const shared_ptr[CSchema] & schema()
         c_bool Equals(const CPartitioning& other) const
 
diff --git a/python/pyarrow/tests/test_dataset.py b/python/pyarrow/tests/test_dataset.py
index ab181590914d3..ea6cb88074ab7 100644
--- a/python/pyarrow/tests/test_dataset.py
+++ b/python/pyarrow/tests/test_dataset.py
@@ -734,6 +734,73 @@ def test_partitioning_pickling(pickle_module):
         assert pickle_module.loads(pickle_module.dumps(part)) == part
 
 
+@pytest.mark.parametrize(
+    "flavor, expected_defined_partition, expected_undefined_partition",
+    [
+        (ds.HivePartitioning, (r"foo=A/bar=ant%20bee", ""), ("", "")),
+        (ds.DirectoryPartitioning, (r"A/ant bee", ""), ("", "")),
+        (ds.FilenamePartitioning, ("", r"A_ant bee_"), ("", "_")),
+    ],
+)
+def test_dataset_partitioning_format(
+    flavor: "ds.Partitioning",
+    expected_defined_partition: tuple,
+    expected_undefined_partition: tuple,
+):
+
+    partitioning_schema = pa.schema([("foo", pa.string()), ("bar", pa.string())])
+
+    partitioning = flavor(schema=partitioning_schema)
+
+    # test forward transformation (format)
+    assert (
+        partitioning.format((pc.field("bar") == "ant bee") & (pc.field("foo") == "A"))
+        == expected_defined_partition
+    )
+
+    # test backward transformation (parse)
+    assert partitioning.parse("/".join(expected_defined_partition)).equals(
+        (pc.field("foo") == "A") & (pc.field("bar") == "ant bee")
+    )
+
+    # test complex expression can still be parsed into useful directory/path
+    assert (
+        partitioning.format(
+            ((pc.field("bar") == "ant bee") & (pc.field("foo") == "A"))
+            & ((pc.field("bar") == "ant bee") & (pc.field("foo") == "A"))
+        )
+        == expected_defined_partition
+    )
+
+    # test a different complex expression cannot be parsed into directory/path
+    # and just returns the same value as if no filter were applied.
+    assert (
+        partitioning.format(
+            ((pc.field("bar") == "ant bee") & (pc.field("foo") == "A"))
+            | ((pc.field("bar") == "ant bee") & (pc.field("foo") == "A"))
+        )
+        == expected_undefined_partition
+    )
+
+    if flavor != ds.HivePartitioning:
+        # Raises error upon filtering for lower level partition without filtering for
+        # higher level partition
+        with pytest.raises(
+            pa.ArrowInvalid,
+            match=(
+                "No partition key for foo but a key was provided"
+                " subsequently for bar"
+            )
+        ):
+            partitioning.format(((pc.field("bar") == "ant bee")))
+    else:
+        # Hive partitioning allows this to pass
+        assert partitioning.format(((pc.field("bar") == "ant bee"))) == (
+            r"bar=ant%20bee",
+            "",
+        )
+
+
 def test_expression_arithmetic_operators():
     dataset = ds.dataset(pa.table({'a': [1, 2, 3], 'b': [2, 2, 2]}))
     a = ds.field("a")

From aebd7b09c9bac965f702da51b30c95d012c76020 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 14:11:27 +0900
Subject: [PATCH 25/38] MINOR: [Java] Bump checker.framework.version from
 3.47.0 to 3.48.0 in /java (#44324)

Bumps `checker.framework.version` from 3.47.0 to 3.48.0.
Updates `org.checkerframework:checker-qual` from 3.47.0 to 3.48.0
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/typetools/checker-framework/releases">org.checkerframework:checker-qual's releases</a>.</em></p>
<blockquote>
<h2>Checker Framework 3.48.0</h2>
<h2>Version 3.48.0 (October 2, 2024)</h2>
<p><strong>User-visible changes:</strong></p>
<p>The new SqlQuotesChecker prevents errors in quoting in SQL queries.  It prevents injection attacks that exploit quoting errors.</p>
<p>Aggregate Checkers now interleave error messages so that all errors about a line of code appear together.</p>
<p><strong>Closed issues:</strong></p>
<p><a href="https://redirect.github.com/typetools/checker-framework/issues/3568">#3568</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6725">#6725</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6753">#6753</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6769">#6769</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6770">#6770</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6780">#6780</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6785">#6785</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6795">#6795</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6804">#6804</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6811">#6811</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6825">#6825</a>.</p>
</blockquote>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a href="https://github.com/typetools/checker-framework/blob/master/docs/CHANGELOG.md">org.checkerframework:checker-qual's changelog</a>.</em></p>
<blockquote>
<h2>Version 3.48.0 (October 2, 2024)</h2>
<p><strong>User-visible changes:</strong></p>
<p>The new SqlQuotesChecker prevents errors in quoting in SQL queries.  It prevents
injection attacks that exploit quoting errors.</p>
<p>Aggregate Checkers now interleave error messages so that all errors about a line of code appear
together.</p>
<p><strong>Closed issues:</strong></p>
<p><a href="https://redirect.github.com/typetools/checker-framework/issues/3568">#3568</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6725">#6725</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6753">#6753</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6769">#6769</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6770">#6770</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6780">#6780</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6785">#6785</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6795">#6795</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6804">#6804</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6811">#6811</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6825">#6825</a>.</p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/typetools/checker-framework/commit/8a5b58576e22050d9625b30fed07abdefe382e5e"><code>8a5b585</code></a> new release 3.48.0</li>
<li><a href="https://github.com/typetools/checker-framework/commit/33dfb8448f0e9aadd88c967413b768c170fcd9d5"><code>33dfb84</code></a> Fix links.</li>
<li><a href="https://github.com/typetools/checker-framework/commit/dda798d5dec51d4d81419e9a96fac7068fcae173"><code>dda798d</code></a> Prep for release.</li>
<li><a href="https://github.com/typetools/checker-framework/commit/fe16b7f7271664e019adaf202fbc021e47a0004d"><code>fe16b7f</code></a> Remove checker-qual files from shaded dataflow jar</li>
<li><a href="https://github.com/typetools/checker-framework/commit/642a8536251ca3bc63e81bc179d4caaf7cd8e63e"><code>642a853</code></a> Add a capture in type argument inference</li>
<li><a href="https://github.com/typetools/checker-framework/commit/b96e7778cd539b3e25a0a7988dc97c88ca469042"><code>b96e777</code></a> Capture the type of field accesses</li>
<li><a href="https://github.com/typetools/checker-framework/commit/3b03b377fe44fe134278a750e6459629d4a165fe"><code>3b03b37</code></a> Updating macOS installation instructions (<a href="https://redirect.github.com/typetools/checker-framework/issues/6827">#6827</a>)</li>
<li><a href="https://github.com/typetools/checker-framework/commit/3e837a51c330f8009be6b5aeb452e22050cad10e"><code>3e837a5</code></a> Skip <code>TreeUtils.toStringTruncated</code> when debugging is disabled</li>
<li><a href="https://github.com/typetools/checker-framework/commit/fe7b19ff7f1d24cdf861e8e34a3d7928adc3e920"><code>fe7b19f</code></a> Check for proper type</li>
<li><a href="https://github.com/typetools/checker-framework/commit/97beabcb365924e4ee87746f6e7d63abbcc18b6b"><code>97beabc</code></a> Fix a resource leak false positive due to a cast (<a href="https://redirect.github.com/typetools/checker-framework/issues/6821">#6821</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/typetools/checker-framework/compare/checker-framework-3.47.0...checker-framework-3.48.0">compare view</a></li>
</ul>
</details>
<br />

Updates `org.checkerframework:checker` from 3.47.0 to 3.48.0
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/typetools/checker-framework/releases">org.checkerframework:checker's releases</a>.</em></p>
<blockquote>
<h2>Checker Framework 3.48.0</h2>
<h2>Version 3.48.0 (October 2, 2024)</h2>
<p><strong>User-visible changes:</strong></p>
<p>The new SqlQuotesChecker prevents errors in quoting in SQL queries.  It prevents injection attacks that exploit quoting errors.</p>
<p>Aggregate Checkers now interleave error messages so that all errors about a line of code appear together.</p>
<p><strong>Closed issues:</strong></p>
<p><a href="https://redirect.github.com/typetools/checker-framework/issues/3568">#3568</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6725">#6725</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6753">#6753</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6769">#6769</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6770">#6770</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6780">#6780</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6785">#6785</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6795">#6795</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6804">#6804</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6811">#6811</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6825">#6825</a>.</p>
</blockquote>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a href="https://github.com/typetools/checker-framework/blob/master/docs/CHANGELOG.md">org.checkerframework:checker's changelog</a>.</em></p>
<blockquote>
<h2>Version 3.48.0 (October 2, 2024)</h2>
<p><strong>User-visible changes:</strong></p>
<p>The new SqlQuotesChecker prevents errors in quoting in SQL queries.  It prevents
injection attacks that exploit quoting errors.</p>
<p>Aggregate Checkers now interleave error messages so that all errors about a line of code appear
together.</p>
<p><strong>Closed issues:</strong></p>
<p><a href="https://redirect.github.com/typetools/checker-framework/issues/3568">#3568</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6725">#6725</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6753">#6753</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6769">#6769</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6770">#6770</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6780">#6780</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6785">#6785</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6795">#6795</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6804">#6804</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6811">#6811</a>, <a href="https://redirect.github.com/typetools/checker-framework/issues/6825">#6825</a>.</p>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/typetools/checker-framework/commit/8a5b58576e22050d9625b30fed07abdefe382e5e"><code>8a5b585</code></a> new release 3.48.0</li>
<li><a href="https://github.com/typetools/checker-framework/commit/33dfb8448f0e9aadd88c967413b768c170fcd9d5"><code>33dfb84</code></a> Fix links.</li>
<li><a href="https://github.com/typetools/checker-framework/commit/dda798d5dec51d4d81419e9a96fac7068fcae173"><code>dda798d</code></a> Prep for release.</li>
<li><a href="https://github.com/typetools/checker-framework/commit/fe16b7f7271664e019adaf202fbc021e47a0004d"><code>fe16b7f</code></a> Remove checker-qual files from shaded dataflow jar</li>
<li><a href="https://github.com/typetools/checker-framework/commit/642a8536251ca3bc63e81bc179d4caaf7cd8e63e"><code>642a853</code></a> Add a capture in type argument inference</li>
<li><a href="https://github.com/typetools/checker-framework/commit/b96e7778cd539b3e25a0a7988dc97c88ca469042"><code>b96e777</code></a> Capture the type of field accesses</li>
<li><a href="https://github.com/typetools/checker-framework/commit/3b03b377fe44fe134278a750e6459629d4a165fe"><code>3b03b37</code></a> Updating macOS installation instructions (<a href="https://redirect.github.com/typetools/checker-framework/issues/6827">#6827</a>)</li>
<li><a href="https://github.com/typetools/checker-framework/commit/3e837a51c330f8009be6b5aeb452e22050cad10e"><code>3e837a5</code></a> Skip <code>TreeUtils.toStringTruncated</code> when debugging is disabled</li>
<li><a href="https://github.com/typetools/checker-framework/commit/fe7b19ff7f1d24cdf861e8e34a3d7928adc3e920"><code>fe7b19f</code></a> Check for proper type</li>
<li><a href="https://github.com/typetools/checker-framework/commit/97beabcb365924e4ee87746f6e7d63abbcc18b6b"><code>97beabc</code></a> Fix a resource leak false positive due to a cast (<a href="https://redirect.github.com/typetools/checker-framework/issues/6821">#6821</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/typetools/checker-framework/compare/checker-framework-3.47.0...checker-framework-3.48.0">compare view</a></li>
</ul>
</details>
<br />

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/pom.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/pom.xml b/java/pom.xml
index fb3606b866fe4..c9560879767e7 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -110,7 +110,7 @@ under the License.
     <error_prone_core.version>2.31.0</error_prone_core.version>
     <mockito.core.version>5.11.0</mockito.core.version>
     <mockito.inline.version>5.2.0</mockito.inline.version>
-    <checker.framework.version>3.47.0</checker.framework.version>
+    <checker.framework.version>3.48.0</checker.framework.version>
     <logback.version>1.5.8</logback.version>
     <doclint>none</doclint>
     <additionalparam>-Xdoclint:none</additionalparam>

From 61c99a5bc05a7436a468c4420b9b8d30fb0307ea Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 8 Oct 2024 14:21:05 +0900
Subject: [PATCH 26/38] MINOR: [Java] Bump
 com.gradle:develocity-maven-extension from 1.22.1 to 1.22.2 in /java (#44326)

Bumps com.gradle:develocity-maven-extension from 1.22.1 to 1.22.2.

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=com.gradle:develocity-maven-extension&package-manager=maven&previous-version=1.22.1&new-version=1.22.2)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: David Li <li.davidm96@gmail.com>
---
 java/.mvn/extensions.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/java/.mvn/extensions.xml b/java/.mvn/extensions.xml
index ae632dccf0c70..0836fc47d0100 100644
--- a/java/.mvn/extensions.xml
+++ b/java/.mvn/extensions.xml
@@ -23,7 +23,7 @@
     <extension>
         <groupId>com.gradle</groupId>
         <artifactId>develocity-maven-extension</artifactId>
-        <version>1.22.1</version>
+        <version>1.22.2</version>
     </extension>
     <extension>
         <groupId>com.gradle</groupId>

From 64891d1d176dd45f3fae574e1bcfac6fee197e5f Mon Sep 17 00:00:00 2001
From: Rok Mihevc <rok@mihevc.org>
Date: Tue, 8 Oct 2024 12:39:58 +0200
Subject: [PATCH 27/38] GH-44214: [C++] JsonExtensionType equality check
 ignores storage type (#44215)

### Rationale for this change

As noted in https://github.com/apache/arrow/pull/13901#pullrequestreview-2324294761:
```cpp
bool JsonExtensionType::ExtensionEquals(const ExtensionType& other) const {
  return other.extension_name() == this->extension_name();
}
```
> This equality check does not take into account the storage type, but only the name.
> As a consequence, a JsonExtensionType<string> type will be seen as equal to JsonExtensionType<large_string>.

### What changes are included in this PR?

This change introduces storage equality check into `JsonExtensionType` equality check.

This also fixes a storage type check in `JsonExtensionType::Make`.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

No.
* GitHub Issue: #44214

Lead-authored-by: Rok Mihevc <rok@mihevc.org>
Co-authored-by: Antoine Pitrou <pitrou@free.fr>
Signed-off-by: Antoine Pitrou <antoine@python.org>
---
 cpp/src/arrow/extension/json.cc            | 31 +++++++++++++---------
 cpp/src/arrow/extension/json.h             |  4 +++
 cpp/src/arrow/extension/json_test.cc       | 14 ++++++++++
 cpp/src/parquet/arrow/arrow_schema_test.cc | 26 +++++++++++++-----
 cpp/src/parquet/arrow/schema.cc            | 17 +++++++++---
 5 files changed, 70 insertions(+), 22 deletions(-)

diff --git a/cpp/src/arrow/extension/json.cc b/cpp/src/arrow/extension/json.cc
index d793233c2b573..9dc1cfe6a3617 100644
--- a/cpp/src/arrow/extension/json.cc
+++ b/cpp/src/arrow/extension/json.cc
@@ -28,17 +28,13 @@
 namespace arrow::extension {
 
 bool JsonExtensionType::ExtensionEquals(const ExtensionType& other) const {
-  return other.extension_name() == this->extension_name();
+  return other.extension_name() == this->extension_name() &&
+         other.storage_type()->Equals(storage_type_);
 }
 
 Result<std::shared_ptr<DataType>> JsonExtensionType::Deserialize(
     std::shared_ptr<DataType> storage_type, const std::string& serialized) const {
-  if (storage_type->id() != Type::STRING && storage_type->id() != Type::STRING_VIEW &&
-      storage_type->id() != Type::LARGE_STRING) {
-    return Status::Invalid("Invalid storage type for JsonExtensionType: ",
-                           storage_type->ToString());
-  }
-  return std::make_shared<JsonExtensionType>(storage_type);
+  return JsonExtensionType::Make(std::move(storage_type));
 }
 
 std::string JsonExtensionType::Serialize() const { return ""; }
@@ -51,11 +47,22 @@ std::shared_ptr<Array> JsonExtensionType::MakeArray(
   return std::make_shared<ExtensionArray>(data);
 }
 
-std::shared_ptr<DataType> json(const std::shared_ptr<DataType> storage_type) {
-  ARROW_CHECK(storage_type->id() != Type::STRING ||
-              storage_type->id() != Type::STRING_VIEW ||
-              storage_type->id() != Type::LARGE_STRING);
-  return std::make_shared<JsonExtensionType>(storage_type);
+bool JsonExtensionType::IsSupportedStorageType(Type::type type_id) {
+  return type_id == Type::STRING || type_id == Type::STRING_VIEW ||
+         type_id == Type::LARGE_STRING;
+}
+
+Result<std::shared_ptr<DataType>> JsonExtensionType::Make(
+    std::shared_ptr<DataType> storage_type) {
+  if (!IsSupportedStorageType(storage_type->id())) {
+    return Status::Invalid("Invalid storage type for JsonExtensionType: ",
+                           storage_type->ToString());
+  }
+  return std::make_shared<JsonExtensionType>(std::move(storage_type));
+}
+
+std::shared_ptr<DataType> json(std::shared_ptr<DataType> storage_type) {
+  return JsonExtensionType::Make(std::move(storage_type)).ValueOrDie();
 }
 
 }  // namespace arrow::extension
diff --git a/cpp/src/arrow/extension/json.h b/cpp/src/arrow/extension/json.h
index 4793ab2bc9b36..89976c8073fac 100644
--- a/cpp/src/arrow/extension/json.h
+++ b/cpp/src/arrow/extension/json.h
@@ -45,6 +45,10 @@ class ARROW_EXPORT JsonExtensionType : public ExtensionType {
 
   std::shared_ptr<Array> MakeArray(std::shared_ptr<ArrayData> data) const override;
 
+  static Result<std::shared_ptr<DataType>> Make(std::shared_ptr<DataType> storage_type);
+
+  static bool IsSupportedStorageType(Type::type type_id);
+
  private:
   std::shared_ptr<DataType> storage_type_;
 };
diff --git a/cpp/src/arrow/extension/json_test.cc b/cpp/src/arrow/extension/json_test.cc
index 143e4f9ceeac7..b938ddb2cfef3 100644
--- a/cpp/src/arrow/extension/json_test.cc
+++ b/cpp/src/arrow/extension/json_test.cc
@@ -80,4 +80,18 @@ TEST_F(TestJsonExtensionType, InvalidUTF8) {
   }
 }
 
+TEST_F(TestJsonExtensionType, StorageTypeValidation) {
+  ASSERT_TRUE(json(utf8())->Equals(json(utf8())));
+  ASSERT_FALSE(json(large_utf8())->Equals(json(utf8())));
+  ASSERT_FALSE(json(utf8_view())->Equals(json(utf8())));
+  ASSERT_FALSE(json(utf8_view())->Equals(json(large_utf8())));
+
+  for (const auto& storage_type : {int16(), binary(), float64(), null()}) {
+    ASSERT_RAISES_WITH_MESSAGE(Invalid,
+                               "Invalid: Invalid storage type for JsonExtensionType: " +
+                                   storage_type->ToString(),
+                               extension::JsonExtensionType::Make(storage_type));
+  }
+}
+
 }  // namespace arrow
diff --git a/cpp/src/parquet/arrow/arrow_schema_test.cc b/cpp/src/parquet/arrow/arrow_schema_test.cc
index df962badf5c85..d261482d89a5d 100644
--- a/cpp/src/parquet/arrow/arrow_schema_test.cc
+++ b/cpp/src/parquet/arrow/arrow_schema_test.cc
@@ -757,23 +757,35 @@ TEST_F(TestConvertParquetSchema, ParquetSchemaArrowExtensions) {
 
   {
     // Parquet file does not contain Arrow schema.
-    // If Arrow extensions are enabled, both fields should be treated as json() extension
-    // fields.
+    // If Arrow extensions are enabled, fields will be interpreted as json(utf8())
+    // extension fields.
     ArrowReaderProperties props;
     props.set_arrow_extensions_enabled(true);
     auto arrow_schema = ::arrow::schema(
         {::arrow::field("json_1", ::arrow::extension::json(), true),
-         ::arrow::field("json_2", ::arrow::extension::json(::arrow::large_utf8()),
-                        true)});
+         ::arrow::field("json_2", ::arrow::extension::json(::arrow::utf8()), true)});
     std::shared_ptr<KeyValueMetadata> metadata{};
     ASSERT_OK(ConvertSchema(parquet_fields, metadata, props));
     CheckFlatSchema(arrow_schema);
+
+    // If original data was e.g. json(large_utf8()) it will be interpreted as json(utf8())
+    // in absence of Arrow schema.
+    arrow_schema = ::arrow::schema(
+        {::arrow::field("json_1", ::arrow::extension::json(), true),
+         ::arrow::field("json_2", ::arrow::extension::json(::arrow::large_utf8()),
+                        true)});
+    metadata = std::shared_ptr<KeyValueMetadata>{};
+    ASSERT_OK(ConvertSchema(parquet_fields, metadata, props));
+    EXPECT_TRUE(result_schema_->field(1)->type()->Equals(
+        ::arrow::extension::json(::arrow::utf8())));
+    EXPECT_FALSE(
+        result_schema_->field(1)->type()->Equals(arrow_schema->field(1)->type()));
   }
 
   {
     // Parquet file contains Arrow schema.
-    // Both json_1 and json_2 should be returned as a json() field
-    // even though extensions are not enabled.
+    // json_1 and json_2 will be interpreted as json(utf8()) and json(large_utf8())
+    // fields even though extensions are not enabled.
     ArrowReaderProperties props;
     props.set_arrow_extensions_enabled(false);
     std::shared_ptr<KeyValueMetadata> field_metadata =
@@ -791,7 +803,7 @@ TEST_F(TestConvertParquetSchema, ParquetSchemaArrowExtensions) {
 
   {
     // Parquet file contains Arrow schema. Extensions are enabled.
-    // Both json_1 and json_2 should be returned as a json() field
+    // json_1 and json_2 will be interpreted as json(utf8()) and json(large_utf8()).
     ArrowReaderProperties props;
     props.set_arrow_extensions_enabled(true);
     std::shared_ptr<KeyValueMetadata> field_metadata =
diff --git a/cpp/src/parquet/arrow/schema.cc b/cpp/src/parquet/arrow/schema.cc
index 1623d80dcb0e4..0d009c8d4f1e1 100644
--- a/cpp/src/parquet/arrow/schema.cc
+++ b/cpp/src/parquet/arrow/schema.cc
@@ -997,9 +997,8 @@ Result<bool> ApplyOriginalMetadata(const Field& origin_field, SchemaField* infer
     const auto& ex_type = checked_cast<const ::arrow::ExtensionType&>(*origin_type);
     if (inferred_type->id() != ::arrow::Type::EXTENSION &&
         ex_type.extension_name() == std::string("arrow.json") &&
-        (inferred_type->id() == ::arrow::Type::STRING ||
-         inferred_type->id() == ::arrow::Type::LARGE_STRING ||
-         inferred_type->id() == ::arrow::Type::STRING_VIEW)) {
+        ::arrow::extension::JsonExtensionType::IsSupportedStorageType(
+            inferred_type->id())) {
       // Schema mismatch.
       //
       // Arrow extensions are DISABLED in Parquet.
@@ -1009,6 +1008,18 @@ Result<bool> ApplyOriginalMetadata(const Field& origin_field, SchemaField* infer
       // Origin type is restored as Arrow should be considered the source of truth.
       inferred->field = inferred->field->WithType(origin_type);
       RETURN_NOT_OK(ApplyOriginalStorageMetadata(origin_field, inferred));
+    } else if (inferred_type->id() == ::arrow::Type::EXTENSION &&
+               ex_type.extension_name() == std::string("arrow.json")) {
+      // Potential schema mismatch.
+      //
+      // Arrow extensions are ENABLED in Parquet.
+      // origin_type is arrow::extension::json(...)
+      // inferred_type is arrow::extension::json(arrow::utf8())
+      auto origin_storage_field = origin_field.WithType(ex_type.storage_type());
+
+      // Apply metadata recursively to storage type
+      RETURN_NOT_OK(ApplyOriginalStorageMetadata(*origin_storage_field, inferred));
+      inferred->field = inferred->field->WithType(origin_type);
     } else {
       auto origin_storage_field = origin_field.WithType(ex_type.storage_type());
 

From 0707c0495f71418fde19249e7d7be8b0b0f6a5f5 Mon Sep 17 00:00:00 2001
From: Jonathan Keane <jkeane@gmail.com>
Date: Tue, 8 Oct 2024 09:27:42 -0500
Subject: [PATCH 28/38] GH-44114: [R] Add Rocky and opensuse to the allowlist
 for libarrow binaries (#44124)

### Rationale for this change

Add two distros not checked on CRAN to our allow list for easier binary
installs

### What changes are included in this PR?

Added to distro names

### Are these changes tested?

These configurations are tested elsewhere, the real test will come later
if CRAN somehow runs these covertly

### Are there any user-facing changes?

Faster, more reliably installs without intervention
* GitHub Issue: #44114

---------

Co-authored-by: eitsupi <50911393+eitsupi@users.noreply.github.com>
---
 r/tools/nixlibs-allowlist.txt | 2 ++
 r/tools/nixlibs.R             | 4 ++--
 r/tools/test-nixlibs.R        | 7 +++++++
 3 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/r/tools/nixlibs-allowlist.txt b/r/tools/nixlibs-allowlist.txt
index bd9f0c1b2c084..86902023763a2 100644
--- a/r/tools/nixlibs-allowlist.txt
+++ b/r/tools/nixlibs-allowlist.txt
@@ -2,3 +2,5 @@ ubuntu
 centos
 redhat
 rhel
+rocky
+opensuse
diff --git a/r/tools/nixlibs.R b/r/tools/nixlibs.R
index fc79e06328005..ef6c1700b1ad9 100644
--- a/r/tools/nixlibs.R
+++ b/r/tools/nixlibs.R
@@ -221,8 +221,8 @@ check_allowlist <- function(os, allowed = "https://raw.githubusercontent.com/apa
   allowlist <- tryCatch(
     # Try a remote allowlist so that we can add/remove without a release
     suppressWarnings(readLines(allowed)),
-    # Fallback to default: allowed only on Ubuntu and CentOS/RHEL
-    error = function(e) c("ubuntu", "centos", "redhat", "rhel")
+    # Fallback to default allow list shipped with the package
+    error = function(e) readLines("tools/nixlibs-allowlist.txt")
   )
   # allowlist should contain valid regular expressions (plain strings ok too)
   any(grepl(paste(allowlist, collapse = "|"), os))
diff --git a/r/tools/test-nixlibs.R b/r/tools/test-nixlibs.R
index 02e822c3420c8..838b39ac54c73 100644
--- a/r/tools/test-nixlibs.R
+++ b/r/tools/test-nixlibs.R
@@ -147,6 +147,13 @@ test_that("select_binary() with test program", {
 })
 
 test_that("check_allowlist", {
+  # because we read from a file when we can't get the allow list from github,
+  # we need to make sure we are in the same directory as we would be when building
+  # (which is one level higher, so we can find `tools/nixlibs.R`)
+  # TODO: it's possible that we don't want to run this whole file in that directory
+  # like we do currently.
+  withr::local_dir("..")
+
   tf <- tempfile()
   cat("tu$\n^cent\n^dar\n", file = tf)
   expect_true(check_allowlist("ubuntu", tf))

From c50c4fa60d1a8bf6e7a80bccda92da942f122cbf Mon Sep 17 00:00:00 2001
From: Oliver Layer <o.layer@celonis.de>
Date: Tue, 8 Oct 2024 17:42:34 +0200
Subject: [PATCH 29/38] GH-44334: [C++] Fix S3 error handling in
 `ObjectOutputStream` (#44335)

### Rationale for this change

See [#GH-44334](https://github.com/apache/arrow/issues/44334). Errors from the AWS SDK are not correctly propagated onto the user of the `ObjectOutputStream`, not indicating an error even though there was one in some cases.

### What changes are included in this PR?

- Directly pass the outcome of the AWS SDK to `HandleUploadUsingSingleRequestOutcome` aswell as `HandleUploadPartOutcome` instead of wrapping it in a arrow `Result` class which has been constructed implictily, always indicating success.
- Adjust cleanup handling in `Close` so that the output stream is closed if there was an error in any of the called methods. Otherwise, destructing the output stream in debug builds fails as we abort if `Close()` returns something else than `Status::OK()`. See the [code pointer here](https://github.com/apache/arrow/blob/64891d1d176dd45f3fae574e1bcfac6fee197e5f/cpp/src/arrow/io/interfaces.cc#L293).

### Are these changes tested?

- Added assertions for catching exceptions on `Close()` in case `delayed_open` is enabled.

### Are there any user-facing changes?

No.
* GitHub Issue: #44334

Authored-by: Oliver Layer <o.layer@celonis.de>
Signed-off-by: Antoine Pitrou <antoine@python.org>
---
 cpp/src/arrow/filesystem/s3fs.cc      | 48 +++++++++++++--------------
 cpp/src/arrow/filesystem/s3fs_test.cc |  5 ++-
 2 files changed, 28 insertions(+), 25 deletions(-)

diff --git a/cpp/src/arrow/filesystem/s3fs.cc b/cpp/src/arrow/filesystem/s3fs.cc
index 3a0ade3d2e322..13d6ead6ef686 100644
--- a/cpp/src/arrow/filesystem/s3fs.cc
+++ b/cpp/src/arrow/filesystem/s3fs.cc
@@ -1784,15 +1784,23 @@ class ObjectOutputStream final : public io::OutputStream {
     return Status::OK();
   }
 
+  Status CleanupIfFailed(Status status) {
+    if (!status.ok()) {
+      RETURN_NOT_OK(CleanupAfterClose());
+      return status;
+    }
+    return Status::OK();
+  }
+
   Status Close() override {
     if (closed_) return Status::OK();
 
-    RETURN_NOT_OK(EnsureReadyToFlushFromClose());
+    RETURN_NOT_OK(CleanupIfFailed(EnsureReadyToFlushFromClose()));
 
-    RETURN_NOT_OK(Flush());
+    RETURN_NOT_OK(CleanupIfFailed(Flush()));
 
     if (IsMultipartCreated()) {
-      RETURN_NOT_OK(FinishPartUploadAfterFlush());
+      RETURN_NOT_OK(CleanupIfFailed(FinishPartUploadAfterFlush()));
     }
 
     return CleanupAfterClose();
@@ -1801,12 +1809,12 @@ class ObjectOutputStream final : public io::OutputStream {
   Future<> CloseAsync() override {
     if (closed_) return Status::OK();
 
-    RETURN_NOT_OK(EnsureReadyToFlushFromClose());
+    RETURN_NOT_OK(CleanupIfFailed(EnsureReadyToFlushFromClose()));
 
     // Wait for in-progress uploads to finish (if async writes are enabled)
     return FlushAsync().Then([self = Self()]() {
       if (self->IsMultipartCreated()) {
-        RETURN_NOT_OK(self->FinishPartUploadAfterFlush());
+        RETURN_NOT_OK(self->CleanupIfFailed(self->FinishPartUploadAfterFlush()));
       }
       return self->CleanupAfterClose();
     });
@@ -2021,7 +2029,7 @@ class ObjectOutputStream final : public io::OutputStream {
                                     std::shared_ptr<UploadState> state,
                                     int32_t part_number,
                                     Aws::S3::Model::PutObjectOutcome outcome) {
-      HandleUploadUsingSingleRequestOutcome(state, request, outcome.GetResult());
+      HandleUploadUsingSingleRequestOutcome(state, request, outcome);
       return Status::OK();
     };
 
@@ -2072,7 +2080,7 @@ class ObjectOutputStream final : public io::OutputStream {
                                     std::shared_ptr<UploadState> state,
                                     int32_t part_number,
                                     Aws::S3::Model::UploadPartOutcome outcome) {
-      HandleUploadPartOutcome(state, part_number, request, outcome.GetResult());
+      HandleUploadPartOutcome(state, part_number, request, outcome);
       return Status::OK();
     };
 
@@ -2083,16 +2091,12 @@ class ObjectOutputStream final : public io::OutputStream {
 
   static void HandleUploadUsingSingleRequestOutcome(
       const std::shared_ptr<UploadState>& state, const S3Model::PutObjectRequest& req,
-      const Result<S3Model::PutObjectOutcome>& result) {
+      const S3Model::PutObjectOutcome& outcome) {
     std::unique_lock<std::mutex> lock(state->mutex);
-    if (!result.ok()) {
-      state->status &= result.status();
-    } else {
-      const auto& outcome = *result;
-      if (!outcome.IsSuccess()) {
-        state->status &= UploadUsingSingleRequestError(req, outcome);
-      }
+    if (!outcome.IsSuccess()) {
+      state->status &= UploadUsingSingleRequestError(req, outcome);
     }
+
     // GH-41862: avoid potential deadlock if the Future's callback is called
     // with the mutex taken.
     auto fut = state->pending_uploads_completed;
@@ -2103,18 +2107,14 @@ class ObjectOutputStream final : public io::OutputStream {
   static void HandleUploadPartOutcome(const std::shared_ptr<UploadState>& state,
                                       int part_number,
                                       const S3Model::UploadPartRequest& req,
-                                      const Result<S3Model::UploadPartOutcome>& result) {
+                                      const S3Model::UploadPartOutcome& outcome) {
     std::unique_lock<std::mutex> lock(state->mutex);
-    if (!result.ok()) {
-      state->status &= result.status();
+    if (!outcome.IsSuccess()) {
+      state->status &= UploadPartError(req, outcome);
     } else {
-      const auto& outcome = *result;
-      if (!outcome.IsSuccess()) {
-        state->status &= UploadPartError(req, outcome);
-      } else {
-        AddCompletedPart(state, part_number, outcome.GetResult());
-      }
+      AddCompletedPart(state, part_number, outcome.GetResult());
     }
+
     // Notify completion
     if (--state->uploads_in_progress == 0) {
       // GH-41862: avoid potential deadlock if the Future's callback is called
diff --git a/cpp/src/arrow/filesystem/s3fs_test.cc b/cpp/src/arrow/filesystem/s3fs_test.cc
index b8f497d23c9a3..43091aaa986d9 100644
--- a/cpp/src/arrow/filesystem/s3fs_test.cc
+++ b/cpp/src/arrow/filesystem/s3fs_test.cc
@@ -572,7 +572,10 @@ class TestS3FS : public S3TestMixin {
   void TestOpenOutputStream(bool allow_delayed_open) {
     std::shared_ptr<io::OutputStream> stream;
 
-    if (!allow_delayed_open) {
+    if (allow_delayed_open) {
+      ASSERT_OK_AND_ASSIGN(stream, fs_->OpenOutputStream("nonexistent-bucket/somefile"));
+      ASSERT_RAISES(IOError, stream->Close());
+    } else {
       // Nonexistent
       ASSERT_RAISES(IOError, fs_->OpenOutputStream("nonexistent-bucket/somefile"));
     }

From 38c12865ae17b4b4f1c9d5f0789acbf3ca38a243 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Wed, 9 Oct 2024 09:25:44 +0900
Subject: [PATCH 30/38] GH-44337: [CI][GLib] Fix a flaky StreamDecoder and
 Buffer test (#44341)

### Rationale for this change

It's related to GC.

StreamDecoder accepts incomplete data. They are kept until enough data are provided. A caller must not release the incomplete data before they are processed. If they are released, StreamDecoder may touch unexpected data.

### What changes are included in this PR?

Refer unprocessed data until they are processed.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

No.
* GitHub Issue: #44337

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 c_glib/test/test-stream-decoder.rb | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/c_glib/test/test-stream-decoder.rb b/c_glib/test/test-stream-decoder.rb
index 108e687e3aa6b..ef669a61f0eaf 100644
--- a/c_glib/test/test-stream-decoder.rb
+++ b/c_glib/test/test-stream-decoder.rb
@@ -79,8 +79,15 @@ def test_consume_bytes
   end
 
   def test_consume_buffer
+    # We need to keep data that aren't processed yet.
+    data = []
     @buffer.data.to_s.each_byte do |byte|
-      @decoder.consume_buffer(Arrow::Buffer.new(byte.chr))
+      data << byte.chr
+      can_clear = (@decoder.next_required_size == 1)
+      @decoder.consume_buffer(Arrow::Buffer.new(data.last))
+      # We can release a reference for kept data after they are
+      # processed.
+      data.clear if can_clear
     end
     assert_equal([
                    [:schema_decoded, @schema, @schema],

From d4516c5386f84619dfdf2a9f72fed6d7df89704c Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Wed, 9 Oct 2024 10:09:09 +0900
Subject: [PATCH 31/38] GH-44273: [C++][Decimal] Use 0E+1 not 0.E+1 for broader
 compatibility (#44275)

### Rationale for this change

Most environments such as Python, Node.js, PostgreSQL and MySQL accepts `0.E+1` but some environments such as Ruby don't accept `0.E+1`. More environments accept `0.0E+1` or `0E+1` than `0.E+1`.

### What changes are included in this PR?

Use `0E+1` not `0.E+1` for broader compatibility.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

Yes.
* GitHub Issue: #44273

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 cpp/src/arrow/util/decimal.cc                |  9 ++++++++-
 cpp/src/arrow/util/decimal_test.cc           | 14 +++++++-------
 cpp/src/arrow/util/formatting_util_test.cc   | 14 +++++++-------
 ruby/red-arrow/lib/arrow/decimal128-array.rb |  4 +---
 ruby/red-arrow/lib/arrow/decimal256-array.rb |  4 +---
 5 files changed, 24 insertions(+), 21 deletions(-)

diff --git a/cpp/src/arrow/util/decimal.cc b/cpp/src/arrow/util/decimal.cc
index 1cd62184ccbe3..4c454e81b232d 100644
--- a/cpp/src/arrow/util/decimal.cc
+++ b/cpp/src/arrow/util/decimal.cc
@@ -669,7 +669,14 @@ static void AdjustIntegerStringWithScale(int32_t scale, std::string* str) {
     //               adjusted_exponent = -7
     // After inserting decimal point: *str = "-1.23"
     // After appending exponent: *str = "-1.23E-7"
-    str->insert(str->begin() + 1 + is_negative_offset, '.');
+    // Example 3:
+    // Precondition: *str = "0", is_negative_offset = 0, num_digits = 1, scale = -1,
+    //               adjusted_exponent = 1
+    // After inserting decimal point: *str = "0" // Not inserted
+    // After appending exponent: *str = "0E+1"
+    if (num_digits > 1) {
+      str->insert(str->begin() + 1 + is_negative_offset, '.');
+    }
     str->push_back('E');
     if (adjusted_exponent >= 0) {
       str->push_back('+');
diff --git a/cpp/src/arrow/util/decimal_test.cc b/cpp/src/arrow/util/decimal_test.cc
index e2e9e2901957d..d2f8ae3b7aad2 100644
--- a/cpp/src/arrow/util/decimal_test.cc
+++ b/cpp/src/arrow/util/decimal_test.cc
@@ -711,22 +711,22 @@ struct ToStringTestParam {
 };
 
 static const ToStringTestParam kToStringTestData[] = {
-    {0, -1, "0.E+1"},
+    {0, -1, "0E+1"},
     {0, 0, "0"},
     {0, 1, "0.0"},
     {0, 6, "0.000000"},
-    {2, 7, "2.E-7"},
-    {2, -1, "2.E+1"},
+    {2, 7, "2E-7"},
+    {2, -1, "2E+1"},
     {2, 0, "2"},
     {2, 1, "0.2"},
     {2, 6, "0.000002"},
-    {-2, 7, "-2.E-7"},
-    {-2, 7, "-2.E-7"},
-    {-2, -1, "-2.E+1"},
+    {-2, 7, "-2E-7"},
+    {-2, 7, "-2E-7"},
+    {-2, -1, "-2E+1"},
     {-2, 0, "-2"},
     {-2, 1, "-0.2"},
     {-2, 6, "-0.000002"},
-    {-2, 7, "-2.E-7"},
+    {-2, 7, "-2E-7"},
     {123, -3, "1.23E+5"},
     {123, -1, "1.23E+3"},
     {123, 1, "12.3"},
diff --git a/cpp/src/arrow/util/formatting_util_test.cc b/cpp/src/arrow/util/formatting_util_test.cc
index f1846e279aca2..457bb4c88d344 100644
--- a/cpp/src/arrow/util/formatting_util_test.cc
+++ b/cpp/src/arrow/util/formatting_util_test.cc
@@ -318,22 +318,22 @@ void TestDecimalFormatter() {
 
   // Borrow from Decimal::ToString test
   const auto decimalTestData = std::vector<TestParam>{
-      {0, -1, "0.E+1"},
+      {0, -1, "0E+1"},
       {0, 0, "0"},
       {0, 1, "0.0"},
       {0, 6, "0.000000"},
-      {2, 7, "2.E-7"},
-      {2, -1, "2.E+1"},
+      {2, 7, "2E-7"},
+      {2, -1, "2E+1"},
       {2, 0, "2"},
       {2, 1, "0.2"},
       {2, 6, "0.000002"},
-      {-2, 7, "-2.E-7"},
-      {-2, 7, "-2.E-7"},
-      {-2, -1, "-2.E+1"},
+      {-2, 7, "-2E-7"},
+      {-2, 7, "-2E-7"},
+      {-2, -1, "-2E+1"},
       {-2, 0, "-2"},
       {-2, 1, "-0.2"},
       {-2, 6, "-0.000002"},
-      {-2, 7, "-2.E-7"},
+      {-2, 7, "-2E-7"},
       {123, -3, "1.23E+5"},
       {123, -1, "1.23E+3"},
       {123, 1, "12.3"},
diff --git a/ruby/red-arrow/lib/arrow/decimal128-array.rb b/ruby/red-arrow/lib/arrow/decimal128-array.rb
index 528c878a859b5..a5ee53be7b229 100644
--- a/ruby/red-arrow/lib/arrow/decimal128-array.rb
+++ b/ruby/red-arrow/lib/arrow/decimal128-array.rb
@@ -18,9 +18,7 @@
 module Arrow
   class Decimal128Array
     def get_value(i)
-      string = format_value(i)
-      string.sub!(".E", ".0E") if string.include?(".E")
-      BigDecimal(string)
+      BigDecimal(format_value(i))
     end
   end
 end
diff --git a/ruby/red-arrow/lib/arrow/decimal256-array.rb b/ruby/red-arrow/lib/arrow/decimal256-array.rb
index 32841ca4862f5..8c2306dfe3627 100644
--- a/ruby/red-arrow/lib/arrow/decimal256-array.rb
+++ b/ruby/red-arrow/lib/arrow/decimal256-array.rb
@@ -19,9 +19,7 @@ module Arrow
   class Decimal256Array
     # @since 3.0.0
     def get_value(i)
-      string = format_value(i)
-      string.sub!(".E", ".0E") if string.include?(".E")
-      BigDecimal(string)
+      BigDecimal(format_value(i))
     end
   end
 end

From 1c601a573e1e34b87a8e2e64db3c9786f3ca2bcd Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Wed, 9 Oct 2024 05:24:29 -0700
Subject: [PATCH 32/38] MINOR: [C#] Bump System.Text.Json from 8.0.4 to 8.0.5
 in /csharp/test/Apache.Arrow.IntegrationTest (#44343)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [System.Text.Json](https://github.com/dotnet/runtime) from 8.0.4 to 8.0.5.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a href="https://github.com/dotnet/runtime/releases">System.Text.Json's releases</a>.</em></p>
<blockquote>
<h2>.NET 8.0.5</h2>
<p><a href="https://github.com/dotnet/core/releases/tag/v8.0.5">Release</a></p>
<h2>What's Changed</h2>
<ul>
<li>[release/8.0-staging] Fix AsyncVoidMethodBuilder race condition around SynchronizationContext by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99640">dotnet/runtime#99640</a></li>
<li>[release/8.0-staging] Always keep global symbols on ApplePlatforms by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99650">dotnet/runtime#99650</a></li>
<li>[release/8.0-staging] Delete Decrypt_Pkcs1_ErrorsForInvalidPadding by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99653">dotnet/runtime#99653</a></li>
<li>[8.0] Rename MSBuild property MicrosoftNativeQuicMsQuicVersion -&gt; MicrosoftNativeQuicMsQuicSchannelVersion by <a href="https://github.com/carlossanlop"><code>@​carlossanlop</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99714">dotnet/runtime#99714</a></li>
<li>[release/8.0] Fixing SignedXml.CheckSignature for enveloped signature with <code>#xpointer(/)</code> Reference by <a href="https://github.com/bartonjs"><code>@​bartonjs</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99651">dotnet/runtime#99651</a></li>
<li>[release/8.0-staging] disable optimizations for PopCount by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99832">dotnet/runtime#99832</a></li>
<li>[release/8.0-staging] Handle NativeOverlapped* coming from both the Windows or Portable thread pool in NativeRuntimeEventSource by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99656">dotnet/runtime#99656</a></li>
<li>[release/8.0-staging] Fix exporting certificate keys on macOS 14.4. by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99776">dotnet/runtime#99776</a></li>
<li>[release/8.0] Upgrade zlib to 1.3.1 by <a href="https://github.com/carlossanlop"><code>@​carlossanlop</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99473">dotnet/runtime#99473</a></li>
<li>[release/8.0] Fix failing CertificateValidationRemoteServer.ConnectWithRevocation_WithCallback test (<a href="https://redirect.github.com/dotnet/runtime/issues/99915">#99915</a>) by <a href="https://github.com/rzikm"><code>@​rzikm</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99950">dotnet/runtime#99950</a></li>
<li>[mono] Stop exporting ICU symbols from Mono by <a href="https://github.com/matouskozak"><code>@​matouskozak</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99449">dotnet/runtime#99449</a></li>
<li>[release/8.0-staging] Fix AV in HttpTelemetry.WriteEvent by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99607">dotnet/runtime#99607</a></li>
<li>[release/8.0-staging] [HTTP/2] Fix handling of effectively empty DATA frame (<a href="https://redirect.github.com/dotnet/runtime/issues/99502">#99502</a>) by <a href="https://github.com/ManickaP"><code>@​ManickaP</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99677">dotnet/runtime#99677</a></li>
<li>[release/8.0-staging] [HttpStress] [SslStress] Workaround image bug in 1es-windows-2022-open by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100303">dotnet/runtime#100303</a></li>
<li>[release/8.0-staging] Support building against clang 18 by <a href="https://github.com/omajid"><code>@​omajid</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100258">dotnet/runtime#100258</a></li>
<li>[release/8.0][browser] WebSocket works differently depending on if we look up its state or not by <a href="https://github.com/ilonatommy"><code>@​ilonatommy</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99673">dotnet/runtime#99673</a></li>
<li>[release/8.0-staging] Call the Copy Constructor for stack arguments in C++/CLI on x86 by <a href="https://github.com/AaronRobinsonMSFT"><code>@​AaronRobinsonMSFT</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100221">dotnet/runtime#100221</a></li>
<li>[release/8.0] Don't unset ALPN list pointer during ALPN selection callback. by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99670">dotnet/runtime#99670</a></li>
<li>[release/8.0-staging][mono][debugger] Fix inspect Span by <a href="https://github.com/thaystg"><code>@​thaystg</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99844">dotnet/runtime#99844</a></li>
<li>Update branding to 8.0.5 by <a href="https://github.com/vseanreesermsft"><code>@​vseanreesermsft</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100547">dotnet/runtime#100547</a></li>
<li>[release/8.0-staging] Ensure that Sse3.MoveAndDuplicate correctly tracks supporting SIMD scalar loads by <a href="https://github.com/tannergooding"><code>@​tannergooding</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100417">dotnet/runtime#100417</a></li>
<li>[release/8.0] Avoid allocating collectible instances in the frozen heap (<a href="https://redirect.github.com/dotnet/runtime/issues/100444">#100444</a>) by <a href="https://github.com/jkotas"><code>@​jkotas</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100509">dotnet/runtime#100509</a></li>
<li>[release/8.0-staging] Use clang --version to get Apple toolset version by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100199">dotnet/runtime#100199</a></li>
<li>[release/8.0-staging] Azure Linux 3.0 deps package by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100684">dotnet/runtime#100684</a></li>
<li>[release/8.0-staging] Fix Http2 deadlock by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100086">dotnet/runtime#100086</a></li>
<li>Merging internal commits for release/8.0 by <a href="https://github.com/vseanreesermsft"><code>@​vseanreesermsft</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100835">dotnet/runtime#100835</a></li>
<li>[release/8.0-staging] Update CI builds to not use VS Previews by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100622">dotnet/runtime#100622</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/hotreload-utils by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100892">dotnet/runtime#100892</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/runtime-assets by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100073">dotnet/runtime#100073</a></li>
<li>[automated] Merge branch 'release/8.0' =&gt; 'release/8.0-staging' by <a href="https://github.com/dotnet-maestro-bot"><code>@​dotnet-maestro-bot</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99585">dotnet/runtime#99585</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/source-build-externals by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99601">dotnet/runtime#99601</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/xharness by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100883">dotnet/runtime#100883</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/source-build-reference-packages by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99902">dotnet/runtime#99902</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/source-build-externals by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100015">dotnet/runtime#100015</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/runtime-assets by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100958">dotnet/runtime#100958</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/arcade by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100885">dotnet/runtime#100885</a></li>
<li>[release/8.0-staging] Fix native leak in CryptoNative_GetX509nameInfo by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100793">dotnet/runtime#100793</a></li>
<li>[release/8.0-staging] Update dependencies from dotnet/emsdk by <a href="https://github.com/dotnet-maestro"><code>@​dotnet-maestro</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99696">dotnet/runtime#99696</a></li>
<li>[release/8.0-staging] [mono][debugger] Search for seqpoints directly from jitinfo if it's not find on get_default_jit_mm by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100978">dotnet/runtime#100978</a></li>
<li>[release/8.0][browser] fix emscripten out/err overrides by <a href="https://github.com/pavelsavara"><code>@​pavelsavara</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100818">dotnet/runtime#100818</a></li>
<li>[release/8.0-staging] [mono][eventpipe] Fix firing dynamic method wrappers crash by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99712">dotnet/runtime#99712</a></li>
<li>Update Alpine versions for <code>release/8.0-staging</code> by <a href="https://github.com/richlander"><code>@​richlander</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99849">dotnet/runtime#99849</a></li>
<li>[release/8.0-staging] Guard against -1 Returned from sysconf for the Cache Sizes Causing Large Gen0 Sizes and Budgets for Certain Linux Distributions. by <a href="https://github.com/github-actions"><code>@​github-actions</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100575">dotnet/runtime#100575</a></li>
<li>[Release/8.0] Remove preventing EH at shutdown by <a href="https://github.com/janvorli"><code>@​janvorli</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100836">dotnet/runtime#100836</a></li>
<li>[release/8.8] Add metadata for workload automation by <a href="https://github.com/joeloff"><code>@​joeloff</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/100649">dotnet/runtime#100649</a></li>
<li>[8.0] Reset OOB packages enabled in the April release by <a href="https://github.com/carlossanlop"><code>@​carlossanlop</code></a> in <a href="https://redirect.github.com/dotnet/runtime/pull/99583">dotnet/runtime#99583</a></li>
</ul>

</blockquote>
<p>... (truncated)</p>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a href="https://github.com/dotnet/runtime/commit/087e15321bb712ef6fe8b0ba6f8bd12facf92629"><code>087e153</code></a> Merge in 'release/8.0' changes</li>
<li><a href="https://github.com/dotnet/runtime/commit/ca4f0fe37455882baa00c75b1ef30a7ff1494457"><code>ca4f0fe</code></a> [release/8.0] Update MicrosoftBuildVersion to latest (<a href="https://redirect.github.com/dotnet/runtime/issues/100595">#100595</a>) (<a href="https://redirect.github.com/dotnet/runtime/issues/101145">#101145</a>)</li>
<li><a href="https://github.com/dotnet/runtime/commit/dfd075b97471bd97ea70066a299d1fe92af90352"><code>dfd075b</code></a> Merge in 'release/8.0' changes</li>
<li><a href="https://github.com/dotnet/runtime/commit/b55fd6fcea3be63f8c2fb6addba63cbfcde01a8f"><code>b55fd6f</code></a> Merge pull request <a href="https://redirect.github.com/dotnet/runtime/issues/101091">#101091</a> from directhex/release/8.0-staging</li>
<li><a href="https://github.com/dotnet/runtime/commit/befe7adc9b6f4eed32c95e78cdca9c23e0369e81"><code>befe7ad</code></a> Merge branch 'release/8.0' into release/8.0-staging</li>
<li><a href="https://github.com/dotnet/runtime/commit/aa7c7ff6cf1d4e8f4b5dd750ded601f379e1c9b2"><code>aa7c7ff</code></a> [release/8.0-staging] JIT: Fixed incorrect reversed condition for GT (<a href="https://redirect.github.com/dotnet/runtime/issues/100372">#100372</a>)</li>
<li><a href="https://github.com/dotnet/runtime/commit/88be910936b852ede1a5e50c2962ddf9ed6f5331"><code>88be910</code></a> Always zero-init if object contains pointers (<a href="https://redirect.github.com/dotnet/runtime/issues/100265">#100265</a>) (<a href="https://redirect.github.com/dotnet/runtime/issues/100426">#100426</a>)</li>
<li><a href="https://github.com/dotnet/runtime/commit/2d7642d0514dc0d391ee41ff924de1e7870ce7ab"><code>2d7642d</code></a> System.Diagnostics.DiagnosticSource (<a href="https://redirect.github.com/dotnet/runtime/issues/99583">#99583</a>)</li>
<li><a href="https://github.com/dotnet/runtime/commit/3c5a0af402aee0f9e71d38dee9f0c0f1763b8331"><code>3c5a0af</code></a> Add workload metadata (<a href="https://redirect.github.com/dotnet/runtime/issues/100649">#100649</a>)</li>
<li><a href="https://github.com/dotnet/runtime/commit/a494d22d2b50bf7811549ac26ee459aed0af6c4f"><code>a494d22</code></a> [Release/8.0] Remove preventing EH at shutdown (<a href="https://redirect.github.com/dotnet/runtime/issues/100836">#100836</a>)</li>
<li>Additional commits viewable in <a href="https://github.com/dotnet/runtime/compare/v8.0.4...v8.0.5">compare view</a></li>
</ul>
</details>
<br />

[![Dependabot compatibility score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=System.Text.Json&package-manager=nuget&previous-version=8.0.4&new-version=8.0.5)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't alter it yourself. You can also trigger a rebase manually by commenting `@ dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@ dependabot rebase` will rebase this PR
- `@ dependabot recreate` will recreate this PR, overwriting any edits that have been made to it
- `@ dependabot merge` will merge this PR after your CI passes on it
- `@ dependabot squash and merge` will squash and merge this PR after your CI passes on it
- `@ dependabot cancel merge` will cancel a previously requested merge and block automerging
- `@ dependabot reopen` will reopen this PR if it is closed
- `@ dependabot close` will close this PR and stop Dependabot recreating it. You can achieve the same result by closing it manually
- `@ dependabot show <dependency name> ignore conditions` will show all of the ignore conditions of the specified dependency
- `@ dependabot ignore this major version` will close this PR and stop Dependabot creating any more for this major version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this minor version` will close this PR and stop Dependabot creating any more for this minor version (unless you reopen the PR or upgrade to it yourself)
- `@ dependabot ignore this dependency` will close this PR and stop Dependabot creating any more for this dependency (unless you reopen the PR or upgrade to it yourself)
You can disable automated security fix PRs for this repo from the [Security Alerts page](https://github.com/apache/arrow/network/alerts).

</details>

Authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Signed-off-by: Curt Hagenlocher <curt@hagenlocher.org>
---
 .../Apache.Arrow.IntegrationTest.csproj                         | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csharp/test/Apache.Arrow.IntegrationTest/Apache.Arrow.IntegrationTest.csproj b/csharp/test/Apache.Arrow.IntegrationTest/Apache.Arrow.IntegrationTest.csproj
index 21f06e3008774..2445151965ddd 100644
--- a/csharp/test/Apache.Arrow.IntegrationTest/Apache.Arrow.IntegrationTest.csproj
+++ b/csharp/test/Apache.Arrow.IntegrationTest/Apache.Arrow.IntegrationTest.csproj
@@ -9,7 +9,7 @@
 
   <ItemGroup>
     <PackageReference Include="System.CommandLine" Version="2.0.0-beta1.21216.1" />
-    <PackageReference Include="System.Text.Json" Version="8.0.4" />
+    <PackageReference Include="System.Text.Json" Version="8.0.5" />
     <ProjectReference Include="..\..\src\Apache.Arrow.Compression\Apache.Arrow.Compression.csproj" />
     <ProjectReference Include="..\..\src\Apache.Arrow\Apache.Arrow.csproj" />
     <ProjectReference Include="..\Apache.Arrow.Tests\Apache.Arrow.Tests.csproj" />

From 33a4d67776eee53205b7b4e51edc50c0b68c6187 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Thu, 10 Oct 2024 08:00:21 +0900
Subject: [PATCH 33/38] GH-44358: [Packaging][Debian] Add workaround for CUDA
 include path (#44359)

### Rationale for this change

This is not happen on Debian GNU/Linux stable and unstable. This is happen only on Debian GNU/Linux testing. So this may be a temporary problem.

### What changes are included in this PR?

Create a non-existent path manually as a workaround.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

Yes.
* GitHub Issue: #44358

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 .../linux-packages/apache-arrow/apt/debian-trixie/Dockerfile | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/dev/tasks/linux-packages/apache-arrow/apt/debian-trixie/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/debian-trixie/Dockerfile
index c6a09da2dfd5c..257d005656657 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/debian-trixie/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/debian-trixie/Dockerfile
@@ -82,6 +82,9 @@ RUN \
     valac \
     zlib1g-dev && \
   if apt list | grep '^nvidia-cuda-toolkit/'; then \
-    apt install -y -V ${quiet} nvidia-cuda-toolkit; \
+    apt install -y -V ${quiet} nvidia-cuda-toolkit && \
+    # GH-44358: Workaround for non-existent path error
+    mkdir -p \
+      /usr/lib/nvidia-cuda-toolkit/include/$(dpkg-architecture -qDEB_HOST_MULTIARCH); \
   fi && \
   apt clean

From dfa2d9fddedc09d85eefa41434f568b6e3264b28 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Thu, 10 Oct 2024 11:48:43 +0900
Subject: [PATCH 34/38] GH-44347: [Packaging][C++] Enable Azure file system for
 deb/rpm (#44348)

### Rationale for this change

Other file systems such as GCS file system and S3 file system are enabled.

### What changes are included in this PR?

Enabled Azure file system.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

Yes.
* GitHub Issue: #44347

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 dev/tasks/linux-packages/apache-arrow/debian/rules        | 8 ++++++++
 .../apache-arrow/yum/almalinux-8/Dockerfile               | 1 +
 .../apache-arrow/yum/almalinux-9/Dockerfile               | 1 +
 .../apache-arrow/yum/amazon-linux-2023/Dockerfile         | 1 +
 dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in   | 7 +++++++
 .../linux-packages/apache-arrow/yum/centos-7/Dockerfile   | 1 +
 .../apache-arrow/yum/centos-8-stream/Dockerfile           | 1 +
 .../apache-arrow/yum/centos-9-stream/Dockerfile           | 1 +
 8 files changed, 21 insertions(+)

diff --git a/dev/tasks/linux-packages/apache-arrow/debian/rules b/dev/tasks/linux-packages/apache-arrow/debian/rules
index 40877f44dbe66..9f0446801592d 100755
--- a/dev/tasks/linux-packages/apache-arrow/debian/rules
+++ b/dev/tasks/linux-packages/apache-arrow/debian/rules
@@ -14,6 +14,13 @@ BUILD_TYPE=release
 	dh $@ --with gir
 
 override_dh_auto_configure:
+	code_name="$$(. /etc/os-release &&			\
+                        echo $${VERSION_CODENAME})";		\
+	if [ "$${code_name}" = "focal" ]; then			\
+	  ARROW_AZURE=OFF;					\
+	else							\
+	  ARROW_AZURE=ON;					\
+	fi;							\
 	if dpkg -l nvidia-cuda-toolkit > /dev/null 2>&1; then	\
 	  ARROW_CUDA=ON;					\
 	else							\
@@ -24,6 +31,7 @@ override_dh_auto_configure:
 	  --builddirectory=cpp_build				\
 	  --buildsystem=cmake+ninja				\
 	  --							\
+	  -DARROW_AZURE=$${ARROW_AZURE}				\
 	  -DARROW_BUILD_UTILITIES=ON				\
 	  -DARROW_COMPUTE=ON					\
 	  -DARROW_CSV=ON					\
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
index d846915ab21de..6fefd0fe392d0 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
@@ -41,6 +41,7 @@ RUN \
     gobject-introspection-devel \
     json-devel \
     libarchive \
+    libxml2-devel \
     libzstd-devel \
     llvm-devel \
     llvm-static \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
index 222ab1b58d34d..45b86dcdfaa72 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
@@ -43,6 +43,7 @@ RUN \
     gobject-introspection-devel \
     json-devel \
     libarchive \
+    libxml2-devel \
     libzstd-devel \
     llvm-devel \
     llvm-static \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/amazon-linux-2023/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/amazon-linux-2023/Dockerfile
index 7f0f3e90a363a..a19641f8f961d 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/amazon-linux-2023/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/amazon-linux-2023/Dockerfile
@@ -38,6 +38,7 @@ RUN \
     gobject-introspection-devel \
     grpc-devel \
     grpc-plugins \
+    libxml2-devel \
     libzstd-devel \
     llvm-devel \
     lz4-devel \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in b/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
index f588bb3f1ab5a..9814843ab7810 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
+++ b/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
@@ -63,6 +63,7 @@
 %define gcc_package gcc
 %endif
 
+%define use_azure (%{_rhel} >= 8 || %{_amzn} >= 2023)
 %define use_bundled_nlohmann_json (%{_rhel} == 8)
 %define use_flight (%{_rhel} >= 8 || %{_amzn} >= 2023)
 %define use_gandiva (%{_rhel} >= 8 || %{_amzn} >= 2023)
@@ -121,6 +122,9 @@ BuildRequires:	grpc-plugins
 %if %{use_gcs} && !%{use_bundled_nlohmann_json}
 BuildRequires:	json-devel
 %endif
+%if %{use_azure}
+BuildRequires:	libxml2-devel
+%endif
 BuildRequires:	libzstd-devel
 BuildRequires:	lz4-devel %{lz4_requirement}
 BuildRequires:	ninja-build
@@ -161,6 +165,9 @@ Apache Arrow is a data processing library for analysis.
 cpp_build_type=release
 cd cpp
 %arrow_cmake \
+%if %{use_azure}
+  -DARROW_AZURE=ON \
+%endif
   -DARROW_BUILD_UTILITIES=ON \
   -DARROW_CSV=ON \
   -DARROW_DATASET=ON \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
index e834e17a4bb30..b10c40937d32a 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
@@ -58,6 +58,7 @@ RUN \
     glog-devel \
     gobject-introspection-devel \
     json-devel \
+    libxml2-devel \
     libzstd-devel \
     lz4-devel \
     ninja-build \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
index ce0a26a0e46bb..2730fd58ccd0b 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
@@ -49,6 +49,7 @@ RUN \
     gobject-introspection-devel \
     json-devel \
     libarchive \
+    libxml2-devel \
     libzstd-devel \
     llvm-devel \
     llvm-static \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
index 9522d999af5b7..d436ed6a94747 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
@@ -40,6 +40,7 @@ RUN \
     gobject-introspection-devel \
     json-devel \
     libarchive \
+    libxml2-devel \
     libzstd-devel \
     llvm-devel \
     lz4-devel \

From 756c864b5ef5b5fe3c4f69b38c58139876a8e866 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Thu, 10 Oct 2024 11:50:16 +0900
Subject: [PATCH 35/38] GH-44355: [Packaging][Python] Disable interactive deb
 configuration in wheel-manylinux-*-cp313t-* (#44362)

### Rationale for this change

If interactive deb configuration is used, CI is blocked by waiting an user input.

### What changes are included in this PR?

Disable interactive deb configuration.

### Are these changes tested?

Yes.

### Are there any user-facing changes?

No.
* GitHub Issue: #44355

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 ...python-free-threaded-wheel-manylinux-test-imports.dockerfile | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/ci/docker/python-free-threaded-wheel-manylinux-test-imports.dockerfile b/ci/docker/python-free-threaded-wheel-manylinux-test-imports.dockerfile
index 09530560e4f20..c884611ca398f 100644
--- a/ci/docker/python-free-threaded-wheel-manylinux-test-imports.dockerfile
+++ b/ci/docker/python-free-threaded-wheel-manylinux-test-imports.dockerfile
@@ -18,6 +18,8 @@
 ARG base
 FROM ${base}
 
+ENV DEBIAN_FRONTEND=noninteractive
+
 RUN apt-get update -y -q && \
     apt install -y -q --no-install-recommends software-properties-common gpg-agent && \
     add-apt-repository -y ppa:deadsnakes/ppa && \

From 35f26c017b16dbb7871b421b648665712da9f3b2 Mon Sep 17 00:00:00 2001
From: Timo <mail@geniustimo.de>
Date: Thu, 10 Oct 2024 07:10:51 +0200
Subject: [PATCH 36/38] MINOR: [Docs] Update URL to Go libraries in README.md
 (#44354)

### Rationale for this change
Adapt the documentation to the new url to reflect the change made in #44293 (moving the Go libraries to a separate repository)

### What changes are included in this PR?
I updated the url to the Go libraries in the README.md file

### Are these changes tested?
N/A

### Are there any user-facing changes?
N/A

Authored-by: GeniusTimo <mail@geniustimo.de>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/README.md b/README.md
index 664ada289bd4d..7c31c91a5198a 100644
--- a/README.md
+++ b/README.md
@@ -43,7 +43,7 @@ Major components of the project include:
  - [C# .NET libraries](https://github.com/apache/arrow/tree/main/csharp)
  - [Gandiva](https://github.com/apache/arrow/tree/main/cpp/src/gandiva):
    an [LLVM](https://llvm.org)-based Arrow expression compiler, part of the C++ codebase
- - [Go libraries](https://github.com/apache/arrow/tree/main/go)
+ - [Go libraries](https://github.com/apache/arrow-go)
  - [Java libraries](https://github.com/apache/arrow/tree/main/java)
  - [JavaScript libraries](https://github.com/apache/arrow/tree/main/js)
  - [Python libraries](https://github.com/apache/arrow/tree/main/python)

From 34ce119e337a6caccaafc3f52d31de8a7209cde3 Mon Sep 17 00:00:00 2001
From: Sutou Kouhei <kou@clear-code.com>
Date: Thu, 10 Oct 2024 15:00:30 +0900
Subject: [PATCH 37/38] GH-35589: [Ruby] Add support or JRuby (#44346)

### Rationale for this change

JRuby is a Ruby implementation. It's based on Java. We have the Java implementation. So we can use it for JRuby.

### What changes are included in this PR?

This is not a complete support. This just can create int8 and int32 arrays by using the Java implementation not the C++ implementation. We can improve this step by step.

Note that we can build gem for JRuby but we'll not release it for now. We need to build our gems as artifacts by CI in release process and publish approved gems after release vote. If we use the current "gem build && gem push" for JRuby gems, we need JRuby on release. It's not desired because it increases release complexity.

### Are these changes tested?

Yes but only a few tests are only passed for now.

### Are there any user-facing changes?

Yes.
* GitHub Issue: #35589

Authored-by: Sutou Kouhei <kou@clear-code.com>
Signed-off-by: Sutou Kouhei <kou@clear-code.com>
---
 c_glib/arrow-glib/array-builder.cpp           |   2 +-
 c_glib/arrow-glib/array-builder.h             |   2 +-
 ruby/red-arrow/lib/arrow.rb                   |   9 +-
 ruby/red-arrow/lib/arrow/array.rb             |  11 +-
 ruby/red-arrow/lib/arrow/jruby.rb             |  52 ++++++++
 .../lib/arrow/jruby/array-builder.rb          | 114 ++++++++++++++++
 ruby/red-arrow/lib/arrow/jruby/array.rb       | 109 +++++++++++++++
 .../lib/arrow/jruby/chunked-array.rb          |  36 +++++
 .../lib/arrow/jruby/compression-type.rb       |  26 ++++
 .../lib/arrow/jruby/csv-read-options.rb       |  32 +++++
 ruby/red-arrow/lib/arrow/jruby/data-type.rb   |  48 +++++++
 ruby/red-arrow/lib/arrow/jruby/decimal128.rb  |  28 ++++
 ruby/red-arrow/lib/arrow/jruby/decimal256.rb  |  28 ++++
 ruby/red-arrow/lib/arrow/jruby/error.rb       |  23 ++++
 ruby/red-arrow/lib/arrow/jruby/file-system.rb |  24 ++++
 ruby/red-arrow/lib/arrow/jruby/function.rb    |  24 ++++
 .../lib/arrow/jruby/record-batch-iterator.rb  |  24 ++++
 .../red-arrow/lib/arrow/jruby/record-batch.rb |  24 ++++
 ruby/red-arrow/lib/arrow/jruby/sort-key.rb    |  24 ++++
 .../red-arrow/lib/arrow/jruby/sort-options.rb |  24 ++++
 .../lib/arrow/jruby/stream-listener-raw.rb    |  25 ++++
 ruby/red-arrow/lib/arrow/jruby/table.rb       |  40 ++++++
 ruby/red-arrow/lib/arrow/jruby/writable.rb    |  24 ++++
 ruby/red-arrow/lib/arrow/libraries.rb         | 126 ++++++++++++++++++
 ruby/red-arrow/lib/arrow/loader.rb            | 114 +---------------
 ruby/red-arrow/lib/arrow/ruby.rb              |  22 +++
 ruby/red-arrow/red-arrow.gemspec              |  21 ++-
 ruby/red-arrow/test/run-test.rb               |   2 +-
 28 files changed, 907 insertions(+), 131 deletions(-)
 create mode 100644 ruby/red-arrow/lib/arrow/jruby.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/array-builder.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/array.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/chunked-array.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/compression-type.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/csv-read-options.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/data-type.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/decimal128.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/decimal256.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/error.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/file-system.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/function.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/record-batch-iterator.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/record-batch.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/sort-key.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/sort-options.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/stream-listener-raw.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/table.rb
 create mode 100644 ruby/red-arrow/lib/arrow/jruby/writable.rb
 create mode 100644 ruby/red-arrow/lib/arrow/libraries.rb
 create mode 100644 ruby/red-arrow/lib/arrow/ruby.rb

diff --git a/c_glib/arrow-glib/array-builder.cpp b/c_glib/arrow-glib/array-builder.cpp
index 9b7c608ca8a5b..1897562e13286 100644
--- a/c_glib/arrow-glib/array-builder.cpp
+++ b/c_glib/arrow-glib/array-builder.cpp
@@ -6320,7 +6320,7 @@ garrow_union_array_builder_class_init(GArrowUnionArrayBuilderClass *klass)
  * garrow_union_array_builder_append_child:
  * @builder: A #GArrowUnionArrayBuilder.
  * @child: A #GArrowArrayBuilder for new child.
- * @filed_name: (nullable): A field name for new child.
+ * @field_name: (nullable): A field name for new child.
  *
  * Returns: The type ID for the appended child.
  *
diff --git a/c_glib/arrow-glib/array-builder.h b/c_glib/arrow-glib/array-builder.h
index 6a0d0154833a7..da9e8748ee387 100644
--- a/c_glib/arrow-glib/array-builder.h
+++ b/c_glib/arrow-glib/array-builder.h
@@ -1820,7 +1820,7 @@ GARROW_AVAILABLE_IN_12_0
 gint8
 garrow_union_array_builder_append_child(GArrowUnionArrayBuilder *builder,
                                         GArrowArrayBuilder *child,
-                                        const gchar *filed_name);
+                                        const gchar *field_name);
 
 GARROW_AVAILABLE_IN_12_0
 gboolean
diff --git a/ruby/red-arrow/lib/arrow.rb b/ruby/red-arrow/lib/arrow.rb
index 8fbc537bc2088..4cfd570d16091 100644
--- a/ruby/red-arrow/lib/arrow.rb
+++ b/ruby/red-arrow/lib/arrow.rb
@@ -15,16 +15,11 @@
 # specific language governing permissions and limitations
 # under the License.
 
-require "extpp/setup"
-require "gio2"
-
 require "arrow/version"
 
-require "arrow/loader"
-
 module Arrow
   class Error < StandardError
   end
-
-  Loader.load
 end
+
+require_relative "arrow/#{RUBY_ENGINE}"
diff --git a/ruby/red-arrow/lib/arrow/array.rb b/ruby/red-arrow/lib/arrow/array.rb
index 2c5e5cf2754eb..7bdbbeaec4e5a 100644
--- a/ruby/red-arrow/lib/arrow/array.rb
+++ b/ruby/red-arrow/lib/arrow/array.rb
@@ -33,9 +33,10 @@ def new(*args)
       end
 
       def builder_class
-        builder_class_name = "#{name}Builder"
-        return nil unless const_defined?(builder_class_name)
-        const_get(builder_class_name)
+        local_name = name.split("::").last
+        builder_class_name = "#{local_name}Builder"
+        return nil unless Arrow.const_defined?(builder_class_name)
+        Arrow.const_get(builder_class_name)
       end
 
       # @api private
@@ -92,6 +93,8 @@ def equal_array?(other, options=nil)
       equal_options(other, options)
     end
 
+    alias_method :size, :length
+
     def each
       return to_enum(__method__) unless block_given?
 
@@ -250,7 +253,7 @@ def resolve(other_array)
             "[array][resolve] need to implement " +
             "a feature that building #{value_data_type} array " +
             "from raw Ruby Array"
-          raise NotImplemented, message
+          raise NotImplementedError, message
         end
         other_array
       elsif other_array.respond_to?(:value_data_type)
diff --git a/ruby/red-arrow/lib/arrow/jruby.rb b/ruby/red-arrow/lib/arrow/jruby.rb
new file mode 100644
index 0000000000000..685f6631bb284
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby.rb
@@ -0,0 +1,52 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+if File.exist?("../red-arrow_jars")
+  # installed gems
+  require_relative "../red-arrow_jars"
+else
+  # local development
+  require "red-arrow_jars"
+end
+
+module Arrow
+  class << self
+    def allocator
+      @allocator ||= org.apache.arrow.memory.RootAllocator.new
+    end
+  end
+end
+
+require_relative "jruby/array"
+require_relative "jruby/array-builder"
+require_relative "jruby/chunked-array"
+require_relative "jruby/compression-type"
+require_relative "jruby/csv-read-options"
+require_relative "jruby/decimal128"
+require_relative "jruby/decimal256"
+require_relative "jruby/error"
+require_relative "jruby/file-system"
+require_relative "jruby/function"
+require_relative "jruby/record-batch"
+require_relative "jruby/record-batch-iterator"
+require_relative "jruby/sort-key"
+require_relative "jruby/sort-options"
+require_relative "jruby/stream-listener-raw"
+require_relative "jruby/table"
+require_relative "jruby/writable"
+
+require_relative "libraries"
diff --git a/ruby/red-arrow/lib/arrow/jruby/array-builder.rb b/ruby/red-arrow/lib/arrow/jruby/array-builder.rb
new file mode 100644
index 0000000000000..99f605260e95b
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/array-builder.rb
@@ -0,0 +1,114 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+require_relative "array"
+
+module Arrow
+  module ArrayBuildable
+    ValueVector = org.apache.arrow.vector.ValueVector
+    def buildable?(args)
+      return false if args.size == 1 and args.first.is_a?(ValueVector)
+      super
+    end
+  end
+
+  class ArrayBuilder
+    class << self
+      prepend ArrayBuildable
+    end
+
+    def initialize
+      @vector = self.class::Array::Vector.new("", Arrow.allocator)
+      @vector.allocate_new
+      @index = 0
+    end
+
+    def append_value(value)
+      @vector.set(@index, value)
+      @index += 1
+    end
+
+    def append_values(values, is_valids=nil)
+      if is_valids
+        values.zip(is_valids) do |value, is_valid|
+          if is_valid
+            @vector.set(@index, value)
+          else
+            @vector.set_null(@index)
+          end
+          @index += 1
+        end
+      else
+        values.each do |value|
+          @vector.set(@index, value)
+          @index += 1
+        end
+      end
+    end
+
+    def append_nulls(n)
+      n.times do
+        @vector.set_null(@index)
+        @index += 1
+      end
+    end
+
+    def finish
+      @vector.set_value_count(@index)
+      vector, @vector = @vector, nil
+      self.class::Array.new(vector)
+    end
+  end
+
+  class Int8ArrayBuilder < ArrayBuilder
+    Array = Int8Array
+  end
+
+  class Int32ArrayBuilder < ArrayBuilder
+    Array = Int32Array
+  end
+
+  class FixedSizeBinaryArrayBuilder < ArrayBuilder
+  end
+
+  class Decimal128ArrayBuilder < FixedSizeBinaryArrayBuilder
+  end
+
+  class Decimal256ArrayBuilder < FixedSizeBinaryArrayBuilder
+  end
+
+  class ListArrayBuilder < ArrayBuilder
+  end
+
+  class MapArrayBuilder < ArrayBuilder
+  end
+
+  class StructArrayBuilder < ArrayBuilder
+  end
+
+  class UnionArrayBuilder < ArrayBuilder
+    def append_child(child, filed_name)
+      raise NotImplementedError
+    end
+  end
+
+  class DenseUnionArrayBuilder < UnionArrayBuilder
+  end
+
+  class SparseUnionArrayBuilder < UnionArrayBuilder
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/array.rb b/ruby/red-arrow/lib/arrow/jruby/array.rb
new file mode 100644
index 0000000000000..90135a4297681
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/array.rb
@@ -0,0 +1,109 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+require_relative "data-type"
+
+module Arrow
+  class Array
+    VectorAppender = org.apache.arrow.vector.util.VectorAppender
+    VectorEqualsVisitor = org.apache.arrow.vector.compare.VectorEqualsVisitor
+
+    attr_reader :vector
+
+    def initialize(vector)
+      @vector = vector
+    end
+
+    def ==(other_array)
+      return false unless other_array.is_a?(self.class)
+      VectorEqualsVisitor.vector_equals(@vector, other_array.vector)
+    end
+
+    def null?(i)
+      @vector.null?(i)
+    end
+
+    def get_value(i)
+      @vector.get_object(i)
+    end
+
+    def to_s
+      @vector.to_s
+    end
+
+    def inspect
+      super.sub(/>\z/) do
+        " #{to_s}>"
+      end
+    end
+
+    def close
+      @vector.close
+    end
+
+    def length
+      @vector.value_count
+    end
+
+    def value_data_type
+      self.class::ValueDataType.new
+    end
+
+    def values
+      each.to_a
+    end
+
+    def cast(other_value_data_type)
+      other_value_data_type.build_array(to_a)
+    end
+
+    def is_in(values)
+      raise NotImplementedError
+    end
+
+    def concatenate(other_arrays)
+      total_size = length + other_arrays.sum(&:length)
+      vector = self.class::Vector.new("", Arrow.allocator)
+      vector.allocate_new(total_size)
+      appender = VectorAppender.new(vector)
+      @vector.accept(appender, nil)
+      other_arrays.each do |other_array|
+        other_array.vector.accept(appender, nil)
+      end
+      self.class.new(vector)
+    end
+  end
+
+  class Int8Array < Array
+    Vector = org.apache.arrow.vector.SmallIntVector
+    ValueDataType = Int8DataType
+  end
+
+  class Int32Array < Array
+    Vector = org.apache.arrow.vector.IntVector
+    ValueDataType = Int32DataType
+  end
+
+  class FixedSizeBinaryArray < Array
+  end
+
+  class StructArray < Array
+    def fields
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/chunked-array.rb b/ruby/red-arrow/lib/arrow/jruby/chunked-array.rb
new file mode 100644
index 0000000000000..3f08fc3caa83c
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/chunked-array.rb
@@ -0,0 +1,36 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class ChunkedArray
+    def initialize(arrays)
+      @arrays = arrays
+    end
+
+    def n_rows
+      @arrays.sum(&:size)
+    end
+
+    def chunks
+      @arrays
+    end
+
+    def get_chunk(i)
+      @arrays[i]
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/compression-type.rb b/ruby/red-arrow/lib/arrow/jruby/compression-type.rb
new file mode 100644
index 0000000000000..90ed7f12c2aea
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/compression-type.rb
@@ -0,0 +1,26 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class CompressionType
+    class << self
+      def values
+        []
+      end
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/csv-read-options.rb b/ruby/red-arrow/lib/arrow/jruby/csv-read-options.rb
new file mode 100644
index 0000000000000..6aeb62c3fd509
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/csv-read-options.rb
@@ -0,0 +1,32 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class CSVReadOptions
+    def add_column_type(name, type)
+      raise NotImplementedError
+    end
+
+    def delimiter
+      raise NotImplementedError
+    end
+
+    def delimiter=(delimiter)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/data-type.rb b/ruby/red-arrow/lib/arrow/jruby/data-type.rb
new file mode 100644
index 0000000000000..861e3b7dc35ba
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/data-type.rb
@@ -0,0 +1,48 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class DataType
+    def initialize
+      @minor_type = self.class::MinorType
+    end
+  end
+
+  class Int8DataType < DataType
+    MinorType = org.apache.arrow.vector.types.Types::MinorType::SMALLINT
+  end
+
+  class Int32DataType < DataType
+    MinorType = org.apache.arrow.vector.types.Types::MinorType::INT
+  end
+
+  class Decimal128DataType < DataType
+    class << self
+      def max_precision
+        38
+      end
+    end
+  end
+
+  class Decimal256DataType < DataType
+    class << self
+      def max_precision
+        76
+      end
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/decimal128.rb b/ruby/red-arrow/lib/arrow/jruby/decimal128.rb
new file mode 100644
index 0000000000000..3ac14f2d9c680
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/decimal128.rb
@@ -0,0 +1,28 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class Decimal128
+    def abs
+      raise NotImplementedError
+    end
+
+    def negate
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/decimal256.rb b/ruby/red-arrow/lib/arrow/jruby/decimal256.rb
new file mode 100644
index 0000000000000..e22c9bdde3d00
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/decimal256.rb
@@ -0,0 +1,28 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class Decimal256
+    def abs
+      raise NotImplementedError
+    end
+
+    def negate
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/error.rb b/ruby/red-arrow/lib/arrow/jruby/error.rb
new file mode 100644
index 0000000000000..07892aec1ae18
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/error.rb
@@ -0,0 +1,23 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class Error < StandardError
+    class Invalid < Error
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/file-system.rb b/ruby/red-arrow/lib/arrow/jruby/file-system.rb
new file mode 100644
index 0000000000000..bd219bf037881
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/file-system.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class FileSystem
+    def open_output_stream(path)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/function.rb b/ruby/red-arrow/lib/arrow/jruby/function.rb
new file mode 100644
index 0000000000000..1aa1fb761c98d
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/function.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class Function
+    def execute(args, options=nil, context=nil)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/record-batch-iterator.rb b/ruby/red-arrow/lib/arrow/jruby/record-batch-iterator.rb
new file mode 100644
index 0000000000000..05a82f9fab290
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/record-batch-iterator.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class RecordBatchIterator
+    def to_list
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/record-batch.rb b/ruby/red-arrow/lib/arrow/jruby/record-batch.rb
new file mode 100644
index 0000000000000..28c3a375202d3
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/record-batch.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class RecordBatch
+    def n_rows
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/sort-key.rb b/ruby/red-arrow/lib/arrow/jruby/sort-key.rb
new file mode 100644
index 0000000000000..ca667c0fb9848
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/sort-key.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class SortKey
+    def target
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/sort-options.rb b/ruby/red-arrow/lib/arrow/jruby/sort-options.rb
new file mode 100644
index 0000000000000..13eaf23b7156b
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/sort-options.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class SortOptions
+    def add_sort_key(target, order=nil)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/stream-listener-raw.rb b/ruby/red-arrow/lib/arrow/jruby/stream-listener-raw.rb
new file mode 100644
index 0000000000000..2327422d8dec8
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/stream-listener-raw.rb
@@ -0,0 +1,25 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class StreamListenerRaw
+    class << self
+      def type_register
+      end
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/table.rb b/ruby/red-arrow/lib/arrow/jruby/table.rb
new file mode 100644
index 0000000000000..d829280848cae
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/table.rb
@@ -0,0 +1,40 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class Table
+    def filter(filter, options=nil)
+      raise NotImplementedError
+    end
+
+    def take(indices)
+      raise NotImplementedError
+    end
+
+    def n_rows
+      raise NotImplementedError
+    end
+
+    def slice(from, length)
+      raise NotImplementedError
+    end
+
+    def remove_column(index)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/jruby/writable.rb b/ruby/red-arrow/lib/arrow/jruby/writable.rb
new file mode 100644
index 0000000000000..e3e7d9e9172e0
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/jruby/writable.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  module Writable
+    def write(data)
+      raise NotImplementedError
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/libraries.rb b/ruby/red-arrow/lib/arrow/libraries.rb
new file mode 100644
index 0000000000000..c01e0bf60c436
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/libraries.rb
@@ -0,0 +1,126 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+require_relative "array-computable"
+require_relative "column-containable"
+require_relative "field-containable"
+require_relative "generic-filterable"
+require_relative "generic-takeable"
+require_relative "input-referable"
+require_relative "record-containable"
+require_relative "symbol-values-appendable"
+
+require_relative "aggregate-node-options"
+require_relative "aggregation"
+require_relative "array"
+require_relative "array-builder"
+require_relative "bigdecimal-extension"
+require_relative "binary-dictionary-array-builder"
+require_relative "buffer"
+require_relative "chunked-array"
+require_relative "column"
+require_relative "compression-type"
+require_relative "csv-loader"
+require_relative "csv-read-options"
+require_relative "data-type"
+require_relative "date32-array"
+require_relative "date32-array-builder"
+require_relative "date64-array"
+require_relative "date64-array-builder"
+require_relative "datum"
+require_relative "day-time-interval-array-builder"
+require_relative "decimal128"
+require_relative "decimal128-array"
+require_relative "decimal128-array-builder"
+require_relative "decimal128-data-type"
+require_relative "decimal256"
+require_relative "decimal256-array"
+require_relative "decimal256-array-builder"
+require_relative "decimal256-data-type"
+require_relative "dense-union-array"
+require_relative "dense-union-array-builder"
+require_relative "dense-union-data-type"
+require_relative "dictionary-array"
+require_relative "dictionary-data-type"
+require_relative "equal-options"
+require_relative "expression"
+require_relative "field"
+require_relative "file-output-stream"
+require_relative "file-system"
+require_relative "fixed-size-binary-array"
+require_relative "fixed-size-binary-array-builder"
+require_relative "function"
+require_relative "group"
+require_relative "half-float"
+require_relative "half-float-array"
+require_relative "half-float-array-builder"
+require_relative "list-array-builder"
+require_relative "list-data-type"
+require_relative "map-array"
+require_relative "map-array-builder"
+require_relative "map-data-type"
+require_relative "month-day-nano-interval-array-builder"
+require_relative "null-array"
+require_relative "null-array-builder"
+require_relative "path-extension"
+require_relative "record"
+require_relative "record-batch"
+require_relative "record-batch-builder"
+require_relative "record-batch-file-reader"
+require_relative "record-batch-iterator"
+require_relative "record-batch-reader"
+require_relative "record-batch-stream-reader"
+require_relative "rolling-window"
+require_relative "s3-global-options"
+require_relative "scalar"
+require_relative "schema"
+require_relative "slicer"
+require_relative "sort-key"
+require_relative "sort-options"
+require_relative "source-node-options"
+require_relative "sparse-union-array"
+require_relative "sparse-union-array-builder"
+require_relative "sparse-union-data-type"
+require_relative "string-dictionary-array-builder"
+require_relative "string-array-builder"
+require_relative "stream-decoder"
+require_relative "stream-listener"
+require_relative "struct-array"
+require_relative "struct-array-builder"
+require_relative "struct-data-type"
+require_relative "table"
+require_relative "table-concatenate-options"
+require_relative "table-formatter"
+require_relative "table-list-formatter"
+require_relative "table-table-formatter"
+require_relative "table-loader"
+require_relative "table-saver"
+require_relative "tensor"
+require_relative "time"
+require_relative "time-unit"
+require_relative "time32-array"
+require_relative "time32-array-builder"
+require_relative "time32-data-type"
+require_relative "time64-array"
+require_relative "time64-array-builder"
+require_relative "time64-data-type"
+require_relative "timestamp-array"
+require_relative "timestamp-array-builder"
+require_relative "timestamp-data-type"
+require_relative "timestamp-parser"
+require_relative "union-array-builder"
+require_relative "writable"
diff --git a/ruby/red-arrow/lib/arrow/loader.rb b/ruby/red-arrow/lib/arrow/loader.rb
index 5468b0c78cc99..b56350ddac2c9 100644
--- a/ruby/red-arrow/lib/arrow/loader.rb
+++ b/ruby/red-arrow/lib/arrow/loader.rb
@@ -15,7 +15,7 @@
 # specific language governing permissions and limitations
 # under the License.
 
-require "arrow/block-closable"
+require_relative "block-closable"
 
 module Arrow
   class Loader < GObjectIntrospection::Loader
@@ -34,115 +34,7 @@ def post_load(repository, namespace)
     end
 
     def require_libraries
-      require "arrow/array-computable"
-      require "arrow/column-containable"
-      require "arrow/field-containable"
-      require "arrow/generic-filterable"
-      require "arrow/generic-takeable"
-      require "arrow/input-referable"
-      require "arrow/record-containable"
-      require "arrow/symbol-values-appendable"
-
-      require "arrow/aggregate-node-options"
-      require "arrow/aggregation"
-      require "arrow/array"
-      require "arrow/array-builder"
-      require "arrow/bigdecimal-extension"
-      require "arrow/binary-dictionary-array-builder"
-      require "arrow/buffer"
-      require "arrow/chunked-array"
-      require "arrow/column"
-      require "arrow/compression-type"
-      require "arrow/csv-loader"
-      require "arrow/csv-read-options"
-      require "arrow/data-type"
-      require "arrow/date32-array"
-      require "arrow/date32-array-builder"
-      require "arrow/date64-array"
-      require "arrow/date64-array-builder"
-      require "arrow/datum"
-      require "arrow/day-time-interval-array-builder"
-      require "arrow/decimal128"
-      require "arrow/decimal128-array"
-      require "arrow/decimal128-array-builder"
-      require "arrow/decimal128-data-type"
-      require "arrow/decimal256"
-      require "arrow/decimal256-array"
-      require "arrow/decimal256-array-builder"
-      require "arrow/decimal256-data-type"
-      require "arrow/dense-union-array"
-      require "arrow/dense-union-array-builder"
-      require "arrow/dense-union-data-type"
-      require "arrow/dictionary-array"
-      require "arrow/dictionary-data-type"
-      require "arrow/equal-options"
-      require "arrow/expression"
-      require "arrow/field"
-      require "arrow/file-output-stream"
-      require "arrow/file-system"
-      require "arrow/fixed-size-binary-array"
-      require "arrow/fixed-size-binary-array-builder"
-      require "arrow/function"
-      require "arrow/group"
-      require "arrow/half-float"
-      require "arrow/half-float-array"
-      require "arrow/half-float-array-builder"
-      require "arrow/list-array-builder"
-      require "arrow/list-data-type"
-      require "arrow/map-array"
-      require "arrow/map-array-builder"
-      require "arrow/map-data-type"
-      require "arrow/month-day-nano-interval-array-builder"
-      require "arrow/null-array"
-      require "arrow/null-array-builder"
-      require "arrow/path-extension"
-      require "arrow/record"
-      require "arrow/record-batch"
-      require "arrow/record-batch-builder"
-      require "arrow/record-batch-file-reader"
-      require "arrow/record-batch-iterator"
-      require "arrow/record-batch-reader"
-      require "arrow/record-batch-stream-reader"
-      require "arrow/rolling-window"
-      require "arrow/s3-global-options"
-      require "arrow/scalar"
-      require "arrow/schema"
-      require "arrow/slicer"
-      require "arrow/sort-key"
-      require "arrow/sort-options"
-      require "arrow/source-node-options"
-      require "arrow/sparse-union-array"
-      require "arrow/sparse-union-array-builder"
-      require "arrow/sparse-union-data-type"
-      require "arrow/string-dictionary-array-builder"
-      require "arrow/string-array-builder"
-      require "arrow/stream-decoder"
-      require "arrow/stream-listener"
-      require "arrow/struct-array"
-      require "arrow/struct-array-builder"
-      require "arrow/struct-data-type"
-      require "arrow/table"
-      require "arrow/table-concatenate-options"
-      require "arrow/table-formatter"
-      require "arrow/table-list-formatter"
-      require "arrow/table-table-formatter"
-      require "arrow/table-loader"
-      require "arrow/table-saver"
-      require "arrow/tensor"
-      require "arrow/time"
-      require "arrow/time-unit"
-      require "arrow/time32-array"
-      require "arrow/time32-array-builder"
-      require "arrow/time32-data-type"
-      require "arrow/time64-array"
-      require "arrow/time64-array-builder"
-      require "arrow/time64-data-type"
-      require "arrow/timestamp-array"
-      require "arrow/timestamp-array-builder"
-      require "arrow/timestamp-data-type"
-      require "arrow/timestamp-parser"
-      require "arrow/union-array-builder"
-      require "arrow/writable"
+      require_relative "libraries"
     end
 
     def require_extension_library
@@ -150,7 +42,7 @@ def require_extension_library
     end
 
     def gc_guard
-      require "arrow/constructor-arguments-gc-guardable"
+      require_relative "constructor-arguments-gc-guardable"
 
       [
         @base_module::BinaryScalar,
diff --git a/ruby/red-arrow/lib/arrow/ruby.rb b/ruby/red-arrow/lib/arrow/ruby.rb
new file mode 100644
index 0000000000000..34d20fc7901a7
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/ruby.rb
@@ -0,0 +1,22 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+require "extpp/setup"
+require "gio2"
+
+require_relative "loader"
+Arrow::Loader.load
diff --git a/ruby/red-arrow/red-arrow.gemspec b/ruby/red-arrow/red-arrow.gemspec
index 67fec2e0907c1..345fd97353b63 100644
--- a/ruby/red-arrow/red-arrow.gemspec
+++ b/ruby/red-arrow/red-arrow.gemspec
@@ -20,7 +20,11 @@
 require_relative "lib/arrow/version"
 
 Gem::Specification.new do |spec|
+  is_jruby = RUBY_ENGINE == "jruby"
+
   spec.name = "red-arrow"
+  spec.platform = "java" if is_jruby
+
   version_components = [
     Arrow::Version::MAJOR.to_s,
     Arrow::Version::MINOR.to_s,
@@ -43,15 +47,20 @@ Gem::Specification.new do |spec|
   spec.files += Dir.glob("lib/**/*.rb")
   spec.files += Dir.glob("image/*.*")
   spec.files += Dir.glob("doc/text/*")
-  spec.test_files += Dir.glob("test/**/*")
-  spec.extensions = ["ext/arrow/extconf.rb"]
+  spec.extensions = ["ext/arrow/extconf.rb"] unless is_jruby
 
   spec.add_runtime_dependency("bigdecimal", ">= 3.1.0")
   spec.add_runtime_dependency("csv")
-  spec.add_runtime_dependency("extpp", ">= 0.1.1")
-  spec.add_runtime_dependency("gio2", ">= 4.2.3")
-  spec.add_runtime_dependency("native-package-installer")
-  spec.add_runtime_dependency("pkg-config")
+  if is_jruby
+    spec.add_runtime_dependency("jar-dependencies")
+    spec.requirements << "jar org.apache.arrow, arrow-vector, #{spec.version}"
+    spec.requirements << "jar org.apache.arrow, arrow-memory-netty, #{spec.version}"
+  else
+    spec.add_runtime_dependency("extpp", ">= 0.1.1")
+    spec.add_runtime_dependency("gio2", ">= 4.2.3")
+    spec.add_runtime_dependency("native-package-installer")
+    spec.add_runtime_dependency("pkg-config")
+  end
 
   required_msys2_package_version = version_components[0, 3].join(".")
   spec.metadata["msys2_mingw_dependencies"] =
diff --git a/ruby/red-arrow/test/run-test.rb b/ruby/red-arrow/test/run-test.rb
index 41ab73cb6999d..97a2fa4fb89cc 100755
--- a/ruby/red-arrow/test/run-test.rb
+++ b/ruby/red-arrow/test/run-test.rb
@@ -59,9 +59,9 @@
     end
     system("#{make} > #{File::NULL}") or exit(false)
   end
+  $LOAD_PATH.unshift(build_dir.to_s)
 end
 
-$LOAD_PATH.unshift(build_dir.to_s)
 $LOAD_PATH.unshift(lib_dir.to_s)
 
 require_relative "helper"

From 8be5f9c6b41ddd840939602016811aa9c739f0a3 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Ra=C3=BAl=20Cumplido?= <raulcumplido@gmail.com>
Date: Thu, 10 Oct 2024 12:01:08 +0200
Subject: [PATCH 38/38] GH-43846: [Python][Packaging] Remove numpy dependency
 from pyarrow packaging (#44148)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

## WIP

Creating the PR to validate if / what are the CI failures

### Rationale for this change
Once the issue has been merged:
- https://github.com/apache/arrow/issues/25118

We do not require numpy as a pyarrow dependency.

### What changes are included in this PR?

Remove numpy as a required dependency

### Are these changes tested?

Via CI

### Are there any user-facing changes?

Yes, pyarrow won't install numpy as a required dependency.
* GitHub Issue: #43846

Authored-by: Raúl Cumplido <raulcumplido@gmail.com>
Signed-off-by: Raúl Cumplido <raulcumplido@gmail.com>
---
 docs/source/python/install.rst | 5 +----
 python/pyproject.toml          | 3 ---
 2 files changed, 1 insertion(+), 7 deletions(-)

diff --git a/docs/source/python/install.rst b/docs/source/python/install.rst
index 9727a68f7424b..33355b64159f8 100644
--- a/docs/source/python/install.rst
+++ b/docs/source/python/install.rst
@@ -71,12 +71,9 @@ See :ref:`python-development`.
 Dependencies
 ------------
 
-Required dependency
-
-* **NumPy 1.16.6** or higher.
-
 Optional dependencies
 
+* **NumPy 1.16.6** or higher.
 * **pandas 1.0** or higher,
 * **cffi**.
 
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 932210044399e..8748fe4052be1 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -35,9 +35,6 @@ build-backend = "setuptools.build_meta"
 name = "pyarrow"
 dynamic = ["version"]
 requires-python = ">=3.9"
-dependencies = [
-    "numpy >= 1.16.6"
-]
 description = "Python library for Apache Arrow"
 readme = {file = "README.md", content-type = "text/markdown"}
 license = {text = "Apache Software License"}